Extragerea cunoștințelor din baze de date - Weka

Proiect
9/10 (2 voturi)
Conține 1 fișier: docx
Pagini : 23 în total
Cuvinte : 2820
Mărime: 1.23MB (arhivat)
Publicat de: Nicoleta Matei
Puncte necesare: 8
Facultatea de Automatica si Calculatoare

Cuprins

  1. 1. Introducere 3
  2. 2. Descrierea formatului ARFF 5
  3. 3. Descrierea formatului XRFF 6
  4. 4. Studiu de Caz 8
  5. 1. The Weather Problem (Problema vremii) 8
  6. a) Clasificare: 10
  7. b) Clusterizare 13
  8. c) Reguli de Asociere 14
  9. d) Selectarea atributelor 15
  10. e) Vizualizarea datelor 15
  11. 2. Studiu de caz pentru imagini 16
  12. a) Clasificarea 17
  13. b) Clusterizare 20
  14. c) Selectarea atributelor relevante 21
  15. d) Vizualizarea 22
  16. 5. Concluzie 23
  17. 6. Bibliografie 23

Extras din proiect

1. Introducere

Weka este o colectie de algoritmi de invatare pentru data mining. Algoritmii pot fi aplicati fie direct pe un set de date sau folositi chiar din codul Java. Weka contine instrumente pentru preprocesarea datelor, clasificare, regresie, reguli de asociere si pentru vizualizare. De asemenea, este potrivit pentru dezvoltarea de noi scheme de invatare. Este utilizat in cercetare, educatie si in cadrul aplicatiilor. Aplicatia insumeaza un set vast de instrumente de preprocesare a datelor, algoritmi de invatare si metode de evaluare, interfete grafice utilizator (incluzand vizualizarea datelor) si un mediu pentru compararea algoritmilor de invatare.

“WEKA” provine de la Mediul Waikato pentru Analiza Cunostintelor (Waikato Environment for Knowledge Analysis), este un soft gratuit pus la dispozitie de catedra de specialitate a Universitatii Waikato din Hamilton, Noua Zeelanda. Weka este extensibil si a devenit o colectie de algoritmi pentru invatare in scopul rezolvarii problemelor de data mining din lumea reala. Este usor de folosit si usor de aplicat pe mai multe nivele diferite. Libraria Weka poate fi accesata de propriul program Java, si poate implementa noi algoritmi pentru invatare. Exista trei scheme majore implementate in WEKA: Scheme implementate pentru clasificare, Scheme implementate pentru previziunea numerica si Meta-scheme implementate.

In afara schemelor actuale de invatare, WEKA contine, de asemenea, o varietate mare de instrumente care pot fi folosite pentru preprocesarea seturilor de date, astfel incat este posibila concentrarea pe propriul algoritm fara a se tine cont de detalii precum citirea datelor din fisier, implementarea algoritmilor de filtrare si oferirea de cod sursa pentru evaluarea rezultatelor.

Mediul de programare WEKA permite aplicarea tehnicilor de invatare automata asupra problemelor practice si integreaza diverse unelte pentru invatarea automata ce pot fi utilizate intr-un mediu de lucru uzual, caracterizat de o interfata omogena. Utilizatorii pot folosi gama larga de tehnici de invatare automata pentru extragerea unor informatii utile din baze de date foarte mari. Trebuie precizat faptul ca WEKA poate fi utilizat in orice domeniu de interes, avand astfel un avantaj major asupra celorlalte aplicatii de data mining, mai ales asupra celor comerciale care sunt destinate unui singur domeniu de activitate.

WEKA contine unelte pentru preprocesarea datelor, iar pentru clasificarea acestora se utilizeaza arbori de decizie, regresie, clusterizare, reguli de asociere si vizualizare. Aplicatia este dezvoltata in Java, iar codul sursa este deschis, eliberat sub licenta GNU General Public License. Acesta este un mare avantaj al sistemului WEKA spre deosebire de alte aplicatii, deoarece permite modificarea sistemului de catre utilizatori in modul in care acestia au nevoie de el, eventual cu dezvoltarea de noi tehnici de invatare automatasi implementarea de algoritmi proprii. De asemenea, la fel de important este faptul ca sistemul poate fi utilizat pe mai multe platforme: Unix, Linux si Microsoft Windows.Ultima versiune pusa la dispozitia utilizatorilor este WEKA 3.6 si poate fi instalata atat pe platforma Windows cat si pe alte platforme: Linux, Unix, MacOS X etc..In afara de versiunea stabila, se mai pune la dispozitie si o versiune pentru programatori, ce nu este inca stabila si careia i se aduc imbunatatiri. Pentru a rula WEKA trebuie sa existe instalata pe sistem masina virtuala Java 1.5 sau o versiune mai noua a acesteia. O versiune anterioara a WEKA este WEKA 3.0, ce se bazeaza pe lucrul in linie de comanda.

La lansarea WEKA apare fereastra „GUI Chooser” care permite utilizatorilor sa opteze pentru lucrul in linie de comanda („CLI”) sau pentru deschiderea lucrului in interfata grafica („Explorer”). WEKA Explorer pune la dispozitie in interfata grafica pachetele sistemului, si anume:

• Preprocessing, in cadrul caruia se pot deschide seturile de date atat sub forma fisierelor ARFF cat si dintr-o baza de date anume; de asemenea, se poate realiza o filtrare nesupravegheata a datelor cu unul din filtrele puse la dispozitie;

• Classify, ce permite alegerea si rularea oricarui algoritm de clasificare din cele 6 categorii de algoritmi definite;

• Cluster, in cadrul caruia se poate alege si rula metoda de clusterizare a datelor;

• Associate, ce permite setarea unei reguli de asociere a datelor si aplicarea acesteia;

• Select Attributes este un alt pachet WEKA si permite configurarea si aplicarea oricarei combinatii de atribute din cele ce definesc setul de date pentru a depista care sunt cele mai relevante atribute din set;

• Visualize permite vizualizarea setului curent de date in una sau doua dimensiuni, iar daca atributele au valori continue este utilizat un spectru de nuante ale aceleiasi culori pentru reprezentarea valorilor, pe cand pentru atribute discrete fiecare valoare este reprezentata cu alta culoare.

Suplimentar acestor pachete de instrumente pentru lucrul cu seturi de date, WEKA contine si un clasificator pe baza de arbori de decizie WEKA CLASSIFIERS TREES USERCLASSIFIER si o interfata grafica pentru realizarea de retele neuronale WEKA CLASSIFIERS FUNCTIONS NEURAL NEURALNETWORK. Setul de date utilizat in mediul de programare WEKA trebuie sa fie in format ARFF pentru a putea fi prelucrat. Datele provin de cele mai multe ori dintr-o tabela Excel sau dintr-o baza de date si trebuiesc convertite in formatul ARFF, cel mai larg raspandit pentru baze de date in fisiere text. Folosirea acestui format in paralel cu suportul direct pentru baze de date este un alt avantaj al WEKA.

Pe langa aceste elemente favorabile ce caracterizeaza sistemul WEKA, exista si cateva dezavantaje, si anume faptul ca necesita invatarea utilizarii interfetei, intelegerea algoritmilor si a modului de interpretare a rezultatelor numerice si grafice. In plus, WEKA foloseste termeni statistici in loc sa foloseasca termeni corespunzatori datelor de intrare (de exemplu, din aplicatiile economice) asa cum fac alte produse software specializate pe mediul de afaceri si mult mai intuitive pentru un manager sau economist.

2. Descrierea formatului ARFF

Formatul arff - Attribute-Relation File Format a fost dezvoltat in cadrul proiectului Machine Learning de catre departamentul Computer Science al Universitatii Waikato pentru a fi utilizat de catre aplicatia Weka. Fisierul ARFF este un fisier ASCII care descrie un set de atribute.

Fisierele ARFF sunt impartite in doua sectiuni. Prima parte Antetul, urmata de partea cu informatii despre date (Data informations). Antetul contine numele relatiilor, o lista cu atributele si tipurile lor. Un exemplu de antet, al clasicului set de date IRIS:

% 1. Title: Iris Plants Database

%

% 2. Sources:

% (a) Creator: R.A. Fisher

% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

% (c) Date: July, 1988

%

@RELATION iris

@ATTRIBUTE sepallength NUMERIC

@ATTRIBUTE sepalwidth NUMERIC

@ATTRIBUTE petallength NUMERIC

@ATTRIBUTE petalwidth NUMERIC

@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

Exemplu - partea cu informatiile despre date:

@DATA

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

5.0,3.6,1.4,0.2,Iris-setosa

5.4,3.9,1.7,0.4,Iris-setosa

4.6,3.4,1.4,0.3,Iris-setosa

5.0,3.4,1.5,0.2,Iris-setosa

4.4,2.9,1.4,0.2,Iris-setosa

4.9,3.1,1.5,0.1,Iris-setosa

O descriere scurta a formatului arff este:

- Un set de date trebuie sa inceapa cu declaratia numelui:

@relation name

- Acesta este urmat de o lista cu toate atributele de date (inclusiv predictat atribut). Aceste declaratii au forma:

@attribute attribute_name specification.

Preview document

Extragerea cunoștințelor din baze de date - Weka - Pagina 1
Extragerea cunoștințelor din baze de date - Weka - Pagina 2
Extragerea cunoștințelor din baze de date - Weka - Pagina 3
Extragerea cunoștințelor din baze de date - Weka - Pagina 4
Extragerea cunoștințelor din baze de date - Weka - Pagina 5
Extragerea cunoștințelor din baze de date - Weka - Pagina 6
Extragerea cunoștințelor din baze de date - Weka - Pagina 7
Extragerea cunoștințelor din baze de date - Weka - Pagina 8
Extragerea cunoștințelor din baze de date - Weka - Pagina 9
Extragerea cunoștințelor din baze de date - Weka - Pagina 10
Extragerea cunoștințelor din baze de date - Weka - Pagina 11
Extragerea cunoștințelor din baze de date - Weka - Pagina 12
Extragerea cunoștințelor din baze de date - Weka - Pagina 13
Extragerea cunoștințelor din baze de date - Weka - Pagina 14
Extragerea cunoștințelor din baze de date - Weka - Pagina 15
Extragerea cunoștințelor din baze de date - Weka - Pagina 16
Extragerea cunoștințelor din baze de date - Weka - Pagina 17
Extragerea cunoștințelor din baze de date - Weka - Pagina 18
Extragerea cunoștințelor din baze de date - Weka - Pagina 19
Extragerea cunoștințelor din baze de date - Weka - Pagina 20
Extragerea cunoștințelor din baze de date - Weka - Pagina 21
Extragerea cunoștințelor din baze de date - Weka - Pagina 22
Extragerea cunoștințelor din baze de date - Weka - Pagina 23

Conținut arhivă zip

  • Extragerea Cunostintelor din Baze de Date - Weka.docx

Alții au mai descărcat și

Analiza date - business intelligence, olap, data mining

Introducere Statistica reprezintă un element indispensabil al sistemului informaţional şi ocupă un loc deosebit în asigurarea cu informaţie...

Hackeri

Hackerii sunt pasionati ai informaticii, care, de obicei au ca scop „spargerea” anumitor coduri, baze de date, pagini web etc. Ei sunt considerati...

Baze de Date

3.Introducere in bd si sgbd-uri Definitie: Numim baza de date o colectie partajata de date aflata in interdependenta logica impreuna cu o...

Weka. Gate. Jcolibri

Scopul si sarcina lucrarii - Se indeplineste mersul lucrarii utilizând aplicaţia Weka din paginile 2-18. Se raspunde la întrebările care sunt...

Te-ar putea interesa și

Sotware pentru Achiziția Semnalului Vocal Provenit din Plânsul nou-născuților

Capitolul 1. Introducere 1.1 Contextul actual Domeniul medical a reprezentat dintotdeauna o ramură de foarte mare interes prin simplul fapt că...

Data mining

Introducere Numarul utilizatorilor de Internet creste in fiecare zi semnificativ, aceasta insemnand faptul ca o buna parte din populatia globului...

Ai nevoie de altceva?