Cuprins
- 1. Introducere 3
- 2. Descrierea formatului ARFF 5
- 3. Descrierea formatului XRFF 6
- 4. Studiu de Caz 8
- 1. The Weather Problem (Problema vremii) 8
- a) Clasificare: 10
- b) Clusterizare 13
- c) Reguli de Asociere 14
- d) Selectarea atributelor 15
- e) Vizualizarea datelor 15
- 2. Studiu de caz pentru imagini 16
- a) Clasificarea 17
- b) Clusterizare 20
- c) Selectarea atributelor relevante 21
- d) Vizualizarea 22
- 5. Concluzie 23
- 6. Bibliografie 23
Extras din proiect
1. Introducere
Weka este o colectie de algoritmi de invatare pentru data mining. Algoritmii pot fi aplicati fie direct pe un set de date sau folositi chiar din codul Java. Weka contine instrumente pentru preprocesarea datelor, clasificare, regresie, reguli de asociere si pentru vizualizare. De asemenea, este potrivit pentru dezvoltarea de noi scheme de invatare. Este utilizat in cercetare, educatie si in cadrul aplicatiilor. Aplicatia insumeaza un set vast de instrumente de preprocesare a datelor, algoritmi de invatare si metode de evaluare, interfete grafice utilizator (incluzand vizualizarea datelor) si un mediu pentru compararea algoritmilor de invatare.
“WEKA” provine de la Mediul Waikato pentru Analiza Cunostintelor (Waikato Environment for Knowledge Analysis), este un soft gratuit pus la dispozitie de catedra de specialitate a Universitatii Waikato din Hamilton, Noua Zeelanda. Weka este extensibil si a devenit o colectie de algoritmi pentru invatare in scopul rezolvarii problemelor de data mining din lumea reala. Este usor de folosit si usor de aplicat pe mai multe nivele diferite. Libraria Weka poate fi accesata de propriul program Java, si poate implementa noi algoritmi pentru invatare. Exista trei scheme majore implementate in WEKA: Scheme implementate pentru clasificare, Scheme implementate pentru previziunea numerica si Meta-scheme implementate.
In afara schemelor actuale de invatare, WEKA contine, de asemenea, o varietate mare de instrumente care pot fi folosite pentru preprocesarea seturilor de date, astfel incat este posibila concentrarea pe propriul algoritm fara a se tine cont de detalii precum citirea datelor din fisier, implementarea algoritmilor de filtrare si oferirea de cod sursa pentru evaluarea rezultatelor.
Mediul de programare WEKA permite aplicarea tehnicilor de invatare automata asupra problemelor practice si integreaza diverse unelte pentru invatarea automata ce pot fi utilizate intr-un mediu de lucru uzual, caracterizat de o interfata omogena. Utilizatorii pot folosi gama larga de tehnici de invatare automata pentru extragerea unor informatii utile din baze de date foarte mari. Trebuie precizat faptul ca WEKA poate fi utilizat in orice domeniu de interes, avand astfel un avantaj major asupra celorlalte aplicatii de data mining, mai ales asupra celor comerciale care sunt destinate unui singur domeniu de activitate.
WEKA contine unelte pentru preprocesarea datelor, iar pentru clasificarea acestora se utilizeaza arbori de decizie, regresie, clusterizare, reguli de asociere si vizualizare. Aplicatia este dezvoltata in Java, iar codul sursa este deschis, eliberat sub licenta GNU General Public License. Acesta este un mare avantaj al sistemului WEKA spre deosebire de alte aplicatii, deoarece permite modificarea sistemului de catre utilizatori in modul in care acestia au nevoie de el, eventual cu dezvoltarea de noi tehnici de invatare automatasi implementarea de algoritmi proprii. De asemenea, la fel de important este faptul ca sistemul poate fi utilizat pe mai multe platforme: Unix, Linux si Microsoft Windows.Ultima versiune pusa la dispozitia utilizatorilor este WEKA 3.6 si poate fi instalata atat pe platforma Windows cat si pe alte platforme: Linux, Unix, MacOS X etc..In afara de versiunea stabila, se mai pune la dispozitie si o versiune pentru programatori, ce nu este inca stabila si careia i se aduc imbunatatiri. Pentru a rula WEKA trebuie sa existe instalata pe sistem masina virtuala Java 1.5 sau o versiune mai noua a acesteia. O versiune anterioara a WEKA este WEKA 3.0, ce se bazeaza pe lucrul in linie de comanda.
La lansarea WEKA apare fereastra „GUI Chooser” care permite utilizatorilor sa opteze pentru lucrul in linie de comanda („CLI”) sau pentru deschiderea lucrului in interfata grafica („Explorer”). WEKA Explorer pune la dispozitie in interfata grafica pachetele sistemului, si anume:
• Preprocessing, in cadrul caruia se pot deschide seturile de date atat sub forma fisierelor ARFF cat si dintr-o baza de date anume; de asemenea, se poate realiza o filtrare nesupravegheata a datelor cu unul din filtrele puse la dispozitie;
• Classify, ce permite alegerea si rularea oricarui algoritm de clasificare din cele 6 categorii de algoritmi definite;
• Cluster, in cadrul caruia se poate alege si rula metoda de clusterizare a datelor;
• Associate, ce permite setarea unei reguli de asociere a datelor si aplicarea acesteia;
• Select Attributes este un alt pachet WEKA si permite configurarea si aplicarea oricarei combinatii de atribute din cele ce definesc setul de date pentru a depista care sunt cele mai relevante atribute din set;
• Visualize permite vizualizarea setului curent de date in una sau doua dimensiuni, iar daca atributele au valori continue este utilizat un spectru de nuante ale aceleiasi culori pentru reprezentarea valorilor, pe cand pentru atribute discrete fiecare valoare este reprezentata cu alta culoare.
Suplimentar acestor pachete de instrumente pentru lucrul cu seturi de date, WEKA contine si un clasificator pe baza de arbori de decizie WEKA CLASSIFIERS TREES USERCLASSIFIER si o interfata grafica pentru realizarea de retele neuronale WEKA CLASSIFIERS FUNCTIONS NEURAL NEURALNETWORK. Setul de date utilizat in mediul de programare WEKA trebuie sa fie in format ARFF pentru a putea fi prelucrat. Datele provin de cele mai multe ori dintr-o tabela Excel sau dintr-o baza de date si trebuiesc convertite in formatul ARFF, cel mai larg raspandit pentru baze de date in fisiere text. Folosirea acestui format in paralel cu suportul direct pentru baze de date este un alt avantaj al WEKA.
Pe langa aceste elemente favorabile ce caracterizeaza sistemul WEKA, exista si cateva dezavantaje, si anume faptul ca necesita invatarea utilizarii interfetei, intelegerea algoritmilor si a modului de interpretare a rezultatelor numerice si grafice. In plus, WEKA foloseste termeni statistici in loc sa foloseasca termeni corespunzatori datelor de intrare (de exemplu, din aplicatiile economice) asa cum fac alte produse software specializate pe mediul de afaceri si mult mai intuitive pentru un manager sau economist.
2. Descrierea formatului ARFF
Formatul arff - Attribute-Relation File Format a fost dezvoltat in cadrul proiectului Machine Learning de catre departamentul Computer Science al Universitatii Waikato pentru a fi utilizat de catre aplicatia Weka. Fisierul ARFF este un fisier ASCII care descrie un set de atribute.
Fisierele ARFF sunt impartite in doua sectiuni. Prima parte Antetul, urmata de partea cu informatii despre date (Data informations). Antetul contine numele relatiilor, o lista cu atributele si tipurile lor. Un exemplu de antet, al clasicului set de date IRIS:
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
Exemplu - partea cu informatiile despre date:
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
O descriere scurta a formatului arff este:
- Un set de date trebuie sa inceapa cu declaratia numelui:
@relation name
- Acesta este urmat de o lista cu toate atributele de date (inclusiv predictat atribut). Aceste declaratii au forma:
@attribute attribute_name specification.
Preview document
Conținut arhivă zip
- Extragerea Cunostintelor din Baze de Date - Weka.docx