Extras din proiect
Definitii-
Cluster: o colectie de obiecte
Similare intre ele
Nesimilare obiectelor din alte clustere
Analiza cluster:
Gruparea unei multimi de obiecte in clustere
Se bazeaza pe instruire nesupervizata (nu exista
clase predefinite)
Valorificare:
Metoda autonoma pentru caracterizare date
Etapa de preprocesare pentru alte prelucrari
Când utilizăm această metodă?
Avem un set de date şi vrem să ştim cum anume se grupează cazurile sau variabilele
de ex. vrem sa ştim cum anume se grupează oraşele Romaniei în funcţie de cateva variabile demografice (mortalitate infantilă, natalitate, speranţa de viată la naştere)
de ex. vrem să ştim ce variabile demografice au valori asemănătoare pentru cazurile cu care lucrăm
Specificul acestei metode
Dorim să detectăm clasele “NATURALE” în care itemii sau variabilele se plasează nu să creem noi o ordine în structura datelor
Clasele nu sunt date din punct de vedere statistic, precum se întâmplă în alte metode (de ex. analiza discriminantă), ci trebuie descoperite
Tipuri de analiză cluster
Metode non-ierarhice
cea mai cunoscută metoda de acest fel este k-means (metoda celor k-medii): se porneşte de la k valori (de obicei aleatoare) şi în functie de ele se construiesc clusterele
Metode ierarhice
aglomerative: se porneşte de la n clase (câte cazuri avem) şi se ajunge la o clasă care le cuprinde pe toate celălate anterioare ei
divizive: se porneşte de la o clasă şi se ajunge la n clase (câte cazuri avem) cuprinse în clasa de pornire
Algoritm ierarhic aglomerativ
Algoritm ierarhic aglomerativ
1. Calcularea distanţelor între itemi
2. Selectarea perechii de itemi care este cea mai apropiată şi unirea acelei perechii într-o clasă
3. Recalcularea distantelor faţă de celelte clase, itemi
4. Se reia punctul (2.) până când se obţine o singură clasă (cluster)
Calcularea distantelor- partea I
Calcularea distanţelor între itemi se poate face în mai multe moduri:
Euclidienă ( (xi-yi)2)1/2
Calcularea distantelor - partea II
Când calculăm distanţe între variabile folosim în general:
Corelaţia Pearson
Corelaţia între vectori
Nota: aceste distanţe se pot folosi si pentru gruparea cazurilor
Calcularea distantelor - un exemplu partea III
Conținut arhivă zip
- Analiza Cluster - Gruparea Cazurilor sau a Variabilelor.ppt