Cuprins
- Descrierea datelor: 3
- 1. Evaluarea distanțelor între indicatori 3
- a. Matricea distanțelor 3
- b. Cum a fost calculată distanța eculidiană dintre primele 2 obiecte? 3
- 2. Metode ierarhice 4
- 2.1. Metoda Ward 4
- 2.2. Alte metode de clusterizare ierarhică 8
- 2.2.1. Metoda agregarii simple 8
- 2.2.2. Metoda agregarii complete 9
- 2.2.3. Metoda agregarii medii 9
- 2.2.4. Metoda centroidului 10
- 3. Algoritmul K-mens. Compararea soluțiilor de clusterizare 10
- 3.1. Soluția obtinută 10
- 3.2. Evaluarea variabilitatii intraclasa si interclase 11
- 3.3. Evaluarea de discriminare a variabilelor 11
- 3.4. Compararea solutiilor de clusterizare 12
- 4. Recunoașterea supervizată a formelor 13
- 5. KNN 17
- ANEXE- Cod R 18
Extras din proiect
Descrierea datelor:
Detalii despre setul de date: 13 variabile, 101 de observații inițial, 69 de observații după
eliminarea outlyer-elor. Anul pentru care s-au analizat datele: 2019;
Sursa datelor: https://www.topfirme.com/caen/4773/cifra-de-afaceri/?pagina=3
Obiect de activitate al companiilor: comerțul cu amănuntul, în magazine specializare, al
produselor farmaceutice și medicale, al produselor ortopedice, produse cosmetice și de parfumerie.
1. Evaluarea distanțelor între indicatori
a. Matricea distanțelor
b. Cum a fost calculată distanța eculidiană dintre primele 2 obiecte?
Observăm că distanța euclidiană dintre primii 2 indicatori este de 10,37492 și are aceiași valoare ca cea din matricea distanțelor .
2. Metode ierarhice
2.1. Metoda Ward
a. Etapa clusterizării
Vedem etichetele de la fiecare etapa de clusterizare , cu
- (minus) avem observațiile, cu + (plus) avem clusterele deja formate, coloana 3 e distantța de agregare.
La etapa 1 de clasificare compania 55 cu 56 au format un cluster la distanta de agregare (comasare) 0.000.
La etapa 2 de clasificare compania 87 cu 96 au format un cluster la distanta de agregare (comasare) 0.058.
La etapa 9 de clasificare compania 82 s-a adaugat la clusterul 5 deja format la distanța de agregare 0.0986.
Observație: Distanțele de agregare sunt crescătoare de la o etapă de clusterizare la alta pt ca avem metoda ierarhică ascendentă.
Preview document
Conținut arhivă zip
- Analiza cluster.docx