Extras din proiect
Descrierea problemei
O societate de asigurari a realizat un studiu despre influenta unor factori asupra tipurilor de asigurari practicate de societate.
Se doreste: analiza legaturilor dintre diferitele caracteristici ale asiguratilor si felul in care unele din ele le influenteaza pe celelate.
Setul urmator de date contine informatii despre tipurile de asigurari si caracteristicile asiguratilor.
Pregatirea datelor
- Pentru prelucrarea datelor se va folosi softul Weka.
fisiere text cu formatul .arff
- Pe langa transformarea datelor in format text .arff s-au efectuat urmatoarele operatii :
s-a verificat consistenta atributelor
s-a verificarea corectitudinea scrierii
s-au codificat campurilor pentru protejarea
informatiilor confidentiale
In figura este reprezentat antetul si câteva linii de date din
fisierul .arff dupa ce au fost executate toate operatiile de
prelucrare a datelor.
Construirea modelului
Scop:
- Se va folosi metoda de clusterizare k-means.
- Modelul este construit pe un set de date de antrenare
- Modelul este validat pe setul de testare.
Weka permite testarea sau validarea modelului pe acelasi
set de date folosind procedeul numit cross-validation adica
validare incrucisata.
- Etapa 1. Antrenarea
- Folosind optiunea Explorer (fig 2) din Weka se va invoca metoda de clusterizarea k-means urmand pasii:
s-a încarcat fisierul de date asigurari.arff
s-a selectat a treia fereastra Cluster (fig 3)
s-a selectat metoda de clusterizare k-means
Fig 2: Weka Explorer in care s-a
incarcat fisierul de date
Fig 3: Algoritmi de clusterizare
implementati in Weka Explorer
- În urma rularii algoritmului k-means pe date s-au obtinut 2 clustere care au urmatorii centroizi:
Se va efectua o impartire a asiguratilor pe 2 grupe, folosind modelul de clusterizare k-means avand centroizii:
kMeans
======
Cluster centroids:
Cluster 0
- Mean/Mode: 38.3449 0 574.7239 25.4826 1 m 0 1 1 1 0 0 0
- Std Devs: 11.0598 N/A 672.5085 18.8662 N/A N/A N/A N/A N/A N/A N/A N/A N/A
Cluster 1
- Mean/Mode: 46.939 0 868.3444 36.8376 1 f 0 0 1 1 0 0 0
- Std Devs: 12.06 N/A 878.5107 24.1742 N/A N/A N/A N/A N/A N/A N/A N/A N/A
- Clustered Instances
0 3694 ( 58%)
1 2706 ( 42%)
Preview document
Conținut arhivă zip
- Varsta si masina.arff
- Proiect.ppt
- Proiect.doc
- Asigurari.arff