Data mining - interpretrea rezultatelor

Imagine preview
(7/10)

Acest proiect trateaza Data mining - interpretrea rezultatelor.
Mai jos poate fi vizualizat cuprinsul si un extras din document (aprox. 2 pagini).

Arhiva contine 1 fisier docx de 15 pagini .

Iti recomandam sa te uiti bine pe extras, cuprins si pe imaginile oferite iar daca este ceea ce-ti trebuie pentru documentarea ta, il poti descarca. Ai nevoie de doar 4 puncte.

Domeniu: Statistica

Cuprins

Introducere 2
Analiza Credit Card Promotion – Life Insurance Promotion 3
1. ”Confusion Matrix” 3
2. Interpretarea rezultatelor sumare 4
3. Interpretarea rezultatelor individuale ale claselor 6
4. Vizualizarea regulilor individuale ale claselor 11
Concluzii 14
Bibliografie 15

Extras din document

Introducere

Clasificarea reprezintă o sarcină de Data Mining ce are la bază învățarea unei funcții care mapează o anumită observație într-una din mai multe clase predefinite. Scopul clasificării este de a prezice cu exactitate clasa țintă pentru fiecare caz din date. O sarcină de clasificare pornește cu un set de date în care sunt cunoscute asignările clasei. În procesul de construcție de model (de formare), un algoritm de clasificare găsește relațiile dintre valorile previzionate și valorile țintă. Diferiți algoritmi de clasificare folosesc diferite tehnici pentru găsirea relațiilor. Aceste relații sunt cuprinse într-un model, care poate fi apoi aplicat unui set de date diferit în care atribuirile de clasă sunt necunoscute. Sarcinile de clasificare sunt ” supervised learning”, variabila dependentă categorială și definirea corectă a datelor.

Analiza Credit Card Promotion – Life Insurance Promotion

O companie dorește să inițieze o campanie de promovare a asigurărilor de viață. Materialul de promovare este transmis cu factura de card de credit către toți clienții cu balanța negativă a cardului. În ceea ce privește clienții cu balanța zero a cardului, tehnicile de Data Mining cu învățare supervizată utilizează promovarea asigurărilor de viață ca variabilă de output pentru a diferenția clasa clienților care ar lua în considerare oferta de clasa celor care nu ar lua în considerare oferta.

Fișierul output folosit pentru analiza datelor conține informații despre Credit Card Promotion, cu șapte atribute de tip input care vor fi analizate în cadrul metodei de clasificare. Au fost create mai multe foi de lucru de ieșire pe baza datelor de intrare. Acestea vor fi folosite pentru interpretarea și analiza variabilei de ieșire reprezentată de clasele generate și anume ”Class Yes” și ”Class No”.

După generarea rezultatelor de iDa Excel s-au obținut șase foi de calcul Excel care stau la baza interpretărilor din acest proiect.

1. ”Confusion Matrix”

Această matrice este folosită pentru a rezuma rezultatele unei clasificări supervizate. Valorile de pe diagonala principală sunt clasificări corecte, valorile altele decât cele de pe diagonala principală reprezintă erori de clasificare.

Tab.1 a) Confusion Matrix

Din ”Confusion Matrix” (Tab.1 a) se poate observa că trei din cele cinci instanțe au fost clasificate în mod corect (60%). În același timp două persoane au fost clasificate ca nefiind interesate de promoția ”Life Insurance” deși în realitate acestea au prezentat interes.

Acest lucru se poate observa și în tabelul de mai jos (Tab. 1 b), unde liniile marcate cu ”*” reprezintă instanțele care au fost clasificate în mod corect. În acest tabel este reprezentată performanța modelului setului de date unde fiecare instanță este testată alături de clasa din care face parte.

Tab.1 b)

Fisiere in arhiva (1):

  • Data mining - interpretrea rezultatelor.docx

Bibliografie

Introducere 2
Analiza Credit Card Promotion – Life Insurance Promotion 3
1. ”Confusion Matrix” 3
2. Interpretarea rezultatelor sumare 4
3. Interpretarea rezultatelor individuale ale claselor 6
4. Vizualizarea regulilor individuale ale claselor 11
Concluzii 14
Bibliografie 15

Alte informatii

ACADEMIA DE STUDII ECONOMICE, BUCUREȘTI FACULTATEA DE CIBERENTICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ CSIE, ANUL I, MASTER, SPECIALIZAREA STATISTICĂ