Data mining - interpretrea rezultatelor

Proiect
7/10 (2 voturi)
Domeniu: Statistică
Conține 1 fișier: docx
Pagini : 15 în total
Cuvinte : 2278
Mărime: 220.90KB (arhivat)
Publicat de: Ozana Bratu
Puncte necesare: 8
ACADEMIA DE STUDII ECONOMICE, BUCUREȘTI FACULTATEA DE CIBERENTICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ CSIE, ANUL I, MASTER, SPECIALIZAREA STATISTICĂ

Cuprins

  1. Introducere 2
  2. Analiza Credit Card Promotion – Life Insurance Promotion 3
  3. 1. ”Confusion Matrix” 3
  4. 2. Interpretarea rezultatelor sumare 4
  5. 3. Interpretarea rezultatelor individuale ale claselor 6
  6. 4. Vizualizarea regulilor individuale ale claselor 11
  7. Concluzii 14
  8. Bibliografie 15

Extras din proiect

Introducere

Clasificarea reprezintă o sarcină de Data Mining ce are la bază învățarea unei funcții care mapează o anumită observație într-una din mai multe clase predefinite. Scopul clasificării este de a prezice cu exactitate clasa țintă pentru fiecare caz din date. O sarcină de clasificare pornește cu un set de date în care sunt cunoscute asignările clasei. În procesul de construcție de model (de formare), un algoritm de clasificare găsește relațiile dintre valorile previzionate și valorile țintă. Diferiți algoritmi de clasificare folosesc diferite tehnici pentru găsirea relațiilor. Aceste relații sunt cuprinse într-un model, care poate fi apoi aplicat unui set de date diferit în care atribuirile de clasă sunt necunoscute. Sarcinile de clasificare sunt ” supervised learning”, variabila dependentă categorială și definirea corectă a datelor.

Analiza Credit Card Promotion – Life Insurance Promotion

O companie dorește să inițieze o campanie de promovare a asigurărilor de viață. Materialul de promovare este transmis cu factura de card de credit către toți clienții cu balanța negativă a cardului. În ceea ce privește clienții cu balanța zero a cardului, tehnicile de Data Mining cu învățare supervizată utilizează promovarea asigurărilor de viață ca variabilă de output pentru a diferenția clasa clienților care ar lua în considerare oferta de clasa celor care nu ar lua în considerare oferta.

Fișierul output folosit pentru analiza datelor conține informații despre Credit Card Promotion, cu șapte atribute de tip input care vor fi analizate în cadrul metodei de clasificare. Au fost create mai multe foi de lucru de ieșire pe baza datelor de intrare. Acestea vor fi folosite pentru interpretarea și analiza variabilei de ieșire reprezentată de clasele generate și anume ”Class Yes” și ”Class No”.

După generarea rezultatelor de iDa Excel s-au obținut șase foi de calcul Excel care stau la baza interpretărilor din acest proiect.

1. ”Confusion Matrix”

Această matrice este folosită pentru a rezuma rezultatele unei clasificări supervizate. Valorile de pe diagonala principală sunt clasificări corecte, valorile altele decât cele de pe diagonala principală reprezintă erori de clasificare.

Tab.1 a) Confusion Matrix

Din ”Confusion Matrix” (Tab.1 a) se poate observa că trei din cele cinci instanțe au fost clasificate în mod corect (60%). În același timp două persoane au fost clasificate ca nefiind interesate de promoția ”Life Insurance” deși în realitate acestea au prezentat interes.

Acest lucru se poate observa și în tabelul de mai jos (Tab. 1 b), unde liniile marcate cu ”*” reprezintă instanțele care au fost clasificate în mod corect. În acest tabel este reprezentată performanța modelului setului de date unde fiecare instanță este testată alături de clasa din care face parte.

Tab.1 b)

Bibliografie

1. Data Mining – Lecture, Adrian Costea;

2. Seminarii, Adrian Costea.

Preview document

Data mining - interpretrea rezultatelor - Pagina 1
Data mining - interpretrea rezultatelor - Pagina 2
Data mining - interpretrea rezultatelor - Pagina 3
Data mining - interpretrea rezultatelor - Pagina 4
Data mining - interpretrea rezultatelor - Pagina 5
Data mining - interpretrea rezultatelor - Pagina 6
Data mining - interpretrea rezultatelor - Pagina 7
Data mining - interpretrea rezultatelor - Pagina 8
Data mining - interpretrea rezultatelor - Pagina 9
Data mining - interpretrea rezultatelor - Pagina 10
Data mining - interpretrea rezultatelor - Pagina 11
Data mining - interpretrea rezultatelor - Pagina 12
Data mining - interpretrea rezultatelor - Pagina 13
Data mining - interpretrea rezultatelor - Pagina 14
Data mining - interpretrea rezultatelor - Pagina 15

Conținut arhivă zip

  • Data mining - interpretrea rezultatelor.docx

Alții au mai descărcat și

Analiza statistică a seriilor cronologice

DEFINITIE: SERIA CRONOLOGICA este un sir ordonat de valori ale unei variabile aferente unor momente sau perioade de timp succesive. Exista...

Cercetare Asupra Vopselei Lavabile Superweiss

Düfa ROMÂNIA SRL este una dintre cele mai dinamice companii ce opereaza pe piata de lacuri si vopsele din România. Compania a fost fondata în anul...

Program de Reabilitare

Spitalul de Boli Infectioase „Sf.Cuvioasa Parascheva „ este situat in partea de nord a orasului Galati pe strada Traian nr.393 ,în cartierul numit...

Centralizarea și Analiza Datelor

Q1+Q2. La aceste intrebari filtru, nici unul dintre cei 1000 de respondenti nu a fost eliminat Valoarea modala (Mo – cea mai mare frecventa de...

Statistică Economică

Obiectul principal în evolutia repartitiei bidimensionale îl reprezinta determinarea legaturii statistice dintre aceste doua variabile. În orice...

Ai nevoie de altceva?