Identificarea Sabloanelor Frecvente

Proiect
8/10 (2 voturi)
Domeniu: Automatică
Conține 1 fișier: doc
Pagini : 114 în total
Cuvinte : 21705
Mărime: 359.33KB (arhivat)
Cost: 6 puncte
Profesor îndrumător / Prezentat Profesorului: prof. dr. ing. Stefan TRAUSAN-MATU
Universitatea POLITEHNICA Bucuresti Facultatea de Automatica si Calculatoare

Cuprins

1. Introducere in data mining 2

2. Despre identificarea sabloanelor frecvente 7

3. Descriere problemei 11

4. Baze de date ce contin tranzactii 14

5. Spatiul de cautare 16

6. Structuri de date 18

6.1 Hash-tree 18

6.2 Trie 19

7. Algoritmul Apriori 21

7.1 Itemset Mining 21

7.2 Identificarea regulilor de asociere 23

7.3 Optimizari 25

7.3.1 AprioriTid, AprioriHybrid 25

7.3.2 DHP 26

8. Algoritmul DIC (Dynamic Intemset Counting) 28

9. O comparatie intre algoritmii Eclat si FP-growth 34

9.1 Definirea problemei 34

9.2 Eclat vs. FP-growth 36

9.3 Eclat 37

9.4 FP-growth 38

9.5 Medic 42

10. Implementarea algoritmului Apriori 44

11. Implementarea algoritmului DIC 51

12. Implementarea algoritmului Eclat 56

13. Rularea aplicatiei 58

14. Fisier cu rezultate 59

15. Aspecte experimentale 62

16. Bibliografie 65

Anexa A – Surse 66

Extras din document

Data mining poate produce rezultate remarcabile pentru aproape orice organizatie care colecteaza date de la proprii clienti, de la piete comerciale sau produse . Descoperind tipare ascunse si relatii intre date, data mining permite utilizatorilor sa obtina rezultate excelente din datele colectate in baze de date mari .

Pentru a descoperi sabloane ascunse in date, trebuie sa construim un model constand in variabile independente(ex: venit, casatorit/necasatorit) care pot fi folosite pentru a determina variabile dependente(ex: riscul creditului). A construi un model data mining inseamna a identifica variabile independente relevante si minimiza erorile predictive. Pentru a identifica un model care are cea mai mica eroare si care este cel mai bun predictor ar putea solicita construirea a sute de modele pentru a alege pe cel mai bun.

Din fericire, am atins un prag al dezvoltarii computationale, ca capacitatii de inmagazinare a informatiei si datelor si costuri care ne permit sa adunam si sa analizam cantitati insemnate de date.Cat timp probleme de date mining apar la birou sau la un simpla legatura client-server, multe probleme cer un produs data mining scalabil

Literal, scalabilitate inseamna ca un sistem cat creste, performanta se imbunatateste corespunzator. Pentru data mining , scalabilitatea inseamna ca folosind avantajul de a lucra in paralel unui sistem care manageriaza o baza de date si procesoarele aditionale, poti rezolva o clasa mare de probleme fara a fi nevoit sa schimbi mediul de jos de data mining. Se poate lucra cu mai multe date, construi mai multe modele si se poate imbunatati acuratetea lor prin simpla adaugare de procesoare aditionale. Ideal ar fi ca scalabilitatea sa fie liniara sau mai buna. De exemplu, daca se dubleaza numarul de procesoare intr-un sistem paralel , poti construi de 2 ori mai multe modele in acelasi timp sau acelasi numar de modele intr-un timp redus la jumatate. Data mining este un instrument si nu un magician. Nu va sta in baza de date sa vada ce se intampla si te va atentiona cand vede un tipar interesant. Nu elimina necesitatea de a-ti cunoaste afacerea, de a intelege datele sau metodele analitice. Data mining ajuta analistii prin indentificarea unor tipare si relatii intre date, dar nu iti spune valoarea tiparelor pentru organizatie. Pe de alta parte, tiparele descoperite de data mining trebuiesc verificate in realitate.

Primul si cel mai simplu pas in data mining este descrierea datelor – a rezuma calitatile ei statistice (cum ar fi medii si abateri standard), a le observa utilizand grafice si a cauta potentiale legaturi importante printre variabile (cum ar fi valori care apar des impreuna). Colectarea,studiul si selectia datele corecte prezinta o importanta cruciala.

Dar descrierea datelor nu poate sa genereze un plan de una singura. Trebuie construit un model predictiv bazat pe tiparele create pe baza rezultatelor cunoscute, apoi trebuie testat modelul rezultat in alte conditii decat datele initiale. Un bun model nu ar trebui sa fie niciodata confruntat cu realitatea (se stie ca o harta a drumurilor nu ofera o reprezantare perfecta a drumurilor respective), dar poate fi un ajutor important pentru a intelege afacerea respectiva.

Ultimul pas este sa verificam empiric acel model. De exemplu, dintr-o baza de date de clienti care au raspuns deja unei oferte, s-a construit un model care prezice ce categorii de clienti ar putea sa raspunda aceleiasi oferte. Dar putem fi siguri de aceasta predictie? Pentru aceasta, trimitem un e-mail unei portiuni a listei de clienti presupusa ca va raspunde ofertei si vedem care sunt raspunsurile.

In principiu , motivul alegerii scalabilitatii este de a fi capabil sa construiesti un model data mining bun cat mai repede cu putinta. Aceasta ofera 2 beneficii.

Primul , este de apreciat faptul de a putea desfasura si folosi un model cat mai repede cu putinta. In al doilea exemplu de mai jos, gasirea unui model bun va duce la cresterea platii finale inclusiv a notei de plata. Vanzatorul ce foloseste credit cardul nu doreste sa lase multe facturi sa treaca fara a folosi rezultatele data mining aspura datelor din credit carduri.

Al doilea , intoarcere de mai multe ori produce modele mai bune. Dupa cum vom vedea, cautarea in baze de date foarte mari si construirea de modele complexe solicita o baza hardware serioasa ca si pentru a o putea testa , valida si a extrage exemple. Daca analistul trebuie sa astepte ore sau nopti pentru un model pentru a putea lucra, atunci efortul lor o sa fie foarte mare comparativ cu cazul cand ar putea obtine modelul calificat in cateva minute. Timpul folosit pentru a astepta rezultate ar putea fi folosit pentru a gasi care model este cel mai bun si ofera solutia cea mai viabila.

Preview document

Identificarea Sabloanelor Frecvente - Pagina 1
Identificarea Sabloanelor Frecvente - Pagina 2
Identificarea Sabloanelor Frecvente - Pagina 3
Identificarea Sabloanelor Frecvente - Pagina 4
Identificarea Sabloanelor Frecvente - Pagina 5
Identificarea Sabloanelor Frecvente - Pagina 6
Identificarea Sabloanelor Frecvente - Pagina 7
Identificarea Sabloanelor Frecvente - Pagina 8
Identificarea Sabloanelor Frecvente - Pagina 9
Identificarea Sabloanelor Frecvente - Pagina 10
Identificarea Sabloanelor Frecvente - Pagina 11
Identificarea Sabloanelor Frecvente - Pagina 12
Identificarea Sabloanelor Frecvente - Pagina 13
Identificarea Sabloanelor Frecvente - Pagina 14
Identificarea Sabloanelor Frecvente - Pagina 15
Identificarea Sabloanelor Frecvente - Pagina 16
Identificarea Sabloanelor Frecvente - Pagina 17
Identificarea Sabloanelor Frecvente - Pagina 18
Identificarea Sabloanelor Frecvente - Pagina 19
Identificarea Sabloanelor Frecvente - Pagina 20
Identificarea Sabloanelor Frecvente - Pagina 21
Identificarea Sabloanelor Frecvente - Pagina 22
Identificarea Sabloanelor Frecvente - Pagina 23
Identificarea Sabloanelor Frecvente - Pagina 24
Identificarea Sabloanelor Frecvente - Pagina 25
Identificarea Sabloanelor Frecvente - Pagina 26
Identificarea Sabloanelor Frecvente - Pagina 27
Identificarea Sabloanelor Frecvente - Pagina 28
Identificarea Sabloanelor Frecvente - Pagina 29
Identificarea Sabloanelor Frecvente - Pagina 30
Identificarea Sabloanelor Frecvente - Pagina 31
Identificarea Sabloanelor Frecvente - Pagina 32
Identificarea Sabloanelor Frecvente - Pagina 33
Identificarea Sabloanelor Frecvente - Pagina 34
Identificarea Sabloanelor Frecvente - Pagina 35
Identificarea Sabloanelor Frecvente - Pagina 36
Identificarea Sabloanelor Frecvente - Pagina 37
Identificarea Sabloanelor Frecvente - Pagina 38
Identificarea Sabloanelor Frecvente - Pagina 39
Identificarea Sabloanelor Frecvente - Pagina 40
Identificarea Sabloanelor Frecvente - Pagina 41
Identificarea Sabloanelor Frecvente - Pagina 42
Identificarea Sabloanelor Frecvente - Pagina 43
Identificarea Sabloanelor Frecvente - Pagina 44
Identificarea Sabloanelor Frecvente - Pagina 45
Identificarea Sabloanelor Frecvente - Pagina 46
Identificarea Sabloanelor Frecvente - Pagina 47
Identificarea Sabloanelor Frecvente - Pagina 48
Identificarea Sabloanelor Frecvente - Pagina 49
Identificarea Sabloanelor Frecvente - Pagina 50
Identificarea Sabloanelor Frecvente - Pagina 51
Identificarea Sabloanelor Frecvente - Pagina 52
Identificarea Sabloanelor Frecvente - Pagina 53
Identificarea Sabloanelor Frecvente - Pagina 54
Identificarea Sabloanelor Frecvente - Pagina 55
Identificarea Sabloanelor Frecvente - Pagina 56
Identificarea Sabloanelor Frecvente - Pagina 57
Identificarea Sabloanelor Frecvente - Pagina 58
Identificarea Sabloanelor Frecvente - Pagina 59
Identificarea Sabloanelor Frecvente - Pagina 60
Identificarea Sabloanelor Frecvente - Pagina 61
Identificarea Sabloanelor Frecvente - Pagina 62
Identificarea Sabloanelor Frecvente - Pagina 63
Identificarea Sabloanelor Frecvente - Pagina 64
Identificarea Sabloanelor Frecvente - Pagina 65
Identificarea Sabloanelor Frecvente - Pagina 66
Identificarea Sabloanelor Frecvente - Pagina 67
Identificarea Sabloanelor Frecvente - Pagina 68
Identificarea Sabloanelor Frecvente - Pagina 69
Identificarea Sabloanelor Frecvente - Pagina 70
Identificarea Sabloanelor Frecvente - Pagina 71
Identificarea Sabloanelor Frecvente - Pagina 72
Identificarea Sabloanelor Frecvente - Pagina 73
Identificarea Sabloanelor Frecvente - Pagina 74
Identificarea Sabloanelor Frecvente - Pagina 75
Identificarea Sabloanelor Frecvente - Pagina 76
Identificarea Sabloanelor Frecvente - Pagina 77
Identificarea Sabloanelor Frecvente - Pagina 78
Identificarea Sabloanelor Frecvente - Pagina 79
Identificarea Sabloanelor Frecvente - Pagina 80
Identificarea Sabloanelor Frecvente - Pagina 81
Identificarea Sabloanelor Frecvente - Pagina 82
Identificarea Sabloanelor Frecvente - Pagina 83
Identificarea Sabloanelor Frecvente - Pagina 84
Identificarea Sabloanelor Frecvente - Pagina 85
Identificarea Sabloanelor Frecvente - Pagina 86
Identificarea Sabloanelor Frecvente - Pagina 87
Identificarea Sabloanelor Frecvente - Pagina 88
Identificarea Sabloanelor Frecvente - Pagina 89
Identificarea Sabloanelor Frecvente - Pagina 90
Identificarea Sabloanelor Frecvente - Pagina 91
Identificarea Sabloanelor Frecvente - Pagina 92
Identificarea Sabloanelor Frecvente - Pagina 93
Identificarea Sabloanelor Frecvente - Pagina 94
Identificarea Sabloanelor Frecvente - Pagina 95
Identificarea Sabloanelor Frecvente - Pagina 96
Identificarea Sabloanelor Frecvente - Pagina 97
Identificarea Sabloanelor Frecvente - Pagina 98
Identificarea Sabloanelor Frecvente - Pagina 99
Identificarea Sabloanelor Frecvente - Pagina 100
Identificarea Sabloanelor Frecvente - Pagina 101
Identificarea Sabloanelor Frecvente - Pagina 102
Identificarea Sabloanelor Frecvente - Pagina 103
Identificarea Sabloanelor Frecvente - Pagina 104
Identificarea Sabloanelor Frecvente - Pagina 105
Identificarea Sabloanelor Frecvente - Pagina 106
Identificarea Sabloanelor Frecvente - Pagina 107
Identificarea Sabloanelor Frecvente - Pagina 108
Identificarea Sabloanelor Frecvente - Pagina 109
Identificarea Sabloanelor Frecvente - Pagina 110
Identificarea Sabloanelor Frecvente - Pagina 111
Identificarea Sabloanelor Frecvente - Pagina 112
Identificarea Sabloanelor Frecvente - Pagina 113
Identificarea Sabloanelor Frecvente - Pagina 114

Conținut arhivă zip

  • Identificarea Sabloanelor Frecvente.doc

Alții au mai descărcat și

Sistem Informatic pentru Urmarirea Activitatii intr-o Agentie Imobiliare

Sistem informatic pentru urmarirea activitatii intr-o agentie imobiliara 1. Descrierea activitatii agentiei imobiliare Agentia imobiliara...

Modelarea Matlab-Simulink a Unei Sere

Cunoasterea duratei de timp de la semanat pâna la rasaritul plantelor mai are însemnatate si pentru obtinerea unor productii cat mai timpurii. Daca...

Ai nevoie de altceva?