Identificarea șabloanelor frecvente

Proiect
8/10 (2 voturi)
Domeniu: Automatică
Conține 1 fișier: doc
Pagini : 114 în total
Cuvinte : 21705
Mărime: 359.33KB (arhivat)
Publicat de: Stancu Păduraru
Puncte necesare: 8
Profesor îndrumător / Prezentat Profesorului: prof. dr. ing. Stefan TRAUSAN-MATU
Universitatea POLITEHNICA Bucuresti Facultatea de Automatica si Calculatoare

Cuprins

  1. 1. Introducere in data mining 2
  2. 2. Despre identificarea sabloanelor frecvente 7
  3. 3. Descriere problemei 11
  4. 4. Baze de date ce contin tranzactii 14
  5. 5. Spatiul de cautare 16
  6. 6. Structuri de date 18
  7. 6.1 Hash-tree 18
  8. 6.2 Trie 19
  9. 7. Algoritmul Apriori 21
  10. 7.1 Itemset Mining 21
  11. 7.2 Identificarea regulilor de asociere 23
  12. 7.3 Optimizari 25
  13. 7.3.1 AprioriTid, AprioriHybrid 25
  14. 7.3.2 DHP 26
  15. 8. Algoritmul DIC (Dynamic Intemset Counting) 28
  16. 9. O comparatie intre algoritmii Eclat si FP-growth 34
  17. 9.1 Definirea problemei 34
  18. 9.2 Eclat vs. FP-growth 36
  19. 9.3 Eclat 37
  20. 9.4 FP-growth 38
  21. 9.5 Medic 42
  22. 10. Implementarea algoritmului Apriori 44
  23. 11. Implementarea algoritmului DIC 51
  24. 12. Implementarea algoritmului Eclat 56
  25. 13. Rularea aplicatiei 58
  26. 14. Fisier cu rezultate 59
  27. 15. Aspecte experimentale 62
  28. 16. Bibliografie 65
  29. Anexa A – Surse 66

Extras din proiect

Data mining poate produce rezultate remarcabile pentru aproape orice organizatie care colecteaza date de la proprii clienti, de la piete comerciale sau produse . Descoperind tipare ascunse si relatii intre date, data mining permite utilizatorilor sa obtina rezultate excelente din datele colectate in baze de date mari .

Pentru a descoperi sabloane ascunse in date, trebuie sa construim un model constand in variabile independente(ex: venit, casatorit/necasatorit) care pot fi folosite pentru a determina variabile dependente(ex: riscul creditului). A construi un model data mining inseamna a identifica variabile independente relevante si minimiza erorile predictive. Pentru a identifica un model care are cea mai mica eroare si care este cel mai bun predictor ar putea solicita construirea a sute de modele pentru a alege pe cel mai bun.

Din fericire, am atins un prag al dezvoltarii computationale, ca capacitatii de inmagazinare a informatiei si datelor si costuri care ne permit sa adunam si sa analizam cantitati insemnate de date.Cat timp probleme de date mining apar la birou sau la un simpla legatura client-server, multe probleme cer un produs data mining scalabil

Literal, scalabilitate inseamna ca un sistem cat creste, performanta se imbunatateste corespunzator. Pentru data mining , scalabilitatea inseamna ca folosind avantajul de a lucra in paralel unui sistem care manageriaza o baza de date si procesoarele aditionale, poti rezolva o clasa mare de probleme fara a fi nevoit sa schimbi mediul de jos de data mining. Se poate lucra cu mai multe date, construi mai multe modele si se poate imbunatati acuratetea lor prin simpla adaugare de procesoare aditionale. Ideal ar fi ca scalabilitatea sa fie liniara sau mai buna. De exemplu, daca se dubleaza numarul de procesoare intr-un sistem paralel , poti construi de 2 ori mai multe modele in acelasi timp sau acelasi numar de modele intr-un timp redus la jumatate. Data mining este un instrument si nu un magician. Nu va sta in baza de date sa vada ce se intampla si te va atentiona cand vede un tipar interesant. Nu elimina necesitatea de a-ti cunoaste afacerea, de a intelege datele sau metodele analitice. Data mining ajuta analistii prin indentificarea unor tipare si relatii intre date, dar nu iti spune valoarea tiparelor pentru organizatie. Pe de alta parte, tiparele descoperite de data mining trebuiesc verificate in realitate.

Primul si cel mai simplu pas in data mining este descrierea datelor – a rezuma calitatile ei statistice (cum ar fi medii si abateri standard), a le observa utilizand grafice si a cauta potentiale legaturi importante printre variabile (cum ar fi valori care apar des impreuna). Colectarea,studiul si selectia datele corecte prezinta o importanta cruciala.

Dar descrierea datelor nu poate sa genereze un plan de una singura. Trebuie construit un model predictiv bazat pe tiparele create pe baza rezultatelor cunoscute, apoi trebuie testat modelul rezultat in alte conditii decat datele initiale. Un bun model nu ar trebui sa fie niciodata confruntat cu realitatea (se stie ca o harta a drumurilor nu ofera o reprezantare perfecta a drumurilor respective), dar poate fi un ajutor important pentru a intelege afacerea respectiva.

Ultimul pas este sa verificam empiric acel model. De exemplu, dintr-o baza de date de clienti care au raspuns deja unei oferte, s-a construit un model care prezice ce categorii de clienti ar putea sa raspunda aceleiasi oferte. Dar putem fi siguri de aceasta predictie? Pentru aceasta, trimitem un e-mail unei portiuni a listei de clienti presupusa ca va raspunde ofertei si vedem care sunt raspunsurile.

In principiu , motivul alegerii scalabilitatii este de a fi capabil sa construiesti un model data mining bun cat mai repede cu putinta. Aceasta ofera 2 beneficii.

Primul , este de apreciat faptul de a putea desfasura si folosi un model cat mai repede cu putinta. In al doilea exemplu de mai jos, gasirea unui model bun va duce la cresterea platii finale inclusiv a notei de plata. Vanzatorul ce foloseste credit cardul nu doreste sa lase multe facturi sa treaca fara a folosi rezultatele data mining aspura datelor din credit carduri.

Al doilea , intoarcere de mai multe ori produce modele mai bune. Dupa cum vom vedea, cautarea in baze de date foarte mari si construirea de modele complexe solicita o baza hardware serioasa ca si pentru a o putea testa , valida si a extrage exemple. Daca analistul trebuie sa astepte ore sau nopti pentru un model pentru a putea lucra, atunci efortul lor o sa fie foarte mare comparativ cu cazul cand ar putea obtine modelul calificat in cateva minute. Timpul folosit pentru a astepta rezultate ar putea fi folosit pentru a gasi care model este cel mai bun si ofera solutia cea mai viabila.

Preview document

Identificarea șabloanelor frecvente - Pagina 1
Identificarea șabloanelor frecvente - Pagina 2
Identificarea șabloanelor frecvente - Pagina 3
Identificarea șabloanelor frecvente - Pagina 4
Identificarea șabloanelor frecvente - Pagina 5
Identificarea șabloanelor frecvente - Pagina 6
Identificarea șabloanelor frecvente - Pagina 7
Identificarea șabloanelor frecvente - Pagina 8
Identificarea șabloanelor frecvente - Pagina 9
Identificarea șabloanelor frecvente - Pagina 10
Identificarea șabloanelor frecvente - Pagina 11
Identificarea șabloanelor frecvente - Pagina 12
Identificarea șabloanelor frecvente - Pagina 13
Identificarea șabloanelor frecvente - Pagina 14
Identificarea șabloanelor frecvente - Pagina 15
Identificarea șabloanelor frecvente - Pagina 16
Identificarea șabloanelor frecvente - Pagina 17
Identificarea șabloanelor frecvente - Pagina 18
Identificarea șabloanelor frecvente - Pagina 19
Identificarea șabloanelor frecvente - Pagina 20
Identificarea șabloanelor frecvente - Pagina 21
Identificarea șabloanelor frecvente - Pagina 22
Identificarea șabloanelor frecvente - Pagina 23
Identificarea șabloanelor frecvente - Pagina 24
Identificarea șabloanelor frecvente - Pagina 25
Identificarea șabloanelor frecvente - Pagina 26
Identificarea șabloanelor frecvente - Pagina 27
Identificarea șabloanelor frecvente - Pagina 28
Identificarea șabloanelor frecvente - Pagina 29
Identificarea șabloanelor frecvente - Pagina 30
Identificarea șabloanelor frecvente - Pagina 31
Identificarea șabloanelor frecvente - Pagina 32
Identificarea șabloanelor frecvente - Pagina 33
Identificarea șabloanelor frecvente - Pagina 34
Identificarea șabloanelor frecvente - Pagina 35
Identificarea șabloanelor frecvente - Pagina 36
Identificarea șabloanelor frecvente - Pagina 37
Identificarea șabloanelor frecvente - Pagina 38
Identificarea șabloanelor frecvente - Pagina 39
Identificarea șabloanelor frecvente - Pagina 40
Identificarea șabloanelor frecvente - Pagina 41
Identificarea șabloanelor frecvente - Pagina 42
Identificarea șabloanelor frecvente - Pagina 43
Identificarea șabloanelor frecvente - Pagina 44
Identificarea șabloanelor frecvente - Pagina 45
Identificarea șabloanelor frecvente - Pagina 46
Identificarea șabloanelor frecvente - Pagina 47
Identificarea șabloanelor frecvente - Pagina 48
Identificarea șabloanelor frecvente - Pagina 49
Identificarea șabloanelor frecvente - Pagina 50
Identificarea șabloanelor frecvente - Pagina 51
Identificarea șabloanelor frecvente - Pagina 52
Identificarea șabloanelor frecvente - Pagina 53
Identificarea șabloanelor frecvente - Pagina 54
Identificarea șabloanelor frecvente - Pagina 55
Identificarea șabloanelor frecvente - Pagina 56
Identificarea șabloanelor frecvente - Pagina 57
Identificarea șabloanelor frecvente - Pagina 58
Identificarea șabloanelor frecvente - Pagina 59
Identificarea șabloanelor frecvente - Pagina 60
Identificarea șabloanelor frecvente - Pagina 61
Identificarea șabloanelor frecvente - Pagina 62
Identificarea șabloanelor frecvente - Pagina 63
Identificarea șabloanelor frecvente - Pagina 64
Identificarea șabloanelor frecvente - Pagina 65
Identificarea șabloanelor frecvente - Pagina 66
Identificarea șabloanelor frecvente - Pagina 67
Identificarea șabloanelor frecvente - Pagina 68
Identificarea șabloanelor frecvente - Pagina 69
Identificarea șabloanelor frecvente - Pagina 70
Identificarea șabloanelor frecvente - Pagina 71
Identificarea șabloanelor frecvente - Pagina 72
Identificarea șabloanelor frecvente - Pagina 73
Identificarea șabloanelor frecvente - Pagina 74
Identificarea șabloanelor frecvente - Pagina 75
Identificarea șabloanelor frecvente - Pagina 76
Identificarea șabloanelor frecvente - Pagina 77
Identificarea șabloanelor frecvente - Pagina 78
Identificarea șabloanelor frecvente - Pagina 79
Identificarea șabloanelor frecvente - Pagina 80
Identificarea șabloanelor frecvente - Pagina 81
Identificarea șabloanelor frecvente - Pagina 82
Identificarea șabloanelor frecvente - Pagina 83
Identificarea șabloanelor frecvente - Pagina 84
Identificarea șabloanelor frecvente - Pagina 85
Identificarea șabloanelor frecvente - Pagina 86
Identificarea șabloanelor frecvente - Pagina 87
Identificarea șabloanelor frecvente - Pagina 88
Identificarea șabloanelor frecvente - Pagina 89
Identificarea șabloanelor frecvente - Pagina 90
Identificarea șabloanelor frecvente - Pagina 91
Identificarea șabloanelor frecvente - Pagina 92
Identificarea șabloanelor frecvente - Pagina 93
Identificarea șabloanelor frecvente - Pagina 94
Identificarea șabloanelor frecvente - Pagina 95
Identificarea șabloanelor frecvente - Pagina 96
Identificarea șabloanelor frecvente - Pagina 97
Identificarea șabloanelor frecvente - Pagina 98
Identificarea șabloanelor frecvente - Pagina 99
Identificarea șabloanelor frecvente - Pagina 100
Identificarea șabloanelor frecvente - Pagina 101
Identificarea șabloanelor frecvente - Pagina 102
Identificarea șabloanelor frecvente - Pagina 103
Identificarea șabloanelor frecvente - Pagina 104
Identificarea șabloanelor frecvente - Pagina 105
Identificarea șabloanelor frecvente - Pagina 106
Identificarea șabloanelor frecvente - Pagina 107
Identificarea șabloanelor frecvente - Pagina 108
Identificarea șabloanelor frecvente - Pagina 109
Identificarea șabloanelor frecvente - Pagina 110
Identificarea șabloanelor frecvente - Pagina 111
Identificarea șabloanelor frecvente - Pagina 112
Identificarea șabloanelor frecvente - Pagina 113
Identificarea șabloanelor frecvente - Pagina 114

Conținut arhivă zip

  • Identificarea Sabloanelor Frecvente.doc

Alții au mai descărcat și

Modelarea Matlab-Simulink a Unei Sere

Cunoasterea duratei de timp de la semanat pâna la rasaritul plantelor mai are însemnatate si pentru obtinerea unor productii cat mai timpurii. Daca...

Circuite logice secvențiale

In multe aplicatii este nevoie de un element care sa prezinte 2 stari diferite, cu posibilitatea de a trece dintr-o stare in cealalta, fara sau in...

Proiectare conceptuală

Cerintele sistemului operational Odata ce a fost definita nevoia si abordarea tehnica, e necesar sa le tranlatam intr-un “scenariu...

Te-ar putea interesa și

Strategii de Comunicare pe Timpul Gestionării Situțiilor de Criză

Introducere „La început a fost cuvântul. Dar nu la începutul lumii, ci la începutul culturii.” (Henri Wald) Secolul XX a cunoscut toate...

Rolul psihologului școlar

INTRODUCERE Actualitatea temei. Meseria de psiholog sau consilier şcolar este una relative nouă în sfera ocupaţiilor din Republica Moldova, dar...

Comunicarea la nivelul unităților de pompieri

CAPITOLUL 1 COMUNICAREA – NOŢIUNI TEORETICE Comunicarea apare ca schimb de idei, opinii şi informaţii prin intermediul cuvintelor, gesturilor şi...

Arborii Sufix și Aplicațiile Lor în Bioinformatică

Introducere Lucrarea de faţă tratează structura de date de tip arbore sufix şi aplicaţiile lor în bioinformatică.În primul capitol se dă o...

Sisteme integrate de avionică și armament

INTRODUCERE Avionica (AVIation electrONICS - avionics) este termenul prin care, începând din perioada anilor 1930, sunt reunite echipamentele care...

Personalitatea

1. Ce este personalitatea? În sfera culturii sau în viaţa social-politică se utilizează termenul de personalitate pentru a desemna indivizii de...

Ai nevoie de altceva?