Identificarea Șabloanelor Frecvente

Domeniu: Automatică

Conține 1 fișier: doc

Pagini : 114 în total

Cuvinte : 21705

Mărime: 359.33KB (arhivat)

Publicat de: Stancu Păduraru

Puncte necesare: 8

Profesor îndrumător / Prezentat Profesorului: prof. dr. ing. Stefan TRAUSAN-MATU

Universitatea POLITEHNICA Bucuresti Facultatea de Automatica si Calculatoare

Descarcă acum

Cuprins Extras Bibliografie Preview

Cuprins

1. Introducere in data mining 2
2. Despre identificarea sabloanelor frecvente 7
3. Descriere problemei 11
4. Baze de date ce contin tranzactii 14
5. Spatiul de cautare 16
6. Structuri de date 18
6.1 Hash-tree 18
6.2 Trie 19
7. Algoritmul Apriori 21
7.1 Itemset Mining 21
7.2 Identificarea regulilor de asociere 23
7.3 Optimizari 25
7.3.1 AprioriTid, AprioriHybrid 25
7.3.2 DHP 26
8. Algoritmul DIC (Dynamic Intemset Counting) 28
9. O comparatie intre algoritmii Eclat si FP-growth 34
9.1 Definirea problemei 34
9.2 Eclat vs. FP-growth 36
9.3 Eclat 37
9.4 FP-growth 38
9.5 Medic 42
10. Implementarea algoritmului Apriori 44
11. Implementarea algoritmului DIC 51
12. Implementarea algoritmului Eclat 56
13. Rularea aplicatiei 58
14. Fisier cu rezultate 59
15. Aspecte experimentale 62
16. Bibliografie 65
Anexa A – Surse 66

Extras din proiect

Data mining poate produce rezultate remarcabile pentru aproape orice organizatie care colecteaza date de la proprii clienti, de la piete comerciale sau produse . Descoperind tipare ascunse si relatii intre date, data mining permite utilizatorilor sa obtina rezultate excelente din datele colectate in baze de date mari .

Pentru a descoperi sabloane ascunse in date, trebuie sa construim un model constand in variabile independente(ex: venit, casatorit/necasatorit) care pot fi folosite pentru a determina variabile dependente(ex: riscul creditului). A construi un model data mining inseamna a identifica variabile independente relevante si minimiza erorile predictive. Pentru a identifica un model care are cea mai mica eroare si care este cel mai bun predictor ar putea solicita construirea a sute de modele pentru a alege pe cel mai bun.

Din fericire, am atins un prag al dezvoltarii computationale, ca capacitatii de inmagazinare a informatiei si datelor si costuri care ne permit sa adunam si sa analizam cantitati insemnate de date.Cat timp probleme de date mining apar la birou sau la un simpla legatura client-server, multe probleme cer un produs data mining scalabil

Literal, scalabilitate inseamna ca un sistem cat creste, performanta se imbunatateste corespunzator. Pentru data mining , scalabilitatea inseamna ca folosind avantajul de a lucra in paralel unui sistem care manageriaza o baza de date si procesoarele aditionale, poti rezolva o clasa mare de probleme fara a fi nevoit sa schimbi mediul de jos de data mining. Se poate lucra cu mai multe date, construi mai multe modele si se poate imbunatati acuratetea lor prin simpla adaugare de procesoare aditionale. Ideal ar fi ca scalabilitatea sa fie liniara sau mai buna. De exemplu, daca se dubleaza numarul de procesoare intr-un sistem paralel , poti construi de 2 ori mai multe modele in acelasi timp sau acelasi numar de modele intr-un timp redus la jumatate. Data mining este un instrument si nu un magician. Nu va sta in baza de date sa vada ce se intampla si te va atentiona cand vede un tipar interesant. Nu elimina necesitatea de a-ti cunoaste afacerea, de a intelege datele sau metodele analitice. Data mining ajuta analistii prin indentificarea unor tipare si relatii intre date, dar nu iti spune valoarea tiparelor pentru organizatie. Pe de alta parte, tiparele descoperite de data mining trebuiesc verificate in realitate.

Primul si cel mai simplu pas in data mining este descrierea datelor – a rezuma calitatile ei statistice (cum ar fi medii si abateri standard), a le observa utilizand grafice si a cauta potentiale legaturi importante printre variabile (cum ar fi valori care apar des impreuna). Colectarea,studiul si selectia datele corecte prezinta o importanta cruciala.

Dar descrierea datelor nu poate sa genereze un plan de una singura. Trebuie construit un model predictiv bazat pe tiparele create pe baza rezultatelor cunoscute, apoi trebuie testat modelul rezultat in alte conditii decat datele initiale. Un bun model nu ar trebui sa fie niciodata confruntat cu realitatea (se stie ca o harta a drumurilor nu ofera o reprezantare perfecta a drumurilor respective), dar poate fi un ajutor important pentru a intelege afacerea respectiva.

Ultimul pas este sa verificam empiric acel model. De exemplu, dintr-o baza de date de clienti care au raspuns deja unei oferte, s-a construit un model care prezice ce categorii de clienti ar putea sa raspunda aceleiasi oferte. Dar putem fi siguri de aceasta predictie? Pentru aceasta, trimitem un e-mail unei portiuni a listei de clienti presupusa ca va raspunde ofertei si vedem care sunt raspunsurile.

In principiu , motivul alegerii scalabilitatii este de a fi capabil sa construiesti un model data mining bun cat mai repede cu putinta. Aceasta ofera 2 beneficii.

Primul , este de apreciat faptul de a putea desfasura si folosi un model cat mai repede cu putinta. In al doilea exemplu de mai jos, gasirea unui model bun va duce la cresterea platii finale inclusiv a notei de plata. Vanzatorul ce foloseste credit cardul nu doreste sa lase multe facturi sa treaca fara a folosi rezultatele data mining aspura datelor din credit carduri.

Al doilea , intoarcere de mai multe ori produce modele mai bune. Dupa cum vom vedea, cautarea in baze de date foarte mari si construirea de modele complexe solicita o baza hardware serioasa ca si pentru a o putea testa , valida si a extrage exemple. Daca analistul trebuie sa astepte ore sau nopti pentru un model pentru a putea lucra, atunci efortul lor o sa fie foarte mare comparativ cu cazul cand ar putea obtine modelul calificat in cateva minute. Timpul folosit pentru a astepta rezultate ar putea fi folosit pentru a gasi care model este cel mai bun si ofera solutia cea mai viabila.

Preview document

Identificarea șabloanelor frecvente - Pagina 1

Identificarea șabloanelor frecvente - Pagina 2

Identificarea șabloanelor frecvente - Pagina 3

Identificarea șabloanelor frecvente - Pagina 4

Identificarea șabloanelor frecvente - Pagina 5

Identificarea șabloanelor frecvente - Pagina 6

Identificarea șabloanelor frecvente - Pagina 7

Identificarea șabloanelor frecvente - Pagina 8

Identificarea șabloanelor frecvente - Pagina 9

Identificarea șabloanelor frecvente - Pagina 10

Identificarea șabloanelor frecvente - Pagina 11

Identificarea șabloanelor frecvente - Pagina 12

Identificarea șabloanelor frecvente - Pagina 13

Identificarea șabloanelor frecvente - Pagina 14

Identificarea șabloanelor frecvente - Pagina 15

Identificarea șabloanelor frecvente - Pagina 16

Identificarea șabloanelor frecvente - Pagina 17

Identificarea șabloanelor frecvente - Pagina 18

Identificarea șabloanelor frecvente - Pagina 19

Identificarea șabloanelor frecvente - Pagina 20

Identificarea șabloanelor frecvente - Pagina 21

Identificarea șabloanelor frecvente - Pagina 22

Identificarea șabloanelor frecvente - Pagina 23

Identificarea șabloanelor frecvente - Pagina 24

Identificarea șabloanelor frecvente - Pagina 25

Identificarea șabloanelor frecvente - Pagina 26

Identificarea șabloanelor frecvente - Pagina 27

Identificarea șabloanelor frecvente - Pagina 28

Identificarea șabloanelor frecvente - Pagina 29

Identificarea șabloanelor frecvente - Pagina 30

Identificarea șabloanelor frecvente - Pagina 31

Identificarea șabloanelor frecvente - Pagina 32

Identificarea șabloanelor frecvente - Pagina 33

Identificarea șabloanelor frecvente - Pagina 34

Identificarea șabloanelor frecvente - Pagina 35

Identificarea șabloanelor frecvente - Pagina 36

Identificarea șabloanelor frecvente - Pagina 37

Identificarea șabloanelor frecvente - Pagina 38

Identificarea șabloanelor frecvente - Pagina 39

Identificarea șabloanelor frecvente - Pagina 40

Identificarea șabloanelor frecvente - Pagina 41

Identificarea șabloanelor frecvente - Pagina 42

Identificarea șabloanelor frecvente - Pagina 43

Identificarea șabloanelor frecvente - Pagina 44

Identificarea șabloanelor frecvente - Pagina 45

Identificarea șabloanelor frecvente - Pagina 46

Identificarea șabloanelor frecvente - Pagina 47

Identificarea șabloanelor frecvente - Pagina 48

Identificarea șabloanelor frecvente - Pagina 49

Identificarea șabloanelor frecvente - Pagina 50

Identificarea șabloanelor frecvente - Pagina 51

Identificarea șabloanelor frecvente - Pagina 52

Identificarea șabloanelor frecvente - Pagina 53

Identificarea șabloanelor frecvente - Pagina 54

Identificarea șabloanelor frecvente - Pagina 55

Identificarea șabloanelor frecvente - Pagina 56

Identificarea șabloanelor frecvente - Pagina 57

Identificarea șabloanelor frecvente - Pagina 58

Identificarea șabloanelor frecvente - Pagina 59

Identificarea șabloanelor frecvente - Pagina 60

Identificarea șabloanelor frecvente - Pagina 61

Identificarea șabloanelor frecvente - Pagina 62

Identificarea șabloanelor frecvente - Pagina 63

Identificarea șabloanelor frecvente - Pagina 64

Identificarea șabloanelor frecvente - Pagina 65

Identificarea șabloanelor frecvente - Pagina 66

Identificarea șabloanelor frecvente - Pagina 67

Identificarea șabloanelor frecvente - Pagina 68

Identificarea șabloanelor frecvente - Pagina 69

Identificarea șabloanelor frecvente - Pagina 70

Identificarea șabloanelor frecvente - Pagina 71

Identificarea șabloanelor frecvente - Pagina 72

Identificarea șabloanelor frecvente - Pagina 73

Identificarea șabloanelor frecvente - Pagina 74

Identificarea șabloanelor frecvente - Pagina 75

Identificarea șabloanelor frecvente - Pagina 76

Identificarea șabloanelor frecvente - Pagina 77

Identificarea șabloanelor frecvente - Pagina 78

Identificarea șabloanelor frecvente - Pagina 79

Identificarea șabloanelor frecvente - Pagina 80

Identificarea șabloanelor frecvente - Pagina 81

Identificarea șabloanelor frecvente - Pagina 82

Identificarea șabloanelor frecvente - Pagina 83

Identificarea șabloanelor frecvente - Pagina 84

Identificarea șabloanelor frecvente - Pagina 85

Identificarea șabloanelor frecvente - Pagina 86

Identificarea șabloanelor frecvente - Pagina 87

Identificarea șabloanelor frecvente - Pagina 88

Identificarea șabloanelor frecvente - Pagina 89

Identificarea șabloanelor frecvente - Pagina 90

Identificarea șabloanelor frecvente - Pagina 91

Identificarea șabloanelor frecvente - Pagina 92

Identificarea șabloanelor frecvente - Pagina 93

Identificarea șabloanelor frecvente - Pagina 94

Identificarea șabloanelor frecvente - Pagina 95

Identificarea șabloanelor frecvente - Pagina 96

Identificarea șabloanelor frecvente - Pagina 97

Identificarea șabloanelor frecvente - Pagina 98

Identificarea șabloanelor frecvente - Pagina 99

Identificarea șabloanelor frecvente - Pagina 100

Identificarea șabloanelor frecvente - Pagina 101

Identificarea șabloanelor frecvente - Pagina 102

Identificarea șabloanelor frecvente - Pagina 103

Identificarea șabloanelor frecvente - Pagina 104

Identificarea șabloanelor frecvente - Pagina 105

Identificarea șabloanelor frecvente - Pagina 106

Identificarea șabloanelor frecvente - Pagina 107

Identificarea șabloanelor frecvente - Pagina 108

Identificarea șabloanelor frecvente - Pagina 109

Identificarea șabloanelor frecvente - Pagina 110

Identificarea șabloanelor frecvente - Pagina 111

Identificarea șabloanelor frecvente - Pagina 112

Identificarea șabloanelor frecvente - Pagina 113

Identificarea șabloanelor frecvente - Pagina 114

Conținut arhivă zip

Identificarea Sabloanelor Frecvente.doc

Descarcă Proiectul

Alții au mai descărcat și

Proiect

Modelarea Matlab-Simulink a Unei Sere

Cunoasterea duratei de timp de la semanat pâna la rasaritul plantelor mai are însemnatate si pentru obtinerea unor productii cat mai timpurii. Daca...