Extras din referat
Introducere
Data mining este rezultatul firesc al evoluţiei tehnologiei informaţiei determinat de creşterea volumului de date produs de societatea umană pentru desfăşurarea activităţilor sale, urmată de nevoia iminentă de transformare a datelor respective în informaţii şi cunoştinţe utile în aplicaţii din gama analizei şi controlului producţiei, analizei de piaţă, detectării fraudei, explorărilor ştiinţifice etc.
Conceptul data mining (explorarea datelor) defineşte procesul de descoperire a modelelor de cunoştinţe şi/sau informaţii utile dintr-o cantitate mare de date, colectate şi stocate în diferite tipuri de depozite de date (baze de date, data warehouses, www etc.), în vederea folosirii lor pentru fundamentarea deciziilor manageriale, pe toate nivelurile de competenţă din cadrul unui organism economic.
Procesul data mining este o parte esenţială a activităţii de descoperire a cunoştinţelor din date deoarece descoperă modelele de date „ascunse” pentru a fi evaluate, în conformitate cu cerinţele utilizatorilor. Din punctul de vedere al funcţionalităţii sale, data mining este procesul de descoperire a cunoştinţelor care interesează dintr-o cantitate mare de date stocată în baze de date sau depozite de date.
Originea data mining
În fiecare zi în lume se crează câţiva exabytes de date iar până în 2011 se estimează producerea a 1800 ExaBytes de date electronice. Din totalul datelor existente cel mult 4% din datele create sunt utilizate În acest context data mining reprezintă ştiinţa care utilizează aceste date pentru a extrage informaţii folositoare diverselor domenii.
Anii '90 au fost caracterizaţi printr-o explozie a datelor. Pentru stocarea lor au început să se folosească depozitele de date (engl. data warehouses). Datorită evoluţiei rapide a accesării datelor online datorată dezvoltării Internet-ului, s-a creat o imensă cerere de metodologii de descoperire de cunoştinţe.
Data mining a apărut ca răspuns la provocările cu care s-a confruntat comunitatea specialiştilor în baze de date, care se ocupau cu cantităţi însemnate de date, aplicarea analizei statistice şi aplicarea tehnicilor de căutare, specifice inteligenţei artificiale asupra datelor.
Data mining a fost folosit până acum în afaceri de către organizaţii comerciale de succes în scopul de a obţine avantaje critice în competiţia lor.
Principalele domenii care sunt de natură să producă surse de date sunt:
- mediul economic: bănci, asigurări, comerţ, transport aerian;
- telecomunicaţii (în telefonie se generează anual aprope 20 exabytes de date );
- sateliţi;
- internet – ordin de mărime: terabytes;
- biblioteci: (Library of Congress 20tb-3pb date);
- agenţii legale (baza de date cu amprentele FBI: 1 petabyte);
- experimente ştiinţifice: (LHC va produce anual cel puţin 100 000 dvd-uri de date).
Data mining este aplicat într-o varietate de domenii, începând cu managementul de investiţii până la astronomie. Importanţa şi potenţialul de aplicare al acestuia a fost recunoscut în marketing, domeniul bancar, asigurarea sănătăţii, telecomunicaţii ş.a. pentru aplicaţii cum ar fi analiza coşului de piaţă, pentru promovarea eficienţei, analiza vulnerabilităţii clienţilor, managementul relaţiilor cu clienţii, crearea de portofolii, detectarea fraudei în telefonia mobilă etc. În fiecare dintre aceste aplicaţii este necesară executarea mai multor operaţii specifice data mining-ului decât în domeniul depozitelor de date şi sistemelor suport pentru luarea deciziilor.
Definiţii data mining
Fiind un domeniu relativ nou, există o diversitate terminologică şi o variabilitate semantică ce fac aproape imposibilă existenţa unei definiţii unanim acceptată (mai ales în limba română). Aceasta se datorează nu doar complexităţii domeniului ci şi numărului redus de lucrări teoretice elaborate.
O accepţiune este aceea că data mining este un pas în procesul KDD (knoweldge discovery in data), care constă în aplicarea de algoritmi de descoperire şi analiză de date, care sub limite rezonabile ale eficienţei de calcul vor produce o mulţime de modele pe datele studiate
Dintr-un alt punct de vedere data mining reprezintă o arie de intersecţie între machine learning, statistică şi baze de date
Conform opiniei unor specialişti data mining reprezintă procesul de selecţie, explorare şi modelare a unor seturi mari de date pentru a descoperi modele necunoscute, utile în dezvoltarea afacerilor în timp ce de către alţii aceasta este văzută doar ca un subset al inteligenţei în afaceri.
Preview document
Conținut arhivă zip
- Data Mining - Metoda Moderna de Explorare si Manipulare a Datelor.doc