Extras din proiect
Introducere
Data mining reprezinta procesul de extragere a cunostintelor din bazele/depozitele de date, cunostinte necunoscute anterior, valide si in acelasi timp operationale.
Esential pentru un proces de data mining este faptul ca permite descoperirea unor cunostinte fara formularea anterioara a unor ipoteze.
Prin data mining nu se urmareste verificarea sau confirmarea de ipoteze, ci se intentioneaza descoperirea unor cunostinte „neasteptate”,care pot chiar contrazice perceptia intuitiva, fiind deci cunostinte complet necunoscute la momentul realizarii data mining-ului.
Din acest motiv , rezultatele obtinute sunt cu adevarat valoroase.
Conceptul de data mining presupune descoperirea unor modele sau a unor relatii ascunse prin prelucarea datelor într-un mod concis si eficient, care sunt atat de usor întelese cât si utile pentru analiza ulterioara.
Cu cât sunt adunate mai multe date cu atat data mining-ul devine un instrument din ce în ce mai important, utilizat la transformarea datelor existente în informatii. Astfel, utilizarea cu usurinta a unor cantitati mari de date, ar fi principala diferenta intre data mining si metodele statistice traditionale .
1. Scopul referatului :
Dezvoltarea acestui proiect urmareste realizarea unei analize asupra situatiei admiterii la Facultatea de Litere si Stiinte, Specializarea : Informatica, UPG Ploiesti, sesiunea iulie 2009.
Acest proiect are ca scop evidentierea procentajului de retragere si de admitere la cu taxa si fara taxa; descoperirea diferentei calitative dintre performanta elevilor in liceu si performanta lor la examenul de bacalaureat.
Se are in vedere:
√ media cu care au promovat examenul de bacalaureat echivalentul Probei 1
√ media celor patru ani de liceu echivalent Probei 2
√ media celor patru ani de liceu la Informatica echivalentul Probei 3
◊Aplicatia utilizata SAS 9.1
◊Datele au fost preluate de pe site-ul Upg Ploiesti
(www.upg-ploiesti.ro)
Pentru rezolvarea acestui proiect s-a folosit Enterprise Miner cu cateva din nodurile sale.
2. Descrierea Nodurilor si Metodelor utilizate :
1. Nodul Input Data Source
– are rolul de a citi o sursa de date si de a crea un set de date de intrare. Dupa ce au fost stabilite datele de intrare, ele sunt preluate de nodurile urmatoare pentru o prelucrare ulterioara.
- acesta este primul nod folosit intr-o diagrama si poate efectua diferite sarcini :
• creeaza in mod automat metadate pentru fiecare variabila;
• poate defini profilurile de tinta pentru fiecare obiectiv în datele de intrare stabilite;
2. Nodul Data Partition
- se ocupa cu partitionarea datelor in date de antrenament( pentru aranjarea modelului preliminar), date de test ( doar daca setul de date este foarte mare) si date de validare( pentru monitorizarea si reglarea modelului dar si pentru evaluarea modelului).
- foloseste esantionarea aleatorie simpla esantionarea aleatorie stratificata, sau o partitionare definita de utilizator pentru a crea seturi de date de antrenament, de validare, sau de test.
3. Nodul Distribution Explorer
- permite explorarea unor volume mari de date prin intermediul histogramelor multidimensionale (permite vizualizarea unei repartitii de pana la trei variabile la un moment dat) si observarea relatiilor dintre variabile, valorile anormale ale variabilelor, sau valorile lipsa.
- histogramele sau diagramele de frecventa ofera o modalitate simpla de a afisa locatia, raspândirea si forma de repartitie bazata pe intervalul de valori al variabilei.
Preview document
Conținut arhivă zip
- Analize asupra Situatiei Admiterii la Facultatea de Litere si Stiinte.doc