Analiza statistică a turismului - data mining

Proiect
8.7/10 (3 voturi)
Domeniu: Calculatoare
Conține 1 fișier: doc
Pagini : 17 în total
Cuvinte : 3160
Mărime: 253.79KB (arhivat)
Publicat de: Ilona Pintea
Puncte necesare: 7
Specializarea Tehnici Avansate de Prelucrare a Informaţiei Facultatea de Litere şi Ştiinţe Universitatea “Petrol - Gaze”, Ploieşti

Extras din proiect

Introducere

Data mining-ul reprezintă procesul de extracţie a informaţiilor din seturi mari de date. Cu alte cuvinte mineritul în date, presupune descoperirea unor modele sau a unor relaţii ascunse prin prelucarea datelor într-un mod concis şi eficient, care sunt atât uşor de înţeles cât şi utile pentru analiza ulterioară. Cu cât sunt adunate mai multe date (cantitatea de date dublându-se la fiecare trei ani) cu atât data mining-ul devine un instrument din ce în ce mai important, utilizat la transformarea datelor existente în informaţii. Astfel, utilizarea cu uşurinţă a unor cantităţi mari de date, ar fi principala diferenţă între data mining şi metodele statistice tradiţionale, în care, spre exemplu, un număr de 100 de observaţii reprezintă un set mult prea mare de date.

Utilizarea procesului de date mining în analizele statistice, nu cunoaşte limite, acesta fiind frecvent aplicat într-o gama largă de domenii practice, cum ar fi: marketing, supraveghere, detectarea fraudelor, industria jocurilor, cercetare ştiinţifică etc. Un domeniu în care fenomenul de data mining este, de asemenea, foarte important îl reprezintă turismul, în cadrul căruia este necesară înţelegerea cât mai rapidă a nevoilor clienţilor şi propunerea de noi pachete.

Prin realizarea acestui proiect se doreşte obţinerea unei analize statistice asupra turismului în Romania, intern şi extern, organizat prin intermediul agentiilor de turism, pe o perioadă de timp cuprinsă între anii 1999 şi 2006. Astfel se analizează istoricul comportamentului clientilor din care reies preferinţele acestora, în funcţie de care se pot crea noi pachete turistice, noi oferte. Ca scop poate fi propusă determinarea circuitelor turistice preferate în funcţie de sezon (anotimp)

Aplicaţia utilizată: SAS 9.1.

Datele au fost preluate de pe site-ul Institutului National de Statistică (www.insse.ro).

I. Descrierea mediului Enterprise Miner şi a nodurilor utilizate

I.1. Enterprise Miner

Enterprise Miner este conceput pentru realizarea unui sistem de raportare cu minimum de experienţă în programare SAS, construirea diagramei realizeazându-se prin procedeul drag-and-drop a icoanelor în mediul de lucru, apoi interconectarea acestora. Acest mediu oferă şi posibilitatea configurării setărilor si listarea corespunzatoare a rezultatelor.

Toolkit-ul Enterprise Miner este structurat dupa modelul SEMMA (Sampling, Exploring, Modifying, Modeling, Assessing Data)

- Sampling – se referă la eşantionarea datelor de intrare, care sunt într-o cantitare atât de mare încât nu pot fi analizate. Astfel se iau esantioane suficient de mari, care să conţină o cantitate semnificativă de informaţii pentru a efectua o analiză.

- Exploring – analizează datele şi afişează relaţii si comportamente ale variabilelor, cât şi anomalii ale datelor.

- Modifying – modifică datele în vederea creării, sau transformării a unor variabile sau chiar a întregului set de date, pentru a efectua selecţii de modelare diferite sau în anumite tehnici statistice de modelare pentru analiza ulterioară a datelor.

- Modeling – modelează setul de date prin aplicarea unor tehnici de modelare diferite în căutarea unei anumite combinaţii de variabile.

- Assessing Data – evaluează rezultatele din procesul de data mining.

Enterprise Miner include tehnici de modelare ca regesia, arbori de decizie, sau reţele neuronale, prin intermediul cărora oferă posibilitatea de predicţie a variabilelor de tip binar, ordinal, nominal. De asemenea conţine metode descriptive care facilitează determinarea de modele (pattern) în setul de date. Tehnici ca cluster analysis sau association analysis nu necesită specificarea unor variabile de interes.

I.2. Nodul Input Data Source

În cadrul mediului Enterprise Miner, nodul Input Data Source are rolul de a citi o sursă de date şi de a crea un set de date de intrare. Odată stabilite, datele de intrare sunt preluate de nodurile următoare pentru o prelucarere ulterioară. Într-o diagramă nodul Input Data Source este de obicei primul nod, folosit pentru a citi datele sursă.

De asemenea, nodul creează şi un set de date, numit metadata sample (eşantion pentru metadate) având ca scop definirea fiecărui atribut, pentru prelucrare. Metadata sample este creat pentru fiecare variabilă din setul de date prin preprocesarea informaţiilor de la sursa de date importate. Eşantionul pentru metadate realizează o micşorare semnificativă a timpului de lucru a celorlalte noduri, realizând operaţii precum filtrarea valorilor aberante, sau înlocuirea valorilor lipsă.

I.3. Nodul Replacement

Scopul acestui nod este de a înlocui valorile lipsă, având ca punct de plecare una sau mai multe variabile din setul de date de antrenare. Utilitatea acestui nod apare în cazul în care setul de date are mai multe valori lipsă sau incorecte, astfel obtinându-se o normalitate a datelor.

Nu există o metodă universală de înlocuire a valorilor lipsă. Înlocuirea valorilor lipsă presupune anumite ipoteze, care sunt facute cu privire la repartiţia reală a variabilei cu valorile lipsă. Dezavantajul principal în înlocuirea valorilor lipsă în variabilă este că acesta va introduce o eroare în analiză.

Preview document

Analiza statistică a turismului - data mining - Pagina 1
Analiza statistică a turismului - data mining - Pagina 2
Analiza statistică a turismului - data mining - Pagina 3
Analiza statistică a turismului - data mining - Pagina 4
Analiza statistică a turismului - data mining - Pagina 5
Analiza statistică a turismului - data mining - Pagina 6
Analiza statistică a turismului - data mining - Pagina 7
Analiza statistică a turismului - data mining - Pagina 8
Analiza statistică a turismului - data mining - Pagina 9
Analiza statistică a turismului - data mining - Pagina 10
Analiza statistică a turismului - data mining - Pagina 11
Analiza statistică a turismului - data mining - Pagina 12
Analiza statistică a turismului - data mining - Pagina 13
Analiza statistică a turismului - data mining - Pagina 14
Analiza statistică a turismului - data mining - Pagina 15
Analiza statistică a turismului - data mining - Pagina 16
Analiza statistică a turismului - data mining - Pagina 17

Conținut arhivă zip

  • Analiza Statistica a Turismului - Data Mining.doc

Alții au mai descărcat și

Data Mining - Metodă Modernă de Explorare și Manipulare a Datelor

Introducere Data mining este rezultatul firesc al evoluţiei tehnologiei informaţiei determinat de creşterea volumului de date produs de societatea...

Arhitectura calculatoarelor - Intel vs AMD

Rezultatele din testul 3DS Max 7 SPECapc Test Testul alaturat consta in crearea modelelor 3D, modificarea si randarea scripturilor. Conform...

Autentificarea prin semnătură digitală

Introducere O semnatura digitala reprezinta o informatie care il identifica pe expeditorul unui document. Semnatura digitala este creata prin...

Sistem de Prognosticare a Unei Avarii

Acest sistem calculeaza gradul de avariere a unei cladiri în cazul unui cutremur, precum si posibila necesitate a reconstructiei cladirii (partiala...

Ai nevoie de altceva?