Proiect la Analiza Datelor

Domeniu: Economie

Conține 1 fișier: doc

Pagini : 13 în total

Cuvinte : 1670

Mărime: 51.07KB (arhivat)

Publicat de: Zita Stoica

Puncte necesare: 7

Descarcă acum

Cuprins Extras Bibliografie Preview

Extras din proiect

Folosirea tehnicilor exploratorii multidimensionale (analiza componentelor principale, analiza cluster) pentru a evalua performanta generala a unor state membre U.E.

I.Analiza componentelor principale(ACP)

Analiza componentelor principale are ca scop reducerea numarului de variabile utilizate initial, luand in considerare un numar mai mic de variante representative si necorelate. Ca o consecinta a acestui demers se obtine o clasificare a indivizilor(obiectelor).

Pentru cele 27 de state ale U.E. s-au considerat urmatorii indicatori macroeconomici:

- PIB-ul (exprimat in EURO/loc);

- Balanta de plati (miliarde EURO);

- Populatia (numarul de persoane specificat tarii analizate);

- Valoarea pasivelor din economie (milioane EURO);

- Numarul de someri (mii persoane);

- Numarul anual de crime (mii persoane);

- Suprafata tarii (km^2);

- Numarul de locuri din Parlamentul European;

- Procentul vanzarilor pe Internet;

- Procentul locuintelor conectate la Internet;

Este dificil de analizat si comparat dupa toate aceste variabile tarile respective. De aceea , ne propunem o reducere controlata a datelor prin care sa obtinem un numar redus de variabile(3-4), prin care sa putem analiza mai facil performanta tarilor. De asemenea urmarim sa nu pierdem foarte multa informatie in acest proces, deoarece studiul nu ar mai fi relevant.

Rezultatul va fi un nou set de variabile, numite “componente principale” , care sunt combinatii liniare ale variabilelor initiale si necorelate. Se obtine un spatiu de dimensiune mai mica, in care se proiecteaza indivizii si care pastreaza maxim din variabilitatea datelor.

Ca in orice demers statistic vom prelucra pentru inceput fiecare variabila pentru a obtine statisticile descriptive, pentru a observa caracterul general al datelor. In tabelul urmator avem prezentate statisticile descriptive pentru fiecare variabila. Semnificatia coloanelor este urmatoarea:

- N -> numarul de indivizi considerate valizi;

- Range -> amplitudinea variatiilor(diferenta dintre cea mai mare si ea mai mica valoare);

- Mininum -> valoarea minima pentru fiecare variabila;

- Maximum -> valoarea maxima pentru fiecare variabila;

- Mean -> media unei variabile;

- Std. Deviation -> abaterea medie patratica;

Descriptive Statistics

N Range Minimum Maximum Mean Std. Deviation Variance

Pib(euro/loc) 27 68500.00 3300.00 71800.00 22151.8519 15280.33856 2.335E8

Balanta de plati(mld. euro) 27 229206.00 -87716.00 141490.00 -1767.1852 38323.18324 1.469E9

Populatia(persoane) 27 82032989.00 405006.00 82437995.00 1.8260E7 2.30886E7 5.331E14

Pasive(mil. euro) 27 199948.01 -82280.01 117668.00 -2696.8607 33217.35024 1.103E9

Nr de someri(mii persoane) 27 4217.40 9.50 4226.90 712.6222 1022.08305 1044653.761

Nr. anual de crime(persoane) 27 6296300.00 7923.00 6304223.00 1.0986E6 1.71610E6 2.945E12

Suprafata tarii(km^2) 27 546714.00 316.00 547030.00 162284.2222 1.61601E5 2.611E10

Nr de locuri din Parlamentul european 27 94.00 5.00 99.00 29.0741 26.38025 695.917

Procentul vanzarilor pe internet 27 9.10 00 9.10 2.7667 2.23435 4.992

Procentul locuintelor conectate la internet 27 66.00 14.00 80.00 45.8889 18.56658 344.718

Valid N (listwise) 27

- Variance -> abaterea standard(dispersia);

Obiectivul nostru este insa analiza multidimensionala dupa toate atributele, statisticile descriptive nefiind suficiente. Pentru o analiza multidimensionala se impune aducerea datelor sub forma standardizata, pentru a avea unitati de masura comparabile. Dupa ce am standardizat datele putem incepe algoritmul de determinare a componentelor principale si examinarea output-urilor SPSS.

Matricea Correlation Matrix explica intensitatea legaturilor dintre variabilele initiale. De asemenea cu ajutorul ei putem determina numarul de componente principale de care avem nevoie. Astfel, deoarece populatia ete corelata puternic cu numarul de locuri din Parlamentul European(0.995), balanta de plati externa este puternic corelata cu valoarea pasivelor(0.981), iar numarul de someri este intr-o corelatie pozitiva cu populatia, inseamna ca avem nevoie de aproximativ 3 componente principale. De asemenea matrice corelatiilor este nesingulara, determinantul matricei continand cantitatea totala de informatii a datelor initiale. Determinantul matricei corelatiilor se mai numeste si variant generalizata.