Extras din proiect
Folosirea tehnicilor exploratorii multidimensionale (analiza componentelor principale, analiza cluster) pentru a evalua performanta generala a unor state membre U.E.
I.Analiza componentelor principale(ACP)
Analiza componentelor principale are ca scop reducerea numarului de variabile utilizate initial, luand in considerare un numar mai mic de variante representative si necorelate. Ca o consecinta a acestui demers se obtine o clasificare a indivizilor(obiectelor).
Pentru cele 27 de state ale U.E. s-au considerat urmatorii indicatori macroeconomici:
- PIB-ul (exprimat in EURO/loc);
- Balanta de plati (miliarde EURO);
- Populatia (numarul de persoane specificat tarii analizate);
- Valoarea pasivelor din economie (milioane EURO);
- Numarul de someri (mii persoane);
- Numarul anual de crime (mii persoane);
- Suprafata tarii (km^2);
- Numarul de locuri din Parlamentul European;
- Procentul vanzarilor pe Internet;
- Procentul locuintelor conectate la Internet;
Este dificil de analizat si comparat dupa toate aceste variabile tarile respective. De aceea , ne propunem o reducere controlata a datelor prin care sa obtinem un numar redus de variabile(3-4), prin care sa putem analiza mai facil performanta tarilor. De asemenea urmarim sa nu pierdem foarte multa informatie in acest proces, deoarece studiul nu ar mai fi relevant.
Rezultatul va fi un nou set de variabile, numite “componente principale” , care sunt combinatii liniare ale variabilelor initiale si necorelate. Se obtine un spatiu de dimensiune mai mica, in care se proiecteaza indivizii si care pastreaza maxim din variabilitatea datelor.
Ca in orice demers statistic vom prelucra pentru inceput fiecare variabila pentru a obtine statisticile descriptive, pentru a observa caracterul general al datelor. In tabelul urmator avem prezentate statisticile descriptive pentru fiecare variabila. Semnificatia coloanelor este urmatoarea:
- N -> numarul de indivizi considerate valizi;
- Range -> amplitudinea variatiilor(diferenta dintre cea mai mare si ea mai mica valoare);
- Mininum -> valoarea minima pentru fiecare variabila;
- Maximum -> valoarea maxima pentru fiecare variabila;
- Mean -> media unei variabile;
- Std. Deviation -> abaterea medie patratica;
Descriptive Statistics
N Range Minimum Maximum Mean Std. Deviation Variance
Pib(euro/loc) 27 68500.00 3300.00 71800.00 22151.8519 15280.33856 2.335E8
Balanta de plati(mld. euro) 27 229206.00 -87716.00 141490.00 -1767.1852 38323.18324 1.469E9
Populatia(persoane) 27 82032989.00 405006.00 82437995.00 1.8260E7 2.30886E7 5.331E14
Pasive(mil. euro) 27 199948.01 -82280.01 117668.00 -2696.8607 33217.35024 1.103E9
Nr de someri(mii persoane) 27 4217.40 9.50 4226.90 712.6222 1022.08305 1044653.761
Nr. anual de crime(persoane) 27 6296300.00 7923.00 6304223.00 1.0986E6 1.71610E6 2.945E12
Suprafata tarii(km^2) 27 546714.00 316.00 547030.00 162284.2222 1.61601E5 2.611E10
Nr de locuri din Parlamentul european 27 94.00 5.00 99.00 29.0741 26.38025 695.917
Procentul vanzarilor pe internet 27 9.10 00 9.10 2.7667 2.23435 4.992
Procentul locuintelor conectate la internet 27 66.00 14.00 80.00 45.8889 18.56658 344.718
Valid N (listwise) 27
- Variance -> abaterea standard(dispersia);
Obiectivul nostru este insa analiza multidimensionala dupa toate atributele, statisticile descriptive nefiind suficiente. Pentru o analiza multidimensionala se impune aducerea datelor sub forma standardizata, pentru a avea unitati de masura comparabile. Dupa ce am standardizat datele putem incepe algoritmul de determinare a componentelor principale si examinarea output-urilor SPSS.
Matricea Correlation Matrix explica intensitatea legaturilor dintre variabilele initiale. De asemenea cu ajutorul ei putem determina numarul de componente principale de care avem nevoie. Astfel, deoarece populatia ete corelata puternic cu numarul de locuri din Parlamentul European(0.995), balanta de plati externa este puternic corelata cu valoarea pasivelor(0.981), iar numarul de someri este intr-o corelatie pozitiva cu populatia, inseamna ca avem nevoie de aproximativ 3 componente principale. De asemenea matrice corelatiilor este nesingulara, determinantul matricei continand cantitatea totala de informatii a datelor initiale. Determinantul matricei corelatiilor se mai numeste si variant generalizata.
Preview document
Conținut arhivă zip
- Proiect la Analiza Datelor.doc