Cuprins
- I.Descrierea datelor
- II.Analiza componentelor principale
- III.Analiza factoriala
- IV.Metode nesupervizare de recunoastere a formelor
- A. Clusterizare prin metoda Ward
- B. Algoritmul de partitionare K-means
- V.Metode de recunoastere a fomelor supervizate.Analiza discriminanta
- VI.Concluzii
Extras din proiect
I.Descrierea datelor
Analiza datelor are ca obiectiv principal extragerea informatiei relevante , semnificative care este continuta in informatia primara, in date.Aceasta informatie este utilizata in continuare in interpretare, testatare, estimare, predictie fenomenelor economico-sociale sau financiare.
Datele pentru acest studiu sunt preluate de pe site-ul http://www.sci.usq.edu.au/staff/dunn/Datasets/applications/popular/countries.html si furnizeaza informatii despre 38 de tari cu privire la urmatoarele variabile :
Suprafata-masurata in km patrati
Irigatii-suprafata irigata in km patrati
Pop-populatia tarii respective in milioane
Pers14-populatia care are sub 14 ani in milioane
SV-speranta de viata la nastere
Alfabet-gradul de alfabetizare
Someri-rata somajului
ISP-Internet Service Provider la un milion de persoane
TVS-numarul televizoarelor pe persoana
Caleferata-lungimea caiilor ferate in km
Aeroporturi-numarul de aeroporturi din tara respectiva
Aceste date sunt utile pentru modelarea unor fenomene economico-sociale, asupra carora vom aplica diverse tehnici de analiza multidimensioanala in scopul reducerii numarului de variabile, pentru determinarea unor cauze , a unor factori latenti care influentaza aceste date, a stabilirii cauzalitatii si legaturilor intre ele.De asemenea vom incerca sa le grupam , in functie de anumite variabile care o au putere de discriminare mai mare, sa determinam anumite clase de apartenenta pentru fiecare dintre variabile prin intemediul tehnicii de recunoastere a formelor nesupervizata, de determinarea unor functii de clasificare si in cele din urma de testarea calitatii acestor indicatori .
I.Analiza componentelor principale
Aceasta tehnica are ca scop determinarea unor noi variabile numite componente principale si exprimate sub forma combinatiilor liniare de varibile originale astfel incat aceste noi combinatii sa aiba o variabilitate maxima, ceea ce se traduce prin faptul ca ele vor aduce un maxim de informatie posibila, fara sa existe informatie redundanta.
Astfel in loc de 13 variabile originale vom incerca sa obtinem un nr mai mic (de regula 2-4) de noi variabile construite in asa fel incat ele sunt necorelate intre ele 2 cate 3 si suma patratelor coeficientilor este egala cu unitatea .
Privite din punct de vedere geometric, componentele principale definesc un nou spatiu al obiectelor in care axele sunt componentele principale iar valorile sunt coordonatele acestor in spatiu numite si scoruri.
Pe langa celelalte proprietati noile componente au si proprietatea ca suma variantelor este egala cu suma variantelor variabilelor originale.
Inainte de a face aceasta analiza este de preferat ca variabilele sa fie standardizate
proc distance data =work.prog method = euclid outsdz = work.fis;
var ratio ( suprafata irigatii Pop Pers14 SV Alfabet Someri ISP TVS Caleferata Aeroporturi/std=std);
run;
Determinam matricea de corelatie a indicatorilor si observam cuplurile de variabile puternic corelate care in cazul variabilelor standardizate este aceeasi cu matricea de covarianta.Aceasta ne va ajuta sa stabilim in continuare numarul de componente pricipale necesare, care mai pot fi privite si ca un numar de grupe de variabile puternic corelate intre ele.
proc princomp data=work.fis cov out=Scoruri n=11 outstat=rez_ACP;
var suprafata irigatii Pop Pers14 SV Alfabet Someri ISP TVS Caleferata Aeroporturi;
title 'rezultate Analiza Componentelor Principale';
run;
Preview document
Conținut arhivă zip
- Analiza Multidimensionala a Datelor.doc