Cuprins
- Introducere.3
- I. Analiza componentelor principale.4
- 1.1. Standardizarea datelor.4
- 1.2. Matricea de corelatie.5
- 1.3. Vectorii si valorile proprii.6
- 1.4. Reprezentarea grafica.7
- II. Analiza factoriala.9
- 2.1. Matricea de corelatie.9
- 2.2. Corelarea factorilor.10
- 2.3. Graficul corelarii.10
- 2.4. Descompunerea variabilitatii.11
- 2.5. Scorurile factor.11
- III. Analiza cluster.12
- 3.1. Clasificarea variabilelor prin Metoda lui Ward.12
- 3.2. Clasificarea variabilelor prin Metoda agregarii complete .13
- 3.3. Clasificarea indivizilor prin Metoda lui Ward.15
- 3.4. Clasificarea indivizilor prin Metoda agregarii complete .16
- IV. Analiza discriminanta.18
- 4.1. Clasificatorul lui Bayes.18
- 4.2. Clasificatorul lui Fisher.20
- Concluzii.22
- Bibliografie.23
Extras din proiect
Introducere
In cele ce urmeaza am realizat o canaliza a ofertei de autoturisme a unui dealer. Scopul final este acela de a stabili care sunt caracteristicile definitorii in alegerea unei masini personale.
Tabelul urmator contine caracteristicile a 26 de mărci de autoturisme oferite spre vânzare. Tabelul are 26 de linii – corespunzătoare mărcilor de autoturisme analizate şi 7 coloane, reprezentând preţul şi alte caracteristici tehnice şi de confort ale autoturismelor:
1. Preţul ($);
2. Capacitatea cilindrică (cmc);
3. Viteza maximă (km/h);
4. Consumul de carburant (litri/100 km);
5. Capacitatea habitaclului(cmc);
6. Lungimea (cm);
7. Raportul greutate-putere. Tabelul 1. Datele initiale
model pret cap cilindrica viteza max consum gr/p lungime cap habitaclu
Austin Metro Special 12000 998 140 6,2 23,2 340 955
CitroenAX 10RE 13275 954 145 5,6 19,4 350 1170
DaihatsuCharadeTS 14625 993 145 6,7 20,8 361 1151
FiatUno45Fire 13475 999 145 6,2 21,5 364 968
FiatUnoTurboTE 25005 1301 200 8,9 11 364 968
FiatUno70SL 17845 1302 165 7,7 16 364 968
FordFiestaJunior 13050 1117 137 7 22,7 364 900
FordFiestaXR-2 21743 1597 180 9,3 12 364 973
Nissan Micra 1.0 DX 12400 988 140 6,4 17 364 375
Opel Corsa Swing 13050 993 143 7,2 22,4 362 845
Peugeot20SXE 13260 954 134 6,8 23,8 370 1200
Peugeot20SGL 15780 1124 142 5,8 21,4 370 1200
Peugeot20SGT 18965 1360 170 9,2 13,9 370 1200
Peugeot20SGTI 25175 1580 190 8,7 11,2 370 1200
Renault4TL 12981 956 115 6,3 33,1 367 950
RenauIt4GTL 13806 1108 120 6,3 28,4 367 950
Renault5SL 14156 1108 143 5,8 20,6 359 915
Renault5GTS 17250 1397 167 7,9 13,8 359 915
Renault5GTTurbo 25319 1397 200 8,7 10,2 359 915
SEATIbizaGLX 19283 1461 175 8,8 14,7 364 1200
SEATMarbellaGL 10970 903 131 7,3 23,4 347 1088
SuzukiSwiftGA 12115 993 145 6,4 18,4 358 400
SuzukiSwiftGL 14655 1324 163 6,5 14 358 400
ToyotaStarlettL 14000 999 150 6,1 19,5 370 202
ToyotaStarlettXL 16850 1295 170 6,8 15 370 202
Volkswagen Polo 18045 1272 170 8 14 365 1040
I. Analiza componentelor principale
Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus de componente, fara ca aceasta forma sa contina redundante informationale.Aceste componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele, fiecare fiind o combinatie liniara de variabilele originale.
Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a autoturismelor.
Vom considera prima variabila, pretul, ca fiind un indicator general esential in alegerea unei masini. Urmatoarele patru variabile sunt caracteristici tehnice care caracterizeaza puterea si rapiditatea unui autoturism iar ultimile doua variabile indica gradul de confort ale acestuia.
Pe baza celor 7 caracteristici sunt variabile vom calcula cativa indicatori de centrare si imprastiere:
Figura 1. Indicatori
1.1. Standardizarea datelor
Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom efectua Analiza Componentelor Principale pe date standardizate.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile:
unde reprezinta media celei de-a i-a variabile, iar reprezinta abaterea standard a variabilei .
- pentru cazul deplasat:
- pentru cazul deplasat:
Preview document
Conținut arhivă zip
- Analiza Datelor - Proiect SAS.doc