Extras din referat
Analiza componentelor principale (PCA – Principal Component Analysis) face parte din categoria tehnicilor multivariate care permit reducerea dimensiunii datelor.
În termeni matematici, analiza pe componente principale (ACP) asigură transformarea unui set de date corelate din spaţiul cu p dimensiuni, într-un set de date necorelate în spaţiul cu q dimensiuni (q≤p).
Variabilele necorelate, numite componente principale, constituie combinaţii liniare ale mărimilor originale corelate (variabile initiale).
În felul acesta, ACP reprezintă un procedeu simplu pentru procesarea, compresia şi vizualizarea datelor.
Altfel spus, ACP permite micşorarea dimensiunii datelor în vederea unei descrieri compacte şi optimale a acestora.
Trei moduri de prezentare, în funcţie de contribuţiile în timp la dezvoltarea ei:
K. Pearson (1901) a considerat inerţia ca fiind criteriul de identificare a componentelor principale.
Inerţia totală este suma varianţelor celor p variabile. În cazul datelor centrate şi reduse, inerţia totală este egală cu p. Se proiectează norul de puncte al indivizilor pe un subspaţiu de dimensiune fixă, trecând prin origine (punctul mediu, centrul de greutate, ale cărui coordonate sunt mediile fiecărei variabile).
Căutarea variabilor care maximizează criteriile de dipersie sau de corelaţie.
Harold Hoteling - căutarea combinaţiilor liniare de varianţă maximă a celor p variabile iniţiale. Vectorii care cuprind cei p coeficienţi ai combinaţiilor liniare, sunt factorii principali, sunt vectorii proprii ai matricei de corelaţie R, (descrescător după valorile lor proprii). Aceste combinaţii se numesc componente principale. Suma primelor k valori proprii este egală cu inerţia norului proiectat pe subspaţiul de dimensiune k.
De la p variabile cantitative, se caută noi variabile notate Fk , necorelate între ele, dar cât mai corelate cu cele p variabile iniţiale în sensul că:
max .
Conținut arhivă zip
- Analiza Componentelor Principale.ppt