Extras din notiță

Ce este analiza componentelor principale.Evidentiati 5 categorii de pb care pot fi solutionate cu ajutorul tehnicilor de analiza a componentelor principale.

ACP este o tehnica de analiza multidimensionala care are ca scop descompunerea variabilitatii totale din spatiul cauzal initial sub forma unui nr. redus de componente si fara ca aceasta descompunere sa contina redundante informationale.ACP este o tehnica de analiza multidimensionala care are ca scop reducerea dimensionalitatii spatiului cauzal initial,in conditiile unei pierderi informationale minime.ACP repr.procedura algoritmica de analiza multidimensional ace consta in determinarea unor noi variabile,numite componente principale,definite sub forma combinatiilor liniare de variabile initiale cu varianta maxima.5 categorii de probleme sol.cu ACP:a)reducerea complexitatii datelor(data reduction)poate fi inlocuit un masiv de date de mari dimensiuni prin masive de dimensiuni mai mici.b)evidentierea si fixarea patternului asocierilor dintre variabile.c)det.variab.latente care se afla in spatele variab.masurate.

Interpretati logica analizei componentelor principale(inclusiv d.p.d.v geometric).

D.p.d.v geometric,variabilele numite componente principale definesc un nou spatiu al obiectelor.Cele mai interesante si mai utile aspect ale analizei componentelor principale sunt in primul rand legate,nu de aparatul mathematic pe care aceasta analiza se bazeaza,ci de multiplele si nuantele interpretari posibile pe care aceasta le ofera.Logica analizei componentelor principale se bazeaza pe ideea fundamentala ca se pot face anumite transformari asupra observatiilor initiale,care sa determine maximizarea variantei individuale pt.anumite variabile si minimizarea variantei pt.alte variabile.Et.1:se det.val.proprii corespunz.matricii de covarianta atasata var.initiale prin rezolvarea ecuatiilor.caracteristice:det|ԑ- λI|=0.Et.2:Cele n val.proprii anterior determ.sunt ordonate descrescator λ1≥ λ2≥ λ3≥ λ4≥…≥ λn.Et.3:Pt fiecare val.proprie luata in ordine descresc.se det.vectorul propriu atasat:ԑ*αi=λi* αi.Et.4:Se det.noile variab.drept combinatii liniare ale var.originale avand coef.dati de comp.vectorului propriu identificat la et.3.

Definiti componentele principale si mentionati proprietatile acestora:

Componentele principale sunt variabile vectoriale abstracte,definite sub forma unor combinatii liniare de variabile initiale si care au urmatoarele 2 proprietati fundamentale: a)sunt necorelate 2 cate 2 si suma patratelor coeficientilor care definesc combinatia liniara ce corespunde unei component principale este egala cu unitatea;b)prima componenta principala este o combinatie liniara normalizata a carei varianta este maxima,cea de-a doua componenta principala este o combinatie liniara necorelata cu prima component principal si care are o variant cat mai mare posibila,insa mai mica decat cea a primei componente. Proprietati:a)axele noului spatiu sunt ortogonale 2 cate 2 si definesc noile variabile numite componente principale;b)coordonatele obiectelor(generate prin proiectii pe axele noului spatiu)sunt denumite scoruri principale si au proprietatea ca pastreaza canfigurarea initiala a acestora;c)nr de componente principale este egal cu nr.de variabile originale;nu toate comp.princ. au insa o semnificatie informationala considerabila,astfel incat cele mai putin semnificative d.p.d.v informational sunt eliminate;d)componentele principale sunt combinatii liniare de varianta maximal ale variabilelor originale;e)componentele principale sunt scalate in functie de magnitudinea variantei acestora,prima fiind componenta principala cu varianta maxima,iar ultima component principal cu variant minima;f)componentele principale sunt necorelate 2 cate 2;g)suma variantelor comp. princ.coincide cu suma variantelor variabilelor originale,a.i. componentele principale preiau in totalitate variabilitatea continuta in variabilele originale.

Formulati modelul matematic al ACP,definiti si interpretati marimile definitorii ale acestora.

Opt ф (x,w)

AεMn*k , unde criteriul de optim poate fi de maxim sau minim, in functie de natura functiei ф

SR: w=At * t

Daca functia ф este de tip distanta,atunci criteriul de optim va fi reprezentat de minimizarea functiei ф. Daca functia ф este o masura a cantitatii de informative adusa de noua modelitate de repr. a obiectelor,criteriul de optim va fi repr. de max. functiei ф.Combinatiile liniare care definesc comp. princ. pot fi scrie de forma :

w1=α11 x1+α21x2+…+αn1xn =>modelul matematic al ACP:

w2= α12 x1+α22x2+…+αn2xn max Var(w)

wn=α1n x1+α2nx2+…+αnnxn AεMn*n

w=At *x

Cele n coloane ale matricii A repr. vectorii proprii normalizati ai matricii de covarianta ∑,iar varianta fiecarei comp.princ. wi,care este o varianta maximala in raport cu variantele comp.princ anterioare,este repr. de valoarea proprie λi a aceleeasi matrici de covarianta.Spatiul cauzal initial supus investigarii este det.de un nr.de n variabile explicative notate x1,x2,…xn.Pt det.comp. princ. wi este necesara det.coef.αji,care defines combinatia liniara coresp.acestei comp.princ.

Ilustrati modul de deducere a componentelor principale.

Determinarea coeficientilor combinatiei liniare ce defineste comp.principala w,in conditiile maximizarii variantei acestei comp.principale,este echivalenta cu a alege dintre cele n valori proprii ale mattricii de covarianta ∑ pe cea mai mare si a determina componentele vectorului de ponderi α ce defineste respective comp.principala prin calculul vectorului propriu al matricii ∑ asociat cu acea valoare proprie.

Pt.fiecare valoare proprie λi din cele n valori proprii ale matricii de covarianta ∑,avem cate o solutie a pb.de max: max αt * ∑ * α ,adica cate un vector αi si cate o comp.principala wi. α

Presupunand ca cele n valori proprii ale matricii de covarianta ∑ sunt SR: αt *α=1 ordonate in asa fel incat: λ1≥λ2≥…≥ λn,prima component principal w1,care va avea variant maxima λ1,este data de combinatia liniara: w1=(α1)t * x.

Vectorul α1este acel vector propriu al matricii de covarianta ∑ caruia ii corespunde valoarea proprie cea mai mare, λ1,adica este vectorul care verifica restrictiile urmatoare:

(∑-λ1*I)*α1=0

(α1)t*α1=1 ,valoarea proprie λ1 este radacina a ecuatiei caracteristice: |∑- λi *I|=0 iar I este notatia pt matricea unitate.Determinarea in acest fel a componentei principale w1,face ca aceasta sa aiba proprietatile illustrate prin relatiile urm.: E(w1)=(α1)t*μ. Dupa det.primei comp.princ.w1,urmeaza det.celei de-a doua comp. princ.w,component care trb.caracterizata de urm.proprietati:sa aiba variant maximala si sa fie necorelata cu prima comp.princ.w1.