Upload
cristinaboboc
View
19
Download
1
Embed Size (px)
DESCRIPTION
AFM
Citation preview
Analiza statistic multidimensional
Curs 2 1 martie 2012
Conf.univ.dr.Cristina BOBOC
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
ANALIZA FACTORIAL
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Sumar
I. Noiuni introductive
II. Metode de clasificare
III. Analiza n componente principale
IV. Analiza de corespondene multiple
I. NOIUNI INTRODUCTIVE
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Noiuni introductive
prima referin la aceaste metode a fcut-o n anul 1901Karl Pearson
n anul 1933 a fost integrat statisticii matematice dectre Harold Hotelling
a nceput s fie utilizat efectiv dup dezvoltareametodelor actuale de calcul cu ajutorul calculatoarelor
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Noiuni introductive
Utilizatorii metodelor factoariale pleac de la un tablou de msuri, pe coloane figurnd variabilele numerice continue, liniile fiind indivizii pentru care sunt msurate variabilele.
valoarea variabilei j pentru individul i
vector coloanvector linie
p puncte n Rnn puncte n Rp
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Noiuni introductive
Configurarea norului de punte n spaiu
vizualizarea punctelor n cel mai bun spaiu redus (ACP, ACM)
regruparea punctelorn spaiu(metode de clasificare)
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
n Rp poate fi definit funcia d, distan pe X cu proprietile:
Xz x, yd(z,y)d(x,z)d(x,y)
yx0d(x,y)
Xx, y 0, d(x,y)
Xx, y d(y,x)1. d(x,y)
, , .3
.2
Noiuni introductiveCaracterizarea indivizilor
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Noiuni introductiveCaracterizarea indivizilor
Tipuri de distane:
distana euclidian:
ptratul distanei euclidiene:
distana city-block (Manhattan):
distana Cebev:
i
ii yxyxd2)(),(
i
ii yxyxd2)(),(
i
ii yxyxd ),(
iii
yxyxd max),(
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Noiuni introductiveCaracterizarea indivizilor
Indicele de similaritate pe X este o funcie cu proprietile:
, adic nu exist un individ mai asemntor ca el nsui.
Indicele de disimilaritate pe X este o funcie cu proprietile:
RXXs :
s .2
Xx, y 0, (x,y)
Xx, y s(y,x)1. s(x,y)
Xx, ys(x,y)(x,x) ,s .3
RXXd :
Xxd(x,x
Xx, y0, d(x,y)
Xx, yd(y,x)1. d(x,y)
,0) .3
.2
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Noiuni introductiveCaracterizarea indivizilor
O situaie frecvent ntlnit este cea n care datele sunt prezentate n forma urmtoare: cein indivizi sunt descrii prin prezena sau absena a r caracteristici (datele iniiale sunt subform binar, variabilele sunt dichotomice). n aceast situaie, fiecare cuplu de indivizi(x,y) este caracterizat de 4 numere:
a = numrul de caracteristici comune (pe care le posed ambii indivizi);
b = numrul de caracteristici posedate de primul individ din cuplu, dar nu i de cel de-al doilea;
c = numrul de caracteristici posedate de cel de-al doilea individ, dar nu i de primul.
d = numrul de caracteristici ce nu sunt posedate nici de unul, nici de cellalt individ.
Pe baza acestor patru numere se construiete tabelul de similaritate sau prin completare n raport cu 1, cel de disimilaritate, utiliznd diferii indici, ca de exemplu:
indicele Jaccard:
indicele Czekanowski:
indicele Ochicii:
indicele Russel i Rao:
cba
a
cba
a
2
2
))(( caba
a
dcba
a
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Noiuni introductiveCaracterizarea variabilelor
dac valorile nregistrate pentru dou variabile suntasemntoare pentru toi indivizii, variabilele vor fireprezentate n Rn prin dou puncte foarte apropiate
apropierea dintre dou variabile semnific corelareaexistent ntre aceste dou variabile
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Noiuni introductiveCaracterizarea variabilelor
Media
Dispersia
Omogenitatea
Asimetria
Corelarea
n
xx i
n
xxi 2
2 )(
1,0x
cv
1,1
Moxcas
22)()(
))((),(
yyxx
yyxxyxr
ii
ii
II. METODE DE CLASIFICARE
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Metode de clasificare
sintetizarea datelor, prin gruparea n clase a indivizilor, n aa fel nct indivizii aparinnd unei aceleiai clase s fie ct mai asemntori ntre ei (similari) din punctul de vedere al caracteristicilor studiate, iar indivizii din clase diferite s fie ct mai deosebii
dou tipuri de metode de clasificare: metode ierarhice, care produc iruri de partiii n clase din ce n
ce mai mari
metode neierarhice, care produc o partiie ntr-un numrprestabilit de clase
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Metode de clasificareMETODE DE CLASIFICARE IERARHICE
Fie E o mulime.
HP(E) se numete ierarhie dac i numai dac:
1. PiP(E) a card(Pi)=1 E i Pi H
2. A,BH AB A,B,
3. AH , Ci | CiA, CiA A,
Exemplu: E=a,b,c,d,eH = ,
a,b,c,d,e,
a,b,c,d,e,
a,b,c,d,e,
a,b,c,d,e,
a,b,c,d,e
a b c d e
a,b c d e
a,b c,d e
a,b c,d,e
a,b,c,d,e
Nivel
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Metode de clasificareMETODE DE CLASIFICARE IERARHICE
O ierarhie se numete indexat dac exist o funciei:HR astfel nct :
A,BH astfel nct AB i(A)i(B)
i(A) = nivelul pentru care pentru prima oar se gsesc agregatetoate elementele lui A
Observaie: Cu ct nivelul de agregare este mai mare cuatt mulimea este mai eterogen
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Metode de clasificareMETODE DE CLASIFICARE IERARHICE
Metoda WARD: cnd pe spaiul ERp este definit o distan euclidian
calitatea unei partiii este definit prin ineria intraclase sau cea interclase
o partiie bun are ineria interclase mare sau ineria intraclase mic
cnd se trece de la o partiie cu k+1 clase la una cu k clase, se observ cineria interclase scade, pentru c cea intraclase crete prin cretereaheterogenitii claselor partiiei
Criteriul de grupare: vor fuziona acele dou clase pentru carepierderea de inerie interclase este minim
Metoda WARD introduce ca distan ntre 2 clase pierderea de inerieinterclase ce s-ar obine prin contopirea celor dou clase.
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Metode de clasificareMETODE DE CLASIFICARE IERARHICE
1. Dac:
A i B sunt dou clase ale unei partiii a mulimii E
gA i gB sunt centrele lor de greutate
pA i pB sunt ponderile claselor
atunci centrul de greutate al mulimii AB, gAB este :
2. Distana dintre dou clase dup metoda WARD este:
3. Partiia generat de algoritmul WARD este o partiie ierarhic.
4. Algoritmul WARD genereaz o ierarhie indexat cu i(AB)= (A,B).
BA
BBAAAB
pp
gpgpg
),(),( 2 BABA
BA ggdpp
ppBA
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Metode de clasificareMETODE DE CLASIFICARE IERARHICE
Alte metode de clasificare ierarhic:
1. inf(A,B)=inf d(ei,ej) eiA, ejB Aceasta se numete distana saltului minimal (Single Linkage).
Aceast metod este recomandat atunci cnd clasele sunt relativ omogene att n interiorul lor ct i n interiorul norului.
2. sup(A,B)=sup d(ei,ej) eiA, ejB Aceasta se numete distana saltului maximal (Complete Linkage).
Cnd metoda anterioar nu funcioneaz, se poate aplica aceast metod.
3. med(A,B)=
Aceasta se numete distana medie i este un compromis ntre cele dou anterioare (Mean Linkage).
Observaie: Deoarece ierarhiile generate prin aceste metode pot fi foarte diferite, se recomand folosirea mai multor metode. Dac partiiile cu un numr mic de clase sunt foarte diferite ntre ele, atunci este posibil ca mulimea indivizilor s nu poat fi mprit n clase.
Ae Be
ji
BA i j
eedpp
),(2
1
Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC
Metode de clasificareEXEMPLU 1
Fie 4 indivizi pentru care se msoar nlimea, coeficientul de inteligen, greutatea, codificate pe o scal de la 1 la 10 obinnd cuplurile de rezultate:
(1,7,3); (2,9,4); (7,1,5); (10,3,7)
Cum putei obine o clasificare ierarhic a acestor indivizi prin metoda WARD?