21
Analiza statistică multidimensională Curs 2 1 martie 2012 Conf.univ.dr.Cristina BOBOC

Curs 2 - 1 Martie 2012

Embed Size (px)

DESCRIPTION

AFM

Citation preview

  • Analiza statistic multidimensional

    Curs 2 1 martie 2012

    Conf.univ.dr.Cristina BOBOC

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    ANALIZA FACTORIAL

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Sumar

    I. Noiuni introductive

    II. Metode de clasificare

    III. Analiza n componente principale

    IV. Analiza de corespondene multiple

  • I. NOIUNI INTRODUCTIVE

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Noiuni introductive

    prima referin la aceaste metode a fcut-o n anul 1901Karl Pearson

    n anul 1933 a fost integrat statisticii matematice dectre Harold Hotelling

    a nceput s fie utilizat efectiv dup dezvoltareametodelor actuale de calcul cu ajutorul calculatoarelor

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Noiuni introductive

    Utilizatorii metodelor factoariale pleac de la un tablou de msuri, pe coloane figurnd variabilele numerice continue, liniile fiind indivizii pentru care sunt msurate variabilele.

    valoarea variabilei j pentru individul i

    vector coloanvector linie

    p puncte n Rnn puncte n Rp

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Noiuni introductive

    Configurarea norului de punte n spaiu

    vizualizarea punctelor n cel mai bun spaiu redus (ACP, ACM)

    regruparea punctelorn spaiu(metode de clasificare)

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    n Rp poate fi definit funcia d, distan pe X cu proprietile:

    Xz x, yd(z,y)d(x,z)d(x,y)

    yx0d(x,y)

    Xx, y 0, d(x,y)

    Xx, y d(y,x)1. d(x,y)

    , , .3

    .2

    Noiuni introductiveCaracterizarea indivizilor

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Noiuni introductiveCaracterizarea indivizilor

    Tipuri de distane:

    distana euclidian:

    ptratul distanei euclidiene:

    distana city-block (Manhattan):

    distana Cebev:

    i

    ii yxyxd2)(),(

    i

    ii yxyxd2)(),(

    i

    ii yxyxd ),(

    iii

    yxyxd max),(

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Noiuni introductiveCaracterizarea indivizilor

    Indicele de similaritate pe X este o funcie cu proprietile:

    , adic nu exist un individ mai asemntor ca el nsui.

    Indicele de disimilaritate pe X este o funcie cu proprietile:

    RXXs :

    s .2

    Xx, y 0, (x,y)

    Xx, y s(y,x)1. s(x,y)

    Xx, ys(x,y)(x,x) ,s .3

    RXXd :

    Xxd(x,x

    Xx, y0, d(x,y)

    Xx, yd(y,x)1. d(x,y)

    ,0) .3

    .2

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Noiuni introductiveCaracterizarea indivizilor

    O situaie frecvent ntlnit este cea n care datele sunt prezentate n forma urmtoare: cein indivizi sunt descrii prin prezena sau absena a r caracteristici (datele iniiale sunt subform binar, variabilele sunt dichotomice). n aceast situaie, fiecare cuplu de indivizi(x,y) este caracterizat de 4 numere:

    a = numrul de caracteristici comune (pe care le posed ambii indivizi);

    b = numrul de caracteristici posedate de primul individ din cuplu, dar nu i de cel de-al doilea;

    c = numrul de caracteristici posedate de cel de-al doilea individ, dar nu i de primul.

    d = numrul de caracteristici ce nu sunt posedate nici de unul, nici de cellalt individ.

    Pe baza acestor patru numere se construiete tabelul de similaritate sau prin completare n raport cu 1, cel de disimilaritate, utiliznd diferii indici, ca de exemplu:

    indicele Jaccard:

    indicele Czekanowski:

    indicele Ochicii:

    indicele Russel i Rao:

    cba

    a

    cba

    a

    2

    2

    ))(( caba

    a

    dcba

    a

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Noiuni introductiveCaracterizarea variabilelor

    dac valorile nregistrate pentru dou variabile suntasemntoare pentru toi indivizii, variabilele vor fireprezentate n Rn prin dou puncte foarte apropiate

    apropierea dintre dou variabile semnific corelareaexistent ntre aceste dou variabile

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Noiuni introductiveCaracterizarea variabilelor

    Media

    Dispersia

    Omogenitatea

    Asimetria

    Corelarea

    n

    xx i

    n

    xxi 2

    2 )(

    1,0x

    cv

    1,1

    Moxcas

    22)()(

    ))((),(

    yyxx

    yyxxyxr

    ii

    ii

  • II. METODE DE CLASIFICARE

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Metode de clasificare

    sintetizarea datelor, prin gruparea n clase a indivizilor, n aa fel nct indivizii aparinnd unei aceleiai clase s fie ct mai asemntori ntre ei (similari) din punctul de vedere al caracteristicilor studiate, iar indivizii din clase diferite s fie ct mai deosebii

    dou tipuri de metode de clasificare: metode ierarhice, care produc iruri de partiii n clase din ce n

    ce mai mari

    metode neierarhice, care produc o partiie ntr-un numrprestabilit de clase

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Metode de clasificareMETODE DE CLASIFICARE IERARHICE

    Fie E o mulime.

    HP(E) se numete ierarhie dac i numai dac:

    1. PiP(E) a card(Pi)=1 E i Pi H

    2. A,BH AB A,B,

    3. AH , Ci | CiA, CiA A,

    Exemplu: E=a,b,c,d,eH = ,

    a,b,c,d,e,

    a,b,c,d,e,

    a,b,c,d,e,

    a,b,c,d,e,

    a,b,c,d,e

    a b c d e

    a,b c d e

    a,b c,d e

    a,b c,d,e

    a,b,c,d,e

    Nivel

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Metode de clasificareMETODE DE CLASIFICARE IERARHICE

    O ierarhie se numete indexat dac exist o funciei:HR astfel nct :

    A,BH astfel nct AB i(A)i(B)

    i(A) = nivelul pentru care pentru prima oar se gsesc agregatetoate elementele lui A

    Observaie: Cu ct nivelul de agregare este mai mare cuatt mulimea este mai eterogen

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Metode de clasificareMETODE DE CLASIFICARE IERARHICE

    Metoda WARD: cnd pe spaiul ERp este definit o distan euclidian

    calitatea unei partiii este definit prin ineria intraclase sau cea interclase

    o partiie bun are ineria interclase mare sau ineria intraclase mic

    cnd se trece de la o partiie cu k+1 clase la una cu k clase, se observ cineria interclase scade, pentru c cea intraclase crete prin cretereaheterogenitii claselor partiiei

    Criteriul de grupare: vor fuziona acele dou clase pentru carepierderea de inerie interclase este minim

    Metoda WARD introduce ca distan ntre 2 clase pierderea de inerieinterclase ce s-ar obine prin contopirea celor dou clase.

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Metode de clasificareMETODE DE CLASIFICARE IERARHICE

    1. Dac:

    A i B sunt dou clase ale unei partiii a mulimii E

    gA i gB sunt centrele lor de greutate

    pA i pB sunt ponderile claselor

    atunci centrul de greutate al mulimii AB, gAB este :

    2. Distana dintre dou clase dup metoda WARD este:

    3. Partiia generat de algoritmul WARD este o partiie ierarhic.

    4. Algoritmul WARD genereaz o ierarhie indexat cu i(AB)= (A,B).

    BA

    BBAAAB

    pp

    gpgpg

    ),(),( 2 BABA

    BA ggdpp

    ppBA

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Metode de clasificareMETODE DE CLASIFICARE IERARHICE

    Alte metode de clasificare ierarhic:

    1. inf(A,B)=inf d(ei,ej) eiA, ejB Aceasta se numete distana saltului minimal (Single Linkage).

    Aceast metod este recomandat atunci cnd clasele sunt relativ omogene att n interiorul lor ct i n interiorul norului.

    2. sup(A,B)=sup d(ei,ej) eiA, ejB Aceasta se numete distana saltului maximal (Complete Linkage).

    Cnd metoda anterioar nu funcioneaz, se poate aplica aceast metod.

    3. med(A,B)=

    Aceasta se numete distana medie i este un compromis ntre cele dou anterioare (Mean Linkage).

    Observaie: Deoarece ierarhiile generate prin aceste metode pot fi foarte diferite, se recomand folosirea mai multor metode. Dac partiiile cu un numr mic de clase sunt foarte diferite ntre ele, atunci este posibil ca mulimea indivizilor s nu poat fi mprit n clase.

    Ae Be

    ji

    BA i j

    eedpp

    ),(2

    1

  • Curs Metode de analiz statistic multidimensional ITitular de curs: Conf.univ.dr. Cristina BOBOC

    Metode de clasificareEXEMPLU 1

    Fie 4 indivizi pentru care se msoar nlimea, coeficientul de inteligen, greutatea, codificate pe o scal de la 1 la 10 obinnd cuplurile de rezultate:

    (1,7,3); (2,9,4); (7,1,5); (10,3,7)

    Cum putei obine o clasificare ierarhic a acestor indivizi prin metoda WARD?