Sveu£ili²te J.J.Strossmayera u Osijeku Odjel za matematiku ...mdjumic/uploads/diplomski/KLA08.pdf · Sveu£ili²te J.J.Strossmayera u Osijeku Odjel za matematiku Sveu£ili²ni diplomski

Sveu£ili²te J.J.Strossmayera u OsijekuOdjel za matematiku

Sveu£ili²ni diplomski studij matematikeSmjer: Financijska matematika i statistika

Jelena Klasanovi¢

Analiza podataka s nedostaju¢im vrijednostima

Diplomski rad

Osijek, 2015.

Sveu£ili²te J.J.Strossmayera u OsijekuOdjel za matematiku

Sveu£ili²ni diplomski studij matematikeSmjer: Financijska matematika i statistika

Jelena Klasanovi¢

Analiza podataka s nedostaju¢im vrijednostima

Diplomski rad

Mentor : izv.prof.dr.sc. Mirta Ben²i¢

Osijek, 2015.

Sadrºaj

1 UVOD 2

2 MODELIRANJE NEDOSTAJUIH PODATAKA 32.1 Matrica podataka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Mehanizmi nedostaju¢ih podataka . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Uzorak nedostajanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 STANDARDNE STATISTIKE METODE S NEDOSTAJUIM PODA-CIMA 73.1 Analiza potpune matrice podataka . . . . . . . . . . . . . . . . . . . . . . . 73.2 Analiza dostupnih slu£ajeva . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.3 Imputacijske metode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4 METODA MAKSIMALNE VJERODOSTOJNOSTI 124.1 Metoda maksimalne vjerodostojnosti za nedostaju¢e podatke . . . . . . . . . 144.2 Maksimiziranje po parametrima i nedostaju¢im podacima . . . . . . . . . . . 194.3 Alternativne ra£unske strategije . . . . . . . . . . . . . . . . . . . . . . . . . 20

5 EM ALGORITAM 215.1 Konveksne funkcije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245.2 Teorija EM algoritma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255.3 Brzina konvergencije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.4 Fisherova informacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.5 EM algoritam za regularne eksponencijalne familije . . . . . . . . . . . . . . 30

6 PRILOZI 366.1 Jednostavan slu£ajan uzorak iz dvodimenzionalne normalne distribucije s jed-

nom varijablom s nedostaju¢im podacima . . . . . . . . . . . . . . . . . . . . 366.2 Jednostavan slu£ajan uzorak iz normalne distribucije . . . . . . . . . . . . . 37

7 LITERATURA 39

8 IVOTOPIS 41

1

1 UVOD

Problem nedostaju¢ih podataka £esta je pojava u praksi. Navedimo neke od razloga:

- Ispitanici nisu dali odgovor na sva pitanja upitnika. Neki odgovori mogu nedostajatiukoliko je neko pitanje bilo slu£ajno presko£eno ili ukoliko pojedini ispitanici ne ºeledati informacije o njima osjetljivim temama.

- U duljim klini£kim ispitivanjima, pojedini ispitanici ne moraju sudjelovati tijekomcijeloga trajanja ispitivanja, tj. mogu odlu£iti ne nastaviti sudjelovanje u istome. Uslu£aju daljnjega nesudjelovanja, te²ko je karakterizirati stohasti£ku prirodu dogaaja.

- Fizikalni eksperimenti u industrijskoj proizvodnji (npr. kontrola kvalitete) ponekadmogu zavr²iti ukoliko je do²lo do mogu¢eg uni²tenja objekta koji se prou£avao.

Vaºno je dobiti odgovor na pitanje za²to neki podaci nedostaju i kako se treba pona²atiu daljnjoj analizi.

Kada su suo£eni s nedostaju¢im podacima, statisti£ari naj£e²¢e pribjegavaju kori²tenjuad hoc metoda kao ²to su npr. brisanje slu£ajeva (engl. "case deletion") ili umetanje poda-taka (engl. "imputation"), kako bi nepotpunu matricu podataka doveli do potpune matricepodataka. Umetanje podataka predstavlja generalni izraz za dopunjavanje nedostaju¢ih po-dataka s mogu¢im vrijednostima.

2

2 MODELIRANJE NEDOSTAJUIH PODATAKA

2.1 Matrica podataka

Standardne statisti£ke metode razvijene su za analiziranje pravokutnih skupova podataka,stoga ¢emo promatrati one pravokutne skupove podataka £iji redovi predstavljaju realizacijep - dimenzionalnog slu£ajnog vektora (Y1, . . . , Yp) s distribucijom F .

Neka je s y dana (n× p) matrica podataka:

y =

y11 . . . . . . y1p... ∗ ...... ∗... ∗ ...yn1 . . . . . . ynp

gdje su yij ∈ R, i = 1, . . . n, j = 1, . . . p. Neka redovi matrice y predstavljaju jedinke (slu-£ajeve, promatranja) te neka stupci matrice y predstavljaju varijable mjerene za svaku odjedinki. Ozna£imo sa ∗ sva ona promatranja za koje nedostaju podaci. Te podatke nazivat¢emo nedostaju¢im podacima.

Pretpostavimo kako se nedostaju¢i podaci unutar matrice podataka y mogu pojaviti ubilo kojem uzorku. Op¢enito, moºemo uvesti sljede¢i rastav komponenti nekog slu£ajnogvektora Y :

(i) Yobs - dio komponenti slu£ajnog vektora Y sa svim podacima za sva promatranja, tj.izmjereni dio, dok je

(ii) Ymis - dio komponenti slu£ajnog vektora Y s promatranjima za koja nedostaju nekipodaci, tj. nedostaju¢i dio.

Ovaj rastav zapisivat ¢emo:Y = (Yobs, Ymis) (1)

S obzirom na ovakav rastav komponenti slu£ajnog vektora Y , pretpostavimo da se funkcijagusto¢e slu£ajnog vektora Y moºe rastaviti na sljede¢i na£in:

fY (y; θ) = f(Yobs,Ymis)(yobs, ymis; θ) = fYobs(yobs)fYmis|Yobs(ymis|yobs; θ) (2)

gdje je

(i) fYobs(yobs; θ) - funkcija gusto¢e Yobs dijela,

(ii) fYmis|Yobs(ymis|yobs; θ) - uvjetna funkcija gusto¢e Ymis dijela uvjetno na Yobs, dok je

(iii) θ - nepoznati parametar modela za Y = (Yobs, Ymis) iz prostora parametara Θ.

U slu£aju odsustva nedostaju¢ih podataka, govorit ¢emo o potpunome slu£aju, tj. opotpunoj matrici podataka.

3

2.2 Mehanizmi nedostaju¢ih podataka

Klju£an je element pri odabiru prikladne statisti£ke analize odreivanje razloga zbog kojihodreeni podaci nedostaju. Uvodimo pojmove sljede¢ih mehanizama nedostaju¢ih podataka.

Neka je dan (n × p) - dimenzionalan slu£ajan vektor R £ije komponente £ine indikatorvarijable Rij za i = 1, . . . , n, j = 1, . . . p takve da

Rij =

1, Yij promotren (izmjeren)0, Yij nedostaje

. (3)

Neka je s r dana (n× p) realizacija slu£ajnog vektora R. Matricu r nazivat ¢emo indikatormatrica nedostaju¢ih podataka.

Primjer 1. Neka je s y dana (3× 3) matrica podataka:

y =

y11 y12 y13

∗ y22 ∗y31 ∗ y33

Pripadna indikator matrica r, matrice podataka y dana je s:

r =

1 1 10 1 01 0 1

Generalno ne moºemo o£ekivati kako distribucija indikator vektora R ne ovisi o samoj

distribuciji slu£ajnog vektora Y , pa stoga uvodimo statisti£ki model za nedostaju¢e podatkefR|Y (r|y;ψ), koji ovisi o distribuciji slu£ajnog vektora Y , ali i o nepoznatom vektoru parame-tara ψ ∈ Ψ. Valja pretpostaviti kako su vektor parametara θ ∈ Θ modela za Y = (Yobs, Ymis)te vektor parametara ψ ∈ Ψ modela za R|Y nezavisni.

Denicija 1. Za nedostaju¢e podatke kaºemo da su MCAR (engl. "Missing completely atrandom"), ako

fR|Y (r|y;ψ) = fR(r;ψ), ∀ y. (4)

Drugim rije£ima, distribucija slu£ajnog vektora Y ne moºe se koristiti za specikacijudistribucije indikator vektora R, tj. vrijednosti nedostaju potpuno nasumi£no. MCAR zah-tjev takoer ne dozvoljava da su razlozi za nedostajanje jedne komponente slu£ajnog vektoraY povezani s razlozima nedostajanja druge komponente slu£ajnog vektora Y .

Iako je MCAR strog zahtjev, ponekad je razumna pretpostavka, pogotovo kada podacinedostaju kao dio istraºiva£kog projekta. Takvi projekti £esto su atraktivni kada je odreenavarijabla vrlo skupa za mjerenje. Strategija koja se koristi u tom slu£aju je mjerenje varijableza neki slu£ajan podskup ve¢eg uzorka, impliciraju¢i da ¢e podaci nedostajati nasumi£no zaostatak uzorka. Naºalost, pretpostavka MCAR nije £esta pojava u praksi.

Denicija 2. Za nedostaju¢e podatke kaºemo da su MAR (engl. "Missing at random"), ako

fR|Y (r|y;ψ) = fR|Yobs(r|yobs;ψ), ∀ ymis. (5)

4

Ovisnost distribucije indikator vektora R o distribuciji slu£ajnog vektora Y matrice moºebiti odreena kori²tenjem samo distribucije izmjerenog dijela podataka, tj. kori²tenjem Yobs.Drugim rije£ima, vjerojatnost da promatranje nedostaje moºe ovisiti samo o Yobs, ali ne i oYmis.

MAR zahtjev slabija je pretpostavka nego MCAR. MAR zahtijeva da se podaci samopona²aju kao slu£ajan uzorak od svih podataka unutar subklase denirane postoje¢im poda-cima. MAR dopu²ta da vjerojatnost da informacije nedostaju ovisi samo o informacijama,ali indirektno kroz vrijednosti koje su promatrane. Na ºalost, nemogu¢e je to£no utvrditikada ¢e MAR zahtjev biti vaºe¢i. Budu¢i da ne znamo vrijednosti nedostaju¢ih podataka,ne moºemo usporeivati vrijednosti varijable kada je ona izmjerena za sve slu£ajeve i kadaona nije izmjerena za sve slu£ajeve, te stoga ne moºemo ni uo£iti razliku za ta dva slu£aja.

Denicija 3. Za nedostaju¢e podatke kaºemo da su NMAR (engl. "Not missing at random"),ako zahtjev za MAR nije zadovoljen.

Primjer 2. Pretpostavimo da ºelimo promatrati samo varijable prihod i dob.

(i) Nastojimo analizirati distribuciju dobi za one ispitanike koji su dali odgovor na pitanjeo dobi i za one koji nisu dali odgovor na to pitanje. Ukoliko nemamo razloga sumnjatiu jednakost tih distribucija, moºemo smatrati da je uvjet MCAR zadovoljen. Tako npr.moºemo traºiti razlike u o£ekivanoj dobi onih koji su odgovorili na pitanje o prihoduu odnosu na one koji nisu dali odgovor na pitanje o prihodu, ili razlike u varijanci isli£no.

(ii) MAR pretpostavka bit ¢e zadovoljena ako je vjerojatnost da ¢e se pojaviti nedostaju¢ipodatak o prihodu ovisna o dobi, ali unutar dobne skupine vjerojatnost da ¢e se pojavitinedostaju¢i podataka o prihodu ne ovisi o prihodu.

(ii) NMAR slu£aj se pojavljuje npr. ako ¢e ispitanici s visokim prihodom s manjom vjero-jatno²¢u odgovoriti na pitanje o prihodu.

Primjer 3 (Jednodimenzionalna distribucija s nedostaju¢im podacima). Neka Y = (Y1, Y2,. . . , Yn) predstavlja jednostavan slu£ajan uzorak koji dolazi iz neke jednodimenzionalne distri-bucije te neka y = (y1, y2, . . . , yn) predstavlja jednu realizaciju tog slu£ajnog uzorka takvu daje yi izmjeren za slu£ajeve 1, 2, . . . , n1 < n, dok nije izmjeren (podaci nedostaju) za slu£ajeveod n1 + 1, . . . , n. Neka je s R = (R1, R2, . . . , Rn) dan indikator vektor za pripadni jednos-tavni slu£ajni uzorak Y te neka je s r = (r1, r2, . . . , rn) dana realizacija od R za realizaciju ys vrijednosti 1 ukoliko je yi izmjeren i vrijednosti 0 ukoliko yi nije izmjeren.

Najprije pogledajmo primjer Bernoullijeve distribucije za koju je svaki slu£aj izmjeren svjerojatno²¢u koja ne ovisi o svim drugim slu£ajevima, tj.

fR|Y (r|y;ψ) =n∏i=1

ψri(1− ψ)(1−ri) (6)

gdje je ψ ∈ Ψ nepoznati parametar modela za R|Y . Prema deniciji (1) ukoliko distribu-cija indikator vektora R ne ovisi o distribuciji slu£ajnog vektora Y = (Yobs, Ymis), tada jemehanizam nedostajanja MCAR. Primijetimo kako na²a distribucija (6) ne ovisi o distri-buciji slu£ajnog vektora Y = (Yobs, Ymis) pa stoga moºemo zaklju£iti kako je u tom slu£ajumehanizam nedostajanja MCAR.

5

Pogledajmo distribuciju kada su izmjereni slu£ajevi jednostavan slu£aja uzorak svih slu-£ajeva, tj.

fR|Y (r|y;ψ) =

(

nn1

)−1

, ako∑n

i=1 ri = n1

0 , ina£e

(7)

gdje je ψ ∈ Ψ nepoznati parametar modela za R|Y . Prema deniciji (2) ukoliko ovisnostdistribucije indikator vektora R o distribuciji slu£ajnog vektora Y = (Yobs, Ymis) moºe bitiodreena kori²tenjem samo distribucije izmjerenog dijela podataka, tj. kori²tenjem Yobs, tadaje mehanizam nedostajanja MAR. Primijetimo kako distribucija (7) ne ovisi direktno o iz-mjerenim podacima yi za i = 1, . . . , n1, ali ovisi o broju izmjerenih podataka pa stoga moºemozaklju£iti kako je u tom slu£aju mehanizam nedostajanja MAR.

Denicija 4. Kaºemo da je mehanizam nedostaju¢ih podataka zanemariv ako:

(i) podaci dolaze iz MAR, te

(ii) su vektori parametra θ ∈ Θ i ψ ∈ Ψ nezavisni.

Drugim rije£ima, ne moramo modelirati mehanizam nedostajanja kao dio procesa pro-cjene.

Ako se uvjetna distribucija fR|Y (r|y, ψ) ne moºe pojednostaviti kao u prethodnim slu£a-jevima, tj. i nakon uvjetovanja na Yobs, distribucija indikator vektora R jo² uvijek ovisi odistribuciji nedostaju¢eg dijela Ymis, tada za mehanizam nedostaju¢ih podataka kaºemo danije zanemariv.

2.3 Uzorak nedostajanja

Uzorak nedostajanja matrice podataka y je monoton ako se stupci i redovi matrice podatakamogu organizirati tako da vrijedi sljede¢i uvjet. Za sve j = 1, . . . n − 1 : Yj+1 je izmjerenza sve slu£ajeve kada je Yj izmjeren. U suprotnom, kaºemo da uzorak nedostajanja nijemonoton. Pogledajmo primjere matrica podataka s monotonim i nemonotonim uzorkomnedostajanja.

Primjer 4. Neka je s y zadana (4× 4) matrica podataka:

y =

y11 y12 y13 y14

y21 y22 y23 ∗y31 y32 ∗ ∗y41 ∗ ∗ ∗

Matrica y primjer je matrice podataka koja ima monoton uzorak nedostajanja. Primijetimokako je varijabla Y1 izmjerena za sve slu£ajeve, dok je varijabla Y2 izmjerena za slu£ajeve 1- 3 za koje je i varijabla Y1 izmjerena. Varijabla Y3 izmjerena je za slu£ajeve 1 i 2 za kojeje i varijabla Y2 izmjerena, te je varijabla Y4 izmjerena za slu£aj za koji je i varijabla Y3

izmjerena. Matrica y′ koju navodimo u nastavku, primjer je matrice podataka koja nemamonoton uzorak nedostajanja, tj. ne moºemo organizirati stupce i redove matrice podatakada zadovoljavaju uvjet monotonosti uzorka nedostajanja.

y′ =

∗ y12 y13 y14

y21 ∗ y23 ∗y31 y32 ∗ ∗y41 ∗ ∗ y44

6

Pretpostavke o mehanizmu i uzorku nedostajanja koriste se kako bi se utvrdilo koje semetode mogu koristiti za nedostaju¢e podatke.

3 STANDARDNE STATISTIKE METODE S NEDOS-TAJUIM PODACIMA

Neka je dana (n × p) matrica podataka y = (yij) gdje su yij vrijednosti varijable Yj zapromatranja i, i = 1, . . . , n, j = 1, . . . , p. U slu£aju odsustva nedostaju¢ih podataka, mnogevi²edimenzionalne statisti£ke analize svode se na reduciranje podataka na vektor uzora£kiho£ekivanja y = (y1, . . . , yp) gdje su, ∀ j = 1, . . . , p,

yj =1

n

n∑i=1

yij (8)

te uzora£ke matrice kovarijanci S = (s(jk)) gdje je

s(jk) =1

n− 1

n∑i=1

(yij − yj)(yik − yk). (9)

Stoga je od velike vaºnosti znati odrediti procjene za y i S kada neke vrijednosti yij nedostaju.Metode koje ¢e biti navedene u nastavku strogo se oslanjaju na £injenicu kako su podatciMCAR.

3.1 Analiza potpune matrice podataka

Kada doe do suo£avanja s nedostaju¢im podatcima, kao najjednostavnija i naj£e²¢e kori-²tena metoda za analiziranje javlja se tzv. analiza potpune matrice podataka (engl. "Com-plete - case analysis"). Ova analiza bazirana je na odbacivanju svih onih redova matricepodataka y koji su nepotpuni.

Primjer 5. Neka nam je dana sljede¢e (8× 2) matrica podataka:

y =

3.4 5.673.9 4.812.6 ∗∗ 6.21

2.2 6.83∗ 5.61∗ 5.45

3.6 ∗

Ova metoda nalaºe nam odbacivanja svih onih redova matrice podataka y koji su nepotpuni.U ovom slu£aju to su 3., 4., 6., 7. i 8. red matrice. Kao rezultat dobivamo sljede¢u (3× 2)matricu podataka koju koristimo za daljnju analizu.

y =

3.4 5.673.9 4.812.2 6.83

7

Prednosti ove metode su:

(i) njezina jednostavnost jer na ovako dobivene podatke moºemo primjenjivati ranije upoz-nate statisti£ke analize bez uvoenja dodatnih modikacija

(ii) nema potrebe za kori²tenjem posebnih ra£unalnih metoda.

Ovisno o mehanizmu nedostajanja, metoda potpune matrice podataka moºe imati atrak-tivna statisti£ka svojstva. Ako podaci koje promatramo zadovoljavaju MCAR zahtjev, tada¢e za parametre od interesa procjenitelji biti nepristrani za slu£aj potpune matrice podatakai kada ta matrica ima nedostaju¢ih podataka. Takoer, standardne pogre²ke i test statistikenad ovako dobivenim podacima bit ¢e prikladne kao i u slu£aju kada su svi slu£ajevi izmje-reni. S druge strane, ako podaci ne zadovoljavaju MCAR, ve¢ slabiji zahtjev MAR, tada ovametoda moºe dovesti do pristranih procjenitelja.

Kao nedostatak ove metode moºe se javiti njezina neekasnost ako je postotak slu£ajevas nedostaju¢im podacima ve¢i.

Primjer 6. Neka je za p = 20 dan jednostavan slu£ajan uzorak Y = (Y1, . . . , Yp) takav daza i = 1, . . . , p

Ri ∼(

0 10.1 0.9

)tj. vjerojatnost da varijabla nije izmjerena je 0.1. Tada je vjerojanost da su sve varijablejednostavnog slu£ajnog uzorka Y = (Y1, . . . , Yp) izmjerene dana s

0.920 ≈ 0.12.

O£ekivani broj izmjerenih varijabla iznosi

20 · 0.9 = 18.

Odba£ene vrijednosti mogu biti kori²tene za prou£avanje je li potpuna matrica podatakaslu£ajan podskup originalnog skupa podataka, tj. je li pretpostavka MCAR razumna pret-postavka. Jednostavna procedura je usporediti distribuciju proizvoljne varijable Yj baziranena potpunom slu£aju s distribucijom Yj bazirane na nepotpunom slu£aju za koji je Yj izmje-ren.

3.2 Analiza dostupnih slu£ajeva

Prirodna alternativa analizi potpune matrice podataka je tzv. analiza dostupnih slu£ajeva(engl. "Available Case Analysis"). Ideja ove metode je izra£unati (8) i (9) na osnovi svihdostupnih slu£ajeva. Npr. ako ºelimo izra£unati kovarijancu izmeu dviju varijabli Y1 i Y2,koristit ¢emo sve one slu£ajeve koji su izmjereni za Y1 i Y2. Nakon toga, analizu nastavljamona standardan na£in. Procjene za o£ekivanje i varijance mogu biti izra£unate uz pretpostavkuMCAR, ali moraju biti provedene odreene modikacije kako bi se moglo izra£unati procjeneza kovarijance ili korelacije. Pokaºimo to na jednostavnom primjeru.

8

Primjer 7 (Dvodimenzionalna distribucija s jednom varijablom s nedostaju¢im podacima).Neka nam je dana sljede¢a (n× 2) matrica podataka:

y =

y11 y12

y21 y22...

...ym1 ym2

y(m+1)1 ∗y(m+2)1 ∗

......

yn1 ∗

Primijetimo kako je varijabla Y2 izmjerena za slu£ajeve 1, 2, . . . ,m dok biljeºi nedostaju¢epodatke za slu£ajeve m+ 1,m+ 2, . . . , n. Procjene za o£ekivanje dane su sljede¢im jednadº-bama:

y1 =1

n

n∑i=1

yi1

y2 =1

m

m∑i=1

yi2.

Procjene varijanci dane su sljede¢im jednadºbama:

s12 =

1

n− 1

n∑i=1

(yi1 − y1)2

s22 =

1

m− 1

m∑i=1

(yi2 − y2)2

Procjena kovarijance izmeu varijabli Y1 i Y2 dan je sljede¢om jednadºbom:

s(12)(12) =

1

m− 1

m∑i=1

(yi1 − y1(m))(yi2 − y2

(m))

gdje su y1(m) i y2

(m) procjene o£ekivanja slu£ajnih varijabli Y1 i Y2 izra£unati na temeljupodataka koji su izmjereni za obje varijable.

Neka je dan slu£ajan vektor Y = (Y1, Y2, . . . , Yn) te neka je y (n×p) matrica podataka £ijiredovi predstavljaju nezavisne realizacije slu£ajnog vektora Y . Kovarijanca izmeu varijabliYj i Yk moºe se procjeniti sljede¢om jednadºbom

sjk(jk) =

∑(jk)

(yij − yj(jk))(yik − yk(jk))

((jk)− 1)(10)

za j = 1, . . . , p, k = 1, . . . , p, gdje:

(i) (jk) je broj podataka koji su izmjereni za Yj i Yk,

9

(ii) yj(jk) procjena za o£ekivanje slu£ajne varijable Yj izra£unati na temelju (jk) podataka,tj.

yj =1

(jk)

∑(jk)

y(jk)j,

(iii) yk(jk) procjena za o£ekivanje slu£ajne varijable Yk izra£unati na temelju (jk) podataka,tj.

yk =1

(jk)

∑(jk)

y(jk)k.

Pripadna procjena za korelaciju izmeu varijabli Yj i Yk dan je s:

r(jk)jk =

sjk(jk)√

sjj(j)skk(k), (11)

dok je procjena za kovarijancu izmeu varijabli Yj i Yk dan s:

s(jk)jk = r

(jk)jk

√sjj(j)skk(k) (12)

Ukoliko podaci dolaze iz MCAR, ova metoda daje procjenitelje parametara koji su kon-zistentni (i stoga aproksimativno nepristrani za velike uzorke). Ako su podaci zaista MCAR,moºemo o£ekivati kako je analiza dostupnih slu£ajeva ekasnija od analize potpune matricepodataka. Ekasnost proizlazi iz toga ²to koristimo sve informacije koje su nam dostupne,tj. nema odba£enih slu£ajeva pa nema ni gubitka informacija. S druge strane, ako su podacisamo MAR, procjenitelji mogu biti pristrani.

3.3 Imputacijske metode

Metode imputacije podataka predstavljaju generalno najeksibilniju alternativu metodi pot-pune matrice podataka. Nedostaju¢e vrijednosti matrice podataka y zamijenjene su nekimpretpostavljenim ili prediktiranim vrijednostima. Kao rezultat, javlja se transformacija ma-trice podataka y u novu matricu £iji su nam svi elementi poznati.

Iako su ove metode privla£ne za kori²tenje, one mogu dovesti do pristranosti, budu¢i dasu imputirane vrijednosti generalno razli£ite od pravih nedostaju¢ih vrijednosti.

Navedimo neke od imputacijskih metoda.

(i) Imputacija o£ekivanjem (engl. "Mean imputation")

Ova metoda bazirana je na £injenici da se na mjesta nedostaju¢ih vrijednosti ume¢uvrijednosti procjene o£ekivanja (uzora£ko o£ekivanje) izra£unate nad ostalim vrijed-nostima. Nedostatak ove metode je ²to ne osigurava nepristrane procjenitelje varijancii kovarijanci te generalno nije pogodna za kori²tenje.

10

Primjer 8. Neka nam je dana sljede¢a (9× 2) matrica podataka:

y =

3.4 5.675.3 4.818.1 4.931.9 1.32.2 6.839.5 5.611.7 2.62.4 8.43.6 ∗

Ova metoda nalaºe nam pronalaºenje procjene o£ekivanja slu£ajne varijable Y2 na os-novi izmjerenih podataka i umetanje te procjene na mjesto nedostaju¢e vrijednosti.

y2 =1

9

9∑i=1

y2i ≈ 4.46

Nova matrica podataka nakon imputacije je:

y =

3.4 5.675.3 4.818.1 4.931.9 1.32.2 6.839.5 5.611.7 2.62.4 8.43.6 4.46

(ii) Hot deck imputacija (engl. "Hot deck imputation")

Ova metoda bazirana je na £injenici da se na mjesta nedostaju¢ih vrijednosti ume¢uvrijednosti odabrane iz distribucije koja je procijenjena iz izmjerenog dijela komponentislu£ajnog vektora Y , tj. Yobs.

(iii) Cold deck imputacija (engl. "Cold deck imputation")

Ova metoda bazirana je na £injenici da se na mjesta nedostaju¢ih vrijednosti ume¢uneke konstantne vrijednosti iz vanjskog izvora.

(iv) Regresijska imputacija (engl. "Regression imputation")

Ova metoda bazirana je na £injenici da se na mjesta nedostaju¢ih vrijednosti ume¢uprediktirane vrijednosti iz regresije nedostoje¢ih podataka na podatke koji postoje.

(V) Metoda vi²estruke imputacije podataka (engl. "Multiple imputation met-hod")

Ova metoda bazirana je na £injenici da se na mjesta nedostaju¢ih vrijednosti ume¢evi²e od jedne vrijednosti.

11

4 METODA MAKSIMALNE VJERODOSTOJNOSTI

Neka su nam dani podaci y gdje y moºe biti skalar, vektor ili matrica podataka. Pretpos-tavimo da podaci dolaze iz modela s funkcijom gusto¢e fY (y; θ), gdje je θ ∈ Θ nepoznatiparametar ili vektor parametara modela za Y iz prostora parametara Θ.

Denicija 5. Za dane podatke y = (y1, . . . , yn), funkciju L( · ; y) : Θ→ R oblika

L(θ; y) = fY (y; θ) (13)

nazivamo funkcijom vjerodostojnosti.

Primijetimo da je funkcija vjerodostojnosti L( · ; y) funkcija parametra θ ∈ Θ za ksniy, dok je funkcija gusto¢e fY ( · ; θ) funkcija od y, za ksni parametar θ ∈ Θ.

Denicija 6. Za dane podatke y, funkciju l( · ; y) : Θ→ R oblika

l(θ; y) = lnL(θ; y) (14)

nazivamo log funkcijom vjerodostojnosti.

Denicija 7. Procjenitelj θ metodom maksimalne vjerodostojnosti parametara θ ∈ Θ jevrijednost koja maksimizira funkciju vjerodostojnosti L(θ; y), tj.

θ = argmaxθ∈Θ

L(θ; y). (15)

Ukoliko je dana log funkcija vjerodostojnosti derivabilna, do procjenitelja metodom mak-simalne vjerodostojnosti dolazimo odreivanjem prve derivacije log funkcije vjerodostojnostipo parametru θ ∈ Θ. Prvu derivaciju log funkcije vjerodostojnosti nazivamo skor funkci-jom i ona je dana sljede¢im izrazom:

Uθ(y) =∂

∂θl(θ; y). (16)

Izjedna£avanjem derivacije (16) s nulom i rje²avanjem jednadºbe

Uθ(y) ≡ ∂

∂θl(θ; y) = 0

po θ dobivamo procjenitelja metodom maskimalne vjerodostojnosti.

O£ekivana vrijednost skor funkcije za pravu vrijednost parametra θ iznosi 0, tj.

E

[Uθ(y)

]=

∫∂

∂θl(θ; y)fY (y; θ)dy = 0.

Pod pretpostavkom regularnosti, informacijska matrica moºe biti zapisana u terminimao£ekivane vrijednosti druge derivacije log funkcije vjerodostojnosti, tj.

I(θ) = Eθ

[(∂

∂θl(θ; y)

)2]

12

Budu¢i da je

∂2

∂θ2l(y; θ) =

∂2

∂θ2ln f(θ; y) =

∂2

∂θ2f(y; θ)

f(y; θ)−( ∂

∂θf(y; θ)

f(y; θ)

)2

=∂2

∂θ2f(y; θ)

f(y; θ)−(∂

∂θl(y; θ)

)2

i

Eθ

[ ∂2

∂θ2f(y; θ)

f(y; θ)

]=

∫ ∂2

∂θ2f(y; θ)

f(y; θ)f(y; θ)dy

=

∫∂2

∂θ2f(y; θ)dy =

∂2

∂θ2

∫f(y; θ)dy

=∂2

∂θ2(1) = 0

informacija Fishera moºe se zapisati u sljede¢em obliku:

I(θ) = −Eθ[∂2

∂θ2l(θ; y)

](17)

Pod pretpostavkom regularnosti, procjenitelj metodom maksimalne vjerodostojnosti je:

(i) konzistentan procjenitelj

(ii) asimptotski normalan procjenitelj, tj.

√n(θ − θ) D−→ N(0, I(θ)−1)

(iii) asimptotski nepristran i ekasan procjenitelj jer postiºe Rao - Cramer granicu.1

Primjer 9 (Jednostavan slu£ajan uzorak iz jednodimenzionalne normalne distribucije).Neka Y = (Y1, Y2, . . . Yn) predstavlja jednostavan slu£ajan uzorak iz jednodimenzionalne nor-malne distribucije s o£ekivanjem µ i varijancom σ2 te neka y = (y1, y2, . . . yn) predstavljajednu realizaciju tog slu£ajnog uzorka. Ozna£imo s θ = (µ, σ2) nepoznati parametar za kojiºelimo prona¢i procjenitelja metodom maksimalne vjerodostojnosti.

Funkcija gusto¢e dana je s:

fY (y; θ) = (2πσ2)−n2 exp

[− 1

2

n∑i=1

(yi − µ)2

σ2

],

dok je pripadna log funkcija vjerodostojnosti dana s:

l(θ; y) = ln[fY (y; θ)] = −n2

ln (2πσ2)− 1

2

n∑i=1

(yi − µ)2

σ2.

1Dani rezultati preuzeti su iz [6, str. 365.-368.]

13

Diferenciranjem log funkcije vjerodostojnosti po parametru θ = (µ, σ2) i izjedna£avanjemjednadºbi s nula, dobivamo procjenitelje metodom maksimalne vjerodostojnosti za parametarθ = (µ, σ2):

µ = y

σ2 = s2 =1

n

n∑i=1

(yi − y)2

Pripadna Fisherova informacija dana je s:

I(θ) =

[n

σ20

0 12n

σ4

].

Primjer 10 (Jednostavan slu£ajan uzorak iz vi²edimenzionalne normalne distribucije). Nekaje s y = (yij) za i = 1, . . . , n, j = 1, . . . , K predstavlja nezavisan i jednako distribuiran uzo-rak n promatranja promatranja koji dolaze iz normalne distribucije s vektorom o£ekivanjaµ = (µ1, µ2, . . . , µp) i matricom kovarijanci Σ = (σjk : j = 1, . . . , K; k = 1, . . . , K). Stogayij predstavlja vrijednost j-te varijable za i-to promatranje uzorka. Ozna£imo s θ = (µ,Σ)nepoznati parametar za koji ºelimo prona¢i ML procjenu.

Funkcija gusto¢e dana je s:

fY (y; θ) = (2π)−nK2 |Σ|−

n2 exp

[−∑n

i=1(yi − µ)Σ−1(yi − µ)T

2

],

Dani procjenitelji metodom maksimalne vjerodostojnosti za parametar θ = (µ,Σ) su:

µ = y

Σ = S

gdje je y = (y1, y2, . . . , yk) vektor uzora£kih o£ekivanja, dok je S = (s(jk)) (k × k) matricauzora£kih kovarijanci s elementima oblika

s(jk) =1

n

n∑i=1

(yij − yj)(yik − yk).

4.1 Metoda maksimalne vjerodostojnosti za nedostaju¢e podatke

Neka je, kao i ranije, dan slu£ajan vektor Y = (Yobs, Ymis) £ije realizacije mogu imati nedos-taju¢e podatake. Neka fY (y; θ) = f(Yobs,Ymis)(yobs, ymis; θ) predstavlja funkciju gusto¢e zajed-ni£ke distribucije Yobs i Ymis, te θ ∈ Θ je nepoznati parametar modela za Y = (Yobs, Ymis).

Marginalnu funkciju gusto¢e distribucije izmjerenih podataka, tj. Yobs moºemo dobiti inte-griranjem po varijablama za koje podaci nedostaju, tj.

fYobs(yobs; θ) =

∫fY (y; θ)dymis (18)

Funkciju vjerodostojnosti parametra θ ∈ Θ baziranu na distribuciji izmjerenih podataka, tj.Yobs deniramo ignoriraju¢i mehanizam nedostaju¢ih podataka, a zaklju£ivanje o parametruθ ∈ Θ moºe biti provedeno ukoliko je mehanizam nedostaju¢ih podataka zanemariv.

14

Denicija 8. Za dane podatke yobs, funkciju L( · ; yobs) : Θ→ R oblika

L(θ; yobs) = fYobs(yobs; θ) (19)

nazivamo funkcijom vjerodostojnosti izmjerenih podataka.

Model podataka koji ¢emo promatrati je model (Y,R). Primijetimo da distribucija (Y,R)moºe biti zapisana u terminima distribucije Y te uvjetne distribucije od R uvjetno na Y , tj.

f(Y,R)(y, r; θ, ψ) = fY (y; θ)fR|Y (r|y;ψ) (20)

gdje je ψ ∈ Ψ nepoznati parametar modela za R|Y . Funkciju gusto¢e od (Yobs, R) u ovommodelu moºe se dobiti integriranjem funkcije gusto¢e (Y,R) po varijablama nedostaju¢egdijela, tj.

f(Yobs,R)(yobs, r; θ, ψ) =

∫fY (y; θ)fR|Y (r|y;ψ)dymis. (21)

Ovu funckiju gusto¢e nazivat ¢emo funkcija gusto¢e izmjerenog dijela.

Denicija 9. Za dane podatke (yobs, r), funkciju L( ·, · ; yobs, r) : Θ×Ψ→ R oblika

L(θ, ψ; yobs, r) = f(Yobs,R)(yobs, r; θ, ψ) (22)

nazivamo funkcijom vjerodostojnosti podataka (yobs, r).

Primijetimo, ako distribucija vektora R ne ovisi o distribuciji nedostaju¢eg dijela Ymis,tj. ako je

fR|Y (r|y;ψ) = fR|Yobs(r|yobs;ψ) (23)

tada iz (18) slijedi:

f(Yobs,R)(yobs, r; θ, ψ) = fR|Yobs(r|yobs;ψ)

∫fY (y; θ)dymis (24)

= fR|Yobs(r|yobs;ψ)fYobs(yobs; θ). (25)

Drugim rije£ima, ako vrijedi (23), MAR zahtjev je zadovoljen i mehanizam nedostaju¢ihpodataka je zanemariv. Primijetimo kako uvoenjem (19) u (25) dobivamo vezu izmeufunkcija vjerodostojnosti L(θ, ψ; yobs, r) i L(θ; yobs):

L(θ, ψ; yobs, r) = f(Yobs,R)(yobs, r; θ, ψ)

= fR|Yobs(r|yobs;ψ)fYobs(yobs; θ)

= fR|Yobs(r|yobs;ψ)L(θ; yobs)

Primjer 11 (Jednostavan slu£ajan uzorak iz dvodimenzionalne normalne distribucije s jed-nom varijablom s nedostaju¢im podacima). Neka je s Y = ((Yi1, Yi2)) za i = 1, . . . , n danjednostavan slu£ajan uzorak iz dvodimenzionalne normalne distribucije s vektorom o£ekivanjaµ = (µ1, µ2) i matricom kovarijanci

Σ =

[σ1

2 σ12

σ12 σ22

]=

[σ1

2 ρσ1σ2

ρσ1σ2 σ22

]

15

te neka je s yi = ((yi1, yi2)) za i = 1, . . . , n dane n realizacija tog slu£ajnog uzorka. Nadalje,pretpostavimo da se nedostaju¢i podaci javljaju za vrijednosti yi2, i = m + 1, . . . , n. Ozna-£imo sa θ = (µ1, σ1, µ2, σ2, ρ) nepoznati parametar za koji ºelimo prona¢i procjenu metodommaksimalne vjerodostojnosti.

Funkcija gusto¢e slu£ajnog vektor Y dana je s:

fY (yi; θ) =1

2πσ1σ2

√1− ρ2

exp− 1

2(1− ρ2)−1

2

[(yi1 − µ1

σ1

)2

−2ρ(yi1 − µ1)(yi2 − µ2)

σ1σ2

+

(yi2 − µ2

σ2

)2]Distribucija slu£ajnih varijabli Yij dana je s

Yij ∼ N(µj, σj2) za i = 1, . . . , n , j = 1, 2

s pripadnim funkcijama gusto¢e

fYij(yij; θ) =1

σj√

2πexp−(yij − µj)2

2σj2za i = 1, . . . , n , j = 1, 2

dok je distribucija slu£ajnih varijabli Yi2 uvjetno na Yi1 = yi1 dana je s

Y12|Yi1=yi1 ∼ N

(µ2 + ρ

σ2

σ1

(yi1 − µ1), σ22(1− ρ2)

)za i = 1, . . . , n

s pripadnom funkcijom gusto¢e:

fYi2|Yi1=yi1(yi2|yi1; θ) =fY (y; θ)

fYi1(yi1; θ)=

1

σ2

√2π(1− ρ2)

exp

− 1

2σ22(1− ρ2)

[yi2−

(µ2+ρ

σ2

σ1

(yi1−µ1)

)]2Funkcija gusto¢e izmjerenih podataka dana je s:

fYobs(yobs; θ) =m∏i=1

fY (yi; θ)×n∏

i=m+1

fYi1(yi1; θ)

=

[ m∏i=1

fYi1(yi1; θ)fYi2|Yi1(yi2|yi1; θ)

]×

n∏i=m+1

fYi1(yi1; θ)

=n∏i=1

fYi1(yi1;µ1, σ12)×

m∏i=1

fYi2|Yi1(yi2|yi1;µ1, µ2, σ12, σ2

2, ρ)

te je pripadna funkcija vjerodostojnosti izmjerenih podataka tada je dana s :

L(θ; yobs) =n∏i=1

fYi1(yi1;µ1, σ12)×

m∏i=1

fYi2|Yi1(yi2|yi1;µ1, µ2, σ12, σ2

2, ρ)

te je stoga log funkcija vjerodostojnosti sljede¢a:

l(θ; yobs) = −n2

ln 2πσ12 − 1

2σ12

n∑i=1

(yi1 − µ1)2

− m

2ln 2π(1− ρ2)σ2

2 − 1

2σ22(1− ρ2)

m∑i=1

[yi2 −

(µ2 + ρ

σ2

σ1

(yi1 − µ1)

)]2

16

Procjenu parametra µ1 moºemo dobiti maksimiziranjem prvog dijela log funkcije vjerodostoj-nosti po parametru µ1.

∂

∂µ1

(−n

2ln 2πσ1

2 − 1

2σ12

n∑i=1

(yi1 − µ1)2

)= 0

− 1

2σ12

n∑i=1

2(yi1 − µ1)(−1) = 0

n∑i=1

yi1 − n · µ1 = 0

Moºemo zaklju£iti kako je procjena parametra µ1 dana izrazom

µ1 =1

n

n∑i=1

yi1 (26)

Procjenu parametra σ1 moºemo dobiti maksimiziranjem prvog dijela log funkcije vjerodostoj-nosti po parametru σ1.

∂

∂σ1

(−n

2ln 2πσ1

2 − 1

2σ12

n∑i=1

(yi1 − µ1)2

)= 0

∂

∂σ1

(−n

2(ln 2 + ln π + 2 lnσ1)− 1

2σ12

n∑i=1

(yi1 − µ1)2

)= 0

−n2· 2 · 1

σ1

+1

4σ14· 4 · σ1

n∑i=1

(yi1 − µ1)2 = 0

− n

σ1

+1

σ13

n∑i=1

(yi1 − µ1)2 = 0

−n · σ12 +

n∑i=1

(yi1 − µ1)2 = 0

Moºemo zaklju£iti kako je procjena parametra σ12 dana izrazom

σ12 =

1

n

n∑i=1

(yi1 − µ1)2 (27)

Procjene parametara µ2, σ22 i ρ moºemo dobiti maksimiziranjem drugog dijela log funkcije

vjerodostojnosti i oni su dani sljede¢im izrazima2:

µ2 = y2 +s12

s11

(µ1 − y1) (28)

σ22 = s22 +

(s12

s11

)2

(σ12 − s11) (29)

ρ =

[s12(s11s22)−

12

](σ1

2

s11

)− 12(s22

σ22

)− 12

(30)

2Dani rezultati preuzeti su iz [2, str. 100].

17

gdje su

yj =1

m

m∑i=1

yij za j = 1, 2

sjk = =1

m

m∑i=1

(yij − yj)(yik − yk) za j, k = 1, 2.

Primjer 12 (Dvodimenzionalna normalna distribucija). Neka je dana (1000 × 2) matricapodataka £iji redovi predstavljaju n = 1000 nezavisnih realizacija jednostavnog slu£ajnoguzorka Y = ((Yi1, Yi2)) za i = 1, . . . , n iz dvodimenzionalne normalne distribucije s vektoromo£ekivanja µ = (µ1, µ2) = (0, 0) i matricom kovarijanci

Σ =

[σ1

2 σ12

σ12 σ22

]=

[σ1

2 ρσ1σ2

ρσ1σ2 σ22

]=

[1 00 1

]Ozna£imo sa θc = (µ1, σ1, µ2, σ2, ρ) nepoznati parametar za koji ºelimo prona¢i procjenumetodom maksimalne vjerodostojnosti. Procjene metodom maskimalne vjerodostojnosti kadasu nam svi podaci poznati su sljede¢e:

µc = (µ1, µ2) = (yi1, yi2) = (−0.009879699, 0.007792883)

Σc =

[σ1

2 σ12

σ12 σ22

]=

[0.9369677 0.05489280.0548928 1.0439086

]Nadalje, pretpostavimo da se nedostaju¢i podaci javljaju za vrijednosti yi2, i = 900, . . . , 1000.Ozna£imo sa θmis = (µ1, σ1, µ2, σ2, ρ) nepoznati parametar za koji ºelimo prona¢i procjenumetodom maksimalne vjerodostojnosti s nedostaju¢im podacima. Funkcija "mlest", koja jeugraena u programski paket R, daje nam procjene metodom maksimalne vjerodostojnostidvodimenzionalne normalne distribucije:

µmis = (µ1, µ2) = (−0.009879766, 0.015770584)

Σmis =

[σ1

2 σ12

σ12 σ22

]=

[0.93696866 0.053866370.05386637 1.02292811

].

Nadalje, nakon primjene imputacije o£ekivanjem na nedostaju¢e podatke pomo¢u funkcije"impute.mean" koja je ugraena u programski paket R, procjene metodom maskimalne vje-rodostojnosti su sljede¢e:

µmean = (µ1, µ2) = (−0.009879699, 0.015905803)

Σmean =

[σ1

2 σ12

σ12 σ22

]=

[0.93696769 0.049059670.04905967 0.91964791

].

3

3Izra£un je napravljen primjenom koda koji se nalazi u prilogu 6.1 ovog rada.

18

4.2 Maksimiziranje po parametrima i nedostaju¢im podacima

esta je pojava u praksi poku²ati tretirati nedostaju¢e podatke, tj. Ymis kao parametre tepoku²ati maksimizirati funkciju vjerodostojnosti po nedostaju¢im podacima i parametrima.

Za ovu metodu, funkcija vjerodostojnosti poprima sljede¢i oblik:

Lmis(θ, ymis; yobs) = L(θ; yobs, ymis) = f(Yobs,Ymis)(yobs, ymis; θ)

i ona predstavlja funkciju od (θ, ymis) za ksni yobs, dok se parametar θ dobije maksimizira-njem Lmis(θ, ymis; yobs) po θ i ymis.

Kada nedostaju¢i podatci nisu MAR, ili θ ∈ Θ nije nezavisan od ψ ∈ Ψ, θ ¢e bitiprocijenjen maksimiziranjem po (θ, ψ, ymis) funkcije

Lmis(θ, ψ, ymis; yobs, r) = L(θ, ψ; yobs, ymis, r)

= f(Yobs,Ymis)(yobs, ymis; θ)fR|Yobs(r|yobs; ymis, ψ).

Primjer 13 (Jednostavan slu£ajan uzorak iz normalne distribucije s nedostaju¢im poda-cima). Neka Y = (Y1, Y2, . . . , Yn) predstavlja jednostavan slu£ojan uzorak iz normalne distri-bucije s o£ekivanjem µ i varijancom σ2 te neka y = (y1, y2, . . . , yn) predstavlja jednu realiza-ciju tog slu£ajnog uzorka takvu da vrijedi sljede¢e:

• yobs = (y1, . . . , ym),

• ymis = (ym+1, . . . , yn),

• ymis zadovoljava MAR uvjet.

Ozna£imo s θ = (µ, σ2) nepoznati parametar za koji ºelimo prona¢i procjenu metodom mak-simalne vjerodostojnosti. Zajedni£ka funkcija distribucije moºe se rastaviti na sljede¢i na£in:

fY (y; θ) =n∏i=1

fYi(yi; θ) =m∏i=1

fYi(yi; θ)×n∏

i=m+1

fYi(yi; θ).

Vrijedi:

fYobs(yobs; θ) =m∏i=1

fYi(yi; θ)

fYmis(ymis; θ) =

n∏i=m+1

fYi(yi; θ)

Stoga je L(θ; yobs) jednaka funkciji vjerodostojnosti normalne distribucije za uzorak veli£inem. Procjene metodom maksimalne vjerodostojnosti parametra θ = (µ, σ2) izmjerenog dijeladobivene su maksimiziranjem funkcije vjerodostojnosti L(θ; yobs) po parametru θ = (µ, σ2) ione iznose:

µ =1

m

m∑i=1

yi

σ2 =1

m

m∑i=1

(yi − µ)2

19

S druge strane, Lmis(θ, ymis; yobs) = fYobs(yobs; θ)fYmis(ymis; θ) ºelimo maksimizirati po θ i

ymis. Maksimiziranjem fYmis(ymis; θ) po ymis dobivamo

yi = µ za i = m+ 1, . . . , n (31)

gdje je µ vrijednost koja maksimizira µ.

Prema primjeru (9) vrijednosti koje maksimiziraju µ i σ2 dane su s:

µ =1

n

( m∑i=1

yi +n∑

i=m+1

yi

)(32)

σ2 =1

n

[ m∑i=1

(yi − µ)2 +m∑

i=m+1

(yi − µ)2

](33)

Uvoenjem vrijednosti (31) u (32) dobivamo

µ = µ

σ2 = σm

n.

Primijetimo kako je procjenitelj metodom maksimalne vjerodostojnosti za o£ekivanje ostaoisti kao i u potpunom slu£aju, dok je procjenitelj za varijancu pomnoºen s udjelom izmjere-noga dijela.

4.3 Alternativne ra£unske strategije

Neka nam je dana (n × p) matrica podataka y £iji su redovi realizacije p - dimenzionalnogslu£ajnog vektora Y s pripadnom gusto¢om fY (y; θ) s nepoznatim parametrom θ. Ozna£imos Y = (Yobs, Ymis) gdje Yobs predstavlja izmjereni dio komponenti slu£ajnog vektora Y teYmis dio komponenti slu£ajnog vektora Y s nedostaju¢im podacima. Zbog jednostavnosti,pretpostavimo da podaci zadovoljavaju MAR zahtjev te nam je cilj maksimizirati funkcijuvjerodostojnosti

L(θ; yobs) =

∫f(Yobs,Ymis)(yobs, ymis; θ)dymis

Ako je funkcija vjerodostojnosti diferencijabilna i unimodalna, tada se ML procjenitelj moºeprona¢i rje²avanjem jednadºbe

Uθ(yobs) =∂

∂θl(θ; yobs) = 0 (34)

Ponekad je te²ko prona¢i rje²enje jednadºbe (34). U takvim slu£ajevima, rje²enje jednadºbe(34) moºe se prona¢i nekom od sljede¢ih iterativnih metoda.

Neka je θ(0) po£etna procjena parametra θ ∈ Θ, te neka θ(t) ozna£ava procjenu parametraθ za t iteraciju.

20

(i) Newton - Raphson algoritam

Newton - Raphson algoritam deniran je rekurzivnom jednadºbom

θ(t+1) = θ(t) +H−1(θ(t))Uθ(t)(yobs) (35)

gdje je

H(θ(t)) =∂

∂θ(t)Uθ(t)(yobs)

Ako je log funkcija vjerodostojnosti konkavna i unimodalna, tada niz iteracija θ(t) ko-nvergira prema ML procjenitelju θ od θ i to u jednom koraku ako je log vjerodostojnostkvadratna funkcija od θ.

(ii) Metoda skoringa (engl. "Method of Scoring")

Metoda skoringa predstavlja varijaciju Newton - Raphson algoritam gdje je jednadºba(35) zamijenjena sljede¢om rekurzivnom jednadºbom:

θ(t+1) = θ(t) + Iobs−1(θ(t))Uθ(t)(yobs) (36)

gdje je

Iobs(θ(t)) = Eθ(t)

[(∂

∂θl(θ;Yobs)

)2]Primijetimo kako ove metode zahtijevaju ra£unanje matrice drugih derivacija log vjero-

dostojnosti. Za komplicirane uzorke nedostajanja, elementi matrice mogu biti kompliciranefunkcije od θ. S velikom dimenzijom parametra θ, matrica drugih derivacija postaje ve¢a.

Kao alternativni algoritam za nedostaju¢e podatke koji ne zahtijeva ra£unanje ili aprok-simiranje drugih derivacija javlja se EM algoritam. U mnogim slu£ajevima EM algoritamvrlo je jednostavan za kori²tenje.

5 EM ALGORITAM

EM algoritam (engl. "Expectation Maximization Algorithm") popularna je iterativna pro-cedura za rje²avanje problema pronalaºenja ML procjene parametara distribucije koja dolaziiz podataka koji su nepotpuni ili nedostaju.

Svaka iteracija EM algoritma sastoji se od dva koraka: E - koraka i M - koraka. M -korak algoritma vrlo je jednostavan za objasniti i on kaºe sljede¢e: maksimiziraj funkcijuvjerodostojnosti po procijenjenom parametru θ pod pretpostavkom da su nedostaju¢i po-datci poznati, tj. da su umetnuti odnosno zamijenjeni nekim vrijednostima. Stoga M -korak algoritma koristi ra£unske metode koje se koriste pri ra£unanju ML procjenitelja kadasu nam svi podatci poznati. E - korak algoritma pronalazi uvjetno o£ekivanje distribucijepodataka koji nedostaju, tj. Ymis dio, gledano na distribuciju poznatih podatke, tj. Yobs,te trenutne procijenjene parametare θ i zamjenjuje ova o£ekivanja na mjesto nedostaju¢ihpodataka. Algoritam u svakoj iteraciji pove¢ava vrijednost funkcije vjerodostojnosti, ²togarantira konvergenciju.

Specijalno, neka θ(t) predstavlja trenutnu procjenu parametra θ ∈ Θ.

21

(i) E - korak

E - korak algoritma pronalazi o£ekivanje log funkcije vjerodostojnosti ako je θ bio θ(t):

Q(θ|θ(t)) =

∫l(θ; y)fYmis|Yobs(ymis|yobs; θ = θ(t))dymis (37)

= Eθ(t)

[l(Y ; θ)|Yobs = yobs

](38)

(ii) M - korak

M - korak algoritma odreuje θ(t+1) maksimiziranjem o£ekivanja log funkcije vjerodos-tojnosti po parametru θ:

Q(θ(t+1)|θ(t)) ≥ Q(θ|θ(t)), za svaki θ. (39)

Primjer 14 (Multinomna distribucija). Pretpostavimo da podaci y = (y1, y2, y3, y4) pred-stavljaju realizaciju slu£ajnog vektora Y koji ima multinomnu distribuciju

Y = (Y1, Y2, Y3, Y4) ∼M(n, p1, p2, p3, p4)

s pripadnom funkcijom gusto¢e

fY (y; θ) =n!

y1!y2!y3!y4!py11 p

y22 p

y33 p

y44

gdje je n = y1 + y2 + y3 + y4, 0 ≤ θ ≤ 1 te

p1 =1

2− 1

2θ

p2 =1

4θ

p3 =1

4θ

p4 =1

2.

Ako je n zadani broj, komponente slu£ajnog vektora Y su

Yi ∼ B(n, pi) za i = 1, 2, 3, 4.

Pretpostavimo da je distribucija izmjerenog dijela podataka sljede¢a:

Yobs = (Y1, Y2, Y3 + Y4)

22

gdje su

Y1 ∼ B

( 4∑i=1

yi,1

2− 1

2θ

)

Y2 ∼ B

( 4∑i=1

yi,1

4θ

)

Y3 + Y4 ∼ B

( 4∑i=1

yi,1

4θ +

1

2

)

te neka je syobs = (38, 34, 125)

dana jedna realizacije distribucije izmjerenog dijela podataka, tj. Yobs. Budu¢i da je samovrijednost y3+y4 izmjerena, ali ne i vrijednosti y3 i y4 zasebno, moºemo smatrati kako imamoproblem nedostaju¢ih podataka.

E - korak algoritma odreuje o£ekivanje log funkcije vjerodostojnosti l(Y ; θ) uvjetno na Yobs =yobs, tj. ºelimo odrediti

Eθ[l(Y ; θ)|Yobs = yobs] = log(p1)Eθ[Y1|Yobs = yobs] + log(p2)Eθ[Y2|Yobs = yobs]

+ log(p3)Eθ[Y3|Yobs = yobs] + log(p4)Eθ[Y4|Yobs = yobs] + const.

Kako bi mogli izra£unati ovo o£ekivanje, potrebno je prvo odrediti uvjetnu distribuciju slu-£ajnog vektora Y uvjetno na Yobs = yobs i ona je sljede¢a

Y1|Yobs=yobs ∼ B(38, p1)

Y2|Yobs=yobs ∼ B(34, p2)

Y3|Yobs=yobs ∼ B(125, p)

Y4|Yobs=yobs ∼ B(125, q)

gdje su

p = PY3 = y3|Yobs = yobs =PY3 = y3, Yobs = yobs

PYobs = yobs=

14θ

12

+ 14θ

q = PY4 = y4|Yobs = yobs =PY4 = y4, Yobs = yobs

PYobs = yobs=

12

12

+ 14θ.

Sada moºemo odrediti Eθ[Yi|Y = yobs] za i = 1, . . . , 4. Dobivamo sljede¢e vrijednosti:

Eθ[Y1|Yobs = yobs] = y1 = 38 (40)Eθ[Y2|Yobs = yobs] = y2 = 34 (41)

Eθ[Y3|Yobs = yobs] = 125

( 14θ

12

+ 14θ

)(42)

Eθ[Y4|Yobs = yobs] = 125

( 12

12

+ 14θ

)23

Primjetimo kako procjenitelja θ metodom maksimalne vjerodostojnosti parametra θ ∈ Θmoºemo dobiti maksimiziranjem log funkcije vjerodostojnosti l(y; θ) po parametru θ i oniznosi

θ =y2 + y3

y1 + y2 + y3

. (43)

Takoer, primijetimo kako je za iteraciju dovoljno iterirati vrijednosti y1, y2 te y3 te je stogaE - korak algoritma tada dan sljede¢im zapisom:

y3(t) = 125

( 14θ(t)

12

+ 14θ(t)

)(44)

dok je M - korak algoritma dobiven uvoenjem vrijednosti (40), (41) i (44) u (43) te iznosi:

θ(t+1) =34 + y3

(t)

72 + y3(t)

5.1 Konveksne funkcije

Denicija 10. Za funkciju g : R→ R kaºemo da je konveksna ako ∀x1, x2 ∈ R vrijedi

g(λ1x1 + λ2x2) ≤ λ1g(x1) + λ2g(x2)

gdje su λ1, λ2 ∈ [0, 1] takvi da je λ1 + λ2 = 1.

Denicija 11. Za funkciju g : R→ R kaºemo da je konkavna ako ∀x1, x2 ∈ R vrijedi

g(λ1x1 + λ2x2) ≥ λ1g(x1) + λ2g(x2)

gdje su λ1, λ2 ∈ [0, 1] takvi da je λ1 + λ2 = 1.

Ako je g : R→ R konveksna funkcija, tada funkcija g ∀x0 ∈ R ima barem jednu tangentut koja graf dira u to£ki (x0, g(x0))i ta se tangenta nalazi ispod grafa funkcije g. Ozna£imo sk koecijent smjera tangente t. Znamo da vrijedi

t(x) = g(x0) + k(x− x0).

Budu¢i da je funkcija g konveksna, znamo da ∀x ∈ R g(x) ≥ t(x) pa slijedi:

g(x) ≥ g(x0) + k(x− x0). (45)

Sljede¢a propozicija dana je bez dokaza. Dokaz ove propozicije dan moºe se prona¢i npr. u[6, str. 346.]

Propozicija 1 (Jensenova nejednakost). Neka je g : R→ R konveksna funkcija i X slu£ajnavarijabla na vjerojatnosnom prostoru (Ω,F , P ) takva da je E[g(X)] <∞. Tada je

g(E[x]) ≤ E[g(X)].

Funkcija g(x) = ln(x) je konkavna funkcija te stoga za nju vrijedi sljede¢i oblik Jensenovenejednakosti:

E[ln(X)] ≤ ln(E[X])

24

5.2 Teorija EM algoritma

Neka je dana (n×p) matrica podataka y = (yobs, ymis) £iji redovi dolaze iz vi²edimenzionalnedistribucije Y = (Yobs, Ymis) te neka ona sadrºi nedostaju¢e podatke. Funkcija gusto¢efY (y; θ) moºe biti faktorizirana na sljede¢i na£in:

fY (y; θ) = f(Yobs,Ymis)(yobs, ymis; θ) = fYobs(yobs; θ)fYmis|Yobs(ymis|yobs; θ)

gdje je fYobs(yobs; θ) funkcija gusto¢e izmjerenih podataka yobs, fYmis|Yobs(ymis|yobs; θ) uvjetnafunkcija gusto¢e nedostaju¢ih podataka na izmjerne podatke. Pripadna dekompozicija logfunkcija vjerodostojnosti dana je s:

l(θ; y) = l(θ; yobs, ymis) = l(θ; yobs) + ln fYmis|Yobs(ymis|yobs; θ) (46)

Zadatak algoritma je prona¢i takav parametar θ koji maksimizira log funkciju vjerodostoj-nosti l(θ|yobs) za ksni yobs, tj. odrediti procjenitelja za parametar θ metodom maksimalnevjerodostojnosti. Nadalje, zapi²imo jednadºbu (46) na sljede¢i na£in:

l(θ; yobs) = l(θ; y)− ln fYmis|Yobs(ymis|yobs; θ)

Uvjetno o£ekivanje obiju strana jednadºbe s obzirom na uvjetnu distribuciju (Ymis|Yobs, θ(t))gdje je θ(t) trenutna procjena nepoznatog parametra θ daje nam sljede¢u jednadºbu:

l(θ; yobs) = Q(θ|θ(t))−H(θ|θ(t))

gdje su

Q(θ|θ(t)) =

∫l(θ; yobs, ymis)fYmis|Yobs(ymis|yobs; θ

(t))dymis

= Eθ(t)

[l(θ; yobs, Ymis)|Yobs = yobs

]H(θ|θ(t)) =

∫ln fYmis|Yobs(ymis|yobs; θ)fYmis|Yobs(ymis|yobs; θ

(t))dymis

Pogledajmo neke vaºne tvrdnje vezane uz EM algoritam. Dokaze ovih tvrdnji prvi put supredloºili A. P. Dempster, N.M. Laird, D.B. Rubin (1977) i one vrijede pod pretpostavkomregularnosti modela. 4

Lema 1. Za bilo koji par parametara (θ(t), θ(t+1)) ∈ Θ×Θ,

H(θ(t+1)|θ(t)) ≤ H(θ(t)|θ(t)) (47)

gdje jednakost vrijedi ako i samo ako fYmis|Yobs(ymis|yobs; θ(t+1)) = fYmis|Yobs(ymis|yobs; θ(t)) go-tovo uvijek.

Dokaz. Dokaz ove leme posljedica je Jensenove nejednakosti i konkavnosti funkcije ln (x).

4Za detaljnija obja²njenja, pogledati [5].

25

H(θ(t)|θ(t))−H(θ(t+1)|θ(t))

=

∫ln fYmis|Yobs(ymis|yobs; θ

(t))fYmis|Yobs(ymis|yobs; θ(t))dymis −∫

ln fYmis|Yobs(ymis|yobs; θ(t+1))fYmis|Yobs(ymis|yobs; θ

(t))dymis (Uvjetna funkcija gusto¢e)

=

∫lnf(Yobs,Ymis)(yobs, ymis; θ

(t))

fYobs(yobs; θ(t))

fYmis|Yobs(ymis|yobs; θ(t))dymis −∫

lnf(Yobs,Ymis)(yobs, ymis; θ

(t+1))

fYobs(yobs; θ(t+1))

fYmis|Yobs(ymis|yobs; θ(t))dymis (Svojstva logaritamske funkcije)

=

∫ (ln f(Yobs,Ymis)(yobs, ymis; θ

(t))

)fYmis|Yobs(ymis|yobs; θ

(t))dymis −∫ln

(fYobs(yobs; θ

(t)


(t))dymis −∫ln

(f(Yobs,Ymis)(yobs, ymis; θ

(t+1))


(t))dymis +∫ln

(fYobs(yobs; θ

(t+1))


(t))dymis

=

∫ (ln f(Yobs,Ymis)(yobs, ymis; θ

(t))


(t))dymis −∫ (ln f(Yobs,Ymis)(yobs, ymis; θ

(t+1))


(t))dymis −∫ln

(fYobs(yobs; θ

(t)


(t))dymis +∫ln

(fYobs(yobs; θ

(t+1)


(t))dymis (Svojstva logaritamske funkcije)

=

∫ln

f(Yobs,Ymis)(yobs, ymis; θ(t))

f(Yobs,Ymis)(yobs, ymis; θ(t+1))fYmis|Yobs(ymis|yobs, θ

(t))dymis +∫lnfYobs(yobs; θ

(t+1))

fYobs(yobs; θ(t))

fYmis|Yobs(ymis|yobs; θ(t))dymis (Jensenova nejednakost)

≥ lnfYobs(yobs; θ

(t))

fYobs(yobs; θ(t+1))

+ lnfYobs(yobs; θ

(t+1))

fYobs(yobs; θ(t))

= 0

Teorem 1. Svaki EM algoritam pove¢ava l(θ; yobs) sa svakom iteracijom, tj.

l(θ(t+1); yobs) ≥ l(θ(t); yobs)

gdje jednakost vrijedi ako i samo ako

Q(θ(t+1)|θ(t)) = Q(θ(t)|θ(t))

Dokaz. Pogledajmo niz interacija θ(0), θ(1), . . . , gdje je θ(t+1) = M(θ(t)) za neku funkcijuM(·). Razlika u vrijednosti l(θ|yobs) dviju uzastopnih iteracija dana je s:

26

l(θ(t+1); yobs)− l(θ(t); yobs) = [Q(θ(t+1)|θ(t))−Q(θ(t)|θ(t))] (48)− [H(θ(t+1)|θ(t))−H(θ(t)|θ(t))]. (49)

RazlikaQ(θ(t+1)|θ(t))−Q(θ(t)|θ(t)) je nenegativna zato ²to je θ(t+1) izabran tako da zadovoljavauvjet

Q(θ(t+1)|θ(t)) ≥ Q(θ(t)|θ(t)) ∀θ ∈ Θ

dok je razlika H(θ(t+1)|θ(t))−H(θ(t)|θ(t)) nenegativna prema Lemi 1. Stoga za bilo koji EMalgoritam, promjena iz θ(t) u θ(t+1) pove¢ava log funkciju vjerodostojnosti s £ime je dokazanteorem.

Neka je θ = (θ1, θ2, . . . , θk)

T k - dimenzionalan parametar. Ozna£imo s

θ(t+1) = M(θ(t)) = (M1(θ(t),M2(θ(t), . . . ,Mk(θ(t)))(T ).

jednu iteraciju EM algoritma takvu da su E i M korak komponirane zajedno u vektor funkcijuM.

Korolar 1. Pretpostavimo da za neki θ(∗) iz prostora parametra Θ, l(θ(∗); yobs) ≥ l(θ; yobs) ∀θ ∈Θ. Tada za svaki EM algoritam,

l(M(θ(∗))|yobs) = l(θ(∗)|yobs)Q(M(θ(∗))|θ(∗)) = Q(θ(∗)|θ(∗))

Korolar 2. Pretpostavimo da za neki θ(∗) u prostoru parametra θ, l(θ(∗); yobs) > l(θ; yobs) ∀θ ∈Θ. Tada za svaki EM algoritam,

M(θ(∗)) = θ(∗).

Teorem 2. Pretpostavimo da θ(t) za t = 0, 1, 2, . . . je EM algoritma takav da je:

(i) niz (l(θ(t); yobs), t = 0, 1, 2 . . . ) je omeen, i

(ii) Q(θ(t+1); θ(t))−Q(θ(t)|θ(t)) ≥ λ(θ(t+1)− θ(t))(θ(t+1)− θ(t))T za neki skalar λ > 0 i za svet.

Tada niz θ(t) konvergira prema nekom parametru θ∗ u prostoru parametara Θ.

Dokaz.Prema Teoremu (1) i pretpostavci (i) teorema, niz l(θ(t); yobs) konvergira premanekoj vrijednosti l∗ < ∞. Stoga, za neki ε > 0, postoji t(ε) takav da je, za svaki t ≥ t(ε) iza sve s ≥ 1

s∑j=1

l(θ(t+j); yobs)− l(θ(t+j−1); yobs) = l(θ(t+s); yobs)− l(θ(t); yobs) < ε (50)

Prema Lemi (1) i (48) imamo sljede¢e:

0 ≤ Q(θ(t+j)|θ(t+j−1))−Q(θ(t+j−1)|θ(t+j−1)) ≤ l(θ(t+j); yobs)− l(θ(t+j−1); yobs)

za j ≥ 1, i stoga iz (50) slijedi

27

s∑j=1

Q(θ(t+j)|θ(t+j−1))−Q(θ(t+j−1)|θ(t+j−1)) < ε

za sve t ≥ t(ε) i za sve s ≥ 1, gdje je svaki £lan sume nenegativan. Primjenom pretpostavke(ii) teorema na t, t+ 1, t+ 2, . . . , t+ s− 1 te sumiranjem, dobivamo sljede¢i oblik:

ε > λs∑j=1

(θ(t+j) − θ(t+j−1))(θ(t+j) − θ(t+j−1))T

odakle slijedi

ε > λ(θ(t+s) − θ(t))(θ(t+s) − θ(t))T

²to je dovoljno da se pokaºe konvergencija θ(t) prema nekom θ(∗).

Teorem (1) implicira da vrijednost funkcija vjerodostojnosti L(θ; yobs) raste ili ostaja istasa svakom iteracijom EM algoritma takvom da je Q(θ(t+1)|θ(t)) > Q(θ(t)|θ(t)). Korolari impli-ciraju da je procjenitelj metodom maksimalne vjerodostojnosti ksna to£ka EM algoritma.Teorem (2) daje uvjete pod kojima niz vrijednosti EM algoritma konvergira.

Teorem 3. Pretpostavimo da je niz (θ(t), t = 0, 1, 2 . . . ) iteracija EM algoritma takav da je:

(i) ∂∂θQ(θ|θ(t))|θ=θ(t+1) = 0,

(ii) θ(t) konvergira prema θ∗ ∈ Θ, i

(iii) fYmis|Yobs(ymis|yobs; θ) je glatka za θ.

Tada

∂

∂θl(θ(∗); yobs)|θ=θ∗ = 0,

pa ukoliko θ(t) konvergira, on konvergira prema stacionarnoj to£ki.

Dokaz.

∂

∂θl(θ(t+1); yobs) =

∂

∂θQ(θ(t+1)|θ(t))− ∂

∂θH(θ(t+1)|θ(t))

= − ∂

∂θH(θ(t+1)|θ(t))

=∂

∂θ

∫ (ln fYmis|Yobs(ymis|yobs; θ

(t+1))


(t))dymis,

uz pretpostavku da se red integracije i derivacije moºe zamijeniti, konvergira prema

∂

∂θfYmis|Yobs(ymis|yobs; θ

(∗))dymis

²to je jednako nula nakon zamjene reda integracije i derivacije.

28

5.3 Brzina konvergencije

5

Neka je θ = (θ1, θ2, . . . , θk)T k - dimenzionalan parametar. Ozna£imo s

θ(t+1) = M(θ(t)) = (M1(θ(t),M2(θ(t), . . . ,Mk(θ(t)))(T )

jednu iteraciju EM algoritma takvu da su E i M korak komponirane zajedno u vektor funkcijuM. Razvoj M(θ(t)) u Taylerov red oko θ daje aproksimaciju prvog reda

M(θ(t))−M(θ) = M ′(θ)(θt − θ) (51)

oko θ, gdje je M ′(θ) Jacobian matrica za M(θ) s elementima ∂Mi

∂θj. Ako je θ stacionarna

vrijednost EM algoritma, tada je M(θ) = θ te (51) prelazi u

(θ(t+1))− θ) = M ′(θ)(θt − θ) (52)

ili jednostavnijeε(t+1) = Dε(t)

gdjeε(t) = (θt − θ)

je pogre²ka u aproksimaciji na koraku t, a D je skra¢eni zapisa za M ′(θ). Primijetimo dabrzina konvergencije EM algoritma ovisi o matrici D te da je brzina kovergencije linearna,zato ²to ε(t+1) je aproksimativno linearna transformacija θt u blizini vrijednosti moda.

U slu£aju jednodimenzionalnog parametra (k = 1) imamo

|ε(t+1)| = D|ε(t)|

gdje je D ∈ [0, 1]. to je D vrijednost bliºa nuli, to je konvergencija EM algoritma brºa.U slu£aju kad je k ≥ 2, brzina konvergencije EM algoritma postaje kompliciranija i ovisi osvojstvenoj strukturi matrice D.

5.4 Fisherova informacija

Neka je dana (n × p) matrica podataka y = (yobs, ymis) £iji redovi predstavljaju realizacijep - dimenzionalnog slu£ajnog vektora Y , neka ona sadrºi nedostaju¢e podatke, tj. Y =(Yobs, Ymis) te neka je s

l(θ; y) = l(θ; yobs) + ln fYmis|Yobs(ymis|yobs; θ) (53)

dana dekompozicija log funkcija vjerodostojnosti l(θ; y). Dvostrukim deriviranjem jednadºbe(53) po parametru θ dobivamo sljede¢u jednadºbu:

∂2

∂θ2l(θ; y) =

∂2

∂θ2l(θ; yobs) +

∂2

∂θ2ln fYmis|Yobs(ymis|yobs; θ). (54)

5Rezultati vezani uz brzinu konvergencije EM algoritma preuzeti su iz [4, str. 78. - 79.]

29

Uvjetno o£ekivanje obje strane jednadºbe (54) uvjetno na uvjetnu distribuciju (Ymis|Yobs, θ)daje sljede¢u jednadºbu:∫

∂2

∂θ2l(θ; y)fYmis|Yobs(ymis|yobs; θ)dymis =

∫∂2

∂θ2l(θ; yobs)fYmis|Yobs(ymis|yobs; θ)dymis + (55)∫

∂2

∂θ2ln fYmis|Yobs(ymis|yobs; θ)fYmis|Yobs(ymis|yobs; θ)dymis

Ako moºemo zamjeniti redosljed integriranja i deriviranja, tada jednadºba (55) poprimasljede¢i oblik:

∂2

∂θ2

∫l(θ; y)fYmis|Yobs(ymis|yobs; θ)dymis =

∂2

∂θ2

∫l(θ; yobs)fYmis|Yobs(ymis|yobs; θ)dymis +

∂2

∂θ2

∫ln fYmis|Yobs(ymis|yobs; θ)fYmis|Yobs(ymis|yobs; θ)dymis

odnosno,

∂2

∂θ2Q(θ|θ) =

∂2

∂θ2

∫l(θ; yobs)fYmis|Yobs(ymis|yobs; θ)dymis +

∂2

∂θ2H(θ|θ)

tj.

Iθ(yobs) =∂2

∂θ2Q(θ|θ)− ∂2

∂θ2H(θ|θ).

5.5 EM algoritam za regularne eksponencijalne familije

Pretpostavimo da funkcija gusto¢e fY (y; θ) dolazi iz regularne eksponencijalne familije tj.

fY (y; θ) = b(y) exp[θs(y)]/a(θ) (56)

gdje θ predstavlja (d × 1) vektor parametara, s(Y) predstavlja (1 × d) vektor dovoljnihstatistika za potpunu matricu podataka, a a i b predstavljaju funkcije od θ i y redom.

Pretpostavimo da θ(t) predstavlja trenutnu procjenu parametra θ ∈ Θ nakon t iteracijaalgoritma. Sljede¢a iteracija algoritma dan je dvama koracima:

(i) E - korak: Procijeni dovoljne statistike s(Y ) tako da pronae²

s(t) = Eθ(t) [s(Y )|Yobs] (57)

(ii) M - korak: Izra£unaj θ(t+1) kao rje²enje jednadºbe

Eθ[s(Y )] = s(t). (58)

Primijetimo kako M - korak algoritma rje²ava jednadºbe za pronalaºenje procjeniteljametodom maksimalne vjerodostojnosti dane za regularne eksponencijalne familije. Tj., akopretpostavimo da s(t) predstavlja dovoljne statistike izra£unate za Yobs dobivene iz (56), tadajednadºbe deniraju procjenitelje metodom maksimalne vjerodostojnosti za θ. Jednadºbeza parametar θ £esto se mogu rije²iti eksplicitno ili barem kori²tenjem nekih ra£unalnihprograma za potpune matrice podataka.

30

Primjer 15 (Jednostavan slu£ajan uzorak iz normalne distribucije). Neka Y = (Y1, . . . , Yn)predstavlja jednostavan slu£ajan uzorak iz normalne distribucije s o£ekivanjem µ i varijancomσ2 te neka y = (y1, . . . , yn) predstavlja jednu realizaciju tog uzorka. Pretpostavimo sljede¢e:

(i) yi su poznati za i = 1, . . .m,

(ii) yi su nepoznati, tj. nedostaju, za i = m, . . . n, te

(iii) vrijedi pretpostavka MAR.

Ozna£imo s θ = (µ, σ2) nepoznati parametar koji ºelimo procijeniti kori²tenjem EM algo-ritma. Zajedni£ka funkcija gusto¢e dana je s :

fY (y; θ) = (2πσ2)−n2 exp

[− 1

2

n∑i=1

(yi − µ)2

σ2

]= (2πσ2)−

n2 exp

[− 1

2σ2

n∑i=1

yi2 +

µ

σ2

n∑i=1

yi −n

2σ2µ2

]Primijetimo da je T = (T1, T2) = (

∑Yi,∑Yi

2) dovoljna statistika za θ = (µ, σ2). Pripadnalog funkcija vjerodostojnosti dana je s:

L(θ; y) = ln[fY (y; θ)]

= −n2

ln (2πσ2)− 1

2

n∑i=1

(yi − µ)2

σ2

(i) E - korak:

Eθ(t) [T1|Yobs = yobs] = Eθ(t)

[ n∑i=1

Yi|Yobs = yobs

]=

m∑i=1

yi + (n−m)µ(t) (59)

Eθ(t) [T2|Yobs = yobs] = Eθ(t)

[ n∑i=1

Yi2|Yobs = yobs

]=

m∑i=1

yi2 + (n−m)[(µ(t))2 + (σ(t))] (60)

za trenutnu procjenu parametra θ(t) = (µ(t), σ(t)).

(ii) M - korak:

Znamo da su procjenitelji metodom maksimalne vjerodostojnosti za parametar θ =(µ, σ2) u potpunom slu£aju sljede¢i:

31

µ =1

n

n∑i=1

yi (61)

σ2 =1

n

n∑i=1

yi2 −

(1

n

n∑i=1

yi

)2

(62)

Uvoenjem vrijednosti (59) u (61) te vrijednosti (60) u (62) Dobivamo sljede¢e:

µ(t+1) =1

nEθ(t)

[ n∑i=1

Yi|Yobs = yobs

]=

1

n

m∑i=1

yi +

(n−mn

)µ(t) (63)

(σ(t+1)) =1

nEθ(t)

[ n∑i=1

Yi2|Yobs = yobs

]− 1

n

(Eθ(t)

[ n∑i=1

Yi|Yobs = yobs

])2

=1

nEθ(t)

[ n∑i=1

Yi2|Yobs = yobs

]− (µ(t+1))2

=1

n

m∑i=1

yi2 +

(n−mn

)[(µ(t))2 + σ(t)]− (µ(t+1))2 (64)

Uvoenjem µ(t) = µ(t+1) = µ u (63) dobivamo sljede¢e:

µ =1

n

m∑i=1

yi +

(n−mn

)µ

µ−(n−mn

)µ =

1

n

m∑i=1

yi

µ

(1− n−m

n

)=

1

n

m∑i=1

yi

µ · mn

=1

n

m∑i=1

yi

µ =1

m

m∑i=1

yi

pa moºemo zaklju£iti kako prethodne iteracije od µ(t) konvergiraju prema

µ =1

m

m∑i=1

yi. (65)

32

Uvoenjem µ(t) = µ(t+1) = µ i σ(t) = σ(t+1) = σ u (64)dobivamo sljede¢e:

σ =1

n

m∑i=1

yi2 +

(n−mn

)[µ2 + σ]− µ2

σ

(1− n−m

n

)=

1

n

m∑i=1

yi2 −

(1− n−m

n

)µ2

σ

(m

n

)=

1

n

m∑i=1

yi2 −

(m

n

)µ2

σ =1

m

m∑i=1

yi2 − µ2

σ =1

m

m∑i=1

yi2 − µ2

pa moºemo zaklju£iti kako prethodne iteracije od σ(t) konvergiraju prema

σ =1

n

m∑i=1

yi2 − µ2. (66)

Primjer 16 (Jednostavan slu£ajan uzorak iz normalne distribucije). Neka Y = (Y1, . . . , Yn)predstavlja jednostavan slu£ajan uzorak iz normalne distribucije s o£ekivanjem µ = 0 i va-rijancom σ2 = 1 te neka y = (y1, . . . , yn) predstavlja jednu realizaciju tog uzorka. Nadalje,pretpostavimo sljede¢e:

(i) yi su poznati za i = 1, . . .m,

(ii) yi su nepoznati, tj. nedostaju, za i = m, . . . n, te

(iii) vrijedi pretpostavka MAR.

Ozna£imo s θ = (µ, σ2) nepoznati parametar koji ºelimo procijeniti prvo metodom maksi-malne vjerodostojnosti, a potom EM algoritmom. Procjene parametra θ = (µ, σ2) metodommaksimalne vjerodostojnosti ukoliko odbacimo nedostaju¢e podatke su sljede¢e:

µMLE = 0.04169288

σMLE = 0.94273952.

Ozna£imo s θ = (µ, σ2) nepoznati parametar koji ºelimo procijeniti korite¢i EM algoritam.Procjene parametra θ = (µ, σ2) dane su sljede¢om tablicom: 6

6Izra£un je napravljen primjenom koda koji se nalazi u prilogu 6.2 ovog rada, a preuzet je s http:

//www.stat.ucla.edu/~yuille/courses/Stat153/em1.pdf

33

http://www.stat.ucla.edu/~yuille/courses/Stat153/em1.pdf

http://www.stat.ucla.edu/~yuille/courses/Stat153/em1.pdf

t - iteracija µ σ2

1. iteracija 0.0374819 0.94868072. iteracija 0.04126757 0.94334123. iteracija 0.04164992 0.94280034. iteracija 0.04168854 0.94274575. iteracija 0.04169244 0.9427401

Tablica 1: Procjene parametra θ = (µ, σ2) pomo¢u EM algoritma

Primjer 17 (Jednostavan slu£ajan uzorak iz vi²edimenzionalne normalne distribucije s ne-dostaju¢im podacima). Neka je s Y = (Y1, Y2, . . . , Yp) dan jednostavan slu£ajan uzorak iz p- dimenzionalne normalne distribucije s vektorom o£ekivanja µ = (µ1, µ2, . . . µp) i matricomkovarijanci Σ. Neka je s y dana (n× p) matrica podataka £iji redovi predstavljaju realizacijeslu£ajnog vektora Y . Ozna£imo redove te matrice na sljede¢i na£in:

yi = (yi1, yi2, . . . , yip), za i = 1, . . . , n,

te ozna£imo s:yobs = (yobs,1, yobs,2, . . . , yobs,p)

Funkcija gusto¢e svakog reda matrice podataka dana je s:

fY (yi; θ) = |2πΣ|−12 exp

[−(yi − µ)TΣ−1(yi − µ)

2

]. (67)

Funkcija vjerodostojnosti potpune matrice podataka y dana je s:

L(θ; y) =n∏i=1

fY (yi; θ) =n∏i=1

|2πΣ|−12 exp

[−(yi − µ)TΣ−1(yi − µ)

2

],

dok je pripadna log funkcija dana s:

l(θ; y) = |2πΣ|−n2

n∑i=1

[−(yi − µ)TΣ−1(yi − µ)

2

]= |2πΣ|−

n2 − n

2(µTΣ−1µ) + µTΣ−1T1 −

1

2tr(Σ−1)T2

gdje su:

T1 =n∑i=1

yi = Y T1

T2 =n∑i=1

yiyiT = Y TY

dovoljne statistike, a 1 = (1, 1, . . . , 1)T . Primijetimo kako je T1 vektor oblika:

T1 =

( n∑i=1

Yi1,n∑i=1

Yi2, . . . ,n∑i=1

Yip

)T

34

dok je T2 matrica oblika:

T2 =

∑n

i=1 Yi12 ∑n

i=1 Yi1Yi2 . . .∑n

i=1 Yi1Yip∑ni=1 Yi2Yi1

∑ni=1 Yi2

2 . . .∑n

i=1 Yi2Yip...

......∑n

i=1 YipYi1∑n

i=1 YipYi2 . . .∑n

i=1 Yip2

te stoga dovoljne statistike moºemo zajedno zapisati kao

T =

(n T1

T

T1 T2

)(i) E - korak: Ozna£imo s θ(t) = (µ(t),Σ(t)) procjenu parametra θ u trenutku t. E - korak

algoritma sastoji se od ra£unanja procjene dovoljnih statistika, tj.

Eθ(t)

[ n∑i=1

Yij|Yobs = yobs

]=

n∑i=1

yij(t), za j = 1, . . . , p

Eθ(t)

[ n∑i=1

YijYik|Yobs = yobs

]=

n∑i=1

(yij(t)yik

(t) + cjki(t)), za j, k = 1, . . . , p

gdje su

yij(t) =

yij , ako je yij promatranEθ(t) [yij|yobs,i] , ako yij nedostaje

te

cjki(t) =

0 , ako su yij ili yik promatraniCov(yij, yik|yobs,i, θ(t)) , ako yij i yik nedostaju

(ii) M - korak: Znamo da su procjenitelji metodom maskimalne vjerodostojnosti za para-metar θ = (µ,Σ) u potpunom slu£aju sljede¢i:

µ = (µ1, µ2, . . . , µ2) =

(1

n

n∑i=1

yi1,1

n

n∑i=1

yi2, . . . ,1

n

n∑i=1

yip

)

Σ =

∑n

i=1 yi12

∑ni=1 yi1yi2 . . .

∑ni=1 yi1yip∑n

i=1 yi2yi1∑n

i=1 yi22 . . .

∑ni=1 yi2yip

......

...∑ni=1 yipyi1

∑ni=1 yipyi2 . . .

∑ni=1 ip

2

µj(t+1) =

1

n

n∑i=1

yij(t)

σjk(t+1) =

1

nE

[ n∑i=1

yijyik|Yobs = yobs

]− µj(t+1)µk

(t+1)

=1

n

n∑i=1

[(yij(t) − µj(t+1))(yik

(t) − µk(t+1)) + cjki(t)]

35

6 PRILOZI

6.1 Jednostavan slu£ajan uzorak iz dvodimenzionalne normalne dis-

tribucije s jednom varijablom s nedostaju¢im podacima

in s ta l l . packages ( "MASS" )l ibrary (MASS)in s ta l l . packages ( "mvnmle" )l ibrary (mvnmle)in s ta l l . packages ( "HotDeckImputation" )l ibrary ( HotDeckImputation )

#s imu l a c i j a podatakan<−1000N<−matrix (rnorm(n∗2) , n , 2 ) # 1000 x 2 i i d N(0 ,1)

#metoda maksimalne v j e r o d o s t o j n o s t iy i1<−N[ , 1 ]y i2<−N[ , 2 ]y i2

#uzoracko ocek i van j e − proc jene ocek i van jay1<−(1/n)∗sum( y i1 )y2<−(1/n)∗sum( y i2 )print (c ( y1 , y2 ) )

#uzoracka matrica k o v a r i j a n c i − proc jena matrice k o v a r i j a n c is11<−(1/n)∗sum( ( y i1 − y1 )∗( y i1 − y1 ) )s12<−(1/n)∗sum( ( y i1 − y1 )∗( y i2 − y2 ) )s22<−(1/n)∗sum( ( y i2 − y2 )∗( y i2 − y2 ) )print (matrix (c ( s11 , s12 , s12 , s22 ) , nrow=2,ncol=2,byrow = TRUE) )

#metoda maksimalne v j e r o d o s t o j n o s t i s nedosta jucim podacimayi11<−N[ , 1 ]y i22<−N[ , 2 ]y i22 [ 9 0 0 : 1 0 0 0 ]<−NAN1<−cbind ( yi11 , y i22 )N1

#funk c i j a mles t da je ML proc jene za v i s ed imenz iona lne normalne podatkemlest (N1)mlest (N1)$muhatmlest (N1)$sigmahat

#imputac i ja ocekivanjemN1<−impute .mean(N1)

36

#metoda maksimalne v j e r o d o s t o j n o s t i s novom matricom#podataka nakon umetanjay i1<−N1 [ , 1 ]y i2<−N1 [ , 2 ]

#uzoracko ocek i van j e − proc jene ocek i van jay1<−(1/n)∗sum( y i1 )y2<−(1/n)∗sum( y i2 )print (c ( y1 , y2 ) )

#uzoracka matrica k o v a r i j a n c i − proc jena matrice k o v a r i j a n c is11<−(1/n)∗sum( ( y i1 − y1 )∗( y i1 − y1 ) )s12<−(1/n)∗sum( ( y i1 − y1 )∗( y i2 − y2 ) )s22<−(1/n)∗sum( ( y i2 − y2 )∗( y i2 − y2 ) )print (matrix (c ( s11 , s12 , s12 , s22 ) , nrow=2,ncol=2,byrow = TRUE) )

6.2 Jednostavan slu£ajan uzorak iz normalne distribucije

in s ta l l . packages ( "mvnmle" )l ibrary (mvnmle)

#EM algor i tamem. norm <− function (Y)Yobs <− Y[ ! i s .na(Y) ]Ymis <− Y[ i s .na(Y) ]n <− length (c (Yobs , Ymis ) )r <− length (Yobs )# pocetne v r i j e d n o s t imut <− 0s i t <− 1# Definiramo l o g f un k c i j u v j e r o d o s t o j n o s t il l <− function (y , mu, sigma2 , n)−.5∗n∗log (2∗pi∗sigma2 )−.5∗sum( ( y−mu)^2)/sigma2# Izracuna j l o g f un k c i j u v j e r o d o s t o j n o s t i za pocetne v r i j e d n o s t i ,# i g n o r i r a j u c i mehanizam nedos t a j u c i h v r i j e d n o s t il l tm1 <− l l (Yobs , mut , s i t , n )repeat# E−korakEY <− sum(Yobs ) + (n−r )∗mutEY2 <− sum(Yobs^2) + (n−r )∗(mut^2 + s i t )# M−korakmut1 <− EY / ns i t 1 <− EY2 / n − mut1^2# Postav i nove v r i j e d n o s t i parametaramut <− mut1s i t <− s i t 1# Izracuna j l o g f un k c i j u v j e r o d o s t o j n o s t i k o r i t e c i t renutne procjene ,# i g n o r i r a j u c i mehanizam nedos t a j u c i h podataka

37

l l t <− l l (Yobs , mut , s i t , n )# I s p i s i v r i j e d n o s t i t r enu tn i h proc jena i v r i j e d n o s t v j e r o d o s t o j n o s t icat (mut , s i t , l l t , "\n" )# Zaus tav i ako j e konvergentnoi f ( abs ( l l tm1 − l l t ) < 0 .001 ) breakl l tm1 <− l l treturn (mut , s i t )

n<−1000x <− rnorm(n)x [ 9 0 0 : 1 0 0 0 ] <− NAx1<−x [ 0 : 8 9 9 ]x1

#metoda maksimalne v j e r o d o s t o j n o s t imu<−(1/length ( x1 ) )∗sum( x1 )s11<−(1/length ( x1 ) )∗sum( ( x1 − mu)∗( x1 − mu) )print (c (mu, s11 ) )

#EM algor i tamem. norm(x )

38

7 LITERATURA

Literatura

[1] P.D. ALISSON, Missing data, University of Pennsylvaniahttp://www.unc.edu/~nielsen/soci709/cdocs/allison.pdf[10.6.2015.]

[2] R.J.A. LITTLE, D.B. RUBIN, Statistical Analysis with Missing data, Whiley, 1987.

[3] C.R. RAO, H. TOUTENBURG, Linear Models: Least Squares and Alternatives, Sprin-ger, 1997.

[4] J.L. SCHAFER, Analysis of Incomplete Multivariate Data, CRC Press LLC, 1997.

[5] A. P. DEMPSTER, N.M. LAIRD, D.B. RUBIN, Maximum Likelihood form IncompleteData via EM Algorithm, Journal of the Royal Statistical Society. Series B (Methodolo-gical), Vol. 39(1977), No. 1, 1-38.

[6] B.E. HANSEN, Econometrics, University of Wisconsin, 2015.http://www.ssc.wisc.edu/~bhansen/econometrics/Econometrics.pdf[19.9.2015.]

39

http://www.unc.edu/~nielsen/soci709/cdocs/allison.pdf

http://www.ssc.wisc.edu/~bhansen/econometrics/Econometrics.pdf

Saºetak

Problem nedostaju¢ih podataka £esta je pojava u praksi. Prilikom odabira prikladne

statisti£ke analize, vaºno je dobiti odgovor na pitanje za²to neki podaci nedostaju i kako

se treba pona²ati u daljnjoj analizi. U prvom dijelu rada, predstavljen je na£in mo-

deliranja nedostaju¢ih podataka te neke standarne statisti£ke metode s nedostaju¢im

podacima kao npr. analiza potpune matrice podataka te analiza dostupnih slu£aje-

vima. U drugom dijelu rada, predstavljena je metoda maksimalne vjerodostojnosti s

nedostaju¢im podacima te rezultati vezani uz EM algoritam kao algoritam prikladan

za rje²avanje problema pronalaºenja procjene metodom maksimalne vjerodostojnosti

parametra distribucije koja dolazi iz podataka koji su nepotpuni ili nedostaju.

Klju£ne rije£i: nedostaju¢i podaci, metoda maksimalne vjerodostojnosti, EM al-

goritam

Title and summary

Missing data analysis

The problem of missing data is a common practice problem. When choosing the ap-

propriate statistical analysis, it is important to get an answer to why some data are

missing and how to behave in the further analysis. In the rst part of this paper a way

of modeling missing data and some of the standard statistical methods with missing

data such as, complete data analysis and available cases analysis is presented. In the

second part of this paper the maximum likelihood method with missing data and results

related to the EM algorithm as the algorithm suitable for solving the problem of nding

estimates of the maximum likelihood method parameter distribution that comes from

data that are incomplete or missing are presented.

Keywords: missing data, maximum likelihood, EM algorithm

40

8 IVOTOPIS

Roena sam 29.6.1990. godine u Vukovaru. Osnovnu ²kolu zavr²ila sam u Iloku, a poslije njeupisala sam srednju ²kolu, Op¢u gimnaziju, u Iloku. Nakon ²to sam zavr²ila srednju ²kolu2009. godine, upisala sam se na Odjel za matematiku u Osijeku koji sam zavr²ila 2012.godine te stekla zvanje sveu£ili²na prvostupnica matematike. Nastavila sam studiranje naSveu£ili²nom diplomskom studiju matematike - smjer Financijska matematika i statistika.Takoer, 2015. godine upisala sam i zavr²ila Pedago²ko - psiholo²ku i Didakti£ko - metodi£kuizobrazbu (Modul A) na Fakultetu za odgojno obrazovne znanosti u Osijeku. Trenutno radimkao u£iteljica matematike u Osnovnoj ²koli Julija Bene²i¢a u Iloku.

41

Documents

Sveu£ili²te J.J.Strossmayera u Osijeku Odjel za matematiku ...mdjumic/uploads/diplomski/KLA08.pdf · Sveu£ili²te J.J.Strossmayera u Osijeku Odjel za matematiku Sveu£ili²ni diplomski