33
Kapitel 3 Likelihoodfunktionen Lad P være en statistisk model på (X, E). Hvis der findes et σ-endeligt mål μ (X, E), således at ν μ for alle ν ∈P, så siges modellen at være ! domineret af μ. Hvis modellen er parametriseret P = (ν θ ) θΘ er antagelsen altså at der for hvert θ Θ findes en funktion f θ ∈M + (X, E) sådan at ν θ (A) = Z A f θ ( x) dμ( x) for alle A EΘ. (3.1) Et fundamentalt statistisk hjælpemiddel for en domineret statistisk model er li- kelihoodfunktionen. Svarende til en observation x ∈X definerer vi funktionen L x : Θ [0, ) givet ved L x (θ) = f θ ( x) for alle θ Θ. (3.2) For et udfald x ∈X angiver likelihoodfunktionen tæthedens værdi i x som funktion af parameteren θ Θ. For at understrege, at likelihoodfunktionen er en funktion af θ, vil man ofte blot skrive L(θ) = f θ ( x), og i praksis undertrykke afhængigheden af observationen x. I andre sammenhænge er det omvendt nyttigt at huske på, at forskellige observationer giver forskellige likelihoodfunktioner, og man taler da gerne om samlingen af alle likelihoodfunktioner (L x ) x∈X . 69

Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

Embed Size (px)

Citation preview

Page 1: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

Kapitel 3

Likelihoodfunktionen

Lad P være en statistisk model på (X,E). Hvis der findes et σ-endeligt mål µ på(X,E), således at

ν µ for alle ν ∈ P,

så siges modellen at være ! domineret af µ. Hvis modellen er parametriseret P =(νθ)θ∈Θ er antagelsen altså at der for hvert θ ∈ Θ findes en funktion fθ ∈ M+(X,E)sådan at

νθ(A) =∫

Afθ(x) dµ(x) for alle A ∈ E, θ ∈ Θ. (3.1)

Et fundamentalt statistisk hjælpemiddel for en domineret statistisk model er li-kelihoodfunktionen. Svarende til en observation x ∈ X definerer vi funktionenLx : Θ→ [0,∞) givet ved

Lx(θ) = fθ(x) for alle θ ∈ Θ. (3.2)

For et udfald x ∈ X angiver likelihoodfunktionen tæthedens værdi i x som funktionaf parameteren θ ∈ Θ. For at understrege, at likelihoodfunktionen er en funktion afθ, vil man ofte blot skrive L(θ) = fθ(x), og i praksis undertrykke afhængighedenaf observationen x. I andre sammenhænge er det omvendt nyttigt at huske på, atforskellige observationer giver forskellige likelihoodfunktioner, og man taler da gerneom samlingen af alle likelihoodfunktioner (Lx)x∈X.

69

Page 2: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

70 Kapitel 3. Likelihoodfunktionen

I mange tilfælde er de indgående tætheder overalt positive. Man vil da ofte arbejdemed minus logaritmen af likelihoodfunktionen,

`x(θ) = − log fθ(x) for alle θ ∈ Θ.

Der er ikke universel enighed om hvorvidt der skal sættes minus foran logaritmen,men om man følger denne konvention eller ej er uden betydning i dette kapitel. Ideenmed at tage logaritmer er at tætheder for sammensatte eksperimenter ofte er produkteraf tætheder for deleksperimenter - og disse produkter forvandles til summer ved enlogaritmetransformation.

3.1 Eksempler på likelihoodfunktioner

Vi vil starte med at give en række eksempler på likelihoodfunktioner i en dimension,så man kan få en fornemmelse af hvordan sådanne funktioner ser ud.

Eksempel 3.1 Lad X1, . . . , X10 være uafhængige, reelle stokastiske variable, alleeksponentialfordelte med ukendt middelværdi λ ∈ (0,∞). Lad den gjorte observationvære (X1, . . . , X10) = (x1, . . . , x10) hvor

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

0.086 0.306 0.291 0.147 0.419 0.779 0.146 0.037 0.527 1.226

Idet hvert Xi har tæthed med hensyn til Lebesguemålet m på (R,B), har den simul-tane fordeling af (X1, . . . , X10) tæthed med hensyn til m10 på (R10,B10), og dennesimultane tæthed er givet ved produktet

fλ(x1, . . . , x10) =10∏

i=1

e−xi/λ, (x1, . . . , x10) ∈ (0,∞)10.

Dermed er likelihoodfunktionen svarende til observationen x = (x1, . . . , x10)

Lx(λ) =

(

)10

exp(−10∑

i=1

xi/λ) for λ ∈ (0,∞),

og minus loglikelihoodfunktionen er

`x(λ) = 10 log λ +1λ

10∑

i=1

xi for λ ∈ (0,∞). (3.3)

Page 3: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.1. Eksempler på likelihoodfunktioner 71

0.0 0.5 1.0 1.5 2.0

0.0

0.1

0.2

0.3

0.4

PSfrag replacements

λ

`(λ)

L(λ

)

0.0 0.5 1.0 1.5 2.0

510

15

PSfrag replacements

λ`(λ

)L(λ)

Figur 3.1: Likelihoodfunktionen og minus loglikelihoodfunktionen i eksempel 3.1.

På figur 3.1 har vi tegnet grafen op for såvel likelihoodfunktion som minus loglikeli-hoodfunktion for den konkrete observation.

Bemærk at data kun indgår i `x(λ) igennem summen∑

xi. Det er et almindeligt fæ-nomen at det kun er visse aspekter af den gjorte observation, der har betydning forlikelihoodfunktionen.

Eksempel 3.2 Lad X være binomialfordelt med længde 66170 og ukendt successand-synlighed p > 0. Lad den gjorte observation være x = 34055 som i eksempel 1.1.Idet X har tæthed med hensyn til tællemålet τ på N0, givet ved

fp(x) =

(

66170x

)

px (1 − p)66170−x for x = 0, 1, . . . , 66170,

(hvor det underforstås af tætheden er nul udenfor det angivne område), ser vi at like-lihoodfunktionen svarende til en observation x er

Lx(p) =

(

66170x

)

px (1 − p)66170−x for p ∈ (0, 1) ,

og minus loglikelihoodfunktionen er

`x(p) = − log

(

66170x

)

− x log p − (66170 − x) log(1 − p) for p ∈ (0, 1) .

På figur 3.2 har vi tegnet grafen op for såvel likelihoodfunktion som minus loglike-lihoodfunktion for den konkrete observation x = 34055. Vi ser en meget skarperemarkeret top end i eksempel 3.1.

Page 4: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

72 Kapitel 3. Likelihoodfunktionen

0.46 0.48 0.50 0.52 0.540.00

000.

0015

0.00

30

PSfrag replacements

λ

`(λ)

L(λ

)

0.46 0.48 0.50 0.52 0.54

010

030

050

0

PSfrag replacements

λ

`(λ

)

L(λ)

Figur 3.2: Likelihoodfunktionen og minus loglikelihoodfunktionen i eksempel 3.2.

Bemærk at den sværest tilgængelige del af likelihoodfunktionen, binomialkoefficien-ten, på sin vis er uden betydning - i hvert fald for formen af likelihoodgrafen. Nårx er fastlagt, er binomialkoefficienten jo en multiplikativ konstant, så tegnede mangrafen for

p 7→ px (1 − p)66170−x for p ∈ (0, 1) ,

ville man få præcis samme graf som figur 3.2 - blot ville y-aksen være skaleret an-derledes.

Eksempel 3.3 Lad os betragte den afskårne eksponentialfordelingsmodel fra eksem-pel 2.15, hvor en underliggende, uobserveret variabel Y er eksponentialfordelt medmiddelværdi λ, mens den observerede variabel X er fremkommet som

X = minY, 300 .

Fordelingen af X har ikke tæthed med hensyn til Lebesguemålet, for den har positivpunktsandsynlighed i 300. På den anden side har fordelingen af X heller ikke tæthedmed hensyn til et tællemål, for så skulle fordelingen være koncentreret på tælleligtmange punkter.

Men med lidt opfindsomhed kan man godt finde et dominerende mål. Hvis vi betrag-ter

µ = m(0,300) + ε300 ,

altså summen af Lebesguemålets restriktion til intervallet (0, 300) og etpunktsmålet i

Page 5: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.1. Eksempler på likelihoodfunktioner 73

punktet 300, og hvis vi ser på funktionen

gλ(x) =

1λe−x/λ for x ∈ (0, 300)

e−x/λ for x = 300

0 ellers,

så indser man let at

P(X ≤ x) =∫ x

−∞gλ(x) dµ(x) for alle x ∈ R .

Det vil sig at fordelingsfunktionen for fordelingen af X er den samme som fordelings-funktionen for gλ · µ. Og på grund af entydighedssætningen for fordelingsfunktioner,må fordelingen af X derfor have tæthed gλ med hensyn til µ.

Hvis vi har uafhængige observationer X1, . . . , Xn fra den samme afskårne eksponen-tialfordeling, så har den simultane fordeling af disse variable naturligvis tæthed mht.produktmålet µ ⊗ . . . ⊗ µ. For at finde et simpelt udtryk for den simultane tæthed erdet hensigtsmæssigt at observere at den etdimensionale tæthed kan skrives som

gλ(x) =

(

e−x/λ)1(0,300)(x) (

e−x/λ)1300(x)

=

(

)1(0,300)(x)

e−x/λ ,

for alle x ∈ (0, 300]. Dermed får den simultane fordeling af X1, . . . , Xn tæthed

fλ(x1, . . . , xn) =n∏

i=1

(

)1(0,300)(xi)

e−xi/λ =

(

)∑n

i=1 1(0,300)(xi)

e−∑n

i=1 xi/λ .

Dette oversættes til en loglikelihood på

`x1,...,xn (λ) =

n∑

i=1

1(0,300)(xi)

log λ +1λ

n∑

i=1

xi . (3.4)

Denne funktion er optegnet i figur 3.3, hvor observationerne er aktuargruppen frapuslespilseksperimentet i eksempel 2.15. Vi ser at likelihoodfunktionen (og loglike-lihoodfunktionen) kun afhænger af de gjorte observationer x1, . . . , xn gennem deressum

∑ni=1 xi og gennem antallet af ikke-censurerede observationer. Bemærk i øvrigt

hvor tæt beslægtede de to likelihoodfunktioner (3.3) og (3.4) er med hinanden. Hvisman skruede op for censurgrænsen i eksperimentet, sådan at ingen observationer i

Page 6: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

74 Kapitel 3. Likelihoodfunktionen

100 200 300 400 500

9810

010

210

4

PSfrag replacements

λ

`(λ

)

L(λ)

Figur 3.3: Minus loglikelihoodfunktionen for den afskårne eksponentialfordelingsmodel fraeksempel 2.15, se formel (3.4) for det eksplicitte udtryk. De underliggende data er aktuar-gruppen fra puslespilseksperimentet i eksempel 2.15.

praksis censureredes, så ville man få samme likelihoodfunktion som i det eksperi-ment hvor man slet ikke havde tænkt sig at censurere.

Tricket, der førte en tæthed på tuborgform over i et rent multiplikativt udtryk, ergodt at tage til sig. Mange tætheder, man støder på i praksis, skrives naturligt påtuborgform - men den måde at skrive tæthederne på fungerer ikke særlig godt, nårsådanne tætheder skal ganges sammen.

Eksempel 3.4 Hvis X1, . . . , Xn er uafhængige, identisk fordelte Γ-fordelte variablemed ukendt formparameter λ og ukendt skalaparameter β, så er loglikelihoodfunk-tionen

`x1,...,xn (λ, β) = nλ log β + n log Γ(λ) − (λ − 1)n∑

i=1

log xi +1β

n∑

i=1

xi . (3.5)

De faktiske observationer indgår kun i form af de to summariske størrelser

n∑

i=1

log xi ogn∑

i=1

xi ,

Page 7: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.1. Eksempler på likelihoodfunktioner 75

og alle likelihoodbaserede størrelser - maksimaliseringsestimatorer, kvotientteststør-relser etc. - afhænger således kun af observationernes sum og produkt.

I et simulationseksperiment har vi genereret n = 100 uafhængige variable fra en Γ-fordeling med formparameter 7 og skalaparameter 2. De summariske størrelser blev

1n

n∑

i=1

log xi = 2.591611 og1n

n∑

i=1

xi = 14.30888 . (3.6)

Niveaukurverne for den tilsvarende loglikelihoodfunktion er optegnet på figur 3.4.

4 6 8 10 12

1.0

1.5

2.0

2.5

3.0

3.5

PSfrag replacements

λ

β

Figur 3.4: Niveaurkurver for loglikelihoodfunktionen (3.5), baseret på de summariske stør-relser (3.6). Prøver man at visualisere grafen for loglikelihoodfunktionen, ser man en “krum,aflang dal”.

De eksempler på loglikelihoodfunktioner vi har set på indtil nu, har været ganskepæne, med en enkelt veldefineret dal på grafen. I mere komplicerede modeller medflere parametre, kan man ikke gå ud fra at tingene er så pæne. Loglikelihoodfunk-tioner har ofte mange lokale minima og og tilsvarende mange lokale maksima, ogeftersom det er svært at visualisere disse højdimensionale funktioner, skal man passepå med ikke at undervurdere de geometriske vanskeligheder, de frembyder.

Page 8: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

76 Kapitel 3. Likelihoodfunktionen

3.2 Fortolkning af likelihoodfunktionen

I forbindelse med konkordansovervejelser fortolkede vi store værdier af en tæthedsom udtryk for at den pågældende observation var rimelig under et konkret sand-synlighedsmål. Jo større tæthed, jo bedre. Nu vender vi situationen: vi har kun énobservation, men mange sandsynlighedsmål. Ud fra et symmetriargument må vi selikelihoodfunktionen som et udtryk for hvor godt de forskellige sandsynlighedsmåler i konkordans med observationen. Jo større tæthed, jo større konkordans. Likeli-hoodfunktionen udtaler sig altså om hvor rimelige de enkelte parameterværdier er,set i lyset af den gjorte observation.

Der er et væld af faldgruber i denne symmetribetragtning. Vi vil kun tillægge denintuitiv vægt, og ikke betragte den som et logisk tvingende argument. Dog vil hvertpræcist resultat vi viser give større og større vægt til den erfaring at likelihoodfunk-tionen er den primære bærer af information om samspillet mellem observation ogmodel. Vi vil (i modsætning til en del andre statistikere) omhyggeligt undgå at læggenoget religiøst i likelihoodbegrebet: de metoder vi udleder på baggrund af likelihood-funktionen, skal vurderes på deres effektivitet, og de skal vejes op mod andre metoder- det er ikke et argument i sig selv at de er funderet på overvejelser over likelihood-funktionen.

Et problem for fortolkningen af likelihoodfunktionen er at tætheder ikke er entydigtgivet. Hvis νθ = fθ · µ, så kan vi ændre fθ på en µ-nulmængde, og den resulterendefunktion fθ er stadig en tæthed for νθ med hensyn til µ. Hvis en étpunktsmængde x0er E-målelig med µ-mål nul, så kan vi i princippet sætte

fθ(x) =

0 hvis x = x0

fθ(x) hvis x , x0.

Uanset hvordan den oprindelige likelihoodfunktion Lx0 svarende til observationen x0

så ud, har vi nu erstattet den med en ny likelihoodfunktion Lx0 der er konstant 0!Eller ser ud på en hvilken som helst anden måde vi måtte finde for godt. Variationeraf dette argument gør endvidere at vi i visse eksempler kan ændre på samtlige like-lihoodfunktioner hvis vi måtte ønske det. Og derfor skal man være varsom med attillægge en konkret likelihoodfunktion nogen selvstændig betydning.

I mange modeller, hvor både parametermængden Θ og repræsentationsrummet X erdelmængder af euklidiske rum, er det muligt at vælge tæthederne fθ sådan at afbild-ningen

(θ, x) 7→ fθ(x)

Page 9: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.3. Det dominerende måls rolle 77

som funktion af to variable har pæne egenskaber, f.eks. at den er kontinuert ellerligefrem C∞. I så fald er der ingen der kunne drømme om at manipulere med disseregulære tætheder. Men hvori det betydningsfulde ved regulære tætheder består (bort-set fra at de gør analysen nemmere) er det svært at sige noget præcist om.

Hvis (νθ)θ∈Θ er domineret af µ, sig νθ = fθ · µ, så er familien også domineret af cµ foret vilkårligt c > 0, og vi ser let at

νθ =fθc· cµ.

Hvis vi kalder den oprindelige likelihoodfunktion (baseret på µ) for Lx(θ) og likeli-hoodfunktionen baseret på det dominerende mål cµ for Lc

x(θ), så ser vi at

Lcx(θ) =

fθ(x)c=

1c

Lx(θ).

Vi ser at Lcx og Lx er proportionale, skrevet Lc

x ∝ Lx. Der giver næppe mening athævde at µ som dominerende mål har en objektiv fortrinsstilling fremfor cµ, så viledes til at konkludere at den absolutte størrelse af Lx(θ) ikke har nogen betydning.Det der kan fortolkes er forholdet mellem likelihoodfunktionens værdier i to punkter:Hvis

Lx(θ1)Lx(θ2)

> 1

så er x bedre i konkordans med νθ1 end med νθ2 - desto større brøken er, jo større erforskellen i konkordans. Vi ser at brøken ikke ændrer sig, når man ændrer grundmåletfra µ til cµ.

3.3 Det dominerende måls rolle

Visse statistiske modeller er ikke dominerede. Et eksempel er de ikke-parametriskemodeller fra eksempel 2.11. Men langt de fleste i praksis forekommende statistiskemodeller er domineret, som regel af et Lebesguemål eller et tællemål. Men de er ogsådomineret af mange andre mål. Det konkrete dominerende mål er derfor noget vi selvvælger, når vi beskriver modellen. Vi vil i dette afsnit indkredse, hvilken betydningvalget af dominerende mål har for hvordan likelihoodfunktionen ser ud.

Eksempel 3.5 Lad X være eksponentialfordelt med parameter λ > 0. Som i eksem-pel 3.1 ser vi at denne statistiske model er domineret af Lebesguemålet m på R, og vi

Page 10: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

78 Kapitel 3. Likelihoodfunktionen

kan bruge tætheden

fλ(x) =

e−x/λ x > 0

0 x ≤ 0,

hvilket fører til likelihoodfunktion

Lx(λ) =

e−x/λ x > 0

0 x ≤ 0.

Alternativt kan vi dominere med m(0,∞) = 1(0,∞) · m, altså med Lebesguemålets re-striktion til den positive halvakse. I så fald kan vi bruge tætheden

gλ(x) =1λ

e−|x|/λ x ∈ R. (3.7)

Der gælder nemlig at∫

Agλ(x) dm(0,∞)(x) =

Agλ(x) 1(0,∞)(x) dm(x) =

Afλ(x) dm(x)

for alle A ∈ B. Faktisk ser vi at det er irrelevant hvordan vi definerer gλ på dennegative halvakse. Men det angivne valg af gλ fører til likelihoodfunktionen

Lx(λ) =1λ

e−|x|/λ x ∈ R.

Vi ser at for x > 0 er der ingen forskel på Lx og Lx - de to funktioner er simpelthenens. Men for negative x’er er Lx og Lx vidt forskellige.

Er det Lx eller Lx der er den “rigtige” likelihoodfunktion? Der er visse grunde til atforetrække Lx. Men i det store og hele er de lige gode, og der er sjældent nogen grundtil at skelne mellem dem. De er kun uenige for observationer der aldrig forekommerunder modellen: samtlige eksponentialfordelinger tildeler jo (−∞, 0] sandsynlighe-den 0.

Hvis vi accepterer at det kun er relative forhold mellem likelihoodfunktionens vær-dier i forskellige punkter, der betyder noget, skal vi se at valget af dominerende målingen reel rolle spiller. Bortset fra for nogle ekstreme punkter i repræsentationsrum-met - punkter der ifølge modellen selv slet ikke vil optræde som virkelige måleresul-tater - er alle likelihoodfunktioner bestemt af den statistiske model selv, ikke af hvadvi vælger at benytte som referencepunkt når vi skal beskrive modellen. At forklare ihvordan det hænger sammen, kræver vi udvikler lidt teori.

Page 11: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.3. Det dominerende måls rolle 79

Vi siger at en statistisk model P på (X,E) er internt domineret hvis der findes etν0 ∈ P sådan at

ν ν0 for alle ν ∈ P.

I teoretiske sammenhænge er det ofte bekvemt at arbejde med internt domineredemodeller. Også i praktiske tilfælde kan det være nødvendigt, f.eks. fordi man arbejdermed komplicerede repræsentationsrum (X,E) der ikke på forhånd er udstyret med etgrundmål. Stort set alle de modeller vi vil arbejde med er internt dominerede.

Eksempel 3.6 Lad (νθ)θ∈Θ være en parametriseret statistisk model på (X,E), sådanat νθ = fθ · µ for alle θ. Antag at

fθ0(x) > 0 for alle x ∈ X.

Da er for alle θ ∈ Θνθ = fθ · µ =

fθfθ0

fθ0 · µ =fθfθ0

· νθ0 .

Altså er familien internt domineret.

Eksempel 3.5 viser - i form af tætheden (3.7) - at denne argumentation kan bringes ianvendelse i forbindelse med eksponentialfordelinger, med en vilkårlig af modellenssandsynlighedsmål som dominerende mål. Og generelt kan man med lidt fantasi ivalget af det preliminært dominerende mål, vise at forbløffende mange statistiskemodeller er internt dominerede.

Som tidligere nævnt vil man i praksis gerne arbejde med logaritmen af likelihood-funktionen. Hvis det skal give mening, må alle tætheder jo være overalt positive. Ogdermed har vi faktisk sagt at modellen er internt domineret: analogt med eksempel 3.6ser vi nemlig at ethvert sandsynlighedsmål i modellen kan bruges som dominerendemål!

Omvendt, hvis alle mål i modellen kan bruges som dominerende mål, så er alle paraf mål fra modellen ækvivalente, og dermed kan vi antage at alle tætheder mellemmodellens mål er positive. Så bruges et af modellens mål som dominerende mål, giverdet mening at tage logaritmen til likelihoodfunktionen.

Eksempel 3.7 Lad νθ være ligefordelingen på intervallet (0, θ), hvor θ > 0 er ukendt.Vi ser at νθ = 1(0,θ) · m, så modellen (νθ)θ∈(0,∞) er domineret af Lebesguemålet. Men

Page 12: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

80 Kapitel 3. Likelihoodfunktionen

modellen er ikke internt domineret. For hvis νθ betegner ligefordelingen på (0, θ), såhar vi for alle θ at

νθ((θ, 2θ)

)= 0, ν2θ

((θ, 2θ)

)=

12.

Dermed kan ν2θ ikke have tæthed med hensyn til νθ.

Vi siger at et σ-endeligt mål µ er minimalt dominerende for den statistiske modelP på (X,E), hvis

ν µ for alle ν ∈ P,

og hvis det for ethvert σ-endeligt mål ξ gælder at

ν ξ ∀ν ∈ P ⇒ µ ξ.

Hvis man har to minimalt dominerende mål for modellen P så må de nødvendigvisvære ækvivalente.

Eksempel 3.8 Hvis modellen P er internt domineret af ν0 ∈ P, så er ν0 et minimaltdominerende mål. For hvis ξ er et vilkårligt dominerende mål, så må ν0 per definitionhave tæthed med hensyn til ξ.

Mere generelt, hvis P er domineret af en tællelig konveks kombination af mål frafamilien,

µ =∑

n=1

anνn, (3.8)

hvor νn ∈ P for alle n ∈ N, og hvor (an)n∈N er en følge af ikke-negative tal der summertil 1, så må dette µ være minimalt dominerende. For hvis ξ er endnu et domineredemål, så er νn = fn · ξ for passende tætheder fn ∈ M+, og dermed er

µ =

∞∑

n=1

an ( fn · ξ) =

∞∑

n=1

an fn

· ξ.

Vi vil nu gøre rede for at enhver domineret statistisk familie har et minimalt domine-rende mål (hvad der ikke er klart på forhånd), og at dette minimalt dominerende målhar formen (3.8). Vi vil bruge notationen

B f = x ∈ X | f (x) > 0 for f ∈ M+(X,E).

Page 13: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.3. Det dominerende måls rolle 81

En mængde af formen

C =∞⋃

n=1

B fn

for en følge ( fn)n∈N afM+-funktioner kaldes en kæde. Vi taler om en D-kæde, hvisalle fn’erne ligger i en givet mængde D ⊂ M+. Bemærk at en tællelig forening afD-kæder igen er enD-kæde.

Lemma 3.9 Lad (X,E, µ) være et σ-endeligt målrum, og lad D være en delmængdeafM+(X,E). Der findes da enD-kæde så

µ(

B f \C)

= 0 for alle f ∈ D. (3.9)

B: I første omgang antager vi at µ er et sandsynlighedsmål. Vi vil finde en D-kæde med størst muligt µ-mål Sæt

α = supµ(C) | C er en D-kæde.

Da µ er et sandsynlighedsmål, er det klart at α ≤ 1. Vi kan findeD-kæder C1,C2, . . .

µ(Cn) > α − 1n.

Idet foreningen af disse D-kæder selv er en D-kæde, har vi at

α ≥ µ

∞⋃

i=1

Ci

≥ µ(Cn) > α − 1n,

og ved at lade n → ∞, ser vi at⋃∞

i=1 Ci er en D-kæde med mål α, det vil sige medmaksimalt mål. Lad os fremover kalde denne kæde C.

Hvis f ∈ D, så er C ∪ B f endnu en D-kæde. Maksimaliteten af C gør at den nyekæde ikke kan have større mål end C selv. Og derfor må B f \C have mål 0. Og vi harsåledes vist (3.9).

Hvis µ er et σ-endeligt mål, men ikke nødvendigvis et sandsynlighedsmål, så findesder et sandsynlighedsmål µ, der er ækvivalent med µ. Vi har lige fundet en D-kædeC så µ(B f \ C) = 0 for alle f ∈ D. Men da µ og µ er ækvivalente, har de sammenulmængder. Og dermed er (3.9) opfyldt.

Page 14: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

82 Kapitel 3. Likelihoodfunktionen

Sætning 3.10 (Halmos-Savage) Hvis en model P på (X,E) er domineret, så findesν1, ν2, · · · ∈ P sådan at målet

λ =

∞∑

n=1

2−n νn (3.10)

også dominerer P.

B: Antag at P er domineret af et σ-endeligt mål µ. For hvert ν ∈ P vælger vi entæthed fν ∈ M+, så ν = fν · µ. Sæt

D = fν | ν ∈ P,

og lad os skrive Bν i stedet for B fν . Ifølge lemma 3.9 findes ν1, ν2, · · · ∈ P så

µ

Bν \∞⋃

n=1

Bνn

= 0 for alle ν ∈ P .

Definer λ udfra disse νn’er og (3.10). Hvis λ(A) = 0 for en mængde A ∈ E, må dernødvendigvis gælde at νn(A) = 0 for alle n. Altså at

Afn dµ = 0,

så vi kan faktisk slutte atµ(A ∩ Bνn) = 0.

For ethvert ν ∈ P har vi nu at

µ (A ∩ Bν) = µ

A ∩ Bν ∩∞⋃

n=1

Bνn

+ µ

A ∩ Bν \∞⋃

n=1

Bνn

≤∞∑

n=1

µ(A ∩ Bνn

)+ µ

Bν \∞⋃

n=1

Bνn

= 0 .

Men heraf ser vi at

ν(A) =∫

Afν dµ =

A∩Bνfν dµ = 0.

En henvisning til Radon-Nikodyms sætning fortæller nu at ν har tæthed med hensyntil λ, der således dominerer modellen P.

Page 15: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.3. Det dominerende måls rolle 83

Lad nu P = (νθ)θ∈Θ være en parametriseret statistisk model. Hvis vi har et minimaltdominerende mål µ for en statistisk model, så vil likelihoodfunktionen baseret på etvilkårligt dominerende mål ξ kunne udtrykkes ved likelihoodfunktion baseret på µ:Antag at νθ = fθ · µ for alle θ ∈ Θ, og at µ = h · ξ. Da er

νθ = fθ · µ = fθ · (h · ξ) = ( fθh) · ξ for alle θ ∈ Θ,

ser vi at ξ vitterligt dominerer modellen, med likelihoodfunktion

Lx(θ) = fθ(x) h(x) = h(x) Lx(θ). (3.11)

Hvis h(x) , 0 har vi således vist at Lx ∝ Lx. Sæt

A = x ∈ X | h(x) , 0.

For alle x ∈ A er Lx ∝ Lx. Og for alle θ ∈ Θ er

νθ(Ac) =

Acfθ(x)h(x) dξ(x) = 0,

eftersom integranden er identisk 0 på den mængde der integreres over. Modellenforeskriver således at vi slet ikke kan få observationer udenfor A, uanset hvilket θ derer sandt.

Pointen i (3.11) er at likelihoodfunktionerne svarende til et vilkårligt dominerendemål ξ er bestemt af likelihoodfunktionerne svarende til et minimalt dominerende målµ. Ifølge Halmos-Savages sætning findes der altid et minimalt dominerende mål, dereksplicit knytter an til den givne model. Kombineres disse resultater, får vi altså at li-kelihoodfunktionerne er bestemt af modellen selv, ikke af det arbitrære dominerendemål. Vi kan opsummere disse overvejelser i en sætning:

Sætning 3.11 Lad P = (νθ)θ∈Θ være en parametriseret statistisk model på (X,E), ogantag atP er domineret af to forskellige grundmål µ og µ. Det er muligt at vælge like-lihoodfunktionerne (Lx)x∈X og (Lx)x∈X med hensyn til de to dominerende mål sådanat

Lx(θ) = h(x) Lx(θ) for alle θ ∈ Θ , x ∈ X ,

for en passende målelig funktion h : X → (0,∞).

Page 16: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

84 Kapitel 3. Likelihoodfunktionen

3.4 Likelihoodfunktionen under reparametriseringer

Vi så i kapitel 2, at man i mange modeller kan skifte mellem en række forskelligeparametriseringer. Nogle parametriseringer er gode til nogle ting, andre er gode tilnoget andet, og man har ofte behov for at foretage springet mellem dem.

Om modellen er domineret eller ej, har ikke noget at gøre med den parametrisering,der aktuelt er i brug. Så de forskellige parametriseringer er enige om hvorvidt derer en likelihoodfunktion. Men hvordan likelihoodfunktionen konkret ser ud, har na-turligvis alt at gøre med parametriseringen. Når man skifter parametrisering, bliver“likelihoodfunktionen” et helt andet objekt - typisk skifter funktionerne for eksempeldefinitionsmængde.

Lad P være en statistisk model på (X,E), domineret af grundmålet µ. Lad

θ 7→ νθ ∈ P , θ ∈ Θ , og λ 7→ ξλ ∈ P , λ ∈ Λ ,

være to injektive parametrisering af denne model. Hvert sandsynlighedsmål i P kanaltså skrives som νθ for præcis ét θ ∈ Θ, og som ξλ for præcis ét λ ∈ Λ. Der findesderfor en eksplicit, bijektiv reparametrisering φ : Θ→ Λ, sådan at

νθ = ξφ(θ) for alle θ ∈ Θ .

Antag at ξλ = fλ · µ for hvert λ ∈ Λ. Parametriseringen ved hjælp af λ giver daanledning til likelihoodfunktionen

Lx(λ) = fλ(x) .

Vi kan finde tæthederne i θ-formuleringen, eftersom

νθ = ξφ(θ) = fφ(θ) · µ .

Og derfor er likelihoodfunktionen i θ-parametriseringen

Lx(θ) = fφ(θ)(x) = Lx φ (θ) for alle x ∈ X, θ ∈ Θ . (3.12)

Likelihoodfunktionerne i de to formuleringer er ikke ens, men de er forbundet via enret oplagt relation. Man skal være opmærksom på at likelihoodfunktionerne i de toformuleringer ikke nødvendigvis er lige pæne ud fra et funktionsteoretisk synspunkt.Vi vil f.eks. ofte interessere os for om loglikelihoodfunktionerne er konvekse - ogsvaret på dette spørgsmål kan afhænge kritisk af den valgte parametrisering.

Page 17: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.5. Likelihoodfunktionen som stokastisk variabel 85

Eksempel 3.12 I den simple møntkastmodel fra eksempel 2.6, har man uafhængige,identisk fordelte variable X1, . . . , Xn, der opfylder at

P(Xi = 1) = p , P(Xi = 0) = 1 − p ,

for et p ∈ (0, 1). Her har vi uden videre parametriseret ved hjælp af successandsyn-ligheden p, og fastholder vi det, får vi likelihoodfunktionen

Lx1,...,xn (p) =n∏

i=1

pxi (1 − p)1−xi = p∑n

i=1 xi (1 − p)n−∑ni=1 xi . (3.13)

Ønsker vi i stedet at parametrisere ved hjælp af log odds ψ, der er forbundet medsuccessandsynligheden p ved relationen

p =eψ

1 + eψ,

får vi ifølge (3.12) likelihoodfunktionen

Lx1,...,xn (ψ) =

(

1 + eψ

)∑n

i=1 xi(

1 − eψ

1 + eψ

)n−∑ni=1 xi

=eψ

∑ni=1 xi

(1 + eψ

)n .

Denne likelihoodfunktion har forskellige tekniske fortrin frem for (3.13), fordi ob-servationerne og parameteren blander sig på en meget simpel måde - det træder noktydeligst frem, hvis man ser på den tilsvarende loglikelihood,

˜x1,...,xn (ψ) = n log(

1 + eψ)

− ψn∑

i=1

xi ,

hvor observationerne kun indgår i sidste led, og det endda i en lineær kombinationmed parameteren.

3.5 Likelihoodfunktionen som stokastisk variabel

Lad (νθ)θ∈Θ være en parametriseret statistisk model for et eksperiment med repræ-sentationsrum (X,E), og antag at denne model er domineret af et grundmål µ. Forhvert x ∈ X har vi indført likelihoodfunktionen Lx : Θ → [0,∞). På baggrund afeksperimentets resultat x fæstner vi os ved en bestemt likelihoodfunktion L x. Hvis vi

Page 18: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

86 Kapitel 3. Likelihoodfunktionen

gentager eksperimentet, får vi (formentlig) en anden observation x′ ∈ X og dermeden anden likelihoodfunktion Lx′ . I en vis forstand kan man altså sige at likelihood-funktionen er stokastisk!

Vi kan formalisere disse betragtninger ved at indføre rummet [0,∞)Θ, bestående afalle funktioner Θ→ [0,∞). Vi har konstateret at

Lx ∈ [0,∞)Θ for alle x ∈ X.

Dermed kan vi opfatte hele samlingen af likelihoodfunktioner som en transformationL : X → [0,∞)Θ, hvilket eventuelt kan indikeres med skrivemåden

L(x)(θ) = Lx(θ) for alle x ∈ X, θ ∈ Θ. (3.14)

Parenteserne på venstre side af (3.14) er sat for at markere at L er en transformationaf x. Men resultatet L(x) er selv en funktion, med argument θ.

Det er muligt at udstyre [0,∞)Θ med en forholdsvis naturlig σ-algebra. For hvertθ ∈ Θ har vi en naturlig projektionsafbildning prθ : [0,∞)Θ → [0,∞), givet ved

prθ( f ) = f (θ) for alle f ∈ [0,∞)Θ.

Og projektions-σ-algebraen P på [0,∞)Θ er den mindste σ-algebra der gør alledisse projektionsafbildninger målelige.

Lemma 3.13 Lad (νθ)θ∈Θ være en domineret statistisk model på (X,E). Da er likeli-hoodfunktionen L en (X,E) − ([0,∞)Θ,P)-målelig afbildning.

B: Gennemstrømningssætningen fortæller at vi skal vise at prθ L for hvert fastθ ∈ Θ er en E − B målelig funktion. Men hvis vi siger at νθ = fθ · µ, så er

prθ L(x) = L(x)(θ) = fθ(x).

Og da fθ er en tæthed, er den per definition E − B målelig.

Principielt kan vi nu diskutere fordelingen af likelihoodfunktionen under Pθ, det vilsige billedmålet L X(Pθ). Det forekommer ubehageligt, for det er et mål på et funk-tionsrum [0,∞)Θ, og vi har slet ikke udviklet redskaberne til at tale om mål på så

Page 19: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.5. Likelihoodfunktionen som stokastisk variabel 87

store mængder. Men overordnet set er det ikke anderledes end at tale om fordelingenaf en hvilken som helst anden transformation af observationerne.

Vi vil ikke lægge vægt på formelle detaljer om σ-algebraer på funktionsrum. Menideen om at likelihoodfunktionen kan betragtes som en transformation af den gjorteobservation vil være af stor betydning.

PSfrag replacements

(Ω,F) (X,E)

X

Θ

θ

Pθ νθ Θ

L

[0,∞)Θ

Figur 3.5: En skematisk tegning af en statistisk model, hvor likelihoodfunktionen opfattessom en transformation af den gjorte observation over i et funktionsrum.

Vi vil som regel bruge betegnelsen LX når vi tænker på likelihoodfunktionen som enstokastisk variabel, og Lx når vi tænker på den konkret observerede likelihoodfunk-tion. Selvfølgelig er funktionen ikke egentlig “observeret”: hvad der er observeret erx ∈ X, og på baggrund af denne værdi konstruerer vi Lx.

Eksempel 3.14 Lad X1, . . . , Xn være uafhængige stokastiske variable, alle eks-ponentialfordelte med en ukendt middelværdi λ > 0. Analogt med regningerne ieksempel 3.1 finder vi at loglikelihoodfunktionen på baggrund af en observation(X1, . . . , Xn) = (x1, . . . , xn) er

`x1,...,xn (λ) = n log λ +x•λ

for alle λ ∈ (0,∞)

hvor x• =∑n

i=1 xi. En lidt kortere skrivemåde, der ligger mindre vægt på en konkretobservation og mere vægt på det stokastiske er

`X(λ) = n log λ +X•λ

for alle λ ∈ (0,∞).

Hvis vi kender det sande λ, så kan vi simulere data fra eksperimentet, og dermedsimulere likelihoodfunktionen. På figur 3.6 har vi optegnet 5 simulerede likelihood-

Page 20: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

88 Kapitel 3. Likelihoodfunktionen

funktioner for λ = 2/3 og 5 for λ = 3/2. Forsøget er kørt to gange, dels med n = 10og dels med n = 100.

n = 10

0.5 1.0 1.5 2.0 2.5

010

2030

4050

PSfrag replacements

λ

`(λ

)

n = 100

0.5 1.0 1.5 2.0 2.5

010

030

050

0

PSfrag replacements

λ

`(λ

)

Figur 3.6: Simulerede loglikelihoodfunktioner fra en model med uafhængige eksponenti-alfordelte observationer. I tegningen til venstre er der 10 observationer per eksperiment, itegningen til højre er der 100 observationer per eksperiment. De fuldt optrukne kurver medtyk streg stammer fra 5 replikationer med sand parameter λ = 2/3. De stiplede kurver medtynd streg stammer fra 5 replikationer med sand parameter λ = 1.5.

Bemærk at forsøget - til en vis grad for n = 10, og i hvert fald med n = 100 -tillader os at skelne mellem de to parametre. Hvis en fjendtligsindet person brugteen af de to parametre til at simulere nye observationer med, så ville vi kunne tegneloglikelihoodfunktionen op for dette nye eksperiment, og ved at sammenholde medfigur 3.6 ville vi ganske sikkert kunne afgøre hvilken parameter der var benyttet.

Som tidligere nævnt er likelihoodfunktionen den primære bærer af information omsamspillet mellem observation og model. Visse statistikere har taget den drastiskekonsekvens at ophøje denne erfaring til et dogme:

Likelihoodprincippet: Drager man inferens i en domineret statistisk model (X,E,P)på baggrund af en observation x ∈ X, så bør resultatet kun afhænge af den observe-rede likelihoodfunktion.

Dette princip er kontroversielt, og i disse noter gøres intet forsøg på at respektere det,tværtimod. Problemet med likelihoodprincippet er at det ikke tillader overvejelser omfordelingen af LX. Groft sagt: likelihoodprincippet tillader kun at man undersøgerden observerede likelihoodfunktion, ikke at man diskuterer hvilke likelihoodfunktio-ner man ellers kunne have observeret. Og argumentation omkring ikke-observerede

Page 21: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.6. Kombinanter 89

likelihoodfunktioner vil være ganske vigtig for os - og for de fleste andre statistikere.Men f.eks. Bayesianere respekterer automatisk likelihoodprincippet.

Likelihoodprincippet udgør et alvorligt og dybt problem for den teoretiske statistik.Det viser sig nemlig at en række tilsyneladende mere spiselige principper medførerlikelihoodprincippet. Overholder man sufficiensprincippet og betingningsprincippet,så overholder man også likelihoodprincippet, uanset om man bryder sig om det ellerej. Vi vil senere komme ind på hvad disse principper går ud på.

3.6 Kombinanter

Lad (νθ)θ∈Θ være en parametriseret statistisk model på (X,E). En kombinant er enafbildning R : Θ × X → Y, hvor Y er endnu en mængde. Ofte bruges en kombinanttil at måle hvor godt en konkret observation og en konkret parameter er i konkor-dans. Den præcise måde dette gøres på, varierer fra eksempel til eksempel. Oplagteeksempler på kombinanter er likelihoodfunktionen og loglikelihoodfunktionen. Mender kan findes mange andre.

Eksempel 3.15 Lad X1, . . . , Xn være reelle stokastiske variable, og lad (Pθ)θ∈Θ væreen model for deres simultane fordeling. Antag at hvert Xi har første moment underPθ for alle θ ∈ Θ. Vi vil nu og fremover referere til sådanne momenter som EθXi -middelværdien af Xi hvis θ er den sande parameter. Punktet (EθX1, . . . , EθXn) ∈ Rn erdet forventede punkt, hvis θ er den sande parameter. Derfor fortæller kvadratsummen

R(θ; x1, . . . , xn) =n∑

i=1

(EθXi − xi

)2 (3.15)

noget om hvor langt den konkrete observation (x1, . . . , xn) ligger fra det forventedepunkt. Megen statistisk metodik er udviklet på baggrund af analyse af kvadratsums-størrelser som (3.15), og det er først i helt moderne tid at likelihoodfunktionen ogkonstruktioner herudfra har overtaget rollen som de vigtigste kombinanter.

Hvor relevant en størrelse (3.15) er for konkordansvurderinger, afhænger meget afden konkrete model. Hvis Xi’erne har forskellig varians, så må R betragtes med mi-stro, for en afvigelse på en koordinat med stor varians (den slags afvigelse må i sagensnatur forventes) tæller lige så meget som en afvigelse på en koordinat med lille vari-ans (den slags afvigelser tyder på diskordans). Tilsvarende, hvis Xi’erne er afhængige,så er R et usikkert mål for konkordans.

Page 22: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

90 Kapitel 3. Likelihoodfunktionen

Disse defekter kan nogen gange fjernes ved at betragte en vægtet kvadratsum

RW(θ; x1, . . . , xn) = (x − EθX)T W (x − EθX) . (3.16)

hvor W er en symmetrisk, positivt definit vægtmatrix. Bemærk at (3.15) er et specielttilfælde af (3.16) med vægtmatrix W = I. Men i komplicerede modeller er det oftelettere sagt end gjort at finde en passende vægt.

Vi vil her indføre nogle kombinanter, der er afledte af likelihoodfunktionen - dissekombinanter bliver vigtige for os i senere afsnit.

Definition 3.16 Lad (νθ)θ∈Θ være en domineret statistisk model på (X,E), hvor para-metermængden Θ er en åben delmængde af Rk. Hvis alle loglikelihoodfunktionerne`x er C1 på Θ, så er scorefunktionen Θ→ Rk givet som

D`x(θ) =(

∂`x(θ)∂θ1

∂`x(θ)∂θ2

. . .∂`x(θ)∂θk

)

.

Hvis alle loglikelihoodfunktionerne `x er C2 påΘ, så kan vi definere den observeredeinformationsfunktionen Θ→ Rk×k som

D2`x(θ) =

∂2`x(θ)∂θ1

2∂2`x(θ)∂θ1∂θ2

. . .∂2`x(θ)∂θ1∂θk

∂2`x(θ)∂θ2∂θ1

∂2`x(θ)∂θ2

2 . . .∂2`x(θ)∂θ2∂θk

......

. . ....

∂2`x(θ)∂θk∂θ1

∂2`x(θ)∂θk∂θ2

. . .∂2`x(θ)∂θk

2

.

Eksempel 3.17 Lad X1, . . . , Xn være uafhængige reelle stokastiske variable, alle eks-ponentialfordelte med ukendt middelværdi λ > 0. Loglikelihoodfunktion er

`X(λ) = n log λ +X•λ.

Dermed har modellen scorefunktion og informationsfunktion

`′X(λ) =nλ− X•λ2

, `′′X (λ) = − n

λ2+

2 X•λ3

.

Page 23: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.6. Kombinanter 91

Eksempel 3.18 Lad os betragte møntkastmodellen, hvor vi har uafhængige reellestokastiske variable X1, . . . , Xn med

P(Xi = 1) = p, P(Xi = 0) = 1 − p for i = 1, . . . , n, p ∈ (0, 1).

Likelihoodfunktionen er

LX(p) =n∏

i=1

pXi(1 − p)1−Xi = pX•(1 − p)n−X•

og dermed er loglikelihoodfunktionen, scorefunktionen og informationsfunktionen

`X(p) = −X• log p − (n − X•) log(1 − p),

`′X(p) = −X•p+

n − X•1 − p

,

`′′X (p) =X•p2+

n − X•(1 − p)2

.

Eksempel 3.19 Lad X1, . . . , Xn være uafhængige reelle stokastiske variable, alleN(ξ, σ2)-fordelte. Denne model har likelihoodfunktion

LX(ξ, σ2) =n∏

i=1

1√

2πσ2e−(Xi−ξ)2/2σ2

,

og dermed loglikelihoodfunktion

`X(ξ, σ2) =n2

log 2π +n2

logσ2 +

∑ni=1(Xi − ξ)2

2σ2.

Scorefunktionen, eller scorevektoren, som man ofte siger når parameteren er flerdi-mensional, er

D`X(ξ, σ2) =

(

∂`X

∂ξ

∂`X

∂σ2

)

=

(−∑ni=1(Xi − ξ)

σ2

n2

1

σ2−

i=1(Xi − ξ)2

2σ4

)

Bemærk at parameteren er σ2, ikke σ. Dette forhold kan godt forvirre, når man dif-ferentierer.

Page 24: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

92 Kapitel 3. Likelihoodfunktionen

Tilsvarende blive informationsfuntionen, eller informationsmatricen,

D2`X(ξ, σ2) =

nσ2

∑ni=1(Xi−ξ)σ4

∑ni=1(Xi−ξ)σ4

−n2σ4 +

∑ni=1(Xi−ξ)2

σ6

.

Eksempel 3.20 Hvis X1, . . . , Xn er uafhængige, identisk fordelte Γ-fordelte variablemed ukendt formparameter λ og ukendt skalaparameter β, så vi i eksempel 3.4 atloglikelihoodfunktionen er

`X1,...,Xn(λ, β) = nλ log β + n log Γ(λ) − (λ − 1)n∑

i=1

log Xi +1β

n∑

i=1

Xi .

Dermed er scorevektoren

D`X1,...,Xn(λ, β) =

n log β + nΨ(λ) −n∑

i=1

log Xi ;nλβ− 1

β2

n∑

i=1

Xi

,

og observeret information

D2`X1,...,Xn(λ, β) =

nΨ′(λ) nβ

− nλβ2 +

2β3

∑ni=1 Xi

.

Her betegner Ψ(λ) og Ψ′(λ) henholdvis di- og trigammafunktionerne.

Definition 3.21 Lad (νθ)θ∈Θ være en domineret statistisk model på (X,E). Kvotient-teststørrelsen er kombinanten

Q(θ, x) =Lx(θ)

supϑ∈Θ Lx(ϑ).

Tegner man grafen for kvotientteststørrelsen op, får man samme tegning, som nårman tegner grafen for likelihoodfunktionen, bortset fra ordinataksen er skaleret an-derledes: kvotientteststørrelsen når præcis op i højden 1.

Page 25: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.6. Kombinanter 93

Ligesom likelihoodfunktionen Lx ofte erstattes af `x, så bliver kvotientteststørrelsenQ ofte erstattet af −2 log Q - her virker to-tallet måske lidt arbitrært, men er tilføjetaf samme grund som fortegnet: for at gøre senere formler simplere.

Fortolkningen af kvotientteststørrelsen er ganske subtil. Hvor likelihoodfunktionenmåler graden af konkordans mellem observationen x og parameteren θ, så måler kvo-tientteststørrelsen i hvilken grad modellens andre parametre er i bedre konkordansmed x end θ er. Selv om x og θ er i fortræffelig konkordans, kan Q(θ, x) sagtens værelille - det betyder blot at andre af modellens parametre er i endnu bedre konkordansmed x. Tilsvarende betyder en høj Q-værdi ingenlunde at x og θ er i konkordans - detbetyder blot at ingen andre parametre er i nævneværdig bedre konkordans med x.

Vi vil i et vist omfang basere inferensen om θ på kvotientteststørrelsen. Men denfremgangsmåde er kontroversiel: den fører nogle gange til konklusioner, der kan virkeabsurde, og den er et yndet angrebspunkt for Bayesianske statistikere.

Definition 3.22 Lad (νθ)θ∈Θ være en domineret statistisk model på (X,E), og ladτ : Θ → Ψ være en parameterfunktion. Profillikelihoodfunktionen for τ er kombi-nanten

Lτ(ψ, x) = Lτx(ψ) = supθ : τ(θ)=ψ

Lx(θ) .

Teknisk set er det en stramning at kalde profillikelihoodfunktionen for en “kombi-nant”, eftersom denne størrelse ikke er defineret på Θ × X, men på Ψ × X. Sprog-brugen forekommer alligevel naturlig. Ofte erstatter man profillikelihoodfunktionenmed den tilsvarende profilloglikelihoodfunktion,

˜τ(ψ, x) = − log Lτ(ψ, x) .

Fortolkningen af disse profilerede størrelser er, at en stor værdi at Lτx(ψ) på baggrundaf observationen x, giver stor tiltro til at den sande parameter θ har τ-værdi lig medψ. Det kan være interessant at konkludere sådan, uden at gå i detaljer med hvad manforestiller sig om den sande parameters præcise beliggenhed.

Eksempel 3.23 Hvis X1, . . . , Xn er uafhængige, identisk fordelte Γ-fordelte variablemed ukendt formparameter λ og ukendt skalaparameter β, kan vi finde profillikeli-hoodfunktionen for parameterfunktionen (λ, β) 7→ λ, ved for hvert fast λ at maksi-mere (3.5) med hensyn til β. Dette maksimum antages af

β(λ) =

∑ni=1 Xi

n λ,

Page 26: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

94 Kapitel 3. Likelihoodfunktionen

og dermed er profilloglikelihoodfunktionen for λ givet som

˜X1,...,Xn(λ) = `X1,...,Xn(λ, β(λ)) = nλ log

(∑ni=1 Xi

n λ

)

+n log Γ(λ)− (λ−1)n∑

i=1

log Xi+nλ .

(3.17)For det simulerede datasæt fra eksempel 3.4 er denne profilloglikelihood optegnet påfigur 3.7.

4 6 8 10 12PSfrag replacements

λ

˜ (λ

)

Figur 3.7: Profiloglikelihoodfunktionen (3.17), baseret på de summariske størrelser (3.6).Data er simuleret ud fra en Γ-model med λ = 7, β = 2.

Alle kombinanter kan - under passende målelighedsforudsætninger - opfattes somstokastiske, på samme måde som likelihoodfunktionen. Vi vil skrive RX hvis vi tæn-ker på kombinanten R på denne måde. Det er altså et stokastisk valg (baseret påobservationen X = x) af en funktion Θ→ Y.

En måde at trække information ud af en kombinant R : X × Θ → Rm på, er at regnekombinanten ud i en fast parameterværdi θ1 ∈ Θ. På den måde bliver kombinantenblot en transformation af data, og dermed en stokastisk variabel. Men nu kan manregne middelværdien ud af den pågældende variabel, hvis man kender den sandeparameter. Vi vil altså diskutere en funktion af formen

(θ1, θ2) 7→ Eθ2R(X, θ1),

Page 27: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.6. Kombinanter 95

og opfatte denne funktion som et udtryk for modellens egenskaber. Disse regningerbliver mest interessante hvis θ1 = θ2. I så fald studerer vi

θ 7→ EθR(X, θ).

Vigtigst for os bliver den forventede information, også kaldet Fisher informatio-nen,

i(θ) = EθD2`X(θ),

som netop er denne generelle konstruktion anvendt på informationsfunktionen. Denforventede information er naturligvis kun defineret hvis alle loglikelihoodfunktio-nerne `x er C2 på Θ, og hvis den anden afledede har 1. moment. Den slags tekniskedetaljer plejer man gerne at underforstå.

Eksempel 3.24 Lad som i eksempel 3.17 X1, . . . , Xn være uafhængige, eksponenti-alfordelte med ukendt middelværdi λ. Da er

EλX• = n λ,

og dermed er den forventede information

i(λ) = Eλ`′′X(λ) = Eλ

(

− n

λ2+

2 X•λ3

)

=n

λ2.

Eksempel 3.25 Lad som i eksempel 3.19 X1, . . . , Xn være uafhængige N(ξ, σ2)-fordelte reelle variable. Da er

E(Xi − ξ) = 0 , E(Xi − ξ)2 = σ2 ,

og dermed er den forventede informationsmatrix

i(ξ, σ2) =

nσ2 0

0 n2σ4

.

Mere generelt end kun at interessere sig for middelværdien, kan man interessere sigfor hele fordelingen af R(X, θ1) under forudsætning af at θ2 er den sande parameter.Igen er det mest interessant hvis θ1 = θ2 = θ. Vi taler da om kombinantens fordeling

Page 28: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

96 Kapitel 3. Likelihoodfunktionen

i θ. Det er altså fordelingen af den stokastiske variabel R(X, θ) hvis θ er den sandeparameter.

I visse (sjældne) tilfælde afhænger denne fordeling ikke af θ. Vi siger da at kombi-nanten er en pivot, eller at den er fordelingskonstant.

3.7 Momentresultater for kombinanter

Antag i det følgende at (νθ)θ∈Θ er en statistisk model på (X,E). Antag at parame-termængden Θ er en åben delmængde af Rk, og antag at modellen er domineret afet σ-endeligt mål µ på (X,E), sådan at tæthederne fθ(x) > 0 for alle θ ∈ Θ og allex ∈ X.

Sætning 3.26 Under tilstrækkelige regularitetsforudsætninger vil

Eθ(D`X(θ)) = 0 for alle θ ∈ Θ , (3.18)

ogVθ(D`X(θ)) = i(θ) for alle θ ∈ Θ. (3.19)

B: Den fundamentale relation er∫

fθ(x) dµ(x) = 1 for alle θ ∈ Θ. (3.20)

Hvis man kan differentiere under integraltegnet, ser vi for i = 1, . . . , k at

0 =∂

∂θi

fθ(x) dµ(x) =∫

∂θifθ(x) dµ(x) =

∫ ∂∂θi

fθ(x)

fθ(x)fθ(x) dµ(x)

=

∫ (

∂θilog fθ(x)

)

fθ(x) dµ(x) = −Eθ

(

∂θi`X(θ)

)

.

Samles disse k påstande i en vektoridentitet, har man netop (3.18) - på nær et irrele-vant fortegn.

Page 29: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.7. Momentresultater for kombinanter 97

Hvis man kan differentiere en gang til under integraltegnet i (3.20), har vi for allei, j = 1, . . . , k at

0 =∂

∂θ j

∫∂

∂θifθ(x) dµ(x) =

∫∂2

∂θi ∂θ jfθ(x) dµ(x).

Endvidere ser vi at

∂2

∂θi ∂θ j`X(θ) = −

∂2

∂θi ∂θ jfθ(x)

fθ(x)+

∂∂θi

fθ(x)

fθ(x)

∂∂θ j

fθ(x)

fθ(x)

= −∂2

∂θi ∂θ jfθ(x)

fθ(x)+

∂θi`X(θ)

∂θ j`X(θ).

Kombineres disse oplysninger får vi at

(

∂2

∂θi ∂θ j`X(θ)

)

= −Eθ

∂2

∂θi ∂θ jfθ(x)

fθ(x)

+ Eθ

(

∂θi`X(θ)

∂θ j`X(θ)

)

= 0 + Cov

(

∂θi`X(θ),

∂θ j`X(θ)

)

,

eftersom middelværdien af de to stokastiske variable er nul. Men dette er netop ma-trixligningen (3.19) læst komponent for komponent.

De nødvendige forudsætninger for at disse regninger holder, er stort set at de invol-verede størrelser giver mening. Loglikelihoodfunktionen skal være differentiabel, ogD`X(θ) skal være integrabel med hensyn til νθ for alle θ, sådan at venstresiden af(3.18) giver mening. Og så skal man altså kunne differentiere ind under et integral-tegn. Og tilsvarende for (3.19).

Hvis Θ ⊂ R er en tilstrækkelig - omend alt for stærk - betingelse, der sikrer at sæt-ning 3.26 er opfyldt, at der findes en funktion h ∈ M+(X), der er µ-integrabel, ogsom opfylder at

∣∣∣∣∣

∂θfθ(x)

∣∣∣∣∣≤ h(x),

∣∣∣∣∣∣

∂2

∂2θfθ(x)

∣∣∣∣∣∣≤ h(x) for alle θ ∈ Θ, x ∈ X.

Denne betingelse er ikke særligt intuitiv. Den er heller ikke opfyldt i ret mange mo-deller. Man kan komme ganske langt med at blødgøre betingelsen, sådan at man kan

Page 30: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

98 Kapitel 3. Likelihoodfunktionen

se at sætning 3.26 er opfyldt for de fleste modeller, men der vedbliver at være nogetuintuitivt og teknisk over betingelserne, og vi vil derfor ikke gå i detaljer med dem.

En vigtig lære at uddrage af sætning 3.26, er at den forventede information i(θ) i hvertpunkt kan opfattes som en varians, og derfor er den positivt semidefinit - som regelendda positivt definit.

Hvis Θ ⊂ R kan vi give en samlet tolkning af (3.18) og (3.19): Lad θ0 være den sandeparameter. Idet middelværdien af `′X(θ0) er nul, vil den typiske værdi af `′X(θ0) i etkonkret eksperiment være tæt ved nul. Og dermed vil `′X(θ) være tæt ved nul for θ ien lille omegn af θ0. Idet middelværdien af `′′X (θ0) er positiv, vil den typiske værdi af`′′X (θ0) også være positiv, og dermed vil `′′X (θ) være positiv for θ i en lille omegn af θ0.

I en lille omegn af θ0 kan vi bruge Taylor approksimationen

`′X(θ) ≈ `′X(θ0) + `′′X (θ0)(θ − θ0). (3.21)

Sætter vi

θ = θ0 −`′X(θ0)

`′′X (θ0), (3.22)

så giver (3.21) at`′X(θ) ≈ 0.

Idet vi går ud fra at θ ligger så tæt på θ0 at `′′X(θ) > 0, slutter vi at `X har et lokaltminimum i θ (eller i hvert fald meget tæt ved).

Vi har argumenteret os frem til at den typiske loglikelihoodfunktion `X(θ) vil haveet (lokalt) minimum i nærheden af den sande parameterværdi θ0. Følgelig vil dentypiske likelihoodfunktion have et (lokalt) maksimum i nærheden af den sande para-meterværdi.

Man kan argumentere på lignende vis hvis Θ ⊂ Rk, skønt notationen bliver mereindviklet. Lad os understrege at disse ræsonnementer ikke er strengt matematiske,men er af fortolkningsmæssig karakter. Hvis man går dem efter i detaljer, er de hul-lede som en si. At middelværdien af `′X(θ0) er nul, betyder ikke altid at den typiskeværdi er lille, det betyder blot at de negative værdier kompenseres af de positive. Alleværdier kunne for den sags skyld være numerisk store. Tilsvarende indvendinger kanrejses mod resten af ræsonnementerne.

Men man vil forvente at argumentkæden faktisk kan gøres præcis i en lang rækkemodeller. Det vil vi gøre i kapitel 5, hvor vi vil se at det teknisk set handler om at

Page 31: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.7. Momentresultater for kombinanter 99

kunne begrænse den tredie afledede af loglikelihoodfunktionen, sådan at man harkontrol over hvor meget de to første afledede ændrer sig. Denne argumentation givervægt til den intuition, vi får fra konkordansfortolkningen af likelihoodfunktionen:den sande parameter bag en givet observation bør søges blandt de parametre, der gørlikelihoodfunktionen stor.

Sætning 3.27 (Cramér-Rao) Antag at Θ ⊂ R. Under passende regularitetsforud-sætninger vil det for enhver målelig afbildning t : X → R gælde at

Vθ(t X) ≥ (Eθ′(t X))2

i(θ)for alle θ ∈ Θ. (3.23)

B: Lad os indføre parameterfunktionen g : Θ→ R ved

g(θ) = Eθ(t(X)).

Vi vil interessere os for samspillet mellem de to stokastiske variable t(X) ogfη(X)fθ(X)

under antagelse af at θ er den sande parameter. Her er η blot endnu en parameter, deri første omgang betragtes som fast. Vi konstaterer at

(fη(X)

fθ(X)

)

=

∫fη(x)

fθ(x)fθ(x) dµ(x) =

fη(x) dµ(x) = 1.

Dermed er

(fη(X)

fθ(X)

)

=

∫ (fη(x)

fθ(x)− 1

)2

fθ(x) dµ(x).

Tilsvarende er

Covθ

(

t(X),fη(X)

fθ(X)

)

=

t(x)fη(x)

fθ(x)fθ(x) dµ(x) − g(θ) · 1 = g(η) − g(θ).

Cauchy-Schwarz ulighed medfører nu at

(g(η) − g(θ))2 ≤ Vθ(t(X))∫ (

fη(x) − fθ(x)

fθ(x)

)2

fθ(x) dµ(x).

I denne ulighed dividerer vi med (η − θ)2 og går til grænsen η → θ. Da får vi græn-seuligheden

g′(θ)2 ≤ Vθ(t(X))∫

∂∂θ

fθ(x)

fθ(x)

2

fθ(x) dµ(x) = Vθ(t(X)) Eθ

(

`′X(θ)2)

.

Page 32: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

100 Kapitel 3. Likelihoodfunktionen

Kombineres (3.18) og (3.19) får vi netop at scorefunktionens 2. moment er identiskmed informationen, og det ønskede er vist.

Cramér-Raos ulighed har en vigtig fortolkning i forbindelse med det parameter-følsomhedsbegreb, vi diskuterede i afsnit 2.5. Hvis modellen udviser stor parame-terfølsomhed, vil gentagelser af eksperimentet under to forskellige parametre giveanledning til to velseparerede punktskyer, se figur 2.4. Denne separation kan manformentlig fange ved hjælp af en afbildning t : X → R, sådan at t-værdierne af de topunktskyer ligger velsepareret på den reelle akse.

Hvis vi involverer mere end to parameterværdier i diskussionen, er vi interesseret i atfordelingen af t X flytter sig markant med θ. En måde at undersøge den ønskede se-parationsegenskab, kunne være at finde ud af hvor meget midtpunktet af fordelingenflytter sig med θ. Denne tankegang fører naturligt til at man udregner

Eθ′(t X) ,

der helst skal være numerisk stor. Men Cramér-Raos ulighed betyder at en storEθ′(t X)-værdi nødvendigvis vil medføre en stor varians af t X. Sagt i ord: hvis

midtpunktet af fordelingen flytter sig hurtigt med θ, så må fordelingen være værebred! Og derfor vil fordelingen af t X under to nærtliggende parametre alligevelikke være særlig godt separeret.

Den størrelse, der fortæller hvor bred fordelingen af t X må være for at toppunktetkan flytte sig mærkbart med parameteren, er Fishers forventede information i(θ). Enstor værdi af i(θ) for alle θ gør det potentielt muligt at vælge t-funktioner, så fordelin-gen af tX er forholdsvis fokuseret for hvert θ, og alligevel flytter sig når man ændrerpå θ. Med andre ord: en stor værdi af i(θ) gør det muligt at se forskel på parametrene.Derfor er ordet “information” yderst velvalgt til i(θ): det betegner en egenskab vedmodellen, der beskriver hvor meget vi vil få at vide om den sande parameter ved atgøre en observation.

Det skal understreges at Cramér-Raos ulighed er en generel ulighed, og der er ikkeassocieret nogen påstand om at man altid kan vælge et optimalt separerende t, så ulig-heden forvandles til en identitet. For nogle modeller kan man finde sådan et optimaltseparerende t, for andre modeller kan man ikke. For visse modeller er der endda etgab mellem den bedst opnåelige separation og den separation, Cramér-Raos ulighedantyder er mulig.

Page 33: Likelihoodfunktionen - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap3.pdf · p 7!px (1 p)66170x for p 2(0;1) ; ville man få præcis samme graf som figur 3.2 -

3.7. Momentresultater for kombinanter 101

Der findes varianter af Cramér-Raos ulighed, der gælder for modeller hvor parameter-mængden er flerdimensional. Disse varianter opnås ved at opsummere informationenfra de etdimensionale uligheder, der kan presses ud af alle etdimensionale delmo-deller. Det er ganske svært at formulere et sådant resultat - det er noget med at envis matrix er positivt semidefinit - og vi vil ikke give en teknisk gennemgang. Menindholdet af Cramér-Raos ulighed i flere dimensioner, er at den forventede informa-tionsmatrix (eller mere præcist: den inverse forvente informationsmatrix) sætter engrænse for hvor godt man kan separere parametre.