48
Kapitel 10 Den generelle lineære model Den generelle lineære normale model, eller blot den lineære normale model, er en matematisk abstraktion af en række af de mest anvendte statistiske modeller: etsi- det variansanalyse, tosidet variansanalyse, regressionsanalyse, multipel regression og alle mulige udvidelser og blandinger heraf. Disse modeller kan analyseres under et, og det vil vi gøre. Det giver - på trods af ab- straktionen - en forbavsende simpel og gennemskuelig analyse, hvor vi virkelig hø- ster frugterne af vores abstrakte, matematisk betonede tilgang til statistik. En smule Hilbertrumsgeometri giver en indsigt som selv års konkret regneri på de enkelte mo- deller ikke ville give. Det centrale er ikke udenadslærte formler, men et mentalt bil- lede af en retvinklet trekant! En mere håndfast tilgang til modellerne en for en (sådan som det har været traditio- nen i den engelsktalende del af verden, og vel stadig er det i et vist omfang) ville gøre dette kapitel flere hundrede sider langt, og alle regninger ville være sovset ind i dekompositioner af kvadratsummer på snart den ene, snart den anden måde. Den pris vi betaler for abstraktionen er, at vi måske får mindre føling med de konkrete modeller. Specielt vil det ikke træde tydeligt frem hvad forskellen er på modellerne, og især ikke hvilke forskelle i den videnskabelige og eksperimentelle problemstilling, der betinger det præcise modelvalg. Disse forskelle vil være emnet for de kommende kapitler. 349

Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

Kapitel 10

Den generelle lineære model

Den generelle lineære normale model, eller blot den lineære normale model, er enmatematisk abstraktion af en række af de mest anvendte statistiske modeller: etsi-det variansanalyse, tosidet variansanalyse, regressionsanalyse, multipel regression ogalle mulige udvidelser og blandinger heraf.

Disse modeller kan analyseres under et, og det vil vi gøre. Det giver - på trods af ab-straktionen - en forbavsende simpel og gennemskuelig analyse, hvor vi virkelig hø-ster frugterne af vores abstrakte, matematisk betonede tilgang til statistik. En smuleHilbertrumsgeometri giver en indsigt som selv års konkret regneri på de enkelte mo-deller ikke ville give. Det centrale er ikke udenadslærte formler, men et mentalt bil-lede af en retvinklet trekant!

En mere håndfast tilgang til modellerne en for en (sådan som det har været traditio-nen i den engelsktalende del af verden, og vel stadig er det i et vist omfang) villegøre dette kapitel flere hundrede sider langt, og alle regninger ville være sovset ind idekompositioner af kvadratsummer på snart den ene, snart den anden måde.

Den pris vi betaler for abstraktionen er, at vi måske får mindre føling med de konkretemodeller. Specielt vil det ikke træde tydeligt frem hvad forskellen er på modellerne,og især ikke hvilke forskelle i den videnskabelige og eksperimentelle problemstilling,der betinger det præcise modelvalg. Disse forskelle vil være emnet for de kommendekapitler.

349

Page 2: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

350 Kapitel 10. Den generelle lineære model

10.1 Definition og eksempler

Lad V være et endeligdimensionalt reelt vektorrum, udstyret med et indre produkt〈·, ·〉. Vi vil i almindelighed betegne dimensionen af V med N.

En lineær normal model på V har to ingredienser. Den ene er et lineært underrumL ⊂ V . Det skal være et ægte underrum - hvis vi tillader L = V fører det til forskelligedegenerationer som vi helst er fri for. På den anden side er det fuldt ud tilladt at L ernulvektorrummet. Vi refererer til L som middelværdiunderrummet.

Den anden ingrediens er en hel familie af indre produkter, fremstillet ud fra det op-rindelige indre produkt 〈·, ·〉. Vi sætter for σ2 ∈ (0,∞)

〈〈x, y〉〉σ2 =〈x, y〉σ2

, x, y ∈ V. (10.1)

Vi bemærker at det oprindelige indre produkt er med i denne familie, hvor det svarertil σ2 = 1. Disse indre produkter er uenige om længder. Men det vil stå centralt ianalysen at de er enige om en ting: de er enige om hvilke vektorer der står ortogonaltpå hinanden. Der gælder at

〈〈x, y〉〉σ2 = 0 ⇔ 〈x, y〉 = 0 for alle x, y ∈ V, σ2 ∈ (0,∞).

Definition 10.1 Den lineære normale model på et endeligdimensionalt vektorrumV med middelværdiunderrum L ⊂ V og grundlæggende præcision 〈·, ·〉, er familien afalle regulære normalfordelinger på V med centrum ξ ∈ L og en præcision af formen〈〈·, ·〉〉σ2 .

De ukendte parametre i modellen er (ξ, σ2) ∈ L × (0,∞).

I praksis vil vektorrummet V være RN . For de modeller der interesserer os her, vildet grundlæggende indre produkt endvidere altid være det sædvanlige indre pro-dukt på RN . At specificere en lineær normal model for den stokastiske variabelX = (X1, . . . , XN)T med det sædvanlige indre produkt som grundlæggende indre pro-dukt, er blandt andet at sige at enkeltmålingerne X1, . . . , XN er uafhængige reellevariable, og at

Xi ∼ N(ξi, σ2) for i = 1, . . . ,N .

Alle variablene er således normalfordelte, og de har samme (ukendte) varians. Flek-sibiliteten i modellen ligger i at variablene ikke behøver at have samme middelværdi:

Page 3: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.1. Definition og eksempler 351

EXi = ξi kan fint variere med observationsnummeret i. Men dog ikke friere end atsammenbundtningen ξ = (ξ1, . . . , ξN)T ligger i det på forhånd givne underrum L.

Selv om vores praktiske interesse således er rettet mod eksempler af ret konkret ka-rakter, vil vi alligevel insistere på den abstrakte ramme, med vilkårlige indre produk-ter på vilkårlige vektorrum. Denne formulering leder nemlig automatisk hen mod etgeometrisk syn på modellen. Og den rette dosis geometrisk tankegang er afgørendefor den lethed med hvilken vi vil analysere den lineære normale model.

Når V = RN og når 〈·, ·〉 er det sædvanlige indre produkt, er modellens egenskaberbeskrevet ved specifikationen af hvilke middelværdivektorer der er lovlige. Vi vil nugive et par eksempler, der belyser hvad man er i stand til at udtrykke om virkelighedenved at insistere på at de lovlige middelværdivektorer udgør et underrum, og hvad manikke kan udtrykke i den ramme.

Eksempel 10.2 Hvis observationerne svarer til uafhængige replikationer af detsamme eksperiment, så vil det være naturligt at antage at

EXi = α for alle i = 1, . . . ,N

for ukendt α ∈ R. Hvis vi ikke lægger restriktioner på α, har vi på denne mådespecificeret en lineær normal model, idet middelværdivektoren opfylder at

ξ =

α

α...

α

= α

11...

1

,

det vil sige at de mulige middelværdivektorer udgør et etdimensionalt underrum afR

N , udspændt af (1, . . . , 1)T .

I visse situationer ved man på forhånd at den fælles middelværdi α er positiv. Denneviden kan ikke udtrykkes gennem en lineær normal model. Derfor lukker man ofteøjnene for denne forhåndsviden, og går frem som om α kan antage vilkårlige reelleværdier.

Eksempel 10.3 Hvis observationerne naturligt falder i to grupper, og hvis obser-vationerne inden for hver gruppe svarer til uafhængige replikationer af det sammeeksperiment, så vil det være naturligt at antage at

EXi = α1 for i = 1, . . . , M , EXi = α2 for i = M + 1, . . . ,N ,

Page 4: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

352 Kapitel 10. Den generelle lineære model

hvor vi har antaget at de første M observationer udgør den ene gruppe, og de sidsteN − M observationer udgør den anden gruppe. Hvis vi ikke lægger restriktioner påα1 og α2, har vi på denne måde specificeret en lineær normal model, idet middelvær-divektoren opfylder at

ξ =

α1...

α1

α2...

α2

= α1

1...

10...

0

+ α2

0...

01...

1

,

det vil sige at de mulige middelværdivektorer udgør et todimensionalt underrum afR

N , udspændt af (1, . . . , 1, 0, . . . 0)T og (0, . . . , 0, 1, . . . , 1)T .

I visse situationer ved man på forhånd at de to grupper har forskellig middelværdi,altså at α1 , α2. I andre situationer ved man på forhånd at α1 ≥ α2, altså at den førstegruppe har en middelværdi der er mindst lige så stor som den anden gruppe. Videnaf denne type kan ikke udtrykkes gennem en lineær normal model.

Man kan naturligvis udbygge eksemplet til at involvere flere grupper end blot to, ogman taler da gerne om en etsidet variansanalyse. Den eneste måde tingene blivermere komplicerede på, er notationsmæssigt. Det gælder i særdeleshed hvis observa-tionerne i de enkelte grupper ikke er nummereret fortløbende. Vi vil i et senere kapiteludvikle en formalisme, der kan håndtere denne generelle situation.

Eksempel 10.4 Hvis vi til hver observation Xi har knyttet et reelt tal ti som enkovariat, så kan det være naturligt at opstille en lineær regressionsmodel, hvor

EXi = α + β ti for i = 1, . . . ,N.

Hvis vi ikke lægger restriktioner på α og β, har vi på denne måde specificeret enlineær normal model, idet middelværdivektoren opfylder at

ξ =

α + β t1α + β t2

...

α + β tN

= α

11...

1

+ β

t1t2...

tN

.

Page 5: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.1. Definition og eksempler 353

Det vil sige at de mulige middelværdivektorer udgør et todimensionalt underrum afR

N , udspændt af (1, . . . , 1)T og (t1, . . . , tN)T .

I visse situationer ved man på forhånd at kovariaten har en positiv indflydelse påresponsen, altså at β > 0. Viden af denne type kan ikke udtrykkes gennem en lineærnormal model.

Et gennemgående træk i disse eksempler er at middelværdiunderrummet for den line-ære normale model specificeres ved et frembringersystem. Og de virkeligt begribeligestørrelser i modellen er for så vidt ikke middelværdivektoren selv, men de koeffici-enter man får frem, når man skriver middelværdivektoren som en linearkombinationaf dette frembringersystem. Hvis frembringersystemet er lineært uafhængigt er dissekoefficienter entydigt bestemt, og sættet af koefficienter er det man sædvanligvis for-står ved modellens middelværdiparametre.

Hvis vi opskriver et frembringersystems vektorer (antag der er k af dem) som søj-lerne i en N × k-matrix A kalder vi denne matrix for en designmatrix for modellen.Middelværdiunderrummet har i så fald formen

L = {Aβ | β ∈ Rk}.

Her repræsenterer β ∈ Rk modellens middelværdiparametre. Vi vil sædvanligvis in-sistere på at søjlerne i A er lineært uafhængige, svarende til at A har rang k. I så falder β 7→ Aβ en bijektion mellem Rk og L, og underforstås denne oversættelse mellemmiddelværdiparametrene og middelværdivektoren, kan hele den lineære normale mo-del parametriseres ved (β, σ2) ∈ Rk × (0,∞).

Eksempel 10.5 For at give et mere vidtgående eksempel på hvordan designmatricerser ud, vil vi nu kombinere eksempel 10.3 og eksempel 10.4. Vi antager derfor at hverobservation Xi har tilknyttet en kovariat ti, men vi antager også at observationernenaturligt falder i to grupper. En separat lineær regression i hver gruppe svarer tilmiddelværdispecifikationen

EXi = α1 + β1 ti for i = 1, . . . , M ,

EXi = α2 + β2 ti for i = M + 1, . . . ,N ,

hvor vi igen har antaget at de første M observationer udgør den ene gruppe, og desidste N−M observationer udgør den anden gruppe. Dette er en lineær normal model

Page 6: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

354 Kapitel 10. Den generelle lineære model

med middelværdiunderrum

L =

1 0 t1 0...

......

...

1 0 tM 00 1 0 tM+1...

......

...

0 1 0 tN

α1

α2

β1

β2

α1

α2

β1

β2

∈ R4

.

Populære varianter af denne model inkluderer en version hvor de to grupper harsamme hældning, men forskelligt intercept,

L =

1 0 t1...

......

1 0 tM

0 1 tM+1...

......

0 1 tN

α1

α2

β

α1

α2

β

∈ R3

,

og (noget sjældnere) en version hvor de to grupper har samme intercept, men forskel-lig hældning,

L =

1 t1 0...

......

1 tM 01 0 tM+1...

......

1 0 tN

α

β1

β2

α

β1

β2

∈ R3

.

Bemærk at et underrum altid har mange frembringersystemer, og en konkret lineærnormal model vil derfor altid have mange designmatricer, eller mange parametrise-ringer om man vil. I praksis prøver man at finde en designmatrix, så middelvær-diparametrene er direkte fortolkelige i forhold til det videnskabelige problem mandiskuterer.

Page 7: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.1. Definition og eksempler 355

Eksempel 10.6 I eksempel 10.3, med to homogene grupper af observationer, kunnevi let opskrive et frembringersystem for middelværdiunderrummet. Dette frembrin-gersystem svarer til designmatricen

A1 =

1 0...

...

1 00 1...

...

0 1

.

Bijektionen β 7→ A1 β (hvor β er en todimensional parametervektor) giver en naturligfortolkning af β’s to koordinater som henholdvis niveauet i første gruppe og niveaueti anden gruppe.

Man kan let finde andre frembringersystemer for middelværdiunderrummet, og der-med andre designmatricer for modellen. For eksempel

A2 =

1 0...

...

1 01 1...

...

1 1

og A3 =

1 −1...

...

1 −11 1...

...

1 1

.

Bijektionerne β 7→ A2 β og β 7→ A3 β giver anledning til helt andre fortolkningeraf parametrene. I A2-tilfældet bliver β’s førstekoordinat niveauet i første gruppe, ogβ’s andenkoordinat bliver til forskellen mellem de to grupper. I A3-tilfældet bliverβ’s førstekoordinat en slags “gennemsnitsniveau” for de to grupper, og β’s anden-koordinat fortæller hvor langt de to gruppeniveauer ligger fra gennemsnitsniveauet.

En af de vanskeligste udfordringer man skal løse, når man skriver et computerpro-gram, der kan analysere lineære normale modeller, er at finde en strategi for hvordandesignmatricerne skal se ud. Problemet omtales gerne som valg af kontraster. De todesignmatricer A2 og A3 i eksempel 10.6 svarer til to generelle principper for valgaf kontraster, henholdsvis kaldet treatmentkontraster (valget af A2) og sumkontraster(valget af A3).

Page 8: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

356 Kapitel 10. Den generelle lineære model

10.2 Projektioner på Hilbertrum

Lad V være et endeligdimensionalt vektorrum, og lad 〈·, ·〉 være et indre produkt påV . Vi vil i dette afsnit udvikle en del teori om ortogonalprojektioner med hensyn tildet givne indre produkt. Denne teori er det vigtigste tekniske hjælpemiddel i analysenaf den lineære normale model.

Lad os reformulere definitionen af ortogonalprojektioner. Hvis L ⊂ V er et underrum,og hvis x ∈ V er en given vektor, så findes der præcis en vektor p(x) ∈ L sådan atx − p(x) ∈ L⊥, dvs. sådan at

〈x − p(x), y〉 = 0 for alle y ∈ L. (10.2)

Vi kalder p(x) for ortogonalprojektionen af x på L. For hvert y ∈ L er p(x) − y ∈ L,og ved at bruge Pythagoras sætning, ser vi at

‖x − y‖2 = ‖x − p(x) + p(x) − y‖2 = ‖x − p(x)‖2 + ‖p(x) − y‖2 (10.3)

for alle y ∈ L. En vigtig konsekvens af (10.3) er, at p(x) kan karakteriseres som detpunkt i L, der ligger tættest på x. Man ser ud fra (10.2) at

p(x) = x hvis x ∈ L , p(x) = 0 hvis x ∈ L⊥ . (10.4)

Vi vil interesse os for p som en afbildning. Nogen gange opfatter vi p som en afbild-ning V → L - det gjorde vi f.eks. i spaltningssætningen. I dette kapitel er vi nærmeretilbøjelige til at opfatte p som en afbildning V → V , hvis værdier tilfældigvis liggeri L. Fra et formelt synspunkt er der en indlejring af L i V til forskel på disse be-tragtningsmåder, men notationen er tilbøjelig til at blive temmelig tung hvis man skalskelne.

Sætning 10.7 Lad V være et endeligdimensionalt vektorrum, udstyret med et indreprodukt 〈·, ·〉, og lad L ⊂ V være et underrum. Der gælder at en lineær afbildningp : V → V er ortogonalprojektionen på L, hvis og kun hvis den opfylder følgende trebetingelser:

p(V) = L , (10.5)

p2(x) = p(x) for alle x ∈ V , (10.6)

〈p(x), y〉 = 〈x, p(y)〉 for alle x, y ∈ V . (10.7)

Page 9: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.2. Projektioner på Hilbertrum 357

B: Den første betingelse er at billedmængden for p præcis er L. Alle punkterx ∈ V afbildes altså ind i L, og alle punkter i L bliver ramt i denne proces. Hvisp opfylder (10.6) siger vi at den er idempotent, mens den er selvadjungeret medhensyn til det indre produkt, hvis den opfylder (10.7).

B: Lad p : V → V være ortogonalprojektionen på L. Det er klart at p er lineær,og det er klart at p(x) ∈ L for alle x ∈ V . Endvidere har vi fra (10.4) at alle punkter iL fastholdes af p. Heraf indses både (10.5) og (10.6). Og bruges denne observation i(10.2), får vi at

〈x, p(y)〉 = 〈p(x), p(y)〉 for alle x, y ∈ V.

Bruges symmetrien af det indre produkt, får vi nu at (10.7) er opfyldt.

Lad omvendt p : V → V være en lineær afbildning der tilfredsstiller de tre betingel-ser. Hvis y ∈ L findes der et z ∈ V så p(z) = y. Da p er idempotent, er

p(y) = p2(z) = p(z) = y.

Vi kan altså konstatere at p holder alle punkter i L fast. Hvis x ∈ V og y ∈ L, kan viudnytte at p er selvadjungeret til at vise at

〈x − p(x), y〉 = 〈x, y〉 − 〈p(x), y〉 = 〈x, y〉 − 〈x, p(y)〉 = 〈x, y〉 − 〈x, y〉 = 0,

hvilket betyder at (10.2) er opfyldt.�

Eksempel 10.8 Hvis vi fokuserer på tilfældet hvor V = RN , så kan ortogonalprojek-tionen p ned på et underrum L repræsenteres ved en N × N-matrix P, sådan at p(x)kan udtrykkes som matrixproduktet Px. At p er idempotent, oversættes nu til at P eren idempotent matrix, altså at

P2 = P. (10.8)

Hvis det indre produkt 〈·, ·〉 er givet ved en symmetrisk matrix B,

〈x, y〉 = xT B y for x, y ∈ Rn, (10.9)

så oversættes selvadjungerethed af p til matrixligningen

PT B = B P. (10.10)

Kombineres denne ligning med idempotens, udvides den til

PT B P = PT B = B P.

Page 10: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

358 Kapitel 10. Den generelle lineære model

Betingelse (10.5) lader sig også formulere som matrixformel, hvis vi antager at

L ={

Aβ | β ∈ Rk}

(10.11)

hvor A er en N×k-matrix af rang k. I så fald er betingelsen om at x−Px ∈ L⊥ identiskmed at

0 = 〈Aβ, x − Px〉 = βT AT B(I − P)x for alle β ∈ Rk, x ∈ RN ,

hvor symbolet I betegner enhedsmatricen af den relevante dimension (i dette tilfældeaf dimension N). Bemærk at AT B(I − P)x er en k-vektor, og påstanden kan læses påden måde at denne k-vektor står vinkelret på alle k-vektorer i det sædvanlige indreprodukt på Rk. Men det kan kun lade sig gøre hvis vektoren selv er nul. Og hvisAT B(I − P)x = 0 for alle x, kan vi slutte at

AT B(I − P) = 0. (10.12)

Man checker let efter at hvis det indre produkt er givet ved (10.9), mens L er givetved (10.11), og hvis P er en N × N-matrix, så repræsenterer P ortogonalprojektionenned på L hvis og kun hvis de tre ligninger (10.8), (10.9) og (10.12) er opfyldt.

Indenfor rammerne af eksempel 10.8 kan vi faktisk gøre endnu mere end blot at over-sætte de abstrakte karakteriseringer af ortogonalprojekter: vi kan finde P-matricenhelt eksplicit.

Sætning 10.9 Lad V = RN være udstyret med et indre produkt af formen

〈x, y〉 = xT B y for x, y ∈ RN ,

hvor B er en symmetrisk, positivt definit N × N matrix, og lad L være et underrum afR

N af formen

L ={

Aβ | β ∈ Rk}

hvor A er en N × k-matrix af rang k. Da repræsenteres ortogonalprojektionen ned påL af matricen

P = A(AT BA)−1AT B. (10.13)

Page 11: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.2. Projektioner på Hilbertrum 359

B: Lad os starte med at indse at AT BA er invertibel. Dette matrixprodukt er tyde-ligvis en symmetrisk k × k-matrix, og

βT (AT BA)β = (Aβ)T B(Aβ) = ‖Aβ‖2 ≥ 0 for alle β ∈ Rk.

Så AT BA er positivt semidefinit. Faktisk gælder der skarp ulighed medmindre Aβ = 0,og da søjlerne i A er lineært uafhængige, kan det kun indtræffe hvis β = 0. Altså harvi vist at AT BA er positivt definit, og dermed invertibel.

Lad N × N-matricen P repræsentere ortogonalprojektionen ned i L. For at bevise atP opfylder (10.13), tager vi et konkret x ∈ RN . Idet Px ∈ L kan vi antage at Px = Aβfor et passende β ∈ Rk. På grund af (10.12) ser vi at

AT Bx = AT BPx = AT BAβ, (10.14)

og dermed erβ = (AT BA)−1AT Bx. (10.15)

Multipliceres begge sider af dette lighedstegn med A, fås

Px = Aβ = A(AT BA)−1AT Bx.

Eftersom denne formel gælder for alle x ∈ RN , følger (10.13).�

Disse formler antyder at det er let at sætte en computer til at regne projektioner ud:man skal blot have adgang til matrixrutiner for multiplikation, transponering og in-version.

I praksis griber man dog sagen an med lidt større sofistikation. Hvis man skal løse densåkaldte normalligning (10.14), er det regnemæssigt ineffektivt at invertere AT BA -normalligningen kan løses langt hurtigere ved f.eks. Gauss-elimination.

Endnu mere sofistikeret findes en klasse af algoritmer, der søger at minimere

β 7→ ‖A β − x‖2 (10.16)

uden overhovedet at danne matrixproduktet AT BA. Det sker typisk ved omformningaf problemet til et andet problem, der er nemmere at løse. Hvis B = I (sådan at detindre produkt vi taler om, er det sædvanlig indre produkt på RN), og hvis Q er enortonormal N × N-matrix, vil

‖QT (A β − x)‖2 = ‖A β − x‖2 .

Page 12: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

360 Kapitel 10. Den generelle lineære model

I stedet for at minimere (10.16), kan man derfor forsøge at minimere

β 7→ ‖A β − x‖2 , A = QT A , x = QT x .

Denne omformning er ikke nødvendigvis en gevinst. Men hvis A er en øvre trekants-matrix,

A =

(

R0

)

, R =

r11 r12 . . . r1k

0 r22 . . . r2k...

.... . .

...

0 0 . . . rkk

så er problemet nemt at løse: hvis x = (x1 x2)T er den tilsvarende blokopdeling afden omformede observationsvektor, så minimeres (10.16) af

β = R−1 x1 ,

der naturligvis findes ved Gauss-elimination, ikke ved inversion af matricen - bemærkat Gauss-elimination går rasende stærkt, når man starter med en trekantsmatrix. Yder-mere finder vi let den minimale værdi til at være

minβ‖A β − x‖2 = ‖x2‖2 .

Denne teknik står og falder altså med at man kan omforme det oprindelige A til enøvre trekantsmatrix, eller ækvivalent, at man kan skrive

A = Q

(

R0

)

.

Bogstaverne i denne formel har vundet hævd, og man taler gerne om en QR-dekomposition af A. Der er ikke selvindlysende at QR-dekompositioner er en for-nuftig tilgang til projektionsproblemet - det er ikke klart hvordan man skal finde ensådan dekomposition, og det er slet ikke klart hvordan man skal gå frem, hvis det skalgå stærkt.

Men der findes højtudviklede iterative algoritmer, hvor man omformer den oprin-delige designmatrix gennem en serie af mellemformer, der bliver ’mere og meretrekantsagtige’. En algoritme baserer sig på Householder-spejlinger, en anden påGivens-rotationer. En regnemæssig gevinst ved disse algoritmer, er at man ikkebehøver at holde styr over mellemformerne - når man har gennemført et omform-ningstrin kan man glemme hvor man kom fra. I praksis betyder det at man konstantoverskriver designmatrix og observationsvektor med de omformede varianter.

Page 13: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.3. Projektioner og geometri 361

Normalligningsmetoder er i det store og hele hurtigere end metoder, baseret på QR-dekompositioner. Til gengæld har QR-dekompositionen overlegne numeriske egen-skaber. Hvis AT A har determinant tæt på nul, så kan afrundingsfejl etc. komme til atbetyde ganske meget for (AT A)−1 - det er endnu en pind til ligkisten for den praktiskeanvendelighed af formel (10.13). Denne mangel på stabilitet af matrixinversion kani nogen grad genfindes i normalligninsmetoderne. Indenfor numerisk analyse talerman om en matrices konditionstal, et heltal, der måler hvor følsom regninger medmatricen er overfor småfejl - et lavt konditionstal er godt, et højt konditionstal erdårligt. Matricen AT A har et konditionstal, der er kvadratet på A’s eget konditions-tal. Metoderne baseret på QR-dekompositioner fastholder derimod det oprindeligekonditionstal.

10.3 Projektioner og geometri

Lad igen V være et endeligdimensionalt vektorrum med indre produkt 〈·, ·〉. I detfølgende vil vi betragte to underrum L1 og L2 med tilhørende ortogonalprojektionerp1 og p2. Vi vil interessere os for den indbyrdes placering af L1 og L2 som geome-triske objekter i V , og vi vil prøve at udtrykke denne placering ved hjælp af de toortogonalprojektioner.

Et simpelt eksempel på den type resultater vi ønsker, er at hvis L2 = L1⊥, så er

p2 = 1 − p1 (hvor symbolet 1 betegner den identiske afbildning på V).

Lemma 10.10 Lad V være et endeligdimensionalt vektorrum, udstyret med et indreprodukt 〈·, ·〉, lad L1 og L2 være to underrum, og lad p1 og p2 være de tilhørendeortogonalprojektioner. Da er følgende tre betingelser ækvivalente:

L1 og L2 er ortogonale, (10.17)

p1 p2 = 0 , (10.18)

p2 p1 = 0 . (10.19)

B: Antag først at L1 og L2 er ortogonale. For x ∈ V er p2(x) ∈ L2 og desmere erp2(x) ∈ L1

⊥. Og dermed følger det af (10.4) at p1(p2(x)) = 0. På tilsvarende mådefølger det at p2(p1(x)) = 0.

Page 14: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

362 Kapitel 10. Den generelle lineære model

Antag omvendt at p1 p2 = 0, og tag x ∈ L1, y ∈ L2. På grund af (10.4) er p1(x) = xog p2(y) = y. Og da p1 er selvadjungeret, er

〈x, y〉 = 〈p1(x), p2(y)〉 = 〈x, p1 p2(y)〉 = 〈x, 0〉 = 0.

Altså er L1 og L2 ortogonale underrum. Af symmetrigrunde ser vi at der også mågælde at L1 og L2 er ortogonale hvis p2 p1 = 0.

Vi er her gået over til den sædvanlige operatornotation for lineære afbildninger, hvorsammensætning af afbildninger skrives uden brug af parenteser eller tegnet ◦, og hvorargumentet sædvanligvis underforstås. Når vi skriver p1 p2 = 0 mener vi såledesat p1(p2(x)) = 0 for alle x ∈ V . Symbolet 0 betyder så alt efter sammenhængennulvektoren i V eller nuloperatoren, altså den lineære afbildning der sender alt ind inulvektoren.

Lemma 10.11 Lad V være et endeligdimensionalt vektorrum, udstyret med et indreprodukt 〈·, ·〉, lad L1 og L2 være to underrum, og lad p1 og p2 være de tilhørendeortogonalprojektioner. Da er følgende tre betingelser ækvivalente:

L2 ⊂ L1 , (10.20)

p1 p2 = p2 , (10.21)

p2 p1 = p2 . (10.22)

B: Hvis L2 ⊂ L1, så er L2 og L1⊥ ortogonale. Idet ortogonalprojektionen på L1

er 1 − p1, følger det af lemma 10.10 at

(1 − p1) p2 = 0 = p2 (1 − p1) .

Ganges parenteserne ud, fås netop som ønsket at

p1 p2 = p2 = p2 p1.

Hvis vi omvendt antager at p1 p2 = p2, ser vi at (1 − p1)p2 = 0. Ifølge lemma 10.10står L2 og L1

⊥ da vinkelret på hinanden. Men heraf følger at L2 ⊂ L1. Og helt tilsva-rende vises at p1 p2 = p2 medfører at L2 ⊂ L1.

Page 15: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.3. Projektioner og geometri 363

Definition 10.12 Lad V være et endeligdimensionalt vektorrum, udstyret med et in-dre produkt 〈·, ·〉 og lad L2 ⊂ L1 være to underrum. Det relative ortogonale komple-ment af L2 i forhold til L1, skrevet L1 L2, er underrummet

L1 L2 = {x ∈ V | x ∈ L1 og 〈x, y〉 = 0 for alle y ∈ L2}.

Den definerede relation for det relative ortogonale komplement kan skrives direktesom L1 L2 = L1 ∩ L2

⊥. Se figur 10.1 for en skitse. Strengt taget består L1 L2

af de vektorer, der udgør det “almindelige” ortogonale komplement til L2, hvis manser bort fra at der eksisterer et univers uden for L1. Men pointen er at L1 L2 netopopfattes som en delmængde af det omkringliggende univers V , nærmere end som endelmængde af L1.

PSfrag replacements

V

L1

L2

L1 L2

Figur 10.1: En illustration af det relative ortogonale komplement. Det omgivende vektorrumV er på tegningen tredimensionalt (antydet af de tre basisvektorer), mens L1 er todimensionaltog L2 er etdimensionalt. Det relative komplement L1 L2 er et etdimensionalt underrum. Perkonstruktion er det indeholdt i L1, men man bør nærmere tænke på det som et selvstændigtunderrum af det omgivende univers V.

Lemma 10.13 Lad V være et endeligdimensionalt vektorrum, udstyret med et indreprodukt 〈·, ·〉, lad L2 ⊂ L1 være to underrum, og lad p1 og p2 være de tilhørendeortogonalprojektioner. Da er p1 − p2 ortogonalprojektionen ned i L1 L2.

B: Det er klart at p1(x) − p2(x) ∈ L1 for alle x ∈ V , eftersom både p1(x) og p2(x)ligger i L1. Hvis y ∈ L2 er

〈p1(x) − p2(x), y〉 = 〈p1(x), y〉 − 〈p2(x), y〉 = 〈x, p1(y)〉 − 〈x, p2(y)〉= 〈x, y〉 − 〈x, y〉 = 0.

Page 16: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

364 Kapitel 10. Den generelle lineære model

Så p1(x) − p2(x) ∈ L2⊥. Og altså må p1(x) − p2(x) ∈ L1 L2 for alle x ∈ V .

Hvis x ∈ V og y ∈ L1 L2, så er

〈y, x − (p1(x) + p2(x))〉 = 〈y, x〉 − 〈y, p1(x)〉 − 〈y, p2(x)〉= 〈y, x〉 − 〈p1(y), x〉 − 〈p2(y), x〉= 〈y, x〉 − 〈y, x〉 − 0 = 0.

Det vil sige at p1 − p2 opfylder den relevante version af (10.2).�

Definition 10.14 Lad V være et endeligdimensionalt vektorrum, udstyret med et in-dre produkt 〈·, ·〉. Lad L1 og L2 være to underrum, og lad L0 = L1 ∩ L2 være deresfællesmængde. Vi siger at L1 og L2 er geometrisk ortogonale, skrevet L1 ⊥

GL2, hvis

L1 L0 ⊥ L2 L0.

Man kan tænke på to planer i rummet gennem nulpunktet. Hvis de ikke er ens, såskærer de hinanden i en ret linie L0. De kan dermed aldrig stå ægte ortogonalt påhinanden, i den forstand at enhver vektor i den ene plan står vinkelret på enhver vektori den anden, for i så fald skulle vektorer på L0 stå vinkelret på sig selv. Alligevel synesman sommetider at planerne danner en ret vinkel med hinanden - tænk på forholdetmellem to vægge i et hjørne. Det vi tænker på, er i så fald netop ovenstående begrebgeometrisk ortogonalitet. Begrebet er illustreret i figur 10.2.

Lemma 10.15 Lad V være et endeligdimensionalt vektorrum, udstyret med et indreprodukt 〈·, ·〉, lad L1 og L2 være to underrum, og lad p1 og p2 være de tilhørendeortogonalprojektioner. Lad L0 = L1 ∩ L2 og lad p0 være projektionen ned på L0. Daer følgende tre betingelser ækvivalente:

L1 og L2 er geometrisk ortogonale. (10.23)

p1 p2 = p2 p1. (10.24)

p1 p2 = p0. (10.25)

Page 17: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.3. Projektioner og geometri 365

PSfrag replacements

V

L1

L2L0

L1 L0

L2 L0

Figur 10.2: En illustration af hvad det betyder at to underrum, L1 og L2, er geometrisk ortog-onale. Vi har optegnet fællesmængden L0 = L1∩L2, og med fedt de to relative komplementertil L0, inden i henholdsvis L1 og L2. De to originale underrum er geometrisk ortogonale, hvisdisse to relative komplementer står “ægte ortogonalt” på hinanden.

B: Det føler af lemma 10.13 at p1− p0 er projektionen ned i L1L0, mens p2− p0

er projektionen ned i L2 L0. Det følger af lemma 10.10 at L1 og L2 er geometriskortogonale hvis og kun hvis

0 = (p1 − p0)(p2 − p0) .

Ganger man paranteserne ud, får man

(p1 − p0)(p2 − p0) = p1 p2 − p1 p0 − p0 p2 + p0 p0 = p1 p2 − p0 − p0 + p0 = p1 p2 − p0 ,

så de to underrum er altså geometrisk ortogonale hvis og kun hvis p1 p2 = p0.

Da p0, p1 og p2 er selvadjungerede, følger det af p1 p2 = p0 for alle x, y ∈ V at

〈(p1 p2)x, y〉 = 〈x, (p1 p2)y〉 = 〈p1 x, p2y〉 = 〈p2 p1 x, y〉,

hvoraf vi slutter at p1 p2 = p2 p1, altså at de to projektioner kommuterer.

Endelig, hvis de to projektioner kommuterer, ser vi at p1 p2 er en selvadjungeret idem-potent med værdier i L0, og at p1 p2 faktisk fastholder elementerne i L0. Dermed erp1 p2 = p0 ifølge 10.7.

Page 18: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

366 Kapitel 10. Den generelle lineære model

Korollar 10.16 Lad V være et endeligdimensionalt vektorrum, udstyret med et indreprodukt 〈·, ·〉. Lad L1 og L2 være to underrum, og lad p1 og p2 være de tilhørendeortogonalprojektioner. Hvis L1 og L2 er geometrisk ortogonale, så kan projektionenned på underrummet L1 + L2 findes som

p1+2 = p1 + p2 − p1 p2 . (10.26)

Der gælder endvidere at

‖p1+2 x‖2 = ‖p1 x‖2 + ‖p2 x‖2 − ‖p1 p2 x‖2 for alle x ∈ V . (10.27)

B: Lad L0 = L1 ∩ L2, og lad den tilhørende projektion være p0. Hvis L1 og L2 ergeometrisk ortogonale, er de tre underrum L1 L0, L2 L0 og L0 indbyrdes (ægte)ortogonale, og da

L1 + L2 = (L1 L0) + (L2 L0) + L0,

har vi atp1+2 = (p1 − p0) + (p2 − p0) + p0 = p1 + p2 − p0.

Og da p1 p2 = p0, er dette præcis påstanden i (10.27). Tilsvarende giver ortogonalite-ten - sammen med Pythagoras sætning - at

‖p1+2 x‖2 = ‖(p1 − p0)x‖2 + ‖(p2 − p0)x‖2 + ‖p0 x‖2

=(‖p1 x‖2 − ‖p0 x‖2) + (‖p2 x‖2 − ‖p0 x‖2) + ‖p0 x‖2 ,

hvilket reducerer til (10.27).�

De underrum man interesserer sig for i forbindelse med lineære normale modeller, ermeget ofte sumunderrum. I almindelighed findes der ingen måde at udtrykke projek-tionen ned i en sum af to underrum L1 + L2 på, udelukkende ved hjælp af projektio-nerne ned i L1, L2 og L1 ∩ L2. Dette forhold komplicerer analysen af visse lineærenormale modeller betydeligt.

Det er kun på grund af den ekstra betingelse om geometrisk ortogonalitet, at detlykkes at finde projektionen ned på sumunderrummet i korollar 10.16. Vi skal senerese hvordan dette forhold betyder, at geometriske ortogonalitet spiller en vigtig rollei analysen af de såkaldte faktorforsøg. Nogle forsøgsdesign bliver meget nemmereat forstå end andre, fordi visse underrum, der optræder i analysen, bliver geometriskortogonale.

Page 19: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.4. Estimation i den lineære normale model 367

10.4 Estimation i den lineære normale model

Vi vil nu betragte den lineære normale model på V , baseret på det grundlæggendeindre produkt 〈·, ·〉, og med middelværdiunderrum L. Normen med hensyn til detgrundlæggende indre produkt betegnes med de sædvanlige dobbeltstreger,

‖x‖2 = 〈x, x〉 for x ∈ V.

En gang imellem får vi brug for normen med hensyn til et af de afledte indre produkter〈〈·, ·〉〉σ2 . Til det vil vi bruge et symbol med trippelstreger,

|||x|||2σ2 = 〈〈x, x〉〉σ2 =

‖x‖2

σ2for x ∈ V.

Vi får brug for at diskutere ortogonalprojektioner ned på L, og også ned på forskelligeandre underrum af V . Ortogonalprojektion er et begreb der afhænger af det valgteindre produkt, og derfor kunne man frygte at komme til at arbejde med en hel skareaf ortogonalprojektioner.

Men de indre produkter 〈〈·, ·〉〉σ2 er helt enige om hvilke vektorer der står vinkelretpå hinanden. Karakteriseringen i (10.2) viser derfor at de også er enige om hvordanortogonalprojektioner ser ud. Så når vi blot taler om ortogonalprojektionen på L,så er det med hensyn til et vilkårligt af de indre produkter 〈〈·, ·〉〉σ2 . Eftersom detgrundlæggende indre produkt 〈·, ·〉 er med i familien, er det naturligt at tænke påortogonalprojektionen med hensyn til dette indre produkt.

Sætning 10.17 Lad V være et vektorrum af dimension N. Betragt den lineære nor-male model på V baseret på det grundlæggende indre produkt 〈·, ·〉, og med middel-værdiunderrum L ⊂ V. Lad λV være et Lebesguemål på V.

Med λV som dominerende mål er likelihoodfunktionen for den lineære normale model

LX(ξ, σ2) = c

(

1

σ2

)N/2

e−‖X−ξ‖2/2σ2

, (ξ, σ2) ∈ L × (0,∞). (10.28)

Her er c en konstant, der afhænger af λV og 〈·, ·〉, men ikke af L.

Page 20: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

368 Kapitel 10. Den generelle lineære model

B: Vi kalkerer argumentationen i lemma 9.21. Alle Lebesguemål på V er propor-tionale, så det er uden betydning for resultatet hvilket Lebesguemål vi tager fat på.Men det er ikke uden betydning for hvor let regningerne forløber. Så vi vælger os etspecielt hensigtsmæssigt Lebesguemål:

Lad e1, . . . , eN være en ortonormal basis for V med hensyn til 〈·, ·〉. Denne basis bestårat vektorer der står vinkelret på hinanden med hensyn til ethvert 〈〈·, ·〉〉σ2 , men det erkun med hensyn til det grundlæggende indre produkt at vektorerne har længde 1.Lad φ : RN → V være koordinatafbildning for den valgte basis. Vi vil antage atλV = φ(mN).

For alle x ∈ V og σ2 > 0 er

|||φ(x)|||2σ2 =

〈∑n

i=1 xiei,∑n

j=1 x je j〉σ2

=

∑ni=1 x2

i

σ2.

eftersom ei’erne er ortogonale. For ethvert ξ ∈ V ser vi derfor at

e−12 |||v−ξ|||

2σ2 dλV (v) =

e−12 |||v|||

2σ2 dφ(mN )(v) =

e−12 |||φ(x)|||2

σ2 dmN (x)

=

∫ N∏

i=1

e−x2i /2σ

2dmN(x) =

N∏

i=1

e−x2i /2σ

2dxi

=(

2πσ2)N/2

,

hvor vi har brugt Tonellis sætning. Dermed har normalfordelingen med centrum ξ ogpræcision 〈〈·, ·〉〉σ2 tæthed

(

1

2πσ2

)N/2

e−|||x−ξ|||2σ2 /2 =

(

1

2πσ2

)N/2

e−‖x−ξ‖2/2σ2

med hensyn til λV .�

Page 21: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.4. Estimation i den lineære normale model 369

Sætning 10.18 Lad V være et vektorrum af dimension N. Betragt den lineære nor-male model på V baseret på det grundlæggende indre produkt 〈·, ·〉, og med middel-værdiunderrum L. Lad p være ortogonalprojektionen ned i L.

Med sandsynlighed 1 er maksimaliseringsestimatoren entydigt bestemt som

ξ = p(X) , σ2 =‖X − p(X)‖2

N.

B: Vi kan argumentere analogt med eksempel 4.18. Hvis vi ser bort fra numeriskekonstanter, kan likelihoodfunktionen (10.28) ifølge Pythagoras sætning skrives som

LX(ξ, σ2) =

(

1

σ2

)N/2

e−‖X−ξ‖2/2σ2

=

(

1σ2

)N/2

e−1

2σ2 (‖X−p(X)‖2+‖p(X)−ξ‖2)

=

(

1

σ2

)N/2

e−1

2σ2 ‖X−p(X)‖2 e−1

2σ2 ‖p(X)−ξ‖2.

I første omgang holder vi σ2 fast. De to første faktorer i likelihoodfunktionen erdermed givne, og vi kan kun gøre noget ved sidste faktor. Denne faktor maksimeresfor ξ = p(X), og maksimum er 1. Dermed er profillikelihoodfunktionen for σ2 ligmed

LX(σ2) =

(

1σ2

)N/2

e−1

2σ2 ‖X−p(X)‖2.

Underrummet L har lavere dimension end V , så λV (L) = 0 for et vilkårligt LesguemålλV på V . Fordelingen af X har, uanset værdien af parametrene, tæthed med hensyn tilλV , og derfor er

Pξ,σ2(X ∈ L) = 0 for alle (ξ, σ2) ∈ L × (0,∞) .

Vi kan konstatere at der er sandsynlighed 1 for at ‖X − p(X)‖2 , 0. Anvendes

lemma 4.17 med y = σ2, a = ‖X−p(X)‖22 og b = N/2, følger det at LX(σ2) har en-

tydigt maksimum for σ2 =‖X−p(X)‖2

N .�

Når man i praksis skal estimere i en lineær normal model, vil man altid bruge ξ somestimator for ξ. Men σ2 er - som vi skal se om et øjeblik - tilbøjelig til at undervudere

Page 22: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

370 Kapitel 10. Den generelle lineære model

den sande varians, og man bruger derfor hellere estimatoren

σ2 =N

N − kσ2 =

‖X − p(X)‖2

N − k(10.29)

hvor k = dim L. Ofte har man nytte af at p(X) og X − p(X) er ortogonale, for Pytha-goras’ sætning giver da at

‖X‖2 = ‖p(X) + (X − p(X))‖2 = ‖p(X)‖2 + ‖X − p(X)‖2 .

Derfor kan variansestimatet regnes ud som

σ2 =‖X‖2 − ‖p(X)‖2

N − k

��

��

��PSfrag replacements

L

p(x)

x

0

Figur 10.3: En grafisk fremstilling af estimationsproceduren i en lineær normal model. Somcentrumestimat ud fra observationen x bruger vi p(x), altså det punkt i L, der ligger tættestved x. Som variansestimat bruger vi en skaleret version af kvadratet på afstanden mellem xog p(x).

Det fremgår af beviset for sætning 10.18 hvorfor middelværdiunderrummet L for enlineær normal model skal være et ægte underrum af V . Hvis L = V er p(X) = X, ogdermed kan profillikelihoodfunktionen for σ2 ikke maksimeres inden for det lovligeområde (0,∞). Så i det degenererede tilfælde L = V eksisterer maksimaliseringsesti-matoren aldrig.

Mere prosaisk: hvis L = V kan vi rette centrumestimatet ind, så det falder sammenmed observationen. Og vi har i så fald ingen mulighed for at vurdere σ2, der netop eret udtryk for variationen omkring centrum - for der er ingen variation tilbage.

Page 23: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.4. Estimation i den lineære normale model 371

Sætning 10.19 Lad V være et vektorrum af dimension N. Betragt den lineære nor-male model på V baseret på det grundlæggende indre produkt 〈·, ·〉, og med middel-værdiunderrum L. Lad k = dim L og lad (ξ, σ2) være maksimaliseringsestimatorenfra sætning 10.18.

Fordelingen af maksimaliseringsestimatoren kan opsummeres i tre punkter:

1) ξ og σ2 er uafhængige.

2) ξ er regulært normalfordelt på L med centrum ξ og en præcision,der er restriktionen af 〈〈·, ·〉〉σ2 til L.

3) σ2 er χ2-fordelt med N − k frihedsgrader og skalaparameter σ2/N.

B: Vi kan argumentere analogt med eksempel 9.33. Idet 1 − p er ortogonalpro-jektionen ned på L⊥, følger det af spaltningssætningen er p(X) og X − p(X) er uaf-hængige, uanset hvilket 〈〈·, ·〉〉σ2 der er det sande. Eftersom ξ og σ2 produceres ud frahver sin af disse størrelser, kan vi konkludere at ξ og σ2 uafhængige.

Det følger også direkte af spaltningssætningen at ξ = p(X) er regulært normalfordeltpå L med centrum p(ξ) = ξ og en præcision, der er restriktionen af det sande 〈〈·, ·〉〉σ2

til L.

Endelig følger det af spaltningssætningssætningen at X − p(X) er regulært normal-fordelt på L⊥ med centrum ξ − p(ξ) = 0 og en præcision, der er restriktionen af detsande 〈〈·, ·〉〉σ2 til L⊥. Sætning 9.31 fortæller at |||X − p(X)|||2

σ2 er χ2-fordelt med N − kfrihedsgrader og skalaparameter 1. Og dermed er

σ2 =‖X − p(X)‖2

N=σ2

N|||X − p(X)|||2

σ2

som ønsket χ2-fordelt med N − k frihedsgrader og skalaparameter σ2/N.�

Det følger af sætning 10.19 at σ2 underestimerer den sande varians, for

E σ2 =N − k

Nσ2 hvis (ξ, σ2) er de sande parametre.

Hvis dimensionen af L er stor i forhold til N kan fejlen være betragtelig. Men vi serat korrektionen (10.29) har den rigtige størrelse:

E σ2 = EN

N − kσ2 = σ2 hvis (ξ, σ2) er de sande parametre.

Page 24: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

372 Kapitel 10. Den generelle lineære model

Som det fremgik af afsnit 10.1 er vi primært interesserede i lineære normale modellerpå V = RN , med det sædvanlige indre produkt som grundlæggende indre produkt- svarende til en antagelse om at vi har uafhængige normalfordelte målinger medsamme varians - og hvor middelværdiunderrummet har formen

L = {Aβ | β ∈ Rk}

hvor A er en passende N × k-matrix af rang k. I så fald vil man foretrække at parame-trisere modellen ved (β, σ2) ∈ Rk × (0,∞), fordi middelværdiparameteren β er megetnemmere at fortolke end middelværdivektoren ξ ∈ RN . Sammenhængen mellem deto parametriseringer er naturligvis at

ξ = Aβ.

Vi kan oversætte de opnåede resultater til denne situation:

Korollar 10.20 Lad X være en stokastisk variabel på RN , og antag at

X ∼ N(

Aβ, σ2I)

,

hvor A er en N × k-matrix af rang k, og hvor I er N × N enhedsmatricen.

Hvis modellen parametriseres ved (β, σ2) ∈ Rk × (0,∞), så er maksimaliseringsesti-matorerne (β, σ2) givet ved

β = (AT A)−1 AT X , σ2 = ‖X − Aβ‖2/N. (10.30)

Disse estimatorer er uafhængige,

β ∼ N(

β, σ2(AT A)−1)

, (10.31)

og σ2 er χ2-fordelt med N − k frihedsgrader og skalaparameter σ2/N.

B: Modellen for X er den lineære normale model på RN med det sædvanligeindre produkt som grundlæggende indre produkt og med middelværdiunderrum L ={Aβ | β ∈ Rk}. Man kan gennemgå beviset for sætning 10.18 en gang til, eller mankan bruge ækvivarians af maksimaliseringsestimation fra sætning 4.13 til at se atmaksimaliseringsestimatet for middelværdivektoren og for middelværdiparametreneer relateret ved

ξ = Aβ.

Page 25: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.4. Estimation i den lineære normale model 373

Ortogonalprojektionen ned på L er givet ved en N × N-matrix P, der ifølge (10.13)kan skrives på formen

P = A(AT A)−1AT .

Derfor erAβ = ξ = PX = A(AT A)−1AT X.

Matricen A er ikke kvadratisk, så man kan ikke gange denne ligning igennem medA’s inverse matrix. Men vi kan sætte A uden for parantes, og opnå at

A(

β − (AT A)−1AT X)

= 0.

Udnyttes at A har fuld rang, ser vi således at

β = (AT A)−1AT X

som ønsket. Idet X ∼ N(

Aβ, σ2I)

, følger det af korollar 9.48 at β er normalfordeltmed middelværdi

Eβ = (AT A)−1AT Aβ = β,

og variansV β =

(

(AT A)−1AT )

σ2I(

(AT A)−1AT )T= σ2(AT A)−1.

De øvrige påstande i korollaret er simple oversættelser af resultaterne i sætning 10.18og sætning 10.19.

Naturligvis vil vi også i denne situation foretrække det centrale variansestimat

σ2 =‖X − Aβ‖2

N − k,

fremfor maksimaliseringsestimatoren σ2, der systematisk undervurderer den sandevarians. I praksis er det ofte nemmest at udregne variansestimatet ved hjælp af Pyt-hagoras sætning,

σ2 =‖X‖2 − ‖Aβ‖2

N − k. (10.32)

Ønsker man helt at fjerne formlernes geometriske karakter, erstatter man normstre-gerne med matrixprodukter, og får

σ2 =XT X − βT AT Aβ

N − k.

Det er ikke indlysende at denne konkretisering er en gevinst for forståeligheden.

Page 26: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

374 Kapitel 10. Den generelle lineære model

10.5 Test af lineære hypoteser

Lad V være et N-dimensionalt vektorrum med indre produkt 〈·, ·〉 og et udvalgt un-derrum L af dimension k. Vi vil betragte den lineære normale model på V givet udfra 〈·, ·〉 og L. Observationen repræsenteres af en stokastisk variabel X.

En lineær hypotese i denne model er givet ved et underrum L∗ ⊂ L, som vi vil antagehar dimension m < k. Hypotesen er

H : ξ ∈ L∗,

hvor vi altså begrænser de mulige centrale vektorer til at skulle ligge i L∗. Uden forhypotesen har den centrale vektor derimod frihed til at ligge hvor som helst i detstørre underrum L.

Eksempel 10.21 Hvis vi har et underrum L ⊂ RN af formen

L = {Aβ | β ∈ Rk}

for en N×k matrix A af rang k, så vil en lineær hypotese ofte fremkomme ud fra en de-signmatrix, hvis søjler er udtaget blandt A’s søjler. En anden måde at sige det sammepå, er at fastholde designmatricen A, men insistere på at visse af β’s komponenter ernul, f.eks.

L∗ =

{

A

(

γ

0

)∣

γ ∈ Rm}

.

Lad p være ortogonalprojektionen på L, og lad p∗ være ortogonalprojektionen på L∗.Eftersom L∗ ⊂ L, har vi at

p p∗ = p∗p = p∗.

Endvidere ved vi at p − p∗ er ortogonalprojektionen på L L∗. Disse forhold erillustreret på figur 10.4.

Lemma 10.22 Uanset om hypotesen H er sand eller ej, så er de tre variable X−p(X),p(X) − p∗(X) og p∗(X) uafhængige.

Page 27: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.5. Test af lineære hypoteser 375

��

��

��

��

PSfrag replacements L

p(x)

p∗(x)

L∗

x

0

Figur 10.4: To lineære underrum L∗ ⊂ L med tilhørende ortogonalprojektioner p∗ og p.Man ser at p − p∗ er ortogonalprojektionen ned på L L∗. Specielt er de tre vektorer p∗(x),p(x) − p∗(x) og x − p(x) indbyrdes ortogonale.

B: Vi ved fra spaltningssætningen at X − p(X) er uafhængig af p(X). Da(

p∗(X), p(X) − p∗(X))

=(

p∗p(X), (1 − p∗) p(X))

,

ser vi at (p∗(X), p(X) − p∗(X)) kun afhænger af X gennem p(X). Altså må X − p(X)og (p∗(X), p(X) − p∗(X)) være uafhængige.

Ligeledes ved vi fra spaltningssætningen at p∗(X) og 1 − p∗(X) er uafhængige. Men

p(X) − p∗(X) = p(1 − p∗)(X),

og derfor må p∗(X) være uafhængig af p(X) − p∗(X).�

Vi opfatter intuitivt ‖X − p(X)‖2 som et udtryk for hvor godt observationen X passermed middelværdiunderrummet L - hvis X passer dårligt med L, vil ‖X − p(X)‖2 værestor. Tilsvarende er ‖X− p∗(X)‖2 et intutivt udtryk for hvor godt observationen passermed hypotesen om at ξ ∈ L∗. Naturlige teststørrelser for hypotesen H kan derforkonstrueres ved en sammenligning af ‖X − p(X)‖2 og ‖X − p∗(X)‖2 - hvis de er afsamme størrelsesorden, taler det for hypotesen.

Ifølge Pythagoras sætning har vi at

‖X − p∗(X)‖2 = ‖X − p(X)‖2 + ‖p(X) − p∗(X)‖2.

Derfor kan vi alternativt sammenligne ‖X − p(X)‖2 og ‖p(X) − p∗(X)‖2. Geometriskset sammenligner man da længderne af de to kateter i den retvinklede trekant dannet

Page 28: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

376 Kapitel 10. Den generelle lineære model

af x, p(x) og p∗(x), se figur 10.4. Hvis den katete, der ligger i L, er kort sammenlignetmed den, der står vinkelret på L, vil man være tilbøjelig til at acceptere hypotesen.

Uanset om hypotesen er sand eller ej har X−p(X) centrum 0, og dermed er ‖X−p(X)‖2χ2-fordelt med N − k frihedsgrader og skalaparameter σ2. Hvis hypotesen er sand,har p(X)− p∗(X) også centrum 0, og dermed er ‖p(X)− p∗(X)‖2 χ2-fordelt med k−mfrihedsgrader og skalaparameter σ2.

Den konkrete sammenligning af siderne i den retviklede trekant fra figur 10.4 kanf.eks. foretages ved at opskrive størrelsen

F =‖p(X) − p∗(X)‖2/(k − m)

‖X − p(X)‖2/(N − k). (10.33)

Under hypotesen er dette en brøk af to uafhængige χ2-fordelte størrelser, begge medmiddelværdi σ2. Derfor er brøken F-fordelt med (k − m,N − k) frihedsgrader - hvishypotesen vel at mærke er rigtig - og store værdier af F er kritiske for hypotesen. NårF-størrelsen skal regnes ud i praksis, benytter man gerne Pythagoras sætning til atkonkludere at

‖p(X) − p∗(X)‖2 = ‖p(X)‖2 − ‖p∗(X)‖2 , ‖X − p(X)‖2 = ‖X‖2 − ‖p(X)‖2,

og dermed er

F =(‖p(X)‖2 − ‖p∗(X)‖2)/(k − m)

(‖X‖2 − ‖p(X)‖2)/(N − k). (10.34)

En alternativ måde at foretage sammenvejningen på, er at opskrive

B =‖X − p(X)‖2

‖X − p∗(X)‖2=

‖X − p(X)‖2

‖X − p(X)‖2 + ‖p(X) − p∗(X)‖2, (10.35)

der under hypotesen er B-fordelt med (N − k, k − m) frihedsgrader. Bemærk at småB-værdier er kritiske for hypotesen. Det gør ingen forskel om man tester hypotesenved hjælp af F-størrelsen eller B-størrelsen: eftersom

B =N − k

N − k + (k − m)F,

er der en bijektiv korrespondence mellem de to teststørrelser, hvor store F-værdiersvarer til små B-værdier og vice versa, og de to teststørrelser er derfor ækvivalente.Traditionen foreskriver dog at man benytter sig af F-størrelsen.

I stedet for disse ad hoc teststørrelser kan vi gå mere systematisk til værks og findekvotientteststørrelsen:

Page 29: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.5. Test af lineære hypoteser 377

Sætning 10.23 Kvotientteststørrelsen for hypotesen H er

Q =

(

‖X − p(X)‖2

‖X − p∗(X)‖2

)N/2

,

og små Q-værdier er kritiske for hypotesen.

B: Q står i bijektiv korrespondence med B. Og dermed kan kvotienttestet ud-føres som et B-test eller som et F-test. Selve fordelingen af Q hører derimod ikke tili standardarsenalet.

B: Kombinerer vi sætning 10.17 og sætning 10.18 ser vi at den maksimale værdiaf likelihoodfunktionen under modellen er

supξ∈L,σ2>0

LX(ξ, σ2) = c

(

N

‖X − p(X)‖2

)N/2

e−N/2.

Her er c en konstant, der afhænger af hvilket Lebesguemål vi bruger som domine-rende mål. Tilsvarende er den maksimale værdi af likelihoodfunktionen under hypo-tesen

supξ∈L∗,σ2>0

LX(ξ, σ2) = c

(

N

‖X − p∗(X)‖2

)N/2

e−N/2.

Derfor er kvotientteststørrelsen

Q =supξ∈L∗,σ2>0 LX(ξ, σ2)

supξ∈L,σ2>0 LX(ξ, σ2)=

(

‖X − p(X)‖2

‖X − p∗(X)‖2

)N/2

som ønsket.�

Man kan vride en interessant konsekvens ud af ortogonalitetsbetragtningerne ilemma 10.22, under forudsætning af at hypotesen H er sand. I så fald kan man vise atcentrumestimatet p∗(X), variansestimatet baseret på ‖X − p∗(X)‖2 og kvotienttesttør-relsen Q er uafhængige af hinanden. Det er således ikke tilfældet at vi ser med størreskepsis på parameterestimaterne under hypotesen, hvis hypotesen næsten forkastes,end vi ville gøre hvis hypotesen accepteres med glans. Eller omvendt, at usædvanligeparameterestimater gør det mere sandsynligt at hypotesen forkastes.

Page 30: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

378 Kapitel 10. Den generelle lineære model

10.6 Successive test

Hvis man har to underrum L∗∗ ⊂ L∗ af det primære middelværdiunderrum L, kanman foretage et direkte test af hypotesen om at ξ ∈ L∗∗ mod den generelle antagelseaf ξ ∈ L.

Men man kan også udføre successive test, det vil sige først teste en hypotese om atξ ∈ L∗ mod den generelle model, og i tilfælde af at dette test godkendes derefter testehypotesen om at ξ ∈ L∗∗ mod den allerede accepterede hypotese om at ξ ∈ L∗.

Fordelen ved den successive tilgang opstår først og fremmest i den situation hvorman forkaster at ξ ∈ L∗∗. For hvis man allerede har accepteret at ξ ∈ L∗ har man dogopnået nogen reduktion i forhold til udgangspunktet.

En mere teknisk gevinst er at hvis det sande centrum ligger i L∗, så kan testet afξ ∈ L∗∗ mod ξ ∈ L∗ vises at have større styrke end det direkte test af ξ ∈ L∗∗ mod detgenerelle alternativ ξ ∈ L. Så det er nemmere at opdage at den mindste hypotese erfalsk, ved den successive tilgang.

Korollar 10.24 Lad L∗∗ ⊂ L∗ ⊂ L være underrum af V med tilhørende ortogonal-projektione p∗∗, p∗ og p. Betragt hypoteserne

H1 : ξ ∈ L∗ og H2 : ξ ∈ L∗∗ ,

i forhold til den generelle model ξ ∈ L. Lad

B1 =‖X − p(X)‖2

‖X − p∗(X)‖2og B2 =

‖X − p∗(X)‖2

‖X − p∗∗(X)‖2

være teststørrelserne for et test af H1 mod den generelle model, henholdsvis et test afH2 mod H1.

Under forudsætning af at H2 er sand, så er B1 og B2 uafhængige.

B: Uafhængighedsresultatet er formuleret med B-teststørrelser, men gælderuindskrænket, hvis man i stedet betragter F-teststørrelser eller kvotientteststørrelser,fordi alle disse teststørrelser står i bijektiv korrespondence med hinanden.

Page 31: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.6. Successive test 379

B: Under hypotesen er

‖X − p(X)‖2 , ‖p(X) − p∗(X)‖2 , ‖p∗(X) − p∗∗(X)‖2 ,

uafhængige og χ2-fordelte med passende formparametre, og alle med skalaparameterσ2. Et velkendt, generelt resultat om brøker af summer af uafhængige Γ-fordeltevariable giver derfor at

B1 =‖X − p(X)‖2

‖X − p(X)‖2 + ‖p(X) − p∗(X)‖2

og

B2 =‖X − p(X)‖2 + ‖p(X) − p∗(X)‖2

‖X − p(X)‖2 + ‖p(X) − p∗(X)‖2 + ‖p∗(X) − p∗∗(X)‖2

er uafhængige af hinanden, og iøvrigt også af

‖X − p∗∗(X)‖2 = ‖X − p(X)‖2 + ‖p(X) − p∗(X)‖2 + ‖p∗(X) − p∗∗(X)‖2 .

Selv om den successive strategi ofte er at foretrække, skal man dog være opmærksompå strategiens indvirkning på det samlede testniveau. Hvis alle enkelttest gennemfø-res på et 5%-niveau, så er sandsynligheden for at acceptere en hypotese om at ξ ∈ L∗∗

væsentlig mindre end 95% hvis man bruger en successiv strategi, selv når hypote-sen er sand. Man vil ikke nå ned i det rigtige middelværdiunderrum, hverken hvisman forkaster i første testrunde, eller hvis man forkaster i anden testrunde - der er såat sige to lodtrækninger involveret, og begge kan gå galt. Uafhængigheden i korol-lar 10.24 fortæller at sandsynligheden for at alt går godt under den successive strategier 0.952 = 0.9025. Samlet set har testproceduren således et niveau på omkring 10%!

I praktiske sammenhænge udfører man ofte mange, mange test på et konkret datama-teriale, og problemerne med multipel testning er noget man har inde på livet hver dag.Man taler om massesignifikans, når man kommer til at afvise sande hypoteser vedoverdrevet forbrug af test. Om et konkret afvist test skyldes massesignifikans ellerom det skyldes at hypotesen vitterligt er forkert, er jo ikke til at vide, så den sæd-vanlige statistiske reaktion på problemet er at underspille betydningen af det niveausom testet formelt foregår på. I stedet for hårdt at acceptere/forkaste på et fast niveau,bruger man testets p-værdi til at skønne over i hvilken grad hypotesen kunne tænkesat være forkert.

Men i visse sammenhænge er man nødt til at have et håndfast forhold til masse-signifikans. Man kan da ofte håndtere problemerne ved at gennemføre enkelttestene

Page 32: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

380 Kapitel 10. Den generelle lineære model

på et andet niveau end det niveau hvorpå man ønsker at drage hovedkonklusionen.Hvis man i et successivt test af to lineære hypoteser gennemfører hvert test på 2.5%-niveau, vil den samlede testprocedure have et niveau meget tæt på 5%. Man taler omat budgettere med kontrollen over fejl af type I ud over de enkelte test, og man talerom en Bonferroni-korrektion af testniveauet.

10.7 Test af affine hypoteser

I visse tilfælde er interessen ikke rette mod lineære hypoteser, men mod såkaldt affinehypoteser, altså hypoteser af formen

H : ξ ∈ L∗ + η,

hvor L∗ ⊂ L er et ægte underrum, og hvor η er en fast vektor i L. Hvis vi insistererpå at η ligger i L L∗ er η entydigt bestemt udfra hypotesen. Men ofte kommer affinehypoteser til verden som

H : s(ξ) = w0 ,

hvor s : L → L er en surjektiv, lineær afbildning, og hvor w0 er en fast vektor i L.Hvis w0 = 0 specificerer dette en lineær hypotese med L∗ = ker(s). Hvis w0 , 0 erder derimod tale om en affin hypotese med L∗ = ker(s) og med η som en vilkårligvektor, der opfylder at s(η) = w0.

Affine hypoteser diskuteres nemmest ved at skifte variabel. Hvis vi indfører en trans-lateret variabel

X′ = X − η ,

så er X′ regulært normalfordelt med samme præcision som X, og med centrum ξ ′ =ξ − η. Centrum for X′ ligger i L hvis og kun hvis centrum for X ligger i L. Forskellenopstår når vi diskuterer den givne affine hypotese, for den kan reformuleres som

H : ξ′ ∈ L∗ .

For den nye variable X′ er H således en lineær hypotese, og vi kan uden videre opstillef.eks. en B-teststørrelse,

B =‖X′ − p(X′)‖2

‖X′ − p∗(X′)‖2=

‖X − p(X)‖2

‖X − p∗(X) − (1 − p∗)(η)‖2, (10.36)

Page 33: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.8. Konfidensområder 381

der under hypotesen er B-fordelt med (N − k, k − m) frihedsgrader (hvor k og m erdimensionen af L hhv. L∗). Om man i den sidste nævner skriver (1 − p∗)(η) eller(p − p∗)(η) er lige meget, det er under alle omstændigheder ortogonalprojektionen afη ind på L L∗.

10.8 Konfidensområder

I de lineære normale modeller er det ikke særlig naturligt at forsøge at finde et simul-tant konfidensområde for både centrum ξ og varians σ2. Som regel er man nærmest li-geglad med variansparameteren, så udfordringen er at producere et konfidensområdefor parameterfunktionen (ξ, σ2) 7→ ξ. Det kan vi gøre med profillikelihoodmetoder.

Sætning 10.25 Lad V være et vektorrum af dimension N. Betragt den lineære nor-male model på V baseret på det grundlæggende indre produkt 〈·, ·〉, og med middel-værdiunderrum L af dimension k. Et (1 − α)-konfidensområde for ξ er da

C(X) ={

ξ ∈ L | ‖p(X) − ξ‖2 < k zα σ2}

, (10.37)

hvor z er (1 − α)-fraktilen for en F-fordeling med (k,N − k) frihedsgrader.

B: For fast ξ maksimeres likelihoodfunktionen (10.28) af

σ2(ξ) =‖X − ξ‖2

N,

og derfor bliver profillikelihoodfunktionen

LX(ξ) =

(

N

‖X − ξ‖2

)N/2

e−N/2 .

Profillikelihoodfunktionen maksimeres af ξ = p(X), og derfor bliver kvotientteststør-relsen på baggrund af profillikelihoodfunktionen

QX(ξ) =

(

‖X − p(X)‖2

‖X − ξ‖2

)N/2

.

Page 34: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

382 Kapitel 10. Den generelle lineære model

Denne teststørrelse kan uden videre erstattes med en F-størrelse

‖p(X) − ξ‖2/k‖X − p(X)‖2/(N − k)

=‖p(X) − ξ‖2/k

σ2,

der er F-fordelt med (k,N−k) frihedsgrader hvis ξ er den sande parameter. Store vær-dier af F gør ξ utroværdig. Ved kun at inkludere ξ-værdier med F-størrelse mindreend zα, får vi et konfidensområde af formen (10.37) af den ønskede dækningsgrad.

Bemærk den meget nydelige geometriske fortolkning af dette område: det er en kuglei L med centrum i projektionen p(X) og en med radius der er bestemt af hvor langt Xligger fra L.

Korollar 10.26 Lad X være en stokastisk variabel på RN , og antag at

X ∼ N(

Aβ, σ2I)

,

hvor A er en N × k-matrix af rang k, og hvor I er N × N enhedsmatricen.

Et (1 − α)-konfidensområde for middelværdiparametrene β er

C(X) = {β ∈ Rk | (β − β)T AT A (β − β) < k zα σ2} (10.38)

hvor zα er (1 − α)-fraktilen i F-fordelingen med (k,N − k) frihedsgrader.

B: Dette resultat er en direkte oversættelse af det abstrakte resultat fra sæt-ning 10.25. Området (10.38) består simpelthen af de β’er for hvilke Aβ ligger i om-rådet givet ved (10.37).

Konfidensområdet i (10.38) er det indre af en ellipse i Rk med centrum i β, medsymmetriakser og ekcentriciteter bestemt af AT A og med størrelse i det væsentligebestemt af σ2. Som regel vil symmetriakserne ikke være parallelle med koordinata-kserne. Dette er ikke i modstrid med den simple geometriske fortolkning af (10.37)som en kugle i L - designmatricen A inducerer en isomorfi mellem L og Rk, mendenne isomorfi er ikke konform, den behandler forskellige retninger i rummet for-skelligt, og derfor afbilder den typisk kugler over i ellipser.

Vi vil nu konstruere konfidensområder for lineære funktioner af middelværdien ξ.Man kan naturligvis godt interessere sig for ikke-lineære funktioner, men så taberman det specielle samspil med lineær algebra, der gør den lineære normale model såmatematisk tilfredsstillende.

Page 35: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.8. Konfidensområder 383

Det er naturligt at starte internt i L med at konstruere konfidensområder for ortogo-nalprojektionen q ned på et underrum L� ⊂ L. Vi bruger en anden notation for detteunderrum end for de hidtidige, fordi dets rolle er ny. At spørge om q(ξ) = 0 svarer tilat teste hypotesen

H0 : ξ ∈ L L� .

Så den naturlige lineære hypotese forbundet med q har ikke at gøre med L�, men medL�’s relative ortogonale komplement i L. Tilsvarende, at spørge om q(ξ) = η for enbestemt værdi η ∈ L� er ækvivalent med at teste den affine hypotese

Hη : ξ ∈ L L� + η .

Sætning 10.27 Lad V være et vektorrum af dimension N. Betragt den lineære nor-male model på V baseret på det grundlæggende indre produkt 〈·, ·〉, og med middel-værdiunderrum L af dimension k.

Lad L� være et underrum af L af dimension m, og lad q : V → L� være ortogonal-projektionen ned på L�. Et (1 − α)-konfidensområde for q er da

D(X) ={

η ∈ L� | ‖q(X) − η‖2 < m zα σ2}

, (10.39)

hvor zα er (1 − α)-fraktilen for en F-fordeling med (m,N − k) frihedsgrader.

B: Vi følger i så høj grad som muligt beviset for sætning 10.25. Modellen kanreparametriseres ved hjælp af den ortogonale dekomposition

L = L� + (L L�) ,

og vi får da likelihoodfunktionen

LX(η, ψ, σ2) = c

(

1

σ2

)N/2

e−‖X−(η+ψ)‖2/2σ2

for (η, , ψ, σ2) ∈ L� × L L� × (0,∞). Fra Pythagoras’ sætning følger det at

‖X − (η + ψ)‖2 = ‖X − p(X) + p(X) − q(X) + q(X) − η − ψ‖2

= ‖X − p(X)‖2 + ‖q(X) − η‖2 + ‖p(X) − q(X) − ψ‖2 .

For fast η maksimeres likelihoodfunktionen af

ψ(η) = p(X) − q(X) , σ2(η) =‖X − p(X)‖2 + ‖q(X) − η‖2

N,

Page 36: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

384 Kapitel 10. Den generelle lineære model

så profillikelihoodfunktionen for η bliver

LX(η) =

(

N

‖X − p(X)‖2 + ‖q(X) − η‖2

)N/2

e−N/2 .

Profillikelihoodfunktionen maksimeres af η = q(X), og derfor bliver kvotientteststør-relsen på baggrund af profillikelihoodfunktionen

QX(η) =

(

‖X − p(X)‖2

‖X − p(X)‖2 + ‖q(X) − η‖2

)N/2

.

Denne teststørrelse kan uden videre erstattes med en F-størrelse

‖q(X) − η‖2/m‖X − p(X)‖2/(N − k)

=‖q(X) − η‖2/m

σ2,

der er F-fordelt med (m,N − k) frihedsgrader hvis det sande centrum ξ opfylderat q(ξ) = η. Store værdier af F gør η utroværdig som mulig q-værdi. Ved kun atinkludere η-værdier med F-størrelse mindre end zα, får vi et konfidensområde afformen (10.39) af den ønskede dækningsgrad.

Hvis s : L→ W er en surjektiv lineær afbildning, så kan vi skrive

s = s|L� ◦ q

hvor L� er det ortogonale komplemet til kers. Idet s|L� er en isomorfi mellem L� ogW , kan vi derfor oversætte (10.39) til følgende relativt unyttige konfidensområde fors:

D(X) ={

w ∈ W | ‖q(X) − s|L�−1(w)‖2 < m zα σ2}

. (10.40)

Denne formel kan kun være nogen nytte til, hvis vi er i stand til at skrive eksplicitteudtryk for de indgående størrelser. Det kan godt lade sig gøre i visse tilfælde.

Eksempel 10.28 Lad s : L → R være en lineær afbildning, og lad målet være atkonstruere et konfidensområde for s(ξ). Hvis e1, . . . , ek er en ortonormal basis for Lmed hensyn til det grundlæggende indre produkt, så er

s(x) = s

k∑

i=1

〈x, ei〉 ei

=

k∑

i=1

〈x, ei〉 s(ei) = 〈x,k

i=1

s(ei) ei〉 .

Det vil sige at sætter vi γ =∑k

i=1 s(ei) ei, så er γ en L-vektor, der opfylder at

s(x) = 〈x, γ〉 x ∈ L .

Page 37: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.8. Konfidensområder 385

Kernen for s er det ortogonale komplement til det etdimensionale underrum, ud-spændt af γ. Og derfor er L�, det ortogonale komplement til kernen for s, lig medunderrummet udspændt af γ. Vi ser at

s(c γ) = c ‖γ‖2 ,

og derfor er

s|L�−1(w) =w

‖γ‖2γ for alle w ∈ R .

Det er endvidere klart at

q(x) =〈x, γ〉‖γ‖2

γ for x ∈ V ,

og det medfører at

‖q(X) − s|L�−1(w)‖2 =(

〈X, γ〉 − w‖γ‖

)2

.

Det abstrakte (1 − α)-konfidensområde (10.40) for s bliver derfor til intervallet

D(X) =

(

〈X, γ〉 −√

‖γ‖2 zα σ2 , 〈X, γ〉 +√

‖γ‖2 zα σ2

)

,

hvor zα er (1 − α)-fraktilen for en F-fordeling med (1,N − k) frihedsgrader. Idet

〈X, γ〉 = 〈q(X), γ〉 + 〈X − q(X), γ〉 = s(ξ) + 0 ,

vil man normalt skrive dette konfidensinterval på formen

D(X) =

(

s(ξ) −√

‖γ‖2 zα σ2 , s(ξ) +√

‖γ‖2 zα σ2

)

. (10.41)

Eksempel 10.29 Lad X være en stokastisk variabel på RN , og antag at

X ∼ N(

Aβ, σ2I)

,

hvor A er en N × k-matrix af rang k, og hvor I er N × N enhedsmatricen. Vi vilinteressere os for en afbildning af formen

β 7→ ψTβ (10.42)

Page 38: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

386 Kapitel 10. Den generelle lineære model

for en givet vektor ψ ∈ Rk. Hvis ψ f.eks. er den i’te kanoniske enhedsvektor, betyderdenne formulering at vi interesserer os for den i’te koordinat af β. Betragt den lineæreafbildning s : L→ R er givet ved

s(x) = 〈A(AT A)−1ψ, x〉

hvor 〈·, ·〉 betegner det sædvanlige indre produkt på RN . Idet

s(Aβ) = 〈A(AT A)−1ψ, Aβ〉 = ψT (AT A)−1AT Aβ = ψTβ

er s vores interesseafbildning, udtrykt som afbildning på L. Vi ser at

‖A(AT A)−1ψ‖2 = ψT (AT A)−1AT A(AT A)−1ψ = ψT (AT A)−1ψ .

Og det følger nu fra (10.41) at et (1 − α)-konfidensområde for ψTβ er

D(X) =

(

ψT β −√

ψT (AT A)−1ψ zα σ2 , ψT β +

ψT (AT A)−1ψ zα σ2

)

. (10.43)

hvor zα er (1 − α)-fraktilen for en F-fordeling med (1,N − k) frihedsgrader. Denneformel bruges ganske ofte. I de fleste fremstillinger ses den dog ikke som et special-tilfælde af et mere generelt resultat, den udledes i stedet ved håndkraft: Man udnytterat

ψT β − ψTβ ∼ N(

0, σ2 ψT (AT A)−1ψ)

og at denne størrelse er uafhængig af σ2, til at opstille en T -fordelt pivot. Kvadreresdenne pivot, bliver den F-fordelt, og man opnår netop konfidensområdet (10.43) forψTβ.

10.9 Prediktion

Som den eneste af de grundlæggende statistiske discipliner, udført for lineære nor-male modeller, så vil konstruktionen af prediktionsintervaller ikke vinde ved at vifastholder den geometriske formulering - her er matrixformuleringen at foretrække.Til gengæld kan den nødvendige konstruktion ganske let modelleres over hvad derforegik i eksempel 7.13.

Lad X være en observeret stokastisk variabel på RN , og antag at

X ∼ N(

Aβ, σ2I)

,

Page 39: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.9. Prediktion 387

hvor A er en N×k-matrix af rang k, og hvor I er N×N enhedsmatricen. Lad endvidereY være en uobserveret, reel stokastisk variabel, uafhængig af X og med fordeling

Y ∼ N(

ψTβ, σ2)

,

for en passende k-vektor ψ. Vi ser at den kombinerede vektor (X Y)T selv kan módel-leres ved en lineær normal model på RN+1, men dette forhold interesserer os ikke såmeget.

Maksimaliseringsestimatoren β for β på baggrund af X-observationen er som bekendtnormalfordelt,

β ∼ N(

β, σ2 (AT A)−1)

.

Dermed er

ψT β ∼ N(

ψTβ, σ2 ψT (AT A)−1ψ)

,

og da denne størrelse er en funktion af X, er den uafhængig af Y . Derfor er

Y − ψT β ∼ N(

0, σ2 (1 + ψT (AT A)−1ψ))

, .

Både Y og β er uafhængige af det sædvanlige variansestimat σ2 på baggrund af X, ogderfor følger den stokastiske variabel

Y − ψT β√

σ2 (1 + ψT (AT A)−1ψ)

en T -fordeling med N − k frihedsgrader. Det leder til et (1 − α)-prediktionsområdefor Y på

(

ψT β − zα

σ2 (

1 + ψT (AT A)−1ψ)

, ψT β + zα

σ2 (

1 + ψT (AT A)−1ψ)

)

, (10.44)

hvor zα er 1 − α/2-fraktilen for T -fordelingen med N − k frihedsgrader.

Det er meget svært at generalisere disse simple regninger til en situation, hvor denuobserverede variabel Y er flerdimensional - her kunne det måske nok betale sig atudvikle en geometrisk formalisme. På den anden side er det meget sjældent at manvirkelig nærer et ønske om at finde et flerdimensionalt prediktionsområde, så skadener til at overskue.

Page 40: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

388 Kapitel 10. Den generelle lineære model

10.10 Modelkontrol

Lad os betragte en stokastisk variabel X på RN . Hvis vi ønsker at kontrollere enmodelpåstand af formen

X ∼ N(

Aβ, σ2I)

skal vi altså undersøge om der overhovedet er noget par (β, σ2) ∈ Rk × (0,∞) der kanopfattes som værende i konkordans med observationen. Vi har et kanonisk estimat af(β, σ2) fra (10.30), der er udledt som det par der passer bedst med observationen. Deter derfor naturligt at undersøge om observationen X er i konkordans med (β, σ2).

Startpunktet for en sådan undersøgelse er residualerne

ε = X − Aβ = (I − A(AT A)−1AT )X.

Notationen ε bruges, fordi selve modellen ofte skrives ned på formen

Xi = ξi + εi for i = 1, . . .N,

hvor ξ1, . . . , ξN er den deterministiske del af modellen, og hvor ε1, . . . , εN traditioneltkaldes fejlene - fejl i forhold til den rent deterministiske model. Fejlene antages atvære uafhængige og N(0, σ2)-fordelte. Residualerne er nu

εi = Xi − ξi for i = 1, . . .N,

hvor ξi er et estimat af ξi, ofte kaldet de fittede værdier. Og derfor repræsentererresidualerne et forsøg på at reproducere de oprindelige fejl - heraf hatten.

Den intuitive ide, som ofte præsenteres i indledende tekster om statistik, er at residu-alerne “stort set” repræsenterer uafhængige observationer fra en N(0, σ2)-fordeling.Denne tankegang har visse defekter, som vi nu vil forklare.

For det første er residualerne ikke uafhængige. Analogt med regningerne i eksem-pel 9.38 kan man vise at residualvektoren ε under modellen følger en singulær nor-malfordeling. Geometrisk vil ε ligge i det ortogonale komplement til middelværdi-underrummet.

Mere overraskende er det måske at residualerne ikke er identisk fordelte. Vi ser udfrafordelingen af β at

ε ∼ N(

0, σ2(I − A(AT A)−1AT ))

. (10.45)

Page 41: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.10. Modelkontrol 389

Matricen A(AT A)−1AT kaldes ofte hat matricen. Den repræsenterer designets indfly-delse på fordelingen af residualerne. Hvis vi lader hii betegne diagonalelementerne ihat matricen, er

εi ∼ N(0, σ2(1 − hii)) for i = 1, . . .N.

Størrelsen hii kaldes den i’te observations leverage. Hvis hii er tæt på 1, vil det på-gældene residual være stort set nul uanset hvordan målingerne falder! Det betyder atparameterestimaterne rettes ind sådan at ξ stort set bliver lig Xi. En sådan observationhar derfor en uforholdsmæssig stor indflydelse på parameterestimaterne.

Sådanne abnormt høje leverage-værdier optræder faktisk i visse modeller. Et simpelteksempel er en den etsidede variansanalyse med to grupper, som i eksempel 10.3.Hvis den ene gruppe kun har en enkelt observation, så vil niveauet for denne gruppeblive estimeret som værdien af observationen - hvad skulle man ellers gøre? Og i såfald bliver denne observations residual 0 per konstruktion!

Som regel går det ikke så galt. Hvis Ik betegner enhedsmatricen af dimension k × k,viser regnereglerne for sporet af en matrix at gælder der at

N∑

i=1

hii = tr(

A(AT A)−1AT)

= tr(

(AT A)−1AT A)

= tr(Ik) = k .

Dermed er ’den typiske’ hii-værdi omkring k/N. Og for de fleste lineære modellerman støder på i praksis, er alle hii-værdierne af den størrelsesorden. Men en gangi mellem optræder der modeller med kraftigt varierende leverage-værdier. Og hvisman ikke er opmærksom på det, kan man komme til at lave alvorlige fejl. En regulærmålefejl på en observation med høj leverage vil ødelægge hele analysen!

Man prøver gerne at gardere sig mod den type fejl, ved leave-one-out analyser, hvorman genanalyserer datamaterialet efter at have slettet en enkelt observation. Sletterman observationer med lav leverage-værdi, sker der ikke noget særligt, men slet-ter man observationer med høj leverage-værdi risikerer man at det ændrer analysenskonklusioner dramatisk. Der er ingen faste regler for hvad man så skal gøre - det kanvære et tegn på en forkert registreret observation, eller det kan være et tegn på atens model er forkert. Man er nødt til at diskutere sagen nøje igennem i hvert enkelttilfælde.

Page 42: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

390 Kapitel 10. Den generelle lineære model

For at undgå problemerne med forskellig leverage, ser man gerne på de standardise-rede residualer, givet som

Ui =εi

(1 − hii)σ2

for i = 1, . . .N.

Disse standardiserede residualer har alle samme fordeling, men denne fordeling hørerikke til standardrepetoiret. De standardiserede residualer er naturligvis stadigt afhæn-gige.

Mange forfatter går videre og anbefaler de såkaldte deletion residualer, givet som

U∗i =εi

(1 − hii)σ2(i)

for i = 1, . . .N.

hvor σ2(i) er variansestimatet fremkommet ved analysen af det datamateriale, hvor ob-

servation i er slettet. Fordelen ved deletion residualerne er dels at de har en kendtfordeling (de er T -fordelte med N − 1 − k frihedsgrader), og dels at de har en me-get begribelig fortolkning som forskellen mellem den i’te observation og den værdiman ville prediktere for den i’te observation på baggrund af alle de øvrige målinger,normaliseret med prediktionsusikkerheden. Deletion residualet siger derfor noget omhvor godt den i’te observation stemmer overens med hvad man ville forvente på bag-grund af de øvrige observationer.

Man foretager sig gerne tre ting med samlingen af standardiserede residualer ellerdeletion residualer, når man udfører modelkontrol. Man ser efter store residualer, manundersøger om den empiriske fordeling af residualerne ligner en normalfordeling, ogman undersøger om man kan finde et mønster i hvordan residualerne varierer.

Man ser efter store residualer, fordi de tyder på problematiske enkeltobservationer,såkaldte outliers. Fortolkningen af outliers er lige så uklar som fortolkningen af ob-servationer, der giver kraftigt udslag i leave-one-out analyserne. En outlier kan skyl-des en målefejl, eller det kan skyldes en modelfejl. En primitiv reaktion på outliers erat slette dem, men det kan i almindelighed ikke anbefales - hvis virkeligheden ikkestemmer overens med ens model, skal man være meget påpasselig med at kassere vir-keligheden! Nærmere skal man diskutere sådanne outliers meget omhyggeligt i denkonkrete kontekst.

Hvordan ser man om et residual er ’stort’? Først og fremmest betyder det formentligat residualet er større end de andre residualer, men et af residualerne skal jo være

Page 43: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.10. Modelkontrol 391

størst, så det er ikke i sig selv kriminelt. Deletion residualerne er jo T -fordelte, såman kan sammenligne med fraktilerne i en T -fordeling. Men denne sammenligninghæmmes af at residualerne ikke er uafhængige - det er svært at sige noget genereltom hvordan denne afhængighed vil påvirke det maksimale residual.

Den vigtigste praktiske målestok er simulation. Generer et antal datasæt af sammestørrelse som det ægte datasæt, og efter den model datasættet analyseres med. Hvertaf de genererede datasæt analyseres, og man finder de standardiserede residualer (el-ler deletion residualerne, som man nu synes). På den baggrund kan man vurdere omde store residualer for det ægte datasæt, er urimeligt store, eller om de har den stør-relse som man må forvente under modellen.

Bemærk at fordelingen af de standardiserede residualer kun afhænger af modellensdesign, ikke af de sande parametre. Så i simulationen kan man f.eks. lade som omsamtlige middelværdiparametre er nul og som om at variansen σ2 er 1 - det vil sigeat de simulerede observationer er uafhængige, standard normalfordelte. Så længe manblot analyserer de falske datasæt uden at bruge denne viden, gør det ingen skade.

Man undersøger den empiriske fordeling af residualerne som en kontrol af modellensnormalfordelingsantagelse. Typisk tegner man et QQ-plot af de standardiserede resi-dualer mod en standard normalfordeling. Begrundelsen for at gøre det er lidt vag, nårde standardiserede residualer nu hverken er uafhængige eller ægte standard normal-fordelte. Men erfaring viser at en iøjnefaldende afvigelse fra en ret linie i et sådantQQ-plot, er et udtryk for at modellen passer dårligt til data.

Hvis man vil være sikker på om en afvigelse fra en ret linie i en sådat QQ-plot er nogetat hidse sig op over elle ej, er det igen en god ide at lave nogle tilsvarende plot forresidualer fra simulerede datasæt. På den måde kan man oparbejde en fornemmelseaf hvor store afvigelser, der kan forekomme, selv hvis modellen er rigtig.

Det tredie - og ofte vigtigste - trin i analysen af residualerne, en optegning af destandardiserede residualer mod de fittede værdier, altså grafen

{(ξi,Ui) | i = 1, . . . ,N} ,

der gerne kaldes et residualplot. Hvis man kan se antydning af struktur i denne teg-ning, antyder det alvorlige problemer med modellen. Man er typisk på vagt overforkrumninger af punktskyen (svarende til en forkert middelværdistruktur) og overfortrompetformede puntskyer (svarende til at observationer med stor middelværdi haren anden varians end observationer med lille middelværdi).

Page 44: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

392 Kapitel 10. Den generelle lineære model

Varianter af residualplottet er at optegne de standardiserede residualer mod observa-tionsnummeret, eller mod værdien af en af de indgående kovariater. Igen vil enhverantydning af struktur i tegningen føre til mistænksomhed mod modellen.

Det er lidt af en kunst at lære at fortolke residualplot. Det kan anbefales at manstuderer residualplots fra simulerede data - men det er ikke helt så nemt som i deførste trin af modelkontrollen: Udseendeet af residualplottet afhænger faktisk af desande parametre, fordi det ikke kun er residualerne, men også de fittede værdier, derindgår. Så man skal være mere omhyggelig når man generer falske datasæt i dennefase af analysen.

10.11 Opgaver

O 10.1. Lad X1, X2, X3, X4, X5 være uafhængige reelle variable. Vi antager at deer uafhængige, normalfordelte med samme ukendte varians σ2 og med middelværdier

EX1 EX2 EX3 EX4 EX5

α1 α2 α1 α1 − α2 α1 + α2

Her er α1, α2 ∈ R ukendte parametre. En realisation af eksperimentet har givet føl-gende data:

x1 x2 x3 x4 x5

0.903 2.202 1.081 −1.156 3.173

S 10.1(a). Opskriv designmatricen A for modellen. Find (AT A)−1.

S 10.1(b). Opskriv et teoretisk udtryk for maksimaliseringsestimatoren α forα = (α1, α2). Udregn α for de konkrete data.

S 10.1(c). Find fordelingen af α.

Lad L være middelværdiunderrummet

L = {Aα | α ∈ R2} ⊂ R5.

S 10.1(d). Find ortogonalprojektionen p(x) (mht. det sædvanlige indre pro-dukt) ned på L, både abstrakt og for det konkret observerede datapunkt i R5.

S 10.1(e). Find SSD = ‖x − p(x)‖2, både abstrakt og for det konkret observe-rede datapunkt i R5.

Page 45: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.11. Opgaver 393

S 10.1(f). Opskriv den sædvanlige estimator σ2 for variansparameteren σ2,både abstrakt og for det konkret observerede datapunkt i R5.

S 10.1(g). Find fordelingen af σ2.

S 10.1(h). Angiv den simultane fordeling af α og σ2.

O 10.2. Lad X1, X2, X3, X4, X5 være uafhængige reelle variable. Vi antager at deer uafhængige, normalfordelte med samme ukendte varians σ2 og med middelværdier

EX1 EX2 EX3 EX4 EX5

α1 α2 α1 α1 − α2 α2 − α1

Her er α1, α2 ∈ R ukendte parametre. En realisation af eksperimentet har givet føl-gende data:

x1 x2 x3 x4 x5

1.005 2.172 1.481 −0.809 1.018

Gennemløb alle delopgaverne fra opgave 10.1, tilpasset den nye situation.

O 10.3. Lad X1, X2, X3, X4, X5 være uafhængige reelle variable. Vi antager at deer uafhængige, normalfordelte med samme ukendte varians σ2 og med middelværdier

EX1 EX2 EX3 EX4 EX5

α1 α2 α3 α1 − α2 α2 − α3

Her er α1, α2, α3 ∈ R ukendte parametre. En realisation af eksperimentet har givetfølgende data:

x1 x2 x3 x4 x5

0.870 2.032 1.204 −0.699 0.973

Gennemløb alle delopgaverne fra opgave 10.1, tilpasset den nye situation.

O 10.4. Lad X og Y være uafhængige reelle variable, sådan at X ∼ N(β, σ2),mens Y er χ2-fordelt med m frihedsgrader og skalaparameter σ2/m.

S 10.4(a). Vis atX − β√

Y

er T -fordelt med m frihedsgrader.

S 10.4(b). Konstruer på denne baggrund et 95% konfidensområde for β.

S 10.4(c). Hvad sker der med det konstruerede konfidensområde hvis m→ ∞?

Page 46: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

394 Kapitel 10. Den generelle lineære model

O 10.5. Lad X1, X2, X3, X4, X5 være uafhængige reelle variable. Vi antager at deer uafhængige, normalfordelte med samme ukendte varians σ2 og med middelværdier

EX1 EX2 EX3 EX4 EX5

α1 α1 − α2 α1 − α2 α1 + α2 α1 + α2

Her er α1, α2 ∈ R ukendte parametre. En realisation af eksperimentet har givet føl-gende data:

x1 x2 x3 x4 x5

−0.187 −1.731 −0.184 2.252 1.775

S 10.5(a). Udled maksimaliseringsestimatoren α for α = (α1, α2). Udregn αfor de konkrete data.

S 10.5(b). Udled en central estimator σ2 for σ2. Udregn σ2 for de konkretedata.

S 10.5(c). Angiv den simultane fordeling af α og σ2.

S 10.5(d). Angiv et 95% konfidensområde for α1 og for α2.

S 10.5(e). Angiv et simultant 95% konfidensområde for (α1, α2).

S 10.5(f). Angiv et 95% konfidensområde for σ2.

Betragt hypotesen H : α1 = 0.

S 10.5(g). Estimer α2 og σ2 under hypotesen H.

S 10.5(h). Udfør et test af H ved hjælp af en F-fordelt teststørrelse.

S 10.5(i). Udfør et test af H ved hjælp af en B-fordelt teststørrelse.

S 10.5(j). Kan testet af H også udføres ved hjælp af en T-fordelt teststørrelse?

S 10.5(k). Diskuter sammenhængen mellem de udførte test, og diskuter dissetests forbindelse til det fundne konfidensområde for α1.

O 10.6. Lad X1, X2, X3, X4, X5 være uafhængige reelle variable. Vi antager at deer uafhængige, normalfordelte med samme ukendte varians σ2 og med middelværdier

EX1 EX2 EX3 EX4 EX5

α1 α2 α1 − α2 α1 + α2 α1 + α2

Page 47: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

10.11. Opgaver 395

Her er α1, α2 ∈ R ukendte parametre. En realisation af eksperimentet har givet føl-gende data:

x1 x2 x3 x4 x5

0.732 1.359 0.097 1.953 1.869

S 10.6(a). Udled maksimaliseringsestimatoren α for α = (α1, α2). Udregn α

for de konkrete data.

S 10.6(b). Udled en central estimator σ2 for σ2. Udregn σ2 for de konkretedata.

S 10.6(c). Angiv den simultane fordeling af α og σ2.

S 10.6(d). Angiv et 95% konfidensområde for α1 og for α2.

S 10.6(e). Angiv et simultant 95% konfidensområde for (α1, α2).

S 10.6(f). Angiv et 95% konfidensområde for σ2.

Betragt hypotesen H : α1 = α2.

S 10.6(g). Parameteriser modellen under hypotesen. Estimer parametrene.

S 10.6(h). Udfør et test af H, f.eks. ved hjælp af en F-fordelt teststørrelse.

S 10.6(i). Reparameteriser den fulde model, stadig som en lineær normal mo-del. Middelværdistrukturen skal have parametre γ, δ, og hypotesen H skal kunnebeskrives som H : δ = 0. Estimer γ og δ, og opstil et 95% konfidensområde for δ.

S 10.6(j). Sammenhold resultatet af det udførte test for H med konfidensom-rådet for δ.

O 10.7. Lad X1, X2, X3, X4, X5 være uafhængige reelle variable. Vi antager at deer uafhængige, normalfordelte med samme ukendte varians σ2 og med middelværdier

EX1 EX2 EX3 EX4 EX5

α1 α2 α3 α1 − α2 α1 + α3

Her er α1, α2, α3 ∈ R ukendte parametre. En realisation af eksperimentet har givetfølgende data:

x1 x2 x3 x4 x5

0.251 0.592 −0.827 0.138 −0.251

Page 48: Den generelle lineære modelweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap10.pdf · 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret

396 Kapitel 10. Den generelle lineære model

S 10.7(a). Udled maksimaliseringsestimatoren α for α = (α1, α2, α3). Udregnα for de konkrete data.

S 10.7(b). Udled en central estimator σ2 for σ2. Udregn σ2 for de konkretedata.

S 10.7(c). Angiv den simultane fordeling af α og σ2.

S 10.7(d). Angiv et 95% konfidensområde for α1, for α2, for α3 og for σ2.

Betragt hypotesen H : α2 = −α3.

S 10.7(e). Parameteriser modellen under hypotesen. Estimer parametrene.

S 10.7(f). Udfør et test af H, f.eks. ved hjælp af en F-fordelt teststørrelse. Kantestet udføres uden egentlig estimation af parametre?

O 10.8. Lad X1, . . . , Xn være reelle stokastiske variable. Vi antager at de er uaf-hængige, normalfordelte med samme ukendte varians σ2 og med middelværdier

EXi = β1 + β2(i − 1) for i = 1, . . . , n.

S 10.8(a). Gør rede for at dette er en lineær normal model.

S 10.8(b). Udled maksimaliseringsestimatoren for β = (β1, β2) og find estima-torens fordeling.

S 10.8(c). Udled en central estimator for σ2, og angiv estimatorens fordeling.

S 10.8(d). Opstil et test for hypotesen H : β2 = 0.

S 10.8(e). Opstil et test for hypotesen H : β2 = 1.(Vink: erstat de oprindelige observationer med Yi = Xi − (i − 1).)