58
Kapitel 8 Test af statistiske hypoteser De inferensmæssige procedurer, vi hidtil har beskæftiget os med, har haft til formål at lokalisere den sande parameter så godt som muligt, og at beskrive hvor mange parametre man kunne forestille sig beskrev de gjorte målinger. Nogle gange er man imidlertid interesseret i et mere specifikt forsøg på afgrænsning af de mulige parametre. Situationen kan være den, at man på forhånd har udvalgt sig visse parametre, og den inferensmæssige hovedvægt kan ligge på om en eller flere af de udvalgte parametre beskriver målingerne. I så fald taler man om statistiske hypoteser, som man forholder sig til ved hjælp at statistiske test. Definition 8.1 Lad P være en statistisk model på (X, E). En statistisk hypotese er en delmængde P 0 ⊂P. Denne formelle matematiske definition rammer i et vist omfang ved siden af. Det egentlige indhold i den statistiske hypotese er den underforståede påstand: at det sande sandsynlighedsmål bag eksperimentet ligger i delmængden P 0 . Det inferens- mæssige problem er, hvorvidt man på baggrund af eksperimentet tror på denne på- stand eller ej. Hvis man tror på den, siger man at hypotesen accepteres, hvis man ikke tror på den, siger man at hypotesen forkastes. Hvis man accepterer hypotesen, vil man typisk arbejde videre med den lille statistiske model P 0 , og se bort fra at man oprindeligt havde flere sandsynlighedsmål med i modellen. 243

Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

Kapitel 8

Test af statistiske hypoteser

De inferensmæssige procedurer, vi hidtil har beskæftiget os med, har haft til formålat lokalisere den sande parameter så godt som muligt, og at beskrive hvor mangeparametre man kunne forestille sig beskrev de gjorte målinger.

Nogle gange er man imidlertid interesseret i et mere specifikt forsøg på afgrænsningaf de mulige parametre. Situationen kan være den, at man på forhånd har udvalgt sigvisse parametre, og den inferensmæssige hovedvægt kan ligge på om en eller flereaf de udvalgte parametre beskriver målingerne. I så fald taler man om statistiskehypoteser, som man forholder sig til ved hjælp at statistiske test.

Definition 8.1 Lad P være en statistisk model på (X,E). En statistisk hypotese eren delmængde P0 ⊂ P.

Denne formelle matematiske definition rammer i et vist omfang ved siden af. Detegentlige indhold i den statistiske hypotese er den underforståede påstand: at detsande sandsynlighedsmål bag eksperimentet ligger i delmængden P0. Det inferens-mæssige problem er, hvorvidt man på baggrund af eksperimentet tror på denne på-stand eller ej. Hvis man tror på den, siger man at hypotesen accepteres, hvis manikke tror på den, siger man at hypotesen forkastes. Hvis man accepterer hypotesen,vil man typisk arbejde videre med den lille statistiske model P0, og se bort fra at manoprindeligt havde flere sandsynlighedsmål med i modellen.

243

Page 2: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

244 Kapitel 8. Test af statistiske hypoteser

Hvis modellen er parametriseret (νθ)θ∈Θ, så vil hypotesen repræsenteres af en del-mængde Θ0 ⊂ Θ. Vi skriver ofte

H : θ ∈ Θ0, (8.1)

når vi formelt vil introducere en hypotese, og vi taler derefter om hypotesen H. Kom-plementærmængden Θ \ Θ0 kaldes da alternativet (til H). Hvis hypotesen består afét punkt, Θ0 = {θ0}, taler man om en simpel hypotese - hypoteser med mere endén parameter kaldes sammensatte. I praksis er alle hypoteser, der fortjener at blivebehandlet seriøst, naturligvis sammensatte.

Definition 8.2 Et test af en hypotese H er en opdeling af repræsentationsrummet Xi to dele: en acceptmængdeA ⊂ X af mulige udfald, der i vores opfattelse bekræfterhypotesen. Og en kritisk mængde K = X \ A af mulige udfald, der opfattes somuforenelige med hypotesen. Hvis vi observerer et punkt i A accepterer vi hypotesen,hvis vi observerer et punkt i K forkaster vi den.

Et test af en simpel hypoteseH : θ = θ0 ,

er på sin vis blot en konkordansundersøgelse af νθ0 . Men denne konkordansundersø-gelse er farvet af, at vi går ud fra at mindst ét af sandsynlighedsmålene (νθ)θ∈Θ faktisker i konkordans med data. I kapitel 1 var en sådan større model ikke inde i billedet. El-ler anderledes formuleret: denne gang har vi et eksplicit alternativ. Sammenhængenmed konkordansundersøgelser er mindre gennemsigtig for sammensatte hypoteser.Det er dog intuitivt klart at der er en sammenhæng, og vi vil belyse sammenhængenom et øjeblik.

8.1 Hvad er en hypotese?

Den formelle definition af en hypotese indikerer at alle delmængder af Θ kan fungeresom hypoteser. I særdeleshed antyder den en symmetri mellem en hypotese og densalternativ, der skifter rolle blot ved en navneombytning. Men denne symmetri er mis-visende: hypotesen og dens alternativ bliver behandlet vidt forskelligt, og der er retsnævre grænser for hvilke delmængder af Θ man vil kalde en statistisk hypotese.

Page 3: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.1. Hvad er en hypotese? 245

I almindeligt videnskabeligt arbejde spiller begrebet arbejdshypotese en vigtig rolle.En arbejdshypotese er en påstand om verdens indretning, en påstand som giver ensammenhæng mellem ellers adskilte begreber. Sådanne hypoteser kan være ganskevidtløftige, og de vinder kun gehør hvis de er i stand til at forklare eksperimentellekendsgerninger på en måde som ingen konkurrerende arbejdshypotese kan.

Statistikerens brug af ordet hypotese går i stik modsat retning. Statistikerens hypo-teser siger altid at verden er simpelt indrettet - i den forstand at den kan beskrivesmed få parametre. Vi vil tro på at verden er simpel, medmindre det viser sig at være imodstrid med eksperimentelle kendsgerninger. Det kaldes gerne Occams ragekniv:brug aldrig en kompliceret forklaring, hvis en simpel forklaring er tilstrækkelig.

I det praktiske samarbejde mellem statistikere og andre videnskabsmænd, volderdenne terminologiforskel ofte kvaler. En biolog med en forestilling om at en viseksposition har betydning for udvikling af en bestemt kræftform, vil formulere ar-bejdeshypotesen: “Der er en sammenhæng mellem eksposition og kræft”. Han måopleve statistikeren reformulere hans hypotese til ukendelighed, for den statistiskehypotese vil lyde: “Der er ingen sammenhæng mellem eksposition og kræft”. Biolo-gens hypotese gør ham klogere på verden (hvis hypotesen er sand, naturligvis), mensstatistikerens hypotese hævder at verden er simpel at beskrive - i den forstand at derikke findes en svært beskrivelig sammenhæng at bekymre sig om.

Når biologen og statistikeren sammen analyserer eksperimentets data, kan de megetvel drage stik modsatte konklusioner! Lad os antage at data viser en svag stigning ikræftincidensen med stigende eksposition. Biologen vil da opfatte at data understøt-ter hans oprindelige arbejdshypotese. Men statistikeren hæfter sig ofte mere ved atevidensen er svag, at stigningen ikke er større end hvad der kan skyldes ren og skærtilfældighed. Og han konkluderer derfor at data er i overensstemmelse med den stati-stiske hypotese: han accepterer sin hypotese, som det hedder. Og i overensstemmelsemed Occams ragekniv, nægter han at tage biologens arbejdshypotese for gode varer.Det er ikke helt det samme som at sige at biologens arbejdshypotese er forkert: denbesked biologen får, er at hans eksperiment ikke er godt nok til at overbevise en pro-fessionel skeptiker. Hvis han virkelig tror på sin arbejdshypotese, må han designe etnyt og større og bedre eksperiment, der kan overbevise alle - selv statistikeren.

Mange offentlige kontroverser om brug af statistik har denne karakter: man er uenigeom hvorvidt man søger støtte til mere eller mindre vilde hypoteser, eller om man insi-sterer på så vidt som overhovedet muligt at bruge simple beskrivelser. Statistikere er- i modsætning til mange andre videnskabsfolk - et konservativt og kritisk folkefærd,der påtager sig en neddæmpende rolle.

Page 4: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

246 Kapitel 8. Test af statistiske hypoteser

Karakteristisk for arbejdshypoteser er at de ofte svæver ret frit i luften, uden at væreforankrede i en model. Statistiske hypoteser er derimod per definition formulerede in-denfor en model. Selve modelbygningen foregår således ofte i en mellemfase: efter atarbejdshypotesen er fremsat, men før den deraf afledte statistiske hypotese er formu-leret. Faktisk er det ofte en meget vigtig motivation for valg af model, at den tilladeren præcis formulering af en hypotese, relateret til den oprindelige arbejdshypotese.

I parametriske sammenhænge, hvor Θ ⊂ Rk, er der to typer af hypoteser, der ofteforekommer. Hvis θ = (θ1, . . . , θk) er den fulde parameter, betragter man en hypoteseaf formen

H : θ1 = · · · = θi ,

eller

H : θ1 = · · · = θi = 0 ,

for et passende i mellem 1 og k. Mere abstrakt foretrækker man som regel at formu-lere sine hypoteser ved hjælp af en parameterfunktion τ : Θ → Rm, hvor hypotesener af formen

H : τ(θ) = ψ0 ,

for et passende ψ0 ∈ Rm. Hypotesens indhold er altså at den sande parameter be-finder sig i originalmængden τ−1({ψ0}). Fordelen ved denne måde at specificere endelmængde af Θ på, er at man indbygger en kvantitativ måde at tale om afvigelserfra hypotesen: jo længere den sande τ-værdi ligger fra ψ0, jo mere forkert er hypote-sen.

Definition 8.3 Lad (νθ)θ∈Θ være en parametriseret statistisk model på (X,E), og an-tag at parametermængden Θ er en åben delmængde af Rk. Hvis τ : Rk → Rk−m er ensurjektiv, lineær afbildning, siger vi at

H : τ(θ) = 0 ,

er en lineær hypotese af dimension m, mens

H : τ(θ) = ψ0 ,

for et vilkårligt ψ0 ∈ Rk−m er en affin hypotese af dimension m.

Page 5: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.1. Hvad er en hypotese? 247

En lineær hypotese er specielt en affin hypotese. Skulle man have behov derfor, kanen affin hypotese altid reformuleres som en affin hypotese ved en affin omparametri-sering af den oprindelige model.

Begge begreber er afhængige af den konkrete parametrisering. Skifter man parame-trisering, vil de lineære og affine hypoteser i almindelighed høre op med at værelineære og affine: reparametriseringen vil som regel gøre hypoteserne “krumme” istørre eller mindre grad.

Definition 8.4 Lad (νθ)θ∈Θ være en parametriseret statistisk model på (X,E), og an-tag at parametermængden Θ er en åben delmængde af Rk. En glat hypotese af di-mension m har formen

H : τ(θ) = ψ0 ,

for et ψ0 ∈ Rk−m, hvor τ : Rk → Rk−m er en C2-afbildning, og hvor alle punkter ihypotesen er regulære for τ, altså at

Dτ(θ) har rang k − m hvis τ(θ) = ψ0 .

Affine og lineære hypoteser er oplagt glatte. Det er sjældent at man i praksis ser påhypoteser, der ikke er affine, men klassen af glatte hypoteser har den teoretiske fordelat den ikke afhænger (særlig meget) af den konkrete parametrisering: Omparame-triserer man sin model med en C2-diffeomorfi, vil glatte hypoteser vedblive at væreglatte.

Eksempel 8.5 Hvis vi ser på afbildningen τ : R2 → R givet ved

τ(x, y) = x2 + y2 ,

konstaterer vi at billedmængden er [0,∞). Der er to slags niveaukurver: for r > 0er τ−1({r}) en cirkel med radius r - prototypen på en etdimensional delmængde afplanen. Derimod er τ−1({0}) en etpunktsmængde, bestående af selve nulpunktet. Ogingen vil vist finde på at påstå at en etpunktsmængde i planen har dimension 1 - hvisden har en dimension, må det være 0.

Page 6: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

248 Kapitel 8. Test af statistiske hypoteser

Den kvalitative forskel i originalmængdernes karakter reflekteres i den første afledteaf τ:

Dτ(x, y) =(

2x ; 2y)

.

Alle andre steder end i nulpunktet har Dτ rang 1 - men i nulpunktet har den rang 0.◦

I ikke-parametriske sammenhænge, hvor Θ er uendeligdimensional, kan hypoteserneforekomme mere indviklede. Hvis modellen foreskriver at X1, . . . , Xn er uafhængigereelle variable, men potentielt med forskellige fordelinger, så kan hypotesen være atde alle har samme fordeling - uden at man specificerer hvilken fordeling der er taleom. En finere hypotese kan være at denne fælles fordeling er symmetrisk omkringmedianen. Og en endnu finere hypotese kan være at den fælles fordeling er symme-trisk om 0. På trods af at disse hypotesers på overfladen kan virke mere tekniske,falder ikke-parametriske test ofte ganske naturligt ud. Og på mange måder frem-træder testteori i sin reneste og simpleste form i ikke-parametriske modeller. Vi vildiskuterer ikke-parametriske test i afsnit 8.7 og i en række opgaver.

8.2 Styrkefunktionen af et test

Lad (νθ)θ∈Θ være en parametriseret statistisk model på (X,E). Hvis man har opstilleten statistisk hypotese

H : θ ∈ Θ0,

der altså er en påstand om en modelforenkling i forhold til den oprindelige model, såvil man ønske at sammenholde den med data, for at se om den simplere beskrivelsedækker virkeligheden. Det foregår ved hjælp af et test.

Når man tester en hypotese, kan man komme til at begå to typer fejl: man kan kommetil at afvise hypotesen selv om den er sand. Det kaldes en fejl af type I, og mulighedenfor type I fejl betragtes i de fleste sammenhænge som et meget alvorligt problem. Vihar allerede, i forbindelse med konkordansundersøgelser, beskæftiget os en del meddenne type fejl, og vi ved at man ikke kan slippe uden om problemet, kun søge atminimere det. Den anden type fejl man kan begå, er hvis man accepterer hypotesenselv om den er falsk. Dette kaldes en fejl af type II. De to typer fejl er knyttet sammenpå en uheldig måde, sådan at hvis man gør meget ud af at gardere sig mod den enetype fejl, så åbner man op for mulighederne for den anden type fejl.

Page 7: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.2. Styrkefunktionen af et test 249

Når type I fejl opfattes som de værste, er det på grund af statistiske hypotesers kon-servative karakter: en accepteret hypotese vil lede til at man opretholder status quo,mens en forkastet hypotese ofte vil lede til at man ændrer arbejdsgang. I forbindelsemed afprøvning af en ny type medicin, vil man sammenligne effekten af den nye me-dicin med den medicin der allerede er i brug. Hypotesen vil da være at de to typermedicin virker lige godt. Hvis denne hypotese accepteres, så vil konklusionen være“business as usual”: man vil fortsætte med at give det gamle medikament i alle prak-tiske sammenhænge. Hvis hypotesen forkastes, vil eksperimentet derimod ofte føretil en anbefaling af at man går væk fra det gamle medikament, og erstatter det af detnye.

En type I fejl i dette eksempel, betyder at man anbefaler en udskiftning af medi-cintypen, skønt udskiftningen i virkeligheden ingen effekt har. “Lægevidenskabens”historie er fuld af påståelighed og kvaksalveri (det er først i moderne tid at lægerneer begyndt at kurere flere patienter end de slår ihjel), og moderne medicin er megetfokuseret på at undgå kvaksalveri - slagordet er evidensbaseret behandling, og detskal i høj grad forstås som et kampråb mod type I fejl.

En type II fejl betyder at man holder fast i den gamle medicin, skønt den nye er mereeffektiv. Det er selvfølgelig uheldigt, især hvis effekten er markant, men det betragtessom mindre uetisk end at ryge ud ad tangenten med en forkert behandling. Og fejlenbliver forhåbentlig opdage siden hen. Hvis en fejlagtig behandling først er indført,kan det tage århundreder at udrydde den igen.

Generelt ønsker man derfor at kontrollere niveauet for type I fejl. Samtidig ønskerman naturligvis så få type II fejl som muligt, men dette ønske har lavere prioritet.Hvis vi har afgrænset en acceptmængde A ⊂ X, og en dertil hørende kritisk mængdeK = X \ A for hypotesen H, så vil niveauet for begge typer fejl beskrives af testetsstyrkefunktion γ : Θ→ [0, 1], givet ved

γ(θ) = Pθ(X ∈ K ).

Styrkefunktionen er altså sandsynligheden for at komme til at afvise hypotesen, be-tragtet som funktion af parameteren θ. Type I fejlene beskrives af γ-værdier over Θ0

- disse sandsynligheder bør være så lave som muligt. Type II fejlene beskrives afγ-værdier over Θ \ Θ0, disse bør være så høje som muligt.

Vi definerer størrelsen af testet som

supθ∈Θ0

γK(θ).

Page 8: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

250 Kapitel 8. Test af statistiske hypoteser

Som regel kender man ikke størrelsen præcist, men man ved måske at

supθ∈Θ0

γK(θ) ≤ α (8.2)

for et passende α ∈ (0, 1). I så fald taler man om test på niveau α. Hvis testets faktiskestørrelse er væsentligt mindre end det nominelle niveau, siges testet at være konser-vativt. Det ville være fint nok, hvis det ikke var fordi det øger muligheden for at begåfejl af type II. Et godt test på niveau α opfylder at γK(θ) er stor for θ ∈ Θ \ Θ0 - mantaler da om at testet har stor styrke (under alternativet). Hvis testet er konservativt,vil det have ringe styrke, i hvert fald overfor alternativer tæt på hypotesen, se f.eks.figur 8.1.

En sammenligning af to test på niveau α foregår ved at sammenligne styrkefunktio-nerne på Θ \ Θ0. Desværre er det næsten altid sådan at det ene test har størst styrke ivisse områder af alternativet, mens det andet test har størst styrke i andre. Der findesikke noget enkelt test, der er bedre end alle andre. Hvilket test man vil foretrække,afhænger derfor helt af hvilke afvigelser fra hypotesen man er mest på vagt overfor.Og der er plads til megen kreativitet, når der skal konstrueres test med stor styrkeoverfor helt specifikke alternativer.

Eksempel 8.6 Lad X1, . . . , Xn være uafhængige og identisk fordelte stokastiske va-riable med

Pp(Xi = 1) = p, Pp(Xi = 0) = 1 − p.

Vi ønsker at teste den simple hypotese

H : p =12.

på et 5% niveau. Det er naturligt at basere argumentionen på summen

S n = X1 + · · · + Xn ,

der er binomialfordelt med længde n og successandsynlighed p. Under hypotesen erS således binomialfordelt med længde n og successandsynlighed 1/2.

Eftersom hypotesen er simpel, er et test ækvivalent med et konkordansområde. Forden symmetriske binomialfordeling er et naturligt konkordansområde

An = {cn, . . . , n − cn}

Page 9: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.2. Styrkefunktionen af et test 251

med tilhørende kritisk område

Kn = {0, 1, . . . , cn − 1} ∪ {n − cn + 1, . . . , n − 1, n}. (8.3)

Her er cn bestemt så stor som muligt, under den betingelse at

Pp(S n ∈ Kn) ≤ 0.05 hvis p =12.

Det foregår helt som i eksempel 1.14. Man finder f.eks. at c10 = 2, at c100 = 40 og atc1000 = 469.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

PSfrag replacements

p

P(S

n∈K

n)

Figur 8.1: Styrkefunktion for test af symmetri i den simple møntkastmodel, for n = 10 (fuldtoptrukket linie), n = 100 (stiplet linie) og n = 1000 (prikket linie). Testet er baseret på detkritiske områdeKn fra (8.3). Den vandrette linie svarer til testets nominelle styrke på 5%.

Styrkefunktionen er tegnet op i figur 8.1 for forskellige værdier af n. Vi ser at kvalite-ten af testet forbedres dramatisk med stigende n. For n = 10 betyder diskretiserings-fænomener at testets faktiske størrelse er klart under de nominelle 5%. Endvidere erder en ganske betydelig risiko for type II fejl: selv hvis det sande p er så markantuden for hypotesen som p = 0.2, er der over 50% sandsynlighed for observere enS 10-værdi indenfor acceptområdet, og dermed er der stor sandsynlighed for at mankommer til at acceptere hypotesen. For n = 1000 er diskretiseringsfænomenerne ikkelængere synlige, så testets størrelse stemmer fint overens med de nominelle 5%. Ogman skal ikke ret langt væk fra hypotesen, før der er stor sikkerhed for at den forka-stes. Læseren bør i øvrigt prøve at forestille sig hvordan styrkefunktionen ser ud for

Page 10: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

252 Kapitel 8. Test af statistiske hypoteser

n = 66.170 - det var dette test vi udførte i eksempel 1.1, skønt vi ikke formulerededet på den måde, og skønt vi da ikke havde eksplicitte alternativer.

I eksempel 8.6 faldt det relativt let at afgrænse et fornuftigt kritisk område. Det erfordi eksemplet er kunstigt let: parameteren er étdimensional og hypotesen er simpel.Realistiske eksempler involverer altid flerdimensionale parametre og sammensattehypoteser. Som vi skal se, vil blot en lille modifikation af eksempel 8.6 give vanske-ligheder i en helt anden klasse.

Eksempel 8.7 Mange mennesker arbejder lang tid hver dag ved en computerskærm,og det er et almindeligt problem at refleksioner fra skærmen opleves som en stor gene.Moderne skærme kan i et vist omfang justeres, sådan at brugeren har mulighed for atbeskytte sig selv mod refleksionerne. For at undersøge om de nye skærme vitterligthar den ønskede effekt, har man foranstaltet et eksperiment: 130 mennesker, hvorafhalvdelen arbejdede ved ældre, ikke-justerbare skærme, mens den anden halvdel ar-bejdede ved justerbare skærme, blev spurgt om de havde gener af skærmrefleksioner.Svarene er opsummeret i tabel 8.1.

Ingen gener Gener

Gammel skærm 15 50

Justerbar skærm 27 38

Tabel 8.1: Data fra undersøgelse af gener fra skærmrefleksioner.

En model der tillader en præcis formulering af den underliggende problemstillinger møntkastmodellen med to mønter. Lad X1, . . . , X65,Y1, . . . ,Y65 være uafhængigevariable, og lad

P(Xi = 1) = p1, P(Xi = 0) = 1 − p1,

P(Yi = 1) = p2, P(Yi = 0) = 1 − p2.(8.4)

Udfaldet ’1’ symboliserer at forsøgspersonen oplever gener ved skærmrefleksioner,udfaldet ’0’ symboliserer at vedkommende ikke oplever ubehag. Vi lader endvidereX’erne svare til personer med gamle skærme, mens Y’erne svarer til personer medjusterbare skærme. Når vi får brug for at referere til sandsynlighedsmålet bestemtved (8.4), skriver vi Pp1,p2 .

I denne ramme kan den underliggende forestilling om at de justerbare skærme mind-sker generne ved refleksion, udtrykkes i påstanden p1 > p2. Den statistiske tilgang til

Page 11: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.2. Styrkefunktionen af et test 253

at undersøge denne påstand, er at formulere hypotesen

H : p1 = p2.

Det er en sammensat hypotese, for vi siger ikke noget om hvad den fælles værdi afp1 og p2 skal være. Der er et frit etdimensionalt spillerum inden i det oprindeligetodimensionale parameterområde.

Hvis hypotesen H accepteres, så fortolker vi det på den måde at forsøget ikke under-støtter forestillingen om at de justerbare skærme gør en forskel. Hvis man er mereforsigtig, formulerer man det på den måde at en eventuel forskel må være lille, for vikan ikke få øje på den.

Hvis vi derimod forkaster hypotesen, siger vi at der er signifikant forskel på p1 ogp2, og vi kan bekræfte forestillingen bag forsøget. Formentlig, i hvert fald, for denblotte forkastelse af H tillader jo i princippet at p1 < p2 ligeså vel som at p1 > p2.Men fortolkningen af en forkastet hypotese er i regelen ret ligetil.

Eksperimentet har repræsentationsrum

X = {0, 1}65 × {0, 1}65.

Vi vælger at basere testet af H på størrelsen

|X• − Y•| =∣

65∑

i=1

Xi −65∑

i=1

Yi

.

Modellen foreskriver at både X• og Y• er binomialfordelte med længde 65, og poten-tielt med forskellige successandsynligheder. Men hvis de to successandsynligheder erens, vil |X•−Y•| formentlig være lille. Vi fortolker derfor små værdier af |X•−Y•| somværende i overensstemmelse med hypotesen, mens store værdier er kritiske. Derforkonstruerer vi et acceptområde af formen

Ac = {(x, y) | |x• − y•| ≤ c}, (8.5)

hvor vi har indført betegnelserne

x• =65∑

i=1

xi, y• =65∑

i=1

yi.

Page 12: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

254 Kapitel 8. Test af statistiske hypoteser

0 10 20 30 40 50 60

010

2030

4050

60

PSfrag replacements

x•

y •

Figur 8.2: Acceptområdet Ac fra (8.5) med c = 10, tegnet op i (x•, y•)-planen. Accept-området er området mellem de to stiplede linier. De faktiske observationer fra tabel 8.1 errepræsenteret som en firkant.

Hvordan skal vi vælge afgrænsningen? Det fundamentale er betingelse (8.2), lad ossige med α = 0.05. Den mest oplagte fremgangsmåde er simpelthen at undersøgefunktionen

p 7→ Pp,p(|X• − Y•| ≤ c)

for forskellige værdier af c, sådan som det er gjort på figur 8.3.

Man finder ved denne undersøgelse at

Pp,p(|X• − Y•| ≤ 11) ≥ 0.957 for alle p ∈ (0, 1),

og at dette c er det mindste med den ønskede egenskab. Det betyder at vi vil opfatteen |X• − Y•|-værdi på 12 eller derover som kritiske for hypotesen H. Bemærk detubehagelige fænomen at sandsynligheden for at gøre en observation i acceptområdetvarierer under hypotesen. Hvis det fælles p er 0.5, vil sandsynligheden for at gøreen observation i A være tæt på 95%. Men hvis det fælles p er meget lille (ellermeget stort), vil den tilsvarende sandsynlighed være stort set 100%. Testet bliverkonservativt, og det bliver svært at se at p1 , p2, hvis begge sandsynligheder er små(eller store). Bemærk også at |X• − Y•|-værdien for data i tabel 8.1 lige præcis er 12,så på baggrund af de gjorte observationer kan vi forkaste H.

Page 13: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.2. Styrkefunktionen af et test 255

0.0 0.2 0.4 0.6 0.8 1.00.50

0.75

1.00

PSfrag replacements

p

P(|X•−

Y•|≤

c)

0.0 0.2 0.4 0.6 0.8 1.00.50

0.75

1.00

PSfrag replacements

pP

(|X•−

Y•|≤

c)

Figur 8.3: Sandsynligheden for under hypotesen H at gøre en observation i acceptområdetAc som funktion af den fælles successandsynlighed p. Den vandrette streg repræsenterer ensandsynlighed på 0.95. Til venstre er c = 5, til højre er c = 10. Vi ser at der er behov for et cen smule større end 10 hvis (8.2) skal opfyldes. Faktisk er c = 11 stor nok.

En mere overslagsagtig måde at finde det kritiske område på, baserer sig på normal-fordelingsapproksimationer. Hvis den fælles sandsynlighed er p, så er

X• ≈ N(65 p, 65 p(1 − p))

og tilsvarende for Y•. Da X• og Y• er uafhængige, er

X• − Y• ≈ N(0, 130 p(1 − p)) .

Denne approksimation leder til en kritisk værdi på 1.96√

130 p(1 − p). Dette maksi-meres for p = 1/2, hvor det er 11.17. Overslagsregningerne leder os derfor også tilat bruge 12 som den mindste kritiske |X• − Y•|-observation.

Lad os undersøge styrken af testet af H, baseret på det kritiske område

K11 = {(x, y) | |x• − y•| > 11}.

Vi interesserer os altså for styrkefunktionen

γ(p1, p2) = Pp1,p2(|X• − Y•| > 11) . (8.6)

Denne styrkefunktionen er optegnet i figur 8.4. Hvis der indgik flere subjekter i un-dersøgelsen, ville man naturligvis få en skarpere aftegnet dal.

Bemærk hvordan dalen vider sig ud i diagonalens ender, og faktisk synker fra ni-veauet 0.05 til niveauet 0. Hvis p1 , p2, men begge sandsynligheder er tæt på nul

Page 14: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

256 Kapitel 8. Test af statistiske hypoteser

0.2

0.4

0.60.8

0.2

0.4

0.6

0.8

0.00.2

0.40.6

0.8

1.0

PSfrag replacements p1

p2

γ

Figur 8.4: Styrkefunktionen (8.6) for et test af hypotesen H ved hjælp af det kritiske om-råde K11.

(eller en), så bliver det svært at afsløre at H er falsk. Denne effekt opstår fordi vimåler overensstemmelsen mellem observation og hypotese ved hjælp af størrelsen|X• − Y•|. I praksis vil man bruge andre målestokke uden en tilsvarende defekt.

8.3 Teststørrelser

I praksis vil man ofte foretage afgrænsningen mellem acceptområde og kritisk om-råde ved hjælp af en teststørrelse q : X → R hvor man er i stand til at fortolkeq-værdien. Typisk forsøger man at konstruere teststørrelsen sådan at q(x) er lille,hvis x er i god overensstemmelse med hypotesen, og sådan at q(x) er stor, hvis x er idårlig overensstemmelse med hypotesen. Men teststørrelser med andre fortolkningerforekommer også.

Hvis vi har konstrueret en teststørrelse q med standardfortolkningen om at “småt ergodt” for hypotesen, så leder det naturligt til acceptområdet

A = {x ∈ X | q(x) < z} ,

Page 15: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.3. Teststørrelser 257

for et passende z, der er rettet ind, så testet får det ønskede niveau. Vi skal altsåbestemme z så

Pθ(q(X) < z) ≥ 1 − α for alle θ ∈ Θ0 .

Bemærk at kun parametrene under hypotesen indgår, når man skal afgrænse stortfra småt.

Vi har allerede set eksempler på hvordan man bruger teststørrelser. I eksempel 8.6forekom det naturligt at erstatte sekvensen af 0’ere og 1’ere (X1, . . . , Xn) af summenS = X1 + · · · + Xn, fordi afvigelser af S fra den forventede værdi n/2 kunne for-stås som afvigelser fra hypotesen om at successandsynligheden er 1/2. Tilsvarende,i eksempel 8.7 forekom det om ikke naturligt, så dog nogenlunde meningsfuldt, aterstatte de to sekvenser (X1, . . . , Xn) og (Y1, . . . ,Yn) med størrelsen |X• − Y•|, fordiafvigelser af denne størrelse fra nul, kunne forstås som afvigelse fra hypotesen om atde to successandsynligheder er ens.

Muligheden for at fortolke den anvendte teststørrelse er essentiel. Derfor er det sværtat give generelle retningslinier for hvordan man skal vælge teststørrelser - det afhæn-ger af det konkrete problem. Vi skal i afsnit 8.5 diskutere en generel procedure til atfinde teststørrelser. Men i konkrete problemer kan ad hoc teststørrelser ofte fungerebedre (dvs. at testet får større styrke mod de alternativer man er bange for) end deteststørrelser, der er udledt efter generelle principper.

En virkeligt vellykket teststørrelse q er niveaukonstant. Det vil sige at fordelingenaf q(X) under Pθ ikke afhænger af det konkrete θ, så længe θ blot ligger i Θ0. I såfald kommer testet ud på at foretage en konkordansundersøgelse af den gjorte q-værdi mod q(X)-fordelingen under hypotesen. Det kan munde ud i en accept/forkastkonklusion, eller det kan munde ud i en p-værdi, som i afsnit 1.6.

Det er på den anden side vigtigt at fordelingen af q(X) under Pθ faktisk varierer medθ: Når vi ser på parametre i alternativet Θ\Θ0 skulle vi gerne få helt andre fordelingerfrem, ellers vil testet have forsvindende styrke, og kan ikke bruges til noget.

Mange i praksis anvendte teststørrelser er strengt taget ikke niveaukonstante. Mende er approksimativt niveaukonstante. I et typisk tilfælde er q(X) approksimativt χ2-fordelt med k frihedsgrader under Pθ for alle θ ∈ Θ0. Det betyder at fordelingernenæppe er ens, og der er sikkert ingen af dem der faktisk er χ2-fordelte. Men man kanmed fornuft udføre en approksimativ konkordansundersøgelse, hvis man er opmærk-som på de forskelle mellem nominelle og faktiske niveauer, det introducerer.

Page 16: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

258 Kapitel 8. Test af statistiske hypoteser

To teststørrelser q1, q2 : X → R (med tilhørende fortolkninger) kaldes ækvivalentehvis de for alle niveauer α ∈ (0, 1) fører til samme acceptområde Aα ⊂ X. Hvis de toteststørrelser er ækvivalente, siger man nogle gange at q1-testet kan udføres som etq2-test (og omvendt).

Hvis q : X → (0,∞) er en teststørrelse med fortolkningen at små q-værdierer i overensstemmelse med hypotesen, mens store q-værdier ikke er det, og hvisφ : (0,∞) → (0,∞) er en voksende, bijektiv afbildning, så er q og φ ◦ q ækviva-lente teststørrelser. Hvis ψ : (0,∞) → (0,∞) er en aftagende, bijektiv afbildning, såer q og ψ ◦ q også ækvivalente, blot man husker at ψ ◦ q har den modsatte fortolkningaf q: små værdier er i dårlig overensstemmelse med hypotesen, mens store værdier eri fin overensstemmelse.

Eksempel 8.8 Betragt den simple normalfordelingsmodel, hvor X1, . . . , Xn er uaf-hængige reelle stokastiske variable, der hver især er N(ξ, σ2)-fordelt med ukendtmiddelværdi og varians. Vi ønsker at teste hypotesen

H : ξ = 0. (8.7)

Det tekniske udgangspunkt for vores undersøgelse er de to størrelser

X• =1n

n∑

i=1

Xi og SSD =n

i=1

(Xi − X•)2,

som er uafhængige, henholdsvis N(ξ, σ2/n)-fordelt og χ2-fordelt med n − 1 friheds-grader og skalaparameter σ2.

Hvis hypotesen er sand, vil vi forvente at X• er omtrent nul. Men hvor stor en afvi-gelse fra nul, der er acceptabel, afhænger jo i høj grad af hvor stor σ2 er. Vi kan fåinformation om σ2 ud fra SSD-størrelsen, og derfor skal vi vurdere størrelsen af X•i forhold til SSD. Detaljerne i sammenvejningen kan foregå på forskellige måder, ogdet leder frem til tre klassiske teststørrelser.

Den ældste teststørrelse er T -teststørrelsen

T =

√n X•√

SSD/(n − 1),

hvor værdier langt fra nul (både positive og negative) opfattes som kritiske for hypo-tesen. Normeringen af T -størrelsen sikrer at hvis hypotesen er sand, så følger T en

Page 17: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.3. Teststørrelser 259

T -fordeling med n − 1 frihedsgrader, uanset hvad det sande σ2 er, så teststørrelsener niveaukonstant. Student indførte i 1907 T -fordelingen, netop for at studere denneteststørrelse, og han gjorde mere: han tabellerede fordelingen. Dermed gjorde han detpraktisk muligt at udføre T -testet - indtil da havde man simpelthen ganske vist brugtT -størrelsen, men man havde lukket øjnene og ladet som om den var standard nor-malfordelt, en handlemåde der giver problemer med for mange type I fejl i forhold tildet nominelle niveau α, især hvis n er lille. Acceptområdet for testet af H, baseret påT , på niveau α er givet ved at

−zα < T < zα,

hvor zα er 1 − α2 -fraktilen i t-fordelingen med n − 1 frihedsgrader. Dette område

kommer til verden ud fra et centralt konkordansområde for t-fordelingen.

Vi kan indføre den såkaldte ikke-centrale t-fordeling med k frihedsgrader og ikke-centralitetsparameter η som fordelingen af

U + η√

V, (8.8)

hvor U og V er uafhængige, reelle variable, sådan at U er N(0, 1)-fordelt, mens V erχ2-fordelt med k frihedsgrader og skalaparameter 1/k. Hvis η = 0, er (8.8) den sæd-vanlige operative procedure til at fremstille en variabel med en “klassisk” t-fordeling.Man kan ikke udtrykke tætheden for ikke-centrale t-fordelinger i termer af elemen-tære funktioner, men numerisk evaluering er mulig, og disse fordelinger er indbyggeti en række computerpakker.

Hvis man skriver teststørrelsen T op på formen

T =

nσ2 (X• − ξ) +

nσ2 ξ

SSD/σ2(n − 1),

ser man at T (såvel indenfor som udenfor hypotesen) følger en ikke-central t-fordeling med n − 1 frihedsgrader og ikke-centralitetsparameter

η =

n

σ2ξ .

Man kan derfor finde styrkefunktionen for testet baseret på T , ved at udregne

(ξ, σ2) 7→ P

−zα <U +

nσ2 ξ

√V

< zα

, (8.9)

Page 18: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

260 Kapitel 8. Test af statistiske hypoteser

hvor U og V er uafhængige, reelle variable, sådan at U er N(0, 1)-fordelt, mens V erχ2-fordelt med n−1 frihedsgrader og skalaparameter 1/(n−1). Det er teknisk muligtat finde denne styrkefunktion, hvis man har adgang til fordelingsfunktionerne for deikke-centrale t-fordelinger, se figur 8.5.

−3

−2

−10

12

3

1

2

3

4

0.20.4

0.6

0.8

1.0

PSfrag replacements ξ

σ2

γ

Figur 8.5: Styrkefunktionen (8.9) for et test af hypotesen (8.7) ved et T -test, i tilfældet medn = 10. Jo større n, jo snævrere ved dalen blive. Men den vil altid udvide sig, når man går iretning af større σ2.

En lidt anden måde at teste hypotesen H på, er ved at foretage sammenvejningen afX• og S S D ved hjælp af F-størrelsen

F =n X

2•

SSD/(n − 1).

Man kan observere at F = T 2. Fortolkningen af F-størrelsen er naturligvis at storeF-værdier er kritiske for hypotesen, mens små F-værdier anses for at være i fin over-ensstemmelse med H. Under hypotesen følger F en F-fordeling med (1, n − 1) fri-hedsgrader. Acceptområdet for testet af H, baseret på F, på niveau α er givet vedat

F < zα,

hvor zα er 1 − α-fraktilen i F-fordelingen med (1, n − 1) frihedsgrader.

Page 19: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.3. Teststørrelser 261

Det kan synes som om F-størrelsen ikke bringer meget nyt i forhold til T -størrelsen,og F-testet er da også ækvivalent med T -testet. Men i mere komplicerede normalfor-delingsmodeller, med flerdimensionale middelværdiparametre, kan det være svært atfinde naturlige generaliseringer af T -størrelsen, hvorimod det ofte er muligt at findegeneraliserede F-størrelser. Fisher indførte F-fordelingen i 1920’erne, netop i forbin-delse med test i normalfordelinger. Og igen var den store indsats i virkeligheden athan tabellerede fordelingerne, og dermed gjorde F-testet praktisk muligt.

Det er vanskeligt i dag helt at begribe hvor stor en rolle disse tabeller har spillettidligere. I dag tabellerer computerpakkerne på et øjeblik enhver kendt eller ukendtfordeling. Men i de tider hvor alt måtte regnes i hånden, var det et voldsomt slid atfremstille tabeller, og ikke en opgave man gerne påtog sig. Visse udviklinger i stati-stikkens historie forekommer underlige, set med moderne briller, men kan forstås påden måde at man gjorde store krumspring for at kunne udnytte allerede fremstilledetabeller, frem for at skulle udarbejde nye.

Eftersom T -størrelsen og F-størrelsen ikke står i en bijektiv og monoton forbindelsemed hinanden, kan man måske komme i tvivl om hvorvidt de to måder at lave testetpå, vitterligt er ækvivalente. For at være konkrete, kan vi sige at n = 10, og at vitester på niveau 5%. Vi finder at 97.5%-fraktilen i T -fordelingen med 9 frihedsgra-der er 2.262. Når vi udfører testet for hypotesen (8.7) som et T -test, får vi derforacceptområdet

AT = {(x1, . . . , x10) | −2.262 < T (x1, . . . , x10 < 2.262} .

Tilsvarende kan 95%-fraktilen i en F-fordeling med frihedsgrader (1, 9) slås op til atvære 5.117, og dermed bliver acceptområdet, når testet udføres som et F-test,

AF = {(x1, . . . , x10) | F(x1, . . . , x10) < 5.117} .

De to acceptområder indeholder præcis de samme x-sekvenser, fordi T 2 = F og fordi2.2622 = 5.117. Så om man udfører testet på den ene eller den anden måde, kan væreirrelevant: man får samme svar på om hypotesen accepteres eller forkastes. Man kanendda ved tilsvarende argumenter overbevise sig om at de to måder at teste på førertil samme p-værdi.

En tredie sammenvejning af X• og S S D er B-størrelsen

B =SSD

SSD + nX2•

.

Page 20: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

262 Kapitel 8. Test af statistiske hypoteser

Man skal måske stirre lidt længere på denne størrelse, før man synes den giver me-ning, end man skulle med de to første teststørrelser. Men det er i hvert fald klartat

B =n − 1

F + n − 1.

Så B er en aftagende funktion af F. Dermed er små B-værdier kritiske for hypotesen- og B-testet og F-testet er ækvivalente. Under hypotesen følger B-størrelsen en B-fordeling med (n − 1, 1) frihedsgrader (bemærk: frihedsgrader, ikke formparametre),og acceptområdet for testet af H, baseret på B, på niveau α er derfor givet ved at

zα < B,

hvor zα er α-fraktilen i B-fordelingen med (n − 1, 1) frihedsgrader. Også B-størrelsen(og B-fordelingen) er indført af Fisher i forbindelse med hypotesetest i større normal-fordelingsmodeller.

Eksempel 8.9 Betragt data fra eksempel 2.13, hvor en forsøgsperson har fået måltsin reaktionstid 50 gange. Vi antager at disse 50 observationer, benævnt x1, . . . , x50,er realisationer af uafhængige stokastiske variable X1, . . . , X50, der alle er N(ξ, σ2)-fordelt med ukendt middelværdi ξ og varians σ2. Vi vil interessere os for hypotesen

H : ξ = 260 ms .

I dette tilfælde er n = 50, og vi finder de summariske størrelser

n∑

i=1

xi = 13646 ,n

i=1

x2i = 3773380 .

Heraf finder vi at

x• =13646

n= 272.9 , SSD =

n∑

i=1

x2i − n x•

2 = 49113.68 .

De naturlige estimatorer fra eksempel 4.4 er

ξ̂ = x• = 272.9 , σ̂2 =S S Dn − 1

= 1002.32.

Et test af hypotesen H kan foregå på baggrund af regningerne i eksempel 8.8. Formelter den aktuelle affine hypotese ganske vist lidt forskellig fra den lineære hypotese

Page 21: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.3. Teststørrelser 263

(8.7), men forskellen elimineres ved en datatransformation. Vi betragter observatio-nerne

Yi = Xi − 260 , i = 1, . . . , n.

Ifølge modellen er Yi’erne uafhængige og normalfordelte med varians σ2, og et testaf hypotesesen H kommer nu ud på at teste om Yi’ernes middelværdi er nul. EftersomSSD-størrelsen for Yi’erne og Xi’erne er den samme, betrager vi T -teststørrelsen

T =

√n Y•√

SSD/(n − 1)=

√n (X• − 260)√

SSD/(n − 1)= 3.13

hvilket er 99.85% fraktil i t-fordelingen med 49 frihedsgrader. Vi kunne nøjes medat sige at denne T -størrelse er markant større end 97.5% fraktilen i den relevanteT -fordeling, og derfor må vi forkaste hypotesen: ξ er signifikant større end 260.

Reaktionstid (ms)

Ant

al

200 250 300 350

02

46

810

14

Figur 8.6: Et histogram over data fra eksempel 2.13, sammen med den middelværdi, derpostuleres i eksempel 8.9 (den fede linie), den empiriske middelværdi (den stiplede linie) oget 95% konfidensinterval (tynde linier) for middelværdien, baseret på en normalfordelings-model.

I almindelighed vil man dog foretrække at få oplyst p-værdien, sådan som det frem-gik af diskussionen i afsnit 1.6. Her er p-værdien 2 (1 − 0.9985) = 0.003 (husk at derer et bidrag fra den nedre hale), og den fortæller at hypotesen ikke blot er forkastet pået 5% niveau, men faktisk forkastet med et brag. Måske endda med et overraskendestort brag, når man sammenligner med figur 8.6, hvor vi har optegnet et histogram

Page 22: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

264 Kapitel 8. Test af statistiske hypoteser

over data, sammen med den postulerede middelværdi på 260. På tegningen har vi til-føjet et 95% konfidensinterval for ξ, regnet ud som i eksempel 7.9. Den postuleredeξ-værdi på 260 ligger ganske vist udenfor konfidensintervallet - men så langt udenfor synes man måske heller ikke at den ligger. Men konklusionen er altså at hvor 260vil være en ganske rimelig observation at gøre, så er de faktisk gjorte observationersystematisk en smule højere. Ikke alle sammen, men de fleste. Og derfor er 260 ethelt urimeligt lavt bud på det sande ξ.

Som en træning i at bruge de forskellige ækvivalente teststørrelser fra eksem-pel 8.8 udregner vi F-teststørrelsen for Yi’erne til 9.83, og det er 99.7% fraktil iF-fordelingen med (1, 49) frihedsgrader. Her er det kun store værdier der er kritiske,så p-værdien er 1 − 0.997 = 0.003 som før.

Tilsvarende udregner vi B-størrelsen for Yi’erne til 0.833, der er 0.3% fraktil i B-fordelingen med (49, 1) frihedsgrader. Eftersom det er små B-værdier der er kritiske,konstaterer vi igen at testet giver en p-værdi på 0.005.

Testproblemet i eksempel 8.9 er usædvanligt at støde på i praksis. Normalt har manikke på forhånd en konkret værdi, som man ønsker at sammenligne et middelværdi-estimat med. Langt almindeligere er det såkaldte tostikprøve problem, hvor man haruafhængige observationer fra to grupper, og hvor spørgsmålet er om de to grupper erens.

Eksempel 8.10 Lad X1, . . . , Xn,Y1, . . . ,Ym være indbyrdes uafhængige stokastiskevariable. Antag at Xi ∼ N(ξ, σ2) mens Y j ∼ N(η, σ2). Den grundliggende hypotesefor tostikprøve problemet kan nu formuleres som

H : ξ = η .

Bemærk at vi på forhånd antager at variansen i de to grupper er ens. Hvis denneantagelse er groft forkert, vil nedenstående teknik ikke føre noget godt med sig. Påden anden side: hvis varianserne i de to grupper vitterligt er forskellige, så er det i sigselv en forskel på grupperne, og det giver i så fald næppe mening at interessere sigfor om middelværdierne er ens.

Vi indfører følgende størrelser:

X• =1n

n∑

i=1

Xi, SSDX =

n∑

i=1

(Xi − X•)2,

Page 23: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.3. Teststørrelser 265

og tilsvarende Y• og SSDY . Det er klart at

X• ∼ N(

ξ,σ2

n

)

, Y• ∼ N(

η,σ2

m

)

,

mens SSDX og SSDY er χ2-fordelt med skalaparameter σ2 og n − 1 hhv. m − 1 fri-hedsgrader. Det er endvidere klart at disse fire variable er uafhængige.

Den naturlige estimator for ξ er X•, og den naturlige estimator for η er Y•. Derfor erdet interessant at undersøge om X• − Y• afviger mere fra nul end man vil forventeunder hypotesen. Idet

X• − Y• ∼ N(

0, σ2(

1n+

1m

))

under hypotesen, skal vi sammenholde X• − Y• med et estimat for σ2. Og det bed-ste estimat vi kan finde på, den estimator der har mindst varians, opnår vi ved atpoole SSD-størrelserne, det vil sige at vi baserer estimatet på SSDX + SSDY , derer χ2-fordelt med n + m − 2 frihedsgrader og skalaparameter σ2. Derfor bruger viteststørrelsen

T =

nmn+m

(

X• − Y•)

√(SSDX + SSDY )/(n + m − 2)

, (8.10)

der under hypotesen er T -fordelt med n + m − 2 frihedsgrader. Acceptområdet fortestet af H, baseret på T på niveauet α, er givet ved at

−zα < T < zα

hvor zα er (1 − α2 )-fraktilen i en T -fordeling med n + m − 2 frihedsgrader.

I elementære fremstillinger af praktisk statistik kommer dette såkaldt uparrede T -test ofte til at fremstå som den vigtigste statistiske teknik overhovedet. Og der er envis rimelighed i dette synspunkt, i og med at tostikprøve problemet er meget ofteforekommende - specielt i små forsøg, hvor eksperimentatoren selv kan håndtere denstatistiske bearbejdning.

Mere komplicerede forsøg kræver derimod en større teoretisk forståelse og mereavancerede statistiske modeller. I disse noter er vi tilbøjelige til at betragte tostikprøveproblemet med normalfordelte data som et specielt eksempel på en etsidet variansa-nalyse, der igen er et specielt eksempel på den lineære normale model. Den lineærenormale model er overskriften for en fælles matematisk behandling af en forbavsendebred klasse af modeller, og denne behandling er temaet for anden del af notesættet.

Page 24: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

266 Kapitel 8. Test af statistiske hypoteser

Ser man på tostikprøve problemet på denne måde, er det naturligere at skrive F-og B-teststørrelser op. Vi vil ikke skrive disse teststørrelser op her, men blot gøreopmærksom på at det er muligt at finde sådanne teststørrelser, og at de som i eksem-pel 8.8 er ækvivalente med T -teststørrelsen.

Eksempel 8.11 Den specifikke fekunditet for en bananfluehun måles som det gen-nemsnitlige antal æg om dagen hun lægger i de første 14 dage af sit liv. I tabel 8.2er opgjort resultatet fra et eksperiment, hvor man har registreret den specifikke fe-kunditet for 25 hunner fra en speciel avlsstamme, der er gjort resistent overfor DDT.Som kontrol har man også registreret den specifikke fekunditet for 25 hunner fra enstandard laboratoriestamme. Spørgsmålet er om den DDT resistente stamme har ennedsat fekunditet i forhold til det normale.

DDT resistent Standard

12.8 22.6 29.3 14.9 30.4 37.914.8 23.1 29.5 19.3 33.7 40.414.9 23.2 29.6 20.3 33.8 41.716.4 23.6 34.6 22.6 34.4 41.819.7 23.7 38.6 23.4 35.4 42.420.3 26.1 38.7 27.4 36.6 47.420.3 26.4 44.4 28.2 36.9 51.821.6 27.3 29.2 37.322.4 27.5 29.5 37.6

Tabel 8.2: Den specifikke fekunditet for 25 bananflue hunner fra en DDT resistent stamme,overfor den specifikke fekunditet for 25 hunner fra en standard laboratoriestamme.

Et dotplot af data fra tabel 8.2 er optegnet i figur 8.7. Der er tilføjet et 95% konfi-densområde for middelværdiparameteren for hver gruppe - dette konfidensområde erbaseret på en normalfordelingsmodel for hver gruppe for sig, og det poolede varian-sestimat indgår således ikke.

Vi betegner målingerne fra den DDT resistente stamme med x1, . . . , xn og målingernefra standardstammen som y1, . . . , yn med n = 25. Vi ser disse målinger som realiserin-ger af uafhængige stokastiske variable X1, . . . , Xn og Y1, . . . ,Yn, alle normalfordeltemed fælles ukendt varians σ2, og med en middelværdi hørende til hver gruppe, ξ hø-rende til den DDT resistente stamme, og η hørende til standard stammen. Vi finder

Page 25: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.3. Teststørrelser 267

Fekunditet

0 10 20 30 40 50

Resistente

Normale

Figur 8.7: Et dotplot for data fra tabel 8.2. De to markerede områder er 95% konfidensom-råder, baseret på observationer fra hver sin gruppe - der indgår ikke et poolet variansestimat,men et variansestimat for hver gruppe for sig.

atx• = 25.3, y• = 33.4, SSDx = 1450, SSDy = 1919.

Det poolede variansestimat er

σ̂2 =SSDx + SSDy

2n − 2= 70.2,

der - uanset om de to middelværdier er ens eller ej - stammer fra en χ2-fordeling med2n − 2 frihedsgrader og skalaparameter σ2/(2n − 2).

Vi udregner T -teststørrelsen (8.10) for hypotesen om at de to middelværdiparametreer ens, og finder

T =

n2

(

x• − y•)

(SSDx + SSDy)/(2n − 2)= −3.42,

der er 0.06% fraktil i T -fordelingen med 48 frihedsgrader. Hypotesen om at de tomiddelværdier skulle være ens bliver altså afvist med et brag - vi får en p-værdi på1.2 promille.

Man kan godt aflæse denne meget kraftige signifikans ud fra konfidensområdernepå figur 8.7. Hvis de to middelværdier skal være ens, så ligger den fælles værdiformentlig der hvor de to konfidensområder næsten når sammen. Men hvis den fællesmiddelværdi faktisk befinder sig der, så har vi fået atypisk små observationer i den

Page 26: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

268 Kapitel 8. Test af statistiske hypoteser

ene gruppe og atypisk store observationer i den anden. Moralen er at der skal væreet substantielt overlap mellem konfidensområderne på en tegning som figur 8.7, hvisman skal kunne acceptere at de to grupper er ens.

En anden god morale i dette eksempel er at der ikke skal forfærdeligt mange obser-vationer til, før man kan se forskel på to grupper. Hvis figur 8.7 var optegnet udenkonfidensområder, ville det faktisk ikke være så nemt at se forskel på de to gruppermed det blotte øje. Det er jo på ingen måde sådan at de to grupper ligger separeret frahinanden. Men den typiske observation for den resistente gruppe ligger altså lidt la-vere end den typiske observation for standardgruppen. Man kan godt fornemme detteforhold grafisk. Men det formelle statistiske test afslører med piber og trommer atdenne forskubbelse under ingen omstændigheder kan skyldes tilfældighed.

8.4 Test og konfidensområder

I diskussionen af test har vi indtil nu undladt at drage parallelerne mellem test ogkonfidensområder. Men de to begreber er selvfølgelig nøje forbundne. Lad (νθ)θ∈Θvære en parametriseret statistisk model på (X,E), og lad τ : Θ → Ψ være en para-meterfunktion. At konstruere et konfidensområde for τ er stort set det samme som atlave et simultant test af alle hypoteser af formen

Hψ : τ(θ) = ψ . (8.11)

Antag at vi har et (1 − α)-konfidensområde for τ, altså en afbildning D : X → Ψ så

Pθ(τ(θ) ∈ D(X)) ≥ 1 − α for alle θ ∈ Θ .

For fast ψ ∈ Ψ sætter viAψ = {x ∈ X | ψ ∈ D(x)} .

Udsagnet om dækningsgraden for D(x) kan læses som

Pθ(X ∈ Aψ) ≥ 1 − α hvis τ(θ) = ψ .

Så Aψ-mængden er acceptområdet for et test at hypotesen (8.11), et test på niveauα. Ved denne måde at lave test på, accepterer vi hypotesen (8.11) hvis og kun hvis ψligger i observerede konfidensområde.

Page 27: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.4. Test og konfidensområder 269

Antag omvendt at vi for hvert ψ ∈ Ψ har et testområde Aψ for et test af hypote-sen (8.11) på niveau α, og sæt

D(x) = {ψ ∈ Ψ | x ∈ Aψ} for alle x ∈ X .

Udsagnet om testniveauet kan oversættes til at disse D(x)-mængder udgør et (1 − α)-konfidensområde for τ. Fremgangsmåden ved denne konstruktion af et konfidensom-råde er at lade det observerede konfidensområde bestå af de ψ-værdier der overleveret test af hypotesen (8.11).

Eksempel 8.12 Lad os vende tilbage til tostikprøveproblemet, som diskuteret i ek-sempel 8.10. Udgangspunktet er uafhængige variable X1, . . . , Xn,Y1, . . . ,Ym, hvor viantager at

Xi ∼ N(ξ, σ2) , Y j ∼ N(η, σ2) .

Det kan være meget godt at afgøre om ξ = η. Men det er meget mere spændende atproducere et 95%-konfidensområde for parameterfunktionen α = ξ− η. Hvis 0 liggerinde i konfidensområdet for α, så kan vi acceptere hypotesen om at de to grupper erens, hvis 0 ligger uden for konfidensområdet forkastes denne hypotese.

Så det primitive ja/nej svar, som testbegrebet lægger op til, kan gives ud fra konfi-densområdet. Men uanset hvad man konkluderer, giver konfidensområdet usammen-ligneligt bedre information. I tilfælde af at hypotesen bliver forkastet, får vi præcisinformation om hvor stor forskellen er mellem de to grupper. Og hvis hypotesen ac-cepteres, er bredden af konfidensområdet et udtryk for hvor stor vægt vi kan tillæggetestet: hvis konfidensområdet er bredt, så er det udførte forsøg principielt ude af standtil at se om grupperne skulle være forskellige - testet har for ringe styrke til at kunneafsløre en egentlig forskel.

Det er ikke vanskeligt at udvide argumentationen bag det uparrede T -test, så regnin-gerne kan bruges til at konstruere et konfidensområde for α. I første omgang repara-metriserer vi måske modellen, og får antager at

Xi ∼ N(η + α,σ2) , Y j ∼ N(η, σ2) .

Dernæst indser vi at størrelsen

nmn+m

(

X• − Y• − α)

√(SSDX + SSDY )/(n + m − 2)

,

Page 28: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

270 Kapitel 8. Test af statistiske hypoteser

er t-fordelt med n + m − 2 frihedsgrader uanset hvad den sande parameter er, og påbaggrund af denne pivot kan vi konstruere følgende konfidensinterval for α:

X• − Y• − q

n + mnm

SSDX + SSDY

n + m − 2, X• − Y• + q

n + mnm

SSDX + SSDY

n + m − 2

.

Her er q 97.5% fraktilen for en t-fordeling med n + m − 2 frihedsgrader. Sætter vitallene fra eksempel 8.11 ind, får vi et konfidensområde for gruppeforskellen på

(−12.86,−3.34)

.

Vi ser at konfidensområdet kun når halvvejs fra midtpunktet ind mod nul, og fårdermed lejlighed til at rekapitulere den meget klare konklusion fra eksempel 8.11om en signifikant gruppeforskel. Fortegnet for gruppeforskellen betyder at den DDT-resistente avlsstamme har en lavere fekunditet end standardstammen.

Sammenhængen mellem konfidensområder for τ og test af hypoteser af formen 8.11er ikke kun abstrakt, men gælder på det helt konkrete plan. Konstruktion af konfiden-sområder forløber som regel via en afbildning Z : Ψ × X → R, sådan at fordelingenaf kombinanten

(θ, x) 7→ Z(τ(θ), x)

under Pθ ikke varierer langs niveaukurver for τ. Har man sådan et Z, så er

x 7→ Z(ψ, x)

en niveaukonstant teststørrelse for hypotesen om at τ(θ) = ψ. Og omvendt - harman en samling niveaukonstante teststørrelse for alle disse hypoteser, kan de strikkessammen til en kombinant, der er velegnet til at fremstille konfidensområder for τ.

Når vi i kapitel 7 konstruerede konfidensområder ved hjælp af kvotientteststørrelserog Waldteststørrelser, så har disse kombinanter naturligvis navne, der skal minde omderes udspring indenfor hypotesetestningen.

8.5 Kvotienttest

Den generelle forståelse af sammenhængen mellem test og konfidensområder for pa-rameterfunktioner, antyder at følgende definition kan være nyttig:

Page 29: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.5. Kvotienttest 271

Definition 8.13 Lad (νθ)θ∈Θ være en domineret statistisk model på (X,E), og lad dervære givet en delmængde Θ0 ⊂ Θ. Kvotientteststørrelsen for hypotesen

H : θ ∈ Θ0 ,

er teststørrelsen

q(x) =supθ∈Θ0

Lx(θ)

supϑ∈Θ Lx(ϑ).

Ved brug af kvotientteststørrelsen, vil små værdier af q fortolkes som kritiske forhypotesen H, mens værdier tæt på 1 giver anledning til at hypotesen accepteres.

Den oprindelige definition af kvotientteststørrelser i definition 3.21, svarer med denneformulering til kvotientteststørrelserne for alle de simple hypoteser. Tilsvarende sva-rer kvotientteststørrelserne ud fra en profillikelihoodfunktion, se p. 225, til kvotient-teststørrelserne for test at hypoteserne af formen (8.11).

Eksempel 8.14 Lad X1, . . . , Xn være indbyrdes uafhængige og identisk normalt for-delte stokastiske variable med middelværdi ξ og varians σ2. Vi ønsker at teste hypo-tesen

H : ξ = 0

ved hjælp af et kvotienttest. Ifølge eksempel 4.18 er likelihoodfunktionen

L(ξ, σ2) =1

(σ2)n/2e−

12σ2 (SSD+n(X•−ξ)2)

,

hvor X• = 1n

∑ni=1 Xi og SSD =

∑ni=1(Xi − X•)2, og denne funktion maksimeres af

(

ξ̂, σ̂2)

= (X•, SSDn ). Maksimum af likelihoodfunktionen er derfor

L(

ξ̂, σ̂2)

=

( nSSD

)n/2e−n/2 .

Under hypotesen H er likelihoodfunktionen

L(0, σ2) =1

(σ2)n/2e−

12σ2 (SSD+nX

2•),

der maksimeres af σ̃2 =SSD+nX

2•

n . Maksimum af likelihoodfunktionen under hypo-tesen er således

L(

0, σ̃2)

=

n

SSD + nX2•

n/2

e−n/2.

Page 30: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

272 Kapitel 8. Test af statistiske hypoteser

Dermed er kvotientteststørrelsen

Q =

SSD

SSD + nX2•

n/2

.

Hvis hypotesen er sand, så afhænger fordelingen af Q ikke af den ukendte parameterσ2 - denne parameter optræder nemlig som skalaparameter i både tæller og nævner,og forkorter derfor ud. Altså er Q niveaukonstant. Til gengæld er fordelingen af Qikke en af standardfordelingerne.

Men vi bemærker at Q2/n præcis er B-teststørrelsen fra eksempel 8.8. Idet x 7→ x2/n

er en strengt voksende transformation, konstaterer vi at Q og B er ækvivalente test-størrelser. Og da B-størrelsen er ækvivalent med både F- og T -teststørrelser, kankvotienttestet gennemføres ved hjælp af en vilkårlig af disse ad hoc teststørrelser.

Eksempel 8.15 Lad Y1 og Y2 være indbyrdes uafhængige χ2-fordelte stokastiskevariable med kendt antal frihedsgrader n1 hhv. n2, og til gengæld med ukendte skala-parametre β1 og β2. Vi ønsker at opstille et kvotienttest for hypotesen

H : β1 = β2.

Renset for irrelevante konstanter er likelihoodfunktionen

L(β1, β2) = β− n1

21 e−

Y12β1 β

− n22

2 e−Y22β2 .

Denne funktion antager sit maksimum for β̂1 =Y1n1

og β̂2 =Y2n2

, og dette maksimum er

nn12

1 nn22

2

Yn12

1 Yn22

2

e−n12 e−

n22 .

Under hypotesen H er maksimaliseringsestimatoren

β̂ =Y1 + Y2

n1 + n2,

og maksimum af likelihoodfunktionen er

(n1 + n2)n1+n2

2

(Y1 + Y2)n1+n2

2

e−n1+n2

2 .

Page 31: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.5. Kvotienttest 273

Kvotientteststørrelsen for hypotesen H er derfor

Q =(n1 + n2)

n1+n22

nn12

1 nn22

2

Yn12

1 Yn22

2

(Y1 + Y2)n1+n2

2

= c

(

Y1

Y1 + Y2

)

n12(

1 − Y1

Y1 + Y2

)

n22

,

hvor c er en kendt konstant. Hvis hypotesen H er sand, så afhænger fordelingen af Qikke af den ukendte fælles værdi af β1 og β2. Til gengæld er fordelingen af Q ikke enstandardfordeling. Vi bemærker at Q er en funktion af

V =Y1

Y1 + Y2,

der under hypotesen er B-fordelt med (n1, n2) frihedsgrader. Det er dog ikke en mo-noton transformation, så de to teststørrelser er ikke ækvivalente. Små værdier af Qopnås både for små og store værdier af V , så hvis vi vil udføre kvotienttestet vedhjælp af V , skal vi konstruere et centralt konkordansområde for B-fordelingen. Deter ikke trivielt at konstruere det rigtige område, det bør i princippet være et intervalaf formen (v1, v2) hvor

v1n12 (1 − v1)

n22 = v2

n12 (1 − v2)

n22 . (8.12)

Normalt springer man dog over hvor gærdet er lavest, og konstruerer et symmetriskkonkordansområde for B-fordelingen. Det test man i virkeligheden laver, er i så faldikke helt så tæt beslægtet med kvotienttestet, som man ynder at lade som om. Det gørsådan set heller ikke noget, der er ingen der garanterer at kvotienttestet er specielteffektivt. Kvotienttest teknologien skal først og fremmest forstås som en mekaniskmetode til at generere teststørrelser. Hvis vi varierer på metoden undervejs, er detikke noget stort ideologisk problem.

Eksempel 8.16 En indvending mod konklusionen i eksempel 8.11 kunne være atvariansen i de to grupper måske ikke er ens. Det kunne godt i figur 8.7 se ud som omstandard stammen har en anelse større variabilitet end den DDT resistente stamme.

Lad os et øjeblik antage at målingerne fra den DDT resistente stamme er en reali-sation af uafhængige stokastiske variabel X1, . . . , Xn, alle N(ξ, σ1

2)-fordelte. Lad ostilsvarende antage at målingerne fra standard stammen er en realisation af uafhængigestokastiske variable Y1, . . . ,Yn, alleN(η, σ2

2)-fordelte. I begge grupper er n = 25. Viønsker i så fald at teste hypotesen

H : σ12 = σ2

2.

Page 32: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

274 Kapitel 8. Test af statistiske hypoteser

Vi kan basere undersøgelsen på de to SSD-størrelser SSDX og SSDY , der under mo-dellen begge er χ2-fordelte med n − 1 frihedsgrader og med skalaparametre σ1

2 hhv.σ2

2. Udregner vi V-størrelsen fra eksempel 8.15 fås

v =SSDx

SSDx + SSDy=

14501450 + 1919

= 0.43.

Det er 25% fraktil i B-fordelingen med (24, 24) frihedsgrader, og dermed får testet afH, gennemført som et symmetrisk V-test, en p-værdi på 50%. Der er således ingensignifikant forskel på de to varianser.

Man kan bemærke at fordi de to grupper har lige mange observationer, er den rele-vante B-fordeling symmetrisk om 0.5. Endepunkterne for et symmetrisk konkordans-område vil derfor automatisk opfylde (8.12), og det er således et ægte kvotienttest vihar gennemført.

Som det har været antydet i eksemplerne, er det i de fleste tilfælde håbløst at forsøgeat finde den eksakte fordeling af en kvotientteststørrelse under hypotesen: det vil stortset aldrig være en kendt fordeling. Endvidere vil kvotientteststørrelsen sjældent væreniveaukonstant - skønt den har været det i eksemplerne. Heldigvis den asymptotisketeori at falde tilbage på.

Sætning 8.17 (Wilks sætning) Lad Y1, . . . ,Yn være uafhængige identisk fordelte va-riable, hver med fordeling νθ = fθ · µ, hvor θ ∈ Θ. Antag at Θ er en åben delmængdeaf Rk, og at Θ0 ⊂ Θ er en glat hypotese af dimension m. Under passende regulari-tetsforudsætninger vil

−2 log Q(Y1, . . . ,Yn) = −2 logsupθ∈Θ0

LY1,...,Yn(θ)

supθ∈Θ LY1,...,Yn(θ)

konvergerer i fordeling mod en χ2-fordeling med k −m frihedsgrader, hvis den sandeparameter ligger i Θ0.

Antallet af frihedsgrader for den asymptotiske χ2-fordeling i Wilks sætning, svarertil faldet i dimension mellem den fulde parametermængde Θ og den reducerede pa-ramtermængde Θ0. Wilks sætning generaliserer både sætning 5.22 og sætning 7.10.

Page 33: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.5. Kvotienttest 275

Beviset er ganske vanskeligt: ud over den asymptotiske teori, skal man have et viststyr over den geometri, der er involveret i beskrivelsen af glatte hypoteser.

Eksempel 8.18 Lad Y1, . . . ,Yk være indbyrdes uafhængige stokastiske variable,der er Γ-fordelte med kendte formparametre λ1, . . . , λk og ukendte skalaparametreβ1, . . . , βk. Vi ønsker at teste hypotesen

H : β1 = · · · = βk.

Tætheden for fordelingen af (Y1, . . . ,Yk) er

k∏

i=1

1

Γ(λi)βλii

yλi−1i e−

yiβi , (8.13)

hvorfor likelihoodfunktionen er (proportional med)

L(β1, . . . , βk) =k

i=1

1

βλii

e−Yiβi .

Denne funktion maksimeres af (β̂1, . . . , β̂k) = (Y1/λ1, . . . ,Yk/λk) og maksimum er

L(Y1/λ1, . . . ,Yk/λk) =k

i=1

λλii

Yλii

e−λi .

Under hypotesen H er likelihoodfunktionen

L(β) =k

i=1

1βλi

e−Yiβ =

1βλ•

e−Y•β ,

hvor β repræsenterer den fælles skalaparameter, hvor λ• =∑

λi+ og Y• =∑

Yi.Maksimaliseringsestimatoren er β̂ = Y•/λ•, og maksimum af likelihoodfunktionen er

L(Y•/λ•) =λ•

λ•

Y•λ•e−λ• .

Kvotientteststørrelsen for test af hypotesen H er derfor

Q =λ•

λ•

∏ki=1 λ

λii

∏ki=1 Yλi

i

Y•λ•=

∏ki=1(Yi/λi)λi

(Y•/λ•)λ•. (8.14)

Man kan se at fordelingen af Q under hypotesen H ikke afhænger af den ukendteparameter β - det er en skalaparameter, der forkorter ud overalt - men derudover er

Page 34: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

276 Kapitel 8. Test af statistiske hypoteser

det højst begrænset hvad man kan sige om fordelingen. Så meget desto bedre er detat vi kan henvise til Wilks sætning, der fortæller at

−2 log Q = 2λ log(Y•/λ•) −k

i=1

2λi log(Yi/λi)

under hypotesen er approksimativt χ2-fordelt med k − 1 frihedsgrader. Approksima-tionen vil sædvanligvis være god, hvis alle formparametrene λ1, . . . , λk er store.

8.6 Styrkeovervejelser ved design

Udover at sammenligne forskellige teststørrelser, bruger man styrkefunktioner til atopnå en indikation af, hvor mange gentagelser, man skal have af et tilfældigt ekspe-riment, for at kunne drage bestemte konklusioner.

Eksempel 8.19 Antag at den sande successandsynlighed i et binomialeksperimentmed længde n er p = 0.4, og antag at vi tester hypotesen

H : p = 0.5,

ved hjælp af proceduren fra eksempel 8.6. Det fremgår af figur 8.1 at hvis n = 10,så kan vi godt opgive at få hypotesen afvist, selv om den er falsk - den vil med95% sandsynlighed blive accepteret. Men hvis n = 100 , så er der omkring 50%sandsynlighed for at få aflivet hypotesen. Og hvis n = 1000, så er det sikkert somamen i kirken at den falske hypotese afsløres.

I praksis gebærder man sig ofte på følgende måde: hvis man ønsker at teste hypotesen

H : θ ∈ Θ0,

så fastholder man et helt specifikt alternativ θA < Θ0. Lad N ∈ N være et udtryk forstørrelsen af eksperimentet, og antag at vi for hvert N har en teststørrelse qN , sådan atde forskellige teststørrelser naturligt opfattes som “samme teststørrelse i forskelligedimensioner”. Antallet af succeser i et binomialeksperiment, er en sådan familie afteststørrelser. Beregn for hvert N et kritisk område KN på niveau 5%, og find dentilhørende styrkefunktion γN . Vælg det mindste N så γN(θA) ≥ 0.80.

Page 35: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.6. Styrkeovervejelser ved design 277

Bemærk at alle disse regninger kan gennemføres før forsøget udføres - de handlerikke om data, de handler kun om modellen. Og derfor er det muligt at skrue enseksperiment sammen på en sådan måde at der er mindst 80% sandsynlighed for atafvise hypotesen H, hvis den sande parameter vitterligt er θA.

Hvis der skal være nogen mening i det, må det være fordi θA betyder noget specielt.Ofte udfører man et piloteksperiment før det egentlige eksperiment, og udfra dettepiloteksperiment vil man som regel kunne komme med et relativt kvalificeret budpå hvad den sande parameter er. Piloteksperimentet er som regel for lille til at mankan afvise en meningsfuld hypotese H, men når man nogenlunde ved hvad den sandeparameter er, kan man designe hovedforsøget sådan at det vil være i stand til at afsløreH som falsk.

En anden situation, hvor man meningsfuldt kan vælge et helt specifikt alternativ,er forbundet med begrebet en relevant forskel. I medicinske sammenhænge talerman gerne om en klinisk relevant forskel, i andre sammenhænge sætter man givetvisandre ord på. Vi kan belyse begrebet i forbindelse med sammenligning af en ny og engammel type medicin. Hypotesen er, som vi før har set, at de to typer medicin virkerlige godt. Men hvis denne hypotese afvises, vil det ikke nødvendigvis bevirke at manskifter medicintype: der skal være et fornuftigt forhold mellem den effektforbedringman opnår, og de omkostninger (af praktisk og økonomisk art) man udsætter sig for.Omkostningerne er (mere eller mindre) kendte på forhånd, og man kan derfor regneud hvor meget bedre den nye medicin skal virke, før man vil gå over til den. Herefterkan man bestemme størrelsen af afprøvningseksperimentet, så man er rimelig sikkerpå at hvis den faktiske forskel på medikamenternes effekt er så stor at den er kliniskrelevant, så vil hypotesen om at der ingen forskel er blive afvist.

Eksempel 8.20 Før eksperimentet med bananfluers fekunditet fra eksempel 8.11kunne man ved ad hoc overvejelser (eller piloteksperimenter, hvor man så på en hånd-fuld bananfluer) være kommet til den overbevisning, at fekunditeten for en tilfældigbananfluehun fra en standardstamme til en rimelig approksimation er normalfordeltmed en middelværdi på 35 og en standardafvigelse på 10.

Vi ønsker at designe forsøget, der skal undersøge forskellen mellem den DDT-resistente stamme og standardstammen, sådan at hvis den DDT-resistente stammehar en middelfekunditet på 25, så skal det med 80% sandsynlighed kunne slås fast atde to grupper ikke er ens. I denne sammenhæng betyder ’design’ udelukkende hvormange bananfluer af de to forskellige typer, man skal inkludere i forsøget.

Page 36: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

278 Kapitel 8. Test af statistiske hypoteser

Når vi gennemfører eksperimentet, har vi stokastiske variable X1, . . . , Xn,Y1, . . . ,Yn

der er uafhængige, og hvor vi antager at

Xi ∼ N(ξ, σ2) , Yi ∼ N(ξ + α,σ2) , for i = 1, . . . , n ,

og vi vil teste hypotesenH : α = 0 . (8.15)

Vi tester hypotesen ved hjælp af teststørrelsen

Tn =

n2

(

X• − Y•)

√(SSDX + SSDY )/(2n − 2)

,

der under hypotesen er T -fordelt med 2n − 2 frihedsgrader. Vi accepterer derfor hy-potesen, hvis

−zn < Tn < zn ,

hvor zn er 97.5% fraktilen i en T -fordeling med 2n− 2 frihedsgrader. Hvis hypotesenikke er sand, er påstanden om at Tn er T -fordelt forkert. I så tilfælde er Tn ikke-centralt T -fordelt, med 2n − 2 frihedsgrader, og ikke-centralitetsparameter

ηn =

n

2σ2α , (8.16)

se formel (8.8). Hvis vi tror på at α = 5 og σ2 = 100, som der blev lagt op til iovenstående ad hoc overvejelser, er ikke-centralitetsparameteren altså

ηn =

n8.

Ved hjælp af fordelingsfunktionerne for de ikke-centrale T -fordelinger, kan man ud-regne sandsynligheden γn for at forkaste hypotesen som funktion af n. Vi er altsåinteresserede i styrkefunktionens værdi over parametrene α = 10, σ2 = 100 - princi-pielt burde vi også angive ξ, men denne parameter er helt forsvundet i regningerne,den indgår ikke i fordelingen af Tn.

Bemærk at alt ved testet varierer med gruppestørrelsen: antal frihedsgrader, ikke-centralitetsparameteren ηn og afskæringsværdien zn. Resultatet er optegnet i figur 8.8.Vi ser at γn som forventet vokser med n. Første gang styrkefunktionen kommer over80%, er for n = 17.

På baggrund af disse overvejelser, vil vi foreslå at eksperimentet gennemføres meden gruppestørrelse på mindst 17 - og der sker utvivlsomt ingen skade ved at gøre

Page 37: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.6. Styrkeovervejelser ved design 279

0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

PSfrag replacements

n

γn

Figur 8.8: Styrkefunktion γn over α = 10, σ2 = 100 for et test af hypotesen (8.15), set somfunktion af gruppestørrelsen n. Første gang γn kommer over 80% er for n = 17.

grupperne lidt større. Dette overslag er naturligvis meget afhængigt af hvad vi trorom det faktiske α-værdi. Hvis vi tror at den sande α-værdi er 5 (hhv. 2), og stadigønsker at kunne afsløre at α ikke er nul med 80% sandsynlighed, viser tilsvarenderegninger at vi skal bruge gruppestørreler på mindst 64 (hhv. 394).

Ofte angriber man styrkeproblemstillingen mere overslagsmæssigt. Man er kun inter-esseret i et skøn over hvor stort eksperimentet skal være for at opnå en givet styrke,så man kan godt slække lidt på præcisionen i regningerne. I praksis vil man altidgøre eksperimentet noget større, end hvad styrkeberegningerne dikterer. Dels for atgardere sig mod at visse deleksperimenter ikke fører til noget resultat (en bananfluekunne komme ulykkeligt af dage, inden den begynder at lægge æg, eller optegnel-serne om dens æglægning kunne forsvinde i rodet på forskerens skrivebord, eller. . . ),og dels fordi selve det specifikke alternativ som fører til beregningen af N har enskønsmæssig karakter.

Sådanne løse betragtninger kunne i dette eksempel se sådan ud: En T -fordeling medet stort antal frihedsgrader, er til en god approksimation en standard normalfordeling,og derfor vil afskæringsværdierne zn stort set være 1.96 - altså 97.5%-fraktilen for enstandard normalfordeling.

Page 38: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

280 Kapitel 8. Test af statistiske hypoteser

Tilsvarende er en ikke-central T -fordeling med et stort antal frihedsgrader og ikke-centralitetsparameter η til en god approksimation en N(η, 1)-fordeling - nævneren i(8.8) varierer kun en ubetydelighed omkring 1, og bidrager derfor stort set ikke tilbrøkens variabilitet.

Hvis vi lader U være en standard normalfordelt variabel, kan sandsynligheden for athypotesen forkastes approksimativt skrives

γn ≈ P(|U + ηn| > 1.96) = P(U + ηn > 1.96) + P(U + ηn < −1.96)

= 1 − Φ(1.96 − ηn) + Φ(−1.96 − ηn) ≈ 1 − Φ(1.96 − ηn) .

Her er Φ fordelingsfunktionen for standard normalfordelingen, og vi har udnyttet atikke-centralitetsparameteren ηn er stor for stort n, sådan at vi har kunnet droppe denene halesandsynlighed. Hvis

γn > 0.8 ,

skal vi altså have at0.2 > Φ(1.96 − ηn)

det vil sige atηn > 1.96 − Φ−1(0.2) = 2.80 .

Indrages formen (8.16) af ikke-centralitetsparameteren, bliver betingelsen

n > 15.70σ2

α2

Indsætter vi σ2 = 100 og α = 10, 5 og 2, fås betingelserne n > 15.7, n > 62.8 og n >392.5, i ganske god overensstemmelse med de eksperimentstørrelser vi beregnedeved eksakte metoder.

Eksempel 8.21 Lad os sige at vi gerne vil reproducere eksperimentet fra eksem-pel 8.7. I eksemplet fandt vi en signifikant forskel på to primærsandsynligheder på et5% niveau, og de to sandsynligheder estimeredes til 50/65 = 0.77 og 38/65 = 0.58.Hvis vi tager disse estimater alvorligt, kan vi imidlertid aflæse af figur 8.4 at styrkenaf det udførte eksperiment kun er ca. 55%. Gentager vi eksperimentet i præcis sammeform, er der således kun en fifty-fifty chance for at vi kan reproducere eksperimen-tets konklusion! Hvis vi vil være sikrere på at reproducere den signifikante forskel påprimærsandsynlighederne, så må vi forstørre eksperimentet.

En meningsfuld grund til at reproducere eksperimentet, kunne være at vi ønskede atgennemføre testet på et 1% niveau (visse videnskabelige tidsskrifter insisterer på kun

Page 39: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.6. Styrkeovervejelser ved design 281

at publicere resultater der er signifikante på et 1%-niveau). Det ville føre til lidt andreregninger end de følgende, hvor vi igen nøjes med at teste på et 5% niveau.

Lad os sige at vi ønsker hypotesen om ens sandsynligheder afvist med sandsynlighed80%, hvis de sande primærsandsynligheder er 0.77 hhv. 0.58. Lad antallet af obser-vationer i hver af de to grupper være N. Analogt med regningerne i eksempel 8.7bruger vi teststørrelsen

Q = |S X − S Y | =∣

N∑

i=1

Xi −N

i=1

Yi

.

Under hypotesen om ens primærsandsynligheder er S X − S Y approksimativt normal-fordelt med middelværdi 0 og en vis varians. Analogt med regningerne i eksempel 8.7finder vi endvidere skønsmæssigt at

cN = 1.96

N2

(8.17)

er den mindste Q-værdi der vil føre til at hypotesen afvises. Hvis de sande parametreer (p1, p2), så er

S X − S Y ≈ N(

N(p1 − p2),N(p1(1 − p1) + p2(1 − p2)))

.

Sandsynligheden for at forkaste hypotesen om ens primærsandsynligheder er derfor

P

N(p1(1 − p1) + p2(1 − p2)) U + N(p1 − p2)∣

≥ 1.96

N2

,

hvor U er en standard normalfordelt variabel. Lad os indføre betegnelsen r = p1(1 −p1) + p2(1 − p2). Hvis p1 > p2 vil S X − S Y være positiv (i hvert fald for stort N).Betingelsen for en styrke på 80% i (p1, p2) bliver således

P

−1.96

N2<√

N r U + N(p1 − p2) < 1.96

N2

= 0.2,

eller

P

(

−1.96√

2r− p1 − p2√

r

√N < U <

1.96√

2r− p1 − p2√

r

√N

)

= 0.2.

Bemærk at −1.96√2r− p1−p2√

r

√N i de fleste tilfælde er markant negativ. Dermed bliver

betingelsen i praksis at

P

(

U <1.96√

2r− p1 − p2√

r

√N

)

= 0.2,

Page 40: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

282 Kapitel 8. Test af statistiske hypoteser

det vil sige at1.96√

2r− p1 − p2√

r

√N = −0.84 .

For (p1, p2) = (0.77, 0.58) løses denne ligning let, og giver

N = 109.4 . (8.18)

Vi kommer således ved disse skønsmæssige regninger frem til at hvis de estimeredeprimærsandsynligheder fra det første eksperiment mirakuløst skulle være de sandesandsynligheder, og hvis der er 110 individer i hver gruppe, så er der 80% sandsyn-lighed for at afvise den falske hypotese om at primærsandsynlighederne er ens.

En omhyggelig summation af binomialsandsynligheder (regningen er ikke særligavanceret, men lidt besværlig, og den kan umuligt gennemføres i hånden) viser atfor N = 110 er den mindste Q-størrelse der fører til afvisning af hypotesen 16, ogfor sandsynligheden (p1, p2) = (0.77, 0.58) er sandsynligheden for at observere en såstor (eller større) Q-værdi 76.1%. Vores overslagsregninger har dermed fundet et N,der ved nærmere eftersyn viser sig at være lidt for lille. Den kritiske approksimationer (8.17), der ikke tager hensyn til at den mindste observerbare Q-værdi der fører tilafvisning, må være et helt tal.

Yderligere summation af binomialsandsynligheder viser at for både N = 115 ogN = 116 er den mindste Q-værdi der fører til afvisning af hypotesen 16. Og forsandsynligheden (p1, p2) = (0.77, 0.58) er sandsynligheden for at observere en såstor (eller større) Q-værdi 79.5%, hhv. 80.2%. Heraf konkluderer vi at den søgtestørrelse af eksperimentet er N = 116.

Disse eksakte regninger med binomialsandsynligheder er - skønt de giver det kor-rekte svar på det stillede spørgsmål - urimeligt pedantiske. Man er kun interessereti et overslag over hvor stort eksperimentet skal være for at opnå en givet styrke, såderfor er de regnerier, der ledte frem til (8.18) rigeligt præcise. I praksis vil manaltid gøre eksperimentet en del større, dels for at gardere sig mod at visse deleks-perimenter ikke fører til noget resultat (tænk på en person, som nægter at svare pådet stillede spørgsmål - et meget almindeligt fænomen i spørgeskemaundersøgelser).Og dels fordi selve det specifikke alternativ som fører til beregningen af N har enskønsmæssig karakter.

Page 41: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.7. Ikke-parametrisk test 283

8.7 Ikke-parametrisk test

I visse videnskabelige miljøer er der en stærk forkærlighed for såkaldt ikke-parametriske eller fordelingsfri test. Disse begreber dækker over test udført i megetstore og diffuse modeller, hvor man går direkte til angreb på testproblemet, som regeluden at bekymre sig om at estimere modellens parametre.

Fordelen ved de store modeller er at man ikke behøver at bekymre sig så meget ommodelkontrol: modellen er så fleksibel, at den nok skal passe med data, uanset hvor-dan de ser ud. Bruger man en snævrere parametrisk model, risikerer man jo at model-len ikke passer med data. Og i så fald er analysen af modellen muligvis misvisende iforhold til det udførte eksperiment.

Vi vil fokusere på tostikprøve problemet som en prototype på et problem, hvor for-delingsfri test kan forekomme at være attraktive. Lad X1, . . . , Xn og Y1, . . . ,Ym værereelle stokastiske variable, der repræsenterer to måleserier. Vi antager at de eksperi-mentelle omstændigheder er så ens som overhovedet muligt indenfor hver måleserie,men at der er en eller anden systematisk forskel på de eksperimentelle omstændighe-der mellem de to serier. Målet med eksperimentet er at undersøge om denne syste-matiske forskel har indflydelse på måleresultaterne.

Vi antager at variablene X1, . . . , Xn,Y1, . . . ,Ym er uafhængige, vi antager at Xi’erne eridentisk fordelte med fordelingsfunktion F, og vi antager at Y j’erne er identisk for-delte med fordelingsfunktion G. Hvis F betegner mængden af fordelingsfunktionerpå R, har vi således specificeret en statistisk model på Rn+m, parametriseret ved at(F,G) ∈ F × F . Interessen knytter sig til hypotesen

H : F = G

om at der ikke er forskel på de to grupper.

Denne model er så fleksibel, at den er svær at problematisere. Den kaldes ofte forde-lingsfri, fordi vi ikke forsøger at lægge restriktioner på hvilken fordeling variablenehar. Ved dårligt udførte eksperimenter kan det naturligvis hænde at målingerne indenfor den enkelte serie ikke er uafhængige og identisk fordelte. Man kan f.eks. fore-stille sig et kemisk eksperiment, hvor temperaturen får lov at ændre sig i løbet afeksperimentserien. Man kan også forestille sig at en ingrediens genbruges fra deleks-periment til deleksperiment, og efterhånden taber i styrke. Eller man kan forestille sigat deleksperimenterne forløber samtidig, og på uhensigtsmæssig vis får lov at påvirke

Page 42: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

284 Kapitel 8. Test af statistiske hypoteser

hinanden. Men hvis eksperimentatoren har håndværket i orden, så skal modellen nokpasse. Til gengæld er modellen ikke særlig informativ - hvis hypotesen H er forkert,er det ganske svært at sige noget begavet om hvad forskellen på F og G består i.

I eksempel 8.10 analyserede vi tostikprøve problemet ud fra en meget mindre model,hvor vi antog at såvel F som G er normalfordelinger, og hvor vi oven i købet antogat variansen for F og G er den samme. Denne lille model kan man sagtens forestillesig er forkert - i mange eksperimenter er det faktisk svært at tage modellen helt al-vorligt, f.eks. fordi alle målingerne vides at være ikke-negative heltal, sådan som detessentielt er tilfældet i eksempel 8.11. Til gengæld er den lille model informativ - hvishypotesen H er forkert, kan vi sige ganske præcist hvori forskellen på F og G består:den ene fordeling fremkommer ud fra den anden ved et additivt skift, og størrelsen afdette additive skift kan estimeres. Dette estimat vil formentlig være meget vigtigere idet videre videnskabelige arbejde, end den blotte konklusion om at H forkastes.

Man kan også vende den lille models restriktive karakter til en fordel. Hvis manmed god samvittighed vil udføre det uparrede T -test fra eksempel 8.10, så må mankontrollere forudsætningerne. Det involverer at finde de empiriske fordelinger i hvergruppe, og undersøge om de nogenlunde svarer til normalfordelinger. Hvis de ikkegør det, og i særdeleshed hvis de to empiriske fordelinger ikke har samme form, så harman en vigtig konklusion, og de videre undersøgelser skal rettes mod at beskrive disseforskelle. At kontrollere forudsætningerne for T -testet involverer også at undersøgeom varianserne i de to grupper er ens, f.eks. ved et formelt test som i eksempel 8.16.Hvis varianserne er forskellige, er der ingen mening i at gå videre med T -testet. Meni så fald har vi jo også allerede konstateret en vigtig forskel på grupperne.

Men lad os nu vende tilbage til den store fordelingsfri model, og se på hvad vi over-hovedet kan gøre for at teste hypotesen H. Ofte vil man basere testet på den kombina-toriske struktur af målingerne, altså på information om hvordan målingerne fra de togrupper ligger i forhold til hinanden på den reelle akse. Man ser bort fra den metriskestruktur, altså information om den præcise placering af målingerne, og forholder sigkun til den kombinatoriske struktur.

Hvis både F og G er kontinuerte, ser man at fordelingsfunktionen for variable afformen Xi − X j, Xi − Y j og Yi − Y j alle er kontinuerte. I særdeleshed har disse for-delingsfunktioner ikke punktmasse i 0, og der er derfor sandsynlighed nul for at fåto ens observationer (ofte kaldet ties) i datamaterialet. Den kombinatoriske strukturkan i så fald opsummeres i observationernes range: vi ordner hele datamaterialet, og

Page 43: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.7. Ikke-parametrisk test 285

giver den mindste observation rang 1, den næstmindste rang 2 osv. Hvis vi lader

Zi =

Xi hvis i = 1, . . . , n

Yi−n hvis i = n + 1, . . . , n + m ,

betegne de betragtede variable stillet op i en lang række, så er den formelle definitionaf Zi’s rang:

Ri =

n+m∑

j=1

1(Z j≤Zi) , i = 1, . . . , n + m,

hvor vi tæller op hvor mange observationer, der er mindre end eller lig Z i.

Hvis vi insisterer på at F og G er kontinuerte, sådan at ties ikke forekommer, så ersekvensen af range (R1, . . . ,Rn+m) en permutation af tallene 1, . . . , n + m. Mængdenaf sådanne permutationer er den symmetriske gruppe af orden n + m, skrevet Sn+m.Lad os formelt indføre afbildningen

R : Rn+m → Sn+m

der sender en observationssekvens over i de tilhørende range.

Lemma 8.22 Under hypotesen H er R(X1, . . . ,Ym) ligefordelt på Sn+m.

B: Hvis (r1, . . . , rn+m) er en konkret permutation, så er udsagnet at(R1, . . . ,Rn+m) = (r1, . . . , rn+m) simpelthen et udsagn om at Zi’erne er placeret i enspeciel rækkefølge. Hvis (r1, . . . , rn+m) er den trivielle permutation (1, . . . , n + m), såer udsagnet om at (R1, . . . ,Rn+m) = (r1, . . . , rn+m) simpelthen det samme som at sigeat Z1 < Z2 < · · · < Zn+m.

Men under hypotesen er Zi’erne ombyttelige, så den ene rækkefølge er præcis ligeså sandsynlig som den anden. Og det oversættes til at enhver permutation har sammesandsynlighed for at blive ramt af R. Der er præcis (n +m)! permutationer i Sn+m, såvi har at

P((R1, . . . ,Rn+m) = (r1, . . . , rn+m)) =1

(n + m)!

for alle permutationer (r1, . . . , rn+m) ∈ Sn+m .�

Page 44: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

286 Kapitel 8. Test af statistiske hypoteser

Bemærk indholdet af dette lemma: det fortæller i virkeligheden at R er en niveaukon-stant teststørrelse for hypotesen H. Det eneste ubehagelige ved denne teststørrelse erat den ikke har værdier på R, hvor man relativt nemt kan udpege områder som godeeller dårlige. Tværtimod har R værdier i en væmmelig diskret mængde af permuta-tioner. Et test baseret på denne teststørrelse skal altså udpege visse permutationersom “typiske” og visse som “urimelige” for hypotesen H. I praksis kan en sådanafgrænsning bedst ske på baggrund af en fortolkelig transformation Sn+m → R.

Den måske mest oplagte form en sådan transformation kan tage, fører til Wilcoxonsrangssumstørrelse,

WWilcoxon =

n∑

i=1

Ri,

hvor man finder summen af rangene for alle observationer i den første gruppe. Underhypotesen H vil vi forvente at disse range fordeler sig “ligeligt” blandt de n + m + 1mulige range. Man viser let (se opgave 8.5) at under hypotesen H er

ERi =n + m + 1

2, VRi =

(n + m)2 − 112

. (8.19)

Man viser endvidere at

Cov(Ri,R j) = −n + m + 1

12, (8.20)

og heraf følger at hvis hypotesen H er sand, så er

EWWilcoxon = nn + m + 1

2, VWWilcoxon = n m

n + m + 112

. (8.21)

Hvis hypotesen H er sand, vil vi altså forvente at WWilcoxon falder i et område om-kring n n+m+1

2 , et område hvis bredde væsentligst er bestemt af ovennævnte varians.Der er tre muligheder for at afgrænse et præcist acceptområde:

1) Man kan tabellere fordelingen af WWilcoxon under hypotesen. Sådanne ta-beller er anført mange steder, og i særdeleshed er de indbygget i de fleste størrecomputerpakker, i hvert fald for beherskede værdier af n og m.

2) Man kan simulere fordelingen af WWilcoxon under hypotesen. Det er hurtigtog let at generere et stort antal variable med den ønskede fordeling.

3) Man kan udnytte at WWilcoxon under hypotesen stort set er normalfordeltmed middelværdi og varians bestemt ved (8.21).

Page 45: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.7. Ikke-parametrisk test 287

I princippet må de to første metoder vel foretrækkes. Men normalfordelingsapproksi-mationen er ekstremt god, selv for små gruppestørrelser, så i praksis er det som regelden man bruger. Man accepterer derfor hypotesen H på et 5% niveau hvis

WWilcoxon − nn + m + 1

2

< 1.96

n mn + m + 1

12.

Eksempel 8.23 I et eksperiment har man målt kabelstyrken for kabler, fremstilletved hjælp af en vis fusionsproces, og sammenholdt med med kabelstyrken for kablerfremstillet ved en standardmetode. Måleresultaterne er anført i tabel 8.3.

Standard Fusion

2748 2700 3027 33563149 3257 3359 32972655 2822 3125 29103213 3220 2889 2902

Tabel 8.3: Trækstyrke af kabler, fremstillet ved to forskellige metoder.

Vi ønsker at teste en hypotese om at der ingen forskel er trækstyrken af kabler, frem-stillet ved hjælp af de to metoder, og vi vil gennemføre testet ved hjælp af Wilcoxonsrangsumstørrelse. Rangene for målingerne i tabel 8.3 bliver

Standard Fusion

3 2 8 1510 13 16 141 4 9 711 12 5 6

Dermed er ransummen for standardgruppen W = 56. Begge gruppestørrelser er 8, såhvis de to grupper er ens (og hvis normalfordelingsapproksimationen står til troende),burde dette være en observation fra en normalfordeling med middelværdi 68 og vari-ans 90.67. Vi kan slå op at 56 er 10%-fraktil i denne normalfordeling. Så testet får enp-værdi op 0.20 (husk den anden hale). På det foreliggende grundlag kan vi såledesikke tillade os at konkludere at de to fremstillingsmetoder giver kabler af forskelligetrækstyrke.

Page 46: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

288 Kapitel 8. Test af statistiske hypoteser

Hvis vi ikke insisterer på at både F og G er kontinuerte, så kan vi ikke på forhåndudelukke ties. I så fald er rang et mere problematisk begreb, fordi flere observationermåske bør tildeles samme rang. Ties er hyppigt forekommende i virkelige data, sådette problem er i højeste grad reelt. Man “løser” det gerne ved at tildele observatio-nerne en gennemsnitsrang - hvis to observationer er lig hinanden, og mindre end alleandre, så giver man dem begge rang 3/2, i stedet for at give den ene rang 1 og denanden rang 2. I så fald skal man være opmærksom på at den udviklede teori formeltset ikke dækker den situation man betragter.

Alternativt kan man holde styr over de forskellige muligheder for tildeling af range,og regne en WWilcoxon-størrelse ud for hver mulighed. Man forestiller sig gerne atde observerede ties er udtryk for den nødvendige diskretisering, når data skrives nedmed endeligt mange decimaler, men at observationerne “i virkeligheden” har fornuf-tige range - vi kender dem blot ikke helt. Hvis der kun er få ties, spreder de muligeWWilcoxon-størrelser sig over et lille område, og som regel vil alle disse WWilcoxon-størrelser føre til at H accepteres, eller også vil de alle føre til at H forkastes. Hvis derderimod er mange ties, giver tilgangen gerne problemer, og det er således ikke anbe-falelsesværdigt at bruge den på data fra eksempel 2.15, hvor de censurerede variableer en form for ties.

Det officielle argument for at bruge Wilcoxons rangsum som teststørrelse i tostik-prøve problemet er som sagt at fordelingen af teststørrelsen under hypotesen H erudledt uden forudsætninger om de indgående fordelinger, og man gør sig derfor ikkeskyldig i en fejlantagelse, når man tester på denne måde.

Et ofte hørt argument mod Wilcoxons rangsum og for det uparrede T -test, er at hvisantagelserne bag T -testet vitterligt er opfyldt, så udnytter T -testet observationernebedre, og dermed får T -testet større styrke end et test baseret på Wilcoxons rangsum.

Begge disse argumenter forklæder sig som matematiske påstande. Men de har ikkemegen matematisk substans, de har i virkeligheden mest ideologisk karakter. Ogsåuden normalfordelingsantagelsen vil T -teststørrelsen give god intuitiv mening somteststørrelse for hypotesen H, og man kan give argumenter baseret på den centralegrænseværdisætning, der fortæller at under H vil T -teststørrelsen være approksima-tivt N(0, 1)-fordelt, uanset hvad den fælles fordeling af X’erne og Y’erne er, blot deindgående gruppestørrelser er store. I så fald er T -fordelingen med n + m − 2 fri-hedsgrader også stort set en N(0, 1)-fordeling, så den fejl man begår ved at holdeT -størrelsen op mod en T -fordeling er forsvindende. Omvendt, hvis man finder styr-kefunktionen for Wilcoxon-testet under normalfordelingsantagelsen, så viser den sig

Page 47: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.7. Ikke-parametrisk test 289

at være stort set uskelnelig fra styrkefunktionen for T -testet - måske en anelse dårli-gere, men der skal lup til at se det.

Et anderledes sundt argument for den parametriske tilgang fremfor den ikke-parametriske, er at selve testet kun er et blandt flere aspekter i behandlingen afdata. Opbygningen af den parametriske model, overvejelser omkring modeltilpas-ning, estimation, konfidensområder etc., spiller en langt større rolle for forståelsenaf den videnskabelige problemstilling end det formelle test. Og denne omhyggeligediskussion af forholdet mellem teori og virkelighed er kun mulig i rammen af enparametrisk model.

Lad os afslutte dette afsnit med at præsentere flere testproblemstillinger der i princip-pet kan behandles såvel parametrisk som ikke-parametrisk. Det simpleste problemaf denne art er etstikprøve problemet. Her har man uafhængige, identisk fordeltestokastiske variable X1, . . . , Xn, med fælles ukendt fordelingsfunktion F og medianξ. Problemet går ud på at undersøge hypotesen

H : ξ = 0.

Det var essentielt dette problem vi behandlede i en parametrisk ramme i eksempel 8.8.Forskellige forslag til ikke-parametriske behandlinger vil blive givet i opgaver.

I problemet med parrede observationer, er situationen at man har en række obser-vationer X11, X12, . . . , Xn1, Xn2, der er af formen

Xi1 = Ui1 + ξi , Xi2 = Ui2 + ξi + α,

hvor Ui j’erne er uafhængige og identisk fordelte stokastiske variable med ukendtfordelingsfunktion F. Her er ξi et ukendt reelt tal, der siger noget om niveauet af deti’te par, mens α repræsenterer en generel forskel på første og anden observation ihvert par. Problemet går ud på at undersøge hypotesen

H : α = 0,

altså at der ikke er nogen systematisk forskel på de to observationer i et par. Hvis manantager at Ui j’erne alle erN(0, σ2)-fordelte, er dette problem et specielt eksempel påen tosidet variansanalyse. Uden parametriske antagelser om U i j’erne står man medet såkaldt semiparametrisk problem, fordi parametriseringen både har en endelig-dimensional og en uendeligdimensional komponent, og den uendeligdimensionalekomponent mest har karakter af at være en støjparameter.

Page 48: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

290 Kapitel 8. Test af statistiske hypoteser

Som et eksempel på situationen med parrede observationer, kan man forsøge at sam-menligne nedbørsmængden over et større landområde i to år. Målingerne X i j kan hersvare til nedbørsmængden ved målestation i i år j. Nogle målestationer ligger så degenerelt får meget regn, andre ligger i tørrere områder. Disse forskelle repræsenteresaf ξi’erne, mens α er et udtryk for den systematiske forskel mellem de to år.

Danner vi differenserne Yi = Xi1−Xi2 kan vi oversætte problemet med parrede obser-vationer til et etstikprøve problem. Angribes dette etstikprøve problem med et T -test,taler man i lærebogssammenhæng ofte om et parret T -test. Man skriver gerne test-størrelsen op ved hjælp at de oprindelige Xi j-variable, og gør et stort nummer ud afat skelne mellem hvornår man skal bruge et parret T -test og hvornår man skal brugeet uparret T -test. Svaret er at man skal bruge det parrede test hvis man er nervøs forom der er forskel på parrene (altså hvis ξi’erne virkelig er nødvendige), mens manskal bruge det uparrede test, hvis man tror på at parrene er ens. Hvis der ikke er no-gen naturlig kobling mellem målingerne i et par, vil man sædvanligvis foretrække detuparrede test.

Den sidste problemstilling vi vil trække op, handler om at undersøge uafhængighed.Vi har igen reelle stokastiske variable X11, X12, . . . , Xn1, Xn2, og antagelsen er nu atparrene (Xi1, Xi2) er uafhængige, identisk fordelte todimensionale stokastiske vari-able. Parametermængden er alle de mulige fordelinger et sådant par kan have, altsåPr(R2,B2). Den interessante hypotese er

H : Xi1 og Xi2 er uafhængige.

Hypotesen parametriseres nemmest ved Pr(R) × Pr(R) og den underforståede indlej-ring i Pr(R2,B2) givet ved (µ, ν) 7→ µ ⊗ ν.

Forkastes hypotesen om uafhængighed, tages det blandt lægmænd ofte som et udtrykfor kausal afhængighed mellem variablene, oftest i form af et løfte om en interven-tionseffekt: hvis man tvinger den ene variabel til at antage bestemte værdier, vil denanden variabel automatisk følge med. Der kan ikke advares nok mod denne faldgrube.

Et eksempel kunne være samvariationen mellem cholesterol-indhold i blodet og blod-trykket. Det er velkendt at disse størrelser ikke er uafhængige, personer med højtcholesteroltal har ofte forhøjet blodtryk og vice versa. Denne sammenhæng har førttil det (i hvert fald i USA) udbredte helbredsråd om at undgå æg - cholesterol fin-des primært i æg. Tankegangen bag rådet har været, at nedsatte man indtagelsen afcholesterol, så sænkede man givetvis blodtrykket. Fejlen i argumentationen er at der

Page 49: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.8. Opgaver 291

aldrig er etableret en årsagskæde, der sikrer at en justering af den ene variabel over-hovedet har en effekt på den anden variabel. Det kan udmærket tænkes at både højtcholesteroltal og højt blodtryk i virkeligheden er to udtryk for en dybereliggende tre-die faktor, f.eks. af hormonal karakter. Justeringen af cholesterolindholdet i føden vilikke i sig selv ændre på de hormonelle forhold, og dermed vil det ikke have nogenindflydelse på blodtrykket.

8.8 Opgaver

O 8.1. Gennemfør et ikke-parametrisk test ved hjælp af Wilcoxons rangsumstør-relse for om der er forskel på den specifikke fekunditet for de to bananfluestammer,tabelleret i tabel 8.2.

O 8.2. En række studerende højde er blevet målt, resultaterne er angivet i ta-bel 8.4.

Kvinder Mænd159.8 166.8 170.1 169.9 181.1 185.0159.8 167.2 170.2 172.4 181.8 187.1159.9 168.7 172.0 176.7 181.8 188.0162.0 168.8 175.0 176.7 182.0 189.9163.9 169.0 175.8 176.8 183.0 190.3164.9 169.0 176.9 177.1 183.1 192.7165.0 169.1 178.1 178.0 183.9 196.7165.0 169.7 178.7 178.9 184.0165.2 170.0 180.1 180.0 185.0165.9 170.0 183.0 180.2 185.0

Tabel 8.4: Højdemålinger for 57 studerende, fordelt på køn.

Undersøg ved såvel parametriske som ikke-parametriske metoder om der er forskelpå højden i de to grupper.

O 8.3. To laboranter udfører henholdsvis 10 og 14 gentagne bestemmelser af fi-berindholdet i prøver af sojakager. Analyseresultaterne, angivet i procent fiberindholdaf sojakagen, er angivet i tabel 8.5.

Det forudsættes, at alle 24 prøver stammer fra samme homogene parti. Undersøg omde to laboranter måler det samme. Undersøgelsen skal gennemføres både parametrisk(ved et uparret T -test) og ikke-parametrisk (ved Wilcoxons rangsumstørrelse).

Page 50: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

292 Kapitel 8. Test af statistiske hypoteser

Laborant A Laborant B

12.252 12.426 12.094 12.251 12.31012.283 12.432 12.174 12.253 12.42412.301 12.456 12.197 12.264 12.44812.374 12.529 12.232 12.304 12.73212.375 12.578 12.245 12.307

Tabel 8.5: To laboranters analyser af fiberindholdet i sojakager.

O 8.4. Denne opgave handler om trækstyrkemålingerne fra eksempel 8.23.

S 8.4(a). Undersøg ud fra data i tabel 8.3 om der er forskel på trækstyrken forkabler, fremstillet på de to måder, ved hjælp af et uparret T -test.

S 8.4(b). Hvis vi betragter målingerne i tabel 8.3 som et piloteksperiment,hvor mange kabler vil du så anbefale at man måler trækstyrken for i det endeligeeksperiment? Lad dig lede af overvejelserne i eksempel 8.20.

O 8.5. Lad (R1, . . . ,Rn) være ligefordelt på den symmetriske gruppe Sn, som ilemma 8.22. Vis at

ER1 =n + 1

2, ER2

1 =(n + 1)(2n + 1)

6, ER1R2 =

(n + 1)(3n + 2)12

.

Vis herudfra (8.19), (8.20) og (8.21).

O 8.6. (M-W ). I visse fremstillinger aftostikprøve problemet (med observationer X1, . . . , Xn og Y1, . . . ,Ym i de to grupper)foretrækker man at undersøge hypotesen om at de to grupper er ens ved hjælp afMann-Whitney teststørrelsen

WMann-Whitney =

n∑

i=1

m∑

j=1

1(Xi < Y j)

hvor både store og små værdier er kritiske. Vis, at

WWilcoxon = nm +n(n + 1)

2−WMann-Whitney.

Gør rede for at Mann-Whitney teststørrelsen og Wilcoxons rangsum er ækvivalenteteststørrelser for hypotesen om at grupperne er ens.

Vink: rangen for Xi er Ri =∑n

k=1 1(Xk ≤ Xi) +∑m

j=1 1(Y j ≤ Xi).

Page 51: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.8. Opgaver 293

O 8.7. (F ). Lad X1, . . . , Xn være uaf-hængige, identisk fordelte observationer med ukendt fordelingsfunktion F. Vi antagerat den sande fordelingsfunktion er kontinuert og har en entydigt bestemt median ξ.Vi ønsker at undersøge hypotesen

H : ξ = 0 .

En simpel teststørrelse for denne hypotese er

S =n

i=1

1{Xi>0}.

med både små og store værdier kritiske. Et test for hypotesen om at ξ = 0 baseret påS , kaldes naturligt nok et fortegnstest.

S 8.7(a). Find fordelingen af S hvis ξ vitterligt er nul.

Til kontrol af en løbende produktion af kobbertråd udtages med passende mellemrum9 stykker tråd af ens længde. Stykkerne vejes, og måleresultaterne, angivet i gram, eranført i tabel 8.6. Man tilstræber en produktstandard svarende til en median-vægt aftrådstykkerne på 18.441 g.

18.434 18.444 18.45318.440 18.447 18.45718.443 18.452 18.461

Tabel 8.6: Kvalitetsmålinger af tykkelsen af produceret kobbertråd.

S 8.7(b). Undersøg ved hjælp af et fortegnstest om den udførte kvalitetskontrolgiver anledning til indgreb i processen.

O 8.8. (W ). Lad X1, . . . , Xn væreuafhængige, identisk fordelte observationer med ukendt fordelingsfunktion F. Vi an-tager at den sande fordelingsfunktion er kontinuert, har en entydigt bestemt medianξ og at fordelingen er symmetrisk omkring ξ. Vi ønsker at undersøge hypotesen

H : ξ = 0 .

Her kan man benytte Wilcoxons rangteststørrelse:

VWilcoxon =∑

i≤ j

1{Xi+X j>0}

Page 52: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

294 Kapitel 8. Test af statistiske hypoteser

med både store og små værdier kritiske. På engelsk kaldes denne størrelse Wilcoxonssigned-rank statistic, hvilket gør det lidt nemmere at skelne den fra Wilcoxons rankstatistic WWilcoxon, end de danske betegnelser gør.

S 8.8(a). Gør rede for at VWilcoxon formelt kan fortolkes i forhold til Mann-Whitneys teststørrelse WMann-Whitney (se opgave 8.6) udregnet på de to virtuellegrupper af observationer −X1, . . . ,−Xn og X1, . . . , Xn ud fra følgende formel:

2 VWilcoxon = S +WMann-Whitney.

Her er S fortegnsteststørrelsen fra opgave 8.7.

S 8.8(b). Vis at hvis ξ = 0, så vil fordelingsfunktionen F opfylde at

F(−x) = 1 − F(x) for alle x ∈ R .

Gør rede for at der i så fald findes en strengt voksende fraktilfunktion q, så

q(1 − p) = −q(p) for alle p ∈ (0, 1) .

S 8.8(c). Gør rede for at hvis ξ = 0, så vil fordelingen af VWilcoxon ikke af-hænge af den sande fordelingsfunktion F.Vink: Vi kan tænke os Xi’erne frembragt som q(Ui), hvor U1, . . . ,Un er uafhæn-gige, ligefordelte variable på (0, 1), og hvor q er en fraktilfunktion for F. Vis atrangtesttørrelsen udregnet på baggrund af Xi’erne, er den samme som rangtest-størrelsen udregnet på baggrund af Ui’erne.

S 8.8(d). Vis, at hvis ξ = 0 så er EVWilcoxon =n(n+1)

4 .

S 8.8(e). Vis ved kraftig brug af symmetriargumenter, at hvis ξ = 0 så er

Var(1{Xi+X j>0}) =12− 1

4=

14

(8.22)

mens

Cov(1{Xi+Xi>0}, 1{Xi+X j>0}) =38− 1

4=

18, i , j (8.23)

og

Cov(1{Xi+X j1>0}, 1{Xi+X j2>0}) =13− 1

4=

112, i , j1, i , j2, j1 , j2. (8.24)

Page 53: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.8. Opgaver 295

S 8.8(f). Vis, at hvis ξ = 0 så er

Var(VWilcoxon) =∑

i≤ j

k≤l

Cov(1{Xi+X j>0}, 1{Xk+Xl>0})

=

(

n +

(

n2

))

· 14+

(

n2

)

· 2 · 2 · 18+

(

n3

)

· 3 · 2 · 112

=n(n + 1)(2n + 1)

24.

Under hypotesen om at ξ = 0 er VWilcoxon approksimativt normalfordelt med oven-nævnte middelværdi og varians, og approksimationen er ekstremt god, selv for småværdier af n. I praksis udregner man ikke VWilcoxon ud fra definitionen, men på bag-grund af følgende betragtninger:

S 8.8(g). Lad X(1) < · · · < X(n) være de ordnede værdier af Xi’erne, og lad R+ivære rangen af |Xi| blandt |X1|, . . . , |Xn|. Vis, at

VWilcoxon =∑

i≤ j

1{Xi+X j>0} =∑

i≤ j

1{X(i)+X( j)>0}

=

n∑

j=1

1{X( j)>0}|{i = 1, . . . , j | |X(i)| ≤ |X( j)|}| =n

j=1X j>0

R+j .

Teststørrelsen fremkommer således ved at finde rangene af de absolutte værdieraf observationerne og derefter bestemme summen af rangene for de positive ob-servationer.

O 8.9. Analyser datamaterialet i tabel 8.6, både ved hjælp af Wilcoxons rang-teststørrelse, og ved hjælp af parametriske metoder.

O 8.10. På et laboratorium måles trækstyrken for stof, som har været gennemforskellige vaskeprocesser. Målingerne foretages af to laboranter, og man er nu in-teresseret i at undersøge, om de udfører forsøget ens. Man har derfor foretaget etkontroleksperiment, idet man har klippet 15 stykker af en rulle stof, hver af disse harman delt i 10 mindre stykker og givet 5 til hver laborant. Som mål for trækstyrken afhvert af de 15 stykker har man for hver laborant taget gennemsnittet af de 5 resultater.Man har opnået følgende resultater:

Page 54: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

296 Kapitel 8. Test af statistiske hypoteser

1 2 3 4 5 6 7 8A 51.5 51.6 50.0 50.5 47.8 48.9 50.2 51.0B 49.3 47.3 51.3 51.4 50.2 53.5 51.2 51.6

9 10 11 12 13 14 15A 51.2 50.6 50.1 50.3 50.3 52.0 54.6B 50.2 50.2 49.8 52.6 53.5 51.0 52.7

På grundlag af disse gennemsnit skal det vurderes om resultater af en måling afhæn-ger af hvilken laborant, der har udført forsøget.

O 8.11. På 11 forsøgsstationer er der i perioden fra 1930 til 1935 gennemført enrække ensartede landbrugsforsøg. Før og efter forsøgsrækken har man målt jordensindhold af klorkalium (KCl):

Forsøgsstation 1 2 3 4 5 6 7 8KCl 1930 7.30 6.14 6.47 5.87 6.06 4.71 5.45 6.17KCl 1935 7.70 6.72 6.32 6.38 6.34 5.78 5.59 6.33

Forsøgsstation 9 10 11KCl 1930 5.83 5.55 5.50KCl 1935 5.50 5.55 6.08

Har forsøgene medført en påviselig ændring i jordens indhold af klorcalium ?

O 8.12. (K ). Når man skal belyse spørgsmålet om uafhængighedmellem målte talpar (X1,Y1), . . . , (Xn,Yn), benytter man ofte et kombinatorisk kon-kordansbegreb.

Vi siger at to observationspar (Xi,Yi) og (X j,Y j) er i konkordans hvis Xi−X j og Yi−Y j

har samme fortegn. To observationspar der ikke er i konkordans, er i diskordans. Videfinerer for i < j

Ci j = (2 · 1{Xi>X j} − 1)(2 · 1{Yi>Y j} − 1).

S 8.12(a). Hvilke værdier kan Ci j antage? Hvad siger Ci j-værdien om konkor-dans/diskordans af observationsparret (Xi,Yi) og (X j,Y j) ?

Vi antager at fremover at parrene (X1,Y1), . . . , (Xn,Yn) er uafhængige og identisk for-delte. Den marginale fordeling af Xi’erne har fordelingsfunktion F, den marginalefordeling af Yi’erne har fordelingsfunktion G. En teststørrelse for hypotesen om uaf-

Page 55: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.8. Opgaver 297

hængighed mellem Xi og Yi er Kendalls tau,

τ =

(

n2

)−1∑

i< j

Ci j

med både store og små værdier kritiske.

S 8.12(b). Lad T være antallet af par (i, j), i < j, hvor de tilhørende observa-tionspar (Xi,Yi) og (X j,Y j) er i konkordans. Vis, at

τ =4T

n(n − 1)− 1.

S 8.12(c). Hvilken afvigelse fra hypotesen om uafhængighed måler τ? Hvader de mulige τ-værdier?

S 8.12(d). Gør rede for at hvis Xi’erne og Yi’erne er uafhængige, så vil forde-lingen af τ ikke afhænger af F og G.

S 8.12(e). Vis ved brug af symmetriargumenter, at hvis Xi’erne og Yi’erne eruafhængige så er Eτ = 0.

S 8.12(f). Vis for i < j og k < l, at hvis Xi’erne og Yi’erne er uafhængige så er

E(1{Xi>X j}1{Xk>Xl}) =

12 , i = k, j = l

13 , i = k, j , l eller i , k, j = l16 , j = k eller i = l

14 , ellers.

S 8.12(g). Vis at hvis Xi’erne og Yi’erne er uafhængige så er

Var(Ci j) = 1,

mens det for i < j < k gælder at

Cov(Ci j,Cik) = Cov(Cik,C jk) = Cov(Ci j,C jk) =19.

S 8.12(h). Vis at hvis Xi’erne og Yi’erne er uafhængige så er

Var(τ) =

(

n2

)−2 {(

n2

)

+

(

n3

)

69

}

=2(2n + 5)9n(n − 1)

. (8.25)

Page 56: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

298 Kapitel 8. Test af statistiske hypoteser

Fordelingen af τ under hypotesen om uafhængighed er tabelleret forskellige steder.Men i praksis bruger man oftest en normalfordelingsapproksimation med middel-værdi 0 og varians (8.25).

O 8.13. (S ). Antag at de todimensionale variable(X1,Y1), . . . , (Xn,Yn) er uafhængige og identisk fordelte. Den marginale fordelingaf Xi’erne har fordelingsfunktion F, den marginale fordeling af Yi’erne har forde-lingsfunktion G. Lad R1, . . . ,Rn være rangene af X1, . . . , Xn og Q1, . . . ,Qn rangeneaf Y1, . . . ,Yn. En teststørrelse for hypotesen om uafhængighed mellem Xi’erne ogYi’erne er Spearmans rangkorrelationskoefficient

ρ =

∑ni=1(Ri − n+1

2 )(Qi − n+12 )

∑ni=1(i − n+1

2 )2.

S 8.13(a). Fortolk ρ som en korrelation, og gør rede for at variations-områdeter indeholdt i [−1, 1].

S 8.13(b). Vis, at

ρ = 1 − 12n(n + 1)(n − 1)

n∑

i=1

i2 − S

,

hvor S =∑n

i=1 RiQi. Teststørrelserne ρ og S er således ækvivalente. (Både små ogstore værdier af ρ og S er kritiske).

S 8.13(c). Gør rede for at hvis Xi’erne og Yi’erne er uafhængige, så vil forde-lingen af ρ ikke afhænge af F og G.

S 8.13(d). Vis ved kraftig brug af symmetriargumenter, at hvis Xi’erne ogYi’erne er uafhængige, så er for i , j

ERi =n + 1

2, ER2

i =(n + 1)(2n + 1)

6, ERi R j =

(n + 1)(3n + 2)12

.

S 8.13(e). Vis, at hvis Xi’erne og Yi’erne er uafhængige, så er

ES =n(n + 1)2

4, Var(S ) =

n2(n + 1)2(n − 1)144

.

Gør herudfra rede for at

Eρ = 0, Var(ρ) =1

n − 1.

Page 57: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

8.8. Opgaver 299

Fordelingen af ρ er tabelleret forskellige steder. Men i praksis bruger man oftest ennormalfordelingsapproksimation med middelværdi 0 og varians 1/(n − 1).

O 8.14. For at undersøge om der var hold i den almindelige antagelse, at encel-lede individer frembragt ved celledeling er identiske (og identiske med modercellen)foretog J.Y. Simpson følgende forsøg:

Man målte længde af individer frembragt ved ukønnet deling af 20 individer af artenParamaecium caudatum, idet man skelnede imellem om de nye individer stammedefra modercellens forende eller bagende, og målte følgende længder (angivet i µ):

Celle nr. 1 2 3 4 5 6 7 8 9 10Forreste afkom 265 280 230 270 285 250 185 210 215 210Bageste afkom 245 275 250 250 280 255 180 220 220 195

Celle nr. 11 12 13 14 15 16 17 18 19 20Forreste afkom 175 240 210 240 245 235 220 240 270 250Bageste afkom 170 235 200 230 235 225 215 235 280 245

Understøtter data antagelsen om encellede individer frembragt ved celledeling eridentiske?

Page 58: Kapitel 8 - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap8.pdf · Mange o entlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt

300 Kapitel 8. Test af statistiske hypoteser