26
Statistik II 5. Lektion Log-lineære modeller

Statistik II 5. Lektion

  • Upload
    erica

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

Statistik II 5. Lektion. Log-lineære modeller. Log-linære Modeller. Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. Kan ses som en udvidelse af c 2 -testet af uafhængighed. Kontingenstabel. - PowerPoint PPT Presentation

Citation preview

Page 1: Statistik  II 5.  Lektion

Statistik II5. Lektion

Log-lineære modeller

Page 2: Statistik  II 5.  Lektion

Log-linære Modeller

Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable.

Kan ses som en udvidelse af c2-testet af uafhængighed.

Page 3: Statistik  II 5.  Lektion

Kontingenstabel Contingency: Mulighed/tilfælde Kontingenstabel: Antal observationer (frekvenser) i klasser

givet ved krydstabulering af et antal kategoriske variable. Eksempel på to-vejstabel:

Det ”sædvanlige” c2-test for uafhængighed:

Page 4: Statistik  II 5.  Lektion

Log-lineær Model

Antag vi har n personer og to kategoriske variable U (Uddannelse) og H (Holdning).

Sandsynligheden for at en tilfældigt valgt person har uddannelse u og holdning h er:

Den forventede frekvens for U=u og H=h er:

uhhHuUP ),(

uhuh nF

Page 5: Statistik  II 5.  Lektion

Parametrisk form Generelt antager vi at de log forventede frekvenser er givet

ved

Præcist som i multipel og lineær regression har vi hoved-effekter (bu og bh) samt en interaktionseffekt (buh).

Og som sædvanligt bruger vi dummy variable som regneteknisk trick til at håndtere kategoriske variable.

hvor xu, xh og xuh er dummy variable.

uhhuuhF bbb )log(

uhuhhhuuuh xxxF bbb )log(

Page 6: Statistik  II 5.  Lektion

Uafhængighed

To variable U og H er uafhængige hvis og kun hvis

For den log-lineære model betyder det:

Dvs. der er ikke et led der afhænger af både U og H.

)()(),( hHPuUPhHuUP huuh

hu

hu

hu

uhuh

nnnF

bb

)log()log()log()log(

)log()log(

Page 7: Statistik  II 5.  Lektion

Estimation I SPSS estimerer man en log-lineær model vha. Analyze →

Loglinear → General. Vælg ’Estimates’ Under ’Options’. Resultat:

Page 8: Statistik  II 5.  Lektion

Resultat

Estimerede model:

Fx: F11 = exp(7,097) = 1208.33 ≈ 1208 Fx: F00 = exp(7,097-0.015-0.7110.401) = 873.06 ≈ 873 Bemærk: Der er hhv. 1208 og 873 i de to kobinationer.

uhhuuh xxxF 401,0711,0015,0097,7)log( --

Page 9: Statistik  II 5.  Lektion

Modelform

Selv uden dummy variable bliver log-lineære modeller hurtigt besværlige at skrive op.

I log-lineære modeller er modellens struktur mere interessant end parametrenes værdi.

Derfor skriver vi modellen

på modelforlenU + H + U*H

Da modellen skal overholde det hierarkiske princip kan vi nøjes med at skrive

U*H

uhhuuhF bbb )log(

Page 10: Statistik  II 5.  Lektion

Opbygning af en model Først vælge variable af interesse Dernæst specificerer vi en startmodel, der indeholder de

interaktioner der er af faglig interesse. Dog skal startmodellen overholder det hierarkiske princip. Indeholder startmodellen et interaktionsled, hvor alle variable

indgår kaldes startmodellen en mættet model. Med udgangspunkt i en startmodel laves en backwards

søgning. I hvert trin fjerner vi det led i modellen med det højst p-værdi

over 0.05 – under hensyntagen til det hierarkiske princip. Resultatet kaldes slutmodellen.

Page 11: Statistik  II 5.  Lektion

Større Eksempel

Analyse af sammenhængen mellem fire kategoriske variable: B: Boligstandard: 0 = dårlig, 1 = acceptabel, 2 = god H: Helbred: 0 = godt, 1 = dårligt I: Isoleret: 0 = ja, 1 = nej A: Angst: 0 = nej, 1 = ja

Vi starter med en mættet model, dvs. en model der indeholder interaktioner mellem alle fire variable.

ModelformelA*B*H*I

Page 12: Statistik  II 5.  Lektion

Krydstabel Krydstabel over de fire variable: SPSS: Analyze → Descriptive Statistics → Crosstabs

H i row, B i column, I i Layer 1 og A i Layer 2:

Hvad siger I? Hvad er sammenhængene?

Page 13: Statistik  II 5.  Lektion

Startmodel Startmodellen er en mættet model, dvs.

SPSS vælger som standard den sidste kategori som reference.

Alle parametre der involverer en eller flere referencekategorier sættes lig nul.

abhi

bhiahiabiabh

hibibhaiahab

ihba

abhiF

bbbbb

bbbbbbbbbb

)log(

Page 14: Statistik  II 5.  Lektion

Modelsøgning SPSS: Modelsøgningen følger ”backwards” metoden I hvert trin tester SPSS hvilke led i modellen, der kan fjernes i

henhold til det hierarkiske princip.

Eksempel: Efter tre trin i modelsøgningen har vi modellen:B*H*A + H*I*A + B*I

Fjerner H*I*A da mindst signifikant (og over 0.05). Ny model:B*H*A+ B*I+H*I+I*A

Page 15: Statistik  II 5.  Lektion

Modelsøgning SPSS: Analyze → Loglinear → Model selection

For hver variabel angiv variablens ”range”.

Under ’Model’ angiv startmodellen.

Default er en mættet startmodel.

Under ’Options’ kan I vælge ’Parameter estimates’

Page 16: Statistik  II 5.  Lektion

Slutmodel Modelsøgningen ender med en slutmodel:

Dvs. slutmodellen er:B*I + H*I + I*A + B*H + B*A + H*A

Et ”goodness-of-fit” test af slutmodellen:

Konklusion: Vi kan ikke afvise at modellen passer.

Page 17: Statistik  II 5.  Lektion

Grafisk repræsentering En grafisk repræsentering opnås ved at

1) Tegn en cirkel for hver variabel.2) Forbind variable, der indgår i samme modelled.

Eksempel: Antag modellen erA*B + B*H*I

B

A

I

H

Page 18: Statistik  II 5.  Lektion

Fortolkning af slutmodel

Uafhængighed: Hvis A indgår i modelformlen, men A ikke indgår i andre led (fx A*B, A*H, osv), så er A uafhængig.

Fx:A + B*H + B*I

Forklaret sammenhæng. Hvis B og H ikke indgår i samme led, så er en eventuel sammenhæng forklaret af andre variable. Dvs. slutmodellen må ikke indeholde fx B*H, B*H*A eller A*B*H*I.

Fx:B*I + A*I*H

B

A

IH

B

A

IH

Page 19: Statistik  II 5.  Lektion

Fortolkning af slumodel - fortsat Homogen sammenhæng: Hvis A*H indgår i modellen, men

A*H ikke indgår i merre komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholder A*H*I, A*B*H eller A*B*H*I.

Fx:A*H + A*I*B + B*H

Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I

Fx:A*B*H + A*I*B

B

I

AH

B

I

AH

Bem

ærk

at g

rafe

rne

er e

ns!!

Page 20: Statistik  II 5.  Lektion

Slutmodel: Fortolkning I eksemplet var slutmodellen:

B*I + H*I + I*A + B*H + B*A + H*A

Vi kan umiddelbart se, at vi ingen uafhængige variable har.

B

A

IH

Af den grafiske repræsentation kan vi se, at der ingen forklarede sammenhænge optræder i modellen.

Vi har homogene sammenhænge mellem alle par af variable.

Page 21: Statistik  II 5.  Lektion

Parameterestimater + Modelkontrol Slutmodellen er et udtryk for sammenhænge mellem

variablene i modellen. Slutmodellen siger ikke noget præcist om sammenhængene,

fx negative eller positive sammenhænge. Generelt er det svært at fortolke parametre…

SPSS kan estimere parametre i en given log-lineær model: Analyze → Loglinear → General Under ’Model’ vælg ’Custom’ og indsæt slutmodellen (først

hovedeffekter, derefter to-vejs interaktioner osv). Under ’Options’ vælg ’Estimates’ og de to plot for ’Adjusted

residuals’

Page 22: Statistik  II 5.  Lektion

SPSS…

Page 23: Statistik  II 5.  Lektion

Estimater

Page 24: Statistik  II 5.  Lektion

Flere estimater…

Hvad er den forventede frekvens for A=0, B=1, H=0 og I=1?

Page 25: Statistik  II 5.  Lektion

Modelkontrol: Forventede vs Observerede

Ønskeligt: Expected ≈ ObservedVariationen i Adj. Resid. er usystematisk.

Page 26: Statistik  II 5.  Lektion

QQ-plot

Prikkerne bør ligge usystematisk omkring linjen