Statistik II 5. Lektion

Statistik II5. Lektion

Log-lineære modeller

Log-linære Modeller

Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable.

Kan ses som en udvidelse af c2-testet af uafhængighed.

Kontingenstabel Contingency: Mulighed/tilfælde Kontingenstabel: Antal observationer (frekvenser) i klasser

givet ved krydstabulering af et antal kategoriske variable. Eksempel på to-vejstabel:

Det ”sædvanlige” c2-test for uafhængighed:

Log-lineær Model

Antag vi har n personer og to kategoriske variable U (Uddannelse) og H (Holdning).

Sandsynligheden for at en tilfældigt valgt person har uddannelse u og holdning h er:

Den forventede frekvens for U=u og H=h er:

uhhHuUP ),(

uhuh nF

Parametrisk form Generelt antager vi at de log forventede frekvenser er givet

ved

Præcist som i multipel og lineær regression har vi hoved-effekter (bu og bh) samt en interaktionseffekt (buh).

Og som sædvanligt bruger vi dummy variable som regneteknisk trick til at håndtere kategoriske variable.

hvor xu, xh og xuh er dummy variable.

uhhuuhF bbb )log(

uhuhhhuuuh xxxF bbb )log(

Uafhængighed

To variable U og H er uafhængige hvis og kun hvis

For den log-lineære model betyder det:

Dvs. der er ikke et led der afhænger af både U og H.

)()(),( hHPuUPhHuUP huuh

hu

hu

hu

uhuh

nnnF

bb

)log()log()log()log(

)log()log(

Estimation I SPSS estimerer man en log-lineær model vha. Analyze →

Loglinear → General. Vælg ’Estimates’ Under ’Options’. Resultat:

Resultat

Estimerede model:

Fx: F11 = exp(7,097) = 1208.33 ≈ 1208 Fx: F00 = exp(7,097-0.015-0.7110.401) = 873.06 ≈ 873 Bemærk: Der er hhv. 1208 og 873 i de to kobinationer.

uhhuuh xxxF 401,0711,0015,0097,7)log( --

Modelform

Selv uden dummy variable bliver log-lineære modeller hurtigt besværlige at skrive op.

I log-lineære modeller er modellens struktur mere interessant end parametrenes værdi.

Derfor skriver vi modellen

på modelforlenU + H + U*H

Da modellen skal overholde det hierarkiske princip kan vi nøjes med at skrive

U*H

uhhuuhF bbb )log(

Opbygning af en model Først vælge variable af interesse Dernæst specificerer vi en startmodel, der indeholder de

interaktioner der er af faglig interesse. Dog skal startmodellen overholder det hierarkiske princip. Indeholder startmodellen et interaktionsled, hvor alle variable

indgår kaldes startmodellen en mættet model. Med udgangspunkt i en startmodel laves en backwards

søgning. I hvert trin fjerner vi det led i modellen med det højst p-værdi

over 0.05 – under hensyntagen til det hierarkiske princip. Resultatet kaldes slutmodellen.

Større Eksempel

Analyse af sammenhængen mellem fire kategoriske variable: B: Boligstandard: 0 = dårlig, 1 = acceptabel, 2 = god H: Helbred: 0 = godt, 1 = dårligt I: Isoleret: 0 = ja, 1 = nej A: Angst: 0 = nej, 1 = ja

Vi starter med en mættet model, dvs. en model der indeholder interaktioner mellem alle fire variable.

ModelformelA*B*H*I

Krydstabel Krydstabel over de fire variable: SPSS: Analyze → Descriptive Statistics → Crosstabs

H i row, B i column, I i Layer 1 og A i Layer 2:

Hvad siger I? Hvad er sammenhængene?

Startmodel Startmodellen er en mættet model, dvs.

SPSS vælger som standard den sidste kategori som reference.

Alle parametre der involverer en eller flere referencekategorier sættes lig nul.

abhi

bhiahiabiabh

hibibhaiahab

ihba

abhiF

bbbbb

bbbbbbbbbb

)log(

Modelsøgning SPSS: Modelsøgningen følger ”backwards” metoden I hvert trin tester SPSS hvilke led i modellen, der kan fjernes i

henhold til det hierarkiske princip.

Eksempel: Efter tre trin i modelsøgningen har vi modellen:B*H*A + H*I*A + B*I

Fjerner H*I*A da mindst signifikant (og over 0.05). Ny model:B*H*A+ B*I+H*I+I*A

Modelsøgning SPSS: Analyze → Loglinear → Model selection

For hver variabel angiv variablens ”range”.

Under ’Model’ angiv startmodellen.

Default er en mættet startmodel.

Under ’Options’ kan I vælge ’Parameter estimates’

Slutmodel Modelsøgningen ender med en slutmodel:

Dvs. slutmodellen er:B*I + H*I + I*A + B*H + B*A + H*A

Et ”goodness-of-fit” test af slutmodellen:

Konklusion: Vi kan ikke afvise at modellen passer.

Grafisk repræsentering En grafisk repræsentering opnås ved at

1) Tegn en cirkel for hver variabel.2) Forbind variable, der indgår i samme modelled.

Eksempel: Antag modellen erA*B + B*H*I

B

A

I

H

Fortolkning af slutmodel

Uafhængighed: Hvis A indgår i modelformlen, men A ikke indgår i andre led (fx A*B, A*H, osv), så er A uafhængig.

Fx:A + B*H + B*I

Forklaret sammenhæng. Hvis B og H ikke indgår i samme led, så er en eventuel sammenhæng forklaret af andre variable. Dvs. slutmodellen må ikke indeholde fx B*H, B*H*A eller A*B*H*I.

Fx:B*I + A*I*H

B

A

IH

B

A

IH

Fortolkning af slumodel - fortsat Homogen sammenhæng: Hvis A*H indgår i modellen, men

A*H ikke indgår i merre komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholder A*H*I, A*B*H eller A*B*H*I.

Fx:A*H + A*I*B + B*H

Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I

Fx:A*B*H + A*I*B

B

I

AH

B

I

AH

Bem

ærk

at g

rafe

rne

er e

ns!!

Slutmodel: Fortolkning I eksemplet var slutmodellen:

B*I + H*I + I*A + B*H + B*A + H*A

Vi kan umiddelbart se, at vi ingen uafhængige variable har.

B

A

IH

Af den grafiske repræsentation kan vi se, at der ingen forklarede sammenhænge optræder i modellen.

Vi har homogene sammenhænge mellem alle par af variable.

Parameterestimater + Modelkontrol Slutmodellen er et udtryk for sammenhænge mellem

variablene i modellen. Slutmodellen siger ikke noget præcist om sammenhængene,

fx negative eller positive sammenhænge. Generelt er det svært at fortolke parametre…

SPSS kan estimere parametre i en given log-lineær model: Analyze → Loglinear → General Under ’Model’ vælg ’Custom’ og indsæt slutmodellen (først

hovedeffekter, derefter to-vejs interaktioner osv). Under ’Options’ vælg ’Estimates’ og de to plot for ’Adjusted

residuals’

SPSS…

Estimater

Flere estimater…

Hvad er den forventede frekvens for A=0, B=1, H=0 og I=1?

Modelkontrol: Forventede vs Observerede

Ønskeligt: Expected ≈ ObservedVariationen i Adj. Resid. er usystematisk.

QQ-plot

Prikkerne bør ligge usystematisk omkring linjen

Documents

Statistik II 5. Lektion