19
Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet e-mail: [email protected] http://staff.pubhealth.ku.dk/~lts/basal07_2

Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Basal statistik

30. oktober 2007

Den generelle lineære model

• Repetition af variansanalyse

og multipel regression

• Interaktion

• Kovariansanalyse

• Parametriseringer

Lene Theil Skovgaard,

Biostatistisk Afdeling

Institut for Folkesundhedsvidenskab,

Københavns Universitet

e-mail: [email protected]

http://staff.pubhealth.ku.dk/~lts/basal07_2

Page 2: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 1

Multipel regressionsanalyse

(Repetition)

Generel form:

Y = β0 + β1x1 + · · ·+ βkxk + ǫ

Ide: x’erne kan være hvadsomhelst!

De behøver ikke være kvantitative (højde, vægt.....)

Begrebet lineær model dækker over en model der kan skrives op som

ovenfor med hvad som helst som x’er.

SAS Analyst: Statistics/ANOVA/Linear models

Den generelle lineære model, oktober 2007 2

Eksempel: Ensidet varians-analyse

Identifikation af k grupper vha ”dummy”variable:

x1 er 1 hvis person er i første gruppe og 0 ellers

x2 er 1 hvis person er i anden gruppe og 0 ellers

.

xk−1 er 1 hvis person er i k-1 gruppe og 0 ellers

model:

Y = β0 + β1x1 + · · ·+ βk−1xk−1 + ǫ

Med denne kodning vil β0 svare til niveau for k’te gruppe;

β1 er forskel i niveau mellem første og k’te gruppe;

β2 er forskel i niveau mellem anden og k’te gruppe; osv....

Den generelle lineære model, oktober 2007 3

Ensidet variansanalyse i SAS

Det er netop den kodning der bruges i SAS, nar gruppe-variabel

angives som kategorisk (”Statistics/Anova/Linear Models/Class”) .

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 11.37500000 B 0.61906539 18.37 <.0001

Traening Aktiv -1.25000000 B 0.87549067 -1.43 0.1696

Traening Ingen 0.33333333 B 0.87549067 0.38 0.7076

Traening Kontrol 0.97500000 B 0.91822236 1.06 0.3016

Traening Passiv 0.00000000 B . . .

SAS output fra den velkendte øvelsesopgave ”Alder ved gang”

Bemærk: Ved omkodning af gruppe niveauer kan man fa en vilkarlig

forskel frem!

Page 3: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 4

Eksempel: Tosidet varians-analyse uden interaktion

k1 × k2 grupper,

identificeret ved to Class-variable med hhv k1 og k2 niveauer:

x(1)i er 1 hvis person antager i’te level af første variabel og 0 ellers

z(2)j er 1 hvis person antager j’te level af anden variabel og 0 ellers

Model:

Y = µ + α1x(1)1 + · · ·+ αk1−1x

(1)k1−1 + β1z

(2)1 + · · ·+ βk2−1z

(2)k2−1 + ǫ.

µ svarer til niveau for gruppe med k1’te level hhv k2’te level af første

hhv anden variabel; αi er forskel i niveau mellem personer med hhv

i’te level og k1’te level af første variabel; βj er forskel i niveau mellem

personer med hhv j’te level og k2’te level af anden variabel.

Den generelle lineære model, oktober 2007 5

Tosidet variansanalyse uden interaktion i SAS

Igen er det den kodning der bruges i SAS, nar variable angives som

kategoriske (”Statistics/Anova/Linear Models/Class”) .

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 4.423313583 B 0.16436984 26.91 <.0001

abstid 1 -0.431122104 B 0.20432607 -2.11 0.0362

abstid 2 -0.335995670 B 0.17208271 -1.95 0.0524

abstid 3 0.000000000 B . . .

sas_ansat ja -0.430366136 B 0.16920287 -2.54 0.0118

sas_ansat ne 0.000000000 B . . .

SAS output fra den velkendte øvelsesopgave ”Sædkvalitet”

Den generelle lineære model, oktober 2007 6

Eksempel: Tosidet variansanalyse med interaktion

Ekstra ”dummy”variabel

v∗i,j = x(1)i × z

(2)j

Model:

Y =µ + α1x(1)1 + · · ·+ αk1−1x

(1)k1−1 + β1z

(2)1 + · · ·+ βk2−1z

(2)k2−1

+ γ1v∗

1,1 + · · ·+ γ(k1−1)×(k2−1)v∗

k1−1,k2−1 + ǫ.

γ’erne er den del af forskel i niveau mellem personer der kan

tilskrives synergi-effekten mellem variabel 1 og 2.

I epidemiologiske termer: Variabel 1 modificerer effekten af variabel 2.

Bemærk: Nar der er interaktion, giver det ikke længere mening at

tolke α’er og β’er som overall forskelle i niveauer!

Page 4: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 7

Tosidet variansanalyse med interaktion i SAS

Igen er det den kodning der bruges i SAS, nar variable angives som

kategoriske (”Statistics/Anova/Linear Models/Class”) og vekselvirkning

inkluderes (”Statistics/Anova/Linear Models/Model/Cross”).

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 4.468451867 B 0.20862773 21.42 <.0001

sas_ansat ja -0.493416436 B 0.24657162 -2.00 0.0469

sas_ansat ne 0.000000000 B . . .

abstid 1 -0.752956521 B 0.36633825 -2.06 0.0413

abstid 2 -0.244140421 B 0.33396731 -0.73 0.4657

abstid 3 0.000000000 B . . .

Den generelle lineære model, oktober 2007 8

sas_ansat*abstid ja 1 0.472560578 B 0.44158949 1.07 0.2860

sas_ansat*abstid ja 2 -0.120579329 B 0.38981800 -0.31 0.7574

sas_ansat*abstid ja 3 0.000000000 B . . .

sas_ansat*abstid ne 1 0.000000000 B . . .

sas_ansat*abstid ne 2 0.000000000 B . . .

sas_ansat*abstid ne 3 0.000000000 B . . .

Source DF Type I SS Mean Square F Value Pr > F

sas_ansat 1 6.97609675 6.97609675 6.41 0.0122

abstid 2 6.66019970 3.33009985 3.06 0.0493

sas_ansat*abstid 2 1.83336563 0.91668282 0.84 0.4323

Source DF Type III SS Mean Square F Value Pr > F

sas_ansat 1 4.84057554 4.84057554 4.45 0.0363

abstid 2 6.63098257 3.31549128 3.05 0.0499

sas_ansat*abstid 2 1.83336563 0.91668282 0.84 0.4323

Den generelle lineære model, oktober 2007 9

Mere parametrisering

Generelt:

µij = µ + αi + βj + γij .

I eksempel ovenfor:

Niveau for sas ansat ne med abstid 1 = 4.468 + (−0.753),

Niveau for sas ansat ne med abstid 2 = 4.468 + (−0.244),

Niveau for sas ansat ne med abstid 3 = 4.468,

Niveau for sas ansat ja med abstid 1 = 4.468 + (−0.493) + (−0.753) + 0.473,

Niveau for sas ansat ja med abstid 2 = 4.468 + (−0.493) + (−0.244) + (−0.121),

Niveau for sas ansat ja med abstid 3 = 4.468 + (−0.493).

Page 5: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 10

Men: Outcome var jo logaritmetransformeret!

Vi skal transformere tilbage:

’Frem’ med log, ’tilbage’ med exp

sas_ansat abstid pa log-skala tilbagetransformeret

1: kort 3.72 41.1

nej 2: mellem 4.22 68.3

3: lang 4.47 87.2

1: kort 3.69 40.2

ja 2: mellem 3.61 37.0

3: lang 3.98 53.3

Den generelle lineære model, oktober 2007 11

Sadan ser de fittede værdier (y) ud rent grafisk

Den generelle lineære model, oktober 2007 12

Tænkt eksempel pa vekselvirkning (interaktion):

• To inddelingskriterier: køn og rygestatus

• Outcome: FEV1

• Effekten af rygning afhænger af køn

• Forskellen pa kønnene afhænger af rygestatus

Page 6: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 13

Mulige forklaringer:

• biologisk forskel pa effekt af rygning

– holder vist ikke i praksis,

men eksemplet er jo ogsa blot ’tænkt’

• maske ryger kvinderne ikke helt sa meget

– antal pakkear confounder for køn

• maske virker rygningen som en relativ

(%-vis) nedsættelse af FEV1

– kunne undersøges ved en longitudinel undersøgelse

Den generelle lineære model, oktober 2007 14

Eksempel: Rygnings effekt pa fødselsvægt

Den generelle lineære model, oktober 2007 15

Interaktion/vekselvirkning mellem mængden og varigheden af

rygningen

• Der er effekt af mængden, men kun hvis man har røget længe.

• Der er effekt af varigheden, og denne effekt øges med mængden.

Effekten af mængden afhænger af....

og effekten af varigheden afhænger af....

Page 7: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 16

Modelreduktion - kvadratsummer

Nar man arbejder med mere komplicerede lineære modeller (f.eks.

Class-variable med mere end 2 niveauer), sa er det ikke tilstrækkeligt

at lave t test pa regressionskoefficienter.

I stedet bruges F test til sammenligning af kvadratsummer.

Modelkvadratsum∑

i(yi − y)2

Forklaret variation: Hvor meget varierer de predikterede værdier?

(stort er godt, men pas pa fortolkningen af selve størrelsen!)

Residualkvadratsum∑

i(yi − yi)2

Tilbageblevet variation: Hvor store er modelafvigelserne?

(smat er godt)

Den generelle lineære model, oktober 2007 17

Skematiseret= Variansanalysetabel

DF Sum Sq

Model k∑

i(yi − y)2

Residual n− k − 1∑

i(yi − yi)2

Total n− 1∑

i(yi − y)2

Mean Sq = Sum Sq/DF

F =Mean Sq(Model)

Mean Sq(Residual)

Sædkoncentration, 6 grupper: oeko*abstinenstid

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 5 15.4696621 3.0939324 2.84 0.0169

Error 182 198.0411518 1.0881382

Corrected Total 187 213.5108139

Den generelle lineære model, oktober 2007 18

Modelreduktion - F test

Vi skal sammenligne to modeller:

Kan vi nøjes med at bruge den simpleste af dem?

NB: Modellerne skal være “nestede”, dvs. den ene fremkommer af den

anden, typisk ved at sætte parametre til nul (“fjerne effekter”).

Se pa ændring i kvadratsum. Hvor meget mindre forklares af den

simplere model?

∆Sum Sq = Sum Sq(Model1)− Sum Sq(Model2)

∆Sum Sq > 0, altid (flere parametre kan forklare mere variation).

Hvor stor ma den blive?

∆Mean Sq = ∆Sum Sq/∆DF

F = ∆Mean SqMean Sq(Residual)

Page 8: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 19

Variansanalysetabel

Source DF Type I SS Mean Square F Value Pr > F

sas_ansat 1 6.97609675 6.97609675 6.41 0.0122

abstid 2 6.66019970 3.33009985 3.06 0.0493

sas_ansat*abstid 2 1.83336563 0.91668282 0.84 0.4323

Source DF Type III SS Mean Square F Value Pr > F

sas_ansat 1 4.84057554 4.84057554 4.45 0.0363

abstid 2 6.63098257 3.31549128 3.05 0.0499

sas_ansat*abstid 2 1.83336563 0.91668282 0.84 0.4323

Bemærk at der er 2 slags kvadratsummer! (I virkeligheden er der 4....)

Brug altid Type III

og test kun en relevant virkning af gangen

(ingen hovedvirkninger, der indgar i vekselvirkninger!).

Hvis reduceret model accepteres, lav da ny analyse for denne model.

Den generelle lineære model, oktober 2007 20

Fittede værdier (y) i den reducerede model uden interaktion

Den generelle lineære model, oktober 2007 21

Et nyt begreb: Kovariansanalyse

—er blot en betegnelse for en (generel) lineær model med netop en

gruppering (Class-variabel) og en kvantitativ variabel. Formalet kan

være at fjerne bias eller at øge styrken i undersøgelsen.

Bias ved sammenligning af grupper

• Forekommer, hvis der er forskel pa fordelingen af en

betydningsfuld kovariat i to grupper

Eksempel:

• Sammenligning af lungefunktion hos mænd og kvinder

— de er jo ikke lige høje

Page 9: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 22

Metoder til at undga bias

Matchning. Dvs. udvælge individer, saledes at de er nogenlunde ens

med hensyn til de vigtige forstyrrende kovariater.

(Dette kan gøres parvist eller i større grupper)

Randomisering. Dvs. trække lod om behandling (gruppe)

NB: Dette kan naturligvis kun lade sig gøre, hvis grupperne er

noget, man selv bestemmer over.

Men læg mærke til følgende:

Selv om fordelingen af kovariater er ens i de to grupper, kan det være

af stor betydning at medtage dem i analysen.

Det giver større styrke!

Den generelle lineære model, oktober 2007 23

Eksempel om lungekapacitet, TLC

32 patienter skal have foretaget hjerte/lunge transplantation

TLC (Total Lung Capacity)

bestemmes ved hjælp af helkrops plethysmografi

Er der forskel pa mænd og kvinder?

OBS SEX AGE HEIGHT TLC

1 F 35 149 3.40

2 F 11 138 3.41

3 M 12 148 3.80

. . . . .

. . . . .

30 M 25 180 8.10

31 M 22 173 8.70

32 M 25 171 9.45

Den generelle lineære model, oktober 2007 24

Box plots til sammenligning af kønnene:

Tydelig kønsforskel for savel TLC som HEIGHT

Page 10: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 25

Marginale sammenligninger (t-tests)Variable: TLC

SEX N Mean Std Dev Std Error

--------------------------------------------------------------------------

F 16 5.19812500 1.30082138 0.32520534

M 16 6.97687500 1.43801585 0.35950396

Variances T DF Prob>|T|

---------------------------------------

Unequal -3.6693 29.7 0.0009

Equal -3.6693 30.0 0.0009

For H0: Variances are equal, F’ = 1.22 DF = (15,15) Prob>F’ = 0.7028

Variable: HEIGHT

SEX N Mean Std Dev Std Error

-----------------------------------------------------------------------

F 16 160.81250000 9.36816417 2.34204104

M 16 174.06250000 10.66126165 2.66531541

Variances T DF Prob>|T|

---------------------------------------

Unequal -3.7344 29.5 0.0008

Equal -3.7344 30.0 0.0008

For H0: Variances are equal, F’ = 1.30 DF = (15,15) Prob>F’ = 0.6228

Den generelle lineære model, oktober 2007 26

Relation mellem tlc og height:

Kan højdeforskellen alene forklare forskellen i lungekapacitet?

Den generelle lineære model, oktober 2007 27

Kovariansanalyse

Sammenligning af parallelle regressionslinier

Model:

ygi = αg + βxgi + ǫgi g = 1, 2; i = 1, . . . , ng

Hvad sker der, hvis vi ‘glemmer’ x i modellen?

1. Bias.

Hvis x1 6= x2, bliver forskellen forkert vurderet.

2. Inefficiens.

Selv om x1 = x2, mister vi styrke (spredning for stor).

Page 11: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 28

Illustration af kovariansanalyse

Den generelle lineære model, oktober 2007 29

Bemærk: Selv om fordelingen af kovariater er ens i de to grupper,

kan det være af stor betydning at medtage dem i analysen. Det giver

større styrke!

Uden x i modellen: Ingen særlig forskel pa grupperne

Med x i modellen: Tydelig forskel pa grupperne

Den generelle lineære model, oktober 2007 30

Vekselvirkning

Hvem siger, at linierne nødvendigvis skal være parallelle?

Mere generel model:

ygi = αg + βgxgi + ǫgi g = 1, 2; i = 1, . . . , ng

Nar β1 6= β2, siger vi, at der er

vekselvirkning, eller interaktion. Det betyder:

• Effekten af højde afhænger af kønnet

• Forskellen pa kønnene afhænger af højden

Her kan man ikke udtale sig om en generel effekt af højde eller køn.

Page 12: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 31

Relation mellem tlc og height:

Den generelle lineære model, oktober 2007 32

I forsøg pa at skaffe varianshomogenitet, logaritmerer vi tlc

... men det hjælper ikke rigtigt...

Den generelle lineære model, oktober 2007 33

Specifikation af model

Model med vekselvirkning:

I SAS Analyst: Statistics/ANOVA/Linear models

• indsætte height som kvantitativ variabel

• indsætte sex som kategorisk (Class-variabel)

• Under Model-knap kan man indsætte “cross”-led

Page 13: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 34

OutputDependent Variable: ltlc

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 3 0.27230446 0.09076815 13.05 <.0001

Error 28 0.19478293 0.00695653

Corrected Total 31 0.46708739

R-Square Coeff Var Root MSE ltlc Mean

0.582984 10.85524 0.083406 0.768346

Source DF Type I SS Mean Square F Value Pr > F

sex 1 0.13626303 0.13626303 19.59 0.0001

height 1 0.13451291 0.13451291 19.34 0.0001

height*sex 1 0.00152852 0.00152852 0.22 0.6429

Den generelle lineære model, oktober 2007 35

Source DF Type III SS Mean Square F Value Pr > F

sex 1 0.00210426 0.00210426 0.30 0.5867

height 1 0.13597107 0.13597107 19.55 0.0001

height*sex 1 0.00152852 0.00152852 0.22 0.6429

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept -.2190181620 B 0.35221658 -0.62 0.5391

sex F -.2810587157 B 0.51102682 -0.55 0.5867

sex M 0.0000000000 B . . .

height 0.0060473650 B 0.00201996 2.99 0.0057

height*sex F 0.0014344422 B 0.00306016 0.47 0.6429

height*sex M 0.0000000000 B . . .

Den generelle lineære model, oktober 2007 36

Omregning til de to linier:

Linie for mænd:

log10(Lung capacity) = −0.219 + 0.00605× height

Linie for kvinder:

log10(Lung capacity) = −0.219 + (−0.281) + (0.00605 + 0.00143)× height

= −0.500 + 0.00748× height

Page 14: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 37

SAS-udregning af de to linier

• Bibehold interaktionen sex*height

• Udelad den marginale effekt height

• Udelad intercept (under Model)

Output:

Dependent Variable: ltlc

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 4 19.16369633 4.79092408 688.69 <.0001

Error 28 0.19478293 0.00695653

Uncorrected Total 32 19.35847926

Den generelle lineære model, oktober 2007 38

Source DF Type III SS Mean Square F Value Pr > F

sex 2 0.01537968 0.00768984 1.11 0.3451

height*sex 2 0.13604143 0.06802071 9.78 0.0006

Standard

Parameter Estimate Error t Value Pr > |t|

sex F -.5000768777 0.37025922 -1.35 0.1876

sex M -.2190181620 0.35221658 -0.62 0.5391

height*sex F 0.0074818072 0.00229877 3.25 0.0030

height*sex M 0.0060473650 0.00201996 2.99 0.0057

Den generelle lineære model, oktober 2007 39

Modelreduktion

Vi kunne ikke se nogen vekselvirkning og udelader den af modellen

Dependent Variable: ltlc

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 2 0.27077594 0.13538797 20.00 0.0001

Error 29 0.19631145 0.00676936

Corrected Total 31 0.46708739

R-Square C.V. Root MSE LTLC Mean

0.579712 10.70821 0.08228 0.76835

Source DF Type I SS Mean Square F Value Pr > F

sex 1 0.13626303 0.13626303 20.13 0.0001

height 1 0.13451291 0.13451291 19.87 0.0001

Page 15: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 40

Source DF Type III SS Mean Square F Value Pr > F

sex 1 0.00968023 0.00968023 1.43 0.2415

height 1 0.13451291 0.13451291 19.87 0.0001

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept -.3278068826 B 0.26135206 -1.25 0.2198

sex F -.0421012632 B 0.03520676 -1.20 0.2415

sex M 0.0000000000 B . . .

height 0.0066723630 0.00149683 4.46 0.0001

Bemærk: Nu er kønseffekten forsvundet!

Den generelle lineære model, oktober 2007 41

Fortolkning

I dette eksempel sa vi

• Den observerede forskel i (log10) lungekapacitet mellem mænd og

kvinder kan tilskrives højdeforskellen mellem kønnene.

Der kan dog stadig være en kønsforskel op til

0.0421± 2.045× 0.0352 = (−0.030, 0.114),

svarende til intervallet (0.933, 1.300) for ratio’en,

dvs. op til en 30% øget lungefunktion hos mænd

Den generelle lineære model, oktober 2007 42

Det kan ogsa forekomme, at

• Tilsyneladende ens grupper (f.eks. blodtryk hos mænd og

kvinder) udviser forskelle, nar der bliver korrigeret for

inhomogeniteter (f.eks. fedmegrad)

Man skal huske alle variable med potentiel betydning for outcome!

Page 16: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 43

Husk modelkontrol, f.eks:

Den generelle lineære model, oktober 2007 44

Tænkt eksempel pa relaterede kovariater (confounding):

Kolesterol vs. chokoladespisning og køn....

Kolesterol og chokoladespisning

er

• positivt relaterede

for hvert køn separat

• negativt relaterede

for mennesker

Ingen særlig kønsforskel i kolesterol – og dog...

Den generelle lineære model, oktober 2007 45

Eksempel: Fedmegrad og blodtryk

obese: vægt/idealvægt

bp: systolisk blodtryk

OBS SEX OBESE BP

1 male 1.31 130

2 male 1.31 148

3 male 1.19 146

4 male 1.11 122

. . . .

. . . .

101 female 1.64 136

102 female 1.73 208

Page 17: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 46

Marginale sammenligninger af kønnene (t-tests):

Først outcome, logaritmeret blodtryk, lbp

Statistics

Lower CL Upper CL Lower CL

Variable sex N Mean Mean Mean Std Dev Std Dev

lbp female 58 2.0806 2.0969 2.1132 0.0524 0.062

lbp male 44 2.0873 2.1037 2.1201 0.0445 0.0539

lbp Diff (1-2) -0.03 -0.007 0.0165 0.0515 0.0587

T-Tests

Variable Method Variances DF t Value Pr > |t|

lbp Pooled Equal 100 -0.58 0.5625

lbp Satterthwaite Unequal 98.1 -0.59 0.5549

Equality of Variances

Variable Method Num DF Den DF F Value Pr > F

lbp Folded F 57 43 1.32 0.3383

Vi ser ikke nogen udtalt forskel pa mænd og kvinder.

Den generelle lineære model, oktober 2007 47

og sa kovariaten, logaritmeret fedmegrad, lobese

Statistics

Lower CL Upper CL Lower CL

Variable sex N Mean Mean Mean Std Dev Std Dev

lobese female 58 0.1184 0.1396 0.1608 0.0683 0.0807

lobese male 44 0.0534 0.0725 0.0917 0.052 0.063

lobese Diff (1-2) 0.0379 0.0671 0.0963 0.0647 0.0736

T-Tests

Variable Method Variances DF t Value Pr > |t|

lobese Pooled Equal 100 4.56 <.0001

lobese Satterthwaite Unequal 99.9 4.71 <.0001

Equality of Variances

Variable Method Num DF Den DF F Value Pr > F

lobese Folded F 57 43 1.64 0.0913

Her ses en oplagt forskel i fedmegrad for mænd og kvinder, sa hvis

fedmegrad ogsa hænger sammen med blodtryk....

Den generelle lineære model, oktober 2007 48

Og det gør den, i hvert fald for kvinder:

sex=female

The CORR Procedure

2 Variables: bp obese

Spearman Correlation Coefficients, N = 58

Prob > |r| under H0: Rho=0

bp obese

bp 1.00000 0.49121

<.0001

obese 0.49121 1.00000

<.0001

sex=male

The CORR Procedure

2 Variables: bp obese

Spearman Correlation Coefficients, N = 44

Prob > |r| under H0: Rho=0

bp obese

bp 1.00000 0.24828

0.1042

obese 0.24828 1.00000

0.1042

Page 18: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 49

Model med vekselvirkning:

Dependent Variable: lbp

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 3 0.05583810 0.01861270 6.30 0.0006

Error 98 0.28952497 0.00295434

Corrected Total 101 0.34536306

R-Square Coeff Var Root MSE lbp Mean

0.161679 2.588486 0.054354 2.099830

Source DF Type I SS Mean Square F Value Pr > F

lobese 1 0.03809379 0.03809379 12.89 0.0005

sex 1 0.01597238 0.01597238 5.41 0.0221

lobese*sex 1 0.00177193 0.00177193 0.60 0.4405

Den generelle lineære model, oktober 2007 50

Source DF Type III SS Mean Square F Value Pr > F

lobese 1 0.03920980 0.03920980 13.27 0.0004

sex 1 0.01252714 0.01252714 4.24 0.0421

lobese*sex 1 0.00177193 0.00177193 0.60 0.4405

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 2.087171366 B 0.01257865 165.93 <.0001

lobese 0.227981122 B 0.13158758 1.73 0.0863

sex female -0.039290663 B 0.01908066 -2.06 0.0421

sex male 0.000000000 B . . .

lobese*sex female 0.123097524 B 0.15894836 0.77 0.4405

lobese*sex male 0.000000000 B . . .

Ingen tydelig vekselvirkning, vi udelader den.

Den generelle lineære model, oktober 2007 51

Model uden vekselvirkning (parallelle linier):

Dependent Variable: lbp

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 2 0.05406617 0.02703308 9.19 0.0002

Error 99 0.29129690 0.00294239

Corrected Total 101 0.34536306

R-Square Coeff Var Root MSE lbp Mean

0.156549 2.583248 0.054244 2.099830

Source DF Type I SS Mean Square F Value Pr > F

lobese 1 0.03809379 0.03809379 12.95 0.0005

sex 1 0.01597238 0.01597238 5.43 0.0218

Page 19: Basal statistik Interaktionstaff.pubhealth.ku.dk/~lts/basal/overheads/backup/... · 2012. 3. 19. · Basal statistik 30. oktober 2007 Den generelle line re model Repetition af variansanalyse

Den generelle lineære model, oktober 2007 52

Source DF Type III SS Mean Square F Value Pr > F

lobese 1 0.05290402 0.05290402 17.98 <.0001

sex 1 0.01597238 0.01597238 5.43 0.0218

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 2.081052655 B 0.00976800 213.05 <.0001

lobese 0.312347032 0.07366198 4.24 <.0001

sex female -0.027765105 B 0.01191694 -2.33 0.0218

sex male 0.000000000 B . . .

Sa kom der pludselig en rimeligt tydelig kønsforskel!!

Den generelle lineære model, oktober 2007 53

Illustration af blodtryk vs. fedmegrad

Den generelle lineære model, oktober 2007 54

Outcome= Forklarende variable = KovariaterRespons Dikotom Kategorisk Kategoriske og kontinuerte

Dikotom odds ratio’er, prediktion af sandsynlighed for ’event’

2*2-tabeller 2*k-tabeller Logistisk regression

Ordinal odds ratio’er, prediktion af sandsynligheder for f.eks. stadier

ikke basalt f.eks. proportional odds modeller

Kvantitativ forskelle i niveau for behandlinger, køn etc.

med Normalf. parret/uparret ensidet/tosidet Multipel regression

residualer T-test Variansanalyse Kovariansanalyse

uden Normalf. desværre kun let at teste, dvs. ingen estimater

residualer Mann-Whitney Kruskal-Wallis Robust multipel

ikke alt basalt Wilcoxon signed rank Friedman regression

Censureret hazard ratio’er, effekt pa dødsintensiteter

ikke basalt Log-rank test Cox regression

Multi-level struktur af tidsforløb, forskel pa behandlingsgrupper

ikke basalt Varianskomponentmodeller Modeller for gentagne malinger