35
Simpel Lineær Regression Opsplitning af variationen Determinations koefficient Variansanalyse – F-test Model-kontrol

Simpel Lineær Regression

Embed Size (px)

DESCRIPTION

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse – F -test Model-kontrol. Opbygning af statistisk model. Specificer model Ligninger og antagelser. Estimer parametre. Nej. Modelkontrol Er modellen passende. Ja. Anvend modellen. +. - PowerPoint PPT Presentation

Citation preview

Page 1: Simpel Lineær Regression

Simpel Lineær Regression

Opsplitning af variationen

Determinations koefficient

Variansanalyse – F-test

Model-kontrol

Page 2: Simpel Lineær Regression

Opbygning af statistisk model

Specificer modelLigninger og antagelser

Estimer parametre

ModelkontrolEr modellen passende

Anvend modellen

Ja

Nej

Page 3: Simpel Lineær Regression

Simpel Lineær Regression - repetition

Model:

),0( iid 210 Nxy iiii

Systematisk komponent Stokastisk komponent+

Spørgsmål: ”Afhænger y lineært af x ?”.

Page 4: Simpel Lineær Regression

Estimation - repetition

Vha. Mindste Kvadraters Metode finder vi regressionslinien

hvor

iiiii xbbyyye 10ˆ

iiii

x

xy

xxXYxbby

xbyb

b

1010

010

11

) |(E afestimat ˆ

afestimat

afestimat SS

SS

xbby 10ˆ

Residual:

Page 5: Simpel Lineær Regression

Forklaret og uforklaret afvigelse Yi’s afvigelse fra kan opdeles i to.

.Y

X

Y

Y

Y

X

Forklaret afvigelse

Totale afvigelse

Forklaret afvigelse

X

Y

Page 6: Simpel Lineær Regression

Total og forklaret variation - illustration

Den totale variationses når vi “kigger langs” x-aksen

Den uforklarede variation ses når vi “kigger langs” regressionslinien

Y

X X

Y

Page 7: Simpel Lineær Regression

Den totale variation

Den totale variation for data er

”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total

)()(1

2Y

n

i i SSyySST

Page 8: Simpel Lineær Regression

Opslitning af den totale variation Den totale variation kan opslittes:

er den uforklarede variation.

er den forklarede variation.

SSR = Sum of Squares Regression

2

1

2

1

2

1ˆˆ

n

i i

n

i ii

n

i i yyyyyy

2

n

i ii yySSE

2

n

i i yySSR

Page 9: Simpel Lineær Regression

Total og forklaret variation

Opslitning a variationen

SSRSSESST

yyyyyyn

i i

n

i ii

n

i i

2

1

2

1

2

1ˆˆ

Forklaret Uforklaret Total

Page 10: Simpel Lineær Regression

Determinations koeffcienten Determinations Koeffcienten: Andelen af den totale

variation, der er forklaret.

Pr definition: 0 ≤ r2 ≤ 1.

Jo tættere r2 er på 1, jo mere af variationen i data er forklaret af modellen.

r2 >0.8 er godt! … r2 meget tæt på 1 er dog mistænkeligt.

SST

SSE

SST

SSESST

SST

SSRr

12

variation Total

variation Forklaret

Page 11: Simpel Lineær Regression

Eksempler på r2

Y

X

r2 = 0 SSE

SST

Y

X

r2 = 0.90SSE

SST

SSR

Y

X

r2 = 0.50 SSE

SST

SSR

Page 12: Simpel Lineær Regression

r2 og Korrelationskoefficienten r Den estimerede korrelationskoefficienten

Vis at r2 = r2 …. :-s

Ingredienser:

YX

XY

SSSS

SSr

YSSSST X

XY

SS

SSb 1

SSRSSESST

SST

SSRr 2 XYY SSbSSSSE 1

Page 13: Simpel Lineær Regression

Variansanalyse-tabel Hypoteser:

H0: β=0 ”Lineær regression er ikke besværet

værd.”

H1: β≠0

Under H0 gælder SSE/2 og SSR/2 er uafhængige og 1~2~ 2

22

2

SSR

nSSE

og

Antal parametre involveret i testen.

Antal observationer minus totale antal parametre.

Page 14: Simpel Lineær Regression

Variansanalyse - fortsat Af forrige slide følger:

Store værdier af F er kritiske for H0.

Med signifikansniveau α afviser vi H0, hvis

2,1 nFF

2,1~2

1

nF

MSE

MSR

nSSE

SSRF

Page 15: Simpel Lineær Regression

SPSS output

21

nSSEMSESSRMRE

SSTSSESSR

12

1

nn

MSEMSRF værdip

Sums of Squares Frihedsgrader Mean Sums of Squares

F-teststørresle

Page 16: Simpel Lineær Regression

403,0250,42256

044,170302 SST

SSRr

403.0635.0 2

Page 17: Simpel Lineær Regression

Modelkontrol

For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt!

Er der en lineær sammenhæng mellem X og Y ?

Er fejlleddene ε1,…, ε1 uafhænige?

Følger fejlleddene ε1,…, ε1 alle N(0,2)?

Page 18: Simpel Lineær Regression

Bemærk at residualet

er et estimat for εi.

Dvs. ei’erne groft sagt skal opføre sig som uafhængige N(0,2) variable!

Grafisk kontrol: Plot ei’erne mod xi eller .

Residualanalyse

iii yye ˆ

iy

Page 19: Simpel Lineær Regression

Residualplot

y ellerx ˆ0

Residualer

Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x.

0

Residualer

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

0

Residualer

Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.

Tid

0

Residualer

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

y ellerx ˆ

y ellerx ˆ

٪

٪

٪

Page 20: Simpel Lineær Regression

TV-Statistik-Køkken Jeg har snydt og lavet mit eget data…

Det ligner reklame/salg data, men med flere observationer (n=30).

Page 21: Simpel Lineær Regression

Residualer i SPSS

I ’Linear Regression’ vinduet vælges ’Save…’

I ’Save’ vinduet vælges ’Unstandardized’ både under ’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .iy

Page 22: Simpel Lineær Regression

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) .

Derefter kan man fx lave scatter plots.

Page 23: Simpel Lineær Regression

Scatter plot af

residualer (ei’erne) mod ’højde’ (xi’erne) (øverst)

residualer (ei’erne) mod prædiktionerne (^yi’erne) (nederst).

Ser jo ganske usystematisk ud!

Page 24: Simpel Lineær Regression

Grafiske check for NormalfordelingFor at tjekke holdbarheden af antagelsen om

normalfordelte fejlled: ( εi~N(0,σ2) ) Lav et histogram over residualerne og se

efter om det normalfordelt ud. Lave et normalfordelingsplot (Q-Q plot).

Lav et formelt χ2-test for ”goodness of fit” til en normalfordeling for residualerne

Page 25: Simpel Lineær Regression

Det ser jo ca normalfordelt ud…

Histogram af residualer

Page 26: Simpel Lineær Regression

Normalfordelingsplot (Q-Q plot) For hvert residual ei udregner vi

hvor li er antallet af residualer der er mindre end ei,

og mi er antallet af residualer med samme værdi som ei.

For hvert qi finder vi zi , så P(Z≤ zi )= qi , hvor Z~N(0,1).

Hvis ei’erne er normalfordelte vil et plot af (ei, zi) ligge på en ret linie.

1

21

n

mlq ii

i

Page 27: Simpel Lineær Regression

Normalfordelingsplot (Q-Q plot) Nemmere med en tegning…

Page 28: Simpel Lineær Regression

Vælg ’Analyze → Descriptive Statistics → Q-Q plots’

Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.

Page 29: Simpel Lineær Regression

Prædiktion i SLR-modellen Punktprædiktion:

Hvilken værdi vil y forventeligt antage, hvis x antager en bestemt værdi, fx x=10 ?

Svar:

Dvs. vi prædikterer som bedste bud på punktets værdi.

Bedst ikke at prædiktere for x–værdier for langt fra, hvor vi har data

10ˆ 10 bbyGanske simpelt ved at indsætte x i den estimerede regressions linje!

xbby 10ˆ

Page 30: Simpel Lineær Regression

Prædiktionsinterval for observationen

X

xx

nsnty

SS

)(11)1(ˆ

2

2

Et (1-α)100% prædiktions interval for Y|X=x er

Hvor s=√MSE.Et (1-α)100% konfidens interval for E(Y|X=x) er

X

xx

nsnty

SS

)(1)1(ˆ

2

2

Page 31: Simpel Lineær Regression

Prædiktionsbånd

X

Y

Regressions- linie

Prædiktionsbånd for E[Y|X]

Prædiktionsbånd for Y|X

Prædiktionsbåndene fremkommer ved at betragte konfidensintervallets endepunkter som funktion af x.

y

x

Page 32: Simpel Lineær Regression

SLR og lineær algebra Den simple lineære regressions model siger:

Hvor1,...,n er uafhængige og enfordelte 2~N(0,2) .

Det kan vi skrive som to søjle-vektore!

nnn x

x

x

x

y

y

y

y

10

3310

2210

1110

3

2

1

Page 33: Simpel Lineær Regression

SLR og lineær algebra

Sådan!

Den sidste vektor kan vi skrive som en sum af vektore…

nnn x

x

x

x

y

y

y

y

10

3310

2210

1110

3

2

1

Page 34: Simpel Lineær Regression

SLR og lineær algebra Modellen kan skrives vha. matrixer og vektore:

Hvor

Matricen X kaldes Design-matricen.

εXβ

nnnnnnn x

x

x

x

x

x

x

x

x

x

x

x

y

y

y

y

3

2

1

1

03

2

1

3

2

1

13

2

1

0

10

3310

2210

1110

3

2

1

1

1

1

1

1

1

1

1

nnn x

x

x

x

y

y

y

y

3

2

1

1

03

2

1

3

2

1

1

1

1

1

εβXy

Page 35: Simpel Lineær Regression

SLR og lineær algebra

Regneregel fra lineære algebra:

Estimatet for er:

n

i iy1

2yyT

1

0

β

yXXXb TT 1

1

0

b

b