25
Kvantitative metoder 2: Infer ens i den lineære regressions model 1 Kvantitative metoder 2 Inferens i den lineære regressionsmodel 7. marts 2007

Kvantitative metoder 2

  • Upload
    maisie

  • View
    33

  • Download
    0

Embed Size (px)

DESCRIPTION

Kvantitative metoder 2. Inferens i den lineære regressionsmodel 7. marts 2007. Opgave fra sidst (Gauss-Markov teoremet). Opgave: Vis at hvis. Oversigt: de næste forelæsninger. - PowerPoint PPT Presentation

Citation preview

Page 1: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

1

Kvantitative metoder 2

Inferens i den lineære regressionsmodel

7. marts 2007

Page 2: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

2

Opgave fra sidst (Gauss-Markov teoremet) Opgave: Vis at hvis

1( ' ) '

er M idempoten dvs der gælder gælder

' (symmetrisk)

M I X X X X

M M

M MM

Page 3: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

3

Oversigt: de næste forelæsninger Statistisk inferens: Det drejer sig om at man med udgangspunkt i

en statistisk model kan drage konklusioner på grundlag af data. Dette indebærer blandt andet estimation af parametre samt metoder til afprøvning af statistiske hypoteser.

Simulationseksperimenter (Note på hjemmesiden) Ideen med at lave simulationseksperimenter Opbygning af en simulationsalgoritme Eksempel: Den forventede startløn for en økonom

Resultater om OLS med endeligt antal observationer (kap. 4): Normalitetsantagelse (MLR.6). Test af en enkelt lineær restriktion på koefficienter i lineær

regressionsmodel.

Asymptotiske resultater for OLS: (kap. 5). Test af flere lineære restriktioner (kap. 4.5 og 5.2). Efficiens (kap 5.3 og B&L 9.12)

n

Page 4: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

4

Hvorfor simulationseksperimenter? Ideen med at introducere simulationseksperimenter i

Kvantitative metoder 1 og 2 er at kunne illustrere vigtige statistiske begreber

Simulationseksperimenter er ikke dækket af Wooldridge, så derfor benyttes en note (se hjemmesiden)

Konkret kan vi vise at OLS estimatoren har en fordeling

Simulationseksperimenter vil også optræde til øvelserne

Page 5: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

5

Monte Carlo eksperimenter: Ideen

Simulationer af ”datasæt” fra en fuldt specificeret model: Datagenererende proces (DGP)

Eksempel:

Vi kender de "sande parametre" og . Genererer et sæt af fx n=100 observationer fra modellen:

”Glemmer” at vi kender og : Anvend estimator (”regneregel”) til at skønne over fx ud fra et konkret (men kunstigt) sæt af observationer:

Fx gennemsnittet:

,i iy ~ . . . (0,1)i i i d N

1 2, ,..., ny y y

1

1 n

ii

y yn

2

2

Page 6: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

6

Monte Carlo eksperimenter: Ideen (fortsat)

Kan vi på en nem måde vurdere, om er en ”rimelig” estimator for ?

Lav ny uafhængig trækning af datasæt genereret af den samme DGP.

Beregn værdien af estimatoren for hvert datasæt: Lav mange uafhængige trækninger (”replikationer”). Se på fordelingen af estimaterne over replikationerne:

Beregn fx fordelingens gennemsnit og varians. Parallel til ”tankeeksperimentet”: Vores konkrete faktiske

datasæt er blot ét blandt mange potentielle udfald.

y

jy

Page 7: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

7

Monte Carlo eksperimenter: Ideen (fortsat)

Formål med Monte Carlo eksperimenter: Efterprøve analytiske resultater: Fx at OLS er

middelret under MLR.1-4. Sammenligne forskellige estimatorer eller test,

hvor det er besværligt/umuligt analytisk. Vurdere hvor mange observationer der skal til for

at man kan bruge asymptotiske resultater i praksis (kap. 5).

Page 8: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

8

Monte Carlo eksperimenter: Eksempel

DJØFs hjemmeside www.djoef.dk: ”Vejledende startløn” for en privatansat, nyuddannet økonom er kr. 29.500 om måneden.

Antag: Startlønninger er uafhængige og normalfordelte. Sand middelværdi i lønfordelingen er kr. 29.500. Sand lønfordeling har standardafvigelse på kr. 1.500.

Hermed er lønfordelingen fuldt specificeret. Simulere en situation, hvor der indhentes en

tilfældig stikprøve af n=100 startlønninger.

Page 9: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

9

Monte Carlo eksperimenter: I praksis

i

Trin 1: Konstruer et kunstigt datasæt:

Opstil en model for den datagenererende proces:

y , ~ (0,1), =29,5, 1,5.

Generer et antal, fx 100, observationer af fra

en tilfældighedsgenerator og

i i

i

N

n

beregn fra modellen.iy

Proc IML; antalobs = 100; mu = j(antalobs,1,29.5); seedvct = j(antalobs,1,1) ; seedvct = 117*seedvct ; e = normal(seedvct) ; y = mu + 1.5 * e ;

quit;

Page 10: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

10

Monte Carlo eksperimenter: I praksis (fortsat)

100

1 1

2 1,...,100 1,...,100

Trin 2: Ex. sammenligne to estimatorer: Beregn estimaterne:

Find gennemsnit af alle observationer:

1

100Find gennemsnit af mindste og største observation:

1(min max

2

ii

i i i

m y

m y )iy

m1est=sum(y)/antalobs; * estimatet m1 (gennemsnittet); m2est=1/2*(min(y)+max(y)); * estimatet m2 (gns. min og max);

Page 11: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

11

Monte Carlo eksperimenter: I praksis (fortsat)

Trin 3: Gentag trin 1 og 2: M=10.000 replikationer:

antalrep = 10000; * antal replikationer i simulationen; m1 = j(antalrep,1,.); * vektorer til at gemme estimaterne i; m2 = j(antalrep,1,.); do j=1 to antalrep; * løkke over simulationer; . <her beregnes estimater for hvert datasæt> . end;

Trin 4: Analysér fordelingerne af de to sæt estimater:

Histogram

Gennemsnit, varians, højere momenter

Page 12: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

12

Monte Carlo eksperimenter: Eksempel

Brug algoritmen til at analysere og som estimatorer for middelværdien i fordelingen af startlønninger.

Simulere telefoninterviews med tilfældigt udvalgte, nyuddannede økonomer, som oplyser (?) deres startløn.

SAS-programmet MC.sas udfører M=10.000 replikationer. Se på n=100, n=50 og n=10.

Link til SAS

1m 2m

Page 13: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

13

Monte Carlo eksperimenter: Eksempel (fortsat)

Middelværdi og varians af de to estimatorer baseret på M=10.000 simulationer

har lavest varians Varians aftager med

n

n=100

Middelværdi 29,499 29,502

Varians 0,0223 0,2089

n=50

Middelværdi 29,499 29,499

Varians 0,0443 0,2445

n=10

Middelværdi 29,498 29,489

Varians 0,2209 0,4116

1m 2m

1m

Page 14: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

14

Monte Carlo eksperimenter: Afrunding

Husk: Resultater og konklusioner fra Monte Carlo

eksperimenter afhænger potentielt af de valgte parametre og fordelinger.

I praktiske anvendelser må man i hvert enkelt tilfælde godtgøre, at den valgte model har relevans for den problemstilling, man ønsker at belyse.

Page 15: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

15

Hypotesetest i den lineære regressionsmodel: Endelige stikprøver (kap. 4)

For hypotesetest behøver vi fordelingen af . Introducere yderligere antagelse: Normalitet. MLR.6: u er uafhængig af og normalfordelt

med middelværdi nul og varians . Definerer den klassiske lineære model (CLM). Restriktiv antagelse:

Argument for: u opsamler alle de mange effekter der er udeladt af modellen: Central grænseværdisætning køres i stilling.

Argumenter imod i konkrete problemstillinger: Begrænsede variabler (positive!), andre typer af fordelinger (log-normal, diskrete).

1 2, ,..., kx x x2

Page 16: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

16

Fordeling af OLS estimatoren: Endelig stikprøve

Linearitet af i u og CLM giver følgende resultat: Theorem 4.1: Under CLM antagelserne og betinget på

gælder at

hvor

Heraf følger:

1 2, ,..., kx x x

ˆ ˆ~ ( ,Var( ))j j jN 2

2ˆVar( )

(1 )jj jSST R

ˆ ˆ( ) / standardafv.( ) ~ (0,1)j j j N

Page 17: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

17

Fordeling af OLS estimatoren: Endelig stikprøve (fortsat)

Theorem 4.1 indeholder den ukendte parameter , derfor ikke umiddelbart operationel.

Erstattes af kan man vise at der gælder følgende resultat:

Theorem 4.2: Under CLM antagelserne og betinget på gælder at

hvor k+1 er antal regressorer i modellen inkl. konstantled.

t-fordelingen går mod N(0,1) når antallet af frihedsgrader vokser. Fin approximation hvis større end 120.

2

2 2

1 2, ,..., kx x x

1ˆ ˆ( ) / standardfejl( ) ~j j j n kt

Page 18: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

18

Hypotesetest: Restriktion på en enkelt koefficient

Betragt en nulhypotese om en regressionskoefficient: , hvor a er en konstant.

Under nulhypotesen påstår vi altså en bestemt værdi af en parameter i den sande model.

Analogt til at specificere en parameter i DGP’en for et Monte Carlo eksperiment.

Tænk på nulhypotesen som DGP’en for et tankeeksperiment: Givet denne værdi af kender vi fordelingen af .

Bruge afvigelsen mellem estimatet, og den postulerede værdi, a, til at vurdere gyldigheden af nulhypotesen.

0 jH : a

jˆj

ˆj

Page 19: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

19

Hypotesetest: Restriktion på en enkelt koefficient

t-testet for er givet ved

og er fordelt som under nulhypotesen. Alternativhypotesen:

Ensidede alternativer: eller Tosidet alternativ:

Ex. Afkast af uddannelse: Hypotese om Nulhypotese: Relevant alternativ:

0 jH : a ˆ ˆ( ) / standardfejl( )j ja

1n kt

1 j:H a 1 j:H a

1 j:H a

1

1 0

1 10? 0?

Page 20: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

20

Hypotesetest: Restriktion på en enkelt koefficient

Klassisk teststrategi: Vælg signifikansniveau: Sandsynlighed for at afvise

nulhypotesen, givet at den er sand. Typisk vælges 5 %. Vælg alternativhypotese: Bestemmer den kritiske region, givet

signifikansniveauet. Beregn teststatistik.

Afvis nulhypotesen hvis testet er i den kritiske region. Afvis ellers ikke.

Alternativ: Beregn p-værdi: Marginale signifikansniveau som ville betyde at nulhypotesen netop ville blive afvist.

Page 21: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

21

Hypotesetest: Restriktion på en enkelt koefficient

Typiske eksempler: a=0: Standard signifikanstest. a=1 eller a=-1: Test af homogenitet eller proportionalitet.

Konfidensinterval: Givet signifikansniveau, , fx 5 %. Så er 100- % konfidensintervallet givet ved:

Konstrueres intervallet således vil det i 100- % af udfaldene rumme den sande værdi. Nulhypoteser om værdier udenfor vil således blive afvist.

Skitsér på tavlen.

1 1ˆ ˆ ˆ ˆ[ (1 / 2)standardfejl( ), (1 / 2)standardfejl( )]j n k j j n k jt t

Page 22: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

22

Hypotesetest: Eksempel: Lønrelationen

Afhængig variabel: log(timeløn)

Kilde: Output fra SAS-programmet lon_udd2.sas

Regressor Model (1) Model (2)

uddaar 0,0452

(0,0035)

0,0485

(0,0032)

erfaring _ 0,0139

(0,0010)

konstant 4,3500

(0,0420)

4,1051

(0,0424)

Antal observationer 1046 1046

0,140 0,2752R

Page 23: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

23

Generel lineær restriktion

Nulhypotese på linearkombination af koefficienter:

Involverer flere koefficienter, men stadig kun en restriktion (et lighedstegn).

Ex. Produktionsfunktion af Cobb-Douglas typen med arbejdskraft (L), kapital (K) og uobserverbare faktorer (U):

I log-transformerede størrelser:

Test antagelse om konstant skalaafkast:

0 1 2H :

0 1 2H : 14

i i i iY AL K U

0H : 1

0 1 2 3H : 2

i i i iy a l k u

Page 24: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

24

Generel lineær restriktion (fortsat)

Hypotesen er af formen: ”Linearkombination af koefficienterne er lig med konstant”.

Estimere , men hvad med ? Omparameterisere modellen:

OLS af I reparameterisering er hypotesen direkte en restriktion

på koefficienten til : Kald den fx Test restriktionen vha. t-stat. på Hvis CLM opfyldt så eksakt t-fordelt.

ˆ ˆˆstd.fejl( )

( ) ( )i i i i i i i iy a l k u a l k l u

på en konstant, og log af kapital-arbejdskraftsforholdet, i i i iy l k l

il ˆ 1

Page 25: Kvantitative metoder 2

Kvantitative metoder 2: Inferens i den lineære regressionsmodel

25

Næste gang

Aflevering af obligatorisk opgave Test af flere restriktioner W. kap. 4.5 Asymptotiske resultater W. kap 5.1-5.3 og

B&L kap 9.12 Konsistens Efficiens