Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0607/01/13.pdf · Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale

Analyse von Querschnittsdaten

Heteroskedastizität

Warum geht es in den folgenden Sitzungen?

Kontinuierliche Variablen

Annahmengegeben?

kategoriale VariablenLogistische Regression02.02.2005

Regression mit Dummy-Variablen26.01.2005

Heteroskedastizität19.01.2005

Spezifikation der Regressionsfunktion12.01.2005

Spezifikation der unabhängigen Variablen22.12.2004

Signifikanztests II15.12.2004

Signifikanztests I08.12.2004

Statistische Inferenz01.12.2004

Multiple Regression24.11.2004

Kontrolle von Drittvariablen17.11.2004

Bivariate Regression10.11.2004

Variablen03.11.2004

Daten27.10.2004

Beispiele20.10.2004

Einführung13.10.2004

VorlesungDatum

Gliederung

1. Beispiele mit heteroskedastischen Fehlertermen

2. Auswirkungen von Heteroskedastizität auf OLS-Schätzungen

3. Wie erkennt man das Vorliegen von Heteroskedastizität?

4. Gegenmaßnahmen5. Statistische Begründungen

Gliederung





Beispiel 1: Idealfall-1

01

23

Fitt

ed v

alue

s/S

tund

enlo

hn in

Dol

lar

(Log

arith

mus

)

5 10 15 20years of education

• lwage: Logarithmus des durchschnittlichen Stundenlohns in Dollar

• educ: Ausbildung in Jahren

)Daten simulierte(522:Stichprobe

23,0)|(09,05,0

:theitGrundgesam

2

=

==+⋅+=

n

educuVarueduclwage

σ

Beispiel 2: Messfehler

• Messfehler beim Stundenlohn nehmen mit der Ausbildung zu, weil besser Qualifizierte nicht auf Stundenlohnbasis entlohnt werden.

• Der Stundenlohn muss daher aus Angaben über Arbeitszeit und Monatsgehalt errechnet werden, was mit Fehlern verbunden ist.

• Anderes Beispiel: Konsumausgaben (y) und Einkommen (x)

)Daten simulierte(522:Stichprobe

23,05,0)|(

09,05,0:theitGrundgesam

2

2

=

=⋅⋅=+⋅+=

n

educeducuVarueduclwage

σσ

-10

-50

510

Fitt

ed v

alue

s/S

tund

enlo

hn in

Dol

lar

(Log

arith

mus

)


Beispiel 3: Fehlspezifikation

• Irrtümlicherweise werden die unterschiedlichen Bildungsrenditen von Männern und Frauen ignoriert.

•Daten) (sim. 522 :Stichprobe ,23,0),|(

05,03,012,07,02 ===

+⋅+=+⋅+=nfemaleeducuVar

ueduclwageueduclwage fm

σ

01

23

4F

itted

val

ues/

Stu

nden

lohn

in D

olla

r (L

ogar

ithm

us)


01

23

4

5 10 15 20 5 10 15 20

Männer Frauen

Fitte

d va

lues

/Stu

nden

lohn

in D

olla

r (L

oga

rithm

us)

years of educationGraphs by =1 if female

Beispiel 4: Aggregatdaten

• Die Datenwerte sind Aggregatinformationen für jeden Staat.• Raten, prozentuale Anteile und Durchschnittswerte beruhen – je nach

Einwohnerzahl – auf unterschiedlichen Fallzahlen.• Sie sind daher unterschiedlich präzise (vgl. z.B. Standardfehler des

arithmetischen Mittels).• Größere Kreise kennzeichnen Staaten mit präziseren Datenwerten

Einkommen-Kopf-ProblichkeitKinderster

0002,02,12

a)(infmrt.dt501987 Staaten,US

==

+⋅−=

=−

xy

uxy

, n

68

1012

14F

itted

val

ues/

infa

nt m

orta

lity

rate

10000 15000 20000per capita income

Beispiel 5: Schiefe Verteilungen

y

x

Daten) e(simuliert 100,3969,09911,0ˆ :Stichprobe =+= nxy

Gliederung





Erwartungstreue, aber geringere Effizienz

• Beispiel 2 (Messfehler):– Je nach Stichprobe sind innerhalb

des roten Bandes alle Regressionsgeraden möglich.

– Im Mittel entspricht ihre Steigung der Steigung der (schwarzen) Geraden in der Grundgesamtheit.

– Im Einzelfall weicht die Steigung jedoch stärker ab als in Beispiel 1.

• Beispiel 1 (Idealfall):– Je nach Stichprobe sind innerhalb

des grünen Bandes alle Regressionsgeraden möglich.

-10

-50

510

Fitt

ed v

alue

s/S

tund

enlo

hn in

Dol

lar

(Log

arith

mus

)


-10

12

3F

itted

val

ues/

Stu

nden

lohn

in D

olla

r (L

ogar

ithm

us)


Bei Heteroskedastizität ...• sind die Schätzwerte der Regressionskoeffizienten weiterhin

unverzerrt,• aber die Schätzwerte der Standardfehler sind verzerrt.

• Das Schätzverfahren ist nicht mehr effizient.• Die bisherigen Formeln für den Standardfehler sind nicht

mehr verwendbar.• Die bisherigen Verteilungsannahmen sind nicht mehr

gegeben und dementsprechend die Testverteilungen nicht mehr anwendbar:– Die berechneten t-Werte sind nicht mehr T-verteilt.– Die berechneten f-Werte sind nicht mehr F-verteilt.

Zum Vergleich: Annahmen

Gliederung





Allgemeines Vorgehen

1. Frage: Liegt eine Fehlspezifikation der funktionalen Form vor?

- Nicht-Additivität: Variieren die Effekte mit dem Wert der anderen unabhängigen Variablen?

- Nicht-Linearität: Variieren die Effekte mit dem Wert der jeweiligen unabhängigen Variablen?Ramsey‘s Spezifikationstest

2. Frage: Liegt Heteroskedastizität vor?Breusch-Pagan-Test, White‘s Test

Testergebnisse für die Beispiele

χ2=5,83p=0,0542

χ1=62,69p=0,0000

F3,95=2,84p=0,0423

Schiefe

χ2=3,34p=0,1885

χ2=9,02p=0,0110

χ2=26,05p=0,0000

χ2=1,19p=0,5515White

χ1=1,10p=0,2944

χ1=4,56p=0,0328

χ1=27,72p=0,0000

χ1=1,16p=0,2823

Breusch-Pagan

F3,45=1,72p=0,1763

F3,517=3,12p=0,0257

F3,517=1,16p=0,3249

F3,517=0,75p=0,5232Ramsey

Aggregat-daten

Fehlspe-zifikation

Mess-fehlerIdealfallTest

Gliederung





Allgemeines Vorgehen

1. Spezifikation des Regressionsmodells verbessern

2. Berechnung robuster Standardfehler3. Gewichtete Kleinste-Quadrate-

Schätzung (WLS)4. Variablentransformation

Beispiel 3Spezifikation eines Interaktionseffektes

educfemalefemaleeducgealw ⋅⋅−⋅−⋅+= 08,037,013,062,0ˆ

Ramsey Breusch-Pagan WhiteF3,515=0,97; p=0,4043 χ1=1,47; p=0,2252 χ2=3,14; p=0,6784

01

23

4m

aleh

at/fe

mha

t/Stu

nden

lohn

in D

olla

r (L

ogar

ithm

us)


Beispiel 2Berechnung robuster Standardfehler

-10

-50

510

Fitt

ed v

alue

s/S

tund

enlo

hn in

Dol

lar

(Log

arith

mus

)


Grundlagen und Technik siehe Wooldridge (2003: 258-264) mit weiteren Literaturhinweisen.

Schätzwerte bleiben gleich.St.fehler sind häufig größer.

klassisch robustEducation 0.1140 0.0516 0.0518Konstante 0.1998 0.6663 0.6242

StandardfehlerSchätzwertParameter

Beispiel 4Gewichtete Kleinste-Quadrate-Schätzung

Schätzwert Std.fehler Schätzwert Std.fehlerEinkommen -0.00016 0.000077 -0.00019 0.000074Konstante 12.23529 1.142262 12.96329 1.153401

WLSOLSParameter

68

1012

14in

fant

mor

talit

y ra

te /

fitte

d va

lues

10000 15000 20000 25000per capita income

infant mortality rate OLS WLS

Beispiel 5Transformation der Variablen

Ramsey Breusch-Pagan WhiteF3,95=0,52; p=0,6723 χ1=0,02; p=0,8781 χ2=0,14; p=0,9316

ln(y

)

ln(x)

1005,00,0ˆ

)ln(),ln(**

**

=⋅+=

==

nxy

xxyy

Gliederung





Robuste Standardfehler• Zur Erinnerung: Varianzformel für OLS-Schätzer benötigt

σ (Standardfehler der Regression)

• Grundgedanke robuster Standardfehler: Schätze den Standardfehler der Regression nicht aus allen Beobachtungen. Verwende statt dessen die OLS-Residuen, um quasi für jede Beobachtung einen getrennten Standardfehler der Regression zu schätzen.

• Mehr: Wooldridge (2003: 258-262)

1ˆ

11ˆ

1

22

−−=

−−= ∑

= knSSRu

kn

n

iiσ

Gewichtete Kleinste-Quadrate-Schätzungen (WLS)• Grundgedanke: Kennt man die Form der

Heteroskedastizität und kann diese mit einer Formel beschreiben, dann kann man dieses Wissen in dem Schätzverfahren verwenden.

• Je nach ihrem Beitrag zur Heteroskedastizität gehen die Beobachtungen mit unterschiedlichem Gewicht in das Schätzverfahren ein.

•


iiii

i

iiii

ngewnxun

xhgewxhxu

=⇒=

=⇒=

2

2

)|Var(:Aggregats) des Größe :(ten Aggregatda Beispiel

)(/1)()|Var( wenn :Allgemein

σ

σ

Ramseys Test auf Fehlspezifikation der funktionalen Form mit F-Test• siehe Vorlesung „Spezifikation der

Regressionsfunktion“

Breusch-Pagan Test auf Heteroskedistizität• Grundgedanke: Bei Homoskedastizität sollten

die Quadrate der OLS-Residuen mit keiner der unabhängigen Variablen korrelieren. Das lässt sich mit entsprechender Regression prüfen. Ein Test des Modellfits dieser Regression ist identisch mit dem Breusch-Pagan Test.

• Mehr: Wooldridge (2003: 264-268)• Hinweis: Der in Stata implementierte BP-Test

unterstellt nicht eine linear-additive Funktion für die quadrierten Residuen (WO 266: Formel 8.14), sondern eine log-lineare.

Whites Test auf Heteroskedastizität

• Grundgedanke: Die Annahme der Homoskedastizität ist gegeben, wenn die Quadrate der OLS-Residuen nicht mit den unabhängigen Variablen, ihren Quadraten und allen Kreuzprodukten der unabhängigen Variablen korrelieren. Lässt sich mit entsprechender Regression prüfen. Ein Test des Modellfits dieser Regression ist identisch mit dem White Test.

• Eine vereinfachte Version verwendet die Modellprognosen als Regressoren.

• Mehr: Wooldridge (2003: 268-270)• Hinweis: Der in Stata implementierte White Test

verwendet die vereinfachte Fassung dieses Tests (WO 269: Formel 8.20).

White versus Breusch-Pagan

• W-Test ist ein sehr allgemeiner Test:– Form der Heteroskedastizität muss nicht

spezifiziert werden– reagiert aber auch auf andere Spezifikations-

probleme (Schiefe, funktionale Form)– Stata: Zerlegung nach Cameron & Trivedi

(1990)• BP-Test ist ein spezifischer Test:

– testet Heteroskedastizität, die eine linear-additive Funktion verschiedener Variablen ist

Was heißt: Test des Modellfits?

• Den Fit eines Regressionsmodells kann man entweder mit einem F-Test oder mit einem LM-Test überprüfen.

• LM := Lagrange-Multiplikator-Test (Score-Test)• Wir haben nur den F-Test besprochen.• Sowohl der Breusch-Pagan als auch der White-

Test bauen auf dem LM-Test auf.

• Grundgedanke beim F- und LM-Test: Vergleiche zwei hierarchische Modelle

Lagrange-Multiplikator-Test

• Gegeben: hierarchische Modelle A und a• Grundgedanke: Liefert das weitergehende Modell A

keinen signifikanten Erklärungszuwachs, dann korrelieren die Residuen des restringierten Modells anicht mit den Variablen des weitergehenden Modells A.

• Teste mit Regression der Residuen auf Variablen aus A, wobei n×R² nähererungsweise chi-quadrat-verteilt mit qFreiheitsgraden ist (q = Anzahl der Restriktionen)


Zum Schluss

ZusammenfassungHeteroskedastizität

• Varianz der Fehlerterme ist nicht konstantDefinition

• Breusch-Pagan• White

Tests

• Richtige Spezifikation• Robuste Standardfehler• WLS statt OLS

Alternativen

• erwartungstreue, aber ineffiziente Schätzer• falsche Standardfehler• falsche T- und F-Tests

Folgen

Wichtige Fachausdrücke

robust standarderror

robuster Standardfehler

Ramsey‘sregression

specification test

Ramseys Spezifikations-

test

White testWhites Test auf

Hetero-skedastizität

weighted least squares

estimation

Gewichtete Kleinste-Quadrate

Schätzung

Breusch-Pagan test for hetero-

skedasticity

Breusch-Pagan Test auf Hetero-

skedastizität

hetero-skedasticity

Hetero-skedastizität

EnglischDeutschEnglischDeutsch

Weiterführende Literatur

• Berry / Feldman 1985– Kapitel 6 (BF 73-88) ist ausreichend zur Einführung in

die Problematik. In Bezug auf robuste Schätzverfahren und Tests auf Heteroskedastizität aber etwas veraltet.

• Wooldridge (2003)– Kapitel 8 (WO 257-288) stellt den „state of the art“

dar.– Der Lagrange-Multiplikator Test (LM- oder auch

Score-Test genannt) wird in Abschnitt 5.2 (WO 175-177) erläutert.

Stata-Befehle

gewichtete Kleinste-Quadrate-Schätzungreg y x [aw=gewicht]Berechnung robuster Standardfehlerreg y x, robustWhites Test auf Heteroskedastizitätimtest, whiteBreusch-Pagan Test auf Heteroskedastizitäthettest

Test auf Fehlspezifikation der funktionalen Form (RESET nach Ramsey) mithilfe von Polynomen der x-Variablen

ovtest, rhs

Test auf Fehlspezifikation der funktionalen Form (RESET nach Ramsey) mithilfe von Polynomen der Regressionsprognosen

ovtest

Berechnung der Regressionsprognosen und Abspeicherung in einer neuen Variablen

predict yhat, xb

Nach der Eingabe des Regressionskommandos reg kann man mit weiteren Befehlen zusätzliche (Test-)Ergebnisse abrufen

Documents

Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0607/01/13.pdf · Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale