Upload
lamtram
View
220
Download
1
Embed Size (px)
Citation preview
Analyse von Querschnittsdaten
Heteroskedastizität
Warum geht es in den folgenden Sitzungen?
Kontinuierliche Variablen
Annahmengegeben?
kategoriale VariablenLogistische Regression02.02.2005
Regression mit Dummy-Variablen26.01.2005
Heteroskedastizität19.01.2005
Spezifikation der Regressionsfunktion12.01.2005
Spezifikation der unabhängigen Variablen22.12.2004
Signifikanztests II15.12.2004
Signifikanztests I08.12.2004
Statistische Inferenz01.12.2004
Multiple Regression24.11.2004
Kontrolle von Drittvariablen17.11.2004
Bivariate Regression10.11.2004
Variablen03.11.2004
Daten27.10.2004
Beispiele20.10.2004
Einführung13.10.2004
VorlesungDatum
Gliederung
1. Beispiele mit heteroskedastischen Fehlertermen
2. Auswirkungen von Heteroskedastizität auf OLS-Schätzungen
3. Wie erkennt man das Vorliegen von Heteroskedastizität?
4. Gegenmaßnahmen5. Statistische Begründungen
Gliederung
1. Beispiele mit heteroskedastischen Fehlertermen
2. Auswirkungen von Heteroskedastizität auf OLS-Schätzungen
3. Wie erkennt man das Vorliegen von Heteroskedastizität?
4. Gegenmaßnahmen5. Statistische Begründungen
Beispiel 1: Idealfall-1
01
23
Fitt
ed v
alue
s/S
tund
enlo
hn in
Dol
lar
(Log
arith
mus
)
5 10 15 20years of education
• lwage: Logarithmus des durchschnittlichen Stundenlohns in Dollar
• educ: Ausbildung in Jahren
)Daten simulierte(522:Stichprobe
23,0)|(09,05,0
:theitGrundgesam
2
=
==+⋅+=
n
educuVarueduclwage
σ
Beispiel 2: Messfehler
• Messfehler beim Stundenlohn nehmen mit der Ausbildung zu, weil besser Qualifizierte nicht auf Stundenlohnbasis entlohnt werden.
• Der Stundenlohn muss daher aus Angaben über Arbeitszeit und Monatsgehalt errechnet werden, was mit Fehlern verbunden ist.
• Anderes Beispiel: Konsumausgaben (y) und Einkommen (x)
)Daten simulierte(522:Stichprobe
23,05,0)|(
09,05,0:theitGrundgesam
2
2
=
=⋅⋅=+⋅+=
n
educeducuVarueduclwage
σσ
-10
-50
510
Fitt
ed v
alue
s/S
tund
enlo
hn in
Dol
lar
(Log
arith
mus
)
5 10 15 20years of education
Beispiel 3: Fehlspezifikation
• Irrtümlicherweise werden die unterschiedlichen Bildungsrenditen von Männern und Frauen ignoriert.
•Daten) (sim. 522 :Stichprobe ,23,0),|(
05,03,012,07,02 ===
+⋅+=+⋅+=nfemaleeducuVar
ueduclwageueduclwage fm
σ
01
23
4F
itted
val
ues/
Stu
nden
lohn
in D
olla
r (L
ogar
ithm
us)
5 10 15 20years of education
01
23
4
5 10 15 20 5 10 15 20
Männer Frauen
Fitte
d va
lues
/Stu
nden
lohn
in D
olla
r (L
oga
rithm
us)
years of educationGraphs by =1 if female
Beispiel 4: Aggregatdaten
• Die Datenwerte sind Aggregatinformationen für jeden Staat.• Raten, prozentuale Anteile und Durchschnittswerte beruhen – je nach
Einwohnerzahl – auf unterschiedlichen Fallzahlen.• Sie sind daher unterschiedlich präzise (vgl. z.B. Standardfehler des
arithmetischen Mittels).• Größere Kreise kennzeichnen Staaten mit präziseren Datenwerten
Einkommen-Kopf-ProblichkeitKinderster
0002,02,12
a)(infmrt.dt501987 Staaten,US
==
+⋅−=
=−
xy
uxy
, n
68
1012
14F
itted
val
ues/
infa
nt m
orta
lity
rate
10000 15000 20000per capita income
Beispiel 5: Schiefe Verteilungen
y
x
Daten) e(simuliert 100,3969,09911,0ˆ :Stichprobe =+= nxy
Gliederung
1. Beispiele mit heteroskedastischen Fehlertermen
2. Auswirkungen von Heteroskedastizität auf OLS-Schätzungen
3. Wie erkennt man das Vorliegen von Heteroskedastizität?
4. Gegenmaßnahmen5. Statistische Begründungen
Erwartungstreue, aber geringere Effizienz
• Beispiel 2 (Messfehler):– Je nach Stichprobe sind innerhalb
des roten Bandes alle Regressionsgeraden möglich.
– Im Mittel entspricht ihre Steigung der Steigung der (schwarzen) Geraden in der Grundgesamtheit.
– Im Einzelfall weicht die Steigung jedoch stärker ab als in Beispiel 1.
• Beispiel 1 (Idealfall):– Je nach Stichprobe sind innerhalb
des grünen Bandes alle Regressionsgeraden möglich.
-10
-50
510
Fitt
ed v
alue
s/S
tund
enlo
hn in
Dol
lar
(Log
arith
mus
)
5 10 15 20years of education
-10
12
3F
itted
val
ues/
Stu
nden
lohn
in D
olla
r (L
ogar
ithm
us)
5 10 15 20years of education
Bei Heteroskedastizität ...• sind die Schätzwerte der Regressionskoeffizienten weiterhin
unverzerrt,• aber die Schätzwerte der Standardfehler sind verzerrt.
• Das Schätzverfahren ist nicht mehr effizient.• Die bisherigen Formeln für den Standardfehler sind nicht
mehr verwendbar.• Die bisherigen Verteilungsannahmen sind nicht mehr
gegeben und dementsprechend die Testverteilungen nicht mehr anwendbar:– Die berechneten t-Werte sind nicht mehr T-verteilt.– Die berechneten f-Werte sind nicht mehr F-verteilt.
Zum Vergleich: Annahmen
Gliederung
1. Beispiele mit heteroskedastischen Fehlertermen
2. Auswirkungen von Heteroskedastizität auf OLS-Schätzungen
3. Wie erkennt man das Vorliegen von Heteroskedastizität?
4. Gegenmaßnahmen5. Statistische Begründungen
Allgemeines Vorgehen
1. Frage: Liegt eine Fehlspezifikation der funktionalen Form vor?
- Nicht-Additivität: Variieren die Effekte mit dem Wert der anderen unabhängigen Variablen?
- Nicht-Linearität: Variieren die Effekte mit dem Wert der jeweiligen unabhängigen Variablen?Ramsey‘s Spezifikationstest
2. Frage: Liegt Heteroskedastizität vor?Breusch-Pagan-Test, White‘s Test
Testergebnisse für die Beispiele
χ2=5,83p=0,0542
χ1=62,69p=0,0000
F3,95=2,84p=0,0423
Schiefe
χ2=3,34p=0,1885
χ2=9,02p=0,0110
χ2=26,05p=0,0000
χ2=1,19p=0,5515White
χ1=1,10p=0,2944
χ1=4,56p=0,0328
χ1=27,72p=0,0000
χ1=1,16p=0,2823
Breusch-Pagan
F3,45=1,72p=0,1763
F3,517=3,12p=0,0257
F3,517=1,16p=0,3249
F3,517=0,75p=0,5232Ramsey
Aggregat-daten
Fehlspe-zifikation
Mess-fehlerIdealfallTest
Gliederung
1. Beispiele mit heteroskedastischen Fehlertermen
2. Auswirkungen von Heteroskedastizität auf OLS-Schätzungen
3. Wie erkennt man das Vorliegen von Heteroskedastizität?
4. Gegenmaßnahmen5. Statistische Begründungen
Allgemeines Vorgehen
1. Spezifikation des Regressionsmodells verbessern
2. Berechnung robuster Standardfehler3. Gewichtete Kleinste-Quadrate-
Schätzung (WLS)4. Variablentransformation
Beispiel 3Spezifikation eines Interaktionseffektes
educfemalefemaleeducgealw ⋅⋅−⋅−⋅+= 08,037,013,062,0ˆ
Ramsey Breusch-Pagan WhiteF3,515=0,97; p=0,4043 χ1=1,47; p=0,2252 χ2=3,14; p=0,6784
01
23
4m
aleh
at/fe
mha
t/Stu
nden
lohn
in D
olla
r (L
ogar
ithm
us)
5 10 15 20years of education
Beispiel 2Berechnung robuster Standardfehler
-10
-50
510
Fitt
ed v
alue
s/S
tund
enlo
hn in
Dol
lar
(Log
arith
mus
)
5 10 15 20years of education
Grundlagen und Technik siehe Wooldridge (2003: 258-264) mit weiteren Literaturhinweisen.
Schätzwerte bleiben gleich.St.fehler sind häufig größer.
klassisch robustEducation 0.1140 0.0516 0.0518Konstante 0.1998 0.6663 0.6242
StandardfehlerSchätzwertParameter
Beispiel 4Gewichtete Kleinste-Quadrate-Schätzung
Schätzwert Std.fehler Schätzwert Std.fehlerEinkommen -0.00016 0.000077 -0.00019 0.000074Konstante 12.23529 1.142262 12.96329 1.153401
WLSOLSParameter
68
1012
14in
fant
mor
talit
y ra
te /
fitte
d va
lues
10000 15000 20000 25000per capita income
infant mortality rate OLS WLS
Beispiel 5Transformation der Variablen
Ramsey Breusch-Pagan WhiteF3,95=0,52; p=0,6723 χ1=0,02; p=0,8781 χ2=0,14; p=0,9316
ln(y
)
ln(x)
1005,00,0ˆ
)ln(),ln(**
**
=⋅+=
==
nxy
xxyy
Gliederung
1. Beispiele mit heteroskedastischen Fehlertermen
2. Auswirkungen von Heteroskedastizität auf OLS-Schätzungen
3. Wie erkennt man das Vorliegen von Heteroskedastizität?
4. Gegenmaßnahmen5. Statistische Begründungen
Robuste Standardfehler• Zur Erinnerung: Varianzformel für OLS-Schätzer benötigt
σ (Standardfehler der Regression)
• Grundgedanke robuster Standardfehler: Schätze den Standardfehler der Regression nicht aus allen Beobachtungen. Verwende statt dessen die OLS-Residuen, um quasi für jede Beobachtung einen getrennten Standardfehler der Regression zu schätzen.
• Mehr: Wooldridge (2003: 258-262)
1ˆ
11ˆ
1
22
−−=
−−= ∑
= knSSRu
kn
n
iiσ
Gewichtete Kleinste-Quadrate-Schätzungen (WLS)• Grundgedanke: Kennt man die Form der
Heteroskedastizität und kann diese mit einer Formel beschreiben, dann kann man dieses Wissen in dem Schätzverfahren verwenden.
• Je nach ihrem Beitrag zur Heteroskedastizität gehen die Beobachtungen mit unterschiedlichem Gewicht in das Schätzverfahren ein.
•
• Mehr: Wooldridge (2003: 270-276)
iiii
i
iiii
ngewnxun
xhgewxhxu
=⇒=
=⇒=
2
2
)|Var(:Aggregats) des Größe :(ten Aggregatda Beispiel
)(/1)()|Var( wenn :Allgemein
σ
σ
Ramseys Test auf Fehlspezifikation der funktionalen Form mit F-Test• siehe Vorlesung „Spezifikation der
Regressionsfunktion“
Breusch-Pagan Test auf Heteroskedistizität• Grundgedanke: Bei Homoskedastizität sollten
die Quadrate der OLS-Residuen mit keiner der unabhängigen Variablen korrelieren. Das lässt sich mit entsprechender Regression prüfen. Ein Test des Modellfits dieser Regression ist identisch mit dem Breusch-Pagan Test.
• Mehr: Wooldridge (2003: 264-268)• Hinweis: Der in Stata implementierte BP-Test
unterstellt nicht eine linear-additive Funktion für die quadrierten Residuen (WO 266: Formel 8.14), sondern eine log-lineare.
Whites Test auf Heteroskedastizität
• Grundgedanke: Die Annahme der Homoskedastizität ist gegeben, wenn die Quadrate der OLS-Residuen nicht mit den unabhängigen Variablen, ihren Quadraten und allen Kreuzprodukten der unabhängigen Variablen korrelieren. Lässt sich mit entsprechender Regression prüfen. Ein Test des Modellfits dieser Regression ist identisch mit dem White Test.
• Eine vereinfachte Version verwendet die Modellprognosen als Regressoren.
• Mehr: Wooldridge (2003: 268-270)• Hinweis: Der in Stata implementierte White Test
verwendet die vereinfachte Fassung dieses Tests (WO 269: Formel 8.20).
White versus Breusch-Pagan
• W-Test ist ein sehr allgemeiner Test:– Form der Heteroskedastizität muss nicht
spezifiziert werden– reagiert aber auch auf andere Spezifikations-
probleme (Schiefe, funktionale Form)– Stata: Zerlegung nach Cameron & Trivedi
(1990)• BP-Test ist ein spezifischer Test:
– testet Heteroskedastizität, die eine linear-additive Funktion verschiedener Variablen ist
Was heißt: Test des Modellfits?
• Den Fit eines Regressionsmodells kann man entweder mit einem F-Test oder mit einem LM-Test überprüfen.
• LM := Lagrange-Multiplikator-Test (Score-Test)• Wir haben nur den F-Test besprochen.• Sowohl der Breusch-Pagan als auch der White-
Test bauen auf dem LM-Test auf.
• Grundgedanke beim F- und LM-Test: Vergleiche zwei hierarchische Modelle
Lagrange-Multiplikator-Test
• Gegeben: hierarchische Modelle A und a• Grundgedanke: Liefert das weitergehende Modell A
keinen signifikanten Erklärungszuwachs, dann korrelieren die Residuen des restringierten Modells anicht mit den Variablen des weitergehenden Modells A.
• Teste mit Regression der Residuen auf Variablen aus A, wobei n×R² nähererungsweise chi-quadrat-verteilt mit qFreiheitsgraden ist (q = Anzahl der Restriktionen)
• Mehr: Wooldridge (2003: 175-177)
Zum Schluss
ZusammenfassungHeteroskedastizität
• Varianz der Fehlerterme ist nicht konstantDefinition
• Breusch-Pagan• White
Tests
• Richtige Spezifikation• Robuste Standardfehler• WLS statt OLS
Alternativen
• erwartungstreue, aber ineffiziente Schätzer• falsche Standardfehler• falsche T- und F-Tests
Folgen
Wichtige Fachausdrücke
robust standarderror
robuster Standardfehler
Ramsey‘sregression
specification test
Ramseys Spezifikations-
test
White testWhites Test auf
Hetero-skedastizität
weighted least squares
estimation
Gewichtete Kleinste-Quadrate
Schätzung
Breusch-Pagan test for hetero-
skedasticity
Breusch-Pagan Test auf Hetero-
skedastizität
hetero-skedasticity
Hetero-skedastizität
EnglischDeutschEnglischDeutsch
Weiterführende Literatur
• Berry / Feldman 1985– Kapitel 6 (BF 73-88) ist ausreichend zur Einführung in
die Problematik. In Bezug auf robuste Schätzverfahren und Tests auf Heteroskedastizität aber etwas veraltet.
• Wooldridge (2003)– Kapitel 8 (WO 257-288) stellt den „state of the art“
dar.– Der Lagrange-Multiplikator Test (LM- oder auch
Score-Test genannt) wird in Abschnitt 5.2 (WO 175-177) erläutert.
Stata-Befehle
gewichtete Kleinste-Quadrate-Schätzungreg y x [aw=gewicht]Berechnung robuster Standardfehlerreg y x, robustWhites Test auf Heteroskedastizitätimtest, whiteBreusch-Pagan Test auf Heteroskedastizitäthettest
Test auf Fehlspezifikation der funktionalen Form (RESET nach Ramsey) mithilfe von Polynomen der x-Variablen
ovtest, rhs
Test auf Fehlspezifikation der funktionalen Form (RESET nach Ramsey) mithilfe von Polynomen der Regressionsprognosen
ovtest
Berechnung der Regressionsprognosen und Abspeicherung in einer neuen Variablen
predict yhat, xb
Nach der Eingabe des Regressionskommandos reg kann man mit weiteren Befehlen zusätzliche (Test-)Ergebnisse abrufen