0. Grundlagen der Ökonometrie - uni-kassel.de¶konometrie... · 0. Grundlagen der Ökonometrie Literaturempfehlung: • J. M. Wooldridge (2008), Introductory Econometrics: A modern

0. Grundlagen der Ökonometrie

Literaturempfehlung:

• J. M. Wooldridge (2008), Introductory Econometrics: A

modern approach, Cengage Learning Emea, 4th ed.

• L. von Auer (2011), Ökonometrie: Eine Einführung,

Springer, 5. Aufl.

2

0.1 Struktur ökonomischer Daten

Querschnittsdaten:

• Daten, die zu einem Zeitpunkt (der gelegentlich auch etwas variieren kann)

an einer Untersuchungseinheit erhoben werden (die Anordnung der Einhei-

ten im Datensatz spielt dabei für die Analyse keine Rolle)

• Ausgangspunkt ist meist die implizite Annahme, dass es sich bei der Erhe-

bung um eine Zufallsstichprobe handelt

• Beispiele: Personen- oder Haushaltsdaten (z.B. Einkommen), Unterneh-

mensdaten (z.B. Umsätze), Städte- oder Länderdaten (z.B. Arbeitslosigkeit)

---------------------------------------------------------------------------------------------------------

Beispiel:

---------------------------------------------------------------------------------------------------------

Beobachtungs-

nummer Land

Bevölke-

rungsdichte

BIP pro

Einwohner

Erwerbstät.

Landwirt.

Wachstum

BIP

Geburten-

ziffer

Wanderungs-

saldo

1 A 212,4 20116 9,8 53 8,4 -0,7

2 B 623,7 24966 3,4 73,1 6,1 3,4

3 C 93,1 19324 23,6 47,9 12,3 -1,9

: : : : : : : :

10 J 287,4 23136 8,8 59,4 12,4 1,7

11 K 166,2 20707 14,1 74 13 3,6

12 L 388,1 23624 9,6 54,3 6,9 -0,4

3

Zeitreihendaten:

• Daten, die bei einer Variablen oder verschiedenen Variablen über mehrere

aufeinander folgende Zeitperioden erhoben werden

• Zeit ist hier eine wichtige Dimension (d.h. Beobachtungen sind meist über

die Zeit korreliert), so dass die Anordnung der Beobachtungen im Datensatz

potentiell wichtige Informationen enthält

• Die Häufigkeit der Datensammlung über die Zeit kann stark variieren, z.B.

täglich, wöchentlich, monatlich, quartalsweise oder jährlich mit möglichen

Saisoneffekten bei unterjährigen Daten

• Beispiele: Makroökomische Daten (z.B. Einkommen, Konsum, Investitionen,

Geldangebot, Preisindex), Finanzmarktdaten (z.B. Aktienkurse)

---------------------------------------------------------------------------------------------------------

Beispiel:

---------------------------------------------------------------------------------------------------------

Beobachtungsnummer Jahr Inflation USA Arbeitslosenquote USA

1 1948 8,1 3,8

2 1949 -1,2 5,9

3 1950 1,3 5,3

4 1951 7,9 3,3

: : : :

54 2001 2,8 4,7

55 2002 1,6 5,8

4

Aggregierte (gepoolte) Querschnittsdaten:

• Daten, die sowohl Querschnitts- als auch Zeitreiheneigenschaften aufwei-

sen, da mehrere Querschnittsdatensätze unabhängig voneinander über ver-

schiedene Perioden erhoben und zur Erhöhung des Stichprobenumfangs

miteinander verknüpft werden

• Obwohl die Anordnung der Beobachtungen im Datensatz nicht wesentlich

ist, wird die entsprechende Periode als wichtige Variable erfasst

• Daten werden meist wie herkömmliche Querschnittsdaten analysiert

• Beispiele: Personen- oder Haushaltsdaten (z.B. Einkommen, Ausgaben) in

verschiedenen Jahren

---------------------------------------------------------------------------------------------------------

Beispiel:

---------------------------------------------------------------------------------------------------------

Beobachtungsnummer Jahr Hauspreis Vermögenssteuer Grundstücksgröße

1 1993 85500 42 1600

2 1993 67300 36 1440

: : : : :

250 1993 243600 41 2600

251 1995 65000 16 1250

: : : : :

520 1995 57200 16 1100

5

Paneldaten:

• Daten, die sowohl eine Zeitreihen- als auch eine Querschnittsdimension ha-

ben, wobei hier im Unterschied zu aggregierten Querschnittsdaten diesel-

ben Untersuchungseinheiten (z.B. Personen, Unternehmen, Länder) über

mehrere Zeitperioden beobachtet werden

• Oft ist die Anzahl der Einheiten deutlich größer als die Zeitdimension

• Anordnung der Daten erfolgt oft erst nach Einheiten und dann Perioden

• Daten bieten die Möglichkeit für nicht beobachtbare Charakteristika der Ein-

heiten zu kontrollieren sowie verzögerte Reaktionen zu untersuchen

• Beispiele: Personen- oder Haushaltspaneldaten (z.B. SOEP), Unterneh-

menspaneldaten (z.B. MIP), Länderpaneldaten

---------------------------------------------------------------------------------------------------------

Beispiel:

---------------------------------------------------------------------------------------------------------

Beobachtungs-

nummer Haushalt Jahr Größe Nettoeinkommen Raucherhaushalt

1 1 2000 5 3200 ja

2 1 2005 6 3500 ja

3 2 2000 2 2900 nein

4 2 2005 2 3000 nein

: : : : : :

299 150 2000 3 1793 nein

300 150 2005 4 2380 nein

6

0.2 Lineare Regressionsmodelle (mit Querschnittsdaten)

Multiples lineares Regressionsmodell

Dabei gilt:

y: Endogene, erklärte oder abhängige Variable

x1, x2, …, xk-1, xk: Exogene, erklärende oder unabhängige Variablen

β0: Konstante

β1: Dieser Parameter misst den Effekt einer Veränderung von x1 auf y, falls alle

anderen beobachteten und unbeobachteten Faktoren konstant sind

…

βk: Dieser Parameter misst den Effekt einer Veränderung von xk auf y, falls alle

anderen beobachteten und unbeobachteten Faktoren konstant sind

ε: Störterm

Wesentliche Annahme für den Störterm ε:

Diese Annahme besagt, dass der Störterm ε im Erwartungswert von den erklä-

renden Variablen x1, x2, …, xk unabhängig (mean independent) ist.

0 1 1 2 2 3 3 k-1 k-1 k ky = β + β x + β x + β x + + β x + β x + ε

1 2 kE(ε|x , x , , x ) = 0

7

Für die weitere Analyse linearer Regressionsmodelle benötigt man eine Stich-

probe vom Umfang n aus der Grundgesamtheit.

Multiples lineares Regressionsmodell mit k erklärenden Variablen:

{(xi1, xi2,…, xik, yi), i = 1,…, n}

Unter Einbeziehung der Beobachtungen i = 1,…, n ergibt sich folgendes line-

ares Regressionsmodell:

Dabei ist z.B. xik der Wert der erklärenden Variablen k bei Beobachtung i.

Wesentliche Aufgabe der Regressionsanalyse:

Schätzung der unbekannten Regressionsparameter β0, β1, β2,…

Methode der kleinsten Quadrate

Optimierungsproblem bei der Methode der kleinsten Quadrate im multiplen li-

nearen Regressionsmodell:

i 0 1 i1 2 i2 k ik iy = β + β x + β x + + β x + ε

0 1 2 k

n2

i 0 1 i1 2 i2 k ik, , ,...,

i=1

min (y - - x - x - ... - x )

8

Daraus folgen die Bedingungen erster Ordnung für die k+1 geschätzten Re-

gressionsparameter:

OLS-Regressionswerte („fitted values“) sind geschätzte Werte der abhängigen

Variablen:

OLS-Regressionsfunktion:

n

i 0 1 i1 2 i2 k ik

i=1

n

i1 i 0 1 i1 2 i2 k ik

i=1

n

i2 i 0 1 i1 2 i2 k ik

i=1

n

ik i 0 1 i1 2 i2 k ik

i=1

ˆ ˆ ˆ ˆ(y - β - β x - β x - - β x ) = 0

ˆ ˆ ˆ ˆx (y - β - β x - β x - - β x ) = 0

ˆ ˆ ˆ ˆx (y - β - β x - β x - - β x ) = 0

...

ˆ ˆ ˆ ˆx (y - β - β x - β x - - β x ) = 0

i 0 1 i1 2 i2 k ikˆ ˆ ˆ ˆy = β + β x + β x + + β x für i = 1, , n

0 1 1 2 2 k kˆ ˆ ˆ ˆy = β + β x + β x + + β x

9

Interpretation der geschätzten Parameter in multiplen linearen Regressionsmo-

dellen:

Der geschätzte Parameter für die erklärende Variable x1 gibt die Veränderung

des Regressionswertes an, falls x1 um eine Einheit steigt und alle anderen er-

klärenden Variablen x2, x3, x4,…, xk konstant gehalten werden, d.h.:

Der geschätzte Parameter für die erklärende Variable x2 gibt die Veränderung

des Regressionswertes an, falls x2 um eine Einheit steigt und alle anderen er-

klärenden Variablen x1, x3, x4,…, xk konstant gehalten werden, d.h.:

Die geschätzten Parameter können somit als geschätzte partielle Effekte inter-

pretiert werden, d.h. bei der Schätzung des Effektes einer Variablen wird für die

anderen erklärenden Variablen kontrolliert. Der große Vorteil der Regressions-

analyse (bzw. allgemein ökonometrischer Analysen) ist somit, dass eine ceteris

paribus Betrachtung vorgenommen werden kann, ohne dass ein kontrolliertes

Experiment durchgeführt werden muss.

0 1 1 2 2 k k

1 1 2 2 k k

ˆ ˆ ˆ ˆy = β + β x + β x + + β x

ˆ ˆ ˆy = β x + β x + + β x

1 1ˆy = β x

2 2ˆy = β x

10

Residuen (geschätzte Störterme): Differenz zwischen den tatsächlich beobach-

teten Werten der abhängigen Variablen und der OLS-Regressionswerte.

Alternative Darstellung linearer Regressionsmodelle:

Gesamte Abweichungsquadratsumme (Variation der endogenen Variable bzw.

„total sum of squares“) :

Erklärte Abweichungsquadratsumme (Teil der Variation, der durch die Werte der

exogenen Variablen erklärt wird bzw. „explained sum of squares“):

Residualabweichungsquadratsumme (Teil der Variation, der nicht auf die Werte

der exogenen Variablen zurückzuführen ist bzw. „residual sum of squares“):

Es gilt:

i i i 0 1 i1 2 i2 k ik iˆ ˆ ˆ ˆˆ ˆˆy = y + ε = β + β x + β x + + β x + ε für i = 1,…, n

n2

i

i=1

SST = (y - y)

n n2 2

i i

i=1 i=1

ˆ ˆ ˆSSE = (y - y) = (y - y)

n n2 2

i i

i=1 i=1

ˆ ˆ ˆSSR = (ε - ε) = ε SSR SSE

SST = SSE + SSR bzw. + = 1SST SST

i i i i 0 1 i1 2 i2 k ikˆ ˆ ˆ ˆˆ ˆε = y - y = y - β - β x - β x - - β x für i = 1,…, n

11

Bestimmtheitsmaß (Determinationskoeffizient): Anteil der Variation der abhän-

gigen Variablen yi, der durch die OLS-Regressionsfunktion erklärt wird

Das Bestimmtheitsmaß entspricht auch dem quadrierten Korrelationskoeffizien-

ten zwischen den abhängigen Variablen und den OLS-Regressionswerten:

Eigenschaften des Bestimmtheitsmaßes:

• 0 ≤ R2 ≤ 1

• R2 sinkt niemals, wenn eine weitere (möglicherweise irrelevante) erklärende

Variable hinzugefügt wird (da SSR in diesem Fall niemals ansteigt)

• Aus diesem Grund ist R2 ein schlechtes Maß zur Beurteilung der Güte eines

linearen Regressionsmodells (auch das angepasste Bestimmtheitsmaß, das

die Anzahl der erklärenden Variablen berücksichtigt, ist kein generell geeig-

netes Maß zur Beurteilung der Güte eines linearen Regressionsmodells)

2 SSE SSRR = = 1 -

SST SST

2 2n n

i i i i

2 i=1 i=1

n n n n2 2 2 2

i i i i

i=1 i=1 i=1 i=1

ˆ ˆ ˆ(y - y)(y - y) (y - y)(y - y)

R = =

ˆ ˆ ˆ(y - y) (y - y) (y - y) (y - y)

12

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Löhnen (I)

Mit Hilfe eines linearen Regressionsmodells soll der Effekt der Ausbildungszeit

in Jahren (educ), der Berufserfahrung in Jahren (exper) und der Betriebszuge-

hörigkeit in Jahren (tenure) auf den Logarithmus des Stundenlohns (logwage)

untersucht werden:

Dabei wurde folgende OLS-Regressionsfunktion geschätzt:

Interpretation:

• Geschätzter positiver Einfluss der Ausbildungszeit: Falls exper und tenure

konstant gehalten werden, führt eine um ein Jahr höhere Ausbildungszeit zu

einer erwarteten Erhöhung des Logarithmus des Lohnes um 0,092

• Entsprechend liegen geschätzte positive Effekte von exper und tenure vor,

wenn jeweils die anderen erklärenden Variablen konstant gehalten werden

---------------------------------------------------------------------------------------------------------

0 1 2 3logwage = β + β educ + β exper + β tenure + ε

ˆlogwage= 0,284 + 0,092educ + 0,0041exper + 0,022tenure

13

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Löhnen (II)

(STATA-Output)

reg logwage educ exper tenure

Source | SS df MS Number of obs = 526

-------------+------------------------------ F( 3, 522) = 80.39

Model | 46.8741806 3 15.6247269 Prob > F = 0.0000

Residual | 101.455582 522 .194359353 R-squared = 0.3160

-------------+------------------------------ Adj R-squared = 0.3121

Total | 148.329763 525 .282532881 Root MSE = .44086

------------------------------------------------------------------------------

logwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

educ | .092029 .0073299 12.56 0.000 .0776292 .1064288

exper | .0041211 .0017233 2.39 0.017 .0007357 .0075065

tenure | .0220672 .0030936 7.13 0.000 .0159897 .0281448

_cons | .2843595 .1041904 2.73 0.007 .0796755 .4890435

------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------

14

0.3 Erwartungswert und Varianz von OLS-Schätzern

Annahmen zur Betrachtung des Erwartungswerts von OLS-Schätzern:

• Annahme A1: Linearität in den Parametern

Der Zusammenhang zwischen der abhängigen Variablen y und den erklä-

renden Variablen x1, x2,…, xk ist linear in den Parametern, d.h. es gilt also

y = β0 + β1x1 + β2x2 +…+ βkxk + ε

• Annahme A2: Zufallsstichprobe

Es liegt eine zufällige Stichprobe vom Umfang n aus der Grundgesamtheit

vor mit {(xi1, xi2,…, xik, yi), i = 1,…, n}, so dass für eine zufällig ausgewählte

Beobachtung i gilt: yi = β0 + β1xi1 + β2xi2 +…+ βkxik + εi

• Annahme A3: Keine perfekte Kollinearität

In der Stichprobe (und daher auch in der Grundgesamtheit) ist keine der er-

klärenden Variablen konstant und es besteht keine exakte lineare Bezie-

hung zwischen den erklärenden Variablen

• Annahme A4: Bedingter Erwartungswert von ε ist null

Es gilt also E(ε|x1, x2,…, xk) = 0

Unter diesen vier Annahmen sind alle mit der OLS-Methode geschätzten Para-

meter erwartungstreu, d.h.:

h hÊ(β ) = β für h = 0, 1,…, k

15

Annahmen zur Betrachtung der Varianz von OLS-Schätzern:

• Annahmen A1 bis A4

• Annahme A5: Homoskedastizität

Die bedingte Varianz des Fehlerterms ε ist konstant, d.h. es gilt

Var(ε|x1, x2,…, xk) = σ2. Falls dies nicht zutrifft, d.h. wenn die Varianz von

den erklärenden Variablen abhängt, liegt Heteroskedastizität vor.

→ Die Annahmen A1 bis A5 werden (im Falle von Regressionsanalysen mit

Querschnittsdaten) auch als Gauss-Markov-Annahmen bezeichnet

Damit ergibt sich unter den Annahmen A1 bis A5 für die Varianz der mit OLS

geschätzten Steigungsparameter in linearen Regressionsmodellen:

Dabei stellt Rh2 das Bestimmtheitsmaß bei einer Regression von xh auf alle an-

deren erklärenden Variablen (einschließlich einer Konstante) dar.

→ Während die Annahme der Homoskedastizität unwesentlich für die Erwar-

tungstreue der geschätzten Parameter ist, gilt obige Varianz nur unter die-

ser Annahme, nicht aber bei Heteroskedastizität

2 2

h n 22 2 h hh ih h

i=1

σ σˆVar(β ) = = für h = 1,…, k(1-R )SST

(1-R ) (x -x )

16

Schätzung der Varianz σ2 des Fehlerterms ε:

Die Schätzung von σ2 ist die Grundlage für die Schätzung der Varianz der (mit

OLS) geschätzten Regressionsparameter

Da σ2 = E(ε2), wäre folgender Schätzer für σ2 denkbar:

Allerdings ist dieser Schätzer verzerrt. Ein erwartungstreuer Schätzer ergibt

sich folgendermaßen:

Der (zwar nicht erwartungstreue, aber konsistente, siehe später) Schätzer für

die Standardabweichung σ des Fehlerterms ε („standard error of the

regression, SER“) lautet dann:

n2

i

i=1

1 SSRε =

n n

n2 2

i

i=1

1 SSRˆσ = ε =

n-k-1 n-k-1

n2 2

i

i=1

1ˆˆ ˆσ = σ = ε

n-k-1

17

Damit kann nun die Varianz der mit OLS geschätzten Steigungsparameter in

linearen Regressionsmodellen erwartungstreu geschätzt werden:

Standardabweichung der mit OLS geschätzten Steigungsparameter:

Die Standardabweichung kann dann folgendermaßen geschätzt werden:

Wichtig ist dabei, dass die Verwendung dieser Schätzer insbesondere auf der

Annahme A5 der Homoskedastizität beruht. Bei Heteroskedastizität liegt dage-

gen eine verzerrte Schätzung für die Varianz der mit OLS geschätzten Stei-

gungsparameter vor (obwohl Heteroskedastizität keinen Einfluss auf die Erwar-

tungstreue der geschätzten Regressionsparameter hat).

2

h 2

h h

σˆˆVar(β ) = für h = 1,…, k(1-R )SST

h 2

h h

σˆVar(β ) = für h = 1,…, k(1-R )SST

h 2

h h


18

Falls die Annahmen A1 bis A5 gelten, ergibt sich:

Die OLS-Schätzer sind die besten linearen unverzerrten Schätzer der Regres-

sionsparameter in linearen Regressionsmodellen („BLUE, best linear unbiased

estimator“)

Bestandteile von BLUE:

• „Unverzerrt“ bedeutet, dass der Schätzer erwartungstreu ist

• „Linear“ bedeutet, dass der Schätzer eine lineare Funktion der Daten und

der abhängigen Variablen darstellt

• „Beste“ bedeutet, dass der Schätzer die geringste Varianz besitzt

Im Einklang mit dem Gauss-Markov-Theorem haben OLS-Schätzer damit in

der Klasse aller linearen und unverzerrten Schätzer die geringste Varianz. Vor-

aussetzung für diese Eigenschaft ist aber die Gültigkeit aller zuvor betrachteten

Annahmen A1 bis A5.

19

0.4 Testen von Hypothesen über Regressionsparameter

Zusätzliche Annahme A6: Normalverteilung

Der Störterm ε ist von den erklärenden Variablen x1, x2, …, xk unabhängig und

normalverteilt mit einem Erwartungswert von null und einer Varianz von σ2, d.h.

es gilt: ε ~ N(0; σ2)

→ Die Annahmen A1 bis A6 werden auch als klassische lineare Modellannah-

men bezeichnet. Der Ansatz wird dementsprechend auch als klassisches

lineares Regressionsmodell bezeichnet.

Mit den Annahmen A1 bis A6 gilt für die abhängige Variable:

Es ergibt sich:

Die OLS-Schätzer sind die besten unverzerrten Schätzer der Regressionspa-

rameter in linearen Regressionsmodellen („BUE, best unbiased estimator“).

Damit haben die OLS-Schätzer nicht nur in der Klasse aller linearen unverzerr-

ten Schätzer die geringste Varianz, sondern in der Klasse aller unverzerrten

Schätzer.

2

1 2 k 0 1 1 2 2 k ky|x , x ,…, x N( β + β x + β x + + β x ; σ )

20

Falls Annahme A6 und damit ein normalverteilter Störterm vorliegt, sind auch

die mit OLS geschätzten Steigungsparameter in linearen Regressionsmodel-

len normalverteilt, d.h. es gilt (h = 1,…, k):

Damit ergibt sich (h = 1,…, k):

Zudem gilt, dass jede lineare Funktion der mit OLS geschätzten Regressions-

parameter β 0, β 1,…, β k auch normalverteilt ist.

2

h h h h h n2 2

h ih h

i=1

σˆ ˆ ˆβ N[β ; Var(β )] bzw. β N β ;

(1-R ) (x -x )

h h h h

hn

2 2

h ih h

i=1

ˆ ˆβ -β β -β N(0; 1) bzw. N(0; 1)

σˆVar(β )

(1-R ) (x -x )

21

Allerdings sind die Varianzen oder Standardabweichungen der mit OLS ge-

schätzten Steigungsparameter in linearen Regressionsmodellen in der Regel

nicht bekannt und müssen deshalb geschätzt werden. Falls die Annahmen A1

bis A6 gelten, ergibt sich:

Dabei ist k+1 die Anzahl der unbekannten Regressionsparameter.

t-Test

Die wichtigste zu testende Nullhypothese in empirischen Anwendungen lautet:

Die Nullhypothese über den Steigungsparameter βh impliziert, dass die erklä-

rende Variable xh keinen partiellen Effekt auf die abhängige Variable y hat. Als

Prüfgröße wird hierzu folgende t-Statistik (t-Wert) betrachtet, die die geschätzte

Standardabweichung des geschätzten Parameters einbezieht:

h h h hn-k-1 n-k-1

hn

2 2

h ih h

i=1

ˆ ˆβ -β β -β t bzw. t

σˆˆVar(β )

(1-R ) (x -x )

0 hH : β = 0 für h = 1,…, k

h

hˆ hβ

h

βt = t = t =

ˆˆVar(β )

22

Die t-Statistik ist bei Gültigkeit der Nullhypothese t-verteilt mit n-k-1 Freiheits-

graden. In empirischen Analysen wird bei der Überprüfung von H0: βh = 0 in der

Regel eine zweiseitige Fragestellung untersucht. Dabei gilt für die Alternativhy-

pothese:

Die Nullhypothese wird somit verworfen, falls gilt:

Verallgemeinerung der Nullhypothese:

Die Nullhypothese wird verworfen, wenn β h deutlich von ah abweicht. Als Prüf-

größe wird jetzt folgende allgemeinere t-Statistik betrachtet:

Bei Gültigkeit von H0: βh = ah ist die t-Statistik wiederum t-verteilt mit n-k-1 Frei-

heitsgraden. Die Nullhypothese H0: βh = ah wird somit bei einem Signifikanzni-

veau von α zugunsten der Alternativhypothese H1: βh ≠ ah verworfen, falls gilt:

|t| > tn-k-1;1-α/2.

1 hH : β 0 für h = 1,…, k

n-k-1;1-α/2t > t

0 h hH : β = a für h = 1,…, k

h h

h

β -at =

ˆˆVar(β )

23

---------------------------------------------------------------------------------------------------------

Beispiel: Effekt von Luftverschmutzung auf Immobilienpreise (I)

Mit einem linearen Regressionsmodell soll mit einer Stichprobe von n = 506

Gemeinden der Effekt des Logarithmus der Stickoxide in der Luft (lognox), des

Logarithmus der gewichteten Entfernung zu fünf Beschäftigungszentren

(logdist), der durchschnittlichen Anzahl an Räumen in Häusern (rooms) und

des Verhältnisses von Lehrern und Schülern in den Schulen (stratio) auf den

Logarithmus des Medians der Immobilienpreise (logprice) untersucht werden:

Dabei wurde folgende OLS-Regressionsfunktion geschätzt (R2 = 0,584):

Aufgrund der recht hohen einfachen t-Werte haben alle erklärenden Variablen

bei üblichen Signifikanzniveaus (z.B. 0,05, 0,01) einen signifikanten Effekt. Ei-

ne weitere interessante Nullhypothese bezieht sich auf die Überprüfung, ob β1

dem Wert -1 entspricht, d.h. H0: β1 = -1. Dabei ergibt sich t = (-0,954+1)/0,117

= 0,393. Damit kann bei üblichen Signifikanzniveaus die Nullhypothese nicht

verworfen werden (d.h. die geschätzte Elastizität unterscheidet sich nicht sig-

nifikant vom Wert -1).

---------------------------------------------------------------------------------------------------------

0 1 2 3 4logprice = β + β lognox + β logdist + β rooms + β stratio + ε

ˆlogprice = 11,08 - 0,954lognox - 0,134logdist + 0,255rooms - 0,052stratio

(0,32) (0,117) (0,043) (0,019) (0,006)

24

---------------------------------------------------------------------------------------------------------

Beispiel: Effekt von Luftverschmutzung auf Immobilienpreise (II)

(STATA-Output)

reg logprice lognox logdist rooms stratio


-------------+------------------------------ F( 4, 501) = 175.86

Model | 49.3987581 4 12.3496895 Prob > F = 0.0000

Residual | 35.1834907 501 .070226528 R-squared = 0.5840

-------------+------------------------------ Adj R-squared = 0.5807

Total | 84.5822488 505 .167489602 Root MSE = .265

------------------------------------------------------------------------------

logprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

lognox | -.9535397 .1167418 -8.17 0.000 -1.182904 -.7241759

logdist | -.13434 .0431032 -3.12 0.002 -.2190254 -.0496547

rooms | .254527 .0185303 13.74 0.000 .2181203 .2909338

stratio | -.0524512 .0058971 -8.89 0.000 -.0640373 -.0408651

_cons | 11.08386 .3181115 34.84 0.000 10.45887 11.70886

------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------

25

Es lassen sich auch Hypothesen über Linearkombinationen von Regressions-

parametern testen. Mit beliebigen Werten r1, r2,…,rk und c kann die Nullhypo-

these folgendermaßen spezifiziert werden:

Mit einem Schätzer der Varianz der Linearkombination der Parameter ergibt

sich folgende t-Statistik, die bei Gültigkeit der Nullhypothese t-verteilt ist mit n-

k-1 Freiheitsgraden:

Eine häufig betrachtete Nullhypothese ist die Überprüfung der Gleichheit zwei-

er Parameter, z.B.:

Die t-Statistik lautet:

H0 wird also bei einem Signifikanzniveau von α (in zweiseitigen Fragestellun-

gen) verworfen, falls |t| > tn-k-1;1-α/2.

0 1 1 2 2 k k 0 1 1 2 2 k kH : r β + r β + + r β = c bzw. H : r β + r β + + r β - c = 0

1 1 k k

1 1 k k

ˆ ˆr β + + r β - ct =

ˆ ˆˆVar(r β + + r β )

0 1 2 0 1 2H : β = β bzw. H : β - β = 0

1 2

1 2

ˆ ˆβ -βt =

ˆ ˆˆVar(β -β )

26

F-Test

Schließlich lassen sich auch multiple lineare Restriktionen überprüfen. Aus-

gangspunkt ist folgendes (unrestringiertes) lineares Regressionsmodell:

Bei der Überprüfung, ob q erklärende Variablen gemeinsam keinen Effekt auf

die abhängige Variable haben, gilt für die Nullhypothese:

Das unter H0 restringierte lineare Regressionsmodell lautet dann:

Als Prüfgröße für den F-Test wird folgende F-Statistik (F-Wert) betrachtet:

Bei Gültigkeit von H0 ist diese Prüfgröße F-verteilt mit q (d.h. der Anzahl der

überprüften Ausschlussrestriktionen) und n-k-1 Freiheitsgraden, d.h.:

H0: βk-q+1 = βk-q+2 =⋯= βk = 0 wird bei einem Signifikanzniveau von α zugunsten

der Alternativhypothese verworfen, falls F > Fq;n-k-1;1-α.

0 1 1 2 2 k ky = β + β x + β x + + β x + ε

0 k-q+1 k-q+2 k 0 k-q+1 k-q+2 kH : β = 0, β = 0, , β = 0 bzw. H : β = β = = β = 0

0 1 1 2 2 k-q k-qy = β + β x + β x + + β x + ε

r ur

r ur

ur ur

SSR -SSR

SSR -SSR n-k-1qF = =

SSR SSR q

n-k-1

q;n-k-1F F

27

Alternative Darstellung der F-Statistik mit den Bestimmtheitsmaßen R2r und

R2ur der restringierten und unrestringierten linearen Regressionsmodelle:

Der am häufigsten betrachtete F-Test bezieht sich auf die Untersuchung der

folgenden Nullhypothese:

Dadurch ergibt sich folgendes restringiertes lineares Regressionsmodell:

Für solche restringierten linearen Regressionsmodelle erhält man R2r = 0, so

dass sich aufgrund der q = k vorliegenden Ausschlussrestriktionen folgende

spezifische F-Statistik ergibt (wobei R2 das gewöhnliche Bestimmtheitsmaß bei

einem linearen Regressionsmodell mit k erklärenden Variablen darstellt):

2 2

ur r2 2

ur r

2 2

ur ur

R -R

R -R n-k-1qF = =

1-R 1-R q

n-k-1

0 1 2 kH : β = β = = β = 0

0y = β + ε

2

2

2 2

RR n-k-1kF = =

1-R 1-R k

n-k-1

28

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Geburtsgewichten (I)

Mit Hilfe eines linearen Regressionsmodells soll der Effekt der durchschnittli-

chen Anzahl der von der Mutter während der Schwangerschaft gerauchten Zi-

garetten (cigs), der Geburtsrangfolge des Kindes (parity), des jährlichen Fami-

lieneinkommens (faminc), der Anzahl der Schuljahre der Mutter (motheduc)

und der Anzahl der Schuljahre des Vaters (fatheduc) auf das Geburtsgewicht

des Kindes (bwght) untersucht werden:

Dabei soll zu einem Signifikanzniveau von 0,05 die Nullhypothese überprüft

werden, dass die elterliche Anzahl der Schuljahre keinen Einfluss auf das Ge-

burtsgewicht hat, d.h. H0: β4 = β5 = 0:

• Für n = 1191 Geburten werden das unrestringierte und das restringierte Re-

gressionsmodell mit OLS geschätzt. Dabei ergibt sich R2r = 0,0364 und

R2ur = 0,0387.

• Da n-k-1 = 1191 - 6 = 1185 und q = 2 ergibt sich für die F-Statistik:

F = [(0,0387-0,0364)/(1-0,0387)](1185/2) = 1,42

• Der Schrankenwert aus der F-Verteilung mit 2 und 1185 Freiheitsgraden be-

trägt F2;1185;0,95 = 3,00. Damit kann die Nullhypothese zum 5%-Signifikanzni-

veau nicht verworfen werden.

---------------------------------------------------------------------------------------------------------

0 1 2 3 4 5bwght = β + β cigs + β parity + β faminc + β motheduc + β fatheduc + ε

29

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Geburtsgewichten (II)

(STATA-Output)

reg bwght cigs parity faminc motheduc fatheduc


-------------+------------------------------ F( 5, 1185) = 9.55

Model | 18705.5567 5 3741.11135 Prob > F = 0.0000

Residual | 464041.135 1185 391.595895 R-squared = 0.0387

-------------+------------------------------ Adj R-squared = 0.0347

Total | 482746.692 1190 405.669489 Root MSE = 19.789

------------------------------------------------------------------------------

bwght | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

cigs | -.5959362 .1103479 -5.40 0.000 -.8124352 -.3794373

parity | 1.787603 .6594055 2.71 0.007 .4938709 3.081336

faminc | .0560414 .0365616 1.53 0.126 -.0156913 .1277742

motheduc | -.3704503 .3198551 -1.16 0.247 -.9979957 .2570951

fatheduc | .4723944 .2826433 1.67 0.095 -.0821426 1.026931

_cons | 114.5243 3.728453 30.72 0.000 107.2092 121.8394

------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------

30

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Geburtsgewichten (III)

(STATA-Output)

reg bwght cigs parity faminc


-------------+------------------------------ F( 3, 1187) = 14.95

Model | 17579.8997 3 5859.96658 Prob > F = 0.0000

Residual | 465166.792 1187 391.884408 R-squared = 0.0364

-------------+------------------------------ Adj R-squared = 0.0340

Total | 482746.692 1190 405.669489 Root MSE = 19.796

------------------------------------------------------------------------------

bwght | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

cigs | -.5978519 .1087701 -5.50 0.000 -.8112549 -.3844489

parity | 1.832274 .6575402 2.79 0.005 .5422035 3.122345

faminc | .0670618 .0323938 2.07 0.039 .0035063 .1306173

_cons | 115.4699 1.655898 69.73 0.000 112.2211 118.7187

------------------------------------------------------------------------------

Testanweisung in STATA (nur direkt nach der OLS-Schätzung im unrestringier-

ten Regressionsmodell möglich, Abweichung ergibt sich durch Rundungen):

test motheduc=fatheduc=0

( 1) motheduc - fatheduc = 0

( 2) motheduc = 0

F( 2, 1185) = 1.44

Prob > F = 0.2380

---------------------------------------------------------------------------------------------------------

31

0.5 Asymptotische Eigenschaften

Definition von Konsistenz:

Falls Wn den Schätzer eines Parameters θ auf der Grundlage einer Stichprobe

y1, y2,…,yn darstellt, ist Wn dann ein konsistenter Schätzer von θ, wenn für be-

liebige λ > 0 gilt, dass P(|Wn – θ| > λ) für n → ∞ gegen null konvergiert. In die-

sem Fall konvergiert Wn stochastisch gegen θ, d.h. plim(Wn) = θ.

Konsistenz von OLS-Schätzern:

• Falls die Annahmen A1 bis A4 gelten, sind OLS-Schätzer β h (h = 0,1,…, k) in

linearen Regressionsmodellen konsistente Schätzer für βh, d.h. plim(β h) = βh

• Damit sind für die Konsistenz von OLS-Schätzern dieselben Annahmen wie

bei der Erwartungstreue ausreichend, d.h. z.B. A5 (Heteroskedastizität)

muss nicht erfüllt sein. Tatsächlich muss für die Konsistenz von OLS-

Schätzern neben den Annahmen A1 bis A3 lediglich eine Abschwächung

von A4 vorliegen, d.h. A4‘: E(ε) = 0 und Cov(xh, ε) = 0 (h = 1, 2,…, k).

Inkonsistenz von OLS-Schätzern:

• Zur Erinnerung: Falls E(ε|x1, x2,…, xk) ≠ 0, d.h. also A4 nicht gilt, sind die

OLS-Schätzer in linearen Regressionsmodellen nicht erwartungstreu

• Analog ergibt sich die Inkonsistenz aller OLS-Schätzer, falls ε mit einer be-

liebigen erklärenden Variablen korreliert ist, d.h. also falls A4‘ nicht gilt

32

Asymptotische Verteilungen bei OLS-Schätzern:

Die exakte Normalverteilung der OLS-Schätzer in linearen Regressionsmodel-

len (und damit die exakte t- und F-Verteilung der t- und F-Statistiken) basiert

auf Annahme A6, d.h. ε ~ N(0; σ2). Jedoch kann auch ohne A6 für Funktionen

der OLS-Schätzer eine asymptotische Normalverteilung nachgewiesen wer-

den.

Falls die Annahmen A1 bis A5 gelten, ergibt sich (auch ohne Annahme A6) für

die mit OLS geschätzten Steigungsparameter in linearen Regressionsmodel-

len:

Diese Eigenschaft widerspricht nicht der vorherigen Eigenschaft, wonach diese

Funktion exakt t-verteilt ist mit n-k-1 Freiheitsgraden, falls die Annahmen A1 bis

A6 gelten, da auch analog folgende Darstellung möglich ist (da sich die t-Ver-

teilung bei einer Zunahme der Anzahl an Freiheitsgraden der Standardnormal-

verteilung annähert):

ah h

h

β -β N(0; 1)

ˆˆVar(β )

ah h

n-k-1

h

β -β t

ˆˆVar(β )

33

Folge:

Damit können auch für den Fall, dass der Störterm ε nicht normalverteilt ist, die

bisher betrachteten t- und F-Tests durchgeführt und Konfidenzintervalle kon-

struiert werden. Voraussetzung ist aber, dass der Stichprobenumfang n hinrei-

chend groß ist. Bei kleinem n (bzw. kleiner Anzahl an Freiheitsgraden n-k-1) ist

z.B. die Approximation der t-Statistik an die t-Verteilung unzureichend.

Asymptotische Effizienz:

Unter den Gauss-Markov-Annahmen (also unter den Annahmen A1 bis A5)

sind OLS-Schätzer β h (h = 0, 1,…, k) in einer Klasse konsistenter Schätzer β h

der Regressionsparameter in linearen Regressionsmodellen asymptotisch

effizient, d.h. für die asymptotische Varianz Avar gilt:

h h h hÂvar[ n(β -β )] Avar[ n(β ]-β )

34

0.6 Heteroskedastizität

Zuvor wurde für die Betrachtung der Varianz von OLS-Schätzern die Annahme

5 der Homoskedastizität diskutiert:

• Falls Var(ε|x1, x2,…, xk) ≠ σ2, liegt Heteroskedastizität vor

• Im Gegensatz z.B. zur Vernachlässigung relevanter erklärender Variablen,

hat die Heteroskedastizität keinen Einfluss auf die Erwartungstreue oder

Konsistenz von OLS-Schätzern. Allerdings hat Heteroskedastizität einen

Einfluss auf die (geschätzte) Varianz der mit OLS geschätzten Steigungspa-

rameter in linearen Regressionsmodellen.

• Es wurde bei Homoskedastizität, d.h. unter den Annahmen A1 bis A5, für die

Varianz der geschätzten Steigungsparameter gezeigt (mit Rh2 als Bestimmt-

heitsmaß einer Regression von xh auf alle anderen erklärenden Variablen):

• Damit ergibt sich bei Homoskedastizität mit einem konsistenten Schätzer

der Standardabweichung σ folgende geschätzte Standardabweichung:

2 2

h n 22 2 h hh ih h

i=1

σ σˆVar(β ) = = für h = 1,…, k(1-R )SST

(1-R ) (x -x )

h 2

h h


35

• Da die Varianz lediglich bei Homoskedastizität, nicht aber bei Heteroskedas-

tizität gilt, ist auch diese geschätzte Standardabweichung bei Heteroskedas-

tizität ein verzerrter Schätzer der Standardabweichung der OLS-Schätzer

• Damit sind die geschätzten Standardabweichungen bei Heteroskedastizität

nicht mehr für die Konstruktion von Konfidenzintervallen und t-Statistiken

gültig. Das heißt, die t-Statistiken sind bei Heteroskedastizität (auch bei gro-

ßen Stichprobenumfängen) nicht mehr t-verteilt. Ebenso sind F-Statistiken

bei Heteroskedastizität nicht mehr F-verteilt.

• Schließlich gilt bei Heteroskedastizität nicht mehr die wünschenswerte

BLUE-Eigenschaft (bzw. Effizienz) von OLS-Schätzern sowie die Eigen-

schaft der asymptotischen Effizienz. Es lassen sich bei Kenntnis der Form

der Heteroskedastizität gegenüber den OLS-Schätzern effizientere Schätzer

ermitteln.

Ein Standardtest zur Überprüfung von Homoskedastizität ist (neben z.B. dem

White-Test) der Breusch-Pagan-Test. Die Nullhypothese lautet:

Falls H0 nicht gilt, ist ε2 eine Funktion einer oder mehrerer erklärender Variab-

len. Bei der Betrachtung aller erklärenden Variablen und einer linearen Funk-

tion ergibt sich in diesem Fall mit einem Störterm v mit (bedingtem) Erwar-

tungswert null:

2 2 2 2

0 1 2 k 0 1 2 kH : Var(ε|x , x ,…,x ) = σ bzw. H : E(ε |x , x ,…,x ) = E(ε ) = σ

36

Die Nullhypothese für Homoskedastizität lautet dann:

Da die εi unbekannt sind, werden diese durch ihre Schätzer ersetzt, d.h. den

Residuen ε i, so dass diese quadrierten Residuen auf die erklärenden Variablen

regressiert werden:

Ein hohes Bestimmtheitsmaß R2

ε 2 bei dieser Hilfsregression spricht für die Gül-

tigkeit der Alternativhypothese, d.h. für Heteroskedastizität. Eine Version einer

Breusch-Pagan-Teststatistik lautet:

Bei Gültigkeit der Nullhypothese (d.h. bei Homoskedastizität) gilt:

Damit wird die Nullhypothese der Homoskedastizität zugunsten der Alternativ-

hypothese der Heteroskedastizität bei einem Signifikanzniveau α verworfen,

falls (bei großem Stichprobenumfang n) für die Teststatistik gilt:

2

0 1 1 2 2 k kε = δ + δ x + δ x + + δ x + v

0 1 2 kH : δ = δ = = δ = 0

2

0 1 1 2 2 k kε = δ + δ x + δ x + + δ x + v

2

2

εBP = nR

a2

kBP χ

2

k;1-αBP > χ

37

Falls die Nullhypothese bei einem geringen Signifikanzniveau verworfen und

damit Heteroskedastizität nachgewiesen wird, sollte darauf reagiert werden:

• Eine Möglichkeit ist die Verwendung von zu OLS alternativen Schätzverfah-

ren wie z.B. die gewichtete Methode der kleinsten Quadrate („WLS, weigh-

ted least squares“). Dazu ist es allerdings wünschenswert, die genaue Form

der Heteroskedastizität zu kennen.

• Bei Heteroskedastizität stellt sich aber grundsätzlich die Frage, ob tatsäch-

lich eine zu OLS alternative Schätzmethode angewendet werden sollte: Da

die OLS-Schätzer auch bei Heteroskedastizität (unter den Annahmen A1 bis

A4) erwartungstreu und konsistent sind, kann die Verwendung von OLS

auch in diesem Fall weiterhin nützlich sein.

• Für die Konstruktion von Konfidenzintervallen sowie die Durchführung von t-

und F-Tests sollten bei Heteroskedastizität allerdings dann die geschätzten

Standardabweichungen der OLS-Schätzer korrigiert werden

Dabei werden die unbekannten Varianzen σi2 der OLS-Schätzer durch die

quadrierten Residuen ε i2 (die sich aus der ursprünglichen OLS-Schätzung

ergeben) ersetzt. Im linearen Regressionsmodell ergibt sich allgemein für die

geschätzte Varianz der mit OLS geschätzten Steigungsparameter:

38

Dabei bezeichnen r ih das Residuum für Beobachtung i, das bei der Regression

von xh auf alle anderen erklärenden Variablen entsteht, und SSRh die Residual-

abweichungsquadratsumme aus dieser Regression. Für die geschätzte Stan-

dardabweichung der mit OLS geschätzten Steigungsparameter ergibt sich

nach White (1980):

Auf dieser Grundlage sind verschiedene weitere geschätzte asymptotisch äqui-

valente Standardabweichungen entwickelt worden. Mit Hilfe dieser geschätzten

Standardabweichungen können heteroskedastizitäts-robuste Konfidenzinter-

valle und vor allem t-Statistiken konstruiert werden.

n2 2

ih i

i=1h 2

h

ˆ ˆr εˆˆVar(β ) =

SSR

n2 22

ih ii

i=1

h

h

ˆ ˆr εˆˆVar(β ) =

SSR

39

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Löhnen (I)

Mit Hilfe eines linearen Regressionsmodells wird für n = 526 Personen erneut

der Effekt der Ausbildungszeit in Jahren (educ), der Berufserfahrung in Jahren

(exper), der quadrierten Berufserfahrung in Jahren (expersq), der Betriebszu-

gehörigkeit in Jahren (tenure), der quadrierten Betriebszugehörigkeit in Jahren

(tenuresq) sowie der drei kombinierten Familienstands- und Geschlechtsvari-

ablen für verheiratete Männer (marrmale), verheiratete Frauen (marrfem) und

unverheiratete Frauen (singfem) auf den Logarithmus des Stundenlohns

(logwage) untersucht. Dabei wurde folgende OLS-Regressionsfunktion ge-

schätzt, wobei jetzt neben den herkömmlichen auch die heteroskedastizitäts-

robust geschätzten Standardabweichungen der geschätzten Parameter (eckige

Klammern) ausgewiesen werden (R2 = 0,461):

---------------------------------------------------------------------------------------------------------

ˆlogwage = 0,321 + 0,213 marrmale - 0,198marrfem - 0,110singfem + 0,0789educ

(0,100) (0,055) (0,058) (0,056) (0,0067)

[0,109] [0,057] [0,058] [0,057] [0,0074]

+ 0,0268exper - 0,00054expersq + 0,0291tenure - 0,00053tenuresq

(0,0055) (0,00011) (0,0068) (0,00023)

[0,0051] [0,00011] [0,0069] [0,00024 ]

40

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Löhnen (II)

(STATA-Output)

reg logwage marrmale marrfem singfem educ exper expersq tenure tenuresq, robust

Linear regression Number of obs = 526

F( 8, 517) = 51.70

Prob > F = 0.0000

R-squared = 0.4609

Root MSE = .39329

------------------------------------------------------------------------------

| Robust


-------------+----------------------------------------------------------------

marrmale | .2126756 .0571419 3.72 0.000 .1004167 .3249345

marrfem | -.1982677 .05877 -3.37 0.001 -.3137251 -.0828103

singfem | -.1103502 .0571163 -1.93 0.054 -.2225587 .0018583

educ | .0789103 .0074147 10.64 0.000 .0643437 .0934769

exper | .0268006 .0051391 5.22 0.000 .0167044 .0368967

expersq | -.0005352 .0001063 -5.03 0.000 -.0007442 -.0003263

tenure | .0290875 .0069409 4.19 0.000 .0154516 .0427234

tenuresq | -.0005331 .0002437 -2.19 0.029 -.0010119 -.0000544

_cons | .321378 .109469 2.94 0.003 .1063193 .5364368

------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------

41

0.7 Zur Einbeziehung von abhängigen und erklärenden Variablen

Logarithmierte und quadrierte Variablen:

Lineare Regressionsmodelle können durch die Einbeziehung von (natürlich)

logarithmierten und quadrierten Variablen auch nichtlineare Zusammenhänge

abbilden

Übersicht zur Einbeziehung logarithmierter Variablen:

Lineares

Regressions-

modell

Abhängige

Variable

Erklärende

Variable

Interpretation des

geschätzten

Steigungsparameters

Level-level y xh ∆y = β h∆xh

Level-log y logxh ∆y ≈ (β h/100)%∆xh

Log-level logy xh %∆y ≈ (100β h)∆xh

Log-log logy logxh %∆y = β h%∆xh

42

---------------------------------------------------------------------------------------------------------

Beispiel: Effekt von Luftverschmutzung auf Immobilienpreise

Mit Hilfe eines linearen Regressionsmodells wird nun mit einer Stichprobe von

n = 506 Gemeinden der Effekt des Logarithmus der Stickoxide in der Luft

(lognox) und der durchschnittlichen Anzahl an Räumen in Häusern (rooms) auf

den Logarithmus des Medians der Immobilienpreise (logprice) untersucht. Mit

STATA haben sich dabei folgende OLS-Schätzergebnisse gezeigt (R2 = 0,514):

reg logprice lognox rooms

------------------------------------------------------------------------------

logprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

lognox | -.7176732 .0663397 -10.82 0.000 -.8480102 -.5873361

rooms | .3059183 .0190174 16.09 0.000 .268555 .3432816

_cons | 9.233737 .1877406 49.18 0.000 8.864885 9.602589

------------------------------------------------------------------------------

Damit ergibt sich:

• Eine Erhöhung der Stickoxide in der Luft um 1% (d.h. %∆nox = 1) führt zu

einer Verminderung des erwarteten Medians der Immobilienpreise um

0,718% (falls rooms konstant gehalten wird)

• Eine Erhöhung der durchschnittlichen Anzahl an Räumen in Häusern um

eins (d.h. ∆rooms = 1) führt zu einer approximativen Erhöhung des erwarte-

ten Medians der Immobilienpreise um 0,306∙100 = 30,6% (falls nox konstant

gehalten wird)

---------------------------------------------------------------------------------------------------------

43

Quadrierte erklärende Variablen:

Damit können wachsende oder sinkende (partielle) marginale Effekte in linea-

ren Regressionsmodellen untersucht werden

Zur Erinnerung:

Falls y auf xh regressiert wird, gibt β h die Veränderung des OLS-Regressions-

wertes y an, falls xh um eine Einheit steigt (und alle anderen erklärenden Vari-

ablen konstant gehalten werden). Damit ist hier der (partielle) marginale Effekt

konstant und hängt nicht von xh ab.

Einbeziehung einer quadrierten erklärenden Variablen:

In diesem Fall beschreibt β1 nicht die Veränderung von y in Bezug auf x1. Die

OLS-Regressionsfunktion lautet:

Daraus folgt die Approximation:

Damit hängt der (partielle) marginale Effekt von x1 auf y von den Werten von x1

ab.

2

0 1 1 2 1 3 2 k-1 k-2 k k-1y = β + β x + β x + β x + + β x + β x + ε

2

0 1 1 2 1 3 2 k-1 k-2 k k-1ˆ ˆ ˆ ˆ ˆ ˆy = β + β x + β x + β x + + β x + β x

1 2 1 1 1 2 1

1

yˆ ˆ ˆ ˆy (β +2β x ) x bzw. β + 2β xx

44

Interaktionsterme:

Diese Variablen erlauben, dass der partielle Effekt (bzw. die Elastizität oder Se-

mi-Elastizität) einer erklärenden Variablen in linearen Regressionsmodellen

von verschiedenen Werten einer anderen erklärenden Variablen abhängt

Einbeziehung eines Interaktionsterms:

Auch in diesem Fall beschreibt β1 nicht die Veränderung von y in Bezug auf x1.

Die OLS-Regressionsfunktion lautet:

Daraus folgt:

Zur Schätzung des (partiellen) Effektes von x1 auf y werden interessante Werte

von x2 untersucht (z.B. arithmetisches Mittel in der Stichprobe). β 1 bildet ledig-

lich den geschätzten Effekt von x1 ab, wenn x2 null ist.

0 1 1 2 2 3 1 2 4 3 k-1 k-2 k k-1y = β + β x + β x + β x x + β x + β x + β x + ε

0 1 1 2 2 3 1 2 4 3 k-1 k-2 k k-1ˆ ˆ ˆ ˆ ˆ ˆ ˆy = β + β x + β x + β x x + β x + + β x + β x

1 3 2 1 1 3 2

1

yˆ ˆ ˆ ˆy = (β +β x ) x bzw. = β + β xx

45

Qualitative erklärende Variablen:

Bisher wurde implizit auf quantitative (d.h. metrisch skalierte) abhängige und er-

klärende Variablen in linearen Regressionsmodellen fokussiert wie z.B. Löhne,

Preise, Ausbildungszeit, Umsätze. In empirischen Untersuchungen spielen aber

häufig auch qualitative Faktoren eine wichtige Rolle wie z.B. Geschlecht, Hautfar-

be, Besitz eines Produkts, Branchenzugehörigkeit, regionale Effekte usw.

Qualitative Variablen:

• Qualitative Informationen bei erklärenden Variablen können durch binäre oder

Dummy-Variablen eingefangen werden, die entweder den Wert null oder den

Wert eins annehmen

• Die OLS-Schätzung und das Testen von Hypothesen erfolgt bei der Regres-

sionsanalyse mit qualitativen erklärenden Variablen völlig analog zur aus-

schließlichen Einbeziehung von quantitativen Variablen

Einzelne binäre erklärende Variablen:

Einbeziehung von qualitativen Variablen mit zwei Ausprägungen

Ausgangspunkt ist zunächst ein multiples lineares Regressionsmodell mit

ausschließlich quantitativen Variablen:

0 1 1 2 2 k ky = β + β x + β x + + β x + ε

46

Mit E(ε|x1, x2,…, xk) = 0 gilt:

Nun wird zusätzlich eine binäre erklärende Variable x0 einbezogen:

Daraus folgt:

δ0 ist also die Differenz im Erwartungswert von y zwischen x0 = 1 und x0 = 0,

gegeben die gleichen Werte von x1, x2,…, xk und ε.

→ β0 ist somit die Konstante für x0 = 0. Für x0 = 1 beträgt die Konstante β0 + δ0,

so dass δ0 die Differenz der Konstanten für x0 = 1 und x0 = 0 darstellt.

Achtung:

Es dürfen für einen Faktor (z.B. Geschlecht) niemals zwei Dummy-Variablen

(z.B. eine Variable, die den Wert eins annimmt für Frauen und eine weitere Va-

riable, die den Wert eins annimmt für Männer) gleichzeitig in ein lineares Re-

gressionsmodell einbezogen werden, da dadurch eine perfekte Kollinearität

vorliegen würde (einfache Form der „dummy variable trap“)

1 2 k 0 1 1 2 2 k kE(y|x , x ,…, x ) = β + β x + β x + + β x

0 0 0 1 1 2 2 k ky = β + δ x + β x + β x + + β x + ε

0 0 1 2 k 0 1 2 kδ = E(y|x = 1, x , x , , x ) - E(y|x = 0, x , x , , x )

47

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung (des Logarithmus) von Löhnen

Mit Hilfe eines linearen Regressionsmodells wird für n = 526 Personen der Ef-

fekt des Geschlechts (female), der Ausbildungszeit in Jahren (educ), der Be-

rufserfahrung in Jahren (exper), der quadrierten Berufserfahrung in Jahren

(expersq), der Betriebszugehörigkeit in Jahren (tenure) und der quadrierten

Betriebszugehörigkeit in Jahren (tenuresq) auf den Logarithmus des Stunden-

lohns (logwage) untersucht. Dabei haben sich mit STATA folgende OLS-

Schätzergebnisse gezeigt (R2 = 0,441):

reg logwage female educ exper expersq tenure tenuresq

------------------------------------------------------------------------------


-------------+----------------------------------------------------------------

female | -.296511 .0358055 -8.28 0.000 -.3668524 -.2261696

educ | .0801967 .0067573 11.87 0.000 .0669217 .0934716

exper | .0294324 .0049752 5.92 0.000 .0196584 .0392063

expersq | -.0005827 .0001073 -5.43 0.000 -.0007935 -.0003719

tenure | .0317139 .0068452 4.63 0.000 .0182663 .0451616

tenuresq | -.0005852 .0002347 -2.49 0.013 -.0010463 -.0001241

_cons | .4166909 .0989279 4.21 0.000 .2223425 .6110394

------------------------------------------------------------------------------

Damit ergibt sich, dass der geschätzte Stundenlohn bei Frauen (bei gleicher

Ausbildungszeit, gleicher Berufserfahrung und gleicher Betriebszugehörigkeit)

im Durchschnitt approximativ 100∙0,297 = 29,7% geringer ist.

---------------------------------------------------------------------------------------------------------

48

Binäre erklärende Variablen für multiple Kategorien:

Einbeziehung von qualitativen Variablen mit mehr als zwei Ausprägungen

Ausgangspunkt ist zunächst wieder ein multiples lineares Regressionsmodell

mit ausschließlich quantitativen Variablen:

Nun wird zusätzlich eine qualitative (nominale oder ordinale) erklärende Variab-

le (z.B. Branchen- oder regionale Zugehörigkeit, Schulbildung) mit q verschie-

denen Ausprägungen betrachtet, wobei im Gegensatz zu vorher q > 2. Für die-

sen Fall können (maximal) q-1 Dummy-Variablen x01, x02,…, x0,q-1 einbezogen

werden:

Die q-te Ausprägung der qualitativen Variablen (d.h. die Dummy-Variable x0q)

dient dabei als Basiskategorie. Das heißt, die geschätzten Regressionspara-

meter δ 1, δ 2,…, δ q-1 zeigen für die jeweilige Gruppe der qualitativen Variablen

(d.h. für x01, x02,…, x0,q-1) die geschätzte durchschnittliche Differenz in der ab-

hängigen Variable y im Vergleich zur Basiskategorie, d.h. im Vergleich zu x0q.

Achtung:

Es dürfen niemals alle q Dummy-Variablen x01, x02,…, x0,q gleichzeitig einbezo-

gen werden, da dadurch eine perfekte Kollinearität vorliegen würde (generelle

Form der „dummy variable trap“).

0 1 1 2 2 k ky = β + β x + β x + + β x + ε

0 1 01 2 02 q-1 0,q-1 1 1 2 2 k ky = β + δ x + δ x + + δ x + β x + β x + + β x + ε

49

Interaktionsterme mit binären erklärenden Variablen:

Interaktionsterme müssen sich nicht nur auf zwei quantitative erklärende Vari-

ablen beziehen, sondern können auch Dummy-Variablen einbeziehen

Einbeziehung von Interaktionstermen für zwei binäre erklärende Variablen x01

und x02 neben k quantitativen erklärenden Variablen:

Interpretation:

• Die Einbeziehung von Interaktionstermen für zwei binäre erklärende Variab-

len (neben der separaten Einbeziehung der Dummy-Variablen) ist eine Alter-

native zur Einbeziehung von drei binären erklärenden Variablen, wenn vier

Kategorien untersucht werden sollen

• δ 1 (bzw. δ 2) zeigen für x02 = 0 (bzw. x01 = 0) die geschätzte durchschnittliche

Differenz in der abhängigen Variable y zwischen x01 = 1 und x01 = 0 (bzw.

zwischen x02 = 1 und x02 = 0)

• Für x01 = 1 und x02 = 0 (bzw. für x01 = 0 und x02 = 1) ergibt sich eine ge-

schätzte Konstante von β 0 + δ 1 (bzw. β 0 + δ 2)

• Für x01 = 1 und x02 = 1 ergibt sich schließlich eine geschätzte Konstante von

β 0 + δ 1 + δ 2 + δ 3

0 1 01 2 02 3 01 02 1 1 2 2 k ky = β + δ x + δ x + δ x x + β x + β x + + β x + ε

50

Einbeziehung von Interaktionstermen für eine binäre erklärende Variable x01

und eine quantitative erklärende Variable x1 neben k separaten quantitativen

erklärenden Variablen:

Interpretation:

• Hier kann untersucht werden, inwieweit sich der partielle Effekt (bzw. die

Elastizität oder Semi-Elastizität) der quantitativen erklärenden Variablen x1

in linearen Regressionsmodellen bei den beiden Ausprägungen der binären

erklärenden Variablen x01 unterscheidet. Falls kein Unterschied vorliegt, gilt

δ2 = 0.

• Falls x01 = 0, gilt für die OLS-Regressionsfunktion:

Die geschätzte Konstante lautet hier also β 0 und der geschätzte partielle Ef-

fekt von x1 beträgt β 1.

• Falls x01 = 1, gilt für die OLS-Regressionsfunktion:

Die geschätzte Konstante lautet hier also β 0 + δ 1 und der geschätzte partiel-

le Effekt von x1 beträgt β 1 + δ 2.

0 1 01 1 1 2 01 1 2 2 k ky = β + δ x + β x + δ x x + β x + + β x + ε

0 1 1 2 2 k kˆ ˆ ˆ ˆy = β + β x + β x + + β x

0 1 1 1 2 01 1 2 2 k kˆ ˆ ˆ ˆ ˆ ˆy = β + δ + β x + δ x x + β x + + β x

51

0.8 Lineare Regressionsanalyse mit Zeitreihendaten

Besonderheiten von Zeitreihendaten:

• Auch ökonomische Zeitreihendaten können als Zufallsvariablen aufgefasst

werden. Deren Sequenzen über die Zeit werden als stochastische Prozesse

oder Zeitreihenprozesse aufgefasst. Wenn Zeitreihendaten gesammelt wer-

den, erhält man eine Realisation des stochastischen Prozesses.

• Im Gegensatz zur Querschnittsanalyse werden bei der Betrachtung von

Zeitreihendaten üblicherweise nicht Indizes i = 1,…, n für die einzelnen Be-

obachtungen verwendet, sondern t = 1,…, n für den stochastischen Prozess

{(xt1, xt2,…, xtk, yt)}, wobei n jetzt die Anzahl der Zeitperioden ist

Damit ergibt sich folgende Formulierung eines linearen Regressionsmodells:

Dabei stellt {εt: t = 1,…, n} die Sequenz von Störtermen dar und xth den Wert

der erklärenden Variablen h = 1,…, k in Zeitperiode t. Im Folgenden beinhalten

der k-dimensionale Vektor xt = (xt1,…, xtk) die erklärenden Variablen in t sowie

die (n×k)-dimensionale Matrix x sämtliche erklärende Variablen über alle Pe-

rioden, wobei xt die t-te Zeile von x darstellt.

→ Die unbekannten Parameter können grundsätzlich ebenfalls mit der OLS-

Methode geschätzt werden

t 0 1 t1 2 t2 k tk ty = β + β x + β x + + β x + ε für t = 1,..., n

52

Annahmen zur Betrachtung des Erwartungswerts von OLS-Schätzern:

• Annahme B1: Linearität in den Parametern

Der Zeitreihenprozess {(xt1,…, xtk, yt): t = 1,…, n} folgt dem linearen Modell

yt = β0 + β1xt1 +…+ βkxtk + εt

• Annahme B2: Keine perfekte Kollinearität

In der Stichprobe (und daher auch im zugrundeliegenden Zeitreihenprozess)

ist keine der erklärenden Variablen konstant und es besteht keine exakte li-

neare Beziehung zwischen den erklärenden Variablen

• Annahme B3: Bedingter Erwartungswert von εt ist null

Für jede Zeitperiode t ist der bedingte Erwartungswert von εt, gegeben die

erklärenden Variablen für alle Perioden t = 1,…, n, null, d.h.

Zu Annahme B3 (strikte Exogenität der erklärenden Variablen):

• B3 impliziert, dass der Störterm εt in einer Zeitperiode t mit jeder erklären-

den Variablen xth (h = 1,…, k) in jeder Periode t = 1,…, n unkorreliert ist.

Falls εt unabhängig von x ist und E(εt) = 0, dann gilt dies automatisch.

• Insgesamt ist Annahme B3 in Regressionsanalysen mit Zeitreihendaten sehr

häufig unrealistisch und gilt nur in recht wenigen Fällen. Dennoch soll diese

Annahme zunächst betrachtet werden.

tE(ε |x) = 0 für t = 1,..., n

53

Auch unter den drei Annahmen B1 bis B3 sind alle mit der OLS-Methode ge-

schätzten Parameter sowohl unter der Bedingung von x und auch ohne Bedin-

gung erwartungstreu, d.h.:

Zu beachten ist dabei, dass für die Erwartungstreue auf Annahme A2 (Zufalls-

stichprobe) bei Querschnittsanalysen verzichtet werden kann, wenn B3 gilt.

Annahmen zur Betrachtung der Varianz von OLS-Schätzern:

• Annahmen B1 bis B3

• Annahme B4: Homoskedastizität

Die bedingte Varianz des Fehlerterms εt ist konstant über alle Zeitperioden

t = 1,…, n, d.h. es gilt Var(εt|x) = Var(εt) = σ2. Falls dies nicht zutrifft, liegt wie

bei Querschnittsanalysen Heteroskedastizität vor.

• Annahme B5: Keine Autokorrelation

Unter der Bedingung von x sind die Störterme für beliebige Zeitperioden un-

korreliert, d.h. es gilt Corr(εt,εs|x) = 0 für alle t ≠ s. Bei dieser Annahme wird

zur einfacheren Interpretation oft von der Bedingung von x abstrahiert:

t sCorr(ε ,ε ) = 0 für alle t s

h hÊ(β ) = β für h = 0, 1,…, k

54

Damit ergibt sich auch unter den Annahmen B1 bis B5 für die bedingte Varianz

der mit OLS geschätzten Steigungsparameter:

Dabei stellt Rh2 das Bestimmtheitsmaß bei einer Regression von xh auf alle an-

deren erklärenden Variablen (einschließlich einer Konstante) dar.

Des Weiteren gilt:

• Auch unter den Annahmen B1 bis B5 ergibt sich folgender erwartungstreuer

Schätzer für die Varianz σ2 des Fehlerterms εt:

• Auch unter den Annahmen B1 bis B5 sind die OLS-Schätzer die besten line-

aren unverzerrten Schätzer unter der Bedingung von x

Somit liegen bei den Annahmen B1 bis B5 in Regressionsanalysen mit Zeitrei-

hendaten dieselben wünschenswerten Eigenschaften bei endlichen Stichpro-

ben vor wie bei den Annahmen A1 bis A5 in Querschnittsanalysen.

2 2

h n 22 2 h hh th h

t=1

σ σˆVar(β |x) = = für h = 1,…, k(1-R )SST

(1-R ) (x -x )

n2 2

t

t=1

1 SSRˆσ = ε =

n-k-1 n-k-1

55

Zusätzliche Annahme B6: Normalverteilung

• Die Störterme εt sind unabhängig von x und unabhängig und identisch nor-

malverteilt mit einem Erwartungswert null und einer Varianz σ2, d.h. es gilt:

εt ~ N(0; σ2). Dabei impliziert B6 die Annahmen B3 bis B5, jedoch ist diese

Annahme aufgrund der Unabhängigkeit und Normalverteilung stärker.

Auch unter den klassischen linearen Modellannahmen B1 bis B6 in Zeitrei-

henanalysen ergibt sich:

Die OLS-Schätzer sind unter der Bedingung von x normalverteilt, die konven-

tionelle Konstruktion von Konfidenzintervallen ist gültig und unter den Null-

hypothesen folgen die t- und F-Statistiken der t- und F-Verteilung

Einbeziehung von Dummy-Variablen in Zeitreihenanalysen:

Da eine Beobachtungseinheit eine Zeitperiode ist, repräsentieren Dummy-Vari-

ablen, ob sich ein spezifisches Ereignis in einzelnen Perioden ergeben hat

Es wird nun eine zusätzliche qualitative erklärende Variablen mit q verschiede-

nen Ausprägungen betrachtet. Für diesen Fall können (maximal) q-1 Dummy-

Variablen xt01, xt02,…, xt0,q-1 einbezogen werden:

Die q-te Ausprägung der qualitativen Variablen (d.h. die Dummy-Variable xt0q)

dient dabei als Basiskategorie.

t 0 1 t01 2 t02 q-1 t0,q-1 1 t1 2 t2 k tk ty = β + δ x + δ x + + δ x + β x + β x + + β x + ε

56

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Fertilitätsraten

Mit Hilfe eines linearen Regressionsmodells soll für die Jahre von 1913 bis

1984 der Effekt des durchschnittlichen Steuerfreibetrags (pe) sowie der Zeitpe-

rioden des Zweiten Weltkrieges von 1941 bis 1945 (ww2) und seit Einführung

der Antibabypille ab 1963 (pill) auf die Anzahl der Geburten auf 1000 Frauen im

gebärfähigen Alter (gfr) in den USA untersucht werden. Dabei haben sich mit

STATA folgende OLS-Schätzergebnisse gezeigt (n = 72, R2 =0,473):

reg gfr pe ww2 pill

------------------------------------------------------------------------------

gfr | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

pe | .08254 .0296462 2.78 0.007 .0233819 .1416981

ww2 | -24.2384 7.458253 -3.25 0.002 -39.12111 -9.355686

pill | -31.59403 4.081068 -7.74 0.000 -39.73768 -23.45039

_cons | 98.68176 3.208129 30.76 0.000 92.28003 105.0835

------------------------------------------------------------------------------

Die geschätzten Regressionsparameter implizieren, dass die Anzahl der Ge-

burten auf 1000 Frauen im gebärfähigen Alter (bei gleichem durchschnittlichen

Steuerfreibetrag) während des Zweiten Weltkrieges durchschnittlich um mehr

als 24 und seit Einführung der Antibabypille um mehr als 31 geringer war als in

den anderen Zeitperioden

---------------------------------------------------------------------------------------------------------

57

Achtung:

Es dürfen wiederum niemals alle q Dummy-Variablen xt01, xt02,…, xt0,q gleich-

zeitig einbezogen werden, da dadurch eine perfekte Kollinearität vorliegen wür-

de (generelle Form der „dummy variable trap“)

Zeittrends:

Zeitreihendaten und somit auch abhängige und erklärende Variablen in linea-

ren Regressionsmodellen können eine sinkende und vor allem wachsende

Tendenz über die Zeit haben (z.B. Arbeitsproduktivität, nominale Importe). Falls

dies ignoriert wird, können sich falsche geschätzte kausale Effekte ergeben.

Einfachstes Modell für lineare Zeittrends eines stochastischen Prozesses {yt}:

Im einfachsten Fall stellt {et} eine unabhängige identisch verteilte zufällige Se-

quenz mit E(et) = 0 und Var(et) = σe2 dar.

Zudem ergibt sich:

Bei α1 > 0 liegt im Durchschnitt ein wachsender Trend und bei α1 < 0 ein sin-

kender Trend vor. Im Gegensatz zum Erwartungswert ist die Varianz von yt

konstant über die Zeit.

t 0 1 ty = α + α t + e für t = 1, 2, ...

t 0 1E(y ) = α + α t

58

→ Falls bei abhängigen und/oder erklärenden Variablen in Regressionsanaly-

sen mit Zeitreihendaten Trends vorliegen, sollten diese einbezogen werden,

da ansonsten scheinbare Zusammenhänge („spurious regression“) entste-

hen. Ohne die Einbeziehung von Trendvariablen könnten sich verzerrte

Schätzer der Regressionsparameter ergeben („omitted variable bias“).

Einbeziehung eines linearen Zeittrends:

Anmerkungen:

• Neben linearen Zeittrends können auch quadratische Zeittrends sowie wei-

tere Polynome von t einbezogen werden

• Falls der Zeittrend signifikant von null verschieden ist und sich die Schätzer-

gebnisse stark verändern, sollten die geschätzten Regressionsparameter

ohne die Einbeziehung der Trendvariablen vorsichtig interpretiert werden

• Die Einbeziehung eines Zeittrends als erklärende Variable führt zu einer

Trendbereinigung, d.h. die geschätzten Steigungsparameter können als

geschätzte Effekte ohne den Zeittrend interpretiert werden

• Bestimmtheitsmaße in Regressionsanalysen mit Zeitreihendaten können ar-

tifiziell sehr hohe Werte aufweisen, falls die abhängige Variable einen Trend

aufweist

t 0 1 t1 2 t2 k tk ty = β + β x + β x + + β x + δt + ε für t = 1,..., n

59

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Fertilitätsraten

Wie zuvor soll erneut mit Hilfe eines linearen Regressionsmodells für die Jahre

von 1913 bis 1984 der Effekt des durchschnittlichen Steuerfreibetrags (pe) so-

wie der Zeitperioden des Zweiten Weltkrieges von 1941 bis 1945 (ww2) und

seit Einführung der Antibabypille ab 1963 (pill) auf die Fertilitätsrate (gfr) in den

USA untersucht werden. Jetzt wird aber durch die Einbeziehung einer linearen

Trendvariable eine Trendbereinigung durchgeführt. Dabei haben sich mit STA-

TA folgende OLS-Schätzergebnisse gezeigt (n = 72, R2 = 0,662):

reg gfr pe ww2 pill t

------------------------------------------------------------------------------

gfr | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

pe | .2788778 .0400199 6.97 0.000 .1989978 .3587578

ww2 | -35.59228 6.297377 -5.65 0.000 -48.1619 -23.02267

pill | .997447 6.26163 0.16 0.874 -11.50082 13.49571

t | -1.149872 .1879038 -6.12 0.000 -1.524929 -.7748145

_cons | 111.7694 3.357765 33.29 0.000 105.0673 118.4716

------------------------------------------------------------------------------

Der geschätzte sinkende lineare Zeittrend ist hochsignifikant von null verschie-

den, so dass nun der geschätzte Regressionsparameter für pe mehr als drei-

mal so groß wie vorher und deutlicher signifikant von null verschieden ist .Vor

allem aber hat dadurch nun die Einführung der Antibabypille ab 1963 keinen

signifikanten Effekt mehr jenseits des Zeittrends.

---------------------------------------------------------------------------------------------------------

60

Saisonalität:

Falls sich Zeitreihendaten auf Monate oder Quartale (bzw. auch Wochen oder

Tage) beziehen, kann Saisonalität vorliegen, z.B. Wettereinflüsse bei makro-

ökonomischen Variablen wie Beschäftigungszahlen. Andere Variablen wie z.B.

Zins- oder Inflationsraten weisen dagegen selten Saisonalität auf. Daten für ei-

nige Variablen mit Saisonalität können bereits im Vorfeld saisonbereinigt sein.

Falls Saisonalität bei abhängigen und/oder erklärenden Variablen in Regres-

sionsanalysen mit Zeitreihendaten vorliegt und die Daten noch nicht saisonbe-

reinigt wurden, sollten saisonale Dummy-Variablen einbezogen werden. Bei

Monatsdaten und der Einbeziehung von elf Dummy-Variablen für die Monate

Februar (feb) bis Dezember (dec) ergibt sich z.B.:

Anmerkungen:

• Bei Quartalsdaten können Dummy-Variablen für drei Quartale einbezogen

werden

• Die Einbeziehung von saisonalen Dummy-Variablen führt zu einer Saison-

bereinigung, d.h. die geschätzten Steigungsparameter der erklärenden Vari-

ablen können als geschätzte Effekte ohne Saisonalität interpretiert werden

• Saisonale Dummy-Variablen können neben Trendvariablen einbezogen wer-

den, so dass eine Saison- und Trendbereinigung durchgeführt wird

t 0 1 t1 2 t2 k tk 1 t 11 t ty = β + β x + β x + + β x + δ feb + + δ dec + ε für t = 1,..., n

61

0.9 Asymptotische Eigenschaften in Zeitreihenanalysen

Die zuvor betrachteten Eigenschaften von OLS-Schätzern bei endlichen Stich-

probenumfängen basieren auf Annahmen, die bei Regressionsanalysen mit

Zeitreihendaten sehr restriktiv sein können. Deshalb sind asymptotische Eigen-

schaften unter weniger restriktiven Annahmen bei Zeitreihenanalysen noch

wichtiger als bei Querschnittsanalysen. Hierbei spielen die Stationarität und ei-

ne geringe serielle Abhängigkeit der Zeitreihe bei schwacher Abhängigkeit von

Zeitreihenprozessen eine wesentliche Rolle.

Stationärer stochastischer Prozess:

Ein solcher Zeitreihenprozess ist dadurch gekennzeichnet, dass seine Wahr-

scheinlichkeitsverteilungen zeitinvariant sind, d.h. die gemeinsamen Verteilun-

gen einer spezifischen Sequenz von Zeitreihendaten und einer um beliebige g

Zeitperioden nach vorne verschobenen Sequenz sind identisch

Formale Definition eines (strikt) stationären stochastischen Prozesses:

Ein stochastischer Prozess {yt: t = 1,…, n} ist stationär, falls für alle Zeitindizes

1 ≤ t1 < t2 < … < tm und für alle ganze Zahlen g ≥ 1 die gemeinsame Wahr-

scheinlichkeitsverteilung von (yt1, yt2

,…, ytm) identisch mit der gemeinsamen

Verteilung von (yt1+g, yt2+g,…, ytm+g) ist.

62

Schwach stationärer (kovarianz-stationärer) stochastischer Prozess:

Ein stochastischer Prozess {yt: t = 1,…, n} mit einem endlichen E(yt2) < ∞ ist

schwach stationär, falls (i) E(yt) konstant ist, (ii) Var(yt) konstant ist und (iii) für

alle t, g ≥ 1 gilt, dass Cov(yt, yt+g) nur von g, nicht aber von t abhängt

Schwach abhängige Zeitreihenprozesse:

• Eine schwache Abhängigkeit zwischen zwei Werten yt und yt+g bezieht sich

auf Restriktionen für die Stärke ihres Zusammenhangs, wenn der zeitliche

Abstand g wächst

• Ein stationärer Zeitreihenprozess {yt: t = 1,…, n} ist schwach abhängig, falls

yt und yt+g „fast unabhängig“ sind, wenn g über alle Grenzen wächst

• Ein schwach stationärer Zeitreihenprozess ist schwach abhängig, falls die

Korrelation von yt und yt+g „hinreichend schnell“ gegen null konvergiert,

wenn g über alle Grenzen wächst. Wenn also die Zufallsvariablen über die

Zeit weiter auseinander driften, wird ihre Korrelation immer kleiner, d.h. mit

g → ∞ ergibt sich Corr(yt, yt+g) → 0. Der Zeitreihenprozess wird dann als

asymptotisch unkorreliert bezeichnet.

→ Ein unabhängig identisch verteilter (i.i.d.) Zeitreihenprozess ist das triviale

Beispiel eines schwach abhängigen Prozesses, da er ja unabhängig ist

→ Zeitreihenprozesse mit Trends können nicht-stationär, aber schwach ab-

hängig sein (bei Stationarität über den Zeittrend liegt Trendstationarität vor)

63

Annahmen zur Betrachtung der Konsistenz von OLS-Schätzern:

• Annahme B1‘: Linearität und schwache Abhängigkeit

Es gilt Annahme B1, d.h. der Zeitreihenprozess {(xt, yt): t = 1,…, n} folgt dem

linearen Modell yt = β0 + β1xt1 +…+ βkxtk + εt. Zusätzlich ist der Zeitreihen-

prozess aber stationär und schwach abhängig. Das lineare Regressionsmo-

dell kann nun (wegen B3‘) auch zeitlich verzögerte abhängige Variablen als

erklärende Variablen beinhalten. Die gegenüber B1 wesentliche zusätzliche

Annahme ist weniger die Stationarität, sondern vielmehr die schwache Ab-

hängigkeit, die in vielen Zeitreihenprozessen nicht vorliegt.

• Annahme B2‘: Keine perfekte Kollinearität

Es gilt also Annahme B2

• Annahme B3‘: Bedingter Erwartungswert von εt ist null

Im Gegensatz zu Annahme B3 wird jetzt nicht mehr die strikte Exogenität

der erklärenden Variablen, sondern lediglich die kontemporäre Exogenität

betrachtet, d.h. E(εt|xt) = 0. Häufig wird für die Konsistenzeigenschaft auch

lediglich folgendes vorausgesetzt:

Unter diesen drei Annahmen sind die OLS-Schätzer β h konsistent (wenngleich

nicht unbedingt erwartungstreu), d.h. es gilt plim(β h) = βh für h = 0,1,…, k

t th tE(ε ) = 0, Cov(x , ε ) = 0 für h = 1,..., k

64

Die Annahmen zur Ableitung der asymptotischen Normalverteilung von Funk-

tionen von OLS-Schätzern in Zeitreihenanalysen und damit zur Durchführung

von Testverfahren sind etwas weniger restriktiv als die klassischen linearen

Modellannahmen B1 bis B6:

• Annahmen B1‘ bis B3‘ (die bei der Betrachtung der Konsistenz von OLS-

Schätzern getroffen werden)

• Annahme B4‘: Kontemporäre Homoskedastizität der Fehlerterme

Die bedingte Varianz des Fehlerterms εt ist konstant und bezieht sich nicht

mehr auf die erklärenden Variablen in allen Zeitperioden t = 1,…, n, sondern

nur noch in Zeitperiode t: Var(εt|xt) = Var(εt) = σ2.

• Annahme B5‘: Keine Autokorrelation der Fehlerterme

Für alle t ≠ s gilt E(εtεs|xt, xs) = 0, d.h. es wird nur noch auf die erklärenden

Variablen in den Zeitperioden von εt und εs bedingt. Auch bei dieser Annah-

me wird zur einfacheren Interpretation oft von der Bedingung abstrahiert und

lediglich die Unkorreliertheit von εt und εs betrachtet.

Unter den Annahmen B1‘ bis B5‘ ergibt sich, dass die OLS-Schätzer asympto-

tisch effizient sind und für die zuvor betrachtete Funktion der OLS-Schätzer ei-

ne asymptotische Normalverteilung vorliegt. Zudem sind die t- und F-Statisti-

ken in diesem Fall asymptotisch t- und F-verteilt. Dadurch können dann die

konventionellen t- und F-Tests durchgeführt und Konfidenzintervalle konstruiert

werden.

65

0.10 Autokorrelierte Fehlerterme

Eigenschaften von OLS-Schätzern bei autokorrelierten Fehlertermen:

• Unter den Annahmen B1 bis B3 (insbesondere bei strikter Exogenität der er-

klärenden Variablen) sind die OLS-Schätzer β h unabhängig von der Stärke

der Autokorrelation der Störterme erwartungstreu

• Unter den Annahmen B1‘ bis B3‘ (und damit insbesondere bei schwacher

Abhängigkeit des Zeitreihenprozesses) sind die OLS-Schätzer β h unabhän-

gig von der Stärke der Autokorrelation der Störterme konsistent

• Allerdings werden bei autokorrelierten Fehlertermen nicht mehr die Gauss-

Markov-Annahmen erfüllt, so dass die OLS-Schätzer in diesem Fall nicht

mehr die BLUE-Eigenschaft (bzw. Effizienz) aufweisen

• Vor allem aber sind bei autokorrelierten Fehlertermen die konventionellen

Schätzer der Varianzen der mit OLS geschätzten Steigungsparameter ver-

zerrt und somit auch die t- und F-Statistiken nicht einmal mehr asymptotisch

t- und F-verteilt

• Die wichtigste Form autokorrelierter Fehlerterme ergibt sich durch einen

AR(1) Prozess, also durch folgende AR(1) Autokorrelation:

Dabei gilt die Stabilitätsbedingung |ρ| < 1 und die et sind unkorreliert mit Er-

wartungswert null und Varianz σe2.

t t-1 tε = ρε + e für t = 1, 2,..., n

66

Allgemeiner t-Test auf AR(1) Autokorrelation der Fehlerterme:

• Überprüft wird folgende AR(1) Autokorrelation der Fehlerterme:

Angenommen wird dabei, dass {et} ein i.i.d. Zeitreihenprozess ist, so dass

dabei auch Homoskedastizität vorliegt:

• Die Nullhypothese lautet:

• Die Nullhypothese könnte dadurch überprüft werden, dass ein gewöhnlicher

t-Test für ρ bei der Regression von εt auf εt-1 sowie allen erklärenden Variab-

len (die verzögerte abhängige Variablen sein können) und einer Konstante

angewendet wird

• Allerdings sind die εt unbekannt und werden deshalb durch die OLS-

Residuen ε t ersetzt

• Durch die Einbeziehung der erklärenden Variablen ergibt sich die approxi-

mative t-Verteilung der Prüfgröße, selbst wenn die erklärenden Variablen

nicht strikt exogen sind (bei strikter Exogenität der erklärenden Variablen

genügt eine Regression von ε t auf ε t-1)

t t-1 tε = ρε + e für t = 2, 3,..., n

t t-1 t-2

2

t t-1 t e

E(e |ε , ε ,...) = 0

Var(e |ε ) = Var(e ) = σ

0H : ρ = 0

67

• Somit ergibt sich folgendes Vorgehen bei diesem allgemeinen t-Test:

(1) Mit Hilfe der OLS-Regressionswerte bei der Regression von yt auf die er-

klärenden Variablen xt1,…, xtk werden zunächst die Residuen ε t für alle

t = 1,2,…, n ermittelt

(2) Danach werden die ε t auf die ε t-1 sowie alle erklärenden Variablen ein-

schließlich einer Konstante für alle t = 2,…, n regressiert, der OLS-

Schätzer ρ für ε t-1 abgeleitet und die t-Statistik tρ ermittelt

(3) Die Teststatistik tρ wird schließlich zur Überprüfung der Nullhypothese

H0: ρ = 0 verwendet

• Obwohl dieser Test zur Überprüfung von AR(1) Autokorrelationen in den

Fehlertermen entwickelt wurde, können damit auch andere Formen von (an-

grenzenden) Autokorrelationen aufgedeckt werden

• Falls keine Homoskedastizität bei {et} vorliegt, können heteroskedastizitäts-

robuste t-Statistiken angewendet werden

• Ein alternatives in der Vergangenheit populäres Verfahren ist der Durbin-

Watson-Test auf AR(1) Autokorrelation der Störterme, der allerdings zwin-

gend die strikte Exogenität der erklärenden Variablen voraussetzt (damit

kann dieser Test z.B. nicht bei linearen Regressionsmodellen mit verzöger-

ten abhängigen Variablen angewendet werden)

68

Mögliche Ansätze bei autokorrelierten Fehlertermen:

• Ein Ansatz ist die Transformation der Variablen durch die Einbeziehung von

(z.B. ersten) Differenzen der abhängigen und erklärenden Variablen. Durch

diese Transformation können häufig nicht nur die starke Abhängigkeit der

Zeitreihenprozesse, sondern oft auch eine Autokorrelation der Störterme

ganz vermieden werden.

• Ein alternativer Ansatz ist die Anwendung einer zu OLS alternativen Schätz-

methode. Beispiele hierfür sind verschiedene verallgemeinerte Methoden

der kleinsten Quadrate (GLS) wie z.B. die Cochrane-Orcutt- oder die Prais-

Winston-Methode. Damit können einzelne Formen autokorrelierter Störter-

me bei der Parameterschätzung berücksichtigt werden.

→ Allerdings hat die Anwendung von GLS-Methoden eine Reihe von strengen

Anforderungen. So müssen z.B. die erklärenden Variablen strikt exogen

sein, da GLS-Schätzer ansonsten nicht einmal konsistent sind. Zudem wird

häufig die spezifische AR(1) Autokorrelation der Fehlerterme angenommen.

→ Aus diesem Grund werden in den letzten Jahren viel häufiger die Regres-

sionsparameter (ineffizient) mit OLS geschätzt, die Schätzer der Varianzen

der geschätzten Regressionsparameter aber korrigiert. Damit können in

Analogie zur Betrachtung von heteroskedastizitäts-robusten t-Statistiken au-

tokorrelations-robuste Konfidenzintervalle und vor allem t-Statistiken abge-

leitet werden.

69

Ausgangspunkt eines Ansatzes zur Ableitung von autokorrelations-robusten

Schätzungen der Varianz der geschätzten Regressionsparameter ist das fol-

gende lineare Regressionsmodell:

Dabei soll zunächst eine autokorrelations-robuste Schätzung der Standardab-

weichung des OLS-Schätzers β 1 abgeleitet werden. Hierzu wird folgendes

Hilfsregressionsmodell betrachtet, das die erste erklärende Variable xt1 als ab-

hängige Variable und alle anderen erklärenden Variablen als erklärende Vari-

ablen beinhaltet:

Dabei hat der Störterm rt1 einen Erwartungswert von null und ist unkorreliert mit

den erklärenden Variablen xt2,…, xtk.

Für den Schätzer der Standardabweichung des OLS-Schätzers β 1 wird im Fol-

genden weiterhin der Schätzer σ der Standardabweichung σ des Fehlerterms εt

betrachtet. Mit r t1 als Residuum der obigen OLS-Schätzung in Zeitperiode t

kann mit g > 0 (wobei g kontrolliert, welches Ausmaß an Autokorrelation in die

Betrachtung einbezogen wird) folgender Ansatz abgeleitet werden:

t 0 1 t1 k tk ty = β + β x + + β x + ε für t = 1,..., n

t1 0 1 t2 k-1 tk t1x = δ + δ x + + δ x + r für t = 1,..., n

gn n2 2

t1 t t1 tt t-h,1 tt--hh

t=1 h=1 t=h+1

hˆ ˆ ˆ ˆ ˆ ˆv = r ε + 2 1- r ε r ε

g+1

70

Je größer g ist, desto mehr Terme werden zur Korrektur der Autokorrelation

einbezogen. Im einfachsten Fall mit g = 1 ergibt sich:

Damit ergibt sich nun folgender autokorrelations-robuster Schätzer der Stan-

dardabweichung von β 1:

Diese Schätzung kann analog auf beliebige OLS-Schätzer β h angewendet wer-

den (mit Störterm rth). Dabei sind die Schätzungen nicht nur autokorrelations-

robust, sondern auch robust für beliebige Formen der Heteroskedastizität, so

dass sie auch als heteroskedastizitäts- und autokorrelations-konsistente (HAC)

Schätzungen der Standardabweichung der geschätzten Steigungsparameter

bezeichnet werden. Diese Robustheit für Heteroskedastizität zeigt sich, wenn

für β h nur der erste Term von v einbezogen wird:

n n2 2

t1 t t1 tt t-1,1 tt--11

t=1 t=2

ˆ ˆ ˆ ˆ ˆ ˆv = r ε + r ε r ε

2

2

1 1

1 2

1 1 1

σ

(1-R )SST ˆ ˆv vˆˆ ˆVar(β ) = v = = σ (1-R )SST SSR

71

Damit ergibt sich die Analogie zur heteroskedastizitäts-robusten Schätzung der

Standardabweichung von mit OLS geschätzten Steigungsparametern.

Anmerkungen:

• Die Einbeziehung der HAC-Schätzung der Standardabweichung der ge-

schätzten Steigungsparameter in t-Statistiken führt zu heteroskedastizitäts-

und autokorrelations-robusten t-Statistiken

• Mit wachsendem n sollte auch die Zahl g wachsen, da bei einer großen An-

zahl an Zeitperioden auch das Ausmaß der Autokorrelation der Fehlerterme

steigen kann. Faustregeln sind g = 4(n/100)2/9 (nach Newey und West,

1987) oder aber g = n1/4.

• Aufgrund von häufig positiver Autokorrelation der Störterme weisen die

HAC-Schätzer der Standardabweichung der geschätzten Steigungsparame-

ter oft höhere Werte auf als die konventionellen Schätzer, so dass die HAC

t-Statistiken meist kleiner sind

• Probleme der HAC-Schätzungen sind, dass sie bei sehr hoher Autokorrela-

tion der Störterme und kleinem n sehr invalide und dass die zugrunde lie-

genden OLS-Schätzer sehr ineffizient sein können

n n2 2 2 2

th t th t

t=1 t=1

h 2

h h h

ˆ ˆ ˆ ˆr ε r εˆˆVar(β ) = =

(1-R )SST SSR

72

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Beschäftigungsraten (I)

Mit Hilfe eines linearen Regressionsmodells soll für die Jahre von 1950 bis

1987 der Effekt des Logarithmus der Bedeutung des U.S. Mindestlohnes

(logmincov), des Logarithmus des U.S. Bruttosozialprodukts (logusgnp) und

des Logarithmus des Bruttosozialprodukts in Puerto Rico (logprgnp) unter Ein-

beziehung einer linearen Trendvariable auf den Logarithmus der Beschäfti-

gungsrate in Puerto Rico (logprepop) untersucht werden. Bei einem Test auf

AR(1) Autokorrelation der Fehlerterme hat sich ein klarer Hinweis auf AR(1)

Autokorrelation ergeben, so dass autokorrelations-robuste t-Statistiken be-

trachtet werden.

Ergebnisse:

• Der OLS-Schätzer der Elastizität der Beschäftigungsrate in Bezug auf den

Mindestlohn beträgt -0,2123 und der übliche Schätzwert der Standardabwei-

chung des geschätzten Steigungsparameters beträgt 0,0402

• Mit g = 2 ergibt sich ein heteroskedastizitäts- und autokorrelationsrobuster

Schätzer der Standardabweichung des Steigungsparameters von 0,0457

und ist damit nur geringfügig höher

• Die robuste t-Statistik beträgt -4,64, so dass die geschätzte Elastizität wei-

terhin hoch signifikant von null verschieden ist

---------------------------------------------------------------------------------------------------------

73

---------------------------------------------------------------------------------------------------------

Beispiel: Erklärung von Beschäftigungsraten (II)

(STATA-Output)

reg logprepop logmincov logusgnp logprgnp t


-------------+------------------------------ F( 4, 33) = 66.23

Model | .284429837 4 .071107459 Prob > F = 0.0000

Residual | .03542846 33 .00107359 R-squared = 0.8892

-------------+------------------------------ Adj R-squared = 0.8758

Total | .319858296 37 .008644819 Root MSE = .03277

------------------------------------------------------------------------------

logprepop | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

logmincov | -.2122612 .0401525 -5.29 0.000 -.2939519 -.1305704

logusgnp | .4860432 .2219834 2.19 0.036 .0344145 .9376719

logprgnp | .2852395 .0804922 3.54 0.001 .1214768 .4490022

t | -.0266633 .0046267 -5.76 0.000 -.0360764 -.0172501

_cons | -6.663416 1.257835 -5.30 0.000 -9.222501 -4.104331

------------------------------------------------------------------------------

newey logprepop logmincov logusgnp logprgnp t, lag(2)

Regression with Newey-West standard errors Number of obs = 38

maximum lag: 2 F( 4, 33) = 37.84

Prob > F = 0.0000

------------------------------------------------------------------------------

| Newey-West

logprepop | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

logmincov | -.2122611 .0457188 -4.64 0.000 -.3052768 -.1192455

logusgnp | .4860416 .2791144 1.74 0.091 -.081821 1.053904

logprgnp | .2852399 .0996364 2.86 0.007 .082528 .4879518

t | -.0266632 .0057559 -4.63 0.000 -.0383736 -.0149528

_cons | -6.663407 1.536445 -4.34 0.000 -9.789328 -3.537485

------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------

Documents

0. Grundlagen der Ökonometrie - uni-kassel.de¶konometrie... · 0. Grundlagen der Ökonometrie Literaturempfehlung: • J. M. Wooldridge (2008), Introductory Econometrics: A modern