26
Induktive Statistik: Regressionsanalyse

Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Embed Size (px)

Citation preview

Page 1: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Induktive Statistik: Regressionsanalyse

Page 2: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Regression -> Output

Aufgenommene/Entfernte Variablenb,c

SEXa . EingebenModell1

Aufgenommene Variablen

EntfernteVariablen Methode

Alle gewünschten Variablen wurden aufgenommen.a.

Abhängige Variable: breit/ba&rösingb.

Regression der gewichteten kleinsten Quadrate,gewichtet durch SQRTIND

c.

Modellzusammenfassung

.758a .575 .575 4.8602Modell1

R R-QuadratKorrigiertesR-Quadrat

Standardfehler desSchätzers

Einflußvariablen : (Konstante), SEXa.

ANOVAb,c

119995.1 1 119995.12 5079.878 .000a

88719.162 3756 23.622

208714.3 3757

Regression

Residuen

Gesamt

Modell1

Quadratsumme df

Mittel derQuadrate F Signifikanz

Einflußvariablen : (Konstante), SEXa.

Abhängige Variable: breit/ba&rösingb.

Regression der gewichteten kleinsten Quadrate, gewichtet durch SQRTINDc.

Koeffizientena,b

162.073 .090 1807.508 .000

7.695 .108 .758 71.273 .000

(Konstante)

SEX

Modell1

BStandardf

ehler

Nicht standardisierteKoeffizienten

Beta

Standardisierte

Koeffizienten

T Signifikanz

Abhängige Variable: breit/ba&rösinga.

Regression der gewichteten kleinsten Quadrate, gewichtet durch SQRTINDb.

zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert Anzahl der Beobachtungen N:

df: Freiheitsgrade

.

analysieren/Regression/Linear; abhängige & unabhängige Variable einfügen/ OK

Page 3: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OrdinaryLeastSquare-Regression

statistische Zusammenhänge zwischen zwei oder mehreren Variablen

univariate OLS-Regression: nur eine erklärende Variable in der Schätzgleichung

Schätzgleichung: y = a+bx+e y: zu erklärende Variablea: Schnittpunkt mit y-Achse bzw. vertikaler Achsenabschnitt: „Konstante“, d.h. der Wert der abhängigen Variable, bei dem alle

unabhängigen Variablen = 0b: Steigung der Regressionsgerade (Regressionskoeffizient): Wert besagt, um wie viel sich die AV verändert (+/-), wenn die UV

um 1 Einheit steigt positive/ negative Steigung entspricht einem positiven/ negativen

Zusammenhangx: erklärende Variable

Page 4: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OLS-Regression

e: Fehlerterm = Residuen = unerklärte Abweichungen von einer möglichen Regressionsgeraden diese werden quadriert, so daß größere Abweichungen

stärker gewichtet werden OLS: Lage der Regressionsgerade derart, daß die Summe

der Quadrate aller Abweichungen der Punkte von der Geraden minimiert werden=> Minimierung des Fehlerterms e² (d.h. der Summe der quadrierten Fehler): macht z.B. SPSS

je niedriger die Summe von e² relativ zur Gesamtvarianz der zu erklärenden Variable, desto besser das Modell

positive oder negative Korrelation: wachsenden x-Werten entsprechen steigende y-Werte oder umgekehrt

mögliches Problem: Scheinkorrelation: nicht meßbare Variablen beeinflussen erklärende und zu erklärende Variablen

Page 5: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OLS-Regression: Annahmen

1. ist normalverteilt (sonst Fehlspezifikation) Überprüfung: Analysieren/ Regression/ Linear; Abhängige

& unabhängige Variable einfügen & zusätzlich unter Speichern: Residuen Nicht standardisiert ankreuzen/ Weiter/ OK

im Dateneditor erscheinen nun die Residuen als neue Variable res_1 (bei weiteren Regressionen mit fortlaufender Nummer)

mit dem Kolmogorov-Smirnov-Test die Residuen auf Normalverteilung überprüfen: Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ Testvariablen/ res_1

2. E()=0 (kein systematischer Einfluß des Störterms auf y)

Page 6: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OLS-Regression: Annahmen II

3. var(constant (Homoskedastie der Residuen )

4. cov(it)=0 (Residuen korrelieren nicht miteinander)

5. cov(xit)=0 (Residuen korrelieren nicht mit exogenen

Variablen)

bei Verletzung der Annahmen führt die OLS-Methode zu Schätzfehlern

aber: Überprüfung der Variablen auf Schiefe und Umformung schließt viele Fehler aus

Page 7: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Präzision einzelner Regressionskoeffizientenund t-Wert

da die Residuen einer zufällig gezogenen Störvariable entsprechen, würden wir bei einer erneuten Ziehung andere Werte für die abhängige Variable erhalten, damit könnte sich auch der berechnete Regressionskoeffizient ändern

Wie verläßlich ist dieser also?

Zweite Ziehung

Erste Ziehung

b < b

Überprüfung der Signifikanz der Regressionskoeffizienten anhand sog. t-Werte zeigt an, ob eine einzelne Variable einflußreich wenn > 2 => signifikanter Unterschied: d.h. es gibt Zusammenhang +/-: positiver/ negativer Zusammenhang

Page 8: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OLS-Regression: Güte des ModellsBestimmtheitsmaß R²

Güte einer Schätzung läßt sich mit Hilfe des Bestimmtheitsmaßes R² bestimmen

Interpretation: Anteil der durch das Schätzmodell erklärten Varianz an der Gesamtvarianz der abhängigen Variablen

0< R²<1 je näher an 1, desto besser das Modell; die Angabe von R² in der Regressionstabelle ist notwendig

das R² * 100 wird im Text als Prozent interpretiert (R²=0,65: „mit dem Modell können 65% der Varianz erklärt werden“

Vorteil von R2: Werte verschiedener Grundgesamtheiten können direkt miteinander verglichen werden

Angabe von R² ist immer notwendig! adjustiertes R² bei Modellen mit mehreren Variablen

(s. multiple Regression)

Page 9: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OLS-Regression: Signifikanz

zur Angabe der Signifikanz entweder Verwendung des „p-Werts der Signifikanz“ oder anhand der t-Statistik (Daumenregel: ist t-Wert

betragsmäßig größer als 2, dürfte der p-Wert kleiner als 0,05 sein)

p-Wert: Maßzahl für Signifikanz: ermöglicht Beurteilung, wie „systematisch“ (Unterschiede)

eine(r) UV eine AV beeinflußt bzw.: Wie wahrscheinlich ist es, daß ein Zusammenhang

besteht zwischen exogenen und endogener Variablen? eigentlich: Test, ob bzw. wie hoch die

Fehlerwahrscheinlichkeit, daß der Koeffizient oder die Konstante ungleich Null sind, und daher allgemeinere Schlüsse aus dieser Stichprobe gezogen werden dürfen

Page 10: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OLS-Regression: Signifikanz II

Signifikanzniveau/ Sicherheitsniveau:wenn p-Wert < 0,01 oder 0,05 oder 0,1 => signifikanter Einfluß der UV: auf 1%, 5% oder 10%-Level „besser“, desto näher an Null aber: Wahl des Signifikanzniveaus kann von der

Meßqualität der Daten abhängig gemacht werden Z.B.: 1%-Niveau: Wahrscheinlichkeit von 99%, daß

signifikanter Koeffizient einflußreich ist, Irrtumswahrscheinlichkeit: 1%

Page 11: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OLS-Regression: Streudiagramm

nur für univariate Regression rechtwinkliges Koordinatensystem: Streudiagramm –

linearer, nichtlinearer oder kein Zusammenhang abhängige (=zu erklärende, endogene) Variable: wird auf

der y- Achse abgetragen (z. B.: Körpergröße)erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit)

Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK

Einfügen der Regressionsgeraden 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin

auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK

Veranschaulichung der Zusammenhänge zwischen UV & AV

Page 12: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

OLS-Regression:Einflußreiche Ausreißer

Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer

=> verschiedene Streudiagramme identifizieren einflußreiche Ausreißer

Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel)

Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer

Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten

Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig

Ausreißer raus!

Page 13: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Multiple Regression

mehrere erklärende Variable im Schätzmodell große Stärke der Regressionsanalyse: es können Einflüsse

von mehreren erklärenden Variablen geschätzt werden graphisch kaum vorstellbar wichtig: statistische Kennzahlen und Tests, die Hinweise auf

ein korrektes Schätzmodell geben, richtig auszuwerten (z.B. die bereits erwähnten p-Werte)

Page 14: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Multiple Regression undkorrigiertes R2

das „adjustierte R²“ ist hier ein besseres Maß für den Erklärungsanteil des Modells

es ist so konstruiert, daß es sinkt, wenn viele nicht erklärungskräftige Variablen mitberücksichtigt werden

bei Modellen mit mehreren Variablen, nimmt der Erklärungsanteil mit der Anzahl der erklärenden Variablen zu

Extremfall: für jede Beobachtung gibt es eine erklärende Variable R²=1 normales Bestimmtheitsmaß ist nicht mehr aussagekräftig Anpassung um die Anzahl der erklärenden Variablen v Modelle mit höherem R²adj sind vorzuziehen, auch wenn R²

kleiner ist wenn R²adj nach Variablenausschluß stark reduziert

Kolliniarität übersehen

Page 15: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Multiple Regressionen: Sensitivitätsanalyse

wie robust sind die Ergebnisse bei geringfügigen Änderungen in der Modellspezifikation?

Ergebnisse sind unglaubwürdig, falls sich Vorzeichen und Signifikanz der Koeffizienten durch geringfügige Änderungen stark ändern

Aufnahme und Ausschluß von zweifelhaften Variablen und Betrachtung der Auswirkung auf die Schlüsselvariablen

Page 16: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Multiple Regressionen: Teststrategie

Vorgehensweise nach dem Grundsatz „general to specific modelling“, um Verzerrung der Regressions-koeffizienten durch unberücksichtigte Variablen zu vermeiden

zuerst umfassendes Modell mit allen Variablen schätzen, die auch rivalisierende Erklärungen einschließen

dann: insignifikante Variablen aus dem Modell ausschließen: allmählich zum „wahren“ Modell vorarbeiten (hier Multikollinearität möglich)

notwendig: Überprüfung, ob die Annahmen der OLS-Schätzmethode erfüllt sind

Page 17: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Multikollinearität

Def.: Vorhandensein von Kollinearitäten (Abhängigkeiten) zwischen den erklärenden Variablen in multiplen Regressionsmodellen treten aber fast immer (schwache) Abhängigkeiten zwischen den UV auf OLS-Schätzungen bleiben unverzerrt bei starker Multikollinearität kann Variabilität der Koeffizienten- schätzung zunehmen: d.h. schon mit einer geringfügig anderen Modellspezifikation ganz andere Schätzergebnisse möglich

Page 18: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Multikollinearität II

„täuschende“ Insignifikanz bei einer oder mehreren UV möglich => Einfluß einer UV wird übersehen (bei geringen t-Werten)

Auslassen von Variablen mit niedrigen t-Werten kann zu einer Verzerrung der anderen Schätzer führen

Interpretation der Regressionskoeffizienten gestaltet sich schwieriger

aber: R² nicht betroffen Überprüfung der Kollinearitäten hilfreich, um die Ergebnisse

richtig einschätzen zu können

Page 19: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Bestimmung von Multikollinearität

oft als erste Approximation: Überprüfung der Korrelationskoeffizienten=> Schwankungen nach Ausschluß von Variablen die in engem Zusammenhang mit Schlüsselvariable

Bestimmung von Multikollinearität: z.B. mit Variance Inflation Factor (VIF):Werte > 10 deuten auf Multikollinearität (z.B. in SPSS im Regressionsfenster unter „Statistiken“ die Option „Multikollinearitätsdiagnose“ aktivieren)

Daumenregel: kein Problem, wenn R2 > R2 irgendeiner UV auf die anderen UV, oder wenn alles signifikant

Page 20: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Dummy-Variablen

auch Indikator-/ und Kategorienvariablen qualitative Variablen, die keine Ordnung im mathematischen

Sinne angeben Dummies bei 2 Kategorien:

nehmen nur Werte 0 oder 1 an, z.B.x=1, falls Mann & x=0, falls Frau oder x=1, falls zum Römischen Reich gehörig & x=0, falls sonstige Dummy-Variablen können auch zwischen unterschiedlichen Zeitspannen trennen: z.B. 1500-1550=0, 1551-1600=1

Page 21: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Interaktionsterme

um den Einfluß einer Interaktion zwischen zwei Dummyvariablen zu schätzen, werden diese miteinander multipliziert

ergibt eine neue Dummyvariable: mit Wert=1 falls Zugehörigkeit zu beiden Ausgangskategorien Wert=0, falls Zugehörigkeit zu einer oder keiner der beiden

Ausgangskategorien in SPSS: transformieren -> berechnen... zugehöriger Regressionskoeffizient besagt ob eine

Kombination der Charakteristika signifikant unterschiedlich ist von einer bloßen Addition der Koeffizienten der Ausgangsdummies

Page 22: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Dummy-Variablen II

Dummies bei mehr als 2 Kategorien: insbes. bei mehreren Möglichkeiten qualitativer Charakteristika: z.B. Ständegesellschaft:1.Stand/ 2.Stand/ 3.Stand Region: Nordosteuropa/ Zentraleuropa/Südeuropa usw.

mehr Dummies: z.B. Ständegesellschaft:stand1=1, falls 1.Stand/sonstige Kategorien stand1=0stand2=1, falls 2. Stand/sonst stand2=0stand3=1, falls 3. Stand/sonst stand3=0

Vorteil: Kategorien lassen sich unterscheiden, ohne daß Anzahl der Beobachtungen in separaten Regressionen reduziert wird => Präzision der Regressionskoeffizienten bleibt erhalten

Page 23: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Homoskedastie

Varianz der Residuen var(e)=konstant

Page 24: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Heteroskedastie

xx3

a

xx1 x2

yy=a+b

x

keine konstante Varianz der Residuen (graphische Überprüfung: Trichterform!)

Regressionskoeffizienten werden weiterhin unverzerrt geschätzt auf diesen basierende Konfidenzintervalle sind un- gültig: t-Werte falsch geschätzt

OLS-Schätzmethode nicht länger effizient

Page 25: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Heteroskedastie II

Überprüfung durch ‚Modifizierten White-Test‘ vereinfacht: Residuen werden quadriert, um festzustellen,

ob ‚Trichterform‘ signifikant

e² =c+d1ŷ+d2ŷ²+Fehlertermŷ = erwartete, geschätzte Werte der abhängigen Variablec = Konstanted = Regressionskoeffizienten in SPSS:

1. Regression durchführen; dabei unstandardisierte Residuen und unstandardisierte vorhergesagte Werte speichern (im Regressionsfenster unter Speichern/ Residuen (nicht standardisiert) und vorhergesagte Werte (nicht standardisiert) ankreuzen)

Page 26: Induktive Statistik: Regressionsanalyse. Regression -> Output zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Heteroskedastie III

2.Quadrate der vorhergesagten Werte und Residuen bilden(Transformieren/ Berechnen)

3. Regression durchführen, mit AV: quadrierte Residuen; UV: vorhergesagte Werte und quadrierte vorhergesagte Werte

=> Unterscheiden sich die Regressoren gemeinsam signifikant von 0 = wenn F-Wertes signifikant = Heteroskedastie

verschiedene Möglichkeiten Heteroskedastie zu beheben meist hilfreich: Transformation der Variablen (insbes.

Logarithmierung) Aufnahme von weiteren exogenen Variablen