Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann

  • View
    105

  • Download
    0

Embed Size (px)

Text of Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann

  • Folie 1
  • Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann
  • Folie 2
  • 2 Prognosegleichung Backhaus-Formel fr den Regressionskoeffizienten (S. 16) quivalent zum Grundkurs! aber: Rohwerte! in SPSS: B Backhaus-Formel fr die Regressionskonstante (S. 16) wie im Grundkurs aber Benennung: b 0 ! in SPSS: CONST
  • Folie 3
  • 3 Standardisierte Regressionskoeffizienten Standardisierte Regressionskoeffizienten: bei Backhaus: Standardisierung entspricht dem Koeffizienten fr z-standardisierte Variablen! Sinn: Vergleichbarkeit innerhalb einer Gleichung herstellen! In SPSS: BETA
  • Folie 4
  • 4 Arbeitsblatt 1: Eine unabhngige Variable Konstante = ? r aus Gleichungen 1 u. 2 errechenbar? 1 Jahr (Alter) 10 Jahre SYCDU x 10
  • Folie 5
  • 5 Multiple Regression Regressionsgleichung: Zielfunktion der multiplen Regressionsfunktion: e = Residuum
  • Folie 6
  • 6 Arbeitsblatt 1: y-Werte fr Gleichung y = 2x 1 + x 2 - 4 Lego-Modell!
  • Folie 7
  • 7 Demonstration am Modell: Regressionsgerade Regressionsebene Regressionskoeffizienten: Steigung unabhngig von den brigen UVs! Interpretationen: Regressionskoeffizienten Regressionskonstante analog zum bivariaten Modell
  • Folie 8
  • 8 Arbeitsblatt 1: z-Standardisierung / Unabhngigkeit bereits bekannt? Htte R 2 auch kleiner sein knnen als in vorhergehender Tabelle? Nchste Zeile: Welche Werte sind bekannt?
  • Folie 9
  • 9 Wdh: Bestimmtheitsma R 2 Zerlegung eines Werts Regressionsgerade
  • Folie 10
  • 10 Wdh: Zerlegung eines y-Wertes Regressionsgerade arithmetisches Mittel x Werte fr Beispiel 2 (Grundkurs) Abweichung vom arithmetischen Mittel
  • Folie 11
  • 11 Wdh: Berechnung von R 2
  • Folie 12
  • 12 Bestimmtheitsma R 2 Prfung der Regressionsfunktion insgesamt Backhaus: R 2 r 2 R 2 wird beeinflusst von: Zahl der Regressoren Gre der Stichprobe Korrigiertes Bestimmtheitsma: Bei groen Fallzahlen kaum bedeutsam. Beispiel: N=K=1000, J=5:r 2 = 0.81 r 2 korr = 0.8090 r 2 = 0.49 r 2 korr = 0.4874 r 2 = 0.09 r 2 korr = 0.0854 Anmerkung: R = r = Multipler Korrelationskoeffizient J = Anzahl der Regressoren K = Zahl der Beobachtungen ?
  • Folie 13
  • 13 Prfung des Bestimmtheitsmaes F-Test: Hat sich R 2 emp 0 zufllig ergeben, (Backhaus: r 2 emp 0) obwohl in der Grundgesamtheit R 2 gleich 0 ist? H 0 : Kein Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) H 1 : Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) Testgre: F-Verteilung: (Dichte) J = Anzahl der Regressoren K = Zahl der Beobachtungen Zhler- bzw. Nennerfreiheitsgrade nach Bortz 1989: 107 df. Zhler: 1 df. Nenner: 5 - - - - - - - - - df. Zhler: 10 df. Nenner: 10
  • Folie 14
  • 14 F-Tabelle - Vertrauenswahrscheinlichkeit 0.95 / 0.99 aus: Clau u.a. 1994: 366 f. (Tabellen in Backhaus: S. 576ff.; Auszug: S. 27) f 1 = J: Anzahl der UVs f 2 = K - J - 1: Fallzahl - Anzahl der UVs - 1 Beispiel: J = 1 K = 10 F emp = 4.23 n.s.
  • Folie 15
  • 15 Weiteres Gtema Standardfehler der Schtzung Im Beispiel: Bezogen auf den Mittelwert von Y (1806.8) betrgt der Standardfehler der Schtzung 21% was nicht als gut bewertet werden kann (Backhaus u.a.. 2006: 73) Gibt an, welcher mittlere Fehler bei der Verwendung der Regressionsfunktion zur Schtzung der AV gemacht wird. (Backhaus u.a. 2006: 73)
  • Folie 16
  • 16 Prfung der Regressionskoeffizienten Fr jede der unabhngigen Variablen (UV) ist H 0 gegen H 1 zu prfen: H 0 : Der Regressionskoeffizient hat in der Grundgesamtheit den Wert 0 (kein Einfluss der betreffenden UV auf die AV!) H 1 : Der Regressionskoeffizient hat in der Grundgesamtheit einen Wert 0 (Einfluss der betreffenden UV auf die AV!) Testgre: T-Verteilung (Dichte) (aus: Bleymller u.a. 1992: 63)
  • Folie 17
  • 17 Kritische Werte der t-Verteilung (Wdh.) Tafel 4 aus: Clau u.a. 1994: 364-365 SNV df.: K-J-1 Beispiel: K = 10 J = 1 = 0.05 J = Anzahl der Regressoren K = Zahl der Beobachtungen
  • Folie 18
  • 18 Konfidenzintervalle fr Regressionskoeffizienten Berechnung des Konfidenzintervalls (KI): mit: = Regressionskoeffizient des j-ten Regressors = Standardfehler des j-ten Regressionskoeffizienten t = t-Wert fr gewhlte Vertrauenswahrscheinlichkeit Interpretation? Intervall liegt mit einer Wahrscheinlichkeit von [Vertrauenswahrscheinlichkeit] so, dass es den Regressionskoeffizienten in der Grundgesamtheit umschliet. Je grer das KI, desto unsicherer die Schtzung der Steigung des Regressionskoeffizienten. Gilt insbesondere bei Vorzeichenwechsel innerhalb des KI!
  • Folie 19
  • 19 Prmissen / Prmissenverletzungen (PV) beim linearen Regressionsmodell
  • Folie 20
  • 20 Annahmen des linearen Regressionsmodells Das Modell ist richtig spezifiziert. Es ist linear in den Parametern j. Es enthlt die relevanten UVs (und nur diese!). Zahl der zu schtzenden Parameter (J+1) < Zahl der Beobachtungen (K). Die Strgren haben den Erwartungswert Null. Keine Korrelation zwischen den UVs und der Strgre Strgren haben eine konstante Varianz (Homoskedasziditt) Strgren sind unkorreliert (keine Autokorrelation) Keine lineare Abhngigkeit zwischen den UVs (keine perfekte Multikollinearitt). Die Strgren sind normalverteilt. ( relevant bei statistischen Tests!) Praktisches Problem: Ausreichende Varianz der UVs in der Stichprobe! nach Backhaus u.a. 2006: 79
  • Folie 21
  • 21 PV: Nicht lineare Regressionsbeziehung nach Backhaus u.a. 2006: 82 Lineare Regressionsfunktion Y = 0 + 1 X Nichtlineare Regressionsfunktion Y = 0 + 1 X 0.5 oder: Strukturbruch? PV = Prmissenverletzung!
  • Folie 22
  • 22 PV: Nicht lineare Regressionsbeziehung II nach Backhaus u.a. 2006: 82 Strukturbruch: Trendnderung Strukturbruch: Niveaunderung
  • Folie 23
  • 23 PV: nicht alle relevanten UVs im Modell enthalten UVs: Sympathie J. Fischer.24.35.23 Sympathie J. Trittin.27.35.26 Irak gerechtfertigt-.07-.05-.12-.13-.06-.08 Zuzug Auslnder -.04-.11-.05-.19-.03 -.16 AKWs abschalten.04.07.07.16.04-.14 Zufried. Grne in Koalition.34.54.33 NEO-FFI: OE.08.10.11.18.07.15 NEO-FFI: GW.02.00.01-.03.02-.02 Links-Rechts Selbsteinstufung -.08-.24 Erklrte Varianz R 2 :.54.46.41.17.54.47 Abhngige Variable (AV) jeweils: Sympathie fr die Grnen Zahlenwerte: standardisierte Regressionskoeffizienten nicht signifikant (unter Signifikanzniveau.05) - - - -- - + - - +- - +
  • Folie 24
  • 24 PV: Nicht konstante Varianz der Strgren nach Backhaus u.a. 2006: 87 Heteroskedasziditt II Heteroskedasziditt I Relevant vor allem bei Zeitreihen! Homoskedasziditt: Alle bedingten Verteilungen der u i haben Erwertungswert 0 und konstante Varianz u 2. (Bleymller, 1992: 149)
  • Folie 25
  • 25 PV: Nicht unkorrelierte Strgren (Autokorrelation) nach Backhaus u.a. 2006: 87 Negative Autokorrelation Positive Autokorrelation Relevant vor allem bei Zeitreihen!
  • Folie 26
  • 26 Erkennen von Autokorrelation (Zeitreihen!) Optische Inspektion (Residuen) Durbin-Watson-Test (aus Backhaus u.a. 2006: 101) = + Beziehung? Berechnung? 165.5190 : 155.3195 (Standardfehler der Residuen in der Grundgesamtheit!)
  • Folie 27
  • 27 Test auf Autokorrelation (Durbin-Watson-Formel) Kritische Werte (Tabelle!) Empirischer Wert der Prfgre d ?
  • Folie 28
  • 28 Durbin-Watson Tabelle aus Backhaus u.a. 2006: 820 Vertrauenswahrscheinlichkeit: einseitig 0.975, zweiseitig 0.95 Beispiel: K = Zahl der Beobachtungen J = Zahl der Regressoren d + u = unterer Grenzwert des Unschrfebereichs d + o = unterer Grenzwert des Unschrfebereichs
  • Folie 29
  • 29 Test auf Autokorrelation (Durbin-Watson-Formel) Beispiel: d + u (hier: d u ) = 1.21 d + o (hier: d o ) = 1.56 4 - d o = 2.44 4 - d u = 2.79 d = 2.02 H o keine Auto- korrelation kann nicht zurckge- wiesen werden! 1.21 1.56 2.79 2.44 d = 2.02
  • Folie 30
  • 30 Test auf Autokorrelation: Beispiel 1 d = Indexwert fr die Prfung auf Autokorrelation e k = Residualgre fr den Beobachtungswert in Periode k (k = 1, 2, , K) ?
  • Folie 31
  • 31 Test auf Autokorrelation: Beispiel 2 d = Indexwert fr die Prfung auf Autokorrelation e k = Residualgre fr den Beobachtungswert in Periode k (k = 1, 2, , K) ?
  • Folie 32
  • 32 Keine perfekte Multikollinearitt d.h. Forderung: Keine perfekte lineare Abhngigkeit der UVs Prfung auf Multikollinearitt: 1. Prfung: Korrelationsmatrix der UVs 2. multiple Korrelation R 2 1 R 2 (Toleranz) Variance Inflation Factor (VIF) = Kehrwert der Toleranz Abhilfemglichkeiten: Variablen (UVs) entfernen Ersetzung von Variablen durch Faktoren PV: Starke
  • Folie 33
  • 33 Beispiele fr Regressionsmodelle
  • Folie 34
  • 34 Bivariates Modell: Lineare Einfachregression REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr9_5 /CASEWISE DEPENDENT PRED RESID OUTLIRE (0) : = Zusammenhang? 0,000
  • Folie 35
  • 35 t-Verteilung Standardnormalverteilung z = 1.96 = 0.05 z = 2.58 = 0.01 z = 2.716 = 0.007 z = -2.716 = 0.007 SPSS 0.0035
  • Folie 36
  • 36 Multiple Regression Modell 1 (Ausgangsmodell) REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPE