Upload
lamque
View
227
Download
0
Embed Size (px)
Citation preview
Methoden 2
Regressionsanalyse I: Lineare Regression
Institut für SoziologieAndreas Schneck
# 2Andreas Schneck
Organisatorisches
Hausarbeitsgruppen:
• Aktueller Stand der Gruppenbildung
• Bitte bis spätestens 03.07.2017 die Gruppenzusammensetzung an [email protected] senden!
19.06.2017
# 3Andreas Schneck
Vorstellung des neuen Datensatzes
Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017
Online-Befragung (Codebuch auf der Homepage)
Stichprobe
AbsolventInnen der Soziologie an der LMU von 2012-2016 (BA/MA)
Realisierte Interviews (Stand 31.05.2017)
184 (35% Rücklaufquote)
Für die Übung/ Hausarbeit steht Ihnen der aktuelle Datensatz von 2017 zur Verfügung (Passwort: M2Abs17)
Zugang zu Texten aus Methoden I (Passwort: M1Abs16)
19.06.2017
Inhalt
# 4Andreas Schneck
1. Grundidee und Vorgehen
2. Stata-Befehl
3. Regressionskoeffizienten –Interpretation & Signifikanz
4. Güte eines Regressionsmodells
5. Kategoriale Einflussgrößen
6. Darstellung in Hausarbeiten
7. Zusammenfassung und „Kochrezept“
8. Übungsaufgaben
19.06.2017
Mit bisherigen Verfahren der Zusammenhangsanalyse (Kreuztabellen, Korrelationen) können Hypothesen getestet werden …
… Vorhersagen zu individuellen Werten in der abhängigen Variable auf Basis der unabhängigen Größen sind jedoch nicht möglich
Grundlegende Unterschiede:
• Unterscheidung zwischen abhängigen (AV) und unabhängigen Variablen nötig, da Größen nicht mehr symmetrisch
• Die Effekte sind in der Regression auch in der Originalmetrik (z.B. cm, €,…) interpretierbar
# 5Andreas Schneck
Grundidee und VorgehenVergleich mit bisherigen Verfahren
19.06.2017
Regressionsverfahren untersuchen den Zusammenhang zwischen einer AV (y) und einer bzw. mehreren unabhängigen Variablen (x)
𝑦 = 𝑓(𝑥)
„Regressieren“ heißt „zurückführen auf“: Eine AV wird auf UVs zurückgeführt, sprich: eine AV wird auf UVs regressiert.
Dabei ist die Kontrolle auf eine Vielzahl von verschiedenen Einflussgrößen möglich (multiple lineare Regression in der nächsten Sitzung)
Regression ist in den Sozialwissenschaften das am weitesten verbreitete Analyseverfahren
# 6Andreas Schneck
Grundidee und VorgehenBegriff und Skalenniveau
19.06.2017
Trotz der Aufteilung in AV und UV kann mit einer Regressionsanalyse keine Kausalität nachgewiesen werden
D.h. trotz eines Zusammenhangs zwischen AV und UV muss die UV die AV nicht hervorrufen
→ Theoretische Vorüberlegungen sind unabdingbar
→Kausalität ist mit statistischen Verfahren alleine nicht nachzuweisen
→Kausale Wirkungsvermutungen sollten immer theoretisch fundiert werden – dies gilt auch für komplexere statistische Analyseverfahren
# 7Andreas Schneck
Grundidee und VorgehenKeine Kausalanalyse!
19.06.2017
Ungerichtete offene Forschungsfrage:
• Welchen Einfluss hat die Abi-Note (HZB-Note) auf die BA-Abschlussnote?
• Wie wirkt sich das die Semesteranzahl einer Person auf deren Einkommen aus?
Gerichtete Forschungsfrage:
• Steigt das Einkommen mit höherer studierter Semesteranzahl?
• Verschlechtert sich die BA-Abschlussnote mit schlechterer HZB-Note
Forschungshypothese:
H1: Je höher die studierte Semesteranzahl desto höher das Einkommen einer Person.
Oder
H1: Je länger die Studiendauer, desto höher das erzielte Erwerbseinkommen.
H2: Je schlechter die HZB-Note, desto schlechter die BA-Abschlussnote.
# 8Andreas Schneck
Grundidee und VorgehenBeispiele
19.06.2017
Ungerichtete offene Forschungsfrage:
• Welchen Einfluss hat die Abi-Note (HZB-Note) auf die BA-Abschlussnote?
• Wie wirkt sich das die Semesteranzahl einer Person auf deren Einkommen aus?
Gerichtete Forschungsfrage:
• Steigt das Einkommen mit höherer studierter Semesteranzahl?
• Verschlechtert sich die BA-Abschlussnote mit schlechterer HZB-Note
Forschungshypothese:
H1: Je höher die studierte Semesteranzahl desto höher das Einkommen einer Person.
Oder
H1: Je länger die Studiendauer, desto höher das erzielte Erwerbseinkommen.
H2: Je schlechter die HZB-Note, desto schlechter die BA-Abschlussnote.
# 9Andreas Schneck
Grundidee und VorgehenBeispiele
19.06.2017
Dies alles ist allgemein gültig formuliert – es gilt für eine ganze Population.
→ Von Interesse ist daher das bedingte Populationsmittel.
Das bedingte Populationsmittel wird geschrieben als E(y|x) – E steht für Erwartungswert
Auf die Beispiele übertragen heißt das:
E(BA-Note | HZB-Note)
# 10Andreas Schneck
Grundidee und VorgehenBedingtes Populationsmittel
Werte der abhängigen Variable
Bei gegebenen Werten der unabhängigen Variable daher bedingter Erwartungswert
19.06.2017
# 11Andreas Schneck
Grundidee und VorgehenGrafische Darstellung
Deskription der AV
hist v29_1, xtitle(„BA-Abschlussnote")
19.06.2017
01
02
03
04
0
Häufigkeit
1 1,5 2 2,5 3BA-Abschlussnote
v29_1 177 1,888701 ,378224 1 2,9
Variable Obs Mean Std. Dev. Min Max
# 12Andreas Schneck
Grundidee und VorgehenGrafische Darstellung
Vorhergesagt wird also das bedingte Populationsmittel E(y|x)
Daher braucht man zur Berechnung der Vorhersage eine ganze Population
Meist liegt nur eine Stichprobe vor, auf deren Basis über die gesamte Population Aussagen getroffen werden sollen
Jede Person dieser Population lässt sich als Punkt in einem Koordinatensystem darstellen
Auf der x-Achse befindet sich die unabhängige Variable, auf der y-Achse die abhängige Variable
19.06.2017
# 13Andreas Schneck
Grundidee und VorgehenGrafische Darstellung
19.06.2017
scatter v29_1 v2_1, xtitle("HZB-Note") ytitle("BA-
Abschlussnote")1
1,5
2
2,5
3
BA
-Ab
schlu
ssn
ote
1 1,5 2 2,5 3 3,5HZB-Note
# 14Andreas Schneck
Grundidee und VorgehenGrafische Darstellung
19.06.2017
scatter v29_1 v2_1, xtitle("HZB-Note") ytitle("BA-
Abschlussnote")1
1,5
2
2,5
3
BA
-Ab
schlu
ssn
ote
1 1,5 2 2,5 3 3,5HZB-Note
Welche Ihnen bekannten Zusammenhangsmaße könnten zur Beschreibung/ Tests dieses Zusammenhangs verwendet werden?
# 15Andreas Schneck
Grundidee und VorgehenGrafische Darstellung
19.06.2017
1
1,5
2
2,5
3
BA
-Ab
schlu
ssn
ote
1 1,5 2 2,5 3 3,5HZB-Note
Zusammenhang zwischen zwei metrischen Variablen: Korrelationskoeffizient r
pwcorr v29_1 v2_1, sig
0,0000
v2_1 0,5944 1,0000
v29_1 1,0000
v29_1 v2_1
• Es besteht ein starker höchst signifikanter (p < 0.001) Zusammenhang zwischen HZB-Note und BA-Abschluss-Note
• Es kann jedoch keine prognostische Aussage über zu erwartende Studienabschlussnoten auf Basis der HZB-Note getroffen werden
# 16Andreas Schneck
Grundidee und VorgehenGrafische Darstellung
19.06.2017
graph twoway (scatter v29_1 v2_1, xtitle("HZB-Note")
ytitle("BA-Abschlussnote")) ///
(lfit v29_1 v2_1, xtitle("HZB-Note") ytitle("BA-
Abschlussnote")), legend(label(1 "Obs.") label(2
"Regressionsgerade"))
1
1,5
2
2,5
3
BA
-Ab
schlu
ssn
ote
1 1,5 2 2,5 3 3,5HZB-Note
Obs. Regressionsgerade
# 17Andreas Schneck
Grundidee und VorgehenRegressionsfunktion
Diese Grafik lässt sich durch eine Gleichung darstellen:
𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖
𝛽0 und 𝛽1 sind Regressionskoeffizienten
Die oben genannte Gleichung beschreibt einen linearen Zusammenhang (Gerade) zwischen X und Y. β0 gibt dabei an, an welcher Stelle die Gerade die Y-Achse schneidet
β1 gibt die Steigung der Geraden an
→Beispiel: Welche durchschnittliche BA-Abschlussnote hat eine Person mit einer HZB-Note von 2,4?
19.06.2017
1
1,5
2
2,5
3
BA
-Ab
schlu
ssn
ote
1 1,5 2 2,5 3 3,5HZB-Note
Obs. Regressionsgerade
# 18Andreas Schneck
Grundidee und VorgehenRegressionsfunktion
𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖
Da die minimale Note 1,0 ist macht eine Reskalierung der Werte Sinn (Minimalwert 0)
Die Steigung 𝛽1 bleibt zwar gleich, jedoch ist die Konstante 𝛽1nicht sinnvoll interpretierbar (BA-Abschlussnote gegeben einer HZB-Note von 0)
gen hzb_n = v2_1 -1
label var hzb_n "HZB-Note reskaliert"
gen ba_n = v29_1 -1
label var ba_n "BA-Note reskaliert"
19.06.2017
1
1,5
2
2,5
3
BA
-Ab
schlu
ssn
ote
1 1,5 2 2,5 3 3,5HZB-Note
Obs. Regressionsgerade
0,5
1
1,5
2
BA
-Ab
schlu
ssn
ote
0 ,5 1 1,5 2 2,5HZB-Note
Obs. Regressionsgerade0
0
1
1
0,5
1
1,5
2
BA
-Ab
schlu
ssn
ote
0 ,5 1 1,5 2 2,5HZB-Note
Obs. Regressionsgerade
# 19Andreas Schneck
Grundidee und VorgehenRegressionsfunktion
19.06.2017
Steigungskoeffizient β1
Achsenabschnitt β0
Residuum 𝜀
# 20Andreas Schneck
Grundidee und VorgehenOLS-Schätzung
Die Gerade wird so durch die Punktewolke gelegt, dass die Summe der quadrierten Residuen möglichst klein wird (sog. Kleinste-Quadrate-Methode oder auch Ordinary Least Squares (OLS)).
Das zu lösende Problem lautet also:
𝑚𝑖𝑛
𝑖=1
𝑛
𝜀𝑖2
Die Residuen werden quadriert, weil
sich sonst positive und negative Abweichungen ausgleichen
stärkere Abweichungen stärker in die Berechnung einfließen sollen
Der Erwartungswert der Residuen ist gleich 0, im „Durchschnitt“ sind die Fehler also 0: E(𝜀)=0.
19.06.2017
# 21Andreas Schneck
regress ba_n hzb_n
AV BA-Abschlussnote
UV HZB-Note
Stata-Befehl
19.06.2017
ANOVA-Block Modelfit-Block
Koeffizienten-Block
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
# 22Andreas Schneck
regress ba_n hzb_n
ANOVA-Block Modelfit-Block
Koeffizienten-Block
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
Stata-Befehl
19.06.2017
Wie gut passt das Modell auf die Daten?
Wie stark fallen die einzelnen Einflussgrößen aus?
AV BA-Abschlussnote
UV HZB-Note
# 23Andreas Schneck
RegressionskoeffizientenInterpretation
Dazu wird zunächst für jeden Koeffizienten (hier: 𝛽0 und 𝛽1) der Standardfehler se(βj) berechnet
𝛽0: Durchschnittlicher Wert der AV, wenn alle anderen Einflussgrößen gleich 0 sind – (Regressions-) Konstante
𝛽1: Verändert sich die UV um eine Einheit (hier 1 Notenschritt), so verändert sich die AV um β1 Einheiten
19.06.2017
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
β0
β1
Koeffizienten-Block
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
# 24Andreas Schneck
RegressionskoeffizientenInterpretation
Der Standardfehler zeigt wie „treffsicher“ ein Koeffizient ist
Die Überzufälligkeit/ Signifikanz des Koeffizienten wird anhand der t-Statistik ermittelt 𝑡 = 𝑐𝑜𝑒𝑓/𝑠𝑒
Der resultierende t-Wert dient als Prüfgröße des t-Tests
• H0: Der Koeffizient ist nicht von 0 verschieden (kein Einfluss der Variable)
• H1: Der Koeffizient ist von 0 verschieden (Einfluss der Variable)
19.06.2017
β0
β1
Koeffizienten-Block
# 25Andreas Schneck
RegressionskoeffizientenSignifikanz
Der p-Wert gibt die Irrtumswahrscheinlichkeit an, das der beobachtete Effekt mindestens so stark ist wie beobachtet (pos. oder neg.), obwohl in der Population kein Effekt besteht.
Das Signifikanzniveau des t-Tests sollte dabei studienadäquat gewählt werden. Je höher die Fallzahl, desto treffsicherer der Schätzer – ein kleines Signifikanzniveau (5%, 1%) sollte gewählt werden
In der Literatur werden üblicherweise das 10%, 5%, 1%, und 0,1% Niveau verwendet
Nie ausschließlich mit Signifikanzsternchen arbeiten sondern immer t, se oder p zum Koeffizienten berichten!
19.06.2017
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
β0
β1
Koeffizienten-Block
# 26Andreas Schneck
RegressionskoeffizientenSignifikanz
Ausgangsfrage: Welche durchschnittliche BA-Abschlussnote hat eine Person mit einer HZB-Note von 2,4?
𝑦 = 0,3322408 + 1,4 ∗ 0,4218132 = 0,91294648
Die Konstante zeigt im vorliegenden Modell eine Person an, die eine HZB-Note von 0 (reskaliert, daher + 1) hat. Dies bedeutet:
• Dass eine Person mit einer HZB-Note von 1,0 eine BA-Abschlussnote von 1,33 hat und pro schlechterer HZB-Note (+1) im Mittel eine um 0,42 Notenpunkte schlechtere BA-Abschlussnote hat
Die Antwort auf die Ausgangsfrage daher: 1,92
19.06.2017
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
β0
β1
Koeffizienten-Block
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
Das Bestimmtheitsmaß R² basiert auf Zerlegung der Gesamtstreuung in Streuungskomponenten (SS = sum of squares): Die Gesamtvariation (TSS) der tatsächlichen Werte von Y lässt sich zerlegen in durch die Regression erklärte (MSS) und unerklärte Variation (RSS)
R² ergibt sich als der Anteil der erklärten Variation (MSS) an der Gesamtvariation (TSS) und ist daher zwischen 0 und 1 normiert
Hohe R²-Werte sind in der Sozialwissenschaft eher selten anzutreffen
Im vorliegenden Fall erklärt das Modell 35,33% der Varianz und damit sehr viel. Nichts desto trotz ist das Modell in keiner Weise deterministisch zu verstehen!
𝑅𝑆𝑆 = 𝑢𝑖²
# 27Andreas Schneck
Güte eines RegressionsmodellsModellanpassung
19.06.2017
ANOVA-Block Modelfit-Block
M𝑆𝑆 = (𝑌𝑖− 𝑌)²
𝑇𝑆𝑆 = 𝑀𝑆𝑆 + 𝑅𝑆𝑆
0,5
1
1,5
2
BA
-Ab
schlu
ssn
ote
0 ,5 1 1,5 2 2,5HZB-Note
Obs. Regressionsgerade
# 28Andreas Schneck
Güte eines RegressionsmodellsModellgüte – ein graphisches Beispiel
0,5
1
1,5
2
BA
-Ab
schlu
ssn
ote
0 ,5 1 1,5 2 2,5HZB-Note
Obs. Regressionsgerade
19.06.2017
MSS
RSS
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
# 29Andreas Schneck
Auf dieser Streuungszerlegung basiert auch der F-Test 𝐹 =𝑀𝑀𝑆
𝑅𝑀𝑆=
8,9
0,093
H0: Die unabhängigen Variablen tragen nicht zur Erklärung der abhängigen Variable bei
H1: Mindestens eine unabhängige Variable trägt zur Erklärung der abhängigen Variable bei
Das Modell trägt höchst signifikant zur Erklärung der AV bei (da p > 0,001)
Im Falle nur einer UV sind t-Test der UV und F-Test identisch
Güte eines RegressionsmodellsWeitere Maße
19.06.2017
𝑁 − 1
𝑑𝑓𝑇 − 𝑑𝑓𝑀
𝐴𝑛𝑧𝑎ℎ𝑙 𝑈𝑉𝑠
ANOVA-Block Modelfit-Block
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
# 30Andreas Schneck
Durchschnittlicher Prognosefehler (Root mean square error) = 𝑅𝑆𝑆/𝑑𝑓𝑅
Fallzahl im Modell (N; im vorliegenden Fall Befragte)
Güte eines RegressionsmodellsWeitere Maße
19.06.2017
𝑁 − 1
𝑑𝑓𝑇 − 𝑑𝑓𝑀
𝐴𝑛𝑧𝑎ℎ𝑙 𝑈𝑉𝑠
ANOVA-Block Modelfit-Block
# 31Andreas Schneck
• Die HZB-Note hat einen sehr starken und höchst signifikanten Effekt auf die BA-Abschlussnote. Pro Verschlechterung der HZB-Note um 1 Notenpunkt sinkt die BA-Abschlussnote um 0,42 Notenpunkte
• Auf die sehr hohe Erklärkraft des Modells deutet auch das für die Sozialwissenschaft außergewöhnlich hohe R² (35,3%) hin
Zusammenfassung
19.06.2017
ANOVA-Block Modelfit-Block
Koeffizienten-Block
_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308
hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,30502
Adj R-squared = 0,3496
Residual 16,2820289 175 ,093040165 R-squared = 0,3533
Model 8,89537191 1 8,89537191 Prob > F = 0,0000
F(1, 175) = 95,61
Source SS df MS Number of obs = 177
# 32Andreas Schneck
Kategoriale Einflussgrößen
Einflussgrößen können nicht nur metrisch sein, sondern auch dummy-kodiert (0/1)
Durch Dichotomisierung (= Bildung von Dummyvariablen) lassen sich auch nominale und ordinale Variablen als unabhängige Variablen untersuchen
Eine Dummyvariable nimmt den Wert 1 an, wenn eine bestimmte Eigenschaft vorliegt, sonst den Wert 0
Hat eine Variable mehr als 2 Kategorien (k>2), werden k-1 davon in das Modell aufgenommen, die weggelassene Variable dient als Referenzkategorie
Wichtig: Effekte von Dummy-Variablen sind immer im Hinblick auf eine sog. Referenzkategorie zu interpretieren: „Verglichen mit der Referenzkategorie XY…“
19.06.2017
# 33Andreas Schneck
Kategoriale Einflussgrößen
Beispiel Land der HZB:
• 3 Variablenausprägungen 1“Bayern“ 2“Baden-W. “ 3“Sonstige“
• Im Regressionsmodell wird daher die in Bayern erlangte HZB als Konstante interpretiert
• Die Variablen Baden-W.-Dummy und Sonstige-Dummy beschreiben den Effekt des jeweiligen Bundeslandes der HZB im Vergleich mit Bayern
19.06.2017
ID BL HZB Baden-W. Sonstige
1 2 1 0
2 3 0 1
3 1 0 0
4 1 0 0
5 3 0 1
# 34Andreas Schneck
Kategoriale Einflussgrößen
Bilden einer kategorialen Variable nach dem Bundesland des Hochschulabschlusses.
gen bl = .
replace bl = 1 if v3_1 ==3
replace bl = 2 if v3_1 ==2
replace bl = 3 if v3_1 > 3 & v3_1!=.
label define bl 1"Bayern" 2"Baden-Württemberg" /// 3"andere
BL und Ausland"
label value bl bl
19.06.2017
# 35Andreas Schneck
Kategoriale Einflussgrößen
19.06.2017
Total 184 100,00
Missing . 1 0,54
Total 183 99,46 100,00
Land angeben)
und zwar in: %s (bitte
18 Au�erhalb Deutschlands, 7 3,80 3,83 100,00
15 Sachsen-Anhalt 1 0,54 0,55 96,17
14 Sachsen 1 0,54 0,55 95,63
13 Saarland 2 1,09 1,09 95,08
12 Rheinland-Pfalz 1 0,54 0,55 93,99
11 Nordrhein-Westfalen 1 0,54 0,55 93,44
8 Hessen 1 0,54 0,55 92,90
4 Berlin 3 1,63 1,64 92,35
3 Bayern 152 82,61 83,06 90,71
Valid 2 Baden-W�rttemberg 14 7,61 7,65 7,65
Freq. Percent Valid Cum.
Total 184 100,00
Missing . 1 0,54
Total 183 99,46 100,00
3 andere BL und Ausland 17 9,24 9,29 100,00
2 Baden-Württemberg 14 7,61 7,65 90,71
Valid 1 Bayern 152 82,61 83,06 83,06
Freq. Percent Valid Cum.
bl kat. Bundesland HZB
Total 152 14 17 183
Au�erhalb Deutschland 0 0 7 7
Sachsen-Anhalt 0 0 1 1
Sachsen 0 0 1 1
Saarland 0 0 2 2
Rheinland-Pfalz 0 0 1 1
Nordrhein-Westfalen 0 0 1 1
Hessen 0 0 1 1
Berlin 0 0 3 3
Bayern 152 0 0 152
Baden-W�rttemberg 0 14 0 14
HZB Bundesland Bayern Baden-Wür andere BL Total
kat. Bundesland HZB
# 36Andreas Schneck
Kategoriale Einflussgrößen
19.06.2017
• Am besten zur Sicherheit beide Variablen kreuztabellieren, um eine korrekte Kodierung sicherzustellen
tab v3_1 bl
# 37Andreas Schneck
Kategoriale Einflussgrößen
Um unnötige Umkodierungen zu vermeiden, kann Stata Variablen in mehrere Dummys aufteilen. Der niedrigste Wert dient hier als Referenz. Die betreffenden Variablen werden mit i. gekennzeichnet.
reg ba_n i.bl
Eine kategoriale Variable nie(!) als metrische Variable aufnehmen, da die Effekte sonst kaum mehr interpretierbar sind (bei Anstieg um eine Einheit… des Bundeslands, des Bildungsabschlusses, etc.)
19.06.2017
# 38Andreas Schneck
Kategoriale Einflussgrößen
• Die Abschlussnoten unterscheiden sich nicht nach dem Bundesland der HZB.
• Die Erklärte Varianz ist mit 1,5% zudem eher gering
_cons ,8765101 ,030926 28,34 0,000 ,8154717 ,9375485
andere BL .. ,1634899 ,1022587 1,60 0,112 -,0383371 ,365317
Baden-Würt~g -,0226639 ,1091716 -0,21 0,836 -,238135 ,1928072
bl
ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 25,1774008 176 ,143053414 Root MSE = ,3775
Adj R-squared = 0,0038
Residual 24,7960926 174 ,142506279 R-squared = 0,0151
Model ,381308208 2 ,190654104 Prob > F = 0,2651
F(2, 174) = 1,34
Source SS df MS Number of obs = 177
19.06.2017
# 39Andreas Schneck
Exkurs: Darstellung in Hausarbeiten
• Bitte verwenden Sie nie den kopierten Stata-Output in ihren Hausarbeiten (die in diesen Folien verwendeten Screenshots dienen lediglich der besseren Nachvollziehbarkeit)
ssc install outreg2 // installiert Erweiterung
reg ba_n i.bl
outreg2 using myreg.doc, replace ///
ctitle(“Grundmodell”) label
19.06.2017
# 40Andreas Schneck
Exkurs: Darstellung in Hausarbeiten
19.06.2017
(1)
VARIABLES Grundmodell
bl = 2, Baden-Württemberg 0.0227
(0.109)
bl = 3, anderes BL und Ausland 0.186
(0.143)
Constant 0.854***
bl = 2, Baden-Württemberg (0.105)
Observations 177
R-squared 0.015
Standard errors in parentheses*** p<0.01, ** p<0.05, * p<0.1
Outreg2 output
(1)
Grundmodell
Bundesland der HZB
(Referenz: Bayern)
Baden-Württemberg 0,0227
(0,109)
anderes BL und Ausland 0,186
(0,143)
Konstante 0,854***
(0,105)
Beobachtungen 177
R² 0,015
Standardfehler in Klammern*** p<0,01; ** p<0,05; * p<0,1
Darstellung in Hausarbeit:
• Beschriftung in der Sprache der Hausarbeit• Dezimaltrennzeichen an Sprache anpassen (, statt . Im
Deutschen)
# 41Andreas Schneck
Zusammenfassung und „Kochrezept“
Die einfache lineare Regression dient der Analyse des Einflusses einer metrischen oder dichotomen unabhängigen Variable auf eine metrische abhängige Variable
Grundidee ist das Hindurchlegen einer Geraden durch eine Punktewolke
Die Gerade wird dabei so bestimmt, dass die Summe der quadrierten Abstände der Beobachtungen von der Geraden möglichst klein wird
Effekte in einer Regression lassen nicht zwingend auf kausale Wirkungszusammenhänge schließen
19.06.2017
# 42Andreas Schneck
Zusammenfassung und „Kochrezept“
„Kochrezept“: Was muss mindestens interpretiert werden?
1. Wie ist dieser Einfluss beschaffen: positiv oder negativ, um wie viele Einheiten ändert sich die abhängige Variable bei Änderung der unabhängigen Variable um eine Einheit → Interpretation der Koeffizienten
2. Welche Variablen haben einen signifikanten Einfluss auf die abhängige Variable? → t-Test der Koeffizienten
3. Ist der F-Test signifikant? → Auskunft darüber, ob unabhängige Variable(n) zur Erklärung der abhängigen Variable beitragen
4. Wie groß ist R²? → Anteil der Varianz der abhängigen Variable, der durch unabhängige Variable erklärt wird
19.06.2017
# 43Andreas Schneck
Übungsaufgaben
Aufgabe 0.1 (Hinweis uebung1.do)
• Legen Sie den Pfad auf Ihr privates Laufwerk im CIP-Pool (Befehl cd).
• Laden Sie den Datensatz von der Veranstaltungsseite und kopieren Sie diesen in Ihr privates Laufwerk
• Öffnen Sie den Datensatz per do-file in Stata
Aufgabe 1
• Prüfen Sie die These, dass Personen mit einer langen Studiendauer (BA) (v35_1) ein höheres Einkommen (v88_1) haben
• Zeigen Sie den Zusammenhang graphisch anhand eines Streudiagramms und einer Regressionsgerade
• Berechnen Sie ein Regressionsmodell (OLS) und interpretieren Sie die Ergebnisse
• Exportieren Sie Ihre Ergebnisse in ein Word Dokument und benennen Sie diese adäquat.
19.06.2017
# 44Andreas Schneck
Übungsaufgaben
Aufgabe 2
• Prüfen Sie die These, dass eine quantitativer Schwerpunkt (quant. BA-Arbeit v31_1) mit einem höheren Einkommen einhergeht.
• Berechnen Sie ein Regressionsmodell (OLS) und interpretieren Sie die Ergebnisse.
• Exportieren Sie Ihre Ergebnisse in ein Word Dokument und benennen Sie diese adäquat.
Zusatzaufgabe
• Welches Ihnen aus vorherigen Sitzungen bekannte Verfahren führt zu exakt gleichen Ergebnissen?
19.06.2017