44
Methoden 2 Regressionsanalyse I: Lineare Regression Institut für Soziologie Andreas Schneck

Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

  • Upload
    lamque

  • View
    227

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Methoden 2

Regressionsanalyse I: Lineare Regression

Institut für SoziologieAndreas Schneck

Page 2: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 2Andreas Schneck

Organisatorisches

Hausarbeitsgruppen:

• Aktueller Stand der Gruppenbildung

• Bitte bis spätestens 03.07.2017 die Gruppenzusammensetzung an [email protected] senden!

19.06.2017

Page 3: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 3Andreas Schneck

Vorstellung des neuen Datensatzes

Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017

Online-Befragung (Codebuch auf der Homepage)

Stichprobe

AbsolventInnen der Soziologie an der LMU von 2012-2016 (BA/MA)

Realisierte Interviews (Stand 31.05.2017)

184 (35% Rücklaufquote)

Für die Übung/ Hausarbeit steht Ihnen der aktuelle Datensatz von 2017 zur Verfügung (Passwort: M2Abs17)

Zugang zu Texten aus Methoden I (Passwort: M1Abs16)

19.06.2017

Page 4: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Inhalt

# 4Andreas Schneck

1. Grundidee und Vorgehen

2. Stata-Befehl

3. Regressionskoeffizienten –Interpretation & Signifikanz

4. Güte eines Regressionsmodells

5. Kategoriale Einflussgrößen

6. Darstellung in Hausarbeiten

7. Zusammenfassung und „Kochrezept“

8. Übungsaufgaben

19.06.2017

Page 5: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Mit bisherigen Verfahren der Zusammenhangsanalyse (Kreuztabellen, Korrelationen) können Hypothesen getestet werden …

… Vorhersagen zu individuellen Werten in der abhängigen Variable auf Basis der unabhängigen Größen sind jedoch nicht möglich

Grundlegende Unterschiede:

• Unterscheidung zwischen abhängigen (AV) und unabhängigen Variablen nötig, da Größen nicht mehr symmetrisch

• Die Effekte sind in der Regression auch in der Originalmetrik (z.B. cm, €,…) interpretierbar

# 5Andreas Schneck

Grundidee und VorgehenVergleich mit bisherigen Verfahren

19.06.2017

Page 6: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Regressionsverfahren untersuchen den Zusammenhang zwischen einer AV (y) und einer bzw. mehreren unabhängigen Variablen (x)

𝑦 = 𝑓(𝑥)

„Regressieren“ heißt „zurückführen auf“: Eine AV wird auf UVs zurückgeführt, sprich: eine AV wird auf UVs regressiert.

Dabei ist die Kontrolle auf eine Vielzahl von verschiedenen Einflussgrößen möglich (multiple lineare Regression in der nächsten Sitzung)

Regression ist in den Sozialwissenschaften das am weitesten verbreitete Analyseverfahren

# 6Andreas Schneck

Grundidee und VorgehenBegriff und Skalenniveau

19.06.2017

Page 7: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Trotz der Aufteilung in AV und UV kann mit einer Regressionsanalyse keine Kausalität nachgewiesen werden

D.h. trotz eines Zusammenhangs zwischen AV und UV muss die UV die AV nicht hervorrufen

→ Theoretische Vorüberlegungen sind unabdingbar

→Kausalität ist mit statistischen Verfahren alleine nicht nachzuweisen

→Kausale Wirkungsvermutungen sollten immer theoretisch fundiert werden – dies gilt auch für komplexere statistische Analyseverfahren

# 7Andreas Schneck

Grundidee und VorgehenKeine Kausalanalyse!

19.06.2017

Page 8: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Ungerichtete offene Forschungsfrage:

• Welchen Einfluss hat die Abi-Note (HZB-Note) auf die BA-Abschlussnote?

• Wie wirkt sich das die Semesteranzahl einer Person auf deren Einkommen aus?

Gerichtete Forschungsfrage:

• Steigt das Einkommen mit höherer studierter Semesteranzahl?

• Verschlechtert sich die BA-Abschlussnote mit schlechterer HZB-Note

Forschungshypothese:

H1: Je höher die studierte Semesteranzahl desto höher das Einkommen einer Person.

Oder

H1: Je länger die Studiendauer, desto höher das erzielte Erwerbseinkommen.

H2: Je schlechter die HZB-Note, desto schlechter die BA-Abschlussnote.

# 8Andreas Schneck

Grundidee und VorgehenBeispiele

19.06.2017

Page 9: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Ungerichtete offene Forschungsfrage:

• Welchen Einfluss hat die Abi-Note (HZB-Note) auf die BA-Abschlussnote?

• Wie wirkt sich das die Semesteranzahl einer Person auf deren Einkommen aus?

Gerichtete Forschungsfrage:

• Steigt das Einkommen mit höherer studierter Semesteranzahl?

• Verschlechtert sich die BA-Abschlussnote mit schlechterer HZB-Note

Forschungshypothese:

H1: Je höher die studierte Semesteranzahl desto höher das Einkommen einer Person.

Oder

H1: Je länger die Studiendauer, desto höher das erzielte Erwerbseinkommen.

H2: Je schlechter die HZB-Note, desto schlechter die BA-Abschlussnote.

# 9Andreas Schneck

Grundidee und VorgehenBeispiele

19.06.2017

Dies alles ist allgemein gültig formuliert – es gilt für eine ganze Population.

→ Von Interesse ist daher das bedingte Populationsmittel.

Page 10: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Das bedingte Populationsmittel wird geschrieben als E(y|x) – E steht für Erwartungswert

Auf die Beispiele übertragen heißt das:

E(BA-Note | HZB-Note)

# 10Andreas Schneck

Grundidee und VorgehenBedingtes Populationsmittel

Werte der abhängigen Variable

Bei gegebenen Werten der unabhängigen Variable daher bedingter Erwartungswert

19.06.2017

Page 11: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 11Andreas Schneck

Grundidee und VorgehenGrafische Darstellung

Deskription der AV

hist v29_1, xtitle(„BA-Abschlussnote")

19.06.2017

01

02

03

04

0

Häufigkeit

1 1,5 2 2,5 3BA-Abschlussnote

v29_1 177 1,888701 ,378224 1 2,9

Variable Obs Mean Std. Dev. Min Max

Page 12: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 12Andreas Schneck

Grundidee und VorgehenGrafische Darstellung

Vorhergesagt wird also das bedingte Populationsmittel E(y|x)

Daher braucht man zur Berechnung der Vorhersage eine ganze Population

Meist liegt nur eine Stichprobe vor, auf deren Basis über die gesamte Population Aussagen getroffen werden sollen

Jede Person dieser Population lässt sich als Punkt in einem Koordinatensystem darstellen

Auf der x-Achse befindet sich die unabhängige Variable, auf der y-Achse die abhängige Variable

19.06.2017

Page 13: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 13Andreas Schneck

Grundidee und VorgehenGrafische Darstellung

19.06.2017

scatter v29_1 v2_1, xtitle("HZB-Note") ytitle("BA-

Abschlussnote")1

1,5

2

2,5

3

BA

-Ab

schlu

ssn

ote

1 1,5 2 2,5 3 3,5HZB-Note

Page 14: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 14Andreas Schneck

Grundidee und VorgehenGrafische Darstellung

19.06.2017

scatter v29_1 v2_1, xtitle("HZB-Note") ytitle("BA-

Abschlussnote")1

1,5

2

2,5

3

BA

-Ab

schlu

ssn

ote

1 1,5 2 2,5 3 3,5HZB-Note

Welche Ihnen bekannten Zusammenhangsmaße könnten zur Beschreibung/ Tests dieses Zusammenhangs verwendet werden?

Page 15: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 15Andreas Schneck

Grundidee und VorgehenGrafische Darstellung

19.06.2017

1

1,5

2

2,5

3

BA

-Ab

schlu

ssn

ote

1 1,5 2 2,5 3 3,5HZB-Note

Zusammenhang zwischen zwei metrischen Variablen: Korrelationskoeffizient r

pwcorr v29_1 v2_1, sig

0,0000

v2_1 0,5944 1,0000

v29_1 1,0000

v29_1 v2_1

• Es besteht ein starker höchst signifikanter (p < 0.001) Zusammenhang zwischen HZB-Note und BA-Abschluss-Note

• Es kann jedoch keine prognostische Aussage über zu erwartende Studienabschlussnoten auf Basis der HZB-Note getroffen werden

Page 16: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 16Andreas Schneck

Grundidee und VorgehenGrafische Darstellung

19.06.2017

graph twoway (scatter v29_1 v2_1, xtitle("HZB-Note")

ytitle("BA-Abschlussnote")) ///

(lfit v29_1 v2_1, xtitle("HZB-Note") ytitle("BA-

Abschlussnote")), legend(label(1 "Obs.") label(2

"Regressionsgerade"))

1

1,5

2

2,5

3

BA

-Ab

schlu

ssn

ote

1 1,5 2 2,5 3 3,5HZB-Note

Obs. Regressionsgerade

Page 17: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 17Andreas Schneck

Grundidee und VorgehenRegressionsfunktion

Diese Grafik lässt sich durch eine Gleichung darstellen:

𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖

𝛽0 und 𝛽1 sind Regressionskoeffizienten

Die oben genannte Gleichung beschreibt einen linearen Zusammenhang (Gerade) zwischen X und Y. β0 gibt dabei an, an welcher Stelle die Gerade die Y-Achse schneidet

β1 gibt die Steigung der Geraden an

→Beispiel: Welche durchschnittliche BA-Abschlussnote hat eine Person mit einer HZB-Note von 2,4?

19.06.2017

1

1,5

2

2,5

3

BA

-Ab

schlu

ssn

ote

1 1,5 2 2,5 3 3,5HZB-Note

Obs. Regressionsgerade

Page 18: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 18Andreas Schneck

Grundidee und VorgehenRegressionsfunktion

𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖

Da die minimale Note 1,0 ist macht eine Reskalierung der Werte Sinn (Minimalwert 0)

Die Steigung 𝛽1 bleibt zwar gleich, jedoch ist die Konstante 𝛽1nicht sinnvoll interpretierbar (BA-Abschlussnote gegeben einer HZB-Note von 0)

gen hzb_n = v2_1 -1

label var hzb_n "HZB-Note reskaliert"

gen ba_n = v29_1 -1

label var ba_n "BA-Note reskaliert"

19.06.2017

1

1,5

2

2,5

3

BA

-Ab

schlu

ssn

ote

1 1,5 2 2,5 3 3,5HZB-Note

Obs. Regressionsgerade

0,5

1

1,5

2

BA

-Ab

schlu

ssn

ote

0 ,5 1 1,5 2 2,5HZB-Note

Obs. Regressionsgerade0

0

1

1

Page 19: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

0,5

1

1,5

2

BA

-Ab

schlu

ssn

ote

0 ,5 1 1,5 2 2,5HZB-Note

Obs. Regressionsgerade

# 19Andreas Schneck

Grundidee und VorgehenRegressionsfunktion

19.06.2017

Steigungskoeffizient β1

Achsenabschnitt β0

Residuum 𝜀

Page 20: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 20Andreas Schneck

Grundidee und VorgehenOLS-Schätzung

Die Gerade wird so durch die Punktewolke gelegt, dass die Summe der quadrierten Residuen möglichst klein wird (sog. Kleinste-Quadrate-Methode oder auch Ordinary Least Squares (OLS)).

Das zu lösende Problem lautet also:

𝑚𝑖𝑛

𝑖=1

𝑛

𝜀𝑖2

Die Residuen werden quadriert, weil

sich sonst positive und negative Abweichungen ausgleichen

stärkere Abweichungen stärker in die Berechnung einfließen sollen

Der Erwartungswert der Residuen ist gleich 0, im „Durchschnitt“ sind die Fehler also 0: E(𝜀)=0.

19.06.2017

Page 21: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 21Andreas Schneck

regress ba_n hzb_n

AV BA-Abschlussnote

UV HZB-Note

Stata-Befehl

19.06.2017

ANOVA-Block Modelfit-Block

Koeffizienten-Block

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

Page 22: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 22Andreas Schneck

regress ba_n hzb_n

ANOVA-Block Modelfit-Block

Koeffizienten-Block

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

Stata-Befehl

19.06.2017

Wie gut passt das Modell auf die Daten?

Wie stark fallen die einzelnen Einflussgrößen aus?

AV BA-Abschlussnote

UV HZB-Note

Page 23: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 23Andreas Schneck

RegressionskoeffizientenInterpretation

Dazu wird zunächst für jeden Koeffizienten (hier: 𝛽0 und 𝛽1) der Standardfehler se(βj) berechnet

𝛽0: Durchschnittlicher Wert der AV, wenn alle anderen Einflussgrößen gleich 0 sind – (Regressions-) Konstante

𝛽1: Verändert sich die UV um eine Einheit (hier 1 Notenschritt), so verändert sich die AV um β1 Einheiten

19.06.2017

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

β0

β1

Koeffizienten-Block

Page 24: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

# 24Andreas Schneck

RegressionskoeffizientenInterpretation

Der Standardfehler zeigt wie „treffsicher“ ein Koeffizient ist

Die Überzufälligkeit/ Signifikanz des Koeffizienten wird anhand der t-Statistik ermittelt 𝑡 = 𝑐𝑜𝑒𝑓/𝑠𝑒

Der resultierende t-Wert dient als Prüfgröße des t-Tests

• H0: Der Koeffizient ist nicht von 0 verschieden (kein Einfluss der Variable)

• H1: Der Koeffizient ist von 0 verschieden (Einfluss der Variable)

19.06.2017

β0

β1

Koeffizienten-Block

Page 25: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 25Andreas Schneck

RegressionskoeffizientenSignifikanz

Der p-Wert gibt die Irrtumswahrscheinlichkeit an, das der beobachtete Effekt mindestens so stark ist wie beobachtet (pos. oder neg.), obwohl in der Population kein Effekt besteht.

Das Signifikanzniveau des t-Tests sollte dabei studienadäquat gewählt werden. Je höher die Fallzahl, desto treffsicherer der Schätzer – ein kleines Signifikanzniveau (5%, 1%) sollte gewählt werden

In der Literatur werden üblicherweise das 10%, 5%, 1%, und 0,1% Niveau verwendet

Nie ausschließlich mit Signifikanzsternchen arbeiten sondern immer t, se oder p zum Koeffizienten berichten!

19.06.2017

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

β0

β1

Koeffizienten-Block

Page 26: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 26Andreas Schneck

RegressionskoeffizientenSignifikanz

Ausgangsfrage: Welche durchschnittliche BA-Abschlussnote hat eine Person mit einer HZB-Note von 2,4?

𝑦 = 0,3322408 + 1,4 ∗ 0,4218132 = 0,91294648

Die Konstante zeigt im vorliegenden Modell eine Person an, die eine HZB-Note von 0 (reskaliert, daher + 1) hat. Dies bedeutet:

• Dass eine Person mit einer HZB-Note von 1,0 eine BA-Abschlussnote von 1,33 hat und pro schlechterer HZB-Note (+1) im Mittel eine um 0,42 Notenpunkte schlechtere BA-Abschlussnote hat

Die Antwort auf die Ausgangsfrage daher: 1,92

19.06.2017

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

β0

β1

Koeffizienten-Block

Page 27: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

Das Bestimmtheitsmaß R² basiert auf Zerlegung der Gesamtstreuung in Streuungskomponenten (SS = sum of squares): Die Gesamtvariation (TSS) der tatsächlichen Werte von Y lässt sich zerlegen in durch die Regression erklärte (MSS) und unerklärte Variation (RSS)

R² ergibt sich als der Anteil der erklärten Variation (MSS) an der Gesamtvariation (TSS) und ist daher zwischen 0 und 1 normiert

Hohe R²-Werte sind in der Sozialwissenschaft eher selten anzutreffen

Im vorliegenden Fall erklärt das Modell 35,33% der Varianz und damit sehr viel. Nichts desto trotz ist das Modell in keiner Weise deterministisch zu verstehen!

𝑅𝑆𝑆 = 𝑢𝑖²

# 27Andreas Schneck

Güte eines RegressionsmodellsModellanpassung

19.06.2017

ANOVA-Block Modelfit-Block

M𝑆𝑆 = (𝑌𝑖− 𝑌)²

𝑇𝑆𝑆 = 𝑀𝑆𝑆 + 𝑅𝑆𝑆

Page 28: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

0,5

1

1,5

2

BA

-Ab

schlu

ssn

ote

0 ,5 1 1,5 2 2,5HZB-Note

Obs. Regressionsgerade

# 28Andreas Schneck

Güte eines RegressionsmodellsModellgüte – ein graphisches Beispiel

0,5

1

1,5

2

BA

-Ab

schlu

ssn

ote

0 ,5 1 1,5 2 2,5HZB-Note

Obs. Regressionsgerade

19.06.2017

MSS

RSS

Page 29: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

# 29Andreas Schneck

Auf dieser Streuungszerlegung basiert auch der F-Test 𝐹 =𝑀𝑀𝑆

𝑅𝑀𝑆=

8,9

0,093

H0: Die unabhängigen Variablen tragen nicht zur Erklärung der abhängigen Variable bei

H1: Mindestens eine unabhängige Variable trägt zur Erklärung der abhängigen Variable bei

Das Modell trägt höchst signifikant zur Erklärung der AV bei (da p > 0,001)

Im Falle nur einer UV sind t-Test der UV und F-Test identisch

Güte eines RegressionsmodellsWeitere Maße

19.06.2017

𝑁 − 1

𝑑𝑓𝑇 − 𝑑𝑓𝑀

𝐴𝑛𝑧𝑎ℎ𝑙 𝑈𝑉𝑠

ANOVA-Block Modelfit-Block

Page 30: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

# 30Andreas Schneck

Durchschnittlicher Prognosefehler (Root mean square error) = 𝑅𝑆𝑆/𝑑𝑓𝑅

Fallzahl im Modell (N; im vorliegenden Fall Befragte)

Güte eines RegressionsmodellsWeitere Maße

19.06.2017

𝑁 − 1

𝑑𝑓𝑇 − 𝑑𝑓𝑀

𝐴𝑛𝑧𝑎ℎ𝑙 𝑈𝑉𝑠

ANOVA-Block Modelfit-Block

Page 31: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 31Andreas Schneck

• Die HZB-Note hat einen sehr starken und höchst signifikanten Effekt auf die BA-Abschlussnote. Pro Verschlechterung der HZB-Note um 1 Notenpunkt sinkt die BA-Abschlussnote um 0,42 Notenpunkte

• Auf die sehr hohe Erklärkraft des Modells deutet auch das für die Sozialwissenschaft außergewöhnlich hohe R² (35,3%) hin

Zusammenfassung

19.06.2017

ANOVA-Block Modelfit-Block

Koeffizienten-Block

_cons ,3322408 ,0613545 5,42 0,000 ,2111508 ,4533308

hzb_n ,4218132 ,0431393 9,78 0,000 ,3366729 ,5069535

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,30502

Adj R-squared = 0,3496

Residual 16,2820289 175 ,093040165 R-squared = 0,3533

Model 8,89537191 1 8,89537191 Prob > F = 0,0000

F(1, 175) = 95,61

Source SS df MS Number of obs = 177

Page 32: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 32Andreas Schneck

Kategoriale Einflussgrößen

Einflussgrößen können nicht nur metrisch sein, sondern auch dummy-kodiert (0/1)

Durch Dichotomisierung (= Bildung von Dummyvariablen) lassen sich auch nominale und ordinale Variablen als unabhängige Variablen untersuchen

Eine Dummyvariable nimmt den Wert 1 an, wenn eine bestimmte Eigenschaft vorliegt, sonst den Wert 0

Hat eine Variable mehr als 2 Kategorien (k>2), werden k-1 davon in das Modell aufgenommen, die weggelassene Variable dient als Referenzkategorie

Wichtig: Effekte von Dummy-Variablen sind immer im Hinblick auf eine sog. Referenzkategorie zu interpretieren: „Verglichen mit der Referenzkategorie XY…“

19.06.2017

Page 33: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 33Andreas Schneck

Kategoriale Einflussgrößen

Beispiel Land der HZB:

• 3 Variablenausprägungen 1“Bayern“ 2“Baden-W. “ 3“Sonstige“

• Im Regressionsmodell wird daher die in Bayern erlangte HZB als Konstante interpretiert

• Die Variablen Baden-W.-Dummy und Sonstige-Dummy beschreiben den Effekt des jeweiligen Bundeslandes der HZB im Vergleich mit Bayern

19.06.2017

ID BL HZB Baden-W. Sonstige

1 2 1 0

2 3 0 1

3 1 0 0

4 1 0 0

5 3 0 1

Page 34: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 34Andreas Schneck

Kategoriale Einflussgrößen

Bilden einer kategorialen Variable nach dem Bundesland des Hochschulabschlusses.

gen bl = .

replace bl = 1 if v3_1 ==3

replace bl = 2 if v3_1 ==2

replace bl = 3 if v3_1 > 3 & v3_1!=.

label define bl 1"Bayern" 2"Baden-Württemberg" /// 3"andere

BL und Ausland"

label value bl bl

19.06.2017

Page 35: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 35Andreas Schneck

Kategoriale Einflussgrößen

19.06.2017

Total 184 100,00

Missing . 1 0,54

Total 183 99,46 100,00

Land angeben)

und zwar in: %s (bitte

18 Au�erhalb Deutschlands, 7 3,80 3,83 100,00

15 Sachsen-Anhalt 1 0,54 0,55 96,17

14 Sachsen 1 0,54 0,55 95,63

13 Saarland 2 1,09 1,09 95,08

12 Rheinland-Pfalz 1 0,54 0,55 93,99

11 Nordrhein-Westfalen 1 0,54 0,55 93,44

8 Hessen 1 0,54 0,55 92,90

4 Berlin 3 1,63 1,64 92,35

3 Bayern 152 82,61 83,06 90,71

Valid 2 Baden-W�rttemberg 14 7,61 7,65 7,65

Freq. Percent Valid Cum.

Total 184 100,00

Missing . 1 0,54

Total 183 99,46 100,00

3 andere BL und Ausland 17 9,24 9,29 100,00

2 Baden-Württemberg 14 7,61 7,65 90,71

Valid 1 Bayern 152 82,61 83,06 83,06

Freq. Percent Valid Cum.

bl kat. Bundesland HZB

Page 36: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

Total 152 14 17 183

Au�erhalb Deutschland 0 0 7 7

Sachsen-Anhalt 0 0 1 1

Sachsen 0 0 1 1

Saarland 0 0 2 2

Rheinland-Pfalz 0 0 1 1

Nordrhein-Westfalen 0 0 1 1

Hessen 0 0 1 1

Berlin 0 0 3 3

Bayern 152 0 0 152

Baden-W�rttemberg 0 14 0 14

HZB Bundesland Bayern Baden-Wür andere BL Total

kat. Bundesland HZB

# 36Andreas Schneck

Kategoriale Einflussgrößen

19.06.2017

• Am besten zur Sicherheit beide Variablen kreuztabellieren, um eine korrekte Kodierung sicherzustellen

tab v3_1 bl

Page 37: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 37Andreas Schneck

Kategoriale Einflussgrößen

Um unnötige Umkodierungen zu vermeiden, kann Stata Variablen in mehrere Dummys aufteilen. Der niedrigste Wert dient hier als Referenz. Die betreffenden Variablen werden mit i. gekennzeichnet.

reg ba_n i.bl

Eine kategoriale Variable nie(!) als metrische Variable aufnehmen, da die Effekte sonst kaum mehr interpretierbar sind (bei Anstieg um eine Einheit… des Bundeslands, des Bildungsabschlusses, etc.)

19.06.2017

Page 38: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 38Andreas Schneck

Kategoriale Einflussgrößen

• Die Abschlussnoten unterscheiden sich nicht nach dem Bundesland der HZB.

• Die Erklärte Varianz ist mit 1,5% zudem eher gering

_cons ,8765101 ,030926 28,34 0,000 ,8154717 ,9375485

andere BL .. ,1634899 ,1022587 1,60 0,112 -,0383371 ,365317

Baden-Würt~g -,0226639 ,1091716 -0,21 0,836 -,238135 ,1928072

bl

ba_n Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 25,1774008 176 ,143053414 Root MSE = ,3775

Adj R-squared = 0,0038

Residual 24,7960926 174 ,142506279 R-squared = 0,0151

Model ,381308208 2 ,190654104 Prob > F = 0,2651

F(2, 174) = 1,34

Source SS df MS Number of obs = 177

19.06.2017

Page 39: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 39Andreas Schneck

Exkurs: Darstellung in Hausarbeiten

• Bitte verwenden Sie nie den kopierten Stata-Output in ihren Hausarbeiten (die in diesen Folien verwendeten Screenshots dienen lediglich der besseren Nachvollziehbarkeit)

ssc install outreg2 // installiert Erweiterung

reg ba_n i.bl

outreg2 using myreg.doc, replace ///

ctitle(“Grundmodell”) label

19.06.2017

Page 40: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 40Andreas Schneck

Exkurs: Darstellung in Hausarbeiten

19.06.2017

(1)

VARIABLES Grundmodell

bl = 2, Baden-Württemberg 0.0227

(0.109)

bl = 3, anderes BL und Ausland 0.186

(0.143)

Constant 0.854***

bl = 2, Baden-Württemberg (0.105)

Observations 177

R-squared 0.015

Standard errors in parentheses*** p<0.01, ** p<0.05, * p<0.1

Outreg2 output

(1)

Grundmodell

Bundesland der HZB

(Referenz: Bayern)

Baden-Württemberg 0,0227

(0,109)

anderes BL und Ausland 0,186

(0,143)

Konstante 0,854***

(0,105)

Beobachtungen 177

R² 0,015

Standardfehler in Klammern*** p<0,01; ** p<0,05; * p<0,1

Darstellung in Hausarbeit:

• Beschriftung in der Sprache der Hausarbeit• Dezimaltrennzeichen an Sprache anpassen (, statt . Im

Deutschen)

Page 41: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 41Andreas Schneck

Zusammenfassung und „Kochrezept“

Die einfache lineare Regression dient der Analyse des Einflusses einer metrischen oder dichotomen unabhängigen Variable auf eine metrische abhängige Variable

Grundidee ist das Hindurchlegen einer Geraden durch eine Punktewolke

Die Gerade wird dabei so bestimmt, dass die Summe der quadrierten Abstände der Beobachtungen von der Geraden möglichst klein wird

Effekte in einer Regression lassen nicht zwingend auf kausale Wirkungszusammenhänge schließen

19.06.2017

Page 42: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 42Andreas Schneck

Zusammenfassung und „Kochrezept“

„Kochrezept“: Was muss mindestens interpretiert werden?

1. Wie ist dieser Einfluss beschaffen: positiv oder negativ, um wie viele Einheiten ändert sich die abhängige Variable bei Änderung der unabhängigen Variable um eine Einheit → Interpretation der Koeffizienten

2. Welche Variablen haben einen signifikanten Einfluss auf die abhängige Variable? → t-Test der Koeffizienten

3. Ist der F-Test signifikant? → Auskunft darüber, ob unabhängige Variable(n) zur Erklärung der abhängigen Variable beitragen

4. Wie groß ist R²? → Anteil der Varianz der abhängigen Variable, der durch unabhängige Variable erklärt wird

19.06.2017

Page 43: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 43Andreas Schneck

Übungsaufgaben

Aufgabe 0.1 (Hinweis uebung1.do)

• Legen Sie den Pfad auf Ihr privates Laufwerk im CIP-Pool (Befehl cd).

• Laden Sie den Datensatz von der Veranstaltungsseite und kopieren Sie diesen in Ihr privates Laufwerk

• Öffnen Sie den Datensatz per do-file in Stata

Aufgabe 1

• Prüfen Sie die These, dass Personen mit einer langen Studiendauer (BA) (v35_1) ein höheres Einkommen (v88_1) haben

• Zeigen Sie den Zusammenhang graphisch anhand eines Streudiagramms und einer Regressionsgerade

• Berechnen Sie ein Regressionsmodell (OLS) und interpretieren Sie die Ergebnisse

• Exportieren Sie Ihre Ergebnisse in ein Word Dokument und benennen Sie diese adäquat.

19.06.2017

Page 44: Methoden 2 - ls4.soziologie.uni-muenchen.de · Andreas Schneck # 3 Vorstellung des neuen Datensatzes Erhebungszeitraum 21.04. bis voraussichtlich 01.07.2017 Online-Befragung (Codebuch

# 44Andreas Schneck

Übungsaufgaben

Aufgabe 2

• Prüfen Sie die These, dass eine quantitativer Schwerpunkt (quant. BA-Arbeit v31_1) mit einem höheren Einkommen einhergeht.

• Berechnen Sie ein Regressionsmodell (OLS) und interpretieren Sie die Ergebnisse.

• Exportieren Sie Ihre Ergebnisse in ein Word Dokument und benennen Sie diese adäquat.

Zusatzaufgabe

• Welches Ihnen aus vorherigen Sitzungen bekannte Verfahren führt zu exakt gleichen Ergebnissen?

19.06.2017