21
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 1 Korrelation und Regression Korrelation und Regression Einführung Streudiagramm Kovarianz Korrelation Regression Probleme Einführung Streudiagramm Kovarianz Korrelation Regression Probleme

Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

Embed Size (px)

Citation preview

Page 1: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 1

Korrelation und RegressionKorrelation und RegressionEinführungStreudiagrammKovarianzKorrelationRegressionProbleme • Einführung

• Streudiagramm• Kovarianz• Korrelation• Regression• Probleme

Page 2: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 2

EinführungEinführung

• Mit Korrelations- und Regressionsanalyse werden Zusammenhänge zwischen zwei metrischen Variablen analysiert.

• Wenn man nur einen Zusammenhang quan-tifizieren will, aber keine Ursache-Wirkungs-beziehung angenommen werden kann, wird ein Korrelationskoeffizient berechnet.

• Geht man von einer Ursache-Wirkungsbe-ziehung aus, kann man mit Hilfe der Re-gressionsanalyse versuchen, die Abhängig-keit des einen Merkmals (Y) vom anderen Merkmal (X) als linearen Zusammenhang durch eine Gleichung auszudrücken

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 3: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 3

Bildung (typische Dauer in Jahren)

20181614121086

Brut

to-A

rbei

tslo

hn

16000

14000

12000

10000

8000

6000

4000

2000

0

Veranschaulichung: StreudiagrammVeranschaulichung: StreudiagrammEinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 4: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 4

Veranschaulichung: StreudiagrammVeranschaulichung: Streudiagramm

10 20 30 40 50 60 70 80

Alter

1

2

3

4

5

Pos

itive

Ein

stel

lung

erw

.tätig

e M

utte

r

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 5: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 5

KovarianzKovarianz: „Vorstufe“ der Korrelation: „Vorstufe“ der Korrelation

Positiver Zusammenhang: Hohe Werte in der einen Variablen treten tendenziell gemeinsam mit hohen Werten in der anderen Variablen auf.

Negativer Zusammenhang: Hohe Werte in der einen Variablen treten tendenziell gemeinsam mit niedrigen Werten in der anderen Variablen auf.

Die „gemeinsame Varianz“ (im Sinne von: „miteinander Variieren“) zweier Variablen.

∑=

−⋅−=n

iiixy yyxx

ns

1)()(1

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 6: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 6

KovarianzKovarianz

Bsp. (fiktiv): Bruttolohn und Bildungsjahre

Xi Yi Xi –Xquer yi –yquer Xi –Xquer * yi –yquer

2000 9 -1000 -3 3000

5000 16 2000 4 8000

4000 16 1000 4 4000

1500 9 -1500 -3 4500

2500 10 -500 -2 1000

Summe 15000 60 20500

Ar. Mittel 3000 12 (Gültig für Stichpr.) Kovar.: 4100

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 7: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 7

KovarianzKovarianz

Bsp. (fiktiv): Bruttolohn und Körpergroße

xi yi xi –xquer yi –yquer xi –xquer * yi –yquer

2000 1,55 -1000 -0,17 170

5000 1,65 2000 -0,07 -140

4000 1,80 1000 0,08 80

1500 1,75 -1500 0,03 -45

2500 1,85 -500 0,13 -65

Summe 15000 8,6 0

Ar. Mittel 3000 1,72 Kovar.: 0

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 8: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 8

ProduktProdukt--MomentMoment--Korrelation,Korrelation,Pearsons Korrelation(Pearsons Korrelation(skoeffizientskoeffizient))

„Standardisierung“ der Kovarianz:

( ) ( )

( ) ( )∑∑

==

=

−⋅−

−⋅−=

⋅=

n

ii

n

ii

n

iii

YX

XYXY

yyn

xxn

yyxxn

sssr

1

2

1

2

1

11

1

r kann Werte zwischen –1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang) annehmen.

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 9: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 9

KorrelationKorrelation

Bsp. (fiktiv): Bruttolohn und Bildungsjahre

xi yi xi –xquer yi –yquer xi –xquer * yi –yquer

2000 9 -1000 -3 3000

5000 16 2000 4 8000

4000 16 1000 4 4000

1500 9 -1500 -3 4500

2500 10 -500 -2 1000

Summe 15000 60 20500

Ar. Mittel 3000 12 Kovar.: 4100

r: 0,96

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 10: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 10

KorrelationKorrelation

V3

3020100

V4

25

20

15

10

5

0

V1

3020100

V4

25

20

15

10

5

0

V1

3020100

V6

25

20

15

10

V5

25201510

V6

25

20

15

10

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

r=0,97 r=0,60

r=0,33 r=0,04

Page 11: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 11

KorrelationKorrelation

V2

3020100

V6

25

20

15

10

V2

3020100

V3

25

20

15

10

5

0

V1

3020100

V5

25

20

15

10

5

0

V1

3020100

V2

25

20

15

10

5

0

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

r= –0,26 r= –0,49

r= –0,60 r= –0,87

Page 12: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 12

Regression: Die Grundidee visuellRegression: Die Grundidee visuell

Gesamtdauer Bildung

20181614121086

Brut

tolo

hn

16000

14000

12000

10000

8000

6000

4000

2000

0

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 13: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 13

Grundidee verbalGrundidee verbal

• Wir suchen eine Gerade, die den Zusammenhang zwischen den beiden Merkmalen „möglichst gut“ beschreibt.

• „Möglichst gut“ heißt: Die gesuchte Gerade soll so gewählt werden, dass die Abstände zwischen der Geraden und den empirisch beobachteten Werten minimiert werden. (Aus bestimmten Gründen werden die quadrierten Abstände minimiert.)

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 14: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 14

Grundidee formalGrundidee formal

ˆi iy a bx= +

( )∑ ∑= =

=−=n

i

n

iiii Minimumyye

1 1

22 ˆ

Wir schätzen eine Gleichung

, so dass gilt

Es werden also die quadrierten Abweichungen der Geraden von den beobachten Werten minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS).a und b sind die aus der Stichprobe berechneten Schätzer für die unbekannten Parameter der Grundgesamtheit, meist als α und β bezeichnet.

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 15: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 15

Grundidee graphischGrundidee graphischBitte beachten: YBitte beachten: Y-- und Xund X--Achse müssen bis 0 verlängert Achse müssen bis 0 verlängert

gedacht werdengedacht werden

9 11 13 15

Bildung

1500

2500

3500

4500

Eink

omm

en

33 yy −

44 yy −

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 16: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 16

Im Beispiel (vorherige Seite!)

bzw.

Die Berechnung von a und b überlassen wir der einschlägigen Statistik-Software.

ˆ 1000 333, 3i iy x= − +

1000 333, 3i i iy x e= − + +

RegressionsgleichungRegressionsgleichungEinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 17: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 17

Multiple RegressionMultiple Regression

0 1 1 2 2Y b b X b X= + ⋅ + ⋅

1 2ˆ 750 232 63,5Y X X= − + ⋅ + ⋅

Die Regressionskoeffizienten (oder Regressions-gewichte) b1 und b2 geben jeweils den um die andere Variable „bereinigten“ Einfluss wieder; man sagt, der Einfluss der anderen Variablen wurde „auspartialisiert“.

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 18: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 18

Probleme bei Korrelation und RegressionProbleme bei Korrelation und Regression

Nur lineare Zusammenhänge werden erfasst

Dauer der Vorlesung

100806040200

Aufm

erks

amke

it12

10

8

6

4

2

0

Korrelation: -0,05, d.h. praktisch gleich null.Das Beispiel ist fiktiv, Sie sind natürlich ständig aufmerksam! ☺

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 19: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 19

Probleme bei Korrelation und RegressionProbleme bei Korrelation und Regression

Nur lineare Zusammenhänge werden erfasst

g Alkohol/Tag

403020100

Woh

lbef

inde

n26

24

22

20

18

16

14

12

10

8

Die Gerade ist quasi horizontal – was nicht dem „eigentlichen“ Zusammenhang entspricht.In der Regressions-analyse kann man sich aber durch „Tricks“ an die Kurve annähern

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 20: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 20

Probleme bei Korrelation und RegressionProbleme bei Korrelation und Regression

Einzelne Fälle können starken Einfluss ausüben (nicht zuletzt wegen Multiplikation)

Dauer der Betriebszugehoerigkeit

403020100-10

EIN

KZU

F16000

14000

12000

10000

8000

6000

4000

2000

0

Korrelation über alle Fälle: r=0,35.

Korrelation ohne Einkommen über 14.000: r=0,39.

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme

Page 21: Korrelation und Regression - Universität Siegen · minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten

FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 21

Probleme bei Korrelation und RegressionProbleme bei Korrelation und Regression

Einzelne Fälle können starken Einfluss ausüben (nicht zuletzt wegen Quadrierung)

Die gleichen Daten wie vorhin plus einige Extremwerte (links unten, rechts oben) erzeugen einen deutlich steigende Gerade

g Alkohol/Tag

403020100

Woh

lbef

inde

n50

40

30

20

10

0

EinführungStreudiagrammKovarianzKorrelationRegressionProbleme