44
Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Embed Size (px)

Citation preview

Page 1: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression und Korrelation

5

5.1 Regression

5.2 Korrelation

5.3 Statistische Tests

5.4 Zusammenhangmaße für

nicht-metrische Variablen

Page 2: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression und Korrelation5

Regressions- und Korrelationsanalyse ermittelt den statistischen Zusammenhang zwischen zwei (bivariat) oder mehreren (multivariat) ZVAs: - statistische Zusammenhangtests können nur entscheiden, ob ein signifikanter Zusammenhang besteht - Frage nach Art und Stärke des Zusammenhangs mit Regressions- bzw. Korrelationsanalyse zu beantworten

Verfahren der Regressions- und Korrelationsanalyse sowohl auf GG als auch auf STP anzuwenden

je nach Skalenniveau der Variablen unterschiedliche Verfahren zu wählen: - klassische Regression und Korrelation setzt metrische Variablen voraus - Korrelationsmaße für ordinal- und nominalskalierte Variablen ebenfalls gebräuchlich - Regression für nicht metrische Variablen eher selten (s. Statistik II)

Page 3: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression und Korrelation5

Typen von Zusammenhängen:

Y X

Y X

Y X2

X1

X3

Y X2

X1

X3

X0

Y X

Z

Y : VerdunstungX0 : GlobalstrahlungX1 : Temperatur (=X)X2 : LuftfeuchteX3 : Turbulenz

einfach einseitig

einfach wechselseitig

mehrfach einseitig

komplex einseitig (nichtlinear)

“Scheinkorrelation“

Page 4: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression und Korrelation5

Veranschaulichung der Kovariabilität:

proportionaler (positiver) Zusammenhang

Bezugseinheit (Zeitpunkt, Region, Proband, …)

umgekehrt proportionaler (negativer) Zusammenhang

Bezugseinheit (Zeitpunkt, Region, Proband, …)

kein Zusammenhang

Bezugseinheit (Zeitpunkt, Region, Proband, …)

instationärer Zusammenhang

Bezugseinheit (Zeitpunkt, Region, Proband, …)

Ve

rdu

ns

tun

gG

lob

als

tra

hlu

ng

Ve

rdu

ns

tun

gB

ew

ölk

un

g

Ve

rdu

ns

tun

gO

zon

ge

ha

ltV

erd

un

stu

ng

Nie

de

rsc

hla

g b

is B

ew

äs

se

run

g

“je mehr desto mehr“

“je mehr desto weniger“

Page 5: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression und Korrelation5

Ermittlung der Kovariabilität:

Bezugseinheit (Zeitpunkt, Region, Proband, …)

x

y

Ve

rdu

ns

tun

gG

lob

als

tra

hlu

ng

X : VerdunstungY : Temperatur

ix

iy

)( xxi

)( yyi

n

iii yyxx

n 1

)()(1

1Kovarianz:

Page 6: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1

Regressionsanalyse ermittelt die Art des Zusammenhangs zwischen Variablen: - Abhängigkeit einer Variablen Y von einer (einfach) oder mehreren (multiple) Variablen X bzw. X1, X2, …, Xn: Regression (Rückschluss)

- unabhängige Ausgangsvariable: Prädiktor, Regressor - abhängige Zielvariable: Prädiktand, Regressand - inhaltlich festgelegt: z.B. Globalstrahlung Verdunstung

elementarster Fall ist lineare Einfachregression: - gesucht ist Funktion f, die linearen Zusammenhang zwischen Y und X beschreibt:

- diese Funktion f ist eine Geradengleichung der Form:

- diese Regressionsgerade spiegelt die Orientierung der zweidimensionalen Punktwolke der Werte von X und Y am besten wider

)(XfY Regression von Y nach X

aXbY b : Steigung (Regressionskoeffizient)a : y-Achsenabschnitt (Regressionskonstante)

Page 7: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1

typische Fragestellung: - X : Temperatur - Y : Verdunstung

Streuungsdiagramm (Punktwolke): - x-Achse: unabhängige Variable - y-Achse: abhängige Variable

?

Page 8: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1

Regressionsgerade hat zwei zentrale Eigenschaften: - exakte Lage hängt allein von der Verteilung der Punkte (xi,yi) im Streuungs-

diagramm ab - optimale Repräsentanz der Punktwolke: alle Punkte sollen möglichst nah an der Geraden liegen, d.h. eine minimale mittlere Distanz haben - aus rechentechnischen Gründen werden vertikale Entfernungen betrachtet: Residuen

min1

1

!

n

iien

sgeradeRegression

ausWert -yr geschätzte : ˆ

Wert-cher x tatsächli:

Wert-ycher tatsächli:

:mit

)(ˆ

i

i

i

iiiii

y

x

y

axbyyye

Page 9: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1

Gauß‘sches Prinzip der kleinsten Quadrate: - aus mathematischen Gründen nicht absolute sondern quadratische Residuen bei der Minimierung berücksichtigt (least square fit):

- E ist eine Funktion der Parameter a und b, deren Minima durch die Nullstellen der partiellen Ableitungen nach a und b gekennzeichnet sind:

min)(1

!

1

2

1

22

n

i

n

iii

n

iiii axbyaxbyeE

0 (II)

0 (I)

0)(

0)(

0)(2

0)(2

1 1

2

1

1 1

1

1

1

1

n

i

n

iii

n

iii

n

i

n

iii

n

iiii

n

iii

n

iiii

n

iii

xaxbyx

anxby

axbyx

axby

axbyxb

E

axbya

E

{Normalgleichungen I und II:2 Gleichungen für 2 Unbekannte a und b

Page 10: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1

Berechnung des Regressionskoeffizienten b: - Normalgleichung (I) mit xi sowie Normalgleichung (II) mit n multiplizieren:

- Subtraktion (I) minus (II) liefert:

0 (II)

0 (I)

1 1

2

1

1 1

2

11

n

i

n

iii

n

iii

n

i

n

ii

n

iii

n

ii

xanxbnyxn

xanxbyx

2

1

2

12

11

2

111

111

2

11

2

1 1

22

111

)(

))((

0

x

xy

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

iii

n

ii

n

ii

n

i

n

ii

n

ii

n

iiii

n

ii

s

s

xx

yyxx

xxn

yxyxnb

yxyxnxxnb

xbnxbyxnyx

Page 11: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1

Berechnung der Regressionskonstante a: - Normalgleichung (I) mit xi

2 sowie Normalgleichung (II) mit xi multiplizieren:

- Subtraktion (I) minus (II) liefert:

0 (II)

0 (I)

2

1 11

2

11

1 1

2

11

2

1

2

n

i

n

ii

n

iii

n

iii

n

ii

n

i

n

ii

n

ii

n

iii

n

ii

xaxxbyxx

xanxxbyx

xbyxxn

yxxyxa

yxxyxxxna

xaxanyxxyx

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

2

11

2

1111

2

1111

22

11

2

2

11

2

1111

2 0

Page 12: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1

Beispiel zur manuellen Berechnung der Parameter a und b: - generell empfiehlt sich Berechnung mit Tisch-/Taschenrechner - Bestimmung der folgenden Formelterme über tabellarisches Schema:

- Einsetzen der Terme in obige Formeln liefert die Geradengleichung:

n

ii

n

iii

n

ii

n

ii x,yx,y,x

1

2

111

51,015,0ˆ XY

Page 13: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1

Interpretation der Regressionsgleichung: - zugrunde liegendes Modell ist nicht

- sondern

- Regressionsgleichung kann nur die Information auf Y abbilden, die in X enthalten ist - die Residuen ε kennzeichnen die zufälligen (nicht systematischen) Abweichungen der tatsächlichen y-Werte von der Regressionsgeraden - diese Zufallsfehler können auf andere, nicht berücksichtigte Prädiktoren zurückzuführen sein (multiple Regression) oder letztendlich stochastisch sein - die Residuen ε sind eine Funktion der Zeit und durch die Regressionsanalyse normiert:

- die Regressionsgerade läuft immer durch das arithmetische Mittelzentrum

- ferner stellen a und b nur STP-Schätzer für die entsprechenden Para- meter der GG dar: Konfidenzintervall und Signifikanzniveau zu bestimmen

aXbY

aXbYaXbY ˆ bzw.

n

1i

0 , iiii axby

TyxP ),(

Anpassung auf den Mittelwert

Page 14: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1 Interpretation der Regressionsgleichung: - Regressionskoeffizient gibt an, um wie viele Einheiten sich Y ändert, wenn X sich um eine Einheit ändert: 0,15 mm pro 1,0 °C - bei positivem b ist Beziehung proportional, bei negativem b umgekehrt proportional - über die Regressionsgleichung lassen sich nun für beliebige (auch nicht auftretende) x-Werte die geschätzten y-Werte berechnen:

- somit lassen sich auch Datenlücken in Y schließen und Prognosen für Y berechnen:

mmmmCC

mmy

Cx

mmXY

i

i

64,251,02115,0ˆ

21

51,015,0ˆ

beliebige Bezugseinheit

Y

X

iy

Zeit

Y

X

iyDatenlücke von Y

Prognosezeitraum von Y

Page 15: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Regression5.1 Bestimmung von Zeitreihentrends: - im Falle des Trends ist die Zeit immer die unabhängige Variable X - bei annähernd linearen Entwicklungen lässt sich eine Zukunftsprognose anhand der Regressionsgleichung (statistisches Modell) durchführen - Beispiel: gegeben sind Zeitreihen der Natalität und Verstädterung in der ehem. Sowjetunion:

!?

9,2745,0ˆ tY

2,4081,0ˆ tY

kleines Residuum:sichere Prognose

großes Residuum:unsichere Prognose

Page 16: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Korrelation5.2

Korrelationsanalyse ermittelt die Stärke des Zusammenhangs zwischen Variablen: - keine Unterscheidung zwischen abhängigen und unabhängigen Variablen - hier nur lineare Einfachkorrelation im bivariaten Fall

Berechnung des Bestimmtheitsmaßes: - im Fall einer perfekten deterministischen Beziehung liegen alle Wertepaare (xi,yi) von X und Y exakt auf einer Geraden:

- dann gilt für die STP-Varianz der yi:

- d.h. die Varianz der yi wird ausschließlich bestimmt durch die Varianz der xi

axby

axby ii

22

1

22

1

22

1

2

1

22

)(1

1)(

1

1

)(1

1)(

1

1

x

n

ii

n

ii

n

ii

n

iiy

sbxxn

bxxbn

axbaxbn

yyn

s

Page 17: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Korrelation5.2

Berechnung des Bestimmtheitsmaßes: - im nicht-deterministischen Fall existiert ein Residuum ε:

- dann gilt für die Varianz der yi:

- S kennzeichnet zusätzlichen Varianzanteil des Residuums, so dass Varianz der yi aus 2 Anteilen besteht: Resultat des Einflusses der xi und nicht erfasster

(stochastischer) Anteil der εi

- es gilt S = 0 nur im Fall, dass alle εi = 0 (deterministischer Zusammenhang)

axby

axby iii

Sn

sb

xbxbn

xxbn

xbxbxbxbn

xbxbn

axbaxbn

yyn

s

x

n

i

n

iiiii

n

iiiii

n

iii

n

iii

n

iiy

1

1

)(21

1)(

1

1

)(2)(1

1)(

1

1

)(1

1)(

1

1

22

1 1

222

1

22

1

2

1

2

1

22

Page 18: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Korrelation5.2

Berechnung des Bestimmtheitsmaßes: - Verhältnis des durch xi erklärten Varianzanteils von yi durch die Gesamt-

varianz der yi ist Maß für die Stärke des Zusammenhangs zwischen X und Y:

Bestimmtheitsmaß B:

- B kennzeichnet die durch X erklärte Varianz von Y - es gilt 0 ≤ B ≤ 1 - im Falle B = 1 liegt ein streng determi- nistischer Zusammenhang vor, d.h. alle Wertepaare (xi,yi) liegen exakt auf der

Regressionsgeraden

n

ii

n

i

y

x

n

ii

n

ii

yy

yy

s

sb

yyn

xxn

bB

1

2

1

2

2

22

1

2

1

22

)(

)ˆ(

)(1

1

)(1

1

Page 19: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Korrelation5.2 Berechnung des Korrelationskoeffizienten ist aber gebräuchlicher: - sog. Produktmoment-Korrelationskoeffizienten rxy (nach Pearson)

- gibt auch Proportionalität des Zusammenhangs an: positiv, negativ - allgemeine Definition:

- mit einigen Umformungen von B

- ergibt sich sich für den Korrelationskoeffizienten:

Brxy 2

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

yyxx

yyxx

yyxx

xxyyxx

yy

xxb

yy

yyB

1

2

1

2

2

1

1

22

1

2

1

22

1

1

2

1

22

1

2

1

2

)()(

)()(

)()(

)()()(

)(

)(

)(

)ˆ(

2

11

22

11

2

111

1

2

1

2

1

11

1

)()(

)()(

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

n

iii

yx

xy

n

ii

n

ii

n

iii

xy

yn

yxn

x

yxn

yx

ss

s

yyxx

yyxxr

Page 20: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Korrelation5.2

Eigenschaften des Korrelationskoeffizienten: - rxy kennzeichnet die mit den Einzelstandardabweichungen normierte

Kovarianz von X und Y - es gilt rxy = ryx

- rxy hat immer das gleiche Vorzeichen wie b:

- Wertebereich und Deutung:

- Beispiel Temperatur und Verdunstung:

positiv : proportional (je mehr desto mehr)negativ: umgekehrt proportional (je mehr desto weniger)

11 xyr

2,0

4,02,0

6,04,0

8,06,0

8,0

xy

xy

xy

xy

xy

r

r

r

r

r sehr starker Zusammenhang

starker Zusammenhang

mittelstarker Zusammenhang

schwacher Zusammenhang

kein Zusammenhang

%2,70702,0

84,0

B

rxy

70,2 % der Verdunstungs-schwankungen können durchdie Temperaturvariabilität erklärtwerden (sehr starker Zusammenhang)

Page 21: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3

Bestimmung der Koeffizienten der Regressions- und Korrelationsanalyse basiert i.d.R. auf STP-Werten xi und yi:

- unterschiedliche STP-Werte führen zu unterschiedlichen Koeffizienten:

- rxy und b sind Schätzer für die entsprechenden Koeffizienten ρ bzw. β der

bivariaten GG (X,Y) Frage nach Konfidenzintervallen von ρ und β Frage nach Hypothesentest:

H0 : ρ = 0 H1 : ρ ≠ 0

H0 : β = 0 H1 : β ≠ 0

Page 22: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3

statistische Tests für den Korrelationskoeffizienten: - vorausgesetzt ist, dass X und Y bivariat normalverteilt sind mit den Parametern μx, μy, σx, σy, ρxy:

- im Fall ρ = 0: kreisrunde Form - im Fall ρ ≠ 0: elliptische Form - Randverteilungen der bivariat normalverteilten GG sind univariate Normal- verteilungen - es gilt ferner, dass für beliebige x0 X und y0 Y die bedingten Wahrschein-

lichkeiten P(Y|X=x0) und P(X|Y=y0) univariate Normalverteilungen sind

Page 23: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3 statistische Tests für den Korrelationskoeffizienten: - im Fall der bivariaten Normalverteilung ist ρ ein Maß für die Stärke des allgemei- nen Zusammenhangs zwischen X und Y - im Fall einer anderen bivariaten Vertei- lung misst ρ nur den linearen Zusammen- hang zwischen X und Y - Bild oben rechts zeigt keine Korrelation trotz starken Zusammenhangs, nur weil GG nicht bivariat normalverteilt sind - in der Praxis im Einzelfall zu prüfen, ob GG bivariat normalverteilt ist - meist aber STP zu klein für sichere Überprüfung - stattdessen werden nur die beiden Randverteilungen auf NV überprüft - in meisten Fällen ist dann GG bivariat normalverteilt (Ausnahmen selten) - statistische Tests jedoch relativ ro- bust gegenüber Verletzungen dieser Voraussetzung

Page 24: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3 statistische Tests für den Korrelationskoeffizienten: - nun zu überprüfen, ob Schätzwert rxy der STP {(xi,yi), i=1..n} für eine der

beiden Hypothesen spricht:

- unter H0 ist die folgende Testvariable t-verteilt mit Φ = n – 2 Freiheitsgraden:

- im konkreten Fall ist dann die Prüfgröße mit dem kritischen Wert der t- Verteilung zu vergleichen (α, zweiseitig): - Beispiel Temperatur und Verdunstung:

signifikanter Zusammenhang zwischen Temperatur und Verdunstung

H0 : ρ = 0 H1 : ρ ≠ 0

STP-fallsent von ZunskoeffiziKorrelatio ZVA : R , 1

22

R

nRt

;221

;220

1

2:

1

2:

tr

nrH

tr

nrH

xy

xy

xy

xy

annehmen Hˆ03,2

96,81

g)(zweiseiti %5,34

84,0,36

1;2;2

2

ttt

r

nrt

rn

xy

xy

xy

Page 25: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3 Problem der “ökologischen Verfälschung“:

- zeitliche, räumliche oder inhaltliche Aggregation der Daten bewirkt immer Erhöhung des Korrelationskoeffizienten (pos./neg.) - praktisch durch Aggregation jeder Zusammenhang zu erzeugen: Maß der Aggregation als ZVA zu interpretieren - nur durch statistischen Test und angepasste Anzahl der Freiheitsgrade richtig einzuschätzen

Bezugseinheit (Zeitpunkt, Region, Proband, …)

x

y

Ve

rdu

ns

tun

gG

lob

als

tra

hlu

ng

X : VerdunstungY : Temperatur

rxy=0,73

rxy=0,87

Page 26: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3

statistische Tests für die Regressionsanalyse: - andere Voraussetzungen als bei Korrelationsanalyse (unterschiedliche gedankliche Konzepte) - lineare Einfachregression soll beste Schätzung von Y bewerkstelligen unter folgenden Vorausetzungen:

1) ZVA Y|x ist für jeden Wert x normalverteilt mit Mittelwert μy|x und Standardabweichung σy|x

XY

2) die Mittelwerte μy|x liegen auf der Geraden: μy|x = β•X + α (stellt sicher, dass der Zusammen- hang linear ist)

nicht linear: widersprichtForderung 2)

Page 27: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3

statistische Tests für die Regressionsanalyse:

3) Homogenität der Zufallsfehlervarianzen σ2y|x

4) die Residualvariablen ε|x = y|x – μy|x sind jeweils paarweise stochastisch unabhängig: ρ = 0

nicht homogen: widerspricht Forderung 3)

εi sind strukturiert: widersprichtForderung 4)

lineare Einfachregression ist kein angemessenesModell, obwohl Bestimmtheitsmaß undKorrelationskoeffizient sehr hoch sind

Page 28: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3

statistische Tests für die Regressionsanalyse:

- in der Praxis sind diese Voraussetzungen kaum zu prüfen, da bei STP zu jedem xi jeweils nur ein yi gegeben ist - zumindest Streudiagramm zeichnen, um Forderungen 2) bis 4) visuell abzuschätzen Test für lineare Regressionsgleichung ergibt sich aus der Forderung, dass die Residuen εi annähernd bivariat normalverteilt um 0 sind mit ρ = 0

zusammenfassend: die Residualvariablen ε|x müssen:- den Mittelwert με = 0 haben- für alle x homogene Varianz σ2

ε|x = σ2ε haben

- bivariat normalverteilt sein- mit dem Korrelationskoeffizienten ρε = 0

Page 29: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3 Test für den Regressionskoeffizienten: - geprüft werden die Hypothesen:

- unter der Voraussetzung der H0 ist die folgende Prüfgröße t-verteilt mit (n-2)

Freiheitsgraden:

- zu vergleichen mit kriti- schem Wert tα/2;Φ gegeben

das Irrtumsniveau α - Beispiel Temperatur und Verdunstung (α=5%): es existiert ein linearer Zusammenhang

H0 : β = 0 H1 : β ≠ 0

Y bzw. Xder ZVA n Größeder STP von Varianz :)(,)(

hler von Standardfe :2)(

)()(

)für ktion (Schätzfun nt"skoeffizieRegression" ZVA :

ˆ

22

222

nSnS

BnnS

nSBnSS

B

S

Bt

yx

xy

x

xxyy

B

xy

B

xy

annehmen H03,2

97,8016.0

149.0ˆ

016,03474,5

89,3202,004,1

2)(

)()(

134%;5,2;2

222

tt

S

Bt

nnS

nSBnSS

B

xy

x

xxyy

B

Page 30: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3

Konfidenzintervall für den Regressionskoeffizienten: - β liegt mit einer Irrtumswahrscheinlichkeit α im Konfidenzintervall:

- Beispiel Temperatur und Verdunstung:

- graphisch lässt sich das Konfidenzinter- vall über die beiden Grenzgeraden ver- anschaulichen:

- die Grenzgeraden haben immer das arithmetische Mittelzentrum als Dreh- punkt

bxyb stbst ;2;2

xyb

183,0115,0

016,003,2149,0016,003,20,149

Page 31: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3

Konfidenzintervall für die Schätzwerte : - ist Schätzwert für das arithmetische Mittel aller zu einem x-Wert gehörenden Werte y|x der ZVA Y|x - Grundlage für die Berechnung des Konfidenzintervalls ist die folgende Schätzfunktion, die t-verteilt ist mit (n-2) Freiheitsgraden:

- hängt von der Distanz zum Mittelwert ab: Standardfehler wächst mit zunehmender Distanz vom arithmetisches Mittelzentrum

xYY |ˆ axby ˆ

Y und Xder ZVA n Größeder STPnt von skoeffizieRegression :

Y bzw. Xder ZVA n Größeder STP von Varianz :)(,)(

Xder ZVA n Größeder STP von Mittel chesarithmetis :)(

|ˆhler von Standardfe:)()1(

))((1

2

))()(()1(

x|YVariablen der wert Erwartungs :

x"|y Werte-STPder Mittel chesarithmetis" ZVA :|ˆ

ˆˆ

22

2

2222

x|Y

ˆ

xy

yx

x

xxyy

xY

|xY

Y|x

B

nSnS

nX

xYnSn

nXx

nn

nSBnSnS

xY

S

|x-μYt

xYS

Page 32: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Statistische Tests5.3

Konfidenzintervall für die Schätzwerte : - dann lautet das Konfidenzintervall für den Erwartungswert der ZVA Y|x:

- je näher am Mittelwert von X desto genauer die Schätzung von Y - Beispiel Temperatur und Verdunstung:

- graphisch zu veranschaulichen durch Vertrauensband: Langfristprognosen werden immer unsicherer

xYY |ˆ

xYxYxYStxYStxY

|ˆ;2||ˆ;2

|ˆ|ˆ

94,074,0

60,011,0

30,000,1

095,0;176,0;321,0

03,2

840,0|ˆ;9

244,0|ˆ;5

351,0|ˆ;1

50,0149,0ˆ

3

2

1

321

|

|

|

|ˆ|ˆ|ˆ

34%;5,2;2

333

222

111

xY

xY

xY

xYxYxY

ii

SSS

tt

xyx

xyx

xyx

xy

Page 33: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Regressions- und Korrelationsanalyse erfordern metrische Variablen: - für ordinal- und nominalskalierte Variablen existieren ebenfalls Zusammen- hangmaße (Korrelationskoeffizienten) - auch für metrische Variablen, die nicht bivariat normalverteilt sind oder einen nichtlinearen (aber monotonen) Zusammenhang haben

Rang-Korrelationskoeffizient ρs nach Spearman:

- gegeben ist STP einer bivariaten GG (X,Y) mit zumindest ordinalskalierten ZVA X und Y - STP-Werte xi und yi sind der Größe nach geordnet mit den Rangplätzen:

- dann wird der Rang-Korrelationskoeffizient geschätzt durch:

Y bzgl. Elementsten -i des Rangplatz :

X bzgl. Elementsten -i des Rangplatz :

1,1,,

*

*

****

i

i

iiii

y

x

nynxyx

**2

2

1

2

)1(

61

iii

n

ii

s

yxd

nn

dr

große Rangpaardifferenzen durch die Quadrierung relativ stark gewichtet

bei Gefahr von Ausreißern besserRang-Korrelationskoeffizient τ von Kendall

Page 34: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Rang-Korrelationskoeffizient ρs nach Spearman :

- rs entspricht bei singulären Daten genau dem Produktmoment-

Korrelationskoeffizient rxy nach Pearson wegen:

- rs gibt Richtung und Stärke des monotonen Zusammenhangs an (gegensinnig,

gleichsinnig): - Interpretation:

- für Signifikanztest ist die folgende Prüfgröße unter H0 : ρs = 0 standardnormal-

verteilt, wenn n ≥ 30 (ansonsten Werte aus Tabelle für Rs):

)1(12

)1(,

2

1 222

n

nnss

nyx yx

11 s

ρs = -1 Variablen exakt gegensinnig

ρs < 0 Variablen negativ korreliert (mehr oder weniger gegensinnig)

ρs = 0 Variablen ohne monotonen Zusammenhang

ρs > 0 Variablen positiv korrelíert (mehr oder weniger gleichsinnig)

ρs = +1 Variablen exakt gleichsinnig

1ˆ nRz s 21

2ˆ :2-nmit verteilt -oder ts

s

R

nRt

Page 35: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Rang-Korrelationskoeffizient ρs nach Spearman :

- Beispiel: gegeben 7 Rangpaare

- bei Rangplätzen mit Bindungen ρs nach folgender Formel geschätzt:

i Rang xi Rang yi

1 7 2

2 5 1

3 6 3

4 4 4

5 3 6

6 1 7

7 2 5

annehmen g)(zweiseiti 75,0

86,0487

)9369091625(61

)1(

61

1

21

2

7%;5Hr

nn

dr

s

n

ii

s

l

jyjyjy

k

jxjxjx

yx

n

ii

s

ttT

ttT

TTnn

dr

1

3

1

3

21

2

)(2

1

)(2

1

)()1(

61

k : Anzahl der Bindungen bei X

l : Anzahl der Bindungen bei Y

txj : Anzahl der STP-Elemente mit gleichem Rang xj

tyj _ Anzahl der STP-Elemente mit gleichem Rang yj

Page 36: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Rang-Korrelationskoeffizient ρs nach Spearman :

- Beispiel: Verstädterung und Natalität in Russland (eigentlich metrisch)

- es besteht ein signifikanter monotoner Zusammenhang zwischen Natalität und Verstädterung (gegensinnig)

annehmen

g)(zweiseiti 50,0

50,0

57,0)327(67526

456761

3)28(2

1

27)327()28()28(

)28()28()28(

2

1

1

26%;1

H

r

r

r

T

T

s

xy

s

y

x

Rangreihen mit Bindungen:

X : 6-mal (10,5; 13,5; 16,5; 22,5; 25,5; 4,0)Y : 1-mal (14,5)

Page 37: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Rang-Korrelationskoeffizient auch bei metrischen Variablen geeignet, die einen monotonen, aber keinen linearen Zusammenhang besitzen: - häufiger Fall in der Praxis wie z.B. Entwicklungsstand und medizinische Versorgung (metrisch) (s.u.) - Produktmoment-Korrelationskoeffizient liefert -0,41 und Signifikanzniveau 1 % - aber Voraussetzungen für Signifikanztest (bivariat normalverteilt) nicht erfüllt - ρxy = -0,41 vermittelt auch falschen Eindruck der Stärke des Zusammenhangs

- denn ρs liefert -0,85 und erfasst somit den deutlichen Zusammenhang im

Streudiagramm, den der lineare Ansatz von ρxy nicht erfasst

- nach linearer Transformation (doppelt logarithmisch) liefert auch ρuv = -0,85

Ori

gin

ala

chse

nd

op

pelt lo

garith

miert

YV

XU

ln

ln

Page 38: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Kontingenzkoeffizient C nach Pearson: - gegeben 2 nominal-skalierte ZVA X und Y mit k bzw. l verschiedenen Ausprägungen in Kontingenztafel: - Unabhängigkeit der beiden ZVA lässt sich über χ2-verteilte Prüf- größe für mehrfach gestufte Merk- male testen:

- Prüfgröße χ2 ist direkt proportional zu n:

k

i

l

j jie

jiejib

h

hh

1 1 ),(

2

),(),(2

n

jih jie

meSpaltensum eZeilensumm),(

1

ˆ

1 1 )()(

2

),(

1 1 ),(

2

),(),(2

k

i

l

j jbib

jib

k

i

l

j jie

jiejib

hh

hn

h

hh

Page 39: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4 Kontingenzkoeffizient C nach Pearson: - ein mit n normiertes Zusammenhangmaß ermöglicht Vergleich von diversen Kontingenztafeln mit unterschiedlichem n:

- es gilt C* {0..1} mit möglichem Maximalwert bei:

- damit ergibt sich der Kontingenzkoeffizient C zu:

- C ist ebenfalls auf {0..1} normiert und gibt die Stärke des Zusammenhangs zwischen X und Y an, allerdings nicht die Richtung: aus Residualkomponente schließen:

- die Nullhypothese H0 : C = 0 wird mit der χ2-verteilten Prüfgröße (s.o.) mit

Φ = (k-1)•(l-1) Freiheitsgraden getestet

2

2*

ˆ

ˆ

n

C

),min(,1*

max lkmm

mC

)ˆ()1(

ˆ2

2

*

max

*

nm

m

C

CC

),(),( jiejibij hh

Page 40: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Kontingenzkoeffizient C nach Pearson: - Beispiel Wahlverhalten in BRD: CDU-Anteil und ländlicher Raum:

- unter der Nullhypothese (kein Zusammenhang) ergeben sich die erwarteten Häufigkeiten zu:

- Prüfgröße:

- kritischer Wert (zweiseitig, α = 5%):

- CDU-Wähleranteil ist Funktion der Bevölkerungsdichte

n = 94 Kreisek = 4 Anteil-Kategorienl = 3 Bevölkerungsdichte- kategorien

632,0,48ˆ 2

annehmen H59,12 1

2

;1

Page 41: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Kontingenzkoeffizient C nach Pearson: - Stärke des Zusammenhangs gemessen durch Kontingenzkoeffizient C:

- Richtung des Zusammenhangs wird deutlich, wenn die Residualkomponenten in Kontingenztafel eingetragen werden:

- in ländlichen Regionen ist der Anteil der CDU-Wähler signifikant höher als in Verdichtungsräumen

712,0)0,4894()13(

0,483

)ˆ()1(

ˆ2

2

nm

mC

Page 42: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4 Vierfelder-Korrelationskoeffizient ρΦ:

- Sonderfall der Kontingenztafel mit k = l = 2: dichotome Variablen X und Y

- Vierfelder-Korrelationskoeffizient ergibt sich zu:

- es gilt ρΦ {-1..1}:

- für den Signifikanztest ist die folgende Prüf- größe χ2-verteilt mit Φ = 1 Freiheitsgrad:

)()()()( 1101100011100100

10011100

HHHHHHHH

HHHHr

ρΦ = -1 maximaler negativer Zusammenhang

ρΦ = 0 kein Zusammenhang

ρΦ = +1 maximaler positiver Zusammehang

22ˆ Rn

Page 43: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

Zusammenhangmaße für nicht-metrische Variablen5.4

Vierfelder-Korrelationskoeffizient ρΦ:

- Beispiel: Zusammenhang zwischen Erwerbsstruktur und Mechanisierungsgrad

- Vierfelder-Korrelationskoeffizient:

- Prüfgröße und kritischer Wert (zweiseitig, α = 5%):

- es existiert ein signifikanter positiver Zusammenhang zwischen Erwerbs- struktur und Mechanisierungsgrad

Y=1 : hoher MechanisierungsgradY=0 : geringer Mechanisierungsgrad

X=1 : VollerwerbsbetriebX=0 : Nebenerwerbsbetrieb

42,024212223

761517

)()()()( 1101100011100100

10011100

HHHHHHHH

HHHHr

annehmen H84,3,0,842,045ˆ1

2

1%;5

222 Rn

Page 44: Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

“Take-away“

Die Regressions- und Korrelationsanalyse ermitteln die Art bzw. die Stärke des Zusammenhangs zwischen (metrischen) Zufallsvariablen

Häufig kommt die lineare Einfachregression zum Einsatz, bei der die Regressionsgleichung eine Gerade beschreibt.

Die Regressionsgleichung eignet sich auch zur Erfassung von Zeitreihentrends und zur Prognose von zukünftigen Entwicklungen.

Der Produktmoment-Korrelationskoeffizient ist ein normiertes Zusam-menhangmaß, dass die wechselseitig erklärte Varianz zwischen 2 metrischen Variablen kennzeichnet.

Für ordinalskalierte Variablen fungiert der Rang-Korrelationskoeffizient, für nominalskalierte Variablen der Kontigenzkoeffizient bzw. der Vierfelder-Korrelationskoeffizient als Zusammenhangmaß.

Basieren Regressionsgleichung und Korrelationskoeffizient auf STP-Werten, existieren Signifikanztests und Mutungsbereiche zur Schätzung der entsprechenden Koeffizienten der GG.

5