Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Kovarianz, Korrelation und Regression
Bivariate Regressionsanalyse
Jost Reinecke
Universitat Bielefeld
15. Marz 2005
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Kovarianz, Korrelation und Regression
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Kovarianz, Korrelation und Regression
Ausgangspunkt ist folgende Datenmatrix:
Variablen1 2 . . . NI
1 x11 x12 . . . x1k
2 x21 x22 . . . x2k
3 x31 x32 . . . x3k
Statistische 4 . . . .
Einheiten 5 . . . .
. . . . .
. . . . .
. . . . .
NOBS xN1 xN2 . . . xNk
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
1. Kovarianz zwischen xi und xj :
cov(xi , xj) =
∑N
1(xi − xi) ∗ (xj − xj)
N(1)
mit
xi =
∑N
1(xi)
N(2)
xj =
∑N
1(xj)
N(3)
Erklarung: Summe der korrespondierenden Abweichungenvon ihrem Mittelwert. Die Werte der Kovarianz sindabhangig von der Skalierung der Variablen.
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
2. Produkt-Moment Korrelation zwischen xi und xj (PearsonKorrelation):
rij =cov(xi , xj)
sxi∗ sxj
(4)
mit
sxi=
√
∑N
1(xi − xi)2
N(5)
sxj=
√
∑N
1(xj − xj)2
N(6)
Erklarung: Kovarianz zwischen xi und xj , dividiert durchdas Produkt der Standardabweichungen. Die Werte desKorrelationskoeffizienten liegen zwischen −1 und +1.
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Korrelation als standardisiertes Zusammenhangsmaß:
zi =xi − x i
sxi
mit z i = 0 und szi= 1
zj =xj − x j
sxj
mit z j = 0 und szj= 1
rxixj=
∑
(xi − x i)(xj − x j)
N sxi· sxj
=1
N
∑
zi · zj
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
1. Jede der Variablen ist standardisiert.
2. Fur jede Untersuchungseinheit wird das Produkt derStandardwerte z1 und z2 gebildet.
3. Die Produkte werden aufsummiert.
4. Die Summe wird durch N dividiert, d.h. es wird derMittelwert der Produkte gebildet.
Der Korrelationskoeffizient beschreibt die Starke des linearenZusammenhangs zwischen zwei Merkmalen. Der Wertebereichliegt zwischen −1 und +1:
−1: perfekter negativer Zusammenhang+1: perfekter positiver Zusammenhang
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
-
6
u
uu
u
u
u
u
u
u
u
u
u
u
u
u
u
xi
xj
Graphische Darstellung einer positiven KorrelationJost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
-
6
u
uu
u
u
u
u
u
u
u
u
u
u
u
u
u
xi
xj
Graphische Darstellung einer negativen KorrelationJost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
-
6
u
u
u
u
u
u
u
u
u u
uu
u
u
u
u
u
u
xi
xj
Graphische Darstellung einer 0-KorrelationJost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Eine Gerade, die den Zusammenhang zwischen den Variablenmoglichst gut beschreibt, lat sich durch eine lineareFunktionsgleichung angeben:
xj = a + bxi (7)
I a = Achsenabschnitt (Schnittpunkt der Geraden mit dery-Achse)
I b = Steigung der Geraden
Da aber kein perfekter linearer Zuammenhang zwischen xi undxj besteht, sind die Vorhersagewerte fehlerbehaftet:
xj = a + bxi + e
wobei gilt:xj = xj + e ⇔ e = xj − xj
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
-
6
u
uu
u
u
u
u
u
u
u
u
u
u
u
u
u
xi
xj
xi
xj
xj
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Die Gute der Approximation der xj -Werte durch diegeschatzten Werte wird uber eine quadratische Fehlerfunktionfestgestellt:
xj = a + bxi + e −→ e = xj − bxi − a −→
Q(e) :=∑
e2 =∑
(xj − bxi − a)2
Es wird die Gerade gesucht, bei der die Summe derquadrierten Abweichungen am kleinsten ist:
∑
e2
i = f (a, b)
Die Bestimmung der Werte fur a und b, bei denen∑
e2
i
minimal ist, erfolgt uber partielle Ableitungen:
∂ (∑
e2
i )
∂a= 0;
∂ (∑
e2
i )
∂b= 0
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Der Regressionskoeffizient b ist demnach:
b =Cov(xi , xj)
s2xi
Danach laßt sich auch a berechnen:
a = x j − b · x i
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Beispiel: Variablen und Daten des ALLBUS 1994
Variable V175: Treimanberufsprestige-SkalaVariable V176: Magnitudeberufsprestige-SkalaVariable V261: EinkommenVariable V263: Haushaltsgroße
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Univariate Statistik: Mittelwerte und Standardabweichungen
Variable N x sx
V175 929 37,903 11,234
V176 929 52,495 25,265
V261 929 1156,904 1071,652
V263 929 2,482 1,335
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Bivariate Statistik: Korrelationskoeffizienten
V175 V176 V261 V263
V175 1,0000 ,8542 ,2500 ,0027
V176 ,8542 1,0000 ,2428 ,0243
V261 ,2500 ,2428 1,0000 -,3049
V263 ,0027 ,0243 -,3049 1,0000
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
P l o t o f V 1 7 5 w i t h V 1 7 6
M a g n i t u d e p r e s t i g e
2 0 0 1 0 0 0
T r e
i m a
n p
r e
s t i g
e
8 0
6 0
4 0
2 0
0
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
P l o t o f V 2 6 1 w i t h V 2 6 3
H a u s h a l t s g r o e s s e
2 0 1 0 0
E i n
k o
m m
e n
1 4 0 0 0
1 2 0 0 0
1 0 0 0 0
8 0 0 0
6 0 0 0
4 0 0 0
2 0 0 0
0
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Varianzzerlegung im linearen Regressionsmodell
Die Summe der quadrierten Abweichungen derBeobachtungswerte vom arithmetischen Mittel(Gesamtvariation) kann zerlegt werden in
1. die Summe der quadrierten Abweichungen derBeobachtungswerte von den Regressionswerten (nicht
erklarte Variation) und in
2. die Summe der quadrierten Abweichungen derRegressionswerte vom arithmetischen Mittel (erklarteVariation)
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
-
6
t
tt
t
t
t
t
t
t
t
t
t t
xi
xj
xi
xj
xj
xj − xj
}
{
xj − xj
xj − xj
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
1. Die Differenz xj − xj ist die Abweichung des Meßwertes xj
vom Mittelwert xj , der auch als zu erklarende
Abweichung bezeichnet wird.
2. Die Differenz xj − xj ist die Abweichung des Meßwertes xj
vom Wert der Regressionsgeraden xj , der auch als nicht
erklarte Abweichung bezeichnet wird.
3. Die Differenz xj − xj ist die Abweichung des Wertes derRegressionsgeraden xj vom Mittelwerte xj , der auch alserklarte Abweichung bezeichnet wird.
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
xj − xj = (xj − xj) + (xj − xj)
GVar. = EVar. + NEVar.
∑
(xj−xj)2
∑
(xj−xj)2 =
∑
(xj−xj)2
∑
(xj−xj)2 +
∑
(xj−xj)2
∑
(xj−xj)2
Gesamt-SAQGesamt-SAQ
= erkl.-SAQGesamt-SAQ
+ n.-erkl.-SAQGesamt-SAQ
1 = r 2 + 1 − r 2
GV = EV + NEV
Jost Reinecke Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Der Vorhersagewert fur die Variable xj ist der Mittelwert xj .Nach Auswertung der Information uber die Variable xi , d.h.nach Bestimmung der Regressionsgeraden, wird derRegressionswert xj berechnet. Die Gesamtabweichungzwischen Meß- und Vorhersagewert (Mittelwert) xj − xj wird ineinen erklarten Anteil (xj − xj) und einen nicht erklarten Anteil(xj − xj) zerlegt.
Jost Reinecke Bivariate Regressionsanalyse