5. Mehrdimensionale Zufallsvariablen · Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007 3 5.1

Lehrstuhl für Empirische Wirtschaftsforschung und ÖkonometrieDr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007


1

5. Mehrdimensionale Zufallsvariablen Bei vielen Problemstellungen ist eine isolierte Betrachtung einzelnen Zufallsvariablen nicht angemessen, weil so die Zusammenhänge zwischen den Variablen verloren gehen. Häufig: gleichzeitige Betrachtung mehrerer Zufallsvariablen Bsp.: - Körpergröße und Gewicht einer zufällig aus der Population herausgegriffenen Person

- Konsumausgaben, Haushaltseinkommen und Sparguthaben eines zufällig ausgewählten Haushaltes

- mehrere Aktienindizes (z. B. Dax, Dow Jones) - Augensumme und Augenprodukt beim Werfen zweier Würfel usw.

Die Variablen werden dabei nicht nur als n Zufallsvariablen angesehen, sondern auch als eine n-dimensionale Zufallsvariable.



2

Definition: X = (X1, X2,…, Xn) heißt n-dimensionale Zufallsvariable oder n-dimensionaler Zufallsvektor. - Bivariate Verteilung: gemeinsame Wahrscheinlichkeitsverteilung von zwei Zufalls-

variablen oder die Verteilung einer zweidimensionalen Zufallsvariablen - Multivariate Verteilung: gemeinsame Wahrscheinlichkeitsverteilung von drei und

mehr Zufallsvariablen oder die Verteilung einer drei- und mehrdimensionalen Zufalls-variablen



3

5.1. Mehrdimensionale diskrete Zufallsvariablen - Gemeinsame Wahrscheinlichkeitsfunktion von X und Y:

)(),( yYxXPyxf ji =∩== Sie gibt die Wahrscheinlichkeiten an, mit der die Zufallsvariable X den Wert x und gleichzeitig Y den Wert y annimmt. - Eigenschaften der gemeinsamen Wahrscheinlichkeitsfunktion:

1),(0 ≤≤ ji yxf

∑∑ =i j

ji yxf 1),( für alle i und j



4

Gemeinsame Verteilung in Matrixform:

y1 y2 . . . yj . . . yl

x1 x2 . . . xi . . . xk

p11 p12 p1j p1l p21 p22 p2j p2l

. . . pi1 pi2 pij pil . . . pk1 pk2 pkj pkl

p1· p2· . . . pi· . . . pk·

p·1 p·2 . . . p·j . . . p·l

),( jiij yxfp = , ∑== •j

ijii ppxflungenRandvertei )(: und ∑== •i

ijjj ppyf )(



5

Gemeinsame Verteilungsfunktion: F(x, y) = P(X ≤ x ∩ Y ≤ y) Sie gibt an, mit welcher Wahrscheinlichkeit die Zufallsvariable X Werte kleiner oder gleich x und gleichzeitig die Zufallsvariable Y Werte kleiner oder gleich y annimmt. F berechnet man durch die Addition der gemeinsamen Wahrscheinlichkeitsfunktion:

∑∑≤ ≤

=xx yy

jii j

yxfyxF ),(),(

F ist eine Treppenfunktion, die von F(-∞, -∞) = 0 bis F(∞, ∞) = 1 steigt



6

5.2. Multidimensionale stetige Zufallsvariablen Gemeinsame Dichtefunktion von X und Y:

dcbafürdYcbXaPdydxyxfb

a

d

c

<<≤<∩≤<=∫ ∫ ,)(),(

Eigenschaften der Dichtefunktion f: (1) 0),( ≥yxf

(2) ∫ ∫∞

∞−

∞

∞−

= 1),( dydxyxf



7

Gemeinsame Verteilungsfunktion: Im stetigen Fall findet man F durch die Integration der gemeinsamen Dichtefunktion

∫ ∫∞− ∞−

=x y

dvduvufyxF ),(),(

F ist stetig differenzierbar und stetig monoton von 0),( =−∞−∞F bis 1),( =∞∞F . Randverteilungen bei stetigen Zufallsvariablen: Die Randverteilung von X erhält man durch die Integration über y

∫∞

∞−

= dyyxfxf ),()(

Die Randverteilung von Y erhält man durch die Integration über x

∫∞

∞−

= dxyxfxf ),()(



8

Wahrscheinlichkeitsintervall einer stetigen zweidimensionalen Zufallsvariablen: Gegeben sei eine stetige zweidimensionale Zufallsvariable (X; Y) mit der Dichtefunktion f(x,y). Für die Wahrscheinlichkeit, dass (X; Y) in das Intervall (a<X≤b und c<Y≤d) fällt, gilt:

∫ ∫=≤<≤<d

c

b

a

dxdyyxfdYcbXaP ),(),(



9

5.3. Bedingte Zufallsverteilungen und stochastische Unabhängigkeit Bedingte Verteilungen geben die Auskunft über die Verteilung der einen Variablen unter der Bedingung, dass die jeweils andere einen bestimmten Wert annimmt. Der Stich-probenraum wird durch die Angabe der Bedingung reduziert. Die Konstruktion der bedingten Verteilung ist analog zur Konstruktion der bedingten Wahrscheinlichkeiten für Ereignisse: Bedingte Wahrscheinlichkeit:

)()(

)|(j

jij yYP

yYxXPyYxXP

=

=∩==== für 0)( >= jyYP



10

Bedingte Verteilung von X unter der Bedingung Y = yj:

)(),(

)|(j

jiji yf

yxfyxf = (diskreter Fall) )(

),()|(yfyxfyxf = (stetiger Fall)

Bedingte Verteilung von Y unter der Bedingung X = xi:

)(),(

)|(i

jiij xf

yxfxyf = (diskreter Fall) )(

),()|(xf

yxfxyf = (stetiger Fall)

Im diskreten Fall existiert für jede Ausprägung yj eine bedingte Verteilung für X, entsprechend erhält man n bedingte Verteilungen für Y (n: Anzahl der Ausprägungen der Variablen X). Im stetigen Fall können die Zufallsvariablen X und Y unendlich viele Werte in einem Intervall annehmen, dementsprechend gibt es unendlich viele Möglichkeiten, einen x- bzw. y-Wert vorzugeben.



11

Stochastische Unabhängigkeit Die Unabhängigkeit von Zufallsvariablen lässt sich auf das Konzept der stochastischen Unabhängigkeit von Ereignissen zurückführen. Wiederholung: Zwei Ereignisse A und B sind stochastisch unabhängig, wenn das Eintreten von A keinerlei Einfluss auf das Eintreten von B hat und umgekehrt. formal: P(B|A) = P(B) bzw. P(A|B) = P(A) oder: P(A∩B)=P(A)·P(B) (Multiplikationssatz für unabhängige Ereignisse) Unabhängigkeit von Zufallsvariablen: Die Zufallsvariablen X und Y heißen stochastisch unabhängig, wenn die gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion gerade gleich dem Produkt der beiden Rand-verteilungen ist:

)()(),( jiji yfxfyxf ⋅= (diskreter Fall) )()(),( yfxfyxf ⋅= (stetiger Fall)



12

5.4. Parameter von mehrdimensionalen Zufallsvariablen 1. Erwartungswerte Der Erwartungswert einer zweidimensionalen Verteilung wird angegeben durch das Paar der Erwartungswerte der beiden Randverteilungen E(X) und E(Y):

∑∑∑ ====

•i j

jii

k

iiix yxfxpxXE ),()(

1

μ

∑ ∑∑=

• ===l

j i jjijjjy yxfypyYE

1),()( μ im diskreten Fall

∫∞

∞−

== dxxxfXE x )()( μ

∫∞

∞−

== dyyyfYE y )()( μ im stetigen Fall



13

2. Varianzen Die Streuung entlang der x-Achse wird durch die Varianz der Randverteilung von X gemessen:

∑=

•−==k

iixix pxXV

1

22 )()( μσ im diskreten Fall

∫∞

∞−

−== dxxfxXV xx )()()( 22 μσ im stetigen Fall

Entsprechend wird die Streuung entlang der y-Achse durch die Streuung der Randver-teilung Y gemessen:

∑=

•−==l

jjyjy pyXV

1

22 )()( μσ im diskreten Fall

∫∞

∞−

−== dyyfyXV yy )()()( 22 μσ im stetigen Fall



14

3. Kovarianz Obige Erwartungswerte und Varianzen charakterisieren nur die einzelnen Komponenten einer Verteilung für sich genommen, denn sie rekurrieren nur auf die Randverteilungen. Sie geben keine Information über den Zusammenhang zwischen X und Y. Man benötigt ein Maß, das die Tendenz angibt, mit der die Werte der ZV Y sich verändern, wenn die Werte der ZV X sich ändern und umgekehrt. Eine Maßzahl für den stochastischen Zusammenhang ist die Kovarianz:

∑∑ ⋅−−=i j

jiyjxi yxfyxYXCov ),())((),( μμ im diskreten Fall

∫ ∫∞

∞−

∞

∞−

−−= dxdyyxfyxYXCov yx ),())((),( μμ im stetigen Fall

Aus der Unabhängigkeit von Zufallsvariablen folgt das Verschwinden der Kovarianz (Cov(X,Y) = 0), Umkehrschluss ist nicht möglich.



15

4. Korrelationskoeffizient Korrelationskoeffizient zwischen X und Y gibt Richtung und Stärke des linearen stochastischen Zusammenhangs zwischen X und Y an. Korrelationskoeffizient ist definiert als der Quotient aus der Kovarianz und den beiden Standardabweichungen von X und Y:

yx

xy

YVXVYXCovYX

σσσ

ρ⋅

=⋅

=)()(

),(),(

Korrelationskoeffizient ist ein normiertes Maß und liegt stets zwischen -1 und +1.



16

5.5. Regressionsanalyse Regressionsrechnung der deskriptiven Statistik ist von der Regressionsanalyse der schließenden Statistik sorgfältig zu unterscheiden. In der deskriptiven Statistik sollte die Regressionsgerade y = a + bx rein statistisch beschreibend interpretiert werden und sich nur auf den aktuell vorliegenden Datensatz beziehen. Eine Aussage über einen fachwissenschaftlich begründeten Zusammenhang zwischen zwei Variablen X und Y, der auch eine allgemeine Gültigkeit besitzen würde, sollte damit nicht verbunden werden. Dies bleibt der Regressionsanalyse als Instrument der schließenden Statistik vorbehalten. Sie betrachtet die Beobachtungswerte (xi; yj) als eine Stichprobe aus einer Grund-gesamtheit. Die Aufgabe der Regressionsanalyse ist es, anhand von dieser Stichprobe einen eventuellen Zusammenhang aufzuspüren, zu quantifizieren (d.h. zu schätzen) oder zu verwerfen (d.h. zu testen).



17

Das einfache lineare Regressionsmodell 1. Schritt: Spezifikation der Variablen, die miteinander in ursächlicher Beziehung

stehen.

Y = f(X) (d.h. eine Variable X beeinflusst eine andere Variable Y). 2. Schritt: Festlegung der Funktionsform. Die einfachste Form ist die lineare, ausge-

drückt durch folgende Geradengleichung: Y(X) = α + βX (ökonomische Gleichung) Beispiele:

(1) Konsumfunktion von Keynes: C = α + βYverf (Der Gesamtwirtschaftliche Konsum C sei eine Funktion des verfügbaren Einkommens Yverf).

(2) Kostenfunktion: K(X) = α + βX (Die Produktionskosten K eines bestimmten Gutes seien eine lineare Funktion der Ausbringungsmenge X).



18

Um auch den anderen Einflüssen auf die Variable Y Rechnung zu tragen, modifiziert der ökonometrische Modellansatz den ökonomischen und fügt eine Störvariable U hinzu:

Y(X) = α + βX + U (ökonometrische Gleichung)

Für die Stichprobe schreibt man: yi = α + βxi + ui für i = 1, 2, …, n. yi: endogene Variable (Regressand) xi: exogene Variable (Regressor) ui: latente Variable (Störvariable), ui ist eine Zufallsvariable, dadurch erhält das Modell seine stochastische Komponente: die strenge Abhängigkeit Y von X wird durch eine stochastische Störung überlagert. α und β sind Modellparameter oder Koeffizienten. Das sind „die wahren Werte“, die unbekannt sind und unbekannt bleiben. Ihre Zahlenwerte können nur geschätzt werden, was die Hauptaufgabe der Regressionsanalyse darstellt.

βα ˆˆ und nennt man Schätzer oder Schätzparameter.



19

Schätzmethode der kleinsten Quadrate Das Ziel der Schätzung besteht darin, eine Schätzgerade zu finden, die der wahren (un-bekannten) Regressionsgeraden möglichst nahe kommt. Drei verschiedene y-Werte sind dabei zu unterscheiden: Beobachtungswerte: iii uxy ++= βα Theoretische Werte: xyi βα +=~ (liegen auf der unbekannten Modellgeraden) Schätzwerte: ii xy βα ˆˆˆ += (liegen auf der geschätzten Geraden) Abweichungen der Schätzwerte von den Beobachtungswerten heißen Residuen: iii yye ˆ−=



20

Mit der Methode der kleinsten Quadrate wird die Schätzgerade so bestimmt, dass die Summe der quadrierten Residuen minimal wird:

∑ ∑ ∑=

−−=−==T

tiiiii xyyyeSQR

1

222 )ˆˆ()ˆ( βα

Man bildet die partiellen Ableitungen von SQR und setzt sie gleich Null:

⎪⎪⎩

⎪⎪⎨

⎧

=−−−=∂∂

=−−−=∂∂

∑

∑

0))(ˆˆ(2)ˆ,ˆ(ˆ

0)1)(ˆˆ(2)ˆ,ˆ(ˆ

iii

ii

xxySQR

xySQR

βαβαβ

βαβαα

Mit diesem Gleichungssystem (Normalgleichungen) können die beiden Schätzparameter bestimmt werden.



21

Für die unbekannten Schätzparameter erhält man die Schätzformeln:

)(),(ˆ

XVarYXCov

=β

xy βα ˆˆ −= Konfidenzintervalle Oft wird man sich jedoch in der Regressionsanalyse nicht mit Punktschätzungen der Parameter zufrieden geben. Man berechnet die Konfidenzintervalle für β :

ασββσβ −=+≤≤− 1)ˆˆˆˆ( ttKONF

)ˆ(ˆˆ βσ V= , t ist aus der Tafel der t-Verteilung mit n-k-1 Freiheitsgraden zu entnehmen, mit α = Irrtumswahrscheinlichkeit.

Documents

5. Mehrdimensionale Zufallsvariablen · Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007 3 5.1