14
Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Embed Size (px)

Citation preview

Page 1: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

Multivariate Analysemethoden

Günter MeinhardtJohannes Gutenberg Universität Mainz

Multivariate Distanz – Multivariate Normalverteilung

Page 2: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

Kreis Iso-Distanz-Konturen in 2DKreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischenAbstand c zum Kreismittelpunkt

Iso-Distanz Konturen in 2D

2 2 2 2 2c x y c x y

x

yc

• Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimen- sionalen Raum (p = 2).

• Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

Page 3: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

Ellipse:Skalierung

Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt

2 22 x yc

a b

x

y

x yu v

a b

0x c a

0y c b

Standardskala:

u

v 2 2 2c u v

Iso-Distanz Konturen in 2D

Page 4: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

EllipseTranslation

Translation zum Punkt (x0,y0) ändert an dieser Eigenschaft nichts:

2 22 0 0x x y yc

a b

0 0x x y yu v

a b

x

u

v 2 2 2c u v

0 0( , )x y y

Standard-Transformation

Standardskala:

Iso-Distanz Konturen in 2D

Page 5: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

Standard-EllipseNeigungKorrelation

Die Invarianz der Distanz im neuen Koordinatensystem mit geneigtenAchsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt:

x

Mit der Transformation

1r

y

2r

2u

erfüllen alle Ellipsenpunkte:2 2 2c u v

KoordinatenKorrelierte Achsen

u

v

2 2 2 2c x y xy cos

[Tafel: cos ]

1u

1 2u uu v

a b

2 2 2c u v

2r

1r

Iso-Distanz Konturen in 2D

Page 6: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

Standard-Ellipse:Zeichen-Routine

Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen.Man geht über zur Darstellung in Polarkoordinaten.

x

Es gelten die Transformationen:

cos

sin

x r

y r

ry

Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels ) umgeschrieben werden

2 2 2

1tan

r x y

y

x

2 2 2 2c x y xy

, ,r x y r

x

yr

kartesisch polar

kartesisch polar

kartesischpolar

Iso-Distanz Konturen in 2D

Page 7: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

Standard-Ellipse:Zeichen-Routine

Von der Darstellung in Polarkoordinaten kann einfach in kartesischeKoordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte)

x

yq

x

ry

2 2 2 2c x y xy

x

yr

Setze

damit 2 2 21 2c x q q

2 2 21r x y x q

21 2

cx

q q

1. Variiere von – bis (= ein Kreisumlauf).

2. Für jeden Winkel berechne q = tan-

1().3. Berechne dannx4. Berechne damit r.

5. Berechne dann x,y:

cos

sin

x r

y r

Verfahren

[Excel-Sheet]

Iso-Distanz Konturen in 2D

Page 8: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

1 D-Normal Verteilung

Die Funktion 2

1

2

x

f x e

xz

Multivariate Normalverteilung

hat Fläche 2

Die auf die Fläche 1 normierte Funktion

2

1

21

2

x

f x e

heißt Normalverteilung (Gauss-Verteilung).Mit ihr sind Wahrscheinlichkeiten als Flächen-Anteile für z - Standardvariablen definierbar.

21

21

2

zf z e

(Standard-NV)

68.26%

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

-3 -2 -1 1 2 3 z

0.1

0.2

0.3

0.4f(z)

95.5%

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

z

f(z)

[Kurzübung]

Page 9: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

p-variater Fall

Man bemerke daß 2

22

1xz x x

1

2

p

x

xx

x

Mahalanobisdistanz

Man habe nun nicht eine, sondern p Variablen:

(jeder Messpunkt ist ein p- dimensionaler Vektorund der Zentroid ist einp- dimensionaler Vektor)

ist.

mit Zentroid

1

2

p

Dann definiert

2 1tx x Σ

mit die Inverse der Varianz-Kovarianz Matrix .

die verallgemeinerte quadrierte Distanz im multivariaten Raum.Sie heißt quadrierte Mahalanobis-Distanz.

[Excel-Beispiel 2D]

Mahalanobis-Distanz

3

2x

1

1

1 0.5

0.5 1

Σ 2 4

Page 10: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

p D-Normal Verteilung

Die Funktion 11

2t

x xf x e

Σ

Multivariate Normalverteilung

hat Volumen 1/ 2/ 22

p Σ

Die auf Volumen 1 normierte Funktion

11

21/ 2/ 2

1

2

tx x

pf x e

Σ

Σ

heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines p-dimensionalen Ellipsoids definiert.

Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung:

2 1 2t

px x Σ

mit einem zu setzenden alpha-Fehler Niveau.

Alle Mahalanobisdistanzen , die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1- in der multivariaten Normalverteilung.

Page 11: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

2 D-Normal Verteilung

Multivariate Normalverteilung

Die multivariate Normalverteilung mit p = 2 Variablen (bivariate Normalverteilung) hat die Form

2 2

1 1 2 2 1 1 2 22

1 2 1 2

12

2 1

1 22 2 21 2

1,

2 1

x x x x

f x x e

Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c:

2 2 1

2 2

1 1 2 2 1 1 2 22

1 2 1 2

12

1

tc x x

x x x x

Σ

[Tafelbetrachtung]

Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie)

Page 12: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

2 D-Normal Verteilung

Multivariate Normalverteilung

Bivariate Normalverteilung mit p = 2 Variablen und Korrelation r = 0.6

[Excel-Übung]Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß(quadrierte Mahalanobis-Distanz)

-2 -1 1 2

-2

-1

1

2

-2

0

2-2

0

2

00.050.1

0.150.2

-2

0

2x1

x2

1 2,f x x

Density-Plot

Contour-Plot

x1

x2

2 22 0.05 5.99

2 22 0.25 2.77

0

0

2 22 0.75 0.57

2 22 0.5 1.38

P=0.25

P=0.5

P=0.75

P=0.95

Page 13: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

NV-2D-Ellipse:Zeichen-Routine

Iso-Distanz Konturen in 2D

Und es gilt:

a)

2 2

22

1 2 1 2

12

1

x qx x qxc

2 2 21 2 1r x x x q

läuft von – bis (= ein Kreisumlauf)

3. Berechne dann

1 1

2 2

cos

sin

x r

x r

Verfahren

[Excel-Sheet]

1x

r

2x

x

2xr

1

2

2 2

2 1 1 2 2 1 1 2 22

1 2 1 2

12

1

x x x xc

(NV-Ellipse)

yq

xSetze 1 20, 0 und temporär

22 2

2 2 21 2 1 2

1 12

1

q qc x

2

2 2 21 2 1 2

1 12

1

cx

q q

b) c)

Page 14: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung

Methoden derPsychologie

p D-Normal Verteilung

Multivariate Normalverteilung

Die Ellipsen der Form

2 1 2t

pc x x Σ

Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somitdie Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung

sind zentriert inund haben Hauptachsen i ic e

mit Eigenwertbedingung

i ie eΣ

1x

2x

1c

2c

Länge =

Länge =1

2

Beispiel 2D