22
Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten Normalverteilung

Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Embed Size (px)

Citation preview

Page 1: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Multivariate Analysemethoden

Günter MeinhardtJohannes Gutenberg Universität Mainz

q-q-Plot Methode zur Prüfung der Multivariaten Normalverteilung

Page 2: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Verteilungsanpassung/Prüfung

• Effiziente Tests: Die NV- Annahme ist mit effektiven Methoden und trennscharfen Test zu prüfen, um ihre Gültigkeit sicherzustellen

Prüfung der Verteilungs-annahme

• Korrekturen und Datentransformationen: Ist die NV- Annahme auf den originalen Skalen verletzt, können Skalentransformationen für die einzelnen Variablen des Variablen- verbundes gefunden werden, mit denen die multivariate Normalver- auf den transformierten Skalen gilt.

Prüfung der NV-Annahme Klassifikation

• Ausreißeranalyse: Vor der Schätzung der Parameter (,) für die multivariate NV- wird eine Analyse der Rohdaten auf Ausreißer vorgenommen.

Page 3: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Die allgemeine Form des Chi – Quadrat für Häufigkeiten ist:

Univariate Tests (1D) Klassifikation

• Dieses Schema wird flexibel auf die jeweilige Fragestellung angewendet.

• Die Frage ist, nach welchem Kriterium sich die erwarteten Häufigkeiten ergeben. Das einfache hat k-1 Freiheitsgrade, die zugehörige Wahrscheinlichkeitsverteilung ist die Verteilung.

• Für den Test der Anpassung an die Normalverteilung werden die erwarteten Häufigkeiten aus den Wahrscheinlichkeiten der Quantil- Intervalle der Normalverteilung berechnet.

- Test aufGüte der Passung

: beobachtete Häufigkeit

: erwartete Häufigkeiti

i

o

e

2

2

1

ki i

i i

o e

e

Page 4: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Univariate Tests (1D) Klassifikation

- Test aufGüte der Passung

Nr.

Intervall

jh

(absolut) jp

(relativ)

ˆ jp

(erwartet) je

(erwartet) j jh e

(Differenz) 2

j j

j

h e

e

1x x h1 p1 1F x F e1 h1-e1

1 2x x x h2 p2 2 1F x F x e2 h2-e2

j

1k kx x x hk pk 1k kF x F x ek hk-ek

N 1 1 N 2

• Die erwarteten relativen Häufigkeiten berechnet man aus der Differenz der Werte der Verteilungsfunktion für die exakten Intervallgrenzen.

• Die erwarteten Häufigkeiten ergeben sich durch Multiplikation mit der Anzahl der Beobachtungen N.

• Test mit progressivem alpha-Niveau, da man an der Absicherung für die Beibehaltung der H0 interessiert ist ( = mind. 10%).

Univariate Normalverteilung

Page 5: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Univariate Tests (1D) Klassifikation

- Test aufGüte der Passung

Univariate Normalverteilung

Beobachtet: oi

100 300 500 700 90011001300

1000

2000

3000

4000

h(x)

x

erwartet als Normalverteilung: ei

1000

2000

3000

4000

h(x)

x

Vergleich:

1000

2000

3000

4000

h(x)

100 300 500 700 90011001300

100 300 500 700 900 11001300 x

Page 6: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

• Tests sind nicht sehr trennscharf und brauchen ein hohes N

• Sie hängen von der Anzahl der Intervalle (Freiheitsgrade) ab

• Sie können nur für die univariaten Verteilungen der einzelnen Meßvariablen durchgeführt werden (- Ausreisser durch spezielle Wertekombinationen in der multivariaten Verteilung können nicht aufgedeckt werden)

Tests der NV- Annahme

• Effektive Methoden: Methoden, die die Quantile der erwarteten und tatsächlichen Distanzen vom Zentroid verwenden, können univariat und multivariat verwendet werden

• Effiziente Tests: Die Testung der Gleichheit von erwarteten und tatsächlichen Quantilen beruht auf einer trennscharfen Testung des Korrelationskoeffizienten (uni-und multivariat).

Alternative:Q-Q Plot Methodenund Korrelations-Tests

Prüfung der NV-Annahme Klassifikation

- Tests

Nachteile von

Page 7: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

• Ausreißer sind heikel zu bestimmen, bei kleinen Stichproben N < 30 gibt es keine zuverlässigen Methoden

• Bei N > 30 legt man die Quantile der Normalverteilung zugrunde und eliminiert die Werte, die jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein.

Identifikation von Ausreißern

Test der NV-Annahme (univariat) Klassifikation

Data Clearing

max

0.5 0.5 1, 1, , 1

2i

i Np i N p

N N N

1 1max maxe iq F p F p z

Ausreißer: maxiz z

p 0.02 0.05 0.08 0.12 0.15 0.18 0.22 0.25 0.28 0.32 0.35 0.38 0.42 0.45 0.48 0.52 0.55 0.58 0.62 0.65 0.68 0.72 0.75 0.78 0.82 0.85 0.88 0.92 0.95 0.98qe -2.13 -1.64 -1.38 -1.19 -1.04 -0.90 -0.78 -0.67 -0.57 -0.48 -0.39 -0.30 -0.21 -0.13 -0.04 0.04 0.13 0.21 0.30 0.39 0.48 0.57 0.67 0.78 0.90 1.04 1.19 1.38 1.64 2.13x 1.00 1.11 1.18 1.21 1.24 1.25 1.27 1.29 1.31 1.36 1.38 1.39 1.41 1.42 1.44 1.49 1.52 1.55 1.56 1.60 1.60 1.61 1.63 1.65 1.70 1.72 1.82 2.07 2.09 2.41z -1.70 -1.34 -1.10 -0.99 -0.91 -0.86 -0.80 -0.74 -0.66 -0.51 -0.42 -0.40 -0.32 -0.29 -0.24 -0.05 0.03 0.13 0.17 0.29 0.31 0.35 0.40 0.46 0.64 0.70 1.03 1.86 1.94 3.03

Page 8: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

• Nach Ausreißerbereinigung werden den Meßwerten empirische Quantile qo (in z) zugeordnet über die sortierte Reihe der Meßwerte.

• Mit aus den Daten geschätzten Parametern () werden für die Prozentränge erwartete Quantile qe (in z) bestimmt.

• Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen.

• Man bestimmt Anteil der aufgeklärten Varianz und Korrelation.

Test über Quantilskorrelation

Test der NV-Annahme (univariat) Klassifikation

Q-Q Plot Methode

2

22

var( )1 1

var( )

oi eii

oi oi

q qe

y q q

cov ,

var var

o eqq

o e

q qr

q q

• Für den Korrelationskoeffizienten existieren kritische Werte, die bei Unterschreitung zur Ablehnung der NV-Annahme führen (s. Tabelle).

Page 9: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Kritische Q-Q- Korrelationen

Korrelations-Test

Test der NV-Annahme (univariat) Klassifikation

Q-Q Plot Methode

Ist rqq < rcrit(), wird die Annahme der NV auf dem gewählten Level verworfen. sollte progressiv gewählt sein (10%), da man eine Sicherheit für die Beibehaltung wünscht.

0.99600.99530.99353000.99420.99310.99052000.99280.99130.98791500.98950.98730.98221000.98660.98380.9771750.98360.98010.9720600.98220.97870.9695550.98090.97680.9671500.97920.97490.9632450.97710.97260.9599400.97400.96820.9538350.97150.96520.9479300.96650.95910.9410250.96040.95080.9269200.95030.93890.9126150.93510.91980.8801100.90320.87880.829950.100.050.01

Significance level Smple Size N

( )qq critr r

Page 10: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Datenbeispiel

Test der NV-Annahme (univariat) Klassifikation

Q-Q Plot Methode

2

221 0.949

oi eii

oi oi

q q

q q

cov ,.974

var var

o e

o e

q qr

q q

Korrelations-Test

( .1)qq critr r .974 .9715

NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich

-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

expected quantile (qe)

ob

serv

ed q

uan

tile

(q

o)

N = 30

mit 2 Ausreißern

Page 11: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

expected quantile (qe)

ob

serv

ed q

uan

tile

(q

o)

Datenbeispiel

Test der NV-Annahme (univariat) Klassifikation

Q-Q Plot Methode

2

221 0.983

oi eii

oi oi

q q

q q

cov ,.992

var var

o e

o e

q qr

q q

Korrelations-Test

( .1)qq critr r .992 .9715

NV Test und Varianzaufklärung zeigt perfekte der empirischen Quantile an die NV an.

N = 28

ohne Ausreißer

Page 12: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Datenbeispiel

Test der NV-Annahme (univariat) Klassifikation

Q-Q Plot Methode

2

221 0.877

oi eii

oi oi

q q

q q

cov ,.937

var var

o e

o e

q qr

q q

Korrelations-Test

( .1)qq critr r .94 .9715

• NV Annahme ist heikel und sollte abgelehnt werden

• Ausreißerentfernung würde Passung verbessern, aber die Art der Abweichung deutet auf eine systematische Transformation der Quantile

-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

expected quantile (qe)

ob

serv

ed q

uan

tile

(q

o)

N = 29

Nichtlineare Abweichung

Page 13: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

• Unsystematische Ausreißer sollten entfernt werden.

• Bei systematischen Quantilsabweichungen können die Rohdaten einer Potenztransformation unterzogen werden, um eine gute Approximation an die NV zu erreichen.

• Parameterschätzung für (,) der NV sind über die transformierten Daten auszuführen.

Quantils-Transformation zur NV

Test der NV-Annahme (univariat) Klassifikation

Box-Cox-Power-Transformation

1, , für 0

kxg x k k

k

ln var , 1 ln2 i

i

Nl k g x k k x

Die Power-Transformation g(x) liefert mit dem Wert k aus der Maximierung von l(k) die beste Annäherung an die NV

maximiert nach k

Page 14: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

70.0

71.0

72.0

73.0

74.0

75.0

76.0

77.0

78.0

79.0

80.0

0.0 0.1 0.2 0.3 0.4 0.5 0.6

k

l(k)

Datenbeispiel nichtlineare Abweichung

Test der NV-Annahme (univariat) Klassifikation

Q-Q Plot Methode

OptimalePotenz-Transformation

-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

expected quantile (qe)

ob

serv

ed q

uan

tile

(q

o)

N = 29

Maximierungsfunktion l(k)Q-Q - Plot

Potenztransformation der Originalskala:

0 max 0.35k k l k l k

k0

0 0.35

0

1 1,

0.35

kx xg x k

k

Erneuter Q-Q Test

Page 15: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

expected quantile (qe)

ob

serv

ed q

uan

tile

(q

o)

Datenbeispiel nichtlineare Abweichung

Test der NV-Annahme (univariat) Klassifikation

Q-Q Plot Methode

OptimalePotenz-Transformation

-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

expected quantile (qe)

ob

serv

ed q

uan

tile

(q

o)

2 = .877r = .937

Q-Q – Plot original

,g x k berechnen

Q-Q – Plot nach Potenztransformation

2 = .986r = .993

z- transformieren

Q-Q plotten

Potenztransformation bringt fast perfekte Passung der NV

( .1)qq critr r .993 .9715

Page 16: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

• Auch im multivariaten Fall sind Ausreißer in kleinen Stichproben nicht zuverlässig bestimmbar,

• Bei N > 30 legt man die Quantile der multivariaten Normalverteilung zugrunde () und eliminiert die Beobachtungen, dessen quadrierte Mahalanobis-Distanzen jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein.

Identifikation von Ausreißern

Test der NV-Annahme (multivariat) Klassifikation

Data Clearingp-dimensions

max

0.5 0.5 1, 1, , 1

2i

i Np i N p

N N N

2 2 2max maxe p i pq p p

Ausreißer:

2 2maxp p

17.4312.6910.247.886.55.675.395.235.164.734.133.623.523.12.792.672.632.462.321.541.521.451.411.120.820.790.620.480.132

12.099.498.247.396.746.225.775.395.044.734.444.173.923.693.463.253.052.852.662.472.292.11.921.741.561.371.170.950.710.392

0.980.950.920.880.850.820.780.750.720.680.650.620.580.550.520.480.450.420.380.350.320.280.250.220.180.150.120.080.050.02p

[Excel-Beispiel q-q-Plot]

Page 17: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

• Nach Ausreißerbereinigung werden den Meßvektoren empirische Quantile qo zugeordnet über die Reihe der Meßwerte sortiert nach Mahalanobisdistanz.

• Mit aus den Daten geschätzten Parametern () werden für die linearen Prozentränge erwartete Quantile qe aus der - Verteilung bestimmt.

• Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen.

• Man bestimmt Anteil der aufgeklärten Varianz und Korrelation.

Test über Quantilskorrelation

Test der NV-Annahme (multivariat) Klassifikation

Q-Q Plot Methodemultivariat

22 2 2

22 2

2 21 1

oi ei i p ii i

oi o ii i

q q p

q q

cov ,

var var

o eqq

o e

q qr

q q

• Für den Test des Korrelationskoeffizienten verfährt man exakt wie im univariaten Fall.

Page 18: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

0.0

2.5

5.0

7.5

10.0

12.5

15.0

17.5

0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5

expected quantile (qe)

ob

serv

ed q

uan

tile

(q

o)

Datenbeispiel (p = 4 Variablen)

Test der NV-Annahme (multivariat) Klassifikation

Q-Q Plot Methode

2

221 0.889

oi eii

oi oi

q q

q q

cov ,.979

var var

o e

o e

q qr

q q

Korrelations-Test

( .1)qq critr r .979 .9715

• NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich, auch in den unteren Quantilen

• Die beiden größten Ausreißer erfüllen das Kriterium, aber der 3. höchste Wert ist ebenfalls suspekt (hoher Intervallabstand)

N = 30p = 4

mit 3 Ausreißern

2p ip

2i

Page 19: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

0.0

2.5

5.0

7.5

10.0

12.5

15.0

0.0 2.5 5.0 7.5 10.0 12.5 15.0

expected quantile (qe)

ob

serv

ed q

uan

tile

(q

o)

Datenbeispiel (p = 4 Variablen)

Test der NV-Annahme (multivariat) Klassifikation

Q-Q Plot Methode

2

221 0.984

oi eii

oi oi

q q

q q

cov ,.992

var var

o e

o e

q qr

q q

Korrelations-Test

NV Test zeigt nach Entfernung der höchsten 3 Werte (nicht nur 2) nun eine gute Passung der multivariaten NV

N = 27p = 4

ohne 3 Ausreißer

2p ip

2i

( .1)qq critr r .992 .9715

Page 20: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Allgemeines zur Verteilungskorrektur

Test der NV-Annahme (multivariat) Klassifikation

Ausreisser-Kontrolle

Transformationen

• Ausreißerbereinigung sollte immer multivariat erfolgen, da ein Ausreisser in einer einzelnen Variable noch nicht einen Ausreißer im Variablenverbund definiert.

• Das Entfernen extremer Beobachtungen ändert die Korrelationsmatrix, daher können iterative Bereinigungen nötig werden.Skalentransformationen

• Skalentransformationen können nur univariat erfolgen. (Keine Methode definiert eine Transformation für den Variablenverbund)

• Es ist ratsam eine univariate Untersuchung systematischer Verteilungsabweichungen nach der multivariaten Ausreißerkontrolle durchzuführen, und die einzelnen Variablen mit geeigneten Potenz- transformationen zu korrigieren.

• Sind die Randverteilungen (univariate) alle normal, so wird auch die multivariate Verteilung normalverteilt sein.

Page 21: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Ausreißer alsDistanz vom Zentroid

Ausreisser in 2D Klassifikation

Ausreisser in 2D: einer univariat & multivariat und einer multivariat

x1

x2

univariat & multiv.

multivariat aber nichtunivariat

Zentroid

Page 22: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Methoden derPsychologie

Ausreißer alsDistanz vom Zentroid

Ausreisser in 2D Klassifikation

Ausreisser in 4D: einer uni+multi und zwei multivariat

uni+multivariat

multivariat

2.67-1.39-0.99-1.17-1.306.501.601.861.761.313.10-0.40-0.32-0.24-0.792.460.340.640.470.823.52-0.81-0.91-1.08-0.564.73-0.60-0.51-0.82-0.162.630.980.460.370.480.82-0.66-0.74-0.76-0.855.23-0.78-0.29-0.43-0.02

10.241.220.131.401.161.52-0.25-0.66-0.50-0.571.410.090.31-0.37-0.244.13-1.31-0.86-1.21-1.523.62-1.73-1.70-1.85-1.82

17.43-1.40-1.101.280.151.12-0.03-0.40-0.32-0.150.13-0.15-0.05-0.21-0.122.790.050.290.29-0.210.480.550.400.500.442.00-0.180.03-0.51-0.610.79-0.68-0.42-0.48-0.50

12.692.703.033.333.371.540.470.700.220.625.16-0.17-0.80-0.210.122.30-0.56-0.24-0.12-0.611.450.500.350.530.225.39-0.60-1.34-0.39-0.827.881.571.03-0.160.675.671.491.940.951.560.620.170.17-0.31-0.05D2Z4Z3Z2Z1

multivariat