View
105
Download
0
Category
Preview:
Citation preview
Multivariate Statistische VerfahrenKorrespondenzanalyse
Universität Mainz Institut für Psychologie
WS 2010/2011
Uwe Mortensen
Einführung I
Es werden Kontingenztabellen betrachtet: die Abhängigkeiten zwischen Zeilen- und Spaltenkategorien werden zunächst durch einen Chi-Quadrat-Wert repräsentiert. Ist er signifikant,geht man davon aus, dass Abhängigkeiten existieren, andernfalls behält man die Nullhypothese (es existieren keine Abhängigkeiten) bei.
Westphal (1931) in „Der Nervenarzt“:
Einführung II
Ernst Kretschmer (1888 – 1964):
„Körperbau und Charakter“ (1921)
1. Leptosom (dünn, hager) – schizothym – schizoid – schiziphren2. Pyknisch (rund und mollig) – zyklothym – zykloid – manisch-depressiv3. Athletisch (kräfig, muskulär) – barykinetisch – epileptoid - epileptisch
Widerspricht Westphals Tabelle der Kretschmerschen Theorie?
Ein signifikanter Chi-Quadrat-Wert gibt auf diese Frage keine Antwort;Die Häufigkeiten scheinen nicht auf Kretschmers Theorie zu weisen, und ein signifikanter Chi-Quadrat-Wert sagt nur, dass wahrscheinlich Abhängigkeiten zwischen Körperbau und „Charakter“ bestehen.
Einführung III
Intuitive Betrachtung: sollte Kretschmers Theorie mit den Daten kompatibel sein, so müssen Skalen für den Körperbau existieren, auf denen sich die Körperbautypen nach Maßgabe ihrer „Ähnlichkeit“ anordnen lassen, und analog dazu Skalen, nach denen sich die Erkrankungen nach Maßgabe ihrer Ähnlichkeiten anordnen lassen.
Weiter muß zwischen den beiden Skalenklassen eine Beziehung bestehen derart, dass die die Beziehungen zwischen Körperbau und Erkrankung abgebildet werden.
Die Beziehung zwischen den Kategorien Körperbau und Art der Erkrankung wird nicht perfekt sein: Die Existenz von Mischtypen wirkt wie „Rauschen“
Aber kann eine Beziehung der Form
f(Erkrankung) = g(Körperbau) + zuf. Fehler
überhaupt angenommen werden, wenn man Häufigkeiten erklären will?(f und g numerische Werte = Skalenwerte)
Einführung IV
1 1 2 2
1
1
Ein zur Faktorenanalyse analoger Ansatz wäre
,
wobei die , , Skalenwerte der i-ten Zeilenkategorie,
die , , Skalenwerte der j-ten Spaltenkategorie sind
und ei
ij i j i j ir jr ij
i ir
j jr
ij
n a b a b a b e
a a
b b
e
n zufälliger Fehler ist.
1 1 2 2
Das Problem mit dem Ansatz:
,
(i) ist auf einen bestimmten Bereich von Werten beschränkt
(0 1)
(ii) die Verteilung der ist nicht von der Form
ij i j i j ir jr ij
ij
ij
ij
n a b a b a b e
n
n
Nn
Konstante + zufällige Variable!
Beispiel: Binomialverteilung
!( ) (1 )
!( )!
eine Konstante, eine zufällige Veränderliche!
k n knP X k p p
k n k
Also:1. Beziehungen zwischen Häufigkeiten in einer Kontingenztabelle durch
latente Variablen derart, dass2. Das Chi-Quadrat der Tabelle durch latente Variablen erklärt wird!
Distanzen zwischen Zeilen- bzw. Spaltenkategorien
Häufigkeitsverteilungen für die Körperbautypen
Profile für die Körperbautypen: Häufigkeiten, geteilt durch Randsummen
Die absolute Häufigkeit, mit der ein Körperbautyp vorkommt, wirkt verzerrend auf die Wahrnehmung der Unterschiedlichkeit der Verteilungen
Elemente der Profile entsprechen bedingten Wahrscheinlichkeiten. Relativierung in Bezug auf Randsummen wirkt entzerrend auf Darstellung der Unterschiede.
Definition von Profilen
1 21
, , , , J
ii i iJ i ij i
j
nn n n n n r
N
1 21
, , , , I
jj j Ij j ij j
i
nn n n n n c
N
1 1
, I J
ijij ij ij
i j
nn p N n
N
ii
nr
N
jj
nc
N
1 2 1 2Zeilenprofile: ( , , , ) ( , , , )i i iJ i i iJ
i i i i i i
p p p n n n
r r r n n n
1 2 1 2Spaltenprofile: ( , , , ) ( , , , )j j Ij j j jI
j j j j j j
p p p n n n
c c c n n n
Zeilen‘‘masse‘‘
Spalten“masse“
Distanzen zwischen Zeilenkategorien
1 2
Erster Ansatz:
Betrachte Zeilenprofile ( , , , ) als Vektoren: i i iJ
i i i
p p p
r r r
1/22
1
Endpunkte repräsentieren die Zeilenkategorien, Distanz zwischen
den Kategorien =Euklidische Distanz zwischen den Punkten:
Jij kj
ikj i k
p p
r r
1. Vorteil dieser Definition der Kategoriendistanz: unmittelbar einsichtig.2. Nachteil der Definition: läßt sich nicht gut mit dem Chi-Quadrat in
Verbindung bringen, keine Verteilungsäquivalenz (wird gleich erklärt)
Chi-Quadrat-Distanzen (zwischen Zeilenkategorien)
1/22
2
1
1 heißt -Distanz
zwischen den Zeilenkategorien und .
Jij kj
ikj j i k
i k
p p
c r r
R R
Unterschied zur Euklidischen Distanz zwischen den Kategorien:
1 1Gewichtung der Summanden mit bzw. .
j ic r
1/22
2
1
1 heißt -Distanz
zwischen den Spaltenkategorien und .
Iij kj
jli i j l
j l
p p
r c c
C C
Die Chi-Quadrat-Distanzen definieren eine „Chi-Quadrat-Metrik“
Verteilungsäquivalenz
Fasst man Zeilenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Distanzen zwischen den Spaltenkategorien nicht.
Fasst man Spaltenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Verteilungen zwischen den Zeilenkategorien nicht.
Der Ausdruck „Chi-Quadrat-Distanz“ ist ein wenig irreführend, weil keine direkte Beziehung zum Chi-Quadrat besteht; die folgenden Betrachtungen zeigen aber eine indirekte Beziehung auf.
Ansatz I
2
22
1 1
Das einer Tabelle ist durch
( ),
definiert.
I J ijij i jij
i j ij
n n n nn
Nn
repräsentiert Abhängigkeit zwischen i-ter Zeilen- und j-ter Spaltenkategorie!
(Der "zufällige" Anteil wird von subtrahiert etc)
ijijij
ij
ij ij
n nx
n
n n
0 reelle, positive Zahl,
nach oben nicht begrenzt ( für 0)
ijijij
ij
ijij
n nx
n
x n
Ansatz II
1/2 '
Eine Singularwertzerlegung der Matrix ( ) ist stets möglich:
die Anzahl der latenten Variablen.
ij
r r r
X x
X Q P
r
1/2111 12 111 12 1
1/221 22 221 22 2 1/2 2
1 21 2
0 0
0 0, ,
rr
rrr r
J J JrI I Ir
p p pq q q
p p pq q qQ P
p p pq q q
1/2
0 0 r
Ansatz III
1/2 ' ist eine Hauptachsentransformation, -
die erste Achse hat maximale Varianz, die zweite hat die 2-größte, etcr r rX Q P
Die latenten Variablen sind unabhängig voneinander und erzeugen
deshalb unabhängige Varianzkomponenten, die additiv die Gesamtvarianz
ergeben.
2
2
Eine Kontingenztabelle wird aber durch ein charakterisiert,
- kann man die latenten Variablen so skalieren, dass sie voneinander
unabhängige -Komponenten repräsentieren?
Zeilenskalenwerte:
Spaltenskalenwerte:
kik ik
i
kjk jk
j
f qn
g pn
Ja!
Ansatz III
Zusammenfassung:
Das Chi-Quadrat kann in voneinander unabhängige, additive Komponenten zerlegt werden
Die Komponenten werden so bestimmt, dass sie voneinander unabhängigen Urteilsdimensionen etc entsprechen.
Dazu werden die Residuen einer Singularwertzerlegung unterzogen:(i) Komponenten für die Zeilenkategorien, (ii) Komponenten für die Spaltenkategorien. Die beiden Klassen von Komponenten beziehen sich auf die gleichen latenten Variablen!
Die SVD-Koordinaten für die Kategorien werden so skaliert, dass die euklidischen Distanzen zwischen den Punkten (Zeilenpunkte einerseits, Spaltenpunkte andererseits) den Chi-Quadrat-Distanzen zwischen den Kategorien entsprechen.
Die Distanzen zwischen Zeilen- und Spaltenpunkten sind nicht erklärt; die Ähnlichkeit wird über das Skalarprodukt ausgedrückt.
Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc
Testtheorie und (0, 1)-Items (Aufgaben: gelöst- nicht gelöst, Meinungsitem: zugestimmt – nicht zugestimmt, etc
Problem: Anwendung der Faktorenanalyse bzw PCA auf (0, 1)-Daten führt oft zu Pseudorepäsentationen der unterliegenden latenten Variablen: Der Produkt-Moment-Korrelationskoeffizient wird zum Phi-Koeffizienten mit der Implikation, dass unterschiedliche Schwierigkeiten semantische Faktoren vortäuschen. Die Faktorenanalyse von (0, 1)-Daten ist äußerst problematisch.
Die multiple Korrespondenztheorie liefert einen Ausweg:
Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc
Items
Personen
Antwortkategorien
Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc
Aus der Indikatormatrix oder –tabelle entsteht eine Kontingenztabelle, die aus Teilkontingenztabellen aufgebaut ist: jedes Item mit jedem, jede Angtwortkategorie mit jeder. Das Resultat ist eine Burt-Matrix (nach Sir Cyril Burt, 1950)
Beispiel (Burt, 1950)
Items
Items
Antwortkategorien
Haar
Augen
Kopf
Statur
Korrespondenz der Klassifikationen auf OCT-Basis (RMG) und auf histologischer Basis.
leichtere
schwerere
Form
Entzündung(kein Krebs)
(OCT = Optical Coherence Tomography)
0 = keine Erkrankung, CIN 21 Krebs, leichte Form, CIN 22 Krebs, etwas schwerere Form, CIN 23 Krebs, schwerere Form, CIN 10 kein Krebs, Entzündung
Identifikation vonEmotionen imGesichtsausdruck
Happiness Nohappiness
AngerDisgust
Fear
Surprise
Beispiel I
Beispiel II
Marascuilo & McMcSweeny (1977):
500 Männer verschiedenen Glaubens wurden nach ihrer Meinung zurAbtreibung befragt:
Beispiel III
Genetische Untersuchungen: Haar- und Augenfarbe schottischer Kinder(Tocher 1908, Maung 1941)
Beispiel V Ansichten zur Behandlung von Strafgefangenen in den USA
Beispiel VI Trends in Studienfächern (USA)
Beispiel VI Trends in Studienfächern – Doktorgrade (USA)
Beispiel VI Trends in Studienfächern – Doktorgrade (USA)
Beispiel VII Selbstmorde in Deutschland 1974 - 1977
Beispiel VII Selbstmorde in Deutschland 1974 - 1977
Beispiel VII Selbstmorde in Deutschland 1974 - 1977
Altergruppe und Methode – nach Geschlechtern getrennt
Beispiel VII Selbstmorde in Deutschland 1974 - 1977
Danke für Ihre Aufmerksamkeit!
Recommended