Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Weiterbildungslehrgang
in angewandter Statistik
2013 / 2014
Repeated Measures
Verlaufskurven und andere wiederholte Messungen
Dr. Hans-Rudolf Roth
ETH Zürich
Seminar für Statistik
Rämistrasse 101, CH-8092 Zürich
Repeated Measures
1 Einführende Beispiele 1
2 Analyse von prägnanten Profil-Eigenschaften
2.1 AUC und verwandte Profil-Eigenschaften 7
2.2 Regressionskoeffizienten von einzelnen Profilen 10
3 Univariate Varianzanalyse (RM ANOVA)
3.1 Compound symmetry und Intra-Class-Korrelation 13
3.2 Das Split-Plot-Modell 14
3.3 Kovarianzstruktur von Messungen mit zeitlicher oder räumlicher Distanz 18
3.4 Wachstumskurven 19
4 Multivariate Varianzanalyse 25
5 Mehrere Behandlungen an derselben Versuchseinheit
5.1 Parallele Anwendung mehrerer Behandlungen 30
5.2 Experimente mit mehreren Behandlungssequenzen 32
5.3 Der AB/BA Wechselversuch 34
6 Einsatz von Programmen für gemischte Modelle
6.1 Kurze Theorie zum linearen gemischten Modell (linear mixed model) 39
6.2 Erneute Auswertung von Beispiel 4 43
7 Schlussbemerkungen
7.1 Argumente gegen den Gruppenvergleich für jeden Zeitpunkt 49
7.2 Kurze Zusammenfassung 50
8 Literatur 51
Repeated Measures Kapitel 1 1
1. Einführende Beispiele
Wiederholte Messungen (Repeated Measures) entstehen, wenn ein bestimmtes Merkmal bei jedem
„Subjekt“ mehrfach erfasst wird. Der technische Begriff „Subjekt“ steht für eine beliebige Beobachtungs-
oder Versuchseinheit. Es kann sich also um ein einzelnes Lebewesen, eine Gruppe von Lebewesen, aber
auch um irgend ein System oder Objekt handeln. Auf wiederholte Messungen stösst man in der Praxis sehr
häufig. Mehrheitlich handelt es sich um zeitlich aufeinanderfolgende Messungen, sogenannte longitudinale
Daten oder Verlaufskurven. Bei der statistischen Auswertung ist zu berücksichtigen, dass alle Werte,
welche zum gleichen Subjekt gehören, eine Abhängigkeitsstruktur aufweisen. Da viele elementare
Methoden der Statistik unabhängige Daten voraussetzen, sind sie für wiederholte Messungen nur
beschränkt brauchbar. Für Situationen mit gepaarten Daten, also mit genau zwei Messungen pro Subjekt,
sind meist Standardverfahren verfügbar. Bonate (2000) gibt dazu eine interessante Zusammenstellung.
Auch bei Hedeker (2006) findet man entsprechende Modelle. Für eine korrekte und adäquate Auswertung
von Situationen mit mehr als zwei Messungen pro Subjekt, sind im allgemeinen spezielle Methoden
erforderlich. Unter Umständen kann aber eine Aggregierung der wiederholten Messungen (vgl. Kapitel 2)
die statistische Auswertung wesentlich vereinfachen.
Wiederholte Messungen werden verwendet:
• Um eine dynamische Entwicklung (z.B. Wachstum, Alterungsprozess, Abklingen eines Behandlungs-
effekts) zu erforschen.
• Um die Reaktion auf wiederholte Verabreichung derselben Behandlung zu erforschen.
• Um die Reaktion auf eine Sequenz von verschiedenen Behandlungen zu erforschen.
• Um die Genauigkeit einer Messmethode zu bestimmen und um Messmethoden zu vergleichen.
• Um den Einfluss des Messortes oder des Messzeitpunktes zu bestimmen.
• Um Behandlungseffekte besser vergleichen zu können, wenn die Variabilität zwischen den
Versuchseinheiten gross ist.
Einige einfache Beispiele sollen das breite Spektrum der „repeated measures designs“ andeuten.
Beispiel 1: Gerinnungszeit von Blutplasma (aus Armitage & Berry, S. 219).
Blut von Behandlung
Person A B C D Mittel
1 8.4 9.4 9.8 12.2 9.95
2 12.8 15.2 12.9 14.4 13.82
3 9.6 9.1 11.2 9.8 9.92
4 9.8 8.8 9.9 12.0 10.12
5 8.4 8.2 8.5 8.5 8.40
6 8.6 9.9 9.8 10.9 9.80
7 8.9 9.0 9.2 10.4 9.38
8 7.9 8.1 8.2 10.0 8.55
Mittel 9.30 9.71 9.94 11.02 9.99
Es handelt sich um einen Vergleich von 4 verschiedenen Behandlungen des Blutplasmas. Gemessen wurde
jeweils die Gerinnungszeit (bis zur Koagulation) in Minuten. Um die Genauigkeit des Versuchs zu steigern,
wurde das Plasma derselben Person aufgeteilt und mehrfach verwendet. Es handelt sich somit um einen
Repeated Measures Kapitel 1 2
vollständig randomisierten Blockversuch, wobei das Plasma derselben Person als Block aufgefasst wird.
Man hofft, die Variabilität der Gerinnungszeiten innerhalb eines Blocks, durch die unterschiedlichen
Behandlungen weitgehend erklären zu können. Die Variabilität zwischen den Blöcken wird durch die
Auswahl der Personen beeinflusst. Ein breites Personen-Spektrum erhöht die Ausagekraft der Resultate, ist
also meist erwünscht.
Die Reihenfolge der Behandlungen in der Grafik ist willkürlich. Um die Herkunft der wiederholten
Messungen zu verdeutlichen, sind die Werte desselben Blutes mit einer Linie verbunden. Auffällig sind die
hohen Werte von Person 2.
******
Beispiel 2:
Zeitbedarf zur Lösung von 4 mathematischen Problemen (aus: E.F. Vonesh and V.M. Chinchilli, S. 111)
Problem Problem
Person 1 2 3 4 Person 1 2 3 4
C 1 43 90 51 67 E 1 10 81 43 33
C 2 87 36 12 14 E 2 58 84 35 43
C 3 18 56 22 68 E 3 26 49 55 84
C 4 34 73 34 87 E 4 18 30 49 44
C 5 81 55 29 54 E 5 13 14 25 45
C 6 45 58 62 44 E 6 12 8 40 48
C 7 16 35 71 37 E 7 9 55 10 30
C 8 43 47 87 27 E 8 31 45 9 66
C 9 22 91 37 78
17 Personen wurden zufällig in 2 Gruppen aufgeteilt. Die Personen der Gruppe E wurden einem
Spezialtraining unterzogen. Die Gruppe C diente als Kontrollgruppe. Zur Überprüfung der Wirksamkeit des
Trainings musste jede Person dieselben 4 mathematischen Probleme lösen, wobei die 4 Probleme jeder
Person in einer individuellen Reihenfolge präsentiert wurden. Zielgrösse ist der Zeitbedarf [min] zur
Lösung eines Problems. Pro Person liegen somit 4 wiederholte Messungen vor.
Repeated Measures Kapitel 1 3
Als neues Element haben wir hier die Gruppierung der Personen. Die Studie sollte allfällige Unterschiede
a) zwischen den Gruppen und b) zwischen den Problemen aufzeigen. Für die Beurteilung von
Unterschieden zwischen den beiden Gruppen ist die Variabilität von Person zu Person massgebend.
******
Beispiel 3:
Hormon-Spiegel im Serum (aus D.G. Altman, S. 427)
Mit dieser Studie sollte abgeklärt werden, wie sich durch nasal verabreichtes Progesteron (ein weibl.
Sexualhormon) die Progesteron-Konzentration im Blutserum verändert. Mehrere Frauen wurden zufällig in
4 Gruppen eingeteilt. In jeder Gruppe wurde eine andere Dosierung gewählt:
• Gruppe 1: 0.2 ml einer 100 mg/ml Progesteron-Lösung in ein Nasenloch
• Gruppe 2: 0.3 ml einer 100 mg/ml Progesteron-Lösung in ein Nasenloch
• Gruppe 3: 0.2 ml einer 200 mg/ml Progesteron-Lösung in ein Nasenloch
• Gruppe 4: 0.2 ml einer 100 mg/ml Progesteron-Lösung in beide Nasenlöcher
Bei jeder Frau waren 10 Messungen [in nmol/l] geplant, wobei die Zeitabstände von Messung zu Messung
verlängert wurden. Wichtig sind hier nicht nur die zeitlichen Veränderungen der Konzentration innerhalb
einer Person, sondern auch allfällige Unterschiede zwischen den Gruppen.
Zeit nach Behandlung (Minuten)
Gruppe Frau 0 1 3 5 10 15 30 45 60 120
1 1 1.0 . 10.0 16.0 22.0 20.0 16.0 . 18.0 14.0
2 6.5 5.7 9.5 11.6 17.5 27.3 28.5 22.4 19.3 10.0
3 3.0 4.0 4.0 13.0 15.8 19.5 21.2 17.9 10.7 13.4
4 1.0 2.1 9.7 . 21.8 . 27.5 . 15.5 6.2
5 1.0 1.0 1.0 4.2 22.6 23.9 45.5 42.6 35.0 10.6
6 1.0 1.0 1.0 1.0 3.9 14.7 17.6 16.1 8.8 10.8
Gruppe C
P1 P2 P3 P4
Problem
0
20
40
60
80
100
Ze
itbe
da
rf
Gruppe E
P1 P2 P3 P4
Problem
0
20
40
60
80
100
Ze
itbe
da
rf
Repeated Measures Kapitel 1 4
Zeit nach Behandlung (Minuten)
Gruppe Frau 0 1 3 5 10 15 30 45 60 120
2 7 1.0 1.5 5.0 11.0 16.0 23.0 15.0 9.0 6.0 5.0
8 1.0 1.0 6.5 20.0 22.5 27.8 19.0 9.0 8.2 8.0
9 1.0 1.0 7.3 7.5 18.0 20.0 18.9 12.8 6.3 4.8
10 3.0 2.5 2.0 2.7 3.4 3.6 14.0 7.3 7.7 4.7
11 8.3 7.5 9.6 11.0 11.5 15.7 15.2 15.8 14.0 11.5
12 6.2 5.9 6.8 7.7 9.0 9.3 12.1 12.2 11.0 9.0
3 13 8.4 10.8 8.1 7.8 8.5 12.0 19.8 22.2 25.2 40.5
14 3.5 3.2 3.4 3.3 8.5 9.4 14.5 12.7 11.5 10.2
15 3.5 4.0 4.8 3.5 3.7 13.0 12.5 15.0 22.0 10.5
16 3.7 3.2 4.3 4.5 5.5 8.5 10.3 11.1 8.0 6.0
4 17 5.0 5.6 6.1 7.2 13.8 26.0 26.1 25.7 20.5 11.0
18 4.5 5.1 13.2 21.0 26.8 28.0 22.0 17.8 15.7 14.0
19 8.4 6.2 8.0 18.5 33.8 35.0 26.2 23.0 19.0 12.6
20 4.2 3.2 4.2 4.8 10.3 13.7 17.1 18.3 17.4 15.8
1
0 50 100 150
T
0
10
20
30
40
50
Y
2
0 50 100 150
T
0
10
20
30
40
50
Y
3
0 50 100 150
T
0
10
20
30
40
50
Y
4
0 50 100 150
T
0
10
20
30
40
50
Y
5
0 50 100 150
T
0
10
20
30
40
50
Y
6
0 50 100 150
T
0
10
20
30
40
50
Y
7
0 50 100 150
T
0
10
20
30
40
50
Y
8
0 50 100 150
T
0
10
20
30
40
50
Y
9
0 50 100 150
T
0
10
20
30
40
50
Y
10
0 50 100 150
T
0
10
20
30
40
50
Y
11
0 50 100 150
T
0
10
20
30
40
50
Y
12
0 50 100 150
T
0
10
20
30
40
50
Y
13
0 50 100 150
T
0
10
20
30
40
50
Y
14
0 50 100 150
T
0
10
20
30
40
50
Y
15
0 50 100 150
T
0
10
20
30
40
50
Y
16
0 50 100 150
T
0
10
20
30
40
50
Y
17
0 50 100 150
T
0
10
20
30
40
50
Y
18
0 50 100 150
T
0
10
20
30
40
50
Y
19
0 50 100 150
T
0
10
20
30
40
50
Y
20
0 50 100 150
T
0
10
20
30
40
50
Y
Bei den 20 Einzelverläufern (Profilen) fällt vor allem die grosse Variabilität auf. Mehrheitlich folgt auf
einen schnellen Anstieg ein langsamer Abfall. Das Profil 13 ist sehr atypisch. Störend sind auch die
fehlenden Werte bei den Profilen 1 und 4.
******
Repeated Measures Kapitel 1 5
Beispiel 4: Zahnmedizinische Distanz [mm] (from the centre of the pituitary to the pteryomaxillary fissure),
gemessen in Abständen von 2 Jahren bei 11 Mädchen und 16 Knaben (beliebtes Beispiel, z.B. aus Lindsey,
S. 77 ff. oder aus Hand & Crouder, S. 28 ff.).
Drei wesentliche Fragen waren bei dieser Erhebung von Interesse:
• Verändert sich die Distanz mit dem Alter?
• Verlaufen die Profile von Mädchen und Knaben parallel?
• Wenn ja, sind die mittleren Niveaus der Profile von Mädchen und Knaben gleich?
******
Was ist den 4 Beispielen gemeinsam und worin unterscheiden sie sich?
Between-Subjects- Within-Subject- wiederholte
Beispiel Faktor Faktor Messungen Zielgrösse
1 — Behandlung 4 Gerinnungszeit (stetig)
2 Training math. Problem 4 Zeitbedarf (stetig)
3 Dosierung Zeit 10 Progesteronspiegel (stetig)
4 Geschlecht Alter 4 Distanz (stetig)
• Das Beispiel 1 ist besonders einfach, da kein Between-Subjects-Faktor vorliegt. Es resultiert für den
Within-Subject-Faktor eine vollständig randomisierte Blockanlage.
• Beispiel 2 ist vom Ablauf her ein Wechselversuch (Cross-over Design) bezüglich des Within-Subject-
Faktors. Das Beispiel kann aber auch als Spaltanlage (Split Plot Design) interpretiert werden (Person
als „Main Unit“ und Periode zur Lösung eines mathematischen Problems als „Sub Unit“).
• Bei den Beispielen 3 und 4 handelt es sich um longitudinale Daten. Die Reihenfolge der wiederholten
Messungen ist durch den Within-Subject-Faktor Zeit gegeben. Beim Faktor Zeit bzw. Alter ist keine
Randomisierung möglich. Es resultiert eine spezielle Abhängigkeitsstruktur: je kleiner der zeitliche
oder räumliche Abstand zwischen wiederholten Messwerten ist, desto stärker sind sie untereinander
korreliert. Beim Beispiel 4 zeigen die Profile einen relativ einfachen Verlauf, ganz im Gegensatz zu
den Progesteron-Spiegeln von Beispiel 3.
Mädchen
8 10 12 14
Alter
16
20
24
28
32
Dis
tan
z
1234567891011
PERSON
Knaben
8 10 12 14
Alter
16
20
24
28
32
Dis
tan
z
12131415161718192021222324252627
PERSON
Repeated Measures Kapitel 1 6
Einige zusätzliche Modellkomponenten und Komplikationen
• Mehrere Within-Subject-Faktoren bestimmen die Struktur der wiederholten Messungen; z.B. Messung
einer Aktivität zu bestimmten Tageszeiten an mehreren Tagen.
• Mehrere Between-Subjects-Faktoren bestimmen die Gruppierung der Subjekte; z.B. Personen aus
mehreren Altersklassen und Regionen.
• Die Zielgrösse kann nicht durch eine Normalverteilung approximiert werden: es handelt sich dabei z.B.
um Häufigkeiten oder Anteilswerte, sowie binäre, ordinal skalierte oder kategoriale Variablen.
• Es werden zusätzliche Kovariablen erhoben:
• sie sind subjekt-spezifisch, wenn sie für alle Messungen eines Subjekts konstant sind
• sie sind zeitvariierend (time varying covariates), wenn sie bei jeder wiederholten Messung einen
anderen Wert annehmen können.
Unterschiede zwischen Verlaufskurven (longitudinal data) und Zeitreihen (time series)
• Bei Zeitreihen handelt es sich meist um sehr viele Messungen, welche in regelmässigen Zeitabständen
am gleichen Messort oder Objekt erhoben wurden.
• Bei den Verlaufskurven liegen immer mehrere Verläufe vor, die häufig eher kurz sind.
• Der zeitliche Abstand zwischen aufeinanderfolgenden Messwerten muss bei Verlaufskurven nicht
konstant sein. Es ist sogar möglich, dass das Zeitmuster von Subjekt zu Subjekt variiert.
• Etliche Aspekte der Zeitreihenanalyse, wie Periodizität und Stationarität, sind bei Verlaufskurven im
allgemeinen nicht von Interesse.
Statistische Auswertung von wiederholten Messungen
Wiederholte Messungen sind mit sehr unterschiedlichen Fragestellungen verbunden. Es gibt deshalb keine
Standardanalyse. Die Art der Zielgrösse beeinflusst die Auswertungsmethodik ganz wesentlich. Für
quantitative, normalverteilte Merkmale stehen bekannte und bewährte Methoden zur Verfügung. Für
Häufigkeiten oder kategorielle Zielgrössen sind die Methoden erst in Entwicklung begriffen. Mehr dazu
findet man bei Lindsey (1999), Davis (2002) und Molenberghs and Verbeke (2005). Oft werden Ad-hoc-
Methoden verwendet.
Im Rahmen dieses Kurses müssen wir uns auf stetige Messwerte beschränken. Die 4 Beispiele werden z.T.
nach mehreren Kriterien ausgewertet. Ein 5. Beispiel wird im Abschnitt 3.4 und ein 6. Beispiel im
Abschnitt 5.3 eingeführt.
Beispiel Auswertung im Abschnitt
1 5.1
2 5.2
3 2.1
4 2.2 ; 3.2 ; 4 ; 6.2
5 3.4
6 5.3
Beachten Sie unbedingt auch den Abschnitt 7.1 über einen häufig anzutreffenden Fehler bei der
Auswertung und Interpretation von Verlaufskurven.
Repeated Measures Kapitel 2 7
2. Analyse von prägnanten Profil-Eigenschaften
Falls man die wiederholte Messungen eines Subjekts mit einen Linienzug verbindet, entstehen sogenannte
Profile. Die statistische Auswertung dieser Profile wird enorm erleichtert, falls es gelingt, die einzelnen
Profile durch eine Kenngrösse oder durch wenige Kenngrössen zu ersetzen (summary measures approach).
Damit wird einerseits die Datenmenge reduziert und andererseits die Abhängigkeitsstruktur der Daten
vereinfacht. Eine konventionelle statistische Auswertung dieser prägnanten Profil-Eigenschaften liefert
häufig gut interpretierbare Ergebnisse, die auch durch eine Auswertung mit einem komplizierten Modell
kaum verbessert werden können.
Subjekt Y1 Y2 ... ... Yp Ÿ1 Ÿ2 ... Ÿq
1 y11
y12
... ... y1p
ÿ11
ÿ12
... ÿ1q
... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
N yN1
yN2
... ... yNp
ÿN1
ÿN2
... ÿNq
p Messwerte
q Profil-Eigenschaften
(q < p)
2.1 AUC und verwandte Profil-Eigenschaften
Bei vielen medizinischen oder physiologischen Anwendungen wird eine Substanz den Patienten oder
Probanden von aussen zugeführt. Sie verteilt sich im Körper und wird mit der Zeit wieder ausgeschieden
oder abgebaut. Es sind dann ähnliche Profile wie im Beispiel 3 (vgl. Seite 4) zu erwarten.
Die Fläche unter der Kurve (AUC = area under curve):
Die Fläche unter der Kurve ist ein Mass für die globale oder kumulative Reaktion eines Individuums auf
einen Stimulus. Zur Berechnung der AUC (natürlich für jedes Individuum separat) werden üblicherweise
die aufeinanderfolgenden Messwerte durch eine Gerade verbunden. Die Fläche unter diesem Linienzug
setzt sich aus einzelnen Trapezen zusammen. Für die Zeitpunkte tj und tj+1 mit den Messwerten yj und yj+1
ergibt sich die Trapezfläche nach der Formel
Trapezfläche = (tj+1 - tj)( yj + yj+1)/2
Repeated Measures Kapitel 2 8
Weitere prägnante Profil-Eigenschaften können z.B. sein:
• Mittelwert oder Median aller Messungen
• Höhe des Maximums (Peak)
• Differenz zwischen erster und letzter Messung
• abschliessendes Niveau (Plateau)
• Zeit bis zum Erreichen - des Maximums (TTP = time to peak)
- eines bestimmten Niveaus bzw. einer bestimmten Veränderung
- des maximalen Anstiegs bzw. Abfalls
• Zeit über einem bestimmten Niveau
• Polynomiale Komponente (linear, quadratisch, … )
*** Auswertung von Beispiel 3 anhand von prägnanten Profil-Eigenschaften:
Profil-Eigenschaft
Gruppe Frau PEAK TTP AUC
1 1 3.091 10 332.5
2 3.350 30 341.0
3 3.054 30 313.7
4 3.314 30 313.9
5 3.816 30 370.0
6 2.868 30 271.3
Mittel 3.249 26.7 323.7
2 7 3.135 15 246.5
8 3.325 15 281.5
9 2.998 15 253.8
10 2.639 30 218.1
11 2.760 45 311.2
12 2.501 45 278.6
Mittel 2.893 27.5 264.9
3 13 * 3.701 120 374.9
14 2.674 30 281.6
15 3.091 60 307.4
16 2.407 45 243.3
Mittel 2.724 45.0 277.4
4 17 3.262 30 342.4
18 3.332 15 340.8
19 3.555 15 353.8
20 2.907 45 324.8
Mittel 3.264 26.3 340.4
P-Wert aus ANOVA 0.065 0.215 0.003
Unterschiede nach Tukey keine keine 21 , 24
* in den Berechnungen (Mittelwerte, ANOVA, Tests) unberücksichtigter „Ausreisser“
Repeated Measures Kapitel 2 9
1 2 3 4
Gruppe
0
50
100
150
TT
P
Alle Messwerte (vgl. Daten ab Seite 3) wurden zuerst logarithmiert und dann pro Individuum auf
wenige prägnante Eigenschaften reduziert: auf das Maximum (PEAK), die Zeit bis zum Erreichen
des Maximums (TTP) und die Fläche unter der Kurve (AUC).
Gruppenvergleiche mit den komprimierten Zielgrössen (PEAK, TTP, AUC) können z.B. mit
folgenden statistischen Methoden erfolgen:
• ANOVA für jede Zielgrösse separat (zusammengefasst in obiger Tabelle)
• simultane multivariate ANOVA (MANOVA)
Univariate ANOVA’s:
Für die Zielgrösse PEAK liegt der P-Wert nur knapp über 5% (P = 0.065). Bezüglich der
Zielgrössen TTP sind die Unterschiede zwischen den Gruppen gering (P = 0.215). Signifikante
Unterschiede erhält man bei den AUC-Werten (P = 0.003).
Mit der MANOVA (vgl. Kapitel 4) lassen sich keine signifikanten Unterschiede zwischen den
Gruppen nachweisen (P = 0.06 mit Wilks' Lambda, Pillai Trace und Hotelling-Lawley Trace). Die
statistische Macht (power) dieser Methode ist bei kleinen Stichproben gering.
******
1 2 3 4
Gruppe
2.0
2.5
3.0
3.5
4.0
PE
AK
1 2 3 4
Gruppe
200
250
300
350
400
AU
C
Repeated Measures Kapitel 2 10
Aber:
• Schon in der Planungsphase einer Studie muss überlegt werden, welche Profil-Eigenschaften wesentlich
sind, da die Wahl der Messzeitpunkte bzw. -orte die Genauigkeit dieser Eigenschaften beeinflusst.
• Soll die AUC über den ganzen Bereich berechnet werden oder nur für einen kürzeren Abschnitt?
• Soll für die AUC die Baseline berücksichtigt bzw. abgezogen werden?
• Fehlende Messwerte reduzieren die Genauigkeit der Profil-Eigenschaften.
• Wie vertrauenswürdig sind statistische Aussagen, wenn die Profil-Eigenschaften erst nach dem
Betrachten der Daten festgelegt werden?
2.2 Regressionskoeffizienten von einzelnen Profilen
Falls die einzelnen Profile nicht allzu unähnlich sind und einen relativ glatten Verlauf aufweisen, liegt es
nahe, jedes Profil durch eine Regressionskurve zu charakterisieren. Die Koeffizienten dieser Regressions-
kurven enthalten die Information über jedes Profil in komprimierter Form und können somit auch als
prägnante Profil-Eigenschaften betrachtet werden. Die Auswertung kann auf zwei Arten erfolgen:
in zwei Schritten, wobei zuerst alle Regressionsparameter geschätzt und diese anschliessend einer
statistischen Prüfung unterzogen werden. Dazu ist in der Regel keine Spezialsoftware erforderlich.
simultan mit Hilfe eines Programms für gemischte Effekte (vgl. Kapitel 6). Diese Methodik hat in der
Fachliteratur mehrere Namen: random coefficients, random growth curves models, multi-level models,
random effect models oder hierarchical models.
*** Auswertung von Beispiel 4 anhand von individuellen Regressionskoeffizienten:
Drei wesentliche Fragen waren bei dieser Erhebung von Interesse:
• Verändert sich die Distanz mit dem Alter?
• Verlaufen die Profile von Mädchen und Knaben parallel?
• Wenn ja, sind die mittleren Niveaus der Profile von Mädchen und Knaben verschieden?
Vorläufige Antworten erhalten wir bereits aus den graphischen Darstellungen auf Seite 5:
• Bei allen Personen ist ein Anstieg zu beobachten. Ein Test erübrigt sich beinahe.
• Eventuell ist der Anstieg bei den Knaben etwas steiler.
• Die Knaben scheinen ein um ca. 2 mm höheres Niveau zu haben.
Da die Profile sehr gleichförmig aussehen, passen wir an jedes Profil eine Gerade an. Für das i-te
Profil lautet die Gleichung
yij = i + i (tj - t ) + ij i = 1, ..., nM + nK j = 1, ..., 4 (nM = 11, nK = 16)
Da alle Messungen zu denselben äquidistanten Zeitpunkten erfolgten, können die Koeffizienten i
und i mit einfachen Kontrasten geschätzt (nach kleinsten Quadraten) werden:
i = (+1·yi1 + 1·yi2 + 1·yi3 + 1·yi4) / 4
Repeated Measures Kapitel 2 11
i = (3·yi1 1·yi2 + 1·yi3 + 3·yi4) / 20
Diese Parameter werden als Stichprobe aus einer entsprechenden Normalverteilung angesehen:
Mädchen: αi ~ N(αM, 2 ) und βi ~ N(βM,
2 )
Knaben: αi ~ N(αK, 2 ) und βi ~ N(βK,
2 )
Rohdaten und geschätzte Parameter für die Mädchen:
Distanz [mm] im Alter von i i
Gruppe Person t1 = 8 t2 = 10 t3 = 12 t4 = 14
Mädchen 1 21.0 20.0 21.5 23.0 21.375 0.375
2 21.0 21.5 24.0 25.5 23.000 0.800
3 20.5 24.0 24.5 26.0 23.750 0.850
4 23.5 24.5 25.0 26.5 24.875 0.475
5 21.5 23.0 22.5 23.5 22.625 0.275
6 20.0 21.0 21.0 22.5 21.125 0.375
7 21.5 22.5 23.0 25.0 23.000 0.550
8 23.0 23.0 23.5 24.0 23.375 0.175
9 20.0 21.0 22.0 21.5 21.125 0.275
10 16.5 19.0 19.0 19.5 18.500 0.450
11 24.5 25.0 28.0 28.0 26.375 0.675
Mittelwert 22.65 0.480
Standardabweichung 2.105 0.220
Rohdaten und geschätzte Parameter für die Knaben:
Distanz [mm] im Alter von i i
Gruppe Person t1 = 8 t2 = 10 t3 = 12 t4 = 14
Knaben 12 26.0 25.0 29.0 31.0 27.750 0.950
13 21.5 22.5 23.0 26.5 23.375 0.775
14 23.0 22.5 24.0 27.5 24.250 0.750
15 25.5 27.5 26.5 27.0 26.625 0.175
16 20.0 23.5 22.5 26.0 23.000 0.850
17 24.5 25.5 27.0 28.5 26.375 0.675
18 22.0 22.0 24.5 26.5 23.750 0.800
19 24.0 21.5 24.5 25.5 23.875 0.375
20 23.0 20.5 31.0 26.0 25.125 0.975
21 27.5 28.0 31.0 31.5 29.500 0.750
22 23.0 23.0 23.5 25.0 23.625 0.325
23 21.5 23.5 24.0 28.0 24.250 1.000
24 17.0 24.5 26.0 29.5 24.250 1.950 *
25 22.5 25.5 25.5 26.0 24.875 0.525
26 23.0 24.5 26.0 30.0 25.875 1.125
27 22.0 21.5 23.5 25.0 23.000 0.550
Mittelwert 25.02 0.707
Standardabweichung 1.883 0.271
* Ausreisser: alle Berechnungen werden ohne Daten von Person 24 durchgeführt
Repeated Measures Kapitel 2 12
Die folgenden Boxplots zeigen deutliche Unterschiede zwischen den Gruppen; sowohl bezüglich
î als auch î
1 2
Gruppe
18
20
22
24
26
28
30
alp
ha
Zuerst prüfen wir anhand der individuellen î die Nullypothese H0: βM= βK gegen die Alternative
HA: βM βK mit einem ungepaarten t-Test:
t = (0.480 - 0.707) / 0.100 = -2.28 mit 24 Freiheitsgraden
Der Anstieg verläuft nicht parallel (P = 0.03). Der Abstand zwischen den Gruppen ist somit vom
Alter der Kinder abhängig.
Ein Vergleich der î zwischen den beiden Gruppen führt zu folgender Testgrösse:
t = (22.65 - 25.02) / 0.785 = -3.02 mit 24 Freiheitsgraden
Bei einem mittleren Alter von 11 Jahren unterscheiden sich die Mittelwerte (P = 0.006).
In jeder Gruppe prüfen wir noch die Nullhypothese H0: = 0 gegen die Alternative HA: 0 :
Gruppe mean{ ̂ } s{ ̂ } se{ ̂ } t P
Mädchen (nM = 11) 0.480 0.220 0.066 7.24 < 0.001
Knaben (nK = 15) 0.707 0.271 0.070 10.10 < 0.001
Der lineare Anstieg ist in beiden Gruppen gesichert (P < 0.001).
******
1 2
Gruppe
0.0
0.5
1.0
1.5
2.0
be
ta
Repeated Measures Kapitel 3 13
3. Univariate Varianzanalyse (RM ANOVA)
Wir wollen in diesem Kapitel die Abhängigkeitsstruktur von wiederholten Messungen näher betrachten und
diese bei der Auswertung der Daten berücksichtigen. Die Kovarianzmatrix erhalten wir entweder durch
direkte Modellierung oder aufgrund eines statistischen Modells der Daten. Beide Möglichkeiten sollen
zuerst anhand einer ganz einfachen Situation demonstriert werden.
3.1 Compound symmetry und Intra-Class-Korrelation
An mehreren Subjekten werde dieselbe Zielgrösse je p Mal gemessen. Die Subjekte sind nicht gruppiert,
d.h. es gibt keinen Between-Subjects-Faktor. Auch die p Messungen sind nicht weiter strukturiert, d.h. es
gibt keinen erklärenden Within-Subject-Faktor (Behandlung, Zeit oder Ort). Diese Datenstruktur resultiert
auch bei der Messung an p verschiedenen Untereinheiten, welche hierarchisch in den Subjekten angeordnet
sind (z.B. Bewertung an jeweils p Pflanzen derselben Parzelle). Wir erwarten, dass alle Beobachtungen
desselben Subjekts relativ ähnlich sind und untereinander in einem gleichmässigen Abhängigkeitsverhältnis
stehen. Mit diesen Überlegungen leitet Lindsey (1999) die Kovarianzmatrix der p wiederholten
Messungen innerhalb desselben Subjekts ab:
pp =
1011
1101
1110
= (0 + 1)
1
1
1
M1
0 ist die Varianz der wiederholten Messungen am gleichen Subjekt (eine Art Messfehler). 1 ist eine
Komponente, welche einerseits die Variabilität bzw. Ähnlichkeit zwischen den einzelnen Subjekten erfasst
und andererseits die Kovarianz zwischen den wiederholten Messungen desselben Subjekts charakterisiert
(1 kann theoretisch auch negativ sein, solange (0 + 1) > 0 ist). Die spezielle Struktur der Matrix M1 wird
als „compound symmetry“ bezeichnet. Die Matrix enthält nur 2 Parameter. (Im Gegensatz dazu hat eine
völlig beliebige, unstrukturierte pp-Kovarianzmatrix, welche natürlich auch symmetrisch ist, p(p+1)/2
freie Parameter.) Alle wiederholten Messungen desselben Subjekts sind untereinander korreliert. Der Intra-
Class-Korrelationskoeffizient beträgt = 1/(0 + 1) und könnte rein theoretisch auch negativ sein.
Zur gleichen Kovarianz-Struktur führt auch das folgende lineare Modell mit zufälligen Effekten (vgl. Skript
Varianzanalyse, Kapitel 4.2):
yij = µ + i + ij (3.1)
Wobei: yij = j-te Messung am i-ten Subjekt, µ = allgemeines Niveau, i = zufällige Abweichung des i-ten
Subjekts von und ij = zufälliger Fehler.
Annahmen: E{i} = E{ij} = 0, Var{i} = 2
und Var{ij} = 2
, sowie Unabhängigkeit zwischen und
innerhalb allen i und ij .
Es resultiert: E{yij} = Cov{yij, yij*} = 2
für j j*
Var{yij} = 2
+ 2
Cov{yij, yi*j*} = 0 für i i*
Repeated Measures Kapitel 3 14
Für die p wiederholten Messungen eines Subjekts erhält man somit die pp-Kovarianzmatrix M2
pp =
2222
2222
2222
M2
und daraus die Korrelationsmatrix R2 (Intra-Class-Korrelationskoeffizient)
Rpp =
1
1
1
wobei = 2 /(
2 +2 ) und 0 ≤ ≤ R2
Fügt man dem Modell (3.1) fixe Effekte hinzu, bleiben M2 und R2 unverändert.
Warum ist für uns die „compound symmetry“ so interessant?
Die „compound symmetry“ erhält man auch im Rahmen von linearen Modellen für eine univariate
Zielgrösse, wenn (mindestens) ein Faktor mit zufälligen Effekten beteiligt ist. Falls nun die Kovarianz-
matrix von p wiederholten Messungen einer „compound symmetry“ nahe kommt, können wir die p-
dimensionalen Messungen mit einer „normalen“, univariaten ANOVA auswerten.
3.2 Das Split-Plot-Modell
Wir erweitern das simple Modell (3.1) um einen Gruppierungsfaktor A mit a festen Stufen und einen
Within-Subject-Faktor B mit p festen Stufen.
yijk = µ + i + j(i) + k + ()ik + ijk (3.2)
i = 1, ..., a j = 1, ..., ni k = 1, ..., p
Interpretation der Summanden:
yijk Zielgrösse am j-ten Subjekt in der i-ten Gruppe zur k-ten B-Stufe
µ allgemeines Niveau
i fixer Effekt der i-ten Gruppe (Between-Subjects-Faktor)
j(i) zufälliger Effekt des j-ten Subjekts in der i-ten Gruppe: j(i) ~ i.i.d. N(0,2
)
k fixer Effekt der k-ten B-Stufe (Within-Subject-Faktor)
()ik fixer Effekt der Wechselwirkung von Gruppe und Faktor B
ijk zufälliger, normalverteilter Fehler: ijk ~ i.i.d. N(0, e2
)
Das Modell (3.2) kommt auch bei der Auswertung von Spaltanlagen (vgl. Skript Varianzanalyse, Kapitel 6)
zum Zug, bei welchen die Stufen von A auf die Main-Units und die Stufen von B auf die Sub-Units
angewendet wurden. Deshalb wird das Modell (3.2) auch als Split-Plot-Modell für wiederholte Messungen
bezeichnet.
Repeated Measures Kapitel 3 15
Unter der Annahme, dass alle Effekte stochastisch unabhängig sind, resultiert:
E{yijk} = i + k + ()ik
Var{yijk} = 2 +
2
Cov{yijk, yijk*} = 2 für k k*
Cov{yijk, yi*j*k*} = 0 für i i* oder j j*
Die Modelle (3.1) und (3.2) führen also zur Kovarianz-Struktur wie in Matrix M2, da in (3.2) nur Faktoren
mit festen Effekten hinzugekommen sind. Es resultiert somit auch hier die „compound symmetry“, welche
man noch etwas umformen kann. Wir setzen Var{yijk} =2 +
2 =2 und =
2 /2 . Es resultiert:
Var{yijk} = 2
Cov{yijk, yijk*} = 2 für k k*
Cov{yijk, yi*j*k*} = 0 für i i* oder j j*
Zum Split-Plot-Modell (3.2) und der zusätzlichen Annahme, dass ni = n für alle Gruppen, erhält man
folgende ANOVA-Tabelle mit den Erwartungswerten der Durchschnittsquadrate (N = a·n bzw. Gesamtzahl
aller Subjekte):
Ursache df E{MS}
A: Gruppierungsfaktor a - 1 ²[1+(p-1)] + pn·QA
Subjekte innerhalb Gruppen N - a ²[1+(p-1)]
zwischen Subjekten N - 1
B: Within-Subject-Faktor p - 1 ²(1-) + an·QB
Interaktion A x B (a-1)(p-1) ²(1-) + n·QAB
Fehler 2 (N-a)(p-1) ²(1-)
total Np - 1 Annahme: ni = n
Es sind zwei Fehlerstreuungen zu berücksichtigen: der Faktor A wird gegen MSSubjekte innerhalb Gruppen geprüft,
alle übrigen Effekte gegen MSFehler 2.
*** Beispiel 4 (Fortsetzung):
Wir haben bereits drei Fragen gestellt (vgl. Seite 5):
1. Verändert sich die Distanz mit dem Alter? → Zum Modell (3.2) passende H0: k = 0
2. Verlaufen die Profile parallel? → Zum Modell (3.2) passende H0: ()ik = 0
3. Sind die mittleren Niveaus der Profile von Mädchen und Knaben verschieden? → Zum Modell
(3.2) passende H0: i = 0
Repeated Measures Kapitel 3 16
Ist hier die Annahme der „compound symmetry“ mit den Daten vereinbar? Wir berechnen die
Kovarianzmatrix aus den Messungen der Mädchen (Matrix M3) und aus den Messungen der
Knaben (Matrix M4) separat:
Y1.1 Y1.2 Y1.3 Y1.4
Y1.1 4.514
Y1.2 3.355 3.618 10 Freiheitsgrade M3
Y1.3 4.332 4.027 5.591
Y1.4 4.357 4.077 5.466 5.941
Y2.1 Y2.2 Y2.3 Y2.4
Y2.1 6.017
Y2.2 2.292 4.562 15 Freiheitsgrade M4
Y2.3 3.629 2.194 7.032
Y2.4 1.613 2.810 3.241 4.349
Unter der Annahme, dass die Varianz-Kovarianz-Struktur in den beiden Gruppen gleich ist, kann
man aus M3 und M4 eine kombinierte Kovarianzmatrix innerhalb Gruppen (Matrix M5) bilden.
Sie ist das gewogene Mittel, wobei die Freiheitsgrade als Gewichte verwendet werden. Aus M5
berechnen wir anschliessend die Korrelationsmatrix R5.
Y..1 Y..2 Y..3 Y..4
Y..1 5.415
Y..2 2.717 4.185 25 Freiheitsgrade M5
Y..3 3.910 2.927 6.456
Y..4 2.710 3.317 4.131 4.986
1
R5 = 0.57 1
0.66 0.56 1
0.52 0.73 0.73 1
Sowohl Varianzen als auch Korrelationen sind untereinander recht ähnlich, so dass die „compound
symmetry“ angenommen werden kann. Wie stark eine Kovarianzmatrix von der „compound
symmetry“ abweicht, erfassen zwei quantitative Masse (vgl. z.B. Vonesh & Chinchilli):
• Greenhouse-Geisser Epsilon: ̂ G-G von M5 = 0.867
• Huynh-Feldt Epsilon: ̂ H-F von M5 = 1.000
Es ist 1/(p-1) ≤ ̂ G-G ≤ ̂ H-F ≤ 1 . ̂ = 1 bedeutet keine Abweichung. Zur Korrektur der P-Werte
werden beim F-Test beide Freiheitsgrade mit ̂ multipliziert. Die Korrektur nach Greenhouse-
Geisser ist eher konservativ, jene nach Huynh-Feldt eher zu liberal.
Repeated Measures Kapitel 3 17
ANOVA-Tabelle zum Beispiel 4:
Ursache df SS MS F P PG-G PH-F
A: Sex 1 140.5 140.5 9.29 0.005
Personen innerh. Gruppen 25 377.9 15.1
zwischen Personen 26 518.4
B: Alter 3 209.4 69.8 35.35 0.000 0.000 0.000
Interaktion Sex*Alter 3 14.0 4.7 2.36 0.078 0.088 0.078
Fehler 2 75 148.1 2.0
total 107 917.7
Interpretation: Die mittleren Niveaus der Profile von Mädchen und Knaben unterscheiden sich (P =
0.005). Die Distanz ändert sich mit dem Alter (P < 0.001). Die Parallelität der Profile kann auf dem
5%-Niveau nicht verworfen werden (P = 0.078).
Ergänzungen:
• SStotal wird nicht orthogonal zerlegt, da mehr Knaben als Mädchen vermessen wurden. Es ist
wichtig, dass mit Type III SS gearbeitet wird (drop1 bei R).
• Zeit- und Interaktionseffekte kann man mit orthogonalen (meist polynomialen) Kontrasten
weiter analysieren. Programme, welche eine spezielle Option für „repeated measures“ anbieten
(z.B. SAS, SPSS oder SYSTAT), liefern dazu folgende Resultate:
Polynomial Test of Order 1 (Linear)
Source SS df MS F P
Alter 208.27 1 208.27 87.999 0.000
Alter*Sex 12.11 1 12.11 5.119 0.033
Error 59.17 25 2.37
Polynomial Test of Order 2 (Quadratic)
Source SS df MS F P
Alter 0.96 1 0.96 0.920 0.347
Alter*Sex 1.20 1 1.20 1.152 0.293
Error 26.04 25 1.04
Polynomial Test of Order 3 (Cubic)
Source SS df MS F P
Alter 0.21 1 0.21 0.084 0.774
Alter*Sex 0.68 1 0.68 0.270 0.608
Error 62.92 25 2.52
Interpretation: Die Altersunterschiede beruhen v.a. auf einem linearen Trend. Alle quadratischen
und kubischen Trends sind vernachlässigbar. Der lineare Trend ist jedoch in den beiden Gruppen
unterschiedlich (P = 0.033). Dies steht nur scheinbar im Widerspruch zum globalen Test der
Interaktion Sex*Alter (mit 3 Freiheitsgraden) mit dem P-Wert von 0.078, da hier nur die lineare
Repeated Measures Kapitel 3 18
Komponente der Interaktion Sex*Alter (mit 1 Freiheitsgrad) getestet wurde. Dasselbe Resultat
ergab auch die Auswertung dieses Beispiels über die individuellen Regressionskoeffizienten (vgl.
Abschnitt 2.2).
******
3.3 Kovarianzstruktur von Messungen mit zeitlicher oder räumlicher Distanz
Kehren wir zurück zur Modellierung der Kovarianzmatrix. Die „compound symmetry“ wurde im Abschnitt
3.1 eingeführt. Die Matrix M1 kann man auch in der Form
pp =
222
222
222
=
1
1
1
2
schreiben (2 = 0 + 1 und = 1/2
).
In vielen Situationen ist aber eine „compound symmetry“ kaum zutreffend. Wenn z.B. Messungen mit
zeitlicher oder räumlicher Distanz vorliegen, haben direkt benachbarte Messungen eine grössere
Ähnlichkeit als weiter auseinanderliegende Messungen. Die Kovarianzmatrix hat dann die Form
pp =
1 p 1
1 p 22
p 1 p 2
1
1
1
wobei die Intra-Class-Korrelation (i) mit zunehmender Distanz kleiner wird: (i) > (i’) für i < i’.
Bei AR(1)-Prozessen mit äquidistanten Zeitintervallen erwartet man u.U. die spezielle Form
pp =
p
p
p p p
1 2 1
1 1 22
1 2 3
1
1
1
In Computer-Programmen für gemischte Modelle (vgl. Kapitel 6) sind derartige Strukturen bereits
vordefiniert. Diggle, Liang & Zeger (1994) verwenden Ansätze zur parametrischen Modellierung der
Varianz-Kovarianz-Struktur, welche von individuellen Zeitintervallen abhängig sein kann.
Weitere Abweichungen von der „compound symmetry“ sind z.B. auch bei Wachstumskurven zu erwarten.
Bis anhin sind wir immer von konstanten Varianzen (Diagonalelementen) ausgegangen. Bei
Wachstumskurven beobachtet man in der Regel einen Anstieg der Variabilität mit zunehmendem Alter.
Wir wollen deshalb ein entsprechendes Beispiel etwas genauer behandeln.
Repeated Measures Kapitel 3 19
3.4 Wachstumskurven
Das folgende Beispiel wurde von verschiedenen Autoren aufgegriffen und neu analysiert.
*** Beispiel 5: Gewicht von Ratten unter 3 experimentellen Bedingungen. 27 jüngere Ratten wurden
zufällig 3 Behandlungsgruppen zugeteilt (Kontrolle, Zugabe von Thyroxin im Trinkwasser, Zugabe
von Thiourocil im Trinkwasser). Jedes Tier wurde separat gehalten und ab Versuchsbeginn
wöchentlich gewogen (Daten aus Box 1950).
Gewicht in Woche Zuwachs
Gruppe Tier 0 1 2 3 4 D1 D2 D3 D4 total ij ij
1 1 57 86 114 139 172 29 28 25 33 115 28.3 0.357
1 2 60 93 123 146 177 33 30 23 31 117 28.7 -0.786
1 3 52 77 111 144 185 25 34 33 41 133 33.3 2.214
1 4 49 67 100 129 164 18 33 29 35 115 29.2 2.143
1 5 56 81 104 121 151 25 23 17 30 95 23.0 0.286
1 6 46 70 102 131 153 24 32 29 22 107 27.5 -0.500
1 7 51 71 94 110 141 20 23 16 31 90 21.9 1.071
1 8 63 91 112 130 154 28 21 18 24 91 22.1 -0.786
1 9 49 67 90 112 140 18 23 22 28 91 22.7 1.357
1 10 57 82 110 139 169 25 28 29 30 112 28.1 0.786
Mittelwert 54 79 106 130 161 25 28 24 31 107 26.48 0.614
2 11 59 85 121 156 191 26 36 35 35 132 33.5 1.214
2 12 54 71 90 110 138 17 19 20 28 84 20.7 1.643
2 13 56 75 108 151 189 19 33 43 38 133 34.2 3.429
2 14 59 85 116 148 177 26 31 32 29 118 29.9 0.500
2 15 57 72 97 120 144 15 25 23 24 87 22.2 1.143
2 16 52 73 97 116 140 21 24 19 24 88 21.9 0.071
2 17 52 70 105 138 171 18 35 33 33 119 30.6 2.000
Mittelwert 56 76 105 134 164 20 29 29 30 109 27.57 1.429
3 18 61 86 109 120 129 25 23 11 9 68 17.0 -3.143
3 19 59 80 101 111 122 21 21 10 11 63 15.7 -2.214
3 20 53 79 100 106 133 26 21 6 27 80 18.7 -0.929
3 21 59 88 100 111 122 29 12 11 11 63 14.9 -2.643
3 22 51 75 101 123 140 24 26 22 17 89 22.6 -1.286
3 23 51 75 92 100 119 24 17 8 19 68 16.1 -1.357
3 24 56 78 95 103 108 22 17 8 5 52 12.9 -3.071
3 25 58 69 93 114 138 11 24 21 24 80 20.5 1.643
3 26 46 61 78 90 107 15 17 12 17 61 15.1 -0.071
3 27 53 72 89 104 122 19 17 15 18 69 17.0 -0.286
Mittelwert 55 76 96 108 124 22 20 12 16 69 17.05 -1.336
Die Gewichtsentwicklung ist in den folgenden Abbildungen gruppenweise dargestellt. Wir
erkennen sofort eine typische Eigenschaft von Wachstumskurven: die Kurven entwickeln sich
auseinander, was ein Hinweis darauf ist, dass die Variabilität der Messungen mit dem Alter
zunimmt.
Repeated Measures Kapitel 3 20
0 1 2 3 4
Woche
40
80
120
160
200
Gew
icht
12345678910
Tier
0 1 2 3 4
Woche
40
80
120
160
200
Gew
ich
t
11121314151617
Tier
0 1 2 3 4
Woche
40
80
120
160
200
Gew
ich
t
18192021222324252627
Tier
Zwischen den ersten beiden Gruppen ist kaum eine Differenz zu sehen. Die 3. Gruppe ist im
Wachstum deutlich gehemmt.
Bevor wir die Profile genauer analysieren und vergleichen, wenden wir uns der Kovarianz- bzw.
Korrelations-Struktur der wiederholten Messungen zu. Von den Variablen Y0, Y1 , ..., Y4
(Variable Y0 mit den Messungen in Woche 0, usw.), resultiert die Kovarianzmatrix M6, welche
Repeated Measures Kapitel 3 21
man z.B. mit einem Diskriminanzanalyse-Programm einfach berechnen kann (pooled within
covariance matrix):
Y0 Y1 Y2 Y3 Y4
Y0 21.6
Y1 33.0 68.7
Y2 31.6 69.1 94.8 M6
Y3 29.4 64.5 116.4 181.6
Y4 24.7 56.7 122.9 207.2 268.4
Der Anstieg bei den Varianzen (Diagonalelemente) ist sehr deutlich. Die entsprechende
Korrelationsmatrix R6 zeigt die typische Nachbarschaftsbeziehung von Verlaufskurven: zeitlich
benachbarte Messungen sind stärker korreliert als weiter entfernte Messungen. M6 weicht klar von
der „compound symmetry“ ab, was auch durch die Epsilons nach Greenhouse-Geisser und nach
Huynh-Feldt signalisiert wird: ̂ G-G = 0.332 und ̂ H-F = 0.373.
1.00
0.86 1.00
R6 = 0.70 0.86 1.00
0.47 0.58 0.89 1.00
0.32 0.42 0.77 0.94 1.00
Durch das Logarithmieren sämtlicher Messwerte erhält man ausgeglichene Diagonalelemente in der
Kovarianzmatrix M7; die Diagonalelemente sind nun sehr ähnlich:
log(Y0) log(Y1) log(Y2) log(Y3) log(Y4)
log(Y0) 0.007
log(Y1) 0.008 0.012
log(Y2) 0.006 0.009 0.009 M7
log(Y3) 0.005 0.007 0.009 0.012
log(Y4) 0.003 0.005 0.008 0.011 0.012
1.00
0.86 1.00
R7 = 0.70 0.86 1.00
0.49 0.59 0.89 1.00
0.34 0.43 0.77 0.93 1.00
Die Korrelationsmatrizen R6 und R7 sind aber immer noch sehr ähnlich. Auch an den -Massen hat
sich wenig verändert. Zu M7 erhält man ̂ G-G = 0.393 und ̂ H-F = 0.451. Die univariate
Varianzanalyse mit dem Split-Plot-Modell ist deshalb mit den untersuchten Variablen Y0, ..., Y4
oder log(Y0), ..., log(Y4) nicht voll befriedigend, aber unter Anwendung der Korrektur nach
Greenhouse-Geisser oder nach Huynh-Feldt erlaubt. Aber es stehen ja noch weitere Möglichkeiten
offen.
Repeated Measures Kapitel 3 22
Unter Umständen kann eine einfache Transformation zur gewünschten Struktur führen. Wir bilden
die 1. Differenzen (Zuwachs pro Woche) D1 = Y1-Y0, D2 = Y2-Y1 usw. und erhalten die
Kovarianzmatrix M8:
D1 D2 D3 D4
D1 24.26
D2 1.77 25.38 M8
D3 -2.31 26.10 43.61
D4 -3.11 14.35 19.13 35.54
Die Korrelationsmatrix R8 ist bei oberflächlicher Beurteilung klar vom Ideal R2 entfernt:
1.00
R8 = 0.07 1.00
-0.07 0.79 1.00
-0.11 0.48 0.49 1.00
Die Auswertung der 1. Differenzen mit dem Split-Plot-Modell wäre aber durchaus möglich (M8 mit
̂ G-G = 0.731 und ̂ H-F = 0.875), wenn die P-Wert-Korrektur durchgeführt wird.
******
Bei Wachstumskurven konzentriert man sich u.a. auf folgende Aspekte und Fragen:
• Endgewicht, Gesamtzuwachs, Zuwachs oder Zuwachsänderung in einzelnen Perioden
Gibt es Unterschiede zwischen Gruppen?
Besteht eine Abhängigkeit vom Anfangsgewicht? (Anfangsgewicht als Kovariable)
• Individuelle Profile
Gibt es wichtige Komponenten (linear, quadratisch usw.) ?
Gibt es Unterschiede zwischen Gruppen im Niveau?
Gibt es Unterschiede zwischen Gruppen im Verlauf (Parallelität) ?
Mehrere Aspekte lassen sich somit univariat testen (t-Test bzw. ANOVA). Eine MANOVA (vgl. Kapitel 4)
oder eine Diskriminanzanalyse ist ebenfalls möglich. Diese Methoden würden auf beliebige Abweichungen
zwischen den Gruppen reagieren.
*** Beispiel 5 (Fortsetzung):
Wir konzentrieren uns auf drei naheliegende, prägnante Profil-Eigenschaften:
den Gesamtzuwachs D = Y4 –Y0
βij : Koeffizient für den linearen Trend
γij : Koeffizient für den quadratischen Trend
wobei für die letzten beiden Grössen an jedes Profil ein Polynom 2. Grades angepasst wird:
yijk = ij + ij(tk - t ) + ij (tk - t )2 + ijk i = 1, 2, 3 j = 1, ..., ni k = 1, ..., 5
Repeated Measures Kapitel 3 23
Wir nehmen an, dass in der i-ten Gruppe die Koeffizienten ij und ij normalverteilt sind und sich
nur zufällig von der mittleren Steigung i bzw. i unterscheiden:
ij ~ N(i,2
) und ij ~ N(i, 2
) i = 1, 2, 3
a) Zuerst die Analyse des Gesamtzuwachses D = Y4 –Y0:
1 2 3
Gruppe
60
80
100
120
140
Zu
wa
ch
s
Ursache df SS MS F P
Gruppe 2 9192.1 4596.0 19.10 < 0.001
Fehler 24 5775.9 240.7
Die ANOVA bestätigt eine signifikante Abweichung zwischen den Gruppen; die 3. Gruppe weicht
von den beiden anderen Gruppen deutlich ab.
b) Linearer Trend: Wir testen die Hypothese H0: 1 = 2 = 3 mit der Varianzanalyse.
1 2 3
Gruppe
15
20
25
30
35
line
are
r T
ren
d
Zuwachs D
Gruppe n Mittelwert Standardfehler
1 10 106.6 4.906
2 7 108.7 5.863
3 10 69.3 4.906
linearer Trend
Gruppe n Mittelwert Standardfehler
1 10 26.48 1.304
2 7 27.57 1.559
3 10 17.05 1.304
Repeated Measures Kapitel 3 24
Ursache df SS MS F P
Gruppen 2 619.44 309.7 18.22 < 0.001
Fehler 24 408.10 17.0
Beim linearen Trend unterscheidet sich die Gruppe 3 von den übrigen. Die Unterschiede zwischen
den ersten beiden Gruppen sind nicht signifikant.
c) Quadratischer Trend: Wir testen die Hypothese H0: 1 = 2 = 3 mit der Varianzanalyse.
1 2 3
Gruppe
-3
-2
-1
0
1
2
3
4
qu
ad
ratisch
er
Tre
nd
Auch beim quadratischen Trend unterscheidet sich die Gruppe 3 von den übrigen. Die Unterschiede
zwischen den ersten beiden Gruppen sind nicht signifikant.
Der verminderte Gesamtzuwachs in der 3. Gruppe ist also mit einem deutlich flacheren linearen
Anstieg des Gewichts und einer negativen quadratischen Komponente zu erklären.
******
Ursache df SS MS F P
Gruppen 2 35.613 17.807 11.04 < 0.001
Fehler 24 38.727 1.614
quadratischer Trend
Gruppe n Mittelwert Standardfehler
1 10 0.614 0.402
2 7 1.429 0.480
3 10 -1.336 0.402
Repeated Measures Kapitel 4 25
4. Multivariate Varianzanalyse
In der Mehrzahl aller Studien werden mehrere Zielgrössen erfasst, aber jede für sich, d.h. univariat,
ausgewertet. Dieses Vorgehen ist vom theoretischen Standpunkt aus fragwürdig. Je mehr Zielgrössen
erfasst werden, desto eher findet man rein zufällig signifikante Effekte bzw. signifikante Unterschiede
zwischen einzelnen Gruppen. Zudem sind die Zielgrössen untereinander meist korreliert, was oft nicht
beachtet wird. Zur Auswertung von Studien mit p-dimensionalen Zielgrössen bieten sich multivariate
lineare Modelle an. Timm (2002) vermittelt dazu einen umfassenden Einstieg. Wir behandeln hier nur die
multivariate Varianzanalyse (MANOVA). Das Modell für die Ein-Weg-MANOVA lautet:
yij = µ + αi + eij i = 1, ... , g j = 1, ... , ni (4.1)
wobei
yij Vektor mit den p Zielgrössen des j-ten Subjekts in der i-ten Gruppe
µ Vektor mit den allgemeinen Niveaus
αi Vektor mit den fixen Effekten der i-ten Gruppe
Nebenbedingung: α1 + ... + αg = 0
eij Vektor mit den zufälligen Fehlern: eij ~ Np( 0 , )
Die MANOVA ist eine Verallgemeinerung der ANOVA: während man bei der ANOVA Nullhypothesen
der Gleichheit von Populationsmittelwerten einer einzigen Zielvariablen prüft, handelt es sich bei der
MANOVA um die Prüfung simultaner Nullhypothesen für p Zielvariablen (z.B. H0: µ = 0 oder H0: αi = 0).
Bei der ANOVA zerlegen wir die Summe der quadrierten Abweichungen vom Gesamtmittelwert in einen
Teil, welcher durch das Modell „erklärt“ wird und in einen Rest, welcher sich aus den zufälligen Fehlern
ergibt. Die anschliessenden F-Tests basieren dann auf den „Durchschnittsquadraten“. Bei der MANOVA
erweitert sich eine Summe von Quadraten zu einer pp-Matrix der Summe von Quadraten und Produkten.
Diese Matrizen werden für den Signifikanztest nicht durch die entsprechenden Freiheitsgrade dividiert.
Variation df Matrix mit Summe von Quadraten und Produkten
zwischen Gruppen g - 1 B = i
g
1
ni( iy - y )( iy - y )'
innerhalb Gruppen N - g W = i
g
1 j
n i
1
(yij - iy )(yij - iy )'
total N - 1 B + W = i
g
1 j
n i
1
(yij - y )(yij - y )'
iy : Vektor mit den p Mittelwerten in der i-ten Gruppe
y : Vektor mit den p Gesamtmittelwerten
Eine ANOVA kann notfalls auch ohne Computer durchgeführt werden. Für eine MANOVA ist der
Aufwand wesentlich grösser. MANOVA-Programme berechnen die benötigten pp-Matrizen B, W und
B+W und führen den Globaltest nach drei bis vier verschiedenen Kriterien durch, wobei die Resultate meist
Repeated Measures Kapitel 4 26
sehr ähnlich (oder sogar identisch) sind. Das bekannteste Kriterium wurde von Wilks vorgeschlagen. Wilks'
Lambda (Λ*) ist ein Quotient von 2 Determinanten:
Λ* = │W│ ∕ │B + W│
Die Verteilung von Λ* kann unter H0: αi = 0 angegeben werden. H0 wird verworfen, wenn Λ* unter einem
kritischen Wert liegt. Rencher (1995) enthält ebenfalls ein gut verständliches Kapitel über die MANOVA.
Der Zusammenhang zwischen den verschiedenen Testkriterien wird ausführlich dargestellt.
MANOVA für wiederholte Messungen:
Im allgemeinen hat man es mit p unterschiedlichen Zielvariablen zu tun, welche eine beliebige Varianz-
Kovarianz-Struktur aufweisen können. Im Falle von p wiederholten Messungen pro Subjekt liegt ein
Spezialfall vor. Die p-dimensionale Beobachtung betrifft immer dieselbe Messgrösse. Die Varianz-
Kovarianzmatrix der p Messungen ist deshalb kaum beliebig, sondern durch die Art der Within-Subject-
Faktoren weitgehend festgelegt.
Nachteile:
• Die Standard-MANOVA liefert nur Signifikanztests für die Between-Subjects-Faktoren.
• Die Interpretation der Testergebnisse ist schwierig, da sie simultan auf p Variablen beruht.
• Je grösser p, desto kritischer wird die Voraussetzung multivariat-normalverteilter Fehler.
• Alle Beobachtungen, welche fehlende Werte enthalten sind – ohne Imputation - unbrauchbar.
• Die spezielle Struktur von wiederholten Messungen (gleiche Messgrösse und Abhängigkeitsstrukturen
durch die Nachbarschaftsverhältnisse) wird nicht berücksichtigt.
Der letzte Punkt ist sehr gravierend. Es müssen oft sehr viele Parameter, nämlich p Varianzen und p(p-1)/2
Kovarianzen geschätzt werden. Daraus erklärt sich eine verminderte statistische Macht im Vergleich zur
Methode, die im Kapitel 6 behandelt wird und bei der spezielle Abhängigkeitsstrukturen von wiederholten
Messungen berücksichtigt werden können.
*** Beispiel 4: Multivariate Auswertung
Die Messungen im Alter von 8, 10, 12 und 14 Jahren betrachten wir als Realisationen einer 4-
dimensionalen Zielgrösse mit den Komponenten Y1, Y2, Y3 und Y4. Das Modell lautet:
yij = µ + αi + eij i {M, K} j = 1, ... , ni mit nM = 11, nK = 16
wobei
yij Vektor mit den 4 Distanzen der j-ten Person innerhalb der i-ten Gruppe
µ , αi , eij gemäss (4.1)
Da es sich nur um 2 Gruppen handelt, könnte der Vergleich der beiden Gruppen auch mit dem T2-
Test nach Hotelling durchgeführt werden.
In der folgenden Tabelle sind die beobachteten Mittelwerte zusammengestellt. Ein altersbedingter
Anstieg ist deutlich erkennbar.
Repeated Measures Kapitel 4 27
Alter 8 10 12 14
Variable Y1 Y2 Y3 Y4
Gesamtmittelwert: y 22.185 23.167 24.648 26.093
Mittelwert Mädchen: My 21.182 22.227 23.091 24.091
Mittelwert Knaben: Ky 22.875 23.812 25.719 27.469
Der Unterschied zwischen den Gruppen wird mit den Elementen der iα̂ -Vektoren erfasst:
Variable Y1 Y2 Y3 Y4
Effekt Mädchen: Mα̂ -0.847 -0.793 -1.314 -1.689
Effekt Knaben: Kα̂ 0.847 0.793 1.314 1.689
Die Unterschiede zwischen Mädchen und Knaben nehmen mit dem Alter zu. Kann man simultan
einen Unterschied nachweisen? Wir haben bereits die Kovarianzmatrix innerhalb Gruppen bzw.
die Kovarianzmatrix der Fehler berechnet (vgl. Abschnitt 3.2 Matrix M5):
Y1 Y2 Y3 Y4
Y1 5.415
Y2 2.717 4.185 25 Freiheitsgrade M9
Y3 3.910 2.927 6.456
Y4 2.710 3.317 4.131 4.986
Wenn die Gruppierung nicht berücksichtigt wird (keine α-Effekte im Modell), erhält man aus den
Abweichungen vom entsprechenden Gesamtmittelwert die folgende Kovarianzmatrix:
Y1 Y2 Y3 Y4
Y1 5.926
Y2 3.285 4.654 26 Freiheitsgrade M10
Y3 4.875 3.859 7.939
Y4 4.040 4.532 6.197 7.655
Die Elemente der Matrix M10 sind grösser als diejenigen von M9. Durch Einbezug der
Gruppeneffekte haben wir somit einen Teil der Kovarianzmatrix M10 reduzieren können. Der
unerklärbare Teil ist in der Matrix M9 enthalten. Mit dem Vergleich von M9 mit M10 testet man
somit das Vorliegen von Gruppeneffekten.
Es gilt W = 25∙M9
B+W = 26∙M10
und wir erhalten folgende Resultate:
Wilks' Lambda = 0.602 F-Statistic = 3.632 DF = 4, 22 P = 0.02
Pillai Trace = 0.398 F-Statistic = 3.632 DF = 4, 22 P = 0.02
Hotelling-Lawley Trace = 0.660 F-Statistic = 3.632 DF = 4, 22 P = 0.02
Repeated Measures Kapitel 4 28
Interpretation: Die beiden Gruppen unterscheiden sich - multivariat betrachtet auf dem 5%-Niveau
signifikant (P = 0.02). Wir haben also die Hypothese αi = 0 bzw. μM – μK = 0 verworfen. Wie
dieser Unterschied zu interpretieren ist, muss noch genauer untersucht werden.
******
Mit der MANOVA lassen sich auch spezifische Hypothesen, z.B. über zeitliche Trends, prüfen. Wie die
MANOVA bei der Auswertung von wiederholten Messungen eingesetzt werden kann, zeigen z.B. Timm
(2002), Crowder & Hand (1990), Lindsey (1999) oder Davis (2002).
c11 c21 ... cp-1,1
c12 c22 ... cp-1,2
... ... ... ...
c1p c2p ... cp-1,p
Subjekt Y1 Y2 ... ... Yp L1 L2 ... Lp-1
1 y11 y12 ... ... y1p ÿ11 ÿ12 ... ÿ1,p-1
... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
N yN1 yN2 ... ... yNp ÿN1 ÿN2 ... ÿN,p-1
Standard-MANOVA
RM-MANOVA
Wir wollen der Frage nachgehen, ob der zeitliche Trend in den Gruppen parallel verläuft. Falls das zur
Verfügung stehende MANOVA-Programm das Testen von Kontrasten nicht unterstützt, gibt es trotzdem
eine einfache Möglichkeit, Hypothesen über Kontraste der Variablen (nicht der Gruppen) zu prüfen. Wir
betrachten dazu wieder das Beispiel 4.
Repeated Measures Kapitel 4 29
*** Beispiel 4: Multivariate Auswertung (Fortsetzung)
Die Parallelität des zeitlichen Verlaufs testen wir auf 2 gleichwertige Arten.
1) Über die Hypothesen, dass die Gruppen gleiche zeitliche Veränderungen aufweisen:
μM,2 – μM,1 = μK,2 – μK,1
μM,3 – μM,2 = μK,3 – μK,2
μM,4 – μM,3 = μK,4 – μK,3
bzw. (μM – μK)’C = 0’ , wobei C =
100
110
011
001
Um diese 3 Hypothesen simultan zu testen, kann man die Beobachtungsmatrix Y direkt mit C
multiplizieren und das Produkt YC mit einer MANOVA auf Gruppenunterschiede testen.
2) Parallelität des zeitlichen Verlaufs kann man mit fehlendem Unterschied im linearen,
quadratischen und kubischen Trend gleichsetzen. Dazu muss nur die Matrix C neu definiert
werden:
(μM – μK)’C = 0’ , wobei C =
113
311
311
113
Man erhält in beiden Fällen das knapp nicht-signifikante Resultat:
Hotelling-Lawley Trace = 0.352 F-Statistic = 2.695 DF = 3, 23 P = 0.07
Da sich die beiden Gruppen nur im linearen Trend unterscheiden, ist dieses Resultat verständlich.
******
Repeated Measures Kapitel 5 30
5. Mehrere Behandlungen an derselben Versuchseinheit
Behandlungen können besonders effizient miteinander verglichen werden, wenn an jedem Subjekt alle
Behandlungen zur Anwendung kommen. Im Idealfall ist eine parallele Anwendung möglich, wie etwa
beim Beispiel 1. Meist liegt eine randomisierte Blockanlage vor, wobei jedes Subjekt als Block interpretiert
wird. Erfolgt die Auswahl der Subjekte zufällig, dann werden ihnen im Rahmen einer Varianzanalyse
zufällige Effekte zugeordnet. In der Regel weisen die Within-Subject-Faktoren feste Effekte auf, was zu
einem gemischten Modell (mixed model ANOVA) führt. Diese Situation wird im Abschnitt 5.1 behandelt.
Falls eine parallele Anwendung von Behandlungen nicht möglich ist, kommen Wechselversuche (Cross-
over designs) zum Einsatz. Jedes Subjekt durchläuft eine Sequenz von verschiedenen Behandlungs-
perioden. Beim Beispiel 2 waren 4 mathematische Aufgaben zu lösen, wobei für jedes Subjekt eine
vorgeschriebene Reihenfolge festgelegt wurde. Wechselversuche müsssen sehr sorgfältig geplant und
ausgeführt werden, da Periodeneffekte und Nachwirkungseffekte die Resultate beeinflussen können.
Periodeneffekte lassen sich rechnerisch korrigieren, falls der Versuch ausbalanciert ist. Um Übertragungs-
und Nachwirkungseffekte auszuschliessen, werden zwischen den Behandlungen angemessene Pausen,
sogenannte Washout-Perioden, eingeschaltet. Beispiele folgen in den Abschnitten 5.2 und 5.3.
5.1 Parallele Anwendung mehrerer Behandlungen
*** Auswertung von Beispiel 1: Das Blutplasma derselben Person wurde parallel, d.h. am gleichen Tag
auf 4 verschiedene Arten behandelt. Von 8 Personen liegen je 4 entsprechende Gerinnungszeiten
[in Minuten] vor. Das gemischte Modell zu den Daten auf Seite 1 lautet:
yij = µ + i + j + eij i = 1, ... , n j = 1, ... , p mit n = 8, p = 4
wobei
yij Gerinnungszeit des Plasmas der i-ten Person mit j-ter Behandlung
µ allgemeines Niveau
i zufälliger Effekt der i-ten Person: i ~ i.i.d. N(0, 2A )
j fixer Effekt der j-ten Behandlung
eij zufälliger Fehler (untrennbar von allfälliger Interaktion): eij ~ i.i.d. N(0, e2
)
Im nachfolgenden Tukey-Anscombe Plot (Abb. 5.1) ist eine trichterförmige Struktur der Residuen
erkennbar. Die Anahme konstanter Fehlervarianz ist somit kaum erfüllt. Ein naheliegender Ausweg
besteht darin, die Zielgrösse geeignet zu transformieren. Bei Reaktionszeiten wirkt der Kehrwert
häufig varianzstabilisierend. In der weiteren Auswertung ist
Y = 100 / Gerinnungszeit d.h. Y ist nun die Gerinnungsrate pro Minute in %
Für die einzelnen Behandlungen resultieren folgende Kennzahlen:
Behandlung 1 2 3 4
mittlere Gerinnungsrate 10.97 10.67 10.25 9.28
Standardabweichung 1.51 1.81 1.44 1.47
Repeated Measures Kapitel 5 31
7 8 9 10 11 12 13 14 15
ESTIMATE
-2
-1
0
1
2
RE
SID
UA
L
Abbildung 5.1: Tukey-Anscombe plot der (untransformierten) Gerinnungszeiten
ANOVA-Tabelle für die Gerinnungsraten:
Ursache df SS MS F P E{MS}
Personen n-1 = 7 57.16 8.165 14.98 < 0.001 e2
+ p2A
Behandlung p-1 = 3 13.02 4.339 7.96 0.001 e2
+ nQB
Fehler (n-1)(p-1) = 21 11.45 0.545 e2
total np-1 = 31 81.63
Zur Variabilität innerhalb Personen tragen die unterschiedlichen Behandlungen signifikant bei. Der
kleine P-Wert zum Faktor Personen bedeutet, dass die Varianz 2A > 0 ist. Schätzwerte für e
2 und
2A können aus den Durchschnittsquadraten berechnet werden (
2A ist nur sinnvoll interpretierbar,
wenn die Personen wirklich zufällig aus einem grösseren Kollektiv gewählt wurden):
e2 = 0.545 und
2Â = (8.165 - 0.545) / 4 = 1.905
Die 4 Behandlungen vergleichen wir paarweise:
paarweise Differenzen P-Werte nach Fisher
1 2 3 4 1 2 3 4
1 0 1 1
2 0.30 0 2 0.418 1
3 0.72 0.41 0 3 0.065 0.276 1
4 1.69 1.39 0.97 0 4 0.000 0.001 0.015 1
Die Behandlung 4 unterscheidet sich signifikant von allen übrigen. Zwischen den Behandlungen 1,
2 und 3 sind die Unterschiede offensichtlich gering. Die Analyse der Residuen weist auf keine
Verletzung der Modellannahmen hin:
Repeated Measures Kapitel 5 32
-1.5
-0.5
0.5
1.5R
ES
IDU
AL
-3 -2 -1 0 1 2 3
Expected Value for Normal Distribution
******
5.2 Experimente mit mehreren Behandlungssequenzen
In der Verhaltensforschung, Psychologie und Medizin werden laufend Wechselversuche mit Tieren oder
Menschen durchgeführt, da die Behandlungen nicht parallel am gleichen Individuum angewendet werden
können. In einzelnen Fällen, wie beim Beispiel 2, wird die Behandlungssequenz bei der statistischen
Auswertung nicht berücksichtigt. Das kann durchaus berechtigt sein. Besser wäre jedoch eine
Berücksichtigung der Perioden und Behandlungssequenzen.
*** Beispiel 2: Auswertung ohne Berücksichtigung der Behandlungssequenz. Ein erster Blick auf die
Mittelwerte des Zeitbedarfs zeigt z.T. erhebliche Unterschiede zwischen den beiden Gruppen aber
auch zwischen den mathematischen Problemen:
Problem 1 Problem 2 Problem 3 Problem 4
alle Personen N = 17 33.3 53.4 39.5 51.1
Kontrollgruppe n1 = 9 43.2 60.1 45.0 52.9
trainierte Gruppe n2 = 8 22.1 45.8 33.3 49.1
Wir können bei der Auswertung dieses Wechselversuchs allfällige Perioden- und Übertragungs-
effekte nicht berücksichtigen, da uns nicht bekannt ist, in welcher Reihenfolge den Personen die 4
mathematischen Probleme präsentiert wurden.
Ein Split-Plot-Modell bietet sich hier an:
yijk = µ + i + j(i) + k + ()ik + ijk i = 1, 2 j = 1, ..., ni k = 1, ..., 4
wobei nun spezifisch
yijk Zeitbedarf der j-ten Person innerhalb der i-ten Gruppe für k-tes Problem
k fixer Effekt des k-ten mathematischen Problems
()ik fixer Effekt der Wechselwirkung von Gruppe und Faktor „Problem“
6 7 8 9 10 11 12 13
ESTIMATE
-1.5
-0.5
0.5
1.5
RE
SID
UA
L
Repeated Measures Kapitel 5 33
Die Anpassung an die Originaldaten ergab eine schiefe Verteilung der Residuen (vgl. Normal Plot),
was gegen die Voraussetzung der ANOVA verstösst.
-30
-20
-10
0
10
20
30
40
50
60
RE
SID
UA
L
-3 -2 -1 0 1 2 3
Expected Value for Normal Distribution
Verlässliche Resultate erhält man jedoch nach dem Logarithmieren der y-Werte. Die entspre-
chenden Mittelwerte lauten nun:
log-transformierte y-Werte Problem 1 Problem 2 Problem 3 Problem 4
alle Personen N = 17 3.27 3.83 3.50 3.84
Kontrollgruppe n1 = 9 3.61 4.04 3.65 3.84
trainierte Gruppe n2 = 8 2.90 3.58 3.33 3.84
Mit den log-transformierten y-Werten resultiert folgende ANOVA-Tabelle:
Ursache df SS MS F P E{MS}
Faktor A: Gruppe 1 2.36 2.36 5.74 0.030 e2
+ b·2 + bn·QA
Person innerh. Gruppe 15 6.16 0.41 e2
+ b·2
zwischen Personen 16 8.52
Faktor B: Problem 3 3.99 1.33 3.82 0.016 e2
+ an·QB
Gruppe Problem 3 1.12 0.37 1.07 0.372 e2
+ n·QAB
Fehler 2 45 15.68 0.35 e2
total 67 29.31 Annahme: ni = n
Algorithmen zur Bestimmung der Erwartungswerte für die Durchschnittsquadrate findet man u.a.
im Buch von Lorenzen and Anderson (1993). Aus der letzten Spalte leiten wir folgende Tests ab:
MSA wird mit MSPerson innerh. Gruppe verglichen. MSB und die Interaktion MSAxB werden mit MSFehler 2
verglichen.
Repeated Measures Kapitel 5 34
Interpretation:
• Die beiden Gruppen unterscheiden sich auf dem 5%-Niveau (P = 0.03). Die trainierten
Personen haben somit die Probleme in kürzerer Zeit gelöst.
• Zwischen den Problemen bestehen ebenfalls signifikante Unterschiede (P = 0.016). Die
Unterschiede zwischen den Problemen sind in beiden Gruppen ähnlich (P = 0.372).
Die Analyse der Residuen zeigt, dass die log-transformierten Daten wesentlich besser zu den
Modellvoraussetzungen passen:
******
5.3 Der AB/BA Wechselversuch
Um auf die Schwierigkeiten und Finessen von Wechselversuchen eingehen zu können, betrachten wir den
einfachsten Fall mit 2 Behandlungen (A und B) und 2 Behandlungsperioden. Dazwischen liegt eine
angemessene Pause (washout period). Nach der 2. Behandlung wird das Experiment abgebrochen und
statistisch ausgewertet. Aus Symmetriegründen sollten beide Behandlungssequenzen, also A→B und
B→A, möglichst gleich oft zur Anwendung kommen.
Modell 1 yijk = µ + πk + j(i) + αTi,k + (k-1)·λTi,k-1 + ijk
wobei:
i Index der Sequenz (i = 1, 2)
k Index der Periode (k = 1, 2)
Ti,k bezeichnet Behandlung: T1,1 = T2,2 = A,
T2,1 = T1,2 = B
πk Effekt der k-ten Periode (π1 + π2 = 0)
αT.,. Effekt der Behandlung T.,. (αA + αB = 0)
λT.,. Nachwirkungseffekt der Behandlung T.,. (λA + λB = 0)
j(i) Effekt von Individuum j in Sequenz i j(i) ~ i.i.d. N(0,2
)
ijk zufälliger Fehler ijk ~ i.i.d. N(0,e2
)
-1.5
-0.5
0.5
1.5
RE
SID
UA
L
-3 -2 -1 0 1 2 3
Expected Value for Normal Distribution
2.0 2.5 3.0 3.5 4.0 4.5
ESTIMATE
-1.5
-0.5
0.5
1.5
RE
SID
UA
L
Repeated Measures Kapitel 5 35
Erwartete Wirkung:
Periode 1 Periode 2
Sequenz 1 (A→B) E{ y 1.1} = µ + π1 + αA E{ y 1.2} = µ + π2 + αB + λA
Sequenz 2 (B→A) E{ y 2.1} = µ + π1 + αB E{ y 2.2} = µ + π2 + αA + λB
Aus obiger Aufstellung ist ersichtlich, wie bestimmte Effekte einfach geschätzt werden können:
Nachwirkungseffekt λ = λA – λB : (Summe in Sequenz 1 – Summe in Sequenz 2)
̂ = ( y 1.1 + y 1.2) – ( y 2.1 + y 2.2 ) mit E{ ̂ } = λ
Periodeneffekt π = π1 – π2 : (Summe in Periode 1 – Summe in Periode 2) / 2
̂ = [( y 1.1 y 2.1) – ( y 1.2 y 2.2 )] / 2 mit E{ ̂ } = π
Behandlungseffekt α = αA – αB : (Differenz in Periode 1 + Differenz in Periode 2) / 2
̂ = [( y 1.1 y 2.1) + ( y 2.2 y 1.2 )] / 2 mit E{ ̂ } = α – λ/2
Wenn somit ein positiver Nachwirkungseffekt λ existiert, wird der Behandlungseffekt eher unterschätzt.
Wir erhalten jedoch eine erwartungstreue Schätzung von α, wenn nur die Daten der 1. Periode verwendet
werden. Dies würde aber bedeuten, dass man mit demselben Aufwand ein besseres Experiment hätte
durchführen können.
*** Beispiel 6: Messungen der Lungenfunktion 8 Stunden nach der Behandlung (PEF: peak expiratory
flow in L/min). Behandlung A: Formoterol, Behandlung B: Salbutamol. Daten aus Senn, 1993:
PEF
Sequenz Patient Periode 1 Periode 2 Differenz Summe
A→B 1 310 270 40 580
4 310 260 50 570
6 370 300 70 670
7 410 390 20 800
10 250 210 40 460
11 380 350 30 730
14 330 365 -35 695
Mittel 337.1 306.4 30.7 643.6
B→A 2 370 385 -15 755
3 310 400 -90 710
5 380 410 -30 790
9 290 320 -30 610
12 260 340 -80 600
13 90 220 -130 310
Mittel 283.3 345.8 -62.5 629.2
Repeated Measures Kapitel 5 36
Einen guten Überblick erhalten wir aus den einzelnen Profilen:
Sequenz A -> B
Periode 1 Periode 2
0
100
200
300
400
500
PE
F
1411107641
Patient
Sequenz B -> A
Periode 1 Periode 2
0
100
200
300
400
500
PE
F
13129532
Patient
Die Behandlung A hat in beiden Gruppen besser abgeschnitten. Der Unterschied zwischen A und B
ist in der AB-Gruppe kleiner; evtl. durch Nachwirkung von Behandlung A.
Wir schätzen nun noch die einzelnen Effekte:
̂ = ( y 1.1 + y 1.2) – ( y 2.1 + y 2.2 ) = 643.6 – 629.2 = 14.4
̂ = [( y 1.1 y 2.1) – ( y 1.2 y 2.2 )] / 2 = [620.4 – 652.2] / 2 = -15.9
̂ = [( y 1.1 y 2.1) + ( y 2.2 y 1.2 )] / 2 = [30.7 + 62.5] / 2 = 46.6
Der Nachwirkungseffekt von 14.4 und der Periodeneffekt von –15.9 erweisen sich in den folgenden
Signifikanztests als nicht gesichert.
******
Repeated Measures Kapitel 5 37
Das Modell 1 ist für die Auswertung mit einem Standard-Statistikprogramm schlecht geeignet, da die
Nachwirkungseffekte erst ab der 2. Periode auftreten. Die beiden folgenden Modelle sind beim AB/BA-
Wechselversuch gleichwertig. Nachwirkungseffekte werden im Modell 2 über den Faktor Sequenz erfasst
(vgl. Schätzer für ̂ ) und im Modell 3 mit der Interaktion PeriodeBehandlung modelliert.
Modell 2 yijk = µ + i + j(i) + πk + αTi,k + ijk
Den Effekt der i-ten Sequenz bezeichnen wir mit i (1 + 2 = 0). Die Sequenz bestimmt die Gruppierung
der Patienten, ist damit der Between-Subjects-Faktor und wird entsprechend gegen die Variabilität der
Patienten getestet. Die Faktoren Sequenz, Behandlung und Periode sind gekreuzt. Es sind jedoch nur 4 der
8 möglichen Kombinationen im Experiment vertreten. Die Effekte sind deshalb nicht paarweise orthogonal.
*** Beispiel 6: Anpassung von Modell 2. Bei den SS-Werten handelt es sich um Type III SS:
Ursache df SS MS F P
Sequenz 1 335.2 335.2 0.03 0.861
Patient innerh. Sequenz 11 114878.3 10443.5
Behandlung 1 14035.9 14035.9 18.70 0.001
Periode 1 1632.1 1632.1 2.17 0.168
Fehler 2 11 8254.5 750.4
Der Faktor Sequenz bzw. Nachwirkungseffekt ist nicht signifikant. Der Behandlungsunterschied ist
signifikant. Der Einfluss der Periode ist nicht signifikant.
******
Modell 3 yijk = µ + j(i) + πk + αTi,k + (π α)k,Ti,k + ijk
Die Interaktion (π α)k,Ti,k spricht an, wenn der Unterschied zwischen den Behandlungen in den beiden
Perioden unterschiedlich ist. Diese Interaktion ist ebenfalls ein Between-Subjects-Effekt und wird
entsprechend gegen die Variabilität der Patienten getestet.
*** Beispiel 6: Anpassung von Modell 3:
Ursache df SS MS F P
Behandlung*Periode 1 335.2 335.2 0.03 0.861
Patient innerh. Sequenz 11 114878.3 10443.5
Behandlung 1 14035.9 14035.9 18.70 0.001
Periode 1 1632.1 1632.1 2.17 0.168
Fehler 2 11 8254.5 750.4
Repeated Measures Kapitel 5 38
Gegenüber der letzten ANOVA-Tabelle hat sich nur die Bezeichnung geändert. Der Tukey-
Anscombe plot zeigt keine gravierenden Abweichungen von den Modellannahmen.
100 150 200 250 300 350 400 450
-30
-20
-10
0
10
20
30
Tukey-Anscombe plot
fitted values
resid
ua
ls
******
Nachwirkungseffekte bereiten grosse Schwierigkeiten bei der Interpretation eines Wechselversuchs. Diese
sind beim AB/BA-Wechselversuch mit den Behandlungseffekten vermengt. Senn (1993) schlägt deshalb
vor, nur dann Wechselversuche durchzuführen, wenn Nachwirkungseffekte mit Sicherheit ausgeschlossen
werden können. Das 1965 von Grizzle empfohlene Vorgehen, beim Vorliegen von statistisch signifikanten
Nachwirkungseffekten nur die Daten der 1. Periode zu verwenden, wird heute als unbefriedigend eingestuft
(vgl. z.B. Lehmacher, 1997).
Es ist denkbar, dass man sich speziell für die Nachwirkungseffekte interessiert. Für solche Fälle wurden
spezielle Versuchspläne und Modelle entwickelt (vgl. z.B. Jones and Kenward, 2003).
Fehlende Werte führen ebenfalls zu Problemen. Subjekte mit fehlenden Werten können nur teilweise für die
statistische Auswertung verwendet werden, was die Effizienz von Wechselversuchen reduziert.
Repeated Measures Kapitel 6 39
6. Einsatz von Programmen für gemischte Modelle
Die meisten grösseren Statistik-Programme enthalten heute ein Modul zur Auswertung von linearen
Modellen mit gemischten Effekten. Seit rund 20 Jahren bietet SAS „Proc Mixed“ an. Die Funktion lme() in
den Paketen S-Plus und R wurde erstmals vor etwas mehr als 10 Jahren entwickelt. SPSS ist ab Version 11
mit einer Prozedur MIXED dabei und SYSTAT wartet ab Version 12 mit einer entsprechenden Prozedur
auf. Ab SAS 9.2 ist „Proc GLIMMIX“ auch für nicht-normalverteilte Zielgrössen verfügbar. In R bietet
lmer() eine flexiblere Alternative zu lme(), ist aber immer noch in Entwicklung begriffen.
6.1 Kurze Theorie zum linearen gemischten Modell (linear mixed model)
Das lineare Modell
y = Xβ + e (6.1)
mit dem Beobachtungsvektor y, der bekannten Strukturmatrix X, dem Vektor β der unbekannten, festen
Parameter und dem Vektor e der zufälligen Fehler mit Var{e} = 2I, wird bei einfacheren Untersuchungen
meist erfolgreich an die Daten angepasst. Bei der Analyse von Zeitreihen, komplexeren Experimenten und
Erhebungen in strukturierten Populationen sind die Annahmen über die zufälligen Fehler jedoch zu
restriktiv. Die Einführung von zufälligen Effekten führt zum gemischten Modell
y = Xβ + Zu + e (6.2)
Die zufälligen Fehler e werden ergänzt durch systematische zufällige Effekte, welche durch die bekannte
Strukturmatrix Z und den Vektor u festgelegt sind. Generell wird angenommen, dass die Elemente von u
und e normalverteilte Grössen sind mit
u ~ N(0, G) , e ~ N(0, R) und Cov{u, e} = 0
Somit wird Unabhängigkeit von u und e vorausgesetzt. G und R sind im Prinzip beliebige Kovarianz-
matrizen; bei vielen Anwendungen enthalten sie aber nur wenige Parameter. Das Modell (6.1) ist ein
Spezialfall von (6.2), falls Z = 0 und R = 2I.
Die Zielgrösse y wird durch 2 Verteilungen charakterisiert:
Bedingte Verteilung: y | u ~ N(Xβ + Zu, R)
Randverteilung: y ~ N(Xβ, V)
wobei V = ZGZ' + R (6.3)
Je nach Betrachtungsweise erhalten wir für y andere Niveaus (und damit auch andere Residuen):
E{y | u} = Xβ + Zu
E{y} = Xβ
Bei Messwiederholungen repräsentiert ZGZ' meist den Anteil der Kovarianz von Subjekt zu Subjekt und R
denjenigen innerhalb Subjekt. Je nach Situation lassen sich für G und R spezifische Strukturen herleiten,
welche sich dann auf die Struktur von V auswirken.
Repeated Measures Kapitel 6 40
*** Fiktives Beispiel
Bei N Individuen wird zu den Zeitpunkten x1 = 1, x2 = 2 und x3 = 3 das Merkmal Y festgehalten. Für
die j-te Messung am Individuum i benutzen wir folgendes Modell:
yij = β0 + β1xj + ui +eij i = 1, …, N j = 1, 2, 3
Mit den Parametern β0 und β1 wird ein mittlerer linearer Trend erfasst. Für jedes Individuum ist
zudem eine zufällige Abweichung ui vom mittleren Niveau β0 vorgesehen.
Für das i-te Individuum erhalten wir in Matrixschreibweise: yi = Xiβ + Ziui + ei
yi =
i1
i2
i3
y
y
y
Xi =
31
21
11
β =
1
0 Zi =
1
1
1
ui = ui ei =
i1
i2
i3
e
e
e
Die Matrizen Xi und Zi sind für alle n Individuen identisch. Die Gesamtzahl der Messungen in y
beträgt 3N. Das Modell y = Xβ + Zu + e enthält folgene Komponenten:
y =
N
2
1
y
y
y
X =
N
2
1
X
X
X
Z =
N
2
1
Z00
0Z0
00Z
u =
N
2
1
u
u
u
e =
N
2
1
e
e
e
Var{u} = GNN =
2
u
2
u
2
u
0 0
0 0
0 0
Var{e} = R3N3N = 2I3N3N
In G und R kommen somit nur 2 freie Parameter vor, nämlich 2u und 2. Da Messungen von
verschiedenen Individuen unabhängig sind, entsteht in V eine Blockstruktur entlang der Haupt-
diagonalen:
Var{y} = V =
N
2
1
V00
0V0
00V
wobei Vi =
2 2 2 2
u u u
2 2 2 2
u u u
2 2 2 2
u u u
Bei jedem Individuum resultiert somit eine Kovarianzmatrix mit compound symmetry für die 3
wiederholten Messungen.
******
Repeated Measures Kapitel 6 41
Ergänzung: diverse weitere Kovarianzmatrix-Strukturen für p wiederholte Messungen
unstrukturiert Σpp =
2
1 12 13 1p
2
2 23 2p
2
3 3p
2
p
Compound Symmetry Σpp = 2
1
1
1
1
AR(1) Σpp =
1 2 p 1
1 p 2
2 p 3
1
1
1
1
Toeplitz Σpp =
1 2 3 p 1
1 2 p 2
1 p 32
1
1
1
1
1
Schätzproblem:
Das Schätzproblem ist beim gemischten Modell (6.2) wesentlich aufwändiger als beim einfacheren Modell
(6.1). Die GLS-Methode (generalized least-squares) minimiert den Ausdruck
(y-Xβ)'V1(y-Xβ)
wobei aber V bzw. G und R bekannt sein müssen. Bei der „estimated GLS“-Methode werden vorgängig die
Elemente von V mit vernünftigen Schätzungen von G und R festgelegt.
Alternative Methoden sind Likelihood-basiert, wobei von normalverteilten Elementen in u und e ausge-
gangen wird. Bei der ML- und REML-Methode (restricted/residual ML) werden alle unbekannten
Parameter simultan geschätzt. Es kann gezeigt werden, dass die Maximierung/Minimierung der Log-
Repeated Measures Kapitel 6 42
likelihood nur von den Parametern in G und R abhängt. Die nicht-iterative MIVQUE0-Methode dient zur
Schätzung von G und R. Diese Methode wird u.a. für grosse Datensätze empfohlen oder falls ML oder
REML nicht konvergieren.
ML, REML und MIVQUE0 führen zur Schätzung von G und R. Die Schätzung von β und u erfolgt in der
Regel über die Lösung der „mixed model equations“
111
11
''
''
GZRZXRZ
ZRXXRX
u
β
ˆ
ˆ=
yRZ
yRX1
1
'
'
Es resultiert β̂ = yVXXVX 111 '' und û = βXyVGZ ˆ' 1 .
G und R sind bekannt: Falls G und R bekannt sind, ist β̂ ein BLUE-Schätzer (best linear unbiased
estimator) von β und û ein BLUP-Schätzer (best linear unbiased predictor) von u. β̂ und û haben die
Kovarianzmatrix
Var{
u
β
ˆ
ˆ} = C =
1
111
11
''
''
GZRZXRZ
ZRXXRX
G und R sind unbekannt: Dies ist der Normalfall. In V und C werden G und R durch die entsprechenden
Schätzwerte ersetzt. Damit wird die Variabilität von β̂ und û eher unterschätzt, da nicht berücksichtigt ist,
dass die geschätzten Matrizen eine Unsicherheit aufweisen. Auch sind dann β̂ und û nur noch empirical
BLUE bzw. empirical BLUP.
Test von Hypothesen über β und u:
Beim Wald-Test wird der geschätzte Parameter durch den asymptotischen Standardfehler dividiert, welcher
aus der Informationsmatrix berechnet wird. Dieser Test ist jedoch nur bei grossen Datensätzen angebracht.
Eine Alternative ist der Likelihood-Quotienten-Test, welcher sich aus dem Vergleich der Modelle mit und
ohne zu testende Parameter ergibt. Da die Testgrösse approximativ 2-verteilt ist, ist auch dieser Test für
kleinere Datensätze nicht besonders geeignet.
Eine Linearkombination c'β wird geschätzt durch ˆc'β mit der Varianz -1
-1c' X'V X c . Das Testen von
Hypothesen über die festen Parameter in β erfolgt mit F-Tests, wobei die Wahl des korrekten
Freiheitsgrades im Nenner ein schwieriges Problem darstellt.
Die Angaben in diesem Abschnitt sind zum grössten Teil dem Buch von Littell et al. (2006) und dem
Artikel von Littell et al. (2000) entnommen. Dort sind auch viele Hinweise auf die Spezialliteratur
enthalten. Eine umfassende Darstellung für R- und S-Plus-AnwenderInnen findet man im Buch von
Pinheiro & Bates (2000) anhand vieler Beispiele.
Repeated Measures Kapitel 6 43
6.2 Erneute Auswertung von Beispiel 4
In der Praxis trifft man recht häufig auf folgende Aufgabe: mehrere Gruppen von relativ glatten Profilen