Repeated Measures - ETH Zürich - Homepage | ETH Zürich · 2016. 9. 28. · 3 Univariate Varianzanalyse (RM ANOVA) 3.1 Compound symmetry und Intra-Class-Korrelation 13 3.2 Das Split-Plot-Modell

Weiterbildungslehrgang

in angewandter Statistik

2013 / 2014

Repeated Measures

Verlaufskurven und andere wiederholte Messungen

Dr. Hans-Rudolf Roth

ETH Zürich

Seminar für Statistik

Rämistrasse 101, CH-8092 Zürich

[email protected]

Repeated Measures

1 Einführende Beispiele 1

2 Analyse von prägnanten Profil-Eigenschaften

2.1 AUC und verwandte Profil-Eigenschaften 7

2.2 Regressionskoeffizienten von einzelnen Profilen 10

3 Univariate Varianzanalyse (RM ANOVA)

3.1 Compound symmetry und Intra-Class-Korrelation 13

3.2 Das Split-Plot-Modell 14

3.3 Kovarianzstruktur von Messungen mit zeitlicher oder räumlicher Distanz 18

3.4 Wachstumskurven 19

4 Multivariate Varianzanalyse 25

5 Mehrere Behandlungen an derselben Versuchseinheit

5.1 Parallele Anwendung mehrerer Behandlungen 30

5.2 Experimente mit mehreren Behandlungssequenzen 32

5.3 Der AB/BA Wechselversuch 34

6 Einsatz von Programmen für gemischte Modelle

6.1 Kurze Theorie zum linearen gemischten Modell (linear mixed model) 39

6.2 Erneute Auswertung von Beispiel 4 43

7 Schlussbemerkungen

7.1 Argumente gegen den Gruppenvergleich für jeden Zeitpunkt 49

7.2 Kurze Zusammenfassung 50

8 Literatur 51

Repeated Measures Kapitel 1 1

1. Einführende Beispiele

Wiederholte Messungen (Repeated Measures) entstehen, wenn ein bestimmtes Merkmal bei jedem

„Subjekt“ mehrfach erfasst wird. Der technische Begriff „Subjekt“ steht für eine beliebige Beobachtungs-

oder Versuchseinheit. Es kann sich also um ein einzelnes Lebewesen, eine Gruppe von Lebewesen, aber

auch um irgend ein System oder Objekt handeln. Auf wiederholte Messungen stösst man in der Praxis sehr

häufig. Mehrheitlich handelt es sich um zeitlich aufeinanderfolgende Messungen, sogenannte longitudinale

Daten oder Verlaufskurven. Bei der statistischen Auswertung ist zu berücksichtigen, dass alle Werte,

welche zum gleichen Subjekt gehören, eine Abhängigkeitsstruktur aufweisen. Da viele elementare

Methoden der Statistik unabhängige Daten voraussetzen, sind sie für wiederholte Messungen nur

beschränkt brauchbar. Für Situationen mit gepaarten Daten, also mit genau zwei Messungen pro Subjekt,

sind meist Standardverfahren verfügbar. Bonate (2000) gibt dazu eine interessante Zusammenstellung.

Auch bei Hedeker (2006) findet man entsprechende Modelle. Für eine korrekte und adäquate Auswertung

von Situationen mit mehr als zwei Messungen pro Subjekt, sind im allgemeinen spezielle Methoden

erforderlich. Unter Umständen kann aber eine Aggregierung der wiederholten Messungen (vgl. Kapitel 2)

die statistische Auswertung wesentlich vereinfachen.

Wiederholte Messungen werden verwendet:

• Um eine dynamische Entwicklung (z.B. Wachstum, Alterungsprozess, Abklingen eines Behandlungs-

effekts) zu erforschen.

• Um die Reaktion auf wiederholte Verabreichung derselben Behandlung zu erforschen.

• Um die Reaktion auf eine Sequenz von verschiedenen Behandlungen zu erforschen.

• Um die Genauigkeit einer Messmethode zu bestimmen und um Messmethoden zu vergleichen.

• Um den Einfluss des Messortes oder des Messzeitpunktes zu bestimmen.

• Um Behandlungseffekte besser vergleichen zu können, wenn die Variabilität zwischen den

Versuchseinheiten gross ist.

Einige einfache Beispiele sollen das breite Spektrum der „repeated measures designs“ andeuten.

Beispiel 1: Gerinnungszeit von Blutplasma (aus Armitage & Berry, S. 219).

Blut von Behandlung

Person A B C D Mittel

1 8.4 9.4 9.8 12.2 9.95

2 12.8 15.2 12.9 14.4 13.82

3 9.6 9.1 11.2 9.8 9.92

4 9.8 8.8 9.9 12.0 10.12

5 8.4 8.2 8.5 8.5 8.40

6 8.6 9.9 9.8 10.9 9.80

7 8.9 9.0 9.2 10.4 9.38

8 7.9 8.1 8.2 10.0 8.55

Mittel 9.30 9.71 9.94 11.02 9.99

Es handelt sich um einen Vergleich von 4 verschiedenen Behandlungen des Blutplasmas. Gemessen wurde

jeweils die Gerinnungszeit (bis zur Koagulation) in Minuten. Um die Genauigkeit des Versuchs zu steigern,

wurde das Plasma derselben Person aufgeteilt und mehrfach verwendet. Es handelt sich somit um einen


vollständig randomisierten Blockversuch, wobei das Plasma derselben Person als Block aufgefasst wird.

Man hofft, die Variabilität der Gerinnungszeiten innerhalb eines Blocks, durch die unterschiedlichen

Behandlungen weitgehend erklären zu können. Die Variabilität zwischen den Blöcken wird durch die

Auswahl der Personen beeinflusst. Ein breites Personen-Spektrum erhöht die Ausagekraft der Resultate, ist

also meist erwünscht.

Die Reihenfolge der Behandlungen in der Grafik ist willkürlich. Um die Herkunft der wiederholten

Messungen zu verdeutlichen, sind die Werte desselben Blutes mit einer Linie verbunden. Auffällig sind die

hohen Werte von Person 2.

******

Beispiel 2:

Zeitbedarf zur Lösung von 4 mathematischen Problemen (aus: E.F. Vonesh and V.M. Chinchilli, S. 111)

Problem Problem

Person 1 2 3 4 Person 1 2 3 4

C 1 43 90 51 67 E 1 10 81 43 33

C 2 87 36 12 14 E 2 58 84 35 43

C 3 18 56 22 68 E 3 26 49 55 84

C 4 34 73 34 87 E 4 18 30 49 44

C 5 81 55 29 54 E 5 13 14 25 45

C 6 45 58 62 44 E 6 12 8 40 48

C 7 16 35 71 37 E 7 9 55 10 30

C 8 43 47 87 27 E 8 31 45 9 66

C 9 22 91 37 78

17 Personen wurden zufällig in 2 Gruppen aufgeteilt. Die Personen der Gruppe E wurden einem

Spezialtraining unterzogen. Die Gruppe C diente als Kontrollgruppe. Zur Überprüfung der Wirksamkeit des

Trainings musste jede Person dieselben 4 mathematischen Probleme lösen, wobei die 4 Probleme jeder

Person in einer individuellen Reihenfolge präsentiert wurden. Zielgrösse ist der Zeitbedarf [min] zur

Lösung eines Problems. Pro Person liegen somit 4 wiederholte Messungen vor.


Als neues Element haben wir hier die Gruppierung der Personen. Die Studie sollte allfällige Unterschiede

a) zwischen den Gruppen und b) zwischen den Problemen aufzeigen. Für die Beurteilung von

Unterschieden zwischen den beiden Gruppen ist die Variabilität von Person zu Person massgebend.

******

Beispiel 3:

Hormon-Spiegel im Serum (aus D.G. Altman, S. 427)

Mit dieser Studie sollte abgeklärt werden, wie sich durch nasal verabreichtes Progesteron (ein weibl.

Sexualhormon) die Progesteron-Konzentration im Blutserum verändert. Mehrere Frauen wurden zufällig in

4 Gruppen eingeteilt. In jeder Gruppe wurde eine andere Dosierung gewählt:

• Gruppe 1: 0.2 ml einer 100 mg/ml Progesteron-Lösung in ein Nasenloch



• Gruppe 4: 0.2 ml einer 100 mg/ml Progesteron-Lösung in beide Nasenlöcher

Bei jeder Frau waren 10 Messungen [in nmol/l] geplant, wobei die Zeitabstände von Messung zu Messung

verlängert wurden. Wichtig sind hier nicht nur die zeitlichen Veränderungen der Konzentration innerhalb

einer Person, sondern auch allfällige Unterschiede zwischen den Gruppen.

Zeit nach Behandlung (Minuten)

Gruppe Frau 0 1 3 5 10 15 30 45 60 120

1 1 1.0 . 10.0 16.0 22.0 20.0 16.0 . 18.0 14.0

2 6.5 5.7 9.5 11.6 17.5 27.3 28.5 22.4 19.3 10.0

3 3.0 4.0 4.0 13.0 15.8 19.5 21.2 17.9 10.7 13.4

4 1.0 2.1 9.7 . 21.8 . 27.5 . 15.5 6.2

5 1.0 1.0 1.0 4.2 22.6 23.9 45.5 42.6 35.0 10.6

6 1.0 1.0 1.0 1.0 3.9 14.7 17.6 16.1 8.8 10.8

Gruppe C

P1 P2 P3 P4

Problem

0

20

40

60

80

100

Ze

itbe

da

rf

Gruppe E

P1 P2 P3 P4

Problem

0

20

40

60

80

100

Ze

itbe

da

rf


Zeit nach Behandlung (Minuten)

Gruppe Frau 0 1 3 5 10 15 30 45 60 120

2 7 1.0 1.5 5.0 11.0 16.0 23.0 15.0 9.0 6.0 5.0

8 1.0 1.0 6.5 20.0 22.5 27.8 19.0 9.0 8.2 8.0

9 1.0 1.0 7.3 7.5 18.0 20.0 18.9 12.8 6.3 4.8

10 3.0 2.5 2.0 2.7 3.4 3.6 14.0 7.3 7.7 4.7

11 8.3 7.5 9.6 11.0 11.5 15.7 15.2 15.8 14.0 11.5

12 6.2 5.9 6.8 7.7 9.0 9.3 12.1 12.2 11.0 9.0

3 13 8.4 10.8 8.1 7.8 8.5 12.0 19.8 22.2 25.2 40.5

14 3.5 3.2 3.4 3.3 8.5 9.4 14.5 12.7 11.5 10.2

15 3.5 4.0 4.8 3.5 3.7 13.0 12.5 15.0 22.0 10.5

16 3.7 3.2 4.3 4.5 5.5 8.5 10.3 11.1 8.0 6.0

4 17 5.0 5.6 6.1 7.2 13.8 26.0 26.1 25.7 20.5 11.0

18 4.5 5.1 13.2 21.0 26.8 28.0 22.0 17.8 15.7 14.0

19 8.4 6.2 8.0 18.5 33.8 35.0 26.2 23.0 19.0 12.6

20 4.2 3.2 4.2 4.8 10.3 13.7 17.1 18.3 17.4 15.8

1

0 50 100 150

T

0

10

20

30

40

50

Y

2

0 50 100 150

T

0

10

20

30

40

50

Y

3

0 50 100 150

T

0

10

20

30

40

50

Y

4

0 50 100 150

T

0

10

20

30

40

50

Y

5

0 50 100 150

T

0

10

20

30

40

50

Y

6

0 50 100 150

T

0

10

20

30

40

50

Y

7

0 50 100 150

T

0

10

20

30

40

50

Y

8

0 50 100 150

T

0

10

20

30

40

50

Y

9

0 50 100 150

T

0

10

20

30

40

50

Y

10

0 50 100 150

T

0

10

20

30

40

50

Y

11

0 50 100 150

T

0

10

20

30

40

50

Y

12

0 50 100 150

T

0

10

20

30

40

50

Y

13

0 50 100 150

T

0

10

20

30

40

50

Y

14

0 50 100 150

T

0

10

20

30

40

50

Y

15

0 50 100 150

T

0

10

20

30

40

50

Y

16

0 50 100 150

T

0

10

20

30

40

50

Y

17

0 50 100 150

T

0

10

20

30

40

50

Y

18

0 50 100 150

T

0

10

20

30

40

50

Y

19

0 50 100 150

T

0

10

20

30

40

50

Y

20

0 50 100 150

T

0

10

20

30

40

50

Y

Bei den 20 Einzelverläufern (Profilen) fällt vor allem die grosse Variabilität auf. Mehrheitlich folgt auf

einen schnellen Anstieg ein langsamer Abfall. Das Profil 13 ist sehr atypisch. Störend sind auch die

fehlenden Werte bei den Profilen 1 und 4.

******


Beispiel 4: Zahnmedizinische Distanz [mm] (from the centre of the pituitary to the pteryomaxillary fissure),

gemessen in Abständen von 2 Jahren bei 11 Mädchen und 16 Knaben (beliebtes Beispiel, z.B. aus Lindsey,

S. 77 ff. oder aus Hand & Crouder, S. 28 ff.).

Drei wesentliche Fragen waren bei dieser Erhebung von Interesse:

• Verändert sich die Distanz mit dem Alter?

• Verlaufen die Profile von Mädchen und Knaben parallel?

• Wenn ja, sind die mittleren Niveaus der Profile von Mädchen und Knaben gleich?

******

Was ist den 4 Beispielen gemeinsam und worin unterscheiden sie sich?

Between-Subjects- Within-Subject- wiederholte

Beispiel Faktor Faktor Messungen Zielgrösse

1 — Behandlung 4 Gerinnungszeit (stetig)

2 Training math. Problem 4 Zeitbedarf (stetig)

3 Dosierung Zeit 10 Progesteronspiegel (stetig)

4 Geschlecht Alter 4 Distanz (stetig)

• Das Beispiel 1 ist besonders einfach, da kein Between-Subjects-Faktor vorliegt. Es resultiert für den

Within-Subject-Faktor eine vollständig randomisierte Blockanlage.

• Beispiel 2 ist vom Ablauf her ein Wechselversuch (Cross-over Design) bezüglich des Within-Subject-

Faktors. Das Beispiel kann aber auch als Spaltanlage (Split Plot Design) interpretiert werden (Person

als „Main Unit“ und Periode zur Lösung eines mathematischen Problems als „Sub Unit“).

• Bei den Beispielen 3 und 4 handelt es sich um longitudinale Daten. Die Reihenfolge der wiederholten

Messungen ist durch den Within-Subject-Faktor Zeit gegeben. Beim Faktor Zeit bzw. Alter ist keine

Randomisierung möglich. Es resultiert eine spezielle Abhängigkeitsstruktur: je kleiner der zeitliche

oder räumliche Abstand zwischen wiederholten Messwerten ist, desto stärker sind sie untereinander

korreliert. Beim Beispiel 4 zeigen die Profile einen relativ einfachen Verlauf, ganz im Gegensatz zu

den Progesteron-Spiegeln von Beispiel 3.

Mädchen

8 10 12 14

Alter

16

20

24

28

32

Dis

tan

z

1234567891011

PERSON

Knaben

8 10 12 14

Alter

16

20

24

28

32

Dis

tan

z

12131415161718192021222324252627

PERSON


Einige zusätzliche Modellkomponenten und Komplikationen

• Mehrere Within-Subject-Faktoren bestimmen die Struktur der wiederholten Messungen; z.B. Messung

einer Aktivität zu bestimmten Tageszeiten an mehreren Tagen.

• Mehrere Between-Subjects-Faktoren bestimmen die Gruppierung der Subjekte; z.B. Personen aus

mehreren Altersklassen und Regionen.

• Die Zielgrösse kann nicht durch eine Normalverteilung approximiert werden: es handelt sich dabei z.B.

um Häufigkeiten oder Anteilswerte, sowie binäre, ordinal skalierte oder kategoriale Variablen.

• Es werden zusätzliche Kovariablen erhoben:

• sie sind subjekt-spezifisch, wenn sie für alle Messungen eines Subjekts konstant sind

• sie sind zeitvariierend (time varying covariates), wenn sie bei jeder wiederholten Messung einen

anderen Wert annehmen können.

Unterschiede zwischen Verlaufskurven (longitudinal data) und Zeitreihen (time series)

• Bei Zeitreihen handelt es sich meist um sehr viele Messungen, welche in regelmässigen Zeitabständen

am gleichen Messort oder Objekt erhoben wurden.

• Bei den Verlaufskurven liegen immer mehrere Verläufe vor, die häufig eher kurz sind.

• Der zeitliche Abstand zwischen aufeinanderfolgenden Messwerten muss bei Verlaufskurven nicht

konstant sein. Es ist sogar möglich, dass das Zeitmuster von Subjekt zu Subjekt variiert.

• Etliche Aspekte der Zeitreihenanalyse, wie Periodizität und Stationarität, sind bei Verlaufskurven im

allgemeinen nicht von Interesse.

Statistische Auswertung von wiederholten Messungen

Wiederholte Messungen sind mit sehr unterschiedlichen Fragestellungen verbunden. Es gibt deshalb keine

Standardanalyse. Die Art der Zielgrösse beeinflusst die Auswertungsmethodik ganz wesentlich. Für

quantitative, normalverteilte Merkmale stehen bekannte und bewährte Methoden zur Verfügung. Für

Häufigkeiten oder kategorielle Zielgrössen sind die Methoden erst in Entwicklung begriffen. Mehr dazu

findet man bei Lindsey (1999), Davis (2002) und Molenberghs and Verbeke (2005). Oft werden Ad-hoc-

Methoden verwendet.

Im Rahmen dieses Kurses müssen wir uns auf stetige Messwerte beschränken. Die 4 Beispiele werden z.T.

nach mehreren Kriterien ausgewertet. Ein 5. Beispiel wird im Abschnitt 3.4 und ein 6. Beispiel im

Abschnitt 5.3 eingeführt.

Beispiel Auswertung im Abschnitt

1 5.1

2 5.2

3 2.1

4 2.2 ; 3.2 ; 4 ; 6.2

5 3.4

6 5.3

Beachten Sie unbedingt auch den Abschnitt 7.1 über einen häufig anzutreffenden Fehler bei der

Auswertung und Interpretation von Verlaufskurven.


2. Analyse von prägnanten Profil-Eigenschaften

Falls man die wiederholte Messungen eines Subjekts mit einen Linienzug verbindet, entstehen sogenannte

Profile. Die statistische Auswertung dieser Profile wird enorm erleichtert, falls es gelingt, die einzelnen

Profile durch eine Kenngrösse oder durch wenige Kenngrössen zu ersetzen (summary measures approach).

Damit wird einerseits die Datenmenge reduziert und andererseits die Abhängigkeitsstruktur der Daten

vereinfacht. Eine konventionelle statistische Auswertung dieser prägnanten Profil-Eigenschaften liefert

häufig gut interpretierbare Ergebnisse, die auch durch eine Auswertung mit einem komplizierten Modell

kaum verbessert werden können.

Subjekt Y1 Y2 ... ... Yp Ÿ1 Ÿ2 ... Ÿq

1 y11

y12

... ... y1p

ÿ11

ÿ12

... ÿ1q

... ... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ... ...

N yN1

yN2

... ... yNp

ÿN1

ÿN2

... ÿNq

p Messwerte

q Profil-Eigenschaften

(q < p)

2.1 AUC und verwandte Profil-Eigenschaften

Bei vielen medizinischen oder physiologischen Anwendungen wird eine Substanz den Patienten oder

Probanden von aussen zugeführt. Sie verteilt sich im Körper und wird mit der Zeit wieder ausgeschieden

oder abgebaut. Es sind dann ähnliche Profile wie im Beispiel 3 (vgl. Seite 4) zu erwarten.

Die Fläche unter der Kurve (AUC = area under curve):

Die Fläche unter der Kurve ist ein Mass für die globale oder kumulative Reaktion eines Individuums auf

einen Stimulus. Zur Berechnung der AUC (natürlich für jedes Individuum separat) werden üblicherweise

die aufeinanderfolgenden Messwerte durch eine Gerade verbunden. Die Fläche unter diesem Linienzug

setzt sich aus einzelnen Trapezen zusammen. Für die Zeitpunkte tj und tj+1 mit den Messwerten yj und yj+1

ergibt sich die Trapezfläche nach der Formel

Trapezfläche = (tj+1 - tj)( yj + yj+1)/2


Weitere prägnante Profil-Eigenschaften können z.B. sein:

• Mittelwert oder Median aller Messungen

• Höhe des Maximums (Peak)

• Differenz zwischen erster und letzter Messung

• abschliessendes Niveau (Plateau)

• Zeit bis zum Erreichen - des Maximums (TTP = time to peak)

- eines bestimmten Niveaus bzw. einer bestimmten Veränderung

- des maximalen Anstiegs bzw. Abfalls

• Zeit über einem bestimmten Niveau

• Polynomiale Komponente (linear, quadratisch, … )

*** Auswertung von Beispiel 3 anhand von prägnanten Profil-Eigenschaften:

Profil-Eigenschaft

Gruppe Frau PEAK TTP AUC

1 1 3.091 10 332.5

2 3.350 30 341.0

3 3.054 30 313.7

4 3.314 30 313.9

5 3.816 30 370.0

6 2.868 30 271.3

Mittel 3.249 26.7 323.7

2 7 3.135 15 246.5

8 3.325 15 281.5

9 2.998 15 253.8

10 2.639 30 218.1

11 2.760 45 311.2

12 2.501 45 278.6

Mittel 2.893 27.5 264.9

3 13 * 3.701 120 374.9

14 2.674 30 281.6

15 3.091 60 307.4

16 2.407 45 243.3

Mittel 2.724 45.0 277.4

4 17 3.262 30 342.4

18 3.332 15 340.8

19 3.555 15 353.8

20 2.907 45 324.8

Mittel 3.264 26.3 340.4

P-Wert aus ANOVA 0.065 0.215 0.003

Unterschiede nach Tukey keine keine 21 , 24

* in den Berechnungen (Mittelwerte, ANOVA, Tests) unberücksichtigter „Ausreisser“


1 2 3 4

Gruppe

0

50

100

150

TT

P

Alle Messwerte (vgl. Daten ab Seite 3) wurden zuerst logarithmiert und dann pro Individuum auf

wenige prägnante Eigenschaften reduziert: auf das Maximum (PEAK), die Zeit bis zum Erreichen

des Maximums (TTP) und die Fläche unter der Kurve (AUC).

Gruppenvergleiche mit den komprimierten Zielgrössen (PEAK, TTP, AUC) können z.B. mit

folgenden statistischen Methoden erfolgen:

• ANOVA für jede Zielgrösse separat (zusammengefasst in obiger Tabelle)

• simultane multivariate ANOVA (MANOVA)

Univariate ANOVA’s:

Für die Zielgrösse PEAK liegt der P-Wert nur knapp über 5% (P = 0.065). Bezüglich der

Zielgrössen TTP sind die Unterschiede zwischen den Gruppen gering (P = 0.215). Signifikante

Unterschiede erhält man bei den AUC-Werten (P = 0.003).

Mit der MANOVA (vgl. Kapitel 4) lassen sich keine signifikanten Unterschiede zwischen den

Gruppen nachweisen (P = 0.06 mit Wilks' Lambda, Pillai Trace und Hotelling-Lawley Trace). Die

statistische Macht (power) dieser Methode ist bei kleinen Stichproben gering.

******

1 2 3 4

Gruppe

2.0

2.5

3.0

3.5

4.0

PE

AK

1 2 3 4

Gruppe

200

250

300

350

400

AU

C


Aber:

• Schon in der Planungsphase einer Studie muss überlegt werden, welche Profil-Eigenschaften wesentlich

sind, da die Wahl der Messzeitpunkte bzw. -orte die Genauigkeit dieser Eigenschaften beeinflusst.

• Soll die AUC über den ganzen Bereich berechnet werden oder nur für einen kürzeren Abschnitt?

• Soll für die AUC die Baseline berücksichtigt bzw. abgezogen werden?

• Fehlende Messwerte reduzieren die Genauigkeit der Profil-Eigenschaften.

• Wie vertrauenswürdig sind statistische Aussagen, wenn die Profil-Eigenschaften erst nach dem

Betrachten der Daten festgelegt werden?

2.2 Regressionskoeffizienten von einzelnen Profilen

Falls die einzelnen Profile nicht allzu unähnlich sind und einen relativ glatten Verlauf aufweisen, liegt es

nahe, jedes Profil durch eine Regressionskurve zu charakterisieren. Die Koeffizienten dieser Regressions-

kurven enthalten die Information über jedes Profil in komprimierter Form und können somit auch als

prägnante Profil-Eigenschaften betrachtet werden. Die Auswertung kann auf zwei Arten erfolgen:

in zwei Schritten, wobei zuerst alle Regressionsparameter geschätzt und diese anschliessend einer

statistischen Prüfung unterzogen werden. Dazu ist in der Regel keine Spezialsoftware erforderlich.

simultan mit Hilfe eines Programms für gemischte Effekte (vgl. Kapitel 6). Diese Methodik hat in der

Fachliteratur mehrere Namen: random coefficients, random growth curves models, multi-level models,

random effect models oder hierarchical models.

*** Auswertung von Beispiel 4 anhand von individuellen Regressionskoeffizienten:

Drei wesentliche Fragen waren bei dieser Erhebung von Interesse:

• Verändert sich die Distanz mit dem Alter?

• Verlaufen die Profile von Mädchen und Knaben parallel?

• Wenn ja, sind die mittleren Niveaus der Profile von Mädchen und Knaben verschieden?

Vorläufige Antworten erhalten wir bereits aus den graphischen Darstellungen auf Seite 5:

• Bei allen Personen ist ein Anstieg zu beobachten. Ein Test erübrigt sich beinahe.

• Eventuell ist der Anstieg bei den Knaben etwas steiler.

• Die Knaben scheinen ein um ca. 2 mm höheres Niveau zu haben.

Da die Profile sehr gleichförmig aussehen, passen wir an jedes Profil eine Gerade an. Für das i-te

Profil lautet die Gleichung

yij = i + i (tj - t ) + ij i = 1, ..., nM + nK j = 1, ..., 4 (nM = 11, nK = 16)

Da alle Messungen zu denselben äquidistanten Zeitpunkten erfolgten, können die Koeffizienten i

und i mit einfachen Kontrasten geschätzt (nach kleinsten Quadraten) werden:

i = (+1·yi1 + 1·yi2 + 1·yi3 + 1·yi4) / 4


i = (3·yi1 1·yi2 + 1·yi3 + 3·yi4) / 20

Diese Parameter werden als Stichprobe aus einer entsprechenden Normalverteilung angesehen:

Mädchen: αi ~ N(αM, 2 ) und βi ~ N(βM,

2 )

Knaben: αi ~ N(αK, 2 ) und βi ~ N(βK,

2 )

Rohdaten und geschätzte Parameter für die Mädchen:

Distanz [mm] im Alter von i i

Gruppe Person t1 = 8 t2 = 10 t3 = 12 t4 = 14

Mädchen 1 21.0 20.0 21.5 23.0 21.375 0.375

2 21.0 21.5 24.0 25.5 23.000 0.800

3 20.5 24.0 24.5 26.0 23.750 0.850

4 23.5 24.5 25.0 26.5 24.875 0.475

5 21.5 23.0 22.5 23.5 22.625 0.275

6 20.0 21.0 21.0 22.5 21.125 0.375

7 21.5 22.5 23.0 25.0 23.000 0.550

8 23.0 23.0 23.5 24.0 23.375 0.175

9 20.0 21.0 22.0 21.5 21.125 0.275

10 16.5 19.0 19.0 19.5 18.500 0.450

11 24.5 25.0 28.0 28.0 26.375 0.675

Mittelwert 22.65 0.480

Standardabweichung 2.105 0.220

Rohdaten und geschätzte Parameter für die Knaben:

Distanz [mm] im Alter von i i

Gruppe Person t1 = 8 t2 = 10 t3 = 12 t4 = 14

Knaben 12 26.0 25.0 29.0 31.0 27.750 0.950

13 21.5 22.5 23.0 26.5 23.375 0.775

14 23.0 22.5 24.0 27.5 24.250 0.750

15 25.5 27.5 26.5 27.0 26.625 0.175

16 20.0 23.5 22.5 26.0 23.000 0.850

17 24.5 25.5 27.0 28.5 26.375 0.675

18 22.0 22.0 24.5 26.5 23.750 0.800

19 24.0 21.5 24.5 25.5 23.875 0.375

20 23.0 20.5 31.0 26.0 25.125 0.975

21 27.5 28.0 31.0 31.5 29.500 0.750

22 23.0 23.0 23.5 25.0 23.625 0.325

23 21.5 23.5 24.0 28.0 24.250 1.000

24 17.0 24.5 26.0 29.5 24.250 1.950 *

25 22.5 25.5 25.5 26.0 24.875 0.525

26 23.0 24.5 26.0 30.0 25.875 1.125

27 22.0 21.5 23.5 25.0 23.000 0.550

Mittelwert 25.02 0.707

Standardabweichung 1.883 0.271

* Ausreisser: alle Berechnungen werden ohne Daten von Person 24 durchgeführt


Die folgenden Boxplots zeigen deutliche Unterschiede zwischen den Gruppen; sowohl bezüglich

î als auch î

1 2

Gruppe

18

20

22

24

26

28

30

alp

ha

Zuerst prüfen wir anhand der individuellen î die Nullypothese H0: βM= βK gegen die Alternative

HA: βM βK mit einem ungepaarten t-Test:

t = (0.480 - 0.707) / 0.100 = -2.28 mit 24 Freiheitsgraden

Der Anstieg verläuft nicht parallel (P = 0.03). Der Abstand zwischen den Gruppen ist somit vom

Alter der Kinder abhängig.

Ein Vergleich der î zwischen den beiden Gruppen führt zu folgender Testgrösse:

t = (22.65 - 25.02) / 0.785 = -3.02 mit 24 Freiheitsgraden

Bei einem mittleren Alter von 11 Jahren unterscheiden sich die Mittelwerte (P = 0.006).

In jeder Gruppe prüfen wir noch die Nullhypothese H0: = 0 gegen die Alternative HA: 0 :

Gruppe mean{ ̂ } s{ ̂ } se{ ̂ } t P

Mädchen (nM = 11) 0.480 0.220 0.066 7.24 < 0.001

Knaben (nK = 15) 0.707 0.271 0.070 10.10 < 0.001

Der lineare Anstieg ist in beiden Gruppen gesichert (P < 0.001).

******

1 2

Gruppe

0.0

0.5

1.0

1.5

2.0

be

ta


3. Univariate Varianzanalyse (RM ANOVA)

Wir wollen in diesem Kapitel die Abhängigkeitsstruktur von wiederholten Messungen näher betrachten und

diese bei der Auswertung der Daten berücksichtigen. Die Kovarianzmatrix erhalten wir entweder durch

direkte Modellierung oder aufgrund eines statistischen Modells der Daten. Beide Möglichkeiten sollen

zuerst anhand einer ganz einfachen Situation demonstriert werden.

3.1 Compound symmetry und Intra-Class-Korrelation

An mehreren Subjekten werde dieselbe Zielgrösse je p Mal gemessen. Die Subjekte sind nicht gruppiert,

d.h. es gibt keinen Between-Subjects-Faktor. Auch die p Messungen sind nicht weiter strukturiert, d.h. es

gibt keinen erklärenden Within-Subject-Faktor (Behandlung, Zeit oder Ort). Diese Datenstruktur resultiert

auch bei der Messung an p verschiedenen Untereinheiten, welche hierarchisch in den Subjekten angeordnet

sind (z.B. Bewertung an jeweils p Pflanzen derselben Parzelle). Wir erwarten, dass alle Beobachtungen

desselben Subjekts relativ ähnlich sind und untereinander in einem gleichmässigen Abhängigkeitsverhältnis

stehen. Mit diesen Überlegungen leitet Lindsey (1999) die Kovarianzmatrix der p wiederholten

Messungen innerhalb desselben Subjekts ab:

pp =

1011

1101

1110

= (0 + 1)

1

1

1

M1

0 ist die Varianz der wiederholten Messungen am gleichen Subjekt (eine Art Messfehler). 1 ist eine

Komponente, welche einerseits die Variabilität bzw. Ähnlichkeit zwischen den einzelnen Subjekten erfasst

und andererseits die Kovarianz zwischen den wiederholten Messungen desselben Subjekts charakterisiert

(1 kann theoretisch auch negativ sein, solange (0 + 1) > 0 ist). Die spezielle Struktur der Matrix M1 wird

als „compound symmetry“ bezeichnet. Die Matrix enthält nur 2 Parameter. (Im Gegensatz dazu hat eine

völlig beliebige, unstrukturierte pp-Kovarianzmatrix, welche natürlich auch symmetrisch ist, p(p+1)/2

freie Parameter.) Alle wiederholten Messungen desselben Subjekts sind untereinander korreliert. Der Intra-

Class-Korrelationskoeffizient beträgt = 1/(0 + 1) und könnte rein theoretisch auch negativ sein.

Zur gleichen Kovarianz-Struktur führt auch das folgende lineare Modell mit zufälligen Effekten (vgl. Skript

Varianzanalyse, Kapitel 4.2):

yij = µ + i + ij (3.1)

Wobei: yij = j-te Messung am i-ten Subjekt, µ = allgemeines Niveau, i = zufällige Abweichung des i-ten

Subjekts von und ij = zufälliger Fehler.

Annahmen: E{i} = E{ij} = 0, Var{i} = 2

und Var{ij} = 2

, sowie Unabhängigkeit zwischen und

innerhalb allen i und ij .

Es resultiert: E{yij} = Cov{yij, yij*} = 2

für j j*

Var{yij} = 2

+ 2

Cov{yij, yi*j*} = 0 für i i*


Für die p wiederholten Messungen eines Subjekts erhält man somit die pp-Kovarianzmatrix M2

pp =

2222

2222

2222

M2

und daraus die Korrelationsmatrix R2 (Intra-Class-Korrelationskoeffizient)

Rpp =

1

1

1

wobei = 2 /(

2 +2 ) und 0 ≤ ≤ R2

Fügt man dem Modell (3.1) fixe Effekte hinzu, bleiben M2 und R2 unverändert.

Warum ist für uns die „compound symmetry“ so interessant?

Die „compound symmetry“ erhält man auch im Rahmen von linearen Modellen für eine univariate

Zielgrösse, wenn (mindestens) ein Faktor mit zufälligen Effekten beteiligt ist. Falls nun die Kovarianz-

matrix von p wiederholten Messungen einer „compound symmetry“ nahe kommt, können wir die p-

dimensionalen Messungen mit einer „normalen“, univariaten ANOVA auswerten.

3.2 Das Split-Plot-Modell

Wir erweitern das simple Modell (3.1) um einen Gruppierungsfaktor A mit a festen Stufen und einen

Within-Subject-Faktor B mit p festen Stufen.

yijk = µ + i + j(i) + k + ()ik + ijk (3.2)

i = 1, ..., a j = 1, ..., ni k = 1, ..., p

Interpretation der Summanden:

yijk Zielgrösse am j-ten Subjekt in der i-ten Gruppe zur k-ten B-Stufe

µ allgemeines Niveau

i fixer Effekt der i-ten Gruppe (Between-Subjects-Faktor)

j(i) zufälliger Effekt des j-ten Subjekts in der i-ten Gruppe: j(i) ~ i.i.d. N(0,2

)

k fixer Effekt der k-ten B-Stufe (Within-Subject-Faktor)

()ik fixer Effekt der Wechselwirkung von Gruppe und Faktor B

ijk zufälliger, normalverteilter Fehler: ijk ~ i.i.d. N(0, e2

)

Das Modell (3.2) kommt auch bei der Auswertung von Spaltanlagen (vgl. Skript Varianzanalyse, Kapitel 6)

zum Zug, bei welchen die Stufen von A auf die Main-Units und die Stufen von B auf die Sub-Units

angewendet wurden. Deshalb wird das Modell (3.2) auch als Split-Plot-Modell für wiederholte Messungen

bezeichnet.


Unter der Annahme, dass alle Effekte stochastisch unabhängig sind, resultiert:

E{yijk} = i + k + ()ik

Var{yijk} = 2 +

2

Cov{yijk, yijk*} = 2 für k k*

Cov{yijk, yi*j*k*} = 0 für i i* oder j j*

Die Modelle (3.1) und (3.2) führen also zur Kovarianz-Struktur wie in Matrix M2, da in (3.2) nur Faktoren

mit festen Effekten hinzugekommen sind. Es resultiert somit auch hier die „compound symmetry“, welche

man noch etwas umformen kann. Wir setzen Var{yijk} =2 +

2 =2 und =

2 /2 . Es resultiert:

Var{yijk} = 2

Cov{yijk, yijk*} = 2 für k k*

Cov{yijk, yi*j*k*} = 0 für i i* oder j j*

Zum Split-Plot-Modell (3.2) und der zusätzlichen Annahme, dass ni = n für alle Gruppen, erhält man

folgende ANOVA-Tabelle mit den Erwartungswerten der Durchschnittsquadrate (N = a·n bzw. Gesamtzahl

aller Subjekte):

Ursache df E{MS}

A: Gruppierungsfaktor a - 1 ²[1+(p-1)] + pn·QA

Subjekte innerhalb Gruppen N - a ²[1+(p-1)]

zwischen Subjekten N - 1

B: Within-Subject-Faktor p - 1 ²(1-) + an·QB

Interaktion A x B (a-1)(p-1) ²(1-) + n·QAB

Fehler 2 (N-a)(p-1) ²(1-)

total Np - 1 Annahme: ni = n

Es sind zwei Fehlerstreuungen zu berücksichtigen: der Faktor A wird gegen MSSubjekte innerhalb Gruppen geprüft,

alle übrigen Effekte gegen MSFehler 2.

*** Beispiel 4 (Fortsetzung):

Wir haben bereits drei Fragen gestellt (vgl. Seite 5):

1. Verändert sich die Distanz mit dem Alter? → Zum Modell (3.2) passende H0: k = 0

2. Verlaufen die Profile parallel? → Zum Modell (3.2) passende H0: ()ik = 0

3. Sind die mittleren Niveaus der Profile von Mädchen und Knaben verschieden? → Zum Modell

(3.2) passende H0: i = 0


Ist hier die Annahme der „compound symmetry“ mit den Daten vereinbar? Wir berechnen die

Kovarianzmatrix aus den Messungen der Mädchen (Matrix M3) und aus den Messungen der

Knaben (Matrix M4) separat:

Y1.1 Y1.2 Y1.3 Y1.4

Y1.1 4.514

Y1.2 3.355 3.618 10 Freiheitsgrade M3

Y1.3 4.332 4.027 5.591

Y1.4 4.357 4.077 5.466 5.941

Y2.1 Y2.2 Y2.3 Y2.4

Y2.1 6.017

Y2.2 2.292 4.562 15 Freiheitsgrade M4

Y2.3 3.629 2.194 7.032

Y2.4 1.613 2.810 3.241 4.349

Unter der Annahme, dass die Varianz-Kovarianz-Struktur in den beiden Gruppen gleich ist, kann

man aus M3 und M4 eine kombinierte Kovarianzmatrix innerhalb Gruppen (Matrix M5) bilden.

Sie ist das gewogene Mittel, wobei die Freiheitsgrade als Gewichte verwendet werden. Aus M5

berechnen wir anschliessend die Korrelationsmatrix R5.

Y..1 Y..2 Y..3 Y..4

Y..1 5.415

Y..2 2.717 4.185 25 Freiheitsgrade M5

Y..3 3.910 2.927 6.456

Y..4 2.710 3.317 4.131 4.986

1

R5 = 0.57 1

0.66 0.56 1

0.52 0.73 0.73 1

Sowohl Varianzen als auch Korrelationen sind untereinander recht ähnlich, so dass die „compound

symmetry“ angenommen werden kann. Wie stark eine Kovarianzmatrix von der „compound

symmetry“ abweicht, erfassen zwei quantitative Masse (vgl. z.B. Vonesh & Chinchilli):

• Greenhouse-Geisser Epsilon: ̂ G-G von M5 = 0.867

• Huynh-Feldt Epsilon: ̂ H-F von M5 = 1.000

Es ist 1/(p-1) ≤ ̂ G-G ≤ ̂ H-F ≤ 1 . ̂ = 1 bedeutet keine Abweichung. Zur Korrektur der P-Werte

werden beim F-Test beide Freiheitsgrade mit ̂ multipliziert. Die Korrektur nach Greenhouse-

Geisser ist eher konservativ, jene nach Huynh-Feldt eher zu liberal.


ANOVA-Tabelle zum Beispiel 4:

Ursache df SS MS F P PG-G PH-F

A: Sex 1 140.5 140.5 9.29 0.005

Personen innerh. Gruppen 25 377.9 15.1

zwischen Personen 26 518.4

B: Alter 3 209.4 69.8 35.35 0.000 0.000 0.000

Interaktion Sex*Alter 3 14.0 4.7 2.36 0.078 0.088 0.078

Fehler 2 75 148.1 2.0

total 107 917.7

Interpretation: Die mittleren Niveaus der Profile von Mädchen und Knaben unterscheiden sich (P =

0.005). Die Distanz ändert sich mit dem Alter (P < 0.001). Die Parallelität der Profile kann auf dem

5%-Niveau nicht verworfen werden (P = 0.078).

Ergänzungen:

• SStotal wird nicht orthogonal zerlegt, da mehr Knaben als Mädchen vermessen wurden. Es ist

wichtig, dass mit Type III SS gearbeitet wird (drop1 bei R).

• Zeit- und Interaktionseffekte kann man mit orthogonalen (meist polynomialen) Kontrasten

weiter analysieren. Programme, welche eine spezielle Option für „repeated measures“ anbieten

(z.B. SAS, SPSS oder SYSTAT), liefern dazu folgende Resultate:

Polynomial Test of Order 1 (Linear)

Source SS df MS F P

Alter 208.27 1 208.27 87.999 0.000

Alter*Sex 12.11 1 12.11 5.119 0.033

Error 59.17 25 2.37

Polynomial Test of Order 2 (Quadratic)

Source SS df MS F P

Alter 0.96 1 0.96 0.920 0.347

Alter*Sex 1.20 1 1.20 1.152 0.293

Error 26.04 25 1.04

Polynomial Test of Order 3 (Cubic)

Source SS df MS F P

Alter 0.21 1 0.21 0.084 0.774

Alter*Sex 0.68 1 0.68 0.270 0.608

Error 62.92 25 2.52

Interpretation: Die Altersunterschiede beruhen v.a. auf einem linearen Trend. Alle quadratischen

und kubischen Trends sind vernachlässigbar. Der lineare Trend ist jedoch in den beiden Gruppen

unterschiedlich (P = 0.033). Dies steht nur scheinbar im Widerspruch zum globalen Test der

Interaktion Sex*Alter (mit 3 Freiheitsgraden) mit dem P-Wert von 0.078, da hier nur die lineare


Komponente der Interaktion Sex*Alter (mit 1 Freiheitsgrad) getestet wurde. Dasselbe Resultat

ergab auch die Auswertung dieses Beispiels über die individuellen Regressionskoeffizienten (vgl.

Abschnitt 2.2).

******

3.3 Kovarianzstruktur von Messungen mit zeitlicher oder räumlicher Distanz

Kehren wir zurück zur Modellierung der Kovarianzmatrix. Die „compound symmetry“ wurde im Abschnitt

3.1 eingeführt. Die Matrix M1 kann man auch in der Form

pp =

222

222

222

=

1

1

1

2

schreiben (2 = 0 + 1 und = 1/2

).

In vielen Situationen ist aber eine „compound symmetry“ kaum zutreffend. Wenn z.B. Messungen mit

zeitlicher oder räumlicher Distanz vorliegen, haben direkt benachbarte Messungen eine grössere

Ähnlichkeit als weiter auseinanderliegende Messungen. Die Kovarianzmatrix hat dann die Form

pp =

1 p 1

1 p 22

p 1 p 2

1

1

1

wobei die Intra-Class-Korrelation (i) mit zunehmender Distanz kleiner wird: (i) > (i’) für i < i’.

Bei AR(1)-Prozessen mit äquidistanten Zeitintervallen erwartet man u.U. die spezielle Form

pp =

p

p

p p p

1 2 1

1 1 22

1 2 3

1

1

1

In Computer-Programmen für gemischte Modelle (vgl. Kapitel 6) sind derartige Strukturen bereits

vordefiniert. Diggle, Liang & Zeger (1994) verwenden Ansätze zur parametrischen Modellierung der

Varianz-Kovarianz-Struktur, welche von individuellen Zeitintervallen abhängig sein kann.

Weitere Abweichungen von der „compound symmetry“ sind z.B. auch bei Wachstumskurven zu erwarten.

Bis anhin sind wir immer von konstanten Varianzen (Diagonalelementen) ausgegangen. Bei

Wachstumskurven beobachtet man in der Regel einen Anstieg der Variabilität mit zunehmendem Alter.

Wir wollen deshalb ein entsprechendes Beispiel etwas genauer behandeln.


3.4 Wachstumskurven

Das folgende Beispiel wurde von verschiedenen Autoren aufgegriffen und neu analysiert.

*** Beispiel 5: Gewicht von Ratten unter 3 experimentellen Bedingungen. 27 jüngere Ratten wurden

zufällig 3 Behandlungsgruppen zugeteilt (Kontrolle, Zugabe von Thyroxin im Trinkwasser, Zugabe

von Thiourocil im Trinkwasser). Jedes Tier wurde separat gehalten und ab Versuchsbeginn

wöchentlich gewogen (Daten aus Box 1950).

Gewicht in Woche Zuwachs

Gruppe Tier 0 1 2 3 4 D1 D2 D3 D4 total ij ij

1 1 57 86 114 139 172 29 28 25 33 115 28.3 0.357

1 2 60 93 123 146 177 33 30 23 31 117 28.7 -0.786

1 3 52 77 111 144 185 25 34 33 41 133 33.3 2.214

1 4 49 67 100 129 164 18 33 29 35 115 29.2 2.143

1 5 56 81 104 121 151 25 23 17 30 95 23.0 0.286

1 6 46 70 102 131 153 24 32 29 22 107 27.5 -0.500

1 7 51 71 94 110 141 20 23 16 31 90 21.9 1.071

1 8 63 91 112 130 154 28 21 18 24 91 22.1 -0.786

1 9 49 67 90 112 140 18 23 22 28 91 22.7 1.357

1 10 57 82 110 139 169 25 28 29 30 112 28.1 0.786

Mittelwert 54 79 106 130 161 25 28 24 31 107 26.48 0.614

2 11 59 85 121 156 191 26 36 35 35 132 33.5 1.214

2 12 54 71 90 110 138 17 19 20 28 84 20.7 1.643

2 13 56 75 108 151 189 19 33 43 38 133 34.2 3.429

2 14 59 85 116 148 177 26 31 32 29 118 29.9 0.500

2 15 57 72 97 120 144 15 25 23 24 87 22.2 1.143

2 16 52 73 97 116 140 21 24 19 24 88 21.9 0.071

2 17 52 70 105 138 171 18 35 33 33 119 30.6 2.000

Mittelwert 56 76 105 134 164 20 29 29 30 109 27.57 1.429

3 18 61 86 109 120 129 25 23 11 9 68 17.0 -3.143

3 19 59 80 101 111 122 21 21 10 11 63 15.7 -2.214

3 20 53 79 100 106 133 26 21 6 27 80 18.7 -0.929

3 21 59 88 100 111 122 29 12 11 11 63 14.9 -2.643

3 22 51 75 101 123 140 24 26 22 17 89 22.6 -1.286

3 23 51 75 92 100 119 24 17 8 19 68 16.1 -1.357

3 24 56 78 95 103 108 22 17 8 5 52 12.9 -3.071

3 25 58 69 93 114 138 11 24 21 24 80 20.5 1.643

3 26 46 61 78 90 107 15 17 12 17 61 15.1 -0.071

3 27 53 72 89 104 122 19 17 15 18 69 17.0 -0.286

Mittelwert 55 76 96 108 124 22 20 12 16 69 17.05 -1.336

Die Gewichtsentwicklung ist in den folgenden Abbildungen gruppenweise dargestellt. Wir

erkennen sofort eine typische Eigenschaft von Wachstumskurven: die Kurven entwickeln sich

auseinander, was ein Hinweis darauf ist, dass die Variabilität der Messungen mit dem Alter

zunimmt.


0 1 2 3 4

Woche

40

80

120

160

200

Gew

icht

12345678910

Tier

0 1 2 3 4

Woche

40

80

120

160

200

Gew

ich

t

11121314151617

Tier

0 1 2 3 4

Woche

40

80

120

160

200

Gew

ich

t

18192021222324252627

Tier

Zwischen den ersten beiden Gruppen ist kaum eine Differenz zu sehen. Die 3. Gruppe ist im

Wachstum deutlich gehemmt.

Bevor wir die Profile genauer analysieren und vergleichen, wenden wir uns der Kovarianz- bzw.

Korrelations-Struktur der wiederholten Messungen zu. Von den Variablen Y0, Y1 , ..., Y4

(Variable Y0 mit den Messungen in Woche 0, usw.), resultiert die Kovarianzmatrix M6, welche


man z.B. mit einem Diskriminanzanalyse-Programm einfach berechnen kann (pooled within

covariance matrix):

Y0 Y1 Y2 Y3 Y4

Y0 21.6

Y1 33.0 68.7

Y2 31.6 69.1 94.8 M6

Y3 29.4 64.5 116.4 181.6

Y4 24.7 56.7 122.9 207.2 268.4

Der Anstieg bei den Varianzen (Diagonalelemente) ist sehr deutlich. Die entsprechende

Korrelationsmatrix R6 zeigt die typische Nachbarschaftsbeziehung von Verlaufskurven: zeitlich

benachbarte Messungen sind stärker korreliert als weiter entfernte Messungen. M6 weicht klar von

der „compound symmetry“ ab, was auch durch die Epsilons nach Greenhouse-Geisser und nach

Huynh-Feldt signalisiert wird: ̂ G-G = 0.332 und ̂ H-F = 0.373.

1.00

0.86 1.00

R6 = 0.70 0.86 1.00

0.47 0.58 0.89 1.00

0.32 0.42 0.77 0.94 1.00

Durch das Logarithmieren sämtlicher Messwerte erhält man ausgeglichene Diagonalelemente in der

Kovarianzmatrix M7; die Diagonalelemente sind nun sehr ähnlich:

log(Y0) log(Y1) log(Y2) log(Y3) log(Y4)

log(Y0) 0.007

log(Y1) 0.008 0.012

log(Y2) 0.006 0.009 0.009 M7

log(Y3) 0.005 0.007 0.009 0.012

log(Y4) 0.003 0.005 0.008 0.011 0.012

1.00

0.86 1.00

R7 = 0.70 0.86 1.00

0.49 0.59 0.89 1.00

0.34 0.43 0.77 0.93 1.00

Die Korrelationsmatrizen R6 und R7 sind aber immer noch sehr ähnlich. Auch an den -Massen hat

sich wenig verändert. Zu M7 erhält man ̂ G-G = 0.393 und ̂ H-F = 0.451. Die univariate

Varianzanalyse mit dem Split-Plot-Modell ist deshalb mit den untersuchten Variablen Y0, ..., Y4

oder log(Y0), ..., log(Y4) nicht voll befriedigend, aber unter Anwendung der Korrektur nach

Greenhouse-Geisser oder nach Huynh-Feldt erlaubt. Aber es stehen ja noch weitere Möglichkeiten

offen.


Unter Umständen kann eine einfache Transformation zur gewünschten Struktur führen. Wir bilden

die 1. Differenzen (Zuwachs pro Woche) D1 = Y1-Y0, D2 = Y2-Y1 usw. und erhalten die

Kovarianzmatrix M8:

D1 D2 D3 D4

D1 24.26

D2 1.77 25.38 M8

D3 -2.31 26.10 43.61

D4 -3.11 14.35 19.13 35.54

Die Korrelationsmatrix R8 ist bei oberflächlicher Beurteilung klar vom Ideal R2 entfernt:

1.00

R8 = 0.07 1.00

-0.07 0.79 1.00

-0.11 0.48 0.49 1.00

Die Auswertung der 1. Differenzen mit dem Split-Plot-Modell wäre aber durchaus möglich (M8 mit

̂ G-G = 0.731 und ̂ H-F = 0.875), wenn die P-Wert-Korrektur durchgeführt wird.

******

Bei Wachstumskurven konzentriert man sich u.a. auf folgende Aspekte und Fragen:

• Endgewicht, Gesamtzuwachs, Zuwachs oder Zuwachsänderung in einzelnen Perioden

Gibt es Unterschiede zwischen Gruppen?

Besteht eine Abhängigkeit vom Anfangsgewicht? (Anfangsgewicht als Kovariable)

• Individuelle Profile

Gibt es wichtige Komponenten (linear, quadratisch usw.) ?

Gibt es Unterschiede zwischen Gruppen im Niveau?

Gibt es Unterschiede zwischen Gruppen im Verlauf (Parallelität) ?

Mehrere Aspekte lassen sich somit univariat testen (t-Test bzw. ANOVA). Eine MANOVA (vgl. Kapitel 4)

oder eine Diskriminanzanalyse ist ebenfalls möglich. Diese Methoden würden auf beliebige Abweichungen

zwischen den Gruppen reagieren.

*** Beispiel 5 (Fortsetzung):

Wir konzentrieren uns auf drei naheliegende, prägnante Profil-Eigenschaften:

den Gesamtzuwachs D = Y4 –Y0

βij : Koeffizient für den linearen Trend

γij : Koeffizient für den quadratischen Trend

wobei für die letzten beiden Grössen an jedes Profil ein Polynom 2. Grades angepasst wird:

yijk = ij + ij(tk - t ) + ij (tk - t )2 + ijk i = 1, 2, 3 j = 1, ..., ni k = 1, ..., 5


Wir nehmen an, dass in der i-ten Gruppe die Koeffizienten ij und ij normalverteilt sind und sich

nur zufällig von der mittleren Steigung i bzw. i unterscheiden:

ij ~ N(i,2

) und ij ~ N(i, 2

) i = 1, 2, 3

a) Zuerst die Analyse des Gesamtzuwachses D = Y4 –Y0:

1 2 3

Gruppe

60

80

100

120

140

Zu

wa

ch

s

Ursache df SS MS F P

Gruppe 2 9192.1 4596.0 19.10 < 0.001

Fehler 24 5775.9 240.7

Die ANOVA bestätigt eine signifikante Abweichung zwischen den Gruppen; die 3. Gruppe weicht

von den beiden anderen Gruppen deutlich ab.

b) Linearer Trend: Wir testen die Hypothese H0: 1 = 2 = 3 mit der Varianzanalyse.

1 2 3

Gruppe

15

20

25

30

35

line

are

r T

ren

d

Zuwachs D

Gruppe n Mittelwert Standardfehler

1 10 106.6 4.906

2 7 108.7 5.863

3 10 69.3 4.906

linearer Trend


1 10 26.48 1.304

2 7 27.57 1.559

3 10 17.05 1.304



Gruppen 2 619.44 309.7 18.22 < 0.001

Fehler 24 408.10 17.0

Beim linearen Trend unterscheidet sich die Gruppe 3 von den übrigen. Die Unterschiede zwischen

den ersten beiden Gruppen sind nicht signifikant.

c) Quadratischer Trend: Wir testen die Hypothese H0: 1 = 2 = 3 mit der Varianzanalyse.

1 2 3

Gruppe

-3

-2

-1

0

1

2

3

4

qu

ad

ratisch

er

Tre

nd

Auch beim quadratischen Trend unterscheidet sich die Gruppe 3 von den übrigen. Die Unterschiede

zwischen den ersten beiden Gruppen sind nicht signifikant.

Der verminderte Gesamtzuwachs in der 3. Gruppe ist also mit einem deutlich flacheren linearen

Anstieg des Gewichts und einer negativen quadratischen Komponente zu erklären.

******


Gruppen 2 35.613 17.807 11.04 < 0.001

Fehler 24 38.727 1.614

quadratischer Trend


1 10 0.614 0.402

2 7 1.429 0.480

3 10 -1.336 0.402


4. Multivariate Varianzanalyse

In der Mehrzahl aller Studien werden mehrere Zielgrössen erfasst, aber jede für sich, d.h. univariat,

ausgewertet. Dieses Vorgehen ist vom theoretischen Standpunkt aus fragwürdig. Je mehr Zielgrössen

erfasst werden, desto eher findet man rein zufällig signifikante Effekte bzw. signifikante Unterschiede

zwischen einzelnen Gruppen. Zudem sind die Zielgrössen untereinander meist korreliert, was oft nicht

beachtet wird. Zur Auswertung von Studien mit p-dimensionalen Zielgrössen bieten sich multivariate

lineare Modelle an. Timm (2002) vermittelt dazu einen umfassenden Einstieg. Wir behandeln hier nur die

multivariate Varianzanalyse (MANOVA). Das Modell für die Ein-Weg-MANOVA lautet:

yij = µ + αi + eij i = 1, ... , g j = 1, ... , ni (4.1)

wobei

yij Vektor mit den p Zielgrössen des j-ten Subjekts in der i-ten Gruppe

µ Vektor mit den allgemeinen Niveaus

αi Vektor mit den fixen Effekten der i-ten Gruppe

Nebenbedingung: α1 + ... + αg = 0

eij Vektor mit den zufälligen Fehlern: eij ~ Np( 0 , )

Die MANOVA ist eine Verallgemeinerung der ANOVA: während man bei der ANOVA Nullhypothesen

der Gleichheit von Populationsmittelwerten einer einzigen Zielvariablen prüft, handelt es sich bei der

MANOVA um die Prüfung simultaner Nullhypothesen für p Zielvariablen (z.B. H0: µ = 0 oder H0: αi = 0).

Bei der ANOVA zerlegen wir die Summe der quadrierten Abweichungen vom Gesamtmittelwert in einen

Teil, welcher durch das Modell „erklärt“ wird und in einen Rest, welcher sich aus den zufälligen Fehlern

ergibt. Die anschliessenden F-Tests basieren dann auf den „Durchschnittsquadraten“. Bei der MANOVA

erweitert sich eine Summe von Quadraten zu einer pp-Matrix der Summe von Quadraten und Produkten.

Diese Matrizen werden für den Signifikanztest nicht durch die entsprechenden Freiheitsgrade dividiert.

Variation df Matrix mit Summe von Quadraten und Produkten

zwischen Gruppen g - 1 B = i

g

1

ni( iy - y )( iy - y )'

innerhalb Gruppen N - g W = i

g

1 j

n i

1

(yij - iy )(yij - iy )'

total N - 1 B + W = i

g

1 j

n i

1

(yij - y )(yij - y )'

iy : Vektor mit den p Mittelwerten in der i-ten Gruppe

y : Vektor mit den p Gesamtmittelwerten

Eine ANOVA kann notfalls auch ohne Computer durchgeführt werden. Für eine MANOVA ist der

Aufwand wesentlich grösser. MANOVA-Programme berechnen die benötigten pp-Matrizen B, W und

B+W und führen den Globaltest nach drei bis vier verschiedenen Kriterien durch, wobei die Resultate meist


sehr ähnlich (oder sogar identisch) sind. Das bekannteste Kriterium wurde von Wilks vorgeschlagen. Wilks'

Lambda (Λ*) ist ein Quotient von 2 Determinanten:

Λ* = │W│ ∕ │B + W│

Die Verteilung von Λ* kann unter H0: αi = 0 angegeben werden. H0 wird verworfen, wenn Λ* unter einem

kritischen Wert liegt. Rencher (1995) enthält ebenfalls ein gut verständliches Kapitel über die MANOVA.

Der Zusammenhang zwischen den verschiedenen Testkriterien wird ausführlich dargestellt.

MANOVA für wiederholte Messungen:

Im allgemeinen hat man es mit p unterschiedlichen Zielvariablen zu tun, welche eine beliebige Varianz-

Kovarianz-Struktur aufweisen können. Im Falle von p wiederholten Messungen pro Subjekt liegt ein

Spezialfall vor. Die p-dimensionale Beobachtung betrifft immer dieselbe Messgrösse. Die Varianz-

Kovarianzmatrix der p Messungen ist deshalb kaum beliebig, sondern durch die Art der Within-Subject-

Faktoren weitgehend festgelegt.

Nachteile:

• Die Standard-MANOVA liefert nur Signifikanztests für die Between-Subjects-Faktoren.

• Die Interpretation der Testergebnisse ist schwierig, da sie simultan auf p Variablen beruht.

• Je grösser p, desto kritischer wird die Voraussetzung multivariat-normalverteilter Fehler.

• Alle Beobachtungen, welche fehlende Werte enthalten sind – ohne Imputation - unbrauchbar.

• Die spezielle Struktur von wiederholten Messungen (gleiche Messgrösse und Abhängigkeitsstrukturen

durch die Nachbarschaftsverhältnisse) wird nicht berücksichtigt.

Der letzte Punkt ist sehr gravierend. Es müssen oft sehr viele Parameter, nämlich p Varianzen und p(p-1)/2

Kovarianzen geschätzt werden. Daraus erklärt sich eine verminderte statistische Macht im Vergleich zur

Methode, die im Kapitel 6 behandelt wird und bei der spezielle Abhängigkeitsstrukturen von wiederholten

Messungen berücksichtigt werden können.

*** Beispiel 4: Multivariate Auswertung

Die Messungen im Alter von 8, 10, 12 und 14 Jahren betrachten wir als Realisationen einer 4-

dimensionalen Zielgrösse mit den Komponenten Y1, Y2, Y3 und Y4. Das Modell lautet:

yij = µ + αi + eij i {M, K} j = 1, ... , ni mit nM = 11, nK = 16

wobei

yij Vektor mit den 4 Distanzen der j-ten Person innerhalb der i-ten Gruppe

µ , αi , eij gemäss (4.1)

Da es sich nur um 2 Gruppen handelt, könnte der Vergleich der beiden Gruppen auch mit dem T2-

Test nach Hotelling durchgeführt werden.

In der folgenden Tabelle sind die beobachteten Mittelwerte zusammengestellt. Ein altersbedingter

Anstieg ist deutlich erkennbar.


Alter 8 10 12 14

Variable Y1 Y2 Y3 Y4

Gesamtmittelwert: y 22.185 23.167 24.648 26.093

Mittelwert Mädchen: My 21.182 22.227 23.091 24.091

Mittelwert Knaben: Ky 22.875 23.812 25.719 27.469

Der Unterschied zwischen den Gruppen wird mit den Elementen der iα̂ -Vektoren erfasst:

Variable Y1 Y2 Y3 Y4

Effekt Mädchen: Mα̂ -0.847 -0.793 -1.314 -1.689

Effekt Knaben: Kα̂ 0.847 0.793 1.314 1.689

Die Unterschiede zwischen Mädchen und Knaben nehmen mit dem Alter zu. Kann man simultan

einen Unterschied nachweisen? Wir haben bereits die Kovarianzmatrix innerhalb Gruppen bzw.

die Kovarianzmatrix der Fehler berechnet (vgl. Abschnitt 3.2 Matrix M5):

Y1 Y2 Y3 Y4

Y1 5.415

Y2 2.717 4.185 25 Freiheitsgrade M9

Y3 3.910 2.927 6.456

Y4 2.710 3.317 4.131 4.986

Wenn die Gruppierung nicht berücksichtigt wird (keine α-Effekte im Modell), erhält man aus den

Abweichungen vom entsprechenden Gesamtmittelwert die folgende Kovarianzmatrix:

Y1 Y2 Y3 Y4

Y1 5.926

Y2 3.285 4.654 26 Freiheitsgrade M10

Y3 4.875 3.859 7.939

Y4 4.040 4.532 6.197 7.655

Die Elemente der Matrix M10 sind grösser als diejenigen von M9. Durch Einbezug der

Gruppeneffekte haben wir somit einen Teil der Kovarianzmatrix M10 reduzieren können. Der

unerklärbare Teil ist in der Matrix M9 enthalten. Mit dem Vergleich von M9 mit M10 testet man

somit das Vorliegen von Gruppeneffekten.

Es gilt W = 25∙M9

B+W = 26∙M10

und wir erhalten folgende Resultate:

Wilks' Lambda = 0.602 F-Statistic = 3.632 DF = 4, 22 P = 0.02

Pillai Trace = 0.398 F-Statistic = 3.632 DF = 4, 22 P = 0.02

Hotelling-Lawley Trace = 0.660 F-Statistic = 3.632 DF = 4, 22 P = 0.02


Interpretation: Die beiden Gruppen unterscheiden sich - multivariat betrachtet auf dem 5%-Niveau

signifikant (P = 0.02). Wir haben also die Hypothese αi = 0 bzw. μM – μK = 0 verworfen. Wie

dieser Unterschied zu interpretieren ist, muss noch genauer untersucht werden.

******

Mit der MANOVA lassen sich auch spezifische Hypothesen, z.B. über zeitliche Trends, prüfen. Wie die

MANOVA bei der Auswertung von wiederholten Messungen eingesetzt werden kann, zeigen z.B. Timm

(2002), Crowder & Hand (1990), Lindsey (1999) oder Davis (2002).

c11 c21 ... cp-1,1

c12 c22 ... cp-1,2

... ... ... ...

c1p c2p ... cp-1,p

Subjekt Y1 Y2 ... ... Yp L1 L2 ... Lp-1

1 y11 y12 ... ... y1p ÿ11 ÿ12 ... ÿ1,p-1

... ... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ... ...

N yN1 yN2 ... ... yNp ÿN1 ÿN2 ... ÿN,p-1

Standard-MANOVA

RM-MANOVA

Wir wollen der Frage nachgehen, ob der zeitliche Trend in den Gruppen parallel verläuft. Falls das zur

Verfügung stehende MANOVA-Programm das Testen von Kontrasten nicht unterstützt, gibt es trotzdem

eine einfache Möglichkeit, Hypothesen über Kontraste der Variablen (nicht der Gruppen) zu prüfen. Wir

betrachten dazu wieder das Beispiel 4.


*** Beispiel 4: Multivariate Auswertung (Fortsetzung)

Die Parallelität des zeitlichen Verlaufs testen wir auf 2 gleichwertige Arten.

1) Über die Hypothesen, dass die Gruppen gleiche zeitliche Veränderungen aufweisen:

μM,2 – μM,1 = μK,2 – μK,1

μM,3 – μM,2 = μK,3 – μK,2

μM,4 – μM,3 = μK,4 – μK,3

bzw. (μM – μK)’C = 0’ , wobei C =

100

110

011

001

Um diese 3 Hypothesen simultan zu testen, kann man die Beobachtungsmatrix Y direkt mit C

multiplizieren und das Produkt YC mit einer MANOVA auf Gruppenunterschiede testen.

2) Parallelität des zeitlichen Verlaufs kann man mit fehlendem Unterschied im linearen,

quadratischen und kubischen Trend gleichsetzen. Dazu muss nur die Matrix C neu definiert

werden:

(μM – μK)’C = 0’ , wobei C =

113

311

311

113

Man erhält in beiden Fällen das knapp nicht-signifikante Resultat:

Hotelling-Lawley Trace = 0.352 F-Statistic = 2.695 DF = 3, 23 P = 0.07

Da sich die beiden Gruppen nur im linearen Trend unterscheiden, ist dieses Resultat verständlich.

******


5. Mehrere Behandlungen an derselben Versuchseinheit

Behandlungen können besonders effizient miteinander verglichen werden, wenn an jedem Subjekt alle

Behandlungen zur Anwendung kommen. Im Idealfall ist eine parallele Anwendung möglich, wie etwa

beim Beispiel 1. Meist liegt eine randomisierte Blockanlage vor, wobei jedes Subjekt als Block interpretiert

wird. Erfolgt die Auswahl der Subjekte zufällig, dann werden ihnen im Rahmen einer Varianzanalyse

zufällige Effekte zugeordnet. In der Regel weisen die Within-Subject-Faktoren feste Effekte auf, was zu

einem gemischten Modell (mixed model ANOVA) führt. Diese Situation wird im Abschnitt 5.1 behandelt.

Falls eine parallele Anwendung von Behandlungen nicht möglich ist, kommen Wechselversuche (Cross-

over designs) zum Einsatz. Jedes Subjekt durchläuft eine Sequenz von verschiedenen Behandlungs-

perioden. Beim Beispiel 2 waren 4 mathematische Aufgaben zu lösen, wobei für jedes Subjekt eine

vorgeschriebene Reihenfolge festgelegt wurde. Wechselversuche müsssen sehr sorgfältig geplant und

ausgeführt werden, da Periodeneffekte und Nachwirkungseffekte die Resultate beeinflussen können.

Periodeneffekte lassen sich rechnerisch korrigieren, falls der Versuch ausbalanciert ist. Um Übertragungs-

und Nachwirkungseffekte auszuschliessen, werden zwischen den Behandlungen angemessene Pausen,

sogenannte Washout-Perioden, eingeschaltet. Beispiele folgen in den Abschnitten 5.2 und 5.3.

5.1 Parallele Anwendung mehrerer Behandlungen

*** Auswertung von Beispiel 1: Das Blutplasma derselben Person wurde parallel, d.h. am gleichen Tag

auf 4 verschiedene Arten behandelt. Von 8 Personen liegen je 4 entsprechende Gerinnungszeiten

[in Minuten] vor. Das gemischte Modell zu den Daten auf Seite 1 lautet:

yij = µ + i + j + eij i = 1, ... , n j = 1, ... , p mit n = 8, p = 4

wobei

yij Gerinnungszeit des Plasmas der i-ten Person mit j-ter Behandlung

µ allgemeines Niveau

i zufälliger Effekt der i-ten Person: i ~ i.i.d. N(0, 2A )

j fixer Effekt der j-ten Behandlung

eij zufälliger Fehler (untrennbar von allfälliger Interaktion): eij ~ i.i.d. N(0, e2

)

Im nachfolgenden Tukey-Anscombe Plot (Abb. 5.1) ist eine trichterförmige Struktur der Residuen

erkennbar. Die Anahme konstanter Fehlervarianz ist somit kaum erfüllt. Ein naheliegender Ausweg

besteht darin, die Zielgrösse geeignet zu transformieren. Bei Reaktionszeiten wirkt der Kehrwert

häufig varianzstabilisierend. In der weiteren Auswertung ist

Y = 100 / Gerinnungszeit d.h. Y ist nun die Gerinnungsrate pro Minute in %

Für die einzelnen Behandlungen resultieren folgende Kennzahlen:

Behandlung 1 2 3 4

mittlere Gerinnungsrate 10.97 10.67 10.25 9.28

Standardabweichung 1.51 1.81 1.44 1.47


7 8 9 10 11 12 13 14 15

ESTIMATE

-2

-1

0

1

2

RE

SID

UA

L

Abbildung 5.1: Tukey-Anscombe plot der (untransformierten) Gerinnungszeiten

ANOVA-Tabelle für die Gerinnungsraten:

Ursache df SS MS F P E{MS}

Personen n-1 = 7 57.16 8.165 14.98 < 0.001 e2

+ p2A

Behandlung p-1 = 3 13.02 4.339 7.96 0.001 e2

+ nQB

Fehler (n-1)(p-1) = 21 11.45 0.545 e2

total np-1 = 31 81.63

Zur Variabilität innerhalb Personen tragen die unterschiedlichen Behandlungen signifikant bei. Der

kleine P-Wert zum Faktor Personen bedeutet, dass die Varianz 2A > 0 ist. Schätzwerte für e

2 und

2A können aus den Durchschnittsquadraten berechnet werden (

2A ist nur sinnvoll interpretierbar,

wenn die Personen wirklich zufällig aus einem grösseren Kollektiv gewählt wurden):

e2 = 0.545 und

2Â = (8.165 - 0.545) / 4 = 1.905

Die 4 Behandlungen vergleichen wir paarweise:

paarweise Differenzen P-Werte nach Fisher

1 2 3 4 1 2 3 4

1 0 1 1

2 0.30 0 2 0.418 1

3 0.72 0.41 0 3 0.065 0.276 1

4 1.69 1.39 0.97 0 4 0.000 0.001 0.015 1

Die Behandlung 4 unterscheidet sich signifikant von allen übrigen. Zwischen den Behandlungen 1,

2 und 3 sind die Unterschiede offensichtlich gering. Die Analyse der Residuen weist auf keine

Verletzung der Modellannahmen hin:


-1.5

-0.5

0.5

1.5R

ES

IDU

AL

-3 -2 -1 0 1 2 3

Expected Value for Normal Distribution

******

5.2 Experimente mit mehreren Behandlungssequenzen

In der Verhaltensforschung, Psychologie und Medizin werden laufend Wechselversuche mit Tieren oder

Menschen durchgeführt, da die Behandlungen nicht parallel am gleichen Individuum angewendet werden

können. In einzelnen Fällen, wie beim Beispiel 2, wird die Behandlungssequenz bei der statistischen

Auswertung nicht berücksichtigt. Das kann durchaus berechtigt sein. Besser wäre jedoch eine

Berücksichtigung der Perioden und Behandlungssequenzen.

*** Beispiel 2: Auswertung ohne Berücksichtigung der Behandlungssequenz. Ein erster Blick auf die

Mittelwerte des Zeitbedarfs zeigt z.T. erhebliche Unterschiede zwischen den beiden Gruppen aber

auch zwischen den mathematischen Problemen:

Problem 1 Problem 2 Problem 3 Problem 4

alle Personen N = 17 33.3 53.4 39.5 51.1

Kontrollgruppe n1 = 9 43.2 60.1 45.0 52.9

trainierte Gruppe n2 = 8 22.1 45.8 33.3 49.1

Wir können bei der Auswertung dieses Wechselversuchs allfällige Perioden- und Übertragungs-

effekte nicht berücksichtigen, da uns nicht bekannt ist, in welcher Reihenfolge den Personen die 4

mathematischen Probleme präsentiert wurden.

Ein Split-Plot-Modell bietet sich hier an:

yijk = µ + i + j(i) + k + ()ik + ijk i = 1, 2 j = 1, ..., ni k = 1, ..., 4

wobei nun spezifisch

yijk Zeitbedarf der j-ten Person innerhalb der i-ten Gruppe für k-tes Problem

k fixer Effekt des k-ten mathematischen Problems

()ik fixer Effekt der Wechselwirkung von Gruppe und Faktor „Problem“

6 7 8 9 10 11 12 13

ESTIMATE

-1.5

-0.5

0.5

1.5

RE

SID

UA

L


Die Anpassung an die Originaldaten ergab eine schiefe Verteilung der Residuen (vgl. Normal Plot),

was gegen die Voraussetzung der ANOVA verstösst.

-30

-20

-10

0

10

20

30

40

50

60

RE

SID

UA

L

-3 -2 -1 0 1 2 3


Verlässliche Resultate erhält man jedoch nach dem Logarithmieren der y-Werte. Die entspre-

chenden Mittelwerte lauten nun:

log-transformierte y-Werte Problem 1 Problem 2 Problem 3 Problem 4

alle Personen N = 17 3.27 3.83 3.50 3.84

Kontrollgruppe n1 = 9 3.61 4.04 3.65 3.84

trainierte Gruppe n2 = 8 2.90 3.58 3.33 3.84

Mit den log-transformierten y-Werten resultiert folgende ANOVA-Tabelle:

Ursache df SS MS F P E{MS}

Faktor A: Gruppe 1 2.36 2.36 5.74 0.030 e2

+ b·2 + bn·QA

Person innerh. Gruppe 15 6.16 0.41 e2

+ b·2

zwischen Personen 16 8.52

Faktor B: Problem 3 3.99 1.33 3.82 0.016 e2

+ an·QB

Gruppe Problem 3 1.12 0.37 1.07 0.372 e2

+ n·QAB

Fehler 2 45 15.68 0.35 e2

total 67 29.31 Annahme: ni = n

Algorithmen zur Bestimmung der Erwartungswerte für die Durchschnittsquadrate findet man u.a.

im Buch von Lorenzen and Anderson (1993). Aus der letzten Spalte leiten wir folgende Tests ab:

MSA wird mit MSPerson innerh. Gruppe verglichen. MSB und die Interaktion MSAxB werden mit MSFehler 2

verglichen.


Interpretation:

• Die beiden Gruppen unterscheiden sich auf dem 5%-Niveau (P = 0.03). Die trainierten

Personen haben somit die Probleme in kürzerer Zeit gelöst.

• Zwischen den Problemen bestehen ebenfalls signifikante Unterschiede (P = 0.016). Die

Unterschiede zwischen den Problemen sind in beiden Gruppen ähnlich (P = 0.372).

Die Analyse der Residuen zeigt, dass die log-transformierten Daten wesentlich besser zu den

Modellvoraussetzungen passen:

******

5.3 Der AB/BA Wechselversuch

Um auf die Schwierigkeiten und Finessen von Wechselversuchen eingehen zu können, betrachten wir den

einfachsten Fall mit 2 Behandlungen (A und B) und 2 Behandlungsperioden. Dazwischen liegt eine

angemessene Pause (washout period). Nach der 2. Behandlung wird das Experiment abgebrochen und

statistisch ausgewertet. Aus Symmetriegründen sollten beide Behandlungssequenzen, also A→B und

B→A, möglichst gleich oft zur Anwendung kommen.

Modell 1 yijk = µ + πk + j(i) + αTi,k + (k-1)·λTi,k-1 + ijk

wobei:

i Index der Sequenz (i = 1, 2)

k Index der Periode (k = 1, 2)

Ti,k bezeichnet Behandlung: T1,1 = T2,2 = A,

T2,1 = T1,2 = B

πk Effekt der k-ten Periode (π1 + π2 = 0)

αT.,. Effekt der Behandlung T.,. (αA + αB = 0)

λT.,. Nachwirkungseffekt der Behandlung T.,. (λA + λB = 0)

j(i) Effekt von Individuum j in Sequenz i j(i) ~ i.i.d. N(0,2

)

ijk zufälliger Fehler ijk ~ i.i.d. N(0,e2

)

-1.5

-0.5

0.5

1.5

RE

SID

UA

L

-3 -2 -1 0 1 2 3


2.0 2.5 3.0 3.5 4.0 4.5

ESTIMATE

-1.5

-0.5

0.5

1.5

RE

SID

UA

L


Erwartete Wirkung:

Periode 1 Periode 2

Sequenz 1 (A→B) E{ y 1.1} = µ + π1 + αA E{ y 1.2} = µ + π2 + αB + λA

Sequenz 2 (B→A) E{ y 2.1} = µ + π1 + αB E{ y 2.2} = µ + π2 + αA + λB

Aus obiger Aufstellung ist ersichtlich, wie bestimmte Effekte einfach geschätzt werden können:

Nachwirkungseffekt λ = λA – λB : (Summe in Sequenz 1 – Summe in Sequenz 2)

̂ = ( y 1.1 + y 1.2) – ( y 2.1 + y 2.2 ) mit E{ ̂ } = λ

Periodeneffekt π = π1 – π2 : (Summe in Periode 1 – Summe in Periode 2) / 2

̂ = [( y 1.1 y 2.1) – ( y 1.2 y 2.2 )] / 2 mit E{ ̂ } = π

Behandlungseffekt α = αA – αB : (Differenz in Periode 1 + Differenz in Periode 2) / 2

̂ = [( y 1.1 y 2.1) + ( y 2.2 y 1.2 )] / 2 mit E{ ̂ } = α – λ/2

Wenn somit ein positiver Nachwirkungseffekt λ existiert, wird der Behandlungseffekt eher unterschätzt.

Wir erhalten jedoch eine erwartungstreue Schätzung von α, wenn nur die Daten der 1. Periode verwendet

werden. Dies würde aber bedeuten, dass man mit demselben Aufwand ein besseres Experiment hätte

durchführen können.

*** Beispiel 6: Messungen der Lungenfunktion 8 Stunden nach der Behandlung (PEF: peak expiratory

flow in L/min). Behandlung A: Formoterol, Behandlung B: Salbutamol. Daten aus Senn, 1993:

PEF

Sequenz Patient Periode 1 Periode 2 Differenz Summe

A→B 1 310 270 40 580

4 310 260 50 570

6 370 300 70 670

7 410 390 20 800

10 250 210 40 460

11 380 350 30 730

14 330 365 -35 695

Mittel 337.1 306.4 30.7 643.6

B→A 2 370 385 -15 755

3 310 400 -90 710

5 380 410 -30 790

9 290 320 -30 610

12 260 340 -80 600

13 90 220 -130 310

Mittel 283.3 345.8 -62.5 629.2


Einen guten Überblick erhalten wir aus den einzelnen Profilen:

Sequenz A -> B

Periode 1 Periode 2

0

100

200

300

400

500

PE

F

1411107641

Patient

Sequenz B -> A

Periode 1 Periode 2

0

100

200

300

400

500

PE

F

13129532

Patient

Die Behandlung A hat in beiden Gruppen besser abgeschnitten. Der Unterschied zwischen A und B

ist in der AB-Gruppe kleiner; evtl. durch Nachwirkung von Behandlung A.

Wir schätzen nun noch die einzelnen Effekte:

̂ = ( y 1.1 + y 1.2) – ( y 2.1 + y 2.2 ) = 643.6 – 629.2 = 14.4

̂ = [( y 1.1 y 2.1) – ( y 1.2 y 2.2 )] / 2 = [620.4 – 652.2] / 2 = -15.9

̂ = [( y 1.1 y 2.1) + ( y 2.2 y 1.2 )] / 2 = [30.7 + 62.5] / 2 = 46.6

Der Nachwirkungseffekt von 14.4 und der Periodeneffekt von –15.9 erweisen sich in den folgenden

Signifikanztests als nicht gesichert.

******


Das Modell 1 ist für die Auswertung mit einem Standard-Statistikprogramm schlecht geeignet, da die

Nachwirkungseffekte erst ab der 2. Periode auftreten. Die beiden folgenden Modelle sind beim AB/BA-

Wechselversuch gleichwertig. Nachwirkungseffekte werden im Modell 2 über den Faktor Sequenz erfasst

(vgl. Schätzer für ̂ ) und im Modell 3 mit der Interaktion PeriodeBehandlung modelliert.

Modell 2 yijk = µ + i + j(i) + πk + αTi,k + ijk

Den Effekt der i-ten Sequenz bezeichnen wir mit i (1 + 2 = 0). Die Sequenz bestimmt die Gruppierung

der Patienten, ist damit der Between-Subjects-Faktor und wird entsprechend gegen die Variabilität der

Patienten getestet. Die Faktoren Sequenz, Behandlung und Periode sind gekreuzt. Es sind jedoch nur 4 der

8 möglichen Kombinationen im Experiment vertreten. Die Effekte sind deshalb nicht paarweise orthogonal.

*** Beispiel 6: Anpassung von Modell 2. Bei den SS-Werten handelt es sich um Type III SS:


Sequenz 1 335.2 335.2 0.03 0.861

Patient innerh. Sequenz 11 114878.3 10443.5

Behandlung 1 14035.9 14035.9 18.70 0.001

Periode 1 1632.1 1632.1 2.17 0.168

Fehler 2 11 8254.5 750.4

Der Faktor Sequenz bzw. Nachwirkungseffekt ist nicht signifikant. Der Behandlungsunterschied ist

signifikant. Der Einfluss der Periode ist nicht signifikant.

******

Modell 3 yijk = µ + j(i) + πk + αTi,k + (π α)k,Ti,k + ijk

Die Interaktion (π α)k,Ti,k spricht an, wenn der Unterschied zwischen den Behandlungen in den beiden

Perioden unterschiedlich ist. Diese Interaktion ist ebenfalls ein Between-Subjects-Effekt und wird

entsprechend gegen die Variabilität der Patienten getestet.

*** Beispiel 6: Anpassung von Modell 3:


Behandlung*Periode 1 335.2 335.2 0.03 0.861

Patient innerh. Sequenz 11 114878.3 10443.5

Behandlung 1 14035.9 14035.9 18.70 0.001

Periode 1 1632.1 1632.1 2.17 0.168

Fehler 2 11 8254.5 750.4


Gegenüber der letzten ANOVA-Tabelle hat sich nur die Bezeichnung geändert. Der Tukey-

Anscombe plot zeigt keine gravierenden Abweichungen von den Modellannahmen.

100 150 200 250 300 350 400 450

-30

-20

-10

0

10

20

30

Tukey-Anscombe plot

fitted values

resid

ua

ls

******

Nachwirkungseffekte bereiten grosse Schwierigkeiten bei der Interpretation eines Wechselversuchs. Diese

sind beim AB/BA-Wechselversuch mit den Behandlungseffekten vermengt. Senn (1993) schlägt deshalb

vor, nur dann Wechselversuche durchzuführen, wenn Nachwirkungseffekte mit Sicherheit ausgeschlossen

werden können. Das 1965 von Grizzle empfohlene Vorgehen, beim Vorliegen von statistisch signifikanten

Nachwirkungseffekten nur die Daten der 1. Periode zu verwenden, wird heute als unbefriedigend eingestuft

(vgl. z.B. Lehmacher, 1997).

Es ist denkbar, dass man sich speziell für die Nachwirkungseffekte interessiert. Für solche Fälle wurden

spezielle Versuchspläne und Modelle entwickelt (vgl. z.B. Jones and Kenward, 2003).

Fehlende Werte führen ebenfalls zu Problemen. Subjekte mit fehlenden Werten können nur teilweise für die

statistische Auswertung verwendet werden, was die Effizienz von Wechselversuchen reduziert.


6. Einsatz von Programmen für gemischte Modelle

Die meisten grösseren Statistik-Programme enthalten heute ein Modul zur Auswertung von linearen

Modellen mit gemischten Effekten. Seit rund 20 Jahren bietet SAS „Proc Mixed“ an. Die Funktion lme() in

den Paketen S-Plus und R wurde erstmals vor etwas mehr als 10 Jahren entwickelt. SPSS ist ab Version 11

mit einer Prozedur MIXED dabei und SYSTAT wartet ab Version 12 mit einer entsprechenden Prozedur

auf. Ab SAS 9.2 ist „Proc GLIMMIX“ auch für nicht-normalverteilte Zielgrössen verfügbar. In R bietet

lmer() eine flexiblere Alternative zu lme(), ist aber immer noch in Entwicklung begriffen.

6.1 Kurze Theorie zum linearen gemischten Modell (linear mixed model)

Das lineare Modell

y = Xβ + e (6.1)

mit dem Beobachtungsvektor y, der bekannten Strukturmatrix X, dem Vektor β der unbekannten, festen

Parameter und dem Vektor e der zufälligen Fehler mit Var{e} = 2I, wird bei einfacheren Untersuchungen

meist erfolgreich an die Daten angepasst. Bei der Analyse von Zeitreihen, komplexeren Experimenten und

Erhebungen in strukturierten Populationen sind die Annahmen über die zufälligen Fehler jedoch zu

restriktiv. Die Einführung von zufälligen Effekten führt zum gemischten Modell

y = Xβ + Zu + e (6.2)

Die zufälligen Fehler e werden ergänzt durch systematische zufällige Effekte, welche durch die bekannte

Strukturmatrix Z und den Vektor u festgelegt sind. Generell wird angenommen, dass die Elemente von u

und e normalverteilte Grössen sind mit

u ~ N(0, G) , e ~ N(0, R) und Cov{u, e} = 0

Somit wird Unabhängigkeit von u und e vorausgesetzt. G und R sind im Prinzip beliebige Kovarianz-

matrizen; bei vielen Anwendungen enthalten sie aber nur wenige Parameter. Das Modell (6.1) ist ein

Spezialfall von (6.2), falls Z = 0 und R = 2I.

Die Zielgrösse y wird durch 2 Verteilungen charakterisiert:

Bedingte Verteilung: y | u ~ N(Xβ + Zu, R)

Randverteilung: y ~ N(Xβ, V)

wobei V = ZGZ' + R (6.3)

Je nach Betrachtungsweise erhalten wir für y andere Niveaus (und damit auch andere Residuen):

E{y | u} = Xβ + Zu

E{y} = Xβ

Bei Messwiederholungen repräsentiert ZGZ' meist den Anteil der Kovarianz von Subjekt zu Subjekt und R

denjenigen innerhalb Subjekt. Je nach Situation lassen sich für G und R spezifische Strukturen herleiten,

welche sich dann auf die Struktur von V auswirken.


*** Fiktives Beispiel

Bei N Individuen wird zu den Zeitpunkten x1 = 1, x2 = 2 und x3 = 3 das Merkmal Y festgehalten. Für

die j-te Messung am Individuum i benutzen wir folgendes Modell:

yij = β0 + β1xj + ui +eij i = 1, …, N j = 1, 2, 3

Mit den Parametern β0 und β1 wird ein mittlerer linearer Trend erfasst. Für jedes Individuum ist

zudem eine zufällige Abweichung ui vom mittleren Niveau β0 vorgesehen.

Für das i-te Individuum erhalten wir in Matrixschreibweise: yi = Xiβ + Ziui + ei

yi =

i1

i2

i3

y

y

y

Xi =

31

21

11

β =

1

0 Zi =

1

1

1

ui = ui ei =

i1

i2

i3

e

e

e

Die Matrizen Xi und Zi sind für alle n Individuen identisch. Die Gesamtzahl der Messungen in y

beträgt 3N. Das Modell y = Xβ + Zu + e enthält folgene Komponenten:

y =

N

2

1

y

y

y

X =

N

2

1

X

X

X

Z =

N

2

1

Z00

0Z0

00Z

u =

N

2

1

u

u

u

e =

N

2

1

e

e

e

Var{u} = GNN =

2

u

2

u

2

u

0 0

0 0

0 0

Var{e} = R3N3N = 2I3N3N

In G und R kommen somit nur 2 freie Parameter vor, nämlich 2u und 2. Da Messungen von

verschiedenen Individuen unabhängig sind, entsteht in V eine Blockstruktur entlang der Haupt-

diagonalen:

Var{y} = V =

N

2

1

V00

0V0

00V

wobei Vi =

2 2 2 2

u u u

2 2 2 2

u u u

2 2 2 2

u u u

Bei jedem Individuum resultiert somit eine Kovarianzmatrix mit compound symmetry für die 3

wiederholten Messungen.

******


Ergänzung: diverse weitere Kovarianzmatrix-Strukturen für p wiederholte Messungen

unstrukturiert Σpp =

2

1 12 13 1p

2

2 23 2p

2

3 3p

2

p

Compound Symmetry Σpp = 2

1

1

1

1

AR(1) Σpp =

1 2 p 1

1 p 2

2 p 3

1

1

1

1

Toeplitz Σpp =

1 2 3 p 1

1 2 p 2

1 p 32

1

1

1

1

1

Schätzproblem:

Das Schätzproblem ist beim gemischten Modell (6.2) wesentlich aufwändiger als beim einfacheren Modell

(6.1). Die GLS-Methode (generalized least-squares) minimiert den Ausdruck

(y-Xβ)'V1(y-Xβ)

wobei aber V bzw. G und R bekannt sein müssen. Bei der „estimated GLS“-Methode werden vorgängig die

Elemente von V mit vernünftigen Schätzungen von G und R festgelegt.

Alternative Methoden sind Likelihood-basiert, wobei von normalverteilten Elementen in u und e ausge-

gangen wird. Bei der ML- und REML-Methode (restricted/residual ML) werden alle unbekannten

Parameter simultan geschätzt. Es kann gezeigt werden, dass die Maximierung/Minimierung der Log-


likelihood nur von den Parametern in G und R abhängt. Die nicht-iterative MIVQUE0-Methode dient zur

Schätzung von G und R. Diese Methode wird u.a. für grosse Datensätze empfohlen oder falls ML oder

REML nicht konvergieren.

ML, REML und MIVQUE0 führen zur Schätzung von G und R. Die Schätzung von β und u erfolgt in der

Regel über die Lösung der „mixed model equations“

111

11

''

''

GZRZXRZ

ZRXXRX

u

β

ˆ

ˆ=

yRZ

yRX1

1

'

'

Es resultiert β̂ = yVXXVX 111 '' und û = βXyVGZ ˆ' 1 .

G und R sind bekannt: Falls G und R bekannt sind, ist β̂ ein BLUE-Schätzer (best linear unbiased

estimator) von β und û ein BLUP-Schätzer (best linear unbiased predictor) von u. β̂ und û haben die

Kovarianzmatrix

Var{

u

β

ˆ

ˆ} = C =

1

111

11

''

''

GZRZXRZ

ZRXXRX

G und R sind unbekannt: Dies ist der Normalfall. In V und C werden G und R durch die entsprechenden

Schätzwerte ersetzt. Damit wird die Variabilität von β̂ und û eher unterschätzt, da nicht berücksichtigt ist,

dass die geschätzten Matrizen eine Unsicherheit aufweisen. Auch sind dann β̂ und û nur noch empirical

BLUE bzw. empirical BLUP.

Test von Hypothesen über β und u:

Beim Wald-Test wird der geschätzte Parameter durch den asymptotischen Standardfehler dividiert, welcher

aus der Informationsmatrix berechnet wird. Dieser Test ist jedoch nur bei grossen Datensätzen angebracht.

Eine Alternative ist der Likelihood-Quotienten-Test, welcher sich aus dem Vergleich der Modelle mit und

ohne zu testende Parameter ergibt. Da die Testgrösse approximativ 2-verteilt ist, ist auch dieser Test für

kleinere Datensätze nicht besonders geeignet.

Eine Linearkombination c'β wird geschätzt durch ˆc'β mit der Varianz -1

-1c' X'V X c . Das Testen von

Hypothesen über die festen Parameter in β erfolgt mit F-Tests, wobei die Wahl des korrekten

Freiheitsgrades im Nenner ein schwieriges Problem darstellt.

Die Angaben in diesem Abschnitt sind zum grössten Teil dem Buch von Littell et al. (2006) und dem

Artikel von Littell et al. (2000) entnommen. Dort sind auch viele Hinweise auf die Spezialliteratur

enthalten. Eine umfassende Darstellung für R- und S-Plus-AnwenderInnen findet man im Buch von

Pinheiro & Bates (2000) anhand vieler Beispiele.


6.2 Erneute Auswertung von Beispiel 4

In der Praxis trifft man recht häufig auf folgende Aufgabe: mehrere Gruppen von relativ glatten Profilen

Documents

Repeated Measures - ETH Zürich - Homepage | ETH Zürich · 2016. 9. 28. · 3 Univariate Varianzanalyse (RM ANOVA) 3.1 Compound symmetry und Intra-Class-Korrelation 13 3.2 Das Split-Plot-Modell