54
Weiterbildungslehrgang in angewandter Statistik 2013 / 2014 Repeated Measures Verlaufskurven und andere wiederholte Messungen Dr. Hans-Rudolf Roth ETH Zürich Seminar für Statistik Rämistrasse 101, CH-8092 Zürich [email protected]

Repeated Measures - ETH Zürich - Homepage | ETH Zürich · 2016. 9. 28. · 3 Univariate Varianzanalyse (RM ANOVA) 3.1 Compound symmetry und Intra-Class-Korrelation 13 3.2 Das Split-Plot-Modell

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • Weiterbildungslehrgang

    in angewandter Statistik

    2013 / 2014

    Repeated Measures

    Verlaufskurven und andere wiederholte Messungen

    Dr. Hans-Rudolf Roth

    ETH Zürich

    Seminar für Statistik

    Rämistrasse 101, CH-8092 Zürich

    [email protected]

  • Repeated Measures

    1 Einführende Beispiele 1

    2 Analyse von prägnanten Profil-Eigenschaften

    2.1 AUC und verwandte Profil-Eigenschaften 7

    2.2 Regressionskoeffizienten von einzelnen Profilen 10

    3 Univariate Varianzanalyse (RM ANOVA)

    3.1 Compound symmetry und Intra-Class-Korrelation 13

    3.2 Das Split-Plot-Modell 14

    3.3 Kovarianzstruktur von Messungen mit zeitlicher oder räumlicher Distanz 18

    3.4 Wachstumskurven 19

    4 Multivariate Varianzanalyse 25

    5 Mehrere Behandlungen an derselben Versuchseinheit

    5.1 Parallele Anwendung mehrerer Behandlungen 30

    5.2 Experimente mit mehreren Behandlungssequenzen 32

    5.3 Der AB/BA Wechselversuch 34

    6 Einsatz von Programmen für gemischte Modelle

    6.1 Kurze Theorie zum linearen gemischten Modell (linear mixed model) 39

    6.2 Erneute Auswertung von Beispiel 4 43

    7 Schlussbemerkungen

    7.1 Argumente gegen den Gruppenvergleich für jeden Zeitpunkt 49

    7.2 Kurze Zusammenfassung 50

    8 Literatur 51

  • Repeated Measures Kapitel 1 1

    1. Einführende Beispiele

    Wiederholte Messungen (Repeated Measures) entstehen, wenn ein bestimmtes Merkmal bei jedem

    „Subjekt“ mehrfach erfasst wird. Der technische Begriff „Subjekt“ steht für eine beliebige Beobachtungs-

    oder Versuchseinheit. Es kann sich also um ein einzelnes Lebewesen, eine Gruppe von Lebewesen, aber

    auch um irgend ein System oder Objekt handeln. Auf wiederholte Messungen stösst man in der Praxis sehr

    häufig. Mehrheitlich handelt es sich um zeitlich aufeinanderfolgende Messungen, sogenannte longitudinale

    Daten oder Verlaufskurven. Bei der statistischen Auswertung ist zu berücksichtigen, dass alle Werte,

    welche zum gleichen Subjekt gehören, eine Abhängigkeitsstruktur aufweisen. Da viele elementare

    Methoden der Statistik unabhängige Daten voraussetzen, sind sie für wiederholte Messungen nur

    beschränkt brauchbar. Für Situationen mit gepaarten Daten, also mit genau zwei Messungen pro Subjekt,

    sind meist Standardverfahren verfügbar. Bonate (2000) gibt dazu eine interessante Zusammenstellung.

    Auch bei Hedeker (2006) findet man entsprechende Modelle. Für eine korrekte und adäquate Auswertung

    von Situationen mit mehr als zwei Messungen pro Subjekt, sind im allgemeinen spezielle Methoden

    erforderlich. Unter Umständen kann aber eine Aggregierung der wiederholten Messungen (vgl. Kapitel 2)

    die statistische Auswertung wesentlich vereinfachen.

    Wiederholte Messungen werden verwendet:

    • Um eine dynamische Entwicklung (z.B. Wachstum, Alterungsprozess, Abklingen eines Behandlungs-

    effekts) zu erforschen.

    • Um die Reaktion auf wiederholte Verabreichung derselben Behandlung zu erforschen.

    • Um die Reaktion auf eine Sequenz von verschiedenen Behandlungen zu erforschen.

    • Um die Genauigkeit einer Messmethode zu bestimmen und um Messmethoden zu vergleichen.

    • Um den Einfluss des Messortes oder des Messzeitpunktes zu bestimmen.

    • Um Behandlungseffekte besser vergleichen zu können, wenn die Variabilität zwischen den

    Versuchseinheiten gross ist.

    Einige einfache Beispiele sollen das breite Spektrum der „repeated measures designs“ andeuten.

    Beispiel 1: Gerinnungszeit von Blutplasma (aus Armitage & Berry, S. 219).

    Blut von Behandlung

    Person A B C D Mittel

    1 8.4 9.4 9.8 12.2 9.95

    2 12.8 15.2 12.9 14.4 13.82

    3 9.6 9.1 11.2 9.8 9.92

    4 9.8 8.8 9.9 12.0 10.12

    5 8.4 8.2 8.5 8.5 8.40

    6 8.6 9.9 9.8 10.9 9.80

    7 8.9 9.0 9.2 10.4 9.38

    8 7.9 8.1 8.2 10.0 8.55

    Mittel 9.30 9.71 9.94 11.02 9.99

    Es handelt sich um einen Vergleich von 4 verschiedenen Behandlungen des Blutplasmas. Gemessen wurde

    jeweils die Gerinnungszeit (bis zur Koagulation) in Minuten. Um die Genauigkeit des Versuchs zu steigern,

    wurde das Plasma derselben Person aufgeteilt und mehrfach verwendet. Es handelt sich somit um einen

  • Repeated Measures Kapitel 1 2

    vollständig randomisierten Blockversuch, wobei das Plasma derselben Person als Block aufgefasst wird.

    Man hofft, die Variabilität der Gerinnungszeiten innerhalb eines Blocks, durch die unterschiedlichen

    Behandlungen weitgehend erklären zu können. Die Variabilität zwischen den Blöcken wird durch die

    Auswahl der Personen beeinflusst. Ein breites Personen-Spektrum erhöht die Ausagekraft der Resultate, ist

    also meist erwünscht.

    Die Reihenfolge der Behandlungen in der Grafik ist willkürlich. Um die Herkunft der wiederholten

    Messungen zu verdeutlichen, sind die Werte desselben Blutes mit einer Linie verbunden. Auffällig sind die

    hohen Werte von Person 2.

    ******

    Beispiel 2:

    Zeitbedarf zur Lösung von 4 mathematischen Problemen (aus: E.F. Vonesh and V.M. Chinchilli, S. 111)

    Problem Problem

    Person 1 2 3 4 Person 1 2 3 4

    C 1 43 90 51 67 E 1 10 81 43 33

    C 2 87 36 12 14 E 2 58 84 35 43

    C 3 18 56 22 68 E 3 26 49 55 84

    C 4 34 73 34 87 E 4 18 30 49 44

    C 5 81 55 29 54 E 5 13 14 25 45

    C 6 45 58 62 44 E 6 12 8 40 48

    C 7 16 35 71 37 E 7 9 55 10 30

    C 8 43 47 87 27 E 8 31 45 9 66

    C 9 22 91 37 78

    17 Personen wurden zufällig in 2 Gruppen aufgeteilt. Die Personen der Gruppe E wurden einem

    Spezialtraining unterzogen. Die Gruppe C diente als Kontrollgruppe. Zur Überprüfung der Wirksamkeit des

    Trainings musste jede Person dieselben 4 mathematischen Probleme lösen, wobei die 4 Probleme jeder

    Person in einer individuellen Reihenfolge präsentiert wurden. Zielgrösse ist der Zeitbedarf [min] zur

    Lösung eines Problems. Pro Person liegen somit 4 wiederholte Messungen vor.

  • Repeated Measures Kapitel 1 3

    Als neues Element haben wir hier die Gruppierung der Personen. Die Studie sollte allfällige Unterschiede

    a) zwischen den Gruppen und b) zwischen den Problemen aufzeigen. Für die Beurteilung von

    Unterschieden zwischen den beiden Gruppen ist die Variabilität von Person zu Person massgebend.

    ******

    Beispiel 3:

    Hormon-Spiegel im Serum (aus D.G. Altman, S. 427)

    Mit dieser Studie sollte abgeklärt werden, wie sich durch nasal verabreichtes Progesteron (ein weibl.

    Sexualhormon) die Progesteron-Konzentration im Blutserum verändert. Mehrere Frauen wurden zufällig in

    4 Gruppen eingeteilt. In jeder Gruppe wurde eine andere Dosierung gewählt:

    • Gruppe 1: 0.2 ml einer 100 mg/ml Progesteron-Lösung in ein Nasenloch

    • Gruppe 2: 0.3 ml einer 100 mg/ml Progesteron-Lösung in ein Nasenloch

    • Gruppe 3: 0.2 ml einer 200 mg/ml Progesteron-Lösung in ein Nasenloch

    • Gruppe 4: 0.2 ml einer 100 mg/ml Progesteron-Lösung in beide Nasenlöcher

    Bei jeder Frau waren 10 Messungen [in nmol/l] geplant, wobei die Zeitabstände von Messung zu Messung

    verlängert wurden. Wichtig sind hier nicht nur die zeitlichen Veränderungen der Konzentration innerhalb

    einer Person, sondern auch allfällige Unterschiede zwischen den Gruppen.

    Zeit nach Behandlung (Minuten)

    Gruppe Frau 0 1 3 5 10 15 30 45 60 120

    1 1 1.0 . 10.0 16.0 22.0 20.0 16.0 . 18.0 14.0

    2 6.5 5.7 9.5 11.6 17.5 27.3 28.5 22.4 19.3 10.0

    3 3.0 4.0 4.0 13.0 15.8 19.5 21.2 17.9 10.7 13.4

    4 1.0 2.1 9.7 . 21.8 . 27.5 . 15.5 6.2

    5 1.0 1.0 1.0 4.2 22.6 23.9 45.5 42.6 35.0 10.6

    6 1.0 1.0 1.0 1.0 3.9 14.7 17.6 16.1 8.8 10.8

    Gruppe C

    P1 P2 P3 P4

    Problem

    0

    20

    40

    60

    80

    100

    Ze

    itbe

    da

    rf

    Gruppe E

    P1 P2 P3 P4

    Problem

    0

    20

    40

    60

    80

    100

    Ze

    itbe

    da

    rf

  • Repeated Measures Kapitel 1 4

    Zeit nach Behandlung (Minuten)

    Gruppe Frau 0 1 3 5 10 15 30 45 60 120

    2 7 1.0 1.5 5.0 11.0 16.0 23.0 15.0 9.0 6.0 5.0

    8 1.0 1.0 6.5 20.0 22.5 27.8 19.0 9.0 8.2 8.0

    9 1.0 1.0 7.3 7.5 18.0 20.0 18.9 12.8 6.3 4.8

    10 3.0 2.5 2.0 2.7 3.4 3.6 14.0 7.3 7.7 4.7

    11 8.3 7.5 9.6 11.0 11.5 15.7 15.2 15.8 14.0 11.5

    12 6.2 5.9 6.8 7.7 9.0 9.3 12.1 12.2 11.0 9.0

    3 13 8.4 10.8 8.1 7.8 8.5 12.0 19.8 22.2 25.2 40.5

    14 3.5 3.2 3.4 3.3 8.5 9.4 14.5 12.7 11.5 10.2

    15 3.5 4.0 4.8 3.5 3.7 13.0 12.5 15.0 22.0 10.5

    16 3.7 3.2 4.3 4.5 5.5 8.5 10.3 11.1 8.0 6.0

    4 17 5.0 5.6 6.1 7.2 13.8 26.0 26.1 25.7 20.5 11.0

    18 4.5 5.1 13.2 21.0 26.8 28.0 22.0 17.8 15.7 14.0

    19 8.4 6.2 8.0 18.5 33.8 35.0 26.2 23.0 19.0 12.6

    20 4.2 3.2 4.2 4.8 10.3 13.7 17.1 18.3 17.4 15.8

    1

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    2

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    3

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    4

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    5

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    6

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    7

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    8

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    9

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    10

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    11

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    12

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    13

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    14

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    15

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    16

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    17

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    18

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    19

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    20

    0 50 100 150

    T

    0

    10

    20

    30

    40

    50

    Y

    Bei den 20 Einzelverläufern (Profilen) fällt vor allem die grosse Variabilität auf. Mehrheitlich folgt auf

    einen schnellen Anstieg ein langsamer Abfall. Das Profil 13 ist sehr atypisch. Störend sind auch die

    fehlenden Werte bei den Profilen 1 und 4.

    ******

  • Repeated Measures Kapitel 1 5

    Beispiel 4: Zahnmedizinische Distanz [mm] (from the centre of the pituitary to the pteryomaxillary fissure),

    gemessen in Abständen von 2 Jahren bei 11 Mädchen und 16 Knaben (beliebtes Beispiel, z.B. aus Lindsey,

    S. 77 ff. oder aus Hand & Crouder, S. 28 ff.).

    Drei wesentliche Fragen waren bei dieser Erhebung von Interesse:

    • Verändert sich die Distanz mit dem Alter?

    • Verlaufen die Profile von Mädchen und Knaben parallel?

    • Wenn ja, sind die mittleren Niveaus der Profile von Mädchen und Knaben gleich?

    ******

    Was ist den 4 Beispielen gemeinsam und worin unterscheiden sie sich?

    Between-Subjects- Within-Subject- wiederholte

    Beispiel Faktor Faktor Messungen Zielgrösse

    1 — Behandlung 4 Gerinnungszeit (stetig)

    2 Training math. Problem 4 Zeitbedarf (stetig)

    3 Dosierung Zeit 10 Progesteronspiegel (stetig)

    4 Geschlecht Alter 4 Distanz (stetig)

    • Das Beispiel 1 ist besonders einfach, da kein Between-Subjects-Faktor vorliegt. Es resultiert für den

    Within-Subject-Faktor eine vollständig randomisierte Blockanlage.

    • Beispiel 2 ist vom Ablauf her ein Wechselversuch (Cross-over Design) bezüglich des Within-Subject-

    Faktors. Das Beispiel kann aber auch als Spaltanlage (Split Plot Design) interpretiert werden (Person

    als „Main Unit“ und Periode zur Lösung eines mathematischen Problems als „Sub Unit“).

    • Bei den Beispielen 3 und 4 handelt es sich um longitudinale Daten. Die Reihenfolge der wiederholten

    Messungen ist durch den Within-Subject-Faktor Zeit gegeben. Beim Faktor Zeit bzw. Alter ist keine

    Randomisierung möglich. Es resultiert eine spezielle Abhängigkeitsstruktur: je kleiner der zeitliche

    oder räumliche Abstand zwischen wiederholten Messwerten ist, desto stärker sind sie untereinander

    korreliert. Beim Beispiel 4 zeigen die Profile einen relativ einfachen Verlauf, ganz im Gegensatz zu

    den Progesteron-Spiegeln von Beispiel 3.

    Mädchen

    8 10 12 14

    Alter

    16

    20

    24

    28

    32

    Dis

    tan

    z

    1234567891011

    PERSON

    Knaben

    8 10 12 14

    Alter

    16

    20

    24

    28

    32

    Dis

    tan

    z

    12131415161718192021222324252627

    PERSON

  • Repeated Measures Kapitel 1 6

    Einige zusätzliche Modellkomponenten und Komplikationen

    • Mehrere Within-Subject-Faktoren bestimmen die Struktur der wiederholten Messungen; z.B. Messung

    einer Aktivität zu bestimmten Tageszeiten an mehreren Tagen.

    • Mehrere Between-Subjects-Faktoren bestimmen die Gruppierung der Subjekte; z.B. Personen aus

    mehreren Altersklassen und Regionen.

    • Die Zielgrösse kann nicht durch eine Normalverteilung approximiert werden: es handelt sich dabei z.B.

    um Häufigkeiten oder Anteilswerte, sowie binäre, ordinal skalierte oder kategoriale Variablen.

    • Es werden zusätzliche Kovariablen erhoben:

    • sie sind subjekt-spezifisch, wenn sie für alle Messungen eines Subjekts konstant sind

    • sie sind zeitvariierend (time varying covariates), wenn sie bei jeder wiederholten Messung einen

    anderen Wert annehmen können.

    Unterschiede zwischen Verlaufskurven (longitudinal data) und Zeitreihen (time series)

    • Bei Zeitreihen handelt es sich meist um sehr viele Messungen, welche in regelmässigen Zeitabständen

    am gleichen Messort oder Objekt erhoben wurden.

    • Bei den Verlaufskurven liegen immer mehrere Verläufe vor, die häufig eher kurz sind.

    • Der zeitliche Abstand zwischen aufeinanderfolgenden Messwerten muss bei Verlaufskurven nicht

    konstant sein. Es ist sogar möglich, dass das Zeitmuster von Subjekt zu Subjekt variiert.

    • Etliche Aspekte der Zeitreihenanalyse, wie Periodizität und Stationarität, sind bei Verlaufskurven im

    allgemeinen nicht von Interesse.

    Statistische Auswertung von wiederholten Messungen

    Wiederholte Messungen sind mit sehr unterschiedlichen Fragestellungen verbunden. Es gibt deshalb keine

    Standardanalyse. Die Art der Zielgrösse beeinflusst die Auswertungsmethodik ganz wesentlich. Für

    quantitative, normalverteilte Merkmale stehen bekannte und bewährte Methoden zur Verfügung. Für

    Häufigkeiten oder kategorielle Zielgrössen sind die Methoden erst in Entwicklung begriffen. Mehr dazu

    findet man bei Lindsey (1999), Davis (2002) und Molenberghs and Verbeke (2005). Oft werden Ad-hoc-

    Methoden verwendet.

    Im Rahmen dieses Kurses müssen wir uns auf stetige Messwerte beschränken. Die 4 Beispiele werden z.T.

    nach mehreren Kriterien ausgewertet. Ein 5. Beispiel wird im Abschnitt 3.4 und ein 6. Beispiel im

    Abschnitt 5.3 eingeführt.

    Beispiel Auswertung im Abschnitt

    1 5.1

    2 5.2

    3 2.1

    4 2.2 ; 3.2 ; 4 ; 6.2

    5 3.4

    6 5.3

    Beachten Sie unbedingt auch den Abschnitt 7.1 über einen häufig anzutreffenden Fehler bei der

    Auswertung und Interpretation von Verlaufskurven.

  • Repeated Measures Kapitel 2 7

    2. Analyse von prägnanten Profil-Eigenschaften

    Falls man die wiederholte Messungen eines Subjekts mit einen Linienzug verbindet, entstehen sogenannte

    Profile. Die statistische Auswertung dieser Profile wird enorm erleichtert, falls es gelingt, die einzelnen

    Profile durch eine Kenngrösse oder durch wenige Kenngrössen zu ersetzen (summary measures approach).

    Damit wird einerseits die Datenmenge reduziert und andererseits die Abhängigkeitsstruktur der Daten

    vereinfacht. Eine konventionelle statistische Auswertung dieser prägnanten Profil-Eigenschaften liefert

    häufig gut interpretierbare Ergebnisse, die auch durch eine Auswertung mit einem komplizierten Modell

    kaum verbessert werden können.

    Subjekt Y1 Y2 ... ... Yp Ÿ1 Ÿ2 ... Ÿq

    1 y11

    y12

    ... ... y1p

    ÿ11

    ÿ12

    ... ÿ1q

    ... ... ... ... ... ... ... ... ... ...

    ... ... ... ... ... ... ... ... ... ...

    N yN1

    yN2

    ... ... yNp

    ÿN1

    ÿN2

    ... ÿNq

    p Messwerte

    q Profil-Eigenschaften

    (q < p)

    2.1 AUC und verwandte Profil-Eigenschaften

    Bei vielen medizinischen oder physiologischen Anwendungen wird eine Substanz den Patienten oder

    Probanden von aussen zugeführt. Sie verteilt sich im Körper und wird mit der Zeit wieder ausgeschieden

    oder abgebaut. Es sind dann ähnliche Profile wie im Beispiel 3 (vgl. Seite 4) zu erwarten.

    Die Fläche unter der Kurve (AUC = area under curve):

    Die Fläche unter der Kurve ist ein Mass für die globale oder kumulative Reaktion eines Individuums auf

    einen Stimulus. Zur Berechnung der AUC (natürlich für jedes Individuum separat) werden üblicherweise

    die aufeinanderfolgenden Messwerte durch eine Gerade verbunden. Die Fläche unter diesem Linienzug

    setzt sich aus einzelnen Trapezen zusammen. Für die Zeitpunkte tj und tj+1 mit den Messwerten yj und yj+1

    ergibt sich die Trapezfläche nach der Formel

    Trapezfläche = (tj+1 - tj)( yj + yj+1)/2

  • Repeated Measures Kapitel 2 8

    Weitere prägnante Profil-Eigenschaften können z.B. sein:

    • Mittelwert oder Median aller Messungen

    • Höhe des Maximums (Peak)

    • Differenz zwischen erster und letzter Messung

    • abschliessendes Niveau (Plateau)

    • Zeit bis zum Erreichen - des Maximums (TTP = time to peak)

    - eines bestimmten Niveaus bzw. einer bestimmten Veränderung

    - des maximalen Anstiegs bzw. Abfalls

    • Zeit über einem bestimmten Niveau

    • Polynomiale Komponente (linear, quadratisch, … )

    *** Auswertung von Beispiel 3 anhand von prägnanten Profil-Eigenschaften:

    Profil-Eigenschaft

    Gruppe Frau PEAK TTP AUC

    1 1 3.091 10 332.5

    2 3.350 30 341.0

    3 3.054 30 313.7

    4 3.314 30 313.9

    5 3.816 30 370.0

    6 2.868 30 271.3

    Mittel 3.249 26.7 323.7

    2 7 3.135 15 246.5

    8 3.325 15 281.5

    9 2.998 15 253.8

    10 2.639 30 218.1

    11 2.760 45 311.2

    12 2.501 45 278.6

    Mittel 2.893 27.5 264.9

    3 13 * 3.701 120 374.9

    14 2.674 30 281.6

    15 3.091 60 307.4

    16 2.407 45 243.3

    Mittel 2.724 45.0 277.4

    4 17 3.262 30 342.4

    18 3.332 15 340.8

    19 3.555 15 353.8

    20 2.907 45 324.8

    Mittel 3.264 26.3 340.4

    P-Wert aus ANOVA 0.065 0.215 0.003

    Unterschiede nach Tukey keine keine 21 , 24

    * in den Berechnungen (Mittelwerte, ANOVA, Tests) unberücksichtigter „Ausreisser“

  • Repeated Measures Kapitel 2 9

    1 2 3 4

    Gruppe

    0

    50

    100

    150

    TT

    P

    Alle Messwerte (vgl. Daten ab Seite 3) wurden zuerst logarithmiert und dann pro Individuum auf

    wenige prägnante Eigenschaften reduziert: auf das Maximum (PEAK), die Zeit bis zum Erreichen

    des Maximums (TTP) und die Fläche unter der Kurve (AUC).

    Gruppenvergleiche mit den komprimierten Zielgrössen (PEAK, TTP, AUC) können z.B. mit

    folgenden statistischen Methoden erfolgen:

    • ANOVA für jede Zielgrösse separat (zusammengefasst in obiger Tabelle)

    • simultane multivariate ANOVA (MANOVA)

    Univariate ANOVA’s:

    Für die Zielgrösse PEAK liegt der P-Wert nur knapp über 5% (P = 0.065). Bezüglich der

    Zielgrössen TTP sind die Unterschiede zwischen den Gruppen gering (P = 0.215). Signifikante

    Unterschiede erhält man bei den AUC-Werten (P = 0.003).

    Mit der MANOVA (vgl. Kapitel 4) lassen sich keine signifikanten Unterschiede zwischen den

    Gruppen nachweisen (P = 0.06 mit Wilks' Lambda, Pillai Trace und Hotelling-Lawley Trace). Die

    statistische Macht (power) dieser Methode ist bei kleinen Stichproben gering.

    ******

    1 2 3 4

    Gruppe

    2.0

    2.5

    3.0

    3.5

    4.0

    PE

    AK

    1 2 3 4

    Gruppe

    200

    250

    300

    350

    400

    AU

    C

  • Repeated Measures Kapitel 2 10

    Aber:

    • Schon in der Planungsphase einer Studie muss überlegt werden, welche Profil-Eigenschaften wesentlich

    sind, da die Wahl der Messzeitpunkte bzw. -orte die Genauigkeit dieser Eigenschaften beeinflusst.

    • Soll die AUC über den ganzen Bereich berechnet werden oder nur für einen kürzeren Abschnitt?

    • Soll für die AUC die Baseline berücksichtigt bzw. abgezogen werden?

    • Fehlende Messwerte reduzieren die Genauigkeit der Profil-Eigenschaften.

    • Wie vertrauenswürdig sind statistische Aussagen, wenn die Profil-Eigenschaften erst nach dem

    Betrachten der Daten festgelegt werden?

    2.2 Regressionskoeffizienten von einzelnen Profilen

    Falls die einzelnen Profile nicht allzu unähnlich sind und einen relativ glatten Verlauf aufweisen, liegt es

    nahe, jedes Profil durch eine Regressionskurve zu charakterisieren. Die Koeffizienten dieser Regressions-

    kurven enthalten die Information über jedes Profil in komprimierter Form und können somit auch als

    prägnante Profil-Eigenschaften betrachtet werden. Die Auswertung kann auf zwei Arten erfolgen:

    in zwei Schritten, wobei zuerst alle Regressionsparameter geschätzt und diese anschliessend einer

    statistischen Prüfung unterzogen werden. Dazu ist in der Regel keine Spezialsoftware erforderlich.

    simultan mit Hilfe eines Programms für gemischte Effekte (vgl. Kapitel 6). Diese Methodik hat in der

    Fachliteratur mehrere Namen: random coefficients, random growth curves models, multi-level models,

    random effect models oder hierarchical models.

    *** Auswertung von Beispiel 4 anhand von individuellen Regressionskoeffizienten:

    Drei wesentliche Fragen waren bei dieser Erhebung von Interesse:

    • Verändert sich die Distanz mit dem Alter?

    • Verlaufen die Profile von Mädchen und Knaben parallel?

    • Wenn ja, sind die mittleren Niveaus der Profile von Mädchen und Knaben verschieden?

    Vorläufige Antworten erhalten wir bereits aus den graphischen Darstellungen auf Seite 5:

    • Bei allen Personen ist ein Anstieg zu beobachten. Ein Test erübrigt sich beinahe.

    • Eventuell ist der Anstieg bei den Knaben etwas steiler.

    • Die Knaben scheinen ein um ca. 2 mm höheres Niveau zu haben.

    Da die Profile sehr gleichförmig aussehen, passen wir an jedes Profil eine Gerade an. Für das i-te

    Profil lautet die Gleichung

    yij = i + i (tj - t ) + ij i = 1, ..., nM + nK j = 1, ..., 4 (nM = 11, nK = 16)

    Da alle Messungen zu denselben äquidistanten Zeitpunkten erfolgten, können die Koeffizienten i

    und i mit einfachen Kontrasten geschätzt (nach kleinsten Quadraten) werden:

    i = (+1·yi1 + 1·yi2 + 1·yi3 + 1·yi4) / 4

  • Repeated Measures Kapitel 2 11

    i = (3·yi1 1·yi2 + 1·yi3 + 3·yi4) / 20

    Diese Parameter werden als Stichprobe aus einer entsprechenden Normalverteilung angesehen:

    Mädchen: αi ~ N(αM, 2 ) und βi ~ N(βM,

    2 )

    Knaben: αi ~ N(αK, 2 ) und βi ~ N(βK,

    2 )

    Rohdaten und geschätzte Parameter für die Mädchen:

    Distanz [mm] im Alter von i i

    Gruppe Person t1 = 8 t2 = 10 t3 = 12 t4 = 14

    Mädchen 1 21.0 20.0 21.5 23.0 21.375 0.375

    2 21.0 21.5 24.0 25.5 23.000 0.800

    3 20.5 24.0 24.5 26.0 23.750 0.850

    4 23.5 24.5 25.0 26.5 24.875 0.475

    5 21.5 23.0 22.5 23.5 22.625 0.275

    6 20.0 21.0 21.0 22.5 21.125 0.375

    7 21.5 22.5 23.0 25.0 23.000 0.550

    8 23.0 23.0 23.5 24.0 23.375 0.175

    9 20.0 21.0 22.0 21.5 21.125 0.275

    10 16.5 19.0 19.0 19.5 18.500 0.450

    11 24.5 25.0 28.0 28.0 26.375 0.675

    Mittelwert 22.65 0.480

    Standardabweichung 2.105 0.220

    Rohdaten und geschätzte Parameter für die Knaben:

    Distanz [mm] im Alter von i i

    Gruppe Person t1 = 8 t2 = 10 t3 = 12 t4 = 14

    Knaben 12 26.0 25.0 29.0 31.0 27.750 0.950

    13 21.5 22.5 23.0 26.5 23.375 0.775

    14 23.0 22.5 24.0 27.5 24.250 0.750

    15 25.5 27.5 26.5 27.0 26.625 0.175

    16 20.0 23.5 22.5 26.0 23.000 0.850

    17 24.5 25.5 27.0 28.5 26.375 0.675

    18 22.0 22.0 24.5 26.5 23.750 0.800

    19 24.0 21.5 24.5 25.5 23.875 0.375

    20 23.0 20.5 31.0 26.0 25.125 0.975

    21 27.5 28.0 31.0 31.5 29.500 0.750

    22 23.0 23.0 23.5 25.0 23.625 0.325

    23 21.5 23.5 24.0 28.0 24.250 1.000

    24 17.0 24.5 26.0 29.5 24.250 1.950 *

    25 22.5 25.5 25.5 26.0 24.875 0.525

    26 23.0 24.5 26.0 30.0 25.875 1.125

    27 22.0 21.5 23.5 25.0 23.000 0.550

    Mittelwert 25.02 0.707

    Standardabweichung 1.883 0.271

    * Ausreisser: alle Berechnungen werden ohne Daten von Person 24 durchgeführt

  • Repeated Measures Kapitel 2 12

    Die folgenden Boxplots zeigen deutliche Unterschiede zwischen den Gruppen; sowohl bezüglich

    î als auch î

    1 2

    Gruppe

    18

    20

    22

    24

    26

    28

    30

    alp

    ha

    Zuerst prüfen wir anhand der individuellen î die Nullypothese H0: βM= βK gegen die Alternative

    HA: βM βK mit einem ungepaarten t-Test:

    t = (0.480 - 0.707) / 0.100 = -2.28 mit 24 Freiheitsgraden

    Der Anstieg verläuft nicht parallel (P = 0.03). Der Abstand zwischen den Gruppen ist somit vom

    Alter der Kinder abhängig.

    Ein Vergleich der î zwischen den beiden Gruppen führt zu folgender Testgrösse:

    t = (22.65 - 25.02) / 0.785 = -3.02 mit 24 Freiheitsgraden

    Bei einem mittleren Alter von 11 Jahren unterscheiden sich die Mittelwerte (P = 0.006).

    In jeder Gruppe prüfen wir noch die Nullhypothese H0: = 0 gegen die Alternative HA: 0 :

    Gruppe mean{ ̂ } s{ ̂ } se{ ̂ } t P

    Mädchen (nM = 11) 0.480 0.220 0.066 7.24 < 0.001

    Knaben (nK = 15) 0.707 0.271 0.070 10.10 < 0.001

    Der lineare Anstieg ist in beiden Gruppen gesichert (P < 0.001).

    ******

    1 2

    Gruppe

    0.0

    0.5

    1.0

    1.5

    2.0

    be

    ta

  • Repeated Measures Kapitel 3 13

    3. Univariate Varianzanalyse (RM ANOVA)

    Wir wollen in diesem Kapitel die Abhängigkeitsstruktur von wiederholten Messungen näher betrachten und

    diese bei der Auswertung der Daten berücksichtigen. Die Kovarianzmatrix erhalten wir entweder durch

    direkte Modellierung oder aufgrund eines statistischen Modells der Daten. Beide Möglichkeiten sollen

    zuerst anhand einer ganz einfachen Situation demonstriert werden.

    3.1 Compound symmetry und Intra-Class-Korrelation

    An mehreren Subjekten werde dieselbe Zielgrösse je p Mal gemessen. Die Subjekte sind nicht gruppiert,

    d.h. es gibt keinen Between-Subjects-Faktor. Auch die p Messungen sind nicht weiter strukturiert, d.h. es

    gibt keinen erklärenden Within-Subject-Faktor (Behandlung, Zeit oder Ort). Diese Datenstruktur resultiert

    auch bei der Messung an p verschiedenen Untereinheiten, welche hierarchisch in den Subjekten angeordnet

    sind (z.B. Bewertung an jeweils p Pflanzen derselben Parzelle). Wir erwarten, dass alle Beobachtungen

    desselben Subjekts relativ ähnlich sind und untereinander in einem gleichmässigen Abhängigkeitsverhältnis

    stehen. Mit diesen Überlegungen leitet Lindsey (1999) die Kovarianzmatrix der p wiederholten

    Messungen innerhalb desselben Subjekts ab:

    pp =

    1011

    1101

    1110

    = (0 + 1)

    1

    1

    1

    M1

    0 ist die Varianz der wiederholten Messungen am gleichen Subjekt (eine Art Messfehler). 1 ist eine

    Komponente, welche einerseits die Variabilität bzw. Ähnlichkeit zwischen den einzelnen Subjekten erfasst

    und andererseits die Kovarianz zwischen den wiederholten Messungen desselben Subjekts charakterisiert

    (1 kann theoretisch auch negativ sein, solange (0 + 1) > 0 ist). Die spezielle Struktur der Matrix M1 wird

    als „compound symmetry“ bezeichnet. Die Matrix enthält nur 2 Parameter. (Im Gegensatz dazu hat eine

    völlig beliebige, unstrukturierte pp-Kovarianzmatrix, welche natürlich auch symmetrisch ist, p(p+1)/2

    freie Parameter.) Alle wiederholten Messungen desselben Subjekts sind untereinander korreliert. Der Intra-

    Class-Korrelationskoeffizient beträgt = 1/(0 + 1) und könnte rein theoretisch auch negativ sein.

    Zur gleichen Kovarianz-Struktur führt auch das folgende lineare Modell mit zufälligen Effekten (vgl. Skript

    Varianzanalyse, Kapitel 4.2):

    yij = µ + i + ij (3.1)

    Wobei: yij = j-te Messung am i-ten Subjekt, µ = allgemeines Niveau, i = zufällige Abweichung des i-ten

    Subjekts von und ij = zufälliger Fehler.

    Annahmen: E{i} = E{ij} = 0, Var{i} = 2

    und Var{ij} = 2

    , sowie Unabhängigkeit zwischen und

    innerhalb allen i und ij .

    Es resultiert: E{yij} = Cov{yij, yij*} = 2

    für j j*

    Var{yij} = 2

    + 2

    Cov{yij, yi*j*} = 0 für i i*

  • Repeated Measures Kapitel 3 14

    Für die p wiederholten Messungen eines Subjekts erhält man somit die pp-Kovarianzmatrix M2

    pp =

    2222

    2222

    2222

    M2

    und daraus die Korrelationsmatrix R2 (Intra-Class-Korrelationskoeffizient)

    Rpp =

    1

    1

    1

    wobei = 2 /(

    2 +2 ) und 0 ≤ ≤ R2

    Fügt man dem Modell (3.1) fixe Effekte hinzu, bleiben M2 und R2 unverändert.

    Warum ist für uns die „compound symmetry“ so interessant?

    Die „compound symmetry“ erhält man auch im Rahmen von linearen Modellen für eine univariate

    Zielgrösse, wenn (mindestens) ein Faktor mit zufälligen Effekten beteiligt ist. Falls nun die Kovarianz-

    matrix von p wiederholten Messungen einer „compound symmetry“ nahe kommt, können wir die p-

    dimensionalen Messungen mit einer „normalen“, univariaten ANOVA auswerten.

    3.2 Das Split-Plot-Modell

    Wir erweitern das simple Modell (3.1) um einen Gruppierungsfaktor A mit a festen Stufen und einen

    Within-Subject-Faktor B mit p festen Stufen.

    yijk = µ + i + j(i) + k + ()ik + ijk (3.2)

    i = 1, ..., a j = 1, ..., ni k = 1, ..., p

    Interpretation der Summanden:

    yijk Zielgrösse am j-ten Subjekt in der i-ten Gruppe zur k-ten B-Stufe

    µ allgemeines Niveau

    i fixer Effekt der i-ten Gruppe (Between-Subjects-Faktor)

    j(i) zufälliger Effekt des j-ten Subjekts in der i-ten Gruppe: j(i) ~ i.i.d. N(0,2

    )

    k fixer Effekt der k-ten B-Stufe (Within-Subject-Faktor)

    ()ik fixer Effekt der Wechselwirkung von Gruppe und Faktor B

    ijk zufälliger, normalverteilter Fehler: ijk ~ i.i.d. N(0, e2

    )

    Das Modell (3.2) kommt auch bei der Auswertung von Spaltanlagen (vgl. Skript Varianzanalyse, Kapitel 6)

    zum Zug, bei welchen die Stufen von A auf die Main-Units und die Stufen von B auf die Sub-Units

    angewendet wurden. Deshalb wird das Modell (3.2) auch als Split-Plot-Modell für wiederholte Messungen

    bezeichnet.

  • Repeated Measures Kapitel 3 15

    Unter der Annahme, dass alle Effekte stochastisch unabhängig sind, resultiert:

    E{yijk} = i + k + ()ik

    Var{yijk} = 2 +

    2

    Cov{yijk, yijk*} = 2 für k k*

    Cov{yijk, yi*j*k*} = 0 für i i* oder j j*

    Die Modelle (3.1) und (3.2) führen also zur Kovarianz-Struktur wie in Matrix M2, da in (3.2) nur Faktoren

    mit festen Effekten hinzugekommen sind. Es resultiert somit auch hier die „compound symmetry“, welche

    man noch etwas umformen kann. Wir setzen Var{yijk} =2 +

    2 =2 und =

    2 /2 . Es resultiert:

    Var{yijk} = 2

    Cov{yijk, yijk*} = 2 für k k*

    Cov{yijk, yi*j*k*} = 0 für i i* oder j j*

    Zum Split-Plot-Modell (3.2) und der zusätzlichen Annahme, dass ni = n für alle Gruppen, erhält man

    folgende ANOVA-Tabelle mit den Erwartungswerten der Durchschnittsquadrate (N = a·n bzw. Gesamtzahl

    aller Subjekte):

    Ursache df E{MS}

    A: Gruppierungsfaktor a - 1 ²[1+(p-1)] + pn·QA

    Subjekte innerhalb Gruppen N - a ²[1+(p-1)]

    zwischen Subjekten N - 1

    B: Within-Subject-Faktor p - 1 ²(1-) + an·QB

    Interaktion A x B (a-1)(p-1) ²(1-) + n·QAB

    Fehler 2 (N-a)(p-1) ²(1-)

    total Np - 1 Annahme: ni = n

    Es sind zwei Fehlerstreuungen zu berücksichtigen: der Faktor A wird gegen MSSubjekte innerhalb Gruppen geprüft,

    alle übrigen Effekte gegen MSFehler 2.

    *** Beispiel 4 (Fortsetzung):

    Wir haben bereits drei Fragen gestellt (vgl. Seite 5):

    1. Verändert sich die Distanz mit dem Alter? → Zum Modell (3.2) passende H0: k = 0

    2. Verlaufen die Profile parallel? → Zum Modell (3.2) passende H0: ()ik = 0

    3. Sind die mittleren Niveaus der Profile von Mädchen und Knaben verschieden? → Zum Modell

    (3.2) passende H0: i = 0

  • Repeated Measures Kapitel 3 16

    Ist hier die Annahme der „compound symmetry“ mit den Daten vereinbar? Wir berechnen die

    Kovarianzmatrix aus den Messungen der Mädchen (Matrix M3) und aus den Messungen der

    Knaben (Matrix M4) separat:

    Y1.1 Y1.2 Y1.3 Y1.4

    Y1.1 4.514

    Y1.2 3.355 3.618 10 Freiheitsgrade M3

    Y1.3 4.332 4.027 5.591

    Y1.4 4.357 4.077 5.466 5.941

    Y2.1 Y2.2 Y2.3 Y2.4

    Y2.1 6.017

    Y2.2 2.292 4.562 15 Freiheitsgrade M4

    Y2.3 3.629 2.194 7.032

    Y2.4 1.613 2.810 3.241 4.349

    Unter der Annahme, dass die Varianz-Kovarianz-Struktur in den beiden Gruppen gleich ist, kann

    man aus M3 und M4 eine kombinierte Kovarianzmatrix innerhalb Gruppen (Matrix M5) bilden.

    Sie ist das gewogene Mittel, wobei die Freiheitsgrade als Gewichte verwendet werden. Aus M5

    berechnen wir anschliessend die Korrelationsmatrix R5.

    Y..1 Y..2 Y..3 Y..4

    Y..1 5.415

    Y..2 2.717 4.185 25 Freiheitsgrade M5

    Y..3 3.910 2.927 6.456

    Y..4 2.710 3.317 4.131 4.986

    1

    R5 = 0.57 1

    0.66 0.56 1

    0.52 0.73 0.73 1

    Sowohl Varianzen als auch Korrelationen sind untereinander recht ähnlich, so dass die „compound

    symmetry“ angenommen werden kann. Wie stark eine Kovarianzmatrix von der „compound

    symmetry“ abweicht, erfassen zwei quantitative Masse (vgl. z.B. Vonesh & Chinchilli):

    • Greenhouse-Geisser Epsilon: ̂ G-G von M5 = 0.867

    • Huynh-Feldt Epsilon: ̂ H-F von M5 = 1.000

    Es ist 1/(p-1) ≤ ̂ G-G ≤ ̂ H-F ≤ 1 . ̂ = 1 bedeutet keine Abweichung. Zur Korrektur der P-Werte

    werden beim F-Test beide Freiheitsgrade mit ̂ multipliziert. Die Korrektur nach Greenhouse-

    Geisser ist eher konservativ, jene nach Huynh-Feldt eher zu liberal.

  • Repeated Measures Kapitel 3 17

    ANOVA-Tabelle zum Beispiel 4:

    Ursache df SS MS F P PG-G PH-F

    A: Sex 1 140.5 140.5 9.29 0.005

    Personen innerh. Gruppen 25 377.9 15.1

    zwischen Personen 26 518.4

    B: Alter 3 209.4 69.8 35.35 0.000 0.000 0.000

    Interaktion Sex*Alter 3 14.0 4.7 2.36 0.078 0.088 0.078

    Fehler 2 75 148.1 2.0

    total 107 917.7

    Interpretation: Die mittleren Niveaus der Profile von Mädchen und Knaben unterscheiden sich (P =

    0.005). Die Distanz ändert sich mit dem Alter (P < 0.001). Die Parallelität der Profile kann auf dem

    5%-Niveau nicht verworfen werden (P = 0.078).

    Ergänzungen:

    • SStotal wird nicht orthogonal zerlegt, da mehr Knaben als Mädchen vermessen wurden. Es ist

    wichtig, dass mit Type III SS gearbeitet wird (drop1 bei R).

    • Zeit- und Interaktionseffekte kann man mit orthogonalen (meist polynomialen) Kontrasten

    weiter analysieren. Programme, welche eine spezielle Option für „repeated measures“ anbieten

    (z.B. SAS, SPSS oder SYSTAT), liefern dazu folgende Resultate:

    Polynomial Test of Order 1 (Linear)

    Source SS df MS F P

    Alter 208.27 1 208.27 87.999 0.000

    Alter*Sex 12.11 1 12.11 5.119 0.033

    Error 59.17 25 2.37

    Polynomial Test of Order 2 (Quadratic)

    Source SS df MS F P

    Alter 0.96 1 0.96 0.920 0.347

    Alter*Sex 1.20 1 1.20 1.152 0.293

    Error 26.04 25 1.04

    Polynomial Test of Order 3 (Cubic)

    Source SS df MS F P

    Alter 0.21 1 0.21 0.084 0.774

    Alter*Sex 0.68 1 0.68 0.270 0.608

    Error 62.92 25 2.52

    Interpretation: Die Altersunterschiede beruhen v.a. auf einem linearen Trend. Alle quadratischen

    und kubischen Trends sind vernachlässigbar. Der lineare Trend ist jedoch in den beiden Gruppen

    unterschiedlich (P = 0.033). Dies steht nur scheinbar im Widerspruch zum globalen Test der

    Interaktion Sex*Alter (mit 3 Freiheitsgraden) mit dem P-Wert von 0.078, da hier nur die lineare

  • Repeated Measures Kapitel 3 18

    Komponente der Interaktion Sex*Alter (mit 1 Freiheitsgrad) getestet wurde. Dasselbe Resultat

    ergab auch die Auswertung dieses Beispiels über die individuellen Regressionskoeffizienten (vgl.

    Abschnitt 2.2).

    ******

    3.3 Kovarianzstruktur von Messungen mit zeitlicher oder räumlicher Distanz

    Kehren wir zurück zur Modellierung der Kovarianzmatrix. Die „compound symmetry“ wurde im Abschnitt

    3.1 eingeführt. Die Matrix M1 kann man auch in der Form

    pp =

    222

    222

    222

    =

    1

    1

    1

    2

    schreiben (2 = 0 + 1 und = 1/2

    ).

    In vielen Situationen ist aber eine „compound symmetry“ kaum zutreffend. Wenn z.B. Messungen mit

    zeitlicher oder räumlicher Distanz vorliegen, haben direkt benachbarte Messungen eine grössere

    Ähnlichkeit als weiter auseinanderliegende Messungen. Die Kovarianzmatrix hat dann die Form

    pp =

    1 p 1

    1 p 22

    p 1 p 2

    1

    1

    1

    wobei die Intra-Class-Korrelation (i) mit zunehmender Distanz kleiner wird: (i) > (i’) für i < i’.

    Bei AR(1)-Prozessen mit äquidistanten Zeitintervallen erwartet man u.U. die spezielle Form

    pp =

    p

    p

    p p p

    1 2 1

    1 1 22

    1 2 3

    1

    1

    1

    In Computer-Programmen für gemischte Modelle (vgl. Kapitel 6) sind derartige Strukturen bereits

    vordefiniert. Diggle, Liang & Zeger (1994) verwenden Ansätze zur parametrischen Modellierung der

    Varianz-Kovarianz-Struktur, welche von individuellen Zeitintervallen abhängig sein kann.

    Weitere Abweichungen von der „compound symmetry“ sind z.B. auch bei Wachstumskurven zu erwarten.

    Bis anhin sind wir immer von konstanten Varianzen (Diagonalelementen) ausgegangen. Bei

    Wachstumskurven beobachtet man in der Regel einen Anstieg der Variabilität mit zunehmendem Alter.

    Wir wollen deshalb ein entsprechendes Beispiel etwas genauer behandeln.

  • Repeated Measures Kapitel 3 19

    3.4 Wachstumskurven

    Das folgende Beispiel wurde von verschiedenen Autoren aufgegriffen und neu analysiert.

    *** Beispiel 5: Gewicht von Ratten unter 3 experimentellen Bedingungen. 27 jüngere Ratten wurden

    zufällig 3 Behandlungsgruppen zugeteilt (Kontrolle, Zugabe von Thyroxin im Trinkwasser, Zugabe

    von Thiourocil im Trinkwasser). Jedes Tier wurde separat gehalten und ab Versuchsbeginn

    wöchentlich gewogen (Daten aus Box 1950).

    Gewicht in Woche Zuwachs

    Gruppe Tier 0 1 2 3 4 D1 D2 D3 D4 total ij ij

    1 1 57 86 114 139 172 29 28 25 33 115 28.3 0.357

    1 2 60 93 123 146 177 33 30 23 31 117 28.7 -0.786

    1 3 52 77 111 144 185 25 34 33 41 133 33.3 2.214

    1 4 49 67 100 129 164 18 33 29 35 115 29.2 2.143

    1 5 56 81 104 121 151 25 23 17 30 95 23.0 0.286

    1 6 46 70 102 131 153 24 32 29 22 107 27.5 -0.500

    1 7 51 71 94 110 141 20 23 16 31 90 21.9 1.071

    1 8 63 91 112 130 154 28 21 18 24 91 22.1 -0.786

    1 9 49 67 90 112 140 18 23 22 28 91 22.7 1.357

    1 10 57 82 110 139 169 25 28 29 30 112 28.1 0.786

    Mittelwert 54 79 106 130 161 25 28 24 31 107 26.48 0.614

    2 11 59 85 121 156 191 26 36 35 35 132 33.5 1.214

    2 12 54 71 90 110 138 17 19 20 28 84 20.7 1.643

    2 13 56 75 108 151 189 19 33 43 38 133 34.2 3.429

    2 14 59 85 116 148 177 26 31 32 29 118 29.9 0.500

    2 15 57 72 97 120 144 15 25 23 24 87 22.2 1.143

    2 16 52 73 97 116 140 21 24 19 24 88 21.9 0.071

    2 17 52 70 105 138 171 18 35 33 33 119 30.6 2.000

    Mittelwert 56 76 105 134 164 20 29 29 30 109 27.57 1.429

    3 18 61 86 109 120 129 25 23 11 9 68 17.0 -3.143

    3 19 59 80 101 111 122 21 21 10 11 63 15.7 -2.214

    3 20 53 79 100 106 133 26 21 6 27 80 18.7 -0.929

    3 21 59 88 100 111 122 29 12 11 11 63 14.9 -2.643

    3 22 51 75 101 123 140 24 26 22 17 89 22.6 -1.286

    3 23 51 75 92 100 119 24 17 8 19 68 16.1 -1.357

    3 24 56 78 95 103 108 22 17 8 5 52 12.9 -3.071

    3 25 58 69 93 114 138 11 24 21 24 80 20.5 1.643

    3 26 46 61 78 90 107 15 17 12 17 61 15.1 -0.071

    3 27 53 72 89 104 122 19 17 15 18 69 17.0 -0.286

    Mittelwert 55 76 96 108 124 22 20 12 16 69 17.05 -1.336

    Die Gewichtsentwicklung ist in den folgenden Abbildungen gruppenweise dargestellt. Wir

    erkennen sofort eine typische Eigenschaft von Wachstumskurven: die Kurven entwickeln sich

    auseinander, was ein Hinweis darauf ist, dass die Variabilität der Messungen mit dem Alter

    zunimmt.

  • Repeated Measures Kapitel 3 20

    0 1 2 3 4

    Woche

    40

    80

    120

    160

    200

    Gew

    icht

    12345678910

    Tier

    0 1 2 3 4

    Woche

    40

    80

    120

    160

    200

    Gew

    ich

    t

    11121314151617

    Tier

    0 1 2 3 4

    Woche

    40

    80

    120

    160

    200

    Gew

    ich

    t

    18192021222324252627

    Tier

    Zwischen den ersten beiden Gruppen ist kaum eine Differenz zu sehen. Die 3. Gruppe ist im

    Wachstum deutlich gehemmt.

    Bevor wir die Profile genauer analysieren und vergleichen, wenden wir uns der Kovarianz- bzw.

    Korrelations-Struktur der wiederholten Messungen zu. Von den Variablen Y0, Y1 , ..., Y4

    (Variable Y0 mit den Messungen in Woche 0, usw.), resultiert die Kovarianzmatrix M6, welche

  • Repeated Measures Kapitel 3 21

    man z.B. mit einem Diskriminanzanalyse-Programm einfach berechnen kann (pooled within

    covariance matrix):

    Y0 Y1 Y2 Y3 Y4

    Y0 21.6

    Y1 33.0 68.7

    Y2 31.6 69.1 94.8 M6

    Y3 29.4 64.5 116.4 181.6

    Y4 24.7 56.7 122.9 207.2 268.4

    Der Anstieg bei den Varianzen (Diagonalelemente) ist sehr deutlich. Die entsprechende

    Korrelationsmatrix R6 zeigt die typische Nachbarschaftsbeziehung von Verlaufskurven: zeitlich

    benachbarte Messungen sind stärker korreliert als weiter entfernte Messungen. M6 weicht klar von

    der „compound symmetry“ ab, was auch durch die Epsilons nach Greenhouse-Geisser und nach

    Huynh-Feldt signalisiert wird: ̂ G-G = 0.332 und ̂ H-F = 0.373.

    1.00

    0.86 1.00

    R6 = 0.70 0.86 1.00

    0.47 0.58 0.89 1.00

    0.32 0.42 0.77 0.94 1.00

    Durch das Logarithmieren sämtlicher Messwerte erhält man ausgeglichene Diagonalelemente in der

    Kovarianzmatrix M7; die Diagonalelemente sind nun sehr ähnlich:

    log(Y0) log(Y1) log(Y2) log(Y3) log(Y4)

    log(Y0) 0.007

    log(Y1) 0.008 0.012

    log(Y2) 0.006 0.009 0.009 M7

    log(Y3) 0.005 0.007 0.009 0.012

    log(Y4) 0.003 0.005 0.008 0.011 0.012

    1.00

    0.86 1.00

    R7 = 0.70 0.86 1.00

    0.49 0.59 0.89 1.00

    0.34 0.43 0.77 0.93 1.00

    Die Korrelationsmatrizen R6 und R7 sind aber immer noch sehr ähnlich. Auch an den -Massen hat

    sich wenig verändert. Zu M7 erhält man ̂ G-G = 0.393 und ̂ H-F = 0.451. Die univariate

    Varianzanalyse mit dem Split-Plot-Modell ist deshalb mit den untersuchten Variablen Y0, ..., Y4

    oder log(Y0), ..., log(Y4) nicht voll befriedigend, aber unter Anwendung der Korrektur nach

    Greenhouse-Geisser oder nach Huynh-Feldt erlaubt. Aber es stehen ja noch weitere Möglichkeiten

    offen.

  • Repeated Measures Kapitel 3 22

    Unter Umständen kann eine einfache Transformation zur gewünschten Struktur führen. Wir bilden

    die 1. Differenzen (Zuwachs pro Woche) D1 = Y1-Y0, D2 = Y2-Y1 usw. und erhalten die

    Kovarianzmatrix M8:

    D1 D2 D3 D4

    D1 24.26

    D2 1.77 25.38 M8

    D3 -2.31 26.10 43.61

    D4 -3.11 14.35 19.13 35.54

    Die Korrelationsmatrix R8 ist bei oberflächlicher Beurteilung klar vom Ideal R2 entfernt:

    1.00

    R8 = 0.07 1.00

    -0.07 0.79 1.00

    -0.11 0.48 0.49 1.00

    Die Auswertung der 1. Differenzen mit dem Split-Plot-Modell wäre aber durchaus möglich (M8 mit

    ̂ G-G = 0.731 und ̂ H-F = 0.875), wenn die P-Wert-Korrektur durchgeführt wird.

    ******

    Bei Wachstumskurven konzentriert man sich u.a. auf folgende Aspekte und Fragen:

    • Endgewicht, Gesamtzuwachs, Zuwachs oder Zuwachsänderung in einzelnen Perioden

    Gibt es Unterschiede zwischen Gruppen?

    Besteht eine Abhängigkeit vom Anfangsgewicht? (Anfangsgewicht als Kovariable)

    • Individuelle Profile

    Gibt es wichtige Komponenten (linear, quadratisch usw.) ?

    Gibt es Unterschiede zwischen Gruppen im Niveau?

    Gibt es Unterschiede zwischen Gruppen im Verlauf (Parallelität) ?

    Mehrere Aspekte lassen sich somit univariat testen (t-Test bzw. ANOVA). Eine MANOVA (vgl. Kapitel 4)

    oder eine Diskriminanzanalyse ist ebenfalls möglich. Diese Methoden würden auf beliebige Abweichungen

    zwischen den Gruppen reagieren.

    *** Beispiel 5 (Fortsetzung):

    Wir konzentrieren uns auf drei naheliegende, prägnante Profil-Eigenschaften:

    den Gesamtzuwachs D = Y4 –Y0

    βij : Koeffizient für den linearen Trend

    γij : Koeffizient für den quadratischen Trend

    wobei für die letzten beiden Grössen an jedes Profil ein Polynom 2. Grades angepasst wird:

    yijk = ij + ij(tk - t ) + ij (tk - t )2 + ijk i = 1, 2, 3 j = 1, ..., ni k = 1, ..., 5

  • Repeated Measures Kapitel 3 23

    Wir nehmen an, dass in der i-ten Gruppe die Koeffizienten ij und ij normalverteilt sind und sich

    nur zufällig von der mittleren Steigung i bzw. i unterscheiden:

    ij ~ N(i,2

    ) und ij ~ N(i, 2

    ) i = 1, 2, 3

    a) Zuerst die Analyse des Gesamtzuwachses D = Y4 –Y0:

    1 2 3

    Gruppe

    60

    80

    100

    120

    140

    Zu

    wa

    ch

    s

    Ursache df SS MS F P

    Gruppe 2 9192.1 4596.0 19.10 < 0.001

    Fehler 24 5775.9 240.7

    Die ANOVA bestätigt eine signifikante Abweichung zwischen den Gruppen; die 3. Gruppe weicht

    von den beiden anderen Gruppen deutlich ab.

    b) Linearer Trend: Wir testen die Hypothese H0: 1 = 2 = 3 mit der Varianzanalyse.

    1 2 3

    Gruppe

    15

    20

    25

    30

    35

    line

    are

    r T

    ren

    d

    Zuwachs D

    Gruppe n Mittelwert Standardfehler

    1 10 106.6 4.906

    2 7 108.7 5.863

    3 10 69.3 4.906

    linearer Trend

    Gruppe n Mittelwert Standardfehler

    1 10 26.48 1.304

    2 7 27.57 1.559

    3 10 17.05 1.304

  • Repeated Measures Kapitel 3 24

    Ursache df SS MS F P

    Gruppen 2 619.44 309.7 18.22 < 0.001

    Fehler 24 408.10 17.0

    Beim linearen Trend unterscheidet sich die Gruppe 3 von den übrigen. Die Unterschiede zwischen

    den ersten beiden Gruppen sind nicht signifikant.

    c) Quadratischer Trend: Wir testen die Hypothese H0: 1 = 2 = 3 mit der Varianzanalyse.

    1 2 3

    Gruppe

    -3

    -2

    -1

    0

    1

    2

    3

    4

    qu

    ad

    ratisch

    er

    Tre

    nd

    Auch beim quadratischen Trend unterscheidet sich die Gruppe 3 von den übrigen. Die Unterschiede

    zwischen den ersten beiden Gruppen sind nicht signifikant.

    Der verminderte Gesamtzuwachs in der 3. Gruppe ist also mit einem deutlich flacheren linearen

    Anstieg des Gewichts und einer negativen quadratischen Komponente zu erklären.

    ******

    Ursache df SS MS F P

    Gruppen 2 35.613 17.807 11.04 < 0.001

    Fehler 24 38.727 1.614

    quadratischer Trend

    Gruppe n Mittelwert Standardfehler

    1 10 0.614 0.402

    2 7 1.429 0.480

    3 10 -1.336 0.402

  • Repeated Measures Kapitel 4 25

    4. Multivariate Varianzanalyse

    In der Mehrzahl aller Studien werden mehrere Zielgrössen erfasst, aber jede für sich, d.h. univariat,

    ausgewertet. Dieses Vorgehen ist vom theoretischen Standpunkt aus fragwürdig. Je mehr Zielgrössen

    erfasst werden, desto eher findet man rein zufällig signifikante Effekte bzw. signifikante Unterschiede

    zwischen einzelnen Gruppen. Zudem sind die Zielgrössen untereinander meist korreliert, was oft nicht

    beachtet wird. Zur Auswertung von Studien mit p-dimensionalen Zielgrössen bieten sich multivariate

    lineare Modelle an. Timm (2002) vermittelt dazu einen umfassenden Einstieg. Wir behandeln hier nur die

    multivariate Varianzanalyse (MANOVA). Das Modell für die Ein-Weg-MANOVA lautet:

    yij = µ + αi + eij i = 1, ... , g j = 1, ... , ni (4.1)

    wobei

    yij Vektor mit den p Zielgrössen des j-ten Subjekts in der i-ten Gruppe

    µ Vektor mit den allgemeinen Niveaus

    αi Vektor mit den fixen Effekten der i-ten Gruppe

    Nebenbedingung: α1 + ... + αg = 0

    eij Vektor mit den zufälligen Fehlern: eij ~ Np( 0 , )

    Die MANOVA ist eine Verallgemeinerung der ANOVA: während man bei der ANOVA Nullhypothesen

    der Gleichheit von Populationsmittelwerten einer einzigen Zielvariablen prüft, handelt es sich bei der

    MANOVA um die Prüfung simultaner Nullhypothesen für p Zielvariablen (z.B. H0: µ = 0 oder H0: αi = 0).

    Bei der ANOVA zerlegen wir die Summe der quadrierten Abweichungen vom Gesamtmittelwert in einen

    Teil, welcher durch das Modell „erklärt“ wird und in einen Rest, welcher sich aus den zufälligen Fehlern

    ergibt. Die anschliessenden F-Tests basieren dann auf den „Durchschnittsquadraten“. Bei der MANOVA

    erweitert sich eine Summe von Quadraten zu einer pp-Matrix der Summe von Quadraten und Produkten.

    Diese Matrizen werden für den Signifikanztest nicht durch die entsprechenden Freiheitsgrade dividiert.

    Variation df Matrix mit Summe von Quadraten und Produkten

    zwischen Gruppen g - 1 B = i

    g

    1

    ni( iy - y )( iy - y )'

    innerhalb Gruppen N - g W = i

    g

    1 j

    n i

    1

    (yij - iy )(yij - iy )'

    total N - 1 B + W = i

    g

    1 j

    n i

    1

    (yij - y )(yij - y )'

    iy : Vektor mit den p Mittelwerten in der i-ten Gruppe

    y : Vektor mit den p Gesamtmittelwerten

    Eine ANOVA kann notfalls auch ohne Computer durchgeführt werden. Für eine MANOVA ist der

    Aufwand wesentlich grösser. MANOVA-Programme berechnen die benötigten pp-Matrizen B, W und

    B+W und führen den Globaltest nach drei bis vier verschiedenen Kriterien durch, wobei die Resultate meist

  • Repeated Measures Kapitel 4 26

    sehr ähnlich (oder sogar identisch) sind. Das bekannteste Kriterium wurde von Wilks vorgeschlagen. Wilks'

    Lambda (Λ*) ist ein Quotient von 2 Determinanten:

    Λ* = │W│ ∕ │B + W│

    Die Verteilung von Λ* kann unter H0: αi = 0 angegeben werden. H0 wird verworfen, wenn Λ* unter einem

    kritischen Wert liegt. Rencher (1995) enthält ebenfalls ein gut verständliches Kapitel über die MANOVA.

    Der Zusammenhang zwischen den verschiedenen Testkriterien wird ausführlich dargestellt.

    MANOVA für wiederholte Messungen:

    Im allgemeinen hat man es mit p unterschiedlichen Zielvariablen zu tun, welche eine beliebige Varianz-

    Kovarianz-Struktur aufweisen können. Im Falle von p wiederholten Messungen pro Subjekt liegt ein

    Spezialfall vor. Die p-dimensionale Beobachtung betrifft immer dieselbe Messgrösse. Die Varianz-

    Kovarianzmatrix der p Messungen ist deshalb kaum beliebig, sondern durch die Art der Within-Subject-

    Faktoren weitgehend festgelegt.

    Nachteile:

    • Die Standard-MANOVA liefert nur Signifikanztests für die Between-Subjects-Faktoren.

    • Die Interpretation der Testergebnisse ist schwierig, da sie simultan auf p Variablen beruht.

    • Je grösser p, desto kritischer wird die Voraussetzung multivariat-normalverteilter Fehler.

    • Alle Beobachtungen, welche fehlende Werte enthalten sind – ohne Imputation - unbrauchbar.

    • Die spezielle Struktur von wiederholten Messungen (gleiche Messgrösse und Abhängigkeitsstrukturen

    durch die Nachbarschaftsverhältnisse) wird nicht berücksichtigt.

    Der letzte Punkt ist sehr gravierend. Es müssen oft sehr viele Parameter, nämlich p Varianzen und p(p-1)/2

    Kovarianzen geschätzt werden. Daraus erklärt sich eine verminderte statistische Macht im Vergleich zur

    Methode, die im Kapitel 6 behandelt wird und bei der spezielle Abhängigkeitsstrukturen von wiederholten

    Messungen berücksichtigt werden können.

    *** Beispiel 4: Multivariate Auswertung

    Die Messungen im Alter von 8, 10, 12 und 14 Jahren betrachten wir als Realisationen einer 4-

    dimensionalen Zielgrösse mit den Komponenten Y1, Y2, Y3 und Y4. Das Modell lautet:

    yij = µ + αi + eij i {M, K} j = 1, ... , ni mit nM = 11, nK = 16

    wobei

    yij Vektor mit den 4 Distanzen der j-ten Person innerhalb der i-ten Gruppe

    µ , αi , eij gemäss (4.1)

    Da es sich nur um 2 Gruppen handelt, könnte der Vergleich der beiden Gruppen auch mit dem T2-

    Test nach Hotelling durchgeführt werden.

    In der folgenden Tabelle sind die beobachteten Mittelwerte zusammengestellt. Ein altersbedingter

    Anstieg ist deutlich erkennbar.

  • Repeated Measures Kapitel 4 27

    Alter 8 10 12 14

    Variable Y1 Y2 Y3 Y4

    Gesamtmittelwert: y 22.185 23.167 24.648 26.093

    Mittelwert Mädchen: My 21.182 22.227 23.091 24.091

    Mittelwert Knaben: Ky 22.875 23.812 25.719 27.469

    Der Unterschied zwischen den Gruppen wird mit den Elementen der iα̂ -Vektoren erfasst:

    Variable Y1 Y2 Y3 Y4

    Effekt Mädchen: Mα̂ -0.847 -0.793 -1.314 -1.689

    Effekt Knaben: Kα̂ 0.847 0.793 1.314 1.689

    Die Unterschiede zwischen Mädchen und Knaben nehmen mit dem Alter zu. Kann man simultan

    einen Unterschied nachweisen? Wir haben bereits die Kovarianzmatrix innerhalb Gruppen bzw.

    die Kovarianzmatrix der Fehler berechnet (vgl. Abschnitt 3.2 Matrix M5):

    Y1 Y2 Y3 Y4

    Y1 5.415

    Y2 2.717 4.185 25 Freiheitsgrade M9

    Y3 3.910 2.927 6.456

    Y4 2.710 3.317 4.131 4.986

    Wenn die Gruppierung nicht berücksichtigt wird (keine α-Effekte im Modell), erhält man aus den

    Abweichungen vom entsprechenden Gesamtmittelwert die folgende Kovarianzmatrix:

    Y1 Y2 Y3 Y4

    Y1 5.926

    Y2 3.285 4.654 26 Freiheitsgrade M10

    Y3 4.875 3.859 7.939

    Y4 4.040 4.532 6.197 7.655

    Die Elemente der Matrix M10 sind grösser als diejenigen von M9. Durch Einbezug der

    Gruppeneffekte haben wir somit einen Teil der Kovarianzmatrix M10 reduzieren können. Der

    unerklärbare Teil ist in der Matrix M9 enthalten. Mit dem Vergleich von M9 mit M10 testet man

    somit das Vorliegen von Gruppeneffekten.

    Es gilt W = 25∙M9

    B+W = 26∙M10

    und wir erhalten folgende Resultate:

    Wilks' Lambda = 0.602 F-Statistic = 3.632 DF = 4, 22 P = 0.02

    Pillai Trace = 0.398 F-Statistic = 3.632 DF = 4, 22 P = 0.02

    Hotelling-Lawley Trace = 0.660 F-Statistic = 3.632 DF = 4, 22 P = 0.02

  • Repeated Measures Kapitel 4 28

    Interpretation: Die beiden Gruppen unterscheiden sich - multivariat betrachtet auf dem 5%-Niveau

    signifikant (P = 0.02). Wir haben also die Hypothese αi = 0 bzw. μM – μK = 0 verworfen. Wie

    dieser Unterschied zu interpretieren ist, muss noch genauer untersucht werden.

    ******

    Mit der MANOVA lassen sich auch spezifische Hypothesen, z.B. über zeitliche Trends, prüfen. Wie die

    MANOVA bei der Auswertung von wiederholten Messungen eingesetzt werden kann, zeigen z.B. Timm

    (2002), Crowder & Hand (1990), Lindsey (1999) oder Davis (2002).

    c11 c21 ... cp-1,1

    c12 c22 ... cp-1,2

    ... ... ... ...

    c1p c2p ... cp-1,p

    Subjekt Y1 Y2 ... ... Yp L1 L2 ... Lp-1

    1 y11 y12 ... ... y1p ÿ11 ÿ12 ... ÿ1,p-1

    ... ... ... ... ... ... ... ... ... ...

    ... ... ... ... ... ... ... ... ... ...

    ... ... ... ... ... ... ... ... ... ...

    N yN1 yN2 ... ... yNp ÿN1 ÿN2 ... ÿN,p-1

    Standard-MANOVA

    RM-MANOVA

    Wir wollen der Frage nachgehen, ob der zeitliche Trend in den Gruppen parallel verläuft. Falls das zur

    Verfügung stehende MANOVA-Programm das Testen von Kontrasten nicht unterstützt, gibt es trotzdem

    eine einfache Möglichkeit, Hypothesen über Kontraste der Variablen (nicht der Gruppen) zu prüfen. Wir

    betrachten dazu wieder das Beispiel 4.

  • Repeated Measures Kapitel 4 29

    *** Beispiel 4: Multivariate Auswertung (Fortsetzung)

    Die Parallelität des zeitlichen Verlaufs testen wir auf 2 gleichwertige Arten.

    1) Über die Hypothesen, dass die Gruppen gleiche zeitliche Veränderungen aufweisen:

    μM,2 – μM,1 = μK,2 – μK,1

    μM,3 – μM,2 = μK,3 – μK,2

    μM,4 – μM,3 = μK,4 – μK,3

    bzw. (μM – μK)’C = 0’ , wobei C =

    100

    110

    011

    001

    Um diese 3 Hypothesen simultan zu testen, kann man die Beobachtungsmatrix Y direkt mit C

    multiplizieren und das Produkt YC mit einer MANOVA auf Gruppenunterschiede testen.

    2) Parallelität des zeitlichen Verlaufs kann man mit fehlendem Unterschied im linearen,

    quadratischen und kubischen Trend gleichsetzen. Dazu muss nur die Matrix C neu definiert

    werden:

    (μM – μK)’C = 0’ , wobei C =

    113

    311

    311

    113

    Man erhält in beiden Fällen das knapp nicht-signifikante Resultat:

    Hotelling-Lawley Trace = 0.352 F-Statistic = 2.695 DF = 3, 23 P = 0.07

    Da sich die beiden Gruppen nur im linearen Trend unterscheiden, ist dieses Resultat verständlich.

    ******

  • Repeated Measures Kapitel 5 30

    5. Mehrere Behandlungen an derselben Versuchseinheit

    Behandlungen können besonders effizient miteinander verglichen werden, wenn an jedem Subjekt alle

    Behandlungen zur Anwendung kommen. Im Idealfall ist eine parallele Anwendung möglich, wie etwa

    beim Beispiel 1. Meist liegt eine randomisierte Blockanlage vor, wobei jedes Subjekt als Block interpretiert

    wird. Erfolgt die Auswahl der Subjekte zufällig, dann werden ihnen im Rahmen einer Varianzanalyse

    zufällige Effekte zugeordnet. In der Regel weisen die Within-Subject-Faktoren feste Effekte auf, was zu

    einem gemischten Modell (mixed model ANOVA) führt. Diese Situation wird im Abschnitt 5.1 behandelt.

    Falls eine parallele Anwendung von Behandlungen nicht möglich ist, kommen Wechselversuche (Cross-

    over designs) zum Einsatz. Jedes Subjekt durchläuft eine Sequenz von verschiedenen Behandlungs-

    perioden. Beim Beispiel 2 waren 4 mathematische Aufgaben zu lösen, wobei für jedes Subjekt eine

    vorgeschriebene Reihenfolge festgelegt wurde. Wechselversuche müsssen sehr sorgfältig geplant und

    ausgeführt werden, da Periodeneffekte und Nachwirkungseffekte die Resultate beeinflussen können.

    Periodeneffekte lassen sich rechnerisch korrigieren, falls der Versuch ausbalanciert ist. Um Übertragungs-

    und Nachwirkungseffekte auszuschliessen, werden zwischen den Behandlungen angemessene Pausen,

    sogenannte Washout-Perioden, eingeschaltet. Beispiele folgen in den Abschnitten 5.2 und 5.3.

    5.1 Parallele Anwendung mehrerer Behandlungen

    *** Auswertung von Beispiel 1: Das Blutplasma derselben Person wurde parallel, d.h. am gleichen Tag

    auf 4 verschiedene Arten behandelt. Von 8 Personen liegen je 4 entsprechende Gerinnungszeiten

    [in Minuten] vor. Das gemischte Modell zu den Daten auf Seite 1 lautet:

    yij = µ + i + j + eij i = 1, ... , n j = 1, ... , p mit n = 8, p = 4

    wobei

    yij Gerinnungszeit des Plasmas der i-ten Person mit j-ter Behandlung

    µ allgemeines Niveau

    i zufälliger Effekt der i-ten Person: i ~ i.i.d. N(0, 2A )

    j fixer Effekt der j-ten Behandlung

    eij zufälliger Fehler (untrennbar von allfälliger Interaktion): eij ~ i.i.d. N(0, e2

    )

    Im nachfolgenden Tukey-Anscombe Plot (Abb. 5.1) ist eine trichterförmige Struktur der Residuen

    erkennbar. Die Anahme konstanter Fehlervarianz ist somit kaum erfüllt. Ein naheliegender Ausweg

    besteht darin, die Zielgrösse geeignet zu transformieren. Bei Reaktionszeiten wirkt der Kehrwert

    häufig varianzstabilisierend. In der weiteren Auswertung ist

    Y = 100 / Gerinnungszeit d.h. Y ist nun die Gerinnungsrate pro Minute in %

    Für die einzelnen Behandlungen resultieren folgende Kennzahlen:

    Behandlung 1 2 3 4

    mittlere Gerinnungsrate 10.97 10.67 10.25 9.28

    Standardabweichung 1.51 1.81 1.44 1.47

  • Repeated Measures Kapitel 5 31

    7 8 9 10 11 12 13 14 15

    ESTIMATE

    -2

    -1

    0

    1

    2

    RE

    SID

    UA

    L

    Abbildung 5.1: Tukey-Anscombe plot der (untransformierten) Gerinnungszeiten

    ANOVA-Tabelle für die Gerinnungsraten:

    Ursache df SS MS F P E{MS}

    Personen n-1 = 7 57.16 8.165 14.98 < 0.001 e2

    + p2A

    Behandlung p-1 = 3 13.02 4.339 7.96 0.001 e2

    + nQB

    Fehler (n-1)(p-1) = 21 11.45 0.545 e2

    total np-1 = 31 81.63

    Zur Variabilität innerhalb Personen tragen die unterschiedlichen Behandlungen signifikant bei. Der

    kleine P-Wert zum Faktor Personen bedeutet, dass die Varianz 2A > 0 ist. Schätzwerte für e

    2 und

    2A können aus den Durchschnittsquadraten berechnet werden (

    2A ist nur sinnvoll interpretierbar,

    wenn die Personen wirklich zufällig aus einem grösseren Kollektiv gewählt wurden):

    e2 = 0.545 und

    2Â = (8.165 - 0.545) / 4 = 1.905

    Die 4 Behandlungen vergleichen wir paarweise:

    paarweise Differenzen P-Werte nach Fisher

    1 2 3 4 1 2 3 4

    1 0 1 1

    2 0.30 0 2 0.418 1

    3 0.72 0.41 0 3 0.065 0.276 1

    4 1.69 1.39 0.97 0 4 0.000 0.001 0.015 1

    Die Behandlung 4 unterscheidet sich signifikant von allen übrigen. Zwischen den Behandlungen 1,

    2 und 3 sind die Unterschiede offensichtlich gering. Die Analyse der Residuen weist auf keine

    Verletzung der Modellannahmen hin:

  • Repeated Measures Kapitel 5 32

    -1.5

    -0.5

    0.5

    1.5R

    ES

    IDU

    AL

    -3 -2 -1 0 1 2 3

    Expected Value for Normal Distribution

    ******

    5.2 Experimente mit mehreren Behandlungssequenzen

    In der Verhaltensforschung, Psychologie und Medizin werden laufend Wechselversuche mit Tieren oder

    Menschen durchgeführt, da die Behandlungen nicht parallel am gleichen Individuum angewendet werden

    können. In einzelnen Fällen, wie beim Beispiel 2, wird die Behandlungssequenz bei der statistischen

    Auswertung nicht berücksichtigt. Das kann durchaus berechtigt sein. Besser wäre jedoch eine

    Berücksichtigung der Perioden und Behandlungssequenzen.

    *** Beispiel 2: Auswertung ohne Berücksichtigung der Behandlungssequenz. Ein erster Blick auf die

    Mittelwerte des Zeitbedarfs zeigt z.T. erhebliche Unterschiede zwischen den beiden Gruppen aber

    auch zwischen den mathematischen Problemen:

    Problem 1 Problem 2 Problem 3 Problem 4

    alle Personen N = 17 33.3 53.4 39.5 51.1

    Kontrollgruppe n1 = 9 43.2 60.1 45.0 52.9

    trainierte Gruppe n2 = 8 22.1 45.8 33.3 49.1

    Wir können bei der Auswertung dieses Wechselversuchs allfällige Perioden- und Übertragungs-

    effekte nicht berücksichtigen, da uns nicht bekannt ist, in welcher Reihenfolge den Personen die 4

    mathematischen Probleme präsentiert wurden.

    Ein Split-Plot-Modell bietet sich hier an:

    yijk = µ + i + j(i) + k + ()ik + ijk i = 1, 2 j = 1, ..., ni k = 1, ..., 4

    wobei nun spezifisch

    yijk Zeitbedarf der j-ten Person innerhalb der i-ten Gruppe für k-tes Problem

    k fixer Effekt des k-ten mathematischen Problems

    ()ik fixer Effekt der Wechselwirkung von Gruppe und Faktor „Problem“

    6 7 8 9 10 11 12 13

    ESTIMATE

    -1.5

    -0.5

    0.5

    1.5

    RE

    SID

    UA

    L

  • Repeated Measures Kapitel 5 33

    Die Anpassung an die Originaldaten ergab eine schiefe Verteilung der Residuen (vgl. Normal Plot),

    was gegen die Voraussetzung der ANOVA verstösst.

    -30

    -20

    -10

    0

    10

    20

    30

    40

    50

    60

    RE

    SID

    UA

    L

    -3 -2 -1 0 1 2 3

    Expected Value for Normal Distribution

    Verlässliche Resultate erhält man jedoch nach dem Logarithmieren der y-Werte. Die entspre-

    chenden Mittelwerte lauten nun:

    log-transformierte y-Werte Problem 1 Problem 2 Problem 3 Problem 4

    alle Personen N = 17 3.27 3.83 3.50 3.84

    Kontrollgruppe n1 = 9 3.61 4.04 3.65 3.84

    trainierte Gruppe n2 = 8 2.90 3.58 3.33 3.84

    Mit den log-transformierten y-Werten resultiert folgende ANOVA-Tabelle:

    Ursache df SS MS F P E{MS}

    Faktor A: Gruppe 1 2.36 2.36 5.74 0.030 e2

    + b·2 + bn·QA

    Person innerh. Gruppe 15 6.16 0.41 e2

    + b·2

    zwischen Personen 16 8.52

    Faktor B: Problem 3 3.99 1.33 3.82 0.016 e2

    + an·QB

    Gruppe Problem 3 1.12 0.37 1.07 0.372 e2

    + n·QAB

    Fehler 2 45 15.68 0.35 e2

    total 67 29.31 Annahme: ni = n

    Algorithmen zur Bestimmung der Erwartungswerte für die Durchschnittsquadrate findet man u.a.

    im Buch von Lorenzen and Anderson (1993). Aus der letzten Spalte leiten wir folgende Tests ab:

    MSA wird mit MSPerson innerh. Gruppe verglichen. MSB und die Interaktion MSAxB werden mit MSFehler 2

    verglichen.

  • Repeated Measures Kapitel 5 34

    Interpretation:

    • Die beiden Gruppen unterscheiden sich auf dem 5%-Niveau (P = 0.03). Die trainierten

    Personen haben somit die Probleme in kürzerer Zeit gelöst.

    • Zwischen den Problemen bestehen ebenfalls signifikante Unterschiede (P = 0.016). Die

    Unterschiede zwischen den Problemen sind in beiden Gruppen ähnlich (P = 0.372).

    Die Analyse der Residuen zeigt, dass die log-transformierten Daten wesentlich besser zu den

    Modellvoraussetzungen passen:

    ******

    5.3 Der AB/BA Wechselversuch

    Um auf die Schwierigkeiten und Finessen von Wechselversuchen eingehen zu können, betrachten wir den

    einfachsten Fall mit 2 Behandlungen (A und B) und 2 Behandlungsperioden. Dazwischen liegt eine

    angemessene Pause (washout period). Nach der 2. Behandlung wird das Experiment abgebrochen und

    statistisch ausgewertet. Aus Symmetriegründen sollten beide Behandlungssequenzen, also A→B und

    B→A, möglichst gleich oft zur Anwendung kommen.

    Modell 1 yijk = µ + πk + j(i) + αTi,k + (k-1)·λTi,k-1 + ijk

    wobei:

    i Index der Sequenz (i = 1, 2)

    k Index der Periode (k = 1, 2)

    Ti,k bezeichnet Behandlung: T1,1 = T2,2 = A,

    T2,1 = T1,2 = B

    πk Effekt der k-ten Periode (π1 + π2 = 0)

    αT.,. Effekt der Behandlung T.,. (αA + αB = 0)

    λT.,. Nachwirkungseffekt der Behandlung T.,. (λA + λB = 0)

    j(i) Effekt von Individuum j in Sequenz i j(i) ~ i.i.d. N(0,2

    )

    ijk zufälliger Fehler ijk ~ i.i.d. N(0,e2

    )

    -1.5

    -0.5

    0.5

    1.5

    RE

    SID

    UA

    L

    -3 -2 -1 0 1 2 3

    Expected Value for Normal Distribution

    2.0 2.5 3.0 3.5 4.0 4.5

    ESTIMATE

    -1.5

    -0.5

    0.5

    1.5

    RE

    SID

    UA

    L

  • Repeated Measures Kapitel 5 35

    Erwartete Wirkung:

    Periode 1 Periode 2

    Sequenz 1 (A→B) E{ y 1.1} = µ + π1 + αA E{ y 1.2} = µ + π2 + αB + λA

    Sequenz 2 (B→A) E{ y 2.1} = µ + π1 + αB E{ y 2.2} = µ + π2 + αA + λB

    Aus obiger Aufstellung ist ersichtlich, wie bestimmte Effekte einfach geschätzt werden können:

    Nachwirkungseffekt λ = λA – λB : (Summe in Sequenz 1 – Summe in Sequenz 2)

    ̂ = ( y 1.1 + y 1.2) – ( y 2.1 + y 2.2 ) mit E{ ̂ } = λ

    Periodeneffekt π = π1 – π2 : (Summe in Periode 1 – Summe in Periode 2) / 2

    ̂ = [( y 1.1 y 2.1) – ( y 1.2 y 2.2 )] / 2 mit E{ ̂ } = π

    Behandlungseffekt α = αA – αB : (Differenz in Periode 1 + Differenz in Periode 2) / 2

    ̂ = [( y 1.1 y 2.1) + ( y 2.2 y 1.2 )] / 2 mit E{ ̂ } = α – λ/2

    Wenn somit ein positiver Nachwirkungseffekt λ existiert, wird der Behandlungseffekt eher unterschätzt.

    Wir erhalten jedoch eine erwartungstreue Schätzung von α, wenn nur die Daten der 1. Periode verwendet

    werden. Dies würde aber bedeuten, dass man mit demselben Aufwand ein besseres Experiment hätte

    durchführen können.

    *** Beispiel 6: Messungen der Lungenfunktion 8 Stunden nach der Behandlung (PEF: peak expiratory

    flow in L/min). Behandlung A: Formoterol, Behandlung B: Salbutamol. Daten aus Senn, 1993:

    PEF

    Sequenz Patient Periode 1 Periode 2 Differenz Summe

    A→B 1 310 270 40 580

    4 310 260 50 570

    6 370 300 70 670

    7 410 390 20 800

    10 250 210 40 460

    11 380 350 30 730

    14 330 365 -35 695

    Mittel 337.1 306.4 30.7 643.6

    B→A 2 370 385 -15 755

    3 310 400 -90 710

    5 380 410 -30 790

    9 290 320 -30 610

    12 260 340 -80 600

    13 90 220 -130 310

    Mittel 283.3 345.8 -62.5 629.2

  • Repeated Measures Kapitel 5 36

    Einen guten Überblick erhalten wir aus den einzelnen Profilen:

    Sequenz A -> B

    Periode 1 Periode 2

    0

    100

    200

    300

    400

    500

    PE

    F

    1411107641

    Patient

    Sequenz B -> A

    Periode 1 Periode 2

    0

    100

    200

    300

    400

    500

    PE

    F

    13129532

    Patient

    Die Behandlung A hat in beiden Gruppen besser abgeschnitten. Der Unterschied zwischen A und B

    ist in der AB-Gruppe kleiner; evtl. durch Nachwirkung von Behandlung A.

    Wir schätzen nun noch die einzelnen Effekte:

    ̂ = ( y 1.1 + y 1.2) – ( y 2.1 + y 2.2 ) = 643.6 – 629.2 = 14.4

    ̂ = [( y 1.1 y 2.1) – ( y 1.2 y 2.2 )] / 2 = [620.4 – 652.2] / 2 = -15.9

    ̂ = [( y 1.1 y 2.1) + ( y 2.2 y 1.2 )] / 2 = [30.7 + 62.5] / 2 = 46.6

    Der Nachwirkungseffekt von 14.4 und der Periodeneffekt von –15.9 erweisen sich in den folgenden

    Signifikanztests als nicht gesichert.

    ******

  • Repeated Measures Kapitel 5 37

    Das Modell 1 ist für die Auswertung mit einem Standard-Statistikprogramm schlecht geeignet, da die

    Nachwirkungseffekte erst ab der 2. Periode auftreten. Die beiden folgenden Modelle sind beim AB/BA-

    Wechselversuch gleichwertig. Nachwirkungseffekte werden im Modell 2 über den Faktor Sequenz erfasst

    (vgl. Schätzer für ̂ ) und im Modell 3 mit der Interaktion PeriodeBehandlung modelliert.

    Modell 2 yijk = µ + i + j(i) + πk + αTi,k + ijk

    Den Effekt der i-ten Sequenz bezeichnen wir mit i (1 + 2 = 0). Die Sequenz bestimmt die Gruppierung

    der Patienten, ist damit der Between-Subjects-Faktor und wird entsprechend gegen die Variabilität der

    Patienten getestet. Die Faktoren Sequenz, Behandlung und Periode sind gekreuzt. Es sind jedoch nur 4 der

    8 möglichen Kombinationen im Experiment vertreten. Die Effekte sind deshalb nicht paarweise orthogonal.

    *** Beispiel 6: Anpassung von Modell 2. Bei den SS-Werten handelt es sich um Type III SS:

    Ursache df SS MS F P

    Sequenz 1 335.2 335.2 0.03 0.861

    Patient innerh. Sequenz 11 114878.3 10443.5

    Behandlung 1 14035.9 14035.9 18.70 0.001

    Periode 1 1632.1 1632.1 2.17 0.168

    Fehler 2 11 8254.5 750.4

    Der Faktor Sequenz bzw. Nachwirkungseffekt ist nicht signifikant. Der Behandlungsunterschied ist

    signifikant. Der Einfluss der Periode ist nicht signifikant.

    ******

    Modell 3 yijk = µ + j(i) + πk + αTi,k + (π α)k,Ti,k + ijk

    Die Interaktion (π α)k,Ti,k spricht an, wenn der Unterschied zwischen den Behandlungen in den beiden

    Perioden unterschiedlich ist. Diese Interaktion ist ebenfalls ein Between-Subjects-Effekt und wird

    entsprechend gegen die Variabilität der Patienten getestet.

    *** Beispiel 6: Anpassung von Modell 3:

    Ursache df SS MS F P

    Behandlung*Periode 1 335.2 335.2 0.03 0.861

    Patient innerh. Sequenz 11 114878.3 10443.5

    Behandlung 1 14035.9 14035.9 18.70 0.001

    Periode 1 1632.1 1632.1 2.17 0.168

    Fehler 2 11 8254.5 750.4

  • Repeated Measures Kapitel 5 38

    Gegenüber der letzten ANOVA-Tabelle hat sich nur die Bezeichnung geändert. Der Tukey-

    Anscombe plot zeigt keine gravierenden Abweichungen von den Modellannahmen.

    100 150 200 250 300 350 400 450

    -30

    -20

    -10

    0

    10

    20

    30

    Tukey-Anscombe plot

    fitted values

    resid

    ua

    ls

    ******

    Nachwirkungseffekte bereiten grosse Schwierigkeiten bei der Interpretation eines Wechselversuchs. Diese

    sind beim AB/BA-Wechselversuch mit den Behandlungseffekten vermengt. Senn (1993) schlägt deshalb

    vor, nur dann Wechselversuche durchzuführen, wenn Nachwirkungseffekte mit Sicherheit ausgeschlossen

    werden können. Das 1965 von Grizzle empfohlene Vorgehen, beim Vorliegen von statistisch signifikanten

    Nachwirkungseffekten nur die Daten der 1. Periode zu verwenden, wird heute als unbefriedigend eingestuft

    (vgl. z.B. Lehmacher, 1997).

    Es ist denkbar, dass man sich speziell für die Nachwirkungseffekte interessiert. Für solche Fälle wurden

    spezielle Versuchspläne und Modelle entwickelt (vgl. z.B. Jones and Kenward, 2003).

    Fehlende Werte führen ebenfalls zu Problemen. Subjekte mit fehlenden Werten können nur teilweise für die

    statistische Auswertung verwendet werden, was die Effizienz von Wechselversuchen reduziert.

  • Repeated Measures Kapitel 6 39

    6. Einsatz von Programmen für gemischte Modelle

    Die meisten grösseren Statistik-Programme enthalten heute ein Modul zur Auswertung von linearen

    Modellen mit gemischten Effekten. Seit rund 20 Jahren bietet SAS „Proc Mixed“ an. Die Funktion lme() in

    den Paketen S-Plus und R wurde erstmals vor etwas mehr als 10 Jahren entwickelt. SPSS ist ab Version 11

    mit einer Prozedur MIXED dabei und SYSTAT wartet ab Version 12 mit einer entsprechenden Prozedur

    auf. Ab SAS 9.2 ist „Proc GLIMMIX“ auch für nicht-normalverteilte Zielgrössen verfügbar. In R bietet

    lmer() eine flexiblere Alternative zu lme(), ist aber immer noch in Entwicklung begriffen.

    6.1 Kurze Theorie zum linearen gemischten Modell (linear mixed model)

    Das lineare Modell

    y = Xβ + e (6.1)

    mit dem Beobachtungsvektor y, der bekannten Strukturmatrix X, dem Vektor β der unbekannten, festen

    Parameter und dem Vektor e der zufälligen Fehler mit Var{e} = 2I, wird bei einfacheren Untersuchungen

    meist erfolgreich an die Daten angepasst. Bei der Analyse von Zeitreihen, komplexeren Experimenten und

    Erhebungen in strukturierten Populationen sind die Annahmen über die zufälligen Fehler jedoch zu

    restriktiv. Die Einführung von zufälligen Effekten führt zum gemischten Modell

    y = Xβ + Zu + e (6.2)

    Die zufälligen Fehler e werden ergänzt durch systematische zufällige Effekte, welche durch die bekannte

    Strukturmatrix Z und den Vektor u festgelegt sind. Generell wird angenommen, dass die Elemente von u

    und e normalverteilte Grössen sind mit

    u ~ N(0, G) , e ~ N(0, R) und Cov{u, e} = 0

    Somit wird Unabhängigkeit von u und e vorausgesetzt. G und R sind im Prinzip beliebige Kovarianz-

    matrizen; bei vielen Anwendungen enthalten sie aber nur wenige Parameter. Das Modell (6.1) ist ein

    Spezialfall von (6.2), falls Z = 0 und R = 2I.

    Die Zielgrösse y wird durch 2 Verteilungen charakterisiert:

    Bedingte Verteilung: y | u ~ N(Xβ + Zu, R)

    Randverteilung: y ~ N(Xβ, V)

    wobei V = ZGZ' + R (6.3)

    Je nach Betrachtungsweise erhalten wir für y andere Niveaus (und damit auch andere Residuen):

    E{y | u} = Xβ + Zu

    E{y} = Xβ

    Bei Messwiederholungen repräsentiert ZGZ' meist den Anteil der Kovarianz von Subjekt zu Subjekt und R

    denjenigen innerhalb Subjekt. Je nach Situation lassen sich für G und R spezifische Strukturen herleiten,

    welche sich dann auf die Struktur von V auswirken.

  • Repeated Measures Kapitel 6 40

    *** Fiktives Beispiel

    Bei N Individuen wird zu den Zeitpunkten x1 = 1, x2 = 2 und x3 = 3 das Merkmal Y festgehalten. Für

    die j-te Messung am Individuum i benutzen wir folgendes Modell:

    yij = β0 + β1xj + ui +eij i = 1, …, N j = 1, 2, 3

    Mit den Parametern β0 und β1 wird ein mittlerer linearer Trend erfasst. Für jedes Individuum ist

    zudem eine zufällige Abweichung ui vom mittleren Niveau β0 vorgesehen.

    Für das i-te Individuum erhalten wir in Matrixschreibweise: yi = Xiβ + Ziui + ei

    yi =

    i1

    i2

    i3

    y

    y

    y

    Xi =

    31

    21

    11

    β =

    1

    0 Zi =

    1

    1

    1

    ui = ui ei =

    i1

    i2

    i3

    e

    e

    e

    Die Matrizen Xi und Zi sind für alle n Individuen identisch. Die Gesamtzahl der Messungen in y

    beträgt 3N. Das Modell y = Xβ + Zu + e enthält folgene Komponenten:

    y =

    N

    2

    1

    y

    y

    y

    X =

    N

    2

    1

    X

    X

    X

    Z =

    N

    2

    1

    Z00

    0Z0

    00Z

    u =

    N

    2

    1

    u

    u

    u

    e =

    N

    2

    1

    e

    e

    e

    Var{u} = GNN =

    2

    u

    2

    u

    2

    u

    0 0

    0 0

    0 0

    Var{e} = R3N3N = 2I3N3N

    In G und R kommen somit nur 2 freie Parameter vor, nämlich 2u und 2. Da Messungen von

    verschiedenen Individuen unabhängig sind, entsteht in V eine Blockstruktur entlang der Haupt-

    diagonalen:

    Var{y} = V =

    N

    2

    1

    V00

    0V0

    00V

    wobei Vi =

    2 2 2 2

    u u u

    2 2 2 2

    u u u

    2 2 2 2

    u u u

    Bei jedem Individuum resultiert somit eine Kovarianzmatrix mit compound symmetry für die 3

    wiederholten Messungen.

    ******

  • Repeated Measures Kapitel 6 41

    Ergänzung: diverse weitere Kovarianzmatrix-Strukturen für p wiederholte Messungen

    unstrukturiert Σpp =

    2

    1 12 13 1p

    2

    2 23 2p

    2

    3 3p

    2

    p

    Compound Symmetry Σpp = 2

    1

    1

    1

    1

    AR(1) Σpp =

    1 2 p 1

    1 p 2

    2 p 3

    1

    1

    1

    1

    Toeplitz Σpp =

    1 2 3 p 1

    1 2 p 2

    1 p 32

    1

    1

    1

    1

    1

    Schätzproblem:

    Das Schätzproblem ist beim gemischten Modell (6.2) wesentlich aufwändiger als beim einfacheren Modell

    (6.1). Die GLS-Methode (generalized least-squares) minimiert den Ausdruck

    (y-Xβ)'V1(y-Xβ)

    wobei aber V bzw. G und R bekannt sein müssen. Bei der „estimated GLS“-Methode werden vorgängig die

    Elemente von V mit vernünftigen Schätzungen von G und R festgelegt.

    Alternative Methoden sind Likelihood-basiert, wobei von normalverteilten Elementen in u und e ausge-

    gangen wird. Bei der ML- und REML-Methode (restricted/residual ML) werden alle unbekannten

    Parameter simultan geschätzt. Es kann gezeigt werden, dass die Maximierung/Minimierung der Log-

  • Repeated Measures Kapitel 6 42

    likelihood nur von den Parametern in G und R abhängt. Die nicht-iterative MIVQUE0-Methode dient zur

    Schätzung von G und R. Diese Methode wird u.a. für grosse Datensätze empfohlen oder falls ML oder

    REML nicht konvergieren.

    ML, REML und MIVQUE0 führen zur Schätzung von G und R. Die Schätzung von β und u erfolgt in der

    Regel über die Lösung der „mixed model equations“

    111

    11

    ''

    ''

    GZRZXRZ

    ZRXXRX

    u

    β

    ˆ

    ˆ=

    yRZ

    yRX1

    1

    '

    '

    Es resultiert β̂ = yVXXVX 111 '' und û = βXyVGZ ˆ' 1 .

    G und R sind bekannt: Falls G und R bekannt sind, ist β̂ ein BLUE-Schätzer (best linear unbiased

    estimator) von β und û ein BLUP-Schätzer (best linear unbiased predictor) von u. β̂ und û haben die

    Kovarianzmatrix

    Var{

    u

    β

    ˆ

    ˆ} = C =

    1

    111

    11

    ''

    ''

    GZRZXRZ

    ZRXXRX

    G und R sind unbekannt: Dies ist der Normalfall. In V und C werden G und R durch die entsprechenden

    Schätzwerte ersetzt. Damit wird die Variabilität von β̂ und û eher unterschätzt, da nicht berücksichtigt ist,

    dass die geschätzten Matrizen eine Unsicherheit aufweisen. Auch sind dann β̂ und û nur noch empirical

    BLUE bzw. empirical BLUP.

    Test von Hypothesen über β und u:

    Beim Wald-Test wird der geschätzte Parameter durch den asymptotischen Standardfehler dividiert, welcher

    aus der Informationsmatrix berechnet wird. Dieser Test ist jedoch nur bei grossen Datensätzen angebracht.

    Eine Alternative ist der Likelihood-Quotienten-Test, welcher sich aus dem Vergleich der Modelle mit und

    ohne zu testende Parameter ergibt. Da die Testgrösse approximativ 2-verteilt ist, ist auch dieser Test für

    kleinere Datensätze nicht besonders geeignet.

    Eine Linearkombination c'β wird geschätzt durch ˆc'β mit der Varianz -1

    -1c' X'V X c . Das Testen von

    Hypothesen über die festen Parameter in β erfolgt mit F-Tests, wobei die Wahl des korrekten

    Freiheitsgrades im Nenner ein schwieriges Problem darstellt.

    Die Angaben in diesem Abschnitt sind zum grössten Teil dem Buch von Littell et al. (2006) und dem

    Artikel von Littell et al. (2000) entnommen. Dort sind auch viele Hinweise auf die Spezialliteratur

    enthalten. Eine umfassende Darstellung für R- und S-Plus-AnwenderInnen findet man im Buch von

    Pinheiro & Bates (2000) anhand vieler Beispiele.

  • Repeated Measures Kapitel 6 43

    6.2 Erneute Auswertung von Beispiel 4

    In der Praxis trifft man recht häufig auf folgende Aufgabe: mehrere Gruppen von relativ glatten Profilen