21
| | Seminar für Statistik 16.10.2014 Markus Kalisch 1 ANalysis Of VAriance (ANOVA) 1/2

ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik 16.10.2014Markus Kalisch 1

ANalysis Of VAriance (ANOVA) 1/2

Page 2: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und

Placebo (Faktor). Gibt es einen sign. Unterschied in der

Wirkung (kontinuierlich)?

𝑌 ~ 𝑋 + 𝜀

ANOVA 2: Zwei Medikamente zur Blutdrucksenkung,

Placebo (Faktor) und Geschlecht (Faktor). Gibt es einen

sign. Unterschied in der Wirkung (kontinuierlich) (evtl.

geschlechterspezifisch)?

𝑌 ~ 𝑋1 + 𝑋2 + 𝜀

16.10.2014((Vorname Nachname)) 2

ANOVA - Idee

1-weg ANOVA

2-weg ANOVA

Page 3: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

ANOVA = «Varianzanalyse»

Macht Aussagen über Mittelwerte (analysiert dazu

Varianzen)

ANOVA = Spezialfall einer Linearen Regression

𝑘𝑜𝑛𝑡. 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 ~ 𝑭𝒂𝒌𝒕𝒐𝒓𝒆𝒏 + 𝐹𝑒ℎ𝑙𝑒𝑟

Verallgemeinerung des t-Test (2 Gruppen → viele

Gruppen)

Historisch: Sehr verbreitet; heute: Immer noch extrem

verbreitet

16.10.2014Markus Kalisch 3

ANOVA: Mögliche Missverständnisse

Page 4: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik 16.10.2014Markus Kalisch 4

Wdh: Ungepaarter t-Test

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

10

M P

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

-50

5

M P

D

𝜎

𝜎D

𝑡 ≈𝐷

𝜎; 𝑓𝑎𝑙𝑙𝑠 𝐻0 𝑠𝑡𝑖𝑚𝑚𝑡: 𝑡 ∼ 𝑡𝑛−1 ≈ 𝑁(0,1)

D: “Streuung” zwischen MW (“Signal”)

𝜎: “Streuung” um MW (“Fehler”)

Page 5: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik 16.10.2014Markus Kalisch 5

ANOVA: Idee

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

Streuung zwischen Gruppen:

“Between-Sum-of-Squares” (𝑆𝑆𝐵)RSS der Gruppenmittelwerte (rote Kreuze)

um den totalen Mittelwert (blaue Linie)

𝑆𝑆𝐵 = 𝑝 ∗

𝑖=1

𝑔

𝑌𝑖. − 𝑌..2

Streuung innerhalb Gruppen:

“Within-Sum-of-Squares” (𝑆𝑆𝑊)

RSS der Einzelbeobachtungen

(schwarze Kreise) um die einzelnen

Mittelwerte (rote Kreuze)

𝑆𝑆𝑊 =

𝑖=1

𝑔

𝑗=1

𝑝

𝑌𝑖𝑗 − 𝑌𝑖.2

𝑔: 𝐴𝑛𝑧𝑎ℎ𝑙 𝐺𝑟𝑢𝑝𝑝𝑒𝑛 3𝑝: 𝐴𝑛𝑧𝑎ℎ𝑙 𝐵𝑒𝑜𝑏. 𝑝𝑟𝑜 𝐺𝑟𝑢𝑝𝑝𝑒 10Ann: 𝑝 in jeder Gruppe gleich

𝑌3.

𝑌2.𝑌1. 𝑌..

Teststatistik ≈𝑆𝑆𝐵

𝑆𝑆𝑊

Page 6: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

In welchem Bild ist die Teststatistik der ANOVA grösser ?

16.10.2014Markus Kalisch 6

ANOVA: Teststatistik

A

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

15

M1 P

B

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

15

M1 P

Page 7: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 , 𝜀𝑖𝑗 ~ 𝑁 0, 𝜎2 𝑖𝑖𝑑

Technische Nebenbedingung: 𝑖=1𝑔𝛼𝑖 = 0

𝐻0: 𝛼1 = 𝛼2 = ⋯ = 𝛼𝑔 = 0

Teststatistik: 𝑇 =𝑆𝑆𝐵/(𝑔−1)

𝑆𝑆𝑊/(𝑔∗ 𝑝−1 )=𝑀𝑆𝐵

𝑀𝑆𝑊

Theorie: Falls 𝐻0 stimmt

𝑇 ~ 𝐹𝑔−1,𝑔∗ 𝑝−1

Damit kann ein Hypothesentest mit den üblichen 6

Schritten durchgeführt werden

16.10.2014Markus Kalisch 7

ANOVA: Modell

“Mean Squares”

“Degrees of freedom (Df)”

“Analyse der

Varianzen”

Page 8: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

Angenommen: 𝑍𝑖 ~ 𝑁 0,1 , 𝑖 = 1,…𝑛 alle unabhängig

𝐴 =

𝑖=1

𝑛

𝑍𝑖2

Chi-Quadrat-Verteilung mit 𝑛 Freiheitsgraden: A ~ 𝑋𝑛 Angenommen: 𝐴 ~ Χ𝑛, 𝐵 ~ Χ𝑚 unabhängig

𝑄 =𝐴/𝑛

𝐵/𝑚

F-Verteilung mit 𝑛 und 𝑚 Freiheitsgraden 𝑄 ~ 𝐹𝑛;𝑚

16.10.2014Markus Kalisch 8

Exkurs: Verteilungen

Page 9: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik 16.10.2014Markus Kalisch 9

Beispiel in R: ANOVA-Tabelle

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

𝑔 = 3, 𝑝 = 10

𝑔 − 1 = 2g*(p-1)=27

𝑆𝑆𝐵 = 872.3𝑆𝑆𝑊 = 642.1

𝑀𝑆𝐵 =872.3

2= 436.1

𝑀𝑆𝑊 =642.1

27= 23.8

𝐹 =436.1

23.8= 18.34

Page 10: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

Falls ANOVA signifikant: Zwischen welchen Gruppen sind

signifikante Unterschiede ?

→ t-Tests für alle Gruppenpaare

Problem: Multiples Testen

Bei 𝑛 Gruppen gibt es 𝑛2=𝑛(𝑛−1)

2t-Tests

Bsp: 𝑛 = 20 → 190 Tests auf 5%-Niveau

Könnten etwa 0.05 ∗ 190 ≈ 10 falsch positive Tests haben

Lösung: t-Test korrigieren (z.B. Bonferroni, …)

16.10.2014Markus Kalisch 10

Wo ist der Unterschied ?

Teil 1: Paarweise Tests

Page 11: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

Vorteil:

- Vertrauensintervalle für Differenzen der

Gruppenmittelwerte

- Wa., dass alle wahren Differenzen in den

Vertrauensintervallen liegen: 95%

Alternative zum paarweisen t-Test

Empfehlung: Tukey HSD verwenden

16.10.2014Markus Kalisch 11

Beliebte Alternative bei ANOVA:Tukey’s Honestly Significant Difference (HSD) Test

Page 12: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik 16.10.2014Markus Kalisch 12

Beispiel in R: TukeyHSD

-15 -10 -5 0 5 10

P-M

2P

-M1

M2

-M1

95% family-wise confidence level

Differences in mean levels of g Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0M1 M2 P

M2 ist deutlich wirksamer als M1

M1 und M2 sind deutlich

wirksamer als Placebo

Page 13: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

Bisher: Differenz von zwei Gruppen

Jetzt: Linearkombination von beliebigen Gruppen

Bsp: Sind die beiden Medikamente im Mittel besser als

das Placebo ?

16.10.2014Markus Kalisch 13

Wo ist der Unterschied ?

Teil 2: Allgemeine Kontraste

Page 14: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

Vektor mit wahren

Gruppenmittelwerten:

𝜇 = 𝜇𝑀1, 𝜇𝑀2, 𝜇𝑃𝑇

Kontraste-Matrix 𝐾

Parameter-Vektor 𝑚

𝐻0: 𝐾 ∗ 𝜇 = 𝑚

Praxis: Benutzer definiert 𝐾 und 𝑚; Computer berechnet

p-Werte für Hypothesen und korrigiert für mult. Testen

16.10.2014Markus Kalisch 14

Kontraste: Notation

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

Page 15: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

(Alternative zu TukeyHSD)

16.10.2014Markus Kalisch 15

Konstraste – Bsp 1: Paarweise Vergleiche

K 𝜇 m

𝜇𝑀2 − 𝜇𝑀1 = 0𝜇𝑃 − 𝜇𝑀1 = 0𝜇𝑃 − 𝜇𝑀2 = 0

Page 16: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

Funktion ‘glht’ (General Linear Hypotheses Test) im

package ‘multcomp’

16.10.2014Markus Kalisch 16

Kontraste – Bsp 1: R

Approx. 95%-VI für Unterschied M1 vs. M2:

5.67 ± 2 ∗ 2.181

Page 17: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik 16.10.2014Markus Kalisch 17

Kontraste – Bsp 2:

Gruppe der Medikamente vs. Placebo

0.5 ∗ 𝜇𝑀1 + 0.5 ∗ 𝜇𝑀2 − 𝜇𝑃 = 0𝜇𝑀2 − 𝜇𝑀1 = 0

Medikamente vs. Placebo

Medikamente untereinander

Page 18: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik 16.10.2014Markus Kalisch 18

Kontraste – Bsp 2: R

Die Medikamente sind deutlich

wirksamer als Placebo

M2 ist deutlich wirksamer als M1

Page 19: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

Angenommen, es gibt zwei Medikamente (M1, M2) und

auch zwei mögliche Formen von Placebo (P1, P2). Folgende

Matrix ist dann eine mögliche Kontrastmatrix für die

Vergleiche:

(M1, M2) vs. (P1, P2)

M1 vs. M2

P1 vs. P2

16.10.2014Markus Kalisch 19

Kontraste

• Ja

• Nein

Page 20: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

Wenige Kontraste → viel Macht

Software: Korrektur für multiples Testen innerhalb von

einem Funktionsaufruf (aber nicht bei mehreren

Funktionsaufrufen mit verschiedenen Kontrasten)

Deshalb: Einen Satz von Kontrasten definieren, dann

auswerten; anschliessend keinen neuen Satz von

Kontrasten mehr untersuchen

16.10.2014Markus Kalisch 20

Grundregeln für Kontraste

Page 21: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.ch · ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~𝑭𝒂𝒌𝒕 𝒓𝒆 + ℎ N Verallgemeinerung des t-Test

||Seminar für Statistik

𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 , 𝜀𝑖𝑗 ~ 𝑁 0, 𝜎2 𝑖𝑖𝑑

1. Daten in jeder Gruppe normalverteilt

2. Gleiche Varianz in Gruppen

3. Unabhängige Fehler 𝜀𝑖𝑗

In R: Funktion “plot” wie bei Linearer Regression

Vorteil: “Balanciertes Experiment” (gleiche Anzahl pro Gruppe):

ANOVA ist robuster gegen Abweichungen obiger Annahmen

16.10.2014Markus Kalisch 21

Residuenanalyse bei ANOVA