View
243
Download
0
Category
Preview:
Citation preview
Einführung in die Statistik zur Tier-versuchsplanung und -auswertung
Prof. Peter PilzFachbereich Biologie
So viele Tiere wie nötig,so wenig Tiere wie möglich
Statistik• Schließende Statistik Statistische Tests: H0 H1
• Z.B.: „wirkt mein Medikament“?
• Poweranalyse Effektstärke Fallzahlen Biometrisches Gutachten
Statistischer Test: Hypothesen
• Bsp.: 2 Gruppen, Kontrolle & Behandlung• Frage: Behandlung Unterschied?• Hypothesen
Null-Hypothese H0: kein Unterschied Alternativ-Hypothese H1: Unterschied
• H0 annehmen, wenn Irrtumswahrscheinlichkeit für H1>0.05H1 annehmen, wenn Irrtumswahrscheinlichkeit p≤0.05
100
115
130
145
160
Blut
druc
k (m
m H
g)
t = �𝑎𝑎 −�𝑏𝑏𝑆𝑆𝑆𝑆𝑎𝑎𝑏𝑏𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝
× 𝑁𝑁
Statistischer Test: Prinzip
H1/ Effekt wenn:+ Effekt hoch- Variation niedrig+ Stichprobe hoch Testprinzip: je höher
t (F, r, Chi², U…), desto kleiner p
Bsp. (t*(10)=2.2): t(10) = 2.3 p< 0.05 H1t(10) = 1.9 p> 0.05 H0
Fehler 1. Art oder alpha-Fehler
• p = α-Fehler = Irrtumswahrscheinlichkeit in 5% der signifikanten Funde irre ich mich!
• p klein, üblich ist 5% „möglichst keine falsche Behauptung“
Fehler 1. Art oder alpha-Fehler
• p = α-Fehler = Irrtumswahrscheinlichkeit in 5% der signifikanten Funde irre ich mich!
• Viele Tests: alpha-Fehler addieren sich z.B. 7 Gruppen, 21 statistische Vergleiche 1 signifikantes Ergebnis erwartetbei 5% Irrtumswahrscheinlichkeit
• damit alpha gesamt <5% Bonferroni-Korrektur α‘ = α/21 im Bsp. α‘= 0.05 /21= 0.0024
nur wenn p<0.0024 signifikant
a
b
c
de
f
g
p=0.012
• Schließende Statistik Statistische Testgröße (Beispiel t) steigt mit:
• Mittelwerts-Unterschied• 1/Variation• Stichprobenumfang
(Richtiger Test mehr Power) Ggf.: Bonferroni-Korrektur p*=5% Irrtum in 5% der Fälle = alpha-Fehler
Statistik
alpha & beta-Fehler
• Alpha-Fehler (α=p): 5% Irrtumswahrscheinlichkeit = 5% Wahrscheinlichkeit dass man sich irrt (Zufall)
• β-Fehler: Wahrscheinlichkeit, Effekt nicht zu finden
H1 = Alternativhypothese: es gibt Effekt bzw. MW sind verschieden
v?
Alpha: Gesellschaft trägt Risiko. Wirkungslos = gefährlich alpha klein wählen
Beta: Versuchsträger Risiko. (Tabletten)wirkung nicht entdeckt
= schade, Einkommensverlust beta kann etwas größer sein
Pharmakonwirkt wirkt nicht Statistischer
Test(H1 stimmt) (H1 falsch)
o.k. Typ 1 Fehler H1 akzeptiertα (p) (wirkt)
Typ 2 Fehler o.k. H0 akzeptiertβ (wirkt nicht)
Power
Statistische Power = Wahrscheinlichkeit (vorhandenen) Effekt zu finden= Wahrscheinlichkeit, falsche H0 zurückzuweisen
= 1 - βBeispiel: Blutdrucksenker wirkt (vgl. zu Placebo)z.B.: β = 0.2 Power = 1- β = 0.8=> In 80% der Fälle statistische Signifikanz=> In ß=20% keine Signifikanz (trotz Wirksamkeit)
Vier statistische Größen
• Wenn 3 Größen bekannt, 4. berechenbar: α (i.A. p=0.05) N (z.B. N=10+10=20) β-Fehler bzw. Power = 1-ß Effektstärke (z.B. „d“) d = �𝑎𝑎 −�𝑏𝑏
𝑆𝑆𝑆𝑆𝑎𝑎𝑏𝑏𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝
Effektstärke
Beispiel BlutdruckPlacebo = 150 mmHgMedikament = 135 mmHgSD = 30 mmHg
Effektstärke (SD)= 150 −13530
= 0.5
β und Power
ß = H1 nicht gefunden. d=0.5 (r=0.24), α=0.05
105
120
135
150
165
180
Placebo Medikament
Blut
druc
k (m
m H
g)
Fehler: Stabw.
d=0.5
d=0.5 (r=0.24), ß=0.2
*** ** * ns
Häuf
igke
it
Signifikanz
20%
50%
20%
10%5% 1%
0%
10%
20%
30%
40%
50%
60%
0 100 200 300
ß -F
ehle
r
Stichprobenumfang n
Underpowered
• Neurobiologie: durchschnittliche Power war1
0.21 = viel zu niedrig nur in 21% finde ich den Effekt,
in 79% finde ich den Effekt nicht!• Grund: i.A. Tierzahl zu niedrig• Beispiel: Geschlecht im Watermaze d=0.49 Notwendige Tiere bei Power von 0.8: 134 Im Mittel eingesetzte Tiere: 22
1: Butten et al. 2013, Nat Neurosc Rev.
flickr.com
β-Fehler
Post-hoc, also nach dem Experiment:Gegeben: d und n sowie alphaBerechenbar: Power = 0.19 (ß=0.81)
Post hoc: Compute achieved power – given α, sample size and effect size
Effect size d 0.5α err prob 0.05Sample size group 1 10Sample size group 2 10
Power (1-ß err prob) 0.1851
t-tests Means: Difference between two independent means
• 2 Fehlermöglichkeiten, α + β• Effektgröße: bei ttest
d= ΔMittelwerte / Standardabweichung• 4 Werte α, β, d und n: Wenn drei davon bekannt, ist der vierte berechenbar α (bzw. p) i.A. auf 0.05 festsetzen Nach Experiment ist Effektgröße d bekannt Nach Experiment ist n bekannt
• Power = 1- β: Wahrscheinlichkeit, Effekt zu finden
Zwischenstand Poweranalyse
Vier Rechengrößen
• Wenn drei davon gegeben α = 0.05 ß = 0.2 d z.B. aus Vorversuchen
• dann ist N bestimmbar Biometrisches Gutachten: α, ß, d N
!??
Beispiel
Effektgröße N gesamtEffekt d 1-ß=0.80 1-ß=0.90 1-ß=0.95klein 0.2 779 1054 1289mittel 0.5 131 172 215groß 0.8 52 68 84Tierversuch 1.0 34 46 54
Keine kleinen Effekte in einzelnen Tierversuchen suchen„Standard“ mittlere Effekte ist i.A. immer noch zu geringGrößere Effekte als d=1.0 sind erlaubt und erwünscht1-ß = 0.95 ist i.A. zu hoch
Power = 0.8?
Wahl Power ist arbiträr, zwischen 80 und 95%80% Power heißt1. Wahrscheinlichkeit für "signifikantes Ergebnis" 80%2. 20% KEIN "signifikantes Ergebnis". Risiko-Kosten-Abwägung: • was kostet Experiment (Zeit, Geld und Leid der Tiere)? • wie wichtig ist es, Effekt zu finden? • Was passiert, wenn Effekt mit Risiko =20% verpasstBeispiel:• Power = 0.8 n = 28• Power = 0.9 n = 36, also 30% mehr Tiere• Risiko halbiert, Signifikanz zu verpassen, also -50%
Power = 0.8, nur begründet ev. 0.9
Beispiel Biometrische Planung
• ttest: N=34, U-Test: N=36
A priori: Compute required sample size – given α, power and effect size
Effect size d 1α err prob 0.05Power (1-ß err prob) 0.80
Total sample size 34
t-tests Means: Difference between two independent means
Biometrische Planung
• Statistische Hypothesen H0 und H1• Welcher Test? (vor Experiment) ein- oder zweiseitig? parametrisch (MW) oder nicht-parametrisch (Median) wie viele Gruppen (Dosierungen)
• Versuchsdesign wichtige Neben-Variablen, Messwiederholungen Blockdesign, Abfolge, Randomisieren, …
• N-Zahl (Poweranalyse) Avisierte Effektstärke
• d≥1 bei Tierversuchen, höher = besser 1-ß=0.8 bei Tierversuchen Standard.
Ich brauche wenig Tiere, wenn
• großer Unterschied zwischen Mittelwerten• Streuung der Daten klein• Signifikanzniveau α hoch (5% statt 1%)• Power nicht so hoch (80% statt 95%)• einseitiger Test (~20% weniger Tiere)• Parametrische Tests ~1 Tier/Gruppe weniger• Gutes Versuchsdesign (z.B. Messwiederholung)• wenig Gruppen
Formblatt Biometrische Planung1. Primäre Zielgröße 2. Verteilungsform der
Zielgröße3. Planungsgrößen4. Statistisches Test-Verfahren5. Annahmen zum Fehler 1. Art
(alpha) und 2. Art (beta) 6. Falls verwendet: Bei der
Berechnung durchgeführte Korrekturen
7. Richtung von Hypothese und Test
1. (zu untersuchendes Haupt-Zielmerkmal des Versuches, anhand dessen die Stichprobe berechnet wurde; ggf. inkl. der Transformation dieser Zielgröße).
2. (soweit anhand der Vordatendichte Angabe möglich; in diesem Fall inkl. des Testverfahrens mit dem die Verteilungsform bestimmt wurde)
3. (erwarteter Unterschied (z.B. erwartete relevante Mittelwertsdifferenz und Standardabweichung oder zu detektierende Veränderung der Ereignisrate, i.A. mit Begründung für diese Erwartung anhand von Vordaten) & verwendete Effektgröße mit Angabe ihrer Berechnung)
4. mit welchem die Tierzahlplanung durchgeführt wird (z.B. t-Test, Anova, Wilcoxon-Test).
5. (falls alpha ungleich 0,05 und beta ungleich 0,2 bitte begründen)
6. (z.B. Bonferroni-Korrektur --> in diesem Fall inkl. Angabe, welche Gruppen jeweils gegeneinander getestet werden und Angabe des geänderten alpha-Werts).
7. (ein- oder zweiseitig? --> 2-seitiges Testen bitte begründen).
Schließende Statistik: Prüfgröße (t) Effektumfang, 1/Varianz , N
PoweranalyseStatistische Effektstärke
Blutdrucksenkung geteilt durch SD, d=0.5 Effekt = ½ SD
Power = 1-ß = 0.8 (Power soll hoch sein)Biometrisches Gutachten α =0.05, ß=0.2, d aus Vorversuchen möglichst ≥ 1.0
damit kann man N schätzen
Zusammenfassung
Anhang• Poweranalyse: GPower = Opensource-Programm
http://www.gpower.hhu.de/• A. Field: Discovering statistics using SPSS. Meistverkauftes Statistikbuch,
nette Beispiele, manchmal „Geschwafel“. • v. Zupthen et al. Versuchstierkunde, Kapitel 12 „Planung von
Tierversuchen“. (Planung Stichprobenumfang = veraltet. Bei mir eine um veraltete Inhalte gekürzte Version erhältlich peter.pilz@uni-tuebingen.de)
• www.ats.ucla.edu/stat/seminars/Intro_power/default.htmerläutert Power, viele Tipps, Power von Experimenten zu erhöhen.
• Glaser, W. Varianzanalyse. UTB. Erläutert, warum man ab n=10 fast immer die Normalverteilung annehmen darf.
• Tabachnik, BG, Fidell LS. Using Multivariate Statistics. Pearson. Erläutert, warum man ab 7 Stufen bei ordinalen Daten kontinuierliche Datenform annehmen darf. Schlägt vor, dass diskrete und stetige Daten nicht unbedingt unterschieden werden müssen.
Recommended