Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur...

Einführung in die Statistik zur Tier-versuchsplanung und -auswertung

Prof. Peter PilzFachbereich Biologie

So viele Tiere wie nötig,so wenig Tiere wie möglich

Vorführender

Präsentationsnotizen

Wissenschaften vermessen die Welt viele Daten. Statistik = Kunst, aus vielen Daten belastbare Aussagen herauszubekommen. Wichtiges Werkzeug der Wissenschaft. So viele Tiere…

Statistik• Schließende Statistik Statistische Tests: H0 H1

• Z.B.: „wirkt mein Medikament“?

• Poweranalyse Effektstärke Fallzahlen Biometrisches Gutachten

Statistischer Test: Hypothesen

• Bsp.: 2 Gruppen, Kontrolle & Behandlung• Frage: Behandlung Unterschied?• Hypothesen

Null-Hypothese H0: kein Unterschied Alternativ-Hypothese H1: Unterschied

• H0 annehmen, wenn Irrtumswahrscheinlichkeit für H1>0.05H1 annehmen, wenn Irrtumswahrscheinlichkeit p≤0.05

100

115

130

145

160

Blut

druc

k (m

m H

g)

Vorführender

Es gibt immer MW-Unterschied Es gibt immer Schwankungen der Daten

t = �𝑎𝑎 −�𝑏𝑏𝑆𝑆𝑆𝑆𝑎𝑎𝑏𝑏𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝

× 𝑁𝑁

Statistischer Test: Prinzip

H1/ Effekt wenn:+ Effekt hoch- Variation niedrig+ Stichprobe hoch Testprinzip: je höher

t (F, r, Chi², U…), desto kleiner p

Bsp. (t*(10)=2.2): t(10) = 2.3 p< 0.05 H1t(10) = 1.9 p> 0.05 H0

Vorführender

N = (na * nb) / (na + nb) Bei 10 Freiheitsgraden (na=6, nb=6) wie im Beispiel t(10), ist das kritische t*(10)=2.2; also sind t-Werte über 2.2 signifikant, t-Werte darunter nicht signifikant.

Fehler 1. Art oder alpha-Fehler

• p = α-Fehler = Irrtumswahrscheinlichkeit in 5% der signifikanten Funde irre ich mich!

• p klein, üblich ist 5% „möglichst keine falsche Behauptung“

Fehler 1. Art oder alpha-Fehler

• p = α-Fehler = Irrtumswahrscheinlichkeit in 5% der signifikanten Funde irre ich mich!

• Viele Tests: alpha-Fehler addieren sich z.B. 7 Gruppen, 21 statistische Vergleiche 1 signifikantes Ergebnis erwartetbei 5% Irrtumswahrscheinlichkeit

• damit alpha gesamt <5% Bonferroni-Korrektur α‘ = α/21 im Bsp. α‘= 0.05 /21= 0.0024

nur wenn p<0.0024 signifikant

a

b

c

de

f

g

p=0.012

Vorführender

Bonferroni-Korrektur: Grundgedanke: p wird mit Anzahl der Vergleiche bzw. statistischer Tests multipliziert. Wenn p‘ dadurch >0.05, geht man von nicht-Signifikanz aus. Mathematisch ist exakter, statt p zu multiplizieren, den alpha-Grenzwert zu dividieren.

• Schließende Statistik Statistische Testgröße (Beispiel t) steigt mit:

• Mittelwerts-Unterschied• 1/Variation• Stichprobenumfang

(Richtiger Test mehr Power) Ggf.: Bonferroni-Korrektur p*=5% Irrtum in 5% der Fälle = alpha-Fehler

Statistik

alpha & beta-Fehler

• Alpha-Fehler (α=p): 5% Irrtumswahrscheinlichkeit = 5% Wahrscheinlichkeit dass man sich irrt (Zufall)

• β-Fehler: Wahrscheinlichkeit, Effekt nicht zu finden

H1 = Alternativhypothese: es gibt Effekt bzw. MW sind verschieden

v?

Alpha: Gesellschaft trägt Risiko. Wirkungslos = gefährlich alpha klein wählen

Beta: Versuchsträger Risiko. (Tabletten)wirkung nicht entdeckt

= schade, Einkommensverlust beta kann etwas größer sein

Pharmakonwirkt wirkt nicht Statistischer

Test(H1 stimmt) (H1 falsch)

o.k. Typ 1 Fehler H1 akzeptiertα (p) (wirkt)

Typ 2 Fehler o.k. H0 akzeptiertβ (wirkt nicht)

Power

Statistische Power = Wahrscheinlichkeit (vorhandenen) Effekt zu finden= Wahrscheinlichkeit, falsche H0 zurückzuweisen

= 1 - βBeispiel: Blutdrucksenker wirkt (vgl. zu Placebo)z.B.: β = 0.2 Power = 1- β = 0.8=> In 80% der Fälle statistische Signifikanz=> In ß=20% keine Signifikanz (trotz Wirksamkeit)

Vorführender

Definition von Power: Power is the probability of detecting an effect, given that the effect is really there. In other words, it is the probability of rejecting the null hypothesis when it is in fact false. For example, let's say that we have a simple study with drug A and a placebo group, and that the drug truly is effective; the power is the probability of finding a difference between the two groups. So, imagine that we had a power of .8 and that this simple study was conducted many times. Having power of .8 means that 80% of the time, we would get a statistically significant difference between the drug A and placebo groups. This also means that 20% of the times that we run this experiment, we will not obtain a statistically significant effect between the two groups, even though there really is an effect in reality.

Vier statistische Größen

• Wenn 3 Größen bekannt, 4. berechenbar: α (i.A. p=0.05) N (z.B. N=10+10=20) β-Fehler bzw. Power = 1-ß Effektstärke (z.B. „d“) d = �𝑎𝑎 −�𝑏𝑏

𝑆𝑆𝑆𝑆𝑎𝑎𝑏𝑏𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝

Effektstärke

Beispiel BlutdruckPlacebo = 150 mmHgMedikament = 135 mmHgSD = 30 mmHg

Effektstärke (SD)= 150 −13530

= 0.5

Vorführender

Mit Gpower berechnete Power für dieses Beispiel: 1 – ß = 0.185 s.a. Folie unten

β und Power

ß = H1 nicht gefunden. d=0.5 (r=0.24), α=0.05

105

120

135

150

165

180

Placebo Medikament

Blut

druc

k (m

m H

g)

Fehler: Stabw.

d=0.5

d=0.5 (r=0.24), ß=0.2

*** ** * ns

Häuf

igke

it

Signifikanz

20%

50%

20%

10%5% 1%

0%

10%

20%

30%

40%

50%

60%

0 100 200 300

ß -F

ehle

r

Stichprobenumfang n

Vorführender

Die Kosten, um die Power zu erhöhen, werden „oben“ immer höher, d.h. die Kurve wird flacher, wenig Powererhöhung benötigt immer mehr n-Erhöhung

Underpowered

• Neurobiologie: durchschnittliche Power war1

0.21 = viel zu niedrig nur in 21% finde ich den Effekt,

in 79% finde ich den Effekt nicht!• Grund: i.A. Tierzahl zu niedrig• Beispiel: Geschlecht im Watermaze d=0.49 Notwendige Tiere bei Power von 0.8: 134 Im Mittel eingesetzte Tiere: 22

1: Butten et al. 2013, Nat Neurosc Rev.

flickr.com

Vorführender

Power 0.95: 220

β-Fehler

Post-hoc, also nach dem Experiment:Gegeben: d und n sowie alphaBerechenbar: Power = 0.19 (ß=0.81)

Post hoc: Compute achieved power – given α, sample size and effect size

Effect size d 0.5α err prob 0.05Sample size group 1 10Sample size group 2 10

Power (1-ß err prob) 0.1851

t-tests Means: Difference between two independent means

• 2 Fehlermöglichkeiten, α + β• Effektgröße: bei ttest

d= ΔMittelwerte / Standardabweichung• 4 Werte α, β, d und n: Wenn drei davon bekannt, ist der vierte berechenbar α (bzw. p) i.A. auf 0.05 festsetzen Nach Experiment ist Effektgröße d bekannt Nach Experiment ist n bekannt

• Power = 1- β: Wahrscheinlichkeit, Effekt zu finden

Zwischenstand Poweranalyse

Vier Rechengrößen

• Wenn drei davon gegeben α = 0.05 ß = 0.2 d z.B. aus Vorversuchen

• dann ist N bestimmbar Biometrisches Gutachten: α, ß, d N

!??

Beispiel

Effektgröße N gesamtEffekt d 1-ß=0.80 1-ß=0.90 1-ß=0.95klein 0.2 779 1054 1289mittel 0.5 131 172 215groß 0.8 52 68 84Tierversuch 1.0 34 46 54

Keine kleinen Effekte in einzelnen Tierversuchen suchen„Standard“ mittlere Effekte ist i.A. immer noch zu geringGrößere Effekte als d=1.0 sind erlaubt und erwünscht1-ß = 0.95 ist i.A. zu hoch

Vorführender

Cohen und v.a. Field empfehlen auch r zur Bestimmung der Effektgröße Dann ändern sich die Größeneinschätzungen, da etwas anders berechnet: Kleiner Effekt: r = 0.1, d=0.2 bleibt gleich. Mittlerer Effekt ändert sich: d=0.5 entspricht r=0.24, an anderer Stelle empfiehlt Cohen aber r=0.3 zu setzen für mittleren Effekt, also eine höhere Effektstärke. Dies würde ich für Tierversuche adaptieren, es entspricht einem d=0.63 Ähnlich großer Effekt: d von 0.8 entspricht einem r von 0.37, Cohen empfiehlt aber an anderer Stelle ein r von 0.5 für große Effekte, entspricht d=1.15. Man kann also für Tierversuche Effektgrößen von mindestens 1.0 fordern, (oder auch 1.15), wenn sonst keine Erfahrungen aus z.B. Vorversuchen vorliegen. r=d / wurzel[d²+(n1+n2)²/(n1*n2)] Für n1=n2: r=d / wurzel(d²+4) d=2r / wurzel(1-r²) Einseitiger Test für d=1, Power=0.8: N=28 (statt 34 bei zweiseitig)

Power = 0.8?

Wahl Power ist arbiträr, zwischen 80 und 95%80% Power heißt1. Wahrscheinlichkeit für "signifikantes Ergebnis" 80%2. 20% KEIN "signifikantes Ergebnis". Risiko-Kosten-Abwägung: • was kostet Experiment (Zeit, Geld und Leid der Tiere)? • wie wichtig ist es, Effekt zu finden? • Was passiert, wenn Effekt mit Risiko =20% verpasstBeispiel:• Power = 0.8 n = 28• Power = 0.9 n = 36, also 30% mehr Tiere• Risiko halbiert, Signifikanz zu verpassen, also -50%

Power = 0.8, nur begründet ev. 0.9

Vorführender

Choice of a power level is … arbitrary and … ranges from 80 to 95%. Guidelines for the Design and Statistical Analysis of Experiments Using Laboratory Animals (2002) Michael F. W. Festing and Douglas G. Altman ILAR Journal (Institute for Laboratory Animal Research) Und weitere dutzende Publikationen Die Argumentation, Power auf 0.9 zu erhöhen, stammt von Prof. Martin Eichner (2014) Das Beispiel dazu wurde gerechnet mit d=1.0, 2 Gruppen, einseitiger Test

Beispiel Biometrische Planung

• ttest: N=34, U-Test: N=36

A priori: Compute required sample size – given α, power and effect size

Effect size d 1α err prob 0.05Power (1-ß err prob) 0.80

Total sample size 34

t-tests Means: Difference between two independent means

Biometrische Planung

• Statistische Hypothesen H0 und H1• Welcher Test? (vor Experiment) ein- oder zweiseitig? parametrisch (MW) oder nicht-parametrisch (Median) wie viele Gruppen (Dosierungen)

• Versuchsdesign wichtige Neben-Variablen, Messwiederholungen Blockdesign, Abfolge, Randomisieren, …

• N-Zahl (Poweranalyse) Avisierte Effektstärke

• d≥1 bei Tierversuchen, höher = besser 1-ß=0.8 bei Tierversuchen Standard.

Vorführender

Ein Vorteil der geforderten Poweranalyse ist, dass man jetzt schon vor dem Versuch sich mit der statistischen Analyse auseinandersetzen muss. Das war schon immer ein gutes Konzept. Diese Kenntnis (ev. unterstützt durch ein Gespräch mit einem Statistiker) verbessert womöglich die Versuchsplanung, auf jeden Fall die statistische Planung. Versuchsplanung = Früher: Was messe ich, welche Kontrolle, … Jetzt: dito plus n, statistischer Test, erwartetes Ergebnis in konkreten Zahlen

Ich brauche wenig Tiere, wenn

• großer Unterschied zwischen Mittelwerten• Streuung der Daten klein• Signifikanzniveau α hoch (5% statt 1%)• Power nicht so hoch (80% statt 95%)• einseitiger Test (~20% weniger Tiere)• Parametrische Tests ~1 Tier/Gruppe weniger• Gutes Versuchsdesign (z.B. Messwiederholung)• wenig Gruppen

Vorführender

Parametrische Tests: mehr Power als nichtparametrische, z.B. t-Test versus Wilcoxon/Man-Whitney-U-Test Dafür ist i.A. gutes Datenhandling gefragt, z.B. logarithmieren bei rechtsschiefen Daten Gutes Versuchsdesign: Nebenvariablen durch AnCova wegrechnen, individuelle Einflüsse durch Messwiederholung

Formblatt Biometrische Planung1. Primäre Zielgröße 2. Verteilungsform der

Zielgröße3. Planungsgrößen4. Statistisches Test-Verfahren5. Annahmen zum Fehler 1. Art

(alpha) und 2. Art (beta) 6. Falls verwendet: Bei der

Berechnung durchgeführte Korrekturen

7. Richtung von Hypothese und Test

1. (zu untersuchendes Haupt-Zielmerkmal des Versuches, anhand dessen die Stichprobe berechnet wurde; ggf. inkl. der Transformation dieser Zielgröße).

2. (soweit anhand der Vordatendichte Angabe möglich; in diesem Fall inkl. des Testverfahrens mit dem die Verteilungsform bestimmt wurde)

3. (erwarteter Unterschied (z.B. erwartete relevante Mittelwertsdifferenz und Standardabweichung oder zu detektierende Veränderung der Ereignisrate, i.A. mit Begründung für diese Erwartung anhand von Vordaten) & verwendete Effektgröße mit Angabe ihrer Berechnung)

4. mit welchem die Tierzahlplanung durchgeführt wird (z.B. t-Test, Anova, Wilcoxon-Test).

5. (falls alpha ungleich 0,05 und beta ungleich 0,2 bitte begründen)

6. (z.B. Bonferroni-Korrektur --> in diesem Fall inkl. Angabe, welche Gruppen jeweils gegeneinander getestet werden und Angabe des geänderten alpha-Werts).

7. (ein- oder zweiseitig? --> 2-seitiges Testen bitte begründen).

Schließende Statistik: Prüfgröße (t) Effektumfang, 1/Varianz , N

PoweranalyseStatistische Effektstärke

Blutdrucksenkung geteilt durch SD, d=0.5 Effekt = ½ SD

Power = 1-ß = 0.8 (Power soll hoch sein)Biometrisches Gutachten α =0.05, ß=0.2, d aus Vorversuchen möglichst ≥ 1.0

damit kann man N schätzen

Zusammenfassung

Anhang• Poweranalyse: GPower = Opensource-Programm

http://www.gpower.hhu.de/• A. Field: Discovering statistics using SPSS. Meistverkauftes Statistikbuch,

nette Beispiele, manchmal „Geschwafel“. • v. Zupthen et al. Versuchstierkunde, Kapitel 12 „Planung von

Tierversuchen“. (Planung Stichprobenumfang = veraltet. Bei mir eine um veraltete Inhalte gekürzte Version erhältlich peter.pilz@uni-tuebingen.de)

• www.ats.ucla.edu/stat/seminars/Intro_power/default.htmerläutert Power, viele Tipps, Power von Experimenten zu erhöhen.

• Glaser, W. Varianzanalyse. UTB. Erläutert, warum man ab n=10 fast immer die Normalverteilung annehmen darf.

• Tabachnik, BG, Fidell LS. Using Multivariate Statistics. Pearson. Erläutert, warum man ab 7 Stufen bei ordinalen Daten kontinuierliche Datenform annehmen darf. Schlägt vor, dass diskrete und stetige Daten nicht unbedingt unterschieden werden müssen.

http://www.gpower.hhu.de/

http://www.ats.ucla.edu/stat/seminars/Intro_power/default.htm

Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur...

Documents

Versuchsplanung Versuchsplanung und experimentelles Praktikum Praktikum … · 2014-11-28 · Versuchsplanung und experimentelles Praktikum Titelei_E-Book.indd 1 05.05.2011 13:57:28

webEdition Banner / Statistik Modul fileBanner-/Statistik Modul 5 Inhaltsverzeichnis Über dieses Dokument 11 1 Banner/Statistik Modul: Einführung 15 Was ist das Banner/Statistik

Handbuch e-Statistik im ZVEI · H:\NUTZER\texte\E-Statistik\e-Statistik-Handbuch-V1.0-1810.doc 3 e-Statistik im ZVEI 1 Vorwort Mit der Einführung der e-Statistik im ZVEI wurde ein

Einführung in die wissenschaftliche Datenanalyse · Wahrscheinlichkeitstheorie Mathematische Statistik, Stochastik Klassische Statistik, frequentist probability Bayes’sche Statistik,

Einführung in die Induktive Statistik: Testen von Hypothesen

Erlenbach Einführung von Innosoft · 4Keine Statistik über Beschwerden verfügbar 4Keine Helpdeskfunktion

Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Einführung in die Statistik - FB3 - Uni Bremenosius/download/lehre/Skripte/Statistik/Osius... · Einführung in die Statistik 2.8.06 Vorwort - 2 eine Bestimmung von Mindest-Stichprobenumfängen

Einführung in die Medizinische Statistik - meduniwien.ac.at · Statistik Umgang mit ... Methode des „unvollständigen Denkens“ Ziehen einer Stichprobe. Grundgesamtheit (Population

Basiswissen Statistik und Versuchsplanung - lfe.mw.tum.de · Lehrstuhl für Ergonomie Technische Universität München Basiswissen Statistik und Versuchsplanung Moritz Körber 08.02.2016

Statistik Workshop Material - hs-augsburg.de · Statistik Workshop Mini-Einführung und Auffrischung zu einigen Teilen der angewandten Statistik 12. und 14. Januar 2015 Prof. Dr

Statistik Einführung

Statistische Versuchsplanung und Optimierung · G. TAGUCHI nach D. SHAININ klassische Methoden moderne Methoden Vollständige Faktorenversuchspläne Screening-Versuchspläne Versuchsplanung

Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Einführung in die Induktive Statistik: Regressionsanalysegroll.userweb.mwn.de/StatistikII_SS_2011/InduktStatRegression.pdf · Einführung in die Induktive Statistik: Regressionsanalyse

Versuchsplanung Versuchsplanung und experimentelles ... · logie-Studiengängen vorgesehene Modul „Experimentelles Praktikum“ ist insofern zentral, weil es oft erstmalig umfassend

Einführung in die räumliche Statistik (2015)

Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

Einführung in die Statistik

Statistik - studium.digitalimagecorp.destudium.digitalimagecorp.de/semester_1/Statistik.pdf · Statistik 1. Einführung Begriff Statistik Œ geordnete Zusammenstellung von Informationen