24
Seminararbeit zum Thema Statistische Tests Verfasst von: Matthias B ¨ OCK, 01226255 Martina RIEBENBAUER, 01302468 David R ¨ UHRINGER, 00828405 Kevin SPIES, 01446708 Lehrveranstaltung: 250119 KO Mathematik macht Freu(n)de Vorgelegt bei: Univ.-Prof. Dr. Michael EICHMAIR 11. M¨ arz 2018

Statistische Tests

  • Upload
    others

  • View
    14

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistische Tests

Seminararbeit

zum Thema

Statistische Tests

Verfasst von:

Matthias BOCK, 01226255

Martina RIEBENBAUER, 01302468

David RUHRINGER, 00828405

Kevin SPIES, 01446708

Lehrveranstaltung: 250119 KO Mathematik macht Freu(n)de

Vorgelegt bei:

Univ.-Prof. Dr. Michael EICHMAIR

11. Marz 2018

Page 2: Statistische Tests

Inhaltsverzeichnis

1 Einleitung 1

2 Tests 2

2.1 Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1.1 (Abhangige) Variablen . . . . . . . . . . . . . . . . . . . . . . . 2

2.1.2 Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1.3 Verteilungsfreie Tests . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.4 Normalverteilte Tests . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Testqualitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.1 Testkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.2 Teststarke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Der Hypothesentest 6

3.1 Die statistische Hypothese . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.1.1 Nullhypothese und Alternativhypothese . . . . . . . . . . . . . . 6

3.2 Der p-Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.2.1 Berechnung des p-Werts . . . . . . . . . . . . . . . . . . . . . . 8

3.3 Das Signifikanzniveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.4 Fehler erster und zweiter Art . . . . . . . . . . . . . . . . . . . . . . . . 10

3.5 Einseitiger und zweiseitiger Hypothesentest . . . . . . . . . . . . . . . . 11

4 Konfidenzintervalle 12

4.1 Fehlergrenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.2 Konfidenzniveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.3 Konfidenzintervall berechnen . . . . . . . . . . . . . . . . . . . . . . . . 13

5 Haufige Fehler 14

5.1 Keine Fehlergrenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5.2 Zufallsstichprobe? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5.4 Pravalenzfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

6 Umsetzung in die Praxis 16

6.1 Einstieg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6.2 Theorieinput . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

6.3 Arbeitsblatt zum Video . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

6.4 Losungen zum Arbeitsblatt . . . . . . . . . . . . . . . . . . . . . . . . 19

6.5 Aufgabenstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

6.5.1 Losung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.6 Wiederholung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

I

Page 3: Statistische Tests

Abbildungsverzeichnis

1 Entscheidbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Fehler erster und zweiter Art . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Zweiseitiger Hypothesentest . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Z-Werte der Konfidenzniveaus . . . . . . . . . . . . . . . . . . . . . . . 13

II

Page 4: Statistische Tests

1 Einleitung

Unbewusst setzen wir uns auf Schritt und Tritt mit ihnen auseinander, was nicht ver-

wunderlich ist, haben sie in unsere Alltagwelt doch Einzug gehalten. Die Rede ist von

Behauptungen, die es zu untermauern gilt; Behauptungen, die auf Statistiken beruhen.

Kurzum geht es um die taglichen Meldungen und Informationen, in denen von”signifi-

kanten Ergebnissen in reprasentativen Studien“ gesprochen wird. Sogleich sind wir alle

dazu geneigt, dem Gesagten Glauben zu schenken, scheint es doch statistisch bewiesen!

Oder? Mit statistischen Schlussen verhalt es sich leider nicht so einfach, wie wir dies

im Alltag bei der Lekture solcher Forschungsergebnisse gerne glauben mochten.1

Forschung, die sich mit Behauptungen, also mit formalisierten Aussagen und dessen

systematischer Uberprufung befasst, muss einwandfrei sein, da auf ihrer Basis wichti-

ge Entscheidungen getroffen werden, welche erhebliche Auswirkungen im wahren Le-

ben haben konnen. So beeinflussen zum Beispiel klinische, medizinische Studien unser

Gesundheitswesen und definieren, wie sicher wirksame verschreibungspflichte Medika-

mente sind, Kriminologen werten auf der Grundlage statistischer Werte verschiedene

Strategien zur Eindammung von Verbrechen aus und Vermarkter sowie Geschaftsleute

suchen nach den geeignetsten Moglichkeiten, um ihre Produkte zu verkaufen.2

Aus diesem Grund widmet sich diese Arbeit den statistischen Tests. Die Arbeit gliedert

sich in einen theoretischen und einen praktischen Teil.

Im ersten Kapitel des theoretischen Teils wird der Begriff”Test“ eingefuhrt, mogliche

Testverfahren geschildert und auf Aspekte, die die Testqualitat beeinflussen, einge-

gangen. Im zweiten Kapitel wird der Fokus auf Hypothesentests gelegt woraufhin ein

Kapitel uber Konfidenzintervalle folgt. Das letzte Kapitel beschaftigt sich mit Fehlern,

die haufig im Zuge der Durchfuhrung statistischer Tests auftreten und die es zu ver-

meiden gilt.

Der praktische Teil beschreibt eine mogliche Umsetzung des Theams”Hypothesentest“

im Rahmen des Unterrichts.

1Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-lage, Wiesbaden, 2010/2013), 137.

2Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,mitp Verlag, 2016), 19.

1

Page 5: Statistische Tests

2 Tests

Nach Moosbrugger/Kelava ist ein Test

”ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch

abgrenzbarer [...] Merkmale mit dem Ziel einer moglichst genauen quantitativen Aus-

sage uber den Grad der [...] Merkmalsauspragung.“ 3

Es handelt sich somit um ein Verfahren, mit dem auf Basis von Beobachtungen (z.B.:

Messungen) herausgefunden wird, ob bestimmte Aussagen richtig oder falsch sind. Die-

se Aussagen sind Vermutungen und werden Hypothesen genannt. Zum Widerlegen oder

Belegen dieser Aussagen werden Experimente (Erhebung von Daten) durchgefuhrt. Da

zumeist nicht die gesamte Menge von Daten erfasst werden kann, werden Daten einer

Teilmenge (Stichprobe) erhoben. Die Interpretation dieser Daten fuhrt zu einer Aus-

sage uber die Wahrheit der Hypothese, die aber nie zu 100% richtig oder falsch sein

kann, weil nur eine Teilmenge der Daten ermittelt wurde. Es kann jedoch auch sein,

dass aufgrund der vorliegenden Daten keine Aussage uber die Hypothesen getroffen

werden kann. 4

2.1 Testverfahren

Es gibt eine Vielzahl an Testmethoden, die je nach untersuchender Fragestellung und

vorhandenen Daten unterschiedlich gewahlt werden und dementsprechend verschiede-

ne Aussagen ermoglichen. 5 Die folgende Grafik (Abbildung 1) gibt einen Uberblick

uber die moglichen Testverfahren, wobei die Klassifizierungen davon in den folgenden

Unterkapiteln kurz erlautert werden.

2.1.1 (Abhangige) Variablen

Von unabhangigen Variablen ist die Rede, wenn der Wert willkurlich gewahlt wurde,

weil er unabhangig vom Untersuchungsgegenstand ist. Es wird untersucht, ob bzw.

inwieweit die abhangige Variable sich durch variieren der Werte der unabhangigen

Variable verandert. Beispielsweise sind bei der Fragestellung”Wie wirken sich Alter

und Augenfarbe auf die Schuhgroße aus?“”Alter“ und

”Augenfarbe“ sind die un-

abhangigen Variablen. Ein und das selbe Merkmal kann aber je nach Fragestellung

einmal unabhangig und einmal abhangig sein.

32008 S.84Vgl. https://lehrerfortbildung-bw.de/u_matnatech/mathematik/gym/bp2004/fb2/modul4/2_higru/2_hypo/01_

was_ist_ein_test/ 27.05.20175http://statistik-dresden.de/archives/6026 27.05.2017

2

Page 6: Statistische Tests

Abbildung 1: Entscheidbaum 6

2.1.2 Skalenniveaus

Fur die Wahl des geeigneten Testverfahrens ist es wichtig zu wissen, wie die Merk-

malauspragungen auftreten bzw. gemessen werden. Wenn die Daten nominalskaliert

sind, dann entspricht das der”untersten Stufe“, weil die ermittelten Eigenschaften nur

auf auftretende Haufigkeit untersucht werden konnen (z.B: Haarfarbe, Postleitzahl.)

Wenn sie zusatzlich noch zueinander gereiht werden konnen (Schulnoten), dann ist

das eine Ordinalskala. Bei Intervallskalen sind neben Haufigkeit und Reihenfolge auch

Aussagen uber den Abstand von zwei Daten (Uhrzeit) moglich. Sofern ein naturlicher

Nullpunkt vorhanden ist (Alter), sind die Daten verhaltnisskaliert.

6http://www.methodenberatung.uzh.ch/static/entscheidbaum/entscheidbaum.jpg 27.05.2017

3

Page 7: Statistische Tests

2.1.3 Verteilungsfreie Tests

Diese Tests werden auch nichtparametrische Tests genannt, weil keine spezielle Vertei-

lung der Daten vorausgesetzt wird (Skalenniveau: Nominalskala oder Ordinalskala). Sie

haben den Vorteil, dass sie bei kleinen Stichproben geeignet sind und relativ einfache

Formeln verwendet werden. Außerdem sind sie bei Unklarheit uber die Skalenniveaus

anwendbar, weil es kaum Voraussetzungen gibt.

Dem gegenuber steht, dass die Teststarke (siehe Kapitel 2.2.2), bei gleichen Voraus-

setzungen, immer geringer ist als bei vergleichbaren parametrischen Tests, es kaum

Verfahren gibt mit denen mehr als eine Variable auf einmal berechnet werden kann

und, dass bei großen Stichproben der Aufwand zur Berechnung exakter Wahrschein-

lichkeiten groß ist.7

2.1.4 Normalverteilte Tests

Bei normalverteilten (=parametrischen) Tests wird in Bezug auf die Populationsvertei-

lung angenommen, dass diese einer Verteilung (in der Regel: Normalverteilung) unter-

liegt. Zum Anwenden dieser Tests sind Daten vom Skalenniveau von mindestens einer

Intervallskala notwendig. 8

2.2 Testqualitat

Um Aussagen uber die Qualitat von Tests machen zu konnen gibt es verschiedene

Moglichkeiten. Einige davon werden in den nachfolgenden Kapiteln erlautert.

2.2.1 Testkriterien

Grundsatzlich sollte ein Test gewisse Anforderungen (sogenannte Testgutekriterien)

erfullen, wobei die ersten drei von großerer Bedeutung sind. Die zehn Kriterien lauten:

1. Objektivitat: Das Merkmal wird unabhangig vom Testleiter bzw. von der Test-

leiterin und der Ergebnisinterpretation gemessen.

2. Reliabilitat: Ein Merkmal wird zuverlassig, d.h. ohne Messfehler gemessen.

3. Validitat: Das zu messen angegebene Merkmal wird wirklich gemessen und nicht

ein anderes.

4. Skalierung: Die Testwerte bilden die Merkmalsrelationen adaquat ab.

5. Normierung(Eichung): Es existiert ein Bezugssystem, mit dem die Ergebnis-

se von zwei Testpersonen miteinander verglichen und eindeutig eingeordnet und

interpretiert werden konnen.

7Vgl. Schafer, Thomas (2009): Methodenlehre II - Verfahren fur nominalskalierte Daten. Chemnitz, S. 1 f.8Vgl. Schafer, Thomas (2009): Methodenlehre II - Verfahren fur nominalskalierte Daten. Chemnitz, S. 1

4

Page 8: Statistische Tests

6. Testokonomie: Im Vergleich zu dem Erkenntnisgewinn werden relativ wenig Res-

sourcen (z.B.: Zeit, Geld) beansprucht.

7. Nutzlichkeit: Das gemessene Merkmal besitzt praktische Relevanz und bei Ent-

scheidungen auf Basis dieses Wissens ist zu erwarten, dass mehr Nutzen als Scha-

den geschieht.

8. Zumutbarkeit: Der Nutzen des Tests ist (in Relation gesehen) hoher, als die

zeitliche, psychische und korperliche Beanspruchung von Testpersonen.

9. Unverfalschbarkeit: Testpersonen konnen die Ergebnisse nicht (un)bewusst verfalschen.

10. Fairness: Die Testwerte fuhren zu keiner systematischen Benachteiligung von

Personen(gruppen) mit bestimmten ethnischen, soziokulturellen oder geschlechts-

spezifischen Auspragungen.9

2.2.2 Teststarke

Die Teststarke (oder”Power“) gibt die Wahrscheinlichkeit an, dass ein statistischer

Test einen Effekt bestimmter Große von reinem Zufall unterscheiden kann. Wenn also

die Resultate eines Tests bekannt sind, ist sie ein Maß dafur wie aussagekraftig ein Test

ist. Die Teststarke hangt von drei Faktoren ab:

1. Die Große der gesuchten Abweichung: je starker die Manipulation ist, umso

leichter ist sie zu entdecken.

2. Die Große der Stichprobe: wenn mehr Daten vorhanden sind, sind geringere

Manipulationen leichter zu erkennen.

3. Messfehler: Manche Merkmale sind schwieriger zu erfassen (z.B. Erschopfung)

als andere (z.B. Munzwurfe) - dementsprechend kann es zu großeren Abweichungen

kommen.

Von unzureichender Teststarke ist die Rede, wenn eine Studie zu klein ist, um den

gesuchten Effekt zu entdecken. 10

9vgl. Moosbrugger, Helfried/Kelava, Augustin (Hrsg, 2008): Testtheorie und Fragebogenkonstruktion. Heidelberg,S.7-24

10vgl. Reinhart Alex (2016): Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden. Rhein-breitbach S. 35-43

5

Page 9: Statistische Tests

3 Der Hypothesentest

Ein wesentlicher Bestandteil von Forschungsstudien sind Hypothesentests. Ein Hypo-

thesentest ist eine statistische Vorgehensweise, in der man Daten verwendet, um eine

Behauptung uber eine Grundgesamtheit zu bestatigen oder zu widerlegen. Hierbei ist

vor allem wichtig, dass sich die Hypothesen nicht auf die Stichproben beschranken, son-

dern sich auf die Grundgesamtheit beziehen, deren Parameter meist unbekannt sind.

Hypothesentests werden in allen moglichen Bereichen eingesetzt, die sich auf das Leben

auswirken: medizinische Studien, Werbung, Wahlerbefragungen und praktisch uberall,

wo Vergleiche anhand von Mittelwerten oder Anteilen gezogen werden. 11

3.1 Die statistische Hypothese

Bei statistischen Hypothesen handelt es sich um Behauptungen, formalisierte Aussagen

und moglichst prazise Annahme, die wir mit statistischen Mitteln – und zwar einem

Kalkul auf der Basis von Verteilungsannahmen – systematisch uberprufen.

”Die Grundeinheit einer statistischen Hypothese ist die Variable. Eine mit den Mitteln

der Statistik zu prufende Hypothese ist immer als eine prazise Aussage zu formulieren,

in der ein Zusammenhang zwischen mindestens zwei Variablen behauptet wird. Da-

bei besitzt eine Variable immer mindestens zwei Auspragungen. Jede Hypothese muss

so formuliert sein, dass sie auch scheitern kann, d.h. sich empirisch im Rahmen der

durchgefuhrten Studie und auf der Basis der dafur erhobenen Daten als falsch erweisen

kann.“ 12 So konnte eine einfach Hypothese etwa lauten:”Frauen sind klimabewusster

als Manner.“ 13 Die Variablen waren hier zum einen Frau/Mann und zum anderen

klimabewusst/nicht klimabewusst.

3.1.1 Nullhypothese und Alternativhypothese

Der statistische Hypothesentest ist immer eine Entscheidung zwischen zwei Moglichkeiten

(Hypothesen), die einander gegenuber gestellt werden: die Nullhypothese und die Al-

ternativhypothese.14

Bevor auf die Begriffe Nullhypothese und Alternativhypothese naher eingegangen wird,

muss darauf hingewiesen werden, dass es sich beim Hypothesentest um kein mathema-

tisches Instrument handelt, mit dem man feststellen kann, ob die eine Hypothese richtig

oder falsch ist, denn so ein Instrument existiert nicht. Man kann lediglich uberprufen,

11Vgl. Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 37f.12Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auflage,

Wiesbaden, 2010/2013), 144.13Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-

lage, Wiesbaden, 2010/2013), 144.14Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-

lage, Wiesbaden, 2010/2013), 145.

6

Page 10: Statistische Tests

ob die Hypothese mit den Daten konsistent ist.15

Die als Alternativhypothese (H1) formulierte Aussage ist jene Hypothese, die im Mittel-

punkt des Interesses der Forschenden steht. Hiermit mochte man bestimmte Phanomene

erklaren und Zusammenhange offen legen. Da man dies nur im Falle eines bisher nicht

oder nur unzureichend erklarten Sachverhalts macht, ist der Begriff”alternativ“ tref-

fend; immerhin handelt es sich um eine neue Erklarung, alternativ und/oder erganzend

zum bisherigen Forschungsstand.

Die Nullhypothese (H0) ist nun eine formale Gegenhypothese zur formulierten Alterna-

tivhypothese. Sie ist eine Negativhypothese, mit der behauptet wird, dass die zur Al-

ternativhypothese komplementare Aussage richtig ist. Die Nullhypothese besagt, dass

der postulierte Zusammenhang null und nichtig ist16, dass nichts Neues geschehen wird

oder dass eine Gruppe einen bestimmten Durchschnittswert hat und ausschließlich der

Zufall am Werk ist.

Eine anschauliche Erklarung uber den intuitiven Ablauf des Hypothesentests liefert De-

borah Rumsey:”Hypothesentests entsprechen in gewisser Weise Anklagen vor Gericht.

In einer Anklage entspricht die Nullhypothese H0 dem Urteil”nicht schuldig“, und die

Alternativhypothese H1 dem Urteil”schuldig“. In einer Gerichtsverhandlung wird so

lange von der Unschuldsvermutung ausgegangen, bis die Schuld zweifelsfrei bewiesen

werden konnte. Nur wenn der Beweis uber alle Zweifel erhaben ist, wird H0 zugunsten

von H1 abgelehnt.“17

Wird nun in der Forschung H0 zugunsten von H1 abgelehnt, so kann der Wissenschaft-

ler behaupten, ein statistisch signifikantes Ergebnis gefunden zu haben. 18 Eigentlich

hat die Nullhypothese die besseren Chancen, dass die Entscheidung fur sie ausfallt,

denn solange man die empirischen Gegebenheiten mit hinreichender Wahrscheinlich-

keit aus dem Zufall erklaren kann, solange behalt man auch die H0 bei. 19

Was bedeutet nun”mit hinreichender Wahrscheinlichkeit aus dem Zufall erklaren kann“?

3.2 Der p-Wert

Wenn man ein Experiment durchfuhrt, die notigen Daten erhebt und zu einem Ergebnis

kommt, dann muss man sich eine kritische Frage stellen. Und zwar: Konnte es sein, dass

das Ergebnis einfach nur durch zufalliges Gluck oder unbedeutenden Schwankungen zu-

stande gekommen ist oder handelt es sich tatsachlich um ein statistisch signifikantes

Ergebnis, wo die Abweichungen großer sind als durch rein zufallige Fluktuationen zu15Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,

mitp Verlag, 2016), 26.16Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-

lage, Wiesbaden, 2010/2013), 145.17Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 236.18Ebda, 237.19Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-

lage, Wiesbaden, 2010/2013), 145.

7

Page 11: Statistische Tests

erwarten waren? Um diese Frage zu beantworten, hilft der p-Wert. Denn der sagt:

”Wenn wirklich nur der Zufall am Werk ware, wie wahrscheinlich ware dann noch

das Ergebnis von unserem Experiment?“ Der p-Wert misst also, wie wahrscheinlich

es ist, die Stichprobenergebnisse zu erhalten, wenn die Nullhypothese zutrifft. Anders

formuliert: Ausgehend von der Annahme, dass ein echter Effekt oder ein wirklicher Un-

terschied nicht vorhanden ist – also H0 zutrifft -, gibt der p-Wert die Wahrscheinlichkeit

dafur an, dass die gesammelten Daten mindestens dem tatsachlich beobachteten Wert

entsprechen oder einen extremeren Wert annehmen.20

3.2.1 Berechnung des p-Werts

Wie berechnet man nun diesen p-Wert?

Angenommen man nimmt acht Glaser eines Energydrinks, wobei in vier Glasern der

acht Glaser die normale Variante des Energydrinks ist und in den anderen vier die

ungezuckerte Variante. Es gilt nun nur durch reines Kosten jene Energydrinks heraus-

zufinden, die ungezuckert sind. Angenommen, der Versuchskandidat bzw. die Versuchs-

kandidatin erkennt drei von vier richtig. So muss im nachsten Schritt herausgefunden

werden, ob dieses Ergebnis reines Gluck war, oder, ob er oder sie sehrwohl einen Un-

terschied schmecken kann.

Dazu stellen wir die Nullhypothese”Es war reiner Zufall, dass drei von vier ungezu-

ckerte Energydrinks richtig erkannt wurden“ auf.

Als erstes berechnen wir die Wahrscheinlichkeiten fur alle moglichen Ausgange dieses

Experiments. Also wie wahrscheinlich es ist keinen, einen, zwei, drei oder sogar alle

vier richtig zu erkennen. Da dies einem Ziehen ohne Zurucklegen, also einer hypergeo-

metrischen Verteilung, entspricht, berechnen wir dies mit der Formel:

P =

(M

k

(N −Mn− k

)(N

n

) (1)

21

Dabei ist N die Anzahl der Grundgesamtheit, M die Anzahl, der fur uns gunstigen

Elemente, n die Anzahl die wir”entnehmen“ und k die Elemente aus M, die in n

enthalten sind.

Nach Berechnung mit dieser Formel erhalten wir, dass die Wahrscheinlichkeit, null

Richtige zu erwischen bei 1,4% liegt, jene fur ein richtiges Glas bei 22,9%, fur zwei bei

20Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,mitp Verlag, 2016), 23-26.

21Vgl. http://www.math.uni-heidelberg.de/studinfo/oelschlaeger/Einf_WTheorie_Statistik_SS_09/Einf.

WTheorie.Statistik.1.pdf, 86 -88. (03.10.2017)

8

Page 12: Statistische Tests

51,4%, die fur drei richtige bei 22,9% und die Wahrscheinlichkeit alle vier richtig zu

erraten liegt bei 1,4%.

Nun ist der p-Wert aber nicht jener Wert, der in unserem Beispiel bei drei Richtigen

herauskommt! Denn der p-Wert gibt an, wie wahrscheinlich es ist, ein Ergebnis zu

erzielen, welches mindestens so gut ist, wie unser Ausgangsergebnis. Mindestens so

gut wie drei Richtige sind also drei Richtige und mehr. Daraus folgt, dass wir die

Wahrscheinlichkeiten fur drei und fur vier Richtige addieren mussen und erhalten einen

p-Wert von 24,3%.

Wie kann man nun anhand des p-Wertes beurteilen, ob ein Unterschied tatsachlich

signifikant ist und welche Hypothese nun verworfen wird?

3.3 Das Signifikanzniveau

Dafur legt man das sogenannte Signifikanzniveau fest. Dieses beschreibt eine Schwelle

fur den p-Wert. In den meisten Fallen belauft sich das Signifikanzniveau auf 5%. In

manchen Fallen findet man aber auch Signifikanzniveaus von 1% oder sogar von 0,1%,

wenn man noch sicherer gehen will, dass das Ergebnis nicht bloßer Zufall war.

”Die Wahl des Signifikanzniveaus ist abhangig von der Stichprobengroße einerseits und

von den Konsequenzen eines Fehlers andererseits.“ 22 Daher sollte man bei sehr großen

Stichproben das Signifikanzniveau niedrig wahlen. Dasselbe gilt, wenn eine Entschei-

dung zugunsten der Alternativhypothese schwerwiegende Folgen haben konnte. Aus

diesen Grunden ist es immer wichtig, sich vor dem Test genau zu uberlegen, wie man

das Signifikanzniveau wahlt.

Liegt der p-Wert uber dem festgelegten Signifikanzniveau, so sagt man, dass das Er-

gebnis nicht signifikant ist. Ist der p-Wert kleiner als das festgelegte Signifikanzniveau,

so ist das Ergebnis statistisch signifikant. Wenn der p-Wert unter 1% liegt, so nennt

man das Ergebnis sehr oder hoch signifikant. Wenn nun die Wahrscheinlichkeit, dass

ein Ergebnis rein vom Zufall abhangt, kleiner als das festgelegte Signifikanzniveau ist,

so wird die H0-Hypothese zugunsten der H1-Hypothese verworfen. Der p-Wert ist al-

so kein Maßstab dafur, wie richtig (oder falsch) man mit der Hypothese liegt oder

wie bedeutsam ein Unterschied im Endeffekt ist. Es ist eher ein Indikator dafur, wie

unerwartet oder uberraschend ein Ergebnis ausfallt.23

Wenn wir uns an unser Beispiel zuruckerinnern, so liegt unser p-Wert von 24,3% deut-

lich uber dieser Schwelle. Daraus kann man folgern, dass das Ergebnis nicht signifikant

ist. In anderen Worten: Die Wahrscheinlichkeit, durch bloßes Raten die zuckerfreien

Energydrinks herauszufiltern, liegt bei 24,3% und ist damit viel zu hoch.

22Kuckartz, Radiker, Ebert, Schehl, Statistik - Eine verstandliche Einfuhrung, 2013, S.14923Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 240-243.

9

Page 13: Statistische Tests

3.4 Fehler erster und zweiter Art

Beim Entscheidungsprozess zwischen Nullhypothese und Alternativhypothese existie-

ren nun prinzipiell vier Varianten fur eine richtige beziehungsweise falsche Entschei-

dung:

Abbildung 2: Fehler erster und zweiter Art 24

Dabei sind die Felder H0/H0 sowie H1/H1 unproblematisch. Diese sagen aus, dass in der

Grundgesamtheit H0 (H1) gilt und man sich aufgrund der Ergebnisse der Stichprobe

auch fur H0 (H1) entscheidet. 25 Bei den Kombinationen H0/H1 oder H1/H0 hingegen

handelt es sich um Fehler, die in der Wissenschaft soweit wie moglich ausgeschlossen

werden sollten.

1. α-Fehler (Fehler 1. Art oder Falsche Positive): Die Nullhypothese wird

abgelehnt, obwohl sie richtig ist. Dies bedeutet, dass geschlussfolgert wird, dass es

einen Effekt gibt, der tatsachlich nicht vorhanden ist.

2. β-Fehler (Fehler 2. Art oder Falsche Negative): Die Nullhypothese wird

akzeptiert, obwohl sie falsch ist, was so viel bedeutet wie, dass ein tatsachlich

vorhandener Effekt ubersehen wird. 26

Alex Reinhart beschreibt das Problem der Fehler trefflich:

”In gewisser Hinsicht sind falsche Positive und falsche Negative zwei Seiten derselben

Medaille: Wenn wir allzu bereit sind, auf einen Effekt zu schließen, laufen wir Gefahr,

falsche Positive zu erhalten – sind wir hingegen zu zuruckhaltend, begehen wir den

Fehler, einen Effekt nicht zu erkennen und erhalten falsche Negative.“ 27

Um diese Fehler gering zu halten, bietet sich das Neyman-Pearson-Kriterium an. Ney-

man und Pearson argumentierten, dass es zwar unmoglich ist, falsche Positive und

falsche Negative vollig auszuschließen, aber, dass es sehr wohl moglich ist, ein forma-

les Entscheidungsverfahren zu entwickeln das gewahrleistet, dass falsche Positive nur24Statistik - Eine verstandliche Einfuhrung, S. 15125Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-

lage, Wiesbaden, 2010/2013), 151f.26Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,

mitp Verlag, 2016), 29.27Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage, mitp

Verlag, 2016), 29.

10

Page 14: Statistische Tests

gemaß einer vorgegebenen Rate α auftreten. Nun liegt es nur mehr daran, das beste

Testverfahren zu ermitteln, welches die niedrigste Anzahl falscher Positiver bei vorgege-

benen α liefert. Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden

und gangige Fehler vermeiden (1. Auflage, mitp Verlag, 2016), 29.

Das Signifikanzniveau wird auch des Ofteren als Irrtumswahrscheinlichkeit bezeichnet.

Legt man das Signifikanzniveau auf die ublichen 5% fest, so ist die Irrtumswahrschein-

lichkeit eben genauso groß. Die Irrtumswahrscheinlichkeit besagt namlich, mit welcher

Wahrscheinlichkeit man einen Fehler der ersten Art begeht. Das bedeutet also, wenn

wir ein Signifikanzniveau bzw. eine Irrtumswahrscheinlichkeit von 5% haben, so wei-

sen wir mit einer Wahrscheinlichkeit von 5% die Nullhypothese zuruck, obwohl diese

eigentlich richtig war.

3.5 Einseitiger und zweiseitiger Hypothesentest

Bei Hypothesentests kann man zwischen zwei verschiedenen Arten unterscheiden: dem

einseitgen und dem zweiseitigen Test. Bei einem einseitigen Hypothesentest ist die auf-

gestellte Hypothese gerichtet, das heißt, dass ein Zusammenhang mit der Richtung

der Hypothese besteht. Einfach gesagt bedeutet das, dass der p-Wert einfach eine be-

stimmte Schwelle uber - bzw. unterschreiten muss, damit die Nullhypothese verworfen

wird. Wenn die Hypothese ungerichtet ist, wird nichts uber die Richtung des Zusam-

menhangs ausgesagt, daher benotigt man einen zweiseitigen Test. Dieser hat nun zwei

Bereiche, in denen die Nullhypothese verworfen wird. Fur einen zweiseitigen Test gilt

naturlich, dass das Signifikanzniveaus an beiden Randern aufgeteilt werden muss, um

die Irrtumswahrscheinlichkeit zu erhalten. Dies wird in folgender Grafik (Abbildung 3)

dargestellt. 28

Abbildung 3: Zweisweitiger Hypothesentest 29

28Vgl. Statistik - Eine verstandliche Einfuhrung,147 - 151.29Kuckartz, Radiker, Ebert, Schehl, Statistik - Eine verstandliche Einfuhrung, 2013, S.151

11

Page 15: Statistische Tests

4 Konfidenzintervalle

Bis jetzt haben wir den p-Wert untersucht, um die Beweiskraft eines Forschungsergeb-

nisses zu beurteilen. Es gibt jedoch eine Alternative, um dieselben Fragen zu beantwor-

ten und gleichzeitig genauere Informationen zu erhalten - die Konfidenzintervalle. Der

Vorteil dabei ist, dass die Ergebnisse einfacher zu interpretieren sind und gleichzeitig

mehr Aussagekraft haben. 30

Die Berechnung der Konfidenzintervalle ist abhangig davon, welches Merkmal einer

Stichprobe untersucht wird, beziehungsweise welche Daten vorhanden sind. Wir wer-

den Konfidenzinervalle fur den Anteil an der Grundgesamtheit naher betrach-

ten. Das bedeutet, dass wir in unserer Stichprobe einen Anteil p mit einer gewissen

Eigenschaft haben und dafur ein Konfidenzintervall konstruieren wollen, um so auf die

Grundgesamtheit schließen zu konnen. Konfidenzintervalle konnen aber beispielsweise

auch fur den Mittelwert oder den Erwartungswert einer Verteilung aufgestellt werden.

Jedoch wurde es den Rahmen dieser Arbeit sprengen, auf all die unterschiedlichen Be-

rechnungen einzugehen.

Wie der Name schon verrat, handelt es sich um ein Intervall. Es beschreibt den Bereich,

der durch eine statistische Große plus/minus der Fehlergrenze definiert ist.

4.1 Fehlergrenze

Die Fehlergrenze gibt nun jenen Wertebereich an, in dem der Wert der Grundgesamt-

heit wahrscheinlich liegt, den man mit Hilfe eines Stichprobenergebnisses zu schatzen

versucht. 31 Die Grundlage der Fehlergrenze bildet der Standardfehler, welcher fur einen

Stichprobenanteil folgendermaßen berechnet wird (hier ist die vereinfachte Formel an-

gegeben, welche jedoch nur verwendet werden kann, wenn folgende Faustregel zutrifft:

np(1− p) & 9):

σp =√

p·(1−p)n

Wobei p den Stichprobenanteil und n die Stichprobengroße darstellen.

Hierbei wird sofort ersichtlich, dass der Standardfehler kleiner wird, je großer die Stich-

probengroße gewahlt wird. Um nun die Fehlergrenze zu erhalten, wird der Standard-

fehler mit dem Z-Wert des gewunschten Konfidenzniveaus multipliziert.

30vgl. Reinhart Alex (2016): Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden. Rhein-breitbach S. 33

31vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 197

12

Page 16: Statistische Tests

4.2 Konfidenzniveau

Der Begriff Konfidenz soll deutlich machen, dass man ein bestimmtes Maß an Vertrauen

(engl. confidence) in einen Vorgang hat. Das Konfidenzniveau beschreibt die Große des

Vertrauens.32 Ublicherweise wird ein Niveau von 95% gewahlt. In der folgenden Tabelle

sind die Z-Werte fur einige Konfidenzniveaus dargestellt.

Abbildung 4: Z-Werte der Konfidenzniveaus 33

Wahlt man nun ein bestimmtes Konfidenzniveau aus, so muss der Standardfehler mit

dem entsprechenden Z-Wert multipliziert werden, um die Fehlergrenze zu erhalten. Je

hoher das Niveau gewahlt wird, desto großer wird die Fehlergrenze.

4.3 Konfidenzintervall berechnen

Betrachten wir nun ein konkretes Beispiel. Angenommen, man mochte den Prozentsatz

der Motorrader an den motorisierten Fahrzeugen in Osterreich ermitteln. Dazu wird

zu unterschiedlichen Zeitpunkten an mehreren Autobahnen eine Zufallsstichprobe von

1000 Fahrzeugen genommen. Man zahlt dabei 50 Motorrader, also sind es bei dieser

Stichprobe 5%.

Selbstverstandlich kann nun nicht gesagt werden, dass 5% aller motorisierter Fahrzeuge

in Osterreich Motorrader sind, da es sich ja nur um eine Stichprobe handelt. Man hofft

allerdings, dass das dem tatsachlichen Ergebnis sehr nahe kommt. Um nun diesem Er-

gebnis mehr Aussagekraft zu verleihen, berechnen wir uns die Fehlergrenze und wahlen

ein Konfidenzniveau von 95%. Der dazugehorige Z-Wert betragt 1, 96:

1, 96 ·√

0,05·(1−0,05)1000 = 0, 0135

Unsere Fehlergrenze betragt folglich rund 1, 4%. Das Konfidenzintervall reicht nun von

5% +/− 1, 4%, also von 3, 6% bis 6, 4%. Was bedeutet das nun?

Wurde man weiterhin zufallige Stichproben nehmen, so waren die Stichprobenwerte zu

95% innerhalb dieses Konfidenzintervalls. Mochte man eine hohere Sicherheit, erhoht

sich das Konfidenzniveau und damit wird auch das Intervall großer.

32vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 211

13

Page 17: Statistische Tests

5 Haufige Fehler

In der Statistik gibt es viele Fehlerquellen, die zu irrefuhrenden oder sogar falschen

Ergebnissen fuhren konnen. Im Folgenden werden einige Fehler aufgezeigt, die immer

wieder auftreten.

5.1 Keine Fehlergrenze

Um ein statistisches Ergebnis bewerten zu konnen, muss die Genauigkeit uberpruft

werden. Dies geschieht in den meisten Fallen mithilfe der Fehlergrenze.34 Ist bei einer

Studie oder Statistik keine solche angegeben, so kann das Ergebnis nicht genau be-

wertet werden, es sei denn, man hat die Rohdaten der Statistik und kann sich diese

selbst ausrechnen. In heimischen Medien findet man immer wieder Statistiken, wo die

Fehlergrenze nicht angegeben ist.

5.2 Zufallsstichprobe?

Damit eine Stichprobe wirklich reprasentativ ist, muss es sich um eine Zufallsstichprobe

handeln.

Eine Zufallsstichprobe ist eine Teilmenge der Grundgesamtheit, die so ausgewahlt wur-

de, dass jedes Mitglied der Grundgesamtheit die gleiche Chance hat, ausgewahlt zu

werden [...]. Bei der Zufallsstichprobe gibt es keine systematische Bevorzugung oder

Ablehnung.35

In vielen Fallen ist es fast unmoglich tatsachlich eine Zufallsauswahl zu treffen. Viele

medizinische Studien zum Beispiel werden an freiwilligen Testpersonen durchgefuhrt,

was nicht einer Zufallsstichprobe entspricht. Hierbei kann nur gepruft werden, wie gut

die Grundgesamtheit reprasentiert wird.

5.3 Korrelation

Die wohl meisten Fehlinterpretationen in der Statistik gibt es bei dem Begriff der

Korrelation.

In der Statistik wird als Korrelation die Starke und die Richtung einer linearen Bezie-

hung zwischen zwei quantitativen Variablen bezeichnet.36

Korrelation bedeutet allerdings nicht, dass auch ein Kausalzusammenhang besteht.

Nehmen wir beispielsweise an, dass eine Studie zum Ergebnis kommt, dass Menschen,

die einen bestimmten (niedrigen) Cholesterinspiegel haben, ein um 25% geringeres In-

farktrisiko haben. Das bedeutet nicht, dass eine Person welche ihren Cholesterinspiegel

34vgl. Kapitel Fehlergrenze35vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 33436vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 335

14

Page 18: Statistische Tests

auf diesen bestimmten Wert - beispielsweise durch gesunde Ernahrung - senkt, nun au-

tomatisch ein geringes Infarktrisiko hat. Denn es wurde in der Studie nicht gepruft,

welchen Effekt das Senken des Cholesterinspiegels auf das Infarktrisiko hat.

5.4 Pravalenzfehler

Bei Wahrscheinlichkeiten muss man unterscheiden zwischen bedingten und unbeding-

ten Wahrscheinlichkeiten. Ein Ereignis A hat eine unbedingte Wahrscheinlichkeit, wenn

es von keinem anderen Ereignis beeinflusst wird. Beispielsweise kann jeder Mensch

krank werden, ohne es direkt an ein Ereignis zu knupfen. Man kann aber auch krank

werden, wenn man einem bereits erkrankten die Hand reicht und sich anschließend uber

den Mund fahrt und daraus resultierend erkrankt. Dies ware ein Ereignis B, welches

Ereignis A beeinflussen kann. Die bedingte Wahrscheinlichkeit ist nun jene, die angibt,

wie wahrscheinlich es ist, dass jemand krank wird (also Ereignis A eintritt), wenn man

zuvor einem kranken Menschen (also Ereignis B eintritt) die Hand schuttelt.

Hat man nun eine solche bedingte Wahrscheinlichkeit und will diese berechnen, so muss

man sowohl die unbedingte Wahrscheinlichkeit fur Ereignis A bedenken, als auch die

bedingte Wahrscheinlichkeit von Ereignis A in Abhangigkeit von Ereignis B. Hierbei

kann ein sogenannter Pravalenzfehler begangen werden. Ein solcher Fehler tritt genau

dann auf, wenn man bei der Berechnung der bedingten Wahrscheinlichkeit von Ereignis

A, die unbedingte A-priori-Wahrscheinlichkeit von A außer Acht lasst.37

Um solchen Pravalenzfehlern vorzubeugen, gibt es den Satz von Bayes. Dieser lasst die

Wahrscheinlichkeit von Ereignis A unter der Bedinung, dass Ereignis B eingetreten ist,

durch die Wahrscheinlichkeit von B unter der Bedingung von A berechnen.

P (A|B) =P (B|A) · P (A)

P (B)(2)

37Vgl. http://perlmeister.com/snapshots/201507/index.html(03.10.2017)

15

Page 19: Statistische Tests

6 Umsetzung in die Praxis

Zur Umsetzung der nachfolgenden Stundenplanung sind ungefahr vier Unterrichtsein-

heiten notwendig. Diese Anzahl kann je nach Umfang (Mini-Studie, etc.) variieren. Fur

die Vor- und Nachbereitung sind ungefahr zwei Einheiten geplant.

6.1 Einstieg

Um in das Thema einzusteigen, wird mit den SchulerInnen ein kleines Experiment

durchgefuhrt. Es soll ein vereinfachter Hypothesentest gemacht werden, bei dem die

SchulerInnen bereits implizit den p-Wert berechnen. Zum Beispiel konnte man den

SchulerInnen zwei gleiche Limonaden von verschiedenen Herstellern geben und sie sol-

len selbst in Gruppen diese Limonaden testen. Dabei soll die Hypothese aufgestellt

werden, dass immer die Limonade von Firma A herausgeschmeckt werden kann, was

bedeutet: Ein richtiger Treffer ist es dann, wenn ein Schuler oder eine Schulerin die

Limonade von Firma A erkennt.

Dieses Experiment durfen die SchulerInnen in Gruppen durchfuhren, wobei jeder die

Chance haben soll zu testen. Sind alle Testungen durchgefuhrt wird den SchulerInnen

implizit vorgegeben, wie sie den p-Wert berechnen konnen, ohne den Term”p-Wert“

aber zu nennen. Dabei mussen den SchulerInnen entweder die einzelnen Wahrschein-

lichkeiten fur den Testausgang bekanntgegeben werden, oder sie berechnen diese Wahr-

scheinlichkeiten selbst mithilfe der hypergeometrischen Verteilung (siehe 2.3). Anschlie-

ßend wird der p-Wert fur alle Testungen, also mehrere p-Werte pro Gruppe, berech-

net. Die Lehrperson sammelt die Ergebnisse und fragt hier bereits nach einem ersten

Einschatzen der SchulerInnen, ob nun ein niedriger oder hoher Prozentwert gut fur die

Testung ist.

Danach erstellt die Lehrperson eine Kurve mit GeoGebra, die die Verteilung dieses

Experiments zeigt. Die p-Werte sollen nun in diese Verteilung eingezeichnet werden.

Hier sollten die SchulerInnen ein weiteres Mal gefragt werden, welche Prozentwerte

denn nun besser seien. Sind alle Experimente und Diskussionen zu diesem Einstieg

beendet, wird zum Theorieinput ubergegangen. Hier haben wir ein Beispiel fur ein

solches Experiment gegeben. Naturlich konnen auch Experimente gewahlt werden, die

in der Lebenswelt der jeweiligen Klasse besser verankert sind. Dabei sollte nur darauf

geachtet werden, dass es sich stets um eine Normalverteilung handelt. Weitere Beispiele

waren Munzwurfe oder auch das einfache Wurfeln ware eine Moglichkeit.

Aus didkatischer Sicht ist hier wichtig, dass die Gruppen nicht zu groß gewahlt wer-

den, damit jeder, der Lust hat, auch experimentieren und testen kann. Diese Lust sollte

dadurch hochgehalten werden, indem ein interessantes oder auch lustiges Experiment

gewahlt wird. Wird ein ahnliches Experiment, wie von uns beschrieben gewahlt, sollte

man sicher gehen, dass die SchulerInnen unvoreingenommen in das Experiment starten.

16

Page 20: Statistische Tests

Jegliches Wissen, welches das Experiment beeinflussen konnte, sollte also vermieden

werden. Man sollte den Zeitaufwand zum Aufbau des Experiments daher nicht un-

terschatzen. Je nach Klassen bzw. Gruppengroßen sollte man mindestens eine ganze

Schulstunde fur dieses Experiment einplanen.

6.2 Theorieinput

Um den Theorieinput moglichst spannend bzw. kurzweilig zu halten wird hierfur ein

Video verwendet. Die SchulerInnen sollen sich dieses Video ansehen und anschließend

ein Arbeitsblatt dazu ausfullen. Dadurch sollen sie die Hintergrundinformationen zu

dem bereits durchgefuhrten Experiment bekommen und fur den weiteren Workshop

mit dem notigen Wissen versorgt werden

Hier geht es zu dem oben genannten Video: https://youtu.be/gSyGVDMcg-U

17

Page 21: Statistische Tests

6.3 Arbeitsblatt zum Video

1. Welche ist die grundsatzliche Frage beim Hypothesentest?

2. Eine Testsatistik ist eine der Daten aus einem Experiment in einen Wert.

3. Die Nullhypothese sagt aus

4. Was beschreiben die Wahrscheinlichkeiten im Video, die durch die hypergeometrische Verteilung berechnet wer-

den?

5. Kreuzen Sie an:

Der p-Wert wird unter der Annahme, dass nur der Zufall am Werk ist berechnet.

Der p-Wert gibt an wie wahrscheinlich der Aussgang eines Experiments ist.

Ein hoher p-Wert bedeutet, dass das Ergebnis signifkant ist.

Der p-Wert ist die Summe der aquivalenten oder besseren Wahrscheinlichkeiten.

Das Signifikanzniveau gibt den Toleranzbereich fur den p-Wert an.

wahr falsch

� �

� �

� �

� �

� �

6. Ist der p-Wert unter so ist das Ergebnis signifikant. Ist der p-Wert unter ,

so ist das Ergebnis hoch signifkant.

7. Was bedeutet statistisch signifikant?

8. Warum ist ein Experiment mit nur acht Tassen nicht ideal?

9. Erklaren Sie in eigenen Worten, was ein Hypothesentest, der p-Wert und das Signifikanzniveau sind!

18

Page 22: Statistische Tests

6.4 Losungen zum Arbeitsblatt

1. Welche ist die grundsatzliche Frage beim Hypothesentest?

Ist es moglich, dass da Ergebnis nur durch bloßes Gluck zustande gekommen ist?

2. Eine Testsatistik ist eine Zusammenfassung der Daten aus einem Experiment in einen einzelnen Wert.

3. Die Nullhypothese sagt aus, dass das Ergebnis durch reinen Zufall zustande gekommen ist.

4. Was beschreiben die Wahrscheinlichkeiten im Video, die durch die hypergeometrische Verteilung berechnet wer-

den?

Diese beschreiben die Wahrscheinlichkeiten, genau ein bestimmtes Ergebnis zu erzielen

5. Kreuzen Sie an:

Der p-Wert wird unter der Annahme, dass nur der Zufall am Werk ist berechnet.

Der p-Wert gibt an wie wahrscheinlich der Aussgang eines Experiments ist.

Ein hoher p-Wert bedeutet, dass das Ergebnis signifkant ist.

Der p-Wert ist die Summe der aquivalenten oder besseren Wahrscheinlichkeiten.

Das Signifikanzniveau gibt den Toleranzbereich fur den p-Wert an.

wahr falsch√

�√

�√

√�

√�

6. Ist der p-Wert unter 5% so ist das Ergebnis signifikant. Ist der p-Wert unter 1%, so ist das Ergebnis hoch

signifkant.

7. Was bedeutet statistisch signifikant?

Der p-Wert liegt unter dem Signifkanzniveau, was bedeutet, dass die Wahrscheinlichkeit, dass

das Ergebnis nur durch reines Gluck zustande gekommen ist, gering genug ist um anerkannt zu

werden.

8. Warum ist ein Experiment mit nur acht Tassen nicht ideal?

Die Testmenge ist viel zu klein. Mit nur acht Tassen ist die Wahrscheinlichkeit um einiges hoher,

dass man wirklich nur durch bloßes Raten ein gutes Ergebnis erzielt. Fuhrt man das Experiment

mit 1000 Tassen aus, so ist es viel schwieriger z.B.: 75% der Tassen richtig zu erkennen als bei 8

Tassen

9. Erklaren Sie in eigenen Worten, was ein Hypothesentest, der p-Wert und das Signifikanzniveau sind!

Der Hypothesentest ist dafur da, eine Hypothese zu uberprufen, wobei hier die Annahme getroffen

wird, dass bei einem Experiment nur der Zufall am Werk ist.

Der p-Wert wird dazu verwendet um anzugeben, wie wahrscheinlich es ist, ein mindestens genauso

gutes Ergebnis, wie im Ausgangsexperiment zu erzielen.

Das Signifikanzniveau beschreibt den Schwellenwert fur den p-Wert. Fallt der p-Wert unter das

Signifikanznievau bedeutet das, dass es extrem unwahrscheinlich ist, dass nur der Zufall am Werk

war. Das Ergebnis wird nun statistisch signifikant genannt. Ubliche Werte fur das Signifikanznievau

sind 5% oder 1% (hoch signifikant). Das Niveau muss man so wahlen, dass es zum jeweiligen

Experiment passt.

19

Page 23: Statistische Tests

6.5 Aufgabenstellungen

1. Man geht davon aus, dass die Augenfarbe einer Person mit dessen Haarfarbe korre-liert. Wir wissen allerdings, dass beispielsweise nicht alle braunhaarigen Menschendie selbe Augenfarbe haben. Aber ist eine Augenfarbe wahrscheinlicher?Fuhrt nun eine ’Mini-Studie’ an eurer Schule durch. Dazu uberlegt ihr euch zu Be-ginn, welche beiden Merkmale ihr untersuchen wollt (zum Beispiel schwarzhaarigund braunaugig). Zu dieser Kombination soll nun:

a) ein Projektplan erstellt werden (wer erleigt was?).b) eine Umfrage/Ermittlung der Daten durchgefuhrt werden.c) eine Hypothese aufgestellt werden. (zum Beispiel: 90% aller schwarzhaarigen Men-

schen haben braune Augen)

Nun soll uberpruft werden, ob die aufgestellte Hypothese verworfen werden sollte,oder nicht. Kann man mit den Ergebnissen dieser Stichprobe auf einen allgemeinenZusammenhang schließen?

2. Vor einer Nationalratswahl wird in Osterreich eine unabhangige Wahlumfrage mit2000 Befragten durchgefuhrt und soll Aufschluss daruber geben, wie die Wahl amdarauffolgenden Sonntag wahrscheinlich ausgeht. In der unten stehenden Grafik sinddie Umfragewerte aufgelistet.(Hierbei handelt es sich nicht um eine tatsachliche Um-frage, die Werte wurden fur dieses Beispiel angepasst.)

a) Eine Zeitung, welche diese Umfrage veroffentlicht, schreibt, dass die Neos trotzdieser Umfragewerte gute Chancen fur den Einzug in den Nationalrat (mindestens4%) haben, da die Schwankungsbreite sehr hoch ist. Ist diese Annahme richtig?Fuhre einen Hypothesentest durch und uberprufe die Hypothese mit Hilfe einesKonfidenzintervalls. Wahle dazu ein Konfidenzniveau von 0, 95%.

b) Worauf muss bei der Durchfuhrung einer derartigen Umfrage geachtet werden?

c) Ist es sinnvoll eine großere Umfrage durchzufuhren, damit das Ergebnis nochgenauer wird? Uberprufe dazu, wie sich das Intervall andert, wenn das n großerwird. Nimm hierfur an, dass die Anteile der Partein bei großerem n gleich bleiben.

20

Page 24: Statistische Tests

6.5.1 Losung

6.6 Wiederholung

Nach etwa einem Monat sollte der behandelte Stoff wiederholt werden, um eine Festigungzu vereinfachen. Dafur bietet sich zum Beispiel das Format

”Learning Snack“ an.

Kurz-URL:https://tinyurl.com/wh-statistikOriginal-URL:https://www.learningsnacks.de/share/4998/3a9cca71eed1008030cf6f9d2e96a061f1e0f227