Click here to load reader

J. Bortz/N. Döring: Forschungsmethoden und Evaluation

  • View
    0

  • Download
    0

Embed Size (px)

Text of J. Bortz/N. Döring: Forschungsmethoden und Evaluation

VO 6 SignifikanztestsJ. Bortz/N. Döring: Forschungsmethoden und Evaluation
(jeweils neueste Auflage) Springer, Berlin S. 463ff
Signifikanztests
Tests zur statistischen Überprüfung von Hypothesen heißen Signifikanztests. Der Signifikanztest
ermittelt die Wahrscheinlichkeit, mit der das gefundene empirische Ergebnis sowie Ergebnisse,
die noch extremer sind als das gefundene Ergebnis, auftreten können, wenn die Populationsver-
hältnisse der Nullhypothese entsprechen. Ist diese Wahrscheinlichkeit kleiner als α%, bezeichnen
wir das Stichprobenergebnis als statistisch signifikant. Für α sind per Konvention die Werte 5%
bzw. 1% festgelegt. Stichprobenergebnisse, deren bedingte Wahrscheinlichkeit bei Gültigkeit der
H0 kleiner als 5% ist, sind auf dem 5%-(Signifikanz-)Niveau signifikant (kurz: signifikant) und
Stichprobenergebnisse mit Wahrscheinlichkeiten kleiner als 1% sind auf dem 1%-(Signifikanz-)
Niveau signifikant (kurz: sehr signifikant).
Ein (sehr) signifikantes Ergebnis ist also ein Ergebnis, das sich mit der Nullhypothese praktisch
nicht vereinbaren läßt. Man verwirft deshalb die Nullhypothese und akzeptiert die Alternativ-
hypothese. Andernfalls, bei einem nicht-signifikanten Ergebnis, wird die Nullhypothese beibehal-
ten und die Alternativhypothese verworfen.
Dies ist die Kurzform des Aufbaus eines Signifikanztests. Seine Vor- und Nachteile werden
deutlich, wenn wir die mathematische Struktur eines Signifikanztests etwas genauer betrachten.
Stichprobenkennwerteverteilungen
möglichst die gesamte hypothesenrelevante Information einer Untersuchung zusammenfaßt.
Hierbei kann es sich - je nach Art der Hypothese und nach Art des Skalenniveaus der Variablen -
um Mittelwertsdifferenzen, Häufigkeitsdifferenzen, Korrelationen, Quotienten zweier Varianzen,
Differenzen von Rangsummen, Prozentwertdifferenzen o. ä. handeln. Unabhängig von der Art
des Kennwertes gilt, daß die in einer Untersuchung ermittelte Größe des Kennwertes von den
spezifischen Besonderheiten der zufällig ausgewählten Stichprobe(n) abhängt. Mit hoher
Wahrscheinlichkeit wird der untersuchungsrelevante Kennwert bei einer Wiederholung der
Untersuchung mit anderen Untersuchungsobjekten nicht exakt mit dem zuerst ermittelten Wert
übereinstimmen. Der Kennwert ist stichprobenabhängig und wird damit wie eine Realisierung
einer Zufallsvariablen behandelt.
Zieht man aus einer Population theoretisch unendlich viele gleich große Stichproben und
berechnet für jede Stichprobe einen Kennwert (z. B. den Stichprobenmittelwert), so verteilen sich
diese Stichprobenkennwerte in bekannter Weise um den zugehörigen Populationsparameter (z. B.
Populationsmittelwert). Eine solche theoretische (d.h. mathematisch ableitbare) Stichproben-
kennwerteverteilung aller möglichen Stichprobenergebnisse dient dazu, ein einzelnes empirisches
Stichprobenresultat einschätzen zu können.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 2
Die Feststellung, ob es sich bei dem in einer Untersuchung gefundenen Kennwert um einen „ex-
tremen" oder eher um einen „typischen" Kennwert handelt, ist nur möglich, wenn die Dichte-
funktion (bei stetig verteilten Kennwerten) bzw. die Wahrscheinlichkeitsfunktion (bei diskret ver-
teilten Kennwerten) der Zufallsvariablen „statistischer Kennwert" bekannt ist. Die Verteilung
eines statistischen Kennwertes bezeichneten wir als Stichprobenkennwerteverteilung („Sampling
Distribution"). Diese Verteilung ist unbekannt, solange wir die wahren Populationsverhältnisse
(z. B. die Differenz zweier Populationsmittelwerte oder die Korrelation zweier Merkmale in der
untersuchten Population) nicht kennen.
onsparameter unbekannt sind, denn sonst würde sich ein Signifikanztest erübrigen. Über die
„wahren" Populationsparameter können wir bestenfalls Vermutungen anstellen (z. B. die Diffe-
renz zweier Populationsmittelwerte sei vom Betrage a oder die Populationskorrelation zweier
Merkmale sei b). Wir können aber auch behaupten - und dies ist der übliche Fall - die Nullhypo-
these sei richtig, d. h. es gelten die mit der Nullhypothese festgelegten Populationsverhältnisse.
Statistische Tabellen
Damit stehen wir vor der Aufgabe, herauszufinden, wie sich ein Stichprobenkennwert (z. B. die
Differenz zweier Stichprobenmittelwerte oder die Stichprobenkorrelation verteilen würde, wenn
die Populationsverhältnisse durch die HO charakterisiert sind. Dies ist ein mathematisches
Problem, das für die gebräuchlichsten statistischen Kennwerte gelöst ist. Sind in Abhängigkeit
von der Art des statistischen Kennwertes unterschiedliche Zusatzannahmen erfüllt (diese finden
sich in Statistikbüchern als Voraussetzungen der verschiedenen Signifikanztests wieder), lassen
sich die Verteilungen von praktisch allen in der empirischen Forschung gebräuchlichen
Kennwerten auf einige wenige mathematisch bekannte Verteilungen zurückführen. Werden die
statistischen Kennwerte zudem nach mathematisch eindeutigen Vorschriften transformiert (dies
sind die Formeln zur Durchführung eines Signifikanztests), resultieren statistische Testwerte
(z.B. t-Werte, z-Werte, χ2-Werte, F-Werte etc.), deren Verteilungen (Verteilungsfunktionen) in
jedem Statistikbuch in tabellarischer Form aufgeführt sind.
Signifikante Ergebnisse
Der Signifikanztest reduziert sich damit auf den einfachen Vergleich der Größe des empirisch
ermittelten, statistischen Testwertes mit demjenigen Wert, der von der entsprechenden
Testwerteverteilung α% (α=1% oder α=5%) abschneidet. Ist der empirische Testwert größer als
dieser „kritische" Tabellenwert, beträgt dessen Wahrscheinlichkeit sowie die Wahrscheinlichkeit
aller extremeren Testwerte unter der Annahme, die Ho sei richtig, weniger als α%. Das Ergebnis
ist statistisch signifikant (α.<5%) bzw. sehr signifikant (α<1%).
Wir fragen also nach der Wahrscheinlichkeit, mit der Stichprobenergebnisse auftreten können,
wenn die Nullhypothese gilt. Wir betrachten nur diejenigen extremen Ergebnisse, die bei
Gültigkeit der Nullhypothese höchstens mit einer Wahrscheinlichkeit von 5% (1%) vorkommen.
Gehört das gefundene Stichprobenergebnis zu diesen Ergebnissen, ist das Stichprobenergebnis
„praktisch" nicht mit der Nullhypothese zu vereinbaren. Wir entscheiden uns deshalb dafür, die
Nullhypothese abzulehnen und akzeptieren die Alternativhypothese als Erklärung.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 3
Ein signifikantes Ergebnis sagt also nichts über die Wahrscheinlichkeit von Hypothesen aus, son-
dern „nur" etwas über die Wahrscheinlichkeit von statistischen Kennwerten bei Gültigkeit der
Nullhypothese. Die Hypothesen (die H0 oder die H1) sind entweder richtig oder falsch, d.h. auch
unsere Entscheidung, bei einem signifikanten Ergebnis die H0 zu verwerfen, ist entweder richtig
oder falsch. Bei dieser Entscheidungsstrategie riskieren wir, daß mit 5% (oder 1%) Irrtums-
wahrscheinlichkeit eine tatsächlich richtige H0 fälschlicherweise verworfen wird.
Bei einem Signifikanztest geht man zunächst davon aus, die Nullhypothese würde in der
Population gelten. Unter dieser Annahme läßt sich für den Populationsparameter, der in der
Nullhypothese angesprochen ist, eine Stichprobenkennwerteverteilung konstruieren, die angibt,
mit welcher Wahrscheinlichkeit mögliche Stichprobenergebnisse auftreten können. Mit dieser
Stichprobenkennwerteverteilung (bzw. Ho-Verteilung, Ho-Modell) wird nun das konkret in der
Untersuchung ermittelte Stichprobenresultat verglichen.
- Ist das gefundene Stichprobenergebnis ein wahrscheinliches Ergebnis, so steht es in Einklang
mit der Ho.
extrem selten auftreten kann, entschließt man sich, die Nullhypothese als unplausibel zu
verwerfen. Dies geschieht aber nur, wenn die Wahrscheinlichkeit für das Auftreten des gefunde-
nen oder eines extremeren Ergebnisses unter Gültigkeit der Ho sehr klein, nämlich kleiner als 5%
ist. Ein solches, im Sinne der Ho unplausibles Ergebnis wird als „signifikantes Ergebnis"
bezeichnet. Bei einem signifikanten Ergebnis entscheidet man sich dafür, die Ho abzulehnen und
die H1 anzunehmen.
Der Gedankengang des Signifikanztests sei wegen seiner Bedeutung nochmals anhand eines Bei-
spiels erläutert. Wir interessieren uns für die psychische Belastbarkeit weiblicher und männlicher
Erwachsener und formulieren als Ho: µ1 = µ2 und als H1: µ1 ≠ µ2
(µ1 ist der Populationsmittelwert weiblicher Personen und µ2 ist der Populationsmittelwert
männlicher Personen).
Psychische Belastbarkeit wird mit einem psychologischen Test gemessen, der bei einer Zufalls-
stichprobe von n1 männlichen Personen im Durchschnitt - so unsere operationale Hypothese -
anders ausfallen soll als bei einer Zufallsstichprobe von n2 weiblichen Personen (ungerichtete,
unspezifische Hypothese). Der für die Überprüfung von Unterschiedshypothesen bei zwei Stich-
proben verwendete statistische Kennwert ist die Mittelwertsdifferenz 1x – 2x . Dieser statistische
Kennwert wird nach folgender Gleichung in einen statistischen Testwert transformiert:
21
21
Den Ausdruck im Nenner bezeichnen wir als (geschätzten) Standardfehler der Mittelwerts-
differenz. Der statistische Testwert t folgt bei Gültigkeit der Ho einer t-Verteilung (mit n1 + n2 – 2
Freiheitsgraden), wenn das Merkmal „psychische Belastbarkeit" in beiden Populationen normal-
verteilt und die Merkmalsvarianz σ2 (“Sigma”) in beiden Populationen gleich ist (bzw. die
geschätzten Populationsvarianzen homogen sind). Die t-Verteilung geht für n1 + n2 > 30 in die
Standardnormalverteilung über.
Gerichtete Hypothesen (Die psychische Belastbarkeit männlicher Personen ist größer als die
psychische Belastbarkeit weiblicher Personen) werden anhand dieser Verteilung über einseitige
und ungerichtete Hypothesen (Die psychische Belastbarkeit männlicher und weiblicher
Personen unterscheidet sich) über zweiseitige Tests geprüft.
Annahme- und Ablehnungsbereich
der Ho bei zweiseitigem Test
Bei einem zweiseitigen Test markieren die Werte t(α/2) und -t(α/2) diejenigen t-Werte einer t-
Verteilung, die von den Extremen der Verteilungsfläche jeweils α/2% abschneiden. Empirische t-
Werte, die in diese Extrembereiche fallen, haben damit insgesamt eine Wahrscheinlichkeit von
höchstens α%, vorausgesetzt, die Nullhypothese ist richtig. Da derart extreme Ergebnisse nur
schlecht mit der Annahme, die Ho sei richtig, zu vereinbaren sind, verwerfen wir die Ho und
akzeptieren die H1: µ1 ≠ µ2 (Die psychische Belastbarkeit männlicher und weiblicher Personen
unterscheidet sich). Befindet sich der empirisch ermittelte t-Wert jedoch im Annahmebereich der
Ho, dann sind das Stichprobenergebnis und die Nullhypothese besser miteinander zu vereinbaren
und wir behalten die Ho: µ1 = µ2.
Annahme- und Ablehnungsbereich
der Ho bei einseitigem Test
Die Überprüfung einer gerichteten H1: µ1 > µ2 erfordert einen einseitigen Test. Wir verwerfen
die Nullhypothese und akzeptieren die Alternativhypothese, wenn der empirische t-Wert größer
ist als derjenige t-Wert, der von der t-Verteilung „einseitig" α% abschneidet. Ist der empirische t-
Wert jedoch kleiner als der kritische Wert tα, kann die H, nicht angenommen werden (nicht-
signifikantes Ergebnis).
Anselm Eder (2003): Statistik für Sozialwissen-
schaftler, Skriptum, facultas, S. 131
Der t - Test Der Grundgedanke des t-Tests ist die Fragestellung, ob zwei Mittelwerte ein- und derselben
Variablen, die in zwei Gruppen (etwa: zwei Stichproben) erhoben worden sind, sich voneinander
„nur zufällig“ unterscheiden, oder ob diese Unterschiede eher auf „etwas systematisches“ zurück-
zuführen sind: z.B. darauf, dass es sich eben doch nicht um zwei zufällig gezogene Stichproben
handelt, sondern eher um zwei Auswahlverfahren, die systematisch einmal kleinere, und einmal
größere Werte der betrachteten Variablen aussuchen. (Anmerkung isa hager: Auswahlverfahren
z.B. Geschlecht: durchschnittliches Einkommen von Männern und Frauen)
So könnte etwa der Mittelwert der Körpergröße von Soldaten in einer Kaserne 168 cm sein, und
der von Soldaten einer anderen Kaserne 172 cm. Die Frage, die man stellen könnte, lautet:
wurden die Soldaten in den beiden Kasernen nach Größe rekrutiert, oder handelt es sich dabei
einfach um zufällige Unterschiede, die deshalb zustande kamen, weil die beiden Stichproben aus
der Grundgesamtheit aller österreichischen Wehrdienstpflichtigen sich eben zufällig um 4cm im
Durchschnitt unterschieden haben?
Das Instrumentarium, das wir dafür brauchen, unterscheidet sich nicht mehr sehr wesentlich von
den Elementen, die wir schon einerseits als Grundelemente jedes Signifikanztests beim Chi-
quadrat-Test, und andererseits beim Konfidenzintervall kennen gelernt haben. Zunächst müssen
wir wieder ein vernünftiges Prüfmaß konstruieren. Dabei wird natürlich der Unterschied
zwischen den beiden Mittelwerten eine Rolle spielen.
Aus dem Abschnitt über Konfidenzintervalle wissen wir schon, dass die
Standardabweichung eines Stichprobenmittelwertes n
x = ist.
Außerdem wissen wir, dass eine Zufallsvariable, von der wir ihren Erwartungswert abziehen, den
Erwartungswert 0 hat; dividieren wir sie noch durch ihre Standardabweichung, dann hat sie die
Standardabweichung 1.
Gemäß der Nullhypothese sind die Abweichungen der beiden Mittelwerte voneinander zufällig,
d.h. die Erwartungswerte für die beiden Mittelwerte (die Mittelwerte der zugehörigen
Grundgesamtheiten) sind gleich, oder sogar identisch. Somit ist die Größe
21
21
−= normalverteilt1, mit dem Erwartungswert 0 und der Standardabweichung 1.
Dass der Erwartungswert 0 ist, ergibt sich unmittelbar aus der Nullhypothese, gemäß der die
beiden Mittelwerte 1x und 2x gleich sind. Wenn wir daher unendlich viele Paare von Stichproben
ziehen, dann werden die Durchschnitte der Mittelwerte dieser beiden Stichproben gleich sein.
1 Genau genommen ist dieses Prüfmaß ist für größere Stichproben (größer als ca. 50 für beide Stichproben zusammen) annähernd normalverteilt. Für kleinere Stichproben hat GOSSET die zugehörige Verteilung unter dem Namen „t-Verteilung“ berechnet. Ähnlich wie die χ2-Verteilung ist auch die t-Verteilung durch Freiheitsgrade charakterisiert. Die Anzahl der Freiheitsgrade ist n1+n2-2, wobei n1 und n2 die Größen der beiden Stichproben sind.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 6
Aus der Vorlesung:
ausgegangen, dass die Nullhypothese (H0) in der Grundgesamtheit (Population) gilt. Unter dieser
Annahme lässt sich für die Population eine Stichprobenkennwerteverteilung konstruieren, die
angibt, mit welcher Wahrscheinlichkeit mögliche Stichprobenergebnisse auftreten können. Mit
dieser Stichprobenkennwerteverteilung wird nun das konkret in der Untersuchung ermittelte
Stichprobenresultat verglichen. Ist das gefundene Stichprobenergebnis ein wahrscheinliches
Ergebnis, so steht es in Einklang mit der H0. Ist das Stichprobenergebnis ein unwahrscheinliches
Ergebnis, das unter Gültigkeit der H0 nur extrem selten auftreten kann, wird die Nullhypothese
als unplausibel verworfen. Ein solches, im Sinne der H0 unplausibles Ergebnis wird als
„signifikantes Ergebnis” bezeichnet (H0 wird abgelehnt und H1 wird angenommen).
Signifikanztests sind nur sinnvoll bei Zufallsstichproben. Je nach Signifikanztest können weitere
Voraussetzungen erforderlich sein (z.B. metrisches Skalenniveau, Normalverteilung).
Vorgehen
2. Ermittlung einer statistischen Prüfgröße.
3. Festlegung des Signifikanzniveaus (üblicherweise 5%-Niveau) und bestimmen der
Wahrscheinlichkeit der Prüfgröße anhand der zugehörigen Wahrscheinlichkeitsverteilung
derselben (in Tabellen nachzulesen bzw. macht SPSS automatisch).
4. Annahme der H1, wenn Irrtumswahrscheinlichkeit kleiner <0,05, ansonsten wird H0 vorläufig
beibehalten.
1.
H1 annehmen.
Fragestellung
Einseitige Fragestellung: Wenn die Richtung des vermuteten Zusammenhangs angegeben werden kann (z.B. x x1 2< ).
Fehlerarten
Fehler 1. Art (α): H0 wird irrtümlich abgelehnt, d.h. eine falsche H1 wird angenommen. Fehler 2. Art (β): H0 wird irrtümlich beibehalten, d.h. eine richtige H1 wird abgelehnt.
Fehlerarten
Grundgesamtheit/Population
Unterschied zwischen Prüfgröße und Signifikanz
Grundsätzlich wird bei jedem statistischen Test zwischen der Prüfgröße (z.B. der Chi-Quadrat-
Wert) und der Signifikanz der Prüfgröße unterschieden. Während die Prüfgröße Chi-Quadrat
theoretisch Werte bis unendlich annehmen kann, liegt die Signifikanz (=Wahrscheinlichkeit
der Prüfgröße bei angenommener Unabhängigkeit) immer zwischen 0 und 1.
Signifikanz • ein Wert nahe bei 0 bedeutet:
der berechnete Wert der Prüfgröße ist bei angenommener Unabhängigkeit sehr unwahrscheinlich ist dieser Wert gleich oder kleiner als das gewählte Signifikanzniveau (üblicherweise 0,05 oder 0,01), dann wird konventionell die H0 verworfen und die H1 (Annahme von Abhängigkeit oder Zusammenhang) angenommen;
• ein Wert nahe bei 1 bedeutet: der berechnete Wert der Prüfgröße ist bei angenommener Unabhängigkeit sehr wahrscheinlich ist dieser Wert größer als das gewählte Signifikanzniveau (üblicherweise 0,05 oder 0,01), dann wird konventionell die H0 (Annahme von Unabhängigkeit oder keinem Zusammenhang) beibehalten;
VO Statistik für LinguistInnen - HAGER - Signifikanztests 8
Übersicht über die wichtigsten Signifikanztests
VO Statistik für LinguistInnen - HAGER - Signifikanztests 9
VO Statistik für LinguistInnen - HAGER - Signifikanztests 10
Entscheidungsbaum
Im Folgenden sollen die verschiedenen Testverfahren kurz besprochen werden. Es gibt noch sehr
viel mehr Testverfahren, hier werden lediglich die wichtigsten angeführt.
χ2 - Test
Test auf Unabhängigkeit zweier Merkmale. Der χ2 - Test kann bei nominal- und ordinalskalierten
Variablen verwendet werden. Der Test wird bei Kreuztabellen in sinnvoller, der Fragestellung
entsprechender Kategorisierung angewandt. Logik: tatsächliche und erwartete Zellenhäufigkeiten
werden miteinander verglichen, die Prüfgröße Chi-Quadrat misst diese Abweichung zur
Unabhängigkeit.
besteht kein Zusammenhang zwischen den beiden Variablen in der
Grundgesamtheit.
)1)(1( 2
1 1
Kolmogorov-Smirnov-Test (bei einer Stichprobe)
Test, ob die Verteilung einer Variablen in der Grundgesamtheit mit einer theoretischen Verteilung
übereinstimmt. Es wird in der Praxis Normal- und Gleichverteilung getestet. Das dahinterliegende
Verfahren ist wieder die Chi-Quadrat-Logik (Vergleich tatsächlicher mit erwarteten Häufigkeiten).
Nullhypothese: Es besteht kein Unterschied zwischen der empirischen und der theoretischen
Verteilung. Bei diesem Test besteht der Sonderfall, dass unsere „Wunschhypothese“ die
Nullhypothese ist.
Dmax ist die maximale absolute Differenz der kumulierten Häufigkeiten.
Weiterführende Literatur: Bortz/Lienert (1998):
Kurzgefasste Statistik für die klinische Forschung, Springer, Berlin, S. 67 ff und 203 ff
VO Statistik für LinguistInnen - HAGER - Signifikanztests 13
t-Test auf Gleichheit der Mittelwerte von zwei unabhängigen Stichproben
Test auf Gleichheit der Mittelwerte. Sollte nur verwendet werden, wenn echte metrische Variablen
analysiert werden. Die Variablen sollten zudem normalverteilt sein. Dies kann mit dem
Kolmogrov-Smirnov-Test überprüft werden. Diese Überprüfung kann ausbleiben, wenn der
Stichprobenumfang der beiden Subgruppen n > 30 ist, weil dann von einer Normalverteilung
ausgegangen wird.
Nullhypothese: Die Mittelwerte in den zwei Stichproben (Subgruppen der Bevölkerung) sind gleich, d.h. x x1 2= oder x x1 2 0− = .
Hier gibt es zwei Berechnungsformeln für die Prüfgröße t, einmal wenn die Varianzen der Variable
der beiden zu vergleichenden Gruppen/Stichproben gleich/homogen sind, einmal wenn sie
ungleich/heterogen sind. Dies ist mit dem F-Test (Leven´s-Test auf Homogenität der Varianzen) zu
überprüfen. Je nach Ergebnis ist eine der beiden Formeln anzuwenden:
Prüfgröße t unter der Nullhypothese:
falls Varianzen gleich:
Im SPSS werden die Testergebnisse beider Formeln ausgewiesen. Anhand des ebenfalls
ausgewiesenen Levene´s-Test ist zu entscheiden, welches Testergebnis interpretiert wird.
Varianzanalyse
muss metrisch und normalverteilt sein, die Gruppenvariable ist nominal oder ordinal. Das
Testverfahren ist ein F-Test: F = erklärte Varianz / Fehlervarianz ;
Erklärte Varianz = Streuung der Gruppenmittelwerte um den Gesamtmittelwert (between groups)
Fehlervarianz = Streuung der Einzelwerte um den jeweiligen Gruppenmittelwert (within groups);
Je größer die Prüfgröße F, desto größer die erklärte Varianz. Signifikanz wird anhand der F-
Verteilung überprüft.
und: gut beschrieben bei Jürgen Bortz: Statistik für Sozialwissenschaftler, S. 225 ff
t x x
z R R
Ehepaaren, Vergleich des sozialen Status zwischen Elternteil-Kind, Vorher-Nacher-Messungen.
Wie den t-Test bei unabhängigen Stichproben, sollte man auch diesen Test nur verwenden, wenn
echte metrische Variablen vorliegen.
Abweichung zwischen Ehemann/-frau; Kind/Elternteil, vorher/nachher) ist 0.
Prüfgröße t unter der Nullhypothese: D .... mittlere Differenz
U-Test auf Gleichheit der Verteilung bei zwei unabhängigen Stichproben
Mann-Whitney-U-Test auf Gleichheit der Rangsummen bzw. mittleren Ränge. Der U-Test kann ab
Daten mit ordinalem Skalenniveau verwendet werden.
Wenn metrische Daten vorliegen, die nicht normalverteilt sind bzw. die beiden Gruppen zu kleine
Fallzahlen haben, dann ist der U-Test dem t-Test vorzuziehen.
Nullhypothese: Die Variable hat in beiden Grundgesamtheiten (Gruppen in der Bevölkerung)
die gleiche Verteilung.
R = mittlerer Rang
Wilcoxon-Test bei zwei verbundenen Rängen (zwei gepaarten oder abhängigen Stichproben)
Kruskal-Wallis-Test: bei mehreren unabhängigen Stichproben
Friedman-Test: bei mehreren abhängigen Stichproben
Gute Übersicht bei: Janssen/Laatz: Statistische Datenanalyse mit SPSS und Felix Brosius: SPSS 13 Professionelle Statistik, jeweils neueste Auflage, Kapitel Nicht-parametrische Tests;
VO Statistik für LinguistInnen - HAGER - Signifikanztests 15
Aus Materialien von isa hager:
Zufall oder Nicht-Zufall? – das ist hier die Frage!
Der Zweck eines Signifikanztests ist es, Gesetzmäßigkeiten, die wir in Form der
Alternativhypothesen formulieren, zu erkennen. Nachdem wir nun einige Signifikanztests und
statistische Verfahren kennen-gelernt haben, soll das Prinzip der Signifikanztestung nochmals
erläutert werden.
Bei jedem statistischen Test erhalten wir ein Prüfmaß, welches sich aus den vorgestellten
Formeln ergibt. Das Prüfmaß ist immer ein Maß dafür, wie stark die von uns postulierte
Gesetzmäßigkeit zutrifft - also etwa ein Mittelwertunterschied wie beim t-Test, der Unterschied
zwischen tatsächlichen und erwarteten Häufigkeiten beim Chi2-Test, die durchschnittliche
Abweichung eines Messwerts bei zwei Messzeitpunkten, der Korrelationskoeffizient von zwei
Variablen… und so weiter und so fort…
Zu diesem Prüfmaß erhalten wir weiters die Wahrscheinlichkeit für dessen Zustandekommen,
wenn wir in einer Welt des totalen Zufalls leben würden. Oder anders gesagt: Die Signifikanz sagt
uns, wie wahrscheinlich es ist, genau dieses Prüfmaß zu erhalten, wenn es keinen Zusammenhang
gibt.
Die Welt des Zufalls hat einen Vorteil: Der Zufall ist berechenbar, und wir können genau
angeben, wie das Prüfmaß aussieht, wenn der Zufall herrscht. Aus dieser Welt des Zufalls
stammen die "Zufalls-Verteilungen": Wahrscheinlichkeitsverteilungen wie die Normalverteil-
ung und die Chi2-Verteilung (quadrierte Normalverteilung), die wir bereits kennengelernt haben.
Weitere sind:
Für Prüfmaß t
Für Prüfmaß F
… und viele andere. Für alle gilt: Bei genügend df gehen sie alle in eine Normalverteilung über! (vergleiche auch die wunderschöne χ2-Verteilung von Seite 63! = quadrierte Normalverteilung)
VO Statistik für LinguistInnen - HAGER - Signifikanztests 16
Freiheitsgrade (df): Was bedeutet das? Die Freiheitsgrade definieren immer die Fallzahl in der
unter-suchten Gruppe oder die Anzahl der untersuchten Gruppen minus 1. Ein Fall wird
abgezogen, weil der "letzte" Fall vorherbestimmt werden kann. Überlege: Wenn ich den
Notendurchschnitt einer Prüfung und die Noten von 9 Prüflingen weiß, dann ist die Note des 10.
Prüflings (Hubsi Huber) durch die anderen festgelegt. Die Note von Hubsi Huber ist demnach
nicht mehr frei (vom Zufall) wählbar.
„The Art of Fehler“ oder: Die widerspenstige Zähmung des Zufalls:
Alpha-Fehler: Die bei einem Test berechnete Signifikanz ist der Alpha-Fehler. Wir testen, wie
hoch das Risiko ist, einen falschen Zusammenhang zu behaupten, den es gar nicht gibt. Den
Alpha-Fehler können wir berechnen, weil - wie gesagt - der Zufall berechenbar ist, und der Alpha-
Fehler angibt, inwieweit das Ergebnis für den Zufall spricht. Wenn die WS für den Zufall kleiner
als 5% ist (α), dann gehen wir davon aus, dass nicht der Zufall sondern die Gesetzmäßigkeit
"herrscht."
Beta-Fehler: Schwieriger ist es beim Beta-Fehler, denn der Beta-Fehler basiert auf der Annahme,
dass es einen Zusammenhang in der Grundgesamtheit gibt, und wir aber diesen Zusammenhang in
unserer Stichprobe nicht nachweisen konnten. Für den Beta-Fehler brauchen wir also die
Wahrscheinlichkeits-verteilung für das exakt geltende Prüfmaß in der Grundgesamtheit, das wir
aber nicht wissen! Daher können wir den Beta-Fehler nur schätzen. Standardmäßig wird ein Beta-
Fehler von 20% angenommen.
Hier die hypothetischen Verteilungen für das Prüfmaß t in der Grundgesamtheit (tGG):
-4…