View
216
Download
0
Category
Preview:
Citation preview
Guttenberger/Tausz/Härtel Elemente der Statistik
Inhalt
1 WAS IST UND WOZU STATISTIK? 5
2 WICHTIGE GRUNDBEGRIFFE 8
2.1 Grundgesamtheit, Stichprobe 8
2.2 Gewinnung von Stichproben 8
2.3 Variable, Skalen 11
2.4 Parameter und Statistiken 12
2.5 Zahl der Elemente 13
2.6 Verteilungen 13
2.7 Graphische Darstellung 16
3 MITTELWERTE I: DAS ARITHMETISCHE MITTEL 20
3.1 Berechnung aus Einzelwerten 20
3.2 Klassifizierte Daten 21
3.3 Lineare Transformation 24
4 MITTELWERTE II 26
4.1 Der Median 26
4.2 Das Dichtemittel 28
4.3 Das geometrische Mittel 29
4.4 Das harmonische Mittel 30
4.5 Kumulierte Mittelwerte 30
5 WICHTIGE RECHENREGELN I 34
5.1 Signifikante Zahlen 34
5.2 Über das Runden 35
5.3 Fehlerfortpflanzung 38
5.4 Rechenkontrolle 38
6 DIE NORMALVERTEILUNG 39
6.1 Der Begriff 39
6.2 Die Eigenschaften der Normalverteilung 40
6.3 Prüfung auf Normalität 44
6.4 Normalisierende Transformationen 46
6.5 Der zentrale Grenzwertsatz 48
7 STREUMAßE I 50
7.1 Die Begriffe 50
7.2 Berechnung von Varianz und Standardabweichung 50
7.3 Berechnungsbeispiele 51
7.4 Standardfehler und Spannweite: Grobschätzung von s 55
7.5 Der Variationskoeffizient 56
7.6 Graphische Darstellung 57
8 WICHTIGE RECHENREGELN II 58
8.1 Kumulierung von x s 58
8.2 Die Grundrechnungsarten mit Standardabweichungen 59
9 STREUMAßE II 60
9.1 Die Spannweite 60
Guttenberger/Tausz/Härtel Elemente der Statistik
9.2 Die mittlere Abweichung 60
9.3 Quartile und Perzentile 61
9.4 Standardfehler des Medians 63
10 ÜBER VERTRAUENSBEREICHE 64
10.1 Der Standardfehler des Mittelwertes 64
10.2 Der Vertrauensbereich des Mittelwertes 65
10.3 Der Schluß auf die Grundgesamtheit 65
10.4 Vertrauensbereich von s und VK 67
10.5 Der Vertrauensbereich des Medians 67
10.6 Ausreißer 68
11 ALLGEMEINES ZUR BEURTEILENDEN STATISTIK 70
11.1 Null- versus Alternativhypothese 70
11.2 Abgekürzte Angabe von Signifikanzen 71
12 INTERVALLSCHÄTZUNG I 73
12.1 Vorbemerkungen 73
12.2 Der z-Test 73
12.3 Vergleich von 2 Stichproben 75
13 INTERVALLSCHÄTZUNG II 78
13.1 Wozu t-Verteilung? 78
13.2 Die t-Verteilung 78
13.3 t-Test bei gleichen Varianzen 80
13.4 t-Test mit ungleichen Varianzen 81
13.5 Schnellschätzung nach WEIR 82
13.6 Schnellverfahren nach LORD 82
13.7 Der Vertrauensbereich von t 83
13.8 Die kleinste signifikante Differenz 83
13.9 Vergleich paarweise geordneter Stichproben 84
14 INTERVALLSCHÄTZUNG III 86
14.1 Der U-Test nach MANN & WHITNEY 86
14.2 Unabhängige Stichproben 88
14.3 Gepaarte Stichproben, der Vorzeichentest 91
14.4 Vergleich relativer Häufigkeiten 92
15 VERGLEICH VON VARIANZEN 95
15.1 Der F-Test 95
16 DER CHI2 - TEST 97
16.1 Was kann und was ist X2? 97
16.2 Gehört eine Stichprobe einer Grundgesamtheit an? (Streuungstest) 99
16.3 Stimmt die Beobachtung mit der Erwartung überein? (Anpassungstest) 99
16.4 Hatte eine Behandlung Erfolg? (Homogenitätstest) 101
16.5 Der Mehrfelder-Test 102
16.6 Signifikanz von Stichproben (eine Anwendung des Addtitionstheorem) 106
17 REGRESSION 108
17.1 Wichtige Begriffe 108
17.2 Die Regressionsgerade 109
Guttenberger/Tausz/Härtel Elemente der Statistik
17.3 Das Bestimmtheitsmaß 111
17.4 Standardabweichungen 112
17.5 Extrapolation, Linearität 112
18 KORRELATIONEN I 114
18.1 Der Korrelationskoeffizient 114
18.2 Die Berechnung des Korrelationskoeffizienten 114
18.3 Das Bestimmtheitsmaß 118
18.4 Signifikanz des Korrelationskoeffizienten 118
18.5 Unterschied zwischen zwei Korrelationskoeffizienten 118
18.6 Korrelation zu dritt 119
19 KORRELATIONEN II 121
19.1 Rangkorrelation nach SPEARMAN 121
19.2 Rangkorrelation 'KENDALs τ' 123
20 WEITERFÜHRENDE HINWEISE 126
21 ANHANG I: SYMBOLE 128
21.1 Lateinische Schriftzeichen 128
21.2 Griechische Schriftzeichen 129
21.3 Einige sonstige Zeichen 129
22 ANHANG II: LITERATUR 130
23 INDEX 133
1 Was ist und wozu Statistik Seite - 5 -
1 Was ist und wozu Statistik? Das Wesen der Dinge ist die Zahl.
PYTHAGORAS
Von einem solch mystischen Zahlenbegriff ist man schon im Altertum abge-
rückt. Spätestens seit GALILEI („Messen, was meßbar ist ...“) gelten Größe, Ge-
wicht, Zeit und durch Zahlen ausdrückbare qualitative Eigenschaften als wesentli-
che Merkmale aller Dinge.
Nun ist aber jede Messung und selbst Zählung und jede darauf gegründete
Folgerung unvermeidlich mit Fehlern behaftet. Ursachen von Fehlern sind:
• Unvermeidliche Meßfehler; sie sind meist klein und pendeln um einen Mittel-
wert; hierher gehören auch subjektive Fehler, z.B. bei Zeitnehmung mit Stopp-
uhr.
• in der Versuchsanstellung gelegene systematische Fehler; sie können erheb-
lich sein und tendieren meist in eine Richtung.
• Der Biologe hat zudem noch mit der Uneinheitlichkeit seines Materials zu
rechnen.
Auf Grund fehlerbehafteter Beobachtungen, Meßdaten etc. (allgemein „Er-
eignisse“) können keine absolut sicheren Aussagen gemacht werden. Man kann
aber die Wahrscheinlichkeit, mit der eine Aussage zutrifft, angeben.
Dazu ist es zunächst erforderlich, Aufschluß über die Beschaffenheit des
Beobachtungsmaterials zu gewinnen ........ beschreibende Statistik1.
Erst dann können die einschlägigen (kompetenten) statistischen Prüfver-
fahren (Tests) angewendet werden, ob Meßreihen der gleichen Gesamtheit zuzu-
ordnen sind oder sich unterscheiden, ob ein Ergebnis den Erwartungen entspricht,
ob eine Behandlung einen sicheren Erfolg gezeitigt hat, inwieweit eine Beobac-
tungsreihe von einer sich ändernden Größe besteht etc.
Seite - 6 - 1 Was ist und wozu Statistik
beurteilende (schließende) Statistik2.
Im biologischen Bereich ist für Statistik auch die Bezeichnung „Biometrie“
gebräuchlich (vgl. hiezu die Literaturübersicht am Schluß de Texteils).
Statistik ist nicht imstande, etwas zu erklären, aber sie gibt die Sicherheit
von Aussagen an und kann so zu neuem Wissen führen.
Damit gehört Statistik zur Stochastik, d.h. zu den auf Wahrscheinlichkeiten
gegründeten mathematischen Verfahren3.
Nur zu häufig begegnet man der Statistik mit auf Vorurteilen gegründetem
Mißtrauen. Das landläufigste Vorurteil ist, mit Statistik könne man alles beweisen
(oder auch: Statistik ist die wissenschaftliche Form der Lüge). Nicht zu bestreiten:
es soll schon vorgekommen sein, daß durch Manipulationen am Datenmaterial,
insbesondere durch Anwendung ungeeigneter Tests vorsätzlich für ein 'genehmes'
Ergebnis gesorgt wurde. Daran ist aber bestimmt nicht die Statistik an sich schuld,
sondern ausschließlich ihr Anwender. Daher die Grundregel vor allem anderen:
NIEMALS verschiedene Tests probieren, bis das Resultat 'paßt', sondern
nur solche auswählen, die zur Beantwortung der jeweiligen Frage kompe-
tent sind!1
Ein weiteres Vorurteil: Statistik sei überaus schwierig. Mag schon sein, daß
mancher, die ungeliebte Mathematik der Schule endlich losgeworden, Scheu oder
Horror empfindet, sich wieder mit Formeln herumzuschlagen. Auch ist zuzugeben,
daß das Aufarbeiten langer Zahlenkolonnen eine zeitraubende und ermüdende
Tätigkeit war. Heutzutage haben selbst einfache Taschenrechner elementare sta-
1Der Teminus „Statistik“ wird vom lat. status bzw. vom ital. stato = Staat hergeleitet. Aus-
gangspunkt der Statistik waren jedenfalls Volkszählungen zur Erhebung der Steuer- und Wehr-pflichtigen (in China schon seit dem 5. Jh v. Chr.).
2Nach der formalen Logik bedeutet „Urteilen“ die Verknüpfung zweier Aussagen (Prämis-sen), „schließen“ die Verknüpfung von Urteilen. De facto besteht dieser Unterschied bei den statis-tischen Verfahren, terminologisch wird jedoch weil wenig relevant, diesbezüglich kein Unterschied gemacht.
3Stochastik, griech. στοχαζειν (stocházeïn) = jagen, zielen, aber auch: erforschen, suchen, schätzen.
1 Was ist und wozu Statistik Seite - 7 -
tische Funktionen eingebaut, bessere bewältigen auch recht komplexe Rechen-
operationen. Vor allzu schematischer Anwendung solcher die Arbeit erleichternder
Hilfsmittel (diese Einführung nicht ausgenommen!) sei aber nachdrücklich ge-
warnt, das ausführlichere Lehrbuch wird dadurch keineswegs überflüssig! Ohne
ein Minimum an theoretischen Grundlagen (die in diesen Ausführungen nur ge-
streift werden können, gerät man nur zu leicht auf den Holzweg. Auch zur Statistik
führt kein Königsweg2!
Schließlich ist auch ein psychologischer Aspekt nicht ganz von der Hand zu
weisen. Das Urteil richtig angewandter Statistik ist unbestechlich. Da könnte es
schon passieren, daß sich ein Experiment doch nicht als ganz so überzeugend
erweist, wie es der Experimentator dem Augenschein nach vermeint, vielleicht
bricht nach statistischer Prüfung sogar eine schöne Hypothese zusammen. Aber
auch dafür kann die Statistik nichts; der Mensch dahinter sollte ihr dankbar sein,
daß sie ihn vor Fehlschlüssen, vielleicht sogar vor einer wenig angenehmen Wi-
derlegung von dritter Seite bewahrt.
Aus dieser Sicht ist es nur gerechtfertigt, wenn die Redaktionen angesehe-
ner wissenschaftlicher Zeitschriften Arbeiten, in denen die Resultate nicht statis-
tisch abgesichert sind, zurückweisen.
1Dies schließt nicht aus, daß eine Aufgabe auf verschiedene Weise gelöst werden kann,
wobei die Resultate nach der Stärke (≈ Empfindlichkeit) der benutzten Tests sogar etwas variieren können.
2Der Tyrann Hiero von Syrakus (eben jener, der mit seiner Krone Archimedes zu seinem berühmten „Heureka“ - Erlebnis und die Physik zum Archimedischen Prinzip verholfen hat), ver-langte von dem großen Mathematiker, er solle ihn auf einfache Weise Mathematik beibringen. Archimedes soll geantwortet haben: „Zur Mathematik führt kein Königsweg!“
Seite - 8 - 2 Wichtige Grundbegriffe
2 Wichtige Grundbegriffe
2.1 Grundgesamtheit, Stichprobe
Kann das gesamte Datenmaterial in die statistische Untersuchung einbezo-
gen werden, sprechen wir von Grundgesamtheit. Typisches Beispie l : Volkszählung. Ist die Grundgesamtheit zu umfangreich und/oder
grundsätzlich unzugänglich (bei biologischem Material die Regel) zieht man aus ihr Stichproben.
Repräsentative Stichproben spiegeln die Grundgesamtheit möglichst ge-
treu wieder; je größer die Stichprobe, desto besser wird sie der Grundgesamtheit
entsprechen (desto größer wird freilich der Rechenaufwand). Typisches Beispie l : die Mikrozensus-Erhebung, der Tummelplatz der Meinungsfor-
scher; es wird eine relativ kleine Gruppe von Personen, die nach Geschlecht, Altersaufbau, Beru-fen usw. der Bevölkerung entspricht, befragt und daraus auf die Gesamtbevölkerung 'hochgerech-net'.
Bei größeren Stichproben erhält man ein detaillierteres Bild, wenn man zu-
nächst nach einzelnen Kriterien (etwa Alter, Standort etc.) getrennt auswertet und
aus den dabei erhaltenen Werten das gemeinsame Mittel berechnet: geschichte-
te Stichprobe. Berechnung gemeinsamer (kumulierter) Mittelwerte siehe Kap.4, 5 u. 8 (Seiten 26, 34, 58).
2.2 Gewinnung von Stichproben
Am einfachsten ist die zufällige Entnahme aus der Grundgesamtheit durch
Abzählen: jedes 5., 10., oder „x-beliebigstes“ Element wird gezogen.
Nicht ganz unproblematisch: ist in der Grundgesamtheit eine Periode ver-
steckt, kann sie auch auf die Stichprobe „abfärben“.
Man kann die Elemente der Grundgesamtheit numerieren und durch Wür-
feln die Elemente für die Stichprobe entnehmen.
Statt mit Würfeln kann man die numerierten Einzelwerte auch nach sog. Zu-
fallszahlen entnehmen (oder „ziehen“; bei der Probenentnahme „vor Ort“, z.B. im
Freiland, spricht man von „Probenwerbung“). Tafeln mit Zufallszahlen finden sich
in jedem Statistikbuch.
2 Wichtige Grundbegriffe Seite - 9 -
Nachstehende Tabelle gibt einen Ausschnitt aus der Zufallszahlen-Tafel in
DOKUMENTA GEIGY wieder.
Tab. 1: Zufallszahlen
............ 62317 73705 32733 35321 80647 39731 61060 ............
............ 60099 50584 10961 57642 19101 30613 81549 ............
............ 58731 81250 57005 41467 29834 08059 22945 ............
............ 98693 92558 38394 84119 68486 17622 38053 ............
............ 79775 09779 08718 45882 17635 03252 00232 ............
............ ............ ............ ............ ............ ............ ............ ............ ............
Beginnend an einer beliebigen Stelle der Tafel geht man bei einer zweistel-
ligen Elementnummer in Zweierschritten (bei einer dreistelligen Numerierung in
Dreierschritten) weiter und entnimmt das so angezeigte Element; zu hohe oder
bereits gezogene Nummern werden übersprungen.
Taschenrechner haben häufig einen Zufallszahlengenerator eingebaut. Er
liefert aber keine echten Zufallszahlen, sondern über komplizierte Rechenwege
nicht vorhersagbare, aber im Grunde doch vorausbestimmte Zahlen. Solche
„Pseudozufallszahlen“ zur Probenentnahme zu benutzen, ist nicht unbedenklich.
Natürlich besteht auch z.B. unter Excel die Möglichkeit, Zufallszahlen zu
generieren und Proben zufällig zu ziehen:
=ZUFALLSZAHL()
erzeugt Zufallszahlen zwischen 0 und 1. Will man z.B. Zufallszahlen zwi-
schen 1 und 100 erzeugen, gibt man ein:
=ZUFALLSZAHL()*(b-a)+a
wobei a=kleinste Zahl des Bereichs=z.B. 1,
b=größte Zahl des Bereichs=z.B. 100; daher:
=ZUFALLSZAHL()*99+1
Will man ein ganzzahliges Ergebnis z.B. zwischen 1 und 100, bekommen,
gibt man folgende Funktion ein
=RUNDEN(ZUFALLSZAHL() *99+1;0)
Mit AutoAusfüllen (eine sehr praktische Funktion: ziehen Sie beim markier-ten Bereich das schwarze Quadrat unten rechts am Rahmen. Formeln, Zahlense-
Seite - 10 - 2 Wichtige Grundbegriffe
quenzen etc. werden automatisch generiert. Falls Sie mehr Information brauchen, rufen Sie die „Online-Hilfe“ in Excel zu diesem Thema auf!) kann man beliebig vie-le Zufallszahlen generieren.
Die Funktion zur Generierung von Zufallszahlen füllt einen Bereich mit un-
abhängigen Zufallszahlen aus, die einer von mehreren Verteilungen entnommen
wurden. Zufallszahlen werden vielfach in statistischen Simulationen angewandt.
Eine Anwendung für diese Funktion ist die Charakterisierung von Personen einer
Grundgesamtheit durch eine Wahrscheinlichkeitsverteilung. Sie können z.B. durch
eine Normalverteilung (siehe Kap. 6, Seite 39) die Grundgesamtheit anhand der
Körpergrößen von Personen oder durch eine Bernoulli-Verteilung (siehe Kap. ,
Seite ) mit zwei möglichen Ergebnissen die Grundgesamtheit der Ergebnisse beim
Hochwerfen einer Münze charakterisieren.
1. Wählen Sie aus dem Menü Extras den Befehl Analyse-Funktionen. Sollte der Befehl Analyse-Funktionen nicht im Menü Extras erscheinen, so
rufen Sie den Add-In-Manager..., Ebenfalls im Menü Extras auf und wählen das Optionsfeld Analyse-Funktionen an. Sind diese nicht anngeführt, müssen Sie das Setup-Programm ausführen, um die Analyse-Funktionen zu installieren.
2. Wählen Sie im Feld "Analyse-Funktion" die Funktion Stichprobenzie-hung.
3. Wählen Sie "OK". 4. Legen Sie den Eingabebereich, den Ausgabebereich und andere er-
forderliche Optionen fest. In den Feldern "Eingabe" und "Ausgabe" können Sie die Zellbereiche dadurch festlegen, daß Sie entweder einen Zellbezug in das betref-fende Feld eingeben oder im entsprechenden Feld klicken und dann im Tabellen-blatt den Zellbereich markieren.
Es ist ebenfalls möglich, Bezüge zu anderen Tabellenblättern in diese Fel-der einzugeben.
5. Wählen Sie das Verfahren der Stichprobenziehung. 6. Wählen Sie "OK".
Das Ergebnis der Stichprobenziehung erscheint in dem Zellbereich, den Sie
als Ausgabebereich definiert haben.
Bei der Versuchsplanung stellt man die Objekte nach bestimmten Kriterien
(Geschlecht, Alter, Entwicklungszustand usw.) zu möglichst homogenen 'Blöcken'
zusammen, innerhalb derer die zu prüfende Behandlung, durchgeführt wird. Kon-
trollgruppen sind wie die Versuchsgruppen zu behandeln, sie gelten als 'Nullbe-
handlung', insbesondere sollten sie von vergleichbarer Größe sein. Bei der Pla-
nung entscheidet sich bereits das Ergebnis eines Versuches!
2 Wichtige Grundbegriffe Seite - 11 -
Die Größe der Stichproben hängt von der voraussichtlichen Streuung der
Einzelwerte innerhalb der Blöcke und von der angestrebten Genauigkeit (vom zu-
lässigen Fehler) ab (∏ Kap. 10, Seite 64).
Bei Feldversuchen kann man den störenden Einfluß von Inhomogenitäten
zwischen den Parzellen minimieren, indem man die Felder dem Rösselsprung fol-
gend (zwei Felder vor, eines seitlich) numeriert. Das Bilden homogener Blöcke
nach Zufallskriterien nennt man Randomisierung.
Es ist kein Paradoxon, wenn blinder Zufall wie streng planmäßiges Vorge-
hen zum gleichen Ziel, möglichst homogene Blöcke führen: beide Verfahren sind
dem subjektiven Einfluß entzogen.
Trotz aller Zufälligkeit kann es vorkommen, daß in einer Stichprobe Ele-
mente mit stark abweichender Merkmalsausprägung gehäuft vorkommen; in Tab.
1 kann man unschwer derartige 'Nester' erkennen. Es empfiehlt sich, schon vor
der Probennahme festzulegen, wieviel derartige stark abweichende Exemplare in
einer Stichprobe toleriert werden.
Die 'Chaostheorie' lehrt, daß in jeder noch so zufälligen, 'ungeordneten'
Verteilung 'Keimzellen' von Ordnung zu finden sind.
Eine Tabelle, in der alle Zahlen gleich häufig und in exakt gleichen Abstän-
den vorkommen, ist nichts Zufälliges mehr, sondern bereits das Ergebnis einer
vordefinierten höheren Ordnung!
2.3 Variable, Skalen
Grundgesamtheiten wie Stichproben bestehen aus Elementen, auch Er-
eignisse, Beobachtungen, Meßdaten, allgemein als Variable bezeichnet. Korrekter, wenn auch umständlicher ist die Bezeichnung „Realisationen einer Zufallsvari-
ablen“. Die Variablen sind als Merkmalsträger der eigentliche Gegenstand statisti-
scher Operationen.
Variable können verschiedenen Skalen folgen.
• Nominalskalen: Gruppierung durch einfache Ja-Nein - Entscheidungen (Rau-
cher/Nichtraucher, Blutgruppen, Farben etc.).
Seite - 12 - 2 Wichtige Grundbegriffe
• Bei ordinalen Skalen tritt eine Quantifizierung nach Rängen („kleiner als .....
größer als“) oder nach frei gewählten Kriterien hinzu (Schulnoten, Skalierung 1 -
5 oder +, ++, +++ o.ä.).
• Metrische Skalen: Messungen, Skalenablesungen und Zählungen alller Art.
An Variablen unterscheidet man:
• stetige Veränderliche; Ablesungen an Skalen und Meßinstrumenten aller Art
(bei ausreichender Stellenanzahl in praxi auch digitale Anzeigen); jeder Zwi-
schenwert ist möglich.
• diskrete Veränderliche: Zählungen, nur ganze Zahlen sind möglich;
• Klassifizierte Veränderliche: in Klassen gruppierte Daten, die als diskrete Vari-
able behandelt werden;
• relative Häufigkeiten: meist in Prozenten ausgedrückte Häufigkeiten.
2.4 Parameter und Statistiken
Die Elemente (Variablen) einer Grundgesamtheit oder Stichprobe sind im
Bereich zwischen dem Minimal- und dem Maximalwert (= der Spannweite) verteilt.
Bei Grundgesamtheiten heißen die ihre Verteilung bestimmenden Größen
Parameter,
bei Stichproben nennt an sie
Statistiken1.
Die Parameter der Grundgesamtheiten werden mit griechischen Symbolen
bezeichnet, die Statistiken der Stichproben mit lateinischen.
Eine Grundgesamtheit (Stichprobe) ist durch folgende Parameter (Statisti-
ken) in den wesentlichen Eigenschaften beschrieben:
• die Zahl der Elemente (Fälle, Beobachtungen, Ereignisse, Meßdaten usw.),
allgemein der Variablen;∏ Kap. 2.5, Seite 13.
• die Verteilung der Elemente zwischen dem niedrigsten und dem höchsten Wert
(=innerhalb der Spannweite),∏ Kap. 2.6, Seite 13.
• durch einen geeigneten Mittelwert,∏ Kap. 3, Seite 20 und Kapitel 4, Seite 26.
2 Wichtige Grundbegriffe Seite - 13 -
durch ein geeignetes Streumaß, Kap. 7, Seite 50 und Kap. 9, Seite. 60
2.5 Zahl der Elemente
Die Elemente werden (bei Grundgesamtheiten wie Stichproben) mit x be-
zeichnet und als
x1, x2, x3 ..... xn
indiziert. xi steht allgemein für jedes mögliche x (i = individuals) ggfs. ergibt sich
seine Bedeutung aus Zusätzen in den Formeln.
Häufig werden bei Vergleichen mehrerer Stichproben deren Elemente mit x,
y und z unterschieden (vgl. hiezu auch „Die Grundrechnungsarten mit Standard-
abweichungen“, Seite 59.
Die Zahl der Elemente wird bei Grundgesamtheiten mit dem Symbol N be-
zeichnet2, bei Stichproben steht hiefür das Symbol n.
Bei klassifiziertem Material werden die Klassen einfach mit 1, 2, 3, 4 usf.
durchnumeriert oder durch ihre Klassenobergrenzen, häufig auch durch die Klas-
senmittel, gekennzeichnet ( Kap. 2.6, Seite 13). N bzw. n bedeutet auch hier
stets die Gesamtzahl der Einzelwerte (Elemente).
2.6 Verteilungen
• Die Verteilung der Elemente innerhalb der Spannweite (xmax .... xmin) kann derart
sein, daß jeder Wert gleich häufig vorkommt (Abb. 1 a):
Gleich- oder Rechteckverteilung:
Beispie l : Würfelspiele, diese Verteilung kommt im biologischen Bereich kaum vor, sie
wird daher in dieser Darstellung nicht weiter berücksichtigt.
• die Werte sind regellos zwischen Minimum und Maximum (= über die Spann-
weite) verteilt (Abb. 1b):
unregelmäßige Verteilung: Beispie l : Flächendeckende Messungen im Gelände (Quadratnetze), Frequenzzählun-
gen bei Vegetationsaufnahmen oder bei populationsbiologischen Untersuchungen.
1Man lasse sich nicht dadurch irritieren, daß „Statistik“ in zwei verschiedenen Bedeutungen
gebraucht wird, hier als dem „Parameter“ gleichgeordneter Begriff, dann aber als Bezeichnung für die gesamte in Rede stehende Disziplin.
2N ist in diesem Zusammenhang als großes griechisches N = Ny zu lesen
Seite - 14 - 2 Wichtige Grundbegriffe
• Die Häufigkeit der Elemente nimmt von einem zentralen Maximum mit zuneh-
mendem Abstand beidseitig annähernd symmetrisch ab, sodaß sich eine glo-
ckenförmige Verteilung ergibt (Abb. 1c):
(angenäherte) Normalverteilung. Wiederholungen von Messungen aller Art, Zählungen etc. Sozusagen der 'Idealfall' für den
Statistiker!
• Ähnlich Abb. 1c, aber unsymmetrisch,
schiefe Verteilung.
Verteilung mit steilem linken Ast und flacherem rechten Auslauf .... links-
schiefe Verteilung (positive Schiefe), Abb. 1d. Häufig z.B., bei Zell- oder Organgrößen.
Spiegelbildlich hiezu: flacher linker Anlauf mit steilem rechten Ast kenn-
zeichnet die seltene negative Schiefe .... rechtsschiefe Verteilung. Beispiel: Dosis-Wirkung-Kurven.
Gelegentlich treten,
• zwei- oder mehrgipflige Verteilungen auf (Abb. 1e). DNA-Gehalte bei Messungen an polyploiden Zellkernen, quantitative Merkmale an gene-
tisch uneinheitlichem Material. Vorliegen verschiedener Zellsorten; man denke auch an irrtümliche Vermengung von Proben!
• Der sehr seltene Fall einer
U-förmigen Verteilung (Abb. 1f) kann als Sonderfall einer zweigipfligen Verteilung angesehen werden. Allenfalls bei Nullpunktablesungen im Zuge polarisationsoptischer Messungen (Zucker-
refraktometer, Auslöschungsschiefe bei Kristallen, Fasern u. dgl.).
Wichtig!
Die Art der Verteilung bestimmt die Wahl der jeweils einschlägigen (kompe-
tenten) statistischen Tests.
2 Wichtige Grundbegriffe Seite - 15 -
a)
30 40 50 60 700
5
10
15
20
10 20
b)
0
5
10
15
20
25
30
35
40
45
50
10 20 30 40 50 60 70
c)
30 40 50 60 700
5
10
15
20
25
30
35
40
45
50
10 20
d)
0
5
10
15
20
25
30
35
40
45
50
10 20 30 40 50 60 70
e)
30 40 50 60 700
5
10
15
20
25
30
35
40
45
50
10 20
f)
0
5
10
15
20
25
30
35
40
45
50
10 20 30 40 50 60 70
Abb. 1: Typische Verteilungen: a: Gleich- (Rechteck-)verteilung; b: Unre-gelmäßige Verteilung; c: Angenäherte Normalverteilung; d: Linksschiefe Vertei-lung; e: Mehrgipfelige Verteilung; f: U-förmige Verteilung.
Nur auf annähernd normalverteilte Grundgesamtheiten/Stichproben (Abb.
1c) dürfen die auf der Normalverteilung aufgebauten Tests, sog. parametrische
Seite - 16 - 2 Wichtige Grundbegriffe
Tests angewendet werden (allenfalls auch Verteilungen, die in Normalverteilungen
transformiert werden können (Kap. 6.4, Seite 46); andernfalls sind die für unre-
gelmäßige Verteilungen (Abb. 1b) kompetenten parameterfreien, in der Regel we-
niger scharfen (= weniger „mächtigen“) Tests anzuwenden.
2.7 Graphische Darstellung
Aus der Abb. 1c läßt sich leicht eine sehr gebräuchliche Art der graphi-
schen Darstellung von Verteilungen ableiten, das Blockdiagramm, oder
Histogramm1, Abb. 2a.
Die Blöcke können durch freistehende Säule (Stäbe) ersetzt werden, man
erhält dann ein in Abb. 2b am gleichen Beispiel dargestelltes Stabdiagramm.
Verbindet man die durch die Blöcke oder Säulen darstellbaren Klassenwer-
te durch eine gebrochene Linie, so erhält man ein sehr anschauliches Bild der Ver-
teilung (Abb. 2c).
Bei genügender Anzahl von Einzelwerten (Klassen) kann man den gebro-
chenen Linienzug (nach dem Augenmaß oder mittels Kurvenlineales) durch eine
ausgleichende Kurve glätten (Abb. 2d).
a)
0204060
1 3 5 7
b)
0204060
1 3 5 7
c)
0204060
1 3 5 7
d)
0204060
1 3 5 7
Abb. 2: Grafische Darstellungen der Normalverteilung.
Darstellung mit Einschluß von Streumaßen ∏ Kap. 7, Seite 50.
Die angeführten grafischen Darstellungen können problemlos mit allen in
diesem Buch behandelten Softwarepaketen rasch gezeichnet werden. Unter Excel
1Abgeleitet vom griech. ⌧στοσ (histós) = Webstuhl (vgl. z.B. „Histologie“9 beim antiken
Webstuhl hingen die Kettenfäden senkrecht nach unten; die Vokabel kann auch „Mastbaum“ be-deuten.
2 Wichtige Grundbegriffe Seite - 17 -
markieriert (Merke: Computer sind „dumm“ und „stur“! Man muß ihnen immer „sa-
gen“, mit welchem Bereich man etwas durchführen will = markieren!) man den Be-
reich, der dargestellt werden soll (will man für die x-Achse eine eigene Beschrif-
tung, so schreibt man diese in die Spalte vor den Daten und markiert sie mit), ruft
dann am besten den „Diagramm-Assistenten“ auf. Dann „spannt“ man das Viereck
für die Grafik mit der Maus in den gewünschten Bereich des Tabellenblattes „auf“.
Oft ist es günstig, die Grafiken auf einem eigenen Tabellenblatt der Arbeitsmappe
zusammenzufassen. Dazu erfolgt z.B. ein Doppelklick auf das Blattregister „Tabel-
le2“ (im linken unteren Bereich des Bildschirms), benennt die Tabelle z.B. „Grafik“
und spannt hier das Viereck aus. Dann folgt man den Anweisungen. Hat man
Werte für die x-Achse mit markiert, so aktiviert man im „Schritt 4 von 5“ die Option
„Verwende ... Spalte(n) als Rubrikenbeschriftung (x)“. Experimentieren Sie und
probieren Sie die verschiedenen Möglichkeiten aus. Ist die Grafik fertig, können
Sie mit einem Doppelklick auf die gewünschte Fläche, Linie, Schrift... diese editie-
ren.
Auch unter Orgin sind die gezeigten Grafiken leicht zu bewerkstelligen: z.B.
sind die Daten in B(y) des Datenblattes, so kann man mit dem Befehl „Plot“ die
Grafiken zeichnen lassen. Auch hier gilt wieder: ein Doppelklick auf das ge-
wünschte Objekt zum editieren! Eine schöne Funktion hat man bei einem Doppel-
klick auf die „Datenlinie“: mit „Spline“ (kubische Glättung) kann man die Kurven
glätten. Tip: lassen Sie sich die Datenpunkte mit „Symbol“: z.B. „Square“ oder
„Circle“ anzeigen, um die Auswirkung der Glättung betrachten zu können. Statisti-
ca bietet die „Spline“ Möglichkeit ebenfalls (Aufruf unter „Graphs“, „Stat 2-D
Graphs“ „Line Plots..“ unter „Fit“ ∏ „Spline“.)
Ein Ausgleich („Glättung“) gebrochener Linienzüge, sog. Polygonzüge, läßt
sich durch Mittelung benachbarter Punkte (Ordinatenwerte) erreichen. Dies sei an
einem Beispiel der unregelmäßigen Verteilung der Abb. 1b gezeigt. In Abb. 3b
nach Mittelung von jeweils zwei benachbarten Werten der Charakter der Vertei-
lung im Wesentlichen erhalten, Extreme sind gemildert. Nachteilig ist, daß die
nunmehrigen, den Kurvenzug bestimmenden Punkte zwischen den Abszissenwer-
ten zu liegen kommen. Bei Vorliegen von genügend Punkten kann man auch über
jeweils drei Punkte überlappend gemittelt werden, also Wert (1+2+3)/3, (2+3+4)/3
Seite - 18 - 2 Wichtige Grundbegriffe
usf. Dadurch fällt die Glättung ausgiebiger aus. Aber Vorsicht!!! Abb. 3b zeigt, daß
dabei der Kurvenzug arg verfälscht werden kann. Es ist daher zweckmäßig, nach
der Glättung auch die ursprünglichen Werte in das Diagramm einzutragen.
Sehr großes Zahlenmaterial (z.B. metereologische Daten) faßt man in Fün-
fer- oder Zehnergruppen (Pentaden bzw. Dekaden) zusammen und mittelt selbst-
verständlich nicht überlappend.
a)
0
10
20
30
40
50
60
10 20 30 40 50 60 70
b)
0
10
20
30
40
50
60
10 20 30 40 50 60 70
b
Abb. 3: Glättung gebrochener Linienzüge. a) Mittelung von jeweils zwei be-
nachbarten Werten; b) Mittelung von jeweils drei benachbarten Werten.
Die abgebildeten Grafiken in Abb. 3 werden unter Excel wie folgt bewerk-
stelligt: Sie beginnen mit einer Spalte für die y-Achsenbeschriftung (in unserem
Fall 10, 20, ... usf.; vergessen Sie nicht auf die Auto-Ausfüllen Funktion!). In der
nächsten Spalte sind die Werte für das Säulendiagramm (30, 20, 50, ...). Eine Zei-
le unter dem ersten Wert (siehe Tab. 2, Seite 19: Spalte C) die Funktion Mittelwert
(siehe Kap. 3.1, Seite 20) mit dem entsprechenden Bereich einfügen.
Dann markieren Sie A1 bis C7 und rufen den Diagrammassistenten auf.
Wählen Sie als Diagrammtyp „Linien“; im Schritt 4 von 5 des Diagrammassisten-
ten: „Verwende 1 Spalte(n) als Rubrikenbeschriftung (x). Dann aktivieren Sie das
Diagramm, markieren die Datenreihe der Spalte „B“ und drücken die rechte Maus-
taste. Im Menü wählen Sie „Diagrammtyp“ und „Säulen“. Um die Abstände zwi-
schen den Säulen wegzubekommen: Markieren Sie die Säulengruppe, drücken
Sie die rechte Maustatse und wählen im Karteiblatt „Optionen“ „Abstände“ 0! Um
die x-Achse auf den Höchstwert „60“ zu bringen markieren Sie zuerst diese Achse,
rechte Maustaste, „Achsen formatieren...“ wählen, im Karteiblatt „Skalierung“
„Höchstwert“ 60 eintragen.
2 Wichtige Grundbegriffe Seite - 19 -
Tab. 2: Exceltabelle für Grafik "Glättung" gebrochener Linienzüge.
A B C 1 10 30 2 20 20 25 3 30 50 35 4 40 20 35 5 50 10 15 6 60 0 5 7 70 20
Seite - 20 - 3 Mittelwerte I: Das arithmetische Mittel
3 Mittelwerte I: Das arithmetische Mittel
Das arithmetische Mittel ist der am häufigsten benutzte Mittelwert. Das
Symbol ist x (spr. x quer).
3.1 Berechnung aus Einzelwerten
Die Berechnung sei an einem überschaubaren, für unseren Zweck 'frisier-
ten' Beispiel gezeigt.
Gegeben seien folgende Einzelwerte (Elemente, sie entsprechen der Gra-
phik von Fig. 2.6-2).
11 12 12 22 23 30 31 31 33 34 41 43 51 75 72 91
allgemein ausgedrückt:
x1 x2 x3 ... ... ... ... ... ... ... ... ... ... ... ... x16
Die Summe x1 bis x16 = 608; n = 16
x =60716
= 38,0
Dasselbe in mathematischer Formelsprache;
x =x
nkorrekter x
x
n
ix
n
=
∑ ∑=: 1
[Formel 1 ]
Im Klartext:
Summiere (Zeichen ∑) alle x-Werte (xi) beginnend mit x1, bis x16; die Sum-
me dividiert durch die Zahl der Elemente n ergibt das arithmetische Mittel x .
Wenn ein Irrtum ausgeschlossen werden kann, darf unbedenklich die ver-
einfachte Schreibweise von [Formel 1] benutzt werden.
Unter Excel lautet die Funktion: =MITTELWERT()
=MITTELWERT(A1:A5)
bedeutet: Mitelwerte des Zellbereichs A1 bis A5. Der Bereich kann bei der Definiti-on auch, wie üblich, durch Markieren mit der Maus bestimmt werden.
=MITTELWERT(A1;A3;A6)
3 Mittelwerte I: Das arithmetische Mittel Seite - 21 -
bedeutet: Mittelwert der Zellen A1, A3 und A6. Getrennte Bereiche kann man in Excel dadurch erreichen, daß man beim Mausklick gleichzeitig die STRG-Taste gedrückt hält. Origin liefert mit dem Menü „Data“, „Statistics on Columns“ das gezeigte Ergebnis der Spalte (Mean(y)=Mittelwert; die übrigen Werte werden später, Kap. Seite er-klärt), mit „Statistics on Rows“ das der Zeile.
Abb. 4: Ergebnisblatt "Statistcs on Columns" von Origin.
Auch NCSS liefert den Mittelwert, z.B. unter „Analysis“ „Descriptive Statistics“ in
einem umfangreichen Datenblatt, auf das später (∏ Abb. , Seite ) noch genauer eingegangen wird. Ebenso unter Statistica: „Analysis“, „Basic Statistics and Ta-bles“.
3.2 Klassifizierte Daten
Umfangreiches Datenmaterial gruppiert man mit Vorteil in Klassen mit frei
gewählter Klassenbreite b und mittelt über die Klassenmittel. Der Rechengang sei
an obigem Beispiel (cf. Abb. 1b) gezeigt (in praxi wird man mit einer so kleinen
Datenmenge nie so vorgehen). Als Klassenbreite sei b = 10 angenommen.
Zweckmäßig trägt man den Besatz (die Frequenzen f) der Klassen in einer
Strichliste ein; die Summe der Produkte mit den jeweiligen Klassenmitteln xj (∑f.xj)
gebrochen durch n ergibt den klassifizierten Mittelwert x klass.
x klass = ( )f x
nj.∑
[Formel 2]
Tab. 3: Strichliste zum Beispiel Abb. 1b (b = 10)
Klasse Nr. -bereich -mittel, xj f Σf f. xj 1 10 bis <20 15 3 3 45 2 20 bis <30 25 2 5 50 3 30 bis <40 35 5 10 175 4 40 bis <50 45 2 12 90
Seite - 22 - 3 Mittelwerte I: Das arithmetische Mittel
5 50 bis <60 55 1 13 55 6 60 bis <70 65 0 13 0 7 70 bis <80 75 2 15 150 15 565
(Σf.x)/n = 565/15 x klass = 37,6
Das klassifizierte arithmetische Mittel fällt in diesem Falle deutlich höher
aus als nach Mittelung der Einzelwerte, weil die Klassen absichtlich überwiegend
in ihren unteren Hälften besetzt angenommen sind, xklass aber über die
Klassenmittel berechnet wird. Ändert man b, so wird die Asymmetrie innerhalb der
Klassen durchbrochen; mit b = 8 nähert sich xklass = 34,2 dem aus den
Einzelwerten berechneten Mittel (32,6); auch mit b = 12 wird xklass = 33 mit dem
Mittel aus den Einzelwerten recht gut vergleichbar.
Zur Klassenbreite.
Das vorstehende, freilich ad hoc 'frisierte' Beispiel zeigt, daß die Klassen-
breite den klassifizierten Mittelwert nicht unerheblich zu beeinflussen vermag; na-
mentlich bei geringem Besatz der Klassen (kleine f) können Änderungen der Klas-
senbreite sogar markante Punkte der Verteilung ('peaks') um eine Klasse hinauf
oder hinunter verschieden und damit das graphische Bild der Verteilung beeinflus-
sen.
Im allgemeinen wird es ausreichen, die Zahl der Klassen sozusagen nach
Augenmaß festzulegen. Will man vor Überraschungen ganz sicher sein, mag man
den Mittelwert mit zwei verschiedenen Klassenbreiten durchrechnen; es sollte sich
dabei keine ins Gewicht fallende Differenz der Mittelwerte ergeben.
Einen Anhaltspunkt für die geeignetste Klassenbreite b kann folgende ein-
fache Formel bieten:
[Formel 3] b = x - x = Rmax min
In den Statistikbüchern findet man weitere und komplizierte Formen zur
Festlegung des optimalen b. In praxi dürften sie aber entbehrlich sein. Mehr als 20
Klassen sollten allerdings auch bei Vorliegen umfangreichen Datenmaterials nicht
aufgestellt werden.
Auf alle Fälle: Vorsicht beim Klassifizieren ist angebracht!
3 Mittelwerte I: Das arithmetische Mittel Seite - 23 -
Mit Excel ist das Erstellen von Klassen wie folgt durchzuführen: Neben der
Spalte mit den zu klassifizierenden Daten sollten Sie eine Spalte mit den Angaben
über die Klassenbreite haben (z.B. 0, 5, 10, 15 .... - bei einer Klasenbreite von 5;
vergessen Sie nicht auf die AutoAusfüllen - Funktion: Sie brauchen nur die ersten
Zahlen eintippen! Rufen Sie unter „Extras“ die „Analysefunktionen...“ auf. Wählen
Sie dann „Histogramm“ in dem Pop-Up Fenster. Klicken Sie in das Feld „Eingabe-
bereich“, markieren Sie den gewünschten Bereich mit der Maus. Ebenso verfah-
ren Sie mit dem „Klassenbereich“ (= die Spalte, in der Sie die Klassenbreite fest-
gelegt haben). Wenn Sie keine Klassenbreite angeben, erstellt Microsoft Excel
eine Reihe von Klassen, die sich gleichmäßig zwischen dem niedrigsten und
höchsten Wert der Daten verteilen. Anschließend wählen Sie noch den Ausgabe-
bereich: Geben Sie den Bezug für die obere linke Zelle der Ausgabetabelle ein.
Bevor bereits vorhandene Daten im Ausgabebereich überschrieben werden, blen-
det Microsoft Excel eine entsprechende Meldung ein. Neues Tabellenblatt: Die
Option bewirkt, daß in der Arbeitsmappe, in der das aktuelle Blatt gespeichert ist,
ein neues Blatt hinzugefügt wird und die Ergebnisse beginnend in Zelle A1 einge-
fügt werden. Im Textfeld neben der Option "Neues Tabellenblatt" können Sie einen
Namen für das neue Blatt angeben. Neue Arbeitsmappe: Die Option bewirkt, daß
zunächst eine neue Arbeitsmappe mit einem neuen Tabellenblatt angelegt wird,
und anschließend die Ergebnisse beginnend in Zelle A1 des neuen Blattes einge-
fügt werden. Folgende Kontrollkästchen können noch angeklickt werden: Pareto
(sortiertes Histogramm). Aktivieren Sie das "Pareto", um die Daten in absteigender
Häufigkeitsfolge darzustellen. Ist das Kontrollkästchen "Pareto" deaktiviert, so
werden die Daten in der Ausgabetabelle in aufsteigender Reihenfolge der Klassen
angezeigt und die letzten drei rechten Spalten mit den sortierten Daten weggelas-
sen. Kumulierte Häufigkeit: Aktivieren Sie "Kumulierte Häufigkeit", um die kumu-
lierten Häufigkeiten in Prozent zu ermitteln. Wenn das Kontrollkästchen "Kumulier-
te Häufigkeit" aktiviert ist, erzeugt Microsoft Excel in der Ausgabetabelle eine Spal-
te mit den kumulierten Häufigkeiten und fügt in das Histogramm eine Kurve für die
kumulierten Häufigkeiten ein. Ist das Kontrollkästchen "Kumulierte Häufigkeit" de-
aktiviert, so werden die Spalte mit den kumulierten Häufigkeiten in der Ausgabeta-
belle und die Diagrammkurve für die kumulierten Häufigkeiten im Histogramm
nicht angezeigt. Diagrammdarstellung: Aktivieren Sie das Kontrollkästchen "Dia-
Seite - 24 - 3 Mittelwerte I: Das arithmetische Mittel
grammdarstellung", falls Microsoft Excel zusammen mit der Ausgabetabelle auto-
matisch ein Histogramm erstellen soll. Das betreffende Histogramm wird in das-
selbe Blatt wie die Ausgabe eingebettet. Beschriftungen: Aktivieren Sie das Kon-
trollkästchen "Beschriftungen", falls die erste Zeile oder Spalte des Eingabeberei-
ches Beschriftungen enthält. Enthält der Eingabebereich keine Beschriftungen, so
deaktivieren Sie das Kontrollkästchen "Beschriftungen". Dann erzeugt Microsoft
Excel die entsprechenden Datenbeschriftungen für die Ausgabetabelle (Variable A
und Variable B).
Das von Excel hier automatisch erstellte Histogramm ist für die Datendar-
stellung in der Biologie nicht optimal. Sie sollten besser die klassifizierten Daten
markieren und ihr eigenes Diagramm erstellen (siehe z.B. Kap. Seite ).
Mit Origin wird eine Klassifizierung dadurch erreicht, daß Sie die gewünsch-
te Spalte markieren, im Menü „Data“ „Frequency Count..“ wählen. Die Klassen-
breite wird im Feld „Step Size“ angegeben. Auf einen Unterschied zwischen Excel
und Origin sei hier hingewiesen: Bei Excel werden die Werte an der unteren Klas-
sengrenze ein-, die Werte an der oberen Klassengrenze ausgeschlossen. Klas-
sen sind beispielsweise 2 und kleiner, größer 2 bis maximal 3, größer 3 bis maxi-
mal 4, größer 4 bis maximal 5 und größer 5. Origin definiert bei diesem Beispiel
so: kleiner, gleich 2, 2 bis kleiner, gleich 3, 3 bis kleiner, gleich 4!
Statistica: Über die Menüpunkte „Analysis“, „Frequency Tables“ kann man
bei „Step Size“ die Klassenbreite und mit „Starting at..“ den Beginn angeben (Ach-
tung: jeweils auch die dazugehörigen Optionsfelder: anklicken). Statistica gene-
riert nun eine schöne, übersichtliche, gut erklärte Tabelle. Es wird auch genau die
Klassenbreite angegeben (z.B. 0.00000 < = x < 5.0000). Mit „Continue
Histogramm“ kommt man, wie es sich für ein Statistikprogramm gehört, in die de-
skriptive Statistik und erfährt gleich eine Reihe von statistischen Details unserer
klassifizierten Daten (Mittelwert, Standardabweichung, Minimalwert...).
3.3 Lineare Transformation
Meist liegen die Dinge nicht so einfach wie in unserem Beispiel. Das Mit-
schleppen der auf 5 endenden Klassenmittel ist kein Problem, Dezimalen können
schon lästiger sein. Mit einem einfachen Trick, der linearen Transformation, kann
man sich viel Rechenarbeit ersparen. Obwohl man diese Transformation an unse-
3 Mittelwerte I: Das arithmetische Mittel Seite - 25 -
rem kleinen Beispiel nie anwenden würde, sei sie zum Vergleich eben an diesem
demonstriert.
Man addiert jedem Klassenmittel eine Konstante d, die so gewählt wird, daß
man leicht zu handhabende Zahlen erhält. Mit diesen berechnet man das Mittel
nach [Formel 4]; zieht man vom Ergebnis d wieder ab, so erhält man x klass.
x klass = f x
n dj.∑
− [Formel 4 ]
Tab. 4: Beispiel Abb. 1b, linear transformiert.
Klassen Nr. -mittel, xj d xj+d f Σf f. (xj+d) 1 15 5 20 3 3 60 2 25 5 30 2 5 60 3 35 5 40 5 10 200 4 45 5 50 2 12 100 5 55 5 60 1 13 60 6 65 5 70 0 13 0 7 75 5 80 2 15 160 15 640
640/15 = 42,6
-d = 37,6
Das gleiche Ergebnis wie im Beispiel Abb. 1b .
Seite - 26 - 4 Mittelwerte II
4 Mittelwerte II
4.1 Der Median
Bei unregelmäßigen oder unsymmetrischen (schiefen) Verteilungen fällt das
arithmetische Mittel häufig auf eine wenig repräsentative Stelle der Verteilung. In
solchen Fällen ist der Median der Mittelwert der Wahl.
Der Median (auch Zentralwert genannt) teilt die in aufsteigender Reihe ge-
ordneten Elemente einer Grundgesamtheit/Stichprobe ohne Rücksicht auf ihren
Verteilung derart, daß unterhalb wie oberhalb des Median die gleiche (halbe) Ele-
mentzahl zu liegen kommt. Sein Symbol ist ~x (spr. x Schlange).
Der Median ist von der Verteilung der Einzelwerte unabhängig, seine
Ermittlung zählt aber zu den nicht parametrischen Verfahren.
~
Bei ungerader Zahl der Elemente gibt es stets einen eindeutigen Wert, von
dem aus beidseits gleichviel Einzelwerte liegen.
Bei gerader Zahl der Elemente ist der Median zwischen dem n/2-ten und
(n/2 + 1)-ten Einzelwert zu suchen. Dann gilt das arithmetische Mittel zwischen
dem n/2-ten und (n/2 + 1)-ten Wert als Median. [Formel 5]
= x xn n/ /2 2 1
2+ +
x
Bei klassifizierten Daten ist die Ermittlung des Medians weniger einfach. Sie
sei an der unregelmäßigen Verteilung Abb. 1b) erläutert.
0
1
2
3
4
5
6
10 20 30 40 50 60 70
~x
Abb. 5: (vergl. Abb. 1b): Unregelmäßige Verteilung mit Median ~x .
4 Mittelwerte II Seite - 27 -
In einer 14 Einheiten zählenden Verteilung muß der Median zwischen der 7.
und 8. Einheit liegen, im vorliegenden Falle in Klasse 3. Klassen 1 und 2 enthalten
5 Einheiten, die nächste schießt um 2 Einheiten übers Ziel. 2/5 der Klasse 3 liefern
die fehlenden 2 Quadrate, der Median liegt bei 30 + 2.10/5 = 34. Die restlichen 5.
3/5 = 3 Quadrate der Klasse 3 rechts des Medians ergeben mit den restlichen 4
Quadraten >30 ebenfalls 7 Quadrate.
Zugegeben, keine allzu elegante Methode. Mit nachstehender Formel, in
der man die Elemente der „Primitivmethode“ unschwer wiedererkennt, läßt sich
der Median abseits jedes Probierens berechnen:
= δ + b . n f
f/ ( )2 − Σ u
Median
~x[Formel 6]
δ = untere Grenze der Medianklasse b = Klassenbreite n = Gesamtzahl der Elemente (Σf)u = Elemente unterhalb der Medianklasse f Median = Zahl der Elemente in der Medianklasse
Wenden wir diese Formel auf unser Beispiel an:
V = 30, b = 10, n = 14, (Σf)u = 5, fMedian = 5; ~x = 30 + 10 . (7 - 5)/5 ................................................ 34,0
als ein der Auszählmethode identes Resultat.
Ein weiteres Beispiel:
Der Abb. 6 linksschiefe Verteilung (= Abb. 1d).
lassen sich folgende Werte entnehmen
Der Median ist in der 3. Klasse (30 - <40) zu suchen.
V = 30, b = 10, n = 16, (Σf)u = 7, fMedian = 3;
In Formel 6 eingesetzt ergibt ~x = 30 + 10 . (7 - 3)/5 ................................................ 38
Seite - 28 - 4 Mittelwerte II
0
1
2
3
4
5
6
10 20 30 40 50 60 70
~xD
Abb. 6: Linksschiefe Verteilung mit Median (Bezügl. D ∏ Kap. 4.2, Seite 28)
4.2 Das Dichtemittel
Das Dichtemittel, auch Modus genannt, bezeichnet den Bereich des dich-
testen Besatzes einer Verteilung. Es ist ein zweckmäßiger Parameter zwei- oder
mehr-gipfliger Verteilungen (cf. Abb. 1e).
Das Symbol des Dichtemittels ist D.
Für die meisten Zwecke dürfte die Angabe der am stärksten besetzten
Klasse genügen. Ggfs. kann mit der nachstehenden Formel die Lage des Dichte-
mittels genauer präzisiert werden; sie berücksichtigt außer der dichtest besetzten
Klasse noch die beiden benachbarten Klassen zur exakteren Festlegung von D.
D = b. f f2.(f f f
u u-1
u u 1 u 1
−− −+ − )
[Formel 7]
Darin bedeuten:
b = Klassenbreite fu = Frequenz der stärkst besetzten Klasse fu+1 = Frequenz der nächst höheren Klasse fu-1 = Frequenz der nächst niedrigeren Klasse
Das Dichtemittel weicht noch stärker vom arithmetischen Mittel ab als der
Median. Die Reihenfolge der Abweichungen ist nach der alphabetischen Reihen-
folge leicht zu merken:
Dichtemittel > Median > Mittel (arithmetisches)
4 Mittelwerte II Seite - 29 -
Bei symmetrischer Verteilung (z.B. Abb. 1c) fallen arithmetisches Mittel,
Median und Dichtemittel zusammen.
4.3 Das geometrische Mittel
Das geometrische Mittel ist bei Vorgängen angezeigt, die sich in gleichen
Zeitabständen um den gleichen Faktor ändern (z.B. Wachstumsvorgänge, Zell-
vermehrung, Populationsbiologie u. dgl.).
Das geometrische Mittel ist die n-te Wurzel aus dem Produkt von n zu mit-
telnden Größen.
Das Symbol für das geometrische Mittel ist x G.
Für zwei zu mittelnde Größen gilt
[Formel 8] G = 1 2x x. x
bei drei zu mittelnden Größen: [Formel 9] G = 1 2 3x x x. .3 x
In der Praxis erspart man sich die lästigen Wurzeln, indem man über Loga-
rithmen rechnet:
[Formel 10]
lg x G = 1/n(lgx1 + lgx2 + ....lgxn) = 1/nΣlgxi
Ein einfaches Zahlenbeispiel:
Gegeben sei x1 = 4, x2 =9;
x G = 4 9 36 6. = =
oder logarithmisch
x G = ½ . (0,6026 + 0,95424) = ½ . 1,55630
antilog 0,77815 = 6 = 0,79248 ............................... x G = 6.
Probe: 4, 1,5 = 6; 6 . 1,5 = 9; gleicher Faktor!
Analog wird x G aus 3 oder mehr Faktoren berechnet.
Seite - 30 - 4 Mittelwerte II
4.4 Das harmonische Mittel
Das harmonische Mittel findet bei reziproken Zusammenhängen Anwen-
dung.
Das Symbol für das harmonische Mittel x H.
Die Statistikbücher erläutern es stereotyp am Geschwindigkeitsvergleich
von Kraftfahrzeugen. Hier sei dazu ein analoges biologisches Beispiel gewählt, die
Mittelung zweier Messungen der Plasmaströmung.
Annahme: Ein Chloroplast durchlaufe eine Strecke von 50 µm in 10 Sekun-
den (s)1, in einer anderen Zelle benötigt ein Chloroplast für die gleiche Strecke nur
5 s. Über die Zeit gemittelt ergibt dies eine Durchschnittsgeschwindigkeit von
(10 + 5)/2 = 7,5 s/50 µm
Sinnvoller ist es, über die zurückgelegte Wegstrecke, also über die zur Zeit rezip-
roken Größe, zu mitteln. Dies geschieht durch das harmonische Mittel:
H = n
x x x1 2 n+ + ........1/ [Formel 11 ] x
Die Zahlen obiger Annahme eingesetzt ergeben:
x H = 2
10 + 1/ 51/ = 20/3 = 6,67 µm.s-1
Kontrolle: Die beiden Chloroplasten hintereinander, gleichsam im Stafetten-
lauf, würden für (50 +50) = 100 µm 10 + 5 = 15 s benötigen; 100/15 = 6,67, das
oben berechnete harmonische Mittel.
4.5 Kumulierte Mittelwerte
Mittelwerte aus gleichartigen Meßreihen können zu einem gemeinsamen
(kumulierten) Mittel X zusammengefaßt werden.
1Der Buchstabe s ist gemäß internationaler Konvention (SI) das Symbol für Sekunde. In
der Statistik steht das gleiche Symbol für „Standardabweichung“ ( Kap. 6, Seite 39). Aus dem Zusammenhang dürfte stets zweifelsfrei erkennbar sein, für welche Größe „s“ steht.
4 Mittelwerte II Seite - 31 -
Entstammen die zu mittelnden Werte (ihre Zahl sei k) gleich großen Stich-
proben vergleichbarer Meßgüte, verfährt man wie bei der Mittelung von Einzelwer-
ten (Division der Summe der Mittelwerte x 1, x 2, x 3 ... x k durch die Zahl der Stich-
proben k):
X = x + x + .... + x
k1 2 k
[Formel 12]
Unter den gegebenen Voraussetzungen (Vergleichbarkeit der Stichproben)
kommt man natürlich zum gleichen Ergebnis, wenn man die Einzelwerte aller
Stichproben zusammenwirft und durch deren Anzahl teilt.
Bei ungleichen Stichprobenumfängen würde diese Methode zu
Verzerrungen führen. Man vermeidet diese, wenn jede Stichprobe nach Maßgabe
ihres Umfanges (=Elementezahl) an der Bildung des kumulativen Mittels „zum Zu-
ge kommt“, indem man das
gewogene Mittel
nach folgender Formel bildet (Symbol: xgew):
xgew = n . x n . x .... nk. x
n n .... n1 1 2 2 k
1 2 k
+ + ++ + +
[Formel 13 ]
Das kummulierte geometrische Mittel kann analog zu [Formel 12] nach fol-
gender Formel gebildet werden:
lgX = n lgx n lgx .... n lgx
n n .... n1 G1 2 G2 k Gk
1 2 k
+ + ++ + +
[Formel 14]
Das gewogene harmonische Mittel läßt sich nach folgender Formel
berechnen:
XH = n n .... n
x n / x .... n / x1 2 k
1 H1 2 H2 k Hkn /+ + +
+ + + [Formel 15 ]
Zu Verzerrungen kumulativer Mittelwerte kann es auch durch unter-
schiedliche Güte der Stichproben (z.B. durch verschiedene Meßgenauigkeit)
der zu mittelnden Stichproben kommen. In diesen Fällen bildet man das
gewichtete Mittel
Seite - 32 - 4 Mittelwerte II
Dabei geht jeder Mittelwert nach Maßgabe seiner Güte in das kumulative
Mittel ein, indem er mit einem sein „Gewicht“ kennzeichnenden Faktor w (=
weight) versehen wird. Die Faktoren kann man über den Daumen peilen; korrekter
ist es, z.B. die Standardfehler oder die Varianzen ( Kap. 7.1, Seite 50) der Mit-
telwerte als Gewicht zu nehmen; je größer der Faktor, desto stärker beeinflußt der
damit versehene Mittelwert das gewichtete kumulative Mittel X gew.
gew = w . x w . x .... w . x
w w .... w1 1 2 2 k k
1 2 k
+ + ++ + +
[Formel 16 ] X
Sind die Stichproben verschieden groß und von unterschiedlicher Güte,
können die Formeln 13 und 16 kombiniert werden:
X * = n .w . x n .w . x .... n .w . x
n .w n .w ....+ n .w1 1 1 2 2 2 k k k
1 1 2 2 k k
+ + ++ +
[Formel 17 ]
Zur Berechnung des gewichteten harmonischen Mittels wird in Formel 15
n1, n2 usw. durch w1, w2 usw. ersetzt.
Kumulierung von Mittelwerten mit Standardfehler ∏ Kap. 8, Seite 58.
Unter Excel sind zwei der genannten „Mittelwerte“ als Funktionen abrufbe-
reit: Die Funktion Median() liefert den Median des gewählten Bereichs, während
die Funktion Modalwert() den häufigsten Wert einer Gruppe wiedergibt.
Origin ist per definitionem ein „wissenschaftlich-technisches Grafik- und Da-
tenanalyseprogramm“. Zu diesem Zweck hat Origin auch eine eigene Program-
miersprache (LabTalk™) integriert. Mit dieser Programmiersprache und auch ei-
nem integrierten „Werkzeugkasten“ lassen sich zum Beispiel recht einfach Analy-
segeräte steuern und abfragen (als Zusatzmodule für verschiedene Schnittstellen
erhältlich) und die Werte grafisch darstellen und gleich auswerten. Es ist daher
kein Statistikprogramm im engerern Sinne. Die genannten Funktionen lassen sich
zwar implementieren und abspeichern, sind aber nicht fertig vorhanden (falls ich
[G] mich in diesem Punkt irren sollte, lassen Sie es mich bitte wissen).
Ganz anders ist dies mit Statistica und NCSS: unter „Descriptive Statistics“
werden die genannten Mittelwerte (Statistica: median, mean, harmonic mean, ge-
ometric mean) und noch eine Reihe weiterer statistischer Berechnungen „auf
4 Mittelwerte II Seite - 33 -
Knopfdruck“ berechnet und angezeigt bzw. die Grafiken geplottet. In den folgen-
den Kapiteln wird darauf noch näher eingegangen werden.
Seite - 34 - 5 Wichtige Rechenregeln I
5 Wichtige Rechenregeln I
5.1 Signifikante Zahlen
An einem in Millimeter geteilten Lineal werde eine Länge zwischen 2,3 und
2,4 cm abgelesen. Da sich Zehntelmillimeter noch ganz gut schätzen lassen, wird
die Länge mit 2,36 cm angegeben.
Die letzte Stelle beruht auf Schätzung und ist demzufolge ungenau, sie wird
- günstigstenfalls! - um 0,005 cm auf oder ab pendeln. Damit ist das Ergebnis Ab-
lesehilfen wie Nonius u. dgl. bringen nichts, das Problem wird nur um eine
Dezimale weitergeschoben.
Eine in der Statistik häufige Rechenoperation ist das Quadrieren. Die Quad-
rate der Ablesungen in unserem Beispiel bewegen sich inzwischen
2,3552 = 5,546025 2,362 = 5,5696 (Quadrat des abgelesenen Wertes) 2,3652 = 5,593225. Nach dem Quadrieren bleibt im Unsicherheitsbereich nur die erste Dezi-
malstelle unverändert, nur diese ist sicher (signifikant), alle Stellen dahinter
sind unsicher, nicht signifikant.
Man kann dies dadurch andeuten, daß man die erste nicht signifikante Stel-
le tiefstellt und die weiteren Stellen dahinter ganz wegläßt, in unserem Beispiel
2,36 bzw. 5,59. Den Bereich der Unsicherheit wie oben mit 2,36 ± 0,005 bzw. des-
sen Quadrat mit 5,57 ± 0,02 anzugeben ist weniger ratsam; es könnte dadurch zur
Verwechslung mit der Standardabweichung kommen.
Das hier an Hand des Quadrierens Gesagte gilt natürlich für jede Multiplika-
tion und gleichermaßen für jede Division.
Allgemein gilt:
Das Produkt zwei Zahlen mit x signifikanten Stellen enthält (x-1) signifikante
Stellen.
Da es sich dabei meistens um Dezimalstellen handelt, merke man sich,
zwar etwas weniger präzis, dafür aber umso einprägsamer:
5 Wichtige Rechenregeln I Seite - 35 -
Ein Produkt darf nie mehr Dezimalstellen als der Multipli-
kand oder der Multiplikator aufweisen, ein Quotient nie mehr als
der Dividend oder der Divisor.
Enthält nur einer der Faktoren eine nicht signifikante Stelle,
so ist zumindest die letzte Stelle des Resultats nicht signifikant.
Es ist daher sinnlos, ein Produkt auf sämtliche Dezimalstellen auszumultip-
lizieren, einen Quotienten womöglich bis zu einer periodischen Ziffernfolge zu be-
rechnen oder das ganze Display des Rechners abzuschreiben; man erinnere sich
der verkürzten Rechenweisen!
Mutatis mutandis gilt dies natürlich auch für nicht signifikante Stellen links
vom Dezimalpunkt (Zehner, Hunderter, Tausender u.s.f.).
5.2 Über das Runden
Nicht signifikante Ziffern (Stellen) sind durch Runden zu eliminieren. Es ist
Konvention, Endziffern 1 bis 4 auf die nächst niedrige ganze Zahl abzurunden,
Endziffern 5 bis 9 auf die nächst höhere ganze Zahl aufzurunden. In der Statistik
kann dieses Vorgehen zu Problemen führen. Sehr häufig (z.B. bei Klassenmitteln)
scheint 5 als letzte Ziffer auf. Dies würde zum Überwiegen von Aufrundungen füh-
ren. Der Kaufmann hätte dagegen sicher nichts einzuwenden, in der Statistik kön-
nen dadurch Sachverhalte verfälscht werden.
Zweckmäßiger ist es, auf die nächste gerade ganze Zahl auf- oder ab-
zurunden. 4,5 wird zu 4, 5,5 wird zu 6, 6,5 gleichfalls zu 6 und 7,5 wird zu 8 usw.
Die Null wird als gerade Zahl behandelt. So heben sich auch „5er-Rundungen“
weitgehend auf.
In bestimmten Fällen, insbesondere bei Streumaßen, darf NIEMALS ab-
gerundet, sondern immer nur aufgerundet werden, also immer in Richtung zum
Ungünstigeren; andernfalls könnte eine nicht vorhandene Genauigkeit vorge-
täuscht werden! Auf solche Fälle wird im Text jeweils besonders hingewiesen.
Verfehlt wäre es, nach jedem Rechenschritt zu runden und dann die Rech-
nung fortzusetzen. Rundungsfehler würden sich dadurch kumulieren. Günstig ist
es, mit 3-4 überschießenden, wenn auch nicht signfikanten „Schutzstellen“ zu
rechnen (oder auf vollem Display zu arbeiten) und erst das Endresultat auf die
Seite - 36 - 5 Wichtige Rechenregeln I
signifikanten Stellen zu runden. Auf keinen Fall mit Fixkomma-Einstellung rech-
nen, die Rechner runden nach verschiedenen Algorhithmen!
Einige Worte über die Rechengenauigkeit, das Runden und über Rechen-
fehler (und wie man sie vermeidet) unter Excel:
Excel rechnet normalerweise mit einer Genauigkeit von 15 Stellen nach
dem Komma. Dies wird immer durchgeführt, auch wenn z.B. über „Format“ „Zel-
len“ „Zahlen“ nur 2 Kommastellen sichtbar sind. Man kann dies sehen, wenn man
die Zelle anklickt: in der Bearbeitungszeile sind sämtliche Nachkommastellen noch
angezeigt! Um zu Runden (es werden hier nur die zwei für uns wichtigen Run-
dungsarten besprochen, es gibt noch weitere, die Sie unter der Online-Hilfe unter
Excel: „?“ „Suchen“ „Runden“ abfragen können). Die Funktion RUNDEN() rundet
eine Zahl auf eine bestimmte Anzahl an Dezimalstellen. Syntax: RUNDEN(Zahl;
Anzahl_Stellen). „Zahl“ ist die Zahl, die Sie runden, während „Anzahl_Stellen“ an-
gibt, auf wie viele Dezimalstellen Sie die Zahl runden möchten. Am besten, Sie
rufen den Funktionsassistenten auf (Schaltfläche fx in der Eingabezeile ankli-
cken!). Ist Anzahl_Stellen größer als 0, wird Zahl auf die angegebene Anzahl an
Dezimalstellen gerundet. Ist Anzahl_Stellen gleich 0, wird Zahl auf die nächste
ganze Zahl gerundet. Ist Anzahl_Stellen kleiner als 0, wird der links vom Dezimal-
zeichen stehende Teil von Zahl gerundet.
Beispiele: RUNDEN(2,15; 1) ergibt 2,2 RUNDEN(2,149; 1) ergibt 2,1 RUNDEN(-1,475; 2) ergibt -1,48 RUNDEN(21,5; -1) ergibt 20 Analog dazu gibt es die Funktion AUFRUNDEN():Rundet die Zahl auf die
„Anzahl_Stellen“ auf. Syntax: AUFRUNDEN(Zahl; Anzahl_Stellen). „Zahl“ ist wie-
der die reelle Zahl, die aufgerundet werden soll, „Anzahl_Stellen“ gibt an, auf wie
viele Dezimalstellen die Zahl gerundet werden soll. Die Funktion AUFRUNDEN
unterscheidet sich von der Funktion RUNDEN nur dadurch, daß sie eine Zahl
immer aufrundet.
Ist „Anzahl_Stellen“ größer gleich 1, wird die jeweilige Zahl entsprechend
der angegebenen Anzahl an Dezimalstellen aufgerundet. Ist „Anzahl_Stellen“
gleich 0 oder nicht angegeben, wird die jeweilige Zahl auf die nächste ganze Zahl
5 Wichtige Rechenregeln I Seite - 37 -
aufgerundet. Ist „Anzahl_Stellen“ kleiner als 0, wird die jeweilige Zahl links vom
Dezimaltrenner aufgerundet.
Beispiele: AUFRUNDEN(3,2;0) ergibt 4 AUFRUNDEN(76,9;0) ergibt 77 AUFRUNDEN(3,14159; 3) ergibt 3,142 AUFRUNDEN(-3,14159; 1) ergibt -3,2 AUFRUNDEN(31415,92654; -2) ergibt 31500 Vorsicht ist auf alle Fälle bei sehr kleinen Zahlen geboten, wie das folgende
Beispiel zeigen soll:
Unterschiede im 10 000stel Bereich werden dann nicht erkannt, wenn z.B.
das Datenblatt nur auf 100stel Anzeige formatiert ist. Dies ist nicht weiter tragisch,
da die ursprünglichen Daten ja vorhanden sind. In so einem Fall ist es immer
günstig, die kleinen Zahlen mit einem geeigneten Faktor zu multiplizieren (man
beachte aber das nächste Kapitel!). Auf eine weitere Eigenschaft sei hier aufmerk-
sam gemacht: Wenn Sie in die Zelle A1 z.B. 0,1 und in Zelle A2 0,09 eingeben
und die Reihe mit AutoAusfüllen fortsetzen, so müßte in Zelle A11 „0“ stehen -
steht aber nicht! - sondern eine sehr kleine Zahl (s. Tabelle 5). Dieser Fehler wirkt
sich dann drastisch aus, wenn z.B. wie in Zelle B12 der reziproke Wert gebildet
wird! Statt der Fehlermeldung: #Div/0! (Division durch Null) steht eine enorm gro-
ße negative Zahl!
Tab. 5: Fehler beim AutoAusfüllen A B
1 0,12 0,093 0,084 0,075 0,066 0,057 0,048 0,039 0,02
10 0,0111 -8,3267E-17 -1,201E+1612 -0,0113 -0,0214 -0,0315 -0,04
Gegebenenfalls sollte man die Zahlen kontrollieren und manuell eingeben.
Besondere Vorsicht ist aber dann geboten, wenn Sie unter Visual Basic program-
mieren und auf solche Zahlen zurückgreifen!
Seite - 38 - 5 Wichtige Rechenregeln I
5.3 Fehlerfortpflanzung
5.4 Rechenkontrolle
Bei jeder Rechenoperation mit fehlerbehafteten Zahlen wächst der Fehler
des Resultates (Fehlerfortpflanzung). Dies sei an Hand der Grundrechnungsarten
an einem übersichtlichen Beispiel gezeigt
Gegeben sind zwei fehlerbehaftete Zahlen:
30 ± 3 = 30 ± 10 % Streubereich 27 ... 33. 20 ± 1 = 20 ± 5 % Streubereich 19 ... 21
Das Ergebnis Resultat relativer
liegt zwischen Fehler
Addition:
27 + 19 = 46 33 + 21 = 54 50 ± 4 = ± 8 %
Subtraktion:
27 - 21 = 6 33 - 19 = 14 10 ± 4 = ± 40 %
Multiplikation:
27 . 19 = 513 33 . 21 = 693 603 ± 90 = ± 14 %
Division:
27 : 21 = 1,286 - 0,214 - 14 % 33 : 19 = 1,737 1,5 + 0,237 + 16 %
Besonders beim Subtrahieren steigt der Fehler drastisch an!
Durch Quadrieren nimmt der relative Fehler wie bei der Multiplikation zu; in
diesem speziellen Fall wird er verdoppelt.
Achtung! Für das Rechnen mit Mittelwerten und deren Standardabweichun-
gen gelten besondere Regeln! ( Kap. 8, Seite 58)
6 Die Normalverteilung Seite - 39 -
6 Die Normalverteilung
6.1 Der Begriff
Eigentlich paradox: Meßergebnisse, die bei vielfacher Wiederholung um ei-
nen Mittelwert pendeln, also innerhalb eines Bereiches zufällig variieren, ordnen
sich, graphisch aufgetragen, zu einer glockenartigen Figur mit dem Scheitel (der
größten Häufigkeit) im arithmetischen Mittel nd beiseitigem symmetrischen Abfall
der Häufigkeit; je weiter ab vom Mittelwert der Meßwerte liegen, desto seltener
treten sie auf. Diese Figu heißt GAUSSsche Verteilungskurve oder Fehlerkurve,
meist aber kurz Normalverteilung
Sie ist, wiewohl zufällig zustandegekommen, als mathematisches Modell
durch eine Exponentialfunktion exakt beschreibbar (GAUSSsches Fehlerintegral;
mathematisch Interessierte seien auf ein ausführliches Lehrbuch verwiesen).
Die Bezeichnung „Normalverteilung“ darf nicht dahingehen verstanden wer-
den, daß sie besonders häufig aufträte, also das „Normale“ wäre, im Gegenteil,
exakte Normalverteilungen sind sogar höchst selten. In der Regel hat man es mit
'angenäherten Normalverteilungen' zu tun. „Normal“ bezieht sich vielmehr auf die
dank ihrer Eigenschaften gegebenen Möglichkeit der mathematischen Behand-
lung, wodurch sie eine sichere, weil definierte Grundlage vieler statistischer Tests
und Entscheidungen ist.
Zum besseren Verständnis der Folgenden ist daher ein kurzer theoretischer
Einschub geboten.
Seite - 40 - 6 Die Normalverteilung
6.2 Die Eigenschaften der Normalverteilung
0
0,02
0,04
0,06
0,08
0,1
0,12
68,2%95,4%99,8%
x s 2s 3s-2s -s-3s
Abb. 7: Die Normalverteilung und ihre Parameter. Erklärung im Text.
• Der Scheitel der Glockenkurve markiert das arithmetische Mittel µ bzw. x 1 ;
• die Kurvenäste fallen beidseitig sigmoidartig und symmetrisch ab;
• der Abstand der Wendepunkte der beiden Kurvenäste vom arithmetischen Mit-
tel (± σ, ± s) markiert die mittlere quadratische Abweichung = Standardabwei-
chung der Einzelwerte, ein höchst wichtiges Streumaß ( Kap. 7, Seite 50);
• die durch die Wendepunkte (σ s) der Kurve angelegten Tangenten schneiden
die x-Achse im Abstand ± 2 s (± s σ);
• im Bereich -s ... x ... +s (-σ ... µ ... + σ) werden von der Kurve und der Abszisse
68,24 % der Gesamtfläche umschlossene, d.h. in ihr sind ≈ 2/3 aller Einzelwerte
zu erwarten;
• über dem Bereich -2s ... x ... +2s (-2σ ... µ ... +2σ) liegen 95,45 % der Gesamt-
fläche, d.h. daß in diesem 95,45 % der Elemente zu erwarten sind, im Bereich -
3s ... +3s (± 3σ) mit 99,73 % praktisch alle Elemente.
Diese Anteile sind wichtige Grundlagen für zahlreiche statistische Tests.
1Zur Erinnerung; die kennzeichnenden Größen von Grundgesamtheiten (Parameter) wer-
den mit griechischen Symbolen bezeichnet, die der Stichproben (Statistiken) mit lateinischen (∏ Kap. 2.4, Seite 12).
6 Die Normalverteilung Seite - 41 -
Eine im Vergleich zum Mittelwert große Standardabweichung (großes σ
bzw. s) bedeutet eine flache gewölbte Glockenkurve mit breiter Streuung der Ein-
zelwerte, ein im Vergleich zu x (µ) kleines s (kleines σ) eine überhöhte (eher spit-
ze) Glockenkurve mit geringer Streuung (Kurve mit großem 'Exzeß')2)
Jede Normalverteilung kann durch ihr 'Monogramm' N (µ;σ), bei Stichpro-
ben durch N (x; s), also durch die Zahl ihrer Elemente N, deren Mittelwert µ (bei
Stichproben x) und die Standardabweichung σ (bzw. s) eindeutig definiert werden.
Die Eigenschaften der Normalverteilung, auch die Flächenanteile der Kurvenab-
schnitte, werden durch unterschiedliche Wölbung (unterschiedlichen Exzeß) nicht
berührt.
Daher ist es möglich, jede Normalverteilung in eine standardisierte Form,
die Standardnormalverteilung mit dem Mittelwert x (µ) = 0 und der Standardabwei-
chung s (σ) = 1 („Monogramm“ N (0,1)) überzuführen.
Die Standardisierung kommt zustande, indem die Einzelwerte einer beliebi-
gen Normalverteilung mit dem Ausdruck
(x )bzw.
(x - x)s
− µσ
~
transformiert werden, dadurch wird die 'originale' Verteilung N (µ; σ) auf die
Kurve mit dem „Monogramm“ N (0;1) 'normiert'.
Fig.
Die x-Achse (Abszisse) der Normalverteilung wird durch die Standardisier-
tung zur z-Achse.
Nach dem Gesagten mag es scheinen, jede Normalverteilung müsse erst
mühsam umgerechnet werden. Keineswegs: wie jede Normalverteilung ohne Än-
derung ihrer wesentlichen Merkmale in die Standardform übergeführt werden
kann, so gelten umgekehrt die standardisierten Daten auch für jede andere Nor-
malverteilung! Man braucht also nicht jedesmal eine eigene Tabelle zu entwickeln,
2) Für Wölbung wie Exzeß gibt es natürlich auch mathematische Ausdrücke; für den Biolo-
gen dürften sie aber kaum von Bedeutung sein, weshalb hier nicht nächer darauf eingeganen wird. Bei Bedarf sie auf Lehrbücher der Statistik verwiesen.
Seite - 42 - 6 Die Normalverteilung
man kommt mit der an der Standardkurve aufgestellten Tabelle in praktisch jedem
Fall aus.
Setzt man die gesamte, von der z-Achse und der Glockenkurve umschlos-
sene Fläche per definitionem gleich 1, so lassen sich aus dem GAUSSschen In-
tegral für alle z-Werte die zugehörigen y-Werte angeben; für einige ausgezeichne-
te z-Werte sind die y-Koordinaten nachstehend angeführt; ausführliche Tabellen
findet man in jedem Statistikbuch.
Tab. 6: Einige ausgezeichnete Ordinaten y der Standardnormalverteilung. y = absolute Werte, y* = Scheitel gleich 1 gesetzt (relative Werte).
z y Y*
± 0 0,3989 1,0000 = 1
± 0,5 0,3521 0,8827 ≈ 7/8
± 1,0 0,2420 0,6067 ≈ 5/8
± 1,5 0,1295 0,3246
± 2,0 0,0540 0,1354 ≈ 1/8
± 3,0 0,0044 0,0110 ≈ 1/80
± 4,0 0,0001 0,00025
Die beigesetzten Bruchzahlen (n. SACHS [2]) approximieren sehr gut die auf
y = 1 bezogenen Ordinationswerte und können zum raschen Zeichnen einer Nor-
malverteilungskurve hilfreich sein.
Tab. 7: Über nachstehenden Abschnitten der z-Achse befinden sich folgende perzentuale Anteile der von der Glockenkurve umschlossenen Gesamtfläche der Normalverteilung:
von z = -1,64 bis z = +1,64 90 %
-1,96 bis z = +1,96 95 %
-2,58 bis z = +2,58 99 %
-3,29 bis z = +3,29 99,9 %
Wir werden mit diesen wichtigen Grenzwerten noch oft zu tun bekommen!
Sie geht von einer kontinuierlichen Meßgröße und von einer großen An-
zahl an Versuchen bzw. Stichproben aus.
Beispiel: Bei der Bestimmung des Durchmessers von Pollen ergibt sich ein
Mittel von 20 µm mit einer Standardabweichung von 4 µm.
6 Die Normalverteilung Seite - 43 -
Normalverteilung
x f(x) 10 0.0043820
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
10 12 14 16 18 20 22 24 26 28 30
11 0.0079349 12 0.0134974 13 0.0215693 14 0.0323794 15 0.0456622 16 0.0604926 17 0.0752843 18 0.0880163 19 0.0966670 20 0.0997355 21 0.0966670 22 0.0880163 23 0.0752843 24 0.0604926 25 0.0456622 26 0.0323794 27 0.0215693 28 0.0134977 29 0.0079349 30 0.0043820
f(x)=NORMVERT(x;20;4;0)
Das mathematische Modell hizu ist:
f(x)=(1/wurzel(2*pi())*exp(1)^-(x^2/2)
Im Gegensatz zu den diskreten Verteilungen sagt die Dichtefunktion bei
kontinuierlichen Verteilungen nichts über die Wahrscheinlichkeit eines bestimm-
ten Wertes aus. Es ist ein Irrtum anzunehmen die Wahrscheinlichkeit, daß ein zu-
fällig ausgewählter Pollen genau 20 µm hat, sei 0,1. Das leuchtet unmittelbar ein,
weil die Wahrscheinlichkeit, daß die Messung genau 20 ergibt (auf beliebig viele
Stellen genau) praktisch bei 0 liegen muß.
Um die Wahrscheinlichkeit für ein bestimmtes Maß zu ermitteln, muß man
daher mit der Verteilungsfunktion (bei Excel mit der kummulierten Dichtefunktion)
arbeiten. Die Wahrscheinlichkeitsverteilung liefert die Wahrscheinlichkeit, dafür,
daß der gemessene Wert gleich oder kleiner als der jewilige x-Wert liegt. Um für
ein gewisses Intervall die Wahrscheinlichkeit anzugeben, ob ein gemessener Pol-
len zwischen 19.8 und 20.2 µm, ist demnach zu rechnen mit:
NORMVERT(20.2;20;4;WAHR)- NORMVERT(19.8;20;4;WAHR)
Das Ergebnis ist dann ca. 0.04, d. h. ca. 4 % der gemessenen Pollen wer-
den im Schnitt in diesem Intervall liegen.
Seite - 44 - 6 Die Normalverteilung
6.3 Prüfung auf Normalität
Ob Normalverteilung vorliegt oder nicht läßt sich vielfach, namentlich bei
überschaubarem Umfang des Datenmaterials, schon nach dem subjektiven Ein-
druck, sozusagen nach dem Augenmaß, entscheiden. Von den Verfahren, die zur
objektiven Prüfung auf Normalität einer Verteilung angegeben werden, seien hier
zwei angeführt:
Die Sigma-Regeln und
die HAZENsche Grade
6.3.1 Die Sigma-Regeln.
Angenäherte Normalverteilung liegt vor, wenn folgende Bedingungen erfüllt
sind:
• alle Abweichungen (exakt 99,7 %) müssen zwischen -3σ ... +3σ (+3s ... +3a)
liegen;
• aller Abweichungen müssen kleiner als σ (kleiner als s) sein und
• % der Abweichungen müssen innerhalb 0,67 σ (s) liegen.
• Die Regeln ergeben sich aus den Eigenschaften der Normalverteilung.
6.3.2 Die HAZENsche Gerade
Um diese interessante graphische Prüfmethode vorzustellen greifen wir auf
die symmetrische Verteilung der Fig. ... zurück und wandeln diese in eine Sum-
menkurve um: Dazu drücken wir die Anteile der einzelnen Klassen (die Frequen-
zen f) in Prozenten der Gesamtzahl der Elemente n aus und summieren schritt-
weise, sie gleichsam aufeinanderstapelnd auf:
Tab. 8: Symmetrische Verteilung (= Fig ..) Vorbereitung der Summenkurve.
Klasse f f in % von n ∑f (%)
1 1 6,25 6,25
2 4 25,00 31,25
3 6 37,50 68,75
4 4 25,00 93,75
6 Die Normalverteilung Seite - 45 -
5 1 6,25 100,00
Der Auftrag der schrittweise summierten Prozentwerten über den Klassen-
nummern als Abszisse ergibt eine Treppenkurve; sie läßt sich unschwer zu einer
S-förmigen (sigmoidalen) Kurve glätten (Fig. ...)
Der sigmoidale Verlauf erinnert an die 'Große Periode' des Wachstums.
Anders wird das Bild nach Auftrag der Treppenkurve in das sog. 'Wahr-
scheinlichkeitspapier' (oder Wahrscheinlichkeitsnetz). Dieses ähnelt dem Millime-
terpapier, der Ordinatenmaßstab ist jedoch von der 50 % - Marke ausgehend nach
oben und unten nach dem GAUSSschen Integral zunehmend gedehnt1) . Nach
diesem Auftrag ordnen sich die Punkte der Treppenkurve, Normalität vorausge-
setzt, zu einer Geraden (HAZENsche Gerade2) (Fig. ...)
Fig.
Fig. a) Angenäherte Normalverteilung mit Summenkurve. b) Die Summen-
kurve in das Wahrscheinlichkeitspapier übergetragen: HAZENsche Gerade.
Abweichungen von der Normalität geben sich durch Krümmung der HAZEN-
schen 'Geraden' zu erkennen (Fig...)
Zur Prüfung genügt es, den Bereich zwischen 5 % und 95 % zu beachten.
Wieweit kleine Abweichungen von der Geraden toleriert werden können, hängt
davon ab, wie empfindlich oder wie robust der anschließend vorgesehene statisti-
sche Test gegenüber Abweichungen von der Normalität ist.
Eine einfache überschlägige Prüfung auf Vorliegen von Normalität durch
Vergleich von Standardabweichung und Spannweite. Prüfung mittels des χ2-Test.
LORENZ gibt ein Diagramm (nach IMAN), das die Prüfung auf Normalität be-
reits auf Grund der Treppenkurve erlaubt.
1) Notfalls kann man die Ordination des Wahrscheinlichkeitsnetzes selbst auf Millimeterpa-
pier übertragen. Von der 50 % -Marke in der Mitte der Ordinate (Hochformat DIN A4) ausgehend und von dieser gemessen werden nach oben wie nach unten folgende Strecken aufgetragen (mm); Bezifferung wie Fig. ..
40/60% ± 9: 30/70%; 20/80% ± 30; 10/90% ± 47; 5/95% ± 60; 3/97% ± 68; 1/99% ± 86; 0,5/99,5% ± 97; 0,1/99,9% ± 114mm.
2) Nach einem englischen Ingenieur (wohl he18n gesprochen).
Seite - 46 - 6 Die Normalverteilung
6.4 Normalisierende Transformationen
Die Vorzüge der Normalverteilung lassen es wünschenswert erscheinen,
auch andere Verteilungen in die Normalform überzuführen. Dies ist bei manchen
stetigen Verteilungen möglich.
Als Beispiel wählen wir die linksschiefe Verteilung der Fig. ..(identisch mit
Fig...). Der Auftrag der Summenkurve in das Wahrscheinlichkeitsnetzt (vgl. ...) re-
sultiert eine deutlich gewölbte HAZENsche 'Gerade' (Fig... dick ausgezogen). Nor-
malität liegt also nicht vor und die für die Normalverteilung geltenden Regeln sind
nicht anwendbar.
Gelingt es, den linken Ast der Fig. ..zu dehnen und/oder den rechten zu
stauchen, könnte eine angenäherte Normalität erreicht werden. Als Weg dazu bie-
tet sich das Logarithmieren der Abszissenskala an; dadurch werden die niedrige-
ren Abszissenwerte stärker gedehnt als die höheren Bereiche.
Die Daten der in Rede stehenden Verteilung sind umseitig nach dem Mus-
ter von Tab. 6.x in Tabellenform zusammengestellt. Aus ihnen ergibt sich ein a-
rithmetisches Mittel von x = 58/16 = 3,625, es liegt an einer untypischen Stelle;
dasselbe trifft auch für den Median x = 3,3 zu.
In diesem Falle ist es zweckmäßig, die stärkst besetzte Klasse, also das
Dichtemittel D : 2,5 als Ausgangspunkt zu wählen. Der linke Ast der Verteilung
reicht vom Dichtemittel bis 0 und umfaßt damit 2,5 Einheiten, der rechte von 2,5
bis 9,0 überstreicht 6,5 Einheiten, es besteht also eine starke Asymmetrie.
Tab. Daten zur logarmithmischen Transformation einer linksschiefen Vertei-
lung 1 Klassen-Nr 1 2 3 4 5 6 7 8
2 Klassenmittel x1 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5
3 Besatz f der Klassen 1 2 4 3 2 2 1 1 n =16
4 ∑f.x1 0,5 3,0 10,0 10,5 9,0 11,0 6,5 7,5 = 58
5 desgl. in % 6,25 12,50 25,00 18,75 12,50 12,50 6,25 6,25
6 summiert 6,25 18,75 43,75 62,50 75,00 87,50 03,75 100,0
0
7 lg 10xi 0,7 1,40 1,87
8 lg (xi+1,5) 0,3 0,6 0,95
Fig. Log-Transformation der linksschiefen Verteilung gem. Tab... a: Origi-
nalverteilung; b: desgl. über logarithmischer Abszisse; c: Summenkurve a linearer
6 Die Normalverteilung Seite - 47 -
Auftrag (obere Skala, Klassennummern wie Fig. a), b (strichliert) über logarith-
misch geteilter Abszisse (HAZENsche Gerade).
Beim Logarithmieren ist das erste Glied recht unbequem. Von den beiden
Möglichkeiten, den Wert <1 zu umgehen, eine additive Konstante oder Multiplika-
tion mit einem konstanten Faktor, entscheiden wir uns für die Zweite und wählen
hiezu den Faktor 10; an der Verteilung selbst ändert sich dadurch nichts. Die so
erhaltenen 1g 10x - Werte (es reichen dazu die 'Kurz-Logarithmen' von Kap... völ-
lig aus) überstreichen links vom Dichtemittel den Bereich vom0,7 bis 1,40 = 0,7
Einheiten, im flacheren rechten Teil von 1,40 bis 1,87 = 0,47 Einheiten. Wir haben
also den Guten etwas zuviel getan (den rechten Ast zu sehr gestaucht) und müs-
sen den 'lg-Effekt' mildern. Dies erreichen wir, indem wir die Verteilung durch eine
addidative Konstante +d in einen flacheren Teil der lg-Kurve verschieben. Wir ver-
suchen es mit d = 1,5, die wir den originalen Werten zuzählen (da dadurch alle
Werte über 1 zu liegen kommen, ist ein Konstantfaktor wie beim ersten Versuch
überflüssig. Den mit d = +1,5 erhaltenen Wert der Zeile .. in Tab .. entnehmen wir,
daß nun der linke Ast von 0,30 bis 0,60, also über 0,3 lg-Einheiten reicht, der rech-
te von 0,60 bis 0,95, das sind 0,35 Einheiten. Damit wollen wir uns zufriedenge-
ben, die Verteilung ist nun fast symmetrisch. Die über der logarithmisch geteilten
Grundlinie des Wahrscheinlichkeitsnetzes aufgetragene Summenkurve ergibt eine
recht ordentliche HAZENsche Gerade (Fig ...) - die schiefe Verteilung wurde in eine
Lognorm-Verteilung transformiert.
Mit Lognorm-Verteilungen hat der Biologe nicht selten zu tun, z.B. bei Pro-
zessen, die einem Endwert zustreben, wie Enzymkinetiken, Dosis-Wirkungs-
Kurven, wenn große Zeitspannen oder weite Konzentrationsbereiche zu erfassen
sind (pH-Skala).
Zur Dehnung des steileren Astes einer rechtsschiefen Verteilung bieten sich
Potenexponenten >1 an. Um eine solche Verteilung mit den Kardinalpunkten 3
(Minimum), 7 (Optimum) und 9 (Maximum) zu 'normalisieren', stößt man nach ei-
nigem Probieren auf den Potenzexponenten x2,5 (keine Sorge, jeder bessere Ta-
schenrechner schafft gebrochene Potenzen mit der yx-Taste spielend!). Damit po-
tenziert ergeben sich als (transformierte) Kardinalpunkte 32,5 = 15,6, 72,5 = 129,6
und 92,5 = 243,0. Die Differenz Optimum - Minimum beträgt 114,0, vom Optimum
Seite - 48 - 6 Die Normalverteilung
zum Maximum 113,4; bezogen auf das Optimum (z.B. Dichtemittel) ist eine gera-
dezu vollkommene Symmetrie erreicht!.
Potenzexponenten <1 (also Wurzeln) eignen sich auch zur Stauchung hö-
herer Werte linksschiefer Verteilungen; mitunter läßt sich damit eine bessere Nor-
malisierung erzielen als auch Log-Transformation.
Die Brauchbarkeit derart transformierter Verteilungen für weitere Tests ist
eingeschränkt. Vorsicht (und das Zurateziehen eines ausführlichen Lehrbuches)
sind im Bedarfsfalle dringend geboten!
Eigentlich ein schreckliches Kapitel:
Es werden genaue Anweisungen für etwas geboten, das in der Mathematik
strengstens verpönt, zu perhorreszieren ist: Hier darf probiert werden!
6.5 Der zentrale Grenzwertsatz
An dieser Stelle sei auf ein interessantes und auf den ersten Blick paradox
erscheinendes Phänomen hingewiesen: Werden aus einer beliebig verteilten
Grundgesamtheit fortlaufend Stichproben entnommen, so nähern sich die Diffe-
renzen ihrer Mittelwerte zum Mittelwert der Grundgesamtheit mit steigender Stich-
probenzahl einer Normalverteilung (Zentraler Grenzwertsatz).
Dies sei an einem extrenen, jedoch überschaubaren Beispiel demonstriert:
Gehen wir von einer Verteilung der Form
1 2 3 4 5
also einer Gleichverteilung aus und denken uns daraus eine große Zahl von
Zufallsstichproben zu je 3 Elementen gezogen. Insgesamt sind 53 = 125 verschie-
dene Dreierkombinationen möglich, die alle mit der gleichen Wahrscheinlichkeit
auftreten.
111 211 311 411 511
112 212 312 412 512
113 213 313 413 513
114 214 314 414 514
121 221 321 421 521
122 222 322 422 522
6 Die Normalverteilung Seite - 49 -
... ... ... ... ...
125 225 325 425 525 usw.
... ... ... ... ...
... ... ... ... ...
151 251 353 452 552
152 252 353 453 553
... ... ... ... ...
155 255 355 455 555
Der Mittelwert, der aus 5 Gliedern bestehenden 'Grundgesamtheit' ist 3.
Die Differenzen der Mittel aus den Dreiergruppen (= Stichprobenmittel) zum
Gesamtmittel treten mit folgender Häufigkeit auf:
-2,0 -1,7 -1,3 -1,0 -0,7 -0,3 0 0,3 0,7 1,0 1,3 1,7 2,0
1 3 6 10 15 18 19 18 15 10 6 3 1
also eine, angenäherte Normalverteilung der Differenzen - die Sigma-
Regeln treffen zu und die HAZENschen Gerade ist wirklich eine recht ordentliche
Größe!
Eine unregelmäßige Verteilung nach Art der Fig. .. würde zwar eine etwas
verzerrte Normalverteilung ergeben, aber immerhin eine deutliche Annäherung an
diese (es wären bei diesem Beispiel 163 = 4,096 Dreiergruppen möglich, wer mag,
darf als Fleißaufgabe nachrechnen (In LORENZ ist ein Beispiel mit Dreier-
Stichproben aus einer Gesamtheit von 10 Elementen durchgerechnet und gra-
phisch dargestellt.)
Durch computerunterstützte, zufallsgenerierte Entnahme vieler tausender
Stichproben können auch kleine Mengen unregelmäßig verteilter Daten für exakte-
re statistische Bearbeitung aufbereitet werden.
Die Erklärung für den Zentralen Grenzwertsatz liegt eigentlich auf der Hand:
Von den randständigen Werten sind nur wenige (weil einseitige mögliche) größere
Differenzen zum Mittelwert möglich; je näher dem Mittelwert, desto kleiner, aber
auch, weil beidseitig möglich, häufiger werden die Differenzen.
Seite - 50 - 7 Streumaße I
7 Streumaße I
Varianz und Standardabweichung
7.1 Die Begriffe
Varianz und Standardabweichung sind die in der statistischen Praxis weit-
aus am häufigsten gebrauchten Streumaße.
Die Varianz (Symbol σ2 bzw. s2) ist das arithmetische Mittel der quadrierten
Abweichungen der Elemente vom Mittelwert der Grundgesamtheit/Stichprobe.
Die Quadratwurzel aus der Varianz ist die Standardabweichung, auch als
Standardfehler bezeichnet.
Das Symbol ist σ (bei Grundgesamtheiten) bzw. s (bei Stichproben).
Da jedes Quadrat eine positive und eine negative Wurzel hat, ist auch die
Standardabweichung korrekt ±σ oder ±s zu schreiben.
Die Angabe von Varianz und Standardabweichung ist nur bei Vorliegen ei-
ner wenigstens angenäherten Normalverteilung sinnvoll; ihre Ermittlung zählt dazu
zu den parametrischen Verfahren.
Prüfverfahren auf Normalität einer Verteilung, Streumaße nicht normaler
Verteilungen.
7.2 Berechnung von Varianz und Standardabweichung
Zur Berechnung der Varianz (Standardabweichung) von Stichproben und
Grundgesamtheiten dienen geringfügig verschiedene Formeln. Da biologisches
Material meist Stichprobencharakter besitzt, wird man in der Regel nach folgender
Formel vorgehen:
a) Varianz einer Stichprobe:
Formel
Die Standardabweichung ist die Quadratwurzel aus der Varianz oder
Formel
b) Bei Grundgesamtheiten gilt folgende Formel:
Formel
7 Streumaße I Seite - 51 -
Warum bei Stichproben im Nenner von n-1 statt n zu stehen hat, ist (etwas
vereinfacht) so zu begründen: Von z.B. 10 Elementen einer Stichprobe können 9
zufällig und voneinander unabhängig variieren; der zehnte Wert ergibt sich jedoch
zwangsläufig, soll er, ohne die Stichprobe zu verändern, in diese 'hineinpassen'.
Daher rechnet man bei Stichproben nicht mit n (hier 10) Elementen, sondern mit 9
Freiheitsgraden.
Bei Stichproben n >30 begeht man einen zu vernachlässigenden Fehler,
wenn man Formel, (also mit n im Nenner) benutzt.
Für 'Freiheitsgrad' gibt es kein festgelegtes Symbol. Man findet in der Lite-
ratur hiefür FG (nicht sehr glücklich, da Symbole aus zwei gleichwertigen Gliedern
vermieden werden sollten), oder einfach F (Verwechslung mit dem F-Test mög-
lich); auch v, (ny, das griechische n), wird gerne gebraucht, obwohl griechische
Symbole Parametern vorbehalten bleiben sollten. Weil aber dieses Symbol kaum
zu Verwechslungen Anlaß gibt, scheint v der praktikabelste Ausweg aus dem Di-
lemma zu sein; es wird in dieser Darstellng konsequent als Symbol für 'Freiheits-
grad(e)' benutzt.
In der 'statistischen Jargon' spricht man nicht selten von 'Streuung', meint
aber damit die Standardabweichung. Die beiden Ausdrücke sind aber NICHT syn-
onym! Unter Streuung kann nur die Spannweite, der Bereich, über den die Einzel-
werte verteilt sind, verstanden werden. Varianz und Standardabweichung sind
(gleich der im nächsten Kapitel behandelten Quartile und Perzentile) Streumaße,
die, wie der Terminus eindeutig erkennen läßt, eine definierte Kenngröße für das
Ausmaß der Streuung angeben. Gerade in der Statistik liegt im unkorrekten
Sprachgebrauch die Quelle manchen Mißverständnisses und Irrtums!
7.3 Berechnungsbeispiele
Obwohl heutzutage in fast jedem Taschenrechner elementare statistische
Funktionen eingebaut sind, so ist die Befassung mit den Rechenvorgängen kei-
neswegs überflüssig. Einfache Rechner schaffen die Standardabweichung von
klassifiziertem Material nicht, die dann unvermeidliche 'händische' Berechnung
setzt die Kenntnis der Rechenvorgänge voraus.
Beispiel 1:
Gegeben sei eine annähernd normalverteilte Zahlenreihe, gesucht µ und σ
(x und s),
Seite - 52 - 7 Streumaße I
Tab. Annähernd normalverteilte Zahlenreihe
x x-x (x-x)2 [x2]1)
6 -4 16 36
7,5 -2,5 6,25 56,25
9,5 -0,5 0,25 90,25
10,5 0,5 0,25 110,25
11 1 1 121,00
12 2 4 144,00
13,5 3,5 12,25 182,25
∑x = 70 ∑(x-µ) = 02) ∑(x-µ)2 = 40 ∑x2 = 740
Die in Beispiel 1 gezeigte Berechnung ist zwar recht übersichtlich; bei grö-
ßerem Zahlenmaterial aber unbequem. In solchen Fällen empfiehlt es sich, eine
der unter B - E beschriebenen Methode anzuwenden.
Beispiel B: Das Multiplikationsverfahren
Dieses Verfahren arbeitet nach folgender Formel:
Formel
Mit den Zahlen aus dem vorigen Beispiel (die Werte für X2 finden sich in
Tab. ..
Formel
also den gleichen Wert wie im Beispiel A.
Nach dieser Methode arbeitet der Taschenrechner.
Obwohl Formel .. und .. durch elementare algebraische Operationen inein-
ander überführbar sind, ist man vor Überraschungen nie ganz sicher; TIMISCHL
gibt hiefür ein interessantes Beispiel.
Es soll die Varianz von 3 exakten Zahlen, 1,07, 1,08 und 1,09 (also 3 signi-
fikante Stellen) bestimmt werden.
Formel
Zweifellos ein (wohl ad hoc konstruierter) Extremfall, der immerhin, beson-
ders bei kleinen Spannweiten, zur Vorsicht mahnt!
1) x2 betrifft Beispiel 2 auf der folgenden Seite.
7 Streumaße I Seite - 53 -
Beispiel C: Klassifiziertes Material
Mit der Multiplikationsmethode können σ bzw. s von klassifizierten Beo-
bachtungen nach folgender von abgeleiteter Formel berechnet werden:
Formel
Als Beispiel wählen wir die Verteilung der Größen von 500 Bohnen (Tab.
..)3)
Tab. Verteilung der Größe von 500 Bohnen:
Klas-
senmittel mm
f f.x x2 f.x2
11 1 11 121 121
12 8 96 144 1.152
24 47 611 169 7,943
14 68 962 196 13,328
15 201 3,015 225 45,225
16 119 1,904 256 30,464
16 42 714 289 12,138
18 12 216 324 3,888
19 2 38 361 722
∑f = 500 ∑fx = 7,567 ∑f.x2 = 114,981
Bei breiten Klassen und sehr großem n kann ein systematischer Fehler
durch die SHEPPARDsche Korrektur behoben werden: scor2 = s2 - b2/12.
Berechnungsbeispiel D:
Mit provisorischer Skala
Bei so großen Zahlen wie in Beispiel 3 kommt man zu recht unhandlichen
Zahlen. In solchen Fällen geht man bequemer auf eine provisorische Skala über.
Dazu wählt man ein ganzzahliges Mittel d, am günstigsten die am stärksten
besetzte Klasse. Ziehen wir wieder unser in Beispiel C behandeltes Bohnenbei-
2) Wichtige Rechenkontrolle: die Summe aller Plus- und Minus-Abweichungen soll zusam-
men 0 betragen! 3) Das Beispiel hat die 'Bohnenorgel', ein Modell im Grazer Pflanzenphysiologischen Institut
als Vorbild.
Seite - 54 - 7 Streumaße I
spiel heran: als provisorisches Mittel wählen wir d = 15. Dieses ziehen wir von al-
len Beobachtungen ab und erhalten so handlichere Zahlen (x*, spr. x Stern). Die
Tabelle ... nimmt nach dieser linearen Transformation folgende Form an:
Tab. Die Werte der Tag. linear transgormiert (provisorische Skala)
x - d x* f f.x* x*2 f.x*2
11 - 15 -4 1 -4 16 16
12 - 15 -3 8 -24 9 72
13 - 15 -2 47 -94 4 199
14 - 15 -1 68 -68 1 68
d - 15 0 201 0 0 0
16 - 15 1 119 119 1 119
17 - 15 2 42 64 4 169
18 - 15 3 12 36 9 108
19 - 15 4 2 8 16 32
Die geringfügige Differenz zu dem nach Berechnung gemäß Beispiel 3 er-
haltenen Wert ist durch Rundungsfehler bedingt.
Beispiel E: Das Summenverfahren
Bei sehr großem Zahlenmaterial ist das Summenverfahren vorteilhaft. Da-
bei kommt man fast nur mit Additionen, dreimaligem Aufsummieren der Frequen-
zen von den Enden der Zahlenreihe gegen ein provisorisches Mittel d, aus. Der
Vorgang sei am gleichen Beispiel wie in 3 und 4, der 'Bohnenorgel' demonstriert:
Tab. Das Datenmaterial von Tab. ... nach dem Summenverfahren aufgear-
beitet (d = 15).
x f f1 f2 f3
11 1 1 1 1
12 8 9 10 11
13 47 56 66 77
14 68 120 190 = S1 267 = S3
15 = d 301
16 119 175 247 = S2 337 = S4
17 42 56 72 90
7 Streumaße I Seite - 55 -
18 12 14 16 18
19 2 2 2 2
Zur Berechnung benötigen wir die Hilfsgröße c:
Mit den Zahlen unseres Bohnenbeispiels:
Also das gleiche Resultat wie mit dem Verfahren nach Beispiel C und D!
7.4 Standardfehler und Spannweite: Grobschätzung von s
Zwischen der Standardabweichung und der Spannweite normal verteilter
Grundgesamtheiten/Stichproben besteht eine stochastische Beziehung, die u.a.
eine Grobschätzung der Standardabweichung erlaubt. Dazu teilt man die Spann-
weite R durch den in nachstehender Tab. .. unter der jeweiligen Zahl der Elemente
n stehenden Faktor f:
Tab. Zur Grobschätzung der Standardabweichung
n 4 10 15 20 30 50 75 100 200 500 1000
f 2,06 3,08 3,47 3,84 4,1 4,5 4,8 5,0 5,9 6,1 6,5
Zwischenwerte können linear interpoliert werden. Ggfs. ist dabei Tabelle ..
nützlich; sie ergibt Tab. .. analoge Werte.
Tab. ..: Wie Tab. ... Zur Selbstberechnung von Zwischenwerten
n = 5 - <10 f ≈ √n
n = 10 - <20 f ≈ √n - n/30
n ≈ 20 - <30 f ≈ √n - n/25
n = 30 -100 f ≈ √n - n/20
Auf unser Bohnenbeispiel (Kap. ..., Beispiel ..) angewendet:
nach korrekter Berechnung (Kap. , Beispiel C-E) 1,24 oder das Beispiel F.
2.6-3, Normalverteilung mit kleinem n:
Seite - 56 - 7 Streumaße I
Umgekehrt kann die Bezeichnung zwischen Spannweite R und Standdar-
dabweichung s auch zur überschlägigen Prüfung auf Normalität einer Verteilung
dienen. Prüfgröße ist dabei der Quotient R/s (Tab...)
Tab. Zur Prüfung auf Normalität
n 4 10 15 20 30 50 75 100 200 500 1000
R/s 2,43 3,66 4,17 4,49 4,89 5,35 5,68 5,90 6,38 6,94 7,33
Errecht R/s den in Tab. .. für das betreffende n tabellierte R/s-Wert, liegt mit
95%iger Wahrscheinlichkeit Normalität vor.
Wieder auf unser Bohnenbeispiel angewendet:
R = 19 - 11 = 8, n = 500, s = 1,23
R/s = 8/1, 23 = 6,50, also kleiner als der für n = 500 tabellierte R/s-Wert
6,94; die Ablehnung der Nullhypothese (= es liegt keine Normalverteilung vor) wird
also knapp verfehlt.
Dem Augenschein nach würde man wohl Normalverteilung vermuten. Der
offenbar recht empfindliche Test erkennt aber die leichte Asymmetrie der Vertei-
lung als Abweichung von der Idealkurve. In praxi wird man aber kaum zögern, die
Bohnengrößen als angenähert normalverteilt zu behandeln.
Ebenso liefert die schiefe Verteilung von Fig. ... mit einer Spannweite von 8
- 1 = 7 und s = 1,87 ein R/s von 7/1,87 = 3m74; damit liegt R/s deutlich unter dem
für n = 16 tabellierten R/s ≅ 4,25 (unterpoliert). Normalität liegt demnach nicht vor.
Auch die ungleichmäßige Verteilung der der Fig. ... wird mit R = 7 und s =
2,1 und einem sich daraus ergebenden R/s = 3.3 (Tabellenwert wieder ≅ 4,20)
auch durch diesen Test als nicht normalverteilt bestätigt.
Hingegen ergibt die symmetrische Verteilung von Fig. ... mit R = 4 und s = 1
einen R/s-Wert von 4, was recht gut mit dem Tabellenwert von ≈ 4,1 (interpoliert)
übereinstimmt.
7.5 Der Variationskoeffizient
Für Vergleichszwecke ist es oft vorteilhaft, den Standardfehler nicht in den
Einheiten der Grundgesamtheit/Stichprobe anzugeben, sondern auf deren Mittel-
wert zu beziehen. Dieser Quotient ist die relative Standardabweichung, meist als
Variationskoeffizient bezeichnet.
7 Streumaße I Seite - 57 -
Als Symbol wird meist der Buchstabe V oder auch (aus bereits bekannten
Gründen weniger glücklich) Vk benutzt
Formel
Anschaulicher ist in vielen Fällen die Angabe des Variationskoeffizienten in
Perzenten des Mittelwertes: relativer Variationskoeffizient V (%)
Formel
V kann alle Werte zwischen 0 und 1 annehmen, V (%) alle Werte zwischen
0 und 100.
V, Vk oder V%(%) sind keine verbindlich eingeführten Symbole. Um Irrtü-
mer zu vermeiden, ist es angezeigt, in Schriftsätzen etc. beim erstmaligen
Gebrauch das Symbol in geeigneter Form zu definieren.
Vor der Behandlung nicht parametrischer Streumaße sei hier ein Kapitel
über das Rechnen mit Standardabweichung (Kap ...) eingefügt.
7.6 Graphische Darstellung
In Diagrammen wird die Standardabweichung in der Regel durch senkrech-
te Striche ('engl. 'bars') dargestellt; ihre Länge entspricht +s (aufwärts) und -s (ab-
wärts) im Ordinatenmaßstab. Diese Art der Wiedergabe ist sowohl bei Liniendia-
grammen als auch in Blockdiagrammen (Histogrammen) möglich
Fig. ..: Darstellung der Standardabweichung durch senkrechte Balken bei
Liniendiagrammen (a) und bei Histogrammen (b).
Gilt für alle Punkte einer Serie die gleiche Standardabweichung, so genügt
es, diese durch einen gleichsam freischwebend in das Diagramm eingefügten
senkrechten Balken (zweckmäßig in Nähe der Meßwerte) anzugeben.
Vor der Behandlung nichtparametrischer Streumaße ist es zweckmäßig, ein
Kapitel über das Rechnen mit Standardabweichungen einzuschieben
Seite - 58 - 8 Rechenregeln II
8 Wichtige Rechenregeln II Das Rechnen mit Standardabweichungen
8.1 Kumulierung von x s
In Kap. 4.5, Seite 30 wurden bereits Regeln zur Zusammenfassung mehre-
rer Mittelwerte zu einem gemeinsamen (kumulierten) Mittel mitgeteilt. Diese For-
meln seien nunmehr durch Hinzunahme der Standardabweichung ergänzt. Wir
dürfen uns dabei auf ihre vereinfachte Schreibung beschränken, zumal bei allen
die 'Übersetzung' in den Klartext beigefügt ist.
Varianzen gleich
Stichprobenumfang gleich
Formel
Das gemeinsame Mittel aus k x-Werten erhält man, indem man die Summe
der zu mittelnden x (beginnend mit (i = l bis xk) durch die Zahl der x-Werte (= k)
teilt. (Identisch mit [F 3,1] für das arithemtische Mittel).
Stichprobenumfang ungleich
Formel
x = Summe der Produkte aus den Mittelwerten xi und der jeweils zugehöri-
gen ni, geteilt durch die Gesamtzahl der Einzelproben ni. (Identisch mit dem ge-
wogenen Mittel [F 3,2].
Varianzen ungleich
Stichprobenumfang gleich
Formel
Man bilde die Summe der durch die Varianz geteilten x-Werte und dividiere
sie durch den reziproken Wert der Varianz si2. (Identisch mit dem gewichteten
Mittel [F 4.5-5].
Stichprobenumfang ungleich
Formel
Die Formel vereinigt [F 6,5-2] mit [F 5.4-3] und bedarf wohl keiner besonde-
ren Übersetzung mehr.
Formel
8 Rechenregeln II Seite - 59 -
Die kumulierte Varianz sk2 aus k arithmetischen Mitteln ergibt sich aus der
Formel
Formel
Die kumulierte Standardabweichung sk ist selbstverständlich die Quadrat-
wurzel aus obigem Ausdruck.
Die Grundrechnungsarten mit Standardabweichungen
8.2 Die Grundrechnungsarten mit Standardabweichungen
Rechenoperationen mit fehlerbehafteten Zahlen wurden bereits als Beispiel
für Fehlerfortpflanzung vorgeführt. Standardabweichungen kommen nach einem
exponentiellen Algorithmus zustande und verlangen besondere Regeln. SACHS
sind folgende Formeln (nach FENNER) entnommen.
Formeln
Beim Quadrieren verfährt man wie bei der Multiplikation, wobei x1 = x2 und
s1 = s2 gesetzt wird. Bei Kubieren verfährt man sinngemäß (x1 = x2 = x3 und s1 =
s2 = s3).
Die Formeln gelten nur für unabhängige Stichproben. Besteht eine Bezie-
hung zwischen x und y (z.B. gepaarte Proben oder eine Korrelation) so ist bei der
Addition dem Ausdruck unter der Wurzel die Größe
Formel
hinzuzählen, bei der Subtraktion ist diese Größe unter der Wurzel abzuzie-
hen. Für Multiplikation und Division gibt es nur komplizierte Nährungsverfahren.
Bei Bedarf ist Spezialliteratur einzusehen.
Auf signifikante Stellen abgekürzt rechnen!
s-Werte immer nur aufrunden! x, y und t dürfen natürlich wie üblich gerun-
det werden.
Seite - 60 - 9 Streumaße II
9 Streumaße II nichtparametrische Maße
Neben der nur bei angenäherter Normalverteilung sinnvoll anwendbaren
Standardabweichung gibt es Streumaße, deren Vorzug es ist, verteilungsunab-
hängig, ihr Nachteil freilich ist ihre meist geringere Leistungsfähigkeit. Dies gilt z.B.
für
9.1 Die Spannweite
Die Spannweite (Symbol R) ist die Differenz vom niedrigsten zum höchsten
Wert einer Verteilung:
Formel
Die Spannweite ist kein allzu repräsentatives Streumaß, es wird stark von
weitab liegenden Werten (sog. 'Ausreißer') bestimmt. Für manche statistische Ü-
berleungen, insbesondere zu überschlägigen Kontrollen, zur Grobschätzung der
Standardabweichung und zur Prüfung auf Vorliegen von Normalität kann die
Spannweite mit Vorteil herangezogen werden.
9.2 Die mittlere Abweichung
In älteren Statistikbüchern als hauptsächlichstes Streumaß beschrieben, ist
die mittlere Abweichung heute gegenüber der viel leistungsfähigeren Standardab-
weichung, nicht ganz zu Recht, in den Hintergrund getreten. Es gibt nicht einmal
ein verbindlich vereinbartes Symbol für dieses Maß; meist wird hierfür MA benutzt.
Die mittlere (durchschnittliche, auch absolute) Abweichung (MA) ist definiert
durch
Formel
bzw. bei klassifiziertem Material:
Formel
xj = Klassenmittel
fj = Frequenz der Klassen
Die beiden senkrechten Striche an Stelle von Klammern bedeuten, daß die
dazwischen stehende Differenz ungeachtet der tatsächlichen Vorzeichen stets
positiv zu nehmen ist.
9 Streumaße II Seite - 61 -
Die absolute mittlere Abweichung ist von der Verteilung der Elemente un-
abhängig und daher eine verteilungsfreie (nichtparametrische) Größe.
Bei kleinen Stichprobenumfängen ist die absolute Abweichung u.U. der an
sich leistungsfähigen Standardabweichung überlegen. Extremwerte wirken sich
weniger stark auf die MA aus als auf die quadratische Abweichung; wenn auch
nicht mehr 'modern', ist die MA für rasche Übersichten und Vergleiche mit Vorteil
brauchbar.
9.3 Quartile und Perzentile
In Kap. 4.1, Seite 26 haben wir den Median als Mittelwert unregelmäßiger
Verteilungen kennengelernt. Die dort angeführte Berechnungsweise läßt sich zu
einem, freilich weniger leistungsfähigen, nichtparametrischen Streumaß ausbauen.
Der Median teilt die Zahl der Elemente ohne Rücksicht auf deren Verteilung
in zwei gleichzahlige Hälften. Wird jede Hälfte nochmals halbiert, so werden die
Elemente gleichsam durch drei Schnitte
Quartile,
in 4 gleichzahlige Viertel unterteilt (mitunter versteht man auch die Viertel
selbst als Quartile).
Das erste Quartil (Q1) steht am oberen Ende des ersten Viertels, Q3 am
oberen Ende des dritten Viertels, Q2 am Ende des 2. Viertels ist der Median. Die
beiden 'inneren' Viertel Q2 + Q3 enthalten genau die Hälfte der Elemente; sie ge-
ben damit einigen Aufschluß über die Verteilung der Elemente, etwa vergleichbar
den rd. 68 % der Werte umfassenden -σ ... +σ Bereich der Normalverteilung.
Bei der Berechnung geht man ähnlich wie bei der Ermittlung des Medians
vor.
Bei gerader Gesamtzahl der Elemente ist deren Zahl unterhalb wie ober-
halb des Medians ungerade; es ist auf jeden Fall die Lage Q1 und Q3 unmittelbar
und eindeutig feststellbar.
Bei ungerader Elementzahl enthalten die beiden Hälften jeweils eine gerade
Zahl von Elementen, Analog der Ermittlung des Medians gilt das Mittel zwischen
dem n/4-ten und (n/4 + 1)-ten Wert als Q1, zwischen dem 3/4n-ten und (3/4n+1)-
tem Wert als Q3.
Fig.
Seite - 62 - 9 Streumaße II
Wenn bei klassifiziertem Material die wie in Kap. .. beschriebene primitive
Auszählmethode nicht zum Ziel führt, gehe man bach Formel [F 4.1-1] vor; sie ist
nur etwas zu adaptieren. Als Beispiel diene die bereits bei der Demonstration des
Medians benutzte Verteilung der Fig. ...
n/2 der Median-Formel ist für Q1 durch n/4 zu ersetzen, für Q3 durch 3n/4.
Ú bedeutet jetzt die untere Grenze der Q1-bzw; Q3-Klasse
... = Elemente unterhalb der Q1 0 (Q3-)-Klasse;
fa = Elemente in der Q1 - (Q3-)-Klasse.
Formel
Auf unser Beispiel angewendet:
Q1 liegt in Klasse 2, Ú = 20, b = 10, n = 16 und fa = 2
Q1 = 20 + 10. (4 - 3) /2 = 25
Q3 muß in Klasse 5 liegen, Ú = 50, fa = 1
Q3 = 50 + 10. (12-12//2 = 50.
Man kontrolliere nach der 'Auszählmethode'!
Mit Quartilen lassen sich einfache Formeln zur Beschreibung von Schiefe
und Exzeß von Verteilungen erstellen. Bei Bedarf sei auf die Lehrbücher verwie-
sen.
Mit der gleichen Formel lassen sich nach Einsetzen der entsprechenden
Werte, wie bereits der q, und q3 gezeigt, jeder beliebige Abschnitt einer Verteilung
gleichsam abtrennen; solche Abschnitte nennt man
Perzentile.
Perzentil ist der allgemeinere, dem Quartil übergeordnete Begriff.
Von besonderer Bedeutung sind in diesem Zusammenhang die
Dezile
Abschnitte, die ein Zehntel der Elemente einer Verteilung umfassen, insbe-
sonders das unterste und das oberste Dezil (das erste und das letzte Zehntel ei-
ner Verteilung) quasi abschneiden; der verbleibende, acht Zehntel der Elemente
umfassende Bereich ist der
Interdezilbereich.
Wir werden darauf im Kap. .. gelegentlich der Behandlung von 'Ausreißern'
ausführlich zurückkommen.
9 Streumaße II Seite - 63 -
9.4 Standardfehler des Medians
Da scheint etwas nicht ganz zu stimmen: für den verteilungsfreien Median
soll die Standardabweichung berechnet werden.
Wenn bei wenig überschaubarem Datenmaterial Zweifel bestehen, ob es
normalverteilt ist, würde man u.U. einen Fehler begehen, sähe man sie von vorn-
herein als solche an. In diesem Falle kann zur vorläufigen Orientierung eine Stan-
dardabweichung des Medians nach folgender Formel berechnet werden:
Formel
worin
Formel
Als Beispiel betrachten wir Fig. .. ausnahmsweise einmal als 'zweifelhaften
Fall' von Normalität und berechnen s nach obiger Formel.
n = 16
a = (16 + √48)/2 ≈ (16 +7)/2 ≈ 11,5
b = (16 -7)/2 ≈ 4,5
s = (11,5 - 4,5)/3,4641 = 2,02
Die Standardabweichung der angenäherten Normalverteilung beträgt 1; als
Standardabweichung des Medians berechnet beträgt sie ≈ 2, also das Doppelte!
Die nichtparametrische Methode beläßt wesentlich größere Spielräume (m.a.W.:
ist weit weniger 'genau') als das parametrische Gegenstück. Dieser Satz gilt all-
gemein.
Der hier ermittelte s-Wert gilt, da verteilungsunabhängig, auch für alle in
Fig. .. dargestellten, aus 16 Elementen bestehenden Verteilungen.
Seite - 64 - 10 Über Vertrauensbereiche
10 Über Vertrauensbereiche
10.1 Der Standardfehler des Mittelwertes
Wenn der Mittelwert einer Stichprobe das Resultat von Zufallswerten ist,
sind bei wiederholter Probennahme keine identischen Mittelwerte zu erwarten; sie
pendeln um einen mittleren Wert µ, die Abweichungen von diesem sind normalver-
teilt.
Fig.
Die Normalverteilung der 'Mittelwertkurve' ist durch den nunmehrigen Mit-
telwert µ (bei Stichproben mag man, wenn man es sehr genau nimmt x schreiben1)
) und seinen Standardfehler (x ± sx) definiert; die 'Monogramme' lauten daher N
(µ, σ) bzw. N (x, s),
Der Standardfehler des Mittelwertes einer Stichprobe sx ergibt sich aus der
einfachen Beziehung:
Formel
Je mehr Proben gezogen werden (je größer n), desto enger wird der Be-
reich der Abweichungen und die Aussage über den Mittelwert wird präziser.
Wichtige Folgerung (bereits bei der Planung von Versuchen zu berücksich-
tigen):
Die Genauigkeit wächst mit der Quadratwurzel der Stichprobengröße!
M.a.W.: um die Genauigkeit zu verdoppeln (= den Standardfehler s zu hal-
bieren) ist eine viermal so große Stichprobe nötig!
Ein Beispiel (n. WEILING) möge dies illustrieren;
Es steht ein Meßgerät mit einer Genauigkeit von ± 1% des Skalenendwer-
tes zur Verfügung; wieviel Messungen sind nötig, um ein Ergebnis mit 0,1 % Ge-
nauigkeit zu erhalten?
√n = sx/sx
Diese Parameter in der Formel eingesetzt ergibt
√n = 1/0,1 = 10; n = 100
1) In Lehrbüchern findet man verschiedene Schreibweisen: x ±sx und daneben x ± sx. Da
sich s auf die Einzelwerte bezieht, ist die Schreibung x ± sx logischer. x ± sx (und ebenso x ± sx)
10 Über Vertrauensbereiche Seite - 65 -
Es sind also 100 Ablesungen zum Erzielen von 0,1 %. (als zur zehnfachen
Genauigkeit) erforderlich.
Mit einem Meßgerät mit 5 % Genauigkeit wären
√n = 5/0,1 = 50; n = 2 500 Messunge nötig!
Man kann, genügend Geduld vorausgesetzt, auch mit ungenauen Meßgerä-
ten genaue Ergebnisse erhalten!
10.2 Der Vertrauensbereich des Mittelwertes
Der Mittelwert einer Stichprobe ist nach Maßgabe seiner Standardabwei-
chung sx unsicher, m.a.W. rd. 68 % der Stichproben x sind im Bereich +sx ... +sx
zu erwarten. In diesem Bereich finden sich rd. 68 % aller Stichproben-Mittelwerte;
Erinnern wir uns der z-Werte in Kap. .. über den Bereich von z = -1,96 ... x
... z = +1,96 der (Standard-)Normalverteilung liegen 95 % der von der Glockenkur-
ve umschlossenen Fläche und damit auch 95 % der Einzelwerte. Daher können
wir den Bereich, in dem mit 95 % Wahrscheinlichkeit (P = 0,95) oder, was auf das-
selbe hinausläuft, mit 5 % Irrtumswahrscheinlichkeit (α = 0,05) den
95%-Vertrauensbereich des Mittels x
wie folgt anschreiben
Formel
Für den 99%-Vertrauensbereich ist der z-Wert 1,96 durch z = 2,58 zu er-
setzen, für VB (99,9 %) durch z = 3,28 (vgl. Tab. ..).
Mit größerem VB nimmt die Unschärfe der Aussage zu! (vgl. Kap. ...)
10.3 Der Schluß auf die Grundgesamtheit
Geradezu programmatisch wurde bereits in Kap. .. gesagt, ein zentrales
Anliegen der Statistik ist der Schluß von der Stichprobe auf die Gesamtheit.
Statt umständlicher Erläuterungen ein typisches Beispiel:
Frage: In welchem Bereich der Grundgesamtheit, der die Stichproben ent-
stammen, kann ihr Mittelwert mit einer Wahrscheinlichkeit P erwartet werden?
Ist die Standardabweichung der Grundgesamtheit σ bekannt, kann der Ver-
trauensbereich ihres Mittelwertes nach [F ...] angegeben werden; es sind nur x
durch µ und s durch σ zu ersetzen: für den VB (0,95) gilt dann:
läßt jedoch die Zuordnung von s zum jeweiligen x leichter erkennen, weshalb diese Schreibung
Seite - 66 - 10 Über Vertrauensbereiche
Formel
oder in abgekürzter Schreibung:
Formel
Weil einem P = 0,95 ein z = 1,96 entspricht, wird in 19 von 20 Stichproben,
die aus der annähernd normalverteilten Grundgesamtheit N (µ,σ) gezogen wer-
den, der Mittelwert der Grundgesamtheit µ innerhalb dieses Bereiches liegen.
Dazu wieder ein einfaches Zahlenbeispiel.
Der Mittelwert aus n = 25 Stichproben betrage x = 100: die Standardabwei-
chung der Grundgesamtheit ist bekannt (σ = ±5); wie groß ist der Bereich, inner-
halb dessen µ mit 95%iger Wahrscheinlichkeit (P = 0,95) zu finden ist?
Diese Werte in [F ..] eingesetzt ergeben:
100 - 1,96 . 5/√25 < 100 < 100 + 1,96 . 5/√25
VB (99%) = 97,42 - 102,58.
Bei einer gewünschten Irrtumswahrscheinlicht α = 0,001 (P = 99,99) ist z =
3,29 einzusetzen. Der Vertrauensbereich wird dadurch noch breiter:
VB (99,9%) = 96,71 - 103,29
Allgemein gilt (kein Paradoxon):
Mit geringerem Vertrauensbereich erhält man schärfere, aber weniger si-
chere Aussagen, mit Verringerung der Irrtumswahrscheinlicht (größerer Vertrau-
ensbereich) wird größere Sicherheit der Aussage mit geringerer Schärfe erkauft!
Varianz der Grundgesamtheit unbekannt
Wesentlich häufiger ist die Standardabweichung σ der Grundgesamtheit
nicht bekannt. Der Schluß auf den Mittelwert der Grundgesamtheit wird dadurch
zusätzlich unsicherer, ein breiterer Vertrauensbereich (= größere Unschärfe) ist zu
erwarten. Dem wird Rechnung getragen, indem in Formel [...] der auf der Normal-
verteilung aufbauende z-Wert durch einen von der der sog. t-Verteilung hergeleite-
ten, außer durch α doch durch die Zahl der Freiheitsgrade v bestimmten t-Wert
ersetzt wird.
F. ... erhält dadurch das folgende Aussehen:
Formel
aus didaktischen Gründen vorgezogen wird.
10 Über Vertrauensbereiche Seite - 67 -
Ausführliche t-Tafeln finden sich in jedem Statistikbuch; eine gekürzte Tafel
is tin Kap. .. wiedergegeben.
Greifen wir nochmals auf das oben durchgerechnete Beispiel zurück, neh-
men jedoch die Varianz der Grundgesamtheit als unbekannt an. Der Tabelle 13.2-
1 entnehmen wir für α = 0,05 und n = 25 - 1 = 24 Freiheitsgrade ein t = 2,064. Die-
se Werte in [F ...] eingesetzt:
100 - 2.064 . 5/5 ... µ ... 100 + 2.064 . 5/5
97.636 µ ... 102,064
auf zwei Dezimalen nach Vorschrift gerundet:
VB (95%) = 97,93 < µ < 102,07
Wie erwartet nimmt in unserem Beispiel der VB bei unbekanntem σ von
1,98 % auf ± 2,07 % zu, die Aussage wird unschärfer.
10.4 Vertrauensbereich von s und VK
Manchmal ist es wünschenswert, den Vertrauensbereich auch der Stan-
dardabweichung zu kennen. Im allgemeinen ist man nämlich geneigt, die Variabili-
tät der Standardabweichung zu unterschätzen (SACHS).
Die Formel für die Berechnung Vertrauensbereich der Standardabweichung
σ (s) und des Variationskoeffizienten V ist nach dem gleichen Schema wie gebaut
und auch von dieser ableitbar (was wir uns hier aber schenken wollen):
Für den VB der Standardabweichung gilt (n. SACHS)
Formel
Für den zumeist gewählten Vertrauensbereich VB (95 %) ist wieder z = 1,96
einzusetzen. Begnügt man sich mit VB (90 %), so ist an Stelle von 1,96 der Wert z
= 1,64 einzusetzen. Einen engeren Vertrauensbereich als VB (95 %) anzustreben
ist nicht empfehlenswert, da nur eine Approximation darstellt.
Zur Berechnung des Vertrauensbereiches VB des Variationskoeffizienten
tritt an Stelle von s der Variationskoeffizient VK; er soll aber nicht über 0,4 betra-
gen und n soll mindestens 25 sein.
10.5 Der Vertrauensbereich des Medians
Bei nicht normalverteilen Elementen sind die bisher vorgeführten Formen [F
...] und [F ...] unverwendbar. An ihrer Stelle tritt der Ausdruck:
Formel
Seite - 68 - 10 Über Vertrauensbereiche
Für h gibt es natürlich Tabellen; man kann aber h für den 95%-
Vertrauensbereich gut nach folgender Formen (aus SACHS) approximieren:
Formel
nur die ganzen Zahlen werden berücksichtigt.
Greifen wir auf die unregelmäßige Verteilung der Fig. ... zurück. α = 36
(Kap. ..), n = 16;
h = (16 - 1 - 1,95. 4)/2 = 3,5; ganze Zahl = 3.
Der 95% Vertrauensbereich (z = 1,96) reicht vom 4. Element (3 +1) zum 13.
Element (16 -3), umfaßt also etwa die beiden inneren Quartile und somit rd. die
Hälfte der Elemente.
Der Median hat also einen sehr weiten Vertrauensbereich, auf ihn gegrün-
dete Aussagen sind wesentlich unschärfer als solche auf Grund der Normalvertei-
lung ermittelten; auf die angenäherte Normalverteilung der Fig. ... angewendet,
ergibt sich ein rd. doppelt so großer VB als ihre Standardabwicklung. Da h in obi-
ger Formel nur von z und n abhängt, gilt der hier beispielsweise ermittelte VB für
alle in Fig. ... vorgeführten Verteilungen; denn gleich dem Median ist auch dessen
Vertrauensbereich verteilungsunabhängig.
10.6 Ausreißer
Ein besonderes Problem stellen gelegentlich auftretende extrem hohe oder
niedrige Werte dar, die ganz und gar nicht in die Beobachtungen hineinpassen
sog.
Ausreißer.
Sie können durch inhomogenes Material, Meßfehler, dem Beobachter ver-
borgene Einflüsse u.a.m. zustande. Darf man solche, Mittelwerte wie Standardfeh-
ler offenkundig verzerrende Werte eliminieren, wenn ja, unter welchen Vorausset-
zungen?
Eine recht brauchbare Faustregel besagt, daß bei normalverteilten Grund-
gesamtheiten/Stichproben Werte außerhalb der 4σ- (4s-) Grenze (σ bzw. s ohne
den fraglichen Wert berechnet). Praktisch nicht mehr als zugehörig anzusehen
sind; exakt umfaßt der 4s-Bereich 99,994% aller Beobachtungen, m.a.W. nur in rd.
15.000 Normalverteilungen ist ein Wert außerhalb dieser Schranke zu erwarten.
Der 3σ-Bereich umfaßt nur mehr 99,85% aller Beobachtungen, die Irrtumswahr-
10 Über Vertrauensbereiche Seite - 69 -
scheinlichkeit steigt auf 0,15 % oder 1 : 600. Mit nicht normalverteiltem Material
geht man auch bei der 4s-Schranke ein Irrtumsrisiko von 6 % (≈ 1: 16) ein!
Auch der R/s-Quotient kann beim Aufspüren von Ausreißern hilfreich sein.
Übersteigt der Quotient aus Spannweite durch Standardabweichung den in Kap. ..
für das betreffende n tabellierten Wert, so liegt mit einer Irrtumswahrscheinlichkeit
α = 0,05 (= 5 %) ein Ausreißer vor. Man würde einen solchen nur einmal in 20 Fäl-
len ungerechtfertigt ausscheiden.
Liegen Ausreißer vor, so kann man unter Beachtung der oben genannten
Grenzen das Ergebnis verbessern, indem man den höchsten und den niedrigsten
Wert der geprüften Verteilung eliminiert:
gestutzte Probe.
Es ist nach sorgfältiger Prüfung auch angängig, von beiden Ende der Nor-
malverteilung 1 % oder auch % % der Werte zu eliminieren; dadurch wird die
Standardabweichung geringer und das Ergebnis 'verbessert' (man nimmt dabei
freilich einen größeren VB in Kauf).
Bei nicht normalverteilten Elementen kann man mittels der Perzentile stut-
zen. Man ermittelt und eliminiert das 1. (= das unterste) und das 9. (= das oberste)
Perzentil, wodurch das erste und letzte Zehntel der Verteilung abgeschnitten wer-
den, und berücksichtigt nur den verbleibenden Bereich, dem
Interdezilbereich.
Die Berechnung der Perzentile erfolgt amalog den Quartilen, es sind ledig-
lich in Formel [F ...] n/10 bzw. 9n/10 und die entsprechenden Frequenzen einzu-
setzen.
Warnung! Man gehe mit Ausreißern stets sehr vorsichtig um! Im Zweifel ist
es empfehlenswert, die Standardabweichung erst mit und dann ohne den ver-
meintlichen Ausreißer zu berechnen; erst bei erheblichem Unterschied erwäge
man das weitere Vorgehen. Nie darf der eliminierte Wert 'unter den Tisch fallen',
auch wie die Probe gestutzt wurde, muß im Protokoll vermerkt werden! Man halte
sich stets vor Augen: mit jedem ungerechtfertigt eliminierten Wert könnte man sich
einer Erklärungsmöglichkeit begeben, vielleicht sogar an einer nobelpreisverdäch-
tigen Entdeckung vorübergehen!
Seite - 70 - 11 Allgemeines zur beurteilenden Statistik
11 Allgemeines zur beurteilenden Statistik
11.1 Null- versus Alternativhypothese
Mit den im Kap. 10.5, Seite 67 angesprochen Vertrauensbereich haben wir
bereits die Schwelle zur beurteilenden Statistik überschritten: wir haben eine Ent-
scheidung getroffen, ob ein aberranter Wert der Gesamtheit (Stichprobe) zuzuzäh-
len ist oder nicht.
Eine immer wiederkehrende Aufgabe besteht in der Entscheidung, ob eine
Stichprobe einer bestimmten Grundgesamtheit angehört oder ob zwischen zwei
Stichproben ein signifikanter Unterschied besteht. Es ist angebracht, der Behand-
lung einschlägiger Tests ein paar Begriffe vorauszuschicken, denn die Fachspra-
che bedient sich dabei einer auf den ersten Blick etwas umständlich erscheinen-
den Terminologie.
Vorsorglich geht man bei der Beurteilung von der ungünstigeren Annahme
aus, es besteht kein Unterschied, m.a.W. man stellt zunächst die
Nullphypothese Ho
auf und prüft an Hand des Testergebnisses, ob sie beibehalten werden kann (= es
besteht kein Unterschied) oder ob sie abzulehnen ist; dann trifft die
Alternativhypothese HA
(oft auch H1 geschrieben) zu, d.h. es besteht ein auf dem gewählten Wahrschein-
lichkeitsniveau P gesicherter Unterschied.
Dabei können zwei Fehler unterlaufen:
• eine richtige Nullhypothese wird unberechtigt abgelehnt: Fehler der 1. Art;
• eine falsche Nullhypothese wird unberechtigt beibehalten: Fehler der 2. Art.
Folgende Gegenüberstellung möge dies verdeutlichen:
Wirklichkeit
Entscheidung des Tests Ho wahr Ho falsch
Ho abgelehnt Fehler 1. Art richtige Entscheidung
Ho beibehalten richtige Entscheidung Fehler 2. Art (Aus SACHS [2])
11 Allgemeines zur beurteilenden Statistik Seite - 71 -
Die (meist geringe) Wahrscheinlichkeit, eine gültige Nullhypothese abzuleh-nen (Irrtumswahrscheinlichkeit α):
Risiko I; Die Wahrscheinlichkeit, eine falsche Nullhypothese beizuhbehalten,
Risiko II, wird mit β
Wie schon die Bezeichnung andeutet, ist bei Risiko I bzw. II mit unter-
schiedlichen Wahrscheinlichkeiten zu rechnen. Gänzliche Ausschaltung beider
Risken käme einem zwangsläufigen Zusammenhang gleich.
Verringerung des einen Risikos erhöht bei gleichbleibendem n das andere;
ein grober Fehlschluß wäre jedoch, diese Beziehung in die Form α = (1 - β) zu
kleiden. α ist eindeutig bestimmbar, β setzt sich aus mehreren Konponenten zu-
sammen, es ist nur an großen Stichproben bestimmbar, über das Wie schweigen
sich die gängigen Lehrbücher allerdings aus.
Je kleiner man α wählt, desto größer wird β und dementsprechend unsiche-
rer ist es, z.B. einen Unterschied zwischen zwei Stichproben zu erkennen; mit
kleinen Stichproben kann man praktisch jede Ho-Hypothese annehmen ('bewei-
sen' wäre eine unkorrekte Ausdrucksweise, denn mit Statistik kann man natürlich
nichts beweisen, man kann nur einen Sachverhalt mehr oder weniger wahrschein-
lich machen).
Meist wird man (durch entsprechende Wahl der Stichprobengröße also
durch geeignetes n trachten, den Fehler 1. Art mit α = 0,05 oder 0,01 zu begren-
zen. Die statistischen Tafeln sind daher (so auch in der hier getroffenen Auswahl)
vorzugsweise auf diese Irrtumswahrscheinlichkeiten (erweitert auf α = 0,001) aus-
gelegt. Für besonders heikle Fragen, etwa im medizinischen und pharmazeuti-
schen Bereich, rechnet man mit um 1-2 Zehnerpotenzen kleineren α-Werten.
11.2 Abgekürzte Angabe von Signifikanzen
In vielen Fällen ist die korrekte und komplette Angaben von Signifikanzen in
der Form (x ± s), namentlich in Tabellen, unnötig, manchmal sogar eher verwir-
rend. Man pflegt die hauptsächlich in Frage kommenden Signifikanzbereiche
durch hochgestellte Zeichen wie nachstehend angeführt anzudeuten und verbal zu
definieren:
Seite - 72 - 11 Allgemeines zur beurteilenden Statistik
P > 0,05 ° = nicht signifikant;
0,05 > P > 0,01 * = signifikant
0,01 > P > 0,001 ** = sehr signifikant
0,001 > P *** = hochsignifikant
Statt P > 0,05 kann selbstverständlich auch P 5 %, statt 0,05 - 0,01 auch P
5 % - 1 % usw. gesetzt werden.
12 Intervallschätzung I Seite - 73 -
12 Intervallschätzung I normalverteilt, z-Test
12.1 Vorbemerkungen
Von den Verfahren zur Prüfung der Signifikanz von Unterschieden von Mit-
telwerten werden hier folgende typische Fälle vorgestellt,
• Vergleich einer angenähert normalverteilten Stichprobe mit der Grundgesamt-heit (µ bekannt):
z-Test; • Vergleich normalverteilter Stichproben (µ ist nicht bekannt)
t-Test. Nicht normalverteilte Stichproben ∏ Kap 14, Seite 86.
Die Tests laufen im wesentlichen auf den Vergleich von Verteilungen hin-
aus. Je weniger sich die zu vergleichenden Glockenkurven überlappen, desto sig-
nifikanter sind deren Mittelwerte verschieden.
Fig.
12.2 Der z-Test
Frage: Gehört eine Stichprobe einer Grundgesamtheit mit bekanntem Mit-
telwert µ und bekannter Varianz σ2 an?
Die Prüfgröße baut auf der von der Standardnormalverteilung her bekann-
ten Formel auf (∏ Kap. 6.2,Seite 40):
Formel
Die beiden senkrechten Striche im Zähler deuten an, daß die von ihnen
eingeschlossene Differenz ohne Rücksicht auf ihr Vorzeichen positiv zu nehmen
ist.
z (Spr. z Dach) bedeutet, daß z keine einer Tafel entnommener exakter
Wert ist, sondern eine aus erhobenen Daten errechnete, 'geschätzte' Prüfgröße
ist. 'Schätzung hat in der Statistik nichts mit 'über den Daumen gepeilt' zu tun,
sondern bezeichnet einen mittels stochastischer Rechenoperationen erhaltenen
Wert.
Seite - 74 - 12 Intervallschätzung I
Beispiel: In einem Waldbestand sei das durchschnittliche Hundertnadel-
Gewicht µ = 2,2 g mit einer Standardabweichung s = ± 0,1 g bekannt. Gehört eine
Stichprobe n = 9, x = 2,0g der Grundgesamtheit an?
Die Zahlen der Angabe ich eingesetzt:
Formel
Zur Auswertung genügt die abgekürzte z-Tabelle vollauf. Ihr entnehmen wir,
daß das gefundene z zwischen P (0,99) (z=2,58) und P(0,999) (z=3,28) liegt. Man
schreibt das Ergebnis am besten in dieser Form an
0,99 < P < 0,999
Dies genügt zur Aussage, daß mit einer Irrtums-wahrscheinlicht zwischen
1,0 und 0,1 % die Nullhypothese ('es besteht kein Unterschied zwischen µ und x)
abgelehnt werden kann, also mit eben dieser statistischen Sicherheit ein sehr sig-
nifikanter Unterschied zwischen Stichprobe und Grundgesamtheit besteht, ausrei-
chende Grundlage, nach den Ursachen der Abweichung (Schädigung?) zu su-
chen.
Der Vertrauensbereich für x ergibt sich nach dem bereits bekannten Sche-
ma mit
Formel
im speziellen Fall mit z = 30
Formel
1,9 < 2,0 < 2,1
Zweckmäßig wählt den nächst niedrigeren 'runden' Vertrauensbereich und
mindert so den Fehler 1. Art, in unserem Falle also P (0,01), wofür z = 2,58 einzu-
setzen ist:
Formel
Der Vertrauensbereich mit P (0,01) beträgt somit
VB (0,01) 1,914 < 2,0 < 2,086
Ergibt die Formel ein z > 3, braucht man erst gar nicht in eine z-Tafel ein-
gehen, um ein P < 0,001 anzunehmen.
Die vorgeführte Berechnung gilt für die Frage, ob das Mittel Stichprobe grö-
ßer oder kleiner ist als das der Grundgesamtheit, also für die:
zweiseitige Fragestellung.
12 Intervallschätzung I Seite - 75 -
Ist ein Unterschied nur in einer Richtung denkbar, etwa bei Wachstumsvor-
gängen, allenfalls, wie im angeführten Beispiel bei Schädigung u. dgl.) so wählt
man zweckmäßig die
einseitige Fragestellung.
In diesem Falle sind den z-Werten kleinere Irrtumswahrscheinlichkeiten α
zugeordnet.
Die folgende Tabelle gibt einen Auszug wichtiger und häufiger gebrauchter
kritischer z-Werte.
Tabelle: Wichtige z-Werte für zweiseitige und einseitige Fragestellung
a z z
0,00001 4,42 5,26
0,0001 3,89 3,72
0,001 = 0,1 % 3,29 3,09
0,01 = 1 % 2,58 2,33
0,05 = 5 % 1,96 1,64
0,1 = 10 % 1,64 1,28
Auf unser 100-Nadelgewicht-Beispiel angewendet:
lautet die einseitige Fragestellung: 'signifikant kleiner als ...'. Der errechnete
z-Wert liegt mit z = 3,00 knapp unter der 0,001 - Schranke. Die Signifikanz des
Unterschiedes ist also etwas höher als bei der zweiseitigen Fragestellung, jedoch
ohne die nächst höhere Schranke P (0,001) zu erreichen oder zu übersteigen.
Man könnte aus einer ausführlichen z-Tafel den entsprechenden z-Wert zwischen
P (0,01) und P (0,001) aufsuchen. Üblicherweise begnügt man sich aber mit den
in Tabelle angeführten Schranken. Will man der höheren Signifikanz dennoch
Rechnung tragen, kann man durch die Schreibung
0,99 << < 0,999
die größere Nähe von P zur höheren Schranke zum Ausdruck bringen.
12.3 Vergleich von 2 Stichproben
Wenn zwei Stichproben der gleichen Grundgesamtheit entstammen, also
den gleichen Mittelwert erwarten lassen, ist mit dem z-Test auch der Vergleich
zweier Stichproben möglich
Seite - 76 - 12 Intervallschätzung I
Dabei macht man sich den Umstand zunutze, daß die Differenzen der Wer-
te normalverteilter Stichproben selbst wieder normalverteilt sind; das 'Monogramm'
ihrer Verteilung lautet ...
Die Varianz der Differenz x1x2 ist
Formel
Analog der Formel ergibt sich daraus für den Vergleich von 2 Stichproben
mit gleichem Erwartungswert µ ein
Formel
Hiezu wieder ein Fallbeispiel (aus WEILING):
Zwei Tierrassen A und B erlernen eine Dressurleistung in gleich langer Zeit,
wobei σA = 2 min σB = 3 min, eine Probe von 12 B-Tieren nur 8 min, Lernzeit. Be-
steht zwischen den Rassen ein signifikanter Unterschied im Verhalten gegenüber
Streß?
Die Werte in obige Formel eingesetzt ergeben
z erreicht nicht den für P (0,05) zweiseitig tabellierten Wert von 1,96, die
Nullhypothese kann auf diesem Niveau nicht abgelehnt werden (= kein Unter-
schied); erst auf dem P (0,1) Niveau könnte Ho gerade noch abgelehnt werden.
Intervallschätzung II
mittels der t-Verteilung
Wozu t-Verteilung?
In Kap. .. wurde mittels des z-Tests von einer Stichprobe auf den Mittelwert
der Grundgesamtheit geschlossen; Voraussetzung für den z-Test ist, daß die Va-
rianz der Grundgesamtheit bekannt bzw. gleich der der Stichprobe ist.
Trifft diese Voraussetzung nicht zu, müssen die Mittelwerte der Grundge-
samtheit aus den Varianzen der Stichproben geschätzt werden; hierfür ist die
t-Verteilung
zuständig. Dadurch wird aber der Schluß auf die Grundgesamtheit unsiche-
rer...
Ziehen wir noch einmal das Beispiel mit dem 100-Nadel-Gewicht des Kap.
.. heran. Es wurde unter der Vorausetzung bekannter Varianz von µ ein z = 3,00
ermittelt, was nach der z-Tabelle einer Wahrscheinlichkeit zwischen P (0,01) und
P (0,001) entsprach.
12 Intervallschätzung I Seite - 77 -
Ist die Varianz von µ bekannt, gilt nicht mehr die z-Tafel, sondern man muß
in die t-Tafel eingehen, die neben der gewünschten Irrtumswahrscheinlichkeit
auch die Freiheitsgrade berücksichtigt. Dort (Tabelle ..) finden wir unter v = n - 1 =
9 - 1 den Wert 3,0 zwischen P (0,01) und P (0,05), also eine gegenüber dem z-
Test wesentlich geringere Signifikanz.
Die t-Verteilung
Die t-Verteilung prüft die Differenz der Mittelwerte nicht wie der z-Test an
der Standardabweichung der Grundgesamtheit σ, sondern an der Standardabwei-
chung der Differenz der Stichproben-Mittelwerte (STUDENT-Verteilung).
formel
Die Differenz normalverteilter Größen ist selbst wieder normalverteilt.
Die t-Verteilung ist ählich der Normalverteilung bilateral-symmetrisch, je-
doch im 'Sockel' etwas breiter und der Scheitel ist etwas niedriger; sie geht mit
zunehmenden n allmählich in die Normalverteilung über.
Der Schätzwert für sx-s lautet gem. ..
Formel
Aus den beiden Formeln ... und ... ergibt sich die Prinzipformel für den t-
Test:
Formel
Seite - 78 - 13 Intervallschätzung II
13 Intervallschätzung II mittels der t-Verteilung
13.1 Wozu t-Verteilung?
In Kap. .. wurde mittels des z-Tests von einer Stichprobe auf den Mittelwert
der Grundgesamtheit geschlossen; Voraussetzung für den z-Test ist, daß die Va-
rianz der Grundgesamtheit bekannt bzw. gleich der der Stichprobe ist.
Trifft diese Voraussetzung nicht zu, müssen die Mittelwerte der Grundge-
samtheit aus den Varianzen der Stichproben geschätzt werden; hierfür ist die
t-Verteilung
zuständig. Dadurch wird aber der Schluß auf die Grundgesamtheit unsiche-
rer...
Ziehen wir noch einmal das Beispiel mit dem 100-Nadel-Gewicht des Kap.
.. heran. Es wurde unter der Vorausetzung bekannter Varianz von µ ein z = 3,00
ermittelt, was nach der z-Tabelle einer Wahrscheinlichkeit zwischen P (0,01) und
P (0,001) entsprach.
Ist die Varianz von µ bekannt, gilt nicht mehr die z-Tafel, sondern man muß
in die t-Tafel eingehen, die neben der gewünschten Irrtumswahrscheinlichkeit
auch die Freiheitsgrade berücksichtigt. Dort (Tabelle ..) finden wir unter v = n - 1 =
9 - 1 den Wert 3,0 zwischen P (0,01) und P (0,05), also eine gegenüber dem z-
Test wesentlich geringere Signifikanz.
13.2 Die t-Verteilung
Die t-Verteilungprüft die Differenz der Mittelwerte nicht wie der z-Test an
der Standardabweichung der Grundgesamtheit σ, sondern an der Standardabwei-
chung der Differenz der Stichproben-Mittelwerte (STUDENT-Verteilung).
formel
Die Differenz normalverteilter Größen ist selbst wieder normalverteilt.
Die t-Verteilung ist ählich der Normalverteilung bilateral-symmetrisch, je-
doch im 'Sockel' etwas breiter und der Scheitel ist etwas niedriger; sie geht mit
zunehmenden n allmählich in die Normalverteilung über.
Der Schätzwert für sx-s lautet gem. ..
Formel
13 Intervallschätzung II Seite - 79 -
Aus den beiden Formeln ... und ... ergibt sich die Prinzipformel für den t-
Test:
Formel
Ist die gefundene Prüfgröße t gleich dem für das jeweilige α und v tabellier-
tem Wert oder größer als dieser, so ist die Nullhypothese abzulehnen.
Beim Vergleich von 2 Stichproben werden 2 Freiheitsgrade 'verbraucht', t-
Werte sind daher nach Freiheitsgraden v = n - 2 tabelliert.
Tabelle
0,10 0,05 0,02 0,01 0,002 0,001
2 2,920 4,303 6,965 9,925 22,327 31,598
3 2,353 3,182 4,541 5,841 10,214 12,924
4 2,132 2,776 3,747 4,604 7,173 8,610
5 2,015 2,571 3,365 4,032 5,893 6,869
6 1,943 2,447 3,143 3,707 5,208 5,059
7 1,943 2,447 3,143 3,707 5,208 5,059
8 1,860 2,305 2,896 3,355 4,501 5,041
9 1,833 2,262 2,821 3,250 4,297 4,781
10 1,812 2,228 2,764 3,169 4,144 4,587
12 1,782 2,179 2,681 3,055 3,930 4,318
14 1,761 2,145 2,624 2,971 3,686 4,140
16 1,746 2,120 2,583 2,921 3,586 4,015
18 1,734 2,101 2,552 2,878 3,610 3,922
20 1,725 2,086 2,527 2,845 3,552 3,850
25 1,708 2,060 2,485 2,787 3,450 3,725
50 1,676 2,009 2,403 2,678 3,261 3,496
75 1,665 1,992 2,377 3,643 3,203 3,425
100 1,669 1,984 2,364 2,626 3,174 3,390
0,05 0,025 0,01 0,005 0,001 0,0005
Irrtumswahrscheinlichkeit α einseitiger Test
Seite - 80 - 13 Intervallschätzung II
Der t-Test eignet sich auch für kleinere Probenumfänge und ist, wenn so-
wohl n als auch n2 > 10. gegen Abweichungen von der Normalverteilung recht
robust.
13.3 t-Test bei gleichen Varianzen
Der Test in Form der Formel gilt nur
Formel
bei annähernder Gleichheit der Varianzen der Grundgesamtheit ferner muß
es sich um voneinaner unabhängige Stichproben handeln (Test für paarweise ver-
bundene Stichproben). Ferner sollten sich n1 und n2 höchstens um den Faktor 4
unterscheiden.
Bei gleichem n vereinfacht sich auf
Formel
mit v = 2n - 2 (es werden 2 Stichproben verglichen).
Beispiel A
Gegeben seien 2 willkürlich angenommene Stichproben
x1 = 10; n1 = 8; s1 = 2; σ1 ≈ σ2, x2 = 15; n2 = 8; s2 = 3
Ist die Differenz der unbekannten Mittelwerte µ1-µ2 auf dem 0,05 Niveau
signifikant?
Es ist Formel .. anzuwenden.
Formel
mit v 8 + 8 - 2 0 14 Freiheitsgraden.
Der t-Tabelle .. ist für v = 14 und α = 0,05 ein t = 2,145 zu entnehmen. t =
3,922 liegt aber weit darüber, die Nullhypothese ist abzulehnen, der Unterschied
ist sogar noch auf dem 0,002-Niveau (oder 0,2 %)-Niveau signifikant.
t-Test: gleiche Varianzen, ungleiches n:
n1 = n2, σ, 2 ≈ σ22
Sind n1 und n2 ungleich (n1 = n2), so sind Korrekturglieder in Formel erfor-
derlich:
Formel
mit v = n1 + n2 - 2 Freiheitsgraden.
Statt des Ausdrucks (1/n1 + n2) /(n1 . n2) geschrieben werden.
13 Intervallschätzung II Seite - 81 -
Setzt man in obiger formel n1 = n2, so erhält man die bereits bekannte
Formel.
Berechnungsbeispiel B:
Wir benutzen das vorige Beispiel A, setzen jedoch verschiedene Werte für
n ein, wobei aber n1 + n2 = 16 unverändert bleibt:
x1 = 10; n1 = 4; s1 = 2;
x2 = 15; n2 = 12; s2 = 3, σ1 ≈ σ
Formel
Der Tabellenwert für t14; 0,05 ist wie im Beispiel A 2,145; somit ist t >> t.
Der Unterschied ist mit P (0,01) = 1 % noch immer sehr signifikant.
Je weniger sich n1 und n2 unterscheiden, desto höher fällt die Signifikanz
aus! Die zu vergleichenden Stichproben sollen daher nach Möglichkeit gleiche
Umfänge haben. Vor allem sollen Kontrollproben nie kleiner als die zu prüfende
Probe sein!
13.4 t-Test mit ungleichen Varianzen
Wenn die Varianzen der Grundgesamtheiten nicht als gleich anzusehen
sind, wird der Schluß auf die Differenz der Grundgesamtheiten unsicherer. Die für
diese Fälle angegebenen Formeln gehen von der 'Grundformel' aus, die nötige
Korrektur wird über die Freiheitsgrade vorgenommen.
Bei ungleichen Varianzen, jedoch gleichen Stichprobenumfängen wird t
nach der bereits bekannten Formel
Formel
berechnet, aber nicht mit dem unter v = 2n - 2 tabellierten t verglichen, son-
dern man berechnet v nach
Formel
und geht erst mit diesem v in die t-Tabelle ein.
Bei ungleichen Varianzen und ungleichen Stichprobenumfängen sind nur
Approximationen möglich (FISHER-BEHRENS-Problem). Man berechnet t nach
der 'Grundformel' die zur Korrektur erforderlichen Freiheitsgrade v erhält man auf
folgende recht umständliche Weise:
Zur Vereinfachung substituieren wir:
Formel
Seite - 82 - 13 Intervallschätzung II
13.5 Schnellschätzung nach WEIR
Wesentlich weniger aufwendig approximiert WEIR eine Lösung des FISHER-
BEHRENS-Problems. Die Mittelwerte für Grundgesamtheiten (µ1 und µ2) sind auf
dem 5%-Niveau verschieden, wenn die Prüfgröße
Formel
Unterschreitet der Quotient den Wert 2, so läßt sich die Nullhypothese (kein
Unterschied zwischen µ1 und µ2) auf dem P (0,05)-Niveau nicht ablehnen.
Wieder auf unseren schon mehrfach benutzten Ansatz angewendet
Formel
Die Prüfgröße übersteigt den kritischen Wert 2 deutlich, die Nullhypothese
kann nicht aufrechterhalten werden. Der WEIR-Test ist etwas 'großzügiger' als die
umständlichere Approximation.
Nach MITTENECKER kann diese immer noch recht umständliche Formel in
erster Annäherung durch mit
Formel
ersetzt werden. Nach dieser Formel ergäben sich
Formel
was eine sogar etwas strengere Beurteilung bedeutet.
13.6 Schnellverfahren nach LORD
Dieses Verfahren gründet sich auf den Vergleich der Mittelwerte mit den
Spannweiten der jeweiligen Stichproben. Es setzt Normalverteilung, Gleichheit der
Varianzen und der Stichprobenumfänge voraus.
Formel
Erreicht oder überschreitet der Quotient den nachstehend für n und α =
0,05 bzw. 0,01 tabellierten Wert (zweiseitiger Test), so ist die Nullhypothese Ho
auf dem gewählten Niveau abzulehnen (µ1 = µ2).
Tabelle
Über n = 20 soll der Test nicht verwendet werden. Er erreicht nicht die
Schärfe des t-Tests.
Zum Schluß ein Hinweis: man sollte nicht ganz auf die alte 3σ-Regel ver-
gessen: unterscheiden sich Mittelwerte um mehr als die dreifache Standardabwei-
chung, so gilt der Unterschied auf dem P (0,05)-Niveau als gesichert.
13 Intervallschätzung II Seite - 83 -
13.7 Der Vertrauensbereich von t
Den Vertrauensbereich von t erhält man nach bereits bekanntem Muster
gemäß
Formel
worin d = µ1 - µ2 und A der Nenner der beim Test benutzten Formel ist. Als
Rechenbeispiel wählen wir den einfachsten Fall mit gleichen Stichprobenumfän-
gen n gem.
Formel
worin d = µ1-µ2 und A der Nenner der beim Test benutzten Formel ist (...).
Als Rechenbeispiel wählen wir den einfachsten Fall mit gleichen Stichprobenum-
fängen n gem.
Formel
Die Ansätze seien kurz wiederholt:
x1 = 10, s1 = 2; x2 = 15, s2 = 3; n1 = n2 = 8.
Für α = 0,05 und v = 8 + 8 - 2 = 14 Freiheitsgrade entnehmen wir der
Tabelle .. ein t = 2.145.
Formel
Der 5%-Vertrauensbereich somit
2,27 ... (5) ... 7.73
Für α = 0,01 beträgt der t-Wert für v = 14 2,971, der Vertrauensbereich ist
dann dementsprechend breiter
Die Feststellung des Vertrauensbereiches sollte nie unterlassen werden!
Überlappende Vertrauensbereiche schließen nicht unbedingt Signifikanz
des Unterschiedes der Mittelwerte aus. Nicht überlappende Vertrauensbereiche
bedeuten jedenfalls einen auf dem gewählten Niveau gesicherten Unterschied.
13.8 Die kleinste signifikante Differenz
Gelegentlich wird die Signifikanz von Intervallen durch den kleinsten, bei
dem gewählten Niveau gesicherten Differenz veranschaulicht, ein Weg, nament-
lich umfangreichere Tabellen zu entlasten, und übersichtlicher zu gestalten.
Im Englischen wird für die kleinste signifikante Differenz das wenig glückli-
che Symbol L.S.D. (= last signifikant difference) gebraucht. In deutschsprachigen
Seite - 84 - 13 Intervallschätzung II
Statistikbüchern habe ich diesen Begriff noch nirgends gefunden, seine Berech-
nung läßt sich aber leicht aus der Formel für den t-Test ableiten.
Die Formel des t-Tests kann man auch wie folgt anschreiben:
Formel
worin d die Differenz der Mittelwerte und A der Nenner der jeweils benutz-
ten Formel ... bedeuten.
Durch Umformung der t-Formel erhält man
Formel
Der für das geforderte α und das jeweilige v zutreffende t-Wert wird einer t-
Tafel entnommen.
Zur Demonstration greifen wir auf das im vorigen Abschnitt behandelte Bei-
spiel zurück, α sei 0,05, v = 14, t0,05;14 = 2,145.
Formel
Auf dem 0,01-Niveau müssen wir bei gleichem v ein t = 2,971 einsetzen
und erhalten mit smin; 0,01 = 1,264, 2.971 = 3,79 erwartungsgemäß eine höhere
signifikante Minimaldifferenz.
Bei dieser Berechnung ist der Vertrauensbereich nicht berücksichtigt.
13.9 Vergleich paarweise geordneter Stichproben
Wenn ein und dasselbe Objekt einmal ohne Behandlung und dann nach ei-
ner Behandlung geprüft wird (Nullkontrollen zählen als 'Behandlung'), liegen
gepaarte und gebundene Proben
vor. Ob bei gepaarten Beobachtungen ein signifikanter Unterschied zwi-
schen den Mittelwerten besteht (m.a.W. ob die Mittelwerte der Paardifferenzen
signifikant von 0 abweichen (∑d)/n = d ≠ 0) und die Nullhypothese abzulehnen ist,
kann mit nachstehender Formel geprüft werden.
Formel
Erreicht oder übersteigt der gefundene t-Wert das für das betreffende v und
a tabellierte t (vgl. Tab. ... oder ausführlichere Tabellen in Statistikbüchern), ist die
Nullhypothese abzulehnen.
Der Vertrauensbereich für den Mittelwert der Differenz (∑d)/n ist gegeben
durch
Formel
13 Intervallschätzung II Seite - 85 -
z.B. der 95 % Vertrauensbereich also durch
Formel
sd ist gleich dem Nenner in Formel.
Berechnungsbeispiel aus (SACHS [1])
Tabelle: Zahlenbeispiel gepaarte Beobachtungen
Pr.-Nr. x1 x2 x1-x2=d d2
1 4,0 3,0 1,0 1,0
2 3,6 3,0 0,5 0,25
3 4,1 3,8 0,3 0,09
4 5,5 2,1 3,4 11,56
5 4,6 4,9 -0,3 0,09
6 6,0 5,3 0,7 0,49
7 5,1 3,1 2,0 4,00
8 4,3 2,7 1,6 2,56
Formel
Der Tafel der t-Verteilung (z.B. Tafel ..) entnehmen wir für α = 0,05 und v =
8 -1 = 8 einen t-Wert t = 2,365. Da 2,8 > 2,365 kann die Nullhypothese auf dem 5
% Niveau (P(0,05) abgelehnt werden.
Dieser Test ist etwas schwächer als der Test für unabhängige Stichproben,
jedoch genügen zum Erreichen einer bestimmten Signifikanz kleinere Stichproben
als beim 'originalen' Test.
Seite - 86 - 14 Intervallschätzung III
14 Intervallschätzung III Parameterfreie Tests
14.1 Der U-Test nach MANN & WHITNEY
Ein recht einfacher und guter Test zum Vergleich unregelmäßger Verteilun-
gen kleineren Umfanges.
Angenommen, es liegen von zwei Versuchsflächen je 6 Immissionsmes-
sungen vor (etwa mg/1 eines Schadstoffes); sie sind naturgemäß nicht normalver-
teilt.
Fläche A: 1,2 1,4 1,7 2,2 2,8 3,1
Fläche B: 1,6 2,0 2,1 2,9 3,4 3,5
Zur Berechnung brauchen wir aber die absoluten Zahlen nicht, es genügen
deren 'Ränge'. Wir numerieren die Originalwerte in steigender Folge; jeder Wert
erhält so eine Rangzahl. Die Rangzahlen teilen wir nun auf die beiden Versuchs-
flächen auf und bilden für jede Versuchfläche die Summe der Rangzahlen:
Fläche 1: 1 2 4 7 8 10 R1 = 32
Fläche 2: 3 5 6 9 11 12 R2 = 46
Hier kann eine Rechenkontrolle eingeschoben werden:
Ra + R2 = 1/2. (n1 + n2, (n1 + n2 + 19.
mit unseren Zahlen:
32 + 46 = 1/2 . 12 . 13 = 78. Stimmt! Wir können weiterrechnen!
Nun berechnen wir die Größen U1 und U2
Formel
Mit unseren Ansätzen ergibt dies für
Formel
Wieder eine Kontrollmöglichkeit:
Formel
Stimmt wieder! Also weiter.
Prüfziffer ist der kleinere der beiden U-Werte. Ist dieser kleiner als der für
n1 und n2 und die geforderte Irrtumswahrscheinlichkeit α tabellierte Wert oder
14 Intervallschätzung III Seite - 87 -
weicht er diesen, kann ein Zusammenhang der beiden Zahlenreihen auf dem je-
weiligen Signifikanzniveau angenommen werden.
Im vorliegenden Beispiel ist die Prüfziffer 11, der Tabelle .. ist für P (0,05)
und n1 = n2 = 6 ein Wert von 5 (zweiseitiger Test) zu entnehmen; die Nullhypo-
these kann nicht abgelehnt werden.
Hier wurde nur eine stark gekürzte Tabelle aufgenommen, nur P (0,05),
einseitig und zweiseitig, sowie annähernd gleiche n-Werte wurden berücksichtigt.
In ausführlicheren Statistikbüchern sind vollständige Tabellen für die gebräuchli-
chen α-Werte wiedergegeben. Angesichts derartiger Tabellen erhebt sich aller-
dings die Frage, inwieweit Vergleiche mit n1 = 2 und n2 = 40 sinnvoll sind.
Tabelle: Kritische Werte zum U-Test nach WILCOXON, MANN &
WHITNEY. α = 0,05 zweiseitig, kursiv: desgl., jedoch einseitiger Test.
(nach SACHS [1]; stark gekürzt und neu arrangiert).
n2
n1 4 5 6 7 8 9 10 11 12 13 14 15 4 0
1
5 1 2
2 4
6 2 3
3 5
5 7
7 3 4
5 6
6 8
8 11
8 4 5
6 9
8 10
10 13
13 15
9 4 6
7 9
10 12
12 15
15 18
17 21
10 8 11
11 14
14 16
17 22
20 24
23 27
11 13 16
16 19
19 23
23 27
26 31
30 34
12 18 21
22 26
26 30
29 34
33 38
37 42
13 24 18
28 33
33 37
37 42
41 47
45 51
14 31 36
36 41
40 46
45 51
50 56
55 63
15 39 44
44 50
49 55
54 61
59 66
64 72
Seite - 88 - 14 Intervallschätzung III
Die (beispielhafte) Tabelle beschränkt sich auf kleine Differenzen n1-n2. Bei
größ0eren und für anderes α -> Lehrbücher (daselbst auch Approcimationen für
größere Probenumfänge).
Bei mehreren gleichen Werten, ist eine
Rangaufteilung
vorzunehmen: den identischen Werten wird die gleiche mittlere Rangzahl
zugeteilt. Unser etwas verändertes Beispiel mög dies besser als viele Worte erläu-
tern.
Fläche A: 1,2 1,4 1,4 2,2 2,9 3,1
Fläche B: 1,6 2,0 2,1 2,9 3,4 3,5
Die Rangaufteilung sieht nun folgendermaßen aus:
Fläche A: 1, 2,5 2,5 7 8,5 10
Fläche B: 4, 5 6 8,5 11, 12
Analog wird bei drei gleichen Werten verfahren.
Durch Rangaufteilungen wird der Test unschärfer.
Wenn n1 und n2 > 20 ist der U-Test nur nach einer z-Transformation an-
wendbar. Man berechnet wie beschrieben U1 und setzt diesen Wert in folgende
Formel ein:
Formel
Die Formel approximiert die gegebene Verteilung in eine standardisierte
Normalverteilung; die kritischen Werte der so erhaltenen Prüfziffer entsprechen
daher den bereits bekannten z-Werten, also für P (0,05) 1,96 und für P (0,01)
2,58. Für noch niedrigeres P sollte man den Test nicht strapazieren.
Die Formel ist für Stichproben n > 8 anwendbar.
14.2 Unabhängige Stichproben
Test n., KOLMOGOROFF-SMIRNOFF
Ein universell verwendbarer nichtparametrischer Test auf Gleichheit oder
Verschiedenheit der Grundgesamtheiten; er eignet sich besonders zum Vergleich
klassifizierter Proben und erlaubt im Gegensatz zum allerdings dessen Schärfe
ganz zu erreichen.
14 Intervallschätzung III Seite - 89 -
Mangels eigener Erfahrung sei der Test an Hand eines Beispieles aus
CAMPBELL vorgeführt.
Gegeben seien die Ergebnisse von Infektionsversuchen an zwei Getrei-
desorten mit Rostpilzen.
Sorte A wurde zu
18 43 55 59 61 62 64 67 69 73 81 89 % (Stichprobe A)
Sorte B zu
13 17 18 19 24 28 29 31 35 43 47 67 % (Stichprobe B)
infiziert.
Besteht ein signifikanter Unterschied in der Anfälligkeit der beiden Sorten?
Wir klassifizieren das doch recht umfangreiche Material und wählen dazu 5
%-Klssen; die Klassenbreite sollte so gewählt werden, daß in jeder Klasse 3-4
Werte enthalten sind; zu enge und zu breite Klassen machen den Test unscharf.
Dann stellen wir fest, wieviele Werte in jeder Klasse enthalten sind und
summieren deren Häufigkeiten getrennt nach A und B auf (kumulative Häufigkeit).
In jeder Klasse bilden wir die Differenz der Kumulativen Häufigkeit zwischen A und
B, die größte Differenz ist die Prüfziffer, mit der der Aufall des Tests an Hand der
Tabelle ... bewertet wird.
Tabelle:Test n. KOLMOGOROFF-SMIROFF, Klassifizierung und kumulative
Häufigkeiten des vorstehend angeführten Materials.
Klasse Werte aus Stichprobe Kumulative Häufigkeit
% A B A B A-B
10-14 13 0 1 1
15-20 8 17 18 19 1 4 3
20-24 24 1 5 4
25 - 28 29 1 7 5
30-34 31 1 9 8
35-39 31 1 9 8
40-44 43 43 2 10 8
45-49 47 2 11 9
50-54
55-59 55 59 4 11 7
60-64 61 62 64 7 11 3
Seite - 90 - 14 Intervallschätzung III
65-69 67 69 65 9 12 4
70-74 73 10 12 2
75-79
80-84 81 11 12 1
89-89 89 12 12 0
Die Verteilung der Werte gibt eine Vorstellung über die innere Struktur (die
'Form') der beiden Stichproben. So könnten z.B. deren Mediane, Quartile und der
Interdezilbereich festgelegt werden.
Die maximale Differenz der kumulativen Häufigkeiten A-B beträgt im obigen
Beispiel 9. Der nachstehenden Tabelle ..: entnehmen wir, daß bei n = 12 bereits
mit einer Differenz von 6 eine 5%ige und mit einer Differenz von 8 eine 1%ige Ü-
berschreitungswahrscheinlichkeit besteht. Ein Unterschied zwischen den beiden
Stichproben ist also mit P>99% (weniger als 1 % Irrtumswahrscheinlichkeit) gesi-
chert und die Nullhypothese kann abgelehnt werden.
Tabelle: Testwerte für den KOLMOGOROFF-SMIRNOFF-Test für α = 5 %
und 1 % Überschreitungswahrscheinlichkeit (Aus CAMPELL).
n 5 % n 1 %
4-5 1 5 5
6-8 5 6-8 6
9-12 6 9-10 7
13-16 7 11-14 9
17-21 8 15-17 9
21-27 9 18-21 10
28-30 10 22-26 11
31-40 11 27-30 12
31-35 13
36-40 14
Das in Kap ... vorgeführte Beispiel für den U-Test würde nach dem Test von
KOLMOGOROFF - SMIRNOFF (nunmehr aus Einzelwerten berechnet) eine ma-
ximale Differenz von 4 ergeben. Um wenigstens P (0,05) zu erreichen, müßte die
14 Intervallschätzung III Seite - 91 -
Differenz für n = 6 nach obiger Tabelle mindestens 5 betragen; die Nullhypothese
könnte auf das Signifikanzniveau P (0,05) auch nach diesem Test nicht abgelehnt
werden, die nach den beiden Tests erhaltenen Ergebnisse sind also durchaus
vergleichbar.
Sollen mehr als 2 Stichproben verglichen werden, schlage man in Lehrbü-
chern nach (z.B. Test nachKRUSKAL & WALLIS).
Die Verteilung der Werte der Tab. .. gibt eine Vorstellung von der Struktur
(der 'Form') der beiden Stichproben; so könnten die Mediane, Quartile und die In-
terdezilbereiche festgelegt werden.
14.3 Gepaarte Stichproben, der Vorzeichentest
Nicht normalverteilte gepaarte (= gebundene) Stichproben, d.s. verschiede-
ne Behandlung am gleichen Objekt (wobei Null-Kontrollen auch als 'Behandlung'
gelten), sind nach dem Vorzeichentest wesentlich einfacher auf Gleichheit oder
Ungleichheit der Grundgesamtheiten zu prüfen als normalverteilte.
Er basiert auf dem Vergleich von Plus- und Minus-Differenzen der Ver-
suchspaare und läuft damit indirekt ebenfalls auf einen Medianvergleich hinaus.
Das in Kap. ... vorgeführte Beispiel sei nun auch einem nicht parametri-
schen Test unterworfen.
Tabelle: Differenzen gepaarter Stichproben
Nr. A B A-B
1 4,0 3,0 1,00
2 3,5 3,0 0,5
3 4,1 3,8 0,3
4 5,5 2,1 3,45
5 4,6 4,9 -0,3
6 5,0 5,3 0,7
7 5,1 3,1 2,00
8 4,3 2,7 1,6
Unter den 8 Paaren sind 7 positive Differenzen und 1 negative. Maßgebend
für die Prüfung ist die jeweils kleinere Zahl der Differenzen, hier also 1.
Die Nullhypothese wird abgelehnt, wenn die kleinere Zahl von Differenzen
kleiner als die für das jeweilige n zutreffende Testgröße ist. Die h-Werte liegen
Seite - 92 - 14 Intervallschätzung III
tabelliert vor; man kann aber das jeweils benötigte h nach folgender einfachen
Formel ad hoc selbst berechnen.
Für den zweiseitigen Test ergibt sich h aus nachstehender Formel:
Formel
Für den einseitigen Test lassen sich die tabellierten h-Werte nach ähnlicher
Formel reproduzieren:
Formel
Nur die ganzen Zahlen zählen!
Für das 5 %-Niveau setzen wir z = 1,96 und erhalten für h den Wert O. Das
heißt, die Nullhypothese kann auf dem 5%-Niveau nicht abgelehnt werden, dazu
dürfte im vorliegenden Beispiel überhaupt keine negative Differenz vorkommen.
Berechnet man die Signifikanz des Unterschiedes im obigen Beispiel mit
dem t-Test, so könnte die Nullhypothese mit 5 > P > 1 abgelehnt werden! Es ist
dies eine Folge der unterschiedlichen Teststärke.
Unter Teststärke versteht man die Trennschärfe eines Tests bzw. die
Wahrscheinlichkeit, Ho abzulehnen, wenn HA richtig ist (= Fehler 1. Art).
Nichtparametrische Tests sind meist weniger stark. In diesem Fall wäre es
verfehlt, die Nullhypothese abzulehnen und das 'günstigere' Ergebnis zu akzeptie-
ren. Das in Rede stehende Beispiel liegt kein normalverteiltes Datenmaterial
zugrunde, weshalb der t-Test inkompetent ist und dem nichtparametrischen Test
der Vorzug zu geben ist.
14.4 Vergleich relativer Häufigkeiten
Beim Vergleich relativer (meist perzentualer) Häufigkeiten, etwa der Zahl
erfolgreicher Behandlungen x unter insgesamt n Versuchen, dreht es sich um Ja-
Nein-Entscheidungen. Hierfür sind Verfahren, die auf der Binominalverteilung auf-
bauen, kompetent.
Die Theorie bleibe dem Lehrbuch überlassen; in bereits bewährter Weise ist
statt dessen ein typisches Beispiel (Zahlen nach WEILING) durchgerechnet.
Von n1 = 1067 Nicht-Pfeifenrauchern (-PfR) sind innerhalb von 6 Jahren
117 (= x1) gestorben, von n2 = 402 Pfeifenrauchern (+PfR) starben im gleichen
Zeitraum x2=54 Personen; ist die Mortalität innerhalb der beiden Gruppen signifi-
kant verschiden?
14 Intervallschätzung III Seite - 93 -
Die relative Häufigkeit der Todesfälle wird mit p bezeichnet, die der Überle-
benden mit q. daher:
q = 1 - p.
Mit unseren Ansätzen:
-PfR: p1 = x1/n1 = 117/1067 = 0,1097; q1 = 0,8903;
+PfR: p2 = x2/n2 = 54/402 = 0,1343; q2 = 0,8657.
Die prozentualen quoten der Todesfälle betragen demnach p1 (%) = 11%;
p2(%) = 13,43%, die der Überlebenden q1(%) = 89 % und q2(%) = 86,57%; ü1 +
q1 = p2 + q2 = 100 %
Die Differenz p1 - p2 = D =
= 0,1097 - 0,1343 = 0,0246
Die Häufigkeit p der Treffer in beiden Proben:
Formel
Die Häufigkeit der Überlebenden in beiden Gruppen:
q = 1 - p = 1 - 0,1164 = 0,8836
Die Varianz der Differenz D = p1 - p2 beträgt
sp2 = p . q (1/n1 + 1/n2)
= 0,1164 . 0,8836 . (1/1067 + 1/402
= 0,1129 . 0,003425 = 0,0003867
Die Standardabweichung der Differenz beträgt
sp = 1/0,0003867 = 0,01966
Nun erinnern wir uns der allgemeinen Formel der t-Verteilung:
Formel
Für x1 und x2 haben wir p1 und p2 und für sx1 - x2 = sp = 0,01966 einzu-
setzen:
t = 0,1097 - 0,1343 / 0,01966 = 1.251
Einer ausführlichen t-Tafel entnehmen wir für α = 0,05 und v ≈ 1000 ein t =
1,963. (bei so großem Stichprobenumfang könnte man auch nach der z-Tafel prü-
fen). Da 1,316 < 1,961 kann die Nullhypothese nicht abgelehnt werden, es besteht
auf dem 5 %-Niveau kein Unterschied in der Mortalität von Pfeifen- und Nicht-
Pfeifenrauchern!
Diese Aufgabe kann auch mit dem x2-Test (Homogenitätstest ...) gelöst
werden.
Seite - 94 - 14 Intervallschätzung III
Bei seltenen Ereignissen (z.B. seltener Erfolg einer Behandlung) orientiere
man sich an Hand eines Lehrbuches über die POISSON-Verteilung.
Auf den ersten Blick paradox; die in jedem Statistiklehrbuch beschriebenen
Modelle zur Darstellung der Normalverteilung (GALTONsches Zufallsbrett, der
'Römische Brunnen' u.a. beruhen im Grunde auf der Binominalverteilung (wieder-
holte Entscheidung rechts-links). Aber auch die Binominalverteilung geht mit der
großen Zahl in die Normalverteilung über.
15 Vergleich von Varianzen Seite - 95 -
15 Vergleich von Varianzen
15.1 Der F-Test
Der t-Test ist korrekt nur bei Gleichheit der Varianzen anwendbar. Die exak-
te Prüfung auf Gleichheit der Varianzen geschieht mittels des F-Test.
Umgekehrt erlaubt die Gleichheit der Varianzen eine Aussage, ob zwei
Stichproben der gleichen Grundgesamtheit angehören. (Für diese Prüfung stehen
also mehrere Methoden zur Verfügung).
Prüfgröße F ist der Quotient
Formel
worin s1 die größere der beiden Varianzen bedeutet. Daher wird der Test
meist einseitig angewendet.
Ist F gleich dem für V1 und V2 (= n1 - 1 bzw. n2 - 1) und die Irrtumswahr-
scheinlichkeit α tabellierten Wert oder überschreitet er ihn, ist die Nullhyothese
abzulehnen und Verschiedenheit der Varianzen der Grundgesamtheiten auf dem
gewählten Signifikanzniveau anzunehmen.
Anders als der t-Test ist der F-Test gegenüber Abweichungen von der
Normalverteilung empfindlich. Gegebenenfalls prüfe man nach ....
Berechnungsbeispiele:
Greifen wir auf den Ansatz von ... zurück:
s1 = 4, s2 = 3; n1 = 4, n2 = 12;
F = 42/32 = 1,778;
Der Tabellenwert (kurgefaßte Tabelle ..) für v1 = 3 und v2 = 11 beträgt (in-
terpoliert) 3,59 1,778 << 3,59, die Nullhypothese kann daher nicht abgelehnt wer-
den.
Tabelle: F-Tabelle (gekürzt, n. SACHS ) P = 0,05 (einseitiger Test)
v1 (Freiheitsgrad des Zählers = der größeren Varianz)
v2 2 3 4 5 6 8 10 15 20 25
2 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 10,45
3 9,55 9,28 9,17 9,01 8,94 8,85 8,79 8,70 9,66 7,64
4 6,94 6,50 6,39 6,26 6,16 6,04 5,96 5,85 5,80 5,77
Seite - 96 -
5 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,62 4,56 4,53
6 5,14 4,76 4,53 4,39 4,28 4,15 4,05 3,94 3,87 3,94
8 4,46 4,07 3,84 3,69 3,58 3,44 3,35 3,22 3,15 3,12
10 4,10 3,71 3,48 3,33 3,22 3,07 3,98 2,85 2,77 2,74
15 3,68 3,29 3,05 2,90 2,79 2,64 2,54 2,40 2,33 2,29
20 3,45 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,08
25 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,02 2,95
P = 0,01 (einseitiger Test)
2 3 4 5 6 8 10 15 20 25
2 99,00 99,17 99,25 99,30 99,33 99,37 99,40 00,43 99,45 99,46
3 30,92 29,46 28,71 29,24 27,91 27,49 27,23 26,87 26,69 26,60
4 18,00 16,69 15,98 15,52 15,21 14,90 14,55 14,20 14,02 13,93
5 13,27 12,06 11,39 12,97 10,67 10,29 10,05 9,72 9,55 9,47
6 10,82 9,78 9,15 8,75 8,47 8,10 7,87 7,54 7,40 6,31
8 8,65 6,59 7,01 6,63 6,37 6,03 5,81 5,52 5,36 5,28
10 7,56 6,55 5,99 5,64 5,39 5,06 4,85 4,56 4,41 4,33
15 6,36 5,42 4,89 4,56 4,32 4,88 3,80 3,52 3,37 3,29
20 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,09 2,94 2,86
24 5,61 4,72 4,22 3,90 3,67 3,36 3,11 2,89 2,74 2,66
Die F-Verteilung ermöglicht den Vergleich mehrerer Mittelwerte, die quanti-
tative Untersuchung von Einfluß-(Stör-)größen und Störfaktoren, die Analyse von
Regressionen und Korrelationen u.a.m. Die sog. 'Varuantanalyse' gehört aber
nicht mehr zu 'Elementen der Statistik'.
21 Anhang I: Symbole Seite - 97 -
16 Der chi2 - Test
16.1 Was kann und was ist X2?
Die auf der sog. X2-Verteilung basierenden Tests sind überaus vielseitig
verwendbar:
Prüfung, ob eine Stichprobe der Grundgesamtheit angehört
Streuungstest
(Prüfung nicht über den Mittelwert, sondern über die Varianzen:
ob ein Ergebnis den Erwartungen entspricht:
Anpassungstest,
Eignet sich auch zur Prüfung der Gültigkeit und Brauchbarkeit mathemati-
scher Modelle;
Prüfung von 2x2 und mehr Gruppen auf Erfolg einer Behandlung etc., inkl.
Test auf Unabhängigkeit:
Homogenitäts- bzw. Unabhängigkeitstest.
Vor der Vorstellung der Anwendungen des Tests an Hand von Beispielen
dürften des besseren Verständnisses wegen einige mehr theoretischer Bemer-
kungen über die X2-Verteilung angebracht sein.
Quadriert man die Standardnormalverteilung, so erhält man gleichfalls eine
stetige, jedoch asymmetrische Kurve, die X2-Verteilung. Sie hat bei Freiheitsgrad
v = 1 fast L-förmig und geht mit steigendem v allmählich in die (wegen der quadra-
tischen Funktion in den positiven Bereich verlagert) Normalverteilung über. Infolge
dieser Eigenschaft liegt die Stärke der X2-Verteilung im Bereich niedriger Frei-
heitsgrade.
Zunächst die Prinzipformel:
Standardverteilung X2-Verteilung
Formel
Eine andere, daraus ableitbare Formel,
Formel
läßt die nahe Verwandtschaft dieser Verteilung mit der im vorigen Kapitel
angesprochenen F-Verteilung) erkennen (zur Ableitung seien Interessierte an aus-
führlichere Lehrbücher der Statistik verwiesen).
Seite - 98 - 16 Der chi2 - Test
Daraus wieder leitet sich die Formel
Formel
mit v = n-1 Freiheitsgraden ab.
Da in dieser Formel die Zufallsvariable x nicht auf µ (den Mittelwert der
Grundgesamtheit), sondern auf den der Stichprobe bezogen wird, sinkt die Zahl
der Freiheitsgrade auf v = n-1.
Daraus leitet sich eine höchst wertvolle Eigenschaft von X2 ab: Eine X2-
verteilte Größe mit v Freiheitsgraden läßt sich in ebenso viele gleichfalls X2-
verteilte Anteile (mit der entsprechenden Anzahl von Freiheitsgraden) zerlegen:
Formel
worin v = ∑V1 = die Summe aller Freiheitsgrade.
Umgekehrt ist die Summe x2-verteilter Größen selbst wieder x2-verteilt
(durch den Doppelpfeil ⇔ angedeutet):
Additionstheorem
Auf Grund des Additionstheorems läßt sich die X2-Verteilung noch in fol-
gender Form anschreiben:
Formel
worin B1 die Beobachtungen und E1 die Erwartungswerte bedeuten. Damit
läßt sich die Übereinstimmung von Beobachtungen mit den Erwartungen prüfen.
Aus diesen Eigenschaften ergibt sich eine vielfältige Anwendbarkeit dieses
Tests. Einige Anwendungen sollen im Folgenden ohne weitere Theorie an Hand
von Beispielen vorgeführt werden.
Tabelle.
Wichtige Signifikanzschranken für den X2-Test (nach FISHER &YATES,
aus SACHS, stark gekürzt)
P (= Integral 0 bis X2) α (= Integral X2 bis ∞)
v 0,99 0,95 0,90 0,10 0,05 0,01 0,001
1 0,00016 0,0039 0,0158 2,71 3,84 6,63 10,83
2 0,0201 0,1026 0,2107 4,61 5,99 9,21 13,82
3 0,115 0,352 0,584 6,25 7,81 11,34 16,27
4 0,297 0,711 1,064 7,28 9,49 13,28 18,47
5 0,654 1,15 1,61 9,24 11,07 15,09 20,52
6 0,872 1,64 2,20 10,64 12,59 16,81 22,46
21 Anhang I: Symbole Seite - 99 -
7 1,24 2,17 2,83 12,02 14,07 18,48 24,32
8 1,65 2,73 3,49 13,36 15,51 10,09 26,13
9 2,09 3,33 4,17 14,68 16,92 21,67 27,88
10 2,56 3,94 4,87 15,99 17,31 23,21 29,59
Zur Erläuterung diene diese Grafik der X2-Verteilung:
Grafik
Die Tabelle beschränkt sich auf die am häufigsten gebrauchten Freiheits-
grade (v) und Irrtumswahrscheinlichkeiten (α). Ausführliche Tafeln der X2-
Verteilung bzw. der Signifikanzschranken finden ich in jedem Statistikbuch.
16.2 Gehört eine Stichprobe einer Grundgesamtheit an? (Streuungstest)
In ... wurde bereits die Frage aufgeworfen, ob eine Stichprobe aus n = 9
Messungen des 100-Nadelgewichte x = 2,0 g von dem für den Bestand bekannten
Mittelwert µ = 2,2 ± 0,1 g abweicht. Das Problem wurde dort mittels des z-Tests
gelöst, es kann aber auch nach dem X2-Test geprüft werden.
Wir benutzen dazu Formel
Formel
Der Vergleich wird also über die Varianzen durchgeführt.
Die Standardabweichung der Stichprobe, die beim z-Test (Vergleich der
Mittelwerte) nicht nötig war, sei mit s = 0,2 angenommen. Wir stellen die Nullhypo-
these auf: es besteht keine Übereinstimmung zwischen Stichprobe und Grundge-
samtheit.
Die Zahlen der Annahme in die Formel eingesetzt:
Formel
Dieser Wert ist größer als der für v = 8 und α = 0,001 tabellierte X2-Wert
27.88. Die Nullhypothese ist daher abzulehnen, die Stichprobe gehört mit α =
0,001 der Grundgesamtheit an.
Damit stimmt das Ergebnis mit dem nach dem z-Test erhaltenen überein.
16.3 Stimmt die Beobachtung mit der Erwartung überein? (Anpassungstest)
Dazu wählen wir ein klassisches Beispiel (nach WEILING): Gregor
MENDEL fand in einem seiner Kreuzungsversuche Erbsenpflanzen mit folgenden
Merkmalen:
Seite - 100 - 16 Der chi2 - Test
315 runde gelbe Erbsen
101 kantige gelbe,
108 runde grüne und
32 kantige grüne Erbsen
Summe 556 Erbsen
Frage: vermag dieses Ergebnis des Spaltungsgesetz statistisch zu sichern?
MENDEL vermutete hinter diesen Zahlen ein Verhältnis 9:3:3:1. Danach
wären zu erwarten:
9/16 von 556 = 316,75 runde gelbe Erbsen
3/16 " " = 104,25 kantige gelbe Erbsen
3/16 " " = 104,25 runde grüne und
1/16 " " = 34,25 kantige grüne Erbsen.
Dem Additionstheorem folgend berechnen wir für jede Kombination (B-
E)2/E. Die so erhaltenen X2-Werte werden addiert und die Summe wird mit den in
der X2-Tafel für v = 3 Freiheitsgrade tabellierten Werten verglichen. Die Rechnung
sieht so aus:
Formel
Unter Berücksichtigung von 3 Freiheitsgraden (4 Erscheinungsformen) er-
gibt die Tabelle eine Wahrscheinlicht
0,90 < P < 0,95
Geht natürlich, aber bereits bei vier Gliedern reichlich umständlich. Elegan-
ter und (insbesondere bei einer größeren Zahl von Merkmalsausprägungen) einfa-
cher geht es mit der aus .... abgeleiteten Formel
Formel
Dazu machen wir uns zweckmäßig eine kleine Hilfstabelle nach folgendem
Muster:
Erschei-
nungsform
(Merkmal)
B B2 E B2/E
rund-gelb 315 99.225 312,75 317,2661
kantig-gelb 101 10,201 104,25 97,8513
rund-grün 108 11.236 104,25 111,8848
21 Anhang I: Symbole Seite - 101 -
kantig-grün 32 1.024 34,75 29,4676
Summe
minus n
556 556 556,4698
556,0000
X2 = 0,4698
also das gleiche Ergebnis wie oben.
Den X2-Test in diesem Falle anzuwenden ist nicht ganz unbedenklich. Der
Test setzt Normalverteilung voraus, die im vorliegenden Fall nicht zutrifft, es wer-
den vielmehr Häufigkeiten verglichen, für die eher die sog. Binominalverteilung
kompetent wäre. Bei den relativ großen Zahlen, die hier vorliegen, nähert sich
auch die Binominalverteilung der Normalverteilung, sodaß der Test anwendbar ist.
16.4 Hatte eine Behandlung Erfolg? (Homogenitätstest)
Häufig stellt sich die Frage, ob eine Behandlung (Düngung, Medikament,
Lebensweise etc.) ein Einfluß auf Ertrag, Lebensdauer usw. ausübt. Wählen wir
als Beispiel noch einmal die bereits in Kap. .. behandelte Frage, ob sich die Le-
bensdauer von Pfeifenrauchern und Nichtpfeifenrauchern signifikant unterschei-
det, versuchen sie aber jetzt mittels des X2-Tests zu beantworten. Hier kurz die
Wiederholung der zugrundeliegenden Daten:
Durch 6 Jahre hindurch wurden 1469 Personen, Pfeifenraucher und Nicht-
Pfeifenraucher, beobachtet. Während dieser Zeit verstarben 54 Pfeifenraucher
und 117 Nichtpfeifenraucher, 348 Pfeifenraucher und 950 Nicht-Pfeifenraucher
überlebten. Besteht ein signifikanter Unterschied zwischen den beiden Gruppen?
Zur Prüfung ordnen wir diese Daten in vier Fehlder an ('Vierfeldertafel') oder
2 x 2 Tafel.
nach 6 Jahren Nicht-
Pfeifenraucher
Pfeifenraucher Zeilensumme
tot a = 117 b = 54 a+b = 171
lebend c = 950 d = 348 c+d = 1298
Spaltensumme a+c = 1067 b+d = 402 a+b+c+d = 1469
Ecksumme (=n)
Wir gehen von der Nullhypothese aus, die Pfeife habe keinen Einfluß auf
die Lebensdauer. Dazu müssen Werte für a, b, c und d berechnet werden, die zu
Seite - 102 - 16 Der chi2 - Test
erwarten wären, wenn die Pfeife ohne Einfluß auf die Lebensdauer wäre (Erwar-
tungswert Ea ...Eb). Man erhält diese, indem man das Produkt aus der jeweiligen
Zeilensumme mal der Spaltensumme durch die Ecksumme (= n) teilt:
Nach diesem 'Rezept' bilden wir (n = 1469).
Formel
Gemäß Formel gilt:
Formel
werden, wodurch sich die Formel sehr vereinfacht:
Formel
Mit den Zahlen unseres Beispieles:
Formel
Waag- wie senkrecht wird je ein Freiheitsgrad 'verbraucht', sodaß v = (2-1) .
(2-1) = 1. Einer X2-Tafel (z.B. Tab ..) entnehmen wir für X2 = 1,627 und v = 1 ein
P = 0,10. Die Nullhypothese kann daher nicht abgelehnt werden, die Pfeife hat
keinen signifikanten Einfluß auf die Lebenserwartung.
Durch Umformungen erhält man eine Formel, die die lästige Berechnung
von E überflüssig macht:
formel
Die Zahlen unseres Beispieles ergeben nach dieser Formel X2 = 1,728; der
gegenüber der obigen Berechnung geringfügig höhere Wert ist durch unterschied-
lichen Einfluß der Rundungen bedingt.
Kein Feld darf einen geringeren Besatz als 3 aufweisen (Zeilen- und Spal-
tensummen nicht kleiner als 6). Bei n > 20 darf n - 1 durch n ersetzt werden.
16.5 Der Mehrfelder-Test
Der Vierfelder-Test ist ein häufiger Sonderfall des Mehrfeldertests. Er soll
an Hand eines noch relativ einfachen, dem Skriptum WEILINGs entnommenen
Beispiels erläutert werden; es betrifft allerdings nicht den biologischen Bereich, es
geht dabei um den Vergleich von Ausbildung und Leistung.
In einem Test wurden die Leistungen von Hauptschülern, Gymnasiasten
und Hochschülern verlgichen und mit 1 - 4 klassifiziert (1 = schlechteste Note, 4 =
beste Leistung). Frage: Besteht ein Zusammenhang zwischen Ausbildung und
Leistungsfähigkeit?
Den Ausfall des Tests ist in folgender Kontingenztafel
21 Anhang I: Symbole Seite - 103 -
dargestellt. Unter Kontingenz versteht man allgemein den statistischen Zu-
sammenhang zwischen Merkmalen.
Tabelle: Kontingenztafel zum Beispiel des Mehrfeldertests.
Leistung 1 2 3 4 ∑nz
H Haupt-
schule
28 46 32 12 118
G Gymnasi-
um
12 30 52 20 114
V
Hochschule
6 12 33 50 101
∑ns 46 88 117 82 n = 333
∑nz = Zeilensummen, ∑ns = Spaltensummen
Wir können natürlich wieder 'schimmelmäßig' wie beim Vierfeldertest ge-
zeigt für jedes der 12 Felder den Erwartungswert nach der Formel E = ∑nz. ∑ns/n
berechnen:
Formel
Man erhält so eine um die Erwartungswerte (in Klammern) vervollständigte
Kontingenztafel:
Tabelle: Leistung 1 2 3 4 ∑nz
H Hauptschule 28
16
46
31
32
42
12
29
118
118
G Gymnasium 12
16
30
30
52
40
20
28
114
114
V Hochschule 6
14
12
27
33
35
50
25
101
101
∑ns 46 88
88
117
117
82 n = 333
92
333
Nach Anwendung der (auf die hier gewählte Bezeichnung adaptierten)
Formel
formel
Das Durchrechnen dürfen wir uns auch hier ersparen.
Seite - 104 - 16 Der chi2 - Test
Etwas bequemer ist da schon die aus obiger Formel durch Umformung er-
haltene Ausdruck
Formel
Wieder obige Zahlen eingesetzt:
Formel
Die geringe Differenz zu dem in vorhergehender Berechnung erhaltenen
Ergebnisse geht auf Rundungen bei der Berechnung der Erwartungswerte E zu-
rück.
Noch eleganter läßt sich diese 12-Felder-Tafel nach folgendem, aus dem
gleichen Ansatz durch Umformungen erhaltenen Verfahren lösen, dabei wird zu-
dem die Berechnung der E-Werte überflüssig.
Bei dieser Gelegenheit wollen wir, um dem Leser den Übergang zu den
Lehrbüchern der Statistik zu erleichtern, die bei derartigen Tests üblichen Symbole
benutzen.
Dabei werden die Beobachtungen mit x bezeichnet und nach dem Merkmal
1 in senkrechten Spalten mit x1, x2 ... x3 indiziert ('s' steht hier für 'Spalte'). Die
jeweils zugeordneten Merkmale 2 werden in horizontalen Reihen mit x11, x12 ...
x1z, für Merkmal 2 mit x21, x22 ... x2z usf. indiziert ('z' steht für 'Zeile'). Die allge-
meine Mehrfeldertabelle sieht dann so aus:
Tabelle: Allgemeine Form einer Mehrfeldertafel:
Merkmal 2: 1 2 j z Zeilen-
summen
1 x11 x12 x13 x1z n1
2 x21 x22 x23 x2z n2
. . . . . .
. . . . . .
i xi1 xi2 xij xiz ni
. . . . . .
. . . . . .
s xs1 xs2 xsj xsz nz
Spaltensummen n1 n2
z indiziert 'Zeile', s indiziert 'Spalte'.
21 Anhang I: Symbole Seite - 105 -
i steht für die Ausprägungen des Merkmals 1 (Spalten) zwischen 1 und s, j
ebenso für die Ausprägungen des Merkmals 2 (Zeilen) zwischen 1 und z.
Wir schieben die Präsentation der allgemeinen Formel noch etwas auf; trotz
'eleganten Verfahrens' könnte sie ohne Vorbereitung dem Leser einen kleinen
Schock versetzen). Zielführender ist es, zunächst den Rechengang schrittweise
an Hand unseres Beispieles aus dem Schulbereich vorzuführen.
Man bildet zunächst die Quadrate der Beobachtungswerte B (= x) aus Ta-
belle ... und dividiert sie durch die zugehörige Spaltensumme ∑ns. In der Symbol-
sprache der Tabelle ... schreiben wir:
Formel
Diese Zahlen setzen wir an die Stelle der Beobachtungswerte in die Tabelle
.. ein und bilden deren Zeilensummen ∑xz2/ns (in der Symbolsprache der Tabelle
.. ∑xij2/n1). Die Zeilensummen werden durch die Zahl der Beobachtungen der je-
weiligen Zeile ∑nz (letzte Spalte von Tab. ..., nunmehriges Symbol ∑xi) dividiert.
die so erhaltenen Werte (∑xij2/ni, letzte Spalte der folgenden Tabelle ..) werden
addiert.
Nach diesem Vorgehen nimmt die Tabelle .. folgendes Aussehen an.
Tabelle: Erklärung - Text - Leistung
1 2 3 4 ∑x2/ns ∑nz (∑x2/ns)
nz
H 17,0434 4,0454 8,7521 1,7560 51,5969 118 0,4372
G 3,1304 10,1172 23,1111 4,8780 41,3467 114 0,3626
U 0,7826 1,6363 9,3076 30,4678 42,2143 101 0,4179
∑ns 46 68 116 82 333
Summe der letzten Spalte 1,2177
minus 1,000 (gem. [F 1&, 1-4]9 - 1,0000
0,2177
x2 = 0,21277 . n (gem. Formel = 0,2177 = 72,494
Freiheitsgrade: horizontal 4-1 = 3
vertikal 3-1 = 2
Seite - 106 - 16 Der chi2 - Test
v = 3 x 2 = 6
Dieser Wert ist in der X2-Tabelle nicht mehr enthalten, der Zusammenhang
von Leistung und Vorbildung ist daher hochsignifikant (P << 0,0001).
Nun wird uns auch die allgemeine Formel für den Mehrfelder-Test kaum
mehr großen Schrecken einjagen.
Formel
Die Übersetzung in den Klartext ist nichts anderes als die Wiederholung des
bereit Gesagten:
Bilde sukzessive und nach Zeilen geordnet die Quotienten aus den Quadra-
ten der Beobachtungswerte (B bzw. x) durch die jeweilige Spaltensumme. Sum-
miere die Quotinten jeder Zeiel (I) und teile den erhaltenen Wert durch die Zahl
der Beobachtungen in der betreffenden Zeile (II), Ziehe von der Summe der so
erhaltenen Zeilenwerte 1 ab (III); Multiplikation des erhaltenen Wertes mit der Ge-
samtzahl der Beobachtungen (IV) ergibt X2 ...
Die Freiheitsgrade ergeben sich allgemein aus dem Produkt der um1 ver-
minderten Zeilen- und Spaltenzahlen:
Formel
Wie bereits beim Vierfelder-Test erwähnt muß jedes Feld ausreichend be-
setzt sein (xij >2), woraus sich als Minimum der Zeilensumme = 2s und als Mini-
mum der Spaltensumme = 2z ergbit. Bei zu geringem Besatz kann man sich durch
Zusammenziehen zweier Spalten oder Zeilen behelfen. Bezüglich weiterer Mög-
lichkeiten (YATES-Korrektur) ausführlichere Lehrbücher der Statistik.
16.6 Signifikanz von Stichproben (eine Anwendung des Addtitionstheorem)
Es kommt häufig vor, daß mehrere gleichartige, unabhängige Stichproben
wenig befriedigende Signifikanzen aufweisen, der gleichsinnige Ausfall jedoch ei-
ne höhere Signifikanz vermuten läßt.
Nach PÄTAU kann man eine kumulative Signifikanz ermitteln, indem man
für die t-Werte der Stichproben die entsprechenden X2-Werte aufsucht, diese ad-
diert und daraus die kumulative Signifikanz der X2-Tafel entnimmt. Dies sei an
einem Beispiel gezeigt.
Gegeben seien drei Proben mäßiger Signifikanz:
21 Anhang I: Symbole Seite - 107 -
Versuch a n = 15 t = 1,34 P = 0,20
Versuch b n = 10 t = 1,81 P = 0,10
Versuch c n = 20 t = 2,09 P = 0,05
Kein Versuch weist eine höhere Signifikanz als P (0,05) auf. Den P-Werten
entsprechen in der X2-Tafel folgende Werte (je 2 Freiheitsgrade).
Formel
Bereits unserer kleinen Tabelle .. können wir entnehmen, daß bei v = 6
Freiheitsgraden (es handelt sich um voneinander unabhängige Ermittlungen) ei-
nem X2 = 12,69 ein P = 5 % und einem X2 = 16,01 ein P = 1 % entspricht; oder
anders angeschrieben:
0,05 > P >> 0,01
Die drei Proben nach dem Additionstheorem zusammengenommen erge-
ben eine deutlich höhere Signifikanz, als jeder einzelnen Probe zukommt.
Seite - 108 - 17 Regression
17 Regression
17.1 Wichtige Begriffe
Bestimmt die Veränderung einer Größe zwangsläufig eine andere, z.B. der
Radius eines Kreises, dessen Fläche so sprechen wir von
funktionalem Zusammenhang
Streng genommen sind funktionale Zusammenhänge nur als mathemati-
sche Modelle denkbar. In der Realität ist die Funktion z.B. eines Maschinenteils im
Bereich unvermeidlicher Toleranzen unsicher und kann damit, weil zufallsbedingt,
Gegenstand statistischer Überlegungen sein.
Wenn z.B. geprüft wird, wie Düngergaben, in arithmetischer Reihe gestei-
gert. Wachstum und Ertrag bestimmen oder der Ablauf eines Vorganges in defi-
nierten zeitlichen Abständen messend verfolgt wird liegt eine stochastische Bezie-
hung vor, eine
Regression
Die unabhängige Variable, der Regressor (Meßfehlerfreiheit wird vorausge-
setzt) wird auf der x-Achse eines rechtwinkeligen Koordinationssystems aufgetra-
gen, die von ihm bestimmte (abhängige) Zufallsvariable, der Regressand, auf der
y-Achse.
Bilden die den x-Werten zugeordneten y-Werte annähernd eine Gerade,
liegt eine sehr enge Beziehung vor, läßt die 'Punktwolke' keine bevorzugte Rich-
tung erkennen, besteht keine Beziehung zwischen x und y.
Die Enge der Beziehung x-y läßt sich durch das 'Bestimmtheitsmaß' B aus-
drücken; B = 0: kein Zusammenhang, B = 1 : maximaler (quasi funktionaler) Zu-
sammenhang
Fig.
Meist hat die Punktwolke die Form einer mehr oder weniger gestreckten El-
lipse. Kann sie nach dem Augenmaß durch eine Gerade der Länge nach in zwei
annähernd gleiche Hälften geteilt werden, liegt eine lineare Regression vor. Im
biologischen Bereich kommen aber häufig nichtlineare (logarithmische, hyperboli-
21 Anhang I: Symbole Seite - 109 -
sche ode andere Zusammenhänge vor; auf diese wird im Anschluß an die Be-
handlung der linearen Regressionen kurz eingegangen werden.
Eine Regression ist, annähernde Normalverteilung der über dem jeweiligen
x stehenden y-Werte vorausgesetzt, durch folgende Parameter bestimmt:
durch die Zahl der x/y-Paare
durch die Gleichung einer die Punktwolke repräsentierenden Geraden
(Regressionsgerade), und
durch ein Maß für die Streuung der Punktwolke (Standardabweichung, Be-
stimmtheitsmaß).
17.2 Die Regressionsgerade
Sozusagen das Kernstück jeder Beurteilung oder Analyse einer (linearen)
Regression ist die Regressionsgerade
Sie wird derart durch die Punktwolke gelegt, daß (so die exakte Definition)
die Summe der Quadrate der Punktabstände zur Geraden lotrecht (also parallel
zur y - Achse) gemessen ein Minimum wird oder, was auf dasselbe hinausläuft,
der mittlere quadrierte lotrechte Abstand der Punkte (x,y) von der Geraden mini-
mal wird. Eindeutig beschrieben wird die Gerade nach den Regeln der analyti-
schen Geometrie durch ihren Schnittpunkt mit der y-Achse (den Achsenabschnitt
a) und die Steigung der Geraden b = der Tangens des Winkels ß, den sie mit der
x-Achse einschließt; b ist der Regressionskoeffizient.
Fig.
Ein negativer Regressionskoeffizient bedeutet, daß y mit wachsendem x
abnimmt (negative Regression).
Der Regressionskoeffizient b ergibt sich aus folgender Formel:
Formel
So bestechend klar diese Formel auch aussieht, ideal ist sie nicht, weil sie
zu unhandlichen Zahlen und damit zu viel Rechenarbeit führt. Trotz scheinbar
größerer Kompliziertheit ist folgende Form der Formel vorteilhafter:
Formel
Der Achsenabschnitt a (d.i.y, wenn x = 0) ergibt sich aus Formel:
Formel
Der Schwerpunkt der Punktwolke (x,y) liegt auf der Regressionsgeraden.
Seite - 110 - 17 Regression
Obwohl bereits Taschenrechner vielfach Programme zur Berechnung von
Regressionen eingebaut haben, sei auch in diesem Falle der Rechengang an ei-
nem
Berechnungsbeispiel
vorgeführt (aus Weiling)
Frage: Besteht eine Beziehung zwischen der Zellgröße von Mnium-
Blättchen und der Zahl der Chloroplasten pro Zelle? Die Chloroplastenzahl ist die
meß- bzw. ablesefehlerfreie unabhängige Variable x, die Zellgröße y (als Zellflä-
che in relativen Einheiten angegeben) ist die x zugeordnete, meßfehlerbehaftete
Zufallsvariable.
Die Daten für 10 Zellen sind in Spalte II und IV der Tabelle .. angeführt. Die
Mittelwerte x = 5,7 und y = 51,1 würden recht unhandliche Differenzen (x1-x) bzw.
(yi-y) ergeben. Wir erinnern uns der in Kap. .. gelegentlich der Berechnung von
Mittelwerten empfohlenen linearen Transformation und wählen als provisorische
Mittelwerte dx = 6 und dy = 50. Die nunmehrigen wesentlich handlicheren Werte
sind in Spalte III und V angeführt.
Tabelle .. Zur Berechnung der Regression Chloroplastenzahlen (x) und Zell-
flächen (y).
V II III IV V VI VII VIII
Nr. x x-dx y y-dx (x-dx)2 (y-dy)2 x-dx),(y-dy)
1 8 2 60 10 4 100 20
2 5 -1 51 1 1 1 -1
3 7 1 72 22 1 484 22
4 4 -2 26 -24 4 576 48
5 5 -1 61 11 1 121 -11
6 5 -1 37 -13 1- 169 13
8 7 1 73 23 1 529 23
8 6 0 47 -3 0 9 0
9 6 0 52 2 0 4 0
10 4 -2 32 -18 4 324 36
∑ 57 -3 511 11 17 2317 150 341
x = 5,7
5,7
dx = 6
y = 51,1dy = 50
y = 51,1 dy = 50
21 Anhang I: Symbole Seite - 111 -
In Formel ... ist nur für nicht transformierte Differenzen geeignet. Die Formel
... enthält Korrekturglieder eingebaut, sodaß wir für ∑xy die Summe aus Spalte
VIII, für ∑x2 den Wert ∑VI und für ∑x den Wert ∑III setzen können:
Formel
Damit dürfte diese Formel ihren Schrecken verloren aben!
Der Achsenabschnitt y ergibt sich (aus den nichtformierten Werten!) nach
...:
Formel
Die Gleichung der Regressionsgeraden lautet somit:
y = -3,16 + 9,52x
17.3 Das Bestimmtheitsmaß
Das Bestimmtheitsmaß (Symbol B) gibt Auskunft über die Streuung der
Punkte entlang der Regressionsgeraden, bzw. die Breite der Punktwolke. B kann
alle Werte von 0 - 1 annehmen; je mehr sich B dem Wert 1 nähert, desto enger
sind die Punkte um die Regressionsgerade geschart, umso schlanker ist die
Punktwolke. B = 0 deutet auf regellos im Korrdinatensystem verstreute Punkte.
B kann nach folgender Formel berechnet werden:
Formel
oder:
Formel
Zur Ergänzung der Tabelle ...zwei hier benötigte nicht transformierte Sum-
men:
Formel
Bei Benutzung der transformierten Werte würde mir B = 0,66 ein nur gerin-
ger Fehler (in diesem Falle in Richtung größerer Strenge der x-y-Beziehung) ent-
stehen.
Für mathematische Interessierte: Das Bestimmtheitsmaß B ist jener Teil der
Varianz von y, der durch den Einfluß des Regressors x erklärt wird. Bei B = 1 wer-
den alle y-Werte durch den Regressor erklärt, bei B = 0 ist kein Einfluß bemerkbar.
Näheres ggfs. in den Lehrbüchern nachschlagen!
Seite - 112 - 17 Regression
17.4 Standardabweichungen
Sowohl der Regressionskoeffizient b als auch der Ordinatenabschnitt a ist
mit Unsicherheit behaftet, sie kann durch deren
Standardabweichungen
(Varianzen) gekennzeichnet werden. Dabei gilt:
Formel
mit n-2 Freiheitsgraden. Der Standardfehler für den Ordinatenabschnitt a
ergibt sich aus der Formel.
Formel
mit n-2 Freiheitsgraden.
Der Vergleich zweier Regressionskoeffizienten kann über das t-Kalkül ge-
führt werden. Die Prüfgröße lautet nach bereits bekanntem Muster ...
Formel
Die Berechnung des im Nenner stehendendes Ausdrucks, d.i. der Stan-
dardabweichung der Differenz zweier Regressionskoeffizienten S(b1-b2), ist frei-
lich recht aufwendig.
Formel
mit v = n1 + n2 - 4 Freiheitsgraden.
17.5 Extrapolation, Linearität
Der Regressionskoeffizient und die daraus abgeleiteten Größen gelten nur
im Bereich der Punktwolke und nur unter der Voraussetzung einer durch eine Ge-
rade darstellbaren linearen Regression.
Man mag versucht sein, damit in den Bereich außerhalb derselben zu ext-
rapolieren; schließlich ist der Ordinatenabschnitt a, eine wichtige bestimmende
Größe, auch eine Extrapolation.
Wenn die Punktwolke eng ist (B nahe 1), können Extrapolationen mit der
nötigen Vorsicht gewagt werden. Wenn z.B., auf der Abszisse die Zeit aufgetragen
ist, wir also eine Zeitreihe vor uns haben und aus der Regressionsgeraden ein
Trend ablesbar ist, möchte man doch gerne eine Voraussage über den weiteren
Verlauf ableiten.
Dabei darf man aber zweierlei nicht übersehen.
Extrapolierte Werte sind unsicherer als innerhalb der Punktwolke interpolier-
te;
21 Anhang I: Symbole Seite - 113 -
Schwerer wiegt, daß Extrapolationen nur bei linearen Regression zulässing
sind. Dies ist aber gerade im biologischen Bereich nur höchst selten der Fall En-
zymkinetiken, die Wirkung steigender Düngergaben oder anderer Agentien,
Wachstumsvorgänge, Populationsentwicklungen etc, folgen meist logarithmische
oder hyperbolischen Funktionen.
Im Zweifelsfall prüfe man die Linearität der Regression, indem man für 2
oder 3 anähernd gleich große Abszissenabschnitte gesondert die Regressionsko-
effizienten ermittelt; stimmen b und a der einzelnen Abschnitte annähernd überein,
darf Linearität angenommen werden.
Was tun bei nichtlinearen Regressionen?
Oft gelingt es, durch Transformierungen, wie sie in Kap. ... beschrieben sind
(z.B. durch Logarithmieren oder Potenzieren der Abszisse) angenäherte Linearität
herzustellen. Kurvenverläufe, die asymptotoisch einem Endwert zustreben (meist
hyperbolische Funktionen, z.B. Enzymkinetiken) lassen sich durch doppeltrezipro-
ken Auftrag linearisiern (LINEWEAVER-BURK-Diagramme).
Für 'hartnäckige Fälle' findet man in ausführlichen Statistikbüchern (aber
nicht in allen1) Hilfe in freilich recht aufwendigen Verfahren (Berechnung von
Ausgleichsoparabeln, Regression nichtlinearer Zusammenhänge).
Seite - 114 - 17 Regression
18 Korrelationen I normalverteile Variable
18.1 Der Korrelationskoeffizient
Zur Prüfung des Grades des stochastischen Zusammenhangs zweier met-
risch skalierter, annähernd normalverteilter Zufallsvariablen ist der
Korrelationskoeffizient
kompetent, Sein Symbol ist r.
Die graphische Darstellung ergibt wie bei der Regression eine Punktwolke.
Die Korrelation wird jedoch durch zwei Regressionsgerade bestimmt. Die eine hat
x als Regressor und y als Zufallsvariable (Regressand) dies ergibt einen Regres-
sionskoeffizienten byx (spr. by und x); die zweite Gerade nimmt y als Regressor
und x als Variable und ist durch bxy (bx über y) charakterisiert.
Fig.
Die beiden Regressionsgeraden schneiden sich im gemeinsamen Schwer-
punkt (x, y). Je kleiner der Winkel, den die Geraden einschließen, desto enger ist
der Zusammenhang zwischen x und y. Desto mehr nähert sich der Korrelations-
koeffizient r dem Wert 1. r = 0 steht für das Fehlen jeglichen Zusammenhangs (die
Geraden stehen im rechten Winkel zueinander); bei negativem r nimmt y mit stei-
gendem x ab (negative Korrelation). r kann alle Werte zwischen +1 und -1 anneh-
men.
Fig.
Zur Berechnung braucht man die Gleichungen der Regressionsgeraden
nicht gesondert zu ermitteln, man erhält r nach folgender Formel
Fig.
So umständlich die Formel auch aussehen mag, sie läßt sich auf jeden Fall,
auch auf klassifiziertes Material, anwenden. Dies mögen drei durchgerechnete
Beispiele zeigen.
18.2 Die Berechnung des Korrelationskoeffizienten
Man wird heute kaum mehr Korrelationskoeffizienten händisch ausrechnen;
jeder besere Taschenrechner hat hiefür Programme fix eingebaut und nimmt da-
21 Anhang I: Symbole Seite - 115 -
durch viel Rechenarbeit ab. Damit aber der Leser mit diesem Kalkül leichter ver-
traut wird, seien einige Demonstrationbeispiele durchgerechnet.
Beispiel 1:
Wählen wir aus erstes eine einfache, aus nur 5 Wertepaaren x1y1 1,1 2,2
.... 5,5 bestehende (fingierte) Beziehung. Wir übertragen die Wertepaare in eine
Korrelationstabelle:
Tabelle Korrelationstabelle einer linearen, strengen Korrelation
x1
→
1 2 3 4 5 x x2 x,y
y1↓ 5 - - - - 5 25 25
4 - - - 4 16 16
3 - - - - 3 9 9
2 - - - - 2 4 4
1 - - - - 1 1 1
∑x=15 ∑x2=55 ∑xy=55
y 1 2 3 4 5 ∑y = 15
y2 1 4 9 16 25 ∑y2 = 55
Wir benötigen die Zeilensummen von x (im Beispiel findet sich in jeder Zahl
nur 1 x-Wert) und die Summe deren Quadrate, ebenso die Spaltensummen y und
deren Quadrate, ferner noch die Summe aller möglichen Produkte x.y; diese
schreibt man am besten ganz rechts in die Korrelationstabelle.
So vorbereitet können wir die Werte in die Formel einsetzen (sie sei von vo-
riger Seite nochmals wiedergegeben):
Formel
Formel
Womit bewiesen ist, daß eine vollkommene Korrelation zwischen y und y
besteht.
Beispiel 2:
Wie das vorige, nur tanzen zwei Wertepaare etwas aus der Reihe, wodurch
die Beziehung xy weniger eng wird. Die Korrelationstafel sieht nun so aus:
Tabelle: Weniger strenge Korrelation.
Seite - 116 - 17 Regression
x1
→
1 2 3 4 5 x x2 x,y
y1↓ 5 - - - 5+4 25+16 20+25
4 - - - - - 0 0 0
3 - - - - 3 9 9
2 - - - - - 0 0 0
1 - - - 2+1 4+1 2+1
∑x=15 ∑x2=55 ∑xy=57
y 1 1 3 5 5 ∑y = 15
y2 1 1 9 25 25 ∑y2 = &!
Formel
Wie zu erwarten gibt r eine etwas schwächere, aber immer noch sehr enge
Korrelation vom xy an.
Beispiel 3:
Als drittes Beispiel diene ein Protokollmodell mit klassifizierten Daten; es ist
ein Auschnitt von 50 Wertepaaren aus einem Protokoll über den Zusammenhang
zwischen dem SO3-Gehalt von Fichtennadeln und em Trübungstest nach HÄRTEL
(Lichtabsorption standardisiert hergestellte Nadel..) als Indikator für SO2-
Einwirkungen.
Die SO3-Gehalte der Nadeln in ‰ TG, klassifiziert mit Klassenbreite b = 2
bilden gleichsam die Abszisse der Korrelationstabelle (ni); die Klassenmittel 3, 5, 7
und 9 sind mit x1 indiziert. Die Trübungswerte auf der Ordinate sind mit b = 10
(Klassenmittel 15, 25, ...) aufgetragen und mit yj gekennzeichnet. (Diese Indizie-
rung stimmt mit der in der Mehrfeldertafel gebrauchten überein=.
Tabelle. Korrelationstabelle, S-Gehalt von Fichtennadeln und Trübungstest
SO3 x1 3 5 7 9 ni ni,yj ni,y32
y1↓ 65 - - 1 2 3 3x65 3x4225
55 - 1 5 1 7 7x55 7x3025
45 - 4 5 - 9 9x45 9x2025
35 1 7 2 - 10 10x35 10x1225
25 2 8 1 - 11 11x25 11x625
15 8 2 - - 10 10x15 10x225
21 Anhang I: Symbole Seite - 117 -
∑nj 11 22 14 3 50 1760 73.450
∑ni, xi 11.3 + 22x5 + 14x7 + 3x9 = 268
ni, x12 11x9 + 22x25 + 14x4 + 3x81 = 1578
Berechnung von ∑xi (nijyj) (= n, x, y): x steht hier für 'mal'!
3x(8x15 + 2x25 + 1x35) .............................................. 615
5x(2x15 + 8x25 + 7x35 + 4x45 + 1x55).................... 3.558
7x (25 + 2x35 + 5x45 + 5x55 + 65) .......................... 4.620
9x(55+ 2x65)............................................................ 1.665
10.440
Die berechneten Zahlenwerte aus vorstehender Tabelle in die Formel ein-
gesetzt:
Formel
In der Originalarbeit (HÄRTEL 198.) wird aus insgesamt 220 Proben ein r =
0,65 angegeben.
In praxi wird man diese Aufgabe nicht wie hier mit den Originalzahlen lösen,
sondern provisorische Skalen einführen und xi wie yj mit 1, 2, 3 usf. numerieren.
Dadurch bekommt man es mit wesentlich handlicheren Zahlen zut un. Man kann
noch einen Schritt weiter gehen und die stärkst besetzte Spalte und ebensolche
Zeile mit 0 bezeichnen und mit den Differenzen x - x bzw. y - y rechnen. Davon
wurde hier abgesehen, um nicht das Prinzipielle zuzudecken; bei Bedarf ziehe
man ein Lehrbuch der Statistik heran.
Bei geringer Zahl von Wertepaaren liefert die Formel etwas zu kleine Korre-
lationskoeffizienten (die Korrelation der Grundgesamtheit ρ )rjp. das griech. r) wird
etwa unterschätzt). Wenn man sehr genau vorgehen will, korrigiere man r mit
Formel ... zu r*:
Formel
Der Fehler liegt bei r = 0,7 und n = 10 bei rd. -4% und nähert sich mit stei-
gendem r und zunehmender Stichprobengröße 0.
Seite - 118 - 17 Regression
18.3 Das Bestimmtheitsmaß
Das Quadrat von r ist das Bestimmtheitsmaß (Symbol B):
Formel
Somit ist r das geometrische Mittel aus den Koeffizienten der beiden Reg-
ressionsgeraden bxy ⋅ byx.
Ähnlich wie bei der Regression drückt B aus, wieweit sich die Varianzen der
beiden Geraden gegenseitig bedingen m.a.W. das Verhältnis der Varianzen der
Regressionsgeraden zur Gesamtvarianz).
Jetzt interessieren aber doch byx und bxy
Formel
und
Formel
Zum Zeichnen der Regressionsgeraden benötigt man noch die Ordinaten-
abschnitte (Schnittpunkt mit der y-Achse).
Formel
und
Formel
Zum Zeichnen der Regressionsgeraden kann man die Geraden durch die
Schnittpunkte ayx bzw. axy mit dem zugehörigen Steigungswinkel (tanß = b) zie-
hen oder, bequemer noch, durch a und den Schwerpunkt der Punktwolke, x,y (Mit-
telwerte aller x und aller y).
18.4 Signifikanz des Korrelationskoeffizienten
Seite fehlt!!
18.5 Unterschied zwischen zwei Korrelationskoeffizienten
Die Differenz zwischen zwei Korrelationskoeffizienten ist nicht normalver-
teilt; sie muß daher in die Standardnormalverteilung transformiert werden. Dies
geschieht nach FISHER mit der Formel
Formel
Die solcherart transformierten r-Werte (in den Statistikbüchern finden sich
hiefür Tabellen, die die Rechenarbeit abnehmen) werden in die nachstehende
Formel eingesetzt
Formel
21 Anhang I: Symbole Seite - 119 -
Erreicht oder überschreitet das so erhaltene z den für die geforderte Ü-
berschreitungs- (=Irrtumswahrscheinlichkeit α tabellierten Wert (Tabelle der z-
Werte Tab. ... oder jedes Statistikbuch), so ist die Nullhypothese abzulehnen, zwi-
schen den beiden Korrelationskoeffizienten ist ein Unterschied auf dem gewählten
Niveau signifikant.
Zur Ermittlung der Standardabweichung finden sich in ausführlicheren Sta-
tistikbüchern Diagramme. Auf die Wiedergabe des recht komplizierten Rechenwe-
ges darf hier verzichtet werden.
18.6 Korrelation zu dritt
Gelegentlich sind es nicht zwei, sondern drei oder sogar mehr Variable, die
sich gegenseitig beeinflussen, m.a.W. es wird eine Korrelation durch eine oder
weitere Variable mitbestimmt. Derartige 'Dreiecks' oder komplizierte Verhältnisse
kann man analysieren, indem man je nach Problemlage:
der Reihe nach x, y und z wegläßt und nacheinander die Korrelationskoeffi-
zienten zwischen den beiden übrigen Variablen ermittelt:
partieller Korrelationskoeffizient
oder
man ermittelt, wie zwei Variable gemeinsam eine dritte, die Zielgröße, be-
einflussen:
multipler Korrelationskoeffizient.
Bezeichnen wir die drei möglichen paarweisen linearen Korrelationen mit
rxy, rxz und ryz so ergibt sich der partielle Korrelationskoeffizient unter Ausschluß
von z (die ausgeschlossene Variable wird im Index durch Interpunktion abgesetzt)
nach
formel
Die Koeffizienten für die beiden anderen Paarungen ergeben sich mit zykli-
scher Vertauschung der Indizes:
Formel
Formel
Zur Auswertung:
Durch die Höhe der jeweiligen rxy.z, rxz.y und ryz.x wird die Stärke der Be-
ziehungen in dem „Dreiecksverhältnis“ angezeigt. Werden z.B. x und y gleicher-
Seite - 120 - 17 Regression
weise durch z beeinflußt, wird rxy.z ≅ 0. Es kann vorkommen, daß eine Korrelation
überhaupt erst nach Ausschalten eines Störfaktors zutage tritt.
Auf analoge Weise können auch mehr als drei Variable analysiert werden;
die Sache wird dann noch etwas komplizierter und die Rechenarbeit entsprechend
größer.
Der multiple Korrelationskoeffizient Rx.yz (man beachte: die beiden
Einflußgrößen y und z sind von der Zielgröße x wieder durch Interpunktion abge-
setzt) ergibt sich aus der Formel:
Formel
An den Quadraten der r-Werte in der Formel erkannt man, daß die Berech-
nung von Rx.yz über die Bestimmtheitsgrade läuft. Der Bestimmtheitsgrad der
multiplen Korrelation ist wie bei der 'normalen' Korrelation
Formel
Für nähere Informationen muß auch hier auf ausführlichere Lehrbücher
verwiesen werden.
Zur Interpreation von r
Nichts wäre verhängnisvoller als Korrelationskoeffizienten schematisch zu
interpretieren. r = 0 muß keineswegs eine fehlende Beziehung zwischen x und y
bedeuten; es kann sein, daß die benutzte Formel der Verteilung nicht gerade ge-
recht wird. Fig. .. gibt Beispiele hierfür.
Fig.
Probleme kann auch eine Punktwolke aufwerfen, die mit steigendem x und
y zunehmende Streuung aufweist, also keulenförmigen Umriß zeigt. Für nichtlinea-
re Korrelationen gilt das im Kapitel 17 'Regression' hiezu Gesagte sinngemäß.
Korrelationen und Regressionen verleiten leicht dazu, in einer statistischen
Beziehung bereits eine 'Erklärung' zu sehen. Hier sei eindringlich wiederholt: Sta-
tistik kann nicht erklären, nur die Wahrscheinlichkeit, hier von Zusammenhängen,
aufzeigen. Jede Erklärung muß der alle sonstigen Umstände berücksichtigenden
Kausalanalyse vorbehalten bleiben.
Man sei auch vor Scheinkorrelationen, zufälligem Zusammentreffen von
Vorgängen, die nichts miteinander zu tun haben, auf der Hut. Immer wieder zitiert:
Die Vogelwarten in Holland melden eine Zunahme der Storchpopulationen, die
Standesämter eine Zunahme der Geburten, ergo ...
21 Anhang I: Symbole Seite - 121 -
19 Korrelationen II
Nichtparametrische Tests
Sollen nichtnormalverteilte Daten auf Abhängigkeit verglichen werden, z.B.
nach ordinaler Skala geordnete ('rangskalierte') Leistungen, so wird die Korrelation
durch Vergleich der Ränge ermittelt:
Rangkorrelation1)
Hier sollen zwei derartige Tests vorgestellt werden und zwar
SPEARMANs Rangkorrelation und
der Rangkorrelationstest nach KENDALL
Wie bei allen nichtparametrischen Tests weisen auch die Rangkorrelationen
eine geringere Teststärk auf, d.h. die Gefahr, einen Fehler 1. Art zu begehen (eine
richtige Nullhypothese abzulehnen, ... Kap.) ist etwas größer als bei den para-
metrischen Tests.
19.1 Rangkorrelation nach SPEARMAN
Sei sei wieder an einem Beispiel (aus SACHS erläutert). Gegeben seien
zwei Ranglisten, z.B. die Leistungen von 10 Kandidaten bei zwei verschiedenen
Prüfern; die Kandidaten erbrachten, alphabetisch gereiht, folgende Leistungen:
beim Prüfer A: 7 6 3 8 2 10 4 1 5 9
beim Prüfer B: 8 4 5 9 2 1 3 2 6 10
Man ermittelt zunächst die Rangdifferenzen D und deren Quadrate:
Diff. D -1 2 -2 -1 1 3 1 -1 -1 -1 ∑D = 0
D2 1 4 4 1 1 9 1 1 1 1 ∑D2 = 24
Kontrolle: die Summe der Differenzen muß gleich Null sein. Stimmt !
Der SPEARMANsche Rangkorrelationskoeffizient (Symbol rs) wird nach fol-
gender Formel berechnet:
Formel
1) Wir haben bisher von 'Korrelationen' schlechthin gesprochen. Die hier vorgestellten Ver-
fahren basieren auf einem ganz anderen Prinzip, nämlich dem Vergleich von Rängen, daher der korrekte Temrinus 'Rangkorrelation'. In den Formeln für die in Kap. .. behandelten parametrischen Korrelationen spielt das Produkt x,y sozusagen eine Schlüsselrolle, weshalb man sie korrekt, aber umständlich als 'Produktmomentkorrelation' bezeichnen sollte. Um den Text nicht zusehr mit vor-läufigunnötigen Begriffen zu überlasten, wurde vorerst von dieser Unterscheidung abgesehen.
Seite - 122 - 17 Regression
In unserem Falle also
Formel
Dieser Wert ist größer als der für n = 10 und α = 0,01 = 0,7333 tabellierte
(Tab. .. nächste Seite), die Nullhypothese ist mit P <0,01 abzulehnen.
Tabelle. Signifikanzschranken zu SPEARMANs Rangkorrelation (Nach Glasse
& WINTER, aus SACHS, gekürzt)
Signifikanzniveau α
n 0,001 0,01 0,05
5 0,900 0,800
6 0,8857 0,7714
7 0,943 0,8571 0,5952
8 0,9275 0,8095 0,5952
9 0,9000 0,7667 0,5833
10 0,8667 0,7333 0,5515
11 0,8455 0,7000 0,5223
12 0,8182 0,6713 0,5804
13 0,7912 0,6429 0,4780
14 0,7670 0,6220 0,4593
15 0,7464 0,6000 0,4429
20 0,6585 0,5203 0,3789
25 0,5967 0,4654 0,3362
30 0,5479 0,4251 0,3059
25 0,5967 0,4654 0,3362
Bei n>30 sollte der Test nicht verwendet werden. In diesem Falle prüfe man
über t gemäß folgender Formel:
Formel
und gehe auf Zeile v = n - 2 Freiheitsgrade in die t-Tabelle (Kap ...) oder
Statistikbuch) ein.
Vereinzelte Bindungen (mehrere gleiche Werte) dürfen ignoriert werden;
nur bei gehäuftem Auftreten lohnt eine rechnerische Korrektur (SACHS; bei Bedarf
ziehe man ein ausführliches Lehrbuch zu Rate.
21 Anhang I: Symbole Seite - 123 -
19.2 Rangkorrelation 'KENDALs τ'
Nac einem anderen Prinzip prüft der Test nach KENDALL mit dem Kalkül τ (=
tau, das griech. 't') zwei Zahlenreihen auf Gleichheit. Der Test sei wieder an Hand
eines Beispiels (aus CAMPELL) dargelegt.
Gegeben sind zwei korrelierende Zahlenreihen (im Original geht es um
Schweine: x = Gewicht bei der Entwöhnung in Pfund, y = Tage bis zur Schlach-
tung):
x: 39 56 46 50 58 41 49 68 52 39
y: 105 114 121 117 115 147 119 106 111 253
Man ordnet entweder nach x oder nach y und setzt den jeweils zugeordne-
ten Wert der anderen Reihe darunter; wir entscheiden uns nach x zu ordnen:
x geordnet
39 41 46 48 49 50 52 56 57 59
y 142 147 121 115 119 117 111 114 106 105
In der nichtgeordneten Reihe (hier y) zählt man, wieviel y-Werte rechts vom
1. Wertepaar größer sind als das erste y (= P), mit Q bezeichnet man die Zahl der
Werte, die kleiner als das erste y sind. Ebenso zählt man vom 2. Wertepaar aus-
gehend wieviele Werte rechts davon größer und wieviel kleiner sind als das 'Start-
y' und so fort bis zum Ende der Reihe. Zuletzt bildet man noch (P - Q) und ∑(P-Q)
= S.
x ge-
ordnet
39 41 46 48 49 50 52 56 57 59
y → 142 147 121 115 119 117 111 114 106 105
P 1 0 0 2 0 0 1 0 0 --
Q 9 8 7 4 5 4 2 2 1 --
P-Q -7 -8 -7 -2 -5 -4 -1 -2 -1 --
∑(P-Q) = S = -37 n = 10
Formel
Mit unseren Zahlen: τ = (2 ⋅ -37)/(10 ⋅ 9) = 0,822
In Spalte n = 10 der nachstehenden Tabelle findet man in Zelle für ISI = 37
die Überschreitungswahrscheinlichkeit von 0,04 % an (zweiseitiger Test, einseitig
0,02 %). Es ist dies die Wahrscheinlichkeit, daß ISI durch unkorrelierte Stichpro-
Seite - 124 - 17 Regression
ben erreicht wird (m.a.W. mit der sich τ von Null unterscheidet); die Nullhypothese
kann verworfen werden.
Tabelle .. Signifikanz des Rangkorrelationstests nach KENDALL gegen Null.
(Aus CAMPELL)
Werte von n Werte von n
ISI 4 4 8 9
0,17
-
ISI 6 7 10
2 75 82 90 02 3 72 72 86
4 33 48 72 76 5 47 56 72
6 8 33 55 63 7 27 38 60
8 -- 8 40 48 9 14 24 48
10 -- 1,7 27 36 11 6 18 38
12 -- -- 18 26 13 1,7 7 29
14 -- -- 11 18 15 0,3 3,0 22
16 -- -- 5 12 17 -- 1,0 16
18 -- -- 3,2 8 19 -- 0,3 11
20 -- -- 1,4 4,4 21 -- 0,04 7
22 -- -- 0,6 2,4 23 4,6
24 1,3 25 2,9
26 0,04 0,6 27 1,7
28 0,005 2,4 29 0,9
30 0,09 31 0,5
32 0,2 33 0,2
34 0,005 35 0,09
36 0,0005 37 0,04
40 39 0,012
Für n > 10 ist die Verteilung mittels folgender Formel einer Standardnormal
verteilung zu approxomieren und mit z zu prüfen:
Formel
wobei (wie bereits wohlbekannt)
z = 1,96 für P = 5 %
z = 2,58 für P = 1 %
z = 3,29 für P = 0,1 %
21 Anhang I: Symbole Seite - 125 -
als Schranken gelten.
Bei Rangaufteilungen und Bindungen (mehrere gleiche Werte in einer Zeile
bzw. gleiche Werte in beiden Zeilen) sind die Ergebnisse nur approximativ (im Be
darfsfall → Lehrbuch!)
-
Seite - 126 - 17 Regression
20 Weiterführende Hinweise
Mit diesen 19 Kapiteln ist „Statistik“ natürlich bei weitem nicht ausgeschöpft;
vielleicht ist der Rahmen, der durch das im Titel ausgedrückte Vorhaben „Elemen
te“ zu bieten, halbwegs ausgefüllt. Als Abschluß und zur Abrundung dürften einige
stichwortartig Hinweise auf Verfahren, die die moderne Statistik zur Lösung kom
plexer Probleme bereithält, zu einer ersten Orientierung nicht unwillkommen sein.
-
-
-
-
-
Varianzanalyse.
-
-
-
In Kap. .. wurde kurz auf den F-Test als ein Weg zum Vergleich von Grund
gesamtheiten oder Stichproben über den Varianzenvergleich hingewiesen. Vari
anzen bieten aber noch weitergehende Möglichkeiten. Durch sog. Streuungszerle
gung, lassen sich Anteile von Einflußgrößen (Faktoren) quantitativ angeben, der
Grundgedanke der
Auf die einfachste Formel gebracht: mit ihrer Hilfe läßt sich angeben, wel
cher Anteil der Streuung auf Unterschiede der Grundgesamtheiten und welcher
auf Zufall zurückzuführen ist. Vergleichbares haben wir, ohne allerdings den Ter
minus „Varianzanalyse“ explizit zu gebrauchen, beim Bestimmtheitsmaß vor.
Regressioen und Korrelationen kennengelernt; dort ging es um die Trennung des
anteils der Varianz, der durch die Regressionsgeraden erklärt wird, von der Ge
samtvarianz.
Varianzanalyse erfordert normalverteilte Daten. Bei Versuchen, in denen
sowohl mehrere Faktoren verändert werden und auch der Erfolg in verschiedener
Hinsicht interpretiert werden soll, bereitet die säuberliche Trennung Probleme; die
graphische Darstellung würde ein unüberschaubares Punktegewirr (womöglich
mehrdimensional) ergeben. Hier eine saubere Zuordnung zu treffen, also in dem
Punktegewirr die richtigen Punktwolken herauszufiltern, hilft die
Diskriminanzanalyse
Die abgegrenzten Punktwolken (clusters) können durch die
Clusteranalyse
genauer unter die Lupe genommen werden.
Schließlich sei noch auf die Möglichkeiten hingewiesen, die die sog.
sequentiellen Analyseverfahren
21 Anhang I: Symbole Seite - 127 -
bieten. Unter bestimmten Voraussetzungen liefern sie mit geringerem Da
tenmaterial und damit geringerem zeitlichen Aufwand für die Versuche den klassi
schen statistischen Verfahren ebenbürtige Werte. Sie eignen sich daher beson
ders für die Auswertung von Kurzzeitversuchen. Mit graphischen Methoden kann
sogar Rechenarbeit eingespart werden.
-
-
-
Die hier nur kursorisch genannten Verfahren haben in „Elementen“ nichts
mehr zu suchen, es muß diesbezüglich auf ausführliche Lehrbücher neueren Da-
tums, in bestimmten Fällen auf einschlägige (fast durchweg englischsprachige)
Originalliteratur verwiesen werden; die nicht ganz einfache Lektüre setzt allerdings
erhebliche mathematische Grundkenntnisse voraus.
Seite - 128 - 17 Regression
21 Anhang I: Symbole
21.1 Lateinische Schriftzeichen
-
-
ln natürlicher Logarithmus mit Ba-sis e (∏ e)
n Zahl der Elemente in einer Stichprobe
N Zahl der Elemente in einer Grundgesamtheit
-
-
-
-
a Achsen- (=Ordinaten)abschnitt bei Regressionsgeraden
P Wahrscheinlichkeit des Eintreffens eines Ereignisses
b Regressionskoeffizient; auch:
Klassenbreite bei klassifizierten Daten
q Quartil
Vorsicht! p und q bedeuten in der Binominalverteilung die Zahl des Eintreffens bzw. des Nichteintreffens eines Ereignisses (in dieser Darstellung nicht behandelt)
B Bestimmtheitsmaß der Regres-sions- und Korrelationskoeffizienten; auch: beobachteter Wert (im 2 - Test)
D Dichtemittel r Korrelationskoeffizient (Punkt-
momentkorrelation) DZ Dezil (meist mit Koeffizient z.B. DZ1 = 1. Dezil)
rs SPERMANs Rangkorrelationskoeffizient
e Basis des natürlichen Logarith
mus = 2,71828...) R Spanweite einer Verteilung
E Erwartungswert (im 2 - Test) s, sx Standardabweichung einer
Stichprobe; aber auch: s = SI = Symbol für Sekunde
F Kalkül des F - Tests FG Freiheitsgrad(e), (nicht in dieser
Darstellung) sx Standardabweichung des Mittelwertes einer Stichprobe
-
-
-
H0 Nullhypothese t Tabellenwert der t-Verteilung
nach STUDENT HA Alternativhypothese (ablehnung von H0)
$t (spr. t Dach) aus Daten nach einer Formel für den t-Test errechnete Prüfziffer
I Interdezilbereich (meist I80) lg Logarithmus mit Basis 10
(BRIGGscher Logarithmus) tan tangens (Winkelfunktion)
u veraltet: Abszisse der Stan
dardnormalverteilung, heute ist hierfür z gebräuchlich
U Prüfziffer für den U-Test n. MAN
& WHITNEY
21 Anhang I: Symbole Seite - 129 -
VB Vertrauensbereich VK Variationskoeffizient
x (x quer) arithmetisches Mittel
einer Stichprobe x (x Schlange) Median einer
Stichprobe
-
-
-
-
α Irrtums- oder Überschreitungs-
wahrscheinlichkeit, Wahrschein-lichkeit, einen Fehler der 1. Art zu begehen
β Wahrscheinlichkeit, einen Fehler der 2. Art zu begehen
µ (my) Mittelwert der Grundge-
samtheit
-
-
-
-
--
-
x1, xi, xj jeder beliebige Wert einer Variablen
geometrisches Mittel harmonisches Mittel y alternativ zu x, z.B. bei gepaar
ten Proben z Abszisse der Standardnormal
verteilung aus Daten errechneter („ge
schätzter“) z-Wert, Prüfgröße beim z-Test
Zur Vereinfachung von Formeln werden häufig Glieder der Formel durch Buchstaben (A, B, Q, X, k etc. gemäß ad hoc - Definition substituiert.
21.2 Griechische Schriftzeichen
(my Schlange) Median der
Grundgesamtheit
ν (ny) Freihetsgrad(e) ρ (rho) Korrelationskoeffizient zwi
schen Grundgesamtheiten σ (Sigma) Standardabweichung
einer Grundgesamtheit Σ (großes Sigma) Summenzei
chen τ Kalkül für „KENDALLs tau“ χ² Symbol für den chi-quadrat-Test
21.3 Einige sonstige Zeichen
> der links vom Zeichen stehende Wet ist größer als der rechte
< rechter Wert ist größer als der
linke ≠ ungleich
≈ ungefähr gleich | ......| der zwischen den beiden
senkrechten Strichen stehende Ausdruck ist ohne Rücksicht auf das tatsächliche Vorzeichen positiv zu nehmen
Die üblichen einfachen mathematischen Zeichen werden als bekannt vorausgesetzt. Um Verwechslungen mit „x“ zu vermeiden wird Multiplikation durch einen Punkt (meist mit beidseitig je einer Leerstelle) angedeutet. Das Computerzeichen * wurde nur in den mit an den Rändern mit Doppellinien gekennzeichneten „Computer-abschnitten“ verwendet.
Seite - 130 - 22 Anhang II: Literatur
22 Anhang II: Literatur ANONYM, 1964. Statistik. In Dokumenta Geigy, Wissenschaftliche Tabellen (Hg.
R.R.GEIGY). 6. Auflage, Geigy AG, Basel.
Sehr abstrakte, ganz in mathematischer Formelsprache abgefaßte, je
doch sehr eingehende Darstellung mit reichlichem Tabellenmaterial. Es
gibt auch spätere Auflagen.
-
-
CAMPBELL R.V., 1971. Statistische Methoden für Biologen und Mediziner. Übers. v.
P. IHM. - Thieme Stuttgart.
-
Mit Beispielen aus der pharmazeutischen Praxis.
BAMBERG G., BAUR F. 1989. Statistik. 6. Auflage, Oldenbourg Verlag München,
Wien.
BATSCHELET R., 1980. Mathematik für Biologen. - Springer Verlag Berlin, Heidel
berg, New York.
Eines der 15 Kapitel behandelt Statistik, in erster Linie Wahrscheinlichkeitstheorie
- Mit Übungsaufgaben.
BAUER P., SCHEIBER G. & WOHLZOGEN F. X. 1983. Sestatistische Verfahren. - In:
LORENZ R.J. & VOLLMER J. (Hg.), Biometrie. - G. Fischer, Stuttgart.
BRUHN J. 1983. Statistik für programmierbare Taschenrechner. - Vieweg Braun-
schweig-Wiesbaden.
Leicht lesbar und praxisorientiert, berücksichtigt ausgiebig nichtpara
metrische Tests.
CAVALLI-SFORZA, L. 1974. Biometrie, Grundbegriffe biologisch - medizinischer Sta-
tistik, Bearb. v. R. J. LORENZ. - 4. Aufl. - G. Fischer Stuttgart.
DEICHSEL G., TRAMPISCH H.J. 1985. Clusteranalyse und Diskriminanzanalyse. In:
LORENZ T.J. & VOLLMER J. (Hg.), Biometrie. - G. Fischer, Stuttgart.
KÜZL-NORBERG F., 1946. Statistik. - Springer, Wien.
Weitgehend veraltet, aber sehr ausführliche und breit angelegte Be-
schreibung 'klassischer' Methoden.
22 Anhang II: Literatur Seite - 131 -
KÖHLER W., SCHACHTEL G., VOLESKE P. 1996. Biostatistik. 2. Auflage. - Springer
Verlag.
LORENZ R.J. 1988. Biometrie. 2. Aufl. In: LORENZ R.J. & VOLLMER J. (Hg.), Bio
metrie. G. Fischer Stuttgart.
-
-
-
-
Die dreiteilige 'Biometrie' (vgl. DEICHSEL & TRAMPISCH und BAUER,
SCHEIBERT & WOHLZOGEN) bietet eine umfassende und moderne auch
für Biologen zu empfehlende Einführung in die Statistik.
MATHER K., 1946. Statistische Analysen in der Biologie. Nach der 2. englischen
Aufl. übers. von A. ZELLER. - Springer Verlag Wien.
Bietet zahlreiche fachrelevante Beispiele, im Hinblick auf das Erschei
nungsdatum nicht auf der Höhe der Zeit.
MITTENECKER E., 1969. Planung und Auswertug von Experimenten. 8. Aufl. - Deu
ticke, Wien.
Bestens- und empfehlenwerte Einführung des Grazer Psychologen.
Beispiele aus der Psychologie.
PATAU K. 1946 (?) Zur statistischen Auswertung von Meßreihen. (Eine neue t - Ta
fel). - Biol. Cbl., das genaue Zitat ist nicht eruierbar, man suche ggfs. in
den bald nach dem 2. Weltkrieg erschienen Bänden.
SACHS L. 1984. Angewandte Statistik. 6. Aufl. - Springer Verlag Berlin, Heidelberg,
New York, Tokyo.
Sehr ausführliche, gut lesbare und praxisorientierte Darstellung mit
lehrbuchartigem Charakter.
SACHS L. 1978. Statistische Methoden. 4. Aufl. Springer Verlag Berlin, Heidelberg,
New York.
Auf 105 Seiten können nur die wichtigsten Methoden untergebracht
werden, nichtparametrische Verfahren bleiben unberücksichtigt. Durch
die Kürze und Übersichtlichkeit ein in sehr brauchbarer und nützlicher
'Soforthelfer'.
SCHACH V. & SCHÄFER TH. 1978. Regressions- und Varianzanalyse. Hochschultext
48. - Springer Verlag Berlin, Heidelberg, New York.
Seite - 132 - 22 Anhang II: Literatur
SCHMIDT W. 1948. Lehrprogramm Statistik. - Taschenbuch 46. - Verlag Chemie,
Verlag Physik, Weinheim.
TIMISCHL W. 1987. Biomathematik. Eine Einführung für Biologen und Mediziner. -
Springer Verlag Wien.
WEBER E. 1980. Grundriß der Statistik. 8. Aufl. - G. Fischer, Jena.
Sozusagen der Klassiker in der deutschsprachigen Statistikliteratur. Es
dürfte dies die letzte Auflage des Werkes der bereits damals sehr be-
tagten Dame gewesen sein.
WEBER E. 1976. Faktorenanalyse. - G. Fischer Jena.
WEILING F. 1973. Einführung in die Statistik und Biometrie. 2. Aufl. Als Manuskript
vervielfältigt.
Skriptum zur Statistik - Vorlesung WEILINGs. Ausführliche Grundlegung
der Wahrscheinlichkeitstheorie, zahlreiche ...gerechte Beispiele aus
dem biologischen Bereich.
WEILING F. 1978. Zur Frage der für den Nachweis einer Korrelation erforderlichen
Zahl von Stichprobenelementen. - Die Weinwirtschaft, Jgg. 1978.
22 Anhang II: Literatur Seite - 133 -
23 Index
—A—
Abweichung
mittlere 66
Alternativhypothese 76
Arbeitsmappe 28
AUFRUNDEN() 41
Ausgabebereich 28
Ausreißer 74
AutoAusfüllen 14; 23; 28
Fehler beim 42
—B—
Blockdiagramm 21
—D—
Daten
klassifiziert 26
Dekaden 23
Dezile 68
Diagramm-Assistent 22
Diagrammassistent 23
Diagrammdarstellung 29
Diagrammtyp 23
Dichtemittel 33
—F—
Fehler
Fortpflanzung 43
systematisch 9
Freiheitsgrad 57
Frequency Count.. 29
—G—
GAUSSsche Verteilungskurve 45
GAUSSsches Fehlerintegral 45
Glockenkurve 45
Graphs 22
Grenzwertsatz
zentraler 53
Grundgesamtheit 13; 17; 56
—H—
HAZENsche Gerade 51; 52; 54
Histogramm 21
—K—
Klassenbreite 26
Klassenmittel 30
Kumulierte Häufigkeit 28
—M—
Material
inhomogenes 74
Median 31; 67
Meßfehler 9; 74
Mittel
arithmetisches 56
geometrisches 34
harmonisches 35
Mittelwert 31
arithmetischer 25
klassifizert 26
kumulierter 35; 64
MITTELWERT() 25
Modalwert() 37
Modus 33
—N—
Normalität
Prüfung 49
Prüfverfahren auf 56
Seite - 134 - 23 Index
Normalverteilung 19; 45; 48; 50; 62
Eigenschaften 45
NORMVERT() 48
Nullphypothese 76
—P—
Parameter 17
Pareto 28
Pentaden 23
Perzentile 68; 75
Probenwerbung 13
—Q—
Quartile 67
—R—
Randomisierung 16
Runden 40
RUNDEN() 41
—S—
SHEPPARDsche Korrektur 59
Skalen 16
metrische 17
ordinale 17
Spannweite 61; 66
Spline 22
Stabdiagramm 21
Standardabweichung 56
Berechnung 56
des Medians 69
Standardfehler 56
Statistcs on Columns 26
Statistics on Rows 26
Statistiken 17
Stichprobe 13; 57
geschichtet 13
Gewinnung 13
repräsentative 13
Stochastik 10
Streumaß 66
STUDENT-Verteilung 84
Summenverfahren 60
—T—
Transformation
lineare 30; 60
t-Verteilung 84
—V—
Variable 17
diskrete 17
klassifizierte 17
stetige 17
Varianz 56
Berechnung 56
Variationskoeffizient 63
Grafische Darstellung 63
Versuchsplanung 15
ZUFALLSZAHL() 14
Verteilung 18
linksschiefe 32
normale 19; 21
Rechteck- 18
schiefe 19
U-förmige 19
unregelmäßige 18
zwei-, mehrgipfelige 19
Vertrauensbereich
des Medians 73
des Mittelwertes 71
—Z—
Zentralwert 31
Recommended