Inhaltzool33.uni-graz.at/lernen/courses/647327/document/6_Statistik/01... · 5.1 Signifikante...

Guttenberger/Tausz/Härtel Elemente der Statistik

Inhalt

1 WAS IST UND WOZU STATISTIK? 5

2 WICHTIGE GRUNDBEGRIFFE 8

2.1 Grundgesamtheit, Stichprobe 8

2.2 Gewinnung von Stichproben 8

2.3 Variable, Skalen 11

2.4 Parameter und Statistiken 12

2.5 Zahl der Elemente 13

2.6 Verteilungen 13

2.7 Graphische Darstellung 16

3 MITTELWERTE I: DAS ARITHMETISCHE MITTEL 20

3.1 Berechnung aus Einzelwerten 20

3.2 Klassifizierte Daten 21

3.3 Lineare Transformation 24

4 MITTELWERTE II 26

4.1 Der Median 26

4.2 Das Dichtemittel 28

4.3 Das geometrische Mittel 29

4.4 Das harmonische Mittel 30

4.5 Kumulierte Mittelwerte 30

5 WICHTIGE RECHENREGELN I 34

5.1 Signifikante Zahlen 34

5.2 Über das Runden 35

5.3 Fehlerfortpflanzung 38

5.4 Rechenkontrolle 38

6 DIE NORMALVERTEILUNG 39

6.1 Der Begriff 39

6.2 Die Eigenschaften der Normalverteilung 40

6.3 Prüfung auf Normalität 44

6.4 Normalisierende Transformationen 46

6.5 Der zentrale Grenzwertsatz 48

7 STREUMAßE I 50

7.1 Die Begriffe 50

7.2 Berechnung von Varianz und Standardabweichung 50

7.3 Berechnungsbeispiele 51

7.4 Standardfehler und Spannweite: Grobschätzung von s 55

7.5 Der Variationskoeffizient 56

7.6 Graphische Darstellung 57

8 WICHTIGE RECHENREGELN II 58

8.1 Kumulierung von x s 58

8.2 Die Grundrechnungsarten mit Standardabweichungen 59

9 STREUMAßE II 60

9.1 Die Spannweite 60

9.2 Die mittlere Abweichung 60

9.3 Quartile und Perzentile 61

9.4 Standardfehler des Medians 63

10 ÜBER VERTRAUENSBEREICHE 64

10.1 Der Standardfehler des Mittelwertes 64

10.2 Der Vertrauensbereich des Mittelwertes 65

10.3 Der Schluß auf die Grundgesamtheit 65

10.4 Vertrauensbereich von s und VK 67

10.5 Der Vertrauensbereich des Medians 67

10.6 Ausreißer 68

11 ALLGEMEINES ZUR BEURTEILENDEN STATISTIK 70

11.1 Null- versus Alternativhypothese 70

11.2 Abgekürzte Angabe von Signifikanzen 71

12 INTERVALLSCHÄTZUNG I 73

12.1 Vorbemerkungen 73

12.2 Der z-Test 73

12.3 Vergleich von 2 Stichproben 75

13 INTERVALLSCHÄTZUNG II 78

13.1 Wozu t-Verteilung? 78

13.2 Die t-Verteilung 78

13.3 t-Test bei gleichen Varianzen 80

13.4 t-Test mit ungleichen Varianzen 81

13.5 Schnellschätzung nach WEIR 82

13.6 Schnellverfahren nach LORD 82

13.7 Der Vertrauensbereich von t 83

13.8 Die kleinste signifikante Differenz 83

13.9 Vergleich paarweise geordneter Stichproben 84

14 INTERVALLSCHÄTZUNG III 86

14.1 Der U-Test nach MANN & WHITNEY 86

14.2 Unabhängige Stichproben 88

14.3 Gepaarte Stichproben, der Vorzeichentest 91

14.4 Vergleich relativer Häufigkeiten 92

15 VERGLEICH VON VARIANZEN 95

15.1 Der F-Test 95

16 DER CHI2 - TEST 97

16.1 Was kann und was ist X2? 97

16.2 Gehört eine Stichprobe einer Grundgesamtheit an? (Streuungstest) 99

16.3 Stimmt die Beobachtung mit der Erwartung überein? (Anpassungstest) 99

16.4 Hatte eine Behandlung Erfolg? (Homogenitätstest) 101

16.5 Der Mehrfelder-Test 102

16.6 Signifikanz von Stichproben (eine Anwendung des Addtitionstheorem) 106

17 REGRESSION 108

17.1 Wichtige Begriffe 108

17.2 Die Regressionsgerade 109

17.3 Das Bestimmtheitsmaß 111

17.4 Standardabweichungen 112

17.5 Extrapolation, Linearität 112

18 KORRELATIONEN I 114

18.1 Der Korrelationskoeffizient 114

18.2 Die Berechnung des Korrelationskoeffizienten 114

18.3 Das Bestimmtheitsmaß 118

18.4 Signifikanz des Korrelationskoeffizienten 118

18.5 Unterschied zwischen zwei Korrelationskoeffizienten 118

18.6 Korrelation zu dritt 119

19 KORRELATIONEN II 121

19.1 Rangkorrelation nach SPEARMAN 121

19.2 Rangkorrelation 'KENDALs τ' 123

20 WEITERFÜHRENDE HINWEISE 126

21 ANHANG I: SYMBOLE 128

21.1 Lateinische Schriftzeichen 128

21.2 Griechische Schriftzeichen 129

21.3 Einige sonstige Zeichen 129

22 ANHANG II: LITERATUR 130

23 INDEX 133

1 Was ist und wozu Statistik Seite - 5 -

1 Was ist und wozu Statistik? Das Wesen der Dinge ist die Zahl.

PYTHAGORAS

Von einem solch mystischen Zahlenbegriff ist man schon im Altertum abge-

rückt. Spätestens seit GALILEI („Messen, was meßbar ist ...“) gelten Größe, Ge-

wicht, Zeit und durch Zahlen ausdrückbare qualitative Eigenschaften als wesentli-

che Merkmale aller Dinge.

Nun ist aber jede Messung und selbst Zählung und jede darauf gegründete

Folgerung unvermeidlich mit Fehlern behaftet. Ursachen von Fehlern sind:

• Unvermeidliche Meßfehler; sie sind meist klein und pendeln um einen Mittel-

wert; hierher gehören auch subjektive Fehler, z.B. bei Zeitnehmung mit Stopp-

• in der Versuchsanstellung gelegene systematische Fehler; sie können erheb-

lich sein und tendieren meist in eine Richtung.

• Der Biologe hat zudem noch mit der Uneinheitlichkeit seines Materials zu

rechnen.

Auf Grund fehlerbehafteter Beobachtungen, Meßdaten etc. (allgemein „Er-

eignisse“) können keine absolut sicheren Aussagen gemacht werden. Man kann

aber die Wahrscheinlichkeit, mit der eine Aussage zutrifft, angeben.

Dazu ist es zunächst erforderlich, Aufschluß über die Beschaffenheit des

Beobachtungsmaterials zu gewinnen ........ beschreibende Statistik1.

Erst dann können die einschlägigen (kompetenten) statistischen Prüfver-

fahren (Tests) angewendet werden, ob Meßreihen der gleichen Gesamtheit zuzu-

ordnen sind oder sich unterscheiden, ob ein Ergebnis den Erwartungen entspricht,

ob eine Behandlung einen sicheren Erfolg gezeitigt hat, inwieweit eine Beobac-

tungsreihe von einer sich ändernden Größe besteht etc.

Seite - 6 - 1 Was ist und wozu Statistik

beurteilende (schließende) Statistik2.

Im biologischen Bereich ist für Statistik auch die Bezeichnung „Biometrie“

gebräuchlich (vgl. hiezu die Literaturübersicht am Schluß de Texteils).

Statistik ist nicht imstande, etwas zu erklären, aber sie gibt die Sicherheit

von Aussagen an und kann so zu neuem Wissen führen.

Damit gehört Statistik zur Stochastik, d.h. zu den auf Wahrscheinlichkeiten

gegründeten mathematischen Verfahren3.

Nur zu häufig begegnet man der Statistik mit auf Vorurteilen gegründetem

Mißtrauen. Das landläufigste Vorurteil ist, mit Statistik könne man alles beweisen

(oder auch: Statistik ist die wissenschaftliche Form der Lüge). Nicht zu bestreiten:

es soll schon vorgekommen sein, daß durch Manipulationen am Datenmaterial,

insbesondere durch Anwendung ungeeigneter Tests vorsätzlich für ein 'genehmes'

Ergebnis gesorgt wurde. Daran ist aber bestimmt nicht die Statistik an sich schuld,

sondern ausschließlich ihr Anwender. Daher die Grundregel vor allem anderen:

NIEMALS verschiedene Tests probieren, bis das Resultat 'paßt', sondern

nur solche auswählen, die zur Beantwortung der jeweiligen Frage kompe-

tent sind!1

Ein weiteres Vorurteil: Statistik sei überaus schwierig. Mag schon sein, daß

mancher, die ungeliebte Mathematik der Schule endlich losgeworden, Scheu oder

Horror empfindet, sich wieder mit Formeln herumzuschlagen. Auch ist zuzugeben,

daß das Aufarbeiten langer Zahlenkolonnen eine zeitraubende und ermüdende

Tätigkeit war. Heutzutage haben selbst einfache Taschenrechner elementare sta-

1Der Teminus „Statistik“ wird vom lat. status bzw. vom ital. stato = Staat hergeleitet. Aus-

gangspunkt der Statistik waren jedenfalls Volkszählungen zur Erhebung der Steuer- und Wehr-pflichtigen (in China schon seit dem 5. Jh v. Chr.).

2Nach der formalen Logik bedeutet „Urteilen“ die Verknüpfung zweier Aussagen (Prämis-sen), „schließen“ die Verknüpfung von Urteilen. De facto besteht dieser Unterschied bei den statis-tischen Verfahren, terminologisch wird jedoch weil wenig relevant, diesbezüglich kein Unterschied gemacht.

3Stochastik, griech. στοχαζειν (stocházeïn) = jagen, zielen, aber auch: erforschen, suchen, schätzen.

1 Was ist und wozu Statistik Seite - 7 -

tische Funktionen eingebaut, bessere bewältigen auch recht komplexe Rechen-

operationen. Vor allzu schematischer Anwendung solcher die Arbeit erleichternder

Hilfsmittel (diese Einführung nicht ausgenommen!) sei aber nachdrücklich ge-

warnt, das ausführlichere Lehrbuch wird dadurch keineswegs überflüssig! Ohne

ein Minimum an theoretischen Grundlagen (die in diesen Ausführungen nur ge-

streift werden können, gerät man nur zu leicht auf den Holzweg. Auch zur Statistik

führt kein Königsweg2!

Schließlich ist auch ein psychologischer Aspekt nicht ganz von der Hand zu

weisen. Das Urteil richtig angewandter Statistik ist unbestechlich. Da könnte es

schon passieren, daß sich ein Experiment doch nicht als ganz so überzeugend

erweist, wie es der Experimentator dem Augenschein nach vermeint, vielleicht

bricht nach statistischer Prüfung sogar eine schöne Hypothese zusammen. Aber

auch dafür kann die Statistik nichts; der Mensch dahinter sollte ihr dankbar sein,

daß sie ihn vor Fehlschlüssen, vielleicht sogar vor einer wenig angenehmen Wi-

derlegung von dritter Seite bewahrt.

Aus dieser Sicht ist es nur gerechtfertigt, wenn die Redaktionen angesehe-

ner wissenschaftlicher Zeitschriften Arbeiten, in denen die Resultate nicht statis-

tisch abgesichert sind, zurückweisen.

1Dies schließt nicht aus, daß eine Aufgabe auf verschiedene Weise gelöst werden kann,

wobei die Resultate nach der Stärke (≈ Empfindlichkeit) der benutzten Tests sogar etwas variieren können.

2Der Tyrann Hiero von Syrakus (eben jener, der mit seiner Krone Archimedes zu seinem berühmten „Heureka“ - Erlebnis und die Physik zum Archimedischen Prinzip verholfen hat), ver-langte von dem großen Mathematiker, er solle ihn auf einfache Weise Mathematik beibringen. Archimedes soll geantwortet haben: „Zur Mathematik führt kein Königsweg!“

Seite - 8 - 2 Wichtige Grundbegriffe

2 Wichtige Grundbegriffe

2.1 Grundgesamtheit, Stichprobe

Kann das gesamte Datenmaterial in die statistische Untersuchung einbezo-

gen werden, sprechen wir von Grundgesamtheit. Typisches Beispie l : Volkszählung. Ist die Grundgesamtheit zu umfangreich und/oder

grundsätzlich unzugänglich (bei biologischem Material die Regel) zieht man aus ihr Stichproben.

Repräsentative Stichproben spiegeln die Grundgesamtheit möglichst ge-

treu wieder; je größer die Stichprobe, desto besser wird sie der Grundgesamtheit

entsprechen (desto größer wird freilich der Rechenaufwand). Typisches Beispie l : die Mikrozensus-Erhebung, der Tummelplatz der Meinungsfor-

scher; es wird eine relativ kleine Gruppe von Personen, die nach Geschlecht, Altersaufbau, Beru-fen usw. der Bevölkerung entspricht, befragt und daraus auf die Gesamtbevölkerung 'hochgerech-net'.

Bei größeren Stichproben erhält man ein detaillierteres Bild, wenn man zu-

nächst nach einzelnen Kriterien (etwa Alter, Standort etc.) getrennt auswertet und

aus den dabei erhaltenen Werten das gemeinsame Mittel berechnet: geschichte-

te Stichprobe. Berechnung gemeinsamer (kumulierter) Mittelwerte siehe Kap.4, 5 u. 8 (Seiten 26, 34, 58).

2.2 Gewinnung von Stichproben

Am einfachsten ist die zufällige Entnahme aus der Grundgesamtheit durch

Abzählen: jedes 5., 10., oder „x-beliebigstes“ Element wird gezogen.

Nicht ganz unproblematisch: ist in der Grundgesamtheit eine Periode ver-

steckt, kann sie auch auf die Stichprobe „abfärben“.

Man kann die Elemente der Grundgesamtheit numerieren und durch Wür-

feln die Elemente für die Stichprobe entnehmen.

Statt mit Würfeln kann man die numerierten Einzelwerte auch nach sog. Zu-

fallszahlen entnehmen (oder „ziehen“; bei der Probenentnahme „vor Ort“, z.B. im

Freiland, spricht man von „Probenwerbung“). Tafeln mit Zufallszahlen finden sich

in jedem Statistikbuch.

2 Wichtige Grundbegriffe Seite - 9 -

Nachstehende Tabelle gibt einen Ausschnitt aus der Zufallszahlen-Tafel in

DOKUMENTA GEIGY wieder.

Tab. 1: Zufallszahlen

............ 62317 73705 32733 35321 80647 39731 61060 ............

............ 60099 50584 10961 57642 19101 30613 81549 ............

............ 58731 81250 57005 41467 29834 08059 22945 ............

............ 98693 92558 38394 84119 68486 17622 38053 ............

............ 79775 09779 08718 45882 17635 03252 00232 ............

............ ............ ............ ............ ............ ............ ............ ............ ............

Beginnend an einer beliebigen Stelle der Tafel geht man bei einer zweistel-

ligen Elementnummer in Zweierschritten (bei einer dreistelligen Numerierung in

Dreierschritten) weiter und entnimmt das so angezeigte Element; zu hohe oder

bereits gezogene Nummern werden übersprungen.

Taschenrechner haben häufig einen Zufallszahlengenerator eingebaut. Er

liefert aber keine echten Zufallszahlen, sondern über komplizierte Rechenwege

nicht vorhersagbare, aber im Grunde doch vorausbestimmte Zahlen. Solche

„Pseudozufallszahlen“ zur Probenentnahme zu benutzen, ist nicht unbedenklich.

Natürlich besteht auch z.B. unter Excel die Möglichkeit, Zufallszahlen zu

generieren und Proben zufällig zu ziehen:

=ZUFALLSZAHL()

erzeugt Zufallszahlen zwischen 0 und 1. Will man z.B. Zufallszahlen zwi-

schen 1 und 100 erzeugen, gibt man ein:

=ZUFALLSZAHL()*(b-a)+a

wobei a=kleinste Zahl des Bereichs=z.B. 1,

b=größte Zahl des Bereichs=z.B. 100; daher:

=ZUFALLSZAHL()*99+1

Will man ein ganzzahliges Ergebnis z.B. zwischen 1 und 100, bekommen,

gibt man folgende Funktion ein

=RUNDEN(ZUFALLSZAHL() *99+1;0)

Mit AutoAusfüllen (eine sehr praktische Funktion: ziehen Sie beim markier-ten Bereich das schwarze Quadrat unten rechts am Rahmen. Formeln, Zahlense-

quenzen etc. werden automatisch generiert. Falls Sie mehr Information brauchen, rufen Sie die „Online-Hilfe“ in Excel zu diesem Thema auf!) kann man beliebig vie-le Zufallszahlen generieren.

Die Funktion zur Generierung von Zufallszahlen füllt einen Bereich mit un-

abhängigen Zufallszahlen aus, die einer von mehreren Verteilungen entnommen

wurden. Zufallszahlen werden vielfach in statistischen Simulationen angewandt.

Eine Anwendung für diese Funktion ist die Charakterisierung von Personen einer

Grundgesamtheit durch eine Wahrscheinlichkeitsverteilung. Sie können z.B. durch

eine Normalverteilung (siehe Kap. 6, Seite 39) die Grundgesamtheit anhand der

Körpergrößen von Personen oder durch eine Bernoulli-Verteilung (siehe Kap. ,

Seite ) mit zwei möglichen Ergebnissen die Grundgesamtheit der Ergebnisse beim

Hochwerfen einer Münze charakterisieren.

1. Wählen Sie aus dem Menü Extras den Befehl Analyse-Funktionen. Sollte der Befehl Analyse-Funktionen nicht im Menü Extras erscheinen, so

rufen Sie den Add-In-Manager..., Ebenfalls im Menü Extras auf und wählen das Optionsfeld Analyse-Funktionen an. Sind diese nicht anngeführt, müssen Sie das Setup-Programm ausführen, um die Analyse-Funktionen zu installieren.

2. Wählen Sie im Feld "Analyse-Funktion" die Funktion Stichprobenzie-hung.

3. Wählen Sie "OK". 4. Legen Sie den Eingabebereich, den Ausgabebereich und andere er-

forderliche Optionen fest. In den Feldern "Eingabe" und "Ausgabe" können Sie die Zellbereiche dadurch festlegen, daß Sie entweder einen Zellbezug in das betref-fende Feld eingeben oder im entsprechenden Feld klicken und dann im Tabellen-blatt den Zellbereich markieren.

Es ist ebenfalls möglich, Bezüge zu anderen Tabellenblättern in diese Fel-der einzugeben.

5. Wählen Sie das Verfahren der Stichprobenziehung. 6. Wählen Sie "OK".

Das Ergebnis der Stichprobenziehung erscheint in dem Zellbereich, den Sie

als Ausgabebereich definiert haben.

Bei der Versuchsplanung stellt man die Objekte nach bestimmten Kriterien

(Geschlecht, Alter, Entwicklungszustand usw.) zu möglichst homogenen 'Blöcken'

zusammen, innerhalb derer die zu prüfende Behandlung, durchgeführt wird. Kon-

trollgruppen sind wie die Versuchsgruppen zu behandeln, sie gelten als 'Nullbe-

handlung', insbesondere sollten sie von vergleichbarer Größe sein. Bei der Pla-

nung entscheidet sich bereits das Ergebnis eines Versuches!

Die Größe der Stichproben hängt von der voraussichtlichen Streuung der

Einzelwerte innerhalb der Blöcke und von der angestrebten Genauigkeit (vom zu-

lässigen Fehler) ab (∏ Kap. 10, Seite 64).

Bei Feldversuchen kann man den störenden Einfluß von Inhomogenitäten

zwischen den Parzellen minimieren, indem man die Felder dem Rösselsprung fol-

gend (zwei Felder vor, eines seitlich) numeriert. Das Bilden homogener Blöcke

nach Zufallskriterien nennt man Randomisierung.

Es ist kein Paradoxon, wenn blinder Zufall wie streng planmäßiges Vorge-

hen zum gleichen Ziel, möglichst homogene Blöcke führen: beide Verfahren sind

dem subjektiven Einfluß entzogen.

Trotz aller Zufälligkeit kann es vorkommen, daß in einer Stichprobe Ele-

mente mit stark abweichender Merkmalsausprägung gehäuft vorkommen; in Tab.

1 kann man unschwer derartige 'Nester' erkennen. Es empfiehlt sich, schon vor

der Probennahme festzulegen, wieviel derartige stark abweichende Exemplare in

einer Stichprobe toleriert werden.

Die 'Chaostheorie' lehrt, daß in jeder noch so zufälligen, 'ungeordneten'

Verteilung 'Keimzellen' von Ordnung zu finden sind.

Eine Tabelle, in der alle Zahlen gleich häufig und in exakt gleichen Abstän-

den vorkommen, ist nichts Zufälliges mehr, sondern bereits das Ergebnis einer

vordefinierten höheren Ordnung!

2.3 Variable, Skalen

Grundgesamtheiten wie Stichproben bestehen aus Elementen, auch Er-

eignisse, Beobachtungen, Meßdaten, allgemein als Variable bezeichnet. Korrekter, wenn auch umständlicher ist die Bezeichnung „Realisationen einer Zufallsvari-

ablen“. Die Variablen sind als Merkmalsträger der eigentliche Gegenstand statisti-

scher Operationen.

Variable können verschiedenen Skalen folgen.

• Nominalskalen: Gruppierung durch einfache Ja-Nein - Entscheidungen (Rau-

cher/Nichtraucher, Blutgruppen, Farben etc.).

• Bei ordinalen Skalen tritt eine Quantifizierung nach Rängen („kleiner als .....

größer als“) oder nach frei gewählten Kriterien hinzu (Schulnoten, Skalierung 1 -

5 oder +, ++, +++ o.ä.).

• Metrische Skalen: Messungen, Skalenablesungen und Zählungen alller Art.

An Variablen unterscheidet man:

• stetige Veränderliche; Ablesungen an Skalen und Meßinstrumenten aller Art

(bei ausreichender Stellenanzahl in praxi auch digitale Anzeigen); jeder Zwi-

schenwert ist möglich.

• diskrete Veränderliche: Zählungen, nur ganze Zahlen sind möglich;

• Klassifizierte Veränderliche: in Klassen gruppierte Daten, die als diskrete Vari-

able behandelt werden;

• relative Häufigkeiten: meist in Prozenten ausgedrückte Häufigkeiten.

2.4 Parameter und Statistiken

Die Elemente (Variablen) einer Grundgesamtheit oder Stichprobe sind im

Bereich zwischen dem Minimal- und dem Maximalwert (= der Spannweite) verteilt.

Bei Grundgesamtheiten heißen die ihre Verteilung bestimmenden Größen

Parameter,

bei Stichproben nennt an sie

Statistiken1.

Die Parameter der Grundgesamtheiten werden mit griechischen Symbolen

bezeichnet, die Statistiken der Stichproben mit lateinischen.

Eine Grundgesamtheit (Stichprobe) ist durch folgende Parameter (Statisti-

ken) in den wesentlichen Eigenschaften beschrieben:

• die Zahl der Elemente (Fälle, Beobachtungen, Ereignisse, Meßdaten usw.),

allgemein der Variablen;∏ Kap. 2.5, Seite 13.

• die Verteilung der Elemente zwischen dem niedrigsten und dem höchsten Wert

(=innerhalb der Spannweite),∏ Kap. 2.6, Seite 13.

• durch einen geeigneten Mittelwert,∏ Kap. 3, Seite 20 und Kapitel 4, Seite 26.

durch ein geeignetes Streumaß, Kap. 7, Seite 50 und Kap. 9, Seite. 60

2.5 Zahl der Elemente

Die Elemente werden (bei Grundgesamtheiten wie Stichproben) mit x be-

zeichnet und als

x1, x2, x3 ..... xn

indiziert. xi steht allgemein für jedes mögliche x (i = individuals) ggfs. ergibt sich

seine Bedeutung aus Zusätzen in den Formeln.

Häufig werden bei Vergleichen mehrerer Stichproben deren Elemente mit x,

y und z unterschieden (vgl. hiezu auch „Die Grundrechnungsarten mit Standard-

abweichungen“, Seite 59.

Die Zahl der Elemente wird bei Grundgesamtheiten mit dem Symbol N be-

zeichnet2, bei Stichproben steht hiefür das Symbol n.

Bei klassifiziertem Material werden die Klassen einfach mit 1, 2, 3, 4 usf.

durchnumeriert oder durch ihre Klassenobergrenzen, häufig auch durch die Klas-

senmittel, gekennzeichnet ( Kap. 2.6, Seite 13). N bzw. n bedeutet auch hier

stets die Gesamtzahl der Einzelwerte (Elemente).

2.6 Verteilungen

• Die Verteilung der Elemente innerhalb der Spannweite (xmax .... xmin) kann derart

sein, daß jeder Wert gleich häufig vorkommt (Abb. 1 a):

Gleich- oder Rechteckverteilung:

Beispie l : Würfelspiele, diese Verteilung kommt im biologischen Bereich kaum vor, sie

wird daher in dieser Darstellung nicht weiter berücksichtigt.

• die Werte sind regellos zwischen Minimum und Maximum (= über die Spann-

weite) verteilt (Abb. 1b):

unregelmäßige Verteilung: Beispie l : Flächendeckende Messungen im Gelände (Quadratnetze), Frequenzzählun-

gen bei Vegetationsaufnahmen oder bei populationsbiologischen Untersuchungen.

1Man lasse sich nicht dadurch irritieren, daß „Statistik“ in zwei verschiedenen Bedeutungen

gebraucht wird, hier als dem „Parameter“ gleichgeordneter Begriff, dann aber als Bezeichnung für die gesamte in Rede stehende Disziplin.

2N ist in diesem Zusammenhang als großes griechisches N = Ny zu lesen

• Die Häufigkeit der Elemente nimmt von einem zentralen Maximum mit zuneh-

mendem Abstand beidseitig annähernd symmetrisch ab, sodaß sich eine glo-

ckenförmige Verteilung ergibt (Abb. 1c):

(angenäherte) Normalverteilung. Wiederholungen von Messungen aller Art, Zählungen etc. Sozusagen der 'Idealfall' für den

Statistiker!

• Ähnlich Abb. 1c, aber unsymmetrisch,

schiefe Verteilung.

Verteilung mit steilem linken Ast und flacherem rechten Auslauf .... links-

schiefe Verteilung (positive Schiefe), Abb. 1d. Häufig z.B., bei Zell- oder Organgrößen.

Spiegelbildlich hiezu: flacher linker Anlauf mit steilem rechten Ast kenn-

zeichnet die seltene negative Schiefe .... rechtsschiefe Verteilung. Beispiel: Dosis-Wirkung-Kurven.

Gelegentlich treten,

• zwei- oder mehrgipflige Verteilungen auf (Abb. 1e). DNA-Gehalte bei Messungen an polyploiden Zellkernen, quantitative Merkmale an gene-

tisch uneinheitlichem Material. Vorliegen verschiedener Zellsorten; man denke auch an irrtümliche Vermengung von Proben!

• Der sehr seltene Fall einer

U-förmigen Verteilung (Abb. 1f) kann als Sonderfall einer zweigipfligen Verteilung angesehen werden. Allenfalls bei Nullpunktablesungen im Zuge polarisationsoptischer Messungen (Zucker-

refraktometer, Auslöschungsschiefe bei Kristallen, Fasern u. dgl.).

Wichtig!

Die Art der Verteilung bestimmt die Wahl der jeweils einschlägigen (kompe-

tenten) statistischen Tests.

30 40 50 60 700

10 20 30 40 50 60 70

30 40 50 60 700

10 20 30 40 50 60 70

30 40 50 60 700

10 20 30 40 50 60 70

Abb. 1: Typische Verteilungen: a: Gleich- (Rechteck-)verteilung; b: Unre-gelmäßige Verteilung; c: Angenäherte Normalverteilung; d: Linksschiefe Vertei-lung; e: Mehrgipfelige Verteilung; f: U-förmige Verteilung.

Nur auf annähernd normalverteilte Grundgesamtheiten/Stichproben (Abb.

1c) dürfen die auf der Normalverteilung aufgebauten Tests, sog. parametrische

Tests angewendet werden (allenfalls auch Verteilungen, die in Normalverteilungen

transformiert werden können (Kap. 6.4, Seite 46); andernfalls sind die für unre-

gelmäßige Verteilungen (Abb. 1b) kompetenten parameterfreien, in der Regel we-

niger scharfen (= weniger „mächtigen“) Tests anzuwenden.

2.7 Graphische Darstellung

Aus der Abb. 1c läßt sich leicht eine sehr gebräuchliche Art der graphi-

schen Darstellung von Verteilungen ableiten, das Blockdiagramm, oder

Histogramm1, Abb. 2a.

Die Blöcke können durch freistehende Säule (Stäbe) ersetzt werden, man

erhält dann ein in Abb. 2b am gleichen Beispiel dargestelltes Stabdiagramm.

Verbindet man die durch die Blöcke oder Säulen darstellbaren Klassenwer-

te durch eine gebrochene Linie, so erhält man ein sehr anschauliches Bild der Ver-

teilung (Abb. 2c).

Bei genügender Anzahl von Einzelwerten (Klassen) kann man den gebro-

chenen Linienzug (nach dem Augenmaß oder mittels Kurvenlineales) durch eine

ausgleichende Kurve glätten (Abb. 2d).

0204060

1 3 5 7

0204060

1 3 5 7

0204060

1 3 5 7

0204060

1 3 5 7

Abb. 2: Grafische Darstellungen der Normalverteilung.

Darstellung mit Einschluß von Streumaßen ∏ Kap. 7, Seite 50.

Die angeführten grafischen Darstellungen können problemlos mit allen in

diesem Buch behandelten Softwarepaketen rasch gezeichnet werden. Unter Excel

1Abgeleitet vom griech. ⌧στοσ (histós) = Webstuhl (vgl. z.B. „Histologie“9 beim antiken

Webstuhl hingen die Kettenfäden senkrecht nach unten; die Vokabel kann auch „Mastbaum“ be-deuten.

markieriert (Merke: Computer sind „dumm“ und „stur“! Man muß ihnen immer „sa-

gen“, mit welchem Bereich man etwas durchführen will = markieren!) man den Be-

reich, der dargestellt werden soll (will man für die x-Achse eine eigene Beschrif-

tung, so schreibt man diese in die Spalte vor den Daten und markiert sie mit), ruft

dann am besten den „Diagramm-Assistenten“ auf. Dann „spannt“ man das Viereck

für die Grafik mit der Maus in den gewünschten Bereich des Tabellenblattes „auf“.

Oft ist es günstig, die Grafiken auf einem eigenen Tabellenblatt der Arbeitsmappe

zusammenzufassen. Dazu erfolgt z.B. ein Doppelklick auf das Blattregister „Tabel-

le2“ (im linken unteren Bereich des Bildschirms), benennt die Tabelle z.B. „Grafik“

und spannt hier das Viereck aus. Dann folgt man den Anweisungen. Hat man

Werte für die x-Achse mit markiert, so aktiviert man im „Schritt 4 von 5“ die Option

„Verwende ... Spalte(n) als Rubrikenbeschriftung (x)“. Experimentieren Sie und

probieren Sie die verschiedenen Möglichkeiten aus. Ist die Grafik fertig, können

Sie mit einem Doppelklick auf die gewünschte Fläche, Linie, Schrift... diese editie-

Auch unter Orgin sind die gezeigten Grafiken leicht zu bewerkstelligen: z.B.

sind die Daten in B(y) des Datenblattes, so kann man mit dem Befehl „Plot“ die

Grafiken zeichnen lassen. Auch hier gilt wieder: ein Doppelklick auf das ge-

wünschte Objekt zum editieren! Eine schöne Funktion hat man bei einem Doppel-

klick auf die „Datenlinie“: mit „Spline“ (kubische Glättung) kann man die Kurven

glätten. Tip: lassen Sie sich die Datenpunkte mit „Symbol“: z.B. „Square“ oder

„Circle“ anzeigen, um die Auswirkung der Glättung betrachten zu können. Statisti-

ca bietet die „Spline“ Möglichkeit ebenfalls (Aufruf unter „Graphs“, „Stat 2-D

Graphs“ „Line Plots..“ unter „Fit“ ∏ „Spline“.)

Ein Ausgleich („Glättung“) gebrochener Linienzüge, sog. Polygonzüge, läßt

sich durch Mittelung benachbarter Punkte (Ordinatenwerte) erreichen. Dies sei an

einem Beispiel der unregelmäßigen Verteilung der Abb. 1b gezeigt. In Abb. 3b

nach Mittelung von jeweils zwei benachbarten Werten der Charakter der Vertei-

lung im Wesentlichen erhalten, Extreme sind gemildert. Nachteilig ist, daß die

nunmehrigen, den Kurvenzug bestimmenden Punkte zwischen den Abszissenwer-

ten zu liegen kommen. Bei Vorliegen von genügend Punkten kann man auch über

jeweils drei Punkte überlappend gemittelt werden, also Wert (1+2+3)/3, (2+3+4)/3

usf. Dadurch fällt die Glättung ausgiebiger aus. Aber Vorsicht!!! Abb. 3b zeigt, daß

dabei der Kurvenzug arg verfälscht werden kann. Es ist daher zweckmäßig, nach

der Glättung auch die ursprünglichen Werte in das Diagramm einzutragen.

Sehr großes Zahlenmaterial (z.B. metereologische Daten) faßt man in Fün-

fer- oder Zehnergruppen (Pentaden bzw. Dekaden) zusammen und mittelt selbst-

verständlich nicht überlappend.

10 20 30 40 50 60 70

Abb. 3: Glättung gebrochener Linienzüge. a) Mittelung von jeweils zwei be-

nachbarten Werten; b) Mittelung von jeweils drei benachbarten Werten.

Die abgebildeten Grafiken in Abb. 3 werden unter Excel wie folgt bewerk-

stelligt: Sie beginnen mit einer Spalte für die y-Achsenbeschriftung (in unserem

Fall 10, 20, ... usf.; vergessen Sie nicht auf die Auto-Ausfüllen Funktion!). In der

nächsten Spalte sind die Werte für das Säulendiagramm (30, 20, 50, ...). Eine Zei-

le unter dem ersten Wert (siehe Tab. 2, Seite 19: Spalte C) die Funktion Mittelwert

(siehe Kap. 3.1, Seite 20) mit dem entsprechenden Bereich einfügen.

Dann markieren Sie A1 bis C7 und rufen den Diagrammassistenten auf.

Wählen Sie als Diagrammtyp „Linien“; im Schritt 4 von 5 des Diagrammassisten-

ten: „Verwende 1 Spalte(n) als Rubrikenbeschriftung (x). Dann aktivieren Sie das

Diagramm, markieren die Datenreihe der Spalte „B“ und drücken die rechte Maus-

taste. Im Menü wählen Sie „Diagrammtyp“ und „Säulen“. Um die Abstände zwi-

schen den Säulen wegzubekommen: Markieren Sie die Säulengruppe, drücken

Sie die rechte Maustatse und wählen im Karteiblatt „Optionen“ „Abstände“ 0! Um

die x-Achse auf den Höchstwert „60“ zu bringen markieren Sie zuerst diese Achse,

rechte Maustaste, „Achsen formatieren...“ wählen, im Karteiblatt „Skalierung“

„Höchstwert“ 60 eintragen.

Tab. 2: Exceltabelle für Grafik "Glättung" gebrochener Linienzüge.

A B C 1 10 30 2 20 20 25 3 30 50 35 4 40 20 35 5 50 10 15 6 60 0 5 7 70 20

Seite - 20 - 3 Mittelwerte I: Das arithmetische Mittel

3 Mittelwerte I: Das arithmetische Mittel

Das arithmetische Mittel ist der am häufigsten benutzte Mittelwert. Das

Symbol ist x (spr. x quer).

3.1 Berechnung aus Einzelwerten

Die Berechnung sei an einem überschaubaren, für unseren Zweck 'frisier-

ten' Beispiel gezeigt.

Gegeben seien folgende Einzelwerte (Elemente, sie entsprechen der Gra-

phik von Fig. 2.6-2).

11 12 12 22 23 30 31 31 33 34 41 43 51 75 72 91

allgemein ausgedrückt:

x1 x2 x3 ... ... ... ... ... ... ... ... ... ... ... ... x16

Die Summe x1 bis x16 = 608; n = 16

x =60716

= 38,0

Dasselbe in mathematischer Formelsprache;

nkorrekter x

∑ ∑=: 1

[Formel 1 ]

Im Klartext:

Summiere (Zeichen ∑) alle x-Werte (xi) beginnend mit x1, bis x16; die Sum-

me dividiert durch die Zahl der Elemente n ergibt das arithmetische Mittel x .

Wenn ein Irrtum ausgeschlossen werden kann, darf unbedenklich die ver-

einfachte Schreibweise von [Formel 1] benutzt werden.

Unter Excel lautet die Funktion: =MITTELWERT()

=MITTELWERT(A1:A5)

bedeutet: Mitelwerte des Zellbereichs A1 bis A5. Der Bereich kann bei der Definiti-on auch, wie üblich, durch Markieren mit der Maus bestimmt werden.

=MITTELWERT(A1;A3;A6)

3 Mittelwerte I: Das arithmetische Mittel Seite - 21 -

bedeutet: Mittelwert der Zellen A1, A3 und A6. Getrennte Bereiche kann man in Excel dadurch erreichen, daß man beim Mausklick gleichzeitig die STRG-Taste gedrückt hält. Origin liefert mit dem Menü „Data“, „Statistics on Columns“ das gezeigte Ergebnis der Spalte (Mean(y)=Mittelwert; die übrigen Werte werden später, Kap. Seite er-klärt), mit „Statistics on Rows“ das der Zeile.

Abb. 4: Ergebnisblatt "Statistcs on Columns" von Origin.

Auch NCSS liefert den Mittelwert, z.B. unter „Analysis“ „Descriptive Statistics“ in

einem umfangreichen Datenblatt, auf das später (∏ Abb. , Seite ) noch genauer eingegangen wird. Ebenso unter Statistica: „Analysis“, „Basic Statistics and Ta-bles“.

3.2 Klassifizierte Daten

Umfangreiches Datenmaterial gruppiert man mit Vorteil in Klassen mit frei

gewählter Klassenbreite b und mittelt über die Klassenmittel. Der Rechengang sei

an obigem Beispiel (cf. Abb. 1b) gezeigt (in praxi wird man mit einer so kleinen

Datenmenge nie so vorgehen). Als Klassenbreite sei b = 10 angenommen.

Zweckmäßig trägt man den Besatz (die Frequenzen f) der Klassen in einer

Strichliste ein; die Summe der Produkte mit den jeweiligen Klassenmitteln xj (∑f.xj)

gebrochen durch n ergibt den klassifizierten Mittelwert x klass.

x klass = ( )f x

nj.∑

[Formel 2]

Tab. 3: Strichliste zum Beispiel Abb. 1b (b = 10)

Klasse Nr. -bereich -mittel, xj f Σf f. xj 1 10 bis <20 15 3 3 45 2 20 bis <30 25 2 5 50 3 30 bis <40 35 5 10 175 4 40 bis <50 45 2 12 90

5 50 bis <60 55 1 13 55 6 60 bis <70 65 0 13 0 7 70 bis <80 75 2 15 150 15 565

(Σf.x)/n = 565/15 x klass = 37,6

Das klassifizierte arithmetische Mittel fällt in diesem Falle deutlich höher

aus als nach Mittelung der Einzelwerte, weil die Klassen absichtlich überwiegend

in ihren unteren Hälften besetzt angenommen sind, xklass aber über die

Klassenmittel berechnet wird. Ändert man b, so wird die Asymmetrie innerhalb der

Klassen durchbrochen; mit b = 8 nähert sich xklass = 34,2 dem aus den

Einzelwerten berechneten Mittel (32,6); auch mit b = 12 wird xklass = 33 mit dem

Mittel aus den Einzelwerten recht gut vergleichbar.

Zur Klassenbreite.

Das vorstehende, freilich ad hoc 'frisierte' Beispiel zeigt, daß die Klassen-

breite den klassifizierten Mittelwert nicht unerheblich zu beeinflussen vermag; na-

mentlich bei geringem Besatz der Klassen (kleine f) können Änderungen der Klas-

senbreite sogar markante Punkte der Verteilung ('peaks') um eine Klasse hinauf

oder hinunter verschieden und damit das graphische Bild der Verteilung beeinflus-

Im allgemeinen wird es ausreichen, die Zahl der Klassen sozusagen nach

Augenmaß festzulegen. Will man vor Überraschungen ganz sicher sein, mag man

den Mittelwert mit zwei verschiedenen Klassenbreiten durchrechnen; es sollte sich

dabei keine ins Gewicht fallende Differenz der Mittelwerte ergeben.

Einen Anhaltspunkt für die geeignetste Klassenbreite b kann folgende ein-

fache Formel bieten:

[Formel 3] b = x - x = Rmax min

In den Statistikbüchern findet man weitere und komplizierte Formen zur

Festlegung des optimalen b. In praxi dürften sie aber entbehrlich sein. Mehr als 20

Klassen sollten allerdings auch bei Vorliegen umfangreichen Datenmaterials nicht

aufgestellt werden.

Auf alle Fälle: Vorsicht beim Klassifizieren ist angebracht!

Mit Excel ist das Erstellen von Klassen wie folgt durchzuführen: Neben der

Spalte mit den zu klassifizierenden Daten sollten Sie eine Spalte mit den Angaben

über die Klassenbreite haben (z.B. 0, 5, 10, 15 .... - bei einer Klasenbreite von 5;

vergessen Sie nicht auf die AutoAusfüllen - Funktion: Sie brauchen nur die ersten

Zahlen eintippen! Rufen Sie unter „Extras“ die „Analysefunktionen...“ auf. Wählen

Sie dann „Histogramm“ in dem Pop-Up Fenster. Klicken Sie in das Feld „Eingabe-

bereich“, markieren Sie den gewünschten Bereich mit der Maus. Ebenso verfah-

ren Sie mit dem „Klassenbereich“ (= die Spalte, in der Sie die Klassenbreite fest-

gelegt haben). Wenn Sie keine Klassenbreite angeben, erstellt Microsoft Excel

eine Reihe von Klassen, die sich gleichmäßig zwischen dem niedrigsten und

höchsten Wert der Daten verteilen. Anschließend wählen Sie noch den Ausgabe-

bereich: Geben Sie den Bezug für die obere linke Zelle der Ausgabetabelle ein.

Bevor bereits vorhandene Daten im Ausgabebereich überschrieben werden, blen-

det Microsoft Excel eine entsprechende Meldung ein. Neues Tabellenblatt: Die

Option bewirkt, daß in der Arbeitsmappe, in der das aktuelle Blatt gespeichert ist,

ein neues Blatt hinzugefügt wird und die Ergebnisse beginnend in Zelle A1 einge-

fügt werden. Im Textfeld neben der Option "Neues Tabellenblatt" können Sie einen

Namen für das neue Blatt angeben. Neue Arbeitsmappe: Die Option bewirkt, daß

zunächst eine neue Arbeitsmappe mit einem neuen Tabellenblatt angelegt wird,

und anschließend die Ergebnisse beginnend in Zelle A1 des neuen Blattes einge-

fügt werden. Folgende Kontrollkästchen können noch angeklickt werden: Pareto

(sortiertes Histogramm). Aktivieren Sie das "Pareto", um die Daten in absteigender

Häufigkeitsfolge darzustellen. Ist das Kontrollkästchen "Pareto" deaktiviert, so

werden die Daten in der Ausgabetabelle in aufsteigender Reihenfolge der Klassen

angezeigt und die letzten drei rechten Spalten mit den sortierten Daten weggelas-

sen. Kumulierte Häufigkeit: Aktivieren Sie "Kumulierte Häufigkeit", um die kumu-

lierten Häufigkeiten in Prozent zu ermitteln. Wenn das Kontrollkästchen "Kumulier-

te Häufigkeit" aktiviert ist, erzeugt Microsoft Excel in der Ausgabetabelle eine Spal-

te mit den kumulierten Häufigkeiten und fügt in das Histogramm eine Kurve für die

kumulierten Häufigkeiten ein. Ist das Kontrollkästchen "Kumulierte Häufigkeit" de-

aktiviert, so werden die Spalte mit den kumulierten Häufigkeiten in der Ausgabeta-

belle und die Diagrammkurve für die kumulierten Häufigkeiten im Histogramm

nicht angezeigt. Diagrammdarstellung: Aktivieren Sie das Kontrollkästchen "Dia-

grammdarstellung", falls Microsoft Excel zusammen mit der Ausgabetabelle auto-

matisch ein Histogramm erstellen soll. Das betreffende Histogramm wird in das-

selbe Blatt wie die Ausgabe eingebettet. Beschriftungen: Aktivieren Sie das Kon-

trollkästchen "Beschriftungen", falls die erste Zeile oder Spalte des Eingabeberei-

ches Beschriftungen enthält. Enthält der Eingabebereich keine Beschriftungen, so

deaktivieren Sie das Kontrollkästchen "Beschriftungen". Dann erzeugt Microsoft

Excel die entsprechenden Datenbeschriftungen für die Ausgabetabelle (Variable A

und Variable B).

Das von Excel hier automatisch erstellte Histogramm ist für die Datendar-

stellung in der Biologie nicht optimal. Sie sollten besser die klassifizierten Daten

markieren und ihr eigenes Diagramm erstellen (siehe z.B. Kap. Seite ).

Mit Origin wird eine Klassifizierung dadurch erreicht, daß Sie die gewünsch-

te Spalte markieren, im Menü „Data“ „Frequency Count..“ wählen. Die Klassen-

breite wird im Feld „Step Size“ angegeben. Auf einen Unterschied zwischen Excel

und Origin sei hier hingewiesen: Bei Excel werden die Werte an der unteren Klas-

sengrenze ein-, die Werte an der oberen Klassengrenze ausgeschlossen. Klas-

sen sind beispielsweise 2 und kleiner, größer 2 bis maximal 3, größer 3 bis maxi-

mal 4, größer 4 bis maximal 5 und größer 5. Origin definiert bei diesem Beispiel

so: kleiner, gleich 2, 2 bis kleiner, gleich 3, 3 bis kleiner, gleich 4!

Statistica: Über die Menüpunkte „Analysis“, „Frequency Tables“ kann man

bei „Step Size“ die Klassenbreite und mit „Starting at..“ den Beginn angeben (Ach-

tung: jeweils auch die dazugehörigen Optionsfelder: anklicken). Statistica gene-

riert nun eine schöne, übersichtliche, gut erklärte Tabelle. Es wird auch genau die

Klassenbreite angegeben (z.B. 0.00000 < = x < 5.0000). Mit „Continue

Histogramm“ kommt man, wie es sich für ein Statistikprogramm gehört, in die de-

skriptive Statistik und erfährt gleich eine Reihe von statistischen Details unserer

klassifizierten Daten (Mittelwert, Standardabweichung, Minimalwert...).

3.3 Lineare Transformation

Meist liegen die Dinge nicht so einfach wie in unserem Beispiel. Das Mit-

schleppen der auf 5 endenden Klassenmittel ist kein Problem, Dezimalen können

schon lästiger sein. Mit einem einfachen Trick, der linearen Transformation, kann

man sich viel Rechenarbeit ersparen. Obwohl man diese Transformation an unse-

rem kleinen Beispiel nie anwenden würde, sei sie zum Vergleich eben an diesem

demonstriert.

Man addiert jedem Klassenmittel eine Konstante d, die so gewählt wird, daß

man leicht zu handhabende Zahlen erhält. Mit diesen berechnet man das Mittel

nach [Formel 4]; zieht man vom Ergebnis d wieder ab, so erhält man x klass.

x klass = f x

n dj.∑

− [Formel 4 ]

Tab. 4: Beispiel Abb. 1b, linear transformiert.

Klassen Nr. -mittel, xj d xj+d f Σf f. (xj+d) 1 15 5 20 3 3 60 2 25 5 30 2 5 60 3 35 5 40 5 10 200 4 45 5 50 2 12 100 5 55 5 60 1 13 60 6 65 5 70 0 13 0 7 75 5 80 2 15 160 15 640

640/15 = 42,6

-d = 37,6

Das gleiche Ergebnis wie im Beispiel Abb. 1b .

Seite - 26 - 4 Mittelwerte II

4 Mittelwerte II

4.1 Der Median

Bei unregelmäßigen oder unsymmetrischen (schiefen) Verteilungen fällt das

arithmetische Mittel häufig auf eine wenig repräsentative Stelle der Verteilung. In

solchen Fällen ist der Median der Mittelwert der Wahl.

Der Median (auch Zentralwert genannt) teilt die in aufsteigender Reihe ge-

ordneten Elemente einer Grundgesamtheit/Stichprobe ohne Rücksicht auf ihren

Verteilung derart, daß unterhalb wie oberhalb des Median die gleiche (halbe) Ele-

mentzahl zu liegen kommt. Sein Symbol ist ~x (spr. x Schlange).

Der Median ist von der Verteilung der Einzelwerte unabhängig, seine

Ermittlung zählt aber zu den nicht parametrischen Verfahren.

Bei ungerader Zahl der Elemente gibt es stets einen eindeutigen Wert, von

dem aus beidseits gleichviel Einzelwerte liegen.

Bei gerader Zahl der Elemente ist der Median zwischen dem n/2-ten und

(n/2 + 1)-ten Einzelwert zu suchen. Dann gilt das arithmetische Mittel zwischen

dem n/2-ten und (n/2 + 1)-ten Wert als Median. [Formel 5]

= x xn n/ /2 2 1

Bei klassifizierten Daten ist die Ermittlung des Medians weniger einfach. Sie

sei an der unregelmäßigen Verteilung Abb. 1b) erläutert.

10 20 30 40 50 60 70

Abb. 5: (vergl. Abb. 1b): Unregelmäßige Verteilung mit Median ~x .

4 Mittelwerte II Seite - 27 -

In einer 14 Einheiten zählenden Verteilung muß der Median zwischen der 7.

und 8. Einheit liegen, im vorliegenden Falle in Klasse 3. Klassen 1 und 2 enthalten

5 Einheiten, die nächste schießt um 2 Einheiten übers Ziel. 2/5 der Klasse 3 liefern

die fehlenden 2 Quadrate, der Median liegt bei 30 + 2.10/5 = 34. Die restlichen 5.

3/5 = 3 Quadrate der Klasse 3 rechts des Medians ergeben mit den restlichen 4

Quadraten >30 ebenfalls 7 Quadrate.

Zugegeben, keine allzu elegante Methode. Mit nachstehender Formel, in

der man die Elemente der „Primitivmethode“ unschwer wiedererkennt, läßt sich

der Median abseits jedes Probierens berechnen:

= δ + b . n f

f/ ( )2 − Σ u

Median

~x[Formel 6]

δ = untere Grenze der Medianklasse b = Klassenbreite n = Gesamtzahl der Elemente (Σf)u = Elemente unterhalb der Medianklasse f Median = Zahl der Elemente in der Medianklasse

Wenden wir diese Formel auf unser Beispiel an:

V = 30, b = 10, n = 14, (Σf)u = 5, fMedian = 5; ~x = 30 + 10 . (7 - 5)/5 ................................................ 34,0

als ein der Auszählmethode identes Resultat.

Ein weiteres Beispiel:

Der Abb. 6 linksschiefe Verteilung (= Abb. 1d).

lassen sich folgende Werte entnehmen

Der Median ist in der 3. Klasse (30 - <40) zu suchen.

V = 30, b = 10, n = 16, (Σf)u = 7, fMedian = 3;

In Formel 6 eingesetzt ergibt ~x = 30 + 10 . (7 - 3)/5 ................................................ 38

10 20 30 40 50 60 70

Abb. 6: Linksschiefe Verteilung mit Median (Bezügl. D ∏ Kap. 4.2, Seite 28)

4.2 Das Dichtemittel

Das Dichtemittel, auch Modus genannt, bezeichnet den Bereich des dich-

testen Besatzes einer Verteilung. Es ist ein zweckmäßiger Parameter zwei- oder

mehr-gipfliger Verteilungen (cf. Abb. 1e).

Das Symbol des Dichtemittels ist D.

Für die meisten Zwecke dürfte die Angabe der am stärksten besetzten

Klasse genügen. Ggfs. kann mit der nachstehenden Formel die Lage des Dichte-

mittels genauer präzisiert werden; sie berücksichtigt außer der dichtest besetzten

Klasse noch die beiden benachbarten Klassen zur exakteren Festlegung von D.

D = b. f f2.(f f f

u u 1 u 1

−− −+ − )

[Formel 7]

Darin bedeuten:

b = Klassenbreite fu = Frequenz der stärkst besetzten Klasse fu+1 = Frequenz der nächst höheren Klasse fu-1 = Frequenz der nächst niedrigeren Klasse

Das Dichtemittel weicht noch stärker vom arithmetischen Mittel ab als der

Median. Die Reihenfolge der Abweichungen ist nach der alphabetischen Reihen-

folge leicht zu merken:

Dichtemittel > Median > Mittel (arithmetisches)

Bei symmetrischer Verteilung (z.B. Abb. 1c) fallen arithmetisches Mittel,

Median und Dichtemittel zusammen.

4.3 Das geometrische Mittel

Das geometrische Mittel ist bei Vorgängen angezeigt, die sich in gleichen

Zeitabständen um den gleichen Faktor ändern (z.B. Wachstumsvorgänge, Zell-

vermehrung, Populationsbiologie u. dgl.).

Das geometrische Mittel ist die n-te Wurzel aus dem Produkt von n zu mit-

telnden Größen.

Das Symbol für das geometrische Mittel ist x G.

Für zwei zu mittelnde Größen gilt

[Formel 8] G = 1 2x x. x

bei drei zu mittelnden Größen: [Formel 9] G = 1 2 3x x x. .3 x

In der Praxis erspart man sich die lästigen Wurzeln, indem man über Loga-

rithmen rechnet:

[Formel 10]

lg x G = 1/n(lgx1 + lgx2 + ....lgxn) = 1/nΣlgxi

Ein einfaches Zahlenbeispiel:

Gegeben sei x1 = 4, x2 =9;

x G = 4 9 36 6. = =

oder logarithmisch

x G = ½ . (0,6026 + 0,95424) = ½ . 1,55630

antilog 0,77815 = 6 = 0,79248 ............................... x G = 6.

Probe: 4, 1,5 = 6; 6 . 1,5 = 9; gleicher Faktor!

Analog wird x G aus 3 oder mehr Faktoren berechnet.

4.4 Das harmonische Mittel

Das harmonische Mittel findet bei reziproken Zusammenhängen Anwen-

Das Symbol für das harmonische Mittel x H.

Die Statistikbücher erläutern es stereotyp am Geschwindigkeitsvergleich

von Kraftfahrzeugen. Hier sei dazu ein analoges biologisches Beispiel gewählt, die

Mittelung zweier Messungen der Plasmaströmung.

Annahme: Ein Chloroplast durchlaufe eine Strecke von 50 µm in 10 Sekun-

den (s)1, in einer anderen Zelle benötigt ein Chloroplast für die gleiche Strecke nur

5 s. Über die Zeit gemittelt ergibt dies eine Durchschnittsgeschwindigkeit von

(10 + 5)/2 = 7,5 s/50 µm

Sinnvoller ist es, über die zurückgelegte Wegstrecke, also über die zur Zeit rezip-

roken Größe, zu mitteln. Dies geschieht durch das harmonische Mittel:

x x x1 2 n+ + ........1/ [Formel 11 ] x

Die Zahlen obiger Annahme eingesetzt ergeben:

x H = 2

10 + 1/ 51/ = 20/3 = 6,67 µm.s-1

Kontrolle: Die beiden Chloroplasten hintereinander, gleichsam im Stafetten-

lauf, würden für (50 +50) = 100 µm 10 + 5 = 15 s benötigen; 100/15 = 6,67, das

oben berechnete harmonische Mittel.

4.5 Kumulierte Mittelwerte

Mittelwerte aus gleichartigen Meßreihen können zu einem gemeinsamen

(kumulierten) Mittel X zusammengefaßt werden.

1Der Buchstabe s ist gemäß internationaler Konvention (SI) das Symbol für Sekunde. In

der Statistik steht das gleiche Symbol für „Standardabweichung“ ( Kap. 6, Seite 39). Aus dem Zusammenhang dürfte stets zweifelsfrei erkennbar sein, für welche Größe „s“ steht.

Entstammen die zu mittelnden Werte (ihre Zahl sei k) gleich großen Stich-

proben vergleichbarer Meßgüte, verfährt man wie bei der Mittelung von Einzelwer-

ten (Division der Summe der Mittelwerte x 1, x 2, x 3 ... x k durch die Zahl der Stich-

proben k):

X = x + x + .... + x

k1 2 k

[Formel 12]

Unter den gegebenen Voraussetzungen (Vergleichbarkeit der Stichproben)

kommt man natürlich zum gleichen Ergebnis, wenn man die Einzelwerte aller

Stichproben zusammenwirft und durch deren Anzahl teilt.

Bei ungleichen Stichprobenumfängen würde diese Methode zu

Verzerrungen führen. Man vermeidet diese, wenn jede Stichprobe nach Maßgabe

ihres Umfanges (=Elementezahl) an der Bildung des kumulativen Mittels „zum Zu-

ge kommt“, indem man das

gewogene Mittel

nach folgender Formel bildet (Symbol: xgew):

xgew = n . x n . x .... nk. x

n n .... n1 1 2 2 k

+ + ++ + +

[Formel 13 ]

Das kummulierte geometrische Mittel kann analog zu [Formel 12] nach fol-

gender Formel gebildet werden:

lgX = n lgx n lgx .... n lgx

n n .... n1 G1 2 G2 k Gk

+ + ++ + +

[Formel 14]

Das gewogene harmonische Mittel läßt sich nach folgender Formel

berechnen:

XH = n n .... n

x n / x .... n / x1 2 k

1 H1 2 H2 k Hkn /+ + +

+ + + [Formel 15 ]

Zu Verzerrungen kumulativer Mittelwerte kann es auch durch unter-

schiedliche Güte der Stichproben (z.B. durch verschiedene Meßgenauigkeit)

der zu mittelnden Stichproben kommen. In diesen Fällen bildet man das

gewichtete Mittel

Dabei geht jeder Mittelwert nach Maßgabe seiner Güte in das kumulative

Mittel ein, indem er mit einem sein „Gewicht“ kennzeichnenden Faktor w (=

weight) versehen wird. Die Faktoren kann man über den Daumen peilen; korrekter

ist es, z.B. die Standardfehler oder die Varianzen ( Kap. 7.1, Seite 50) der Mit-

telwerte als Gewicht zu nehmen; je größer der Faktor, desto stärker beeinflußt der

damit versehene Mittelwert das gewichtete kumulative Mittel X gew.

gew = w . x w . x .... w . x

w w .... w1 1 2 2 k k

+ + ++ + +

[Formel 16 ] X

Sind die Stichproben verschieden groß und von unterschiedlicher Güte,

können die Formeln 13 und 16 kombiniert werden:

X * = n .w . x n .w . x .... n .w . x

n .w n .w ....+ n .w1 1 1 2 2 2 k k k

1 1 2 2 k k

+ + ++ +

[Formel 17 ]

Zur Berechnung des gewichteten harmonischen Mittels wird in Formel 15

n1, n2 usw. durch w1, w2 usw. ersetzt.

Kumulierung von Mittelwerten mit Standardfehler ∏ Kap. 8, Seite 58.

Unter Excel sind zwei der genannten „Mittelwerte“ als Funktionen abrufbe-

reit: Die Funktion Median() liefert den Median des gewählten Bereichs, während

die Funktion Modalwert() den häufigsten Wert einer Gruppe wiedergibt.

Origin ist per definitionem ein „wissenschaftlich-technisches Grafik- und Da-

tenanalyseprogramm“. Zu diesem Zweck hat Origin auch eine eigene Program-

miersprache (LabTalk™) integriert. Mit dieser Programmiersprache und auch ei-

nem integrierten „Werkzeugkasten“ lassen sich zum Beispiel recht einfach Analy-

segeräte steuern und abfragen (als Zusatzmodule für verschiedene Schnittstellen

erhältlich) und die Werte grafisch darstellen und gleich auswerten. Es ist daher

kein Statistikprogramm im engerern Sinne. Die genannten Funktionen lassen sich

zwar implementieren und abspeichern, sind aber nicht fertig vorhanden (falls ich

[G] mich in diesem Punkt irren sollte, lassen Sie es mich bitte wissen).

Ganz anders ist dies mit Statistica und NCSS: unter „Descriptive Statistics“

werden die genannten Mittelwerte (Statistica: median, mean, harmonic mean, ge-

ometric mean) und noch eine Reihe weiterer statistischer Berechnungen „auf

Knopfdruck“ berechnet und angezeigt bzw. die Grafiken geplottet. In den folgen-

den Kapiteln wird darauf noch näher eingegangen werden.

Seite - 34 - 5 Wichtige Rechenregeln I

5 Wichtige Rechenregeln I

5.1 Signifikante Zahlen

An einem in Millimeter geteilten Lineal werde eine Länge zwischen 2,3 und

2,4 cm abgelesen. Da sich Zehntelmillimeter noch ganz gut schätzen lassen, wird

die Länge mit 2,36 cm angegeben.

Die letzte Stelle beruht auf Schätzung und ist demzufolge ungenau, sie wird

- günstigstenfalls! - um 0,005 cm auf oder ab pendeln. Damit ist das Ergebnis Ab-

lesehilfen wie Nonius u. dgl. bringen nichts, das Problem wird nur um eine

Dezimale weitergeschoben.

Eine in der Statistik häufige Rechenoperation ist das Quadrieren. Die Quad-

rate der Ablesungen in unserem Beispiel bewegen sich inzwischen

2,3552 = 5,546025 2,362 = 5,5696 (Quadrat des abgelesenen Wertes) 2,3652 = 5,593225. Nach dem Quadrieren bleibt im Unsicherheitsbereich nur die erste Dezi-

malstelle unverändert, nur diese ist sicher (signifikant), alle Stellen dahinter

sind unsicher, nicht signifikant.

Man kann dies dadurch andeuten, daß man die erste nicht signifikante Stel-

le tiefstellt und die weiteren Stellen dahinter ganz wegläßt, in unserem Beispiel

2,36 bzw. 5,59. Den Bereich der Unsicherheit wie oben mit 2,36 ± 0,005 bzw. des-

sen Quadrat mit 5,57 ± 0,02 anzugeben ist weniger ratsam; es könnte dadurch zur

Verwechslung mit der Standardabweichung kommen.

Das hier an Hand des Quadrierens Gesagte gilt natürlich für jede Multiplika-

tion und gleichermaßen für jede Division.

Allgemein gilt:

Das Produkt zwei Zahlen mit x signifikanten Stellen enthält (x-1) signifikante

Stellen.

Da es sich dabei meistens um Dezimalstellen handelt, merke man sich,

zwar etwas weniger präzis, dafür aber umso einprägsamer:

5 Wichtige Rechenregeln I Seite - 35 -

Ein Produkt darf nie mehr Dezimalstellen als der Multipli-

kand oder der Multiplikator aufweisen, ein Quotient nie mehr als

der Dividend oder der Divisor.

Enthält nur einer der Faktoren eine nicht signifikante Stelle,

so ist zumindest die letzte Stelle des Resultats nicht signifikant.

Es ist daher sinnlos, ein Produkt auf sämtliche Dezimalstellen auszumultip-

lizieren, einen Quotienten womöglich bis zu einer periodischen Ziffernfolge zu be-

rechnen oder das ganze Display des Rechners abzuschreiben; man erinnere sich

der verkürzten Rechenweisen!

Mutatis mutandis gilt dies natürlich auch für nicht signifikante Stellen links

vom Dezimalpunkt (Zehner, Hunderter, Tausender u.s.f.).

5.2 Über das Runden

Nicht signifikante Ziffern (Stellen) sind durch Runden zu eliminieren. Es ist

Konvention, Endziffern 1 bis 4 auf die nächst niedrige ganze Zahl abzurunden,

Endziffern 5 bis 9 auf die nächst höhere ganze Zahl aufzurunden. In der Statistik

kann dieses Vorgehen zu Problemen führen. Sehr häufig (z.B. bei Klassenmitteln)

scheint 5 als letzte Ziffer auf. Dies würde zum Überwiegen von Aufrundungen füh-

ren. Der Kaufmann hätte dagegen sicher nichts einzuwenden, in der Statistik kön-

nen dadurch Sachverhalte verfälscht werden.

Zweckmäßiger ist es, auf die nächste gerade ganze Zahl auf- oder ab-

zurunden. 4,5 wird zu 4, 5,5 wird zu 6, 6,5 gleichfalls zu 6 und 7,5 wird zu 8 usw.

Die Null wird als gerade Zahl behandelt. So heben sich auch „5er-Rundungen“

weitgehend auf.

In bestimmten Fällen, insbesondere bei Streumaßen, darf NIEMALS ab-

gerundet, sondern immer nur aufgerundet werden, also immer in Richtung zum

Ungünstigeren; andernfalls könnte eine nicht vorhandene Genauigkeit vorge-

täuscht werden! Auf solche Fälle wird im Text jeweils besonders hingewiesen.

Verfehlt wäre es, nach jedem Rechenschritt zu runden und dann die Rech-

nung fortzusetzen. Rundungsfehler würden sich dadurch kumulieren. Günstig ist

es, mit 3-4 überschießenden, wenn auch nicht signfikanten „Schutzstellen“ zu

rechnen (oder auf vollem Display zu arbeiten) und erst das Endresultat auf die

signifikanten Stellen zu runden. Auf keinen Fall mit Fixkomma-Einstellung rech-

nen, die Rechner runden nach verschiedenen Algorhithmen!

Einige Worte über die Rechengenauigkeit, das Runden und über Rechen-

fehler (und wie man sie vermeidet) unter Excel:

Excel rechnet normalerweise mit einer Genauigkeit von 15 Stellen nach

dem Komma. Dies wird immer durchgeführt, auch wenn z.B. über „Format“ „Zel-

len“ „Zahlen“ nur 2 Kommastellen sichtbar sind. Man kann dies sehen, wenn man

die Zelle anklickt: in der Bearbeitungszeile sind sämtliche Nachkommastellen noch

angezeigt! Um zu Runden (es werden hier nur die zwei für uns wichtigen Run-

dungsarten besprochen, es gibt noch weitere, die Sie unter der Online-Hilfe unter

Excel: „?“ „Suchen“ „Runden“ abfragen können). Die Funktion RUNDEN() rundet

eine Zahl auf eine bestimmte Anzahl an Dezimalstellen. Syntax: RUNDEN(Zahl;

Anzahl_Stellen). „Zahl“ ist die Zahl, die Sie runden, während „Anzahl_Stellen“ an-

gibt, auf wie viele Dezimalstellen Sie die Zahl runden möchten. Am besten, Sie

rufen den Funktionsassistenten auf (Schaltfläche fx in der Eingabezeile ankli-

cken!). Ist Anzahl_Stellen größer als 0, wird Zahl auf die angegebene Anzahl an

Dezimalstellen gerundet. Ist Anzahl_Stellen gleich 0, wird Zahl auf die nächste

ganze Zahl gerundet. Ist Anzahl_Stellen kleiner als 0, wird der links vom Dezimal-

zeichen stehende Teil von Zahl gerundet.

Beispiele: RUNDEN(2,15; 1) ergibt 2,2 RUNDEN(2,149; 1) ergibt 2,1 RUNDEN(-1,475; 2) ergibt -1,48 RUNDEN(21,5; -1) ergibt 20 Analog dazu gibt es die Funktion AUFRUNDEN():Rundet die Zahl auf die

„Anzahl_Stellen“ auf. Syntax: AUFRUNDEN(Zahl; Anzahl_Stellen). „Zahl“ ist wie-

der die reelle Zahl, die aufgerundet werden soll, „Anzahl_Stellen“ gibt an, auf wie

viele Dezimalstellen die Zahl gerundet werden soll. Die Funktion AUFRUNDEN

unterscheidet sich von der Funktion RUNDEN nur dadurch, daß sie eine Zahl

immer aufrundet.

Ist „Anzahl_Stellen“ größer gleich 1, wird die jeweilige Zahl entsprechend

der angegebenen Anzahl an Dezimalstellen aufgerundet. Ist „Anzahl_Stellen“

gleich 0 oder nicht angegeben, wird die jeweilige Zahl auf die nächste ganze Zahl

5 Wichtige Rechenregeln I Seite - 37 -

aufgerundet. Ist „Anzahl_Stellen“ kleiner als 0, wird die jeweilige Zahl links vom

Dezimaltrenner aufgerundet.

Beispiele: AUFRUNDEN(3,2;0) ergibt 4 AUFRUNDEN(76,9;0) ergibt 77 AUFRUNDEN(3,14159; 3) ergibt 3,142 AUFRUNDEN(-3,14159; 1) ergibt -3,2 AUFRUNDEN(31415,92654; -2) ergibt 31500 Vorsicht ist auf alle Fälle bei sehr kleinen Zahlen geboten, wie das folgende

Beispiel zeigen soll:

Unterschiede im 10 000stel Bereich werden dann nicht erkannt, wenn z.B.

das Datenblatt nur auf 100stel Anzeige formatiert ist. Dies ist nicht weiter tragisch,

da die ursprünglichen Daten ja vorhanden sind. In so einem Fall ist es immer

günstig, die kleinen Zahlen mit einem geeigneten Faktor zu multiplizieren (man

beachte aber das nächste Kapitel!). Auf eine weitere Eigenschaft sei hier aufmerk-

sam gemacht: Wenn Sie in die Zelle A1 z.B. 0,1 und in Zelle A2 0,09 eingeben

und die Reihe mit AutoAusfüllen fortsetzen, so müßte in Zelle A11 „0“ stehen -

steht aber nicht! - sondern eine sehr kleine Zahl (s. Tabelle 5). Dieser Fehler wirkt

sich dann drastisch aus, wenn z.B. wie in Zelle B12 der reziproke Wert gebildet

wird! Statt der Fehlermeldung: #Div/0! (Division durch Null) steht eine enorm gro-

ße negative Zahl!

Tab. 5: Fehler beim AutoAusfüllen A B

1 0,12 0,093 0,084 0,075 0,066 0,057 0,048 0,039 0,02

10 0,0111 -8,3267E-17 -1,201E+1612 -0,0113 -0,0214 -0,0315 -0,04

Gegebenenfalls sollte man die Zahlen kontrollieren und manuell eingeben.

Besondere Vorsicht ist aber dann geboten, wenn Sie unter Visual Basic program-

mieren und auf solche Zahlen zurückgreifen!

5.3 Fehlerfortpflanzung

5.4 Rechenkontrolle

Bei jeder Rechenoperation mit fehlerbehafteten Zahlen wächst der Fehler

des Resultates (Fehlerfortpflanzung). Dies sei an Hand der Grundrechnungsarten

an einem übersichtlichen Beispiel gezeigt

Gegeben sind zwei fehlerbehaftete Zahlen:

30 ± 3 = 30 ± 10 % Streubereich 27 ... 33. 20 ± 1 = 20 ± 5 % Streubereich 19 ... 21

Das Ergebnis Resultat relativer

liegt zwischen Fehler

Addition:

27 + 19 = 46 33 + 21 = 54 50 ± 4 = ± 8 %

Subtraktion:

27 - 21 = 6 33 - 19 = 14 10 ± 4 = ± 40 %

Multiplikation:

27 . 19 = 513 33 . 21 = 693 603 ± 90 = ± 14 %

Division:

27 : 21 = 1,286 - 0,214 - 14 % 33 : 19 = 1,737 1,5 + 0,237 + 16 %

Besonders beim Subtrahieren steigt der Fehler drastisch an!

Durch Quadrieren nimmt der relative Fehler wie bei der Multiplikation zu; in

diesem speziellen Fall wird er verdoppelt.

Achtung! Für das Rechnen mit Mittelwerten und deren Standardabweichun-

gen gelten besondere Regeln! ( Kap. 8, Seite 58)

6 Die Normalverteilung Seite - 39 -

6 Die Normalverteilung

6.1 Der Begriff

Eigentlich paradox: Meßergebnisse, die bei vielfacher Wiederholung um ei-

nen Mittelwert pendeln, also innerhalb eines Bereiches zufällig variieren, ordnen

sich, graphisch aufgetragen, zu einer glockenartigen Figur mit dem Scheitel (der

größten Häufigkeit) im arithmetischen Mittel nd beiseitigem symmetrischen Abfall

der Häufigkeit; je weiter ab vom Mittelwert der Meßwerte liegen, desto seltener

treten sie auf. Diese Figu heißt GAUSSsche Verteilungskurve oder Fehlerkurve,

meist aber kurz Normalverteilung

Sie ist, wiewohl zufällig zustandegekommen, als mathematisches Modell

durch eine Exponentialfunktion exakt beschreibbar (GAUSSsches Fehlerintegral;

mathematisch Interessierte seien auf ein ausführliches Lehrbuch verwiesen).

Die Bezeichnung „Normalverteilung“ darf nicht dahingehen verstanden wer-

den, daß sie besonders häufig aufträte, also das „Normale“ wäre, im Gegenteil,

exakte Normalverteilungen sind sogar höchst selten. In der Regel hat man es mit

'angenäherten Normalverteilungen' zu tun. „Normal“ bezieht sich vielmehr auf die

dank ihrer Eigenschaften gegebenen Möglichkeit der mathematischen Behand-

lung, wodurch sie eine sichere, weil definierte Grundlage vieler statistischer Tests

und Entscheidungen ist.

Zum besseren Verständnis der Folgenden ist daher ein kurzer theoretischer

Einschub geboten.

Seite - 40 - 6 Die Normalverteilung

6.2 Die Eigenschaften der Normalverteilung

68,2%95,4%99,8%

x s 2s 3s-2s -s-3s

Abb. 7: Die Normalverteilung und ihre Parameter. Erklärung im Text.

• Der Scheitel der Glockenkurve markiert das arithmetische Mittel µ bzw. x 1 ;

• die Kurvenäste fallen beidseitig sigmoidartig und symmetrisch ab;

• der Abstand der Wendepunkte der beiden Kurvenäste vom arithmetischen Mit-

tel (± σ, ± s) markiert die mittlere quadratische Abweichung = Standardabwei-

chung der Einzelwerte, ein höchst wichtiges Streumaß ( Kap. 7, Seite 50);

• die durch die Wendepunkte (σ s) der Kurve angelegten Tangenten schneiden

die x-Achse im Abstand ± 2 s (± s σ);

• im Bereich -s ... x ... +s (-σ ... µ ... + σ) werden von der Kurve und der Abszisse

68,24 % der Gesamtfläche umschlossene, d.h. in ihr sind ≈ 2/3 aller Einzelwerte

zu erwarten;

• über dem Bereich -2s ... x ... +2s (-2σ ... µ ... +2σ) liegen 95,45 % der Gesamt-

fläche, d.h. daß in diesem 95,45 % der Elemente zu erwarten sind, im Bereich -

3s ... +3s (± 3σ) mit 99,73 % praktisch alle Elemente.

Diese Anteile sind wichtige Grundlagen für zahlreiche statistische Tests.

1Zur Erinnerung; die kennzeichnenden Größen von Grundgesamtheiten (Parameter) wer-

den mit griechischen Symbolen bezeichnet, die der Stichproben (Statistiken) mit lateinischen (∏ Kap. 2.4, Seite 12).

Eine im Vergleich zum Mittelwert große Standardabweichung (großes σ

bzw. s) bedeutet eine flache gewölbte Glockenkurve mit breiter Streuung der Ein-

zelwerte, ein im Vergleich zu x (µ) kleines s (kleines σ) eine überhöhte (eher spit-

ze) Glockenkurve mit geringer Streuung (Kurve mit großem 'Exzeß')2)

Jede Normalverteilung kann durch ihr 'Monogramm' N (µ;σ), bei Stichpro-

ben durch N (x; s), also durch die Zahl ihrer Elemente N, deren Mittelwert µ (bei

Stichproben x) und die Standardabweichung σ (bzw. s) eindeutig definiert werden.

Die Eigenschaften der Normalverteilung, auch die Flächenanteile der Kurvenab-

schnitte, werden durch unterschiedliche Wölbung (unterschiedlichen Exzeß) nicht

berührt.

Daher ist es möglich, jede Normalverteilung in eine standardisierte Form,

die Standardnormalverteilung mit dem Mittelwert x (µ) = 0 und der Standardabwei-

chung s (σ) = 1 („Monogramm“ N (0,1)) überzuführen.

Die Standardisierung kommt zustande, indem die Einzelwerte einer beliebi-

gen Normalverteilung mit dem Ausdruck

(x )bzw.

(x - x)s

− µσ

transformiert werden, dadurch wird die 'originale' Verteilung N (µ; σ) auf die

Kurve mit dem „Monogramm“ N (0;1) 'normiert'.

Die x-Achse (Abszisse) der Normalverteilung wird durch die Standardisier-

tung zur z-Achse.

Nach dem Gesagten mag es scheinen, jede Normalverteilung müsse erst

mühsam umgerechnet werden. Keineswegs: wie jede Normalverteilung ohne Än-

derung ihrer wesentlichen Merkmale in die Standardform übergeführt werden

kann, so gelten umgekehrt die standardisierten Daten auch für jede andere Nor-

malverteilung! Man braucht also nicht jedesmal eine eigene Tabelle zu entwickeln,

2) Für Wölbung wie Exzeß gibt es natürlich auch mathematische Ausdrücke; für den Biolo-

gen dürften sie aber kaum von Bedeutung sein, weshalb hier nicht nächer darauf eingeganen wird. Bei Bedarf sie auf Lehrbücher der Statistik verwiesen.

man kommt mit der an der Standardkurve aufgestellten Tabelle in praktisch jedem

Fall aus.

Setzt man die gesamte, von der z-Achse und der Glockenkurve umschlos-

sene Fläche per definitionem gleich 1, so lassen sich aus dem GAUSSschen In-

tegral für alle z-Werte die zugehörigen y-Werte angeben; für einige ausgezeichne-

te z-Werte sind die y-Koordinaten nachstehend angeführt; ausführliche Tabellen

findet man in jedem Statistikbuch.

Tab. 6: Einige ausgezeichnete Ordinaten y der Standardnormalverteilung. y = absolute Werte, y* = Scheitel gleich 1 gesetzt (relative Werte).

z y Y*

± 0 0,3989 1,0000 = 1

± 0,5 0,3521 0,8827 ≈ 7/8

± 1,0 0,2420 0,6067 ≈ 5/8

± 1,5 0,1295 0,3246

± 2,0 0,0540 0,1354 ≈ 1/8

± 3,0 0,0044 0,0110 ≈ 1/80

± 4,0 0,0001 0,00025

Die beigesetzten Bruchzahlen (n. SACHS [2]) approximieren sehr gut die auf

y = 1 bezogenen Ordinationswerte und können zum raschen Zeichnen einer Nor-

malverteilungskurve hilfreich sein.

Tab. 7: Über nachstehenden Abschnitten der z-Achse befinden sich folgende perzentuale Anteile der von der Glockenkurve umschlossenen Gesamtfläche der Normalverteilung:

von z = -1,64 bis z = +1,64 90 %

-1,96 bis z = +1,96 95 %

-2,58 bis z = +2,58 99 %

-3,29 bis z = +3,29 99,9 %

Wir werden mit diesen wichtigen Grenzwerten noch oft zu tun bekommen!

Sie geht von einer kontinuierlichen Meßgröße und von einer großen An-

zahl an Versuchen bzw. Stichproben aus.

Beispiel: Bei der Bestimmung des Durchmessers von Pollen ergibt sich ein

Mittel von 20 µm mit einer Standardabweichung von 4 µm.

Normalverteilung

x f(x) 10 0.0043820

10 12 14 16 18 20 22 24 26 28 30

11 0.0079349 12 0.0134974 13 0.0215693 14 0.0323794 15 0.0456622 16 0.0604926 17 0.0752843 18 0.0880163 19 0.0966670 20 0.0997355 21 0.0966670 22 0.0880163 23 0.0752843 24 0.0604926 25 0.0456622 26 0.0323794 27 0.0215693 28 0.0134977 29 0.0079349 30 0.0043820

f(x)=NORMVERT(x;20;4;0)

Das mathematische Modell hizu ist:

f(x)=(1/wurzel(2*pi())*exp(1)^-(x^2/2)

Im Gegensatz zu den diskreten Verteilungen sagt die Dichtefunktion bei

kontinuierlichen Verteilungen nichts über die Wahrscheinlichkeit eines bestimm-

ten Wertes aus. Es ist ein Irrtum anzunehmen die Wahrscheinlichkeit, daß ein zu-

fällig ausgewählter Pollen genau 20 µm hat, sei 0,1. Das leuchtet unmittelbar ein,

weil die Wahrscheinlichkeit, daß die Messung genau 20 ergibt (auf beliebig viele

Stellen genau) praktisch bei 0 liegen muß.

Um die Wahrscheinlichkeit für ein bestimmtes Maß zu ermitteln, muß man

daher mit der Verteilungsfunktion (bei Excel mit der kummulierten Dichtefunktion)

arbeiten. Die Wahrscheinlichkeitsverteilung liefert die Wahrscheinlichkeit, dafür,

daß der gemessene Wert gleich oder kleiner als der jewilige x-Wert liegt. Um für

ein gewisses Intervall die Wahrscheinlichkeit anzugeben, ob ein gemessener Pol-

len zwischen 19.8 und 20.2 µm, ist demnach zu rechnen mit:

NORMVERT(20.2;20;4;WAHR)- NORMVERT(19.8;20;4;WAHR)

Das Ergebnis ist dann ca. 0.04, d. h. ca. 4 % der gemessenen Pollen wer-

den im Schnitt in diesem Intervall liegen.

6.3 Prüfung auf Normalität

Ob Normalverteilung vorliegt oder nicht läßt sich vielfach, namentlich bei

überschaubarem Umfang des Datenmaterials, schon nach dem subjektiven Ein-

druck, sozusagen nach dem Augenmaß, entscheiden. Von den Verfahren, die zur

objektiven Prüfung auf Normalität einer Verteilung angegeben werden, seien hier

zwei angeführt:

Die Sigma-Regeln und

die HAZENsche Grade

6.3.1 Die Sigma-Regeln.

Angenäherte Normalverteilung liegt vor, wenn folgende Bedingungen erfüllt

• alle Abweichungen (exakt 99,7 %) müssen zwischen -3σ ... +3σ (+3s ... +3a)

liegen;

• aller Abweichungen müssen kleiner als σ (kleiner als s) sein und

• % der Abweichungen müssen innerhalb 0,67 σ (s) liegen.

• Die Regeln ergeben sich aus den Eigenschaften der Normalverteilung.

6.3.2 Die HAZENsche Gerade

Um diese interessante graphische Prüfmethode vorzustellen greifen wir auf

die symmetrische Verteilung der Fig. ... zurück und wandeln diese in eine Sum-

menkurve um: Dazu drücken wir die Anteile der einzelnen Klassen (die Frequen-

zen f) in Prozenten der Gesamtzahl der Elemente n aus und summieren schritt-

weise, sie gleichsam aufeinanderstapelnd auf:

Tab. 8: Symmetrische Verteilung (= Fig ..) Vorbereitung der Summenkurve.

Klasse f f in % von n ∑f (%)

1 1 6,25 6,25

2 4 25,00 31,25

3 6 37,50 68,75

4 4 25,00 93,75

5 1 6,25 100,00

Der Auftrag der schrittweise summierten Prozentwerten über den Klassen-

nummern als Abszisse ergibt eine Treppenkurve; sie läßt sich unschwer zu einer

S-förmigen (sigmoidalen) Kurve glätten (Fig. ...)

Der sigmoidale Verlauf erinnert an die 'Große Periode' des Wachstums.

Anders wird das Bild nach Auftrag der Treppenkurve in das sog. 'Wahr-

scheinlichkeitspapier' (oder Wahrscheinlichkeitsnetz). Dieses ähnelt dem Millime-

terpapier, der Ordinatenmaßstab ist jedoch von der 50 % - Marke ausgehend nach

oben und unten nach dem GAUSSschen Integral zunehmend gedehnt1) . Nach

diesem Auftrag ordnen sich die Punkte der Treppenkurve, Normalität vorausge-

setzt, zu einer Geraden (HAZENsche Gerade2) (Fig. ...)

Fig. a) Angenäherte Normalverteilung mit Summenkurve. b) Die Summen-

kurve in das Wahrscheinlichkeitspapier übergetragen: HAZENsche Gerade.

Abweichungen von der Normalität geben sich durch Krümmung der HAZEN-

schen 'Geraden' zu erkennen (Fig...)

Zur Prüfung genügt es, den Bereich zwischen 5 % und 95 % zu beachten.

Wieweit kleine Abweichungen von der Geraden toleriert werden können, hängt

davon ab, wie empfindlich oder wie robust der anschließend vorgesehene statisti-

sche Test gegenüber Abweichungen von der Normalität ist.

Eine einfache überschlägige Prüfung auf Vorliegen von Normalität durch

Vergleich von Standardabweichung und Spannweite. Prüfung mittels des χ2-Test.

LORENZ gibt ein Diagramm (nach IMAN), das die Prüfung auf Normalität be-

reits auf Grund der Treppenkurve erlaubt.

1) Notfalls kann man die Ordination des Wahrscheinlichkeitsnetzes selbst auf Millimeterpa-

pier übertragen. Von der 50 % -Marke in der Mitte der Ordinate (Hochformat DIN A4) ausgehend und von dieser gemessen werden nach oben wie nach unten folgende Strecken aufgetragen (mm); Bezifferung wie Fig. ..

40/60% ± 9: 30/70%; 20/80% ± 30; 10/90% ± 47; 5/95% ± 60; 3/97% ± 68; 1/99% ± 86; 0,5/99,5% ± 97; 0,1/99,9% ± 114mm.

2) Nach einem englischen Ingenieur (wohl he18n gesprochen).

6.4 Normalisierende Transformationen

Die Vorzüge der Normalverteilung lassen es wünschenswert erscheinen,

auch andere Verteilungen in die Normalform überzuführen. Dies ist bei manchen

stetigen Verteilungen möglich.

Als Beispiel wählen wir die linksschiefe Verteilung der Fig. ..(identisch mit

Fig...). Der Auftrag der Summenkurve in das Wahrscheinlichkeitsnetzt (vgl. ...) re-

sultiert eine deutlich gewölbte HAZENsche 'Gerade' (Fig... dick ausgezogen). Nor-

malität liegt also nicht vor und die für die Normalverteilung geltenden Regeln sind

nicht anwendbar.

Gelingt es, den linken Ast der Fig. ..zu dehnen und/oder den rechten zu

stauchen, könnte eine angenäherte Normalität erreicht werden. Als Weg dazu bie-

tet sich das Logarithmieren der Abszissenskala an; dadurch werden die niedrige-

ren Abszissenwerte stärker gedehnt als die höheren Bereiche.

Die Daten der in Rede stehenden Verteilung sind umseitig nach dem Mus-

ter von Tab. 6.x in Tabellenform zusammengestellt. Aus ihnen ergibt sich ein a-

rithmetisches Mittel von x = 58/16 = 3,625, es liegt an einer untypischen Stelle;

dasselbe trifft auch für den Median x = 3,3 zu.

In diesem Falle ist es zweckmäßig, die stärkst besetzte Klasse, also das

Dichtemittel D : 2,5 als Ausgangspunkt zu wählen. Der linke Ast der Verteilung

reicht vom Dichtemittel bis 0 und umfaßt damit 2,5 Einheiten, der rechte von 2,5

bis 9,0 überstreicht 6,5 Einheiten, es besteht also eine starke Asymmetrie.

Tab. Daten zur logarmithmischen Transformation einer linksschiefen Vertei-

lung 1 Klassen-Nr 1 2 3 4 5 6 7 8

2 Klassenmittel x1 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5

3 Besatz f der Klassen 1 2 4 3 2 2 1 1 n =16

4 ∑f.x1 0,5 3,0 10,0 10,5 9,0 11,0 6,5 7,5 = 58

5 desgl. in % 6,25 12,50 25,00 18,75 12,50 12,50 6,25 6,25

6 summiert 6,25 18,75 43,75 62,50 75,00 87,50 03,75 100,0

7 lg 10xi 0,7 1,40 1,87

8 lg (xi+1,5) 0,3 0,6 0,95

Fig. Log-Transformation der linksschiefen Verteilung gem. Tab... a: Origi-

nalverteilung; b: desgl. über logarithmischer Abszisse; c: Summenkurve a linearer

Auftrag (obere Skala, Klassennummern wie Fig. a), b (strichliert) über logarith-

misch geteilter Abszisse (HAZENsche Gerade).

Beim Logarithmieren ist das erste Glied recht unbequem. Von den beiden

Möglichkeiten, den Wert <1 zu umgehen, eine additive Konstante oder Multiplika-

tion mit einem konstanten Faktor, entscheiden wir uns für die Zweite und wählen

hiezu den Faktor 10; an der Verteilung selbst ändert sich dadurch nichts. Die so

erhaltenen 1g 10x - Werte (es reichen dazu die 'Kurz-Logarithmen' von Kap... völ-

lig aus) überstreichen links vom Dichtemittel den Bereich vom0,7 bis 1,40 = 0,7

Einheiten, im flacheren rechten Teil von 1,40 bis 1,87 = 0,47 Einheiten. Wir haben

also den Guten etwas zuviel getan (den rechten Ast zu sehr gestaucht) und müs-

sen den 'lg-Effekt' mildern. Dies erreichen wir, indem wir die Verteilung durch eine

addidative Konstante +d in einen flacheren Teil der lg-Kurve verschieben. Wir ver-

suchen es mit d = 1,5, die wir den originalen Werten zuzählen (da dadurch alle

Werte über 1 zu liegen kommen, ist ein Konstantfaktor wie beim ersten Versuch

überflüssig. Den mit d = +1,5 erhaltenen Wert der Zeile .. in Tab .. entnehmen wir,

daß nun der linke Ast von 0,30 bis 0,60, also über 0,3 lg-Einheiten reicht, der rech-

te von 0,60 bis 0,95, das sind 0,35 Einheiten. Damit wollen wir uns zufriedenge-

ben, die Verteilung ist nun fast symmetrisch. Die über der logarithmisch geteilten

Grundlinie des Wahrscheinlichkeitsnetzes aufgetragene Summenkurve ergibt eine

recht ordentliche HAZENsche Gerade (Fig ...) - die schiefe Verteilung wurde in eine

Lognorm-Verteilung transformiert.

Mit Lognorm-Verteilungen hat der Biologe nicht selten zu tun, z.B. bei Pro-

zessen, die einem Endwert zustreben, wie Enzymkinetiken, Dosis-Wirkungs-

Kurven, wenn große Zeitspannen oder weite Konzentrationsbereiche zu erfassen

sind (pH-Skala).

Zur Dehnung des steileren Astes einer rechtsschiefen Verteilung bieten sich

Potenexponenten >1 an. Um eine solche Verteilung mit den Kardinalpunkten 3

(Minimum), 7 (Optimum) und 9 (Maximum) zu 'normalisieren', stößt man nach ei-

nigem Probieren auf den Potenzexponenten x2,5 (keine Sorge, jeder bessere Ta-

schenrechner schafft gebrochene Potenzen mit der yx-Taste spielend!). Damit po-

tenziert ergeben sich als (transformierte) Kardinalpunkte 32,5 = 15,6, 72,5 = 129,6

und 92,5 = 243,0. Die Differenz Optimum - Minimum beträgt 114,0, vom Optimum

zum Maximum 113,4; bezogen auf das Optimum (z.B. Dichtemittel) ist eine gera-

dezu vollkommene Symmetrie erreicht!.

Potenzexponenten <1 (also Wurzeln) eignen sich auch zur Stauchung hö-

herer Werte linksschiefer Verteilungen; mitunter läßt sich damit eine bessere Nor-

malisierung erzielen als auch Log-Transformation.

Die Brauchbarkeit derart transformierter Verteilungen für weitere Tests ist

eingeschränkt. Vorsicht (und das Zurateziehen eines ausführlichen Lehrbuches)

sind im Bedarfsfalle dringend geboten!

Eigentlich ein schreckliches Kapitel:

Es werden genaue Anweisungen für etwas geboten, das in der Mathematik

strengstens verpönt, zu perhorreszieren ist: Hier darf probiert werden!

6.5 Der zentrale Grenzwertsatz

An dieser Stelle sei auf ein interessantes und auf den ersten Blick paradox

erscheinendes Phänomen hingewiesen: Werden aus einer beliebig verteilten

Grundgesamtheit fortlaufend Stichproben entnommen, so nähern sich die Diffe-

renzen ihrer Mittelwerte zum Mittelwert der Grundgesamtheit mit steigender Stich-

probenzahl einer Normalverteilung (Zentraler Grenzwertsatz).

Dies sei an einem extrenen, jedoch überschaubaren Beispiel demonstriert:

Gehen wir von einer Verteilung der Form

1 2 3 4 5

also einer Gleichverteilung aus und denken uns daraus eine große Zahl von

Zufallsstichproben zu je 3 Elementen gezogen. Insgesamt sind 53 = 125 verschie-

dene Dreierkombinationen möglich, die alle mit der gleichen Wahrscheinlichkeit

auftreten.

111 211 311 411 511

112 212 312 412 512

113 213 313 413 513

114 214 314 414 514

121 221 321 421 521

122 222 322 422 522

... ... ... ... ...

125 225 325 425 525 usw.

... ... ... ... ...

151 251 353 452 552

152 252 353 453 553

... ... ... ... ...

155 255 355 455 555

Der Mittelwert, der aus 5 Gliedern bestehenden 'Grundgesamtheit' ist 3.

Die Differenzen der Mittel aus den Dreiergruppen (= Stichprobenmittel) zum

Gesamtmittel treten mit folgender Häufigkeit auf:

-2,0 -1,7 -1,3 -1,0 -0,7 -0,3 0 0,3 0,7 1,0 1,3 1,7 2,0

1 3 6 10 15 18 19 18 15 10 6 3 1

also eine, angenäherte Normalverteilung der Differenzen - die Sigma-

Regeln treffen zu und die HAZENschen Gerade ist wirklich eine recht ordentliche

Größe!

Eine unregelmäßige Verteilung nach Art der Fig. .. würde zwar eine etwas

verzerrte Normalverteilung ergeben, aber immerhin eine deutliche Annäherung an

diese (es wären bei diesem Beispiel 163 = 4,096 Dreiergruppen möglich, wer mag,

darf als Fleißaufgabe nachrechnen (In LORENZ ist ein Beispiel mit Dreier-

Stichproben aus einer Gesamtheit von 10 Elementen durchgerechnet und gra-

phisch dargestellt.)

Durch computerunterstützte, zufallsgenerierte Entnahme vieler tausender

Stichproben können auch kleine Mengen unregelmäßig verteilter Daten für exakte-

re statistische Bearbeitung aufbereitet werden.

Die Erklärung für den Zentralen Grenzwertsatz liegt eigentlich auf der Hand:

Von den randständigen Werten sind nur wenige (weil einseitige mögliche) größere

Differenzen zum Mittelwert möglich; je näher dem Mittelwert, desto kleiner, aber

auch, weil beidseitig möglich, häufiger werden die Differenzen.

Seite - 50 - 7 Streumaße I

7 Streumaße I

Varianz und Standardabweichung

7.1 Die Begriffe

Varianz und Standardabweichung sind die in der statistischen Praxis weit-

aus am häufigsten gebrauchten Streumaße.

Die Varianz (Symbol σ2 bzw. s2) ist das arithmetische Mittel der quadrierten

Abweichungen der Elemente vom Mittelwert der Grundgesamtheit/Stichprobe.

Die Quadratwurzel aus der Varianz ist die Standardabweichung, auch als

Standardfehler bezeichnet.

Das Symbol ist σ (bei Grundgesamtheiten) bzw. s (bei Stichproben).

Da jedes Quadrat eine positive und eine negative Wurzel hat, ist auch die

Standardabweichung korrekt ±σ oder ±s zu schreiben.

Die Angabe von Varianz und Standardabweichung ist nur bei Vorliegen ei-

ner wenigstens angenäherten Normalverteilung sinnvoll; ihre Ermittlung zählt dazu

zu den parametrischen Verfahren.

Prüfverfahren auf Normalität einer Verteilung, Streumaße nicht normaler

Verteilungen.

7.2 Berechnung von Varianz und Standardabweichung

Zur Berechnung der Varianz (Standardabweichung) von Stichproben und

Grundgesamtheiten dienen geringfügig verschiedene Formeln. Da biologisches

Material meist Stichprobencharakter besitzt, wird man in der Regel nach folgender

Formel vorgehen:

a) Varianz einer Stichprobe:

Formel

Die Standardabweichung ist die Quadratwurzel aus der Varianz oder

Formel

b) Bei Grundgesamtheiten gilt folgende Formel:

Formel

7 Streumaße I Seite - 51 -

Warum bei Stichproben im Nenner von n-1 statt n zu stehen hat, ist (etwas

vereinfacht) so zu begründen: Von z.B. 10 Elementen einer Stichprobe können 9

zufällig und voneinander unabhängig variieren; der zehnte Wert ergibt sich jedoch

zwangsläufig, soll er, ohne die Stichprobe zu verändern, in diese 'hineinpassen'.

Daher rechnet man bei Stichproben nicht mit n (hier 10) Elementen, sondern mit 9

Freiheitsgraden.

Bei Stichproben n >30 begeht man einen zu vernachlässigenden Fehler,

wenn man Formel, (also mit n im Nenner) benutzt.

Für 'Freiheitsgrad' gibt es kein festgelegtes Symbol. Man findet in der Lite-

ratur hiefür FG (nicht sehr glücklich, da Symbole aus zwei gleichwertigen Gliedern

vermieden werden sollten), oder einfach F (Verwechslung mit dem F-Test mög-

lich); auch v, (ny, das griechische n), wird gerne gebraucht, obwohl griechische

Symbole Parametern vorbehalten bleiben sollten. Weil aber dieses Symbol kaum

zu Verwechslungen Anlaß gibt, scheint v der praktikabelste Ausweg aus dem Di-

lemma zu sein; es wird in dieser Darstellng konsequent als Symbol für 'Freiheits-

grad(e)' benutzt.

In der 'statistischen Jargon' spricht man nicht selten von 'Streuung', meint

aber damit die Standardabweichung. Die beiden Ausdrücke sind aber NICHT syn-

onym! Unter Streuung kann nur die Spannweite, der Bereich, über den die Einzel-

werte verteilt sind, verstanden werden. Varianz und Standardabweichung sind

(gleich der im nächsten Kapitel behandelten Quartile und Perzentile) Streumaße,

die, wie der Terminus eindeutig erkennen läßt, eine definierte Kenngröße für das

Ausmaß der Streuung angeben. Gerade in der Statistik liegt im unkorrekten

Sprachgebrauch die Quelle manchen Mißverständnisses und Irrtums!

7.3 Berechnungsbeispiele

Obwohl heutzutage in fast jedem Taschenrechner elementare statistische

Funktionen eingebaut sind, so ist die Befassung mit den Rechenvorgängen kei-

neswegs überflüssig. Einfache Rechner schaffen die Standardabweichung von

klassifiziertem Material nicht, die dann unvermeidliche 'händische' Berechnung

setzt die Kenntnis der Rechenvorgänge voraus.

Beispiel 1:

Gegeben sei eine annähernd normalverteilte Zahlenreihe, gesucht µ und σ

(x und s),

Tab. Annähernd normalverteilte Zahlenreihe

x x-x (x-x)2 [x2]1)

6 -4 16 36

7,5 -2,5 6,25 56,25

9,5 -0,5 0,25 90,25

10,5 0,5 0,25 110,25

11 1 1 121,00

12 2 4 144,00

13,5 3,5 12,25 182,25

∑x = 70 ∑(x-µ) = 02) ∑(x-µ)2 = 40 ∑x2 = 740

Die in Beispiel 1 gezeigte Berechnung ist zwar recht übersichtlich; bei grö-

ßerem Zahlenmaterial aber unbequem. In solchen Fällen empfiehlt es sich, eine

der unter B - E beschriebenen Methode anzuwenden.

Beispiel B: Das Multiplikationsverfahren

Dieses Verfahren arbeitet nach folgender Formel:

Formel

Mit den Zahlen aus dem vorigen Beispiel (die Werte für X2 finden sich in

Tab. ..

Formel

also den gleichen Wert wie im Beispiel A.

Nach dieser Methode arbeitet der Taschenrechner.

Obwohl Formel .. und .. durch elementare algebraische Operationen inein-

ander überführbar sind, ist man vor Überraschungen nie ganz sicher; TIMISCHL

gibt hiefür ein interessantes Beispiel.

Es soll die Varianz von 3 exakten Zahlen, 1,07, 1,08 und 1,09 (also 3 signi-

fikante Stellen) bestimmt werden.

Formel

Zweifellos ein (wohl ad hoc konstruierter) Extremfall, der immerhin, beson-

ders bei kleinen Spannweiten, zur Vorsicht mahnt!

1) x2 betrifft Beispiel 2 auf der folgenden Seite.

Beispiel C: Klassifiziertes Material

Mit der Multiplikationsmethode können σ bzw. s von klassifizierten Beo-

bachtungen nach folgender von abgeleiteter Formel berechnet werden:

Formel

Als Beispiel wählen wir die Verteilung der Größen von 500 Bohnen (Tab.

Tab. Verteilung der Größe von 500 Bohnen:

senmittel mm

f f.x x2 f.x2

11 1 11 121 121

12 8 96 144 1.152

24 47 611 169 7,943

14 68 962 196 13,328

15 201 3,015 225 45,225

16 119 1,904 256 30,464

16 42 714 289 12,138

18 12 216 324 3,888

19 2 38 361 722

∑f = 500 ∑fx = 7,567 ∑f.x2 = 114,981

Bei breiten Klassen und sehr großem n kann ein systematischer Fehler

durch die SHEPPARDsche Korrektur behoben werden: scor2 = s2 - b2/12.

Berechnungsbeispiel D:

Mit provisorischer Skala

Bei so großen Zahlen wie in Beispiel 3 kommt man zu recht unhandlichen

Zahlen. In solchen Fällen geht man bequemer auf eine provisorische Skala über.

Dazu wählt man ein ganzzahliges Mittel d, am günstigsten die am stärksten

besetzte Klasse. Ziehen wir wieder unser in Beispiel C behandeltes Bohnenbei-

2) Wichtige Rechenkontrolle: die Summe aller Plus- und Minus-Abweichungen soll zusam-

men 0 betragen! 3) Das Beispiel hat die 'Bohnenorgel', ein Modell im Grazer Pflanzenphysiologischen Institut

als Vorbild.

spiel heran: als provisorisches Mittel wählen wir d = 15. Dieses ziehen wir von al-

len Beobachtungen ab und erhalten so handlichere Zahlen (x*, spr. x Stern). Die

Tabelle ... nimmt nach dieser linearen Transformation folgende Form an:

Tab. Die Werte der Tag. linear transgormiert (provisorische Skala)

x - d x* f f.x* x*2 f.x*2

11 - 15 -4 1 -4 16 16

12 - 15 -3 8 -24 9 72

13 - 15 -2 47 -94 4 199

14 - 15 -1 68 -68 1 68

d - 15 0 201 0 0 0

16 - 15 1 119 119 1 119

17 - 15 2 42 64 4 169

18 - 15 3 12 36 9 108

19 - 15 4 2 8 16 32

Die geringfügige Differenz zu dem nach Berechnung gemäß Beispiel 3 er-

haltenen Wert ist durch Rundungsfehler bedingt.

Beispiel E: Das Summenverfahren

Bei sehr großem Zahlenmaterial ist das Summenverfahren vorteilhaft. Da-

bei kommt man fast nur mit Additionen, dreimaligem Aufsummieren der Frequen-

zen von den Enden der Zahlenreihe gegen ein provisorisches Mittel d, aus. Der

Vorgang sei am gleichen Beispiel wie in 3 und 4, der 'Bohnenorgel' demonstriert:

Tab. Das Datenmaterial von Tab. ... nach dem Summenverfahren aufgear-

beitet (d = 15).

x f f1 f2 f3

11 1 1 1 1

12 8 9 10 11

13 47 56 66 77

14 68 120 190 = S1 267 = S3

15 = d 301

16 119 175 247 = S2 337 = S4

17 42 56 72 90

18 12 14 16 18

19 2 2 2 2

Zur Berechnung benötigen wir die Hilfsgröße c:

Mit den Zahlen unseres Bohnenbeispiels:

Also das gleiche Resultat wie mit dem Verfahren nach Beispiel C und D!

7.4 Standardfehler und Spannweite: Grobschätzung von s

Zwischen der Standardabweichung und der Spannweite normal verteilter

Grundgesamtheiten/Stichproben besteht eine stochastische Beziehung, die u.a.

eine Grobschätzung der Standardabweichung erlaubt. Dazu teilt man die Spann-

weite R durch den in nachstehender Tab. .. unter der jeweiligen Zahl der Elemente

n stehenden Faktor f:

Tab. Zur Grobschätzung der Standardabweichung

n 4 10 15 20 30 50 75 100 200 500 1000

f 2,06 3,08 3,47 3,84 4,1 4,5 4,8 5,0 5,9 6,1 6,5

Zwischenwerte können linear interpoliert werden. Ggfs. ist dabei Tabelle ..

nützlich; sie ergibt Tab. .. analoge Werte.

Tab. ..: Wie Tab. ... Zur Selbstberechnung von Zwischenwerten

n = 5 - <10 f ≈ √n

n = 10 - <20 f ≈ √n - n/30

n ≈ 20 - <30 f ≈ √n - n/25

n = 30 -100 f ≈ √n - n/20

Auf unser Bohnenbeispiel (Kap. ..., Beispiel ..) angewendet:

nach korrekter Berechnung (Kap. , Beispiel C-E) 1,24 oder das Beispiel F.

2.6-3, Normalverteilung mit kleinem n:

Umgekehrt kann die Bezeichnung zwischen Spannweite R und Standdar-

dabweichung s auch zur überschlägigen Prüfung auf Normalität einer Verteilung

dienen. Prüfgröße ist dabei der Quotient R/s (Tab...)

Tab. Zur Prüfung auf Normalität

n 4 10 15 20 30 50 75 100 200 500 1000

R/s 2,43 3,66 4,17 4,49 4,89 5,35 5,68 5,90 6,38 6,94 7,33

Errecht R/s den in Tab. .. für das betreffende n tabellierte R/s-Wert, liegt mit

95%iger Wahrscheinlichkeit Normalität vor.

Wieder auf unser Bohnenbeispiel angewendet:

R = 19 - 11 = 8, n = 500, s = 1,23

R/s = 8/1, 23 = 6,50, also kleiner als der für n = 500 tabellierte R/s-Wert

6,94; die Ablehnung der Nullhypothese (= es liegt keine Normalverteilung vor) wird

also knapp verfehlt.

Dem Augenschein nach würde man wohl Normalverteilung vermuten. Der

offenbar recht empfindliche Test erkennt aber die leichte Asymmetrie der Vertei-

lung als Abweichung von der Idealkurve. In praxi wird man aber kaum zögern, die

Bohnengrößen als angenähert normalverteilt zu behandeln.

Ebenso liefert die schiefe Verteilung von Fig. ... mit einer Spannweite von 8

- 1 = 7 und s = 1,87 ein R/s von 7/1,87 = 3m74; damit liegt R/s deutlich unter dem

für n = 16 tabellierten R/s ≅ 4,25 (unterpoliert). Normalität liegt demnach nicht vor.

Auch die ungleichmäßige Verteilung der der Fig. ... wird mit R = 7 und s =

2,1 und einem sich daraus ergebenden R/s = 3.3 (Tabellenwert wieder ≅ 4,20)

auch durch diesen Test als nicht normalverteilt bestätigt.

Hingegen ergibt die symmetrische Verteilung von Fig. ... mit R = 4 und s = 1

einen R/s-Wert von 4, was recht gut mit dem Tabellenwert von ≈ 4,1 (interpoliert)

übereinstimmt.

7.5 Der Variationskoeffizient

Für Vergleichszwecke ist es oft vorteilhaft, den Standardfehler nicht in den

Einheiten der Grundgesamtheit/Stichprobe anzugeben, sondern auf deren Mittel-

wert zu beziehen. Dieser Quotient ist die relative Standardabweichung, meist als

Variationskoeffizient bezeichnet.

Als Symbol wird meist der Buchstabe V oder auch (aus bereits bekannten

Gründen weniger glücklich) Vk benutzt

Formel

Anschaulicher ist in vielen Fällen die Angabe des Variationskoeffizienten in

Perzenten des Mittelwertes: relativer Variationskoeffizient V (%)

Formel

V kann alle Werte zwischen 0 und 1 annehmen, V (%) alle Werte zwischen

0 und 100.

V, Vk oder V%(%) sind keine verbindlich eingeführten Symbole. Um Irrtü-

mer zu vermeiden, ist es angezeigt, in Schriftsätzen etc. beim erstmaligen

Gebrauch das Symbol in geeigneter Form zu definieren.

Vor der Behandlung nicht parametrischer Streumaße sei hier ein Kapitel

über das Rechnen mit Standardabweichung (Kap ...) eingefügt.

7.6 Graphische Darstellung

In Diagrammen wird die Standardabweichung in der Regel durch senkrech-

te Striche ('engl. 'bars') dargestellt; ihre Länge entspricht +s (aufwärts) und -s (ab-

wärts) im Ordinatenmaßstab. Diese Art der Wiedergabe ist sowohl bei Liniendia-

grammen als auch in Blockdiagrammen (Histogrammen) möglich

Fig. ..: Darstellung der Standardabweichung durch senkrechte Balken bei

Liniendiagrammen (a) und bei Histogrammen (b).

Gilt für alle Punkte einer Serie die gleiche Standardabweichung, so genügt

es, diese durch einen gleichsam freischwebend in das Diagramm eingefügten

senkrechten Balken (zweckmäßig in Nähe der Meßwerte) anzugeben.

Vor der Behandlung nichtparametrischer Streumaße ist es zweckmäßig, ein

Kapitel über das Rechnen mit Standardabweichungen einzuschieben

Seite - 58 - 8 Rechenregeln II

8 Wichtige Rechenregeln II Das Rechnen mit Standardabweichungen

8.1 Kumulierung von x s

In Kap. 4.5, Seite 30 wurden bereits Regeln zur Zusammenfassung mehre-

rer Mittelwerte zu einem gemeinsamen (kumulierten) Mittel mitgeteilt. Diese For-

meln seien nunmehr durch Hinzunahme der Standardabweichung ergänzt. Wir

dürfen uns dabei auf ihre vereinfachte Schreibung beschränken, zumal bei allen

die 'Übersetzung' in den Klartext beigefügt ist.

Varianzen gleich

Stichprobenumfang gleich

Formel

Das gemeinsame Mittel aus k x-Werten erhält man, indem man die Summe

der zu mittelnden x (beginnend mit (i = l bis xk) durch die Zahl der x-Werte (= k)

teilt. (Identisch mit [F 3,1] für das arithemtische Mittel).

Stichprobenumfang ungleich

Formel

x = Summe der Produkte aus den Mittelwerten xi und der jeweils zugehöri-

gen ni, geteilt durch die Gesamtzahl der Einzelproben ni. (Identisch mit dem ge-

wogenen Mittel [F 3,2].

Varianzen ungleich

Stichprobenumfang gleich

Formel

Man bilde die Summe der durch die Varianz geteilten x-Werte und dividiere

sie durch den reziproken Wert der Varianz si2. (Identisch mit dem gewichteten

Mittel [F 4.5-5].

Stichprobenumfang ungleich

Formel

Die Formel vereinigt [F 6,5-2] mit [F 5.4-3] und bedarf wohl keiner besonde-

ren Übersetzung mehr.

Formel

8 Rechenregeln II Seite - 59 -

Die kumulierte Varianz sk2 aus k arithmetischen Mitteln ergibt sich aus der

Formel

Die kumulierte Standardabweichung sk ist selbstverständlich die Quadrat-

wurzel aus obigem Ausdruck.

Die Grundrechnungsarten mit Standardabweichungen

8.2 Die Grundrechnungsarten mit Standardabweichungen

Rechenoperationen mit fehlerbehafteten Zahlen wurden bereits als Beispiel

für Fehlerfortpflanzung vorgeführt. Standardabweichungen kommen nach einem

exponentiellen Algorithmus zustande und verlangen besondere Regeln. SACHS

sind folgende Formeln (nach FENNER) entnommen.

Formeln

Beim Quadrieren verfährt man wie bei der Multiplikation, wobei x1 = x2 und

s1 = s2 gesetzt wird. Bei Kubieren verfährt man sinngemäß (x1 = x2 = x3 und s1 =

s2 = s3).

Die Formeln gelten nur für unabhängige Stichproben. Besteht eine Bezie-

hung zwischen x und y (z.B. gepaarte Proben oder eine Korrelation) so ist bei der

Addition dem Ausdruck unter der Wurzel die Größe

Formel

hinzuzählen, bei der Subtraktion ist diese Größe unter der Wurzel abzuzie-

hen. Für Multiplikation und Division gibt es nur komplizierte Nährungsverfahren.

Bei Bedarf ist Spezialliteratur einzusehen.

Auf signifikante Stellen abgekürzt rechnen!

s-Werte immer nur aufrunden! x, y und t dürfen natürlich wie üblich gerun-

det werden.

Seite - 60 - 9 Streumaße II

9 Streumaße II nichtparametrische Maße

Neben der nur bei angenäherter Normalverteilung sinnvoll anwendbaren

Standardabweichung gibt es Streumaße, deren Vorzug es ist, verteilungsunab-

hängig, ihr Nachteil freilich ist ihre meist geringere Leistungsfähigkeit. Dies gilt z.B.

9.1 Die Spannweite

Die Spannweite (Symbol R) ist die Differenz vom niedrigsten zum höchsten

Wert einer Verteilung:

Formel

Die Spannweite ist kein allzu repräsentatives Streumaß, es wird stark von

weitab liegenden Werten (sog. 'Ausreißer') bestimmt. Für manche statistische Ü-

berleungen, insbesondere zu überschlägigen Kontrollen, zur Grobschätzung der

Standardabweichung und zur Prüfung auf Vorliegen von Normalität kann die

Spannweite mit Vorteil herangezogen werden.

9.2 Die mittlere Abweichung

In älteren Statistikbüchern als hauptsächlichstes Streumaß beschrieben, ist

die mittlere Abweichung heute gegenüber der viel leistungsfähigeren Standardab-

weichung, nicht ganz zu Recht, in den Hintergrund getreten. Es gibt nicht einmal

ein verbindlich vereinbartes Symbol für dieses Maß; meist wird hierfür MA benutzt.

Die mittlere (durchschnittliche, auch absolute) Abweichung (MA) ist definiert

Formel

bzw. bei klassifiziertem Material:

Formel

xj = Klassenmittel

fj = Frequenz der Klassen

Die beiden senkrechten Striche an Stelle von Klammern bedeuten, daß die

dazwischen stehende Differenz ungeachtet der tatsächlichen Vorzeichen stets

positiv zu nehmen ist.

9 Streumaße II Seite - 61 -

Die absolute mittlere Abweichung ist von der Verteilung der Elemente un-

abhängig und daher eine verteilungsfreie (nichtparametrische) Größe.

Bei kleinen Stichprobenumfängen ist die absolute Abweichung u.U. der an

sich leistungsfähigen Standardabweichung überlegen. Extremwerte wirken sich

weniger stark auf die MA aus als auf die quadratische Abweichung; wenn auch

nicht mehr 'modern', ist die MA für rasche Übersichten und Vergleiche mit Vorteil

brauchbar.

9.3 Quartile und Perzentile

In Kap. 4.1, Seite 26 haben wir den Median als Mittelwert unregelmäßiger

Verteilungen kennengelernt. Die dort angeführte Berechnungsweise läßt sich zu

einem, freilich weniger leistungsfähigen, nichtparametrischen Streumaß ausbauen.

Der Median teilt die Zahl der Elemente ohne Rücksicht auf deren Verteilung

in zwei gleichzahlige Hälften. Wird jede Hälfte nochmals halbiert, so werden die

Elemente gleichsam durch drei Schnitte

Quartile,

in 4 gleichzahlige Viertel unterteilt (mitunter versteht man auch die Viertel

selbst als Quartile).

Das erste Quartil (Q1) steht am oberen Ende des ersten Viertels, Q3 am

oberen Ende des dritten Viertels, Q2 am Ende des 2. Viertels ist der Median. Die

beiden 'inneren' Viertel Q2 + Q3 enthalten genau die Hälfte der Elemente; sie ge-

ben damit einigen Aufschluß über die Verteilung der Elemente, etwa vergleichbar

den rd. 68 % der Werte umfassenden -σ ... +σ Bereich der Normalverteilung.

Bei der Berechnung geht man ähnlich wie bei der Ermittlung des Medians

Bei gerader Gesamtzahl der Elemente ist deren Zahl unterhalb wie ober-

halb des Medians ungerade; es ist auf jeden Fall die Lage Q1 und Q3 unmittelbar

und eindeutig feststellbar.

Bei ungerader Elementzahl enthalten die beiden Hälften jeweils eine gerade

Zahl von Elementen, Analog der Ermittlung des Medians gilt das Mittel zwischen

dem n/4-ten und (n/4 + 1)-ten Wert als Q1, zwischen dem 3/4n-ten und (3/4n+1)-

tem Wert als Q3.

Seite - 62 - 9 Streumaße II

Wenn bei klassifiziertem Material die wie in Kap. .. beschriebene primitive

Auszählmethode nicht zum Ziel führt, gehe man bach Formel [F 4.1-1] vor; sie ist

nur etwas zu adaptieren. Als Beispiel diene die bereits bei der Demonstration des

Medians benutzte Verteilung der Fig. ...

n/2 der Median-Formel ist für Q1 durch n/4 zu ersetzen, für Q3 durch 3n/4.

Ú bedeutet jetzt die untere Grenze der Q1-bzw; Q3-Klasse

... = Elemente unterhalb der Q1 0 (Q3-)-Klasse;

fa = Elemente in der Q1 - (Q3-)-Klasse.

Formel

Auf unser Beispiel angewendet:

Q1 liegt in Klasse 2, Ú = 20, b = 10, n = 16 und fa = 2

Q1 = 20 + 10. (4 - 3) /2 = 25

Q3 muß in Klasse 5 liegen, Ú = 50, fa = 1

Q3 = 50 + 10. (12-12//2 = 50.

Man kontrolliere nach der 'Auszählmethode'!

Mit Quartilen lassen sich einfache Formeln zur Beschreibung von Schiefe

und Exzeß von Verteilungen erstellen. Bei Bedarf sei auf die Lehrbücher verwie-

Mit der gleichen Formel lassen sich nach Einsetzen der entsprechenden

Werte, wie bereits der q, und q3 gezeigt, jeder beliebige Abschnitt einer Verteilung

gleichsam abtrennen; solche Abschnitte nennt man

Perzentile.

Perzentil ist der allgemeinere, dem Quartil übergeordnete Begriff.

Von besonderer Bedeutung sind in diesem Zusammenhang die

Dezile

Abschnitte, die ein Zehntel der Elemente einer Verteilung umfassen, insbe-

sonders das unterste und das oberste Dezil (das erste und das letzte Zehntel ei-

ner Verteilung) quasi abschneiden; der verbleibende, acht Zehntel der Elemente

umfassende Bereich ist der

Interdezilbereich.

Wir werden darauf im Kap. .. gelegentlich der Behandlung von 'Ausreißern'

ausführlich zurückkommen.

9 Streumaße II Seite - 63 -

9.4 Standardfehler des Medians

Da scheint etwas nicht ganz zu stimmen: für den verteilungsfreien Median

soll die Standardabweichung berechnet werden.

Wenn bei wenig überschaubarem Datenmaterial Zweifel bestehen, ob es

normalverteilt ist, würde man u.U. einen Fehler begehen, sähe man sie von vorn-

herein als solche an. In diesem Falle kann zur vorläufigen Orientierung eine Stan-

dardabweichung des Medians nach folgender Formel berechnet werden:

Formel

Als Beispiel betrachten wir Fig. .. ausnahmsweise einmal als 'zweifelhaften

Fall' von Normalität und berechnen s nach obiger Formel.

n = 16

a = (16 + √48)/2 ≈ (16 +7)/2 ≈ 11,5

b = (16 -7)/2 ≈ 4,5

s = (11,5 - 4,5)/3,4641 = 2,02

Die Standardabweichung der angenäherten Normalverteilung beträgt 1; als

Standardabweichung des Medians berechnet beträgt sie ≈ 2, also das Doppelte!

Die nichtparametrische Methode beläßt wesentlich größere Spielräume (m.a.W.:

ist weit weniger 'genau') als das parametrische Gegenstück. Dieser Satz gilt all-

gemein.

Der hier ermittelte s-Wert gilt, da verteilungsunabhängig, auch für alle in

Fig. .. dargestellten, aus 16 Elementen bestehenden Verteilungen.

Seite - 64 - 10 Über Vertrauensbereiche

10 Über Vertrauensbereiche

10.1 Der Standardfehler des Mittelwertes

Wenn der Mittelwert einer Stichprobe das Resultat von Zufallswerten ist,

sind bei wiederholter Probennahme keine identischen Mittelwerte zu erwarten; sie

pendeln um einen mittleren Wert µ, die Abweichungen von diesem sind normalver-

teilt.

Die Normalverteilung der 'Mittelwertkurve' ist durch den nunmehrigen Mit-

telwert µ (bei Stichproben mag man, wenn man es sehr genau nimmt x schreiben1)

) und seinen Standardfehler (x ± sx) definiert; die 'Monogramme' lauten daher N

(µ, σ) bzw. N (x, s),

Der Standardfehler des Mittelwertes einer Stichprobe sx ergibt sich aus der

einfachen Beziehung:

Formel

Je mehr Proben gezogen werden (je größer n), desto enger wird der Be-

reich der Abweichungen und die Aussage über den Mittelwert wird präziser.

Wichtige Folgerung (bereits bei der Planung von Versuchen zu berücksich-

tigen):

Die Genauigkeit wächst mit der Quadratwurzel der Stichprobengröße!

M.a.W.: um die Genauigkeit zu verdoppeln (= den Standardfehler s zu hal-

bieren) ist eine viermal so große Stichprobe nötig!

Ein Beispiel (n. WEILING) möge dies illustrieren;

Es steht ein Meßgerät mit einer Genauigkeit von ± 1% des Skalenendwer-

tes zur Verfügung; wieviel Messungen sind nötig, um ein Ergebnis mit 0,1 % Ge-

nauigkeit zu erhalten?

√n = sx/sx

Diese Parameter in der Formel eingesetzt ergibt

√n = 1/0,1 = 10; n = 100

1) In Lehrbüchern findet man verschiedene Schreibweisen: x ±sx und daneben x ± sx. Da

sich s auf die Einzelwerte bezieht, ist die Schreibung x ± sx logischer. x ± sx (und ebenso x ± sx)

10 Über Vertrauensbereiche Seite - 65 -

Es sind also 100 Ablesungen zum Erzielen von 0,1 %. (als zur zehnfachen

Genauigkeit) erforderlich.

Mit einem Meßgerät mit 5 % Genauigkeit wären

√n = 5/0,1 = 50; n = 2 500 Messunge nötig!

Man kann, genügend Geduld vorausgesetzt, auch mit ungenauen Meßgerä-

ten genaue Ergebnisse erhalten!

10.2 Der Vertrauensbereich des Mittelwertes

Der Mittelwert einer Stichprobe ist nach Maßgabe seiner Standardabwei-

chung sx unsicher, m.a.W. rd. 68 % der Stichproben x sind im Bereich +sx ... +sx

zu erwarten. In diesem Bereich finden sich rd. 68 % aller Stichproben-Mittelwerte;

Erinnern wir uns der z-Werte in Kap. .. über den Bereich von z = -1,96 ... x

... z = +1,96 der (Standard-)Normalverteilung liegen 95 % der von der Glockenkur-

ve umschlossenen Fläche und damit auch 95 % der Einzelwerte. Daher können

wir den Bereich, in dem mit 95 % Wahrscheinlichkeit (P = 0,95) oder, was auf das-

selbe hinausläuft, mit 5 % Irrtumswahrscheinlichkeit (α = 0,05) den

95%-Vertrauensbereich des Mittels x

wie folgt anschreiben

Formel

Für den 99%-Vertrauensbereich ist der z-Wert 1,96 durch z = 2,58 zu er-

setzen, für VB (99,9 %) durch z = 3,28 (vgl. Tab. ..).

Mit größerem VB nimmt die Unschärfe der Aussage zu! (vgl. Kap. ...)

10.3 Der Schluß auf die Grundgesamtheit

Geradezu programmatisch wurde bereits in Kap. .. gesagt, ein zentrales

Anliegen der Statistik ist der Schluß von der Stichprobe auf die Gesamtheit.

Statt umständlicher Erläuterungen ein typisches Beispiel:

Frage: In welchem Bereich der Grundgesamtheit, der die Stichproben ent-

stammen, kann ihr Mittelwert mit einer Wahrscheinlichkeit P erwartet werden?

Ist die Standardabweichung der Grundgesamtheit σ bekannt, kann der Ver-

trauensbereich ihres Mittelwertes nach [F ...] angegeben werden; es sind nur x

durch µ und s durch σ zu ersetzen: für den VB (0,95) gilt dann:

läßt jedoch die Zuordnung von s zum jeweiligen x leichter erkennen, weshalb diese Schreibung

Formel

oder in abgekürzter Schreibung:

Formel

Weil einem P = 0,95 ein z = 1,96 entspricht, wird in 19 von 20 Stichproben,

die aus der annähernd normalverteilten Grundgesamtheit N (µ,σ) gezogen wer-

den, der Mittelwert der Grundgesamtheit µ innerhalb dieses Bereiches liegen.

Dazu wieder ein einfaches Zahlenbeispiel.

Der Mittelwert aus n = 25 Stichproben betrage x = 100: die Standardabwei-

chung der Grundgesamtheit ist bekannt (σ = ±5); wie groß ist der Bereich, inner-

halb dessen µ mit 95%iger Wahrscheinlichkeit (P = 0,95) zu finden ist?

Diese Werte in [F ..] eingesetzt ergeben:

100 - 1,96 . 5/√25 < 100 < 100 + 1,96 . 5/√25

VB (99%) = 97,42 - 102,58.

Bei einer gewünschten Irrtumswahrscheinlicht α = 0,001 (P = 99,99) ist z =

3,29 einzusetzen. Der Vertrauensbereich wird dadurch noch breiter:

VB (99,9%) = 96,71 - 103,29

Allgemein gilt (kein Paradoxon):

Mit geringerem Vertrauensbereich erhält man schärfere, aber weniger si-

chere Aussagen, mit Verringerung der Irrtumswahrscheinlicht (größerer Vertrau-

ensbereich) wird größere Sicherheit der Aussage mit geringerer Schärfe erkauft!

Varianz der Grundgesamtheit unbekannt

Wesentlich häufiger ist die Standardabweichung σ der Grundgesamtheit

nicht bekannt. Der Schluß auf den Mittelwert der Grundgesamtheit wird dadurch

zusätzlich unsicherer, ein breiterer Vertrauensbereich (= größere Unschärfe) ist zu

erwarten. Dem wird Rechnung getragen, indem in Formel [...] der auf der Normal-

verteilung aufbauende z-Wert durch einen von der der sog. t-Verteilung hergeleite-

ten, außer durch α doch durch die Zahl der Freiheitsgrade v bestimmten t-Wert

ersetzt wird.

F. ... erhält dadurch das folgende Aussehen:

Formel

aus didaktischen Gründen vorgezogen wird.

Ausführliche t-Tafeln finden sich in jedem Statistikbuch; eine gekürzte Tafel

is tin Kap. .. wiedergegeben.

Greifen wir nochmals auf das oben durchgerechnete Beispiel zurück, neh-

men jedoch die Varianz der Grundgesamtheit als unbekannt an. Der Tabelle 13.2-

1 entnehmen wir für α = 0,05 und n = 25 - 1 = 24 Freiheitsgrade ein t = 2,064. Die-

se Werte in [F ...] eingesetzt:

100 - 2.064 . 5/5 ... µ ... 100 + 2.064 . 5/5

97.636 µ ... 102,064

auf zwei Dezimalen nach Vorschrift gerundet:

VB (95%) = 97,93 < µ < 102,07

Wie erwartet nimmt in unserem Beispiel der VB bei unbekanntem σ von

1,98 % auf ± 2,07 % zu, die Aussage wird unschärfer.

10.4 Vertrauensbereich von s und VK

Manchmal ist es wünschenswert, den Vertrauensbereich auch der Stan-

dardabweichung zu kennen. Im allgemeinen ist man nämlich geneigt, die Variabili-

tät der Standardabweichung zu unterschätzen (SACHS).

Die Formel für die Berechnung Vertrauensbereich der Standardabweichung

σ (s) und des Variationskoeffizienten V ist nach dem gleichen Schema wie gebaut

und auch von dieser ableitbar (was wir uns hier aber schenken wollen):

Für den VB der Standardabweichung gilt (n. SACHS)

Formel

Für den zumeist gewählten Vertrauensbereich VB (95 %) ist wieder z = 1,96

einzusetzen. Begnügt man sich mit VB (90 %), so ist an Stelle von 1,96 der Wert z

= 1,64 einzusetzen. Einen engeren Vertrauensbereich als VB (95 %) anzustreben

ist nicht empfehlenswert, da nur eine Approximation darstellt.

Zur Berechnung des Vertrauensbereiches VB des Variationskoeffizienten

tritt an Stelle von s der Variationskoeffizient VK; er soll aber nicht über 0,4 betra-

gen und n soll mindestens 25 sein.

10.5 Der Vertrauensbereich des Medians

Bei nicht normalverteilen Elementen sind die bisher vorgeführten Formen [F

...] und [F ...] unverwendbar. An ihrer Stelle tritt der Ausdruck:

Formel

Für h gibt es natürlich Tabellen; man kann aber h für den 95%-

Vertrauensbereich gut nach folgender Formen (aus SACHS) approximieren:

Formel

nur die ganzen Zahlen werden berücksichtigt.

Greifen wir auf die unregelmäßige Verteilung der Fig. ... zurück. α = 36

(Kap. ..), n = 16;

h = (16 - 1 - 1,95. 4)/2 = 3,5; ganze Zahl = 3.

Der 95% Vertrauensbereich (z = 1,96) reicht vom 4. Element (3 +1) zum 13.

Element (16 -3), umfaßt also etwa die beiden inneren Quartile und somit rd. die

Hälfte der Elemente.

Der Median hat also einen sehr weiten Vertrauensbereich, auf ihn gegrün-

dete Aussagen sind wesentlich unschärfer als solche auf Grund der Normalvertei-

lung ermittelten; auf die angenäherte Normalverteilung der Fig. ... angewendet,

ergibt sich ein rd. doppelt so großer VB als ihre Standardabwicklung. Da h in obi-

ger Formel nur von z und n abhängt, gilt der hier beispielsweise ermittelte VB für

alle in Fig. ... vorgeführten Verteilungen; denn gleich dem Median ist auch dessen

Vertrauensbereich verteilungsunabhängig.

10.6 Ausreißer

Ein besonderes Problem stellen gelegentlich auftretende extrem hohe oder

niedrige Werte dar, die ganz und gar nicht in die Beobachtungen hineinpassen

Ausreißer.

Sie können durch inhomogenes Material, Meßfehler, dem Beobachter ver-

borgene Einflüsse u.a.m. zustande. Darf man solche, Mittelwerte wie Standardfeh-

ler offenkundig verzerrende Werte eliminieren, wenn ja, unter welchen Vorausset-

zungen?

Eine recht brauchbare Faustregel besagt, daß bei normalverteilten Grund-

gesamtheiten/Stichproben Werte außerhalb der 4σ- (4s-) Grenze (σ bzw. s ohne

den fraglichen Wert berechnet). Praktisch nicht mehr als zugehörig anzusehen

sind; exakt umfaßt der 4s-Bereich 99,994% aller Beobachtungen, m.a.W. nur in rd.

15.000 Normalverteilungen ist ein Wert außerhalb dieser Schranke zu erwarten.

Der 3σ-Bereich umfaßt nur mehr 99,85% aller Beobachtungen, die Irrtumswahr-

scheinlichkeit steigt auf 0,15 % oder 1 : 600. Mit nicht normalverteiltem Material

geht man auch bei der 4s-Schranke ein Irrtumsrisiko von 6 % (≈ 1: 16) ein!

Auch der R/s-Quotient kann beim Aufspüren von Ausreißern hilfreich sein.

Übersteigt der Quotient aus Spannweite durch Standardabweichung den in Kap. ..

für das betreffende n tabellierten Wert, so liegt mit einer Irrtumswahrscheinlichkeit

α = 0,05 (= 5 %) ein Ausreißer vor. Man würde einen solchen nur einmal in 20 Fäl-

len ungerechtfertigt ausscheiden.

Liegen Ausreißer vor, so kann man unter Beachtung der oben genannten

Grenzen das Ergebnis verbessern, indem man den höchsten und den niedrigsten

Wert der geprüften Verteilung eliminiert:

gestutzte Probe.

Es ist nach sorgfältiger Prüfung auch angängig, von beiden Ende der Nor-

malverteilung 1 % oder auch % % der Werte zu eliminieren; dadurch wird die

Standardabweichung geringer und das Ergebnis 'verbessert' (man nimmt dabei

freilich einen größeren VB in Kauf).

Bei nicht normalverteilten Elementen kann man mittels der Perzentile stut-

zen. Man ermittelt und eliminiert das 1. (= das unterste) und das 9. (= das oberste)

Perzentil, wodurch das erste und letzte Zehntel der Verteilung abgeschnitten wer-

den, und berücksichtigt nur den verbleibenden Bereich, dem

Interdezilbereich.

Die Berechnung der Perzentile erfolgt amalog den Quartilen, es sind ledig-

lich in Formel [F ...] n/10 bzw. 9n/10 und die entsprechenden Frequenzen einzu-

setzen.

Warnung! Man gehe mit Ausreißern stets sehr vorsichtig um! Im Zweifel ist

es empfehlenswert, die Standardabweichung erst mit und dann ohne den ver-

meintlichen Ausreißer zu berechnen; erst bei erheblichem Unterschied erwäge

man das weitere Vorgehen. Nie darf der eliminierte Wert 'unter den Tisch fallen',

auch wie die Probe gestutzt wurde, muß im Protokoll vermerkt werden! Man halte

sich stets vor Augen: mit jedem ungerechtfertigt eliminierten Wert könnte man sich

einer Erklärungsmöglichkeit begeben, vielleicht sogar an einer nobelpreisverdäch-

tigen Entdeckung vorübergehen!

Seite - 70 - 11 Allgemeines zur beurteilenden Statistik

11 Allgemeines zur beurteilenden Statistik

11.1 Null- versus Alternativhypothese

Mit den im Kap. 10.5, Seite 67 angesprochen Vertrauensbereich haben wir

bereits die Schwelle zur beurteilenden Statistik überschritten: wir haben eine Ent-

scheidung getroffen, ob ein aberranter Wert der Gesamtheit (Stichprobe) zuzuzäh-

len ist oder nicht.

Eine immer wiederkehrende Aufgabe besteht in der Entscheidung, ob eine

Stichprobe einer bestimmten Grundgesamtheit angehört oder ob zwischen zwei

Stichproben ein signifikanter Unterschied besteht. Es ist angebracht, der Behand-

lung einschlägiger Tests ein paar Begriffe vorauszuschicken, denn die Fachspra-

che bedient sich dabei einer auf den ersten Blick etwas umständlich erscheinen-

den Terminologie.

Vorsorglich geht man bei der Beurteilung von der ungünstigeren Annahme

aus, es besteht kein Unterschied, m.a.W. man stellt zunächst die

Nullphypothese Ho

auf und prüft an Hand des Testergebnisses, ob sie beibehalten werden kann (= es

besteht kein Unterschied) oder ob sie abzulehnen ist; dann trifft die

Alternativhypothese HA

(oft auch H1 geschrieben) zu, d.h. es besteht ein auf dem gewählten Wahrschein-

lichkeitsniveau P gesicherter Unterschied.

Dabei können zwei Fehler unterlaufen:

• eine richtige Nullhypothese wird unberechtigt abgelehnt: Fehler der 1. Art;

• eine falsche Nullhypothese wird unberechtigt beibehalten: Fehler der 2. Art.

Folgende Gegenüberstellung möge dies verdeutlichen:

Wirklichkeit

Entscheidung des Tests Ho wahr Ho falsch

Ho abgelehnt Fehler 1. Art richtige Entscheidung

Ho beibehalten richtige Entscheidung Fehler 2. Art (Aus SACHS [2])

11 Allgemeines zur beurteilenden Statistik Seite - 71 -

Die (meist geringe) Wahrscheinlichkeit, eine gültige Nullhypothese abzuleh-nen (Irrtumswahrscheinlichkeit α):

Risiko I; Die Wahrscheinlichkeit, eine falsche Nullhypothese beizuhbehalten,

Risiko II, wird mit β

Wie schon die Bezeichnung andeutet, ist bei Risiko I bzw. II mit unter-

schiedlichen Wahrscheinlichkeiten zu rechnen. Gänzliche Ausschaltung beider

Risken käme einem zwangsläufigen Zusammenhang gleich.

Verringerung des einen Risikos erhöht bei gleichbleibendem n das andere;

ein grober Fehlschluß wäre jedoch, diese Beziehung in die Form α = (1 - β) zu

kleiden. α ist eindeutig bestimmbar, β setzt sich aus mehreren Konponenten zu-

sammen, es ist nur an großen Stichproben bestimmbar, über das Wie schweigen

sich die gängigen Lehrbücher allerdings aus.

Je kleiner man α wählt, desto größer wird β und dementsprechend unsiche-

rer ist es, z.B. einen Unterschied zwischen zwei Stichproben zu erkennen; mit

kleinen Stichproben kann man praktisch jede Ho-Hypothese annehmen ('bewei-

sen' wäre eine unkorrekte Ausdrucksweise, denn mit Statistik kann man natürlich

nichts beweisen, man kann nur einen Sachverhalt mehr oder weniger wahrschein-

lich machen).

Meist wird man (durch entsprechende Wahl der Stichprobengröße also

durch geeignetes n trachten, den Fehler 1. Art mit α = 0,05 oder 0,01 zu begren-

zen. Die statistischen Tafeln sind daher (so auch in der hier getroffenen Auswahl)

vorzugsweise auf diese Irrtumswahrscheinlichkeiten (erweitert auf α = 0,001) aus-

gelegt. Für besonders heikle Fragen, etwa im medizinischen und pharmazeuti-

schen Bereich, rechnet man mit um 1-2 Zehnerpotenzen kleineren α-Werten.

11.2 Abgekürzte Angabe von Signifikanzen

In vielen Fällen ist die korrekte und komplette Angaben von Signifikanzen in

der Form (x ± s), namentlich in Tabellen, unnötig, manchmal sogar eher verwir-

rend. Man pflegt die hauptsächlich in Frage kommenden Signifikanzbereiche

durch hochgestellte Zeichen wie nachstehend angeführt anzudeuten und verbal zu

definieren:

Seite - 72 - 11 Allgemeines zur beurteilenden Statistik

P > 0,05 ° = nicht signifikant;

0,05 > P > 0,01 * = signifikant

0,01 > P > 0,001 ** = sehr signifikant

0,001 > P *** = hochsignifikant

Statt P > 0,05 kann selbstverständlich auch P 5 %, statt 0,05 - 0,01 auch P

5 % - 1 % usw. gesetzt werden.

12 Intervallschätzung I Seite - 73 -

12 Intervallschätzung I normalverteilt, z-Test

12.1 Vorbemerkungen

Von den Verfahren zur Prüfung der Signifikanz von Unterschieden von Mit-

telwerten werden hier folgende typische Fälle vorgestellt,

• Vergleich einer angenähert normalverteilten Stichprobe mit der Grundgesamt-heit (µ bekannt):

z-Test; • Vergleich normalverteilter Stichproben (µ ist nicht bekannt)

t-Test. Nicht normalverteilte Stichproben ∏ Kap 14, Seite 86.

Die Tests laufen im wesentlichen auf den Vergleich von Verteilungen hin-

aus. Je weniger sich die zu vergleichenden Glockenkurven überlappen, desto sig-

nifikanter sind deren Mittelwerte verschieden.

12.2 Der z-Test

Frage: Gehört eine Stichprobe einer Grundgesamtheit mit bekanntem Mit-

telwert µ und bekannter Varianz σ2 an?

Die Prüfgröße baut auf der von der Standardnormalverteilung her bekann-

ten Formel auf (∏ Kap. 6.2,Seite 40):

Formel

Die beiden senkrechten Striche im Zähler deuten an, daß die von ihnen

eingeschlossene Differenz ohne Rücksicht auf ihr Vorzeichen positiv zu nehmen

z (Spr. z Dach) bedeutet, daß z keine einer Tafel entnommener exakter

Wert ist, sondern eine aus erhobenen Daten errechnete, 'geschätzte' Prüfgröße

ist. 'Schätzung hat in der Statistik nichts mit 'über den Daumen gepeilt' zu tun,

sondern bezeichnet einen mittels stochastischer Rechenoperationen erhaltenen

Seite - 74 - 12 Intervallschätzung I

Beispiel: In einem Waldbestand sei das durchschnittliche Hundertnadel-

Gewicht µ = 2,2 g mit einer Standardabweichung s = ± 0,1 g bekannt. Gehört eine

Stichprobe n = 9, x = 2,0g der Grundgesamtheit an?

Die Zahlen der Angabe ich eingesetzt:

Formel

Zur Auswertung genügt die abgekürzte z-Tabelle vollauf. Ihr entnehmen wir,

daß das gefundene z zwischen P (0,99) (z=2,58) und P(0,999) (z=3,28) liegt. Man

schreibt das Ergebnis am besten in dieser Form an

0,99 < P < 0,999

Dies genügt zur Aussage, daß mit einer Irrtums-wahrscheinlicht zwischen

1,0 und 0,1 % die Nullhypothese ('es besteht kein Unterschied zwischen µ und x)

abgelehnt werden kann, also mit eben dieser statistischen Sicherheit ein sehr sig-

nifikanter Unterschied zwischen Stichprobe und Grundgesamtheit besteht, ausrei-

chende Grundlage, nach den Ursachen der Abweichung (Schädigung?) zu su-

Der Vertrauensbereich für x ergibt sich nach dem bereits bekannten Sche-

ma mit

Formel

im speziellen Fall mit z = 30

Formel

1,9 < 2,0 < 2,1

Zweckmäßig wählt den nächst niedrigeren 'runden' Vertrauensbereich und

mindert so den Fehler 1. Art, in unserem Falle also P (0,01), wofür z = 2,58 einzu-

setzen ist:

Formel

Der Vertrauensbereich mit P (0,01) beträgt somit

VB (0,01) 1,914 < 2,0 < 2,086

Ergibt die Formel ein z > 3, braucht man erst gar nicht in eine z-Tafel ein-

gehen, um ein P < 0,001 anzunehmen.

Die vorgeführte Berechnung gilt für die Frage, ob das Mittel Stichprobe grö-

ßer oder kleiner ist als das der Grundgesamtheit, also für die:

zweiseitige Fragestellung.

Ist ein Unterschied nur in einer Richtung denkbar, etwa bei Wachstumsvor-

gängen, allenfalls, wie im angeführten Beispiel bei Schädigung u. dgl.) so wählt

man zweckmäßig die

einseitige Fragestellung.

In diesem Falle sind den z-Werten kleinere Irrtumswahrscheinlichkeiten α

zugeordnet.

Die folgende Tabelle gibt einen Auszug wichtiger und häufiger gebrauchter

kritischer z-Werte.

Tabelle: Wichtige z-Werte für zweiseitige und einseitige Fragestellung

0,00001 4,42 5,26

0,0001 3,89 3,72

0,001 = 0,1 % 3,29 3,09

0,01 = 1 % 2,58 2,33

0,05 = 5 % 1,96 1,64

0,1 = 10 % 1,64 1,28

Auf unser 100-Nadelgewicht-Beispiel angewendet:

lautet die einseitige Fragestellung: 'signifikant kleiner als ...'. Der errechnete

z-Wert liegt mit z = 3,00 knapp unter der 0,001 - Schranke. Die Signifikanz des

Unterschiedes ist also etwas höher als bei der zweiseitigen Fragestellung, jedoch

ohne die nächst höhere Schranke P (0,001) zu erreichen oder zu übersteigen.

Man könnte aus einer ausführlichen z-Tafel den entsprechenden z-Wert zwischen

P (0,01) und P (0,001) aufsuchen. Üblicherweise begnügt man sich aber mit den

in Tabelle angeführten Schranken. Will man der höheren Signifikanz dennoch

Rechnung tragen, kann man durch die Schreibung

0,99 << < 0,999

die größere Nähe von P zur höheren Schranke zum Ausdruck bringen.

12.3 Vergleich von 2 Stichproben

Wenn zwei Stichproben der gleichen Grundgesamtheit entstammen, also

den gleichen Mittelwert erwarten lassen, ist mit dem z-Test auch der Vergleich

zweier Stichproben möglich

Seite - 76 - 12 Intervallschätzung I

Dabei macht man sich den Umstand zunutze, daß die Differenzen der Wer-

te normalverteilter Stichproben selbst wieder normalverteilt sind; das 'Monogramm'

ihrer Verteilung lautet ...

Die Varianz der Differenz x1x2 ist

Formel

Analog der Formel ergibt sich daraus für den Vergleich von 2 Stichproben

mit gleichem Erwartungswert µ ein

Formel

Hiezu wieder ein Fallbeispiel (aus WEILING):

Zwei Tierrassen A und B erlernen eine Dressurleistung in gleich langer Zeit,

wobei σA = 2 min σB = 3 min, eine Probe von 12 B-Tieren nur 8 min, Lernzeit. Be-

steht zwischen den Rassen ein signifikanter Unterschied im Verhalten gegenüber

Streß?

Die Werte in obige Formel eingesetzt ergeben

z erreicht nicht den für P (0,05) zweiseitig tabellierten Wert von 1,96, die

Nullhypothese kann auf diesem Niveau nicht abgelehnt werden (= kein Unter-

schied); erst auf dem P (0,1) Niveau könnte Ho gerade noch abgelehnt werden.

Intervallschätzung II

mittels der t-Verteilung

Wozu t-Verteilung?

In Kap. .. wurde mittels des z-Tests von einer Stichprobe auf den Mittelwert

der Grundgesamtheit geschlossen; Voraussetzung für den z-Test ist, daß die Va-

rianz der Grundgesamtheit bekannt bzw. gleich der der Stichprobe ist.

Trifft diese Voraussetzung nicht zu, müssen die Mittelwerte der Grundge-

samtheit aus den Varianzen der Stichproben geschätzt werden; hierfür ist die

t-Verteilung

zuständig. Dadurch wird aber der Schluß auf die Grundgesamtheit unsiche-

rer...

Ziehen wir noch einmal das Beispiel mit dem 100-Nadel-Gewicht des Kap.

.. heran. Es wurde unter der Vorausetzung bekannter Varianz von µ ein z = 3,00

ermittelt, was nach der z-Tabelle einer Wahrscheinlichkeit zwischen P (0,01) und

P (0,001) entsprach.

Ist die Varianz von µ bekannt, gilt nicht mehr die z-Tafel, sondern man muß

in die t-Tafel eingehen, die neben der gewünschten Irrtumswahrscheinlichkeit

auch die Freiheitsgrade berücksichtigt. Dort (Tabelle ..) finden wir unter v = n - 1 =

9 - 1 den Wert 3,0 zwischen P (0,01) und P (0,05), also eine gegenüber dem z-

Test wesentlich geringere Signifikanz.

Die t-Verteilung

Die t-Verteilung prüft die Differenz der Mittelwerte nicht wie der z-Test an

der Standardabweichung der Grundgesamtheit σ, sondern an der Standardabwei-

chung der Differenz der Stichproben-Mittelwerte (STUDENT-Verteilung).

formel

Die Differenz normalverteilter Größen ist selbst wieder normalverteilt.

Die t-Verteilung ist ählich der Normalverteilung bilateral-symmetrisch, je-

doch im 'Sockel' etwas breiter und der Scheitel ist etwas niedriger; sie geht mit

zunehmenden n allmählich in die Normalverteilung über.

Der Schätzwert für sx-s lautet gem. ..

Formel

Aus den beiden Formeln ... und ... ergibt sich die Prinzipformel für den t-

Formel

Seite - 78 - 13 Intervallschätzung II

13 Intervallschätzung II mittels der t-Verteilung

13.1 Wozu t-Verteilung?

In Kap. .. wurde mittels des z-Tests von einer Stichprobe auf den Mittelwert

der Grundgesamtheit geschlossen; Voraussetzung für den z-Test ist, daß die Va-

rianz der Grundgesamtheit bekannt bzw. gleich der der Stichprobe ist.

Trifft diese Voraussetzung nicht zu, müssen die Mittelwerte der Grundge-

samtheit aus den Varianzen der Stichproben geschätzt werden; hierfür ist die

t-Verteilung

zuständig. Dadurch wird aber der Schluß auf die Grundgesamtheit unsiche-

rer...

Ziehen wir noch einmal das Beispiel mit dem 100-Nadel-Gewicht des Kap.

.. heran. Es wurde unter der Vorausetzung bekannter Varianz von µ ein z = 3,00

ermittelt, was nach der z-Tabelle einer Wahrscheinlichkeit zwischen P (0,01) und

P (0,001) entsprach.

Ist die Varianz von µ bekannt, gilt nicht mehr die z-Tafel, sondern man muß

in die t-Tafel eingehen, die neben der gewünschten Irrtumswahrscheinlichkeit

auch die Freiheitsgrade berücksichtigt. Dort (Tabelle ..) finden wir unter v = n - 1 =

9 - 1 den Wert 3,0 zwischen P (0,01) und P (0,05), also eine gegenüber dem z-

Test wesentlich geringere Signifikanz.

13.2 Die t-Verteilung

Die t-Verteilungprüft die Differenz der Mittelwerte nicht wie der z-Test an

der Standardabweichung der Grundgesamtheit σ, sondern an der Standardabwei-

chung der Differenz der Stichproben-Mittelwerte (STUDENT-Verteilung).

formel

Die Differenz normalverteilter Größen ist selbst wieder normalverteilt.

Die t-Verteilung ist ählich der Normalverteilung bilateral-symmetrisch, je-

doch im 'Sockel' etwas breiter und der Scheitel ist etwas niedriger; sie geht mit

zunehmenden n allmählich in die Normalverteilung über.

Der Schätzwert für sx-s lautet gem. ..

Formel

13 Intervallschätzung II Seite - 79 -

Aus den beiden Formeln ... und ... ergibt sich die Prinzipformel für den t-

Formel

Ist die gefundene Prüfgröße t gleich dem für das jeweilige α und v tabellier-

tem Wert oder größer als dieser, so ist die Nullhypothese abzulehnen.

Beim Vergleich von 2 Stichproben werden 2 Freiheitsgrade 'verbraucht', t-

Werte sind daher nach Freiheitsgraden v = n - 2 tabelliert.

Tabelle

0,10 0,05 0,02 0,01 0,002 0,001

2 2,920 4,303 6,965 9,925 22,327 31,598

3 2,353 3,182 4,541 5,841 10,214 12,924

4 2,132 2,776 3,747 4,604 7,173 8,610

5 2,015 2,571 3,365 4,032 5,893 6,869

6 1,943 2,447 3,143 3,707 5,208 5,059

7 1,943 2,447 3,143 3,707 5,208 5,059

8 1,860 2,305 2,896 3,355 4,501 5,041

9 1,833 2,262 2,821 3,250 4,297 4,781

10 1,812 2,228 2,764 3,169 4,144 4,587

12 1,782 2,179 2,681 3,055 3,930 4,318

14 1,761 2,145 2,624 2,971 3,686 4,140

16 1,746 2,120 2,583 2,921 3,586 4,015

18 1,734 2,101 2,552 2,878 3,610 3,922

20 1,725 2,086 2,527 2,845 3,552 3,850

25 1,708 2,060 2,485 2,787 3,450 3,725

50 1,676 2,009 2,403 2,678 3,261 3,496

75 1,665 1,992 2,377 3,643 3,203 3,425

100 1,669 1,984 2,364 2,626 3,174 3,390

0,05 0,025 0,01 0,005 0,001 0,0005

Irrtumswahrscheinlichkeit α einseitiger Test

Der t-Test eignet sich auch für kleinere Probenumfänge und ist, wenn so-

wohl n als auch n2 > 10. gegen Abweichungen von der Normalverteilung recht

robust.

13.3 t-Test bei gleichen Varianzen

Der Test in Form der Formel gilt nur

Formel

bei annähernder Gleichheit der Varianzen der Grundgesamtheit ferner muß

es sich um voneinaner unabhängige Stichproben handeln (Test für paarweise ver-

bundene Stichproben). Ferner sollten sich n1 und n2 höchstens um den Faktor 4

unterscheiden.

Bei gleichem n vereinfacht sich auf

Formel

mit v = 2n - 2 (es werden 2 Stichproben verglichen).

Beispiel A

Gegeben seien 2 willkürlich angenommene Stichproben

x1 = 10; n1 = 8; s1 = 2; σ1 ≈ σ2, x2 = 15; n2 = 8; s2 = 3

Ist die Differenz der unbekannten Mittelwerte µ1-µ2 auf dem 0,05 Niveau

signifikant?

Es ist Formel .. anzuwenden.

Formel

mit v 8 + 8 - 2 0 14 Freiheitsgraden.

Der t-Tabelle .. ist für v = 14 und α = 0,05 ein t = 2,145 zu entnehmen. t =

3,922 liegt aber weit darüber, die Nullhypothese ist abzulehnen, der Unterschied

ist sogar noch auf dem 0,002-Niveau (oder 0,2 %)-Niveau signifikant.

t-Test: gleiche Varianzen, ungleiches n:

n1 = n2, σ, 2 ≈ σ22

Sind n1 und n2 ungleich (n1 = n2), so sind Korrekturglieder in Formel erfor-

derlich:

Formel

mit v = n1 + n2 - 2 Freiheitsgraden.

Statt des Ausdrucks (1/n1 + n2) /(n1 . n2) geschrieben werden.

Setzt man in obiger formel n1 = n2, so erhält man die bereits bekannte

Formel.

Berechnungsbeispiel B:

Wir benutzen das vorige Beispiel A, setzen jedoch verschiedene Werte für

n ein, wobei aber n1 + n2 = 16 unverändert bleibt:

x1 = 10; n1 = 4; s1 = 2;

x2 = 15; n2 = 12; s2 = 3, σ1 ≈ σ

Formel

Der Tabellenwert für t14; 0,05 ist wie im Beispiel A 2,145; somit ist t >> t.

Der Unterschied ist mit P (0,01) = 1 % noch immer sehr signifikant.

Je weniger sich n1 und n2 unterscheiden, desto höher fällt die Signifikanz

aus! Die zu vergleichenden Stichproben sollen daher nach Möglichkeit gleiche

Umfänge haben. Vor allem sollen Kontrollproben nie kleiner als die zu prüfende

Probe sein!

13.4 t-Test mit ungleichen Varianzen

Wenn die Varianzen der Grundgesamtheiten nicht als gleich anzusehen

sind, wird der Schluß auf die Differenz der Grundgesamtheiten unsicherer. Die für

diese Fälle angegebenen Formeln gehen von der 'Grundformel' aus, die nötige

Korrektur wird über die Freiheitsgrade vorgenommen.

Bei ungleichen Varianzen, jedoch gleichen Stichprobenumfängen wird t

nach der bereits bekannten Formel

Formel

berechnet, aber nicht mit dem unter v = 2n - 2 tabellierten t verglichen, son-

dern man berechnet v nach

Formel

und geht erst mit diesem v in die t-Tabelle ein.

Bei ungleichen Varianzen und ungleichen Stichprobenumfängen sind nur

Approximationen möglich (FISHER-BEHRENS-Problem). Man berechnet t nach

der 'Grundformel' die zur Korrektur erforderlichen Freiheitsgrade v erhält man auf

folgende recht umständliche Weise:

Zur Vereinfachung substituieren wir:

Formel

13.5 Schnellschätzung nach WEIR

Wesentlich weniger aufwendig approximiert WEIR eine Lösung des FISHER-

BEHRENS-Problems. Die Mittelwerte für Grundgesamtheiten (µ1 und µ2) sind auf

dem 5%-Niveau verschieden, wenn die Prüfgröße

Formel

Unterschreitet der Quotient den Wert 2, so läßt sich die Nullhypothese (kein

Unterschied zwischen µ1 und µ2) auf dem P (0,05)-Niveau nicht ablehnen.

Wieder auf unseren schon mehrfach benutzten Ansatz angewendet

Formel

Die Prüfgröße übersteigt den kritischen Wert 2 deutlich, die Nullhypothese

kann nicht aufrechterhalten werden. Der WEIR-Test ist etwas 'großzügiger' als die

umständlichere Approximation.

Nach MITTENECKER kann diese immer noch recht umständliche Formel in

erster Annäherung durch mit

Formel

ersetzt werden. Nach dieser Formel ergäben sich

Formel

was eine sogar etwas strengere Beurteilung bedeutet.

13.6 Schnellverfahren nach LORD

Dieses Verfahren gründet sich auf den Vergleich der Mittelwerte mit den

Spannweiten der jeweiligen Stichproben. Es setzt Normalverteilung, Gleichheit der

Varianzen und der Stichprobenumfänge voraus.

Formel

Erreicht oder überschreitet der Quotient den nachstehend für n und α =

0,05 bzw. 0,01 tabellierten Wert (zweiseitiger Test), so ist die Nullhypothese Ho

auf dem gewählten Niveau abzulehnen (µ1 = µ2).

Tabelle

Über n = 20 soll der Test nicht verwendet werden. Er erreicht nicht die

Schärfe des t-Tests.

Zum Schluß ein Hinweis: man sollte nicht ganz auf die alte 3σ-Regel ver-

gessen: unterscheiden sich Mittelwerte um mehr als die dreifache Standardabwei-

chung, so gilt der Unterschied auf dem P (0,05)-Niveau als gesichert.

13.7 Der Vertrauensbereich von t

Den Vertrauensbereich von t erhält man nach bereits bekanntem Muster

gemäß

Formel

worin d = µ1 - µ2 und A der Nenner der beim Test benutzten Formel ist. Als

Rechenbeispiel wählen wir den einfachsten Fall mit gleichen Stichprobenumfän-

gen n gem.

Formel

worin d = µ1-µ2 und A der Nenner der beim Test benutzten Formel ist (...).

Als Rechenbeispiel wählen wir den einfachsten Fall mit gleichen Stichprobenum-

fängen n gem.

Formel

Die Ansätze seien kurz wiederholt:

x1 = 10, s1 = 2; x2 = 15, s2 = 3; n1 = n2 = 8.

Für α = 0,05 und v = 8 + 8 - 2 = 14 Freiheitsgrade entnehmen wir der

Tabelle .. ein t = 2.145.

Formel

Der 5%-Vertrauensbereich somit

2,27 ... (5) ... 7.73

Für α = 0,01 beträgt der t-Wert für v = 14 2,971, der Vertrauensbereich ist

dann dementsprechend breiter

Die Feststellung des Vertrauensbereiches sollte nie unterlassen werden!

Überlappende Vertrauensbereiche schließen nicht unbedingt Signifikanz

des Unterschiedes der Mittelwerte aus. Nicht überlappende Vertrauensbereiche

bedeuten jedenfalls einen auf dem gewählten Niveau gesicherten Unterschied.

13.8 Die kleinste signifikante Differenz

Gelegentlich wird die Signifikanz von Intervallen durch den kleinsten, bei

dem gewählten Niveau gesicherten Differenz veranschaulicht, ein Weg, nament-

lich umfangreichere Tabellen zu entlasten, und übersichtlicher zu gestalten.

Im Englischen wird für die kleinste signifikante Differenz das wenig glückli-

che Symbol L.S.D. (= last signifikant difference) gebraucht. In deutschsprachigen

Statistikbüchern habe ich diesen Begriff noch nirgends gefunden, seine Berech-

nung läßt sich aber leicht aus der Formel für den t-Test ableiten.

Die Formel des t-Tests kann man auch wie folgt anschreiben:

Formel

worin d die Differenz der Mittelwerte und A der Nenner der jeweils benutz-

ten Formel ... bedeuten.

Durch Umformung der t-Formel erhält man

Formel

Der für das geforderte α und das jeweilige v zutreffende t-Wert wird einer t-

Tafel entnommen.

Zur Demonstration greifen wir auf das im vorigen Abschnitt behandelte Bei-

spiel zurück, α sei 0,05, v = 14, t0,05;14 = 2,145.

Formel

Auf dem 0,01-Niveau müssen wir bei gleichem v ein t = 2,971 einsetzen

und erhalten mit smin; 0,01 = 1,264, 2.971 = 3,79 erwartungsgemäß eine höhere

signifikante Minimaldifferenz.

Bei dieser Berechnung ist der Vertrauensbereich nicht berücksichtigt.

13.9 Vergleich paarweise geordneter Stichproben

Wenn ein und dasselbe Objekt einmal ohne Behandlung und dann nach ei-

ner Behandlung geprüft wird (Nullkontrollen zählen als 'Behandlung'), liegen

gepaarte und gebundene Proben

vor. Ob bei gepaarten Beobachtungen ein signifikanter Unterschied zwi-

schen den Mittelwerten besteht (m.a.W. ob die Mittelwerte der Paardifferenzen

signifikant von 0 abweichen (∑d)/n = d ≠ 0) und die Nullhypothese abzulehnen ist,

kann mit nachstehender Formel geprüft werden.

Formel

Erreicht oder übersteigt der gefundene t-Wert das für das betreffende v und

a tabellierte t (vgl. Tab. ... oder ausführlichere Tabellen in Statistikbüchern), ist die

Nullhypothese abzulehnen.

Der Vertrauensbereich für den Mittelwert der Differenz (∑d)/n ist gegeben

Formel

z.B. der 95 % Vertrauensbereich also durch

Formel

sd ist gleich dem Nenner in Formel.

Berechnungsbeispiel aus (SACHS [1])

Tabelle: Zahlenbeispiel gepaarte Beobachtungen

Pr.-Nr. x1 x2 x1-x2=d d2

1 4,0 3,0 1,0 1,0

2 3,6 3,0 0,5 0,25

3 4,1 3,8 0,3 0,09

4 5,5 2,1 3,4 11,56

5 4,6 4,9 -0,3 0,09

6 6,0 5,3 0,7 0,49

7 5,1 3,1 2,0 4,00

8 4,3 2,7 1,6 2,56

Formel

Der Tafel der t-Verteilung (z.B. Tafel ..) entnehmen wir für α = 0,05 und v =

8 -1 = 8 einen t-Wert t = 2,365. Da 2,8 > 2,365 kann die Nullhypothese auf dem 5

% Niveau (P(0,05) abgelehnt werden.

Dieser Test ist etwas schwächer als der Test für unabhängige Stichproben,

jedoch genügen zum Erreichen einer bestimmten Signifikanz kleinere Stichproben

als beim 'originalen' Test.

Seite - 86 - 14 Intervallschätzung III

14 Intervallschätzung III Parameterfreie Tests

14.1 Der U-Test nach MANN & WHITNEY

Ein recht einfacher und guter Test zum Vergleich unregelmäßger Verteilun-

gen kleineren Umfanges.

Angenommen, es liegen von zwei Versuchsflächen je 6 Immissionsmes-

sungen vor (etwa mg/1 eines Schadstoffes); sie sind naturgemäß nicht normalver-

teilt.

Fläche A: 1,2 1,4 1,7 2,2 2,8 3,1

Fläche B: 1,6 2,0 2,1 2,9 3,4 3,5

Zur Berechnung brauchen wir aber die absoluten Zahlen nicht, es genügen

deren 'Ränge'. Wir numerieren die Originalwerte in steigender Folge; jeder Wert

erhält so eine Rangzahl. Die Rangzahlen teilen wir nun auf die beiden Versuchs-

flächen auf und bilden für jede Versuchfläche die Summe der Rangzahlen:

Fläche 1: 1 2 4 7 8 10 R1 = 32

Fläche 2: 3 5 6 9 11 12 R2 = 46

Hier kann eine Rechenkontrolle eingeschoben werden:

Ra + R2 = 1/2. (n1 + n2, (n1 + n2 + 19.

mit unseren Zahlen:

32 + 46 = 1/2 . 12 . 13 = 78. Stimmt! Wir können weiterrechnen!

Nun berechnen wir die Größen U1 und U2

Formel

Mit unseren Ansätzen ergibt dies für

Formel

Wieder eine Kontrollmöglichkeit:

Formel

Stimmt wieder! Also weiter.

Prüfziffer ist der kleinere der beiden U-Werte. Ist dieser kleiner als der für

n1 und n2 und die geforderte Irrtumswahrscheinlichkeit α tabellierte Wert oder

14 Intervallschätzung III Seite - 87 -

weicht er diesen, kann ein Zusammenhang der beiden Zahlenreihen auf dem je-

weiligen Signifikanzniveau angenommen werden.

Im vorliegenden Beispiel ist die Prüfziffer 11, der Tabelle .. ist für P (0,05)

und n1 = n2 = 6 ein Wert von 5 (zweiseitiger Test) zu entnehmen; die Nullhypo-

these kann nicht abgelehnt werden.

Hier wurde nur eine stark gekürzte Tabelle aufgenommen, nur P (0,05),

einseitig und zweiseitig, sowie annähernd gleiche n-Werte wurden berücksichtigt.

In ausführlicheren Statistikbüchern sind vollständige Tabellen für die gebräuchli-

chen α-Werte wiedergegeben. Angesichts derartiger Tabellen erhebt sich aller-

dings die Frage, inwieweit Vergleiche mit n1 = 2 und n2 = 40 sinnvoll sind.

Tabelle: Kritische Werte zum U-Test nach WILCOXON, MANN &

WHITNEY. α = 0,05 zweiseitig, kursiv: desgl., jedoch einseitiger Test.

(nach SACHS [1]; stark gekürzt und neu arrangiert).

n1 4 5 6 7 8 9 10 11 12 13 14 15 4 0

10 8 11

11 13 16

12 18 21

13 24 18

14 31 36

15 39 44

Die (beispielhafte) Tabelle beschränkt sich auf kleine Differenzen n1-n2. Bei

größ0eren und für anderes α -> Lehrbücher (daselbst auch Approcimationen für

größere Probenumfänge).

Bei mehreren gleichen Werten, ist eine

Rangaufteilung

vorzunehmen: den identischen Werten wird die gleiche mittlere Rangzahl

zugeteilt. Unser etwas verändertes Beispiel mög dies besser als viele Worte erläu-

Fläche A: 1,2 1,4 1,4 2,2 2,9 3,1

Fläche B: 1,6 2,0 2,1 2,9 3,4 3,5

Die Rangaufteilung sieht nun folgendermaßen aus:

Fläche A: 1, 2,5 2,5 7 8,5 10

Fläche B: 4, 5 6 8,5 11, 12

Analog wird bei drei gleichen Werten verfahren.

Durch Rangaufteilungen wird der Test unschärfer.

Wenn n1 und n2 > 20 ist der U-Test nur nach einer z-Transformation an-

wendbar. Man berechnet wie beschrieben U1 und setzt diesen Wert in folgende

Formel ein:

Formel

Die Formel approximiert die gegebene Verteilung in eine standardisierte

Normalverteilung; die kritischen Werte der so erhaltenen Prüfziffer entsprechen

daher den bereits bekannten z-Werten, also für P (0,05) 1,96 und für P (0,01)

2,58. Für noch niedrigeres P sollte man den Test nicht strapazieren.

Die Formel ist für Stichproben n > 8 anwendbar.

14.2 Unabhängige Stichproben

Test n., KOLMOGOROFF-SMIRNOFF

Ein universell verwendbarer nichtparametrischer Test auf Gleichheit oder

Verschiedenheit der Grundgesamtheiten; er eignet sich besonders zum Vergleich

klassifizierter Proben und erlaubt im Gegensatz zum allerdings dessen Schärfe

ganz zu erreichen.

Mangels eigener Erfahrung sei der Test an Hand eines Beispieles aus

CAMPBELL vorgeführt.

Gegeben seien die Ergebnisse von Infektionsversuchen an zwei Getrei-

desorten mit Rostpilzen.

Sorte A wurde zu

18 43 55 59 61 62 64 67 69 73 81 89 % (Stichprobe A)

Sorte B zu

13 17 18 19 24 28 29 31 35 43 47 67 % (Stichprobe B)

infiziert.

Besteht ein signifikanter Unterschied in der Anfälligkeit der beiden Sorten?

Wir klassifizieren das doch recht umfangreiche Material und wählen dazu 5

%-Klssen; die Klassenbreite sollte so gewählt werden, daß in jeder Klasse 3-4

Werte enthalten sind; zu enge und zu breite Klassen machen den Test unscharf.

Dann stellen wir fest, wieviele Werte in jeder Klasse enthalten sind und

summieren deren Häufigkeiten getrennt nach A und B auf (kumulative Häufigkeit).

In jeder Klasse bilden wir die Differenz der Kumulativen Häufigkeit zwischen A und

B, die größte Differenz ist die Prüfziffer, mit der der Aufall des Tests an Hand der

Tabelle ... bewertet wird.

Tabelle:Test n. KOLMOGOROFF-SMIROFF, Klassifizierung und kumulative

Häufigkeiten des vorstehend angeführten Materials.

Klasse Werte aus Stichprobe Kumulative Häufigkeit

% A B A B A-B

10-14 13 0 1 1

15-20 8 17 18 19 1 4 3

20-24 24 1 5 4

25 - 28 29 1 7 5

30-34 31 1 9 8

35-39 31 1 9 8

40-44 43 43 2 10 8

45-49 47 2 11 9

55-59 55 59 4 11 7

60-64 61 62 64 7 11 3

65-69 67 69 65 9 12 4

70-74 73 10 12 2

80-84 81 11 12 1

89-89 89 12 12 0

Die Verteilung der Werte gibt eine Vorstellung über die innere Struktur (die

'Form') der beiden Stichproben. So könnten z.B. deren Mediane, Quartile und der

Interdezilbereich festgelegt werden.

Die maximale Differenz der kumulativen Häufigkeiten A-B beträgt im obigen

Beispiel 9. Der nachstehenden Tabelle ..: entnehmen wir, daß bei n = 12 bereits

mit einer Differenz von 6 eine 5%ige und mit einer Differenz von 8 eine 1%ige Ü-

berschreitungswahrscheinlichkeit besteht. Ein Unterschied zwischen den beiden

Stichproben ist also mit P>99% (weniger als 1 % Irrtumswahrscheinlichkeit) gesi-

chert und die Nullhypothese kann abgelehnt werden.

Tabelle: Testwerte für den KOLMOGOROFF-SMIRNOFF-Test für α = 5 %

und 1 % Überschreitungswahrscheinlichkeit (Aus CAMPELL).

n 5 % n 1 %

4-5 1 5 5

6-8 5 6-8 6

9-12 6 9-10 7

13-16 7 11-14 9

17-21 8 15-17 9

21-27 9 18-21 10

28-30 10 22-26 11

31-40 11 27-30 12

31-35 13

36-40 14

Das in Kap ... vorgeführte Beispiel für den U-Test würde nach dem Test von

KOLMOGOROFF - SMIRNOFF (nunmehr aus Einzelwerten berechnet) eine ma-

ximale Differenz von 4 ergeben. Um wenigstens P (0,05) zu erreichen, müßte die

Differenz für n = 6 nach obiger Tabelle mindestens 5 betragen; die Nullhypothese

könnte auf das Signifikanzniveau P (0,05) auch nach diesem Test nicht abgelehnt

werden, die nach den beiden Tests erhaltenen Ergebnisse sind also durchaus

vergleichbar.

Sollen mehr als 2 Stichproben verglichen werden, schlage man in Lehrbü-

chern nach (z.B. Test nachKRUSKAL & WALLIS).

Die Verteilung der Werte der Tab. .. gibt eine Vorstellung von der Struktur

(der 'Form') der beiden Stichproben; so könnten die Mediane, Quartile und die In-

terdezilbereiche festgelegt werden.

14.3 Gepaarte Stichproben, der Vorzeichentest

Nicht normalverteilte gepaarte (= gebundene) Stichproben, d.s. verschiede-

ne Behandlung am gleichen Objekt (wobei Null-Kontrollen auch als 'Behandlung'

gelten), sind nach dem Vorzeichentest wesentlich einfacher auf Gleichheit oder

Ungleichheit der Grundgesamtheiten zu prüfen als normalverteilte.

Er basiert auf dem Vergleich von Plus- und Minus-Differenzen der Ver-

suchspaare und läuft damit indirekt ebenfalls auf einen Medianvergleich hinaus.

Das in Kap. ... vorgeführte Beispiel sei nun auch einem nicht parametri-

schen Test unterworfen.

Tabelle: Differenzen gepaarter Stichproben

Nr. A B A-B

1 4,0 3,0 1,00

2 3,5 3,0 0,5

3 4,1 3,8 0,3

4 5,5 2,1 3,45

5 4,6 4,9 -0,3

6 5,0 5,3 0,7

7 5,1 3,1 2,00

8 4,3 2,7 1,6

Unter den 8 Paaren sind 7 positive Differenzen und 1 negative. Maßgebend

für die Prüfung ist die jeweils kleinere Zahl der Differenzen, hier also 1.

Die Nullhypothese wird abgelehnt, wenn die kleinere Zahl von Differenzen

kleiner als die für das jeweilige n zutreffende Testgröße ist. Die h-Werte liegen

tabelliert vor; man kann aber das jeweils benötigte h nach folgender einfachen

Formel ad hoc selbst berechnen.

Für den zweiseitigen Test ergibt sich h aus nachstehender Formel:

Formel

Für den einseitigen Test lassen sich die tabellierten h-Werte nach ähnlicher

Formel reproduzieren:

Formel

Nur die ganzen Zahlen zählen!

Für das 5 %-Niveau setzen wir z = 1,96 und erhalten für h den Wert O. Das

heißt, die Nullhypothese kann auf dem 5%-Niveau nicht abgelehnt werden, dazu

dürfte im vorliegenden Beispiel überhaupt keine negative Differenz vorkommen.

Berechnet man die Signifikanz des Unterschiedes im obigen Beispiel mit

dem t-Test, so könnte die Nullhypothese mit 5 > P > 1 abgelehnt werden! Es ist

dies eine Folge der unterschiedlichen Teststärke.

Unter Teststärke versteht man die Trennschärfe eines Tests bzw. die

Wahrscheinlichkeit, Ho abzulehnen, wenn HA richtig ist (= Fehler 1. Art).

Nichtparametrische Tests sind meist weniger stark. In diesem Fall wäre es

verfehlt, die Nullhypothese abzulehnen und das 'günstigere' Ergebnis zu akzeptie-

ren. Das in Rede stehende Beispiel liegt kein normalverteiltes Datenmaterial

zugrunde, weshalb der t-Test inkompetent ist und dem nichtparametrischen Test

der Vorzug zu geben ist.

14.4 Vergleich relativer Häufigkeiten

Beim Vergleich relativer (meist perzentualer) Häufigkeiten, etwa der Zahl

erfolgreicher Behandlungen x unter insgesamt n Versuchen, dreht es sich um Ja-

Nein-Entscheidungen. Hierfür sind Verfahren, die auf der Binominalverteilung auf-

bauen, kompetent.

Die Theorie bleibe dem Lehrbuch überlassen; in bereits bewährter Weise ist

statt dessen ein typisches Beispiel (Zahlen nach WEILING) durchgerechnet.

Von n1 = 1067 Nicht-Pfeifenrauchern (-PfR) sind innerhalb von 6 Jahren

117 (= x1) gestorben, von n2 = 402 Pfeifenrauchern (+PfR) starben im gleichen

Zeitraum x2=54 Personen; ist die Mortalität innerhalb der beiden Gruppen signifi-

kant verschiden?

Die relative Häufigkeit der Todesfälle wird mit p bezeichnet, die der Überle-

benden mit q. daher:

q = 1 - p.

Mit unseren Ansätzen:

-PfR: p1 = x1/n1 = 117/1067 = 0,1097; q1 = 0,8903;

+PfR: p2 = x2/n2 = 54/402 = 0,1343; q2 = 0,8657.

Die prozentualen quoten der Todesfälle betragen demnach p1 (%) = 11%;

p2(%) = 13,43%, die der Überlebenden q1(%) = 89 % und q2(%) = 86,57%; ü1 +

q1 = p2 + q2 = 100 %

Die Differenz p1 - p2 = D =

= 0,1097 - 0,1343 = 0,0246

Die Häufigkeit p der Treffer in beiden Proben:

Formel

Die Häufigkeit der Überlebenden in beiden Gruppen:

q = 1 - p = 1 - 0,1164 = 0,8836

Die Varianz der Differenz D = p1 - p2 beträgt

sp2 = p . q (1/n1 + 1/n2)

= 0,1164 . 0,8836 . (1/1067 + 1/402

= 0,1129 . 0,003425 = 0,0003867

Die Standardabweichung der Differenz beträgt

sp = 1/0,0003867 = 0,01966

Nun erinnern wir uns der allgemeinen Formel der t-Verteilung:

Formel

Für x1 und x2 haben wir p1 und p2 und für sx1 - x2 = sp = 0,01966 einzu-

setzen:

t = 0,1097 - 0,1343 / 0,01966 = 1.251

Einer ausführlichen t-Tafel entnehmen wir für α = 0,05 und v ≈ 1000 ein t =

1,963. (bei so großem Stichprobenumfang könnte man auch nach der z-Tafel prü-

fen). Da 1,316 < 1,961 kann die Nullhypothese nicht abgelehnt werden, es besteht

auf dem 5 %-Niveau kein Unterschied in der Mortalität von Pfeifen- und Nicht-

Pfeifenrauchern!

Diese Aufgabe kann auch mit dem x2-Test (Homogenitätstest ...) gelöst

werden.

Bei seltenen Ereignissen (z.B. seltener Erfolg einer Behandlung) orientiere

man sich an Hand eines Lehrbuches über die POISSON-Verteilung.

Auf den ersten Blick paradox; die in jedem Statistiklehrbuch beschriebenen

Modelle zur Darstellung der Normalverteilung (GALTONsches Zufallsbrett, der

'Römische Brunnen' u.a. beruhen im Grunde auf der Binominalverteilung (wieder-

holte Entscheidung rechts-links). Aber auch die Binominalverteilung geht mit der

großen Zahl in die Normalverteilung über.

15 Vergleich von Varianzen Seite - 95 -

15 Vergleich von Varianzen

15.1 Der F-Test

Der t-Test ist korrekt nur bei Gleichheit der Varianzen anwendbar. Die exak-

te Prüfung auf Gleichheit der Varianzen geschieht mittels des F-Test.

Umgekehrt erlaubt die Gleichheit der Varianzen eine Aussage, ob zwei

Stichproben der gleichen Grundgesamtheit angehören. (Für diese Prüfung stehen

also mehrere Methoden zur Verfügung).

Prüfgröße F ist der Quotient

Formel

worin s1 die größere der beiden Varianzen bedeutet. Daher wird der Test

meist einseitig angewendet.

Ist F gleich dem für V1 und V2 (= n1 - 1 bzw. n2 - 1) und die Irrtumswahr-

scheinlichkeit α tabellierten Wert oder überschreitet er ihn, ist die Nullhyothese

abzulehnen und Verschiedenheit der Varianzen der Grundgesamtheiten auf dem

gewählten Signifikanzniveau anzunehmen.

Anders als der t-Test ist der F-Test gegenüber Abweichungen von der

Normalverteilung empfindlich. Gegebenenfalls prüfe man nach ....

Berechnungsbeispiele:

Greifen wir auf den Ansatz von ... zurück:

s1 = 4, s2 = 3; n1 = 4, n2 = 12;

F = 42/32 = 1,778;

Der Tabellenwert (kurgefaßte Tabelle ..) für v1 = 3 und v2 = 11 beträgt (in-

terpoliert) 3,59 1,778 << 3,59, die Nullhypothese kann daher nicht abgelehnt wer-

Tabelle: F-Tabelle (gekürzt, n. SACHS ) P = 0,05 (einseitiger Test)

v1 (Freiheitsgrad des Zählers = der größeren Varianz)

v2 2 3 4 5 6 8 10 15 20 25

2 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 10,45

3 9,55 9,28 9,17 9,01 8,94 8,85 8,79 8,70 9,66 7,64

4 6,94 6,50 6,39 6,26 6,16 6,04 5,96 5,85 5,80 5,77

Seite - 96 -

5 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,62 4,56 4,53

6 5,14 4,76 4,53 4,39 4,28 4,15 4,05 3,94 3,87 3,94

8 4,46 4,07 3,84 3,69 3,58 3,44 3,35 3,22 3,15 3,12

10 4,10 3,71 3,48 3,33 3,22 3,07 3,98 2,85 2,77 2,74

15 3,68 3,29 3,05 2,90 2,79 2,64 2,54 2,40 2,33 2,29

20 3,45 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,08

25 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,02 2,95

P = 0,01 (einseitiger Test)

2 3 4 5 6 8 10 15 20 25

2 99,00 99,17 99,25 99,30 99,33 99,37 99,40 00,43 99,45 99,46

3 30,92 29,46 28,71 29,24 27,91 27,49 27,23 26,87 26,69 26,60

4 18,00 16,69 15,98 15,52 15,21 14,90 14,55 14,20 14,02 13,93

5 13,27 12,06 11,39 12,97 10,67 10,29 10,05 9,72 9,55 9,47

6 10,82 9,78 9,15 8,75 8,47 8,10 7,87 7,54 7,40 6,31

8 8,65 6,59 7,01 6,63 6,37 6,03 5,81 5,52 5,36 5,28

10 7,56 6,55 5,99 5,64 5,39 5,06 4,85 4,56 4,41 4,33

15 6,36 5,42 4,89 4,56 4,32 4,88 3,80 3,52 3,37 3,29

20 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,09 2,94 2,86

24 5,61 4,72 4,22 3,90 3,67 3,36 3,11 2,89 2,74 2,66

Die F-Verteilung ermöglicht den Vergleich mehrerer Mittelwerte, die quanti-

tative Untersuchung von Einfluß-(Stör-)größen und Störfaktoren, die Analyse von

Regressionen und Korrelationen u.a.m. Die sog. 'Varuantanalyse' gehört aber

nicht mehr zu 'Elementen der Statistik'.

21 Anhang I: Symbole Seite - 97 -

16 Der chi2 - Test

16.1 Was kann und was ist X2?

Die auf der sog. X2-Verteilung basierenden Tests sind überaus vielseitig

verwendbar:

Prüfung, ob eine Stichprobe der Grundgesamtheit angehört

Streuungstest

(Prüfung nicht über den Mittelwert, sondern über die Varianzen:

ob ein Ergebnis den Erwartungen entspricht:

Anpassungstest,

Eignet sich auch zur Prüfung der Gültigkeit und Brauchbarkeit mathemati-

scher Modelle;

Prüfung von 2x2 und mehr Gruppen auf Erfolg einer Behandlung etc., inkl.

Test auf Unabhängigkeit:

Homogenitäts- bzw. Unabhängigkeitstest.

Vor der Vorstellung der Anwendungen des Tests an Hand von Beispielen

dürften des besseren Verständnisses wegen einige mehr theoretischer Bemer-

kungen über die X2-Verteilung angebracht sein.

Quadriert man die Standardnormalverteilung, so erhält man gleichfalls eine

stetige, jedoch asymmetrische Kurve, die X2-Verteilung. Sie hat bei Freiheitsgrad

v = 1 fast L-förmig und geht mit steigendem v allmählich in die (wegen der quadra-

tischen Funktion in den positiven Bereich verlagert) Normalverteilung über. Infolge

dieser Eigenschaft liegt die Stärke der X2-Verteilung im Bereich niedriger Frei-

heitsgrade.

Zunächst die Prinzipformel:

Standardverteilung X2-Verteilung

Formel

Eine andere, daraus ableitbare Formel,

Formel

läßt die nahe Verwandtschaft dieser Verteilung mit der im vorigen Kapitel

angesprochenen F-Verteilung) erkennen (zur Ableitung seien Interessierte an aus-

führlichere Lehrbücher der Statistik verwiesen).

Seite - 98 - 16 Der chi2 - Test

Daraus wieder leitet sich die Formel

Formel

mit v = n-1 Freiheitsgraden ab.

Da in dieser Formel die Zufallsvariable x nicht auf µ (den Mittelwert der

Grundgesamtheit), sondern auf den der Stichprobe bezogen wird, sinkt die Zahl

der Freiheitsgrade auf v = n-1.

Daraus leitet sich eine höchst wertvolle Eigenschaft von X2 ab: Eine X2-

verteilte Größe mit v Freiheitsgraden läßt sich in ebenso viele gleichfalls X2-

verteilte Anteile (mit der entsprechenden Anzahl von Freiheitsgraden) zerlegen:

Formel

worin v = ∑V1 = die Summe aller Freiheitsgrade.

Umgekehrt ist die Summe x2-verteilter Größen selbst wieder x2-verteilt

(durch den Doppelpfeil ⇔ angedeutet):

Additionstheorem

Auf Grund des Additionstheorems läßt sich die X2-Verteilung noch in fol-

gender Form anschreiben:

Formel

worin B1 die Beobachtungen und E1 die Erwartungswerte bedeuten. Damit

läßt sich die Übereinstimmung von Beobachtungen mit den Erwartungen prüfen.

Aus diesen Eigenschaften ergibt sich eine vielfältige Anwendbarkeit dieses

Tests. Einige Anwendungen sollen im Folgenden ohne weitere Theorie an Hand

von Beispielen vorgeführt werden.

Tabelle.

Wichtige Signifikanzschranken für den X2-Test (nach FISHER &YATES,

aus SACHS, stark gekürzt)

P (= Integral 0 bis X2) α (= Integral X2 bis ∞)

v 0,99 0,95 0,90 0,10 0,05 0,01 0,001

1 0,00016 0,0039 0,0158 2,71 3,84 6,63 10,83

2 0,0201 0,1026 0,2107 4,61 5,99 9,21 13,82

3 0,115 0,352 0,584 6,25 7,81 11,34 16,27

4 0,297 0,711 1,064 7,28 9,49 13,28 18,47

5 0,654 1,15 1,61 9,24 11,07 15,09 20,52

6 0,872 1,64 2,20 10,64 12,59 16,81 22,46

7 1,24 2,17 2,83 12,02 14,07 18,48 24,32

8 1,65 2,73 3,49 13,36 15,51 10,09 26,13

9 2,09 3,33 4,17 14,68 16,92 21,67 27,88

10 2,56 3,94 4,87 15,99 17,31 23,21 29,59

Zur Erläuterung diene diese Grafik der X2-Verteilung:

Grafik

Die Tabelle beschränkt sich auf die am häufigsten gebrauchten Freiheits-

grade (v) und Irrtumswahrscheinlichkeiten (α). Ausführliche Tafeln der X2-

Verteilung bzw. der Signifikanzschranken finden ich in jedem Statistikbuch.

16.2 Gehört eine Stichprobe einer Grundgesamtheit an? (Streuungstest)

In ... wurde bereits die Frage aufgeworfen, ob eine Stichprobe aus n = 9

Messungen des 100-Nadelgewichte x = 2,0 g von dem für den Bestand bekannten

Mittelwert µ = 2,2 ± 0,1 g abweicht. Das Problem wurde dort mittels des z-Tests

gelöst, es kann aber auch nach dem X2-Test geprüft werden.

Wir benutzen dazu Formel

Formel

Der Vergleich wird also über die Varianzen durchgeführt.

Die Standardabweichung der Stichprobe, die beim z-Test (Vergleich der

Mittelwerte) nicht nötig war, sei mit s = 0,2 angenommen. Wir stellen die Nullhypo-

these auf: es besteht keine Übereinstimmung zwischen Stichprobe und Grundge-

samtheit.

Die Zahlen der Annahme in die Formel eingesetzt:

Formel

Dieser Wert ist größer als der für v = 8 und α = 0,001 tabellierte X2-Wert

27.88. Die Nullhypothese ist daher abzulehnen, die Stichprobe gehört mit α =

0,001 der Grundgesamtheit an.

Damit stimmt das Ergebnis mit dem nach dem z-Test erhaltenen überein.

16.3 Stimmt die Beobachtung mit der Erwartung überein? (Anpassungstest)

Dazu wählen wir ein klassisches Beispiel (nach WEILING): Gregor

MENDEL fand in einem seiner Kreuzungsversuche Erbsenpflanzen mit folgenden

Merkmalen:

315 runde gelbe Erbsen

101 kantige gelbe,

108 runde grüne und

32 kantige grüne Erbsen

Summe 556 Erbsen

Frage: vermag dieses Ergebnis des Spaltungsgesetz statistisch zu sichern?

MENDEL vermutete hinter diesen Zahlen ein Verhältnis 9:3:3:1. Danach

wären zu erwarten:

9/16 von 556 = 316,75 runde gelbe Erbsen

3/16 " " = 104,25 kantige gelbe Erbsen

3/16 " " = 104,25 runde grüne und

1/16 " " = 34,25 kantige grüne Erbsen.

Dem Additionstheorem folgend berechnen wir für jede Kombination (B-

E)2/E. Die so erhaltenen X2-Werte werden addiert und die Summe wird mit den in

der X2-Tafel für v = 3 Freiheitsgrade tabellierten Werten verglichen. Die Rechnung

sieht so aus:

Formel

Unter Berücksichtigung von 3 Freiheitsgraden (4 Erscheinungsformen) er-

gibt die Tabelle eine Wahrscheinlicht

0,90 < P < 0,95

Geht natürlich, aber bereits bei vier Gliedern reichlich umständlich. Elegan-

ter und (insbesondere bei einer größeren Zahl von Merkmalsausprägungen) einfa-

cher geht es mit der aus .... abgeleiteten Formel

Formel

Dazu machen wir uns zweckmäßig eine kleine Hilfstabelle nach folgendem

Muster:

Erschei-

nungsform

(Merkmal)

B B2 E B2/E

rund-gelb 315 99.225 312,75 317,2661

kantig-gelb 101 10,201 104,25 97,8513

rund-grün 108 11.236 104,25 111,8848

kantig-grün 32 1.024 34,75 29,4676

minus n

556 556 556,4698

556,0000

X2 = 0,4698

also das gleiche Ergebnis wie oben.

Den X2-Test in diesem Falle anzuwenden ist nicht ganz unbedenklich. Der

Test setzt Normalverteilung voraus, die im vorliegenden Fall nicht zutrifft, es wer-

den vielmehr Häufigkeiten verglichen, für die eher die sog. Binominalverteilung

kompetent wäre. Bei den relativ großen Zahlen, die hier vorliegen, nähert sich

auch die Binominalverteilung der Normalverteilung, sodaß der Test anwendbar ist.

16.4 Hatte eine Behandlung Erfolg? (Homogenitätstest)

Häufig stellt sich die Frage, ob eine Behandlung (Düngung, Medikament,

Lebensweise etc.) ein Einfluß auf Ertrag, Lebensdauer usw. ausübt. Wählen wir

als Beispiel noch einmal die bereits in Kap. .. behandelte Frage, ob sich die Le-

bensdauer von Pfeifenrauchern und Nichtpfeifenrauchern signifikant unterschei-

det, versuchen sie aber jetzt mittels des X2-Tests zu beantworten. Hier kurz die

Wiederholung der zugrundeliegenden Daten:

Durch 6 Jahre hindurch wurden 1469 Personen, Pfeifenraucher und Nicht-

Pfeifenraucher, beobachtet. Während dieser Zeit verstarben 54 Pfeifenraucher

und 117 Nichtpfeifenraucher, 348 Pfeifenraucher und 950 Nicht-Pfeifenraucher

überlebten. Besteht ein signifikanter Unterschied zwischen den beiden Gruppen?

Zur Prüfung ordnen wir diese Daten in vier Fehlder an ('Vierfeldertafel') oder

2 x 2 Tafel.

nach 6 Jahren Nicht-

Pfeifenraucher

Pfeifenraucher Zeilensumme

tot a = 117 b = 54 a+b = 171

lebend c = 950 d = 348 c+d = 1298

Spaltensumme a+c = 1067 b+d = 402 a+b+c+d = 1469

Ecksumme (=n)

Wir gehen von der Nullhypothese aus, die Pfeife habe keinen Einfluß auf

die Lebensdauer. Dazu müssen Werte für a, b, c und d berechnet werden, die zu

erwarten wären, wenn die Pfeife ohne Einfluß auf die Lebensdauer wäre (Erwar-

tungswert Ea ...Eb). Man erhält diese, indem man das Produkt aus der jeweiligen

Zeilensumme mal der Spaltensumme durch die Ecksumme (= n) teilt:

Nach diesem 'Rezept' bilden wir (n = 1469).

Formel

Gemäß Formel gilt:

Formel

werden, wodurch sich die Formel sehr vereinfacht:

Formel

Mit den Zahlen unseres Beispieles:

Formel

Waag- wie senkrecht wird je ein Freiheitsgrad 'verbraucht', sodaß v = (2-1) .

(2-1) = 1. Einer X2-Tafel (z.B. Tab ..) entnehmen wir für X2 = 1,627 und v = 1 ein

P = 0,10. Die Nullhypothese kann daher nicht abgelehnt werden, die Pfeife hat

keinen signifikanten Einfluß auf die Lebenserwartung.

Durch Umformungen erhält man eine Formel, die die lästige Berechnung

von E überflüssig macht:

formel

Die Zahlen unseres Beispieles ergeben nach dieser Formel X2 = 1,728; der

gegenüber der obigen Berechnung geringfügig höhere Wert ist durch unterschied-

lichen Einfluß der Rundungen bedingt.

Kein Feld darf einen geringeren Besatz als 3 aufweisen (Zeilen- und Spal-

tensummen nicht kleiner als 6). Bei n > 20 darf n - 1 durch n ersetzt werden.

16.5 Der Mehrfelder-Test

Der Vierfelder-Test ist ein häufiger Sonderfall des Mehrfeldertests. Er soll

an Hand eines noch relativ einfachen, dem Skriptum WEILINGs entnommenen

Beispiels erläutert werden; es betrifft allerdings nicht den biologischen Bereich, es

geht dabei um den Vergleich von Ausbildung und Leistung.

In einem Test wurden die Leistungen von Hauptschülern, Gymnasiasten

und Hochschülern verlgichen und mit 1 - 4 klassifiziert (1 = schlechteste Note, 4 =

beste Leistung). Frage: Besteht ein Zusammenhang zwischen Ausbildung und

Leistungsfähigkeit?

Den Ausfall des Tests ist in folgender Kontingenztafel

dargestellt. Unter Kontingenz versteht man allgemein den statistischen Zu-

sammenhang zwischen Merkmalen.

Tabelle: Kontingenztafel zum Beispiel des Mehrfeldertests.

Leistung 1 2 3 4 ∑nz

H Haupt-

schule

28 46 32 12 118

G Gymnasi-

12 30 52 20 114

Hochschule

6 12 33 50 101

∑ns 46 88 117 82 n = 333

∑nz = Zeilensummen, ∑ns = Spaltensummen

Wir können natürlich wieder 'schimmelmäßig' wie beim Vierfeldertest ge-

zeigt für jedes der 12 Felder den Erwartungswert nach der Formel E = ∑nz. ∑ns/n

berechnen:

Formel

Man erhält so eine um die Erwartungswerte (in Klammern) vervollständigte

Kontingenztafel:

Tabelle: Leistung 1 2 3 4 ∑nz

H Hauptschule 28

G Gymnasium 12

V Hochschule 6

∑ns 46 88

82 n = 333

Nach Anwendung der (auf die hier gewählte Bezeichnung adaptierten)

Formel

formel

Das Durchrechnen dürfen wir uns auch hier ersparen.

Etwas bequemer ist da schon die aus obiger Formel durch Umformung er-

haltene Ausdruck

Formel

Wieder obige Zahlen eingesetzt:

Formel

Die geringe Differenz zu dem in vorhergehender Berechnung erhaltenen

Ergebnisse geht auf Rundungen bei der Berechnung der Erwartungswerte E zu-

rück.

Noch eleganter läßt sich diese 12-Felder-Tafel nach folgendem, aus dem

gleichen Ansatz durch Umformungen erhaltenen Verfahren lösen, dabei wird zu-

dem die Berechnung der E-Werte überflüssig.

Bei dieser Gelegenheit wollen wir, um dem Leser den Übergang zu den

Lehrbüchern der Statistik zu erleichtern, die bei derartigen Tests üblichen Symbole

benutzen.

Dabei werden die Beobachtungen mit x bezeichnet und nach dem Merkmal

1 in senkrechten Spalten mit x1, x2 ... x3 indiziert ('s' steht hier für 'Spalte'). Die

jeweils zugeordneten Merkmale 2 werden in horizontalen Reihen mit x11, x12 ...

x1z, für Merkmal 2 mit x21, x22 ... x2z usf. indiziert ('z' steht für 'Zeile'). Die allge-

meine Mehrfeldertabelle sieht dann so aus:

Tabelle: Allgemeine Form einer Mehrfeldertafel:

Merkmal 2: 1 2 j z Zeilen-

summen

1 x11 x12 x13 x1z n1

2 x21 x22 x23 x2z n2

. . . . . .

i xi1 xi2 xij xiz ni

. . . . . .

s xs1 xs2 xsj xsz nz

Spaltensummen n1 n2

z indiziert 'Zeile', s indiziert 'Spalte'.

i steht für die Ausprägungen des Merkmals 1 (Spalten) zwischen 1 und s, j

ebenso für die Ausprägungen des Merkmals 2 (Zeilen) zwischen 1 und z.

Wir schieben die Präsentation der allgemeinen Formel noch etwas auf; trotz

'eleganten Verfahrens' könnte sie ohne Vorbereitung dem Leser einen kleinen

Schock versetzen). Zielführender ist es, zunächst den Rechengang schrittweise

an Hand unseres Beispieles aus dem Schulbereich vorzuführen.

Man bildet zunächst die Quadrate der Beobachtungswerte B (= x) aus Ta-

belle ... und dividiert sie durch die zugehörige Spaltensumme ∑ns. In der Symbol-

sprache der Tabelle ... schreiben wir:

Formel

Diese Zahlen setzen wir an die Stelle der Beobachtungswerte in die Tabelle

.. ein und bilden deren Zeilensummen ∑xz2/ns (in der Symbolsprache der Tabelle

.. ∑xij2/n1). Die Zeilensummen werden durch die Zahl der Beobachtungen der je-

weiligen Zeile ∑nz (letzte Spalte von Tab. ..., nunmehriges Symbol ∑xi) dividiert.

die so erhaltenen Werte (∑xij2/ni, letzte Spalte der folgenden Tabelle ..) werden

addiert.

Nach diesem Vorgehen nimmt die Tabelle .. folgendes Aussehen an.

Tabelle: Erklärung - Text - Leistung

1 2 3 4 ∑x2/ns ∑nz (∑x2/ns)

H 17,0434 4,0454 8,7521 1,7560 51,5969 118 0,4372

G 3,1304 10,1172 23,1111 4,8780 41,3467 114 0,3626

U 0,7826 1,6363 9,3076 30,4678 42,2143 101 0,4179

∑ns 46 68 116 82 333

Summe der letzten Spalte 1,2177

minus 1,000 (gem. [F 1&, 1-4]9 - 1,0000

0,2177

x2 = 0,21277 . n (gem. Formel = 0,2177 = 72,494

Freiheitsgrade: horizontal 4-1 = 3

vertikal 3-1 = 2

v = 3 x 2 = 6

Dieser Wert ist in der X2-Tabelle nicht mehr enthalten, der Zusammenhang

von Leistung und Vorbildung ist daher hochsignifikant (P << 0,0001).

Nun wird uns auch die allgemeine Formel für den Mehrfelder-Test kaum

mehr großen Schrecken einjagen.

Formel

Die Übersetzung in den Klartext ist nichts anderes als die Wiederholung des

bereit Gesagten:

Bilde sukzessive und nach Zeilen geordnet die Quotienten aus den Quadra-

ten der Beobachtungswerte (B bzw. x) durch die jeweilige Spaltensumme. Sum-

miere die Quotinten jeder Zeiel (I) und teile den erhaltenen Wert durch die Zahl

der Beobachtungen in der betreffenden Zeile (II), Ziehe von der Summe der so

erhaltenen Zeilenwerte 1 ab (III); Multiplikation des erhaltenen Wertes mit der Ge-

samtzahl der Beobachtungen (IV) ergibt X2 ...

Die Freiheitsgrade ergeben sich allgemein aus dem Produkt der um1 ver-

minderten Zeilen- und Spaltenzahlen:

Formel

Wie bereits beim Vierfelder-Test erwähnt muß jedes Feld ausreichend be-

setzt sein (xij >2), woraus sich als Minimum der Zeilensumme = 2s und als Mini-

mum der Spaltensumme = 2z ergbit. Bei zu geringem Besatz kann man sich durch

Zusammenziehen zweier Spalten oder Zeilen behelfen. Bezüglich weiterer Mög-

lichkeiten (YATES-Korrektur) ausführlichere Lehrbücher der Statistik.

16.6 Signifikanz von Stichproben (eine Anwendung des Addtitionstheorem)

Es kommt häufig vor, daß mehrere gleichartige, unabhängige Stichproben

wenig befriedigende Signifikanzen aufweisen, der gleichsinnige Ausfall jedoch ei-

ne höhere Signifikanz vermuten läßt.

Nach PÄTAU kann man eine kumulative Signifikanz ermitteln, indem man

für die t-Werte der Stichproben die entsprechenden X2-Werte aufsucht, diese ad-

diert und daraus die kumulative Signifikanz der X2-Tafel entnimmt. Dies sei an

einem Beispiel gezeigt.

Gegeben seien drei Proben mäßiger Signifikanz:

Versuch a n = 15 t = 1,34 P = 0,20

Versuch b n = 10 t = 1,81 P = 0,10

Versuch c n = 20 t = 2,09 P = 0,05

Kein Versuch weist eine höhere Signifikanz als P (0,05) auf. Den P-Werten

entsprechen in der X2-Tafel folgende Werte (je 2 Freiheitsgrade).

Formel

Bereits unserer kleinen Tabelle .. können wir entnehmen, daß bei v = 6

Freiheitsgraden (es handelt sich um voneinander unabhängige Ermittlungen) ei-

nem X2 = 12,69 ein P = 5 % und einem X2 = 16,01 ein P = 1 % entspricht; oder

anders angeschrieben:

0,05 > P >> 0,01

Die drei Proben nach dem Additionstheorem zusammengenommen erge-

ben eine deutlich höhere Signifikanz, als jeder einzelnen Probe zukommt.

Seite - 108 - 17 Regression

17 Regression

17.1 Wichtige Begriffe

Bestimmt die Veränderung einer Größe zwangsläufig eine andere, z.B. der

Radius eines Kreises, dessen Fläche so sprechen wir von

funktionalem Zusammenhang

Streng genommen sind funktionale Zusammenhänge nur als mathemati-

sche Modelle denkbar. In der Realität ist die Funktion z.B. eines Maschinenteils im

Bereich unvermeidlicher Toleranzen unsicher und kann damit, weil zufallsbedingt,

Gegenstand statistischer Überlegungen sein.

Wenn z.B. geprüft wird, wie Düngergaben, in arithmetischer Reihe gestei-

gert. Wachstum und Ertrag bestimmen oder der Ablauf eines Vorganges in defi-

nierten zeitlichen Abständen messend verfolgt wird liegt eine stochastische Bezie-

hung vor, eine

Regression

Die unabhängige Variable, der Regressor (Meßfehlerfreiheit wird vorausge-

setzt) wird auf der x-Achse eines rechtwinkeligen Koordinationssystems aufgetra-

gen, die von ihm bestimmte (abhängige) Zufallsvariable, der Regressand, auf der

y-Achse.

Bilden die den x-Werten zugeordneten y-Werte annähernd eine Gerade,

liegt eine sehr enge Beziehung vor, läßt die 'Punktwolke' keine bevorzugte Rich-

tung erkennen, besteht keine Beziehung zwischen x und y.

Die Enge der Beziehung x-y läßt sich durch das 'Bestimmtheitsmaß' B aus-

drücken; B = 0: kein Zusammenhang, B = 1 : maximaler (quasi funktionaler) Zu-

sammenhang

Meist hat die Punktwolke die Form einer mehr oder weniger gestreckten El-

lipse. Kann sie nach dem Augenmaß durch eine Gerade der Länge nach in zwei

annähernd gleiche Hälften geteilt werden, liegt eine lineare Regression vor. Im

biologischen Bereich kommen aber häufig nichtlineare (logarithmische, hyperboli-

sche ode andere Zusammenhänge vor; auf diese wird im Anschluß an die Be-

handlung der linearen Regressionen kurz eingegangen werden.

Eine Regression ist, annähernde Normalverteilung der über dem jeweiligen

x stehenden y-Werte vorausgesetzt, durch folgende Parameter bestimmt:

durch die Zahl der x/y-Paare

durch die Gleichung einer die Punktwolke repräsentierenden Geraden

(Regressionsgerade), und

durch ein Maß für die Streuung der Punktwolke (Standardabweichung, Be-

stimmtheitsmaß).

17.2 Die Regressionsgerade

Sozusagen das Kernstück jeder Beurteilung oder Analyse einer (linearen)

Regression ist die Regressionsgerade

Sie wird derart durch die Punktwolke gelegt, daß (so die exakte Definition)

die Summe der Quadrate der Punktabstände zur Geraden lotrecht (also parallel

zur y - Achse) gemessen ein Minimum wird oder, was auf dasselbe hinausläuft,

der mittlere quadrierte lotrechte Abstand der Punkte (x,y) von der Geraden mini-

mal wird. Eindeutig beschrieben wird die Gerade nach den Regeln der analyti-

schen Geometrie durch ihren Schnittpunkt mit der y-Achse (den Achsenabschnitt

a) und die Steigung der Geraden b = der Tangens des Winkels ß, den sie mit der

x-Achse einschließt; b ist der Regressionskoeffizient.

Ein negativer Regressionskoeffizient bedeutet, daß y mit wachsendem x

abnimmt (negative Regression).

Der Regressionskoeffizient b ergibt sich aus folgender Formel:

Formel

So bestechend klar diese Formel auch aussieht, ideal ist sie nicht, weil sie

zu unhandlichen Zahlen und damit zu viel Rechenarbeit führt. Trotz scheinbar

größerer Kompliziertheit ist folgende Form der Formel vorteilhafter:

Formel

Der Achsenabschnitt a (d.i.y, wenn x = 0) ergibt sich aus Formel:

Formel

Der Schwerpunkt der Punktwolke (x,y) liegt auf der Regressionsgeraden.

Obwohl bereits Taschenrechner vielfach Programme zur Berechnung von

Regressionen eingebaut haben, sei auch in diesem Falle der Rechengang an ei-

Berechnungsbeispiel

vorgeführt (aus Weiling)

Frage: Besteht eine Beziehung zwischen der Zellgröße von Mnium-

Blättchen und der Zahl der Chloroplasten pro Zelle? Die Chloroplastenzahl ist die

meß- bzw. ablesefehlerfreie unabhängige Variable x, die Zellgröße y (als Zellflä-

che in relativen Einheiten angegeben) ist die x zugeordnete, meßfehlerbehaftete

Zufallsvariable.

Die Daten für 10 Zellen sind in Spalte II und IV der Tabelle .. angeführt. Die

Mittelwerte x = 5,7 und y = 51,1 würden recht unhandliche Differenzen (x1-x) bzw.

(yi-y) ergeben. Wir erinnern uns der in Kap. .. gelegentlich der Berechnung von

Mittelwerten empfohlenen linearen Transformation und wählen als provisorische

Mittelwerte dx = 6 und dy = 50. Die nunmehrigen wesentlich handlicheren Werte

sind in Spalte III und V angeführt.

Tabelle .. Zur Berechnung der Regression Chloroplastenzahlen (x) und Zell-

flächen (y).

V II III IV V VI VII VIII

Nr. x x-dx y y-dx (x-dx)2 (y-dy)2 x-dx),(y-dy)

1 8 2 60 10 4 100 20

2 5 -1 51 1 1 1 -1

3 7 1 72 22 1 484 22

4 4 -2 26 -24 4 576 48

5 5 -1 61 11 1 121 -11

6 5 -1 37 -13 1- 169 13

8 7 1 73 23 1 529 23

8 6 0 47 -3 0 9 0

9 6 0 52 2 0 4 0

10 4 -2 32 -18 4 324 36

∑ 57 -3 511 11 17 2317 150 341

x = 5,7

dx = 6

y = 51,1dy = 50

y = 51,1 dy = 50

In Formel ... ist nur für nicht transformierte Differenzen geeignet. Die Formel

... enthält Korrekturglieder eingebaut, sodaß wir für ∑xy die Summe aus Spalte

VIII, für ∑x2 den Wert ∑VI und für ∑x den Wert ∑III setzen können:

Formel

Damit dürfte diese Formel ihren Schrecken verloren aben!

Der Achsenabschnitt y ergibt sich (aus den nichtformierten Werten!) nach

Formel

Die Gleichung der Regressionsgeraden lautet somit:

y = -3,16 + 9,52x

17.3 Das Bestimmtheitsmaß

Das Bestimmtheitsmaß (Symbol B) gibt Auskunft über die Streuung der

Punkte entlang der Regressionsgeraden, bzw. die Breite der Punktwolke. B kann

alle Werte von 0 - 1 annehmen; je mehr sich B dem Wert 1 nähert, desto enger

sind die Punkte um die Regressionsgerade geschart, umso schlanker ist die

Punktwolke. B = 0 deutet auf regellos im Korrdinatensystem verstreute Punkte.

B kann nach folgender Formel berechnet werden:

Formel

Zur Ergänzung der Tabelle ...zwei hier benötigte nicht transformierte Sum-

Formel

Bei Benutzung der transformierten Werte würde mir B = 0,66 ein nur gerin-

ger Fehler (in diesem Falle in Richtung größerer Strenge der x-y-Beziehung) ent-

stehen.

Für mathematische Interessierte: Das Bestimmtheitsmaß B ist jener Teil der

Varianz von y, der durch den Einfluß des Regressors x erklärt wird. Bei B = 1 wer-

den alle y-Werte durch den Regressor erklärt, bei B = 0 ist kein Einfluß bemerkbar.

Näheres ggfs. in den Lehrbüchern nachschlagen!

17.4 Standardabweichungen

Sowohl der Regressionskoeffizient b als auch der Ordinatenabschnitt a ist

mit Unsicherheit behaftet, sie kann durch deren

Standardabweichungen

(Varianzen) gekennzeichnet werden. Dabei gilt:

Formel

mit n-2 Freiheitsgraden. Der Standardfehler für den Ordinatenabschnitt a

ergibt sich aus der Formel.

Formel

mit n-2 Freiheitsgraden.

Der Vergleich zweier Regressionskoeffizienten kann über das t-Kalkül ge-

führt werden. Die Prüfgröße lautet nach bereits bekanntem Muster ...

Formel

Die Berechnung des im Nenner stehendendes Ausdrucks, d.i. der Stan-

dardabweichung der Differenz zweier Regressionskoeffizienten S(b1-b2), ist frei-

lich recht aufwendig.

Formel

mit v = n1 + n2 - 4 Freiheitsgraden.

17.5 Extrapolation, Linearität

Der Regressionskoeffizient und die daraus abgeleiteten Größen gelten nur

im Bereich der Punktwolke und nur unter der Voraussetzung einer durch eine Ge-

rade darstellbaren linearen Regression.

Man mag versucht sein, damit in den Bereich außerhalb derselben zu ext-

rapolieren; schließlich ist der Ordinatenabschnitt a, eine wichtige bestimmende

Größe, auch eine Extrapolation.

Wenn die Punktwolke eng ist (B nahe 1), können Extrapolationen mit der

nötigen Vorsicht gewagt werden. Wenn z.B., auf der Abszisse die Zeit aufgetragen

ist, wir also eine Zeitreihe vor uns haben und aus der Regressionsgeraden ein

Trend ablesbar ist, möchte man doch gerne eine Voraussage über den weiteren

Verlauf ableiten.

Dabei darf man aber zweierlei nicht übersehen.

Extrapolierte Werte sind unsicherer als innerhalb der Punktwolke interpolier-

Schwerer wiegt, daß Extrapolationen nur bei linearen Regression zulässing

sind. Dies ist aber gerade im biologischen Bereich nur höchst selten der Fall En-

zymkinetiken, die Wirkung steigender Düngergaben oder anderer Agentien,

Wachstumsvorgänge, Populationsentwicklungen etc, folgen meist logarithmische

oder hyperbolischen Funktionen.

Im Zweifelsfall prüfe man die Linearität der Regression, indem man für 2

oder 3 anähernd gleich große Abszissenabschnitte gesondert die Regressionsko-

effizienten ermittelt; stimmen b und a der einzelnen Abschnitte annähernd überein,

darf Linearität angenommen werden.

Was tun bei nichtlinearen Regressionen?

Oft gelingt es, durch Transformierungen, wie sie in Kap. ... beschrieben sind

(z.B. durch Logarithmieren oder Potenzieren der Abszisse) angenäherte Linearität

herzustellen. Kurvenverläufe, die asymptotoisch einem Endwert zustreben (meist

hyperbolische Funktionen, z.B. Enzymkinetiken) lassen sich durch doppeltrezipro-

ken Auftrag linearisiern (LINEWEAVER-BURK-Diagramme).

Für 'hartnäckige Fälle' findet man in ausführlichen Statistikbüchern (aber

nicht in allen1) Hilfe in freilich recht aufwendigen Verfahren (Berechnung von

Ausgleichsoparabeln, Regression nichtlinearer Zusammenhänge).

18 Korrelationen I normalverteile Variable

18.1 Der Korrelationskoeffizient

Zur Prüfung des Grades des stochastischen Zusammenhangs zweier met-

risch skalierter, annähernd normalverteilter Zufallsvariablen ist der

Korrelationskoeffizient

kompetent, Sein Symbol ist r.

Die graphische Darstellung ergibt wie bei der Regression eine Punktwolke.

Die Korrelation wird jedoch durch zwei Regressionsgerade bestimmt. Die eine hat

x als Regressor und y als Zufallsvariable (Regressand) dies ergibt einen Regres-

sionskoeffizienten byx (spr. by und x); die zweite Gerade nimmt y als Regressor

und x als Variable und ist durch bxy (bx über y) charakterisiert.

Die beiden Regressionsgeraden schneiden sich im gemeinsamen Schwer-

punkt (x, y). Je kleiner der Winkel, den die Geraden einschließen, desto enger ist

der Zusammenhang zwischen x und y. Desto mehr nähert sich der Korrelations-

koeffizient r dem Wert 1. r = 0 steht für das Fehlen jeglichen Zusammenhangs (die

Geraden stehen im rechten Winkel zueinander); bei negativem r nimmt y mit stei-

gendem x ab (negative Korrelation). r kann alle Werte zwischen +1 und -1 anneh-

Zur Berechnung braucht man die Gleichungen der Regressionsgeraden

nicht gesondert zu ermitteln, man erhält r nach folgender Formel

So umständlich die Formel auch aussehen mag, sie läßt sich auf jeden Fall,

auch auf klassifiziertes Material, anwenden. Dies mögen drei durchgerechnete

Beispiele zeigen.

18.2 Die Berechnung des Korrelationskoeffizienten

Man wird heute kaum mehr Korrelationskoeffizienten händisch ausrechnen;

jeder besere Taschenrechner hat hiefür Programme fix eingebaut und nimmt da-

durch viel Rechenarbeit ab. Damit aber der Leser mit diesem Kalkül leichter ver-

traut wird, seien einige Demonstrationbeispiele durchgerechnet.

Beispiel 1:

Wählen wir aus erstes eine einfache, aus nur 5 Wertepaaren x1y1 1,1 2,2

.... 5,5 bestehende (fingierte) Beziehung. Wir übertragen die Wertepaare in eine

Korrelationstabelle:

Tabelle Korrelationstabelle einer linearen, strengen Korrelation

1 2 3 4 5 x x2 x,y

y1↓ 5 - - - - 5 25 25

4 - - - 4 16 16

3 - - - - 3 9 9

2 - - - - 2 4 4

1 - - - - 1 1 1

∑x=15 ∑x2=55 ∑xy=55

y 1 2 3 4 5 ∑y = 15

y2 1 4 9 16 25 ∑y2 = 55

Wir benötigen die Zeilensummen von x (im Beispiel findet sich in jeder Zahl

nur 1 x-Wert) und die Summe deren Quadrate, ebenso die Spaltensummen y und

deren Quadrate, ferner noch die Summe aller möglichen Produkte x.y; diese

schreibt man am besten ganz rechts in die Korrelationstabelle.

So vorbereitet können wir die Werte in die Formel einsetzen (sie sei von vo-

riger Seite nochmals wiedergegeben):

Formel

Womit bewiesen ist, daß eine vollkommene Korrelation zwischen y und y

besteht.

Beispiel 2:

Wie das vorige, nur tanzen zwei Wertepaare etwas aus der Reihe, wodurch

die Beziehung xy weniger eng wird. Die Korrelationstafel sieht nun so aus:

Tabelle: Weniger strenge Korrelation.

1 2 3 4 5 x x2 x,y

y1↓ 5 - - - 5+4 25+16 20+25

4 - - - - - 0 0 0

3 - - - - 3 9 9

2 - - - - - 0 0 0

1 - - - 2+1 4+1 2+1

∑x=15 ∑x2=55 ∑xy=57

y 1 1 3 5 5 ∑y = 15

y2 1 1 9 25 25 ∑y2 = &!

Formel

Wie zu erwarten gibt r eine etwas schwächere, aber immer noch sehr enge

Korrelation vom xy an.

Beispiel 3:

Als drittes Beispiel diene ein Protokollmodell mit klassifizierten Daten; es ist

ein Auschnitt von 50 Wertepaaren aus einem Protokoll über den Zusammenhang

zwischen dem SO3-Gehalt von Fichtennadeln und em Trübungstest nach HÄRTEL

(Lichtabsorption standardisiert hergestellte Nadel..) als Indikator für SO2-

Einwirkungen.

Die SO3-Gehalte der Nadeln in ‰ TG, klassifiziert mit Klassenbreite b = 2

bilden gleichsam die Abszisse der Korrelationstabelle (ni); die Klassenmittel 3, 5, 7

und 9 sind mit x1 indiziert. Die Trübungswerte auf der Ordinate sind mit b = 10

(Klassenmittel 15, 25, ...) aufgetragen und mit yj gekennzeichnet. (Diese Indizie-

rung stimmt mit der in der Mehrfeldertafel gebrauchten überein=.

Tabelle. Korrelationstabelle, S-Gehalt von Fichtennadeln und Trübungstest

SO3 x1 3 5 7 9 ni ni,yj ni,y32

y1↓ 65 - - 1 2 3 3x65 3x4225

55 - 1 5 1 7 7x55 7x3025

45 - 4 5 - 9 9x45 9x2025

35 1 7 2 - 10 10x35 10x1225

25 2 8 1 - 11 11x25 11x625

15 8 2 - - 10 10x15 10x225

∑nj 11 22 14 3 50 1760 73.450

∑ni, xi 11.3 + 22x5 + 14x7 + 3x9 = 268

ni, x12 11x9 + 22x25 + 14x4 + 3x81 = 1578

Berechnung von ∑xi (nijyj) (= n, x, y): x steht hier für 'mal'!

3x(8x15 + 2x25 + 1x35) .............................................. 615

5x(2x15 + 8x25 + 7x35 + 4x45 + 1x55).................... 3.558

7x (25 + 2x35 + 5x45 + 5x55 + 65) .......................... 4.620

9x(55+ 2x65)............................................................ 1.665

10.440

Die berechneten Zahlenwerte aus vorstehender Tabelle in die Formel ein-

gesetzt:

Formel

In der Originalarbeit (HÄRTEL 198.) wird aus insgesamt 220 Proben ein r =

0,65 angegeben.

In praxi wird man diese Aufgabe nicht wie hier mit den Originalzahlen lösen,

sondern provisorische Skalen einführen und xi wie yj mit 1, 2, 3 usf. numerieren.

Dadurch bekommt man es mit wesentlich handlicheren Zahlen zut un. Man kann

noch einen Schritt weiter gehen und die stärkst besetzte Spalte und ebensolche

Zeile mit 0 bezeichnen und mit den Differenzen x - x bzw. y - y rechnen. Davon

wurde hier abgesehen, um nicht das Prinzipielle zuzudecken; bei Bedarf ziehe

man ein Lehrbuch der Statistik heran.

Bei geringer Zahl von Wertepaaren liefert die Formel etwas zu kleine Korre-

lationskoeffizienten (die Korrelation der Grundgesamtheit ρ )rjp. das griech. r) wird

etwa unterschätzt). Wenn man sehr genau vorgehen will, korrigiere man r mit

Formel ... zu r*:

Formel

Der Fehler liegt bei r = 0,7 und n = 10 bei rd. -4% und nähert sich mit stei-

gendem r und zunehmender Stichprobengröße 0.

18.3 Das Bestimmtheitsmaß

Das Quadrat von r ist das Bestimmtheitsmaß (Symbol B):

Formel

Somit ist r das geometrische Mittel aus den Koeffizienten der beiden Reg-

ressionsgeraden bxy ⋅ byx.

Ähnlich wie bei der Regression drückt B aus, wieweit sich die Varianzen der

beiden Geraden gegenseitig bedingen m.a.W. das Verhältnis der Varianzen der

Regressionsgeraden zur Gesamtvarianz).

Jetzt interessieren aber doch byx und bxy

Formel

Zum Zeichnen der Regressionsgeraden benötigt man noch die Ordinaten-

abschnitte (Schnittpunkt mit der y-Achse).

Formel

Zum Zeichnen der Regressionsgeraden kann man die Geraden durch die

Schnittpunkte ayx bzw. axy mit dem zugehörigen Steigungswinkel (tanß = b) zie-

hen oder, bequemer noch, durch a und den Schwerpunkt der Punktwolke, x,y (Mit-

telwerte aller x und aller y).

18.4 Signifikanz des Korrelationskoeffizienten

Seite fehlt!!

18.5 Unterschied zwischen zwei Korrelationskoeffizienten

Die Differenz zwischen zwei Korrelationskoeffizienten ist nicht normalver-

teilt; sie muß daher in die Standardnormalverteilung transformiert werden. Dies

geschieht nach FISHER mit der Formel

Formel

Die solcherart transformierten r-Werte (in den Statistikbüchern finden sich

hiefür Tabellen, die die Rechenarbeit abnehmen) werden in die nachstehende

Formel eingesetzt

Formel

Erreicht oder überschreitet das so erhaltene z den für die geforderte Ü-

berschreitungs- (=Irrtumswahrscheinlichkeit α tabellierten Wert (Tabelle der z-

Werte Tab. ... oder jedes Statistikbuch), so ist die Nullhypothese abzulehnen, zwi-

schen den beiden Korrelationskoeffizienten ist ein Unterschied auf dem gewählten

Niveau signifikant.

Zur Ermittlung der Standardabweichung finden sich in ausführlicheren Sta-

tistikbüchern Diagramme. Auf die Wiedergabe des recht komplizierten Rechenwe-

ges darf hier verzichtet werden.

18.6 Korrelation zu dritt

Gelegentlich sind es nicht zwei, sondern drei oder sogar mehr Variable, die

sich gegenseitig beeinflussen, m.a.W. es wird eine Korrelation durch eine oder

weitere Variable mitbestimmt. Derartige 'Dreiecks' oder komplizierte Verhältnisse

kann man analysieren, indem man je nach Problemlage:

der Reihe nach x, y und z wegläßt und nacheinander die Korrelationskoeffi-

zienten zwischen den beiden übrigen Variablen ermittelt:

partieller Korrelationskoeffizient

man ermittelt, wie zwei Variable gemeinsam eine dritte, die Zielgröße, be-

einflussen:

multipler Korrelationskoeffizient.

Bezeichnen wir die drei möglichen paarweisen linearen Korrelationen mit

rxy, rxz und ryz so ergibt sich der partielle Korrelationskoeffizient unter Ausschluß

von z (die ausgeschlossene Variable wird im Index durch Interpunktion abgesetzt)

formel

Die Koeffizienten für die beiden anderen Paarungen ergeben sich mit zykli-

scher Vertauschung der Indizes:

Formel

Zur Auswertung:

Durch die Höhe der jeweiligen rxy.z, rxz.y und ryz.x wird die Stärke der Be-

ziehungen in dem „Dreiecksverhältnis“ angezeigt. Werden z.B. x und y gleicher-

weise durch z beeinflußt, wird rxy.z ≅ 0. Es kann vorkommen, daß eine Korrelation

überhaupt erst nach Ausschalten eines Störfaktors zutage tritt.

Auf analoge Weise können auch mehr als drei Variable analysiert werden;

die Sache wird dann noch etwas komplizierter und die Rechenarbeit entsprechend

größer.

Der multiple Korrelationskoeffizient Rx.yz (man beachte: die beiden

Einflußgrößen y und z sind von der Zielgröße x wieder durch Interpunktion abge-

setzt) ergibt sich aus der Formel:

Formel

An den Quadraten der r-Werte in der Formel erkannt man, daß die Berech-

nung von Rx.yz über die Bestimmtheitsgrade läuft. Der Bestimmtheitsgrad der

multiplen Korrelation ist wie bei der 'normalen' Korrelation

Formel

Für nähere Informationen muß auch hier auf ausführlichere Lehrbücher

verwiesen werden.

Zur Interpreation von r

Nichts wäre verhängnisvoller als Korrelationskoeffizienten schematisch zu

interpretieren. r = 0 muß keineswegs eine fehlende Beziehung zwischen x und y

bedeuten; es kann sein, daß die benutzte Formel der Verteilung nicht gerade ge-

recht wird. Fig. .. gibt Beispiele hierfür.

Probleme kann auch eine Punktwolke aufwerfen, die mit steigendem x und

y zunehmende Streuung aufweist, also keulenförmigen Umriß zeigt. Für nichtlinea-

re Korrelationen gilt das im Kapitel 17 'Regression' hiezu Gesagte sinngemäß.

Korrelationen und Regressionen verleiten leicht dazu, in einer statistischen

Beziehung bereits eine 'Erklärung' zu sehen. Hier sei eindringlich wiederholt: Sta-

tistik kann nicht erklären, nur die Wahrscheinlichkeit, hier von Zusammenhängen,

aufzeigen. Jede Erklärung muß der alle sonstigen Umstände berücksichtigenden

Kausalanalyse vorbehalten bleiben.

Man sei auch vor Scheinkorrelationen, zufälligem Zusammentreffen von

Vorgängen, die nichts miteinander zu tun haben, auf der Hut. Immer wieder zitiert:

Die Vogelwarten in Holland melden eine Zunahme der Storchpopulationen, die

Standesämter eine Zunahme der Geburten, ergo ...

19 Korrelationen II

Nichtparametrische Tests

Sollen nichtnormalverteilte Daten auf Abhängigkeit verglichen werden, z.B.

nach ordinaler Skala geordnete ('rangskalierte') Leistungen, so wird die Korrelation

durch Vergleich der Ränge ermittelt:

Rangkorrelation1)

Hier sollen zwei derartige Tests vorgestellt werden und zwar

SPEARMANs Rangkorrelation und

der Rangkorrelationstest nach KENDALL

Wie bei allen nichtparametrischen Tests weisen auch die Rangkorrelationen

eine geringere Teststärk auf, d.h. die Gefahr, einen Fehler 1. Art zu begehen (eine

richtige Nullhypothese abzulehnen, ... Kap.) ist etwas größer als bei den para-

metrischen Tests.

19.1 Rangkorrelation nach SPEARMAN

Sei sei wieder an einem Beispiel (aus SACHS erläutert). Gegeben seien

zwei Ranglisten, z.B. die Leistungen von 10 Kandidaten bei zwei verschiedenen

Prüfern; die Kandidaten erbrachten, alphabetisch gereiht, folgende Leistungen:

beim Prüfer A: 7 6 3 8 2 10 4 1 5 9

beim Prüfer B: 8 4 5 9 2 1 3 2 6 10

Man ermittelt zunächst die Rangdifferenzen D und deren Quadrate:

Diff. D -1 2 -2 -1 1 3 1 -1 -1 -1 ∑D = 0

D2 1 4 4 1 1 9 1 1 1 1 ∑D2 = 24

Kontrolle: die Summe der Differenzen muß gleich Null sein. Stimmt !

Der SPEARMANsche Rangkorrelationskoeffizient (Symbol rs) wird nach fol-

gender Formel berechnet:

Formel

1) Wir haben bisher von 'Korrelationen' schlechthin gesprochen. Die hier vorgestellten Ver-

fahren basieren auf einem ganz anderen Prinzip, nämlich dem Vergleich von Rängen, daher der korrekte Temrinus 'Rangkorrelation'. In den Formeln für die in Kap. .. behandelten parametrischen Korrelationen spielt das Produkt x,y sozusagen eine Schlüsselrolle, weshalb man sie korrekt, aber umständlich als 'Produktmomentkorrelation' bezeichnen sollte. Um den Text nicht zusehr mit vor-läufigunnötigen Begriffen zu überlasten, wurde vorerst von dieser Unterscheidung abgesehen.

In unserem Falle also

Formel

Dieser Wert ist größer als der für n = 10 und α = 0,01 = 0,7333 tabellierte

(Tab. .. nächste Seite), die Nullhypothese ist mit P <0,01 abzulehnen.

Tabelle. Signifikanzschranken zu SPEARMANs Rangkorrelation (Nach Glasse

& WINTER, aus SACHS, gekürzt)

Signifikanzniveau α

n 0,001 0,01 0,05

5 0,900 0,800

6 0,8857 0,7714

7 0,943 0,8571 0,5952

8 0,9275 0,8095 0,5952

9 0,9000 0,7667 0,5833

10 0,8667 0,7333 0,5515

11 0,8455 0,7000 0,5223

12 0,8182 0,6713 0,5804

13 0,7912 0,6429 0,4780

14 0,7670 0,6220 0,4593

15 0,7464 0,6000 0,4429

20 0,6585 0,5203 0,3789

25 0,5967 0,4654 0,3362

30 0,5479 0,4251 0,3059

25 0,5967 0,4654 0,3362

Bei n>30 sollte der Test nicht verwendet werden. In diesem Falle prüfe man

über t gemäß folgender Formel:

Formel

und gehe auf Zeile v = n - 2 Freiheitsgrade in die t-Tabelle (Kap ...) oder

Statistikbuch) ein.

Vereinzelte Bindungen (mehrere gleiche Werte) dürfen ignoriert werden;

nur bei gehäuftem Auftreten lohnt eine rechnerische Korrektur (SACHS; bei Bedarf

ziehe man ein ausführliches Lehrbuch zu Rate.

19.2 Rangkorrelation 'KENDALs τ'

Nac einem anderen Prinzip prüft der Test nach KENDALL mit dem Kalkül τ (=

tau, das griech. 't') zwei Zahlenreihen auf Gleichheit. Der Test sei wieder an Hand

eines Beispiels (aus CAMPELL) dargelegt.

Gegeben sind zwei korrelierende Zahlenreihen (im Original geht es um

Schweine: x = Gewicht bei der Entwöhnung in Pfund, y = Tage bis zur Schlach-

tung):

x: 39 56 46 50 58 41 49 68 52 39

y: 105 114 121 117 115 147 119 106 111 253

Man ordnet entweder nach x oder nach y und setzt den jeweils zugeordne-

ten Wert der anderen Reihe darunter; wir entscheiden uns nach x zu ordnen:

x geordnet

39 41 46 48 49 50 52 56 57 59

y 142 147 121 115 119 117 111 114 106 105

In der nichtgeordneten Reihe (hier y) zählt man, wieviel y-Werte rechts vom

1. Wertepaar größer sind als das erste y (= P), mit Q bezeichnet man die Zahl der

Werte, die kleiner als das erste y sind. Ebenso zählt man vom 2. Wertepaar aus-

gehend wieviele Werte rechts davon größer und wieviel kleiner sind als das 'Start-

y' und so fort bis zum Ende der Reihe. Zuletzt bildet man noch (P - Q) und ∑(P-Q)

ordnet

39 41 46 48 49 50 52 56 57 59

y → 142 147 121 115 119 117 111 114 106 105

P 1 0 0 2 0 0 1 0 0 --

Q 9 8 7 4 5 4 2 2 1 --

P-Q -7 -8 -7 -2 -5 -4 -1 -2 -1 --

∑(P-Q) = S = -37 n = 10

Formel

Mit unseren Zahlen: τ = (2 ⋅ -37)/(10 ⋅ 9) = 0,822

In Spalte n = 10 der nachstehenden Tabelle findet man in Zelle für ISI = 37

die Überschreitungswahrscheinlichkeit von 0,04 % an (zweiseitiger Test, einseitig

0,02 %). Es ist dies die Wahrscheinlichkeit, daß ISI durch unkorrelierte Stichpro-

ben erreicht wird (m.a.W. mit der sich τ von Null unterscheidet); die Nullhypothese

kann verworfen werden.

Tabelle .. Signifikanz des Rangkorrelationstests nach KENDALL gegen Null.

(Aus CAMPELL)

Werte von n Werte von n

ISI 4 4 8 9

ISI 6 7 10

2 75 82 90 02 3 72 72 86

4 33 48 72 76 5 47 56 72

6 8 33 55 63 7 27 38 60

8 -- 8 40 48 9 14 24 48

10 -- 1,7 27 36 11 6 18 38

12 -- -- 18 26 13 1,7 7 29

14 -- -- 11 18 15 0,3 3,0 22

16 -- -- 5 12 17 -- 1,0 16

18 -- -- 3,2 8 19 -- 0,3 11

20 -- -- 1,4 4,4 21 -- 0,04 7

22 -- -- 0,6 2,4 23 4,6

24 1,3 25 2,9

26 0,04 0,6 27 1,7

28 0,005 2,4 29 0,9

30 0,09 31 0,5

32 0,2 33 0,2

34 0,005 35 0,09

36 0,0005 37 0,04

40 39 0,012

Für n > 10 ist die Verteilung mittels folgender Formel einer Standardnormal

verteilung zu approxomieren und mit z zu prüfen:

Formel

wobei (wie bereits wohlbekannt)

z = 1,96 für P = 5 %

z = 2,58 für P = 1 %

z = 3,29 für P = 0,1 %

als Schranken gelten.

Bei Rangaufteilungen und Bindungen (mehrere gleiche Werte in einer Zeile

bzw. gleiche Werte in beiden Zeilen) sind die Ergebnisse nur approximativ (im Be

darfsfall → Lehrbuch!)

20 Weiterführende Hinweise

Mit diesen 19 Kapiteln ist „Statistik“ natürlich bei weitem nicht ausgeschöpft;

vielleicht ist der Rahmen, der durch das im Titel ausgedrückte Vorhaben „Elemen

te“ zu bieten, halbwegs ausgefüllt. Als Abschluß und zur Abrundung dürften einige

stichwortartig Hinweise auf Verfahren, die die moderne Statistik zur Lösung kom

plexer Probleme bereithält, zu einer ersten Orientierung nicht unwillkommen sein.

Varianzanalyse.

In Kap. .. wurde kurz auf den F-Test als ein Weg zum Vergleich von Grund

gesamtheiten oder Stichproben über den Varianzenvergleich hingewiesen. Vari

anzen bieten aber noch weitergehende Möglichkeiten. Durch sog. Streuungszerle

gung, lassen sich Anteile von Einflußgrößen (Faktoren) quantitativ angeben, der

Grundgedanke der

Auf die einfachste Formel gebracht: mit ihrer Hilfe läßt sich angeben, wel

cher Anteil der Streuung auf Unterschiede der Grundgesamtheiten und welcher

auf Zufall zurückzuführen ist. Vergleichbares haben wir, ohne allerdings den Ter

minus „Varianzanalyse“ explizit zu gebrauchen, beim Bestimmtheitsmaß vor.

Regressioen und Korrelationen kennengelernt; dort ging es um die Trennung des

anteils der Varianz, der durch die Regressionsgeraden erklärt wird, von der Ge

samtvarianz.

Varianzanalyse erfordert normalverteilte Daten. Bei Versuchen, in denen

sowohl mehrere Faktoren verändert werden und auch der Erfolg in verschiedener

Hinsicht interpretiert werden soll, bereitet die säuberliche Trennung Probleme; die

graphische Darstellung würde ein unüberschaubares Punktegewirr (womöglich

mehrdimensional) ergeben. Hier eine saubere Zuordnung zu treffen, also in dem

Punktegewirr die richtigen Punktwolken herauszufiltern, hilft die

Diskriminanzanalyse

Die abgegrenzten Punktwolken (clusters) können durch die

Clusteranalyse

genauer unter die Lupe genommen werden.

Schließlich sei noch auf die Möglichkeiten hingewiesen, die die sog.

sequentiellen Analyseverfahren

bieten. Unter bestimmten Voraussetzungen liefern sie mit geringerem Da

tenmaterial und damit geringerem zeitlichen Aufwand für die Versuche den klassi

schen statistischen Verfahren ebenbürtige Werte. Sie eignen sich daher beson

ders für die Auswertung von Kurzzeitversuchen. Mit graphischen Methoden kann

sogar Rechenarbeit eingespart werden.

Die hier nur kursorisch genannten Verfahren haben in „Elementen“ nichts

mehr zu suchen, es muß diesbezüglich auf ausführliche Lehrbücher neueren Da-

tums, in bestimmten Fällen auf einschlägige (fast durchweg englischsprachige)

Originalliteratur verwiesen werden; die nicht ganz einfache Lektüre setzt allerdings

erhebliche mathematische Grundkenntnisse voraus.

21 Anhang I: Symbole

21.1 Lateinische Schriftzeichen

ln natürlicher Logarithmus mit Ba-sis e (∏ e)

n Zahl der Elemente in einer Stichprobe

N Zahl der Elemente in einer Grundgesamtheit

a Achsen- (=Ordinaten)abschnitt bei Regressionsgeraden

P Wahrscheinlichkeit des Eintreffens eines Ereignisses

b Regressionskoeffizient; auch:

Klassenbreite bei klassifizierten Daten

q Quartil

Vorsicht! p und q bedeuten in der Binominalverteilung die Zahl des Eintreffens bzw. des Nichteintreffens eines Ereignisses (in dieser Darstellung nicht behandelt)

B Bestimmtheitsmaß der Regres-sions- und Korrelationskoeffizienten; auch: beobachteter Wert (im 2 - Test)

D Dichtemittel r Korrelationskoeffizient (Punkt-

momentkorrelation) DZ Dezil (meist mit Koeffizient z.B. DZ1 = 1. Dezil)

rs SPERMANs Rangkorrelationskoeffizient

e Basis des natürlichen Logarith

mus = 2,71828...) R Spanweite einer Verteilung

E Erwartungswert (im 2 - Test) s, sx Standardabweichung einer

Stichprobe; aber auch: s = SI = Symbol für Sekunde

F Kalkül des F - Tests FG Freiheitsgrad(e), (nicht in dieser

Darstellung) sx Standardabweichung des Mittelwertes einer Stichprobe

H0 Nullhypothese t Tabellenwert der t-Verteilung

nach STUDENT HA Alternativhypothese (ablehnung von H0)

$t (spr. t Dach) aus Daten nach einer Formel für den t-Test errechnete Prüfziffer

I Interdezilbereich (meist I80) lg Logarithmus mit Basis 10

(BRIGGscher Logarithmus) tan tangens (Winkelfunktion)

u veraltet: Abszisse der Stan

dardnormalverteilung, heute ist hierfür z gebräuchlich

U Prüfziffer für den U-Test n. MAN

& WHITNEY

VB Vertrauensbereich VK Variationskoeffizient

x (x quer) arithmetisches Mittel

einer Stichprobe x (x Schlange) Median einer

Stichprobe

α Irrtums- oder Überschreitungs-

wahrscheinlichkeit, Wahrschein-lichkeit, einen Fehler der 1. Art zu begehen

β Wahrscheinlichkeit, einen Fehler der 2. Art zu begehen

µ (my) Mittelwert der Grundge-

samtheit

x1, xi, xj jeder beliebige Wert einer Variablen

geometrisches Mittel harmonisches Mittel y alternativ zu x, z.B. bei gepaar

ten Proben z Abszisse der Standardnormal

verteilung aus Daten errechneter („ge

schätzter“) z-Wert, Prüfgröße beim z-Test

Zur Vereinfachung von Formeln werden häufig Glieder der Formel durch Buchstaben (A, B, Q, X, k etc. gemäß ad hoc - Definition substituiert.

21.2 Griechische Schriftzeichen

(my Schlange) Median der

Grundgesamtheit

ν (ny) Freihetsgrad(e) ρ (rho) Korrelationskoeffizient zwi

schen Grundgesamtheiten σ (Sigma) Standardabweichung

einer Grundgesamtheit Σ (großes Sigma) Summenzei

chen τ Kalkül für „KENDALLs tau“ χ² Symbol für den chi-quadrat-Test

21.3 Einige sonstige Zeichen

> der links vom Zeichen stehende Wet ist größer als der rechte

< rechter Wert ist größer als der

linke ≠ ungleich

≈ ungefähr gleich | ......| der zwischen den beiden

senkrechten Strichen stehende Ausdruck ist ohne Rücksicht auf das tatsächliche Vorzeichen positiv zu nehmen

Die üblichen einfachen mathematischen Zeichen werden als bekannt vorausgesetzt. Um Verwechslungen mit „x“ zu vermeiden wird Multiplikation durch einen Punkt (meist mit beidseitig je einer Leerstelle) angedeutet. Das Computerzeichen * wurde nur in den mit an den Rändern mit Doppellinien gekennzeichneten „Computer-abschnitten“ verwendet.

Seite - 130 - 22 Anhang II: Literatur

22 Anhang II: Literatur ANONYM, 1964. Statistik. In Dokumenta Geigy, Wissenschaftliche Tabellen (Hg.

R.R.GEIGY). 6. Auflage, Geigy AG, Basel.

Sehr abstrakte, ganz in mathematischer Formelsprache abgefaßte, je

doch sehr eingehende Darstellung mit reichlichem Tabellenmaterial. Es

gibt auch spätere Auflagen.

CAMPBELL R.V., 1971. Statistische Methoden für Biologen und Mediziner. Übers. v.

P. IHM. - Thieme Stuttgart.

Mit Beispielen aus der pharmazeutischen Praxis.

BAMBERG G., BAUR F. 1989. Statistik. 6. Auflage, Oldenbourg Verlag München,

BATSCHELET R., 1980. Mathematik für Biologen. - Springer Verlag Berlin, Heidel

berg, New York.

Eines der 15 Kapitel behandelt Statistik, in erster Linie Wahrscheinlichkeitstheorie

- Mit Übungsaufgaben.

BAUER P., SCHEIBER G. & WOHLZOGEN F. X. 1983. Sestatistische Verfahren. - In:

LORENZ R.J. & VOLLMER J. (Hg.), Biometrie. - G. Fischer, Stuttgart.

BRUHN J. 1983. Statistik für programmierbare Taschenrechner. - Vieweg Braun-

schweig-Wiesbaden.

Leicht lesbar und praxisorientiert, berücksichtigt ausgiebig nichtpara

metrische Tests.

CAVALLI-SFORZA, L. 1974. Biometrie, Grundbegriffe biologisch - medizinischer Sta-

tistik, Bearb. v. R. J. LORENZ. - 4. Aufl. - G. Fischer Stuttgart.

DEICHSEL G., TRAMPISCH H.J. 1985. Clusteranalyse und Diskriminanzanalyse. In:

LORENZ T.J. & VOLLMER J. (Hg.), Biometrie. - G. Fischer, Stuttgart.

KÜZL-NORBERG F., 1946. Statistik. - Springer, Wien.

Weitgehend veraltet, aber sehr ausführliche und breit angelegte Be-

schreibung 'klassischer' Methoden.

22 Anhang II: Literatur Seite - 131 -

KÖHLER W., SCHACHTEL G., VOLESKE P. 1996. Biostatistik. 2. Auflage. - Springer

Verlag.

LORENZ R.J. 1988. Biometrie. 2. Aufl. In: LORENZ R.J. & VOLLMER J. (Hg.), Bio

metrie. G. Fischer Stuttgart.

Die dreiteilige 'Biometrie' (vgl. DEICHSEL & TRAMPISCH und BAUER,

SCHEIBERT & WOHLZOGEN) bietet eine umfassende und moderne auch

für Biologen zu empfehlende Einführung in die Statistik.

MATHER K., 1946. Statistische Analysen in der Biologie. Nach der 2. englischen

Aufl. übers. von A. ZELLER. - Springer Verlag Wien.

Bietet zahlreiche fachrelevante Beispiele, im Hinblick auf das Erschei

nungsdatum nicht auf der Höhe der Zeit.

MITTENECKER E., 1969. Planung und Auswertug von Experimenten. 8. Aufl. - Deu

ticke, Wien.

Bestens- und empfehlenwerte Einführung des Grazer Psychologen.

Beispiele aus der Psychologie.

PATAU K. 1946 (?) Zur statistischen Auswertung von Meßreihen. (Eine neue t - Ta

fel). - Biol. Cbl., das genaue Zitat ist nicht eruierbar, man suche ggfs. in

den bald nach dem 2. Weltkrieg erschienen Bänden.

SACHS L. 1984. Angewandte Statistik. 6. Aufl. - Springer Verlag Berlin, Heidelberg,

New York, Tokyo.

Sehr ausführliche, gut lesbare und praxisorientierte Darstellung mit

lehrbuchartigem Charakter.

SACHS L. 1978. Statistische Methoden. 4. Aufl. Springer Verlag Berlin, Heidelberg,

New York.

Auf 105 Seiten können nur die wichtigsten Methoden untergebracht

werden, nichtparametrische Verfahren bleiben unberücksichtigt. Durch

die Kürze und Übersichtlichkeit ein in sehr brauchbarer und nützlicher

'Soforthelfer'.

SCHACH V. & SCHÄFER TH. 1978. Regressions- und Varianzanalyse. Hochschultext

48. - Springer Verlag Berlin, Heidelberg, New York.

Seite - 132 - 22 Anhang II: Literatur

SCHMIDT W. 1948. Lehrprogramm Statistik. - Taschenbuch 46. - Verlag Chemie,

Verlag Physik, Weinheim.

TIMISCHL W. 1987. Biomathematik. Eine Einführung für Biologen und Mediziner. -

Springer Verlag Wien.

WEBER E. 1980. Grundriß der Statistik. 8. Aufl. - G. Fischer, Jena.

Sozusagen der Klassiker in der deutschsprachigen Statistikliteratur. Es

dürfte dies die letzte Auflage des Werkes der bereits damals sehr be-

tagten Dame gewesen sein.

WEBER E. 1976. Faktorenanalyse. - G. Fischer Jena.

WEILING F. 1973. Einführung in die Statistik und Biometrie. 2. Aufl. Als Manuskript

vervielfältigt.

Skriptum zur Statistik - Vorlesung WEILINGs. Ausführliche Grundlegung

der Wahrscheinlichkeitstheorie, zahlreiche ...gerechte Beispiele aus

dem biologischen Bereich.

WEILING F. 1978. Zur Frage der für den Nachweis einer Korrelation erforderlichen

Zahl von Stichprobenelementen. - Die Weinwirtschaft, Jgg. 1978.

22 Anhang II: Literatur Seite - 133 -

23 Index

—A—

Abweichung

mittlere 66

Alternativhypothese 76

Arbeitsmappe 28

AUFRUNDEN() 41

Ausgabebereich 28

Ausreißer 74

AutoAusfüllen 14; 23; 28

Fehler beim 42

—B—

Blockdiagramm 21

—D—

klassifiziert 26

Dekaden 23

Dezile 68

Diagramm-Assistent 22

Diagrammassistent 23

Diagrammdarstellung 29

Diagrammtyp 23

Dichtemittel 33

—F—

Fehler

Fortpflanzung 43

systematisch 9

Freiheitsgrad 57

Frequency Count.. 29

—G—

GAUSSsche Verteilungskurve 45

GAUSSsches Fehlerintegral 45

Glockenkurve 45

Graphs 22

Grenzwertsatz

zentraler 53

Grundgesamtheit 13; 17; 56

—H—

HAZENsche Gerade 51; 52; 54

Histogramm 21

—K—

Klassenbreite 26

Klassenmittel 30

Kumulierte Häufigkeit 28

—M—

Material

inhomogenes 74

Median 31; 67

Meßfehler 9; 74

Mittel

arithmetisches 56

geometrisches 34

harmonisches 35

Mittelwert 31

arithmetischer 25

klassifizert 26

kumulierter 35; 64

MITTELWERT() 25

Modalwert() 37

Modus 33

—N—

Normalität

Prüfung 49

Prüfverfahren auf 56

Seite - 134 - 23 Index

Normalverteilung 19; 45; 48; 50; 62

Eigenschaften 45

NORMVERT() 48

Nullphypothese 76

—P—

Parameter 17

Pareto 28

Pentaden 23

Perzentile 68; 75

Probenwerbung 13

—Q—

Quartile 67

—R—

Randomisierung 16

Runden 40

RUNDEN() 41

—S—

SHEPPARDsche Korrektur 59

Skalen 16

metrische 17

ordinale 17

Spannweite 61; 66

Spline 22

Stabdiagramm 21

Standardabweichung 56

Berechnung 56

des Medians 69

Standardfehler 56

Statistcs on Columns 26

Statistics on Rows 26

Statistiken 17

Stichprobe 13; 57

geschichtet 13

Gewinnung 13

repräsentative 13

Stochastik 10

Streumaß 66

STUDENT-Verteilung 84

Summenverfahren 60

—T—

Transformation

lineare 30; 60

t-Verteilung 84

—V—

Variable 17

diskrete 17

klassifizierte 17

stetige 17

Varianz 56

Berechnung 56

Variationskoeffizient 63

Grafische Darstellung 63

Versuchsplanung 15

ZUFALLSZAHL() 14

Verteilung 18

linksschiefe 32

normale 19; 21

Rechteck- 18

schiefe 19

U-förmige 19

unregelmäßige 18

zwei-, mehrgipfelige 19

Vertrauensbereich

des Medians 73

des Mittelwertes 71

—Z—

Zentralwert 31

Inhaltzool33.uni-graz.at/lernen/courses/647327/document/6_Statistik/01... · 5.1 Signifikante...

Documents

Evaluierung von 31 Kärntner Fremdenverkehrsgemeinden 1973 ...mitinstitut.at/.../uploads/2015/06/Tourismus-in-Kärnten-1973-2010.pdf · 38 Jahre (1973 – 2010) signifikante statistische

Nickel One entdeckt potentiell signifikante Nickel-Lagerstätte in Ontario

Inhaltsverzeichnis BAS 530 - · PDF fileEcken runden / fasen 6BAS153 CHF / RND Ecken runden / fasen 6BAS154 APPR / DEP Kreisbogen mit CC, ... Sechseck Polar 6BAS213 CC + LP Polarkoordinaten

Die Effektivität von Fortbildungen fürAltenpflegekräfte ... · Verhaltensoptionen bei Suizidgefährdung eines Altenheimbewo hners 85 Tabelle 10: Signifikante statistische Unterschiede

ADAC TOTAL 24h-Rennen: – Offizielle Website · 21 Runden 142497 8:10.855 21 Runden 142.028 4:45.533 22 Runden 141.827 1 Runde 22 Runden 141.817 06.278 22 Runden 141.453 3:41.993

LERNEN AM RUNDEN TISCH

Welcome to the Schaeffler Group · 2019. 5. 24. · Mark Webber (38) 32 Runden maximale Stint-Länge 61,5 MJ 2,11 l < 3,69 MJ = (davon 9 in der LMP1) 1,03 kWh Energie darf das Hybrid-System

47. AvD-Oldtimer-Grand-Prix 2019 - News Classic Racing · 2019. 8. 13. · Shaw Mark, Scot, 45728 8 Runden +3 Runden 13 2 34 189 E1 Lotus 20B 13 27:19.310 27:19.310 Pangborn Mark,

Kurzformaufgaben. Kurzformaufgaben Schätze den Flächeninhalt der runden Figur!

Tafel fur 70 Normklotoiden mit runden Parametern A Table for 70

38. ADAC Zurich 24h Rennen · 24 137 SP 3T Subaru Tecnica International Subaru GRB 139 23:59:47.668 15 Runden 147.002 9:33.122 121 Shimizu Kazuo, Japan 1 Runde 159.409 Yoshida Tshihiro,

DSM2012 - Ergebnisliste 10 Runden - minigolf-hessen.de · MGC Mainz (0 Wechsel) ... 69 Wolfgang Burmester 26 43 26 38 25 36 24 41 259 32,400 71 Thorsten Niemann 24 30 20 32 24 31

· zahlen – entweder für die gesamte Anzahl der Runden oder für die Anzahl der Runden einer bestimmten Person. Erste-Hilfe-Kurs für einen guten Zweck ... , klar strukturierter

Richtiges Runden von Messergebnissen und … · calibration & metrology esz-ag.de Rundungsabweichung Runden verändert den Wert der genauen Zahl. Informationen gehen verloren. Jede

Typ-1-Diabetes neu manifestiert – und weiter Sport treiben ... · Typ-1-Diabetes neu manifestiert – und weiter Sport treiben oder wieder neu beginnen 6 Runden Schach, 5 Runden

Kunst runden 25-3-2012

- 1 - OpenGIS Testplattform des Runden Tisch – herstellerübergreifende Nutzung verteilter Geodaten 12.02.2004, Die OpenGIS Testplattform des Runden Tisch

Bereit für signifikante Lithium-Arbeiten in Alberta

Cadet Circuit - Virtus Scherma · PDF fileCadet Circuit Cadet male Sabre GER Eislingen 13.12.2014 Austragungsmodus 214 Fechter Vorrunde 31 Pools (28 Runden mit 7, 3 Runden mit 6) Fencers

38. Novemberpokal Nach Runden sortiert...Veranstalter: MC Woltersdorf e.V. im ADMV Orbits Lizensiert für ADAC OWL 38. Novemberpokal SP1 - Castrol-Test SP1 Rennen Woltersdorf 0,000