132
Statistik - Grundlagen Martin Staudinger Informationstechnik (BITG) FH Wiener Neustadt Version 2007/08

MaSt Statistik 2007

Embed Size (px)

DESCRIPTION

Eine Einführung in die Statistik (FH Wiener Neustadt, Wintersemester 2007)

Citation preview

Page 1: MaSt Statistik 2007

Statistik - Grundlagen

Martin Staudinger

Informationstechnik (BITG)FH Wiener Neustadt

Version 2007/08

Page 2: MaSt Statistik 2007

2

Page 3: MaSt Statistik 2007

i

This work is licenced under the Creative CommonsAttribution-Non-Commercial-Share Alike 3.0 License.

To view a copy of this licence, visit http://creativecommons.org/licenses/by-nc-sa/3.0/

Page 4: MaSt Statistik 2007

ii

Page 5: MaSt Statistik 2007

Inhaltsverzeichnis

1 Einleitung 11.1 Warum wir uns mit Statistik beschäftigen . . . . . . . . . . . . . . . . . . 11.2 Was ist Statistik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Daten „messen“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Datenanalyse und deskriptive Statistik 112.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Mess- und Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.1 Kategorische und Numerische Daten . . . . . . . . . . . . . . . . 122.2.2 Nominalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.3 Ordinalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2.4 Intervallskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2.5 Rationalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2.6 Absolutskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.7 Diskrete und stetige statistische Merkmale . . . . . . . . . . . . . 17

2.3 Darstellungsformen von Datenmengen . . . . . . . . . . . . . . . . . . . 172.3.1 Klassenbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.3.2 Häufigkeitstabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3.3 Grafische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4 Kennwerte empirischer Häufigkeitsverteilungen . . . . . . . . . . . . . . 262.4.1 Lage-Kennwerte empirischer Häufigkeitsverteilungen . . . . . . 272.4.2 Streuungskennwerte empirischer Häufigkeitsverteilungen . . . . 302.4.3 Zentrierter, normierter und standardisierter Beobachtungswert . 322.4.4 Form-Kennwerte empirischer Häufigkeitsverteilungen . . . . . . 32

2.5 Statistische Begriffe der Messtechnik . . . . . . . . . . . . . . . . . . . . . 342.5.1 Wahrer Wert und Erwartungswert . . . . . . . . . . . . . . . . . . 342.5.2 Messabweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 352.5.3 Genauigkeit – Präzision – Richtigkeit – Auflösung: Ein babyloni-

sches Sprachengewirr . . . . . . . . . . . . . . . . . . . . . . . . . 372.6 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3 Zufallsgrößen 393.1 Statistische Modellierung von Messdaten . . . . . . . . . . . . . . . . . . 39

3.1.1 Zufällige Versuche und Zufallsereignisse . . . . . . . . . . . . . . 393.1.2 Zufallsgrößen und ihre Realisierungen . . . . . . . . . . . . . . . 40

3.2 Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . 423.3 Verteilungen von Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3.1 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . 43

iii

Page 6: MaSt Statistik 2007

iv INHALTSVERZEICHNIS

3.3.2 Parameter von Wahrscheinlichkeitsverteilungen . . . . . . . . . . 453.4 Wichtige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . 48

3.4.1 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.4.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.4.3 Chi-Quadrat Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 523.4.4 Student-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.4.5 Fisher-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.4.6 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4 Zufallsvektoren 614.1 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.1.1 Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.1.2 Beziehungen zwischen zwei Elementen eines Zufallsvektors . . . 62

4.2 Funktionen eines Zufallsvektors . . . . . . . . . . . . . . . . . . . . . . . 644.2.1 Abweichungen von Funktionen eines Zufallsvektors . . . . . . . 644.2.2 Übergang von der Abweichung ∆y zur Standardabweichung . . 654.2.3 Das Kovarianzfortpflanzungsgesetz . . . . . . . . . . . . . . . . . 66

4.3 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 Die Methode der kleinsten Quadrate 695.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.2 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.2.1 Ausgleichende Gerade . . . . . . . . . . . . . . . . . . . . . . . . . 705.2.2 Herleitung der Methode der kleinsten Quadrate . . . . . . . . . . 73

5.3 Nicht-lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . 765.3.1 Gleichungssysteme „Linearisieren“ . . . . . . . . . . . . . . . . . 765.3.2 Probleme beim Linearisieren . . . . . . . . . . . . . . . . . . . . . 77

5.4 Stochastische Eigenschaften der Unbekannten . . . . . . . . . . . . . . . 785.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6 Regression und Korrelation 796.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.2 Regressionsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.2.1 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.2.2 Die Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . 816.2.3 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.3 Korrelationsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836.3.1 Der Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . 836.3.2 Korrelation und Stochastische Abhängigkeiten . . . . . . . . . . . 856.3.3 Nicht-lineare Zusammenhänge . . . . . . . . . . . . . . . . . . . . 86

6.4 Kausale Zusammenhänge und Scheinkorrelationen . . . . . . . . . . . . 876.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

7 Induktive Statistik 897.1 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

7.1.1 Stichprobenverteilungen . . . . . . . . . . . . . . . . . . . . . . . . 897.1.2 Stichprobenverteilungen wichtiger Maßzahlen . . . . . . . . . . . 91

7.2 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 927.2.1 Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 927.2.2 Intervallschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

7.3 Testen statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . 97

Page 7: MaSt Statistik 2007

INHALTSVERZEICHNIS v

7.3.1 Prinzip statistischer Tests . . . . . . . . . . . . . . . . . . . . . . . 977.3.2 Prüfen des Mittelwerts bei bekannter Varianz („Gauß-Test“) . . . 1017.3.3 Prüfen des Mittelwertes bei unbekannter Varianz („T-Test“) . . . 1037.3.4 Prüfen der Varianz („Chiquadrat-Test“) . . . . . . . . . . . . . . . 1037.3.5 Prüfen der Gleichheit zweier Varianzen („F-Test“) . . . . . . . . . 1047.3.6 Prüfen der Gleichheit zweier Mittelwerte bei bekannter Varianz

(„doppelter Gauß-Test“) . . . . . . . . . . . . . . . . . . . . . . . . 1047.3.7 Prüfen der Gleichheit zweier Mittelwerte bei unbekannten aber

gleichen Varianzen („doppelter T-Test“) . . . . . . . . . . . . . . . 1047.3.8 Wichtiger Hinweis . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

7.4 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

A Matrizenrechnung A-1A.1 Lineare Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-1A.2 Matrizenalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-2

A.2.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-2A.2.2 Matrizenoperationen . . . . . . . . . . . . . . . . . . . . . . . . . . A-5A.2.3 Auflösung von Gleichungssystemen mit Matrizen . . . . . . . . . A-8

A.3 Matrizenrechnung mit Microsoft EXCEL . . . . . . . . . . . . . . . . . . . A-9A.3.1 Eine Matrix in EXCEL definieren . . . . . . . . . . . . . . . . . . . A-9A.3.2 Matrizenoperationen mit EXCEL . . . . . . . . . . . . . . . . . . . A-10

B Differenzialrechnung B-1B.1 Reelle Funktionen in einer Variablen . . . . . . . . . . . . . . . . . . . . . B-1B.2 Taylorreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B-3B.3 Funktionen in mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . B-4B.4 Differentiation von Matrizenfunktionen . . . . . . . . . . . . . . . . . . . B-5

Page 8: MaSt Statistik 2007

vi INHALTSVERZEICHNIS

Page 9: MaSt Statistik 2007

Kapitel 1

Einleitung

1.1 Warum wir uns mit Statistik beschäftigen

Sowohl in der elektronischen Datenverarbeitung als auch im Geoinformationswesengeht es sehr oft um: Daten sammeln, aufbereiten, analysieren, und aufgrund dieserDaten dann Entscheidungen treffen, wie es weitergeht. Die Statistik spielt dabei einewichtige Rolle. Bereits beim Datensammeln werden statistische Methoden eingesetzt.Wir werden es einerseits mit Daten zu tun haben, die aus einfachem „Abzählen“ undKlassifizieren entstanden sind. Hier sind mittels statistischer Methoden aussagekräftigeParameter zu ermitteln. Beispiele hierfür sind bevölkerungsstatistische Daten, Durch-schnittseinkommen und Kaufkraft, Bildungsqualifikationen, medizinische Daten, Ver-kehrsströme und so fort. Meistens verwenden und verarbeiten wir dabei Daten und In-formationen Dritter. Dazu müssen wir nachzuvollziehen können, wie deren Daten zu-stande gekommen sind, wie sie zu bewerten sind und wie groß die Wahrscheinlichkeitist, dass sie richtig sind. Auch elektronische Messgeräte, die physikalische Messungen

Bsp. 1.1 Ein kleines Experiment zum Einstieg.

Lösen die folgende Fragestellung ganz spontan – ohne Zettel und Bleistift oder einenTaschenrechner oder Computer zur Hand zu nehmen:Angenommen Sie bewerben sich um Ihren ersten Job, und Sie bekommen folgendesAngebot: Das Anfangsjahresgehalt beträgt ¤50.000.

1. Variante: Sie erhalten jedes Jahr eine Gehaltserhöhung um ¤5.000

2. Variante: Sie erhalten jedes halbe Jahr eine Gehaltserhöhung um ¤1.250

Wofür entscheiden Sie sich?

durchführen, tun dies – oft für den Anwender nicht sichtbar – durch mehrere Messun-gen hintereinander, um dann das Mittel dieser Messungen als Ergebnis ausgeben. DieseMessdaten, die als Eingangssignal für die weitere Datenverarbeitung dienen, sind alsostatistische Daten bzw. das Ergebnis statistischer Methoden. Es gibt mehrere Gründe,warum wir bei der Datenverarbeitung statistische Methoden anwenden:

1. Wir haben zu viele Daten2. Wir haben zu wenige Daten3. Wir haben fehlerhafte Daten

Zu viele Daten haben wir oft, weil uns der Detaillierungsgrad der Rohdaten gar nicht

1

Page 10: MaSt Statistik 2007

2 KAPITEL 1. EINLEITUNG

interessiert, sondern nur bestimmte daraus abgeleitete Kennwerte. Beispiel: Wirführen eine Standortsuche für die Werbekampagne zu einem bestimmten Produktdurch. Ein wichtiges Kriterium ist dabei das Einkommen potenzieller Kunden.Dabei interessiert uns aber nicht das individuelle Einkommen jedes Einwohnerseiner bestimmten Region sondern das Durchschnittseinkommen in dieser Region.

Zu wenig Daten haben wir immer dann, wenn wir nur an diskreten Stellen gemessenhaben, aber ein kontinuierliches Bild einer bestimmten Region darstellen wollen.Wir wenden dann statistische Interpolationsverfahren an, um dieses Gesamtbildwiedergeben zu können. Beispiel: An einzelnen Messstellen wird die Temperaturbeobachtet und dann daraus eine Temperaturkarte der ganzen Region generiert.

Fehlerhafte Daten haben wir immer dann, wenn wir mit physikalischen Verfahren un-sere Daten messen. Solche physikalischen Messungen sind per se immer unge-nau; dies hängt mit der Auflösung der Messgeräte und den vereinfachten Model-len der Realität zusammen und hat außerdem einen wahrscheinlichkeitstheoreti-schen Hintergrund. Wir werden darauf noch in einem späteren Kapitel zurück-kommen.

Daraus ergeben sich zwei wichtige Ziele, die wir mit der Anwendung von Statistikverfolgen:

1. Die Angabe von Qualitätsparametern und -kennzahlen für die von uns beobachtetenDaten.

2. Die statistische Interpolation der Daten, um einerseits aus den ursprünglich beob-achteten Daten andere ableiten zu können, und andererseits um ein möglichstvollständiges Bild der Situation wiedergeben zu können, auch an Stellen, an de-nen wir nicht beobachtet haben.

Es gibt noch einen weiteren, profaneren Grund, sich mit Statistik zu beschäftigen, un-abhängig von Informatik, Geographie oder Ingenieurskunst: Schlägt man heute eineTageszeitung auf oder verfolgt die Nachrichten in Fernsehen oder auf einem Internet-portal, so sind die voll mit Statistik! Sehr oft werden hier von Journalisten (und vonPolitikern, Lesern, etc.) aus einer Handvoll Daten ganz abenteuerliche Schlüsse gezo-gen, die jeglicher statistisch-mathematischer Grundlage entbehren. Alle Behauptungen,die mit irgendwelchen Zahlen (mit möglichst zwei Nachkommastellen) „belegt“ wer-den, vermitteln den Eindruck von Sachlichkeit, Objektivität und Exaktheit. Jemand hatauch einmal behauptet:

Mit Statistik kann man alles beweisen, auch das Gegenteil.

Wir werden in diesem Kurs erstens lernern, wie man statistische Daten darstellt, inter-pretiert, und daraus Schlüsse ziehen kann, und zweitens, dass man

mit Statistik nichts beweisen kann, nur das Gegenteil.

Bsp. 1.2 Daten können aus Beobachtung, Klassifizierung und Abzählen entstehen.

In einer statistischen Untersuchung wurde festgestellt, dass die Donau bei Wien inner-halb eines Jahres an 6 Tagen im Jahr braun, an 55 Tagen lehmgelb, 38 Tage schmutzig-grün, 49 Tage hellgrün, 47 Tage grasgrün, 24 Tage stahlgrün, 109 Tage smaragdgrünund 37 Tage dunkelgrün, niemals jedoch BLAU ist.

Page 11: MaSt Statistik 2007

1.2. WAS IST STATISTIK? 3

1.2 Was ist Statistik?

Das Wort „Statistik“ kommt aus dem Lateinischen (status) und bedeutet wörtlich über-setzt „(Zu-)Stand, Verfassung, Beschaffenheit“1. Es geht darum, Daten zu sammeln, zuanalysieren, zusammenzufassen, zu interpretieren, anzuzeigen, darzustellen und letzt-lich irgendeine Information daraus abzuleiten. Dabei wird sowohl die aus der Bestands-aufnahme hervorgehende Datensammlung als „Statistik“ bezeichnet2, als auch die Me-thode, mit der Datensammlungen ausgewertet, analysiert und weiterverarbeitet wer-den. Die dabei anfallenden Qualitätsparameter sind für die Entscheidungsträger oftmindestens genauso wichtig sind wie die Ergebnisse selbst.

Die Anwendung der Statistik hat das Ziel,

• die Daten möglichst transparent zu machen• die zugrunde liegende Struktur zu finden• wichtige Variablen und Kennzahlen aus einer Vielzahl von Daten zu finden• Anomalien und Ausreißer herauszufinden• Schlüsse zu ziehen und• diese auch zu überprüfen• wahrscheinlichkeitstheoretische Modelle zu erstellen und• für diese Modelle die Faktoren und Parameter zu finden

Bsp. 1.3 Statistik hat mit Zahlen und Zählen zu tun

Der 19.11.1999 hatte eine interessante Besonderheit: Es war dies das letzte Datum füreine sehr lange Zeit, das sich nur aus ungeraden Ziffern zusammensetzt. Das nächsteMal wird das erst wieder 1111 Jahre später (genauer: 405 827 Tage später), am 1.1.3111der Fall sein.Umgekehrt war der 2.2.2000 seit Langem wieder der erste Tag aus geraden Ziffern(inklusive Null), und zwar seit dem 28.8.888. Vom 29.8.888 bis zum 1.2.2000 befandensich in jedem Datum ungerade Ziffern. In den Jahren 2000, 2002, 2004 und 2006 gabes ein Datum nur aus geraden Ziffern sehr häufig: an jedem geraden Tag im 2., 4., 6.und 8. Monat; das letzte Mal am 28.8.2006. Ebenso wird es im Jahre 2008, 2020 usw.sein. Das wird sich alle 200 Jahre wiederholen. Nach dem 28.8.2888 wird dann wiederfür längere Zeit (nämlich 405 941 Tage) kein „gerades“ Datum auftreten.

Methodisch können wir zwei wichtige Teilbereiche der Statistik unterscheiden: diebeschreibende Statistik und die schließende Statistik:

Beschreibende Statistik (auch: Deskriptive Statistik3) hat zum Ziel, Informationen aus„zu vielen“ Daten zu generieren. Dabei bedienen wir uns numerischer und grafi-scher Methoden, mit denen wir umfangreiche und komplizierte Datensätze mög-lichst anschaulich darstellen. Dabei geht es um Fragen nach Häufigkeiten undVerteilungen der Daten bzw. um Kenngrößen und –werte dieser Verteilungen.Alle Ergebnisse und Aussagen, die wir treffen, beziehen sich grundsätzlich nurauf die untersuchte Datenmenge. Beispiel: Wir erheben die Wohnkosten von FH-Studierenden getrennt nach den jeweiligen Studiengängen. Diese Daten stellen

1ursprünglich in der Bedeutung status rei publicae, also die Beschreibung und Darstellung geografischer,wirtschaftlicher, politischer Zustände eines „Gemeinwesens“ = Staates.

2Zum Beispiel Daten über die wirtschaftlichen, demografischen, sozialen, ökologischen und kulturellenGegebenheiten, die in Form eines jährlich erscheinenden „Statistischen Jahrbuches“ veröffentlicht werden.

3lat. describere = beschreiben; auch: ordnen, einteilen

Page 12: MaSt Statistik 2007

4 KAPITEL 1. EINLEITUNG

wir in einer Tabelle oder einem Diagramm dar und berechnen die durchschnitt-lichen Wohnkosten. Interessant ist es auch, einen Zusammenhang zwischen un-terschiedlichen Daten zu untersuchen, zum Beispiel einen Zusammenhang zwi-schen der Wahl des Studiengangs und der Geldmenge, die man monatlich fürWohnzwecke auszugeben bereit ist.

Schließende Statistik (auch: Induktive4 oder Analytische Statistik) hat zum Ziel, aus we-nigen Daten auf eine übergeordnete Menge zu schließen. Dabei wenden wir Me-thoden der Wahrscheinlichkeitstheorie an und führen Schätzungen und Testver-fahren durch, um die Zusammenhänge zwischen den einzelnen beobachteten Da-ten und den Parametern des theoretisch angenommenen Wahrscheinlichkeitsmo-dells zu untersuchen. Beispiel: Wir befragen 100 Studierende der Fachhochschuleüber ihre monatlichen Wohnkosten und schließen daraus auf die Wohnkosten allerStudierenden. In weiterer Folge stellen wir die Hypothese auf, dass Wirtschafts-Studierende monatlich mehr für ihre Wohnung ausgeben als Technik-Studierende.Diese Vermutung überprüfen wir aufgrund der uns vorliegenden Daten und ge-ben die Wahrscheinlichkeit an, dass wir uns mit unserer Vermutung nicht irren.

Bsp. 1.4 Beschreibende oder Schließende Statistik?

• US-Wissenschafter haben aus der Beobachtung von Ameisen geschlossen, dassdiese immer nach rechts umfallen, wenn sie vergiftet werden. Entgegen derlandläufigen Meinung sind sie übrigens auch gar nicht so fleißig, wie man an-nimmt, sondern ziemlich faule Säcke: 70 Prozent ihrer Zeit tun sie einfach garnichts.

• 71 Prozent der Büroangestellten in Deutschland trinken nur aus der eigenenTasse.

• Hobbyjäger haben durch die Aufregung und die Anspannung auf einer Pirschein 18 Prozent höheres Herzinfarktrisiko als Nicht-Waidmänner.

• Als EIvis Presley 1977 im Alter von 42 Jahren starb, gab es weltweit 48 Elvis-Imitatoren, 1995 waren es schon 7328. Wenn das so weitergeht, ist im Jahr 2012jeder vierte Erdenbewohner ein Elvis-Imitator.

(Quelle: Günther Willen: Wer das liest, lebt länger! Das Lexikon für alle Lebenslagen)

1.3 Begriffe

Die Statistik hat – wie auch andere Wissensgebiete – ihre eigene Sprache. Anfänglichmag die umfangreiche Begriffswelt verwirrend sein, es bleibt uns aber nicht erspart, sieuns anzueignen und uns in der Lehrveranstaltung (und in diesem Skriptum) Schritt fürSchritt nicht nur mit den Methoden sondern auch mit der Sprache der Statistik vertrautzu machen.

Grundgesamtheit und Stichprobe

Die wichtigste begriffliche und konzeptuelle Unterscheidung in der Statistik wollen wiruns anhand der nachfolgenden beiden Beispiele vor Augen führen:

4lat. inducere = hin(ein)führen; Induktion = Schlussfolgerung vom Besonderen auf das Allgemeine

Page 13: MaSt Statistik 2007

1.3. BEGRIFFE 5

Abb. 1.1 Statistische Daten können auch grafisch vorliegen: Der Wasserstand der Steyrbeim Pegel Klaus, Oberösterreich, vom 9.-16.8.2002 (Quelle: Amt der OÖ Landesregierung)

„Die Wohnbevölkerung Österreichs betrug 2001 mit Stichtag 15. Mai 8.032.557und hat seit der Volkszählung 1991 um insgesamt 236.771 Personen (3%) zu-genommen. Im Vergleich dazu betrug die Zunahme 1981/1991 insgesamt240.448 Personen oder 3,2%.“ (Statistik Austria)

„Der Urnengang im Herbst stößt in weiten Teilen der Bevölkerung auf posi-tives Echo: Nicht weniger als 62 Prozent aller Österreicher halten die Durch-führung von Neuwahlen für eine gute Entscheidung. Immerhin 33 Prozentwünschen sich demnach eine Koalition von Rot und Schwarz, nur 19 Pro-zent sind für einen Pakt zwischen SP und Grünen.“ (Umfrage eines Wochen-magazins)

Im ersten Beispiel wurden tatsächlich im Zuge einer Volkszählung alle Österreicher er-fasst (gezählt). In der Statistik sprechen wir auch von der Grundgesamtheit. Eine Grund-gesamtheit besteht aus der Menge aller Objekte, die irgendwelche gemeinsamen Cha-rakteristika aufweisen und Gegenstand unserer Untersuchungen sind. Beispiel: „dieWohnbevölkerung Österreichs“. Eine Grundgesamtheit kann unterschiedliche Größehaben; wir nennen dies den Umfang der Grundgesamtheit. Der Umfang reicht von eini-gen wenigen (alle Studierenden, die in der ersten Reihe sitzen) über eine sehr große An-zahl von Elementen (6 Milliarden Menschen auf der Erde) bis hin zu unendlich großenMengen (alle möglichen Ergebnisse einer physikalischen Messung).

Im zweiten Beispiel hingegen wurden nicht tatsächlich 8 Millionen Österreicherüber ihre Meinung zur Wahl befragt, obwohl das sprachlich suggeriert wird („alle Öster-

Page 14: MaSt Statistik 2007

6 KAPITEL 1. EINLEITUNG

Bsp. 1.5 Stichprobe oder Grundgesamtheit?

Steigende Tendenz bei Tierversuchen in ÖsterreichEine weiterhin steigende Tendenz gibt es laut Statistik bei der Zahl der Tierversuchein Österreich. Im Vorjahr wurden 192.062 Tiere verbraucht, das sind um 6,7 Prozentmehr als 2001 (180.0129). Dies geht aus der am Donnerstag in der Wiener Zeitung ver-öffentlichten Tierversuchsstatistik 2002 hervor. In den neunziger Jahren ist die Zahlder Tierversuche stark gesunken, seit 1999 steigt sie aber wieder kontinuierlich. DasGros der Tiere wird für „Forschung und Entwicklung für Produkte und Geräte derHuman-, Zahn- und Veterinärmedizin“ (72.854 Tiere) und für „Herstellung und Qua-litätskontrolle von Produkten und Geräten der Human- und Zahnmedizin“ (72.394)verwendet. Für „biologische Untersuchungen im Bereich der Grundlagenforschung“gab es 29.207 Tierversuche, für „toxikologische und sonstige Unbedenklichkeitsprü-fungen“ 8.758.Von den insgesamt 192.062 Tierversuchen wurden 153.034 mit Mäusen durchgeführt.Es folgen Kaninchen (15.560), Ratten (13.175) und Meerschweinchen (7.566). Weiterswurden 536 landwirtschaftliche Nutztiere wie Schweine, Schafe und Rinder, 280 Kat-zen und 108 Hunde für Versuche verwendet. Wie in den Vorjahren kamen auch 2002wieder keine Menschenaffen zum Einsatz. (Quelle: science.orf.at, 26.6.2003)

reicher“5). „Nicht weniger als 62 Prozent“ bedeutet auch nicht, dass mindestens 4.980.185Österreicher bei dieser Umfrage die Durchführung von Neuwahlen positiv bewertethaben. Für Umfragen werden lediglich Stichproben herangezogen, das heißt nur eineTeilmenge aus der Grundgesamtheit ist Gegenstand der statistischen Untersuchung.Bei geschickter Wahl der Stichprobe nach statistischen Kriterien ist es aber durchauszulässig, von der Stichprobe auf die Grundgesamtheit zu schließen. Man sagt auch: DieStichprobe muss repräsentativ sein, das heißt Elemente mit möglichst verschiedenen fürdie Untersuchung wichtigen Eigenschaften, die für das Ergebnis relevant sein könnten,müssen in der Stichprobe vertreten sein. Ob eine Stichprobe repräsentativ ist oder nicht,hängt also vom Ziel der statistischen Untersuchung ab.

Wichtig kann auch das Verhältnis des Stichprobenumfangs zum Umfang der Grund-gesamtheit sein. Für Untersuchungen wie oben beispielhaft angegeben wird üblicher-weise mit einem Auswahlsatz von etwa 0.002 - 0.004% gearbeitet (das entspricht inunserem Beispiel ca. 150 bis 400 Personen, die befragt werden).

Merkmalsträger, Merkmale und Merkmalswerte

Eine wichtige Frage bei statistischen Untersuchungen ist natürlich: Welche Daten wer-den über wen oder was erhoben?

Die Objekte, die Gegenstand statistischer Beobachtung und Analyse sind, nenntman Merkmalsträger (auch: statistisches Element oder: statistische Einheit). Merkmalsträ-ger müssen hinsichtlich sachlicher, räumlicher und zeitlicher Identifikationskriterieneindeutig abgrenzbar sein. Beispiel: Eine bestimmte BITG-Studierende des 3. Semes-ters an der FH Wiener Neustadt, die sich montags von 11.00-13.00 im Seminarraum 5aufhält.

Die Menge der Merkmalsträger, die übereinstimmende Identifikationskriterien ha-ben, bilden dann – je nach Vollständigkeit – die Grundgesamtheit oder eine Stichprobe.Beispiel: Alle BITG-Studierenden des 3. Semesters an der FH Wiener Neustadt (Grund-

5wobei hier überhaupt noch zu spezifizieren ist, was unter „Österreicher“ zu verstehen ist. Die Wohnbe-völkerung? Alle hier Geborenen? Alle österreichischen Staatsbürger? Alle hier Wahlberechtigten?

Page 15: MaSt Statistik 2007

1.3. BEGRIFFE 7

Abb. 1.2 Statistik kann auch Hypothesen über zukünftige Entwicklungen aufstellen:Bevölkerungspyramide 2000, 2030 und 2050. (Quelle: Statistik Austria, Statistisches Jahr-buch 2002)

gesamtheit) oder der zufällig gebildete Teil der BITG-Studierenden, die die Statistik-Vorlesung am Montag, 25.9.2006, besuchen (Stichprobe).

Die Eigenschaft, die wir an den Merkmalsträgern untersuchen, ist das statistischeMerkmal. Mathematisch handelt es sich dabei um eine Variable (auch: Stichprobenvaria-ble), die unterschiedliche Werte annehmen kann. Beispiel: Die Körpergröße der Studie-renden.

Jedes Merkmal kann in verschiedenen, konkreten Erscheinungsformen auftreten,auch Merkmalsausprägung oder Merkmalswert genannt. Beispiele: Das Merkmal „Ge-schlecht“ kann die Ausprägung „weiblich“ oder „männlich“ haben. Das Merkmal „Ma-trikelnummer“ kann eine ganze Zahl annehmen. Das Merkmal „Körpergröße“ kannzum Beispiel 1.76, 1.85 oder 1.54 m annehmen.

Ein wichtiger Begriff in diesem Zusammenhang ist auch die

Variabilität

Variabilität besagt, dass die Merkmale, die wir untersuchen, veränderlich sind. Es ha-ben eben nicht alle statistischen Merkmalsträger das gleiche Einkommen, dieselbe Kör-pergröße, dieselbe Lebenserwartung, und es ist auch nicht überall gleich warm. Gäbees die Variabilität nicht, machte Statistik keinen Spaß mehr, um nicht zu sagen, vieleder Methoden, die wir kennen lernen werden, wären sinnlos. (Ganz abgesehen von derFrage, welche Qualität unser Alltags-Leben hätte, wenn wir alle gleich wären . . . ).

Page 16: MaSt Statistik 2007

8 KAPITEL 1. EINLEITUNG

Die Variabilität der Merkmalsträger können wir sowohl horizontal als auch verti-kal betrachten. Das heißt: Wir können von ein und derselben Person die Körpergrößemehrmals messen und werden – aus Gründen, die wir später noch erläutern werden –in einem bestimmten Bereich unterschiedliche Ergebnisse erhalten (horizontale Varia-bilität). Oder aber wir messen die Körpergröße mehrerer Personen und erhalten – ausoffensichtlichen Gründen – unterschiedliche Ergebnisse (vertikale Variabilität).

Urliste und Rangliste

Wenn wir Merkmalswerte erfassen, erhalten wir zunächst eine Menge Daten. Die Urlisteist dabei die Datenmenge in der Form und Reihenfolge, wie sie bei der Erhebung anfällt.Werden von jedem Merkmalsträger mehrere Merkmale erhoben, so wird die Urlistein den meisten Fällen in einer Tabelle dargestellt. Urlisten sind in den meisten Fällenunübersichtlich und nicht sehr informativ – das ist ja ein Grund, warum wir Statistikbetreiben.

Von der Urliste ausgehend kann man die Elemente einer konkreten Stichprobe zumBeispiel nach wachsender Größe ordnen (vorausgesetzt, es handelt sich um Daten, fürdie Ordnungsrelationen definiert sind). Dies nennt man dann eine Rangliste (auch: ge-ordnete Stichprobe oder Variationsreihe). Jedes Element der Stichprobe bekommt damiteine Rangzahl (auch: einen Rang) zugeordnet. Liegen mehrere Merkmale pro Merkmals-träger tabellarisch vor, gibt es mehrere Möglichkeiten, die Daten zu sortieren und somitauch mehrere Ranglisten.

Nicht immer ist eine Umordnung der Stichprobe entsprechend wert-größenmäßigerOrdnungsrelationen zulässig. Manchmal spielt auch die historische Reihenfolge, in derdie Daten erhoben wurden, eine Rolle und darf nicht so ohne weiteres umgeordnetwerden. Solche Zeitreihen müssen der Zeit nach geordnet bleiben.

Bei so genannten bi- oder multivariaten Methoden (siehe unten) ist im Hinblickauf die Beschreibung statistischer Zusammenhänge außerdem darauf zu achten, dassdurch unsymmetrisches Umsortieren der Datenlisten die jeweiligen zu einem Daten-paar verbundenen Elemente nicht durcheinander kommen. Bei der Beobachtung phy-sikalischer Phänomene ist aus diesem Grund das Umsortieren zu einer der Größe nachgeordneten Stichprobe nicht üblich.

Die Reihenfolge in Urlisten bzw. der Rang in Ranglisten gibt jedem Datum6 ausder Datensammlung einen Index. Bezeichnen wir zum Beispiel die Variable „Körper-größe“ mit X, so sind die einzelnen konkreten Merkmalswerte entsprechend ihrer Rei-henfolge (in der Chronologie ihrer Erfassung oder in einer bereits geordneten Form)x1, x2, . . . , xn.

Sowohl Grundgesamtheiten als auch Stichproben werden übrigens in den meistenFällen nicht in ihrer Gesamtheit weiterverwendet (die Urlisten), sondern durch (nume-rische) Parameter charakterisiert.

Uni-, bi- und multivariate Methoden

Eine wichtige methodische Unterscheidung haben wir zu treffen, je nachdem, wie vielevariable Merkmale wir im Zuge der statistischen Untersuchung gleichzeitig betrachten.Wenn wir uns nur ein Merkmal ansehen, zum Beispiel die Körpergröße, sprechen wirvon univariater Statistik. Wenn es hingegen um mehrere Merkmale geht, zum Beispieldie Körpergröße und das Alter, von bivariater Statistik. Hier können jetzt auch vermuteteZusammenhänge zwischen den beiden Merkmalen untersucht werden. Untersuchenwir überhaupt gleich mehrere Merkmale, zum Beispiel Körpergröße, Alter, Gewicht,Geschlecht, etc., so handelt es sich um Methoden der multivariaten Statistik.

6Datum = Einzahl von Daten

Page 17: MaSt Statistik 2007

1.4. DATEN „MESSEN“ 9

1.4 Daten „messen“

Messen im engeren Sinn bedeutet, einen Sachverhalt (ein Phänomen) zu quantifizieren,das heißt, ihn durch Zahlen darzustellen. Wenn es sich dabei um ein physikalischesPhänomen handelt, wird in der Regel neben der Zahl (der Maßzahl) auch noch eine Maß-einheit angegeben. Der Messwert ist dann ein Vielfaches der Maßeinheit und „Messen“bedeutet festzustellen, wie oft die Maßeinheit in der zu messenden Größe enthalten ist,also nichts anderes als Zählen. Wenn Sie zum Beispiel die Länge des Weges von derFachhochschule zur nächsten Schnellbahnstation messen wollen, haben Sie verschiede-ne Möglichkeiten (in Klammer stehen bereits die Antworten):

1. Sie zählen, wie oft der 40.000.000-te Teil des Erdmeridians, der durch Paris geht,auf dem Weg zwischen FH und Station untergebracht werden kann. (1/49140mal)

2. Sie zählen, wie oft Sie den Platin-Iridium Urmeter-Stab (den können Sie ebenfallsin Paris ausleihen) auf dem Weg zwischen FH und Station auflegen können. Dabeisollte es eine Temperatur von 0◦C haben. (814 mal)

3. Sie verstrahlen den Weg mit Krypton 86Kr, warten auf den Übergang vom Zu-stand 5d5 auf 2p10 und zählen, wie oft die Wellenlänge der dabei auftretendenorangefarbenen Strahlung auf dem Weg Platz hätte. (1.343.721.676 mal)

4. Sie schicken Licht bei der FH weg und zählen, wie oft 1/299 792 458 Sekundenvergehen, bis das Licht an der Station ankommt. (2/736 591 mal)

Möglichkeit 3) und 4) haben den Nachteil, dass Sie zuvor das Gebiet unter Vakuumsetzen müssen7.

Wie Sie gesehen haben, kann bei der Beobachtung physikalischer Phänomene „Zäh-len“ eine andere Bedeutung haben als im Alltag. Ein Phänomen kann beim physikali-schen Messen nicht nur mit natürlichen Zahlen gezählt werden sondern zum Beispielauch „2/736 591 mal“ auftreten. Die Anzahl der möglichen Zahlenwerte ist unendlichgroß. Wir sprechen auch von einem kontinuierlichen Vorgang.

Zählen – und somit Messen – kann man aber nicht nur physikalische Phänomene,sondern auch die Anzahl der arbeitslosen Personen eines Landes oder die Anzahl derBäume in einem Wald. Dabei kann sich Zählen als ein gar nicht so trivialer Vorgangherausstellen: Einerseits müssen die zu zählenden Objekte von den nicht zu zählendenObjekten abgegrenzt werden, was nicht immer einfach ist. Zählt nur zu den Arbeits-losen, wer bereits vorher in einem Beschäftigungsverhältnis stand? Was ist mit Selbst-ständigen? Mit Schulabgängern, die noch gar keine Arbeit hatten? Oder mit Leuten,die zwar gerade keine Arbeit haben, aber eine Schulung machen? Wo sind die Gren-zen eines Waldes? Ab welcher Größe ist ein Baum ein Baum? Ist ein Setzling auch einBaum?

Diese Abgrenzungen, die räumlich, zeitlich oder sachlich begründet sein können, sindnicht immer ganz einfach. Zusätzlich kann es auch schwierig sein, die zu zählendenObjekte überhaupt zu identifizieren8 und voneinander zu unterscheiden. Aber nur sokann sichergestellt werden, dass jedes Objekt nur einmal gezählt wird.

In der Mathematik sind diese beiden beschriebenen Eigenschaften (Abgrenzung ge-gen außen, Identifikation nach innen) übrigens Kennzeichen einer Menge. Eine Mengeist die Zusammenfassung von bestimmten, wohlunterschiedenen Objekten zu einemGanzen, mit einer definierten Abgrenzung gegen die, die „draußen“ sind. Wir werden

7Alle vier aufgezählten Möglichkeiten sind zugegebenermaßen in der Praxis nur schwer durchführbar,entsprechen aber genau den Festlegungen der jeweiligen Meterdefinitionen von 1795 (Meridian), 1889 (Ur-meter), 1960 (Wellenlänge) bzw. der heute gültige Definition von 1983 (Licht).

8hier im Sinne von: Identität geben

Page 18: MaSt Statistik 2007

10 KAPITEL 1. EINLEITUNG

im Zuge der Beschäftigung mit Statistik, insbesondere im Bereich der Wahrscheinlich-keitstheorie, noch auf weitere Begriffe und Konzepte aus der mathematischen Mengen-lehre zurückgreifen.

Bsp. 1.6 Woher kommen überhaupt all die Daten....?

Das Ausfüllen von Fragebögen hat Österreichs Unternehmen im Jahr 2006 790.000Arbeitsstunden gekostet. Das geht aus dem von der Statistik Austria und der Wirt-schaftskammer entwickelten Belastungsbarometer hervor.Geht man von einer Jahresarbeitszeit von 1636 Stunden pro Beschäftigten in Öster-reich aus, so haben im Vorjahr rein rechnerisch 782 Personen nichts anderes getan alsFragebögen und Statistiken ausgefüllt. Im Vergleich zu 2001 hat sich dieser Aufwandimmerhin um rund zehn Prozent verringert.(Quelle: Salzburger Nachrichten)

1.5 Englische Begriffe

In zunehmendem Maße wird auch im deutschsprachigen Raum Literatur zum Thema„Statistik“ in englischer Sprache publiziert, respektive ist es mittlerweile überhaupt un-entbehrlich, sich mit Hilfe englischer Fachliteratur in das eine oder andere Thema zuvertiefen. Wir werden daher am Ende jeden Kapitels die wichtigsten Begriffe mitsamtihrer englischen Entsprechungen auflisten (Achtung: Das sind mitunter nicht wörtlicheÜbersetzungen, sondern die im Englischen üblichen Bezeichnungen).

Beschreibende Statistik - descriptive stati-sticsbivariat - bivariateDaten - dataDatensammlung - data setDeskriptive Statistik - descriptive statisticsGeordnete Stichprobe - ordered sampleGrundgesamtheit - populationInduktive Statistik - inferential statistics

Merkmal - variablemultivariat - multivariateRangliste - ordered sampleSchließende Statistik - inferential statisticsStatistik - statisticsStichprobe - sampleunivariat - univariateVariabilität - variabilityZeitreihe - time series

Page 19: MaSt Statistik 2007

Kapitel 2

Datenanalyse und deskriptiveStatistik

2.1 Einleitung

Wir werden in diesem Kapitel einfache statistische Konzepte anhand verschiedenerMessgrößen und Datenmengen erarbeiten. Dabei steht zunächst eine rein empirische1

Betrachtungsweise im Vordergrund. Theoretische Konzepte und Modelle werden im 3.Kapitel behandelt.

Die Statistische Auswertung gemessener Daten und beobachteter Phänomene, kann– wie wir bereits im einleitenden Kapitel gesehen haben – unterschiedlich motiviertsein: In der physikalischen Messtechnik ist es vor allem das Problem, dass die Messun-gen immer mit systemimmanenten Abweichungen behaftet sind und daher bei mehr-maliger Messung eine Variabilität zu beobachten ist. Unser Ziel ist es, den wahren Werteiner Messgröße zu ermitteln. Tatsächlich gibt es aber keine Möglichkeit, den wahrenWert zu beobachten (ganz abgesehen von der philosophischen Frage, ob es überhaupteinen wahren Wert gibt). Haben wir nun die Messwerte für eine Messgröße mehrmalsbeobachtet und diese Einzelmessungen zu einer Messreihe zusammengefasst, so kön-nen wir aus der Analyse dieser Messreihe den Erwartungswert der Messgröße ableiten.Außerdem ermöglicht uns diese statistische Bearbeitung der Messreihe auch, Aussa-gen über die Qualität des erhaltenen Wertes für die Messgröße (seine Genauigkeit) zumachen. Wir werden in diesem Kapitel auf diese Besonderheiten der physikalischenMesstechnik und Begriffe wie „Abweichungen“ und „wahrer Wert“ noch zurückkom-men.

Im Zusammenhang mit dem Messen physikalischer Größen sei darauf hingewie-sen, dass wir heute fast ausschließlich digitale Messtechniken verwenden, d.h. nicht-elektrische Größen in elektronische Signale umwandeln und diese dann messen. Diesgeschieht im Messgerät praktisch immer durch mehrmalige Messung, auch wenn diesvielleicht für den Beobachter nicht sichtbar ist und das Messgerät als Ergebnis nur einenWert angibt und aufzeichnet. Intern sind dann aber bereits eine Menge von statistischenBerechnungen durchgeführt worden.

Beispiele für physikalische Messgrößen, die wir statistisch auswerten: Zeit, Tempe-ratur, Luftdruck, Niederschlagsmenge, Erdmagnetismus, Schadstoffemissionen,Gravitation, Elektromagnetische Wellenlänge, Längen, Richtungen, Koordinaten,Höhen

1zum griech. εµπειρως (empeiros): etwas aus der Erfahrung kennen

11

Page 20: MaSt Statistik 2007

12 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Neben physikalischen Messungen können wir mit der Statistik aber auch Massener-scheinungen untersuchen, quantifizieren und beschreiben. In diesem Fall wenden wirstatistische Methoden an, weil wir uns nicht für Einzelfälle interessieren, sondern Durch-schnittswerte angeben, Merkmalsträger bezüglich bestimmter Merkmale klassifizieren unddann die untersuchte Massenerscheinung hinsichtlich bestimmter Charakteristika oderHypothesen beurteilen können. Beispiele für solche „Massenerscheinungen“:

Wirtschaftsstatistik: Industrieumsätze, Arbeitslosenzahlen, Gehälter und Einkommen,Export- und Importmengen, Lebenshaltungskosten, Inflationsraten, das Brutto-sozialprodukt, Preise und Preisentwicklungen, Produktionsmengen und anderebetriebsstatistische Daten, Bettenauslastung im Tourismus

Bevölkerungsstatistik: Bevölkerungsverteilung, Zu- und abnahmen, Haushaltsgrößen,Strukturelle Angaben zu Geschlecht, Alter, Familienstand, religiöser Zugehörig-keit, Beschäftigungsart oder geographischer Verteilung

Sozialstatistik: Einkommens- und Vermögensverteilung, Sozialausgaben, Bildungsqua-lifikation und -angebot, Schüler- und Studentenzahlen

Gesundheit, Medizin und Psychologie: Ärztliche Versorgung, Krankenstände, Krank-heitsbilder und -verläufe, Therapiewirkungen, Ergebnisse psychologischer Expe-rimente, Auftreten von Tierseuchen

Neben dieser inhaltlichen Abgrenzung der Daten ist aus statistisch-mathematischerSicht aber vor allem eine Unterscheidung bezüglich des verwendeten Skalenniveausnotwendig:

2.2 Mess- und Skalenniveaus

Wenn wir Daten „messen“, so können wir die möglichen Ergebnisse nach den Datenty-pen klassifizieren. Diese Klassifizierung nennen wir auch Skalierung; Ergebnisse werdendann einer bestimmten Messskala zugeordnet. Zunächst einmal können wir unterschei-den, ob es sich um

• qualitative (auch: kategorische) oder• quantitative (auch: numerische)

Merkmale handelt.

2.2.1 Kategorische und Numerische Daten

Qualitative (kategorische) Merkmale beschreiben verschiedene Eigenschaften2 von Merk-malsträgern durch eine wertmäßige Angabe („mit Worten“).

Quantitative (numerische) Merkmale hingegen repräsentieren das „Zähl- und Mess-bare“ durch eine mengenmäßige Angabe3, meist eine reelle Zahl. Sie werden auch alsnumerische oder metrische Merkmale bezeichnet4.

Bei qualitativen Merkmalen unterscheiden wir in weiterer Folge zwischen einer

• nominalen und einer• ordinalen Skalierung

2lat. qualitas = Beschaffenheit. Beachte: im Gegensatz dazu haben in der Alltagssprache oft nur solcheDinge Qualität, die „von besonderer Güte“ sind.

3lat. quantitas = Größe4vom lat. metor = (ab)messen

Page 21: MaSt Statistik 2007

2.2. MESS- UND SKALENNIVEAUS 13

Bsp. 2.1 Qualitativ oder quantitativ? Ordinal-, Intervall- oder Rationalskala? Diskretoder stetig?

Die Stadt Aventura in Florida ist die amerikanische Stadt mit dem höchsten prozentu-ellen Bevölkerungsanteil an Österreichern (0.38 %); New York hingegen hält mit 6700Immigranten den höchsten rot-weiß-roten Absolutanteil.Mit 35.4 km ist die Grenze zwischen Österreich und Liechtenstein die weltweit neunt-kürzeste Grenze, die es zwischen Staaten gibt. Die kürzeste ist übrigens jene zwischenSpanien und Gibraltar (1.1 km), die längste jene zwischen den USA und Kanada (8893km).In Australien, Sudan, Neuseeland und 10 weiteren Staaten gibt es mehr Schafe alsEinwohner. In Dänemark, Samoa und Tuvalu mehr Schweine als Menschen. Und diemeisten Kamele gibt es im Sudan, Mauretanien und Indien (dort gibt es aber jeweilsmehr Menschen als Kamele).Am 1. Juli 1983 sank das Thermometer in Wostok in der Antarktis auf -89.2◦C undhält somit den Rekord als bisher kältester Ort der Erde.Ernest Vincent Wright schrieb 1939 den einzigen englischen Roman Gadsby, in demkein einziges Mal der Buchstabe E vorkommt. Er starb übrigens am selben Tag, andem sein Buch erschien. Im Französischen schrieb Georges Perec mit La Disparationebenfalls einen E-losen Roman, später jedoch zum Ausgleich mit Les Reventes einenRoman, in dem das E der einzige benutzte Vokal ist. Im Deutschen ist kein E-loserRoman bekannt. Gottlob Burmann hegte aber eine tiefe Abneigung gegen den Buch-staben R und verfasste zunächst 130 Gedichte ohne diesen Buchstaben, und verbannteihn später überhaupt komplett aus seiner Alltagssprache. Das führte unter anderemdazu, dass er seinen Familiennamen nicht mehr benutzen konnte.

Bei quantitativen Merkmalen verwenden wir eine

• Intervallskala, eine• Rationalskala oder eine• Absolutskala

2.2.2 Nominalskala

Nominalskalierte Merkmale sind solche, die nur qualitativ über ein „Etikett“ angegebenwerden. Eine „Messung“ besteht dann darin, dass der Merkmalsträger einer bestimm-ten Kategorie zugeordnet wird oder nicht. In der Regel haben die Merkmale nicht-numerische Werte (Begriffe, Buchstaben, Symbole), oder numerische Werte (Ziffern),die aber auch als „Namen“ aufgefasst werden und keine mathematische Bedeutunghaben. Nominalskalierte Werte besitzen deshalb auch keine mathematische Ordnung(Reihenfolge). Als Vergleichsoperation ist nur das Kriterium „gleich“ oder „verschie-den“ möglich, nicht aber „größer“ oder „kleiner“.

Beispiele: Das Geschlecht (~, |) oder der ausgeübte Beruf von Personen, ihre Na-tionalität, ihr Familienstand (ledig, verheiratet, geschieden, verwitwet), die Matrikel-nummer von Studierenden, Kfz-Kennzeichen, Postleitzahlen, die Angabe der Nieder-schlagsart (Regen, Schnee, Hagel), die Angabe von Farben etc.

Arithmetische Operationen wie die Bildung von Summen oder Differenzen sind fürnominalskalierte Merkmale nicht sinnvoll. Sie können aber ohne Informationsverlusteiner beliebigen eindeutigen Transformation unterworfen werden, d.h. ich kann sie –wenn die Regeln eindeutig sind – von einer Skala in eine andere überführen. Zum Bei-spiel können wir an Stelle der Symbole ~und |die Bezeichnungen „weiblich“ und„männlich“ oder Ziffern (1,0) benutzen.

Page 22: MaSt Statistik 2007

14 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Graduelle Nominalskala

Einige der oben genannten Beispiele lassen eine eindeutige Zuordnung zu, andere hin-gegen nicht. Während zum Beispiel die Zuordnung zu einem Geschlecht in der Regeleindeutig ist, ist es bei Berufen und vielen anderen nominal skalierten Merkmalen nichtimmer einfach, eine eindeutige Zuordnung zu treffen. Wir müssen für diese Fälle dieNominalskala noch um eine „Skala der graduellen Mitgliedschaft“ erweitern. Diese Ska-la geht davon aus, dass es zwar bestimmte „Prototypen“ gibt, die Zuordnung „gleichwie der Prototyp“ oder „verschieden von diesem Prototyp“ aber nicht immer leichtist. Hier kann es graduelle Unterschiede geben, die von „ziemlich gleich“ bis „schongar nicht mehr erkennbar gleich“ reichen können. Formal können wir diese graduelleZuordnung mit Hilfe einer Wahrscheinlichkeitsangabe vornehmen.

2.2.3 Ordinalskala

Ordinalskalierte Merkmale sind qualitative Merkmale, die hinsichtlich ihrer Größe (Be-deutung, Rang, . . . ) unterschieden und durch Rangziffern gekennzeichnet werden kön-nen. Die Ordinalskala wird daher auch Rangskala genannt. Es sind jetzt nicht nur dieVergleichsoperationen „gleich“ und „ungleich“, sondern auch „größer“ und „kleiner“möglich. Allerdings ist nicht definiert, „wie viel größer“ ein größeres Merkmal ist bzw.„wie viel kleiner“ ein kleineres.

Beispiel: Das (flächenmäßig) größte Land der Europäischen Union (Frankreich) istnicht doppelt so groß wie das zweitgrößte (Spanien), und der Unterschied zwischendem dritt- und viertgrößten (Schweden und Deutschland) ist nicht derselbe wie zwi-schen dem viert- und fünftgrößten Land (Deutschland und Finnland) etc.5.

Weitere Beispiele für ordinalskalierte Merkmale: Schulnoten auf einer Skala von 1-5, Gewässergüteklassen (Güteklasse I - „sehr gering belastet“ bis IV - „übermäßig ver-schmutzt“), Bewölkungsarten (heiter, wolkenlos, wolkig, stark bewölkt).

Arithmetische Operationen sind auch hier nicht sinnvoll. Das bedeutet unter an-derem auch, dass die Angabe eines Mittelwertes (wofür wir bekanntlich eine Summebilden müssen) nicht sinnvoll ist und – wenn es trotzdem gemacht wird – keinerleiInformation beinhaltet. Zum Beispiel hat die Angabe eines arithmetischen Mittelwertesals „Notendurchschnitt“ statistisch gesehen einen Informationsgehalt von nahezu Null.

Werte auf einer Ordinalskala können aber einer ordnungserhaltenden (das heißt ma-thematisch: monoton wachsenden) Transformation unterworfen werden. Ich kann alsozum Beispiel ein Notensystem von 1-5 umwandeln in ein Notensystem „sehr gut - gut -befriedigend - genügend - nicht genügend“. Nicht möglich hingegen ist eine Transfor-mation des österreichischen fünfstufigen Notensystems in eines mit mehr als 5 Rängen(wie sie zum Beispiel in der Schweiz, Deutschland oder Großbritannien verwendet wer-den).

Nominalskalen und Ordinalskalen werden auch als Kategorialskalen bezeichnet, weildie einzelnen Werte Kategorien repräsentieren. Dem gegenüber stehen die nun nachfol-gend beschriebenen numerischen Skalen, auf denen die Merkmale nicht nur geordnetwerden können sondern auch feste Abstände zwischen ihnen existieren.

2.2.4 Intervallskala

Intervallskala bedeutet, dass unsere Merkmale durch Zahlen repräsentiert werden, de-nen eine Maßeinheit zu Grunde liegt. Es gibt allerdings keinen absoluten Nullpunkt.

5Hier haben wir nur eine Unterscheidung in „größtes“ Land, „zweitgrößtes“ etc. gemacht, also nur denRang angegeben. Selbstverständlich könnten wir die Größe der angegebenen Länder auch in Quadratkilo-metern vergleichen und dann sehr wohl Differenzen und Verhältnisse angeben.

Page 23: MaSt Statistik 2007

2.2. MESS- UND SKALENNIVEAUS 15

Angaben über Differenzen machen zwar Sinn, Verhältnisangaben hingegen nicht. Wirkönnen zum Beispiel die geographische Länge eines Ortes angeben und auch den Län-genunterschied zweier Orte, aber nicht sagen: Kigali ist „doppelt so östlich“ wie Gmünd:Kigali liegt in Ruanda, 30◦ östlich von Greenwich, Gmünd in Niederösterreich 15◦ öst-lich von Greenwich. Bezogen auf den Nullmeridian von Ferro6 hingegen liegt Kigaliauf 47◦40′ und Gmünd auf 32◦40′, also nicht mehr „doppelt so östlich“. Ähnliches giltzum Beispiel bei Wetterbeobachtungen: Man kann nicht behaupten, 24◦C sei „doppeltso warm“ wie 12◦C – Was würde ein Engländer dazu sagen? Die Aussage: „Eine Erwär-mung von 12◦ auf 24◦ ist doppelt so groß wie eine Erwärmung von 12◦ auf 18◦“ stimmthingegen schon – auch wenn ich die Temperatur in Fahrenheit angebe.

Werte für Merkmale auf einer Intervallskala kann ich einer linearen Transformationder Form f (x) = a + bx (mit a > 0 und b ∈ R) unterwerfen. Bei so einem Skalenwechseländert sich allerdings der Quotient zweier Merkmalswerte.

Beispiel: Die Umrechnung von Temperaturwerten auf der Skala nach Celsius in eineTemperatur auf der Fahrenheit-Skala geschieht durch die lineare Transformation

TF = 32 + 1.8 · TC

Eine Temperatur von 12◦C entspricht demnach 53.6◦F, 18◦C entsprechen 64.4◦F und24◦C entsprechen 75.2◦F. Das ergibt ein Verhältnis von 1 : 1.5 : 2 auf der Celsius-Skala,aber 1 : 1.2 : 1.4 auf der Fahrenheit-Skala.

Für Differenzen hingegen sind wir von der Skala unabhängig und

(24 − 12)◦C

(18 − 12)◦C=

(75.2 − 53.6)◦F

(64.4 − 53.6)◦F= 2

Logarithmische Intervallskala

Es gibt auch Merkmale, die auf einer logarithmischen Intervallskala gemessen werden.Zur objektiven Feststellung von Erdbeben wird zum Beispiel die beim Beben ausgelösteEnergie mit Hilfe von Seismographen gemessen und auf der so genannten Richter-Skalain der Maßeinheit Magnitude angegeben. Die Magnitude gibt den (dekadischen) Loga-rithmus der Amplituden der Erdbebenwellen an. Das bedeutet, dass jeder zusätzlichePunkt auf der Skala ein zehnfach stärkeres Beben beschreibt.

2.2.5 Rationalskala

Rationalskalen (auch: Verhältnisskalen) besitzen im Gegensatz zu Intervallskalen einenabsoluten, festen Nullpunkt. Damit macht auch die Angabe von Verhältnissen einenSinn, zum Beispiel: „Von Wien nach Schladming ist es doppelt so weit wie von Wiennach Göstling an der Ybbs“ oder: „Ich verdiene halb so viel wie mein Chef“.

Beispiele für Merkmale auf einer Rationalskala sind alle Messungen physikalischerGrößen wie zum Beispiel Längen, Distanzen, Gewichte, Niederschlagsmengen, Tempe-raturangaben auf der Temperaturskala nach Kelvin, etc.

Rationalskalierte Merkmale sind invariant gegenüber Transformationen der Formf (x) = ax (mit a > 0). Dabei bleibt auch der Quotient zweier Merkmale gleich.

6Es gibt mehrere Möglichkeiten, einen Null-Meridian für geographische Längenzählungen festzulegen.In Österreich ist zum Beispiel aus historischen Gründen noch vielfach eine Zählung nach Ferro in Verwen-dung. Um 150 n.Chr. legte Ptolemäus den Nullmeridian an den „äußersten“ Teil der ihm bekannten Welt: diewestlichste Insel der Hesperiden (die heutigen „Kanarische Inseln“) namens El Hierro, auch Ferro genannt.

Page 24: MaSt Statistik 2007

16 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Zyklische Rationalskala

Ergebnisse von Winkelmessungen werden im Prinzip in Rationalskalen angegeben, al-lerdings tritt an einer bestimmten Stelle (360◦ = 400 gon = 2π rad) eine Singularitätauf und die Skala „beginnt wieder von vorne“. Dies ist insbesondere hinsichtlich deroben angegebenen proportionalen Transformationen zu beachten.

2.2.6 Absolutskala

Rationalskalen haben einen festen Nullpunkt, aber eine offene Wahl der Maßeinheit,d.h. es kann noch festgelegt werden, wie weit die „Einheit 1“ geht. Nun gibt es auchMerkmale, wo nicht nur der Nullpunkt sondern auch die Einheit 1 absolut vorgegebensind. Wir haben es dann mit einer Absolutskala zu tun. Beispiel dafür sind die Angabevon Häufigkeiten oder Wahrscheinlichkeiten.

Häufigkeiten werden durch eine Kardinalzahl angegeben, das ist die Anzahl von Ele-menten mit einer bestimmten Ausprägung, also das System, in dem wir üblicherweisezählen. Zum Beispiel die Anzahl von Menschen in diesem Raum mit bestimmten Eigen-schaften.

Wahrscheinlichkeiten werden auf einer Absolutskala angegeben, die überhaupt nurWerte zwischen 0 und 1 annehmen kann. Wir werden darauf noch in einem späterenKapitel zurückkommen.

Merkmale auf einer Absolutskala können nur einer identitätsbewahrenden Trans-formation unterworfen werden7.

Skalentyp ablesbare Informationen BeispielNominalskala Gleichheit oder Ungleichheit Namen, PostleitzahlenOrdinalskala Gleichheit/Ungleichheit, Rang-

ordnungSchulnoten, Rangliste imSport

Intervallskala Gleichheit/Ungleichheit, Rang-ordnung, Vergleich von Diffe-renzen

Temperatur in Celsius,geographische Länge,Erdbebenstärke

Rationalskala Gleichheit/Ungleichheit, Rang-ordnung, Vergleich von Diffe-renzen und von Quotienten

Temperatur in Kelvin,Länge, Fläche, Winkel

Absolutskala wie Rationalskala Wahrscheinlichkeiten,Kardinalzahlen

Tabelle 2.1: Übersicht: Zuordnung von Daten zu einem Skalentyp

Die Zuordnung von gemessenen Daten zu einem der oben angegebenen Skalenni-veaus (Tab.2.1) ist ausschlaggebend für die Auswahl der weiteren statistischen Auswer-temethode, die Art der grafischen Darstellung und die möglichen Rechenoperationen,die wir durchführen können. Hinsichtlich dieser möglichen Rechenoperationen bildendie Skalen eine Hierarchie. Dabei können Merkmale – falls erforderlich und sinnvoll– immer herabskaliert, niemals aber hinaufskaliert werden. Gemessene Niederschlags-mengen einer Rationalskala können zum Beispiel der Größe nach aufsteigend geordnetwerden; diese Rangliste ist dann nur noch ordinal skaliert. Zu beachten ist, dass beimHerabskalieren immer Information verloren geht. Dies ist auch der Grund, warum einHinaufskalieren prinzipiell unmöglich ist (ausgenommen, die notwendige höherrangi-ge Information ist noch verfügbar).

7Identitätsbewahrende Transformationen gibt es nur, um einem mathematischen Formalismus zu genügen. Inder Praxis erlaubt die Funktion f (x) = x keine großartigen Veränderungen.

Page 25: MaSt Statistik 2007

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 17

2.2.7 Diskrete und stetige statistische Merkmale

In der Statistik existieren zwei Arten von numerischen Merkmalen: diskrete und stetige.Bei diskreten Merkmalen ist die Anzahl der Ausprägungsmöglichkeiten „überschau-

bar“, d.h. es können nur endlich viele oder abzählbar-unendlich viele8 Werte angenom-men werden. Zwischen je zwei Werten liegt eine genau definierte Anzahl von „Nach-barn“. Ein Beispiel für diskrete Daten sehen wir in Tab.2.2. Die Anzahl von Studenteneines Jahrgangs, die aus einem bestimmten Bundesland kommen, kann nur in diskretenWerten angegeben werden.

Jahrgang Bundesland Anzahl2002 W 42002 NÖ 102002 B 52002 Sonst 1

2003 W 12003 NÖ 102003 B 12003 Sonst 2

Tabelle 2.2: Herkunft von IT-Studierenden nach Bundesländern je Jahrgang

Stetige (auch: kontinuierliche) Merkmale hingegen können innerhalb eines (endlichenoder unendlichen) Intervalls jeden Zahlenwert aus R annehmen – also unendlich vielebeliebige Werte. Beim Längenmessen liegen zum Beispiel zwischen 1 und 2 Zentime-tern unendlich viele weitere Zahlen (Milli-, Micro-, Nano-, Piko-, Femto-, Atto-, Zepto-und Yoctometer etc.). Die Messung physikalischer Größen liefert immer stetige Daten.

Die Unterscheidung zwischen diskreten und stetigen Daten ist relativ einfach aufeiner aus der Mathematik bekannten Zahlengeraden vorstellbar: Diskrete Daten lassensich nur als ausgewählte Punkte auf der Zahlengeraden darstellen, stetige hingegenwerden immer durch das komplette Intervall repräsentiert.

2.3 Darstellungsformen von Datenmengen

Betrachten wir zunächst folgendes Beispiel: Ein und dieselbe Strecke wurde von zweiunterschiedlichen Personen jeweils 10-mal gemessen, von einer dritten anschließendnoch 5-mal. Die Ergebnisse sind in Tab.2.3 angegeben.

Diese 25 Zahlen x1, . . . , x10; y1, . . . , y10 und z1, . . . , z5 – die so genannte Urliste – sindkaum geeignet, als ein Messergebnis, nämlich die Länge der Strecke, zu dienen. Viel-mehr kommt es darauf an, die Daten sinnvoll zu „komprimieren“, im extremsten Fallauf eine einzige Zahl. Wir könnten zum Beispiel die Daten aus Tab.2.3 durch den arith-metischen Mittelwert repräsentieren. D.h. wir dividieren die Summe aller Werte durchdie Anzahl der gemessenen Daten. In unserem Fall erhalten wir den Wert 574.751 m.

Betrachtet man allerdings die Daten etwas genauer, so erkennt man, dass dies wohlkaum der vermutlich „wahre Wert“ der Länge der Strecke ist. Alle Messwerte bis aufeinen liegen um die 574.770 m, sodass es nicht sehr wahrscheinlich ist, dass 574.751 einguter Schätzer für den wahren Wert ist. Wir wollen daher die Daten nicht „stur“ mit

8abzählbar-unendlich heißt, dass die Menge der möglichen Werte zwar theoretisch abzählbar wäre, die Men-ge aber unendlich ist und daher niemand die Zeit und Geduld aufbringt, sie tatsächlich abzuzählen. Beispiel:die Folge der natürlichen Zahlen.

Page 26: MaSt Statistik 2007

18 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Bsp. 2.2 Qualitativ oder quantitativ? Ordinal-, Intervall- oder Rationalskala? Diskretoder stetig? (Fortsetzung)

Andorra, Liechtenstein, Monaco, San Marino und der Vatikan sind die einzigen Staa-ten der Welt, die keinen eigenen Flughafen besitzen.Den weltweit längsten Kuss gaben sich James Belshaw und Sophia Severin am 11. Juli2005. Er dauerte 31 Stunden, 30 Minuten und 30 Sekunden.„Al Jumahiriyah al Arabiyah al Libiyah ash Shabiyah al Ishtirakiyah al Uzma“ istder längste offizielle Ländername; aus praktischen Gründen wird meist nur die ab-gekürzte Form „Libyien“ verwendet. Libyen ist übrigens das einzige Land der Welt,in dem es keinen einzigen (ständig wasserführenden) Fluss gibt. Und: Laut „Goo-gle Trends“ wird in deutschsprachigen Ländern ungefährt genauso oft Lybien in dieGoogle-Suchmaske eingegeben wie Libyen.Die größte amerikanische Stadt, die nach einer Frucht benannt ist, ist Orange in Kali-fornien, mit 128821 Einwohnern. Wien hingegen ist nach Seoul und Minsk die welt-weit drittgrößte Stadt, deren Namen nur aus einer Silbe besteht.Der weltweit weiteste Flug, den ein Huhn nachweislich flog, betrug 91.9 Meter, dieweiteste Distanz, die ein Sektkorken flog, hingegen nur 54.2 Meter.

Messreihe x Messreihe y Messreihe z574,775 574,772 574,775574,777 574,777 574,775574,773 574,777 574,776574,770 574,173 574,775574,775 574,774 574,775

574,772 574,773574,774 574,776574,774 574,776574,776 574,773574,779 574,774

Tabelle 2.3: Ergebnisse einer Streckenbeobachtung durch drei verschiedene Personen

einem einfachen Statistikprogramm auswerten, sondern den einzelnen Beobachtungendurchaus mit Misstrauen begegnen und „verdächtige“ Messwerte näher betrachten.

Dabei gehen wir davon aus, dass den Daten a priori ein bestimmtes stochastischesModell zu Grunde liegt, d.h. wir haben schon eine gewisse Vorstellung davon, wie dieMesswerte „vermutlich“ verteilt sind9. Dieses Modell soll nach Möglichkeit nicht durch„Ausreißer“ (extreme, vermutlich fehlerhafte Werte) gestört werden.

In unserem Beispiel fällt der Wert 574.173 m „aus der Reihe“. Es könnte sich umeinen Messfehler oder um einen Schreibfehler im Messprotokoll, aber auch schlichtund einfach um einen Druckfehler in diesem Skriptum handeln. Im Falle eines Schreib-fehlers könnten wir zum Beispiel vermuten, dass der Messprotokoll-Führer eigentlich574.773 gemeint hat und den Wert dementsprechend ändern. Das nachträgliche Änderneines Messwertes ist aber immer problematisch; wir werden den Wert daher kurzer-hand einmal einfach weglassen und für die Messreihe y nur neun Beobachtungen aus-werten. (Das gilt für alle Angaben und Aufgaben die sich in diesem Kapitel auf Tab.2.3beziehen). Zur weiteren Datenanalyse könnten wir nun die einfache Tabellendarstel-

9Davon kommt auch das für uns wichtige Wort Stochastik: griech. στoχαστικoς (stochastikos) = im Ver-muten geschickt, scharfsinnig

Page 27: MaSt Statistik 2007

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 19

Abb. 2.1 Liniendiagramm zu den Daten aus Tab.2.3

��������������������������������������������������������������������������

� � � � � � � �� �� �� �� �� �� �� �� � � �� �� �� �� ��lung aus Tab.2.3 direkt heranziehen. Zur Verbesserung der Übersichtlichkeit könnenwir die Daten aber auch graphisch darstellen, zum Beispiel in einem Liniendiagramm(Abb.2.1). Wenn wir die Daten allerdings umordnen, zum Beispiel der Größe nach, er-halten wir eine komplett andere grafische Darstellung (Abb.2.2), sodass wir versuchenwerden, etwas systematischer vorzugehen. Wir werden sowohl unsere tabellarische alsauch die grafische Darstellung „verbessern“ und Häufigkeitstabellen und verschiedenegrafische Darstellungsformen untersuchen. Manchmal – insbesondere bei stetigen Da-tenmengen bzw. bei sehr vielen, zahlenmäßig verschiedenen Messwerten – kann es da-bei zweckmäßig oder notwendig sein, die Daten vorher in Klassen einzuteilen.

Abb. 2.2 Liniendiagramm zu den der Größe nach geordneten Daten aus Tab.2.3

574,770

574,771

574,772

574,773

574,774

574,775

574,776

574,777

574,778

574,779

574,780

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

2.3.1 Klassenbildung

Klassenbildung bedeutet die Aufteilung des Wertebereichs in Teilbereiche (Klassen), dieeinander ausschließen und den Wertebereich vollständig überdecken. Die Klassengren-

Page 28: MaSt Statistik 2007

20 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

zen sollen „runde“ und „einfache“ Zahlenwerte sein. Die erste und letzte Klasse werdenoft als „offene“ Klassen geführt, d.h. von −∞ (untere Grenze der ersten Klasse) bzw.+ ∞ (obere Klasse der letzten Klasse) begrenzt. Die Klassenbreiten (= obere minus untereKlassengrenze) werden so gewählt, dass sie gleich lang sind und die Klassenhäufigkei-ten (Anzahl der Messwerte pro Klasse) nicht extrem unterschiedlich. (Die Forderungnach gleich großen Klassenbreiten ist nicht zwingend, in unseren Anwendungsfällenaber üblich).

Je weniger Klassen man bildet, desto übersichtlicher und „einfacher“ wird die Stich-probe zwar, es gehen aber auch umso mehr Informationen verloren. Je größer die An-zahl der Klassen ist, desto unübersichtlicher bleibt die Stichprobe. Bei n Elementen inder Stichprobe kann für die Ermittlung der Anzahl m der Klassen folgende Faustformelherangezogen werden:

m =

5 für n < 25√n für 25 ≤ n ≤ 100

1 + 4.5 · lg n für n > 100(2.1)

Jedenfalls sollte aber geltenm ≤ 10 · lg n (2.2)

Für die Klassenbreite d ergibt sich dann

d ≈ xmax − xmin

m(2.3)

wobei bei offenen Klassen xmin und xmax in den beiden offenen Klassen liegen sollten(also xmin in der ersten und xmax in der letzten Klasse).

Der arithmetische Mittelwert der oberen und unteren Klassengrenze wird als Klas-senmitte bezeichnet. (Bei offenen Klassen ist die Klassenmitte nicht das Mittel der Klas-sengrenzen, sondern ergibt sich entsprechend der Breiten in den anderen Klassen).Manchmal sind von einer Stichprobe nicht mehr die ursprünglichen Stichprobenwerteeinzeln bekannt, sondern nur noch die Klassenmitten und die Anzahl der in der je-weiligen Klasse liegenden Elemente. In diesem Fall wird angenommen, dass alle Wertedieser Klasse in der zugehörigen Klassenmitte liegen.

Messwerte, die genau auf einer Klassengrenze liegen, fallen je zur Hälfte in jedesder beiden angrenzenden Intervalle. Dies kann zu der eigenartig anmutenden Kon-stellation führen, dass ein Intervall nicht nur eine ganzzahlige Anzahl von Elementenenthält sondern auch 0.5, 1.5 . . . etc. Will man dies vermeiden, werden üblicherweisedie unteren Klassengrenzen in die jeweilige Klasse eingeschlossen, die oberen hingegenausgeschlossen und zur nächsten Klasse hinzugezählt.

2.3.2 Häufigkeitstabellen

Zur besseren Überschaubarkeit der Stichprobenwerte hilft eine tabellarische Darstel-lung, die die Daten der Urliste systematisch darstellt. Dabei werden zu jeder Klasse dieentsprechenden Klassengrenzen, die Klassenmitten und Angaben über die Häufigkeitvon Beobachtungswerten in dieser Klasse zusammengestellt. Im Einzelnen können dasdie absolute und relative Häufigkeit sowie die absolute und relative Häufigkeitssummesein:

Die absolute Häufigkeit ki ist die Anzahl der Beobachtungswerte, die gleich einemvorgegebenen Wert sind oder in eine bestimmte Klasse i von Werten gehören. Es mussgelten:

m

∑i=1

ki = n (2.4)

Page 29: MaSt Statistik 2007

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 21

Die absolute Häufigkeitssumme (auch: Summenhäufigkeit oder: absolute kumulierte Häu-figkeit) K ist die Anzahl der Beobachtungswerte, die einen vorgegebenen Wert (bzw. einevorgegebene Klassengrenze) nicht überschreiten:

K(xj) =

xi≤xj

∑i=1

ki (2.5)

Die relative Häufigkeit hi ist die absolute Häufigkeit dividiert durch die Gesamtzahlder Beobachtungswerte:

hi =ki

n(2.6)

Es muss gelten:m

∑i=1

h i = 1 (2.7)

Die relative Häufigkeitssumme (auch: relative Summenhäufigkeit oder: relative kumulier-te Häufigkeit) H ist die absolute Häufigkeitssumme dividiert durch die Gesamtzahl derBeobachtungswerte:

H(xj) =K(xj)

n=

xi≤xj

∑i=1

hi (2.8)

Wir können nun die Daten der Tab.2.3 in einer Häufigkeitstabelle darstellen. Tab.2.4zeigt die entsprechende Häufigkeitstabelle für die gemeinsame Betrachtung aller Datender Messreihen x, y und z.

i Klassengrenzen -mitte k K h H1 −∞ 574,7705 574,770 1 1 0,042 0,0422 574,7705 574,7715 574,771 0 1 0 0,0423 574,7715 574,7725 574,772 2 3 0,083 0,1254 574,7725 574,7735 574,773 3 6 0,125 0,255 574,7735 574,7745 574,774 4 10 0,167 0,417

6 574,7745 574,7755 574,775 6 16 0,25 0,6677 574,7755 574,7765 574,776 4 20 0,167 0,8338 574,7765 574,7775 574,777 3 23 0,125 0,9589 574,7775 574,7785 574,778 0 23 0 0,958

10 574,7785 +∞ 574,779 1 24 0,042 1Summe 24 1

Tabelle 2.4: Häufigkeitstabelle zu den Daten aus Tab. 2.3

Weitere Begriffe

Die (empirische) Verteilungsfunktion ist jene Funktion, die jedem Beobachtungswert dierelative Häufigkeitssumme zuordnet.

Die (absolute oder relative) Häufigkeitsdichte ist die absolute oder relative Häufigkeitdividiert durch die Klassenbreite.

Page 30: MaSt Statistik 2007

22 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

2.3.3 Grafische Darstellungen

Neben Häufigkeitstabellen sind oft auch grafische Darstellungen der Verteilungen hilf-reich. Durch sie lassen sich die Häufigkeiten meist besser „auf einen Blick“ erfassenals mit der Häufigkeitstabelle. Grafiken erlauben einen optischen – und damit meist„schnelleren“ – Vergleich zwischen einzelnen Werten. Auch können „Muster“ in unse-ren Daten leichter erkannt werden. Andererseits stellen Grafiken alleine (ohne die zu-grundeliegenden Tabellen) immer auch einen gewissen Informationsverlust dar, weildie absoluten numerischen Werte eventuell nicht mehr erkennbar sind.

Liniendiagramm

Liniendiagramme haben wir bereits in Abb.2.1 und Abb.2.2 gesehen. Liniendiagrammeeignen sich vor allem auch dann, wenn mehrere Datenreihen verglichen werden sollen.Allerdings geht nach ca. 5-7 Linien die Übersichtlichkeit wieder verloren.

Säulen- und Balkendiagramm

Ein Säulendiagramm (auch: Stabdiagramm) ist die grafische Repräsentation einer unklas-sierten Häufigkeitstabelle diskreter Daten. Zunächst zeichnen wir eine waagerechte Li-nie, unter der wir in regelmäßigen Abständen die Merkmalswerte (Kategorien oderZahlen) eintragen. Bei quantitativen Daten kann diese Unterteilung der Achse gleichdirekt proportional umgelegt werden, bei qualitativen Daten wählt man beliebige Ab-stände, jedenfalls so, dass alle vorkommenden Werte sinnvoll untergebracht werdenkönnen. Auf der linken Seite zeichnen wir eine senkrechte Linie und skalieren dieseentsprechend der vorkommenden (absoluten oder relativen) Häufigkeiten. Mathema-tisch haben wir damit ein Koordinatensystem mit einer Abszisse (horizontale oder „x-Achse“) und Ordinate (vertikale oder „y-Achse“) geschaffen.

Über den jeweils auf der Abszisse aufgetragenen Merkmalswerten werden nun Säu-len eingezeichnet, das sind schmale Rechtecke parallel zur Ordinate, deren Länge pro-portional zur zugehörigen Häufigkeit ist. Die Säulen haben gleiche Breite; damit istnicht nur die Länge sondern auch die Fläche proportional zur Häufigkeit. Ein Beispielfür ein Säulendiagramm ist die Darstellung in Abb.2.3.

Manchmal wird das Koordinatensystem auch gedreht (Merkmalswerte auf der senk-rechten Achse, Häufigkeiten auf der waagerechten Achse) und dann zur Unterschei-dung Balkendiagramm genannt (siehe Abb.2.4).

In einem Stab- oder Balkendiagramm lassen sich auch zwei oder mehrere Datensät-ze darstellen, was oft einen viel anschaulicheren und offensichtlicheren Vergleich zwi-schen den Datensätzen erlaubt; zum Beispiel können bei der Darstellung von Schuler-folgen die Datensätze für Mädchen und Burschen in getrennten Datensätzen dargestelltwerden etc. Dabei ist darauf zu achten, dass ein Vergleich zweier oder mehrerer Daten-sätze auf Basis der absoluten Häufigkeiten nur dann sinnvoll ist, wenn die Datensätzevom gleichen Umfang sind. Bei unterschiedlichem Umfang werden im Stabdiagrammdie relativen Häufigkeiten repräsentiert (siehe Abb.2.4).

Da wir auf der Abszisse eine „Reihenfolge“ der Daten festlegen müssen, sollten dieDaten der Urliste für diese Darstellungsform zumindest ordinal skaliert sein. Habenwir nominal skalierte Daten zur Auswertung, könnten wir eine derartige Reihenfolgenur willkürlich festlegen. Eine solche willkürliche Festlegung der Anordnung kann je-doch eine Interpretation suggerieren, die eigentlich nicht in den Daten enthalten ist.Nominal skalierte Daten werden daher besser in einem Kreisdiagramm dargestellt.

Page 31: MaSt Statistik 2007

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 23

Abb. 2.3 Ergebnis der österreichischen Nationalratswahlen 2006. Darstellung in einemSäulendiagramm. (Quelle: SORA)

Kreisdiagramme

Bei Kreisdiagrammen (auch: Tortendiagramm) wird jeder Ausprägung des Merkmals einKreissektor zugewiesen. Die Fläche des Sektors spiegelt dabei die relative Häufigkeitseines Auftretens wider. Die Sektorgrenzen können berechnet werden, indem die rela-tiven Häufigkeiten jeweils mit 360◦ multipliziert werden. Damit erhält jeder Merkmals-wert ein „Tortenstück“, dessen Größe der relativen Häufigkeit entspricht. Die einzelnenKreissektoren erhalten zur besseren Lesbarkeit meist unterschiedliche Färbungen oderGrafikmuster. Abb.2.5 zeigt ein Beispiel dafür.

Man erhält mit Kreisdiagrammen einen guten Gesamtüberblick über die Daten; ins-gesamt sollten aber nicht mehr als 7-9 Segmente (Klassen, Kategorien) vorliegen, da-mit es noch lesbar ist. Außerdem ist ein direkter Vergleich zweier Merkmale schwierig,wenn die betroffenen „Tortenstücke“ nicht zufällig benachbart sind.

Liegen mehrere Datensätze vor, so müssen sie in jeweils separaten Kreisdiagram-men dargestellt werden, was einen (optischen) Vergleich nicht gerade einfach macht. Indiesem Fall sind eventuell Streifendiagramme vorzuziehen.

Streifendiagramm

Bei einem Streifendiagramm werden die Merkmalswerte je Variable „übereinanderge-schichtet“. Im selben Diagramm können auch die Merkmalswerte einer anderen Varia-blen dargestellt werden – siehe Abb.2.6.

Histogramm

Stetige Daten aber auch umfangreiche Datensätze diskreter Werte werden vor der sta-tistischen Auswertung klassiert. Die grafische Darstellung der Häufigkeitsdichte klas-sierter Daten erfolgt in einem Histogramm (auch: Staffelbild). Im Gegensatz zum Stabdia-gramm spielen dabei die Klassenbreiten eine wichtige Rolle. Auf der Abszisse werden

Page 32: MaSt Statistik 2007

24 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.4 Ergebnis der österreischischen Nationalratswahlen 2006. Darstellung in einemBalkendiagramm. (Quelle: ORF)

die Klassengrenzen aufgetragen und über den Klassenintervallen Rechtecke errichtet,deren Flächen proportional zu den (absoluten und relativen) Häufigkeiten sind; die Bal-kenhöhen sind daher proportional zur Häufigkeitsdichte. (Achtung bei ungleichen Klas-senbreiten: nicht die Höhe sondern die Fläche ist das Maß für die Häufigkeit, die Höheist ein Maß für die Häufigkeitsdichte. Nur im Fall gleicher Klassenbreiten spielt dieserUnterschied keine Rolle). Beschriftet werden auf der Abszisse entweder die Klassen-grenzen, die Klassenindizes oder die Klassenmitten. Zu beachten ist außerdem, dass ineinem Histogramm die Säulen nahtlos aufeinander stoßen müssen (im Gegensatz zumStabdiagramm). Abb.2.7 zeigt ein Histogramm zu den Daten aus der Tab.2.3, und zwarfür eine gemeinsame Betrachtung der Messreihen x, y und z.

Es sei hier noch angemerkt, dass verschiedene Statistikprogramme die genanntenDiagramme und Histogramme auch in einer dreidimensionalen Ausprägung anbieten.Dies wird vor allem dann Verwendung finden, wenn wir die statistische Verteilungzweier Merkmale zugleich darstellen wollen.

Häufigkeitssummenkurve

Die grafische Darstellung der Verteilungsfunktion ist die Häufigkeitssummenkurve (auch:Summenhäufigkeitspolygon). Das ist ein Polygon, das entsteht, indem für jede Klasse einPunkt mit der oberen Klassengrenze als Abszisse und der zugeordneten relativen Häu-figkeitssumme als Ordinatenwert gezeichnet werden und benachbarte Punkte linearverbunden werden. Im Falle nichtklassierter Beobachtungen wird die relative Häufig-keitssumme über allen Beobachtungswerten aufgetragen. Bei diskreten Beobachtungs-größen entsteht eine treppenartige Funktion, bei der jedes Stichprobenelement eineSprungstelle ist. Die Sprunghöhen sind gleich den relativen Häufigkeiten h. Abb.2.8zeigt die Häufigkeitssummenkurve zu den Daten aus Tab.2.3.

Page 33: MaSt Statistik 2007

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 25

Abb. 2.5 Wegzüge aus Österreich ins Ausland nach Staatsangehörigkeit. Darstellung ineinem Kreisdiagramm. (Quelle: Statistik Austria, Statistisches Jahrbuch 2002)

Stamm-und-Blatt-Diagramm

Eine Alternative zu Stabdiagramm und Histogramm ist das Stamm-und-Blatt-Diagramm.Er ist ähnlich anschaulich wie diese, beinhaltet aber auch noch explizit alle Daten underleichtert so das direkte Berechnen wichtiger Kenngrößen der Datenverteilung.

Um ein Stamm-und-Blatt-Diagramm zu erstellen, wählt man zunächst eine Einheitfür die Messdaten, und zwar so, dass die gesuchte „interessierende“ Stelle die 1. Nach-kommastelle ist. In unserem Beispiel (Tab.2.3) interessiert uns zum Beispiel der „rich-tige“ Millimeter – wir wählen also als Einheit für die Messdaten Zentimeter [cm] undteilen alle Datenwerte an der Stelle des Dezimalkommas in „Stamm“ und “Blätter“. Be-achte: Es darf nicht vergessen werden, im Stamm-und-Blatt-Diagramm eine Legendeanzugeben, aus der die Einheiten des Stammes und der Blätter ersichtlich sind!

Man zeichnet eine vertikale Linie und trägt davor die Ziffern vor dem Komma ein.Sie bilden den Stamm. Rechts von den Stamm-Einträgen werden auf horizontalen „Äs-ten“ jeweils die Nachkommastellen eingetragen (die einzelnen Blätter). Dabei gehörenalle Werte, die in einer Klasse liegen, zu einem Blatt. Ergänzend können links vomStamm noch die jeweiligen Summenhäufigkeiten angegeben werden. Abb.2.9 zeigt zweiunterschiedliche Möglichkeiten eines Stamm-und-Blatt-Diagramms zu den Daten ausTab.2.3, einmal mit einer Klassierung der Daten in 10 Klassen und einer Klassenbreitevon 1 mm und einmal mit 5 Klassen und einer Klassenbreite von 2 mm.

Stamm-und-Blatt-Diagramme eignen sich nicht für extrem große Datenmengen. Stamm-größen zwischen 5 und 20 „Ästen“ sind ideal für eine anschauliche Datendarstellung.Zu beachten ist außerdem, dass die „Blätter“ auch aus mehreren Ziffern bestehen kön-nen (mehrere Nachkommastellen). In diesem Fall sind sie durch Kommata zu trennen.

Nachdem wir unsere Daten nun grafisch dargestellt und ihre Verteilung veranschau-licht haben, werden wir im nächsten Schritt die Art und Weise der Verteilung der Mess-werte auch numerisch charakterisieren. Ziel ist es dabei, die Datenmenge durch einigewenige Kennwerte möglichst gut zu beschreiben.

Page 34: MaSt Statistik 2007

26 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.6 Herkunft der Studierenden zweier Jahrgänge (vgl. Tab.2.2)

Abb. 2.7 Histogramm zur Tab.2.4

�� �

� � � � � � � � �2.4 Kennwerte empirischer Häufigkeitsverteilungen

Eine Häufigkeitsverteilung ist der Zusammenhang zwischen den Beobachtungswertenund den (absoluten und relativen) Häufigkeiten bzw. Häufigkeitssummen ihres Auf-tretens. Betrachten wir dabei immer nur ein Merkmal, so sprechen wir von univariater10

Häufigkeitsverteilung; bei zwei Merkmalen von bivariater und bei mehreren Merkma-len von multivariater Häufigkeitsverteilung. Im Rahmen unserer weiteren Überlegun-gen werden wir uns zunächst auf univariate Häufigkeitsverteilungen beschränken. Au-ßerdem betrachten wir in diesem Kapitel ausschließlich empirische Daten und somitStichproben.

Jede Häufigkeitsverteilung kann durch verschiedene Kenngrößen charakterisiertwerden; insbesondere gibt es Kenngrößen der Lage, der Streuung und der Form der Ver-teilung. Jedem einzelnen Beobachtungswert kann außerdem eine Rangzahl zugeordnetsein, das ist die Nummer des Wertes in der nach aufsteigenden Zahlenwerten geordne-ten Folge von Beobachtungswerten.

10vom lat. variare = verschieden sein

Page 35: MaSt Statistik 2007

2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN 27

Abb. 2.8 Häufigkeitssummenkurve zu den Daten aus Tab.2.3. Einheit Abszissenachse(Klassengrenzen): mm (+574.77 m)

�����������������������������

��� � ��� � ��� � ��� � ��� � ��� � ��� � ��� � ��� � ��� � ���Abb. 2.9 Stamm-und-Blatt-Diagramm zu den Daten aus Tab.2.3 mit den zwei Klassen-anzahlen m = 10 und m = 5 und den Klassenbreiten d = 1 mm bzw. d = 2 mm

K [cm] K [cm]1 57477 013 2 2 1 57477 06 3 3 3 6 2 2 3 3 3

10 4 4 4 4 16 4 4 4 4 5 5 5 5 5 516 5 5 5 5 5 5 23 6 6 6 6 7 7 720 6 6 6 6 24 923 7 7 72324 9

2.4.1 Lage-Kennwerte empirischer Häufigkeitsverteilungen

Lagekennwerte (auch: Ortsparameter) charakterisieren in summarischer Art und Weisedie Verteilung der Beobachtungswerte.

Minimaler und maximaler Wert

Zunächst einmal kann man für jede Datenmenge einen Maximalwert xmax und einenMinimalwert xmin angeben. Sind die Daten entsprechend ihrer Rangzahl indiziert, so ist

xmin = x1 (2.9)

und

xmax = xn (2.10)

Page 36: MaSt Statistik 2007

28 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Arithmetischer Mittelwert

Der arithmetische Mittelwert ist der Quotient der Summe der Beobachtungswerte divi-diert durch die Anzahl der Beobachtungswerte:

x =1n

n

∑i=1

xi =x1 + x2 + · · · + xn

n(2.11)

Hinweis: Das Eigenschaftswort „arithmetisch“11 wird oft auch weggelassen.Stellen wir uns die Darstellung einer Datenreihe in einem Histogramm vor und die-

ses Histogramm auf dem Balken einer Balkenwaage montiert, so ist der Mittelwertident mit dem Schwerpunkt dieses Systems, das heißt jener Punkt, in dem die Waageaufliegen muss, damit sie im Gleichgewicht ist.

Der Mittelwert muss übrigens kein tatsächlich beobachteter Wert sein sondern istnur eine Rechengröße (was sich aus seiner Definition ohnehin von selbst ergibt). Damitist aber die praktische Interpretation des Mittelwertes manchmal schwierig. Haben wirzum Beispiel diskrete Daten vorliegen, wie die „Anzahl der Kinder pro Familie“, so er-halten wir oft einen Mittelwert aus einer nicht-diskreten mathematischen Menge (zumBeispiel 1.8 Kinder). Außerdem sei erneut darauf hingewiesen, dass ein Mittelwert nurfür numerische Merkmale einen Sinn ergibt. Die Berechnung eines Mittelwertes aus or-dinal skalierten Merkmalen (zum Beispiel eine „Durchschnittsnote“ auf Grund einesZeugnisses) ist statistisch gesehen ohne Aussagekraft.

Bsp. 2.3 (Quelle: Salzburger Nachrichten, 2.10.2007)

Drei volle Tage verbringt laut einem Studienergebnis ein durchschnittlicher Autofah-rer in der 18-Millionen-Einwohner-Metropole Los Angeles jährlich im Stau. Durchden Stop-and-go-Verkehr verschwende der Durchschnittsfahrer nicht nur seine Zeit,sondern auch noch 200 Liter Treibstoff pro Jahr, ermittelte das Verkehrsinstitut Texas.Damit liegen die Einwohner der kalifornischen Stadt erheblich über dem US-Schnitt,der bei 38 Stunden Stau pro Jahr und 100 damit vergeudeten Litern Benzin liegt. Lan-desweit kosten Staus die US-Volkswirtschaft demnach 78 Milliarden Dollar pro Jahr.4.2 Arbeitsstunden gehen verloren.

Quantile

Werte, welche eine der Größe nach geordnete Beobachtungsreihe (eine Rangliste) inzwei Anteile zerlegen, werden α-Quantile genannt, wobei α den Umfang der „abge-teilten“ Daten angibt. α kann zwischen 0 und 1 bzw. zwischen 0% und 100% liegen.Man findet die entsprechenden Werte, indem man zunächst die zugehörige Rangzahlbestimmt:

rα = α(n − 1) + 1 (2.12)

d.h. der Wert an der Stelle rα ist das gesuchte Quantil. Im Allgemeinen wird rα keineganze Zahl sein, daher kann man auch nicht immer einen tatsächlich beobachteten Wertals Quantil angeben. Gegebenenfalls muss zwischen den Werten an der Stelle int(rα)und (int(rα) + 1) linear interpoliert werden:

xα = xint(rα) + (rα − rint(rα))(xint(rα)+1 − xint(rα)) (2.13)

11griech. αριθµητικoς (arithmetikos) = im Zählen oder Rechnen geschickt

Page 37: MaSt Statistik 2007

2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN 29

Wichtige Quantile sind das 0.5-Quantil und das 0.25-Quantil. Das 0.5-Quantil ist der„mittelste“ Datenwert, d.h. oberhalb und unterhalb liegen je 50% der Werte. Es wirddaher auch Median x1/2 oder Zentralwert genannt.

Für den Median können wir Formel (2.13) auch anders angeben, je nachdem, ob ngerade oder ungerade ist:

x1/2 =

{

xk+1 mit n = 2k + 1 (ungerade)12 · (xk + xk+1) mit n = 2k (gerade)

(2.14)

Ein weiteres wichtiges Quantil – das 0.25-Quantil – teilt zusammen mit dem 0.75-Quantil und dem Median eine Häufigkeitsverteilung in 4 gleiche Abschnitte und wirddaher Quartil („Viertelwert“) genannt. Oft wird das 0.25-Quantil auch als unteres Quartilund das zugehörige (1 − α) = 0.75-Quantil als oberes Quartil bezeichnet12. Oberhalbdes oberen Quartils (x3/4) und unterhalb des unteren Quartils (x1/4) liegen je 25 % derWerte. Man könnte das auch so sagen: „Das untere Quartil ist der Median der unterenDatenhälfte; das obere Quartil ist der Median der oberen Datenhälfte“.

Werden Quantile in Prozenten angegeben (zum Beispiel das 10%-Quantil, das 10%der Daten von den übrigen 90% abtrennt), so werden sie auch als Perzentile bezeichnet.In unseren Anwendungen werden jene Perzentile eine gewisse Rolle spielen, die 5%,1% bzw. 0.1% der Daten abtrennen.

Mittelwert versus Median

Mittelwert und Median werden beide verwendet, um eine umfangreich Datenmengedurch einen einzigen Wert möglichst gut zu repräsentieren. Im allgemeinen Sprach-gebrauch sagen wir auch: wir suchen den Durchschnitt. Mittelwert und Median habendabei unterschiedliche Eigenschaften, die sie – je nach Anwendungsfall – geeignetererschienen lassen, diese Aufgabe zu erfüllen.

Sie zeigen zum Beispiel unterschiedliches Resistenzverhalten (Widerstandsfähigkeit)gegenüber Ausreißern. Der Mittelwert ist sehr empfindlich gegenüber Ausreißern. Eineinzelner Wert kann x bedeutend verändern, wie der Wert 574.173 in der Tab.2.3 zeigt.Ursprünglich wäre der Mittelwert (aus 25 Beobachtungen) 574.751, nach dem Streichendes offensichtlichen fehlerhaften Wertes 574.173 ergibt sich (aus nunmehr 24 Beobach-tungen) für x = 574.775.

Der Median hingegen wird durch einzelne Ausreißer kaum verändert. Ändert sichein Datenwert – egal um wie viel – so ändert der Median seinen Wert nur dann, wenndieser Datenwert von der einen Hälfte der geordneten Daten in die andere Hälfte wan-dert. In unserem Beispiel (Tab.2.3) bleibt er mit oder ohne Ausreißer mit 574.775 gleich.Eine weitere unterschiedliche Eigenschaft von Mittelwert und Median betrifft die Op-

Bsp. 2.4 Mittelwert versus Median

Treten Sie in Gehaltsverhandlungen mit Ihrem Chef und nehmen einen „mittlerenWert“ aus allen Gehältern innerhalb der Firma als Grundlage, so verwenden Sie denarithmetischen Mittelwert, weil dann das überproportionale Gehalt Ihres Chefs als„Ausreißer“ den Mittelwert erhöhen wird.Ihr Chef wird hingegen versuchen, den Median als Basis heranzuziehen, weil danndie Höhe seines Gehalts keinen Einfluss hat . . . .

12Achtung: Die Bezeichnung „oberes“ bzw. „unteres“ Quartil ist in Bezug auf Abb.2.9 etwas irreführend:„Oben“ und „unten“ bedeutet nämlich nicht, dass die Daten im oberen oder unteren Bereich des Stamm-und-Blatt-Diagramms liegen, sondern im oberen oder unteren Bereich der der Größe nach geordneten Daten.

Page 38: MaSt Statistik 2007

30 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

timalitätseigenschaften. Mittelwert und Median sollen die Datenmenge „optimal“ reprä-sentieren. Sie erfüllen dabei folgende Eigenschaften:

n

∑i=1

|xi − x1/2| → min (2.15)

n

∑i=1

(xi−x)2 → min (2.16)

Der Median ist also jener Wert, der die Summe der betragsmäßigen Abweichungenminimiert; der Mittelwert minimiert die Summe der quadratischen Abweichungen.

Bei der praktischen Berechnung gibt es auch einen Unterschied zwischen Mittelwertund Median: Während für den arithmetischen Mittelwert die (ungeordnete) Urliste her-angezogen werden kann, müssen zur Berechnung des Medians die Daten zuerst in eine(der Größe nach geordnete) Rangliste gebracht werden.

Bezüglich der Skalierung der Merkmale unterschieden sich Median und Mittelwertdahingehend, dass das arithmetische Mittel ein numerisches Skalenniveau verlangt,der Median hingegen für numerische oder ordinal skalierte Merkmale angegeben wer-den kann. (Es macht somit also Sinn, den Median von Schulnoten anzugeben).

Modalwert

Der Modalwert ist jener Wert, zu dem ein Maximum der absoluten oder relativen Häu-figkeit (oder der Häufigkeitsdichte) gehört, d.h. jene(r) Wert(e), der/die in der Stichpro-be am häufigsten vorkommt (vorkommen). Gibt es nur einen einzigen Modalwert, sospricht man auch von einer unimodalen Verteilung und bezeichnet den Modalwert selbstals häufigsten Wert. Modalwerte können sowohl auf qualitativen als auch auf quantita-tiven Skalen angegeben werden.

Die Daten der Tab.2.3 bzw. der Messreihe z sind unimodal mit einem Modalwert vonjeweils 574.775. Messreihe x hingegen hat die beiden Modalwerte 574.774 und 574.775;Messreihe y gleich vier Modalwerte (574.773, 574.774, 574.776, 574.777).

Man sieht die Anzahl der Modalwerte auch sehr gut in einem Histogramm. AusAbb.2.7 ist beispielsweise sofort ersichtlich, dass es sich um eine unimodale Verteilunghandelt, weil es nur einen „Höchstwert“ gibt.

Der Modalwert ist übrigens aus offensichtlichen Gründen – stärker noch als derMedian – resistent gegen Ausreißer.

2.4.2 Streuungskennwerte empirischer Häufigkeitsverteilungen

Lageparameter geben noch kein vollständiges Bild der Daten und ihrer Verteilung wie-der. So haben zum Beispiel sowohl die Messreihen x, y und z und auch die Gesamtda-tenreihe (Tab.2.3) alle denselben Mittelwert (auf mm gerundet), die Histogramme undHäufigkeitssummenkurven hingegen sehen alle anders aus. Offensichtlich gibt es nochein anderes wichtiges Unterscheidungsmerkmal von Messreihen. Es sind dies für nu-merisch skalierte Merkmale die Streuungs-Kennwerte, die die Schwankungen der Datencharakterisieren.

Spannweiten

Die Spannweite ist die Differenz zwischen dem größten und dem kleinsten Beobach-tungswert:

∆ = xmax − xmin (2.17)

Page 39: MaSt Statistik 2007

2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN 31

Die Quartilspannweite (auch: Quartilabstand oder Viertelweite) ist Differenz zwischendem oberen und unteren Quartil:

∆0.25 = x3/4 − x1/4 (2.18)

Die Quartilspannweite kann dazu verwendet werden, um in einer ersten NäherungAusreißer-Grenzen festzulegen:

Au = x1/4 − 1.5 · ∆0.25 (2.19)

Ao = x3/4 + 1.5 · ∆0.25 (2.20)

Datenwerte, die außerhalb des Intervalls [Au, Ao] liegen, können als extreme Werte(Ausreißer) angesehen und eventuell gestrichen werden. Achtung: Dies ist nur ein nä-herungsweises Vorgehen. Es gibt auch statistisch exakte Ausreißer-Test.

Empirische Varianz und Standardabweichung

Die empirische Varianz (auch: Stichprobenstreuung) charakterisiert die Abweichungen derDaten von ihrem Mittelwert. Es ist die Summe der quadrierten Abweichungen der Be-obachtungswerte von ihrem arithmetischen Mittelwert dividiert durch (n − 1); sie wirddaher auch mittlere quadratische Abweichung genannt:

s2 =1

n − 1

n

∑i=1

(xi − x)2 (2.21)

Die empirische Standardabweichung ist die positive Quadratwurzel aus der Varianz:

s =√

s2 (2.22)

Der empirische Variationskoeffizient (auch: relative Abweichung) ist die Standardabwei-chung dividiert durch den Betrag des arithmetischen Mittelwerts; er wird manchmalauch in Prozent angegeben:

vx =s

|x| · 100% (2.23)

Hat man zum Beispiel bei einer Streckenbeobachtung von 1 km Länge eine Stan-dardabweichung von 5 mm, so beträgt die relative Abweichung

s

|x| =5

1000000= 5 · 10−6

was auch als 5 mm/km oder als 5 ppm (steht für: parts per million) geschrieben wird. Aufeine Million Millimeter kommen also 5 mm Abweichung.

Anmerkung: Das Eigenschaftswort „empirisch“ unterscheidet die genannten Größenvon den gleich lautenden theoretischen Größen, die wir im nächsten Kapitel kennenlernen werden. Auf diese genaue Bezeichnung kann verzichtet werden, wenn aus demZusammenhang klar ist, dass es sich um empirische Größen handelt.

Bevor wir nun noch eine weitere Gruppe von Kennwerten näher ansehen, müssenwir unsere Beobachtungswerte noch zentrieren und standardisieren:

Page 40: MaSt Statistik 2007

32 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

2.4.3 Zentrierter, normierter und standardisierter Beobachtungswert

Der zentrierte Beobachtungswert ist der Beobachtungswert minus des arithmetischen Mit-telwerts:

xi − x (2.24)

Zentriert man einen gesamten Datensatz, dann ist das arithmetische Mittel der zentrier-ten Daten gleich Null.

Der normierte Beobachtungswert ist der Beobachtungswert dividiert durch die Stan-dardabweichung:

xi

s(2.25)

Normiert man einen gesamten Datensatz, dann ist die Standardabweichung der nor-mierten Daten gleich Eins.

Der standardisierte Beobachtungswert ist der zentrierte Beobachtungswert dividiertdurch die Standardabweichung, es wird also zuerst zentriert und anschließend nor-miert:

z =xi − x

s(2.26)

Dieser Wert (manchmal übrigens auch als z-Wert bezeichnet) gibt an, „wie viele Stan-dardabweichungen“ der Messwert xi vom Mittelwert x entfernt ist. Der z-Wert ist di-mensionslos. Das Vorzeichen gibt Auskunft darüber, ob der Wert über- oder unter-durchschnittlich ist. Ein z-Wert von 2 gibt zum Beispiel an, dass der zugehörige Mess-wert 2 Standardabweichungen oberhalb des Mittelwertes liegt; ein z-Wert von −1.7 be-deutet, dass der zugehörige Messwert 1.7 Standardabweichungen unterhalb des Mit-telwertes liegt.

Wir können den z-Wert auch als Kriterium für das Auffinden von Ausreißern ver-wenden: Ein z-Wert kleiner als −3 oder größer als +3 weist auf einen solchen Ausreißerhin.

2.4.4 Form-Kennwerte empirischer Häufigkeitsverteilungen

Die nun folgenden Form-Kennwerte sind etwas kompliziert zu berechnen, geben aberwichtige Eigenschaften der Verteilung bezüglich ihrer Symmetrie und Wölbung an.

Schiefe und Wölbung

Die Schiefe einer Häufigkeitsverteilung ist der arithmetische Mittelwert der dritten Po-tenz der standardisierten Beobachtungswerte:

γ1 =1n

n

∑i=1

(

xi − x

s

)3

(2.27)

Sie beschreibt, inwieweit die Häufigkeitsverteilung von der Symmetrie abweicht:Eine Schiefe von Null heißt (siehe auch Abb.2.10): es handelt sich um eine symmetrischeVerteilung und der Median und Mittelwert sind gleich groß.

Ein positiver Wert bedeutet, dass die Verteilung „rechtsschief“ ist und der größereTeil der Merkmalsträger sich am Anfang der Häufigkeitsverteilung konzentriert. Dasarithmetische Mittel ist dann größer als der Median, liegt also rechts von ihm. Ein nega-tiver Wert bedeutet, dass die Verteilung „linksschief“ ist. Die meisten Daten befindensich am Ende der Daten im oberen Bereich der Verteilung und das arithmetische Mittelist kleiner als der Median (liegt also links vom Median). Siehe Abb.2.11.

Page 41: MaSt Statistik 2007

2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN 33

Abb. 2.10 Unimodale (linkes Bild) und bimodale (rechtes Bild) symmetrische Verteilungmit einer Schiefe von jeweils γ1 = 0.

Abb. 2.11 Rechtsschiefe (linkes Bild, γ1 = +0.2) und linksschiefe (rechtes Bild, γ1 =−0.2) Verteilung.

Der numerische Wert der Schiefe, den man aus Formel (2.27) erhält, hängt sehr vonAusreißern ab. Daher sollte die endgültige Beurteilung der Schiefe am besten durchzusätzliche Betrachtung einer grafischen Darstellung, zum Beispiel des Histogrammsoder Stamm-und-Blatt-Diagramms, erfolgen.

Die Kurtosis13 einer Häufigkeitsverteilung ist der arithmetische Mittelwert der vier-ten Potenz der standardisierten Beobachtungswerte:

γ2 =1n

n

∑i=1

(

xi − x

s

)4

(2.28)

Die Kurtosis beschreibt die „Wölbung“ einer Verteilung. Sie zeigt an, in welchemMaße sich Daten um die Mitte einer Verteilung gruppieren bzw. ob die Verteilung ab-geflacht oder gewölbt ist. Mathematisch heißt das, die Kurtosis charakterisiert die Ver-teilung hinsichtlich der Nähe der Wendepunkte zum Maximum der Verteilung.

Die Kurtosis der für uns wichtigsten Verteilung (das ist die Normalverteilung, diewir im nächsten Kapitel kennen lernen werden) hat den Zahlenwert γ2 = 3. Eine Ver-teilung mit γ2 = 3 wird auch als normal gewölbt bezeichnet. Je nach dem Grad der Wöl-bung wird zwischen steil gewölbten (γ2 > 3) und flach gewölbten (γ2 < 3) Verteilungenunterschieden. Siehe Abb.2.12.

Diese Definition des Kennwertes für die Wölbung stammt von Pearson14. Eine an-

13vom griech. κυρτoς (kyrtos) = krumm, gewölbt14Karl Pearson, 1857-1936. Er war es auch, der den Begriff Standardabweichung erstmals verwendete

Page 42: MaSt Statistik 2007

34 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.12 Steilgewölbte (linkes Bild, γ2 = 3.1, β2 > 0) und flachgewölbte (rechtes Bild,γ2 = 2.0, β2 < 0) Verteilung.

dere, jene von Fisher15, vermindert die Kurtosis um den Faktor 3 (also die Kurtosis derNormalverteilung), und man erhält den so genannten Exzess: Der Exzess einer Häufig-keitsverteilung ist die um den Zahlenwert 3 verminderte Kurtosis:

β2 =1n

n

∑i=1

(

xi − x

s

)4

− 3 (2.29)

Dementsprechend ist eine Verteilung normal gewölbt, wenn β2 = 0 ist, flach gewölbt wennβ2 < 0 und steil gewölbt wenn β2 > 0.

2.5 Statistische Begriffe der Messtechnik

Zusätzlich zu den bisher genannten Begriffen und Methoden der mathematischen Sta-tistik werden in der physikalischen Messtechnik zur statistischen Beschreibung derDaten noch weitere Kennwerte verwendet. Es sind dies insbesondere der Begriff des„wahren Wertes“ und die Unterscheidung und Unterteilung der Abweichungen dereinzelnen Messwerte nach ihrer Ursache („systematische“ und „zufällige“ Abweichun-gen).

2.5.1 Wahrer Wert und Erwartungswert

Der wahre Wert xw ist ein spezielles Merkmal von Messgrößen16. Jede Messgröße hat„im Augenblick ihrer Beobachtung“ einen bestimmten Wert, der sich aber in den meis-ten Fällen einer Bestimmung entzieht, weil es keine „fehlerfreie“ Messmethode gibt.Ausnahme: durch mathematische oder geometrische Bedingungen kann ein wahrerWert a priori vorgegeben sein, zum Beispiel ist die Winkelsumme in einem geschlos-senen Polygon immer (n − 2) · 180◦.

Man kann durch „hochgenaue“ Messungen mit entsprechend hohem Messaufwandsehr nahe an den (unbekannten) wahren Wert herankommen, d.h. die Abweichung die-ser hochgenauen Messung vom wahren Wert ist für den jeweils betrachteten Zweckvernachlässigbar klein. Der Wert wird dann richtiger Wert oder Soll-Wert genannt.

15Ronald Aylmer Fisher, 1890-1962.16Nicht alle Merkmale haben einen „wahren Wert“. Der Verkehrswert eines Grundstücks etwa hat zwar

einen Erwartungswert (bzw. einen Schätzwert dafür, nämlich den Mittelwert aus „sehr vielen“ Kaufpreisen),aber keinen wahren Wert.

Page 43: MaSt Statistik 2007

2.5. STATISTISCHE BEGRIFFE DER MESSTECHNIK 35

Der Mittelwert aller theoretisch möglichen Messwerte xi ist der Erwartungswert µ.Auch der Erwartungswert ist – wie der wahre Wert – nur eine theoretische Größe (mankann ja nicht alle möglichen Messwerte bestimmen). Ein empirischer Schätzwert fürden Erwartungswert ist der arithmetische Mittelwert x.

2.5.2 Messabweichungen

Eine Abweichung ist die Differenz zwischen einer beobachteten Messgröße (Ist-Wert)und einer bestimmten, ihr zugeordneten Bezugsgröße (Soll-Wert). Entspricht dem Soll-Wert der wahre Wert xw und dem Ist-Wert der beobachtete Messwert xi der Messgröße,so ist

η = φIST − φSOLL = xi − xw (2.30)

die wahre Abweichung η. Sie setzt sich aus einem systematischen und einem zufälligenAnteil zusammen:

η = δ + εi (2.31)

Die Unterscheidung zwischen „systematisch“ und „zufällig“ hängt mit der Ursacheder Messabweichung zusammen: Jeder Messwert und damit jedes Messergebnis füreine Messgröße wird beeinflusst durch Unvollkommenheit der Messgeräte, des Mess-verfahrens und des Messobjektes, außerdem durch Umwelt und Beobachter, wobei sichauch zeitliche Änderungen aller genannten Einflüsse auswirken.

Als Umwelteinflüsse sind örtliche Unterschiede und zeitliche Änderungen beispiels-weise von Temperatur, Luftdruck, aber auch von äußeren elektrischen oder magneti-schen Feldern zu be(ob)achten. Der durch den Beobachter verursachte Anteil an derAbweichung ist abhängig von Aufmerksamkeit, Übung, Sehschärfe, Schätzvermögenund anderen Eigenschaften und Fähigkeiten.

Grobe Fehler

Ein Messergebnis kann durch Irrtümer der Beobachter, durch Wahl eines ungeeignetenMessverfahrens oder durch Nichtbeachten bekannter Störeinflüsse verfälscht werden.Liegt eine dieser Ursachen für eine Abweichung vor, so spricht man von einem Feh-ler, manchmal auch von einem groben Fehler. Solche Fehler können in der Regel durchhinreichende Kontrollen aufgedeckt und eliminiert werden.

Systematische Abweichungen

Systematische Abweichungen haben ihre Ursache darin, dass man die Wirklichkeitdurch ein zu einfaches mathematisches oder physikalisches Modell ersetzt. Wenn sieauftreten, so sind sie meist in allen Beobachtungswerten einer Messreihe enthalten. Siewerden auch als regelmäßige Abweichungen bezeichnet.

Es gibt systematische Abweichungen, die während der Messung einen konstantenBetrag und ein bestimmtes Vorzeichen haben (zum Beispiel bei falsche Justierung desMessgeräts) und solche, die zwar nur in eine bestimmte Richtung wirken, sich aber zeit-lich verändern (zum Beispiel bei Abnutzung des Messgeräts oder bei einem gerichtetenTemperaturgang während der Messung).

Bekannte systematische Abweichungen – sowohl konstante wie zeitlich veränderli-che – können durch Korrektion berücksichtigt werden. Man erhält dadurch einen be-richtigten Messwert. Voraussetzung ist, dass man die systematische Abweichung mathe-matisch formulieren kann.

Page 44: MaSt Statistik 2007

36 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Unbekannte systematische Abweichungen können auf Grund experimenteller Erfah-rung nur vermutet werden, Betrag und Vorzeichen aber nicht eindeutig angegeben wer-den. Eine strenge Unterscheidung zwischen unbekannten systematischen Abweichun-gen und zufälligen Abweichungen ist dann nicht immer möglich; sie werden daherhäufig wie zufällige Abweichungen behandelt.

Systematische Abweichungen werden übirgens auch im deutschen Sprachgebrauchoft mit der englischen Bezeichnung bias bezeichnet.

Zufällige Abweichungen

Nicht beherrschbare, nicht einseitig gerichtete Einflüsse führen zu zufälligen Abwei-chungen der Messwerte. Zu ihrer Modellierung und Abschätzung geht man davonaus, dass sie den Gesetzen der Wahrscheinlichkeitsrechnung folgen (daher auch: sto-chastische Abweichungen). Es zeigt sich, dass bei einer großen Anzahl von Messungeneiner physikalischen Größe

1. kleine zufällige Abweichungen häufiger auftreten als große

2. Abweichungen gleichen Betrags annähernd gleich oft mit positivem und negati-vem Vorzeichen vorkommen

3. die Häufigkeit des Vorkommens einer Abweichung gleich Null ein Maximum ist.

Auf diese Phänomene, die mit der so genannten Normalverteilung zusammenhängen,werden wir im nächsten Kapitel zurückkommen.

Der Zusammenhang zwischen Messwert, wahrem Wert und Erwartungswert, sowiesystematischen und zufälligen Abweichungen sei noch anhand der folgenden Grafikveranschaulicht (Abb.2.13):

Abb. 2.13 Zusammenhang zwischen wahrem Wert xw, Erwartungswert µ, systemati-scher Abweichung δ und zufälligen Abweichungen ε

Es gilt offenbar für einen Messwert xi

εi = xi − µ (2.32)

δ = µ − xw (2.33)

η = xi − xw (2.34)

Page 45: MaSt Statistik 2007

2.5. STATISTISCHE BEGRIFFE DER MESSTECHNIK 37

2.5.3 Genauigkeit – Präzision – Richtigkeit – Auflösung: Ein babylo-nisches Sprachengewirr

Die Begriffe „Genauigkeit“, „Präzision“, „Richtigkeit“ und „Auflösung“ werden – auchim fachlich einschlägigen Sprachgebrauch nicht immer korrekt verwendet. Zur Veran-schaulichung der Begriffe möge das Beispiel einer Zielscheibe dienen (Abb.2.14).

Abb. 2.14 Präzision und Richtigkeit als Kriterien der Genauigkeit

Genauigkeit ist die qualitative Bezeichnung für das Ausmaß der Annäherung einesMessergebnisses an den Bezugswert (das kann der wahre Wert, ein Soll-Wert oder derErwartungswert sein). Sie setzt sich aus zwei Kriterien zusammen: der Richtigkeit undder Präzision.

Richtigkeit ist die qualitative Bezeichnung für das Ausmaß der Annäherung des Er-wartungswertes an den wahren Wert (oder quasi-wahren Wert). Ein entsprechendesquantitatives Maß für die Richtigkeit ist demnach die systematische Abweichung δ.Je kleiner die systematischen Abweichungen, desto richtiger ist das Messergebnis. DieRichtigkeit wird auch als äußere Genauigkeit (auch: Treffergenauigkeit – vgl. Abb.2.14) be-zeichnet.

Kennt man den wahren Wert nicht (und auch keinen Soll-Wert), so kann man defi-nitionsgemäß auch nichts über die Richtigkeit der Messungen sagen, sondern nur überdie Präzision.

Präzision ist die qualitative Bezeichnung für das Ausmaß der gegenseitigen Annähe-rung der Messergebnisse bei mehrfacher Anwendung des Messverfahrens. Ein quanti-tatives Maß für die Präzision ist demnach die Standardabweichung σ (oder s). Je kleinerdie Standardabweichung, desto präziser17 ist das Messergebnis. Die Präzision wird auchals innere Genauigkeit (auch: Wiederholgenauigkeit – vgl. Abb.2.14) bezeichnet.

Die Auflösung eines Messgerätes oder Messverfahrens (siehe Abb.2.14) ist schließlichder kleinste Messwert, den das Messgerät gerade noch vom nächsten, eng beieinanderliegenden Messwert unterscheiden kann.

Abschließend noch ein Hinweis auf die Genauigkeit, mit der wir Ergebnisse unserer(statistischen) Berechnungen angeben sollten. Es macht nämlich keinen Sinn, den Mit-telwert oder die Standardabweichung oder andere berechnete Parameter auf ein Dut-zend Nachkommastellen oder mehr anzugeben. Ohne die numerischen Hintergründe

17vom lat. praecidere = abschneiden, kurz fassen. Das Wort Präzision hat im Übrigen nur ein s aber zwei i,wird aber oft falsch geschrieben und mit dem Wort Präzession verwechselt – das ist das Schwanken der Achseeines rotierenden Körpers (zum Beispiel eines Kreisels) unter dem Einfluss äußerer Kräfte.

Page 46: MaSt Statistik 2007

38 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

näher anzuschauen, können wir festhalten, dass üblicherweise (berechnete) Parametermit einer oder maximal zwei Nachkommastellen mehr angegeben werden als die Ori-ginaldaten.

2.6 Englische Begriffe

Abweichung - deviation

Auflösung - resolution

Ausreißer - outlier

Häufigkeit - frequency

Häufigkeitssumme - cumulative frequency

Häufigkeitstabelle - frequency distribution

Histogramm - histogram

Intervallskala - interval scale

linksschief - skewed to the left or negativelyskewed

Kreisdiagramm - pie chart

metrische Skala - metrical scale

empirischer/arithmetischer Mittelwert -sample/arithmetic mean, auch: average

Median - median

Modalwert - mode

nichtmetrische Skala - nonmetrical scale

Nominalskala - nominal scale

Ordinalskala - ordinal scale

Präzision - precision

(unteres/oberes) Quartil - (lower/upper)quartileQuartilspannweite - interquartile rangerechtsschief - skewed to the right or positivelyskewedRangskala - ordinal scaleRichtigkeit - accuracyrelative Häufigkeit - relative frequencySäulendiagramm - bar chartSkalierung - scalingSpannweite - rangeStamm-und-Blatt-Diagramm - stem-and-leafe-display(empirische) Standardabweichung - (sam-ple) standard deviationStreuung (einer Verteilung) - spread (of adistribution)Tortendiagramm - pie chart(empirische) Varianz - (sample) varianceVerhältnisskala - proportional scalez-Wert - z-score

Page 47: MaSt Statistik 2007

Kapitel 3

Zufallsgrößen und ihreWahrscheinlichkeits-Verteilung

Nachdem wir im letzten Kapitel gesehen haben, wie man ganz praktisch („empirisch“)vorgeht, wenn man eine Messreihe vorliegen hat, und wie man die Daten tabellarisch,grafisch oder durch bestimmte Kennwerte darstellen und beschreiben kann, werdenwir nun ein wahrscheinlichkeitstheoretisches statistisches Modell für die Verteilung derDaten angeben.

3.1 Statistische Modellierung von Messdaten

Das Messen ist ein Vorgang, dessen Ergebnis nicht genau vorhersagbar (determinis-tisch1), sondern zufällig ist. D.h. selbst wenn wir wissen, dass die Länge einer Strecke100 m beträgt, wird jede Messung dieser Strecke ein mehr oder weniger davon abwei-chendes Ergebnis ergeben. Dabei sind die Abweichungen aber nicht völlig regellos oderchaotisch2, sondern folgen stochastischen3 Gesetzen. Wir werden daher ein stochastischesModell erstellen.

3.1.1 Zufällige Versuche und Zufallsereignisse

Das statistische Modell, das für unsere Zwecke geeignet ist, ist der zufällige Versuch(auch: Zufallsexperiment). Ein zufälliger Versuch ist ein Vorgang, der – zumindest imPrinzip – beliebig oft wiederholbar ist und dessen Ausgang innerhalb einer Mengemöglicher Ausgänge ungewiss – eben zufällig – ist.

Das Ergebnis eines zufälligen Versuches ist ein Zufallsereignis E. (Nicht zu verwech-seln mit einer „Realisierung“ – siehe unten). Dabei erhalten wir aus der Grundgesamt-heit, das ist die Menge aller theoretisch möglichen Ergebnisse, eine Teilmenge – die sogenannte Stichprobe (auch: Zufallsstichprobe).

1vom lat. determinare = bestimmen, festsetzen; „deterministisch“ heißt also, es gibt einen funktionalenZusammenhang zwischen den Eingangsparametern und dem Ergebnis.

2„chaotisch“ im Sinne von: Ein Versuch, eine Messreihe, eine Zahlenfolge etc. folgt zwar bestimmten Ge-setzmäßigkeiten, wir können aber nicht erkennen, welchen (weil wir zum Beispiel nicht alle Parameter ken-nen oder modellieren können) und haben daher den Eindruck von Regellosigkeit. (vom griech. χαoζ [chaos]= weiter Raum, besonders der „leere, unermessliche Weltenraum“).

3vom griech. στoχαστικoσ [stochastikos] = „im Vermuten geschickt“. Die Stochastik untersucht die durchZufall bedingten Erscheinungen und Größen.

39

Page 48: MaSt Statistik 2007

40 KAPITEL 3. ZUFALLSGRÖSSEN

Die von uns hier verwendeten Theorien haben übrigens ihren Ursprung im Glückss-piel. Mathematiker4 untersuchten die „Systematik“ in zufälligen Versuchen und dieWahrscheinlichkeit für das Auftreten bestimmter Ergebnisse und erteilten zur Aufbes-serung ihres Lebensunterhalts mitunter auch Ratschläge an Glücksspieler. Die berühm-testen Vertreter zufälliger Versuche sind demnach auch das „Werfen einer Münze“, dasWürfeln und das „Ziehen (von roten und schwarzen Kugeln) aus einer Urne“. Sie wer-den sehr oft als anschauliche Denkmodelle für beliebige Zufallsexperimente herange-zogen.

3.1.2 Zufallsgrößen und ihre Realisierungen

Die (veränderliche) Größe, die man bei einem zufälligen Versuch untersucht und dieverschiedene Werte annimmt, ist die Zufallsgröße X (auch: Zufallsvariable)5. Beispiel:Beim Zufallsexperiment „Würfeln mit zwei Würfeln“ kann die Zufallsgröße die Sum-me der Augenzahlen sein. Es könnte aber auch sein, dass uns der Abstand interessiert,in dem die beiden Würfeln zueinander liegen kommen. Dann ist der Abstand der Wür-feln die Zufallsgröße.

Zufallsgrößen, deren Werte durch eine (physikalische) Messung ermittelt werden,werden als Messgröße bezeichnet. Beispiel: der kürzeste Abstand zwischen zwei Wür-feln.

Der einzelne Wert, den die Zufallsgröße nach der Beobachtung (nach dem Zufalls-experiment) annimmt, ist die Realisierung x der Zufallsgröße X. Realisierungen einerMessgröße heißen Messwerte. Realisierungen von Zufallsgrößen sind selbst nicht mehrzufällig. Sie haben ja einen bestimmten Wert, zum Beispiel xi = 4 (Augensumme) odersi = 10.3 cm (Abstand). Jede einzelne Realisierung der Zufallsgröße (in unserem Fall:jedes neuerliche Würfeln oder Messen des Abstands) hat aber im Allgemeinen einenanderen Wert.

Diskrete und stetige Zufallsgrößen

Eine Zufallsgröße, die endlich viele oder abzählbar-unendlich viele6 Werte annehmenkann, ist eine diskrete Zufallsgröße. Eine Zufallsgröße hingegen, die innerhalb eines(endlichen oder unendlichen) Intervalls unendlich viele beliebige Werte annehmen kann,ist eine stetige Zufallsgröße7 (auch: kontinuierliche Zufallsgröße).

Wir modellieren physikalische Messgrößen in der Regel als solche stetigen Zufalls-größen, die jede beliebige reelle Zahl als Wert annehmen können. Diese Annahme gilttrotz des Wissens, dass die beim Messen verwendeten elektronischen Messgeräte selbst– wie jede andere digitale Maschine auch – nur endlich viele Messergebnisse ange-ben können. Andere Daten, mit denen wir zu tun haben werden und die nicht durch

4Im 17. Jhdt. wurde Blaise Pascal (frz. Mathematiker, 1623-1662) vom frz. Schriftsteller (und Berufsspieler)Antoine Gombaud Chevalier de Méré (1607-1684) mit der Frage betraut, wie der Einsatz bei einem bestimmtenWürfelspiel fairerweise aufzuteilen ist, wenn das Spiel vorzeitig abgebrochen werden muss. Es ging also umdie Frage nach er Wahrscheinlichkeit, mit der jeder Teilnehmer das Spiel gewinnen würde, wenn es fortge-setzt werden würde. Pascal beriet sich daraufhin in mehreren Briefwechseln mit seinem Kollegen Pierre deFermat (frz. Mathematiker und Jurist, 1607-1665).

5Exakt lautet die Definition: „Eine Zufallsgröße ist eine Abbildung eines Wahrscheinlichkeitsraumes nach R,d.h. eine Funktion, die jedem möglichen Elementarereignis eine reelle Zahl und gleichzeitig eine zugehörigeWahrscheinlichkeit zuordnet“. Für unsere Anwendungen genügt die Definition von oben.

6abzählbar-unendlich heißt, dass die Menge der möglichen Werte zwar theoretisch abzählbar wäre, die Men-ge aber unendlich ist und daher niemand die Zeit und Geduld aufbringt, sie tatsächlich abzuzählen. Beispiel:die Folge der natürlichen Zahlen.

7Die Verwendung der Bezeichnung „stetig“ bezieht sich auf die Verteilungsfunktion (siehe später). StetigeZufallsgrößen haben eine stetige Verteilungsfunktion

Page 49: MaSt Statistik 2007

3.1. STATISTISCHE MODELLIERUNG VON MESSDATEN 41

physikalische Messung sondern zum Beispiel durch Klassifizieren und Abzählen ent-stehen, sind diskrete Zufallsgrößen. Bevor wir weitergehen, sehen wir uns noch einmal

Bsp. 3.1 Diskrete und stetige Zufallsgrößen

Wenden wir uns wieder dem Beispiel „Würfeln“ zu. Wir können unterscheiden:Die Zufallsgröße „Summe der Augenzahlen“ kann nur endlich viele Werte anneh-men. Zum Beispiel bei zwei Würfeln 2,3,4,5,6,7,8,9,10,11 oder 12. Die Zufallsgröße„Summe der Augenzahlen“ ist daher diskret.Spielt man Mensch-Ärgere-dich-nicht und würfelt solange, bis man einen Sechser ge-würfelt hat, so können das unendlich viele Versuche sein. (Zumindest theoretisch. Inder Praxis wird unser Gegner entweder irgendwann Gnade vor Recht ergehen lassenund uns auch ohne 6er ansetzen lassen, oder aber sein Spiel längst fertig haben...).Trotzdem sind es abzählbar unendlich viele Versuche: die Zufallsgröße „Anzahl derWürfe bis zu einem 6er“ lässt sich nur mit einer Integerzahl angeben; sie ist daherebenfalls diskret.Die Zufallsgröße „Abstand zwischen den beiden Würfeln“ hingegen kann unendlichviele Werte aus der Menge aller Rationalzahlen annehmen. (Dass wir dabei endlicheGrenzen haben, widerspricht dem nicht. Die untere Grenze entspricht im Allgemei-nen einem Abstand der beiden Würfelmittelpunkte von genau einer Würfelbreite,d.h. die Würfeln berühren einander; obere Grenze entspricht der Tischdiagonale, weilwenn der Abstand größer wird, fliegt mindestens ein Würfel aus dem Experimentraus). Die Menge der möglichen Ausgänge ist unendlich, weil wir mit immer genaue-ren Messverfahren auch immer genauere Ergebnisse erzielen könnten und sich dastheoretisch unendlich oft fortsetzen lässt. Die Länge des Abstands ist also eine stetigeZufallsgröße.

eine Tabelle mit Messdaten an und geben neben der absoluten und relativen Häufig-keit auch noch die relative Häufigkeitssumme und Angaben über die Abweichungenvom Erwartungswert an (Tab.3.1). Die Häufigkeiten (k und h) bzw. die relative Häu-figkeitssumme (H) bezieht sich dabei sowohl auf die Abweichungen als auch auf dieeigentlichen Messwerte.

i si [m] εi [mm] k h H1 574,770 -5 1 0,0417 0,04172 574,771 -4 0 0 0,04173 574,772 -3 2 0,0833 0,12504 574,773 -2 3 0,1250 0,25005 574,774 -1 4 0,1667 0,4167

6 574,775 0 6 0,2500 0,66677 574,776 1 4 0,1667 0,83338 574,777 2 3 0,1250 0,95839 574,778 3 0 0 0,9583

10 574,779 4 1 0,0417 1Summe 0 24 1

Tabelle 3.1: Messwerte zu einer Streckenbeobachtung mit µ = 574.775 m, ihre Abweichungen εi

und Häufigkeiten k, h und H.

Page 50: MaSt Statistik 2007

42 KAPITEL 3. ZUFALLSGRÖSSEN

3.2 Wahrscheinlichkeitstheorie

Im letzten Kapitel haben wir die relative Häufigkeit definiert (Absolute Häufigkeit di-vidiert durch die Gesamtzahl der Beobachtungswerte). Sehen wir uns den Quotientennun näher an: Wir können uns vorstellen, dass n theoretisch gegen ∞ wächst und denGrenzwert

limn→∞

k

n

angeben. Diese Größe nennen wir P(E).P(E) ist die Wahrscheinlichkeit8 für das Eintreten des Zufallsereignisses E.Die Wahrscheinlichkeit ist eine Maßzahl für die Charakterisierung der Häufigkeit

des Auftretens eines bestimmten Zufallsereignisses. Sie ist in unserem Modell das theo-retische Gegenstück zur relativen Häufigkeit. Wir können auch sagen: „Dem Gesetzder großen Zahlen folgend konvergiert die relative Häufigkeit gegen die Wahrschein-lichkeit“. Diese Definition der Wahrscheinlichkeit stammt von Mises9. Das „Gesetz dergroßen Zahlen“ selbst besagt, dass die unbekannte Wahrscheinlichkeit P(E) umso bes-ser geschätzt werden kann, je mehr unabhängige Ausführungen des Zufallsexperimen-tes durchgeführt werden.

Für die Häufigkeit k gilt:

0 ≤ k ≤ n −→ 0 ≤ k

n≤ 1 (3.1)

und daher auch für den Grenzwert für n → ∞:

0 ≤ P(E) ≤ 1 (3.2)

d.h. die Wahrscheinlichkeit ist eine reelle Zahl größer gleich Null und kleiner gleichEins, wobei ein Ereignis, dem die Wahrscheinlichkeit 1 zugeordnet ist, ein sicheres Er-eignis ist, jenes mit der Wahrscheinlichkeit 0 ein unmögliches Ereignis. Oft wird P(E)auch in Prozent angegeben.

Für das Rechnen mit Wahrscheinlichkeiten benötigen wir drei einfache Regeln:

P(not E) = 1 − P(E) (3.3)

P(E1 or E2 or . . . Em) = P(E1) + P(E2) + . . . + P(Em) (3.4)

P(E1 and E2 and . . . Em) = P(E1) · P(E2) · . . . · P(Em) (3.5)

Diese Regeln gelten für unabhängige Ereignisse und zunächst wollen wir von sol-chen unabhängigen Ereignissen ausgehen. Das bedeutet, dass die Wahrscheinlichkeitfür das Eintreffen von E1 unabhängig davon ist, ob E2 eingetroffen ist oder nicht undumgekehrt.

Es gibt übrigens noch eine andere Definition von „Wahrscheinlichkeit“: Die klassi-sche, elementare Definition stammt von Laplace10 und ist das „Verhältnis zwischen dengünstigen und den möglichen Fällen des Eintretens eines bestimmten Ereignisses“:

P(E) =Zahl der günstigen Fälle

Zahl der möglichen Fälle(3.6)

Wenn wir zum Beispiel beim Würfeln mit zwei Würfeln die Wahrscheinlichkeit desEreignisses „Summe der Augenzahlen ist gerade“ angeben möchten, so ist die Zahl der

8Das P kommt vom lat. probabilitas = Wahrscheinlichkeit.9Richard von Mises, österr.-amerik. Mathematiker und Philosoph, 1883-1953

10Pierre-Simon Marquis de Laplace, frz. Mathematiker, Astronom und Physiker, 1749-1827

Page 51: MaSt Statistik 2007

3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN 43

möglichen Fälle 36. Die Summe zweier Zahlen ist gerade, wenn beide Zahlen geradeoder wenn beide Zahlen ungerade sind. Da jeder Würfel 3 gerade und 3 ungerade Au-genzahlen hat, gibt es 9 Versuchsausgänge der Form [gerade - gerade] und 9 Versuchs-ausgänge der Form [ungerade - ungerade]. Insgesamt gibt es also 18 günstige Fälle unddie Wahrscheinlichkeit für das Eintreffen des Ereignisses „Summe der Augenzahlen istgerade“ beträgt genau 50%.

Definition (3.6) beschreibt das einfachste Modell für Wahrscheinlichkeiten, die sogenannte a priori-Wahrscheinlichkeit. A priori bedeutet, dass wir bereits von vornherein– ohne ein Zufallsexperiment durchzuführen – die Wahrscheinlichkeit angeben können.Beim Würfeln zum Beispiel ist jede Augenzahl gleichwahrscheinlich. Die Wahrschein-lichkeit, einen 6er zu würfeln kann daher a priori mit 1/6 angegeben werden. Messen istaber – zumindest aus der Sicht der Statistik – ein komplizierterer Vorgang als Würfeln;für unsere Anwendungen ist daher die Laplace’sche Wahrscheinlichkeit nur bedingtanwendbar. Was sind „günstige Fälle“ beim Messen? Und: Wenn wir davon ausgehen,dass Messgrößen stetige Zufallsgrößen sind, gibt es unendlich viele „mögliche Fälle“.Die Division durch ∞ aber ergibt bekanntlich Null. D.h. die Wahrscheinlichkeit, dasswir einen bestimmten konkreten Wert erhalten, ist gleich Null! Desweiteren ist die Vor-aussetzung, dass alle möglichen Fälle gleich wahrscheinlich sind, im Allgemeinen nichtgegeben. Das ist aber eine Voraussetzung für die Anwendbarkeit der Definition (3.6).

Wir brauchen also umfassendere Modelle. Wir führen zunächst einmal mehrere Zu-fallsexperimente durch und können dann im Nachhinein eine a posteriori-Wahrscheinlichkeitangeben.

Wie bekommt man nun einen konkreten Zahlenwert p für P(E)?

• Man führt n = ∞ viele Versuche durch (was sehr zeitaufwändig ist und daher auspraktischen Gründen ausscheidet).

• Man ermittelt aus n Realisierungen einen empirischen Schätzwert für p, nämlich

pn = h (3.7)

Für das Ereignis X = 574.775 m (Tab.3.1) lautet der Schätzwert zum Beispiel

p24 = 25%

• Man hat ein theoretisches Modell, das man anwenden kann

Dieses theoretische Modell wollen wir uns nun im Folgenden ansehen:

3.3 Verteilungen von Zufallsgrößen

3.3.1 Wahrscheinlichkeitsverteilungen

Angaben über die Wahrscheinlichkeit, mit der eine Zufallsgröße bestimmte Werte an-nimmt, nennt man auch die Verteilung der Zufallsgröße. Eine wichtige Frage ist zumBeispiel die Wahrscheinlichkeit, dass die Zufallsgröße X kleiner oder gleich einer vor-gegebenen Zahl x ist oder zwischen zwei vorgegebenen Werten a und b liegt. DieseFragen können mit Hilfe der Verteilungsfunktion beantwortet werden. Der Funktions-wert der Verteilungsfunktion F(x) an der Stelle x gibt die Wahrscheinlichkeit an, dassX kleiner oder gleich x ist.

Page 52: MaSt Statistik 2007

44 KAPITEL 3. ZUFALLSGRÖSSEN

Verteilungs- und Wahrscheinlichkeitsfunktion diskreter Zufallsgrößen

Im diskreten Fall kann die Verteilungsfunktion aus der Summe der Einzelwahrschein-lichkeiten für alle xi < x gewonnen werden:

F(x) = P(X ≤ x) = ∑i:xi≤x

P(X = xi) = ∑i:xi≤x

f (xi) (3.8)

wobei f (xi) als Wahrscheinlichkeitsfunktion bezeichnet wird. Diese gibt die Wahrschein-lichkeit dafür an, dass die Zufallsgröße genau den Wert xi annimmt:

f (x) = P(X = x) =

{

pi für x = xi

0 sonst(3.9)

Verteilungs- und Dichtefunktion stetiger Zufallsgrößen

Im stetigen Fall müssen wir die Summe durch ein Integral ersetzen und die Verteilungs-funktion ist gegeben durch:

F(x) = P(X ≤ x) =

x∫

−∞

f (t)dt (3.10)

Die Verteilungsfunktion F(x) gibt die Wahrscheinlichkeit an, dass die Zufallsva-riable X einen Wert kleiner oder gleich x annimmt. F(x) hat die beiden GrenzwerteF(−∞) = 0 und F(∞) = 1 und ist im Allgemeinen für alle reellen Zahlen x definiert.Manchmal wird F(x) auch als kumulierte Wahrscheinlichkeitsverteilung bezeichnet.

Die in Formel 3.10 auftretenden Funktion f (t) ist die Dichtefunktion der Verteilung(auch: Wahrscheinlichkeitsdichte bzw. nur Dichte). Sie ist die erste Ableitung der Vertei-lungsfunktion und gibt den Verlauf der Wahrscheinlichkeiten der stetigen Zufallsgrößean.

Die Dichtefunktion können wir auch vergleichen mit der uns aus dem 2. Kapitelbekannten emprischen Häufigkeitsverteilung. Abb.3.1 zeigt ein Beispiel für eine empi-rische Häufigkeitsverteilung einer Stichprobe und die zugehörige theoretische Dichte-funktion. Eine anderes Beispiel für die Dichtefunktion einer stetigen Zufallsgröße ist inAbb.3.2 dargestellt.

Bekanntlich gibt das Integral die Fläche unter der integrierten Funktion an, und da-mit werden hoffentlich auch die nachfolgenden Zusammenhänge klarer: Der Flächen-inhalt unter der Dichtefunktionskurve ist die zugehörige Wahrscheinlichkeit. Der Flä-cheninhalt unter der gesamten Kurve (von −∞ bis +∞) beträgt daher 1 (Mit 100%igerWahrscheinlichkeit nimmt die Zufallsgröße irgendeinen Wert zwischen −∞ bis +∞ an).Wie aus Abb.3.2 ersichtlich, gelten folgende wichtige Zusammenhänge:

P(X ≤ a) = F(a) =

a∫

−∞

f (x)dx (3.11)

P(X > b) = 1 − F(b) =

+∞∫

b

f (x)dx (3.12)

P(a < X ≤ b) = F(b) − F(a) =

b∫

a

f (x)dx (3.13)

Page 53: MaSt Statistik 2007

3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN 45

Abb. 3.1 Häufigkeitsverteilung der Stichprobe einer Zufallsgröße und zugehörige Dich-tefunktion dieser Zufallsgröße

Aus Abb.3.2 sieht man auch, dass bei stetigen Zufallsgrößen die Wahrscheinlichkei-ten immer nur Intervallen zugeordnet sein können. Wir können also die Wahrschein-lichkeit angeben, dass X eine Realisation zwischen den Werten a und b annimmt. Wiewir schon auf Seite 43 festgestellt haben, ist P(X = a) immer gleich Null (vgl. die „Flä-che“ in Abb.3.2 an genau einer Stelle – sie ist nur ein „dimensionsloser Strich“). Es spieltdaher auch keine Rolle, ob ein „<“ oder ein „≤“ bzw. „>“ oder „≥“ geschrieben wird.Aus formalen Gründen (Konsistenz zwischen Formeln für den diskreten und stetigenFall) werden wir aber immer den rechten Rand eines Intervalls mit einschließen, denlinken hingegen nicht (also X ≤ a, a < X ≤ b und X > b schreiben).

An Stelle von P(X = x) können wir für stetige Zufallsgrößen die differenzielleWahrscheinlichkeit dP für das infinitesimale differenzielle Intervall der Breite dx an-geben:

dP = f (x)dx (3.14)

3.3.2 Parameter von Wahrscheinlichkeitsverteilungen

Zur Charakterisierung der Zufallsgröße und ihrer Verteilung dienen bestimmte Para-meter, von denen in der Praxis meist schon wenige ausreichen, um die jeweilige Vertei-lung zu beschreiben. Wie im empirischen Fall (Kap.2) sind dabei der Erwartungswertund die Varianz die wichtigsten. Zur Unterscheidung zwischen empirischen und theo-retischen Größen werden wir hier übrigens griechische Buchstaben für die Parameterverwenden.

Lageparameter

Erwartungswert, Median und α-Quantile dienen als Lageparameter einer Verteilung:Der Erwartungswert E(X) einer Zufallsgröße ist im diskreten Fall definiert durch:

E(X) = µ =n

∑i=1

xi f (xi) (3.15)

Page 54: MaSt Statistik 2007

46 KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.2 Dichtefunktion einer stetigen Zufallsgröße und Zusammenhang zur Vertei-lungsfunktion bzw. Wahrscheinlichkeitsverteilung

und im stetigen Fall durch:

E(X) = µ =

∞∫

−∞

x · f (x)dx (3.16)

Als α-Quantil bezeichnet man den Wert xα der Zufallsgröße X, für den gilt:

F(xα) = P(X ≤ xα) = α (3.17)

wobei das 0.5-Quantil wie im empirischen Fall als Median bezeichnet wird. Von größererpraktischer Bedeutung sind aber, wie wir später sehen werden, die Quantile mit Wertenfür α zwischen 0.001 und 0.05. Das 0.05-Quantil gibt zum Beispiel jenen Wert an, der miteiner Wahrscheinlichkeit von 5% maximal erreicht wird.

Streuungsparameter

Die Varianz Var(X) einer Zufallsgröße ist der Erwartungswert des Quadrates der Ab-weichung vom Erwartungswert µ und somit für den diskreten Fall definiert als

Var(X) = E[X − E(X)]2 = σ2 = ∑i

(xi − µ)2 f (xi) (3.18)

und im stetigen Fall:

Var(X) = E[X − E(X)]2 = σ2 =

∞∫

−∞

(x − µ)2 · f (x)dx (3.19)

Die positive Quadratwurzel aus der Varianz ist die Standardabweichung σ der Zufalls-größe.

Page 55: MaSt Statistik 2007

3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN 47

Momente einer Verteilung

Ist X eine Zufallsgröße, so ist auch Xk eine Zufallsgröße. Der Erwartungswert

mk = E(Xk) (3.20)

heißt k-tes Moment von X. Der „normale“ Erwartungswert E(X) ist demnach das ersteMoment von X.

Zentrieren wir die Zufallsgröße auf ihren Erwartungswert, d.h. bilden wir die neueZufallsgröße (X − E(X)), so heißt der Erwartungswert

µk = E((X − E(X))k) (3.21)

das k-te zentrale Moment von X. Offenbar ist µ1 = 0 und µ2 = E((X − E(X))2). Daszweite zentrale Moment von X ist demnach die Varianz.

Schiefe, Wölbung und Exzess

Wir können die Formparameter von Wahrscheinlichkeitsverteilungen mit Hilfe der zen-tralen Momente definieren:

Die Schiefe γ1 der Wahrscheinlichkeitsverteilung einer Zufallsgröße ist definiert alsfolgender Quotient:

γ1 =µ3√

µ32

(3.22)

Das Schiefheitsmaß wurde von Charlier11 eingeführt. Es dient zur Charakterisierungder Asymmetrie einer Verteilung. Eine Verteilung mit einer positiven Schiefe steigt zu-nächst links steil zum Maximum an, fällt dann wieder ab und setzt sich nach rechtsrelativ lange fort (der Teil rechts vom Maximum ist „länger“ als der linke Teil vor demMaximum); sie wird auch als rechtsschiefe Verteilung bezeichnet. Der Erwartungswert istbei einer rechtsschiefen Verteilung größer als der Median (er liegt auf der Zahlengera-den „rechts“ vom Median); der Median selbst liegt rechts vom Maximum der Dichte-funktion.

Bei einer negativen Schiefe ist es genau umgekehrt: Hier ist der „längere“ Teil linksvom Maximum, daher auch die Bezeichnung linksschiefe Verteilung. Die Reihenfolge ist:Erwartungswert - Median - Maximum.

Eine symmetrische Verteilung hat eine Schiefe gleich Null; Erwartungswert und Me-dian fallen zusammen und liegen im Maximum der Dichtefunktion.

Die Wölbung (Kurtosis) β2 der Wahrscheinlichkeitsverteilung einer Zufallsgröße istdefiniert durch

β2 =µ4

µ22

(3.23)

wobei µ2 das zweite und µ4 das vierte zentrale Moment der Zufallsgröße sind. EineWölbung kleiner als 3 deutet auf eine „breitgipflige“ Wahrscheinlichkeitsverteilung hin;eine Wölbung größer als 3 auf einen ‘schmalgipflig“; eine Wölbung von genau 3 ist„normal“ (im Sinne von: Sie entspricht der Normalverteilung – siehe unten).

Der Exzess γ2 einer Zufallsgröße ist die Wölbung vermindert um die Wölbung derNormalverteilung, also

γ2 =µ4

µ22− 3 = β2 − 3 (3.24)

11Carl Vilhelm Ludvig Charlier, schwedischer Astronom, 1862-1932

Page 56: MaSt Statistik 2007

48 KAPITEL 3. ZUFALLSGRÖSSEN

wobei µ2 das zweite und µ4 das vierte zentrale Moment der Zufallsgröße sind. DerExzess für die Normalverteilung ist gleich Null. Der Exzess jeder anderen Wahrschein-lichkeitsverteilung ist ein Maß für die Abweichung dieser Verteilung gegenüber einerNormalverteilung mit gleichem Erwartungswert und gleicher Varianz.

3.4 Wichtige Wahrscheinlichkeitsverteilungen

Auf einige Wahrscheinlichkeitsverteilungen, die in unseren Anwendungen vorrangigvorkommen, gehen wir im Folgenden näher ein. Die wichtigste unter ihnen ist dieNormalverteilung; daneben werden wir aber in der Schätz- und Prüfstatistik („induk-tive Statistik“) auch die Chi-Quadrat-Verteilung (χ2-Verteilung), die Student-Verteilung(t-Verteilung) sowie die Fisher-Verteilung (F-Verteilung) benötigen. Eine gewisse Rolle(zum Beispiel beim Auf- und Abrunden von Zahlen) spielt aber auch die Gleichvertei-lung.

3.4.1 Gleichverteilung

Eine sehr einfache Verteilung, die eine Zufallsgröße haben kann, ist die Gleichverteilung.Sie ordnet allen innerhalb des Intervalls [a, b] möglichen Werten einer Zufallsgröße diegleiche Wahrscheinlichkeit zu.

Im stetigen Fall hat die Gleichverteilung die Dichtefunktion

f (x) =

{ 1b−a für a ≤ x ≤ b

0 sonst(3.25)

Der Graph der Dichtefunktion hat ein rechteckiges Aussehen (s. Abb.3.3); sie wirddaher auch als Rechtecks-Verteilung bezeichnet.

Abb. 3.3 Dichtefunktion und Verteilungsfunktion der stetigen Gleichverteilung in denGrenzen −0.5 ≤ x ≤ 0.5.

Durch Einsetzen von (3.25) in (3.16) erhält man für die stetige Gleichverteilung denErwartungswert

E(X) =

b∫

a

x · 1b − a

dx =a + b

2(3.26)

Zentrale Momente der stetigen Gleichverteilung:

E((X − E(X))k) =

{

1k+1

(

b−a2

)kfür gerade k

0 für ungerade k(3.27)

Page 57: MaSt Statistik 2007

3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 49

und somit

Var(X) = µ2 =(b − a)2

12(3.28)

µ3 = 0 (3.29)

µ4 =180

(b − a)4 (3.30)

Damit ist die Schiefe γ1 = 0 und der Exzess γ2 = − 65 . Die Gleichverteilung ist also

symmetrisch, aber gegenüber der Normalverteilung „breiter gewölbt“. Da die Vertei-lung symmetrisch ist, fallen Erwartungswert und Median zusammen.

Für die Verteilungsfunktion der Gleichverteilung gilt:

F(x) =x − a

b − a(3.31)

3.4.2 Normalverteilung

Die für uns wichtigste Verteilung ist die so genannte Normalverteilung, auch GaußscheVerteilung genannt12. Sie war zwar bereits vor Gauß bekannt, er hat allerdings im Zu-sammenhang mit seiner Arbeit über Beobachtungsfehler bei physikalischen Messun-gen wichtige theoretische Grundlagen dazu beigetragen und die Kurve so „populär“gemacht, dass sie heute zu seinen Ehren benannt ist.

Die Dichtefunktion der Normalverteilung ist gegeben durch

f (x) =1

σ√

2π· e

− (x−µ)2

2σ2 (3.32)

für −∞ < x < +∞

mit µ . . . Erwartungswertσ . . . Standardabweichunge . . . Euler’sche Zahl (2.718...)

π . . . Kreiskonstante (3.14159...)Die Normalverteilung ist über die beiden Parameter µ und σ2 definiert und wird da-

her oft auch abgekürzt mit N(µ, σ2). Die Schiefe der Normalverteilung ist gleich Null,d.h. sie ist symmetrisch. Der Exzess der Normalverteilung ist ebenfalls gleich Null.

Grafisch hat die Dichtefunktion der Normalverteilung die Form einer „Glocke“ undwird daher auch Glockenkurve (auch: Gaußsche Glockenkurve) genannt (Abb.3.4).

Aus der Abbildung ist ersichtlich, dass µ das Zentrum der Kurve bestimmt, σ ihre„Schlankheit“ (Breite). Der Scheitel der Dichtefunktion – das Maximum – liegt bei x = µ

und hat dort den Funktionswert 1σ√

2π. Die Wendepunkte liegen im Abstand ± σ von µ.

Die Fläche unter den einzelnen Kurven der Abb.3.4 ist jeweils gleich groß.Weiters ist erkennbar, dass die Normalverteilung eine um den Erwartungswert µ

symmetrische Verteilung ist, d.h. betragsmäßig gleich große positive oder negative Ab-weichungen vom Erwartungswert sind gleich wahrscheinlich. Daher ist der Erwar-tungswert auch gleichzeitig der Median der Verteilung. Außerdem ist die Wahrschein-lichkeit für eine Abweichung vom Erwartungswert umso geringer, je größer diese Ab-weichung ist. Große Abweichungen sind also weniger wahrscheinlich als kleine. Fürx → +∞ und x → −∞ geht die Dichtefunktion gegen Null. Der Graph der Glocken-kurve nähert sich dort asymptotisch der Abszisse. Der Erwartungswert ist gleichzeitigder Modalwert der Normalverteilung: sie ist eine unimodale Verteilung.

12Johann Friedrich Carl Gauß, deutscher Mathematiker und Geodät, 1777-1855

Page 58: MaSt Statistik 2007

50 KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.4 Gaußsche Glockenkurven: Verschiedene Dichtefunktionen zur Normalvertei-lung mit unterschiedlichen Erwartungswerten und Varianzen. Der Scheitel der jeweili-gen Kurven liegt bei x = µ, ihre Wendepunkte im Abstand ± σ vom Scheitelwert. DieKurve ist umso höher und steiler, je kleiner σ ist.

Quelle: Wikimedia Commons. Printed under the terms of the GNU Free Documentation License

Die Verteilungsfunktion der Normalverteilung erhält man durch Integration derDichtefunktion, also:

F(x) =1

σ√

x∫

−∞

e− (t−µ)2

2σ2 dt (3.33)

Die Berechnung dieses Integrals ist nicht ganz einfach; ihre Werte werden daher oftaus entsprechenden Tabellen der so genannten Standard-Normalverteilung entnommen.Dazu müssen wir unsere ursprüngliche Zufallsgröße in eine standard-normalverteilteZufallsgröße transformieren.

Standardisierte Zufallsgröße

Eine standardisierte Zufallsgröße Z entsteht aus einer Zufallsgröße X durch die lineareTransformation

Z =X − µ

σ(3.34)

Diese Transformation hat zur Folge, dass Z einen Erwartungswert von 0 und dieStandardabweichung 1 hat (Wir erinnern uns an die Standardisierung von empirischenBeobachtungswerten gemäß (2.26). Durch die Standardisierung werden Zufallsgrößenauf einen einheitlichen „Maßstab“ gebracht. Das Ergebnis sind dimensionslose Varia-ble, die nur noch relative Lagen wiedergeben.

Abb.3.11 zeigt den Vorgang des Standardisierens der Normalverteilung.

Page 59: MaSt Statistik 2007

3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 51

Standard-Normalverteilung

Die Standard-Normalverteilung („standardisierte Normalverteilung“) ist jene, die füreine normalverteilte Zufallsgröße mit

µ = 0 (3.35)

σ2 = 1 (3.36)

gilt. Entsprechend wird sie auch mit N(0, 1) bezeichnet.Die zugehörigen Dichtefunktion und Verteilungsfunktion lauten:

ϕ(z) =1√2π

· e−z22 (3.37)

Φ(z) =1√2π

z∫

−∞

e−t22 · dt (3.38)

Abb.3.5 zeigt die Dichtefunktion, Abb.3.6 die Verteilungsfunktion zur Standard-Normalverteilung.

Abb. 3.5 Die Gauß’sche Glockenkurve: Dichtefunktion der standardisierten Normal-verteilung

Für die Verteilungsfunktion (und auch für die Wahrscheinlichkeitsdichte) liegenFunktionswerte als Tabelle vor. Sie sind meist auch innerhalb heutiger Standard-Softwareapproximierbar (zum Beispiel in MS Excel, aber auch in vielen Taschenrechnern).

Es gelten folgende wichtige Beziehungen:

Φ(−x) = 1 − Φ(x) (3.39)

P(X ≤ a) = Φ

(

a − µ

σ

)

(3.40)

P(a < X ≤ b) = Φ

(

b − µ

σ

)

− Φ

(

a − µ

σ

)

(3.41)

P(X > b) = 1 − Φ

(

b − µ

σ

)

(3.42)

Page 60: MaSt Statistik 2007

52 KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.6 Verteilungsfunktion der standardisierten Normalverteilung

Formel (3.39) ist vor allem dann wichtig, wenn wir die Werte der Verteilungsfunkti-on aus einer Tabelle übernehmen in der – und das ist die Regel – nur positive Werteberücksichtigt sind.

Für eine normalverteilte Zufallsgröße gilt:

• ca. 68% aller Realisierungen liegen im Intervall µ ± 1 · σ• ca. 95% aller Realisierungen liegen im Intervall µ ± 2 · σ• ca. 99% aller Realisierungen liegen im Intervall µ ± 3 · σ

oder anders ausgedrückt:

P(µ − 1 · σ < X ≤ µ + 1 · σ) ≈ 68% (3.43)

P(µ − 2 · σ < X ≤ µ + 2 · σ) ≈ 95% (3.44)

P(µ − 3 · σ < X ≤ µ + 3 · σ) ≈ 99% (3.45)

3.4.3 Chi-Quadrat Verteilung

Die Zufallsgröße Y, die aus den m unabhängigen standard-normalverteilten Zufalls-größen Xi durch die Transformation

Y =m

∑i=1

X2i (3.46)

entsteht, ist χ2-verteilt. Den Parameter m ∈ N+ – die Anzahl der Summanden in (3.46)– nennen wir auch die Anzahl der Freiheitsgrade der Verteilung. Entsprechend wird dieVerteilung auch mit χ2(m) abgekürzt.

Die χ2-Verteilung wurde 1876 von Helmert13 eingeführt und von Pearson14 um 1900weiterentwickelt. Sie wird daher auch als Helmert-Pearson-Verteilung bezeichnet. IhreDichtefunktion ist für die Freiheitsgrade m = 2, 4 und 6 in Abb.3.7 dargestellt. Sie istüber dem Intervall [0, +∞] definiert und im Allgemeinen nicht symmetrisch. Sie wird

13Friedrich Robert Helmert, deutscher Geodät, 1841-191714Karl Pearson, englischer Mathematiker und Mitbegründer der modernen Statistik, 1857-1936

Page 61: MaSt Statistik 2007

3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 53

aber umso symmetrischer, je größer die Anzahl der Freiheitsgrade ist (siehe Formel(3.49) sowie Abb.3.7 und 3.8). Für m = 1 und 2 fallen die Kurven der Dichtefunktionmonoton; für m > 2 verlaufen sie unimodal und rechtsschief und haben ein Maximumbei x = m − 2.

Abb. 3.7 Dichtefunktion der Chi-Quadratverteilung mit 2, 4 und 6 Freiheitsgraden

0 2 4 6 8 10 12 14 16 18 200

0.1

0.2

0.3

0.4

0.5

x

f(x)

Chi−Quadrat−Verteilung

m = 2m = 4m = 6

Der Erwartungswert der χ2(m)-Verteilung ist

E(Y) = m (3.47)

und die VarianzVar(Y) = 2 m (3.48)

sowie die Schiefe

γ1 = 2

2m

(3.49)

und der Exzess

γ2 =12m

(3.50)

Die Quantile ym;1−α, für die gilt

P(Y ≤ ym;1−α) = 1 − α

liegen als Tabellenwert für einzelne m und α-Werte vor. Sie werden in der Test- undSchätztheorie benötigt, wie wir im entsprechenden Kapitel sehen werden.

Eine χ2-verteilte Zufallsgröße kann offensichtlich nur Werte größer oder gleich Nullannehmen (vgl. Formel 3.46).

Hat man zwei unabhängige χ2-verteilte Zufallsgrößen mit den Freiheitsgraden mund n, so ist die Summe wieder χ2-verteilt, und zwar mit dem Freiheitsgrad m + n.

Page 62: MaSt Statistik 2007

54 KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.8 Dichtefunktion der Chi-Quadratverteilung mit 20, 40 und 60 Freiheitsgraden.

0 20 40 60 80 100 1200

0.01

0.02

0.03

0.04

0.05

0.06

0.07Chi−Quadrat−Verteilung

x

f(x)

m = 20m = 40m = 60

3.4.4 Student-Verteilung

Die Zufallsgröße T, die aus der standard-normalverteilten Zufallsgröße Z und der da-von unabhängigen χ2-verteilten Zufallsgröße Y mit m Freiheitsgraden durch die Trans-formation

T =Z√

Y/m(3.51)

entsteht, ist Student-verteilt (t-verteilt). Der Parameter m ∈ N+ gibt die Anzahl derFreiheitsgrade der t-Verteilung an. Entsprechend wird sie auch mit t(m) abgekürzt. Diet-Verteilung wurde 1908 von Gosset15 entwickelt.

Die t-Verteilung ist – ähnlich der Normalverteilung – über dem Intervall [−∞, +∞]definiert, unimodal, symmetrisch und glockenförmig. Ihre Dichtefunktion ist in Abb.3.9dargestellt. Die t-Verteilung mit 3 Freiheitsgraden ist der Normalverteilung sehr ähn-lich, sie hat aber eine größere Streuung. Mit zunehmender Anzahl der Freiheitsgradewird sie der Normalverteilung immer ähnlicher und kann ab m ≥ 30 durch diese er-setzt werden.

Der Erwartungswert der t-Verteilung ist

E(T) = 0 für m ≥ 2 (3.52)

und die VarianzVar(T) = m

m−2 für m ≥ 3 (3.53)

Schiefe:γ1 = 0 für m ≥ 3 (3.54)

15William Sealey Gosset, englischer Chemiker und Mathematiker, 1876-1937. Er war in einer Brauerei be-schäftigt, die eine Veröffentlichung von Forschungsarbeiten nicht gestattete. Daher publizierte er seine Ar-beiten unter dem Pseudonym „Student“.

Page 63: MaSt Statistik 2007

3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 55

Abb. 3.9 Dichtefunktion der t-Verteilung mit 3 und 30 Freiheitsgraden

−10 −8 −6 −4 −2 0 2 4 6 8 100

0.1

0.2

0.3

0.4

0.5Student−Verteilung

x

f(x)

m = 3 m = 30

Exzess16:γ2 = 6

m−4 für m ≥ 4 (3.55)

Die Quantile tm;1−α, für die gilt

P(T ≤ tm;1−α) = 1 − α

liegen als Tabellenwert für einzelne m und α vor. Sie werden wie die Quantile der χ2-Verteilung in der Testtheorie benötigt.

3.4.5 Fisher-Verteilung

Die Zufallsgröße X, die aus den beiden unabhängigen χ2-verteilten Zufallsgrößen Y1und Y2 mit m1 bzw. m2 Freiheitsgraden durch die Transformation

X =Y1/m1

Y2/m2(3.56)

entsteht, ist Fisher-verteilt (F-verteilt). Die Parameter m1, m2 ∈ N+ geben die Anzahlder Freiheitsgrade der F-Verteilung an. Entsprechend wird sie auch mit F(m1, m2) ab-gekürzt. Die F-Verteilung ist eine von Snedecor17 weiterentwickelte Form der 1924 vonFisher18 entwickelten theoretischen Häufigkeitsverteilung, die Snedecor zu Ehren Fis-hers benannte. Manchmal wird sie auch als Varianzquotientenverteilung bezeichnet (Beieinem bestimmten statistischen Test, den wir noch später kennen lernen werden, wird

16auf Grund des Aufbaus der Dichtefunktion, die wir hier nicht explizit angeben, hat die t-Verteilung fürm = 1 keinen Erwartungswert, für m ≤ 2 keine Varianz, für m ≤ 3 ist die Schiefe nicht definiert und fürm ≤ 4 der Exzess.

17George Waddell Snedecor, amerikanischer Mathematiker und Physiker, 1882-197418Ronald Aylmer Fisher, englischer Statistiker, 1890-1962

Page 64: MaSt Statistik 2007

56 KAPITEL 3. ZUFALLSGRÖSSEN

die Gleichheit zweier Varianzen mit Hilfe der F-Verteilung überprüft, indem der Quo-tient der beiden Varianzen gebildet wird).

Der Graph der Dichtefunktion der F-Verteilung ist für die Freiheitsgrade m1 = m2 =10, m1 = m2 = 50 und m1 = m2 = 100 in Abb.3.10 dargestellt.

Abb. 3.10 Dichtefunktion der F-Verteilung mit m1 = m2 = 10, m1 = m2 = 50 undm1 = m2 = 100 Freiheitsgraden

0 1 2 3 4 5 6 70

0.5

1

1.5

2

2.5

x

f(x)

Fisher−Verteilung

m1 = m2 = 10 m1 = m2 = 50 m1 = m2 = 100

Die F-Verteilung ist über dem Intervall [0, +∞] definiert und nicht symmetrisch. Sieist eine linksschiefe, eingipflige Verteilung. Mit zunehmender Anzahl von Freiheitsgra-den wird die F-Verteilung immer symmetrischer.

Der Erwartungswert der F-Verteilung ist

E(X) = m2(m2−2)

für m2 ≥ 3 (3.57)

und die VarianzVar(X) =

2m22(m1+m2−2)

m1(m2−2)2(m2−4)für m2 ≥ 5 (3.58)

Die Quantile xm1,m2;1−α, für die gilt

P(X ≤ x1−α) = 1 − α

liegen als Tabellenwert für einzelne m1 - m2 – Kombinationen und α vor. Dabei istzu beachten: Ist die Zufallsgröße X F(m1, m2)-verteilt, dann ist die Zufallsgröße 1/XF(m2, m1)-verteilt. Deshalb sind Tabellen meist auf den Fall m1 < m2 beschränkt.

Chi-Quadrat-, Student- und Fisher-Verteilung sind so genannte Prüfverteilungen (auch:Testverteilungen), weil sie in der Schätz- und Testtheorie zum Überprüfen von Hypo-thesen über Erwartungswert und Varianz einer Normalverteilung bzw. den Vergleichvon Mittelwerten und Varianzen zweier oder mehrerer normalverteilter Zufallsgrößenverwendet werden. Sie treten aber – im Gegensatz zur Normalverteilung – nicht als ei-genständige Verteilungen in mathematischen Modellen von zufälligen Versuchen auf.

Page 65: MaSt Statistik 2007

3.5. ENGLISCHE BEGRIFFE 57

3.4.6 Der zentrale Grenzwertsatz

Der zentrale Grenzwertsatz ist eines der wichtigsten Theoreme der Wahrscheinlich-keitsrechnung. Er besagt, dass eine Zufallsgröße, die sich als Summe einer großen An-zahl (> 30) unabhängiger, beliebig verteilter19 Zufallsgrößen darstellen lässt, annä-hernd normalverteilt ist. Voraussetzung ist, dass die einzelnen Summanden im Ver-gleich zur Summe genügend klein sind (d.h. keiner dominiert gegenüber den anderen).Für Messabweichungen trifft dies in Regel zu, d.h. Messabweichungen sind auf Grundder vielfachen Überlagerung verschiedener Fehlerquellen normalverteilt. Mit wachsen-dem n wird diese Annäherung immer zutreffender.

Formal sieht der zentrale Grenzwertsatz ziemlich kompliziert aus:

P

n

∑i=1

Xi − E

[

n

∑i=1

Xi

]

Var

[

n

∑i=1

Xi

]

≤ z

→ Φ(z) (3.59)

Sind die Zufallsgrößen nicht die Summe, sondern das Produkt vieler kleiner zu-fälliger Einflüsse, dann gilt der zentrale Grenzwertsatz und die Normalverteilung fürdie Logarithmen. Die Zufallsgrößen sind also zu transformieren und man erhält dieLognormalverteilung, auf die wir aber an dieser Stelle nicht weiter eingehen werden.

3.5 Englische Begriffe

a-posteriori-Wahrscheinlichkeit - posteriorprobabilitya-priori-Wahrscheinlichkeit - a priori proba-bilityChi-Quadrat-Verteilung - chi-squared distri-butionDichtefunktion - density functiondiskret - discreteErwartungswert - expectationExzess - (coefficient of) excessFisher-Verteilung - F-distributionFreiheitsgrade - degrees of freedomGesetz der großen Zahlen - Law of LargeNumbersGleichverteilung - rectangular distribution,uniform distributionGlockenkurve - bell-shaped curveGrundgesamtheit - populationMoment - moment (coefficient)Normalverteilung - normal distribution,Gaussian distributionRealisierung - realizationRechtecksverteilung - rectangular distribu-tion, uniform distributionSchiefe - skewness

schiefe Verteilung - asymmetrical distributi-onsicheres Ereignis - certain eventstandardisierte Zufallsgröße - standardizedrandom variablestetig - continuousStichprobe - sampleStudent-Verteilung - Student’s distribution,Student’s t-distribution, t-distributionsymmetrische Verteilung - symmetrical dis-tributionunmögliches Ereignis - null eventVarianz - varianceVerteilungsfunktion - distribution functionWahrscheinlichkeit - probabilityWahrscheinlichkeitsdichte - probability den-sity function, abgek.: PDFWahrscheinlichkeitsverteilung - probabilitydistributionWölbung, Kurtosis - kurtosiszentrales Moment - central momentzentraler Grenzwertsatz - central limit theo-remZufallsereignis - random eventZufallsexperiment - random experiment

19gilt zum Beispiel auch für unsymmetrische oder diskrete Verteilungen!

Page 66: MaSt Statistik 2007

58 KAPITEL 3. ZUFALLSGRÖSSEN

Zufallsgröße, Zufallsvariable - random va-riable, stochastic variableZufallsstichprobe - random sample

Zufallsverteilung - random distribution

Page 67: MaSt Statistik 2007

3.5. ENGLISCHE BEGRIFFE 59

Abb. 3.11 Standardisieren der Normalverteilung: Ausgehend von einer beliebigen, nor-malverteilten Dichtefunktion (Bild 1) wird die Verteilung einmal zentriert (Bild 2) bzw.normiert (Bild 3). Bild 4 zeigt das Gesamtergebnis einer Zentrierung mit anschließenderNormierung, die standardisierte Normalverteilung

Page 68: MaSt Statistik 2007

60 KAPITEL 3. ZUFALLSGRÖSSEN

Page 69: MaSt Statistik 2007

Kapitel 4

Zufallsvektoren

Im letzten Kapitel haben wir Zufallsvariablen und ihre wahrscheinlichkeitstheoreti-schen Verteilungen kennen gelernt. Im Folgenden werden wir zwei oder mehrere Zu-fallsvariable gemeinsam betrachten und sie zu diesem Zweck in einem Vektor – demZufallsvektor – zusammenfassen. Damit betreten wir das Gebiet der multivariaten Sta-tistik. Die Notation der multivariaten Statistik in Vektoren und Matrizen mag auf denersten Blick kompliziert erscheinen, führt tatsächlich aber zu einfacheren, „kompakten“mathematischen Strukturen und letztendlich zu leichterer Les- und Rechenbarkeit.

Wir werden stochastische Eigenschaften und Beziehungen zwischen den Elementeneines Zufallsvektors beschreiben. Ziel des Kapitels ist es dann, folgendes Problem zulösen:

Gemessen wurden (ein oder) mehrere Messwerte x1, x2, . . . , xn, die mit Abweichun-gen ∆xi behaftet sind und die wir in einem Vektor x zusammenfassen können. DieMesswerte sollen in m Funktionen y1 = f1(x1, x2, . . . , xn), y2 = f2(x1, x2, . . . , xn), . . .,ym = fm(x1, x2, . . . , xn) verknüpft werden. Gesucht sind die Abweichungen ∆y1, ∆y2,. . ., ∆ym, die an den Funktionen entstehen bzw. die Standardabweichungen dieser Funk-tionen.

4.1 Zufallsvektoren

4.1.1 Begriffe

Ein Zufallsvektor ist eine „mehrdimensionale Zufallsvariable“. Es ist ein Vektor X, des-sen Elemente die Zufallsgrößen Xi sind1:

XT = (X1, X2, . . . , Xn) (4.1)

Die gleichzeitige Betrachtung mehrerer Zufallsvariablen tritt immer dann auf, wennbeim Zufallsexperiment mehr als eine Größe beobachtet wurde und eventuelle Zusam-menhänge zwischen ihnen interessant erscheinen. Würde jede Variable einzeln ausge-wertet werden, gingen diese Zusammenhänge verloren. Beispiel: Wir beobachten dieHöhe über dem Meeresspiegel und die Lufttemperatur oder wir erfassen Einkommenund Geschlecht, etc. Zu jeder Zufallsvariablen, zum Beispiel zur Höhe oder zur Tempe-ratur, gibt es nach erfolgter Beobachtung konkrete Messwerte – die Realisierungen derZufallsvariablen.

1Entsprechend der Bezeichnung von Zufallsgrößen und Realisierungen mit Groß- bzw. Kleinbuchstabenverwenden wir hier (anders als in der Matrizen- und Vektorrechnung üblich) für den Zufallsvektor Großbuch-staben.

61

Page 70: MaSt Statistik 2007

62 KAPITEL 4. ZUFALLSVEKTOREN

Den Vektor x, dessen Komponenten die Realisierungen der entsprechenden Zufalls-größen des Zufallsvektors X sind, nennen wir den Beobachtungsvektor:

xT = (x1, x2, . . . , xn) (4.2)

Analog zu eindimensionalen Zufallsgrößen sind auch für einen Zufallsvektor einErwartungswert, ein wahrer Wert sowie wahre, systematische und zufällige Abweichungendefiniert. Es sind dies Vektoren, deren einzelne Elemente die Erwartungswerte, wah-ren Werte, wahre, systematische oder zufällige Abweichungen der entsprechenden Ele-mente des Zufallsvektors bzw. Beobachtungsvektors sind.

Außerdem sind für Zufallsvektoren auch Verteilungsfunktionen und Dichtefunktio-nen definiert. Zum Beispiel ist für einen 2-dimensionalen Zufallsvektor mit den beidenElementen X und Y die Verteilungsfunktion gegeben durch

F(a, b) = P(X ≤ a, Y ≤ b) =

a∫

−∞

b∫

−∞

f (x, y) dx dy (4.3)

wobei f (x, y) die Dichtefunktion von (X, Y) ist. Die Dichtefunktion eines Zufallsvektorsmit zwei normalverteilten Elementen ist in (Abb.4.1) grafisch dargestellt.

Abb. 4.1 Zweidimensionale Normalverteilung

-4

-2

0

2

4 -4

-2

0

2

40

0.05

0.1

0.15

0.2

Im allgemeinen Fall gilt für einen k-dimensionalen Zufallsvektor X mit den Elemen-ten X = (X1, X2, . . . , Xk)

T:F(x) = P(X ≤ x) (4.4)

wobei die Ungleichheitsrelation X ≤ x bedeutet: Jedes Element in X ist kleiner odergleich dem entsprechenden Element in x.

4.1.2 Beziehungen zwischen zwei Elementen eines Zufallsvektors

Von der Verteilung einer Zufallsgröße X kennen wir den Streuungsparameter Varianz

Var(X) = σ2X = E

[

(X − E(X))2]

Page 71: MaSt Statistik 2007

4.1. ZUFALLSVEKTOREN 63

als Erwartungswert der quadratischen Abweichung vom Erwartungswert E(X).Wenn wir den Erwartungswert µ kennen, können wir einen Zahlenwert für die Va-

rianz abschätzen2:

σ2x =

1n

n

∑i=1

(xi − µ)2 (4.5)

Wenn der Erwartungswert selbst bereits empirisch geschätzt wurde (nämlich mit x),gilt für die Varianz3:

s2x =

1n − 1

n

∑i=1

(x − xi)2 (4.6)

In einem Zufallsvektor X hat jedes Element Xi eine Varianz, berechnet nach (4.5)oder (4.6).

Zwischen je zwei Elementen X und Y können wir zusätzlich einen Parameter fürdie „gemeinsame Streuung“ angeben, genannt die „Kovarianz von X und Y“:

Cov(X, Y) = σXY = E [(X − E(X)) · (Y − E(Y))] (4.7)

Wenn wir die Erwartungswerte µx und µy kennen, können wir als Zahlenwert fürdie Kovarianz je zweier Zufallsgrößen abschätzen:

σxy =1n

n

∑i=1

(xi − µx)·(yi − µy) (4.8)

Wenn die Erwartungswerte selbst erst empirisch abgeschätzt wurden (x und y), gilt:

sxy =1

n − 1

n

∑i=1

(x − xi)·(y − yi) (4.9)

Die Kovarianz ist also das mittlere Abweichungsprodukt und ist ein Maß für den wech-selseitigen Zusammenhang der beiden Zufallsgrößen X und Y. Ist Kovarianz positiv(weil offenbar in der Summe (4.8) oder (4.9) positive Abweichungsprodukte überwie-gen), so sind die Zufallsgrößen X und Y tendenziell eher gleich, d.h. mit großer Wahr-scheinlichkeit nimmt die eine zu, wenn auch die andere zunimmt, beziehungsweise ab,wenn die andere abnimmt.

Ist die Kovarianz hingegen negativ, verhalten sich die Zufallsgrößen tendenzielleher reziprok, d.h. mit großer Wahrscheinlichkeit nimmt die eine ab, wenn die ande-re zunimmt, beziehungsweise zu, wenn die andere abnimmt. Ein Maß für diese Wahr-scheinlichkeit sowie die weitere Bedeutung der Kovarianz werden wir in einem späte-ren Kapitel kennen lernen. Einstweilen wollen wir uns merken, dass wir Zufallsgrößen,deren Kovarianz gleich Null ist, als stochastisch unabhängig bezeichnen.

Die Varianzen und Kovarianzen eines Zufallsvektors fassen wir üblicherweise inder Kovarianzmatrix ΣXX (auch: Varianz-Kovarianzmatrix oder: Dispersionsmatrix) zusam-men:

ΣXX =

σ21 σ12 . . . σ1n

σ21 σ22 . . . σ2n

......

. . ....

σn1 σn2 . . . σ2nn

(4.10)

2Wenn wir den Erwartungswert µ tatsächlich kennen – was nicht sehr oft der Fall sein wird – erhöht sichdie Anzahl der Freiheitsgrade um 1. Daher dividieren wir hier im Gegensatz zur nachfolgenden Formel (4.6)durch n und nicht durch n − 1.

3Diese Formel haben wir ja bereits unter (2.21), Seite 31, kennengelernt.

Page 72: MaSt Statistik 2007

64 KAPITEL 4. ZUFALLSVEKTOREN

Diese Matrix ist quadratisch und symmetrisch, da offensichtlich σik = σki (was man aus(4.7) sofort sieht).

Aus empirisch abgeschätzten Kovarianzen kann die empirische Kovarianzmatrix Cgebildet werden4:

CXX =

s21 s12 . . . s1n

s21 s22 . . . s2n

......

. . ....

sn1 sn2 . . . s2n

(4.11)

4.2 Funktionen eines Zufallsvektors

4.2.1 Abweichungen von Funktionen eines Zufallsvektors

Wir kommen wieder zu unserem Ausgangsproblem zurück: Gemessen wurden dieMesswerte x1, x2, . . . , xn, die mit Abweichungen ∆xi behaftet sind. Die Messwertesollen in einer Funktion y verknüpft werden. Gesucht ist die Abweichung ∆y, die ander Funktion entsteht bzw. die Standardabweichung der Funktion.

Betrachten wir zunächst den einfachen Fall nur eines Messwertes x0 mit einer Ab-weichung ∆x und eine Funktion y = f (x). An der Stelle (x0 + ∆x) hat die Funktiongegenüber y0 die Abweichung ∆y (siehe Abb.4.2).

Abb. 4.2 Eine Funktion y = f (x) und ihre Abweichungen

dy∆y

∆xdx=

x0

y0

x

y=f(x)

Aus der Abbildung ist ersichtlich, dass gilt

y0 + ∆y = f (x0) + ∆y = f (x0 + ∆x) (4.12)

Wie groß ist nun ∆y bzw. wie groß ist die Standardabweichung der Funktion?Um das Problem zu lösen, ersetzen wir die Funktion durch ihre Tangente, d.h. wir

linearisieren sie mit Hilfe einer Taylorreihe (siehe Anhang). Wir können unter Anwen-dung von (B.16) die rechte Seite in (4.12) durch die Taylorentwicklung erster Ordnungersetzen und erhalten:

f (x0) + ∆y = f (x0) + f ′(x0) dx (4.13)

4Eine strenge Unterscheidung in „empirisch“ und „theoretisch“ ist nicht notwendig, wenn aus dem Zu-sammenhang klar ist, welche Matrix gemeint ist. Die Bezeichnung C für die empirische Kovarianzmatrix istdem englischen Ausdruck covariance matrix entlehnt.

Page 73: MaSt Statistik 2007

4.2. FUNKTIONEN EINES ZUFALLSVEKTORS 65

f (x0) können wir nun auf beiden Seiten abziehen und somit gilt:

∆y = f ′(x0) dx (4.14)

Dies können wir auch auf eine Funktion mehrerer Zufallsgrößen verallgemeinern,wobei wir die Ableitung f ′ durch das totale Differenzial ersetzen:

∆y =n

∑i=1

∂ f

∂xidxi (4.15)

Damit können wir nun die Abweichung der Funktion eines Zufallsvektors angeben,dessen einzelne Elemente jeweils selbst mit Abweichungen behaftet sind.

4.2.2 Übergang von der Abweichung ∆y zur Standardabweichung

Die folgende Herleitung schaut auf den ersten Blick kompliziert aus, ist aber sehr ein-fach nachvollziehbar. Zur Erinnerung: Bei Messgrößen haben wir die Standardabwei-chung erhalten, indem wir die Quadratsumme der Abweichungen durch die Anzahlder Freiheitsgrade dividiert haben. Wir gehen jetzt ebenso vor:

Wir nehmen an, wir hätten die einzelnen Abweichungen jeweils ν-mal bestimmt.Wir bilden die Quadratsumme und dividieren durch ν. Dabei gehen wir von zufälligenAbweichungen aus, d.h. wir ersetzen dx in (4.15) durch ε

∆y =n

∑i=1

∂ f

∂xiεi (4.16)

Diese Abweichungen quadrieren wir zunächst

∆y2 =n

∑i=1

(

∂ f

∂xiεi

)2

+ 2 ·n

∑i,k=1;i 6=k

(

∂ f

∂xi

∂ f

∂xkεi εk

)

(4.17)

und bilden die Summe dieser Quadrate

ν

∑j=1

∆y2j =

ν

∑j=1

n

∑i=1

(

∂ f

∂xiεij

)2

+ 2 ·ν

∑j=1

n

∑i 6=k

(

∂ f

∂xi

∂ f

∂xkεij εkj

)

(4.18)

dividieren sie durch ν und ordnen die Summen etwas um:

ν

∑j=1

∆y2j =

n

∑i=1

(

(

∂ f

∂xi

)2 1ν

ν

∑j=1

ε2ij

)

+ 2 · ∑i 6=k

(

(

∂ f

∂xi

∂ f

∂xk

)

ν

∑j=1

εijεkj

)

(4.19)

In Gleichung (4.19) sind jetzt zwei Varianzen und eine Kovarianz erkennbar, nämlich:

σ2f =

ν

∑j=1

∆y2j (4.20)

σ2xi

=1ν

ν

∑j=1

ε2ij (4.21)

σik =(i 6=k)

ν

∑j=1

εijεkj (4.22)

Page 74: MaSt Statistik 2007

66 KAPITEL 4. ZUFALLSVEKTOREN

sodass wir (4.19) umschreiben können zu

σ2f =

n

∑i=1

(

(

∂ f

∂xi

)2

· σ2xi

)

+ 2 ·n

∑i 6=k

(

∂ f

∂xi

∂ f

∂xk· σik

)

(4.23)

Wir gehen von normalverteilten, zufälligen Abweichungen aus. Wenn wir auch nochunterstellen, dass die Messgrößen stochastisch unabhängig sind, sind alle Kovarianzengleich Null und die gemischte Produktsumme auf der rechten Seite in (4.23) verschwin-det. Es verbleibt:

σ2f =

n

∑i=1

(

(

∂ f

∂xi

)2

· σ2xi

)

(4.24)

Die positive Quadratwurzel aus σ2f ist die gesuchte Standardabweichung der Funktion f .

(4.24) ist das Varianzfortpflanzungsgesetz für stochastisch unabhängige Beobachtungen,auch: einfaches Fehlerfortpflanzungsgesetz oder Gauß’sches Fehlerfortpflanzungsgesetz ge-nannt.

4.2.3 Das Kovarianzfortpflanzungsgesetz

Trifft die Voraussetzung der stochastischen Unabhängigkeit nicht zu, so können wirnicht die einfache Formel (4.24) anwenden, sondern müssen (4.23) verwenden. Zur ein-facheren Darstellung der Formel (und später auch zu einfacheren Berechnung) fassenwir die Differenzialquotienten in einem Vektor fT zusammen:

fT =

(

∂ f

∂x1

∂ f

∂x2. . .

∂ f

∂xn

)

(4.25)

und die Varianzen und Kovarianzen in einer Kovarianzmatrix Σxx:

Σxx =

σ21 σ12 . . . σ1n

σ21 σ22 . . . σ2n

......

. . ....

σn1 σn2 . . . σ2n

(4.26)

Das Varianzfortpflanzungsgesetz lautet in dieser Schreibweise dann:

σ2f = fT

Σxx f (4.27)

und wird auch Kovarianzfortpflanzungsgesetz genannt.Im letzten Verallgemeinerungsschritt betrachten wir nicht nur eine Funktion son-

dern gleich mehrere (zum Beispiel m). Wir fassen alle partiellen Ableitungen in derFunktionsmatrix FT zusammen:

FT =

∂ f1∂x1

∂ f1∂x2

· · · ∂ f1∂xn

......

. . ....

∂ fm

∂x1. . . . . . ∂ fm

∂xn

(4.28)

FT heißt auch Jacobi-Matrix und hat so viele Spalten, wie Messgrößen auftreten (bei uns:n), und so viele Zeilen, wie wir Funktionen untersuchen (in unserem Beispiel: m).

Das allgemeine Kovarianzfortpflanzungsgesetz lautet dann:

Σ f f = FTΣxx F (4.29)

Page 75: MaSt Statistik 2007

4.3. ENGLISCHE BEGRIFFE 67

In dieser Form wird es auch allgemeines Fehlerfortpflanzungsgesetz genannt.(4.29) gilt auch für empirische Kovarianzmatrizen:

C f f = FT Cxx F (4.30)

Es ist zu beachten, dass sowohl (4.29) als auch (4.30) wieder eine – im Allgemeinenvollbesetzte – Kovarianzmatrix ergeben, dass also Zufallsgrößen, die das Ergebnis einermathematischen Funktion anderer Zufallsgrößen sind, stochastisch nicht mehr unab-hängig sind.

4.3 Englische Begriffe

Allgemeines Fehlerfortpflanzungsgesetz -general error propagation lawKovarianz - covarianceKovarianzmatrix - covariance matrix

Unabhängigkeit - independenceVarianzfortpflanzung - variance propagati-onZufallsvektor - random vector

Page 76: MaSt Statistik 2007

68 KAPITEL 4. ZUFALLSVEKTOREN

Page 77: MaSt Statistik 2007

Kapitel 5

Die Methode der kleinstenQuadrate

5.1 Einleitung

Realisierungen von Messgrößen sind immer mit Abweichungen behaftet. Bei der Da-tenauswertung merken wir dies spätestens dann, wenn – trotz Elimination eventuel-ler grober Fehler und systematischer Abweichungen – wiederholte Kontrollmessungennicht immer das exakt selbe Ergebnis bringen oder bestimmte geometrische Bedingun-gen nicht hundertprozentig erfüllt sind (zum Beispiel Winkelsumme in Polygonen). Alswichtigstes Maß für die Abweichung von Messgrößen haben wir im 2. Kapitel die Stan-dardabweichung eingeführt.

In der Praxis werden darüber hinaus die bei der Datenerfassung gemessenen Grö-ßen meist nicht unmittelbar verwendet, sondern daraus abgeleitete Größen. Die beob-achteten Größen (die „Beobachtungen“) und die eigentlich interessierenden, aber unbe-kannten Größen (die „Unbekannten“) stehen dann in einem funktionalen Zusammen-hang. Im letzten Kapitel haben wir eine Methode kennen gelernt, wie sich ausgehendvon der Standardabweichung einzelner Messgrößen die Standardabweichung einer Funk-tion dieser Messgrößen angeben lässt.

Im folgenden Kapitel werden wir die Ergebnisse der letzten Kapitel in einen grö-ßeren Zusammenhang stellen und nicht nur einzelne Funktionen der Beobachtungensondern komplexere Systeme betrachten. Wir gehen dabei davon aus, dass immer red-undante Messungen ausgeführt werden, also mehr als zur eigentlichen Bestimmung derUnbekannten notwendig sind1. Es sind im Prinzip mehrere Möglichkeiten des „Aus-gleichens“ solcher redundanten Messungen denkbar. Aus historischen Gründen hatsich die so genannte „Methode der kleinsten Quadrate“ durchgesetzt:

Historia

Historisch gesehen kommt die „Methode der kleinsten Quadrate“ aus der Astrono-mie. Bei der Bestimmung von Bahnparametern von Himmelskörpern musste man eineVielzahl von astronomischen Beobachtungen auswerten. Dabei suchte man nach einemVerfahren, das es ermöglicht, aus einer Anzahl von Gleichungen, die größer als dieAnzahl der Unbekannten ist, möglichst gute Werte für die unbekannten Parameter zu

1zum lat. redundare: „im Überfluss vorhanden sein“

69

Page 78: MaSt Statistik 2007

70 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

bestimmen. Nach einigen grundlegenden Vorarbeiten von Euler2, Mayer3, Lambert4 undLagrange5, war es um 1770 der aus Ragusa (heute: Dubrovnik, Kroatien) stammende Je-suit Bošcovic6, der sich mit wahrscheinlichkeitstheoretischen Modellen für Messabwei-chungen auseinander setzte („Philosophiae recentioris a Benedicto Stay versibus traditae libriX“). Er stellte den Grundsatz auf, man müsse im Fall von überschüssigen Gleichungendie Unbekannten so bestimmen, dass die absolute Summe der übrig bleibenden Abwei-chungen ein Minimum werde.

Der französische Physiker, Mathematiker und Astronom Laplace7 fügte dem nocheine Bedingung hinzu: 1. Die absolute Summe der Abweichungen sei ein Minimum,und 2. die algebraische Summe der Abweichungen sei gleich Null.

Schließlich stellte Legendre8 die Forderung auf, die Quadratsumme der Abweichun-gen zu minimieren. Er verwendete auch erstmals den Namen „Methode der kleinstenQuadrate“ dafür (obwohl es richtigerweise ja eigentlich „Methode der kleinsten Qua-dratsumme“ heißen müsste). Legendre veröffentlichte die Grundform der uns heutebekannten „méthode des moindres carrés“ im Jahre 1806 im Anhang seiner Beschrei-bung der Nouvelles méthodes pour la détermination des orbites des cométes.

Unabhängig von Legendre hatte Gauß9 nach eigenen Worten schon 1794 die Metho-de der kleinsten Quadrate gefunden und verwendet, es aber verabsäumt, sie zu veröf-fentlichen, weil er es „nicht der Mühe wert hielt, viel Aufhebens von einer so natürlichen Sachezu machen“. Erst 1809 schrieb er darüber in der Theoria motus corporum coelestium in sec-tionibus conicis Solem ambientium. Wissenschaftlichen Erfolg damit hatte er aber bereits1801 mit der richtigen Vorhersage der Bahn des Kleinplaneten Ceres, der Dank seinerMethode und Berechnungen in jenem Jahr wiederaufgefunden wurde. 1821 veröffent-lichte er in der Theoria combinationis observationum erroribus minimis obnoxiae abermalseine Begründung für die „Methode der kleinsten Quadrate“.

5.2 Lineare Gleichungssysteme

5.2.1 Ausgleichende Gerade

Betrachten wir zunächst einmal die Abbildung 5.1: Gegeben sind 10 Punkte in einemmathematischen x, y-System. Diese Punktwolke soll durch eine Gerade repräsentiertwerden. Gesucht sind die Parameter jener Geraden, die für diese Approximation „ambesten“ geeignet ist. Wir nennen diese Gerade auch die ausgleichende Gerade.

Die Punkte in Abb.5.1 könnten zum Beispiel die grafische Darstellung der Ergeb-nisse einer Beobachtungsreihe sein, wobei auf der Abszisse die Zeit aufgetragen wurdeund auf der Ordinate die entsprechende Messgröße. Wir haben eine Messgröße zu zehnverschiedenen Zeitpunkten beobachtet und nehmen ferner an, dass die wahren Werteder Messgrößen auf einer Geraden liegen, d.h. zwischen dem Zeitpunkt und den wah-ren Werten der Beobachtung besteht ein linearer Zusammenhang.

Mathematisch können wir zur Bestimmung der beiden Geradenparameter Anstiegk und Ordinatenabschnitt d ein Gleichungssystem aufstellen, wobei jeder Punkt eine

2Leonhard Euler, 1707-17833Johann Tobias Mayer, 1723-17624Johann Heinrich Lambert, 1728-17775Joseph Louis de Lagrange, eigentlich: Giuseppe Ludovico Lagrangia, 1736-18136Rudjer Josip Bošcovic, 1711-17877Pierre Simon Marquis de Laplace, 1749-18278Adrien-Marie Legendre, 1752-18339Carl Friedrich Gauß, 1777-1855

Page 79: MaSt Statistik 2007

5.2. LINEARE GLEICHUNGSSYSTEME 71

Abb. 5.1 Punktwolke aus 10 Punkten, die „möglichst gut“ durch eine Gerade repräsen-tiert werden soll

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

6

7

8

9

10

11

12

x

y

Gleichung beisteuert:1k + d = 22k + d = 13k + d = 54k + d = 55k + d = 66k + d = 97k + d = 88k + d = 99k + d = 11

10k + d = 9

(5.1)

bzw. in Matrizenschreibweise:

Ax = b

A =

1 12 13 14 15 16 17 18 19 1

10 1

x =

(

kd

)

b =

21556989

119

(5.2)

Dieses Gleichungssystem hat mehr Gleichungen als Unbekannte. Es ist „überbestimmt“und daher nicht eindeutig lösbar. Wir müssen noch zusätzlichen Annahmen treffenoder Bedingungen formulieren, um es lösen zu können.

Page 80: MaSt Statistik 2007

72 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Übertragen auf die grafische Darstellung (Abb.5.1) bedeutet dies: Eine Gerade istin der Ebene durch zwei Punkte definiert. Haben wir mehr als zwei Punkte, die aufder Geraden liegen sollen, so können wir im Allgemeinen keine eindeutige Lösung an-geben. Wir müssen ein Kriterium dafür finden, welche Gerade der Punktwolke „mög-lichst gut angepasst“ ist.

Wir könnten zum Beispiel jene Gerade auswählen, die durch den ersten und letztenPunkt geht (g1 in Abb.5.2), was aber offensichtlich kein gutes Kriterium wäre: Die Wahlist völlig willkürlich und schließt alle dazwischen liegenden Punkte aus. Die erhalteneGerade passt sich also keinesfalls der Punktwolke an, sondern repräsentiert ausschließ-lich den ersten und letzten Punkt. Wir haben im Gleichungssystem (5.2) einfach so vieleGleichungen gestrichen, bis es nicht mehr überbestimmt war.

Abb. 5.2 Drei Möglichkeiten, eine „ausgleichende“ Gerade durch die Punktwolke vonAbb.5.1 zu legen. Die punktierte Linie g1 ist die Gerade durch den ersten und letztenPunkt der Punktwolke. Die strichpunktierte Linie g2 ist die Gerade, die nach Zweitei-lung der Punktwolke die jeweiligen Schwerpunkte miteinander verbindet. Die gestri-chelte Linie g3 jene Gerade, die man nach Mittelung aller aus jeweils zwei Punktepaarenermittelten Anstiege und Ordinatenabschnitte erhält.

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

6

7

8

9

10

11

12

x

y

g1

g2

g3

Eine andere Möglichkeit wäre es, die Punktwolke in zwei Teile zu teilen, zum Bei-spiel in Punkte mit x ≤ 5 und solche mit x > 5. In jeder der beiden Gruppen könnenwir den Schwerpunkt bestimmen und dann durch diese beiden Punkte eine (eindeuti-ge) Gerade legen, die als „plausibler“ Repräsentant der gesamten Punktwolke dienenkönnte (g2 in Abb.5.2). Diese Gerade scheint zwar besser als g1 alle Punkte zu berück-sichtigen, die Aufteilung der Punkte in zwei Gruppen ist aber nach wie vor willkürlich.

Eine dritte Möglichkeit besteht darin, alle möglichen Punktepaare zu bilden, durchdiese jeweils eine Gerade zu legen und deren Parameter zu bestimmen. Der arithmeti-sche Mittelwert aller gefundenen Werte für den Anstieg k und den Ordinatenabschnittd gibt dann die „ausgeglichene“ Gerade an (g3 in Abb.5.2). Für unser Beispiel mit 10

Punkten gibt es n(n−1)2 = 45 mögliche Punktepaare. Das Verfahren ist also sehr zeit-

Page 81: MaSt Statistik 2007

5.2. LINEARE GLEICHUNGSSYSTEME 73

aufwändig und für die praktische Rechnung nicht geeignet. Dies insbesondere auch imHinblick darauf, dass unser Ziel ja letztendlich ein allgemeines Verfahren ist, d.h. nichtnur die Anpassung durch eine Gerade sondern auch durch andere, komplexere undkompliziertere Funktionen und auch für mehr als zwei Zufallsvariable10.

Nichts desto trotz können wir alle drei gefundenen Geraden in unsere Punktwol-ke einzeichnen. Dem Augenschein nach würden wir in Abb.5.2 vermutlich die Gerade,die durch die beiden Schwerpunkte geht (g2), noch am ehesten als Repräsentant derPunktwolke anerkennen. Wenn wir sie leicht drehen, erhalten wir sogar eine Gerade,auf der fünf unserer ursprünglichen Punkte unmittelbar enthalten sind (Abb.5.3). Es ist

Abb. 5.3 Eine „ausgleichende“ Gerade durch die Punktwolke von Abb.5.1: Die Gerade,die fünf der zehn ursprünglichen Punkte beinhaltet. An den übrigen Punkten verblei-ben Abweichungen bzw. Verbesserungsvektoren, um die man die Punkte verschiebenmuss, damit sie auch auf der Geraden liegen. Die Verbesserungsvektoren an den Punk-ten 1, 4, 5, 7 und 8 haben hier eine Länge gleich Null

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

6

7

8

9

10

11

12

x

y

v2

v3

v6

v9 v10

sehr wahrscheinlich, dass die meisten Leser dieser Geraden vor allen anderen angebo-tenen Möglichkeiten den Vorzug geben werden, wenn es darum geht, eine Gerade zufinden, die der Punktwolke aus Abb.5.1 „am besten“ angepasst ist. Diese „gefühlsmäßi-ge“ Entscheidung wollen wir nun genauer angeben und außerdem eine Vorgangsweiseerarbeiten, mit der wir in beliebigen Punktwolken den plausibelsten Repräsentantenangeben können, also auch nicht lineare Funktionen.

5.2.2 Herleitung der Methode der kleinsten Quadrate

Welche Wahl wir auch immer für die Unbekannten treffen: Damit die Punkte tatsächlichauf der danach erhaltenen Geraden zu liegen kommen, müssen wir die Beobachtungenverbessern, d.h. um jenen Betrag verschieben, der den Abweichungen von der Gera-den entspricht. Wir gehen in einer vereinfachten Annahme davon aus, dass wir diese

10Die drei Geraden g1, g2 und g3 beruhen auf Vorschlägen von Mathematikern aus der Zeit vor der allge-meinen Anerkennung der Methode der kleinsten Quadrate.

Page 82: MaSt Statistik 2007

74 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Verbesserungen nur in y-Richtung anbringen. Daher stehen die Verbesserungsvektorennicht normal auf die Gerade (was dem Euklidischen Abstand entsprechen würde) son-dern parallel zur y-Achse (Abb.5.3). In der Sprache der Statistik sagen wir dann auch:Nur die Messgrößen im Vektor Y sind Zufallsgrößen, die Größen auf der Abszisse (imVektor X) hingegen werden als fehlerfrei angenommen und bleiben fest.

Die „plausibelsten“ Werte der Unbekannten sind nun jene, denen im Sinne der Sta-tistik die größte Wahrscheinlichkeit zukommt. Das bedeutet aber, dass auch das Systemder Verbesserungen jenes ist, das die größte Wahrscheinlichkeit besitzt. Dazu benötigenwir zunächst

Das Gauß’sche Gesetz über die Verteilung zufälliger Messabweichungen

Bereits Lambert hat in seiner „Theorie der Zuverlässigkeit der Beobachtungen und Versuche“festgestellt, dass

• zufällige Abweichungen gleicher Größe nach beiden Seiten gleich möglich sind• geringere Abweichungen häufiger sind als große

und dass eine Kurve, die die Wahrscheinlichkeit für das Auftreten der Abweichungenangibt

• symmetrisch ist• im mittleren Abszissenwert den größten Ordinatenwert hat• die Kurve auf beiden Seiten einen Wendepunkt hat und sich• auf beiden Seiten der Abszisse asymptotisch nähert

Aufbauend auf diesen Beobachtungen Lamberts sowie bereits früheren Vorarbeitendurch Moivre11 („Doctrine of Chances“) hat Gauß die beschriebene Kurve mathematischweiter untersucht und seiner Theorie über Beobachtungsabweichungen zu Grunde ge-legt. Das Ergebnis ist die bekannte Normalverteilung, deren Dichtefunktion für die Ver-besserungen vi so lautet:

f (vi) =1

σi

√2π

· e− vi

2

2σ2i (5.3)

Die weiteren Überlegungen wollen wir nicht im Detail betrachten, sondern gleich einwichtiges Ergebnis angeben:

Damit die Wahrscheinlichkeitsdichte maximal wird, müssen die Verbesserungen sogewählt werden, dass gilt

n

∑i=1

v2i → min (5.4)

bzw. in MatrizenschreibweisevTv → min (5.5)

Eine Lösung für diese Extremwertaufgabe erhält man bekanntlich dadurch, dass mandie erste Ableitung der Funktion gleich Null setzt. Auch hier wollen wir wieder gleichdas Ergebnis angeben:

Zur Auflösung des überbestimmten Gleichungssystems

Ax = b

gehen wir zunächst von der so genannten Verbesserungsgleichung

v = Ax − b (5.6)

11Abraham de Moivre, 1667-1754

Page 83: MaSt Statistik 2007

5.2. LINEARE GLEICHUNGSSYSTEME 75

aus. Wir bestimmen einen Lösungsvektor x nach

x = (ATA)−1ATb (5.7)

Dies nennt man auch die Normalgleichung des Ausgleichungsproblems und die Matrix

N = ATA (5.8)

die Normalgleichungsmatrix. (5.7) kann dann auch geschrieben werden als

x = N−1ATb (5.9)

Die Verbesserungen v erhält man durch direktes Einsetzen von x in (5.6).Die ausgeglichenen (auch: verbesserten) Beobachtungen b erhält man aus

b = b + v (5.10)

Die eben angegebene Vorgangsweise zur Auflösung überbestimmter Gleichungssyste-me nennt man auch Ausgleichsrechnung oder Gaußsche Fehlerquadratmethode.

Hauptprobe

Die so genannte Hauptprobe, die am Ende jeder Ausgleichsrechnung steht, besteht dar-in, zu überprüfen, ob die ausgeglichenen Größen das ursprüngliche Gleichungssystemtatsächlich erfüllen. Sehen wir uns das am Beispiel des Gleichungssystems (5.1) an:

Die Normalgleichungsmatrix lautet:

N = ATA =

(

385 5555 10

)

und damit erhalten wir für x, also die Parameter k und d

x = N−1ATb =

(

11

)

und die Verbesserungen v

v = Ax − b =

02

−100

−200

−12

und den ausgeglichenen Vektor b

b = b + v =

23456789

1011

Page 84: MaSt Statistik 2007

76 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Vergleichen wir nun diese Lösung mit dem Ergebnis, das wir erhalten, wenn wir inunser Gleichungssystem für k = 1 und d = 1 einsetzen:

1 · 1 + 1 = 22 · 1 + 1 = 33 · 1 + 1 = 44 · 1 + 1 = 55 · 1 + 1 = 66 · 1 + 1 = 77 · 1 + 1 = 88 · 1 + 1 = 99 · 1 + 1 = 10

10 · 1 + 1 = 11

Die Hauptprobe ist also erfüllt.

5.3 Nicht-lineare Gleichungssysteme

Die im vorigen Abschnitt angegebene Auflösung überbestimmter Gleichungssystemefunktioniert in der dort angegebenen Form unmittelbar nur für lineare Gleichungssys-teme. Wir können aber auch nicht-lineare Gleichungssysteme nach der Methode derkleinsten Quadrate auflösen.

5.3.1 Gleichungssysteme „Linearisieren“

Ausgangspunkt ist das beliebige, nicht-lineare aber überbestimmte Gleichungssystem,das aus folgender Funktion entsteht:

ϕ(x) = b (5.11)

mit dem Unbekanntenvektor x und dem Beobachtungsvektor b. Der Unbekanntenvektorenthält die u Unbekannten; der Beobachtungsvektor die n beobachteten Daten. ϕ(x)ist ein Vektor, der n Funktionen ϕ1, ϕ2, . . . , ϕn enthält, die jeweils den Zusammenhangzwischen einer Beobachtung bi und den Unbekannten x1, ..., xu beschreibt.

Zur Auflösung des Gleichungssystems müssen wir die Funktionen ϕ(x) nach derbereits im vorigen Kapitel angewandten und im Anhang beschriebenen Taylorentwick-lung durch ihre Tangenten ersetzen. Dies funktioniert bekanntlich aber nur dann, wennwir bereits „sehr nahe am Ergebnis“ dran sind, das heißt einen Näherungswert x0 undden Funktionswert an dieser Stelle

ϕ(x0) = b0 (5.12)

kennen.Mit diesen Näherungswerten für unsere Unbekannten suchen wir nun noch in einer

entsprechend kleinen Umgebung von x0 ein ∆x, das wir zu den Näherungswerten x0dazuzählen müssen, um zum Lösungsvektor x zu kommen. Eingesetzt in die Formelnder Methode der kleinsten Quadrate bedeutet dies:

∆x = N−1AT(b − b0) (5.13)

mit der Matrix A:

A =

(

∂ϕ1/

∂x1) (

∂ϕ1/

∂x2)

. . .(

∂ϕ1/

∂xu

)

(

∂ϕ2/

∂x1) (

∂ϕ2/

∂x2)

. . .(

∂ϕ2/

∂xu

)

......

. . ....

(

∂ϕn

/

∂x1) (

∂ϕn

/

∂x2)

. . .(

∂ϕn

/

∂xu

)

(5.14)

Page 85: MaSt Statistik 2007

5.3. NICHT-LINEARE GLEICHUNGSSYSTEME 77

d.h. A enthält die partiellen Ableitungen der Funktionen ϕ1 bis ϕn nach den Unbekann-ten x1 bis xu. N ist – wie oben:

N = ATA

Den Lösungsvektor x erhält man aus

x = x0 + ∆x (5.15)

Weiters können wir die Verbesserungen ausrechnen:

v = A · ∆x − (b − b0) (5.16)

Diese Verbesserungen werden an unseren ursprünglichen Beobachtungen b1 bis bn an-gebracht und man erhält die verbesserten oder ausgeglichenen Beobachtungen b1 bis bn:

b = b + v (5.17)

Für die Hauptprobe muss erfüllt sein:

ϕ(x) = b (5.18)

5.3.2 Probleme beim Linearisieren

Geht die Hauptprobe nicht auf, kann dies drei Ursachen haben:

1. Es ist ein Fehler beim Aufstellen der Matrizen passiert.2. Es ist im Zuge der Rechnung ein Rechenfehler passiert.3. Die Näherungswerte waren nicht gut genug, sodass das Linearisieren unzulässig

war und die Taylorreihe zu früh abgebrochen wurde.

Dass tatsächlich ein Rechenfehler passiert ist, ist bei der Verwendung getesteter Rechen-programme eher unwahrscheinlich. Es ist allerdings möglich, dass auf Grund ungünsti-ger numerischer Eigenschaften der Normalgleichungsmatrix die Inversion zu falschenErgebnissen geführt hat.

Fehler beim Aufstellen der Matrizen können bei der praktischen Rechnung leichtpassieren. Einerseits kann man sich beim partiellen Ableiten selbst irren, andererseitskönnen Rechenfehler auftreten. Insbesondere ist auf die richtige Verwendung der Vor-zeichen sowie auf das Zusammenpassen der Einheiten zu achten. Jedes Element dervorkommenden Matrizen hat im Allgemeinen nicht nur einen Zahlenwert, sondernauch eine physikalische Einheit. Besonders sind jene Modelle fehleranfällig, in denenunterschiedliche Größen vorkommen – zum Beispiele Längen (Distanzen, Koordinaten-differenzen) und Winkel und Richtungen. Gegebenenfalls sind Winkel und Richtungenins Bogenmaß umzurechnen.

Beim Aufspüren eventueller Fehler in den Ausgangsmatrizen sind korrespondie-rende Elemente „heiße“ Kandidaten. Geht zum Beispiel die 3. Gleichung der Haupt-probe nicht auf, so ist die Wahrscheinlichkeit groß, dass in der 3. Zeile der Matrix Aoder das 3. Element des Vektors (b − b0) fehlerhaft sind.

Hat man die eben genannten Punkte überprüft und kann derartige Fehler ausschlie-ßen, die Hauptprobe geht aber trotzdem nicht auf, so ist wahrscheinlich die Grundvor-aussetzung des Linearisierens nicht gegeben: Die Näherungswerte waren offenbar zuschlecht und die Taylorreihe hätte nicht bereits nach den Gliedern erster Ordnung ab-gebrochen werden dürfen. In diesem Fall geht man iterativ vor:

Man rechnet zunächst einen Ausgleich durch. Das Ergebnis dieses Ausgleichs wirdals Näherungslösung für einen weiteren Durchgang verwendet. Die Iteration wird so-lange durchgeführt, bis die Hauptprobe genügend genau erfüllt ist. In Einzelfällen kannes auch vorkommen, dass die Iteration nicht konvergiert.

Page 86: MaSt Statistik 2007

78 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Ein Beispiel zum Ausgleich eines nicht-linearen Gleichungssystems werden wir unsim nächsten Kapitel ansehen.

5.4 Stochastische Eigenschaften der Unbekannten

Wir haben im 4. Kapitel die Kovarianzmatrix kennen gelernt, das ist jene Matrix, in derdie Varianzen und Kovarianzen eines Zufallsvektors zusammengefasst sind und die so-mit die stochastischen Eigenschaften des Zufallsvektors beschreibt. Der Lösungsvektorx, den wir aus (5.9) oder (5.15) erhalten, ist so ein Zufallsvektor. Ihm ist daher eine Kova-rianzmatrix zugeordnet. Sie fällt im Zuge der Ausgleichsrechnung beinahe „gratis“ an.Sie ergibt sich nämlich aus der Inversen der Normalgleichungsmatrix N, die wir ohne-hin zur Auflösung des Gleichungssystems brauchen, sowie dem Verbesserungsvektorv:

Cx =

s21 s12 . . . s1u

s21 s22 . . . s2u

......

. . ....

su1 su2 . . . s2u

=vTv

n − uN−1 (5.19)

In der Hauptdiagonalen dieser Matrix Cx stehen die Varianzen der Unbekannten x1bis xu; durch Wurzelziehen erhalten wir daraus die Standardabweichungen. Wir kön-nen also mit Hilfe der Methode der kleinsten Quadrate nicht nur überbestimmte Glei-chungssysteme lösen, sondern gleichzeitig auch die Standardabweichungen der ausge-glichenen Unbekannten angeben.

5.5 Englische Begriffe

ausgeglichene (Beobachtung, Parameter) -adjusted (observation, parameter)linearisierte Beobachtungsgleichungen -linearised observation equationsMethode der kleinsten Quadrate - leastsquares method auch: maximum likelihoodmethod

Näherungswerte - assumed (auch: approxi-mate) parameter values

Normalgleichungen - normal equations

überbestimmt - over-determined

Unbekannte - unknown parameters

Verbesserungen - residuals auch: corrections

Page 87: MaSt Statistik 2007

Kapitel 6

Regression und Korrelation

6.1 Einleitung

In diesem Kapitel geht es um die Beziehung zwischen zwei Zufallsvariablen. Wir wol-len den Einfluss einer Variablen auf die andere untersuchen. Gesucht sind Art, Rich-tung und Stärke des Zusammenhangs, mit dem sich die interessierende Variable (auch:abhängige oder Response-Variable) aus der erklärenden Variablen (auch: unabhängige oderPrädiktor-Variable) erklären lässt. Dabei unterstellen wir zunächst einen linearen Zusam-menhang, nehmen also an, dass sich die abhängige Variable mehr oder weniger gut alslineare Funktion der unabhängigen Variablen darstellen lässt. Mathematisch geht es al-so um die Bestimmung der Parameter einer Geraden (Anstieg und Achsenabschnitt).Dabei wird die im letzten Kapitel eingeführte Methode der kleinsten Quadrate eine wich-tige Rolle spielen.

6.2 Regressionsrechnung

6.2.1 Ein Beispiel

Sehen wir uns zu Beginn ein einfaches Beispiel an: Tabelle 6.1 zeigt das Ergebnis derUntersuchung von Größe und Gewicht zwanzig zufällig ausgewählter Erwachsener.Wir könnten zu diesen Daten die Häufigkeitsverteilungen für X und für Y in einer

X Größe [cm] Y Gewicht [kg] X Größe [cm] Y Gewicht [kg]188 83 170 68183 88 187 92183 81 177 85185 85 178 78178 70 180 75

198 94 182 75163 55 189 88164 57 173 68174 80 176 77185 78 177 78

Tabelle 6.1: Größe und Gewicht 20 zufällig ausgewählter Erwachsener

Tabelle oder grafisch darstellen und wichtige charakterisierende Parameter wie Mittel-

79

Page 88: MaSt Statistik 2007

80 KAPITEL 6. REGRESSION UND KORRELATION

werte oder Streuungsmaße berechnen. Solche und ähnliche Fragen haben wir uns im2. Kapitel gestellt. Wir könnten auch – wie im 3. Kapitel – feststellen, dass sowohl dieVerteilung der gemessenen Körpergrößen als auch die Verteilung der Gewichte in etwaeiner Gaußschen Glockenkurve und somit einer Normalverteilung folgen.

Wir können aber auch die beiden Zufallsgrößen Größe und Gewicht gemeinsam be-trachten und in einem Streudiagramm („Punktwolke“) darstellen. Dazu stellen wir diebeiden Variablen X und Y in einem Koordinatensystem dar und zeichnen für jedenMerkmalsträger einen Punkt an den Koordinaten (X,Y) ein1. Aus einem Streudiagrammkönnen wir oft bestimmte „Muster“ in unseren Daten optisch ablesen, Trends erkennenund augenscheinliche Zusammenhänge zwischen Daten sehen.

Abb. 6.1 Streudiagramm zu den Daten aus Tab.6.1

50

60

70

80

90

100

150 160 170 180 190 200 210

Wir können zum Beispiel in der Abb.6.1 feststellen, dass mit zunehmendem X auchdie Variable Y tendenziell zunimmt. Das legt den Schluss nahe, dass sich das Körper-gewicht aus der Körpergröße erklären lässt2. Dieser Zusammenhang ist natürlich keinstreng deterministischer, d.h. es gibt kein naturwissenschaftliches Gesetz oder Funktion,die aus der Körpergröße das exakte Gewicht errechnen kann. Es gibt aber einen ten-denziellen Zusammenhang; wir nennen das auch einen stochastischen oder statistischenZusammenhang. Er ist dadurch gekennzeichnet, dass er immer nur mit einer gewissenUnschärfe angegeben werden kann. Aufgabe der Regressionsrechnung ist es nun, die Artdes stochastischen Zusammenhangs zu beschreiben.

Zunächst einmal können wir in Abb.6.1 ein bestimmtes Muster erkennen, das vonlinks unten nach rechts oben verläuft. Wir sprechen in diesem Fall von einem positivenZusammenhang; andernfalls (von links oben nach rechts unten) von einem negativen.Es kann natürlich auch sein, dass wir wir wirklich im wahrsten Sinn des Wortes einenPunkt-Haufen vor uns haben und zunächst einemal überhaupt kein Zusammenhangoder „Muster“ erkennbar ist (Abb.6.2).

Die nächste Frage, die wir uns stellen wollen, ist: Von welchem Typ könnte eineFunktion sein, die wir „in die Punktwolke hineinlegen“, und die als charakteristischerRepräsentant der Punktwolke gelten kann? Prinzipiell unterscheiden wir dabei zwi-

1Streudiagramme können auch dreidimensional sein und drei Zufallsgrößen X, Y und Z repräsentieren2Tatsächlich ist die Körpergröße nur eine Variable, die das Gewicht beeinflusst. Es spielt auch das Alter,

das Geschlecht, die Essgewohnheiten, der Hormonhaushalt, die Bewegungsfreudigkeit etc. eine Rolle. Aberin dieser einfachen statistischen Untersuchung betrachten wir nur bivariate Zufallsgrößen.

Page 89: MaSt Statistik 2007

6.2. REGRESSIONSRECHNUNG 81

Abb. 6.2 Streudiagramme mit verschiedenen Mustern (positiv, negativ und „zusam-menhangslos“

schen linearen und nicht-linearen Funktionen. Lineare Funktionen (= Geraden) sind ein-facher zu handhaben, daher wird ihnen oft der Vorzug gegeben. Es gibt aber auch an-dere Funktionen, die die Regressionszusammenhänge beschreiben, unter anderem Pa-rabeln, Hyperbeln, Exponenzialfunktionen, etc. Man darf dabei nicht immer nur nachdem Augenschein gehen und die Punktwolke „optisch“ beurteilen, sondern sollte auchinhaltliche Überlegungen miteinbeziehen. So wirkt sich zum Beispiel das Einbringenvon Düngemitteln auf ein Feld zunächst so aus, dass mit zunehmendem Düngemitte-leinsatz der Ernteertrag tendenziell steigen wird. Allerdings wird dies nur bis zu einemgewissen Maximum gehen, und jede weitere Erhöhung der Düngemittelmenge wirdzu einer Überdüngung führen und den Ernteertrag wieder verringern, im schlimmstenFall sogar zu einem niedrigerem Ertrag führen, als wenn wir gar nicht gedüngt hät-ten. Der Verlauf des Zusammenhangs der beiden Variablen „Düngemittelmenge“ und„Ernteertrag“ ist somit nicht linear. In den meisten Fällen können wir aber die Punkt-wolke eines Streudiagramms in mehrere „Teilwolken“ zerlegen, die ihrerseits jeder fürsich wieder durch lineare Funktionen charakterisiert werden können.

6.2.2 Die Regressionsgerade

Wir gehen also von einem linearen Zusammenhang aus und suchen die beiden Para-meter der Geradengleichung3. Die Lösung ist sehr einfach: Wir bedienen uns der imvorigen Kapitel erarbeiteten Methode der kleinsten Quadrate und bestimmen als Regres-sionsgerade die ausgleichende Gerade durch die Punktwolke. Wir geben also jene Geradean, bei der die Summe der quadrierten, in y-Richtung gemessenen Abstände zwischenden Punkten und der Geraden minimal ist.

Fassen wir alle Realisierungen xi der Zufallsvariablen X in der Matrix A zusammen,und alle Realisierungen yi im Vektor y, so können wir die Lösung für die Parameter kund d (Anstieg und Achsenabschnitt der Geraden) gleich angeben:

A =

x1 1x2 1...

...xn 1

, y =

y1y2...

yn

(

kd

)

=(

ATA)−1

ATy (6.1)

Will man sich nicht der Matrizenrechnung bedienen, kann man auch schrittweise vor-

3Die beiden Parameter sind der Anstieg der Geraden und der Achsenabschnitt auf der y-Achse (= die „Ver-schiebung“ entlang der y-Achse relativ zum Ursprung des Koordinatensystems)

Page 90: MaSt Statistik 2007

82 KAPITEL 6. REGRESSION UND KORRELATION

gehen. Zunächst berechnet man für jede Zufallsvariable den jeweiligen Mittelwert:

x =1n

n

∑i=1

xi y =1n

n

∑i=1

yi (6.2)

und anschließend die Varianz der Zufallsgröße X

s2X =

1n − 1

n

∑i=1

(xi − x)2 (6.3)

und die Kovarianz von X und Y:

sXY =1

n − 1

n

∑i=1

(xi − x) (yi − y) (6.4)

=1

n − 1

(

n

∑i=1

xi · yi − n · x · y

)

(6.5)

Dann erhält man die Parameter der Regressionsgeraden aus

k =sXY

s2X

(6.6)

d = y − kx (6.7)

Der Anstieg k der Regressionsgeraden wird auch als Regressionskoeffizient bezeich-net. Er kann positiv oder negativ sein und dementsprechend sprechen wir von positiverbzw. negativer linearer Regression

Wenden wir (6.1) auf unser Ausgangsbeispiel an, so erhalten wir als Ergebnis(

kd

)

=

(

1.08−116.10

)

was wir auch gleich grafisch umsetzen und in das Streudiagramm 6.1 die Regressions-gerade einzeichnen können (Abb.6.3). Mit Hilfe der Regressionsgeraden sind durch ein-faches Einsetzen nun auch Prognosen für nicht empirisch bestimmte Merkmalsausprä-gungen möglich. Wir können zum Beispiel angeben, welches Körpergewicht für einenErwachsenen mit einer Körpergröße von 196 cm statistisch zu erwarten ist, nämlich1.08 · 196 − 116.10 = 96 kg.

6.2.3 Ergänzungen

1. Das Wort Regression4 ist an sich eine nichtssagende, geradezu unpassende Be-zeichnung, die aber vom „Erfinder“ der Methode, Galton5, auf Grund eines einzi-gen Beispiels geprägt wurde: Galton, ein Cousin von Charles Darwin, versuchte,die Evolutionstheorie seines Cousins durch quantitative Beispiele zu untermau-ern. In einer großangelegten experimentellen Studie untersuchte er, ob es eine Be-ziehung zwischen der Körpergröße der Eltern und der ihrer Kinder gibt. Er fandheraus, dass zwar große Eltern tendenziell auch große Kinder haben und kleineEltern kleine Kinder, allerdings in der Weise, dass die Kinder großer Eltern eher

4vom lat. regredior = zurückgehen5Sir Francis Galton, 1822-1911, englischer Arzt und Biologe. Er verfasste zahlreiche Arbeiten über Anthro-

pologie und Vererbung und sammelte dazu Daten über verschiedene Merkmalsausprägungen der Menschen.Anschließend entwickelte er statistische Methoden zu ihrer Auswertung.

Page 91: MaSt Statistik 2007

6.3. KORRELATIONSRECHNUNG 83

Abb. 6.3 Regressionsgerade zu den Daten aus Tab.6.1

50

60

70

80

90

100

110

150 160 170 180 190 200 210

kleiner sind als ihre Eltern und umgekehrt. Eltern haben also meistens Kinder,deren Größe näher am Durchschnitt liegt als ihre eigene Größe. Er nannte diesenZusammenhang „regression to mediocrity“ – den „Rückschritt zum Mittelmaß“(Dass wir eher zur Mittelmäßigkeit tendieren hätten wir wahrscheinlich auch oh-ne Galton vermutet – aber er hat sogar eine Theorie dazu entwickelt, mit der erdies experimentell nachweisen konnte).

2. Verschiedene Datensets können durch ein und dasselbe lineare Regressionsmo-dell repräsentiert werden, wie aus Abb.(6.4) ersichtlich ist.

3. Auch wenn der stochastische Zusammenhang nicht linear ist, kann ein Regresi-onsmodell erstellt werden. Wir können nicht nur Gerade sondern jede beliebigeFunktion durch den Punkthaufen legen und mit Hilfe der Methode der kleinstenQuadrate ihre Parameter bestimmen.

6.3 Korrelationsrechnung

Die Regressionsgerade beschreibt zwar die Art des statistischen Zusammenhangs, sagtaber nichts über seine Stärke aus. Wir werden aber umso „ungenauere“ Prognosen abge-ben, je geringer der statistische Zusammenhang der beiden Variablen ist. Eine Regres-sionsgerade lässt sich berechnen, auch wenn so gut wie kein Zusammenhang vorliegt.Wir können durch die Punktwolke ja auf jeden Fall eine Gerade dergestalt legen, dassdie Summe der Abstandsquadrate minimiert wird. Die Frage ist nun, wie eng oder weitdie Punktwolke um die erhaltene Regressionsgerade streut. Dies beantwortet die Kor-relationsrechnung.

6.3.1 Der Korrelationskoeffizient

Wir gehen wieder von der Kovarianz von X und Y aus. Sie ist ein Parameter für die„gemeinsame Streuung“ und entspricht dem mittleren Produkt der Abweichungen dereinzelnen xi und yi von ihrem jeweiligen Mittelwert. Ist dieses Produkt positiv, so sinddie Zufallsgrößen X und Y tendenziell eher gleich, d.h. mit großer Wahrscheinlichkeit

Page 92: MaSt Statistik 2007

84 KAPITEL 6. REGRESSION UND KORRELATION

Abb. 6.4 Vier verschiedene Datensets, die durch dasselbe lineare Regressionsmodellrepräsentiert werden. Quelle: F.J.Anscombe: Graphs in Statistical Analysis – In: The American

Statistician, Vol.27, No.1 (1973), pp.17-21

nimmt die eine zu, wenn auch die andere zunimmt, beziehungsweise ab, wenn dieandere abnimmt. Ist die Kovarianz hingegen negativ, verhalten sich die Zufallsgrößentendenziell eher reziprok, d.h. mit großer Wahrscheinlichkeit nimmt die eine ab, wenndie andere zunimmt, beziehungsweise zu, wenn die andere abnimmt. Zufallsgrößen,deren Kovarianz gleich Null ist, bezeichnen wir als stochastisch unabhängig.

Der Wert der Kovarianz ist abhängig von der Dimension der beiden ZufallsgrößenX und Y. Beschreibt zum Beispiel X die Länge einer gemessenen Distanz und Y dieTemperatur zum Zeitpunkt der Messung, so ist der Wert von sxy unterschiedlich, jenachdem ob die Länge in mm, m oder km angegeben wird bzw. die Temperatur in Cel-sius oder Fahrenheit. Die Kovarianzen können aber normiert werden, indem sie durchdie jeweiligen Standardabweichungen dividiert werden. Damit schafft man ein dimen-sionsloses Maß. Der entsprechende Quotient

ρXY =Cov(X, Y)

Var(X) · Var(Y)=

σXY

σXσY(6.8)

wird Korrelationskoeffizient genannt. Sein Schätzwert

rik =sik

sisk(6.9)

ist der empirische Korrelationskoeffizient.Die Definition des Korrelationskoeffizient in der Form (6.8) bzw. (6.9) stammt von

Pearson6 und wird daher auch Pearson-Korrelationskoeffizient genannt, manchmal auchBravais-Pearson-Korrelationskoeffizient. Bravais7 entwickelte in seiner 1846 publiziertenAnalyse mathématique sur les probabiliés des errors de situation d’un point die mathemati-schen Grundlagen der Korrelationsrechnung, auf denen Pearson 50 Jahre später auf-baute. Der Begriff Korrelation selbst wurde übrigens erstmals 1888 in der schon auf Seite

6Karl Pearson, englischer Eugeniker und Statistiker, 1857-19367Auguste Bravais, französischer Astronom und Physiker, 1811-1863

Page 93: MaSt Statistik 2007

6.3. KORRELATIONSRECHNUNG 85

82 erwähnten Publikation von Galton über Co-relations and their measurement, chiefly fromanthropometric data verwendet.

Es gilt:−1 ≤ ρ ≤ 1 bzw. −1 ≤ r ≤ 1 (6.10)

wobei eine positive Korrelation bedeutet, dass eine Vergrößerung der Werte der einenZufallsgröße auch eine Vergrößerung der Werte der anderen Zufallsgröße zur Folgehat. Eine negative Korrelation hingegen bedeutet, dass eine Vergrößerung der Werteder einen Zufallsgröße eine Verkleinerung der Werte der anderen Zufallsgröße bewirktund vice versa. Ein Korrelationskoeffizient von exakt +1.0 oder −1.0 würde bedeuten,dass nicht nur ein stochastischer linarer Zusammenhang besteht, sondern die Punktetatsächlich auch streng mathematisch auf einer Geraden liegen.

In unserem Beispiel (Tab. 6.1) ergibt sich ein Korrelationskoeffizient von 0.88, d.h. esgibt (zumindest in unserer Stichprobe) einen realtiv starken positiven linearen stochas-tischen Zusammenhang zwischen Körpergröße und Gewicht.

Bsp. 6.1 Korrelationskoeffizient und Ausreißer.

Der Korrelationskoeffizient ändert sich, wenn sich die Daten der Stichprobe ändern:Das brasilianische Fotomodel Ana Carolina Reston (gestorben im Oktober 2006 imAlter von 21 Jahren an den Folgen einer Magersucht) hatte bei einer Körpergröße von1.74 Metern nur noch 40 Kilogramm gewogen. Sie hätte unseren Korrelationskoeffizi-enten (Tab. 6.1) auf 0.79 gesenkt.Manuel Uribe Garza, der schwerste Mann der Welt, ist 1.90 groß und wiegt 550 kg. Erdrückt den Korrelationskoeffizienten überhaupt auf 0.36.Robert Pershing Wadlow hingegen, der als größter je lebender Mensch gilt (lebte inIllinois, USA, von 1918-1940), hatte bei einer Größe von 2.72 Metern ein Gewicht von199 kg, was unsere Korrelation auf ein Maß von 0.99 gesteigert hätte.

Aus Formel (6.8) bzw. (6.9) kann man erkennen, dass für den Korrelationskoeffi-zienten – im Gegensatz zur Regression – eine Unterscheidung in eine abhängige undeine unabhängige Zufallsvariable nicht mehr notwendig ist (Es spielt keine Rolle, waswir als X und was als Y bezeichnen – die Formel ist bezüglich X und Y symmetrisch).Wir können auch sagen: Der Korrelationskoeffizient beschreibt die gegenseitige lineareAbhängigkeit.

6.3.2 Korrelation und Stochastische Abhängigkeiten

Im 4. Kapitel haben wir Ereignisse und Wahrscheinlichkeiten für ihr Eintreten unter derstillschweigenden Annahme betrachtet, dass die einzelnen Ereignisse nicht vom Ein-treten anderer, zeitlich vorausgehender oder räumlich beieinander liegender Ereignisseabhängen. Beim Würfeln zum Beispiel bleibt die Wahrscheinlichkeit für das Eintretendes Ereignisses „Augenzahl = 6“ stets gleich, egal was beim vorherigen Wurf gewürfeltwurde. In vielen anderen Beispielen ist das aber nicht der Fall. Bei Wetterprognosenist zum Beispiel die Wahrscheinlichkeit dafür, dass es morgen kalt sein wird, größer,wenn es bereits heute kalt ist. Dafür ist in der Wahrscheinlichkeitstheorie der Begriffder bedingten Wahrscheinlichkeit definiert, was als

P(X = a|Y = b)

geschrieben wird (lies: Wahrscheinlichkeit für das Eintreten des Ereignisses X = a, unter derBedingung, dass Y = b bereits eingetreten ist).

Page 94: MaSt Statistik 2007

86 KAPITEL 6. REGRESSION UND KORRELATION

Wenn für die Zufallsgrößen X und Y gilt:

P(X = a|Y = b) 6= P(X = a) (6.11)

so sind X und Y stochastisch abhängig. Die morgige Temperatur ist zum Beispiel eineZufallsgröße, die von der heutigen Temperatur abhängig ist (Zufallsgröße X = morgigeTemperatur und a = −1◦, Zufallsgröße Y = heutige Temperatur und b = −2◦). Dabei istdiese Abhängigkeit wechselseitig, d.h. retrospektiv wird man auch sagen können, dassdie heutige Temperatur nicht unabhängig von der morgigen war.

Hingegen ist das Wetter unabhängig davon, ob heute alles aufgegessen wurde8 (Zu-fallsgröße X = morgiges Wetter und a = schön, Zufallsgröße Y = Alles aufgegessen und b =ja) und es gilt:

P(X = a|Y = b) = P(X = a) (6.12)

Formel (6.12) beschreibt X und Y als stochastisch unabhängige Zufallsgrößen.Der Korrelationskoeffizient (6.8) ist nun ein Maß für den linearen stochastischen Zu-

sammenhang der Zufallsgrößen X und Y. Zwei Komponenten X und Y des Zufallsvek-tors X sind unkorreliert, d.h. ihr Korrelationskoeffizient ρik ist gleich Null, wenn sie sto-chastisch unabhängig sind.

6.3.3 Nicht-lineare Zusammenhänge

Der Korrelationskoeffizient ist nur ein Maß für Stärke und Richtung des linearen Zu-sammenhangs der Zufallsgrößen, aber kein Maß für Abhängigkeiten schlechthin. Ersagt nichts aus über nicht-lineare Zusammenhänge. Zwei Zufallsgrößen, zwischen de-nen ein nicht-linearer Zusammenhang besteht (zum Beispiel Y = X2, siehe Abb.6.5),haben nicht unbedingt einen Korrelationskoeffizienten ρxy = 1, wie es vielleicht zu er-warten wäre. Der Korrelationskoeffizient kann im Gegenteil sehr klein oder sogar Nullsein. In unserem Beispiel Y = X2 ist trotz des engen Zusammenhangs ρxy = 0. Der

Abb. 6.5 Zwei Merkmale, die in einem nicht-linearen Zusammenhang stehen

0

20

40

60

80

100

120

0 5 10 15 20 25

Merkmal X

Mer

kmal

Y

Korrelationskoeffizient gibt also nur darüber Auskunft, „wie gut die Zufallsgrößen auf

8Diese Theorie ist zugegebenermaßen im Alltag umstritten. Ähnliches gilt zum Beispiel für die Wahr-scheinlichkeit dafür, dass man Glück in der Liebe hat, unter der Bedingung, dass man Pech im Spiel hat oderumgekehrt.

Page 95: MaSt Statistik 2007

6.4. KAUSALE ZUSAMMENHÄNGE UND SCHEINKORRELATIONEN 87

einer Geraden liegen“. Wir können nicht-lineare Zusammenhänge von Zufallsgrößenzwar mit Hilfe der Regressionsrechnung beschreiben (unter Verwendung der Metho-de der kleinsten Quadrate), ein Maß für den Zusammenhang gibt es aber nur für lineareZusammenhänge9.

6.4 Kausale Zusammenhänge und Scheinkorrelationen

Weder Korrelation noch Regression beschreiben explizit kausale Zusammenhänge. D.h.selbst ein sehr hoher Wert des Korrelationskoeffizienten oder eine augenscheinlich „idea-le“ Regressionsfunktion, bei der alle Punkte bereits direkt auf einer Funktion liegen wiein Abb.6.5, sagt nichts darüber aus, dass die Größe des einen Merkmals die Ursache fürdie Größe des anderen Merkmals ist. Natürlich kann eine kausale Beziehung bestehen,das muss aber nicht der Fall sein. In diesem Zusammenhang spricht man auch oft voneiner Scheinkorrelation.

Es lässt sich zum Beispiel der statistische Zusammenhang zwischen der Anzahl derGeburten und der Anzahl der Störche in einer bestimmten Region feststellen. Hier gibtes meistens eine positive Korrelation, was aber nicht eine inhaltliche Kausalität beweist.Es ist vielmehr so, dass hier die beiden Merkmale Geburtenzahl und Storchenzahl übereine dritte Komponente, nämlich die zunehmende Verstädterung, zusammenhängen.

Bsp. 6.2 Der Mozart-Effekt: Stochastischer oder kausaler Zusammenhang?

Im Jahre 1993 erregte eine kurze Meldung im renommierten Wissenschaftsjournal Na-ture eine überproportionale Reaktion: Frances Rauscher und Gordon Shaw berichte-ten, dass Studenten nach dem Anhören einer Komposition von Wolfgang AmadeusMozart in einem anschließenden Intelligenztest signifikant höhere Leistungen erzielthatten als ihre Kollegen, die das Stück nicht zu hören bekamen. Daraus entwickel-te sich bald ein florierender Geschäftszweig. Ein besonders geschäftstüchtiger Autorließ sich den Begriff „Mozart Effect“ sogar als Warenzeichen schützen. Er und ande-re verdienten gut mit Büchern und Tonträgern, mit denen sie versprachen, durch dieMacht von Mozarts Musik nicht nur körperliche Beschwerden zu heilen sondern auchdie geistigen Kräfte zu steigern.Als Statistiker wissen wir, dass solche Zusammenhänge zwar vielleicht tatsächlichnachweisbar sind, dass es sich dabei aber um stochastische Zusammenhänge handeltund nicht um kausale. Es kann zum Beispiel sein, dass Menschen, die intelligentersind, auch eher klassische Musik hören, als Menschen mit einem niedrigen Intelli-genzquotienten. Daraus kann aber nicht abgeleitet werden, dass ein wenig Mozarthören praktisch ohne sonstigen Aufwand die Intelligenz steigert.Nichts desto trotz eine kleine Anregung für das Erlernen und Üben des Stoffes dergegenständlichen Vorlesung: Es handelte sich im angegebenen Versuch um MozartsSonate für zwei Klaviere, KV 448.

Selbst wenn es eine unmittelbare Kausalität gibt, müssen wir beachten, dass der Kor-relationskoeffizient nichts über die Richtung der Kausalität aussagt. Er beschreibt ja diegegenseitige Abhängigkeit. Dies kann zum Fehlschluss führen, Ursache und Wirkung zuverwechseln. Ein Beispiel ist der Zusammenhang zwischen dem Anstieg von Kohlen-dioxid in der Erdatmosphäre und dem als Globale Erwärmung bezeichneten Anstieg der

9Manchmal begegnen wir den Begriffen auch in der Alltagssprache – allerdings oft falsch eingesetzt. Men-schen, die besonders „wissenschaftlich“ klingen wollen oder sonst unter Beweis stellen wollen, dass sie auchFremdwörter einsetzen können, sprechen davon dass „zwei Dinge miteinander korrelieren“. Mit der ein-fachen Frage, ob sie damit wirklich einen linearen Zusammenhang meinen, könnten wir sie aber leicht inVerlegenheit bringen ...

Page 96: MaSt Statistik 2007

88 KAPITEL 6. REGRESSION UND KORRELATION

Durchschnittstemperaturen (Stichwort: „Klimawandel“). Studien und Untersuchungenzeigen hier eine offensichtliche (positive) Korrelation.

Aus Sicht der Statistik kann man aber nicht auf eine unmittelbare Kausalität undvor allem nicht auf die Richtung eindeutige Aussagen treffen. Es könnte sein, dass derTemperaturanstieg die CO2-Konzentration in der Atmosphäre ansteigen lässt und nichtumgekehrt. Oder dass beide von einer dritten Ursache abhängen, zum Beispiel demZusammenspiel von kosmischer Strahlung und Sonnenwinden.

Klarheit könnte hier eine multivariate Regressionsrechnung schaffen, die aber über denRahmen dieser Lehrveranstaltung hinausgeht.

6.5 Englische Begriffe

Achsenabschnitt (der Regressionsgeradenauf der y-Achse) - intercept (auch: y-intercept) (of the regression line)Anstieg (der Regressionsgeraden) - slope(of the regression line)Ausreisser - Outlierbedingte Wahrscheinlichkeit - conditionalprobabilityKorrelation - correlationKorrelationskoeffizient - correlation coeffi-cientPrädiktor-Variable (auch: erklärende oderunabhängige Variable) - predictor variable

oder explanatory oder independent variablePunkthaufen/Punktwolke/Streudiagramm- scatterplot

Regression - regression

Response-Variable (auch: interessierendeoder abhängige Variable) - response variableoder dependent variable

Streudiagramm - scatterplot

stochastisch (un)abhängig - stochastically(in)dependent

Zusammenhang - (in der Statistik:) associa-tion

Page 97: MaSt Statistik 2007

Kapitel 7

Induktive Statistik

Wir haben uns in den bisherigen Überlegungen einerseits mit der statistischen Unter-suchung von empirisch ermittelten Datenmengen beschäftigt und zum Beispiel dasarithmetische Mittel einer endlichen Beobachtungsreihe angegeben, die Varianz und dieStandardabweichung. Wir haben andererseits auch ein entsprechendes theoretisches Wahr-scheinlichkeitsmodell erarbeitet. Wir haben unter anderem die Normalverteilung kennengelernt und wie wir für normalverteilte Zufallsgrößen die Wahrscheinlichkeit angebenkönnen, dass ihre Werte innerhalb eines bestimmten Intervalls liegen.

Ein wesentliches Merkmal unserer Daten war (und ist) immer die Frage, ob sie ei-ner Stichprobe oder der Grundgesamtheit entstammen. Oder anders ausgedrückt: Ob wirüber die empirischen Daten oder das zugrunde liegende theoretische Modell sprechen.Wichtig ist auch die Frage, inwieweit sich die Ergebnisse der Stichprobe für die Grund-gesamtheit verallgemeinern lassen. Wir möchten die Schlussfolgerungen, die aus derStichprobe gezogen werden, durch Hypothesen überprüfen und – zumindest statistisch– absichern. Diese Fragestellungen sind Hauptaufgabe der Induktiven Statistik (auch:Schließende oder Analytische Statistik). Die Schlussfolgerung selbst nennt man auch sta-tistische Inferenz.

7.1 Stichproben

Am Beginn der meisten Erklärungen zu statistischen Methoden steht das Modell des„Ziehens aus einer Urne“. Zu den Begriffen „Grundgesamtheit“ und „Stichprobe“ be-trachten wir also auch jetzt N Kugeln, die sich in einer Urne befinden. Sie stellen dieGrundgesamtheit dar. Wir ziehen nun n mal eine Kugel zufällig aus der Urne und legensie anschließend wieder zurück. Dies ist die Stichprobe. Übertragen auf das statistischeModell des Vorganges „Messen von Daten“ bedeutet dies: Wir wiederholen das Zufalls-experiment „Messen“ n mal. Da Messgrößen stetige Größen sind, müssten wir N = ∞

mal messen um die Grundgesamtheit aller Messergebnisse zu erhalten. Das wird aberselten gemacht. In der Regel beschränken wir uns auf eine endliche Anzahl von Wie-derholungen, eben auf eine Stichprobe. Wichtig dabei ist, dass der Auswahlprozess, deraus einer Grundgesamtheit eine Stichprobe zieht, tatsächlich nach dem Zufallsprinziperfolgt.

7.1.1 Stichprobenverteilungen

Nehmen wir zunächst folgendes Beispiel an (Tabelle 7.1): Wir haben N = 100 Zufalls-zahlen (in den Grenzen zwischen 200 und 800). Diese 100 Zufallszahlen stellen eine

89

Page 98: MaSt Statistik 2007

90 KAPITEL 7. INDUKTIVE STATISTIK

Grundgesamtheit dar. Wir können nun Mittelwert und Streuung bestimmten, nämlich:µ = 472 und σ = 114.4. Da wir eine Grundgesamtheit vor uns haben, sind diese Wertetatsächlich die Erwartungswerte für den Mittelwert und die Standardabweichung.

205 213 221 267 276 287 302 312 312 322331 341 342 344 347 353 365 371 374 374379 390 397 399 404 405 406 409 410 414415 418 419 420 426 429 430 431 435 435438 449 450 451 456 457 462 463 467 467

468 471 471 475 481 484 488 489 494 497499 507 508 511 512 517 517 519 526 528530 537 539 540 541 544 549 549 550 555559 559 563 584 591 593 597 606 610 615639 641 650 663 679 688 690 697 725 765

Tabelle 7.1: 100 Zufallszahlen zwischen 200 und 800

In weiterer Folge beschließen wir aber, dass es zu aufwändig wäre, tatsächlich dieGrundgesamtheit zu untersuchen. Wir wählen n = 99 Zahlen zufällig aus; diese 99stellen nun eine Stichprobe dar und wir wollen aus der Stichprobe den Erwartungswertschätzen1. Aus einer Grundgesamtheit von N Elementen können wir

(

Nn

)

=N!

n!(N − n)!

verschiedene Stichproben vom jeweils gleichen Umfang n ziehen. In unserem Fall sinddies 100 mögliche Stichproben2. Jede der 100 Stichproben hat ein bestimmtes arithme-tisches Mittel (in unserem Fall: ein Wert von 469.040 bis 474.697). Da wir in jeder Stich-probe n = 99 zufällige Zahlen (aus der Grundgesamtheit) ausgewählt haben, könnenwir auch den jeweiligen Mittelwert jeder Stichprobe als Zufallsgröße auffassen. Wie je-de andere Zufallsgröße auch, folgt dann auch der Mittelwert einer bestimmten Wahr-scheinlichkeitsverteilung. Diese Wahrscheinlichkeitsverteilung nennen wir Stichprobenver-teilung.

Entsprechend den Aussagen des Zentralen Grenzwertsatzes gehen wir davon aus,dass die Stichprobenverteilung einer Normalverteilung folgt. Zu ihrer Beschreibung ver-wenden wir die beiden wichtigen Parameter Erwartungswert und Varianz.

Wir können im Übrigen nicht nur für den Stichprobenmittelwert sondern auch fürandere Maßzahlen (zum Beispiel die Standardabweichung oder die Differenz zwei-er Mittelwerte oder zweier Standardabweichungen) die jeweilige Stichprobenvertei-lung angeben. Die Standardabweichung der aufgezählten Parameter werden manch-mal auch als Standardfehler bezeichnet. Es gibt also Standardfehler des Mittelwertes,Standardfehler der Standardabweichung, Standardfehler der Differenz zweier Mittel-werte etc.

199 Werte aus einer Grundgesamtheit von 100 Werten als Stichprobe heranzuziehen mag eigenartig er-scheinen; tatsächlich eignet sich diese Auswahl aber sehr gut, um die Methode als solche zu illustrieren, weiles einen relativ geringen – und damit nachvollziehbaren – Rechenaufwand gibt. Siehe nächste Fußnote

2Jede andere Zahl kleiner als 99 hätte zu einer entsprechend größeren Zahl von möglichen Stichprobengeführt

Page 99: MaSt Statistik 2007

7.1. STICHPROBEN 91

7.1.2 Stichprobenverteilungen wichtiger Maßzahlen

Stichprobenverteilung des arithmetischen Mittels

Die Stichprobenverteilung des arithmetischen Mittels X folgt ab einem Stichprobenum-fang von etwa n = 30 einer Normalverteilung mit dem Erwartungswert

µX = µ (7.1)

und der Standardabweichung

σX =σ√n

(7.2)

d.h. der Erwartungswert von X ist gleich dem Erwartungswert der Grundgesamtheitund die Standardabweichung von X gleich der Standardabweichung der Grundge-samtheit dividiert durch die Wurzel aus dem Stichprobenumfang n.

Stichprobenverteilung der Standardabweichung

Unter der Voraussetzung der Normalverteilung der Grundgesamtheit folgt die Stich-probenverteilung der Standardabweichung S für n → ∞ ebenfalls einer Normalvertei-lung mit dem Erwartungswert

µS = σ (7.3)

und der Standardabweichung

σS =σ√2n

(7.4)

d.h. der Erwartungswert der Variablen S ist die Standardabweichung der Grundge-samtheit; die Streuung nimmt mit steigendem n rasch ab.

Stichprobenverteilung der Differenz zweier Mittelwerte

Manchmal steht man vor der Aufgabe, zwei Mittelwerte miteinander zu vergleichen.Dazu eignet sich die Differenz der Mittelwerte

DX = X1 − X2 (7.5)

Gehen wir nun von zwei Grundgesamtheiten mit den Mittelwerten µ1 und µ2 undden Standardabweichungen σ1 und σ2 aus, aus denen wir zwei (voneinander unabhän-gige) Stichproben mit den Umfängen n1 und n2 gezogen haben, dann folgt die Zufalls-größe DX einer Normalverteilung mit dem Erwartungswert

µDX= µ1 − µ2 (7.6)

und der Standardabweichung

σDX=

σ21

n1+

σ22

n2(7.7)

Stichprobenverteilung der Differenz zweier Standardabweichungen

Bei großen Stichprobenumfängen (n > 100) und annähernd normalverteilter Grundge-samtheiten folgt die Stichprobenverteilung der Differenz zweier Standardabweichun-gen

DS = S1 − S2 (7.8)

Page 100: MaSt Statistik 2007

92 KAPITEL 7. INDUKTIVE STATISTIK

einer Normalverteilung mit dem Erwartungswert

µDS= σ1 − σ2 (7.9)

und der Standardabweichung

σDS=

σ21

2n1+

σ22

2n2(7.10)

7.2 Schätzverfahren

Die Parameter der Wahrscheinlichkeitsverteilung von Zufallsvariablen (zum Beispielder Erwartungswert µ und die Varianz σ2) sind uns im Allgemeinen unbekannt. Ausder Häufigkeitsverteilung einer Stichprobe können wir aber Schätzwerte für diese Para-meter ermitteln, zum Beispiel den Stichprobenmittelwert X als Schätzer für den Erwar-tungswert µ und die Stichprobenvarianz S2 als Schätzer für die Varianz σ2 der Grund-gesamtheit. Neben dem arithmetischen Mittelwert sind aber auch noch der Median undder Modalwert mögliche Schätzer des Erwartungswertes. (Das wissen wir alles spätes-tens seit dem 2. Kapitel).

Zur Unterscheidung zwischen dem Parameter und seinem Schätzer werden dieSchätzer oft auch „mit Dach“ geschrieben, also zum Beispiel µ = X.

Die konkreten Schätzwerte x und s2 die wir aus einer Stichprobe erhalten sind Rea-lisierungen der Zufallsvariablen X und S2. Sie werden von Stichprobe zu Stichprobeverschieden sein und um den wahren Wert des unbekannten Parameters streuen.

Wir können aber als Schätzer nicht nur einzelne Werte angeben sondern auch ganzeIntervalle. Je nachdem sprechen wir dann von einer Punktschätzung oder einer Intervall-schätzung.

7.2.1 Punktschätzung

Es ist das Ziel einer Punktschätzung, mittels einer Stichprobe vom Umfang n einen(einzelnen) Wert für den unbekannten Parameter Θ zu schätzen3. Dazu definieren wirvorneweg noch den Begriff der Erwartungstreue, weil er eine wichtige Rolle für das Fol-gende spielen wird:

Sei X = (X1, . . . , Xn) eine Stichprobe und T(X) = T(X1, . . . , Xn) eine Schätzfunktiondes unbekannten Parameters Θ. Die Schätzung T(X) heißt erwartungstreu (auch: unver-zerrt oder: unbiased), wenn auch für endliche Stichproben sein Erwartungswert gleichdem zu schätzenden Parameter ist, wenn also gilt:

EΘ(T(X)) = Θ (7.11)

andernfalls heißt sie nicht erwartungstreu (auch: verzerrt oder biased). Die Differenz zwi-schen dem Erwartungswert EΘ(T(X)) der Schätzung und dem zu schätzenden Parame-ter Θ wird Bias (Verzerrung) genannt. Erwartungstreue Schätzer haben demnach einenBias gleich Null.

Wir wollen uns auch noch den Begriff der so genannten Maximum Likelihood-Methode4

merken. Diese Schätzmethode dient, ausgehend von einer konkreten Stichprobe, dem

3falls nicht geläufig: Θ ist der griechische Großbuchstabe „Theta“, entspricht im Deutschen in etwa einem[th]. Wir verwenden es hier einfach als Variable für einen beliebigen statistischen Parameter

4Eine gute deutsche Übersetzung dafür gibt es nicht; hin und wieder trifft man auf maximale Mutmaßlich-keit; das hat sich aber – mit Recht – nicht wirklich durchgesetzt. Eine andere deutsche Übersetzungen ist auch„Schätzung nach der größten Erwartung“.

Page 101: MaSt Statistik 2007

7.2. SCHÄTZVERFAHREN 93

Auffinden von Punktschätzern für einen Parameter einer Grundgesamtheit und hat ne-ben der Erwartungstreue auch noch andere „Güteeigenschaften“, auf die wir hier nichtnäher eingehen wollen. Die Maximum Likelihood-Methode setzt voraus, dass der Ver-teilungstyp der Grundgesamtheit bekannt ist. Die „Methode der kleinsten Quadrate“ist eine solche Maximum Likelihood-Schätzung von Parametern der Normalverteilung.

Wie sehen nun die konkreten Maximum Likelihood-Schätzer für die Parameter derNormalverteilung aus?

Es gibt bekanntlich zwei Parameter der Normalverteilung: Erwartungswert und Va-rianz. Für die Schätzung ist zu unterscheiden, ob beide Parameter unbekannt sind, oderob vielleicht einer der beiden bekannt ist:

µ unbekannt, σ2 bekannt

Nehmen wir an, die Varianz σ2 der Verteilung sei bekannt und gleich σ02. Gesucht ist

der Maximum Likelihood-Schätzer für den unbekannten Parameter µ.Die gesuchte Schätzfunktion lautet

Tµ(X) = µ = X =1n

n

∑i=1

Xi (7.12)

und es gilt:E(X) = µ (7.13)

d.h. das Stichprobenmittel ist ein (erwartungstreuer) Schätzer für den Erwartungswertder Grundgesamtheit. Außerdem gilt:

Z =X − µ

σ

√n ∼ N(0; 1) (7.14)

d.h. die Größe Z folgt einer standardisierten Normalverteilung.

µ bekannt, σ2 unbekannt

Unter der Annahme, dass der Erwartungswert µ der Verteilung bekannt sei und denWert µ0 habe, lautet der Maximum Likelihood-Schätzer für den unbekannten Parame-ter σ2

Tσ2(X) = σ2 =1n

n

∑i=1

(Xi − µ0)2 (7.15)

µ unbekannt, σ2 unbekannt

Dies ist der Fall, der in der Praxis am häufigsten auftreten wird: sowohl Erwartungs-wert µ als auch Varianz σ2 sind unbekannt. Der Maximum Likelihood-Schätzer für denErwartungswert ist gleich wie oben, also

Tµ(X) = µ = X

Für die Stichprobenvarianz gibt es hingegen eine gegenüber (7.15) korrigierte Schätz-funktion:

Tσ2(X) = σ2 = S2 =1

n − 1

n

∑i=1

(Xi − X)2 (7.16)

Diese Korrektur mit dem Faktor nn−1 ist notwendig, damit die Schätzfunktion erwar-

tungstreu bleibt.

Page 102: MaSt Statistik 2007

94 KAPITEL 7. INDUKTIVE STATISTIK

Die transformierte Größe

T =X − µ

S

√n ∼ T(n − 1) (7.17)

folgt einer t-Verteilung (Student-Verteilung) mit (n − 1) Freiheitsgraden.Ähnlich wie beim Stichprobenmittel können wir auch die Stichprobenvarianz in ei-

ne Größe transformieren, deren Verteilung wir angeben können:

Q =(n − 1)S2

σ2 ∼ χ2(n − 1) (7.18)

Q folgt einer χ2-Verteilung (Chiquadrat-Verteilung) mit (n − 1) Freiheitsgraden.

Die Punktschätzung hat für stetig verteilte Zufallsgrößen einen gravierenden Nachteil:Rein formal ist die Wahrscheinlichkeit dafür, dass der Schätzer genau gleich dem wah-ren Wert ist, gleich Null! (Wir erinnern uns: Die Wahrscheinlichkeit ist die Fläche unterder Dichtefunktion, und die ist nur Intervallen zugeordnet, an einer einzigen bestimm-ten Stelle X = a hingegen nur ein „dimensionsloser Strich“). Wir wenden uns daherin der Folge Intervallen zu und erhalten somit auch Hinweise auf die Genauigkeit derSchätzung (die Güte).

7.2.2 Intervallschätzung

Die Abweichung zwischen der Punktschätzung für einen Parameter und dem wahrenWert des Parameters, zum Beispiel die Differenz |x − µ|, kann erheblich sein, insbe-sondere bei kleinem Stichprobenumfang. Um besser auf diese (Un-)Genauigkeit derSchätzung einzugehen, werden an Stelle von Punktschätzern auch Intervallschätzer an-gegeben. Dabei wird für den unbekannten Parameter nicht ein einziger Wert sondernein Zufallsintervall mit den Grenzen Iu(X) und Io(X) bestimmt, das den unbekanntenParameter Θ mit einer bestimmten vorgegebenen Wahrscheinlichkeit überdeckt. DieseWahrscheinlichkeit wird das Konfidenzniveau (auch: statistische Sicherheit) genannt undmit (1 − α) bezeichnet. Iu(X) und Io(X) sind die unteren beziehungsweise oberen Konfi-denzgrenzen und das Intervall ist das Konfidenzintervall (auch: Vertrauensintervall)5:

C1−α(Θ) = [Iu; Io] (7.19)

Konfidenzintervalle wurden 1937 vom polnisch-amerikanischen Statistiker J. Ney-man eingeführt6. Das Intervall ist eine Zufallsgröße und kann den Parameter Θ über-decken oder auch nicht. α ist dann die Angabe des „Risikos“, dass man bei der Angabedes Konfidenzintervalls eine falsche Aussage tätigt (d.h. das Intervall überdeckt denwahren Parameter gar nicht). α wird daher Irrtumswahrscheinlichkeit (auch: Fehlerwahr-scheinlichkeit) genannt.

Je größer α ist, desto kleiner wird das Konfidenzintervall sein und umgekehrt. Dasbringt uns ein bisschen in eine verzwickte Situation: Entweder können wir eine präziseAussage machen (Morgen hat es zwischen 1.2◦ und 3◦), die jedoch höchst unsicher ist,oder eine unscharfe Aussage (Morgen ist die Temperatur zwischen -10◦ und +30◦), die sehr

5vom lat. confidere = vertrauen6Jerzy Neyman, Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, In:

Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciencies.Vol. 236, No. 767. (Aug. 30, 1937), pp. 333-38

Page 103: MaSt Statistik 2007

7.2. SCHÄTZVERFAHREN 95

zuverlässig eintrifft (aber eben nicht viel Information enthält). In der Praxis wird für αmeist 5% oder 0.5% gewählt.

Beispiel: Wir schätzen aus einer Zufallsstichprobe ein Konfidenzintervall für denErwartungswert µ der zugehörigen Grundgesamtheit. (1 − α) sei 95%. Wir könnenuns dann zu 95% „sicher“ sein, dass das Intervall den Erwartungswert der Grundge-samtheit enthält. Oder anders ausgedrückt: Wenn wir aus 100 Stichproben jeweils dieKonfidenzintervalle bestimmen, wird in 95 derartigen Intervallen der Erwartungswertenthalten sein, in 5 Fällen nicht. Abb. 7.1 zeigt als Beispiel sechs Realisierungen x derZufallsgröße X zur Schätzung des Parameters µ. Zu jeder Realisierung ist ein Intervallangegeben. Fünf Intervalle liegen so, dass der Parameter µ tatsächlich von diesen Inter-vallen überdeckt wird. Bei x4 hingegen ist µ nicht im Konfidenzintervall enthalten. DieWahrscheinlichkeit dafür, ein Intervall wie jenes um x4 zu „erwischen“, beträgt α.

Abb. 7.1 Konfidenzintervalle zum Konfidenzniveau (1 − α) = 83.3%: In einem aussechs Fällen enthält das Intervall, das man aus der jeweiligen Realisierung x erhält, denwahren Parameter µ nicht.

Konfidenzschätzung für µ bei bekannter Varianz σ2

Gegeben sei die Stichprobe einer normalverteilter Zufallsvariablen X. Die Varianz σ2

sei bekannt und habe den Wert σ20 . Wir bestimmen nun zunächst mit Hilfe der Formel

(7.12) einen (Punkt-)Schätzwert für den Erwartungswert µ. Anschließend konstruierenwir ein Konfidenzintervall, das symmetrisch um µ liegt. Es hat die Grenzen

Iu(X) = X − z(1−α/2)σ0√

n(7.20)

Io(X) = X + z(1−α/2)σ0√

n(7.21)

Page 104: MaSt Statistik 2007

96 KAPITEL 7. INDUKTIVE STATISTIK

wobei z(1−α/2) das (1 − α/2)-Quantil der standardisierten Normalverteilung ist. Fürα = 0.05 ist zum Beispiel (1 − α/2) = 0.975 und z0.975 = 1.96.

Das Intervall hat die Länge

L = 2 z(1−α/2)σ0√

n(7.22)

Sind α und n konstant, so haben Konfidenzintervalle aus verschiedenen Stichproben(mit gleichem Umfang n) dieselbe Länge, jedoch eine unterschiedliche Lage. Wird αkonstant gehalten, so kann die Länge L des Intervalls durch Erhöhung des Stichpro-benumfangs n verkleinert werden. Wird die Genauigkeit durch die Intervalllänge Lvorgegeben, so lässt sich der Mindestwert für den Stichprobenumfang n berechnen.

Konfidenzschätzung für µ bei unbekannter Varianz σ2

Wenn auch die Varianz unbekannt ist, schätzen wir sie durch die Stichprobenvarianz S2

(nach Formel 7.16) ab. Das Konfidenzintervall für µ ist dann gegeben durch die Grenzen

Iu(X) = X − t(n−1;1−α/2)S√n

(7.23)

Io(X) = X + t(n−1;1−α/2)S√n

(7.24)

wobei t(n−1;1−α/2) das (1 − α/2)-Quantil der t-Verteilung mit (n − 1) Freiheitsgradenist.

Konfidenzschätzung für die Varianz σ2 bei unbekanntem Erwartungswert µ

Für die unbekannte Varianz σ2 benötigen wir zunächst eine Punktschätzung nach (7.16).Das Konfidenzintervall für die Varianz hat dann die Grenzen

Iu =n − 1

c(n−1;1−α/2)S2 (7.25)

Io =n − 1

c(n−1;α/2)S2 (7.26)

mit den jeweiligen Quantilen der χ2-Verteilung mit (n − 1) Freiheitsgraden.Wir können auch Konfidenzintervalle für die Differenz oder beliebige andere Line-

arkombinationen zweier Mittelwerte oder Standardabweichungen ausrechnen, ebensofür Korrelationskoeffizienten, für Proportionen zweier Parameter etc. Dies ist jedochnicht Gegenstand der vorliegenden Vorlesung.

Konfidenzintervalle haben mit der Unsicherheit der Parameter von Grundgesamtheitenbei deren Bestimmung aus Stichproben zu tun. Die Unsicherheit liegt jedoch nicht beimParameter der Grundgesamtheit, sondern bei der Stichprobe und demjenigen, der Aus-sagen daraus ableitet. Daher abschließend nocheinmal die Anmerkung zur richtigensprachlichen Ausdrucksweise:

Erhalten wir für den Parameter µ beispielsweise ein 95%-Konfidenzintervall von[849;891], so bedeutet das NICHT, „dass die Wahrscheinlichkeit 95% beträgt, dass µ einenWert zwischen 849 und 891 hat“. µ ist ja keine Zufallsgröße, sondern der Parameter ei-ner bestimmten Verteilung der Grundgesamtheit (nämlich der Erwartungswert einer

Page 105: MaSt Statistik 2007

7.3. TESTEN STATISTISCHER HYPOTHESEN 97

bestimmten Normalverteilung)7. Dieser Parameter ist nicht variabel sondern fest; mankann ihm keine Wahrscheinlichkeit zuordnen. Das Konfidenzintervall hingegen ist sehrwohl eine (variable) Zufallsgröße. Richtigerweise muss es daher heißen:

Die Wahrscheinlichkeit, dass das Konfidenzintervall den wahren Wert von µ überdeckt, be-trägt 95%.

Oder: Zögen wir 100 Stichproben und bildeten jeweils das Konfidenzintervall, so würden95 Intervalle µ enthalten und 5 nicht.

Diese letzte Aussage lässt uns auch umgekehrt schließen: Wenn wir aus einer Stich-probe für µ ein 95%-Konfidenzintervall von [849;891] erhalten, kann der Erwartungs-wert der Grundgesamtheit, aus der diese Stichprobe stammt, auch 840 oder 900 sein.Die Wahrscheinlichkeit, dass dies passiert, ist zwar relativ klein (eben 5%), aber dochmöglich. Wie können wir nun überprüfen, ob unsere Stichprobe tatsächlich einer be-stimmten Grundgesamtheit angehört oder nicht?

7.3 Testen statistischer Hypothesen

Solange wir anstelle der Grundgesamtheit in der statistischen Analyse nur Stichpro-ben vorliegen haben, gibt es keine gesicherten Aussagen. Dennoch wollen wir Aussa-gen tätigen, die zumindest für eine größere Anzahl von zufälligen Versuchen zutreffen.Im letzten Abschnitt haben wir uns damit beholfen, dass wir Parameter der Grund-gesamtheit durch Intervalle eingrenzen, die mit einer bestimmten Wahrscheinlichkeitdie gesuchten Parameter überdecken. Im folgenden Abschnitt geht es nun darum, wei-tere statistische Aussagen („Hypothesen“) über die Parameter der Grundgesamtheit zuprüfen. Diese Hypothesen stellen wir auf Grund einer oder mehrerer Stichproben auf.Den Hypothesen liegt in der Regel die Annahme einer bestimmten theoretischen Wahr-scheinlichkeitsverteilung der Grundgesamtheit zu Grunde. In unseren Fällen ist diesdie Normalverteilung. Es gibt auch statistische Tests, die die Verteilung als solche über-prüfen. In diesem Fall sprechen wir von nicht-parametrischen Tests; diese sind aber nichtGegenstand unserer weiteren Untersuchungen.

7.3.1 Prinzip statistischer Tests

Zunächst einmal einige Beispiele dafür, was wir mit statistischen Tests überprüfen kön-nen:

• Eine Imbisskette wirbt damit, dass in ihren Semmeln mindestens 130g Leberkäseenthalten sind. Die Kunden sind aber nicht ganz zufrieden und vermuten, dassdie Stücke viel kleiner sind. 10 Kunden wägen ihren Leberkäse nach. Es ergibtsich, dass im Durchschnitt eine Portion Leberkäse nur 129.4g wiegt. Ist das nur einZufall, der bei einer anderen Stichprobe auch ein „erfreulicheres“ Ergebnis hättebringen können? Oder steckt da Methode dahinter, und die Stücke sind zu klein?

• Jemand möchte für eine bestimmte Entscheidung überprüfen, ob sich die mittlereJahrestemperatur in Wiener Neustadt von jener in Villach unterscheidet.

• Eine Strecke zwischen 2 Punkten wurde n-mal gemessen, was einen Mittelwertx und eine Standardabweichung s ergibt. Nach einem Jahr wird dieselbe Streckewieder gemessen mit den Ergebnissen x′ und s′. Frage: sind das zufällige Un-terschiede oder hat sich die Strecke signifikant geändert (zum Beispiel durch einetatsächliche Verschiebung der 2 Punkte zueinander).

7ob unsere Stichprobe tatsächlich aus dieser Grundgesamtheit stammt ist eine andere Frage – die werdenwir im nächsten Abschnitt klären

Page 106: MaSt Statistik 2007

98 KAPITEL 7. INDUKTIVE STATISTIK

Es geht im Folgenden also darum, entweder zwei Stichproben miteinander zu verglei-chen, oder eine Stichprobe mit der ihr zugrunde liegenden Grundgesamtheit. Für dieseVergleiche können wir die jeweiligen Parameter – meist die Mittelwerte oder die Vari-anzen – heranziehen und sie mit Hilfe so genannter Signifikanztests überprüfen8.

Ausgangspunkt ist dabei zunächst eine bestimmte Hypothese, genannt Nullhypothe-se, die in den meisten Fällen die Antwort auf die Frage als Behauptung formuliert. Willich zum Beispiel wissen, ob eine Grundgesamtheit einen Erwartungswert gleich Nullhat, obwohl der Schätzwert x = 0.01 beträgt, so kann meine Nullhypthese lauten:

H0 : µ = 0

Allgemeiner haben Nullhypothesen über den statistischen Parameter Θ eine derfolgenden Formen:

H0 : Θ = Θ0 (7.27)

H0 : Θ ≥ Θ0 (7.28)

H0 : Θ ≤ Θ0 (7.29)

wobei Θ zum Beispiel für den Erwartungswert, die Varianz, den Korrelationskoeffizi-enten etc. stehen kann.

Keine Hypothese im Sinne der induktiven Statistik ist hingegen

x = 0.01

weil dies ja keine Aussage über einen Parameter der Grundgesamtheit sondern übereine Stichprobe darstellt. Der arithmetische Mittelwert wurde aus ganz konkreten Rea-lisierungen der Zufallsgrößen berechnet und es bedarf keiner Hypothese darüber, obdas der Mittelwert der Stichprobe ist oder nicht (außer, man ist sich nicht sicher, obman richtig gerechnet hat...).

Ziel des Hypothesentests ist es nun, die Nullhypothese zu akzeptieren oder zu ver-werfen. Dabei wollen wir eine Hypothese dann verwerfen, wenn die von uns beobach-teten Stichproben eher unwahrscheinlich sind, sollte H0 wahr sein. Wir überprüfen alsoein Modell (die Grundgesamtheit) anhand von Daten (den Stichproben): Solange Modellund Daten konsistent sind, gibt es keinen Grund, die Hypothese nicht zu akzeptieren.

Das Akzeptieren einer Hypothese mit Hilfe eines statistischen Tests heißt aber nicht,das wir irgendwas „beweisen“ konnten. Tatsächlich lässt sich mit Stichproben gar nichtsbeweisen. Wenn ein Experiment mit den theoretischen Voraussagen übereinstimmt, heißtdas noch nicht, dass die Theorie richtig ist. Es könnte ja auch eine andere, uns unbe-kannte Theorie zu diesen Ergebnissen geführt haben.

Theorien lassen sich allerdings durch ein einziges negatives Experiment widerle-gen9. Will man eine Aussage bestätigen, kann man daher auch das Gegenteil dieserAussage als Nullhypothese formulieren. Stellt sich dann heraus, dass die Nullhypothe-se nicht zutrifft, schließen wir daraus, dass die jeweilige Alternative richtig sein muss– also genau, was wir ohnehin zeigen wollten. Diese „Alternative“ nennen wir auchAlternativhypothese.

8vom lat. significanter = klar, deutlich9Von Karl Popper (1902-1994) stammt dazu folgendes berühmte Beispiel: Nehmen Sie an, Sie wollten die

Theorie prüfen „Alle Raben sind schwarz“. Sie beobachten 100 Raben und stellen tatsächlich fest, dass jederRabe schwarz ist. Ist mit diesem Ergebnis die Theorie bewiesen? Popper sagt: Es könnte auch sein, dass der101. Rabe, den man irgendwo beobachtet, weiß ist, und die Theorie „Alle Raben sind schwarz“ wäre miteinem Schlag widerlegt.

Page 107: MaSt Statistik 2007

7.3. TESTEN STATISTISCHER HYPOTHESEN 99

Nullhypothese und Alternativhypothese

Bei statistischen Signifikanztest wird zu jeder Nullhypothese H0 auch eine Alternativ-hypothese HA formuliert10, das ist die „Verneinung“ der Nullhypothese. Wenn im Zugedes Hypothesentests anhand einer (oder mehrerer) Stichproben H0 verworfen wird,können wir die Alternativhypothese akzeptieren.

Bei der Wahl der Alternativhypothese müssen wir unterscheiden, ob uns die Ab-weichungen des gestesteten Parameters nach oben und unten gleich wichtig sind odernur in eine Richtung interessieren.

Hypothesen der FormH0 : Θ = Θ0 (7.30)

mit der AlternativhypotheseHA : Θ 6= Θ0 (7.31)

sind so genannte zweiseitige Fragestellungen. Die Abweichungen des wahren ParametersΘ von Θ0 sind nach oben oder unten gleich wichtig, d.h. alle abweichenden Parameter-werte bringen die Hypothese zu Fall.

Umgekehrt sind Hypothesentests der Form

H0 : Θ ≥ Θ0 (7.32)

HA : Θ < Θ0 (7.33)

bzw.

H0 : Θ ≤ Θ0 (7.34)

HA : Θ > Θ0 (7.35)

einseitige Fragestellungen, d.h. nur die Abweichungen in eine Richtung sind interessant.Testen wir zum Beispiel ein bestimmtes Qualitätsmerkmal, so bedeutet die Unterschrei-tung eines vorgegebenen Sollwertes eine „schlechte“ Qualität und das Ausscheiden desuntersuchten Merkmalsträgers. Die Überschreitung hingegen hat meistens keine nega-tiven Folgen. Verspricht zum Beispiel der Hersteller einer Batterie eine Lebensdauervon „100 Lichtstunden“ für die Verwendung in einer bestimmten Taschenlampe, so tes-ten wir die Nullhypothese H0 : µ ≥ 100 gegen die Alternativhypothese HA : µ < 100(einseitiger Test) und nicht H0 : µ = 100 gegen HA : µ 6= 100 (zweiseitiger Test). AusKonsumentensicht heißt ja „100 Lichtstunden“ mindestens 100 Stunden, wir sind abermit 110 oder 130 Stunden auch zufrieden.

Betrachten wir die Abfüllanlage einer Molkerei, die in jede Packung 1l Milch einfül-len soll, so wird der Konsument gegebenenfalls ebenfalls eine einseitige Fragestellungtesten, die Molkerei hingegen wird einen zweiseitigen Test durchführen, weil aus ihrerSicht auch eine Abweichung nach oben (zuviel Milch) negative Konsequenzen hat.

Die möglichen Nullhypothesen und Alternativhypothesen für einseitige und zwei-seitige Signifikanztests sind in Tab. 7.2 zusammengefasst.

Es gibt im Übrigen auch statistische Tests, die Hypothesen und Alternativhypothe-sen der folgenden Form verwenden: H0 : µ = 4 gegen HA : µ = 5. Diese so genanntenAlternativtests sind aber nicht Gegenstand unserer weiteren Betrachtungen.

Fehler erster und zweiter Art

Wir hoffen natürlich, dass wir uns mit unseren Stichproben ein gutes „Spiegelbild“ derGrundgesamtheit beschafft haben. Trotzdem: Egal wie unsere Entscheidung bezüglich

10 HA wird manchmal auch als Arbeitshypothese bezeichnet.

Page 108: MaSt Statistik 2007

100 KAPITEL 7. INDUKTIVE STATISTIK

H0 HA Art der FragestellungΘ = Θ0 Θ 6= Θ0 zweiseitigΘ ≥ Θ0 Θ < Θ0 einseitigΘ ≤ Θ0 Θ > Θ0 einseitig

Tabelle 7.2: Nullhypothesen und Alternativhypothesen bei ein- bzw. zweiseitigen Signifikanz-tests

der Nullhypothese ausfällt, es verbleibt immer eine gewisse Unsicherheit. Diese Un-sicherheit hängt vom Zufall ab, man kann ihr daher eine Wahrscheinlichkeit zuord-nen. Wir sprechen von der Irrtumswahrscheinlichkeit α (auch: Signifikanzniveau): α ist dieWahrscheinlichkeit dafür, dass bei einem Signikanztest die Nullhypothese H0 abgelehntwird, obwohl sie wahr ist. Wir nennen dies auch einen Fehler erster Art (siehe Tab. 7.3).Üblicherweise11 wählen wir für α = 0.05, 0.01 oder 0.001. Eine Irrtumswahrschein-lichkeit von α = 0.05 bedeutet: Wenn wir den Signifikanztest häufig durchführen, sowerden wir in 5 von 100 Fällen die Hypothese irrtümlich ablehnen.

Die Gegenwahrscheinlichkeit (1− α) heißt auch Sicherheitswahrscheinlichkeit. Sie gibtan, mit welcher Wahrscheinlichkeit wir eine richtige Nullhypothese tatsächlich als sol-che erkennen und nicht ablehnen.

Umgekehrt können wir aber den Fehler begehen, auch eine falsche Nullhypothesenicht abzulehnen. Dies nennen wir einen Fehler zweiter Art und ordnen ihm die Wahr-scheinlichkeit β zu.

Die Gegenwahrscheinlichkeit (1 − β) ist die „Macht des Testes“ (auch: Teststärke). Siegibt an, mit welcher Wahrscheinlichkeit eine falsche Nullhypothese tatsächlich als sol-che entlarvt und abgelehnt wird. Es ist also die Wahrscheinlichkeit, einen Fehler zweiterArt zu verhindern.

H0 ist richtig H0 ist falschH0 annehmen richtige Entscheidung Fehler 2. ArtHA verwerfen P = (1 − α) P = βH0 verwerfen Fehler 1. Art richtige EntscheidungHA annehmen P = α P = (1 − β)

Tabelle 7.3: Entscheidungsmöglichkeiten beim Signifikanztest

Ein „idealer“ Test wäre jener, der sowohl α als auch β minimiert, d.h. die Wahr-scheinlichkeit, einen Fehler erster oder zweiter Art zu begehen, gleichzeitig gering hält(besser noch: gleich Null setzt). Leider ist dies nicht möglich. Ohne auf die genauenmathematisch-statistischen Zusammenhänge einzugehen müssen wir feststellen, dasseine Verkleinerung von α den Wert für β vergrößert und – wie wir an den nachfolgen-den Formeln sehen werden – eine direkte Festlegung von β in den Standardverfahrengar nicht möglich ist. Im Allgemeinen trachtet man daher danach, α nicht kleiner alsnotwendig zu wählen, je nachdem welche Konsequenz ein Fehler 2. Art hat. α und βverringern sich übrigens beide gleichzeitig bei einer Vergrößerung des Stichprobenum-fangs n.

111931 beschrieb Ronald Fisher (1890-1962) in seinem Buch The Design of Experiments, dass für viele wis-senschafliche Experimente ein α von 0.05 („1 aus 20“) ein angemessener Wert für das Signifikanzniveau sei.Seitdem wurde dieser Wert von vielen Disziplinen ohne weiteres Hinterfragen übernommen. – Wir werdenes ebenso tun...

Page 109: MaSt Statistik 2007

7.3. TESTEN STATISTISCHER HYPOTHESEN 101

Testfunktion, Prüfgröße und Sicherheitsgrenzen

Für die Durchführung des Hypothesentests benötigen wir eine Testfunktion (auch: Stich-probenfunktion) und deren Verteilung unter der Annahme, dass H0 zutrifft. Es handeltsich dabei um eine Funktion T(X) der Stichprobenvariablen X.

T(X) ist selbst auch wieder eine Zufallsgröße. Ihre Verteilung hängt von der Vertei-lung von X ab. Als Testfunktionen verwenden wir dieselben Funktionen, die wir bereitszur Bestimmung der Konfidenzintervalle verwendet haben. Wir werden weiter unteneinige Testfunktionen angeben.

Für eine konkrete Stichprobe können wir eine Realisierung t von T(X) bestimmen –die so genannte Prüfgröße. Mit dieser Prüfgröße sind wir nun in der Lage, die Nullhy-pothese zu beurteilen. Dazu müssen wir zuvor noch ein Intervall dergestalt bestimmen,dass T mit einer Wahrscheinlichkeit von (1 − α) in diesem Intervall enthalten ist. DieGrenzen dieses Intervalls – die Sicherheitsgrenzen (auch: Schwellwerte) – sind

• bei zweiseitigem Test das (α/2) und das (1 − α/2)-Quantil

• bei einseitigem Test das (1 − α) Quantil

der entsprechenden Verteilung. Das Intervall, das zur Ablehnung von H0 führt, be-zeichnen wir als kritischen Bereich.

Annahme oder Verwerfen der Hypothese

Liegt die Prüfgröße t innerhalb der Sicherheitsgrenzen, so wird die Nullhypothese H0angenommen, weil ihr die vorliegenden Stichprobendaten nicht widersprechen. Liegtdie Prüfgröße allerdings im kritischen Bereich, so verwerfen wir H0 und akzeptierendie Alternativhypothese HA.

Wie sehen nun die Tests für konkrete Parameter aus? Im Folgenden werden wir diewichtigsten Parameter, Mittelwert und Varianz, statistischen Tests unterziehen:

7.3.2 Prüfen des Mittelwerts bei bekannter Varianz („Gauß-Test“)

Wir wollen überprüfen, ob der unbekannte Erwartungswert µ einer normalverteiltenZufallsvariablen X einen bestimmten Wert µ = µ0 besitzt bzw. über- oder unterschrei-tet. µ0 kann zum Beispiel ein Sollwert bei der Herstellung eines Produkts sein. Dabeigehen wir davon aus, dass die Varianz σ2 = σ2

0 bekannt sei. Als einfaches Beispiel kön-nen wir die machinelle Herstellung von Brotlaiben betrachten. Deren (in kg gemessene)Masse X sei normalverteilt. Die Varianz σ2

0 = 0.12 sei aus der Erfahrung bekannt. Dasangegebene Verkaufsgewicht des Brotes sei µ = 2 kg. Eine Konsumentenschutzorgani-sation zieht nun eine Stichprobe von n = 20 Brotlaiben und stellt einen Stichprobenmit-telwert von x = 1.97 kg fest. Es soll nun überprüft werden, ob diese Stichprobe gegendie Hypothese spricht, dass die Brote der Grundgesamtheit mindestens 2 kg wiegen.

Zunächst ist eine Nullhypothese festzulegen:

• Für eine zweiseitige Fragestellung lautet die Nullhypothese

H0 : µ = µ0

• Für die einseitige Fragestellung lautet die Nullhypothese

H0 : µ ≤ µ0

Page 110: MaSt Statistik 2007

102 KAPITEL 7. INDUKTIVE STATISTIK

oderH0 : µ ≥ µ0

je nachdem, welche Richtung für uns interessant ist.

Im konkreten Beispiel geht es um eine einseitige Fragestellung und wir wählen als Null-hypothese und Alternativhypothese:

H0 : µ ≥ 2

HA : µ < 2

Anschließend ist ein Signifikanzniveau festzulegen. Wir werden den üblichen Wertvon α = 0.05 wählen.

Als Testfunktion ziehen wir die folgende Funktion heran (siehe auch Formel (7.14):

T(X) =X − µ0

σ0

√n (7.36)

Aus der Realisierung der Stichprobe unseres Beispiels können wir dann die konkretePrüfgröße angeben:

t =x − µ0

σ0

√n =

1.97 − 20.1

√20 = −1.34

Nun bestimmen wir den kritischen Bereich:Für eine zweiseitige Fragestellung sind die Sicherheitsgrenzen durch das (α/2) und

das (1 − α/2)-Quantil der Normalverteilung gegeben. Der kritische Bereich sind alsodie beiden Intervalle

[−∞,−z(1−α/2)] ∨ [z(1−α/2), ∞] (7.37)

Bei einseitiger Fragestellung erhalten wir als kritischen Bereich im Fall H0 : µ ≤ µ0das Intervall

[z(1−α), ∞] (7.38)

Im Fall H0 : µ ≥ µ0 ist der kritische Bereich das Intervall

[−∞,−z(1−α)] (7.39)

Nun können wir eine Entscheidung treffen: Die Nullhypothese wird abgelehnt, fallsdie Testgröße im kritischen Bereich liegt, andernfalls wird H0 akzeptiert.

H0 HA Prüfgröße Entscheidung

µ = µ0 µ 6= µ0 |t| > z(1−α/2) H0 ablehnen, HA akzeptieren|t| ≤ z(1−α/2) H0 akzeptieren, HA ablehnen

µ ≥ µ0 µ < µ0 t < −z(1−α) H0 ablehnen, HA akzeptierent ≥ −z(1−α) H0 akzeptieren, HA ablehnen

µ ≤ µ0 µ > µ0 t > z(1−α) H0 ablehnen, HA akzeptierent ≤ z(1−α) H0 akzeptieren, HA ablehnen

Tabelle 7.4: Mögliche Ergebnisse eines Gauß-Tests

In unserem Beispiel wird H0 nicht abgelehnt, da t = −1.34, z0.05 = −1.64 undsomit t > z0.05. Das bedeutet: Die in der Stichprobe beobachtete mittlere Masse von1.97 ist zwar kleiner als der Sollwert 2 kg, diese Abweichung ist allerdings statistischnicht signifikant sondern vermutlich zufällig bedingt. Die Wahrscheinlichkeit, aus einerGrundgesamtheit mit µ = 2 und σ2 = 0.12 eine Stichprobe mit einem Mittelwert vonhöchstens 1.97 zu erhalten, ist größer als 5%. Es gibt daher – aus Sicht der Statistik –keinen Grund, das angegebene Verkaufsgewicht von 2 kg zu beanstanden.

Page 111: MaSt Statistik 2007

7.3. TESTEN STATISTISCHER HYPOTHESEN 103

7.3.3 Prüfen des Mittelwertes bei unbekannter Varianz („T-Test“)

Wenn – wie in der Praxis üblich – die Varianz σ2 unbekannt ist, lautet die Testfunktion

T(X) =X − µ0

S

√n (7.40)

(siehe auch Formel (7.17). Unter H0 besitzt diese Funktion eine t-Verteilung mit (n − 1)Freiheitsgraden. Als Sicherheitsgrenzen gelten daher die Quantile der t-Verteilung. Die

H0 HA Prüfgröße Entscheidung

µ = µ0 µ 6= µ0 |t| > t(n−1;1−α/2) H0 ablehnen, HA akzeptieren|t| ≤ t(n−1;1−α/2) H0 akzeptieren, HA ablehnen

µ ≥ µ0 µ < µ0 t < −t(n−1;1−α) H0 ablehnen, HA akzeptierent ≥ −t(n−1;1−α) H0 akzeptieren, HA ablehnen

µ ≤ µ0 µ > µ0 t > t(n−1;1−α) H0 ablehnen, HA akzeptierent ≤ t(n−1;1−α) H0 akzeptieren, HA ablehnen

Tabelle 7.5: Mögliche Ergebnisse eines T-Tests

Vorgangsweise ist dieselbe wie beim Gauss-Test: Wir bestimmen aus der Testfunktion(7.40) die Prüfgröße und vergleichen nach Tabelle 7.5, ob wir im kritischen Bereich sindoder nicht.

7.3.4 Prüfen der Varianz („Chiquadrat-Test“)

Als Testfunktion ziehen wir

T(X) =(n − 1)S2

σ20

(7.41)

heran (siehe auch Formel (7.18). Diese Testfunktion besitzt unter H0 eine χ2-Verteilungmit (n − 1) Freiheitsgraden.

Die Chiquadrat-Verteilung ist bekanntlich keine symmetrische Verteilung. Daher istauch der kritische Bereich bei zweiseitiger Fragestellung nicht symmetrisch. Zur Ableh-nung der Nullhypothese führt ein zu kleiner oder zu großer Wert der Prüfgröße, alsowenn wir entweder im Bereich [0, c(n−1;a/2)] oder im Bereich [c(n−1;1−a/2), ∞] liegen. c

ist dabei das (α/2) bzw. (1− α/2)-Quantil der χ2-Verteilung mit n − 1 Freiheitsgraden.

H0 HA Prüfgröße Entscheidung

σ2 = σ20 σ2 6= σ2

0 t ≤ c(n−1;α/2) oder H0 ablehnen, HA akzeptierent ≥ c(n−1;1−α/2)

c(n−1;α/2) < t < c(n−1;1−α/2) H0 akzeptieren, HA ablehnen

σ2 ≥ σ20 σ2

< σ20 t < c(n−1;α) H0 ablehnen, HA akzeptieren

t ≥ c(n−1;α) H0 akzeptieren, HA ablehnen

σ2 ≤ σ20 σ2

> σ20 t > c(n−1;1−α) H0 ablehnen, HA akzeptieren

t ≤ c(n−1;1−α) H0 akzeptieren, HA ablehnen

Tabelle 7.6: Mögliche Ergebnisse eines Chiquadrat-Tests

Page 112: MaSt Statistik 2007

104 KAPITEL 7. INDUKTIVE STATISTIK

7.3.5 Prüfen der Gleichheit zweier Varianzen („F-Test“)

Wir wollen zwei normalverteilte Zufallsgrößen hinsichtlich ihrer Variabilität testen, al-so feststellen, ob sie dieselbe Varianz haben. Die Testfunktion ist dann der Quotient derbeiden Stichprobenvarianzen:

T(X, Y) =S2

X

S2Y

(7.42)

Sie ist unter der Nullhypothese F-verteilt mit (n1 − 1) und (n2 − 1) Freiheitsgraden. Je

H0 HA Prüfgröße Entscheidung

σ2X = σ2

Y σ2X 6= σ2

Y t > f(n1−1;n2−1;1−α/2) oder H0 ablehnen,t < f(n1−1;n2−1;α/2) HA akzeptierenf(n1−1;n2−1;α/2) < t < f(n1−1;n2−1;1−α/2) H0 akzeptieren,

HA ablehnen

σ2X ≤ σ2

Y σ2X > σ2

Y t > f(n1−1;n2−1;1−α) H0 ablehnen,HA akzeptieren

t ≤ f(n1−1;n2−1;1−α) H0 akzeptieren,HA ablehnen

Tabelle 7.7: Mögliche Ergebnisse eines F-Tests

nach der aus den Stichprobendaten erhaltenen Prüfgröße entscheiden wir nach Tab.7.7,die Nullhypothese oder die Alternativhypothese zu akzeptieren und die jeweils andereabzulehnen. Ist die Prüfgröße also größer als der theoretische Wert, dann gilt (mit einerWahrscheinlichkeit von 1− α): Die Varianz der einen Stichprobe unterscheidet sich vonder Varianz der anderen Stichprobe signifikant. Andernfalls sind die empirisch erhalte-nen Varianzen der Stichproben rein zufällig voneinander verschieden.

7.3.6 Prüfen der Gleichheit zweier Mittelwerte bei bekannter Varianz(„doppelter Gauß-Test“)

Wir betrachten zwei normalverteilte Zufallsvariablen X und Y.

• bei zweiseitiger Fragestellung testen wir die Nullhypothese H0 : µX = µY gegenHA : µX 6= µY

• bei einseitiger Fragestellung H0 : µX ≥ µY gegen HA : µX < µY oder H0 : µX ≤µY gegen HA : µX > µY

Trifft die Nullhypothese zu, so ist die Testfunktion

T(X, Y) =X − Y

n2σ2X + n1σ2

Y

√n1 · n2 (7.43)

standardnormalverteilt. Der Test selbst läuft analog zum einfachen Gaußtest.

7.3.7 Prüfen der Gleichheit zweier Mittelwerte bei unbekannten abergleichen Varianzen („doppelter T-Test“)

Ausgangspunkt sind wieder die beiden Zufallsvariablen X und Y wie oben, nur sinddie beiden Varianzen unbekannt. Wir gehen aber davon aus, dass sie gleich sind. Dann

Page 113: MaSt Statistik 2007

7.3. TESTEN STATISTISCHER HYPOTHESEN 105

können wir eine „gemeinsame“ Varianz beider Stichproben angeben

S2 =(n1 − 1)S2

X + (n2 − 1)S2Y

n1 + n2 − 2(7.44)

die wir in folgende Testfunktion einsetzen können:

T(X, Y) =X − Y

S

n1 · n2

n1 + n2(7.45)

Diese Testfunktion folgt unter H0 einer Student-Verteilung mit (n1 + n2 − 2) Frei-heitsgraden. Der Test läuft in weiterer Folge analog zum einfachen T-Test.

Es gibt auch einen Hypothesentest für die Gleichheit der Mittelwerte zweier Zu-fallsvariablen, wenn die Varianzen unbekannt sind und die Voraussetzung der Gleich-heit nicht gegeben ist. Dieser Test, sowie einige weitere (zum Beispiel die Prüfung desKorrelationskoeffizienten) sind aber nicht mehr Gegenstand der vorliegenden Lehrver-anstaltung.

Bsp. 7.1 Studie beweist: Unsere Schüler werden immer intelligenter (?)

Eine aktuelle Studie des Unterrichtsministeriums bescheinigt den Jugendlichenan Österreichs Allgemeinbildenden Höheren Schulen (AHS), den BerufsbildendenHöheren Schulen (BHS) und den Mittleren Schulen tolle Leistungen. 15 Prozent derdiesjährigen Zeugnisempfänger können dort auf den Vermerk „AusgezeichneterErfolg“ stolz sein. Das sind immerhin 50.000 Sprösslinge, knapp 3.000 oder einProzent mehr als im vergangenen Jahr.Gleichzeitig ging die Zahl der Klassenwiederholungen bundesweit zurück, wasMinisterin Elisabeth Gehrer auf die Einführung des Frühwarnsystems zurückführt.An den AHS sank die Sitzenbleiberquote um zwei Prozent, an den BHS um 3,8Prozent – und das trotz steigender Schülerzahlen.In Österreichs Volksschulen müssen nur noch 0,6 Prozent der wiederholen (2004: einProzent), an den Hauptschulen ging die Quote von 2,3 auf 1,4 Prozent zurück.

Was wird hier „bewiesen“? Worin liegt der Fehlschluss der Ministerin?(Quelle: Heute, 15.Juli 2005, Nr.217, p.5; Anm.: Das Fragezeichen in der Überschrift fehlt imOriginalbeitrag)

7.3.8 Wichtiger Hinweis

Abschließend sei noch auf die richtige Reihenfolge beim Hypothesentest verwiesen:

1. Man stellt eine bestimmte Nullhypothese und Alternativhypothese auf

2. Man gibt das Signifikanzniveau vor und bestimmt damit einen Ablehnungsbe-reich

3. Danach wird die Stichprobe gezogen

4. Dann wird der Hypothesentest durchgeführt und entweder die Nullhypotheseoder die Alternativhypothese angenommen

Völlig unzulässig ist es, zuerst die Stichprobe zu ziehen, in den Stichprobendaten dannverschiedene Hypothesen auszuprobieren – womöglich unter mehrfacher, abwechs-lungsreicher Wahl von α , und dann diejenige auszuwählen, die am Besten zu meinenDaten „passt“. Statistische Tests dürfen nie so ablaufen, dass die eigentliche Fragestel-lung erst nach der Beobachtung der Stichprobe aufgestellt wird!

Page 114: MaSt Statistik 2007

106 KAPITEL 7. INDUKTIVE STATISTIK

7.4 Englische Begriffe

Alternativhypothese - alternative hypothesiseinseitiger Test - upper-tailed/lower-tailed orone-sided testErwartungstreue - unbiasednessFehler 1. (2.) Art - type I (II) errorFreiheitsgrade - degrees of freedomH0 zugunsten von HA verwerfen - to rejectH0 in favour of HA

Konfidenzintervall - confidence intervalKonfidenzniveau - confidence level

Macht des Tests - power of testNullhypothese - null hypothesisPunktschätzer - point estimatePrüfgröße - value of the test statisticSicherheitsgrenzen - critical valuesSignifikanzniveau - level of significanceStandardfehler - standard errorTestfunktion - test statisticzweiseitiger Test - two-tailed or two sidedtest

Damit ist die Vorlesung „Grundlagen der Statistik“ zu Ende. Das Feld der Statistik istsehr weit und seine Anwendungen in der Informationstechnik und (geographischen)Datenverarbeitung vielfältig. Im Rahmen der Vorlesung konnten nur einige Teila-spekte daraus besprochen werden. Manchmal waren es nur „Andeutungen“ überThemen, die eine gewisse Bedeutung in unserer Disziplin erlangt haben. Bei Inter-esse oder beruflicher Notwendigkeit werden sie den Einstieg in das jeweilige Themahoffentlich erleichtern und für eine intensivere Beschäftigung zumindest homöopa-thische Spuren von Grundlagenwissen hinterlassen.Für Ihr Berufsleben vielleicht noch ein kleiner Hinweis: Die meisten Menschen ver-stehen noch weniger von Statistik als Sie! Verwenden Sie in der Argumentation dahernie tiefergehende Konzepte als arithmetische Mittelwerte.Abschließend noch eine kleines statistisches Beispiel:Finnische Wissenschafter haben herausgefunden, warum es den Weihnachtsmannnicht geben kann: Niemand sei kräftig genug, um in 31 Stunden (Zeitverschiebungmit eingerechnet) 189 Millionen Kilo schwere Geschenke an 308 Millionen christlicheKinder in 108 Millionen Haushalten verteilen zu können.Um dies bewältigen zu können, müsste der Mann 135.000 sehr muskulöse Rentiereim Stall haben. Jedes von ihnen müsste in der Lage sein, einen etwa eineinhalb Ton-nen schweren Schlitten mit einer Geschwindigkeit von 1.040 Kilometern pro Sekundeziehen zu können. Mit den 140 Millionen zu bewältigenden Kilometern vor sich, hät-te der Weihnachtsmann genau eine Tausendstel Sekunde, um jeweils im Schornsteinzu verschwinden, die Geschenke vor dem Baum abzulegen, und wieder auf seinenSchlitten zu gelangen. Ganz ehrlich: Kann sich das ausgehen?Damit wünsche ich schöne Weihnachten und für den Rest des Studiums: Viel Erfolg!Martin Staudinger, 17.12.2007

Page 115: MaSt Statistik 2007

Anhang A

Matrizenrechnung

Das Erlernen und die Anwendung statistischer Methoden setzen voraus, dass wir unseinige mathematischen Werkzeuge in Erinnerung rufen. Dazu gehören Grundkennt-nisse aus der Linearen Algebra, im Speziellen auch die Verwendung der Matrizenrech-nung zur Auflösung linearer Gleichungssysteme.

A.1 Lineare Algebra

Die lineare Algebra beschäftigt sich mit Lösungsmethoden linearer Gleichungen undGleichungssysteme wie z.B. das folgende:

8x1 + 1x2 + 6x3 = 153x1 + 5x2 + 7x3 = 154x1 + 9x2 + 2x3 = 15

(A.1)

oder etwas allgemeiner ausgedrückt:

a11x1 + a12x2 + a13x3 = b1a21x1 + a22x2 + a23x3 = b2a31x1 + a32x2 + a33x3 = b3

(A.2)

mit den Koeffizienten a11 bis a33, den Unbekannten x1 bis x3 und den Konstanten („rechteSeite“) b1 bis b3. Lineare Gleichungssysteme zeichnen sich dadurch aus, dass in ihnen– wie in obigem Beispiel – die Unbekannten nur in der Potenz 0 oder 1 vorkommen.Ist mindestens ein bi auf der rechten Seite von Null verschieden, so heißt das Glei-chungssystem inhomogen, im anderen Fall homogen. Obiges Gleichungssystem bestehtaus 3 Gleichungen in 3 Unbekannten und ist – unter bestimmten Voraussetzungen – ein-deutig lösbar. Lineare Gleichungssysteme mit mehr Gleichungen als Unbekannten sindhingegen überbestimmt; solche mit mehr Unbekannten als Gleichungen unterbestimmt.

Das Wort „Algebra“ (das im Übrigen im Deutschen auf der ersten Silbe betont wird,im Österreichischen hingegen oft auf der zweiten) kommt aus dem Arabischen. Wört-lich übersetzt heißt es „Wiederherstellung“: Eines der ersten algebraischen Lehrbücherhieß Hisab al-gabr w’al-muqabala – „Wiederherstellen und Zusammenführen“. Es wurdeum 800 von Abu Ja’far Muhammad ibn Musa Al-Chwarismi geschrieben und beschreibtdas Auflösen von Gleichungen.

Al-Chwarismi’s Buch über Algebra verdanken wir übrigens nicht nur das Wort „Al-gebra“ selbst. Als sein Buch ins Lateinische übersetzt wurde, wurde Al-Chwarismi zu„Algoritmi“ – unser Wort „Algorithmus“ kommt davon.

A-1

Page 116: MaSt Statistik 2007

A-2 ANHANG A. MATRIZENRECHNUNG

In weiterer Folge war „Algebra“ die Bezeichnung für die Lehre vom „Auflösen vonGleichungssystemen und Ungleichungssystemen“. Die klassische Algebra beschränk-te sich dabei auf die elementaren Operationen Addition, Subtraktion, Multiplikation,Division, das Potenzieren und das Radizieren1. Nicht-algebraische Gleichungen sindin dieser Diktion Exponenzialgleichungen, Logarithmusgleichungen und trigonome-trische (goniometrische) Gleichungen, also Gleichungen die z.B. Ausdrücke wie ex, lg xoder sin x enthalten. Sie werden auch als transzendente Gleichungen bezeichnet.

Heute beschäftigt sich die moderne Algebra nicht nur mit Gleichungssystemen undelementaren Operationen zu ihrer Auflösung, sondern generell und sehr formal mitden Beziehungen mathematischer Größen untereinander, ihren Strukturen, Regeln undOperationen. Die lineare Algebra befasst sie sich dabei speziell mit dem n-dimensionalenVektorraum und mit linearen Transformationen in ihm.

Neben dieser Bedeutung des Wortes „Algebra“ als ein Teilgebiet der Mathema-tik wird auch eine mathematische Struktur, wenn sie bestimmte Eigenschaften erfüllt,als eine Algebra bezeichnet. Diese Eigenschaften betreffen unter anderem Assoziativ-,Kommutativ- und Distributivgesetz, sowie das Vorhandensein eines neutralen und ei-nes inversen Elements. Unter diesen Gesichtspunkten können wir auch die Menge derMatrizen und ihrer Operationen als eine Algebra bezeichnen.

Als praktisches Werkzeug der linearen Algebra steht uns unter anderem die Matri-zenrechnung zur Verfügung. Viele der Berechnungsschemata und Algorithmen könnenin Matrizenschreibweise angegeben werden und in der Matrizenrechnung sehr einfachgelöst werden.

A.2 Matrizenalgebra

A.2.1 Definitionen

Eine (m,n)-Matrix ist eine (im Allgemeinen: rechteckige) Anordnung von m × n Ele-menten in m Zeilen und n Spalten:

(aik) :=

a11 a12 · · · a1n

a21 a22 · · · a2n...

.... . .

...am1 am2 · · · amn

= mAn (A.3)

Die Elemente einer Matrix können Variable, Zahlen ∈ C (oder Untermengen davon,also N, Z, Q oder R), Polynome, Differenziale, sonstige Operatoren (Funktionen) undSymbole aber auch selbst wieder Matrizen sein. Wenn nicht anders angegeben, werdendie von uns betrachteten Matrizen immer reelle Zahlen als Elemente enthalten, oderVariable, die für reelle Zahlen stehen.

Die Anzahl der Zeilen und Spalten definieren den Typ (auch: Dimension oder Größe)der Matrix. Eine Matrix mit der gleichen Anzahl von Zeilen und Spalten ist eine qua-dratische Matrix (genauer: eine n-reihige quadratische Matrix); andernfalls sprechen wirvon einer rechteckigen Matrix. Eine (m × 1)-Matrix ist ein Spaltenvektor und eine (1 × n)-Matrix ein Zeilenvektor. Skalare, also „einzelne“ Zahlen, können – mit bestimmten Ein-schränkungen – als (1 × 1)-Matrizen aufgefasst werden.

Innerhalb einer Matrix können wir die einzelnen Elemente über ihren Index anspre-chen: Der Zeilenindex gibt die Zeile und der Spaltenindex die Spalte an, wo wir das Ele-ment finden. Üblicherweise werden zuerst der Zeilen- und dann der Spaltenindex an-gegeben. a23 ist demnach das Element in der zweiten Zeile und dritten Spalte.

1Wurzelziehen

Page 117: MaSt Statistik 2007

A.2. MATRIZENALGEBRA A-3

Abb. A.1 „Die Melancholie“ von Albrecht Dürer zeigt rechts oben die Darstellung ei-ner Matrix (siehe auch vergrößerten Ausschnitt). Die Matrix enthält ein so genanntes„magisches Quadrat“.

Historische Anmerkung

Der Kupferstich „Die Melancholie“ (Melencolia I) von Albrecht Dürer zeigt bereits imJahre 1514 die Darstellung einer Matrix (siehe Abb.A.1). Die Matrix enthält nicht nurin der letzten Zeile das Entstehungsjahr des Werkes (1514), sondern auch Zahlen, die– nach Meinung von Astrologen – angeblich den Planeten Jupiter repräsentieren undsomit dem „schädlichen“ Einfluss des Saturns (repräsentiert durch andere Symbole aufdem Bild) entgegenwirken. Interessant ist auch, dass es sich bei der matrizenhaftenAnordnung der Zahlen um ein so genanntes „magisches Quadrat“ handelt: die Sum-me der Zahlen in jeder Zeile, in jeder Spalte und in jeder der beiden Diagonalen (vonlinks oben nach rechts unten von links unten nach rechts oben), ergibt jeweils densel-ben festen Wert (hier: 34). Die Matrix A in der Gleichung (A.5) enthält übrigens auchein magisches Quadrat (und zwar mit der Summe 15).

Darstellung von Gleichungssystemen durch Matrizen

Wir können nun das Gleichungssystem (A.1) mit Hilfe der Matrizenrechnung ausdrückenals

Ax = b (A.4)

mit der quadratischen Koeffizientenmatrix A, dem Konstantenvektor b und dem Unbekann-tenvektor x, jeweils mit den konkreten Elementen wie in Gleichung (A.5) angegeben. ImUnbekanntenvektor stehen zunächst Variable für die Lösungen des Gleichungssystems.Ziel ist es, einen oder mehrere Lösungsvektoren x zu finden, der an Stelle der Variablen

Page 118: MaSt Statistik 2007

A-4 ANHANG A. MATRIZENRECHNUNG

reelle Zahlen enthält, sodass die Gleichung (A.4) erfüllt ist.

A =

8 1 6

3 5 7

4 9 2

b =

15

15

15

x =

x1

x2

x3

(A.5)

Die Verwendung runder oder eckiger Klammern für Matrizen ist übrigens beliebig.Wir werden für Matrizen mit Zahlen meist eckige, sonst runde Klammern verwenden.Der besseren Lesbarkeit wegen werden wir außerdem blockweise auftretende Nullenin Matrizen meistens nicht ausschreiben, also zum Beispiel

M =

4 1

5 2

6

3 8

an Stelle von M =

4 0 1 0

0 5 2 0

0 0 6 0

0 0 3 8

Submatrizen

In einer (m, n)-Matrix kann man jeden (p, q)-Block von Elementen mit p ≤ m und n ≤ qselbst wieder als Matrix auffassen. Dieser (rechteckige oder quadratische) Block ist eineSubmatrix der Ausgangsmatrix. Wir können z.B. die Matrix A aus (A.5) zerlegen in

A =

8 1 63 5 74 9 2

=

(

P qr s

)

wobei als Submatrizen die Matrix P, der Spaltenvektor q, der Zeilenvektor r sowie die(1,1)-Matrix s auftreten, mit

P =

[

8 13 5

]

q =

[

67

]

r =[

4 9]

s = [2]

Weitere Eigenschaften und Begriffe

Die Hauptdiagonale einer (m, n)-Matrix sind jene Elemente, die gleichen Zeilen- undSpaltenindex haben. Das sind die Elemente a11, a22, . . . amm für eine Matrix mit m ≤ nbzw. die Elemente a11, a22, . . . ann für eine Matrix mit m ≥ n. Für eine quadratische Ma-trix sind dies also alle Elemente vom linken oberen bis zum rechten unteren Eck.

Eine Diagonalmatrix ist eine Matrix, bei der die Hauptdiagonale mit mindestens ei-nem Element 6= 0 besetzt ist, alle Elemente außerhalb der Hauptdiagonalen hingegen= 0 sind:

aij = 0 ∀ i 6= j (A.6)

Eine Dreiecksmatrix ist eine quadratische Matrix, deren Elemente unter- oder ober-halb der Hauptdiagonale alle Null sind. Genauer spricht man von einer oberen Dreiecks-matrix wenn nur die Hauptdiagonale und Elemente oberhalb von ihr belegt sind:

aij = 0 ∀ i > j (A.7)

bzw. von einer unteren Dreiecksmatrix wenn nur die Hauptdiagonale und Elemente un-terhalb von ihr belegt sind:

aij = 0 ∀ i < j (A.8)

Eine quadratische Matrix ist symmetrisch wenn

aij = aji ∀i, j ∈ {1 . . . n} (A.9)

Page 119: MaSt Statistik 2007

A.2. MATRIZENALGEBRA A-5

A.2.2 Matrizenoperationen

Gleichheit von Matrizen

Zwei Matrizen A und B sind gleich, wenn sie vom gleichem Typ sind und die entspre-chenden Elemente in beiden Matrizen gleich sind, d.h.

aij = bij ∀i ∈ {1 . . . m}, j ∈ {1 . . . n} (A.10)

Transposition

Die einfachste Matrizenoperation ist die Transposition. Sie wird auf eine einzelne Ma-trix angewendet und bedeutet nichts anderes als ein „Stürzen“ der Matrix: Reihen undSpalten tauschen ihre Funktionen, Reihen werden zu Spalten und vice versa. Die so ent-standene transponierte Matrix erhält die Bezeichnung AT (wenn A die Ausgangsmatrixwar), manchmal auch A’.

(aTji) := (aij) ∀ i ∈ {1 . . . m}, j ∈ {1 . . . n} (A.11)

Elementweise betrachtet kann man auch sagen: Die transponierte Matrix entsteht durchVertauschen der Indizes der Elemente der Ausgangsmatrix.

Wir werden die Transposition verwenden, um formal zwischen einem Spalten- undeinem Zeilenvektor zu unterscheiden: Nachdem in der Vektorrechnung ein Vektor xüblicherweise ein Spaltenvektoren ist, werden wir einen Zeilenvektor mit xT bezeich-nen.

Mit Hilfe der Transposition können wir auch die Definitionen (A.9) über symmetri-sche Matrizen neu formulieren:

Eine Matrix ist symmetrisch wenn gilt:

A = AT (A.12)

Addition und Subtraktion

Die Addition und Subtraktion von Matrizen ist definiert als Addition (Subtraktion) derjeweiligen Elemente der beiden Matrizen:

A ± B = (aik) ± (bik) := (aik ± bik) (A.13)

a11 · · · a1n...

...am1 · · · amn

±

b11 · · · b1n...

...bm1 · · · bmn

=

a11 ± b11 · · · a1n ± b1n...

...am1 ± bm1 · · · amn ± bmn

Formal genügen Matrixaddition und -subtraktion den bekannten Rechenregeln der Ad-dition (Subtraktion) reeller Zahlen, mit der Einschränkung dass sie offensichtlich nurfür Matrizen desselben Typs definiert sind.

Die Matrizenaddition ist assoziativ, d.h.

(A + B) + C = A + (B + C) (A.14)

und kommutativ:A + B = B + A (A.15)

Müssen wir die Summe zweier Matrizen transponieren, so können wir auch sum-mandenweise vorgehen:

(A + B)T = AT + BT (A.16)

Page 120: MaSt Statistik 2007

A-6 ANHANG A. MATRIZENRECHNUNG

Nullmatrix

Die Nullmatrix 0 ist eine Matrix, die als Elemente ausschließlich Nullen enthält. Sie istdas neutrale Element der Matrizenaddition: Die Addition einer beliebigen Matrix zurNullmatrix (oder umgekehrt) ergibt wieder die Ausgangsmatrix:

A + 0 = 0 + A = A (A.17)

Multiplikation einer Matrix mit einem Skalar

Die Multiplikation einer Matrix mit einem Skalar α ist definiert als

α · A = α · (aik) := (α · aik) (A.18)

α ·

a11 · · · a1n...

...am1 · · · amn

=

α · a11 · · · α · a1n...

...α · am1 · · · α · amn

d.h. jedes Element aus A wird mit α multipliziert. Umgekehrt kann man auch aus jederMatrix einen allen Elementen gemeinsamen sklaren Faktor herausheben.

Die Multiplikation einer Matrix mit einem Skalar ist kommutativ und assoziativ. Fürdie Multiplikation einer Matrix mit einem Skalar und die Matrizenaddition gilt auchdas Distributivgesetz:

αA = Aα (A.19)

α(βA) = (αβ)A (A.20)

(α + β)A = αA + βA (A.21)

α(A + B) = αA + αB (A.22)

Matrizenmultiplikation

Die Multiplikation zweier Matrizen ist definiert als

A · B = (aik) · (bkj) :=

(

n

∑k=1

aik · bkj

)

= ai · bj (A.23)

d.h. das Produkt AB einer (m,n)-Matrix A mit einer (n,p)-Matrix B ist die (m,p)-MatrixC = AB, deren Elemente cij als skalares Produkt der i-ten Zeile von A (des Zeilenvektorsai) mit der j-ten Spalte von B (dem Spaltenvektor bj ) gebildet werden.

Es ist offensichtlich, dass Matrizen nur dann miteinander multipliziert werden kön-nen, wenn die Spaltenzahl der ersten Matrix gleich der Zeilenzahl der zweiten Matrixist.

Das Matrizenprodukt ist nicht kommutativ, d.h. im Allgemeinen sind AB und BAverschiedene Matrizen (sofern sie überhaupt auf beide Arten verknüpfbar sind). Insbe-sondere hat man bei einer Matrizengleichung stets beide Seiten in gleicher Weise miteiner Matrix zu multiplizieren: entweder beide Seiten „von rechts“ oder beide Seiten„von links“.

Die Matrizenmultiplikation ist aber assoziativ, d.h.

(AB) C = A (BC) (A.24)

Für Matrizenaddition und -multiplikation gilt das Distributivgesetz, d.h.

A (B + C) = AB + AC (A.25)

(A + B)C = AC + BC (A.26)

Page 121: MaSt Statistik 2007

A.2. MATRIZENALGEBRA A-7

Einheitsmatrix

Das neutrale Element der Matrizenmultiplikation ist die Einheitsmatrix I (das I ent-spricht dabei dem englischen Namen Identity matrix; manchmal wird im Deutschenauch die Bezeichnung E verwendet). I ist eine quadratische Diagonalmatrix mit

Iik = δik (A.27)

wobei δik für das Kroneckersymbol steht2:

δik =

{

1 für i = k0 für i 6= k

(A.28)

Die Multiplikation mit der Einheitsmatrix ist kommutativ und es gilt:

IA = AI = A (A.29)

Mithilfe der Einheitsmatrix können wir die Skalarmultiplikation erneut definieren:

α · A = (α · I) · A (A.30)

Die Multiplikation mit einem Skalar kann also auch durch eine Matrixmultiplikationmit einer Diagonalmatrix, deren Elemente auf der Hauptdiagonalen diesem Skalar ent-sprechen, erfolgen.

Transponieren von Matrizenprodukten

Wird ein Matrizenprodukt transponiert, so kann man stattdessen auch zuerst jede Ma-trix transponieren und die Multiplikation dann in umgekehrter Reihenfolge durchfüh-ren:

(A · B · C · . . . · Z)T = ZT · . . . CT · BT · AT (A.31)

Rechnen mit Submatrizen

Elementare Matrizenoperationen wie Addition, Subtraktion und Multiplikation kön-nen auch durchgeführt werden, wenn die Elemente der einzelnen Matrizen selbst wie-der Matrizen (Submatrizen) sind. Dabei ist natürlich besonders darauf zu achten, dassdie Dimensionen der Submatrizen miteinander korrespondieren („Dimension“ einerMatrix ist hier sowohl im Sinne von „Anzahl der Zeilen mal Anzahl der Spalten“ zuverstehen als auch im Sinne der physikalischen Einheiten der einzelnen Elemente).

Die Gauß’sche Transformation

Unter der Gauß’scher Transformation3 einer (m, n)-Matrix A versteht man die Bildung desProduktes

N = ATA (A.32)

d.h. man multipliziert eine Matrix von links mit ihrer Transponierten. Das Ergebnis isteine quadratische, symmetrische (n, n)-Matrix, hier bezeichnet mit N. Die Elemente derProduktmatrix N sind dabei die skalaren Produkte des i-ten mit dem k-ten Spaltenvek-tor von A.

2benannt nach dem preußischen Mathematiker Leopold Kronecker, 1823-18913nach Johann Friedrich Carl Gauß, deutscher Mathematiker und Geodät, 1777 - 1855

Page 122: MaSt Statistik 2007

A-8 ANHANG A. MATRIZENRECHNUNG

Abb. A.2 Falk’sches Schema zur Matrizenmultiplikation

B

A C=ABm

n

n

p

A

B

C

D

CD

BCD

ABCD

Das Falk’sche Schema

Manchmal wird man nicht umhin kommen, zwei oder mehrere Matrizen „von Hand“zu multiplizieren (z.B. wenn die einzelnen Elemente nicht numerische Zahlen sondernVariablen oder Submatrizen sind). Dann ist eine von Falk4 vorgeschlagene Anordnungnützlich, bei der jedes Produktelement cik genau im Kreuzungspunkt der i-ten Zeilevon A mit der k-ten Spalte von B erscheint (Abb. A.2).

Die Falk’sche Anordnung empfiehlt sich insbesondere bei Produkten aus mehr alszwei Faktoren (z.B. ABCD). Baut man das Schema dabei von oben nach unten auf (s.Abb. A.2), so muss man die Rechnung mit dem letzten Faktor beginnen und „von hin-ten nach vorne“ multiplizieren.

Inversion

Als inverse Matrix oder Kehrmatrix einer quadratischen Matrix A bezeichnet man dieMatrix A−1, für die gilt:

A A−1 = A−1A = I (A.33)

Es können nur Matrizen invertiert werden, die quadratisch sind und noch andereEigenschaften haben, auf die wir hier aber nicht weiter eingehen wollen. Auch denLösungsweg zur Berechnung der Inversen werden wir hier nicht weiter behandeln.Wir gehen davon aus, dass wir Rechenprogramme verwenden, die Matrizen invertierenkönnen.

A.2.3 Auflösung von Gleichungssystemen mit Matrizen

Gleichungssysteme können mit Hilfe der Multiplikation, Inversion und Gauß’schenTransformation gelöst werden. Gegeben ist z.B. ein Gleichungssystem in der Form (A.4).Zur Berechnung des unbekannten Vektors x kann auf beiden Seiten der Gleichung mitA−1 multipliziert werden

A−1Ax = A−1b (A.34)

und da A−1A = I folgt daraus:x = A−1b (A.35)

4Sigurd Falk

Page 123: MaSt Statistik 2007

A.3. MATRIZENRECHNUNG MIT MICROSOFT EXCEL A-9

Die Auflösung dieser Gleichung setzt voraus, dass die einzelnen Matrizen in der ange-gebenen Form überhaupt miteinander verknüpfbar sind, also:

• Anzahl der Zeilen in A = Anzahl der Elemente in b und• Anzahl der Spalten in A = Anzahl der Elemente in x

Außerdem muss die Matrix A invertierbar sein. Das Gleichungssystem ist dann eindeu-tig lösbar.

Wir werden es andererseits manchmal auch mit überbestimmten Gleichungssyste-men zu tun haben, d.h. die Matrix A wird nicht quadratisch sein („mehr Gleichungenals Unbekannte“) und somit nicht invertierbar. Das Gleichungssystem muss also andersgelöst werden.

Ohne auf die näheren Hintergründe einzugehen, wenden wir folgenden „Trick“ an:Wir unterwerfen das Gleichungssystem einer Gauß’schen Transformation, d.h. multi-plizieren auf beiden Seiten mit AT:

ATAx = ATb (A.36)

(A.36) wird auch Normalgleichung genannt und die Matrix N = ATA die Normalglei-chungsmatrix. Die Matrix N ist quadratisch und symmetrisch. Im Falle dass sie auchinvertiert werden kann ist das Gleichungssystem gelöst:

x = N−1ATb (A.37)

mit N = ATA

A.3 Matrizenrechnung mit Microsoft EXCEL

EXCEL ist ein Programm zur „Tabellenkalkulation“, d.h. Daten werden in Tabellenform(Zeilen und Spalten) ablegt und dann verschiedenen Berechnungen, Analysen, Visuali-sierungen etc. zugänglich gemacht.

Die Zeilen-Spalten-Anordnung von EXCEL entspricht genau unserer Matrizenbe-trachtungsweise.

Der Bezug auf bestimmte Zellen geschieht durch Angabe von Spalte und Zeile, wo-bei 256 Spalten (bezeichnet mit A-Z, AA-AZ, BA-BZ, . . . , IA-IV) und 65536 Zeilen (be-zeichnet mit 1-65536) möglich sind. Beispiel: Das Element in der 1.Zeile und 3.Spalte istC1, jenes in der 15.Zeile und 23.Spalte W15 etc. Der Zellbezug erscheint auch links obenim „Namensfeld“ (Name Box).

Wir können dieses (65536 x 256) große Feld jetzt in „Sub-Felder“ unterteilen, unddamit Matrizen definieren.

A.3.1 Eine Matrix in EXCEL definieren

Jeder beliebig große rechteckige oder quadratische Bereich kann als Matrix betrachtetund angesprochen werden. Dazu gibt es zwei Möglichkeiten:

Man gibt die Zellenbezeichnung der linken oberen und rechten unteren Ecke derMatrix ein, dazwischen steht ein Doppelpunkt: „A4:C6“ ist also die Matrix bestehendaus den Elementen mit dem Zellbezug

A4 B4 C4A5 B5 C5A6 B6 C6

Page 124: MaSt Statistik 2007

A-10 ANHANG A. MATRIZENRECHNUNG

Die elegantere Möglichkeit ist es allerdings, den Matrizen auch Namen zu geben. Zudiesem Zweck markiert man den gewünschten Bereich (z.B. A1:C3) und gibt dann imNamensfeld (Name Box) eine beliebige Bezeichnung ein, z.B. „A“, „x“, „MyMatrix“.... Die Bezeichnung kann im Prinzip beliebig gewählt werden. Es gelten aber folgendeRichtlinien:

• Das erste Zeichen eines Namens muss ein Buchstabe oder ein Unterstrich sein.Für alle weiteren Zeichen des Namens können Buchstaben, Ziffern, Punkte, Fra-gezeichen oder Unterstriche verwendet werden.

• Es dürfen keine Namen gewählt werden, die bereits einen Standard-Zellenbezugdefinieren, also z.B. „A1“ oder „HK738“ oder „IV65536“.

• Namen dürfen keine Leerzeichen enthalten. Zur Trennung können Unterstricheund Punkte verwendet werden, z.B. „A_transponiert“ oder „Inverse_Matrix“.

• Ein Name darf maximal 255 Zeichen umfassen.

• Namen können Buchstaben in Groß- und Kleinschreibung enthalten. Excel un-terscheidet aber nicht zwischen Groß- und Kleinbuchstaben. Wenn Sie z.B. denNamen „MyMatrix“ definiert haben und dann in derselben Arbeitsmappe denNamen „MYMATRIX“ oder „mymatrix“ erstellen, wird der erste Name durchden zweiten ersetzt.

Die Eingabe im Namensfeld wird mit der Returntaste abgeschlossen.Bereiche, die als (verschiedene) Matrizen definiert sind, können sich auch überlap-

pen bzw. zwei idente Bereiche mit unterschiedlichen Namen bezeichnet werden.

A.3.2 Matrizenoperationen mit EXCEL

sind durch verschiedene bereits vordefinierte Funktionen möglich. Wichtig ist:

1. Es muss vorher festgelegt sein, wie groß das Ergebnis sein wird. Dieser Bereich istzu markieren (Wenn ich also z.B. eine 4 × 5 mit einer 5 × 8 Matrix multipliziere,wird das Ergebnis eine 4 × 8-Matrix sein und ich muss dementsprechend einen4 × 8-Bereich markieren).

2. Alle Eingaben, die ein Ergebnis haben, das mehr als eine Zelle umfasst, dürfennicht mit der gewöhnlichen Returntaste abgeschlossen werden, sondern durchgleichzeitiges Drücken von Strg-Shift-Return (Excel schließt dann die Formel au-tomatisch in geschweifte Klammern {} ein).

Einige wichtige Operationen:

Operation Eingabe in EXCELAddition =Matrix1+Matrix2Multiplikation =MMULT(Matrix1;Matrix2)Transponieren =MTRANS(Matrix)Anzahl der Spalten =SPALTEN(Matrix)Anzahl der Zeilen =ZEILEN(Matrix)kleinster Wert in einer Matrix =MIN(Matrix)Inverse =MINV(Matrix)

Bei Verwendung einer englischen Version von EXCEL sind einige Abweichungenzu beachten:

Page 125: MaSt Statistik 2007

A.3. MATRIZENRECHNUNG MIT MICROSOFT EXCEL A-11

Operation Eingabe in EXCELAddition =Matrix1+Matrix2Multiplikation =MMULT(Matrix2, Matrix2)Transponieren =TRANSPOSE(Matrix)Anzahl der Spalten =COLUMNS(Matrix)Anzahl der Zeilen =ROWS(Matrix)kleinster Wert in einer Matrix =MIN(Matrix)Inverse =MINVERSE(Matrix)

Matrix, Matrix1, Matrix2 . . . gibt den Bereich an, der als Matrix aufgefasst werdensoll (vgl. oben: Definieren einer Matrix)

Beispiele:

MMULT(A;x) ergibt die Produktmatrix Ax

MTRANS(A3:F8) ergibt die Transponierte zu jener Matrix, die durch den rechteckigenBereich A3 bis F8 definiert ist.

Operationen können auch verschachtelt werden. Für (ATPA)−1 wird z.B. folgendeFunktion eingegeben:

MINV(MMULT(MTRANS(A);MMULT(P;A)))bzw. in der englischen EXCEL-VersionMINVERSE(MMULT(TRANSPOSE(A),MMULT(P,A)))

Wichtiger Hinweis

An dieser Stelle sei darauf hingewiesen, dass sich Excel als Tool zum Erlernen (und vorallem: Verstehen) statistischer Merhoden oder eben der Matrizenrechnung einerseitssehr gut eignet, und zwar weil

• das Programm in der Regel den Studierenden bereits bekannt ist und daher nichtdie ohnehin knapp bemessene Zeit der Statistik-Übung für das Erlernen einerneuen Software verwendet werden muss

• die meisten Studierenden in ihrer gewohnten Windows XP- oder Vista-Look-and-Feel-Umgebung arbeiten können

• die Anordnung der Daten mit Zeilen, Spalten und Tabellen sehr übersichtlich ge-staltet werden kann

• Berechnungen „on the fly“ durchgeführt werden und damit

• die Auswirkung von Änderungen in den Daten sofort in den Ergebnissen sichtbarsind

Andererseits sei aber ausdrücklich darauf hingewiesen, dass

• bestimmte statistische Routinen und Anaysen nur auf einfache Grundverfahrenlimitiert sind

• bestimmte Statistik-Funktionen und -algorithmen in Excel offensichtlich falschimplementiert sind

• bestimmte Darstellungen nicht mehr den heute üblichen Standards statistischerGraphiken genügen, insbesondere wenn man „Default-Einstellungen“ belässt

Page 126: MaSt Statistik 2007

A-12 ANHANG A. MATRIZENRECHNUNG

• Excel ganz allgemein arithmetische und numerische Probleme beinhaltet und

• man sich keineswegs der Illusion hingeben darf, dass alles, was „aus dem Com-puter kommt“, fehlerfrei ist. (Und das liegt nicht nur am User, der vielleicht beider Eingabe Fehler macht).

Eine Alternative zur Verwendung von Excel5, die jedenfalls in numerischer HinsichtExcel überlegen ist, ist MATLAB.

MATLAB ist ein Programm, das einen Interpreter zur Berechnung mehr oder weni-ger komplexer mathematische Ausdrücke, insbesondere aus der Matrizenalgebra, zurVerfügung stellt. Für die „Bedienung“ und Verwendung von MATLAB sei auf die Lehr-veranstaltung „Technische Standardsoftware“ aus dem 1. Semester verwiesen.

5abgesehen natürlich von „wirklichen“ Statistikprogrammen, in denen Daten eingelesen/eingegeben wer-den und dann auf Knopfdruck verschiedene Analysen und Berechnungen gestartet werden können

Page 127: MaSt Statistik 2007

Anhang B

Differenzialrechnung

In einigen Kapiteln der Vorlesung „Statistik“ benötigen wir Definitionen und Verfahrenaus der Differenzialrechnung. Wir werden sie hier in Erinnerung rufen, ohne auf dienäheren Hintergründe einzugehen.

B.1 Reelle Funktionen in einer Variablen

Eine Funktion ist eine Abbildung, die jedem Element aus einem Definitionsbereich ein Ele-ment aus einem Wertebereich eindeutig zuordnet:

x 7→ f (x) (B.1)

Eine reelle Funktion ist eine Abbildung, bei der sowohl Definitionsbereich als auchWertebereich Teilmengen von R sind. Im Folgenden werden wir, wenn nicht andersangegeben, ausschließlich reelle Funktionen betrachten.

{(x, f (x)) |x ∈ Def.bereich} ist der Graph der Abbildung. Der Graph reeller Funk-tionen in einer Variablen kann in einem (x, y)-Koordinatensystem dargestellt werden,wobei y = f (x).

Differenzenquotient

Für die folgenden Überlegungen betrachten wir zunächst die Abb. B.1.Der Quotient

∆ f (x)

∆x=

f (x0 + ∆x) − f (x0)

∆x(B.2)

mit ∆x = x − x0

heißt Differenzenquotient und gibt die Steigung der Sekante durch die Punkte P1(x0, f (x0))und P2(x0 + ∆x, f (x0 + ∆x)) an.

Differenzialquotient

Bilden wir nun den Grenzwert

f ′(x0) = limh→0

f (x0 + h) − f (x0)

h(B.3)

so erhalten wir den Differenzialquotient (auch: erste Ableitung) der Funktion f an derStelle x0. Wenn für jeden Punkt des Definitionsbereichs der Funktion so ein Grenzwertexistiert, spricht man von einer differenzierbaren Funktion.

B-1

Page 128: MaSt Statistik 2007

B-2 ANHANG B. DIFFERENZIALRECHNUNG

Abb. B.1 Eine Funktion y = f (x) und ihre Tangente im Punkt (x0, y0)

dy∆y

∆xdx=

x0

y0

x

y=f(x)

Die Ableitung einer Funktion im Punkt x gibt die Steigung der Funktionskurve indiesem Punkt, genauer gesagt die Steigung der Tangente an die Kurve im Punkt x, an(siehe die Tangente in Abb.B.1). Für lineare Funktionen (Polynome höchstens 1. Gra-des) sind Differenzenquotient und Differenzialquotient (also Sekante und Tangente) injedem Punkt gleich.

Statt f ′(x) verwendet man auch die auf Leibniz1 zurückgehende Schreibweise d f (x)dx

und bezeichnet d f (x) und dx als Differenziale (daher auch der Name „Differenzialquo-tient“).

Wir setzen in weiterer Folge voraus, dass sowohl die Ableitungen der wichtigstenFunktionen bekannt sind, als auch die Anwendung der folgenden Differentiationsre-geln:

Konstantenregel:c′ = 0 (B.4)

Faktorregel:(c · f (x))′ = c · f ′(x) (B.5)

Potenzregel:(xn)′ = n xn−1 (B.6)

Summenregel:( f (x)± g(x))′ = f ′(x) ± g′(x) (B.7)

Produktregel:( f (x) · g(x))′ = f ′(x) · g(x) + f (x) · g′(x) (B.8)

Quotientenregel:

(

f (x)

g(x)

)′=

f ′(x) · g(x) − f (x) · g′(x)

(g(x))2 (B.9)

Kettenregel:( f (g(x)))′ = f ′(g(x)) · g′(x) (B.10)

1Gottfried Wilhelm von Leibniz, dt. Mathematiker und Philosoph, 1646-1716

Page 129: MaSt Statistik 2007

B.2. TAYLORREIHEN B-3

(B.10) wird in der Leibniz’schen Schreibweise auch geschrieben als

d f

dx=

d f

dg· dg

dx(B.11)

wobei d fdg als die äußere und dg

dx als die innere Ableitung bezeichnet wird.

Numerische Differentiation

Funktionen können auch numerisch abgeleitet werden. Das ist vor allem dann sinnvoll,wenn die analytische Lösung aufwändig ist. Man nähert dabei den Differenzialquoti-enten durch den Differenzenquotienten an und berechnet die Ableitung nach

f ′(x) ≈ f (x + h) − f (x)

h(B.12)

oder – numerisch besser – nach

f ′(x) ≈ f (x + h) − f (x − h)

2h(B.13)

mit 10−8 ≤ h ≤ 10−4.

Höhere Ableitungen

Die (erste und jede weitere) Ableitung einer Funktion kann wieder differenziert wer-den, und zwar solange, bis man bei einer konstanten Funktion landet. Man erhält da-durch Ableitungen höherer Ordnung. Dabei wird die zweite Ableitung mit f ′′(x), diedritte mit f ′′′(x) usw., die n-te Ableitung mit f (n)(x) bezeichnet.

f (n)(x) =dn f (x)

dxn(B.14)

B.2 Taylorreihen

Viele Funktionen können durch Potenzreihen approximiert werden. Eine Potenzreiheist zum Beispiel das Polynom

f (x) =n

∑k=0

f (k)(x0)

k!(x − x0)

k + Rn(x) (B.15)

das – ohne dem Restglied Rn(x) – das n-te Taylorpolynom2 der Funktion f im Punkt x0genannt wird. Mit dem Taylorpolynom können die Funktionswerte einer differenzier-baren Funktion f in der Umgebung der Stelle x0 näherungsweise berechnet werden.Man spricht auch von einer Taylorentwicklung der Funktion bis zur n-ten Ordnung.

Die unendliche Potenzreihe für n → ∞ ist die Taylorreihe von f . Wenn das RestgliedRn(x) für n = ∞ gegen Null konvergiert, dann konvergiert auch die Taylorreihe gegenf (x).

Mit (x − x0) = ∆x bzw. x = (x0 + ∆x) kann (B.15) auch umgeschrieben werden zu

f (x0 + ∆x) = f (x0) + f ′(x0)∆x +12!

f ′′(x0)(∆x)2 + . . . +1n!

f (n)(x0)(∆x)n (B.16)

2Brook Taylor, brit. Mathematiker, 1685-1731

Page 130: MaSt Statistik 2007

B-4 ANHANG B. DIFFERENZIALRECHNUNG

Dies ist eine wichtige Formel, auf die wir in weiterer Folge bei der „Varianzfort-pflanzung“ und der „Methode der kleinsten Quadrate“ zurückgreifen werden.

Jede Funktion f (x), die in der Umgebung von x0 (n + 1)-fach differenzierbar ist, lässtsich an der Stelle x0 in der Form (B.15) darstellen. Eine spezielle Taylor-Form ist jenemit x0 = 0, also eine Taylorentwicklung um den Nullpunkt der x-Achse. Sie wird auchMaclaurin-Formel3 genannt. Bekannte Beispiele dafür sind die Reihenentwicklungen derWinkelfunktionen sin x und cos x:

sin(x) = x − x3

3!+

x5

5!− x7

7!+ · · ·

cos(x) = 1 − x2

2!+

x4

4!− x6

6!+ · · ·

Eine wichtige Anwendung von Taylorreihen ist jene, bei der ∆x sehr klein ist. Die Tay-lorentwicklung kann dann nämlich bereits nach den ersten beiden Gliedern (jenen mitk = 0 und k = 1) abgebrochen werden. Die verbleibende Funktionsentwicklung isteine Gerade, nämlich die Tangente der Funktion im Punkt x0. Das heißt: Kennen wirden Funktionswert an der Stelle f (x0), können wir in einer entsprechend kleinen Um-gebung von x0 jeden Funktionswert angeben, indem wir die Funktion durch ihre Tan-gente im Punkt x0 ersetzen. Diese Vorgangsweise nennen wir auch „Linearisieren derFunktion“.

B.3 Funktionen in mehreren Variablen

Eine reelle Funktion in mehreren Variablen ist eine Abbildung, die jedem Vektor x einereelle Zahl zuordnet. Entsprechend der Dimension des Vektors x spricht man auch voneiner Funktion in n Variablen.

Partielle Ableitungen

Wir können bei einer Funktion in mehreren Variablen alle Variablen ausgenommen xi

als Konstante auffassen und dann ausschließlich nach xi differenzieren. Diese Ablei-tung ist dann die partielle Ableitung (erster Ordnung) von f nach xi an der Stelle x undwird

fxi(x) =

∂ f (x)

∂xi(B.17)

geschrieben. Analog zu den Funktionen in einer Variablen können wir partielle Ablei-tungen nochmals ableiten und erhalten so partielle Ableitungen höherer Ordnung.

Das totale Differenzial

Die lineare Funktion

d f =∂ f (x)

∂x1dx1 +

∂ f (x)

∂x2dx2 + . . . +

∂ f (x)

∂xndxn (B.18)

ist das totale Differenzial von f an der Stelle x.

3Colin Maclaurin, schot. Mathematiker, 1698-1746

Page 131: MaSt Statistik 2007

B.4. DIFFERENTIATION VON MATRIZENFUNKTIONEN B-5

Taylorentwicklung einer Funktion in zwei Variablen

Analog zu (B.16) kann man auch eine Funktion in zwei Variablen in einem Taylorpoly-nom entwickeln:

f (x0 + ∆x, y0 + ∆y) = f (x0, y0) + 11!

(

∂ f (x0,y0)∂x ∆x + ∂ f (x0,y0)

∂y ∆y)

+

+ 12!

(

∂ f (x0,y0)∂x ∆x + ∂ f (x0,y0)

∂y ∆y)(2)

+

. . .

+ 1n!

(

∂ f (x0,y0)∂x ∆x + ∂ f (x0,y0)

∂y ∆y)(n)

+ Rn

(B.19)

wobei der Klammernausdruck(

∂ f∂x ∆x + ∂ f

∂y ∆y)(m)

nach dem binomischen Lehrsatz auf-

zulösen ist und(

∂ f

∂x

)p (∂ f

∂y

)m−p

=∂m f

∂xp∂ym−p (B.20)

Linearisierung einer Funktion in mehreren Variablen

Wie im Fall einer Variablen, können wir auch hier eine Funktion in einer entsprechendkleinen Umgebung von (x0

1, x02, . . . x0

n) durch ihre Tangente ersetzen und die Funkti-onswerte in dieser Umgebung durch Einsetzen in die lineare Funktion

f (x01 + ∆x1, x0

2 + ∆x2, . . . x0n + ∆xn) =

f (x01, x0

2, . . . x0n) + ∂ f

∂x1∆x1 + ∂ f

∂x2∆x2 + . . . + ∂ f

∂xn∆xn

(B.21)

annähern. Eine „entsprechend kleine Umgebung“ ist eine, bei der die ∆x1 bis ∆xn soklein sind, dass in der Taylorentwicklung Glieder höherer Ordnung weggelassen wer-den können.

B.4 Differentiation von Matrizenfunktionen

Es gibt zwei Matrizenfunktionen, von denen wir die partiellen Ableitungen erster Ord-nung benötigen: die Bilinearform und die Quadratische Form.

Die Bilinearform ist ein Matrizenprodukt der Form „Zeilenvektor mal Matrix malSpaltenvektor“. Das Ergebnis ist stets ein Skalar; außerdem gilt:

xTAy = yTATx (B.22)

Eine Bilinearform, in der die beiden beteiligten Vektoren ident sind (also: xTAx), heißtauch Quadratische Form.

Das Differenzial einer Bilinearform, zum Beispiel (xTATl), lautet:

∂(xTATl)∂x

= ATl (B.23)

Das Differenzial einer Quadratischen Form, zum Beispiel (xTAx), lautet:

∂(xTAx)

∂x= (A + AT)x (B.24)

beziehungsweise bei symmetrischer Matrix A

∂(xTAx)

∂x= 2Ax (B.25)

Page 132: MaSt Statistik 2007

6 ANHANG B. DIFFERENZIALRECHNUNG