151
-4.19 -2.00 0.00 2.00 4.00 8.02 Pearson residuals: p-value = < 2.22e-16 Eye Hair Sex Blond Female Male Red Female Male Brown Female Male Black Brown Blue Hazel Green Female Male

Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Embed Size (px)

Citation preview

Page 1: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Biostatistik 1

−4.19

−2.00

0.00

2.00

4.00

8.02

Pearsonresiduals:

p−value =< 2.22e−16

Eye

Hai

r

Sex

Blo

nd

Fem

ale

Mal

e

Red

Fem

aleM

ale

Bro

wn

Fem

ale

Mal

e

Bla

ck

Brown Blue Hazel Green

Fem

ale

Mal

e

Jürgen Dippon

11. Dezember 2012

Page 2: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Inhaltsverzeichnis

I. Deskriptive Statistik 5

1. Einführung 6

2. Deskriptive Statistik univariater Daten 92.1. Verteilungen und ihre Darstellungen . . . . . . . . . . . . . . . . . . . . . . 92.2. Beschreibung von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.1. Lagemaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.2. Quantile und Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2.3. Streuungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.4. Maÿzahlen für Schiefe und Wölbung . . . . . . . . . . . . . . . . . . 17

2.3. Dichtekurven und Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . 18

3. Deskriptive Statistik multivariater Daten 223.1. Diskrete multivariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.2. Quantitative multivariate Merkmale . . . . . . . . . . . . . . . . . . . . . . 24

3.2.1. Grasche Darstellungen quantitativer Merkmale . . . . . . . . . . . . 243.2.2. Zusammenhangsmaÿe bei quantitativen Merkmalen . . . . . . . . . . 253.2.3. Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2.4. R Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

II. Wahrscheinlichkeitstheorie 32

4. Wahrscheinlichkeitsrechnung 334.1. Denition und Begri der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . 334.2. Laplace-Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3. Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.3.1. Modell mit Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.2. Modell ohne Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . 364.3.3. Permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.4. Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge 364.3.5. Modell mit Zurücklegen und ohne Berücksichtigung der Reihenfolge 37

4.4. Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . 374.5. Unabhängigkeit von zwei Ereignissen . . . . . . . . . . . . . . . . . . . . . . 384.6. Totale Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.7. Der Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.8. Unendliche Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5. Diskrete Zufallsvariablen 425.1. Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.2. Verteilungen diskreter Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 435.3. Spezielle diskrete Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . 48

5.3.1. Die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 485.3.2. Die hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . 495.3.3. Die Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2

Page 3: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

6. Stetige Zufallsvariablen 536.1. Spezielle stetige Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . 54

6.1.1. Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546.1.2. Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.2. Lageparameter, Quantile und Varianz . . . . . . . . . . . . . . . . . . . . . 556.2.1. Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2.2. Modus, Quantil und Median . . . . . . . . . . . . . . . . . . . . . . . 576.2.3. Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . 57

6.3. Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

7. Grenzwertsätze 597.1. Gesetz der groÿen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597.2. Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

8. Mehrdimensionale Zufallsvariablen 638.1. Begri mehrdimensionale Zufallsvariablen . . . . . . . . . . . . . . . . . . . 638.2. Zweidimensionale diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . 638.3. Zweidimensionale stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . 638.4. Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 648.5. Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 648.6. Die zweidimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . 66

III. Induktive Statistik 70

9. Parameterschätzung 719.1. Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719.2. Eigenschaften von Schätzstatistiken . . . . . . . . . . . . . . . . . . . . . . . 71

9.2.1. Erwartungstreue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719.2.2. Erwartete mittlere quadratische Abweichung und Konsistenz . . . . . 72

9.3. Konstruktion von Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . 739.3.1. Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . 749.3.2. Kleinste-Quadrate-Schätzung . . . . . . . . . . . . . . . . . . . . . . 76

9.4. Intervallschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 769.4.1. Kondenzintervalle für Erwartungswert und Varianz . . . . . . . . . 77

10.Testen von Hypothesen 8110.1. Binomial- und Gauÿ-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

10.1.1. Approximativer Binomialtest . . . . . . . . . . . . . . . . . . . . . . 8310.1.2. Gauÿ-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

10.2. Prinzipien des Testens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8610.2.1. Fehlentscheidungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8710.2.2. Zusammenhang zwischen statistischen Tests und Kondenzintervallen 8810.2.3. Überschreitungswahrscheinlichkeit . . . . . . . . . . . . . . . . . . . 8810.2.4. Gütefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

10.3. Durchführung eines Tests mit R . . . . . . . . . . . . . . . . . . . . . . . . . 90

11.Spezielle Tests 9211.1. Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9211.2. Einstichprobentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9211.3. Zweistichprobentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

3

Page 4: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

11.4. Zusammenhangsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

12.Einfache lineare Regression 10912.1. Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 10912.2. Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . 11012.3. Gütemaÿ für die Anpassung der Geraden . . . . . . . . . . . . . . . . . . . . 11212.4. Stochastisches Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

13.Varianzanalyse 12513.1. Einfache Klassikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12513.2. Einfache Varianzanalyse mit R . . . . . . . . . . . . . . . . . . . . . . . . . 130

14.Versuchsplanung 13414.1. Wahl geeigneter Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13414.2. Bedeutung der Versuchsplanung in der biowissenschaftlichen Forschung . . . 13414.3. Grundlegende Aspekte der Versuchsplanung . . . . . . . . . . . . . . . . . . 135

14.3.1. Varianzquellen in biowissenschaftlichen Untersuchungen . . . . . . . 13514.3.2. Allgemeine Prinzipien der Versuchsplanung . . . . . . . . . . . . . . 13614.3.3. Typen von Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . 13614.3.4. Einige wichtige Versuchspläne . . . . . . . . . . . . . . . . . . . . . . 136

14.4. Bestimmung optimaler Stichprobenumfänge . . . . . . . . . . . . . . . . . . 136

Anhang 138

A. Literatur 139

B. Quellcode zu den Graken 140

4

Page 5: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Teil I.

Deskriptive Statistik

5

Page 6: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

1. Einführung

Grundaufgabe der Statistik

• Beschreiben (Deskription)

• Suchen (Exploration)

• Schlieÿen (Induktion)

Die deskriptive Statistik dient zur beschreibenden und graschen Aufarbeitung und Kom-primierung von Daten. Beschrieben werden Merkmale oder Variablen, die gewisse Ausprä-gungen oder Werte besitzen.Unterschiedliche Typen von Variablen

• Zielgröÿen

• Einussgröÿen oder Faktoren

• Störgröÿen oder latente Gröÿen

Deskriptive Statistik wird auch zur Datenvalidierung eingesetzt: Sind die erhobenen Datenplausibel und vertrauenswürdig?Mögliche Probleme: Passt die Gröÿenordnung? Gibt es Ausreiser? Gibt es Hinweise aufÜbertragungs- oder Eingabefehler? Wurden die Daten eventuell gefälscht?

Deskriptive Statistik verwendet im Gegensatz zur induktiven Statistik keine Wahr-scheinlichkeitstheorie.Die explorative Statistik sucht Strukturen oder Besonderheiten in den Daten und dient zurHypothesengewinnung.

Hypothesen können schlieÿlich in der induktiven Statistik formal mit wahrscheinlichkeits-theoretischen Methoden überprüft werden, z.B. kann mit groÿer Sicherheit geschlossenwerden, dass ein in der Stichprobe gefundener Zusammenhang auch in der Grundgesamt-heit vorliegt ?

Wichtige GrundbegrieStatistische Einheit: Objekte, an denen interessierende Gröÿen erfasst werden

Grundgesamtheit, Population: Menge aller für die Fragestellung relevanten statisti-schen Einheiten

Teilgesamtheit: Teilmenge der Grundgesamtheit

Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit

Merkmal: interessierende Gröÿe, Variable

Merkmalsausprägung: konkreter Wert des Merkmals für eine statistische Einheit

6

Page 7: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Charakterisierung von Merkmalendiskretes Merkmal: Menge der Merkmalsausprägung ist abzählbar

stetiges Merkmal: Merkmale nehmen Werte aus einem Intervall an

quasistetige Merkmale: Merkmal ist von seiner Natur her stetig, mögliche Werte aber,z.B. aufgrund des Messprozesses, abzählbarUnterscheidung von Merkmalen aufgrund ihrer Skalenniveaus:

1. Nominalskala: Merkmalsausprägungen sind Namen oder Kategorien (z.B. Haarfar-be, Religion) (endliche Menge)

2. Ordinalskala: Ausprägungen können geordnet werden (z.B. Tumorstadien, Schul-noten)

3. Intervallskala: Abstände zwischen Ausprägungen können interpretiert werden (z.B.Temperatur auf der Celsius-Skala, Jahreszahlen, IQ-Skala)

4. Verhältnisskala: Quotienten zwischen Ausprägungen können interpretiert werden(z.B. Temperatur in Kelvin, Gewicht in kg, Preis in Euro)

Weitere Unterscheidung:

Qualitative Merkmale (endlich viele Ausprägungen, höchstens ordinal skaliert)

versus

quantitative Merkmale (spiegeln eine Intensität wider)

Elemente der Versuchsplanung

• Notwendigkeit eines Versuchsplans

• Wie lautet das Ziel der Studie oder des Experiments ?

• Wie soll das Ziel erreicht werden ?

• Statistische Methoden

• Fallzahl

• Wie lassen sich Störvariablen kontrollieren ? (z.B. durch Homogenisierung, Randomi-sierung, Parallelisierung, Kontrolle der Störvariablen im Rahmen eines statistischenModells)

Datengewinnung kann erfolgen

• in einem Experiment

• einer Erhebung

im Rahmen einer Vollerhebung

einer Stichprobe

Verschiedene Methoden der Stichprobenbildung

• einfache Zufallsstichprobe

7

Page 8: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

• systematische Ziehung (z.B. jeder siebte Patient)

• geschichtete Zufallsstichproben (z.B. ziehe je eine Zufallsstichprobe aus der Gruppeder Männer und der Frauen)

• Klumpenstichprobe (z.B. Vollerhebung aller Tiere aus zufällig ausgewählten Herden).

• mehrstuge Auswahlverfahren

StudiendesignsQuerschnittstudie: mehrere Objekte werden zu einem Zeitpunkt beobachtet

Zeitreihe: ein Objekt wird zu mehreren Zeitpunkten beobachtet

Längsschnittstudie, Panel: mehrere Objekte und zwar immer die gleichen werdenzu mehreren Zeitpunkten beobachtet

8

Page 9: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

2. Deskriptive Statistik univariater Daten

In diesem Kapitel betrachten wir Merkmalsträger mit nur einem Merkmal.

Im nächsten Kapitel betrachten wir auch Merkmalsträger mit mehreren Merkmalen.

2.1. Verteilungen und ihre Darstellungen

HäugkeitsverteilungEin Merkmal X werde an n Untersuchungseinheiten beobachtet:

x1, . . . , xn︸ ︷︷ ︸sog. Urliste, Roh- oder Primärdaten

Problem: schon bei moderatem Stichprobenumfang unübersichtlich

Die dabei auftretenden verschiedenen Merkmalsausprägungen werden mit a1, . . . , ak be-zeichnet (k ≤ n)

h(aj) = hj absolute Häugkeit der Ausprägung ajd.h. Anzahl der xi aus x1, . . . , xn mit xi =aj

f(aj) = fj =hjn

relative Häugkeit von aj

h1, . . . , fk absolute Häugkeitsverteilungf1, . . . , fk relative Häugkeitsverteilung

Grasche Methoden für univariate DatenStabdiagramm: Trage über a1, . . . , ak jeweils einen zur x-Achse senkrechten Strich (Stab)mit Höhe h1, . . . , hk (oder f1, . . . , fk) ab.

Säulendiagramm: Wie Stabdiagramm, aber mit Rechtecken statt Strichen

Balkendiagramm: Wie Säulendiagramm, aber mit vertikal statt horizontal gelegter x-Achse

Kreisdiagramm: Flächen der Kreissektoren proportional zu den Häugkeiten: Winkel desKreissektors j : fj · 360

## Anzahl der Tiere je Wurf in 12 Würfen

x <- c("2" ,"2" ,"3" ,"3" ,"3" ,"4" ,"2" ,"5" ,"5" ,"4" ,"4" ,"3")

n <- length(x)

h <- table(x) ## absolute Haeufigkeitsverteilung

f <- h/n ## relative Haeufigkeitsverteilung

## Stabdiagramm

plot(h)

plot(h/n)

## Säulendiagramm

barplot(h)

barplot(h/n)

## Balkendiagramm

barplot(h, horiz=TRUE)

## Kreisdiagramm

pie(h)

9

Page 10: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Abbildung 1: Grasche Methoden zur Datenvisualisierung

Stamm-Blatt-Diagramm:Die Urliste wird bis auf Rundungen in einer dem Histogramm ähnlichen Darstellung re-produziert.Das Diagramm wird erzeugt mittels:

x <- c(2.46, 2.3, 3.1, 3.6, 3.8, 4.4, 2.7, 5.9, 5.9,

4.1, 4.4, 3.6)

10

Page 11: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

stem(x)

Das ausgegebene Diagramm ist:

2 | 357

3 | 1668

4 | 144

5 | 99

HistogrammFür gröÿere Datensätze besser geeignet:

Histogramme: Gruppiere die Daten in Klassen, bestehend aus benachbarten Intervallen[c0, c1), [c1, c2), . . . , [ck−1, ck) Zeichne über diesen Klassen Rechtecke mit:

Breite : dj = cj − cj−1

Höhe : gleich (oder proportional zu)hjdj

bzwfjdj

Fläche : gleich (oder proportional zu) hj bzw fjHistogramm ist so konstruiert, dass die dargestellten Flächen proportional zu den absolutenbzw. relativen Häugkeiten (Prinzip der Flächentreue).

Wähle, falls möglich, die Klassenbreiten d1, . . . , dk gleich.

Faustregeln für die Klassenzahl:

k = [√n] oder k = 2[

√n] oder k = [10 log10 n] . . .

oder nach subjektivem Empnden.

Hierbei ist [x] die gröÿte ganze Zahl kleiner gleich der reellen Zahl x.

## Normalverteilte Zufallszahlen

x <- rnorm (20)

## Stamm -Blatt -Diagramm

stem(x)

## Histogramm

hist(x)

hist(x, freq=FALSE)

## Empirische Verteilungsfunktion

F <- ecdf(x)

plot(F)

11

Page 12: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Abbildung 2: Weitere Methoden zur Datenvisualisierung

Viele empirische Verteilungen sind unimodal (eingipig), es sind aber auch bi- oder mul-timodale (zwei- oder mehrgipige) Verteilungen zu beobachten (z.B. bei geschichtetenDaten)

Symmetrische Verteilung

linkssteile oder rechtsschiefe Verteilungen

rechtssteile oder linksschiefe Verteilungen

Ist das betrachtete Merkmal ordinalskaliert, so lassen sich die beobachteten Ausprägungenordnen:

a1 < . . . < ak

Kumulierte HäugkeitsverteilungAbsolute kumulierte Häugkeitsverteilung:

∀x∈R

H(x) = Anzahl der Werte xi mit xi ≤ x

= h(a1) + . . .+ h(aj) =∑

i:ai≤x hi

Hierbei ist aj die gröÿte Ausprägung mit aj ≤ x (also ist aj+1 > x)

Empirische VerteilungsfunktionWichtiger: Relative kumutierte Häugkeitsverteilung oder empirische Verteilungsfunk-tion

F (x) =H(x)

n= relativer Anzahl der Werte xi mit xi ≤ x

= f(a1) + . . .+ f(aj) =∑

i : ai≤xfi

wobei aj ≤ x und aj+1 > x.

12

Page 13: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

2.2. Beschreibung von Verteilungen

2.2.1. Lagemaÿe

Gesucht sind Maÿzahlen oder Parameter von Verteilungen

Ein Lagemaÿ (im engeren Sinne) ist eine Abbildung L : Rn → R, falls

∀a∈R

∀x1,...,xn∈R

L(x1 + a, . . . , xn + a) = L(x1, . . . , xn) + a

Beispiele für Lagemaÿe:

Arithmetisches Mittel:

x =1

n(x1 + . . .+ xn) =

1

n

n∑i=1

xi

Für Häugkeitsdaten mit Ausprägungen a1, . . . , ak und relativen Häugkeiten f1, . . . , fkgilt

x = a1f1 + . . .+ akfk =k∑j=1

ajfj

(gewichtetes Mittel)Das arithmetische Mittel ist i.a. nur für quantitative Merkmale sinnvoll deniert.

Für das arithmetische Mittel giltn∑i=1

(xi − x) = 0 (Schwerpunkteigenschaft)

Stichprobe vom Umfang n, verteilt auf r Schichten mit jeweiligen Umfängen n1, . . . , nrund arith. Mitteln x1 . . . , xr, so gilt

x =1

n(n1x1 + . . .+ nrxr) =

1

n

r∑i=1

nixi

Beobachtung: arithmetische Mittel reagieren empndlich gegen Ausreiÿer, wohingegen derMedian ein robustes Lagemaÿ ist.

MedianUrliste x1, . . . , xn

geordnete Urliste x(1) ≤ . . . ≤ x(n)

Der (empirische) Median von x1, . . . , xn ist deniert durch

xmed =

x(n+1

2) für n ungerade

12(x(n

2) + x(n

2+1)) für n gerade

Denition sinnvoll für ordinale Merkmale (oder besser)

Eigenschaften des Medians:

Mindestens 50% der Daten sind

≤ xmed≥ xmed

Median häug einfacher zu interpretieren als das arithmetische Mittel

13

Page 14: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

ModusDer Modus von x1, . . . , xn ist deniert durch

xmod = Ausprägung mit gröÿter Häugkeit

Modus nur eindeutig, falls die Häugkeitsverteilung ein eindeutiges Maximum besitzt.

Denition schon für nominalskalierte Merkmale sinnvoll.

LageregelnSymetrische Verteilungen x ≈ xmed ≈ xmodLinkssteile Verteilungen x > xmed > xmodRechtssteile Verteilungen x < xmed < xmodIm Folgenden stellen wir noch weitere Maÿe für die Lage einer Verteilung vor, die jedochkeine Lageparameter im oben genannten Sinne sind

Zur Motivation ein Beispiel:Sei ri die Wachstumsrate einer Tierpopulation im i-ten JahrDann beträgt die Populationsgröÿe Pn im n-ten Jahr

Pn = P0(1 + r1) · . . . · (1 + rn)

= P0

n∏i=1

(1 + ri)

Geometrisches MittelDas geometrische Mittel zu den Faktoren x1, . . . , xn ist

xgeom = (x1 · . . . · xn)1n

Dann ist (n∏i=1

(1 + ri)

) 1n

der mittlere Wachstumsfaktor und(n∏i=1

(1 + ri)

) 1n

− 1

die mittlere Wachstumsrate.

Da xgeom ≤ x täuscht x statt xgeom überhöhte Wachstumsraten vor.

Harmonisches MittelDas harmonische Mittel

xharm =1

1n

∑ni=1

1xi

ist z.B. zur Ermittlung der Durchschnittsgeschwindigkeit geeignet.

14

Page 15: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

2.2.2. Quantile und Box-Plot

Jeder Wert xp mit 0 < p < 1, für den mindestens ein Anteil p der Daten ≤ xp undmindestens ein Anteil 1−p der Daten≥ xp ist, heiÿt (empirisches) p-Quantil der Stichprobe.Damit gilt für das p-Quantil:

xp = x([np]+1), wenn np nicht ganzzahlig

xp ∈ [x(np), x(np+1)], wenn np ganzzahlig

Dabei ist [np] die gröÿte ganze Zahl mit ≤ npSpeziell:

• x0.25 = 25%-Quantil = unteres Quartil

• x0.5 = 50%-Quantil = Median

• x0.75 = 75%-Quantil = oberes Quartil

Abbildung 3: Darstellung der Quantile (Quellcode auf S.141)

Interquartilsabstand:dQ = x0.75 − x0.25

5-Punkte-Zusammenfassung einer Verteilung:

xmin, x0.25, xmed, x0.75, xmax

Grasche Darstellung der 5-Punkte-Zusammenfassung einer Verteilung mittels eines Box-Plots

15

Page 16: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Abbildung 4: Box-Plot (Quellcode auf S.141)

x <- airquality$Ozone

x

quantile(x,probs=c(0.25 ,0.75)) ## 25%- und 75%- Quantil

summary(x) ## 5-Punkte -Zusammenfassung einer Verteilung

boxplot(x)

2.2.3. Streuungsmaÿe

Ein Streuungsmaÿ (im engeren Sinne) ist eine Abbildung S : Rn → R, für die

∀a∈R

∀x1,...,xn

S(x1 + a, . . . , xn + a) = S(x1, . . . , xn)

Beispiele für Streuungsmaÿe:

• Stichprobenspannweite x(n) − x(1)

• Interquartilsabstand dQ = x0.75 − x0.25

• Standardabweichung s

wobei

s2 =1

n(x1 − x)2 + . . .+ (xn − x)2 =

1

n

n∑i=1

(xi − x)2

die sog. empirische Varianz der Stichprobe.Beachte: s ist nur für metrische Merkmale deniert!Im Falle von Häugkeitsdaten gilt:

s2 = (a1 − x)2f1 + . . .+ (ak − x)2fk =k∑j=1

(aj − x)2fj

Häug wird statt der empirischen Varianz s2 auch die Stichprobenvarianz

s2 =1

n− 1

n∑i=1

(xi − x)2

verwendet.Da

∑(xi − x) = 0, ist (xn − x) bereits durch die ersten (n− 1) Abweichungen festgelegt.

(n− 1) ist deshalb auch die Anzahl der Freiheitsgrade.

16

Page 17: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Verschiebungssatz:

∀i∈R

n∑i=1

(xi − c)2 =n∑i=1

(xi − x)2 + n(x− c)2

Für c = 0 folgt die praktische Darstellung

s2 =

1

n

n∑i=1

x2i

− x2

Bei linearer Transformation der Daten xi zu yi = a+ bxi folgt der Transformationssatz

s2y = b2s2

x bzw. sy = |b|sx

Standardabweichung und Varianz sind sehr empndlich gegen Ausreiÿer. Robuste Alter-nativen:Mittlere absolute Abweichung vom Median

1

n

n∑i=1

|xi − x0.5|

Mediane absolute Abweichung vom Median

Median von |x1 − x0.5|, . . . , |xn − x0.5|

Ein Streumaÿ im weiteren Sinne ist der Variationskoezient

v =s

x

welcher für Merkmale mit nichtnegativen Ausprägungen und positivem arithmetischemMittel sinnvoll deniert ist.Der Variationskoezient liefert ein maÿstabsunabhängiges Streumaÿ.

max(x)-min(x) ## Stichprobenspannweite

iqr(x) ## Interquartilsabstand

sd(x) ## Standardabweichung (mit Nenner n-1)

var(x) ## Stichprobenvarianz (mit Nenner n-1)

var(x+10) ## Verschiebungsinvarianz der Varianz

mean(abs(x-median(x))) ## mittlere Abweichung vom Median

sd(x)/mean(x) ## Variationskoeffizient

2.2.4. Maÿzahlen für Schiefe und Wölbung

Verteilungen können sich nicht nur hinsichtlich Lage und Schiefe, sondern auch in Bezugauf Symmetrie oder Schiefe und durch ihre Wölbung (Kurtosis) unterscheiden.(Empirischer) Quantilskoezient der Schiefe:

gp =(x1−p − xmed)− (xmed − xp)

x1−p − xpfür ein festes p ∈ (0, 0.5)

Für p = 0.25 erhält man den Quartilskoezienten.

17

Page 18: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Bei symmetrischen Verteilungen gilt gp ≈ 0linkssteilen gp > 0rechtssteilen gp < 0

Der Nenner in gp stellt sicher, dass −1 ≤ gp ≤ 1.Quantilskoezienten sind robust im Gegensatz zum Momentenkoezient der Schiefe:

gm =m3

s3mit m3 =

1

n

n∑i=1

(xi − x)3

Interpretation wie beim Quantilskoezienten.Division mit s3 macht gm maÿstabsunabhängig.

Wölbungsmaÿ von FisherDas (empirische) Wölbungsmaÿ von Fisher ist deniert durch

γ =m4

s4− 3 mit m4 =

1

n

n∑i=1

(xi − x)4

Bei Normalverteilung gilt γ ≈ 0bei spitzeren Verteilungen gilt γ > 0bei acheren Verteilungen gilt γ < 0

## Herzgewicht von Katzen

library(MASS)

help(cats)

attach(cats) ## ab jetzt Spalten direkt ansprechen

hist(Hwt); density(Hwt)

q12 <- quantile(Hwt ,c(0.25 ,0.75))

names(q12) <- NULL ## Kosmetik

dQ <- q12[2]-q12 [1] ## Interquartilsabstand

## Quartilskoeeffizient für die Schiefe

m <- median(Hwt)

((q12[2]-m)-(m-q12 [1]))/ dQ

## Momentenkoeffizient für die Schiefe

m3 <- mean((Hwt -mean(Hwt ))^3)

m3/sd(Hwt)^3 ## Daten linkssteil

## Wölbungsmaÿ von Fisher

m4 <- mean((Hwt -mean(Hwt ))^4)

m4/sd(Hwt)^4-3 ## Daten spitzer als Normalverteilung

2.3. Dichtekurven und Normalverteilung

Zur Darstellung der Verteilung eines metrischen Merkmals kann z.B. die empirische Ver-teilungsfunktion oder instruktiver das Histogramm verwendet werden.

18

Page 19: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Abbildung 5: Empirische Verteilungsfunktion (Quellcode auf S.142)

Nachteil: selbst bei stetigen Merkmalen ist das Histogramm eine Treppenfunktion, die u.U.groÿe Sprünge ausweist.

Deshalb: Approximiere das Histogramm durch eine stetige Dichtefunktion.Eine stetige Funktion f ist eine Dichte(kurve), wenn f(x) ≥ 0 und

∫R f(x)dx = 1

Für p ∈ (0, 1) ist xp das p-Quantil der Dichte f , falls

p =

∫ xp

−∞f(x)dx

(und 1− p =

∫ ∞xp

f(x)dx

)

Dichte der NormalverteilungWichtiges Beispiel einer Dichtekurve:

Dichte der Normalverteilung

f(x|µ, σ) =1

σ√

2πexp

(−1

2

(x− µσ

)2), x ∈ R

µ ∈ R heiÿt Mittelwert, σ > 0 Standardabweichung von f(x|µ, σ)(genaue Denitionen dieser beiden Begrie später)Viele in der Anwedung auftretende Verteilungen können unter Verwendung einer Normal-verteilung gut approximiert werden.

19

Page 20: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Sind x1, . . . , xn Beobachtungen eines solchen Merkmals, so wird µ durch x und σ durch sapproximiert.Ist f die Dichtekurve einer normalverteilten Variablen X mit Mittelwert µ und Standard-abweichung σ, dann besitzt die standardisierte Variable

Z =X − µσ

die Dichtekurve einer Normalverteilung mit µ = 0 und σ = 1

Diese Normalverteilung heiÿt Standardnormalverteilung und die Variable Z entspre-chend standardnormalverteilt.Die zugehörige Dichtekurve wird mit φ bezeichnet, also

φ(z) =1√2π

exp

(−z

2

2

)Quantile der Standardnormalverteilung ndet man in Tabellen oder mittels Statistiksoft-ware.Quantile xp einer Normalverteilung mit Mittelwert µ und Varianz σ stehen mit den denQuantilen zp der Standardnormalverteilung über die lineare Transformation

xp = µ+ σzp

in Beziehung.

Daraus ergibt sich die 3-σ-Regel für normalverteilte Merkmale:

68% der Beobachtungen liegen im Intervall µ± σ95% der Beobachtungen liegen im Intervall µ± 2σ

99, 7% der Beobachtungen liegen im Intervall µ± 3σ

Normal-Quantil-PlotsStatt die Häugkeitsverteilung der Beobachtungen einer Variablen X direkt mit einer Nor-malverteilung zu vergleichen, werden bei Normal-Quantil-Plots die Quantile der Häug-keitsverteilung mit den entsprechenden Quantilen der Standardnormalverteilung vergli-chen:

x(1), . . . , x(n) geordnete Stichprobez(1), . . . , z(n)

1n -Quantil, . . . ,

nn -Quantil oder besser

1−0,5n -Quantil, . . . , n−0,5

n -Quantil derStandardnormalverteilung

Der Normal-Quantil-Plot besteht aus den Punkten

(z(1), x(1)), . . . , (z(n), x(n))

im z-x-Koordinatensystem.Ist die empirische Verteilung der Beobachtung approximativ standard-normalverteilt, lie-gen die Punkte (z(i), x(i)) des NQ-Plots nahe an oder auf der Winkelhalbierenden z = x

## Erzeugung normalverteilter (Pseudo -) Zufallszahlen

x <- rnorm (100, mean=2, sd=2)

plot(ecdf(x),verticals=TRUE)

hist(x,freq=FALSE)

20

Page 21: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

rug(x)

## Standardisieren

z <- (x-mean(x))/sd(x)

hist(z,freq=FALSE)

## Hinzufügen der Dichtekurve einer N(0,1)- Verteilung

g <- seq(-3,3,by =0.01)

lines(g,dnorm(g),col="blue")

## Normal -Quantil -Plot

qqnorm(x)

qqline(x)

21

Page 22: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

3. Deskriptive Statistik multivariater Daten

In diesem Abschnitt stellen wir grasche und rechnerische Methoden zur Darstellung multi-variater Daten vor. Insbesondere geht es um die Frage, wie eventuelle Zusammenhänge vonMerkmalen erkannt werden können. Gemäÿ dem deskriptive Ansatz können wir diese Fragehier nur recht vorläug beantworten. Erst unter Verwendung von wahrscheinlichkeitstheo-retischen Methoden kann im Rahmen der induktiven Statistik diese Frage zufriedenstellendgelöst werden.

3.1. Diskrete multivariate Daten

Eine Sonntagsfrage lieferte folgende Häugkeitstabelle oder Kontigenztafel:

CDU/CSU SPD FDP Grüne RestMänner 144 153 17 26 95 435Frauen 200 145 30 50 71 496

344 298 47 76 166 931

Besteht ein Zusammenhang zwischen dem Geschlecht X und der Parteipräferenz Y ?

Kontingenztafel der absoluten Häugkeitena1 . . . , ak Merkmalswerte der Variablen Xb1, . . . , bm Merkmalswerte der Variablen Y

(k ×m)-Kontingenztafel der absoluten Häugkeiten

Yb1 . . . bm

a1 h11 . . . h1m h1·

X...

......

...ak hk1 . . . hkm hk·

h·1 . . . h·m n

hij = h(ai, bj) absolute Häugkeit der Kombination (ai, bj)h1·, . . . , hk· Randhäugkeiten der Variablen X (Zeilensummen)h·1, . . . , h·m Randhäugkeiten der Variablen Y (Spaltensummen)n Stichprobenumfang

Kontingenztafel der relativen Häugkeiten(k ×m)-Kontingenztafel der relativen Häugkeiten

Yb1 . . . bm

a1 f11 . . . f1m f1·

X...

......

...ak fk1 . . . fkm fk·

f·1 . . . f·m 1

22

Page 23: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

fij =hijn relative Häugkeit der Kombination (ai, bj)

fi· =∑m

j=1 fij = hi·n relative Randhäugkeiten der Variablen X

(Zeilensummen)

f·j =∑k

i=1 fij =f·jn relative Randhäugkeiten der Variablen Y

(Spaltensummen)

Grasche Darstellung von (k ×m)-Kontingenztafeln

• Säulendiagramm Säulenhöhe proportional zu hij bzw. fij

• Mosaikplot Flächeninhalt der Rechtecke proportional zu hij bzw. fij

h <- matrix(c(144 ,153 ,17 ,26 ,95 ,200 ,145 ,30 ,50 ,71) ,

nrow=2,byrow=TRUE); h

f <- h/sum(h)

f

dimnames(h)[[1]] <- c(" Männer","Frauen ")

dimnames(h)[[2]] <- c("CDU/CSU","SPD","FDP","Grüne","Rest")

h

barplot(h,beside=TRUE)

mosaicplot(h,col=c("black","red","yellow","green","gray "))

Zusammenhangsanalyse in KontingenztafelnWie kann ein Zusammenhang von nominalen Merkmalen quantiziert werden?

Yb1 . . . bm

a1 h11 . . . h1m h1·

X...

......

...ak hk1 . . . hkm hk·

h·1 . . . h·m n

Sind die beiden Merkmale X und Y unabhängig, würde man erwarten, dass die Spaltenproportional proportional zur Spalte der Zeilensummen sind.Also:

∀j∈1,...,m

h1j...hkj

≈ proportional zu

h1·...hk·

oder äquivalent

∀j∈1,...,m

h1j/h·j...

hkj/h·j

≈ proportional zu

h1·/n...

hk·/n

Denn dann wäre die Verteilung von X unabhängig von der Ausprägung Y = bj·Kurz:

∀i,j

hij ≈hi· · h·jn

23

Page 24: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Wir bezeichnen jetzt mit

hij die beobachteten Häugkeiten

hij =hi··h·jn die Häugkeiten, die zu erwarten sind, wenn kein

Zusammenhang zwischen den MerkmalenX undY vorliegt

Der sog. χ2-Koezient ist deniert durch

χ2 =k∑i=1

m∑j=1

(hij − hij)2

hij∈ [0,∞)

und dient zur Messung der Diskrepanz zwischen der beobachteten Verteilung und derVerteilung, die man bei Unabhängigkeit der beiden Merkmale erwarten würde.

Der Nenner dient zur Normierung.Zur Interpretation des χ2-Koezienten:

Hängen X und Y voneinander ab, sollte χ2 groÿ sein.Hängen X und Y nicht voneinander ab, sollte χ2 nahe bei Null sein.

Erst die induktive Statistik stellt Methoden zur Verfügung, um zu entscheiden, ob diebeobachteten Daten Anlass geben, an der Unabhängigkeit der Merkmale X und Y zuzweifeln.

h <- matrix(c(144 ,153 ,17 ,26 ,95 ,200 ,145 ,30 ,50 ,71) ,

nrow=2,byrow=TRUE); h

f <- h/sum(h); f

dimnames(h)[[1]] <- c(" Männer","Frauen ")

dimnames(h)[[2]] <- c("CDU/CSU","SPD","FDP","Grüne","Rest")

h

z.sum <- apply(h,1,sum) # Zeilensummen; z.sum

s.sum <- apply(h,2,sum) # Spaltensummen; s.sum

n <- sum(h)

htilde <- z.sum %*% t(s.sum)/n # erw. Häufigkeiten bei Unabh.

htilde

chisquare.coeff <- sum((h-htilde )^2/ htilde) # chi^2-Koeff.

chisquare.coeff

3.2. Quantitative multivariate Merkmale

Zur Untersuchung quantitativer multivariater Daten sind die im letzten Abschnitt vorge-stellten Methoden zur Untersuchung qualitativer multivariater Daten meist ungeeignet.

3.2.1. Grasche Darstellungen quantitativer Merkmale

Für bivariate Daten:

• Streudiagramme

• 2-dimensionale Histogramme und Dichten

Für multivariate Daten:

24

Page 25: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

• Matrix von Streudiagrammen

• Matrix von 2-dimensionalen Histogrammen und Dichten

pairs(trees)

3.2.2. Zusammenhangsmaÿe bei quantitativen Merkmalen

Der Bravais-Pearson-Korrelationskoezient zur Stichprobe (x1, y1), . . . , (xn, yn) istdeniert durch

r =

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2√∑n

i=1(yi − y)2∈ [−1, 1]

Der Bravais-Pearson-Korrelationskoezient ist ein Maÿ für die Stärke des linearen Zu-

sammenhangs zweier metrischer Merkmale.

r > 0 positive Korrelation, gleichsinniger linearerZusammenhang

r < 0 negative Korrelation, gegensinniger linearerZusammenhang

r = 0 keine Korrelation, kein linearer Zusammenhang|r| < 0.5 schwache Korrelation0.5 < |r| < 0.8 mittlere Korrelation0.8 < |r| starke Korrelation

BeispielObwohl der Bravais-Pearson-Koezient nur für metrische Variablen deniert ist, liefert erauch für dichotome, d.h. binäre, Variablen X und Y ein sinnvolles Ergebnis, falls man 0und 1 als Kodierung für die Merkmalsvariable verwendet. Damit lassen sich die Ergebnissein einer (2× 2)-Tabelle zusammenfassen:

Y0 1

X0 h11 h12 h1·1 h21 h22 h2·

h·1 h·2 n

BemerkungIn diesem Fall besteht ein Zusammenhang mit dem χ2-Koezienten für Häugkeitstabel-len:

r =h11h22 − h12h21√

h1·h2·h·1h·2=

√χ2

n

Korrelationskoezient von SpearmanStichprobe x1, ..., xn Geordnete Stichprobe x(1), ..., x(n)

Der Rang rg(xi) von xi ist deniert als die Position von xi in der geordneten Stichprobe.Es gilt also:

rg(x(i)) = i

25

Page 26: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Beispiel:Stichprobe 4, 2, 5, 0geordnete Stichprobe 0, 2, 4, 5Ränge der Stichprobe 3, 2, 4, 1Ränge der geordneten Stichprobe 1, 2, 3, 4

Korrelationskoezient von SpearmanTreten gewisse Werte mehrfach in der Stichprobe auf, verwendet man den mittlerenRang:

Stichprobe 4, 3, 2, 3, 5geordnete Stichprobe 2, 3, 3, 4, 5Ränge 1, 2.5, 2.5, 4, 5

Ersetzt man im Korrelationskoezienten von Bravais-Pearson die X- und Y-Werte durchihre Ränge und x und y durch die Mittelwerte der Ränge (= n+1

2 ), so erhält man denKorrelationskoezient von Spearman:

rsp =

∑ni=1

(rg(xi)− n+1

2

)·(rg(yi)− n+1

2

)√∑ni=1

(rg(xi)− n+1

2

)2 ·√∑ni=1

(rg(yi)− n+1

2

)2 ∈ [−1, 1]

Korrelationskoezient von SpearmanDer Korrelationskoezient von Spearman ist ein Maÿ für die Stärke des monotonenZusammenhangs zweier ordinaler Merkmale.

rsp > 0 gleichsinniger monotoner Zusammenhangrsp < 0 gegensinniger monotoner Zusammenhangrsp = 0 kein monotoner Zusammenhang

Der Spearmansche Korrelationskoezient eignet sich oensichtlich auch für Messungen, dienur als Rangreihen vorliegen. Beispiel: Vergleich zweier Weinkenner, die zehn Weinprobender Qualität nach ordnen.

InvarianzeigenschaftenWerden die ursprünglichen Merkmale x und y linear transformiert, so bleibt der Korrela-tionskoezient von Bravais-Pearson (betragsmäÿig) invariant.

Werden die ursprünglichen Merkmale x und y mittels zweier streng monotoner (wachsenderoder fallender) Transformationen transformiert, so bleibt der Korrelationskoezient vonSpearman-Korrelation (betragsmäÿig) invariant.

Korrelation und KausalitätKorrelation ist ein Maÿ für die Stärke des Zusammenhangs zwischen x und y. Über dieRichtung der Wirkung falls überhaupt vorhanden kann damit prinzipiell keine Aus-sage getroen werden.

Probleme

26

Page 27: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

• Scheinkorrelation: Eine hohe Korrelation zweier Merkmale x und y entsteht da-durch, dass x und y über ein drittes Merkmal hoch korreliert sind. Beispiel: Gesund-heitszustand ∼ Abstand zur Hochspannungsleitung

• Verdeckte Korrelation: Obwohl keine statistische Korrelation berechnet wurde,besteht sachlich eine eindeutige Korrelation. Beispiel: Blutdrucksenkung und Dosie-rung

Beispiel

Abbildung 6: Blutdrucksenkung und Dosierung (Quellcode auf S.142)

help(trees)

attach(trees)

## Scatterplot -Matrix

pairs(trees)

## Korrelation zweier Merkmale

cor(Girth , Volume , method =" pearson ")

cor(Girth , Volume , method =" spearman ")

## Korrelations -Matrizen

cor(trees , method =" pearson ")

cor(trees , method =" spearman ")

3.2.3. Lineare Regression

Problem: Gesucht ist eine Funktion f : R → R, welche das metrische Merkmal Y inAbhängigkeit des Merkmals X beschreibt.

Y = f(X)

Im Allgemeinen existiert jedoch kein solch klarer Zusammenhang. Deshalb: Suche f so,dass obiger Zusammenhang nur ungefähr erfüllt ist:

Y = f(X) + ε

27

Page 28: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

mit einem Fehlerterm ε, wobei ein möglichst groÿer Anteil der Variabilität von Y durchf erklärt werden soll.Ein solches Modell heiÿt Regressionsmodell.

Bei einem linearen Regressionsmodell nimmt man

f(X) = α+ βX

an.

Für eine Stichprobe (x1, y1), . . . , (xn, yn) sind also ein y-Achsenabschnitt α und eine Stei-gung β gesucht, so dass

yi = α+ βxi︸ ︷︷ ︸yi

+εi

mit möglichst kleinen Fehlern (Residuen) εi.

Methode der kleinsten QuadrateWähle α und β so, dass

Q(α, β) =1

n

n∑i=1

ε2i

=1

n

n∑i=1

(yi − yi)2

=1

n

n∑i=1

(yi − (α+ βxi))2

minimal.Ermittle die Kleinste-Quadrate-Schätzer α und β von α bzw. β als Nullstellen der partiellenAbleitung von Q nach α und β:

∂Q(α, β)

∂α= − 2

n

n∑i=1

(yi − (α+ βxi))!

= 0 (1)

∂Q(α, β)

∂β= − 2

n

n∑i=1

(yi − (α+ βxi))xi!

= 0 (2)

(sog. Normalengleichungen).Also

1

n

n∑i=1

yi − α−1

n∑i=1

xi = 0 (3)

1

n

n∑i=1

yixi −1

n∑i=1

xi −1

n∑i=1

x2i = 0 (4)

Aus (3):α = y − βx

28

Page 29: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Eingesetzt in (4):

1

n

n∑i=1

yixi −1

ny

n∑i=1

xi +1

nβx

n∑i=1

xi −1

n∑i=1

x2i = 0

Dies ist äquivalent zu

1

n

n∑i=1

yixi − yx =1

(n∑i=1

x2i − nx2

)Also

β =

∑ni=1 yixi − yx∑ni=1 x

2i − nx2

=1n

∑ni=1(xi − x)(yi − y)

1n

∑ni=1(xi − x)2

=sxys2x

Bestimmtheitsmaÿ und ResidualanalyseZerlegung der Gesamtstreuung (sum of squares total)

SQT =n∑i=1

(yi − y)2

=n∑i=1

(yi − yi + yi − y)2

=n∑i=1

(yi − yi)2 +n∑i=1

(yi − y)2 + 2n∑i=1

(yi − yi)(yi − y)︸ ︷︷ ︸= 0 mit (1) und (2)

= SQR+ SQE

in die Residualstreuung (sum of squares residual) unddie erklärte Streuung (sum of squares explained).Der dritte Term ist gleich Null, da

n∑i=1

(yi − yi)y = y

n∑i=1

(yi − yi) = 0 mit (1)

n∑i=1

(yi − yi)yi =

n∑i=1

(yi − yi)α+

n∑i=1

(yi − yi)βxi

= α

n∑i=1

(yi − yi)︸ ︷︷ ︸= 0 mit (1)

n∑i=1

(yi − yi)xi︸ ︷︷ ︸= 0 mit (2)

Das Bestimmtheitsmaÿ

R2 =SQE

SQT=

∑ni=1(yi − y)2∑ni=1(yi − y)2

∈ [0, 1]

gibt den relativen Anteil der erklärten Streuung an der Gesamtstreuung an.

Beziehung zum Korrelationskoezienten:

R2 = r2xy

29

Page 30: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Begründung: Es gilt

¯y =1

n

n∑i=1

yi =1

n

n∑i=1

(α+ βxi) = α+ βx

= (y − βx) + βx mit (3)

= y

daraus

n∑i=1

(yi − y)2 =

n∑i=1

(yi − ¯y)2

=

n∑i=1

(α+ βxi − α− βx)2

= β2n∑i=1

(xi − x)2

und schlieÿlich

R2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

=β2∑n

i=1(xi − x)2∑ni=1(yi − y)2

=s2xy s

2x

(s2x)2 s2

y

=

(sxysxsy

)2

= r2xy

Je näher R2 bei 1 liegt, umso besser ist die Modellanpassung.

Graphische Methode zur Überprüfung der ModellanpassungResidualplots (xi, εi) : i ∈ 1, . . . , n eignen sich zur Untersuchung der Frage, ob

• die Daten durch ein lineares Modell hinreichend gut erklärt werden können

• die Residuen von der erklärenden Variablen abhängen

• eine Transformation einer Variablen sinnvoll sein könnte

• Ausreiÿer vorliegen

3.2.4. R Beispiel

attach(trees)

## Lineare Regression

plot(Volume~Girth ,ylim=c(0 ,80))

mymodel <- lm(Volume~Girth)

mymodel

abline(mymodel)

## Bestimmtheitskoeffizient

summary(mymodel)$r.squared

## Residualanalyse

30

Page 31: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

plot(Girth ,mymodel$residuals)

abline(h=0)

## In im folgenden Fall ist das lineare Modell ungeeignet

plot(Girth~Height)

mymodel <- lm(Girth~Height)

mymodel

summary(mymodel)$r.squared

plot(Girth ,mymodel$residuals)

abline(h=0)

Abbildung 7: Beispiel mit trees Datensatz

31

Page 32: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Teil II.

Wahrscheinlichkeitstheorie

32

Page 33: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

4. Wahrscheinlichkeitsrechnung

WahrscheinlichkeitsrechnungProblem der Generalisierung: Besteht eine oensichtliche Korrelation zweier Merkmale(oder eine andere Eigenschaft) nur zufällig in der Stichprobe oder aber auch mit hoherSicherheit in der Gesamtpopulation?

Dieses Problem kann nur gelöst werden, wenn man in der Lage ist, zufälligen Ereignisseneine Wahrscheinlichkeit zuzuweisen.

4.1. Denition und Begri der Wahrscheinlichkeit

Ein Zufallsvorgang führt zu einem von mehreren sich gegenseitig ausschlieÿenden Er-eignissen. Es ist vor der Durchführung ungewiss, welches Ergebnis tatsächlich eintretenwird.

Der Ergebnisraum oder Stichprobenraum Ω ist die Menge aller Ergebnisse ω des Zu-fallsvorgangs.

Teilmengen von Ω heiÿen (Zufalls-) Ereignisse. Die einelementigen Teilmengen ω von Ωwerden als Elementarereignisse bezeichnet.

Denition und Begri der WahrscheinlichkeitSei A ⊂ Ω ein Ereignis. Das Ergebnis ω ∈ Ω werde beobachtet.

• Falls ω ∈ A, so sagt man, dass das Ereignis A eintritt.

• Falls ω ∈ A, so sagt man A tritt nicht ein.

• Falls A = ∅, ist A das unmögliche Ereignis

• Falls A = Ω, ist A das sichere Ereignis

A = Ω \ A ist das Ereignis, dass A nicht eintritt. A ∪ B ist das Ereignis, dass A oder Beintritt (im nichtexklusiven Sinne). A ∩B ist das Ereignis, dass A und B eintritt.

Denition und Begri der WahrscheinlichkeitBeispiel: Einmaliges Werfen eines Würfels.

Ω = 1, 2, 3, 4, 5, 6 Grundraum, gleichzeitig das sichere EreignisA = 2, 4, 6 Ereignis, dass eine gerade Zahl geworfen wirdB = 1, 2 Ereignis, dass eine Zahl ≤ 2 geworfen wirdA ∩ B = 4, 6 Ereignis, dass eine gerade Zahl ≥ 3 geworfen wird

Denition und Begri der WahrscheinlichkeitUm den unsicheren Ausgang eines Zufallsvorganges zu bewerten, ordnet man jedem Ereig-nis A ⊂ Ω eine reelle Zahl ∈ [0, 1] zu:

P : A : A ⊂ Ω → [0, 1]

A 7→ P (A)

33

Page 34: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

P (A) heiÿt Wahrscheinlichkeit des Ereignisses A.

Diese Abbildung P, das sog. Wahrscheinlichkeitsmaÿ, muss die Axiome von Kolmo-gorov erfüllen (hier für Ω endlich)(K1) P (A) ≥ 0(K2) P (Ω) = 1(K3) Falls A ∩B = ∅, dann gilt P (A ∪B) = P (A) + P (B)

Diese Axiome werden motiviert durch die Eigenschaften relativer Häugkeiten, die zurInterpretation der Wahrscheinlichkeit herangezogen werden.

BeispielBeispiel: n-malige unabhängige Wiederholung eines Würfelexperiments, das den Ergeb-nissraum Ω = 1, ..., 6 besitzt.

fi relative Häugkeit, dass die Zahl i oben liegt

A = eine Zahl ≤ 3 liegt oben = 1, 2, 3f(A) relative Häugkeit des Eintretens von Ereignis A

f(A) = f1 + f2 + f3

BeispielOder für allgemeines A ⊂ Ω:

f(A) =∑i∈A

fi︸︷︷︸≥0

∈ [0, 1]

f(Ω) = 1

Für wachsendes n erwarten wir, dass sich f(A) bei einem gewissen Wert stabilisiert (empi-risches Gesetz der groÿen Zahlen). Dieser Wert wird als Wahrscheinlichkeit P (A) des Ein-tretens von A angesehen (frequentistische oder objektivistische Interpretation des Wahr-scheinlichkeitsbegris).

Rechenregeln für Wahrscheinlichkeiten

1. 0 ≤ P (A) ≤ 1 für alle A ⊂ Ω

2. P (∅) = 0

3. P (A) ≤ P (B) falls A ⊂ B und A,B ⊂ Ω

4. P (A) = 1− P (A) mit A = Ω \A

5. P (A1∪ ...∪An) = P (A1)+ ...+P (An) falls A1, ..., An paarweise disjunkt und Ai ⊂ Ω

6. P (A ∪B) = P (A) + P (B)− P (A ∩B) für beliebige A,B ⊂ Ω

34

Page 35: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

4.2. Laplace-Experimente

Bei manchen Zufallsexperimenten mit endlichem Grundraum (also Ω = 1, ..., N) ist essinnvoll davon auszugehen, dass alle Elementarereignisse dieselbe Wahrscheinlichkeit, diesog. Laplace-Wahrscheinlichkeit, besitzen:

P (j) = pj =1

N=

1

|Ω|für alle j ∈ 1, ..., N

Unter Verwendung der 5. Rechenregel folgt für jedes Ereignis A in einem Laplace-Experiment

P (A) =∑j∈A

P (j) =|A||Ω|

=Anzahl der für A günstigen ErgebnisseAnzahl aller möglichen Ergebnisse

Achtung: Es gibt viele Zusallsexperimente, in denen die Elementarereignisse nicht gleich-wahrscheinlich sind.

Laplace-ExperimenteBeispiel: Wie groÿ ist die Wahrscheinlichkeit bei dreimaligem Münzwurf mindestenseinmal Wappen zu erzielen.

Ergebnisraum: Ω = (W,W,W ), (W,W,Z), ..., (Z,Z,Z) |Ω| = 8

∀ω∈Ω

P (ω) =1

|Ω|=

1

8

A = mindestens einmal Wappen, |A| = 7. Also

P (A) =|A||Ω|

=7

8

A = keinmal Wappen, |A| = 1. Also

P (A) = 1− P (A) = 1− 7

8=

1

8

4.3. Kombinatorik

Modell: N Kugeln mit Nummern 1,...,N benden sich in einer Urne. Ziehe in zufälligerWeise n Kugeln, entweder mit oder ohne Zurücklegen.

Ergebnis: geordnetes n-Tupel (E1, ..., En) mit Ei ∈ G = 1, ..., N.

Besitzt jede dieser Stichproben vom Umfang n dieselbe Wahrscheinlichkeit, so spricht manvon einer einfachen Stichprobe.

Aufgabe: Bestimme diese Wahrscheinlichkeit

35

Page 36: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

4.3.1. Modell mit Zurücklegen

Bei einer Ziehung mit Zurücklegen aus einer Grundgesamtheit vom Umfang N ist dieAnzahl der möglichen Stichproben vom Umfang n gegeben als:

N ·N · ... ·N︸ ︷︷ ︸n−mal

= Nn

4.3.2. Modell ohne Zurücklegen

Bei einer Ziehung ohne Zurücklegen aus einer Grundgesamtheit vom Umfang N ist dieAnzahl der möglichen Stichproben vom Umfang n gegeben als:

N · (N − 1) · ... · (N − n+ 1)︸ ︷︷ ︸n−Faktoren

=N · (N − 1) · ... · 1

(N − n) · ... · 1

=N !

(N − n)!

4.3.3. Permutation

Werden alle N Kugeln aus der Urne ohne Zurücklegen gezogen und gemäÿ der Reihenfolgedes Ziehens angeordnet, so ist (E1, ..., EN ) eine Permutation der Nummern 1, ..., N.

Bei N unterscheidbaren Objekten gibt es

N · (N − 1) · · · · · 1 = N !

verschiedene Permutationen.

4.3.4. Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge

Bei einer Ziehung ohne Zurücklegen aus einer Grundgesamtheit vom Umfang N ist dieAnzahl der möglichen Stichproben vom Umfang n bei Nichtbeachten der Reihenfolge:

N · (N − 1) · ... · (N − n+ 1)

n!=

N · (N − 1) · ... · 1n!(N − n)!

=

(N

n

)(Nn

)heiÿt Binomialkoezient und es gilt:(

N

0

)= 1,

(N

N

)= 1,

(N

1

)= N,

(N

n

)= 1, falls N < n

36

Page 37: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

BeispielZiehung der Lottozahlen

Anzahl der Möglichkeiten 6 Zahlen aus 49 Zahlen zu ziehen, wobei die Reihenfolge nichtbeachtet wird, (

49

6

)=

49!

43!6!= 13983816

Alle diese(

496

)Zahlen können als gleichwahrscheinliche Elementarereignisse angesehen wer-

den. Damit

P (6 Richtige) =Anzahl der günstigen ErgebnisseAnzahl der möglichen Ergebnisse

=1

13983816= 0.000000072

4.3.5. Modell mit Zurücklegen und ohne Berücksichtigung der Reihenfolge

Bei einer Ziehung mit Zurücklegen aus einer Grundgesamtheit vom Umfang N ist die An-zahl der möglichen Stichprobem vom Umfang n bei Nichtbeachten der Reihenfolge gegebendurch: (

N + n− 1

n

)Begründung: Durch N − 1 Trennzeichen können N verschiedene Zellen voneinander abge-grenzt werden. Auf diese N Zellen werden insgesamt n Kreuze verteilt, wobei Mehrfach-besetzungen erlaubt sind. Die Anzahl der Kreuze gibt an, wieviele Kugeln vom Typ Ei inZelle i liegen, z.B.

×|| × ×| × | . . . | × ×|

Die Anzahl solcher Aufteilungen der n Kreuze ist(N+n−1

n

).

Übersichtohne Zurücklegen mit Zurücklegen

mit Berücksichtigender Reihenfolge

N !(N−n)! Nn

ohne Berücksichtigender Reihenfolge

(Nn

) (N+n−1

n

)

4.4. Bedingte Wahrscheinlichkeiten

Analog zum (empirischen) Begri der bedingten relativen Häugkeit denieren wir den(theoretischen) Begri der bedingten Wahrscheinlichkeit eines Ereignisses A gegeben einEreignis B.Beispiel: einmaliges Werfen eines Würfels

A Ereignis, dass Augenzahl geradeB Ereignis, dass Augenzahl ≤ 3

P (A) =3

6=

1

2

37

Page 38: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Wie groÿ ist die Wahrscheinlichkeit von A, wenn bekannt ist, dass Augenzahl ≤ 3?

P (A|B) =Anzahl der für A und B günstigen Ergebnisse

Anzahl der für B möglichen Ergebnisse

=1

3

Allgemein denieren wir (unter Verwendung der Beziehung zwischen relativen Häugkeitenund Wahrscheinlichkeiten):

Seien A,B ⊂ Ω und P (B) > 0. Dann ist die bedingte Wahrscheinlichkeit von A unter Bdeniert als

P (A|B) =P (A ∩B)

P (B)

Rechenregeln für bedingte WahrscheinlichkeitenSeien A,B ⊂ Ω und P (B) > 0. Dann gilt bei fest gehaltenem B

P (·|B) : A : A ⊂ Ω → [0, 1]

A 7→ P (A|B)

ist wieder eine Wahrscheinlichkeit mit P (B|B) = 1Die Axiome von Kolmogorov gelten entsprechend für bedingte Wahrscheinlichkeiten

Zu (K3): A1, A2, B ⊂ Ω, A1 ∩A2 = ∅, P (B) > 0:

P (A1 ∪A2|B) =P ((A1 ∪A2) ∩B)

P (B)

=P ((A1 ∩B) ∪ (A2 ∩B))

P (B)

=P (A1 ∩B) + P (A2 ∩B)

P (B)

= P (A1|B) + P (A2|B)

Aus der Denition der bedingten Wahrscheinlichkeit folgt sofort der

Produktsatz: Seien A,B ⊂ Ω und P (B) > 0. Dann gilt

P (A ∩B) = P (A|B) · P (B)

4.5. Unabhängigkeit von zwei Ereignissen

Ist die Wahrscheinlichkeit des Ereignisses A unabhängig davon, ob das Ereignis B einge-treten ist, d.h.

P (A|B) = P (A) (1)

so werden die Ereignisse A und B als stochastisch unabhängig angesehen. Da

(1)⇐⇒ P (A ∩B)

P (B)= P (A)⇐⇒ P (A ∩B) = P (A) · P (B)

denieren wir:

38

Page 39: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Zwei Ereignisse A ⊂ Ω und B ⊂ Ω heiÿen (stochastisch) unabhängig, falls

P (A ∩B) = P (A) · P (B)

Beispiel: Zweimaliges Würfeln

Ω = (1, 1), . . . , (1, 6), (2, 1), . . . , (6, 6)|Ω| = 36

∀ω∈Ω

P (ω) = 136

A = (1, 1), . . . , (1, 6) eine 1 im ersten WurfB = (1, 1), . . . , (6, 1) eine 1 im zweiten WurfP (A) = P (B) = 6

36 = 16

A ∩B = (1, 1) eine 1 im ersten und im zweiten Wurf

P (A ∩B)︸ ︷︷ ︸136

= P (A)︸ ︷︷ ︸16

·P (B)︸ ︷︷ ︸16

⇒ A und B sind stochastisch unabhängige EreignisseBeispiel: Urne mit den Zahlen 1, 2, 3, 4

Zweimaliges Ziehen mit Zurücklegen: Ω = (1, 1), (1, 2), . . . , (4, 4) mit |Ω| = 16

Zweimaliges Ziehen ohne Zurücklegen: Ω = (1, 2), (1, 3), . . . , (4, 3) mit |Ω| = 12

A = Die Eins wird beim ersten Mal gezogenB = Die Zwei wird beim zweiten Mal gezogen

Ziehen mit Zurücklegen Ziehen ohne ZurücklegenP (A) 4

16 = 14

312 = 1

4P (B) 4

16 = 14

312 = 1

4P (A) · P (B) 1

16116

P (A ∩B) 116

112

Also sind A und B beim Ziehen mit Zurücklegen stochastisch unabhängig, nicht jedochbeim Ziehen ohne Zurücklegen.

4.6. Totale Wahrscheinlichkeit

Ist Ω = A1 ∪A2 eine disjunkte Zerlegung des Ergebnisraumes Ω (A1 ∩A2 = ∅), so gilt fürein Ereignis B ⊂ Ω

B = (B ∩A1) ∪ (B ∩A2) wobei (B ∩A1) ∩ (B ∩A2) = ∅

und mit Axiom (K3)

P (B) = P (B ∩A1) + P (B ∩A2)

= P (B|A1) · P (A1) + P (B|A2) · P (A2)

Etwas allgemeiner gilt der Satz der totalen Wahrscheinlichkeit:

Sei A1, . . . , Ak eine disjunkte Zerlegung von Ω. Dann gilt für B ⊂ Ω

P (B) =

k∑i=1

P (B|Ai) · P (Ai)

39

Page 40: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Beispiel: Alarmanalyse

A = Alarm, E = Einbruch, E = kein Einbruch

P (A|E) = 0, 99 W für Alarm bei EinbruchP (A|E) = 0, 005 W für FehlalarmP (E) = 0, 001 W für Einbruch

Wie groÿ ist die Wahrscheinlichkeit für einen Alarm?

P (A) = P (A|E) · P (E) + P (A|E) · P (E)

= 0, 99 · 0, 001 + 0, 005 · (1− 0, 001)

≈ 0, 006

4.7. Der Satz von Bayes

Ist A1 ∪ · · · ∪Ak = Ω eine Zerlegung von Ω mit P (Ai) > 0 und B ein Ereignis, so gilt fürjedes j ∈ 1, . . . , k

P (Aj |B) =P (Aj ∩B)

P (B)

=P (B|Aj) · P (Aj)

P (B)

=P (B|Aj) · P (Aj)∑ki=1 P (B|Ai) · P (Ai)

wobei im letzten Schritt der Satz von der totalen Wahrscheinlichkeit verwendet wurde.Satz von Bayes

A1, . . . , Ak disjunkte Zerlegung von Ω mit P (A1) > 0, . . . , P (Ak) > 0 B ⊂ Ω ein Ereignismit P (B) > 0 Dann gilt für alle j ∈ 1, . . . , k

P (Aj |B) =P (B|Aj) · P (Aj)∑ki=1 P (B|Ai) · P (Ai)

Interpretation:

Werden die Ereignisse A1, . . . , Ak als mögliche Ursachen für das Ereignis B angesehen, sogibt P (B|Ai) die (bedingte) Wahrscheinlichkeit an, dass bei Vorliegen von Ereignis Ai dieWirkung B eintritt.

Die Formel von Bayes erlaubt jetzt einen wahrscheinlichkeitstheoretischen Rückschluss vonder Wirkung B auf die mögliche Ursache AjBeispiel: Fortsetzung Alarmanalyse

Wie groÿ ist die Wahrscheinlichkeit, dass ein Einbruch im Gange ist, wenn ein Alarmertönt?

P (E|A) =P (A|E) · P (E)

P (A|E) · P (E) + P (A|E) · P (E)

≈ 0, 99 · 0, 001

0, 006

≈ 0.165

40

Page 41: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

4.8. Unendliche Grundgesamtheit

Beispiel: Anzahl der Würfe eines Würfels bis zur ersten 6

Ω = 1, 2, 3, ..., also |Ω| =∞

P (2 Würfe bis zur ersten 6)= P (1. Wurf keine 6) · P (2. Wurf eine 6|1. Wurf keine 6)

= P (1. Wurf keine 6) · P (2. Wurf eine 6)

=5

6· 1

6

Unendliche GrundgesamtheitAllgemeiner: Ai = i-ter Wurf keine 6 Bi = i-ter Wurf eine 6 Ci = Spiel endet nachi Würfen

P (Ci) = P (A1 ∩ ... ∩Ai−1 ∩Bi)= P (A1) · P (A2) · ... · P (Ai−1) · P (Bi)

=5

6· 5

6· ...5

6· 1

6

=

(5

6

)i−1

· 1

6

Da hier i beliebig groÿ werden kann, sollte das 3. Axiom von Kolmogorov auch für abzählbarunendliche Vereinigungen von Ereignissen verallgemeinert werden.

Axiome von KolmogorovAxiome von Kolmogorov für unendliche Ergebnisräume:(K1) P (A) ≥ 0 für alle Ereignisse A ⊂ Ω(K2) P (Ω) = 1

(K3) Für paarweise disjunkte Ereignisse A ⊂ Ω gilt:P (A1 ∪A2 ∪ ...) =

∑∞i=1 P (Ai)

Alle bislang hergeleiteten Rechenregeln gelten auch für unendliche Ergebnisräume.

Später werden wir sehen, dass sich die Wahrscheinlichkeit eines überabzählbaren Ereignis-ses nicht als Summe der Wahrscheinlichkeiten der einzelnen Ergebnisse darstellen lässt.

41

Page 42: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

5. Diskrete Zufallsvariablen

In den Kapiteln 57 werden grundlegende Begrie und Eigenschaften von univariaten (d.h.eindimensionalen) Zufallsvariablen eingeführt.

Insbesondere wird zwischen diskreten und stetigen Zufallsvariablen unterschieden.

5.1. Zufallsvariablen

Beispiel: 2-maliges Würfeln

Ω = (1, 1), . . . , (6, 6), |Ω| = 36Summe der Augenzahlen werde beschrieben durch die Variable:

X : Ω→ 2, . . . , 12ω︸︷︷︸

(i,j)

7→ X(ω) = i+ j

X ist Beispiel einer Zufallsvariablen, die jedem Ergebnis ω ∈ Ω eine reelle Zahl zuordnet.Frage: Wie groÿ ist die Wahrscheinlichkeit, dass die Augensumme ≤ 4 ist? Gesucht ist alsoP (A) mit:

A = X ≤ 4 = (1, 1), (1, 2), (2, 1), . . . , (1, 3), (2, 2), (3, 1)

P (A) = P (X = 2)︸ ︷︷ ︸136

+P (X = 3)︸ ︷︷ ︸236

+P (X = 4)︸ ︷︷ ︸336

=1

6

Eine Variable oder ein Merkmal X, dessen Werte oder Ausprägungen die Ergebnisse einesZufallsvorgangs sind, heiÿt Zufallsvariable X.

Die Zahl x ∈ R, die X bei Durchführung des Zufallsvorgangs annimmt, heiÿtRealisierungoder Wert von X.

ZufallsvariablenVon Interesse sind oft Ereignisse der Form:

X = x = ω ∈ Ω|X(ω) = xX 6= x = ω ∈ Ω|X(ω) 6= xX ≤ x = ω ∈ Ω|X(ω) ≤ x

oder allgemein für einen Bereich B ⊂ R:

X ∈ B = ω ∈ Ω|X(ω) ∈ B

Die Menge aller Wahrscheinlichkeiten P (X ∈ B) für Bereiche B nennt man Wahrschein-lichkeitsverteilung von X.

42

Page 43: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

5.2. Verteilungen und Parameter von diskreten Zufallsvariablen

Eine Zufallsvariable X heiÿt diskret, falls sie nur endlich oder abzählbar unendlich vieleWerte x1, x2, . . . annehmen kann. Die Wahrscheinlichkeitsverteilung von X ist durch dieWahrscheinlichkeiten:

P (X = xi) = pi = f(xi), i = 1, 2, ..

gegeben. Die Folge (pi) bzw. die Funktion f heiÿt auch Zähldichte von X.Die Wertemenge von X wird auch als Träger von X bezeichnet:

T = x1, x2, . . .

Ist B eine Teilmenge des Trägers von X, so folgt mit Axiom (K3):

P (X ∈ B) =∑i:xi∈B

pi

Verteilungen und Parameter von diskreten ZufallsvariablenBei einem endlichen Wertebereich x1, . . . , xk ist die Wahrscheinlichkeitsverteilung (Zähl-dichte) p1, . . . pk das wahrscheinlichkeitstheoretische Analogon zur relativen Häugkeitsver-teilung f1, . . . , fk.

Bernoulli-VerteilungBesitzt der Wertebereich von X nur zwei Werte x1 und x2, so ist X eine binäre oderdichothome Zufallsvariable.

Beispiel:

X =

1, falls Kunde kreditwürdig0, falls Kunde nicht kreditwürdig

Sei A = Kunde kreditwürdig. Dann

P (A) = P (X = 1) = p und P (A) = P (X = 0) = 1− p

X ist eine Bernoulli-Variable, kurz X ∼ Bin(1, p). Die dazugehörige Verteilung heiÿtBernoulli-Verteilung.

Grasche Darstellung durch ein Stab- oder Säulendiagramm oder ein Wahrscheinlichkeits-diagramm.

VerteilungsfunktionVerteilungsfunktion einer diskreten Zufallsvariable:

F (x) = P (X ≤ x) =∑i:xi≤x

f(xi)

Diese Verteilungsfunktion besitzt viele Eigenschaften der empirischen Verteilungsfunktion:

• monoton wachsende Treppenfunktion

• F (x)→ 0 für x→ −∞

• F (x)→ 1 für x→∞

43

Page 44: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

• F (x) macht Sprünge der Höhe f(xi) = pi an xi

• F (x) rechtsstetig an den Sprungstellen

(Die empirische Verteilungsfunktion macht Sprünge der Höhe 1n oder Vielfache davon.)

Abbildung 8: Zähldichte und Verteilungsfunktion (Quellcode auf S.143)

GleichverteilungEine diskrete Zufallsvariable X heiÿt gleichverteilt auf dem Träger T = x1, . . . , xk kurzX ∼ Unif(T ), falls gilt:

∀i∈1,...,k

P (X = xi) =1

k

Geometrische VerteilungEine diskrete Zufallsvariable X heiÿt geometrisch(p)-verteilt, kurz X ∼ Geo(p), fallsgilt:

∀i∈N0

P (X = i) = (1− p)i−1p

Eine Geo(p)-verteilte Zufallvariable X zählt die Anzahl der Versuche in einer Folge vonunabhängigen Zufallsexperimenten mit jeweiliger Erfolgswahrscheinlichkeit p ∈ (0, 1) biszum ersten Erfolg:

A = ( 0, 0, . . . , 0︸ ︷︷ ︸i−1 Misserfolge

, 1︸︷︷︸1. Erfolg

)

P (A) = (1− p) · (1− p) · . . . · (1− p) · p = (1− p)i−1p

UnabhängigkeitZwei diskrete Zufallsvariablen X und Y mit den Trägern TX = x1, x2, . . . und TY =y1, y2, . . . heiÿen unabhängig, wenn für beliebige x ∈ TX und y ∈ TY gilt:

P (X = x, Y = y) = P (X = x) · P (Y = y)

44

Page 45: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Allgemeiner heiÿen n diskrete ZufallsvariablenX1, . . . , Xn unabhängig, wenn für beliebigeWerte x1, . . . , xn aus den jeweiligen Trägern gilt:

P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · . . . · P (Xn = xn)

UnabhängigkeitSind zwei diskrete Zufallsvariablen X und Y unabhängig, folgt die Unabhängigkeit derEreignisse X ∈ A und Y ∈ B, d.h.

P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B)

Nachweis mit Axiom (K3).

Beispiel: Unabhängigkeit beim Werfen zweier Würfel X Augenzahl im 1. Wurf, Y Augen-zahl im 2. Wurf

P (X = i, Y = j)︸ ︷︷ ︸136

= P (X = i)︸ ︷︷ ︸16

·P (Y = j)︸ ︷︷ ︸16

Lageparamter einer diskreten VerteilungAnalog zum arithmetischen Mittel einer Stichprobe denieren wir:

Der Erwartungswert E(X) einer diskreten Zufallsvariable mit den Werten x1, x2, . . . undder Wahrscheinlichkeitsverteilung p1, p2, . . . bzw. der Wahrscheinlichkeitsfunktion f(x) istdeniert durch:

E(X) =∑i∈N

xipi

=∑i∈N

xif(xi)

Der Erwartungswert einer Zufallsvariable X ist damit das mit der Wahrscheinlichkeit desAuftretens gewichtete Mittel der Werte.

Beim arithmetischen Mittel x einer Stichprobe wird statt pi bzw. f(xi) die relative Häu-gkeit fi von xi in der Stichprobe verwendet.

BeispielBeispiel: Erwartungswert beim WürfelDie Variable X gebe die Augenzahlen an

E(X) =∑

xipi =

6∑i=1

i · 1

6=

1

6(1 + . . .+ 6) =

21

6= 3, 5

45

Page 46: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

BeispielBeispiel: Mittlere Anzahl der Versuche bis zum 1. Erfolg bei unabhängigen Bernoulli-Versuchen mit jeweiliger Erfolgswahrscheinlichkeit p ∈ (0, 1)

X ∼ Geo(p), d.h. P (X = i) = (1− p)i−1p, i ∈ 1, 2, . . .

E(X) =∞∑i=0

i(1− p)i−1p = p∞∑i=0

i(1− p)i−1

= −p∞∑i=0

d

dp(1− p)i = −p d

dp

∞∑i=0

(1− p)i

= −p d

dp

1

1− (1− p)= −p d

dp

1

p= p · 1

p2

=1

p> 1

ErwartungswertIst g(x) eine reelle Funktion, dann gilt für die Zufallsvariable Y = g(X):

E(Y ) = E(g(X)) =∑i≥1

g(xi)pi =∑i≥1

g(xi)f(xi)

Beispiel: g(x) = x2

E(X2) =∑i≥1

x2i pi = x2

1p1 + x22p2 + . . .

Beispiel: g(x) = ax+ b

E(aX + b) =∑i≥1

(axi + b)pi = a∑i≥1

xipi︸ ︷︷ ︸E(X)

+b∑i≥1

pi︸ ︷︷ ︸1

= aE(x) + b

Erwartungswertbildung ist also linear.

BeispielBeispiel: Ist die Wahrscheinlichkeitsfunktion f(x) symmetrisch um c, so gilt:

E(X) = E(X − c) + Ec

=∑i≥1

(xi − c)f(xi)︸ ︷︷ ︸0

+c

= c

46

Page 47: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Weitere EigenschaftenDie folgende Tatsache ist aufwändig zu zeigen:

Für zwei diskrete Zufallsvariablen X und Y gilt:

E(X + Y ) = E(X) + E(Y )

und allgemeiner für beliebige Konstanten a1, . . . , an:

E(a1X1 + . . .+ anXn) = a1E(X1) + . . .+ anE(Xn)

ProduktregelFür zwei unabhängige diskrete Zufallsvariablen gilt die Produktregel:

E(X · Y ) = E(X) · E(Y )

Beispiel: Beim 2-maligen Würfeln gilt für die Augenzahlen X (erster Wurf) und Y (zweiterWurf):

E(X · Y ) = E(X) · E(Y ) =7

2· 7

2=

49

4

Weitere LageparameterDer Modus xmod ist derjenige x-Wert, der f(x) = P (X = x) maximal macht.

Für jeden Wert p ∈ (0, 1) ist xp ein p-Quantil, falls

P (X ≤ xp) = F (xp) ≥ p und P (X ≥ xp) ≥ 1− p

Mit dieser Denition ist xp u.U. nicht eindeutig deniert. Sind mehrere Werte möglich, sokann man z.B. den mittleren Wert wählen.

Streungsparameter für eine diskrete Zufallsvariable XDie Varianz einer diskreten Zufallsvariable ist:

σ2 = V ar(X) =∑i≥1

(xi − µ)2f(xi) = E((X − µ)2)

wobei µ = E(X).

Die Standardabweichung ist:σ = +

√V ar(X)

Streuungsparameter für eine diskrete Zufallsvariable XWie bei empirischen Varianzen gilt die Verschiebungsregel:

V ar(X) = E(X2)− (E(X))2 = E(X2)− µ2

und für Y = aX + b

V ar(Y ) = V ar(aX + b) = a2V ar(X) und σY = |a|σX

47

Page 48: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

BeispielAugenzahl X beim Würfeln

V ar(X) = E(X2)− (E(X))2

= 12 · 1

6+ 22 · 1

6+ . . .+ 62 · 1

6−(

7

2

)2

=1

6· (12 + 22 + . . .+ 62)︸ ︷︷ ︸

91

−(

7

2

)2

= . . . =70

24= 2, 92

5.3. Spezielle diskrete Verteilungsmodelle

5.3.1. Die Binomialverteilung

Folge von n unabhängigen Bernoulli-Versuchen X1, . . . , Xn mit jeweiligen Erfolgswahr-scheinlichkeiten p, wobei

Xi =

0 mit Wahrscheinlichkeit 1− p1 mit Wahrscheinlichkeit p

Gesucht ist nun die Wahrscheinlichkeit für genau k Erfolge:

0 . . . 0︸ ︷︷ ︸n−k

1 . . . 1︸ ︷︷ ︸k

Wahrscheinlichkeit für genau dieses Ergebnis: (1− p)n−k · pk

Anzahl verschiedener Permutationen:(nk

)Alle Permutatonen sind gleich wahrscheinlich.

Also:

P (k Erfolge bei n Versuchen) =

(n

k

)pk(1− p)n−k

X = X1 + . . .+Xn sei die Anzahl der Erfolge bei n Versuchen. Dann ist:

E(X) = E(X1 + . . .+Xn) = E(X1) + . . .+ E(Xn) = n E(X1)︸ ︷︷ ︸0·(1−p)+1·p

= np

Wegen Unabhängigkeit der X1, . . . , Xn folgt:

V ar(X) = V ar(X1 + . . .+Xn) = V ar(X1) + . . .+ V ar(Xn) = nV ar(X1)

= n(E(X21 )− (E(X1))2)

= n(02 · (1− p) + 12 · p− p2) = np(1− p)

Additionseigenschaft der Binomialverteilung SindX ∼ Bin(n, p) und Y ∼ Bin(m, p)unabhängig, so gilt:

X + Y ∼ Bin(n+m, p)

Symmetrieeigenschaft Sei X ∼ Bin(n, p) und Y = n−X, dann gilt

Y ∼ Bin(n, 1− p)

48

Page 49: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

BeispielBeispiel: Qualitätskontrolle In einer Zucht von Austern entstehen mit Wahrscheinlichkeitp = 0.9 fehlerfreie Perlen. Aus der Population werden n = 20 Perlen entnommen. Sei Xdie Anzahl der fehlerfreien Perlen, also:

X ∼ Bin(20, 0.9) und Y = n−X ∼ Bin(20, 0.1)

Wie groÿ ist die Wahrscheinlichkeit, dass höchstens 18 der 20 Perlen fehlerfrei sind?

P (X ≤ 18) = 1− P (X = 19 oder X = 20)

= 1−(

20

19

)0.919 · 0.11 −

(20

20

)0.920 · 0.10

= 1− 20 · 0.919 · 0.1− 0.920

≈ 0.61

P (X = 18) =

(20

18

)· 0.918 · 0.12 ≈ 0.285

E(X) = n · p = 20 · 0.9 = 18

V ar(X) = n · p(1− p) = 20 · 0.9 · 0.1 = 1.8, also σ ≈ 1.34

Im Zusammenhang mit dem zentralen Grenzwertsatz werden wir sehen, dass X ungefährnormalverteilt ist mit Erwartungswert 18 und Varianz 1.8

5.3.2. Die hypergeometrische Verteilung

In einem Aquarium benden sich N Fische, M davon sind männlich.

00 . . . 0︸ ︷︷ ︸M

11 . . . 1︸ ︷︷ ︸N−M︸ ︷︷ ︸

N

Es werden n Fische ohne Zurücklegen herausgezogen.Wie groÿ ist die W., genau X = k männliche Fische zu ziehen?Stichprobe

0 . . . 0︸ ︷︷ ︸k

1 . . . 1︸ ︷︷ ︸n−k︸ ︷︷ ︸

n

P (X = k) =Anzahl der günstigen ErgebnisseAnzahl der möglichen Ergebnisse

=

(Mk

)·(N−Mn−k

)(Nn

)X kann nicht gröÿer werden als

n, falls n ≤MM, falls n > M

X kann nicht kleiner werden als

0,

n− (N −M),

49

Page 50: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Also gilt für den Träger von X: T = max (0, n− (N −M)) , . . . ,min(n,M)Eine Zufallsvariable heiÿt hypergeometrisch verteilt mit Parametern n,M,N , kurzX ∼ Hyp(n,M,N), wenn sie die Wahrscheinlichkeitsfunktion

f(k) =

(Mk )(N−Mn−k )

(Nn), falls x ∈ T

0 , sonst

Es gilt

E(X) = nM

N, V ar(X) = n

M

N

(1− M

N

)N − nN − 1

Ist N groÿ im Vergleich yu n (Faustregel nN ≤ 0.05), so kann X als nahezu Bin(N, MN )-

verteilt angesehen werden.Zum Vergleich: Sei Y ∼ Bin

(N, MN

). Dann

E(Y ) = nM

N= E(X)

V ar(Y ) = nM

N

(1− M

N

)> V ar(X)

Abbildung 9: Zähldichte- und Verteilungsfunktion der Hyp(6, 6, 10)-Verteilung (Quellcodeauf S.143)

5.3.3. Die Poisson-Verteilung

Binomial- und hypergeometrisch verteilte Zufallsvariablen zählen, wie oft bei n-maligemZiehen ein bestimmtes Ereignis eintritt: T = 0, 1, . . . , n

Die geometrische Verteilung zählt, wie lange man warten muss bis ein bestimmtes Ereigniszum ersten Mal eintrit: T = N

Eine Poisson-verteilte Zufallsvariable zählt, wie oft ein bestimmtes Ereignis innerhalbeines (Zeit-)Intervalles eingetreten ist: T = N0

Die Poisson-Verteilung lässt sich herleiten

50

Page 51: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

1. als Grenzfall der Binomial-Verteilung oder

2. aus den Poisson-Annahmen.

zu 1): Die Wahrscheinlichkeit, dass das Erbgut eines Einzellers nach Röntgenbestrahlungeine Mutation aufweist, sei p = 1

1000 .

In einer Kultur benden sich n = 500000 Einzeller.

Wie groÿ ist die Wahrscheinlichkeit, dass sich in der Kultur nach Röntgenbestrahlung kmutierte Individuen benden?

X = Anzahl der Mutationen

P (X = k) =

(n

k

)pk(1− p)n−k

=n · . . . · (n− k + 1)

k!︸ ︷︷ ︸≈nkk!

pk (1− p)n︸ ︷︷ ︸[(1−p)

1p

]np (1− p)−k︸ ︷︷ ︸≈1

Da(1 + 1

n

)n → e für n→∞ folgt für kleines p und groÿes n und λ = np

P (X = k) ≈ λk

k!e−λ , k ∈ 0, 1, . . . , n

Eine Zufallsvariable X mit der Wahrscheinlichkeitsfunktion

f(k) = P (X = k) =

λk

k! e−λ für k ∈ N0

0 sonst

heiÿt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X ∼ Pois(λ)Es gilt

E(X) = λ, V ar(X) = λ

Finden im Zeitintervall [0, 1] zufällig Ereignisse statt, so ist die Anzahl X der in [0, 1]beobachteten Ereignisse Pois(λ)-verteilt, falls die folgenden Poisson-Annahmen gelten:

• Zwei Erreignisse können nicht gleichzeitig auftreten

• P (Anzahl der Ereignisse in [t, t+ ∆t]) ≈ λ∆t für ∆t kein

• P (Anzahl der Ereignisse in [t, t+ ∆t]) nur abhängig von ∆t

• Für zwei disjunkte Intervalle I1, I2 ⊂ [0, 1] gilt: N1 und N2 sind zwei unabhängigeZufallsvariablen, wobei Ni = Anzahl der Ereignisse in Ii

Ähnlich wie bei der Binomial-Verteilung gilt eine Additionseigenschaft für Poisson-verteilte Zufallsvariablen sind X ∼ Pois(λ) und Y ∼ Pois(µ) unabhängig, so gilt

X + Y ∼ Pois(λ+ µ)

Damit lässt sich dann zeigen: Ist die Anzahl X von Ereignissen in [0, 1] Pois(λ)-verteilt,so ist die Anzahl Z von Ereignissen in [0, t] Pois(λt)-verteilt.

Beispiele für Poisson-verteilten Zufallsvariablen:

51

Page 52: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

• Anzahl radioaktiver Zerfälle in einem gegebenen Zeitintervall

• Anzahl der durch Blitzschlag in einem Jahr getöteten Personen

• Anzahl von Morden in einer Groÿstadt

• Anzahl von HIV-Inzierten in einem Stadtteil

Abbildung 10: Zähldichte- und Verteilungsfunktion der Pois(3)-Verteilung (Quellcode aufS.144)

52

Page 53: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

6. Stetige Zufallsvariablen

Zur Erinnerung: Eine diskrete Zufallsvariable X nimmt Werte in einer endlichen oderabzählbaren, also diskreten, Menge T = x1, x2, . . . an.

Für deren Verteilungsfunktion F gilt

F (x) = P (X ≤ x) =∑

i : xi≤xf(xi) (1)

Eine stetige Zufallsvariable X nimmt Werte in einer überabzählbaren kontinuierlichenMenge T , z.B. T = R, T = [0, 1] oder T = (0,∞) an.

Für deren Verteilungsfunktion kann die Gleichung (1) jetzt NICHT mehr gelten.Stattdessen und genauer:

Eine Zufallsvariable X heiÿt stetig, wenn es eine Funktion f(t) ≥ 0 gibt, so dass für jedesx ∈ R

F (x) = P (X ≤ x) =

∫ x

−∞f(t) dt

f(x) heiÿt (Wahrscheinlichkeits-)Dichte von X.Für stetige Zufallsvariablen gilt:

P (a ≤ X ≤ b) = P (a < X < b)

= P (a ≤ X < b)

= P (a < X ≤ b) =

∫ b

af(t) dt = F (b)− F (a)

und P (X = x) = 0 für jedes x ∈ R

Da P (−∞ < X <∞) = 1 gilt auch ∫ ∞−∞

f(t) dt = 1

Weitere Eigenschaften der Verteilungsfunktion einer stetigen Zufallsvariable:

1. F (x) ist stetig und monoton wachsend mit Werten in [0, 1]

2. limx→−∞F (x) = 0, limx→∞F (x) = 1

3. Für Werte x, an denen f(x) stetig ist, gilt

F ′(x) =dF (x)

dx= f(x)

Zwei stetige Zufallsvariablen X und Y sind unabhängig, wenn für alle x ∈ R und y ∈ R

P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y) = FX(x) · FY (y)

Allgemeiner: Die stetigen ZufallsvariablenX1, . . . , Xn sind unabhängig, falls für alle x1, . . . , xn ∈R

P (X1 ≤ x1, . . . , Xn ≤ xn) = P (X1 ≤ x1) · . . . · P (Xn ≤ xn)

53

Page 54: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

6.1. Spezielle stetige Verteilungsmodelle

6.1.1. Gleichverteilung

Eine stetige Zufallsvariable heiÿt gleichverteilt auf dem Intervall [a, b], kurzX ∼ Unif([a, b]),wenn sie eine Dichte

f(x) =

1b−a für a ≤ x ≤ b0 sonst

besitzt.

Dazugehörige Verteilungsfunktion

F (x) =

0 x < ax−ab−a a ≤ x ≤ b1 x > b

An den Knickstellen x = a und x = b ist F nicht dierenzierbar.

Abbildung 11: Dichte- und Verteilungsfunktion der Gleichverteilung (Quellcode auf S.144)

6.1.2. Exponentialverteilung

Die geometrische Verteilung dient zur Beschreibung der Wartezeit bis zu einem bestimmtenEreignis. Ein stetiges Analogon hierzu ist die Exponentialverteilung:

Eine stetige Zufallsvariable X mit nichtnegativen Werten heiÿt exponentialverteilt mitdem Parameter λ > 0, kurz X ∼ Exp(λ), wenn sie die Dichte

f(x) =

λe−λx für x ≥ 0

0 für x < 0

besitzt.Dazugehörige Verteilungsfunktion

F (x) =

1− e−λx für x ≥ 0

0 für x < 0

54

Page 55: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Man kann zeigen, dass die Anzahl von Ereignissen in einem Zeitintervall der Länge tPois(λt)-verteilt ist, wenn die Zeitdauern zwischen aufeinander folgenden Ereignissen un-abhängig und exponentialverteilt mit Parameter λ sind.

Abbildung 12: Dichte- und Verteilungsfunktion der Exponentialverteilung (Quellcode aufS.144)

Listing 1: exponentialverteilung.r## Dichte und Verteilungsfunktion der Exponentialverteilung

## Grafik erzeugen.

png ("6.1- exponentialverteilung.png", width =800, height =380);

## Grafikfenster einstellen

par(mfcol=c(1,2), cex.axis =1.2, cex.lab =1.2);

x <- seq(0, 5, 0.01);

## distribution function

plot(x, dexp(x),type="l",

main=" Dichtefunktion",xlab="x",ylab="f(x)");

## cumulative distribution function

plot(x, pexp(x), type="l", main=" Verteilungsfunktion",ylab="F(x)");

## Grafikerzeugung beenden

dev.off ();

6.2. Lageparameter, Quantile und Varianz von stetigen Zufallsvariablen

6.2.1. Erwartungswert

Approximation der Dichte f einer stetigen Zufallsvariablen X durch ein Histogramm mitIntervallbreite ∆x zu einer diskreten Zufallsvariable Xd:

E(Xd) =∑

xipi =∑

xif(xi)∆x

→∫xf(x) dx für ∆x→ 0

55

Page 56: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

ErwartungswertDer Erwartungswert E(X) einer stetigen Zufallsvariable X mit Dichte f(x) ist deshalbdeniert als

E(X) =

∫ ∞−∞

xf(x) dx

Eigenschaften von Erwartungswerten

1. Ist g(x) eine reelle Funktion, dann gilt für Y = g(X)

E(Y ) = E(g(X)) =

∫ ∞−∞

g(x)f(x) dx

2. Für Y = aX + b giltE(Y ) = E(aX + b) = aE(X) + b

3. Ist f symmetrisch um c, d.h. f(c− x) = f(c+ x), so gilt

E(X) = c

4. Additivität: Für zwei Zufallsvariablen X und Y gilt

E(X + Y ) = E(X) + E(Y )

5. Linearität: Für beliebige Konstanten a1, . . . , an gilt

E(a1X1 + . . .+ anXn) = a1E(X1) + . . .+ anE(Xn)

56

Page 57: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Beispiele

1. X gleichverteilt auf [a, b]. Dann

E(X) =

∫ ∞−∞

xf(x) dx =

∫ b

ax

1

b− adx

=1

b− a

(b2

2− a2

2

)=

(b− a)(b+ a)

2(b− a)

=a+ b

2

2. X ∼ Exp(λ)

E(X) =

∫ ∞−∞

xf(x) dx =

∫ ∞0

xe−λx dx

= · · · = 1

λ

6.2.2. Modus, Quantil und Median

Ist X eine stetige Zufallsvariable mit Dichte f(x), so heiÿt der Wert, an dem f(x) ein(lokales) Maximum annimmt, Modus von X, kurz xmod.

Für 0 < p < 1 heiÿt der Wert xp mit

F (xp) = p

p-Quantil von X. Der Median xmed ist das 50%-Quantil, also

F (xmed) = 0.5

Ist F streng monoton, so sind das p-Quantil und der Median eindeutig.

6.2.3. Varianz und Standardabweichung

Die Varianz einer stetigen Zufallsvariable ist deniert als die mittlere oder erwartetequadratische Abweichung vom Erwartungswert µ = E(X):

σ2 = V ar(X) = E((X − µ)2) =

∫ ∞−∞

(x− µ)2f(x) dx

Die Standardabweichung istσ = +

√V ar(X)

Wie im diskreten Fall gelten

1. V ar(X) = E(X2)− (E(X))2 = E((X − c)2)− (µ− c)2

2. V ar(aX + b) = a2V ar(X)

3. für unabhängige Zufallsvariablen X und Y

V ar(X + Y ) = V ar(X) + V ar(Y )

Beispiel: Sei X auf [a, b] gleichverteilt

V ar(X) = E(X2)︸ ︷︷ ︸∫ ba x

2 1b−a dx

− (E(X))2︸ ︷︷ ︸(a+b2 )

2

= · · · = (b− a)2

12

57

Page 58: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

6.3. Normalverteilung

Eine Zufallsvariable X mit Dichte

f(x) =1√2πσ

exp

(−(x− µ)2

2σ2

), x ∈ R,

heiÿt normalverteilt mit den Parametern µ ∈ R und σ2 > 0, kurz X ∼ N(µ, σ2).

Es gilt

E(X) =1√2πσ

∫ ∞−∞

xe(x−µ)2

2σ2 dx = · · · = µ

V ar(X) = E(X2)− (E(X))2 = · · · = σ2

Die Verteilungsfunktion von X ∼ N(µ, σ2) ist gegeben durch

F (x) = P (X ≤ x) =1√2πσ

∫ x

−∞e

(t−µ)2

2σ2 dt

= P

(X − µσ

≤ x− µσ

)=

1√2πσ

∫ x−µσ

−∞e−

t2

2 dt

= Φ

(x− µσ

), wobei Φ(z) =

1√2π

∫ z

−∞e−

t2

2 dt

Also gilt

X ∼ N(µ, σ2)⇐⇒ X − µσ

∼ N(0, 1)

Abbildung 13: Dichte- und Verteilungsfunktion der Normalverteilung (Quellcode aufS.145)

58

Page 59: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

7. Grenzwertsätze

GrenzwertsätzeFragen:

1. Unter welchen Voraussetzungen liegt die relative Häugkeit für das Eintreten einesEreignisses nahe bei der Wahrscheinlichkeit für das Ereignis?

2. Unter welchen Voraussetzungen kann die Verteilung einer Summe von Zufallsvaria-blen durch eine einfachere Verteilung approximiert werden?

7.1. Gesetz der groÿen Zahlen

Sei X eine binäre Zufallsvariable und A ein Ereignis mit

X =

1 falls A eintritt0 falls A nicht eintritt

Also X ∼ Bin(1, p) mit p = P (A) = P (X = 1).

Wir nehmen an, dass das Zufallsexperiment n-mal und in identischer Weise wiederholtwerden kann:

Xi =

1, falls A im i-ten Versuch eintritt0, falls A im i-ten Versuch nicht eintritt

Klar: Xi ∼ Bin(1, p) für alle i ∈ 1, . . . , n

Empirisches Gesetz der groÿen ZahlenFür groÿes n liegt die relative Häugkeit fn(A) für das Eintreten von A nahe bei derWahrscheinlichkeit von A:

fn(A)→ P (A) für n→∞ (1)

Da fn(A) = 1n

∑ni=1Xi = Xn und P (A) = E(X) kann (1) auch in die Form

Xn → E(X) für n→∞ (2)

gebracht werden.Fragen:

1. Wie ist die Konvergenz in (1) und (2) zu verstehen?

2. Gilt (2) auch für nicht-binäre Zufallsvariablen?

Auf beide Fragen gibt das Gesetz der groÿen Zahlen eine Antwort.Sei X eine Zufallsvariable mit Erwartungswert µ = EX und Varianz σ2 = V ar(X).Seien X1, . . . , Xn unabhängige wie X verteilte Zufallsvariablen.Dann gilt

EXn = E

(1

n

n∑i=1

Xi

)=

1

n

n∑i=1

EXi =1

n

n∑i=1

µ = µ

V ar(Xn) = V ar

(1

n

n∑i=1

Xi

)=

1

n2

n∑i=1

V ar(Xi) =1

n2

n∑i=1

σ2 =σ2

n

Für groÿe n ist Xn damit immer mehr um µ herum konzentriert.

59

Page 60: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Gesetz der groÿen ZahlenFür beliebig kleines c > 0 gilt

P (|Xn − µ| < c)→ 1 für n→∞

In Worten: Xn konvergiert nach Wahrscheinlichkeit gegen µ.

Zum Beweis verwenden wir die Ungleichung von Tschebyschev

Ungleichung von TschebyschevFür jede Zufallsvariable X mit endlicher Varianz gilt

∀c>0

P (|X − E(X)| ≥ c) ≤ V ar(X)

c2(3)

Beweis: Setze

Y =

0, falls |X − E(X)| < c1, falls |X − E(X)| ≥ c

Damit

P (|X − E(X)| ≥ c) = E(Y ) = E(Y 2)

≤ E(|X − E(X)|2

c2

)=

1

c2V ar(X)

Beweis des Gesetzes der groÿen Zahlen

P (|Xn − µ| < c) = 1− P (|Xn − µ| ≥ c)︸ ︷︷ ︸(3)

≤ 1c2V ar(Xn)= 1

c2σ2

n→0

→ 1 (n→∞)

Satz von BernoulliSpezialfall des starken Gesetzes der groÿen Zahlen:

Die relative Häugkeit, mit der ein Ereignis A bei n unabhängigen Wiederholungen einesZufallsvorgangs eintritt, konvergiert nach Wahrscheinlichkeit gegen P (A).

7.2. Der zentrale Grenzwertsatz

Die Zufallsvariable X sei Bin(1, p)-verteilt.Die Zufallsvariablen X1, . . . , Xn seien unabhängig wie X verteilt. Dann

Sn = X1 + · · ·+Xn ∼ Bin(n, p)

E(Sn) = np

V ar(Sn) = np(1− p)

Man stellt experimentell leicht fest, dass die Dichte einer Bin(n, p)-verteilten Zufallsva-riablen durch die Dichte einer N(np, np(1 − p))-verteilten Zufallsvariablen approximiertwerden kann. Der formale Beweis ist jedoch schwierig.

60

Page 61: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Approximation von Summen von ZufallsvariablenStandardisierung von Sn:

Zn =Sn − E(Sn)√V ar(Sn)

Dann gilt:

E(Zn) = 0, V ar(Zn) =1

V ar(Sn)V ar(Sn) = 1

Damit kann obige Beobachtung reformuliert werden:

Die Dichte von Zn kann für groÿe n gut durch die Dichte der N(0, 1)-Verteilung, also

f(x) = 1√2πe−

x2

2 , approximiert werden.Daraus folgt:

Die Verteilungsfunktion Fn(z) = P (Zn ≤ z) von Zn kann für groÿe n gut durch die

Verteilungsfunktion Φ(z) =∫ z−∞

1√2πe−

x2

2 dx einer N(0, 1)-verteilten Zufallsvariablen ap-proximiert werden.

Diese Tatsache gilt nicht nur für Summen von unabhängigen Bin(1, p)-verteilten Zufalls-variablen, sondern unter viel allgemeineren Voraussetzungen.

Zentraler GrenzwertsatzX1, . . . , Xn seien unabhängig identisch verteilte Zufallsvariablen mit

E(Xi) = µ und V ar(Xi) = σ2

Dann konvergiert die Verteilungsfunktion Fn(z) = P (Zn ≤ z) der standardisierten Summe

Zn =X1 + · · ·+Xn − nµ√

nσ=

1√n

n∑i=1

Xi − µσ

für n→∞ an jeder Stelle z ∈ R gegen die Verteilungsfunktion Φ(z) der Standardnormal-verteilung

Fn(z)→ Φ(z) (n→∞)

Unter den Voraussetzungen dieses Satzes gilt deshalb:

Sn = X1 + · · ·+Xn ist approximativ N(nµ, nσ2)-verteilt

Grenzwertsatz von Moivre-LaplaceAls Spezialfall des zentralen Grenzwertsatzes gilt damit für die Summe von unabhängigenBin(1, p)-verteilten Zufallsvariablen X1, . . . , Xn der

Grenzwertsatz von Moivre-Laplace

∀z∈R

P

(Sn − np√np(1− p)

≤ z

)→ Φ(z) für n→∞

oder

Sn = Anzahl der Erfolge in n unabhänigen Bernoulli-Versuchen

ist approximativ N(np, np(1− p))-verteilt

61

Page 62: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Approximation der Binomialverteilung mit StetigkeitskorrektorFür moderate n wird die Approximation besser, wenn die Treppenfunktion des Wahr-scheinlichkeitshistogramms von der Dichtekurve der N(0, 1)-Verteilung etwa in der Mittegetroen wird.

Sei Sn ∼ Bin(n, p)-verteilt. Falls np und n(1− p) groÿ genug sind, gilt

P (Sn ≤ x) = Bin(x|n, p) ≈ Φ

(x+0.5− np√np(1− p)

)

P (Sn = x) ≈ Φ

(x+0.5− np√np(1− p)

)− Φ

(x−0.5− np√np(1− p)

)

Faustregel: Die Approximation ist für praktische Zwecke gut, falls np ≥ 5 und n(1−p) ≥ 5

BeispielEine Tierart trägt mit Wahrscheinlichkeit 0.1 einen Gendefekt. Es werde eine Stichprobevom Umfang n = 100 der Population untersucht.

Sn sei die Anzahl der gesunden Tiere.

Also Sn ∼ Bin(n, p) = Bin(100, 0.9).

Wegen np = 90 und n(1− p)=10 ist die Faustregel erfüllt.Wie groÿ ist die Wahrscheinlichkeit, dass höchstens x = 88 Tiere gesund sind?

P (Sn ≤ 88) ≈ Φ

(88+0.5− 90√100 · 0.9 · 0.1

)= Φ

(−1.5

3

)= Φ(−0.5) = 0.309

Die Addition von 0.5 verbessert die Approximation (Stetigkeitskorrektur).

Wie groÿ ist die Wahrscheinlichkeit, dass genau x = 90 = E(Sn) Tiere gesund sind?

P (Sn = 90) = P (Sn ≤ 90)− P (Sn ≤ 89)

≈ Φ

(0.5

3

)− Φ

(−0.5

3

)︸ ︷︷ ︸

1−Φ( 0.53 )

= 2 · Φ(

0.5

3

)− 1 = 0.134

62

Page 63: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

8. Mehrdimensionale Zufallsvariablen

In vielen Anwendungen interessiert nicht nur ein Merkmal, sondern mehrere Merkmale,welche überdies oft nicht unabhängig sind. Das Studium der Abhängigkeit ist häug vonzentralem Interesse.

8.1. Begri mehrdimensionale Zufallsvariablen

Bei einer reellen, also 1-dimensionalen Zufallsvariablen, wird jedem Ergebnis ω eines Zu-fallsvorganges genau eine reelle Zahl X(ω) zugeordnet.

Bei einer n-dimensionalen Zufallsvariablen X werden jedem Ergebnis ω eines Zufallsvor-ganges genau n reelle Zahlen X1(ω), . . . , Xn(ω) zugeordnet:

X = (X1, . . . , Xn) : Ω −→ Rn

ω 7−→ (X1(ω), . . . , Xn(ω))

8.2. Zweidimensionale diskrete Zufallsvariablen

Seien X und Y zwei diskrete Zufallsvariablen mit Werten x1, x2, . . . bzw. y1, y2, . . .

Die gemeinsame Wahrscheinlichkeitsfunktion oder gemeinsame diskrete Dichte derbivariaten diskreten Zufallsvariable (X,Y ) ist bestimmt durch

f(x, y) =

P (X = x, Y = y) für x ∈ x1, x2, . . . ,

y ∈ y1, y2, . . . 0 sonst

Die gemeinsame Verteilungsfunktion zu X und Y ist gegeben durch

F (x, y) = P (X ≤ x, Y ≤ y) =∑xi≤x

∑yj≤y

f(xi, yj)

8.3. Zweidimensionale stetige Zufallsvariablen

Die Zufallsvariablen X und Y sind gemeinsam stetig verteilt, wenn es eine auf R2

denierte Dichtefunktion f(x, y) gibt, so dass

P (a ≤ X ≤ b, c ≤ Y ≤ d) =

∫ b

a

∫ d

cf(x, y)dxdy

Diese Wahrscheinlichkeit entspricht dem Volumen des Körpers über dem Rechteck [a, b]×[c, d] bis zur durch z = f(x, y) gegebenen Fläche.

Die gemeinsame Verteilungsfunktion zu X und Y ist gegeben durch

F (x, y) =

∫ x

−∞

∫ y

−∞f(s, t)dsdt

63

Page 64: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

8.4. Unabhängigkeit von Zufallsvariablen

Die Zufallsvariable Y kann als unabhängig von der Zufallsvariablen X angesehen werden,falls

fY |X(y|x) =f(x, y)

fX(x)= fY (y)

(vorausgesetzt fX(x) > 0).In diesem Fall gilt f(x, y) = fX(x) · fY (y)

Deshalb deniert man:

Die Zufallsvariablen X und Y heiÿen (stochastisch) unabhängig, falls

∀x∀y

f(x, y) = fX(x) · fY (y)

Ansonsten heiÿen X und Y (stochastisch) abhängig.

8.5. Kovarianz und Korrelation

Die Wahrscheinlichkeitsfunktion f(x, y) liefert alle Informationen über die beiden Zufalls-variablen X und Y , auch über deren mögliche Abhängigkeit.

Kovarianz und Korrelation sind zwei Begrie zur Beschreibung der linearen Abhängigkeitvon X und Y unter Verwendung einer einzigen Maÿzahl.

Sind X und Y unabhängig, so gilt

E(X · Y ) = E(X) · E(Y )

(ohne Beweis)Sind die Zufallsvariablen X und Y abhängig, so liefert die Dierenz

E(XY )− E(X) · E(Y ) = E [(X − E(X)) · (Y − E(Y ))]

eine Maÿzahl für die Stärke der Abhängigkeit.

Wir denieren deshalb:

Die Kovarianz der Zufallsvariablen X und Y ist gegeben durch

Cov(X,Y ) = E ((X − E(X)) · (Y − E(Y )))

Die Kovarianz liefert ein Maÿ für die lineare Abhängigkeit und lässt sich berechnen durch

Cov(X,Y ) =∑i

∑j

f(xi, yj)(xi − E(X))(yj − E(Y ))

falls X und Y diskret sind, bzw.

Cov(X,Y ) =

∫ ∞−∞

∫ ∞−∞

f(x, y)(x− E(X))(y − E(Y ))dxdy

falls X und Y stetig sind.Werden die Zufallsvariablen X und Y linear transformiert zu X = aX+b und Y = cY +d,so gilt

Cov(X, Y ) = a · c · Cov(X,Y )

64

Page 65: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Da die Kovarianz oensichtlich maÿstabsabhängig ist, wird in der Praxis der durch

% = %(X,Y ) =Cov(X,Y )√

V ar(X) ·√V ar(Y )

denierte Korrelationskoezient bevorzugt.Eigenschaften des Korrelationskoezienten:

• −1 ≤ %(X,Y ) ≤ 1

• |%(X,Y )| = 1⇔ Y = aX + b für Konstanten a, b

• X = aX + b, Y = cY + d mit a, c 6= 0:

|%(X, Y )| = |%(X,Y )|

Zwei Zufallsvariablen X und Y heiÿen unkorreliert, falls

%(X,Y ) = 0

Ist %(X,Y ) 6= 0, so heiÿen sie korreliert.

Man kann zeigen, dass zwei unabhängige Zufallsvariablen auch immer unkorreliert sind.Die Umkehrung gilt im Allgemeinen nicht.Varianz der Summe zweier u.U. abhängigen Zufallsvariablen:

V ar(X1 +X2) = E(

(X1 +X2 − E(X1)− E(X2))2)

= E(

(X1 − E(X1))2)

+ 2E ((X1 − E(X1)) (X2 − E(X2)))

+ E(

(X2 − E(X2))2)

= V ar(X1) + V ar(X2) + 2Cov(X1, X2)

Linearkombination von ZufallsvariablenSei X z.B. die zufallsabhängige Tagesproduktion von Hefe in einem Bioreaktor mit nverschiedenen Hefekulturen, die sich pro Tag um den zufälligen Faktor Xi vermehren undderen relativen Anteile zu Tagesbeginn ai betragen:

X = a1X1 + · · ·+ anXn

Dann gilt:

E(X) = a1E(X1) + · · ·+ anE(Xn)

V ar(X) = E((X − E(X))2)

= E

( n∑i=1

ai(Xi − E(Xi))

)2

= E

n∑i=1

a2i (Xi − E(Xi))

2 +∑i 6=j

aiaj(Xi − E(Xi))(Xj − E(Xj))

=

n∑i=1

a2iV ar(Xi) + 2

∑i<j

aiajCov(Xi, Xj)

65

Page 66: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Beispiel: Optimierung eines BioreaktorsZwei Hefekulturen werden in den Anteilen a1 und a2 mit a1 + a2 = 1 in einen Bioreaktoreingebracht. X1, X2 seien die zufallsabhängigen Vermehrungsraten (pro Tag) der beidenHefearten. Der gesamte Tagesertrag ist somit

X = a1X1 + a2X2

Und der zu erwartende Tagesertrag ist

E(X) = a1E(X1) + a2E(X2)

Die Varianz der Tagesertrages kann als ein Risikomaÿ für den Tagesertrag interpretiertwerden:

V ar(X) = a21V ar(X1) + a2

2V ar(X2) + 2a1a2Cov(X1, X2)

Mit σ2i = V ar(Xi), ρ = Cor(X1, X2) ist:

V ar(X) = a21σ

21 + a2

2σ22 + 2a1a2σ1σ2ρ

Je nachdem, ob die Wachstumsfaktoren der beiden Hefekulturen positiv oder negativ kor-reliert sind, ist das Risikomaÿ für den Tagesertrag gröÿer oder kleiner als die Summe derEinzelrisiken.

Spezialfall: σ = σ1 = σ2, ρ = 1

V ar(X) = a21σ

2 + a22σ2 + 2a1a2σ

2 = (a1 + a2)2σ2 = σ2

Spezialfall: σ = σ1 = σ2, ρ = −1

V ar(X) = a21σ

2 + a22σ2− 2a1a2σ

2 = (a1 − a2)2σ2

Falls a1 = a2 = 0.5, ist das Gesamtrisiko gleich Null.

8.6. Die zweidimensionale Normalverteilung

Dichte einer 1-dimensional normalverteilten Zufallsvariablen X:

f(x) =1√2πσ

exp

−1

2

(x− µσ

)2, x ∈ R,

wobei µ = E(X), σ2 = V ar(X).Erweiterung der Normalverteilung auf 2-dimensionale Zufallsvariablen:

Die Zufallsvariablen X und Y heiÿen gemeinsam normalverteilt, wenn ihre gemeinsameDichte bestimmt ist durch

f(x, y) =1

2π det(Σ)1/2exp

−1

2

(x− µ1

y − µ2

)tΣ−1

(x− µ1

y − µ2

)

wobei x, y ∈ R, µ1 = E(X), µ2 = E(Y ) und

Σ =

(V ar(X) Cov(X,Y )Cov(X,Y ) V ar(Y )

)=

(σ2

1 σ1σ2ρσ1σ2ρ σ2

2

)

66

Page 67: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Beispiel: Seien X1 das Körpergewicht und X2 die Körpergröÿe.

Abbildung 14: 2-dimensionale Normalverteilung (Quellcode auf S.145)

67

Page 68: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Abbildung 15: 2-dimensionale Normalverteilung

68

Page 69: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Abbildung 16: 2-dimensionale Normalverteilung

Der unkorrelierte FallSind die Zufallsvariablen X und Y mit gemeinsamer Normalverteilung unkorreliert, d.h.ρ = 0, so ist X und Y sogar unabhängig, da in diesem Fall:

Σ =

(σ2

1 00 σ2

2

), det(Σ) = σ2

1σ22, Σ−1 =

(σ−2

1 0

0 σ−22

)

f(x, y) =1

2πσ1σ2exp

−1

2

(x− µ1

σ1

)2

− 1

2

(x− µ2

σ2

)2

=1√

2πσ1

exp

−1

2

(x− µ1

σ1

)2· 1√

2πσ2

exp

−1

2

(y − µ2

σ2

)2

= fX(x) · fY (y)

69

Page 70: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Teil III.

Induktive Statistik

70

Page 71: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Schlieÿende StatistikWie kann man basierend auf einer Stichprobe Informationen über die Verteilung einesinteressierenden Merkmals erhalten?

• Schätzverfahren dienen zur näherungsweisen Ermittlung unbekannter Parameter derVerteilung

• Testverfahren dienen zur Überprüfung von Hypothesen über die unbekannte Vertei-lung

9. Parameterschätzung

Beispiel: Wie hoch ist der relative Anteil von Frauen unter den Hochschullehrern inDeutschland?

Da eine Totalerhebung viel zu aufwändig wäre, bestimmt man den relativen Anteil derFrauen in einer Zufallsstichprobe. Dieser relative Anteil in der Stichprobe ist ein Schätzerfür den wahren Anteil in der Grundgesamtheit.

Da eine zweite Stichprobe einen anderen Schätzwert liefern würde, stellt sich u.a. die Fragenach der Qualität des Schätzers.

9.1. Parameterschätzung

Einer Schätzfunktion oder Schätzstatistik für den Parameter θ der Verteilung derGrundgesamtheit ist eine Funktion

T = g(X1, . . . , Xn)

der Stichprobenvariablen X1, . . . , Xn.Der aus den Realisationen x1, . . . , xn resultierende numerische Wert

g(x1, . . . , xn)

ist der zugehörige Schätzwert.Beispiele:

• X = g(X1, . . . , Xn) = 1n

∑ni=1Xi Schätzfunktion für den Erwartungswert µ = E(X)

x zugehörige Realisation der Stichprobe

• S2 = g(X1, . . . , Xn) = 1n−1

∑ni=1(Xi − X)2 Schätzfunktion für die Varianz σ2 =

V ar(X)

9.2. Eigenschaften von Schätzstatistiken

9.2.1. Erwartungstreue

Eine Schätzstatistik T = g(X1, . . . , Xn) heiÿt erwartungstreu oder unverzerrt für denParameter θ, falls

Eθ(T ) = θ

Sie heiÿt asymptotisch erwartungstreu für θ, falls

limn→∞

Eθ(T ) = θ

71

Page 72: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Die Verzerrung oder der Bias ist deniert durch

Biasθ(T ) = Eθ(T )− θ

Das tief gestellte θ in Eθ soll andeuten, dass der Erwartungswert von T bezüglich derVerteilung berechnet werden soll, die θ als wahren Parameter besitzt.Beispiele:

• Eµ(X) = Eµ( 1n

∑ni=1Xi) = 1

n

∑ni=1Eµ(Xi)︸ ︷︷ ︸

µ

= µ Also ist X ein erwartungstreuer

Schätzer für den Erwartungswert µ

• Eσ2(S2) = Eσ2( 1n−1

∑ni=1(Xi − X)2) = · · · = σ2 Also ist S2 ein erwartungstreuer

Schätzer für die Varianz

• Eσ2(S2) = Eσ2( 1n

∑ni=1(Xi − X)2) = · · · = n−1

n σ2 Also ist S2 kein erwartungstreuerSchätzer für die Varianz σ2

• Biasσ2(S2) = Eσ2(S2)−σ2 = − 1nσ

2 Also ist S2 asymptotisch erwartungstreu für σ2

Frage: Wie genau schätzt X den Erwartungswert?

V ar(X) = V ar

(1

n

n∑i=1

Xi

)=

1

n2

n∑i=1

V ar(Xi) =σ2

n

Der Standardfehler einer Schätzstatistik ist bestimmt durch die Standardabweichung derSchätzstatistik

σg =√V ar(g(X1, . . . , Xn))

Achtung: Der Begri des Standardfehlers ist nur sinnvoll für erwartungstreue Schätzsta-tistiken!Der Standardfehler von X ist damit

σX =σ√n

Da σ2 meist unbekannt sein dürfte, muss es geschätzt werden. Ein Schätzer für den Stan-dardfehler σX von X ist

σX =

√S2

n=

√1

n−1

∑ni=1(Xi − X)2

n

9.2.2. Erwartete mittlere quadratische Abweichung und Konsistenz

Die erwartete mittlere quadratische Abweichung (mean squared error) ist bestimmtdurch

MSE =E((T − θ)2

)=E

((T − E(T ) + E(T )− θ)2

)=E((T − E(T ))2 + 2E ((T − E(T )) ((E(T )− θ))︸ ︷︷ ︸

=0

+ E((E(T )− θ)2))

=V ar(T ) + (Bias(T ))2

72

Page 73: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Diese Zerlegung des MSE zeigt, dass der Standardfehler nur dann ein brauchbares Ver-gleichsmaÿ für die Güte eines Schätzers ist, wenn der Schätzer erwartungstreu ist, d.h.Bias(T ) = 0.Eine Schätzstatistik heiÿt konsistent im quadratischen Mittel, falls

MSE = E((T − θ)2)→ 0 für n→∞

und schwach konsistent, falls

∀ε>0

P (|T − θ| ≥ ε)→ 0 für n→∞

Konsistenz im quadratischen Mittel impliziert schwache Konsistenz.Beispiel: Arithmetisches Mittel

X1, . . . , Xn ∼ N(µ, σ2) unabhängige ZufallsvariablenSchätzen des Erwartungswertes µ mittels

X =1

n

n∑i=1

Xi

Da EX = · · · = µ, ist X erwartungstreu.

Da V ar(X) = · · · = σ2

n → 0 (n→∞) ist X konsistent im quadratischen Mittel.

Ferner gilt

X ∼ N(µ,σ2

n

)Also

P (|X − µ| ≤ ε) = P

(∣∣∣∣∣X − µσ√n

∣∣∣∣∣ ≤ εσ√n

)

= Φ

(εσ√n

)− Φ

(− ε

σ√n

)

= 2 Φ

(εσ√n

)︸ ︷︷ ︸→1 für n→∞

−1

→ 1 für n→∞

Damit ist X auch schwach konsistent.

9.3. Konstruktion von Schätzfunktionen

Wir diskutieren drei Ideen zur Konstruktion von Schätzfunktionen:

• Maximum-Likelihood-Schätzung

• Kleinste-Quadrate-Schätzung

• Intervallschätzung

73

Page 74: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

9.3.1. Maximum-Likelihood-Schätzung

Beispiel: Gesucht ist die Wahrscheinlichkeit p für das Auftreten eines Ereignisses A imRahmen eines Experiments

X =

0 falls A nicht eintritt1 falls A eintritt

Die Ausgänge von n unabhängigen Wiederholungen des Experimentes werden dann be-schrieben durch die n unabhängigen wie X verteilten Zufallsvariablen X1, . . . , Xn

Klar:∑n

i=1Xi ∼ Bin(n, p)Hierbei ist n natürlich bekannt, nicht jedoch die Erfolgswahrscheinlichkeit p

L(p) = P

(n∑i=1

Xi = k

)=

(n

k

)pk(1− p)n−k

Das Maximum-Likelihood-Prinzip wählt als Schätzwert p für die unbekannte Wahrschein-lichkeit p den Wert, welcher L(p) maximiert.Allgemein: Sei θ der gesuchte ein- oder mehrdimensionale Parameter einer (diskreten oderstetigen) Dichte f(x|θ).Dann ist die gemeinsame Dichte von n unabhängigen identischen Wiederholungen gegebendurch

f(x1, . . . , xn|θ) = f(x1|θ) · . . . · f(xn|θ)

Anstatt diese Dichte als eine Funktion zu beliebigen Werten x1, . . . , xn und einem festenParameter θ zu interpretieren, interpretieren wir die sog. Likelihoodfunktion

L(θ) = f(x1, . . . , xn|θ)

als eine Funktion von θ zu den gegebenen festen Realisationen x1, . . . , xn und wählen alsParameterschätzung denjenigen Parameter θ, für welchen die Likelihood maximal ist, d.h.

L(θ) = maxθL(θ)

Eine so konstruierte Schätzfunktion T = θ(x1, . . . , xn) heiÿt Maximum-Likelihood-Schätzer.Das Maximum bestimmt man meist durch Ableiten und Nullsetzen der Ableitung. Häugist es jedoch geschickter, die sog. Log-Likelihood

lnL(θ) =

n∑i=1

ln f(xi|θ)

in θ zu maximieren, welche an denselben Stellen maximal wird, da die Logarithmusfunktionln eine streng monoton wachsende Funktion ist.

Beispiel: Poisson-VerteilungGesucht: Parameter λ einer Pois(λ)-verteilten Zufallsgröÿe XGegeben: Realisationen x1, . . . , xn von unabhängigen identisch wie X verteilten Zufallsva-riablen X1, . . . , Xn

Likelihoodfunktion

L(λ) = e−λλx1

x1!· . . . · e−λλ

xn

xn!

74

Page 75: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Log-Likelihoodfunktion

lnL(λ) =

n∑i=1

ln e−λλxi

xi!=

n∑i=1

(−λ+ xi lnλ− ln (xi!))

∂ lnL(λ)

∂λ=

n∑i=1

(−1 +xi

λ) = 0

=⇒ λ =

∑ni=1 xin

= x

Beispiel: NormalverteilungGesucht: Parameter µ, σ einer N(µ, σ2)-verteilten Zufallsgröÿe XX1, . . . , Xn unabhängige Wiederholungen einer wie X-verteilten Zufallsgröÿe.Likelihoodfunktion zu den Realisierungen

L(µ, σ) =1√2πσ

e−(x1−µ)

2

2σ2 · . . . · 1√2πσ

e−(xn−µ)2

2σ2

lnL(µ, σ) =

n∑i=1

(ln

(1√2πσ

)− (xi − µ)2

2σ2

)

=

n∑i=1

(− ln√

2π − lnσ − (xi − µ)2

2σ2

)Partielles Dierenzieren nach µ und σ und Nullsetzen

∂ lnL(µ, σ)

∂µ=

n∑i=1

xi − µσ2

= 0 (1)

∂ lnL(µ, σ)

∂σ=

n∑i=1

(− 1

σ+

2(xi − µ)2

2σ3

)= 0 (2)

Aus (1):n∑i=1

xi − nµ = 0,

alsoµ = x

Aus (2):

−nσ

+

n∑i=1

2(xi − µ)2

2σ3= 0

also

σ =

√√√√ 1

n

n∑i=1

(xi − µ)2 =

√√√√ 1

n

n∑i=1

(xi − x)2

Oensichtlich erhält man die bereits bekannten Schätzstatistiken X und S.

75

Page 76: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

9.3.2. Kleinste-Quadrate-Schätzung

Prinzip der kleinsten Quadrate:Wähle den Parameter so, dass die Summe der quadrierten Abweichungen zwischen Beob-achtungswert und geschätztem Wert minimal wird.Wichtig im Rahmen der Regressionsanalyse.

Beispiel: Schätze den Lageparameter µ so, dass

Q(µ) :=n∑i=1

(Xi − µ)2 minimal

dQ

dµ= 2

n∑i=1

(Xi − µ) = 0

=⇒ µ =1

n

n∑i=1

Xi = X

9.4. Intervallschätzung

Wie der Name schon sagt, liefert die Punktschätzung einen (zufälligen) Wert θ für dengesuchten Parameter θ, der aber in den meisten Fällen mit dem gesuchten Wert nichtübereinstimmt.

Ist der Schätzer erwartungstreu, liefert der Standardfehler ein sinnvolles Maÿ für die Prä-zision des Schätzverfahrens.

Ein alternatives Vorgehen steht in Form der Intervallschätzung zur Verfügung, welchesein (zufallsabhängiges) Intervall angibt, in dem der gesuchte Parameter mit einer vorgege-benen (Mindest-)Wahrscheinlichkeit liegt:Zu vorgegebener Irrtumswahrscheinlichkeit α werden aus den StichprobenvariablenX1, . . . , Xn Schätzstatistiken

Gu = gu(X1, . . . , Xn) ≤ Go = go(X1, . . . , Xn)

so konstruiert, dassP (θ ∈ [Gu, Go]) ≥ 1− α

d.h. P (Gu ≤ θ ≤ Go) ≥ 1− α.Dann heiÿt [Gu, Go] (1− α)-Kondenzintervall (oder (1− α)-Vertrauensintervall)für den unbekannten Parameter θ.

Typische Werte für α: 0.1, 0.05, 0.01.Setzt man prinzipiell Gu = −∞ oder Go =∞ (für alle Werte von X1, . . . , Xn) erhält manein einseitiges (1− α)-Kondenzintervall

P (θ ≤ Go) ≥ 1− α

mit der oberen Kondenzschranke Go, bzw.

P (Gu ≤ θ) ≥ 1− α

mit der unteren Kondenzschranke Gu.Ist x1, . . . , xn eine Realisation von X1, . . . , Xn, so ergibt sich durch

[gu(x1, . . . , xn), go(x1, . . . , xn)]

76

Page 77: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

ein realisiertes Kondenzintervall, das den unbekannten Parameter θ entweder enthältoder nicht enthält.

Das (1−α)-Kondenzintervall [Gu, Go] für θ muss so interpretiert werden, dass [Gu, Go] in(1−α) · 100% der Fälle, in denen Kondenzintervalle geschätzt werden, die resultierendenKondenzintervalle den wahren Wert θ enthalten.

9.4.1. Kondenzintervalle für Erwartungswert und Varianz

X1, . . . , Xn unabhängige Wiederholungen von X ∼ N(µ, σ2).

Gesucht: Kondenzintervalle für den unbekannten Erwartungswert µ.

1. Fall: σ2 bekannt

X ist ein Schätzer für µ

X ∼ N(µ,σ2

n

)X − µ

σ√n

∼ N(0, 1)

Sei z1−α2das (1− α

2 )-Quantil der N(0, 1)-Verteilung.Dann gilt

1− α = P

(−z1−α

2≤ X − µ

σ√n

≤ z1−α2

)

= P

(−z1−α

2

σ√n≤ X − µ ≤ z1−α

2

σ√n

)= P

(X − z1−α

2

σ√n≤ µ ≤ X + z1−α

2

σ√n

)Damit ist

[Gu, Go] =

[X − z1−α

2

σ√n, X + z1−α

2

σ√n

]ein (1− α)-Kondenzintervall für µ.n→∞: Breite von [Gu, Go]→ 0

α→ 0: Breite von [Gu, Go]→∞

In ähnlicher Weise ndet man die einseitigen Kondenzintervalle für µ:(−∞, X + z1−α

2

σ√n

]bzw.

[X − z1−α

2

σ√n,∞)

Beispiel: Proteingehalt eines Biolms in mg/g TrockenmasseModellannahme: Proteingehalt ist N(µ, σ2)-verteiltStichprobe (n=80)

77

Page 78: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

x <- c(321 ,334 ,356 ,398 ,376 ,343 ,312 ,334 ,365 ,376 ,334 ,355 ,388 ,

322 ,311 ,388 ,339 ,350 ,354 ,334 ,324 ,323 ,345 ,376 ,352 ,383 ,

326 ,327 ,334 ,385 ,332 ,312 ,385 ,360 ,398 ,399 ,360 ,310 ,334 ,

323 ,335 ,372 ,383 ,372 ,382 ,389 ,389 ,311 ,325 ,327 ,373 ,382 ,

314 ,315 ,317 ,318 ,311 ,390 ,380 ,370 ,385 ,392 ,399 ,373 ,335 ,

336 ,335 ,335 ,335 ,335 ,334 ,335 ,334 ,336 ,334 ,331 ,339 ,335 ,

331 ,338)

Punktschätzung für den unbekannten Erwartungswert µ: µ = x = 349.25Punktschätzung für die unbekannte Varianz σ2: σ2 = s2 = 27.12 (Stichprobenvarianz)

Schätzer für den Standardfehler von x: σx =√

s2

n = 3.03

95%-Kondenzintervall für den Erwartungswert bei bekannter Standardabweichung (diehier nicht bekannt ist, deshalb nehmen wir mal σ = 27 an):[

x− z1−α2

σ√n, x+ z1−α

2

σ√n

]=

[349.25− 1.96 · 27√

80, 349.25 + 1.96 · 27√

80

]= [343.31, 355.19]

Berechnung des konkreten 95%-Kondenzintervalles in R:

> mean(x)-qnorm (0.975)* sd(x)/sqrt(length(x))

[1] 343.3061

> mean(x)+ qnorm (0.975)* sd(x)/sqrt(length(x))

[1] 355.1939

In einer kleinen Simulationsstudie überprüfen wir, ob das oben angegebene (theoretische)Kondenzintervall das vorgeschriebene Niveau einhält:

in.conf.int <- rep(FALSE ,1000)

for (i in 1:1000)

x <- rnorm (80, mean =350, sd=27)

lower <- mean(x)-qnorm (0.975)* sd(x)/sqrt(length(x))

upper <- mean(x)+qnorm (0.975)* sd(x)/sqrt(length(x))

cat("i=",i,":",c(lower ,upper), "\n")

if (lower <= 350 & 350 <= upper )

in.conf.int[i] <- TRUE

table(in.conf.int )/1000

2. Fall: σ2 unbekannt

Da σ2 unbekannt ist, ist auch die Verteilung von X−µσ√n

unbekannt. Deshalb wird σ durch

S =

√√√√ 1

n− 1

n∑i=1

(Xi − X)2

geschätzt. Die ZufallsvariableX − µ

S√n

78

Page 79: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

ist jetzt allerdings nicht mehr normalverteilt, sondern tn−1- verteilt mit (n− 1) Freiheits-graden.Sind Z,Z1, . . . , Zn unabhängige N(0, 1)-verteilte Zufallsvariablen, dann heiÿt die Vertei-lung von

T =Z√

Z21+···+Z2

n

n

t- oder Student-verteilt mit n Freiheitsgraden.

Die Tails (Flanken) der Dichten fallen nur ∼ x−n und nicht ∼ exp(−x2

2 ) wie bei derNormalverteilung.tn−1,1−α

2sei das (1− α

2 )-Quantil der tn−1-Verteilung.

Konstruktion eines (1− α)-Kondenzintervalles für den Erwartungswert µ:

1− α = P

(−tn−1,1−α

2≤ X − µ

S√n

≤ tn−1,1−α2

)

= P

(X − tn−1,1−α

2

S√n≤ µ ≤ X + tn−1,1−α

2

S√n

)Damit ist

[Gu, Go] =

[X − tn−1,1−α

2

S√n, X + tn−1,1−α

2

S√n

]ein (1− α)-Kondenzintervall für den Erwartungswert µ, falls σ2 unbekannt ist.Da für groÿe Stichprobenumfänge n das arithmetische Mittel X approximativ N(µ, σ

2

n )-verteilt ist, kann man zeigen, dass für n ≥ 30

[Gu, Go] =

[X − z1−α

2

S√n, X + z1−α

2

S√n

]ein approximatives (1−α)-Kondenzintervall für den Erwartungswert µ ist, falls σ2 unbe-kannt ist.Konstruktion eines (1−α)-Kondenzintervalles für die Varianz bei normalverteilter Grund-gesamtheit:

σ2 kann mittels S2 geschätzt werden.

Sind Z1, . . . , Zn unabhängige N(0, 1)-verteilte Zufallsvariablen, so besitzt

Z21 + · · ·+ Z2

n

eine so genannte χ2-Verteilung mit n Freiheitsgraden.

Man kann zeigen, dassn− 1

σ2S2 ∼ χ2

n−1

Seien χ2n−1,α

2und χ2

n−1, 1−α2

die α2 - bzw. (1 − α

2 )-Quantile der χ2-Verteilung mit (n − 1)

Freiheitsgraden.

79

Page 80: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Dann gilt:

1− α = P

(χ2n−1,α

2≤ n− 1

σ2S2 ≤ χ2

n−1,1−α2

)= P

((n− 1)S2

χ2n−1,1−α

2

≤ σ2 ≤ (n− 1)S2

χ2n−1,α

2

)Also ist [

(n− 1)S2

χ2n−1,1−α

2

,(n− 1)S2

χ2n−1,α

2

]ein (1−α)-Kondenzintervall für die Varianz bei einer normalverteilten Grundgesamtheit.Bei einem dichotomen Merkmal X wird die Auftretenswahrscheinlichkeit

p = P (X = 1)

bei Vorliegen der Stichprobe X1, . . . , Xn von unabhängigen Bin(1, p)-verteilten Zufallsva-riablen mittels

p =1

n

n∑i=1

Xi

geschätzt. Da∑n

i=1Xi ∼ Bin(n, p), ist nach dem zentralen Grenzwertsatz

X − E(X)√V ar(X)

=p− p√p(1−p)n

approximativ N(0, 1)-verteilt.Da p unbekannt ist, wird p durch p geschätzt. Dann gilt

1− α ∼ P

−z1−α2≤ p− p√

p(1−p)n

≤ z1−α2

= P

(p− z1−α

2

√p(1− p)

n≤ p ≤ p+ z1−α

2

√p(1− p)

n

)Also ist

[Gu, Go] =

[p− z1−α

2

√p(1− p)

n, p+ z1−α

2

√p(1− p)

n

]ein approximatives (1−α)-Kondenzintervall für die Wahrscheinlichkeit p in einer Bernoulli-verteilten Grundgesamtheit.Beispiel: Sonntagsfrage

Von n = 496 befragte Frauen zeigten∑n

i=1Xi = 200 eine Präferenz für die Unionsparteien.Also ist p = 200

496 .Bei einer Sicherheitswahrscheinlichkeit von 1− α = 0.95 erhält man für p = P (X = 1) einapproximatives 95%-Kondenzintervall

[p− z1−α

2

√p(1− p)

n, p+ z1−α

2

√p(1− p)

n

]

=

[0.403− 1.96

√0.403 · 0.597

496, · · ·+ . . .

]= [0.360, 0.446]

80

Page 81: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

10. Testen von Hypothesen

Neben dem Schätzen von Parametern theoretischer Verteilungen ist es oft von Interes-se, Vermutungen über einen Parameter oder eine Verteilung in der Grundgesamtheit zuüberprüfen.

Die Vermutung wird in Bezug auf die Grundgesamtheit aufgestellt, deren Überprüfungjedoch unter Verwendung einer Stichprobe durchgeführt. Inwieweit der Schluss von derStichprobe auf die Grundgesamtheit zulässig ist, ist Teil des statistischen Tests.

10.1. Binomial- und Gauÿ-Test

Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zweiAntworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragenfalsch.

Frage: Hat der Student geraten oder tatsächlich etwas gewusst?

Xi =

1, falls i-te Antwort des Studenten richtig0, sonst

X1, ..., X30 seien unabhängige Bin(1, p)-verteilte Zufallsvariablen.Also ist S =

∑30i=1Xi Bin(30, p)-verteilt.

Wenn der Student nichts weiÿ, ist p = 12 .

Besitzt der Student gewisse Kenntnisse, so ist p > 12

Auf Grundlage der Daten (S = 19) wollen wir uns zwischen der Nullhypothese

Ho : p =1

2

und der Alternativhypothese

H1 : p >1

2

entscheiden.

Ist die Prüfgröÿe oder Teststatistik

S =30∑i=1

Xi

gröÿer als ein kritischer Wert c, entscheiden wir uns für H1.Wie ist der kritische Wert c nun zu wählen?

c = 16, c = 17, c = 18, . . .?

c wird so gewählt, dass H0 höchstens mit Wahrscheinlichkeit α = 0.05 fälschlicherweiseabgelehnt wird:

α = 0.05 > P ( S > c︸ ︷︷ ︸H0 wird abgelehnt

|H0)

= 1− P (S ≤ c|H0)

= 1−c∑i=0

(30

i

)(1

2

)i(1− 1

2

)30−i

81

Page 82: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Es ist also die kleinste natürliche Zahl c gesucht, so dass

c∑i=0

(30

i

)(1

2

)30

> 0.95

Bestimmung des kritischen Wertes c mittels R:

> qbinom (0.95 , size=30, prob =0.5)

> 19

Damit wählen wir c = 19 als kritischen Wert.

Da S = 19, können wirH0 nicht ablehnen, wenn wir sicherstellen wollen, dassH0 höchstensmit Wahrscheinlichkeit α = 0.05, dem sogenannten Niveau, fälschlicherweise abgelehntwird.

Abbildung 17: Binomialverteilung

Erstellung der Graken mittels:

plot(dbinom (0:30 , size=30, prob =0.5), type="h");

plot(pbinom (0:30 , size=30, prob =0.5), type="s");

In unserem Beispiel wird

0, 1, . . . , 19 als Annahmebereich20, 21, . . . , 30 als Ablehnungsbereich

bezeichnet.

Der so konstruierte statistische Hypothesentest heiÿt exakter Binomialtest.

Da der kritische Wert c für groÿe Stichprobenumfänge n aufwändig zu berechnen ist, ver-wendet man stattdessen den approximativen Binomialtest.

82

Page 83: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

10.1.1. Approximativer Binomialtest

Beispiel: statistische Qualitätskontrolle Bei der Produktion von Speicherchips ent-stehen 10% unbrauchbare Chips. Anhand einer Stichprobe mit Umfang n = 1000 sollüberprüft werden, ob der Produktionsprozess sich verschlechtert hat, also mehr als 10%Ausschuss entsteht.

Wie oben seien

Xi =

1, falls i-tes Stichprobenelement Ausschuss ist0, sonst

und X1, ..., Xn unabhängige Bin(1, p)-verteilte Zufallsvariablen.Dann ist

S =

n∑i=1

Xi ∼ Bin(n, p)

und nach dem zentralen Grenzwertsatz von Moivre-Laplace

Z =S − np√np(1− p)

ungefähr N(0, 1)-verteilt

Das Testproblem ist:

H0 : p = p0 = 0.1 gegen H1 : p > p0 = 0.1

Der eigentlich interessierende Sachverhalt wird durch die Alternativhypothese ausgedrückt.

Wir lehnen H0 ab, falls S bzw. Z zu groÿ ist. Dabei soll sichergestellt werden, dass dieAbweichung von S zu E(S) = np0 bei Vorliegen der Nullhypothese nicht alleine durch denZufall erklärt werden kann.Hierbei ist es günstig, den kritischen Wert für Z anstatt für S zu ermitteln:

0.05 = α > P ( Z > c︸ ︷︷ ︸H0 ablehnen

|H0)

≈ 1− Φ(c), da Z ∼ N(0, 1) unter H0

Also ist c = z1−α, das (1−α)-Quantil der N(0, 1)-Verteilung, als kritischer Wert zu wählen.Daraus ergibt sich der Ablehnungsbereich

(z1−α,∞)

H0 wird also zum Niveau α abgelehnt, falls

Z =S − np0√np0(1− p0)

> z1−α

83

Page 84: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Abbildung 18: Ablehnungsbereich (Quellcode auf S.146)

Für n = 1000, p = 0.1, α = 0.05 wird H0 abgelehnt, falls

Z =S − 100√

90> 1.64

d.h.S > 115.56

Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualitätverbessert hat, ist das Testproblem:

H0 : p = p0 gegen H1 : p < p0

zu betrachten. Der dazugehörige Ablehnungsbereich lautet

(−∞,−z1−α) = (−∞, zα)

Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualitätverändert hat, ist das Testproblem:

H0 : p = p0 gegen H1 : p 6= p0

zu betrachten. Der dazugehörige Ablehnungsbereich lautet

c = (−∞, zα/2) ∪ (z1−α/2,∞)

84

Page 85: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Abbildung 19: Beidseitiger Ablehnungsbereich (Quellcode auf S.147)

Zusammenfassung: Approximativer BinomialtestGegeben seien folgende Testprobleme über den Parameter p in einer Bin(n, p)-Verteilung:

(a) H0 : p = p0 gegen H1 : p 6= p0

(b) H0 : p = p0 gegen H1 : p < p0

(c) H0 : p = p0 gegen H1 : p > p0

Basierend auf der Prüfgröÿe

Z =S − np0√np0(1− p0)

welche unter H0 näherungsweise N(0, 1)-verteilt ist, und dem vorgegebenen Niveau α ent-scheidet man sich für H1 im Testproblem

(a), falls |z| > z1−α/2(b), falls z < −z1−α(c), falls z > z1−α

10.1.2. Gauÿ-Test

Beispiel: Kontrollkarten Es sei bekannt, dass ein Produktionsprozess Bleistifte produ-ziert, deren Längen X approximativ N(µ, σ2)-verteilt sind mit Erwartungswert µ = 17[cm]und bekannter Varianz σ2 = 2.25[cm2]

Um zu überprüfen, ob die produzierten Bleistifte dem Sollwert (mit erlaubter zufälligerAbweichung) entsprechen, d.h. EX = µ0 = 17, betrachtet man das Testproblem

H0 : µ = µ0 = 17 gegen H1 : µ 6= 17

85

Page 86: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Dazu entnimmt man der laufenden Produktion Bleistifte mit LängenX1, ..., Xn ∼ N(µ, σ2)und untersucht die Prüfgröÿe X oder die standardisierte Prüfgröÿe

Z =X − µ0

σ

√n

welche unter H0 N(0, 1)-verteilt ist.H0 wird dann zum Niveau α abgelehnt, falls

|Z| > z1−α/2

Zahlenbeispiel: n = 5, x = 18.1, α = 0.01

z =x− µ0

σ

√n =

18.1− 17

1.5

√5 = 1.64

z1−α/2 = 2.5758

Da |z| ≤ z1−α/2 kann H0 zum Niveau α = 0.01 nicht abgelehnt werden. Ein Eingri in denProduktionsprozess ist also nicht nötig.In der statistischen Qualitätskontrolle werden für jede Stichprobe die Mittelwerte x überder Stichprobennummer in einer Grak eingetragen und mit den Kontrollgrenzen

µ0 − z1−α/2 ·σ√n

und µ0 + z1−α/2 ·σ√n

verglichen. Bendet sich x auÿerhalb dieses dadurch denierten horizontalen Streifens, giltder Prozess als statistisch auÿer Kontrolle.

Zusammenfassung: Gauÿ-TestUnabhängige Zufallsvariablen X1, ...Xn jeweils N(µ, σ2)-verteilt mit bekannter Varianzσ2 oder, falls n groÿ (Faustregel: n ≥ 30) mit beliebiger stetiger Verteilung, E(Xi) =µ, V ar(Xi) = σ2. Betrachte folgende Testprobleme:

(a) H0 : µ = µ0 gegen H1 : µ 6= µ0

(b) H0 : µ = µ0 gegen H1 : µ < µ0

(c) H0 : µ = µ0 gegen H1 : µ > µ0

Unter H0 (d.h. µ = µ0) ist

Z =X − µ0

σ

√n N(0, 1)-verteilt bzw. näherungsweise N(0, 1)-verteilt

Basierend auf der Prüfgröÿe Z fällt die Entscheidung für H1 im Testproblem

(a), falls |z| > z1−α/2(b), falls z < −z1−α(c), falls z > z1−α

10.2. Prinzipien des Testens

1. Schritt: Quantizierung der Fragestellung

2. Schritt: Formulierung der Modellannahmen

3. Schritt: Festlegung der Null- und Alternativhypothese

86

Page 87: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

4. Schritt: Wahl des Signikanzniveaus

5. Schritt: Wahl einer Prüfgröÿe (Teststatistik), die in der Lage ist, zwischen H0 und H1

zu dierenzieren. Bestimmung der Verteilung der Prüfgröÿe unter der Nullhypothese.Konstruktion des Ablehnungsbereiches.

6. Schritt: Berechnung des Wertes der Prüfgröÿe für die konkrete Stichprobe

7. Schritt: Testentscheidung

Falls Abweichungen nach oben und unten interessieren, wie im Fall (a) im Gauÿ-Test, heiÿtdas Testproblem zweiseitig, falls nur Abweichungen in eine Richtung interessieren, wie imFall (b) und (c) im Gauÿ-Test, heiÿt das Testproblem einseitig.

Besteht die Hypothese H0 oder H1 nur aus einem Punkt, nennt man H0 bzw. H1 einfach,sonst zusammengesetzt

Tests, die keine genaueren Annahmen über die Verteilung der Zufallsvariablen X1, ...Xn machen, heiÿen nichtparametrisch. Werden Annahmen über den Verteilungstyp ge-macht, so heiÿen die Tests parametrisch.

10.2.1. Fehlentscheidungen

Bei einem statistischen Testproblem H0 gegen H1 und einem geeigneten statistischen Testspricht man von einem

• Fehler 1. Art, wenn H0 verworfen wird, obwohl H0 wahr ist

• Fehler 2. Art, wenn H0 beibehalten wird, obwohl H1 wahr ist

Es sind dehalb folgende Ausgänge bei einem statistischen Test denkbar:

Entscheidung fürH0 H1

falschH0 wahr richtig Fehler 1. Art

(α-Fehler)falsch

H1 wahr Fehler 2. Art richtig(β-Fehler)

Ein statistischer Test heiÿt Test zum Signikanzniveau α (wobei 0 < α < 1) oderSignikanztest, falls:

P (H1 annehmen |H0 wahr) ≤ αd.h.

P (Fehler 1. Art) ≤ αTypische Werte für das Signikanzniveau α sind 0.1, 0.05, 0.01.

Interpretation: Es werden 100 Stichproben vom Umfang n gezogen und es gelte die Null-hypothese. Bei 100 Tests zum Niveau α wird die Nullhypothese dann im Mittel höchstensin 5% der Fälle (fälschlicherweise) abgelehnt werden.

Im Falle einer Ablehnung der Nullhypothese sagt man, dass das Ergebnis statistischsignikant zum Niveau α sei. Die Wahrscheinlichkeit für einen Fehler 2. Art kann manmeist nicht kontrollieren. Diese Ungleichbehandlung der Fehler 1. und 2. Art ist der Grunddafür, dass die zu sichernde Behauptung als Alternativhypothese formuliert wird.

87

Page 88: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

10.2.2. Zusammenhang zwischen statistischen Tests und Kondenzintervallen

Beispiel Gauÿ-Test

Verwerfe H0, falls |z| =∣∣ x−µ0

σ

√n∣∣ > z1−α/2

Behalte H0, falls |z| =∣∣∣∣ x− µ0

σ

√n

∣∣∣∣ ≤ z1−α/2︸ ︷︷ ︸⇔ |x− µ0| ≤ z1−α/2 · σ√

n

⇔ µ0 ∈[x− z1−α/2 · σ√

n, x+ z1−α/2 · σ√

n

]Damit ist H0 genau dann beizubehalten, wenn µ0 im (1−α)-Kondenzintervall für µ liegt.

Allgemein: Ein 2-seitiges (1−α)-Kondenzintervall entspricht dem Annahmebereich deszugehörigen 2-seitigen Signikanztests zum Niveau α.

10.2.3. Überschreitungswahrscheinlichkeit

Der p-Wert oder die Überschreitungswahrscheinlichkeit ist deniert als die Wahr-scheinlichkeit den beobachteten Prüfgröÿenwert oder einen in Richtung der Alternativeextremeren Wert zu beobachten:

Ist der p-Wert kleiner oder gleich dem vorgegebenen Signikanzniveau, wird H0 verworfen,andernfalls beibehalten.

Fortsetzung des Beispiels zum Gauÿ-Test: Dort wurde die Teststatistik |z| betrach-tet, welche für die Stichprobe den Wert z = 1.64 lieferte. Der p-Wert ist jetzt gegebendurch

p = P (|Z| ≥ 1, 64|H0) = 2(1− Φ(1.64)) ≈ 0.1

Abbildung 20: P-Wert (Inhalt der hellgrauen Fläche beträgt α − p. Inhalt der dunklerenFläche ist p) (Quellcode auf S.147)

88

Page 89: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

10.2.4. Gütefunktion

Für vorgegebenes Signikanzniveau α und festen Stichprobenumfang n gibt die Güte-funktion g die Wahrscheinlichkeit für einen statistischen Test an, die Nullhypothese zuverwerfen:

g(µ) = P (H0 verwerfen| µ︸︷︷︸wahrer Parameter

)

Ist µ ∈ H0, so ist g(µ) ≤ α Ist µ ∈ H1, so ist 1−g(µ) die Wahrscheinlichkeit für den Fehler2. Art

Abbildung 21: Verlauf der idealen Gütefunktion, die aber praktisch nicht möglich ist.(Quellcode auf S.148)

Abbildung 22: Verlauf der Gütefunktion beim einseitigen Gauÿ-Test. (Quellcode auf S.149)

89

Page 90: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Berechnung der Gütefunktion für den einseitigen Gauÿ-Test:

g(µ) = P (H0 verworfen | µ)

= P

(X − µ0

σ

√n > z1−α

∣∣∣∣µ)= P

(X − µ+ µ− µ0

σ

√n > z1−α

∣∣∣∣ µ)= P

(X − µσ

√n︸ ︷︷ ︸

∼N(0,1)

> z1−α −µ− µ0

σ

√n

∣∣∣∣ µ)

= 1− Φ

(z1−α −

µ− µ0

σ

√n

)

Abbildung 23: Verlauf der Gütefunktion beim zweiseitigen Gauÿ-Test. (Quellcode aufS.150)

Eigenschaften der Gütefunktionen eines statistischen Tests

• Für Werte aus H1 heiÿt die Gütefunktion Trennschärfe oder Macht

• Für Werte aus H0 ist die Gütefunktion kleiner oder gleich α

• Für wachsendes n wird die Macht eines Tests gröÿer, d.h. die Gütefunktion wirdsteiler

• Für wachsendes α wird die Macht eines Tests gröÿer

• Für einen wachsenden Abstand zwischen Werten aus H1 und H0 wird die Machteines Tests gröÿer.

10.3. Durchführung eines Tests mit R

Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zwei Ant-worten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen falsch.

90

Page 91: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

> binom.test(x=19, n=30, p=0.5, alternative =" greater ")

Exact binomial test

data: 19 and 30

number of successes = 19, number of trials = 30, p-value = 0.1002

alternative hypothesis: true probability of success is greater than 0.5

95 percent confidence interval:

0.4669137 1.0000000

sample estimates:

probability of success

0.6333333

91

Page 92: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

11. Spezielle Tests

11.1. Überblick

Statistische Tests gibt es wie Sand am Meer. Im Folgenden beschränken wir uns auf einigeTestverfahren zu ausgewählten Standardproblemen.Einteilung der nachfolgenden Testverfahren

1. Einstichprobenfall: Untersuchung einer Verteilung eines eindimensionalen Merk-mals, z.B.

H0: Die zu erwartende Quadratmiete in einem bestimmten Wohnviertel beträgt 8Euro/m2.

H0: Die Nettomiete ist normalverteilt.

2. Zweistichprobleme: Vergleich von Parametern aus zwei Populationen.

H0: Die zu erwartende Nettomiete in den Wohnvierteln A und B ist identisch.

H0: Das zu erwartende Einkommen männlicher und weiblicher Arbeitnehmer (invergleichbarer Position einer Branche) ist gleich.

3. Zusammenhangsanalyse, z.B.

H0: Die Korrelation zwischen Mietpreis und Quadratzahl beträgt 0.8.

H0: Geschlecht und Parteipräferenz sind unabhängig.

Konstruktion von Testsθ sei ein interessierender Parameter. Es soll ein Test zu Hypothesen der Form H0: θ = θ0

konstruiert werden.

• Tests basieren häug auf Schätzern für Parameter.

• Die Schätzer werden unter Verwendung des Nullhypothesenwertes θ0 zu einer Test-statistik T standardisiert bzw. transformiert, so dass die Verteilung von T nicht mehrvon unbekannten Gröÿen abhängt.

• T wird gewöhnlich so konstruiert, dass T groÿe bzw. kleine Werte eher unter derAlternative annimmt.

• Der Ablehnungsbereich des Tests wird unter Verwendung von Quantilen von T unterH0 so festgelegt, dass die Nullhypothese für groÿe bzw. kleine Werte abgelehnt wird.

11.2. Einstichprobentests

Beispiel: Mietspiegel.Die Quadratmetermiete für Wohnungen in einer Stadt A unter 50 m2, die nach 1983 gebautwurden, soll untersucht werden. Eine Teilstichprobe von n = 11 Wohnungen ergab

i 1 2 3 4 5 6xi 13.22 6.81 10.22 14.03 8.04 10.16i 7 8 9 10 11xi 9.43 13.07 13.63 5.05 11.63

92

Page 93: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

In der Stadt B liegt der Durchschnittswert bei 8 Euro/m2. Es soll überprüft werden, obder Quadratmeterpreis in Stadt A signikant gröÿer ist als in Stadt B.Die Quadratmetermieten werden als normalverteilt angesehen. Der Erwartungswert µ istder interessierende Parameter, σ sei nicht bekannt.Hypothesen : Die Forschungshypothesen ordnen wir der Alternativen zu.H0 : µ ≤ 8 = µ0 gegen H1 : µ > 8 = µ0

Ansatz : Schätzen von µ mit

Xn ∼ N(µ,σ2

n

)und T :=

√nXn − µ0

Sn=√

11Xn − 8

Sn∼ t10 = tn−1

wenn µ = µ0 = 8 ist, wobei t10 die t-Verteilung mit 10 Freiheitsgraden ist.Mit Xn − µ0 ≈ µ− µ0 (für groÿe n) erwarten wir groÿe Werte der Teststatistik unter derAlternative und kleine Werte unter der Nullhypothese.Für µ = µ0 = 8 gilt

P (T > tn−1,1−α) = 1− FT (tn−1,1−α) = 1− (1− α) = α

Wenn wirH0 ablehnen, wenn t > tn−1,1−α

erhalten wir einen Test zum Niveau α.Allgemein lassen sich folgende Tests konstruieren:

Einstichproben-t-TestSeien X1, . . . , Xn unabhängig N(µ, σ2)-verteilte Zufallsvariablen.Wir betrachten folgende Testprobleme über den Parameter µ:

1. H0: µ = µ0 gegen H1: µ 6= µ0,

2. H0: µ ≥ µ0 gegen H1: µ < µ0,

3. H0: µ ≤ µ0 gegen H1: µ > µ0.

Basierend auf der Teststatistik

T =Xn − µ0√S2n/n

=√nXn − µ0

Sn(Beachte: T ∼ tn−1, falls µ = µ0)

und dem vorgegebenen Signikanzniveau α wird die Nullhypothese abgelehnt,

1. falls |T | > tn−1,1−α/2 ,

2. falls T < −tn−1,1−α ,

3. falls T > tn−1,1−α .

Es wird ein t-Test zum Signikanzniveau α = 0.05 durchgeführt. Hypothese:

H0 : µ ≤ 8 = µ0 gegen H1 : µ > 8 .

Teststatistik:

T =Xn − µ0√S2/n

93

Page 94: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Berechnung des Wertes der Teststatistik:

x =1

n

n∑i=1

xi =1

11(13.22 + 6.81 + . . .+ 11.63) = 10.4809 ,

n∑i=1

x2i = (13.222 + . . .+ 11.632) = 1296.587 ,

s2 =1

n− 1

(n∑i=1

x2i − n · x2

)=

1

10(1296.5871− 11 · 10.48092) = 8.8245 .

t =√nx− µ0√

s2=√

1110.4809− 8√

8.8245= 2.77

Der kritische Wert ist zum Niveau α = 0.05 gleich tn−1,1−α = t10,0.95 = 1.8125.Testentscheidung: Da t = 2.77 > 1.8125 ist, wird die Nullhypothese abgelehnt.Wenn die Stichprobe groÿ genug ist, kann man auf die Normalverteilungsvoraussetzungenauch verzichten.

> x <- c(13.22 ,6.81 ,10.22 ,14.03 ,8.04 ,10.16 ,9.43 ,13.07 ,13.63 ,

5.05 ,11.63)

> t.test(x,mu=8, alternative =" greater ")

One Sample t-test

data: x

t = 2.7699 , df = 10, p-value = 0.009895

alternative hypothesis: true mean is greater than 8

95 percent confidence interval:

8.857557 Inf

sample estimates:

mean of x

10.48091

Beispiel: Getreideockenabfüllung.Ein Hersteller von Zerealien möchte die Qualität seiner Abfüllmaschine testen. Die Ma-schine soll 300g pro Packung abfüllen. Der Hersteller will feststellen, ob es systematischeAbweichungen vom Normwert gibt. Dazu werden 100 Packungen zufällig der Produkti-on entnommen und gewogen. Es wird ein mittleres Gewicht von 296g festgestellt und eineStichprobenvarianz von 12.52g2. Stellen Sie mit einem Test zum Signikanzniveau α = 0.05fest, ob das eine signikante Abweichung vom Normwert ist.Die Abfüllgewichte X1, . . . , Xn seien u.i.v., aber nicht notwendigerweise normalverteilt.Dann gilt nach zentralem Grenzwertsatz

Xn − µ√S2n/n

ist asymptotisch N(0, 1)-verteilt.

Approximativer Gauÿ-Test (beliebige Verteilung)Seien X1, . . . , Xn unabhängig und identisch verteilt mit n > 30.Wir betrachten folgende Testprobleme über den Parameter µ:

1. H0: µ = µ0 gegen H1: µ 6= µ0,

2. H0: µ ≥ µ0 gegen H1: µ < µ0,

94

Page 95: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

3. H0: µ ≤ µ0 gegen H1: µ > µ0.

Basierend auf der Teststatistik

T =Xn − µ0√S2n/n

(Beachte: T ist asymptotisch N(0, 1) verteilt, falls µ = µ0)

und dem vorgegebenen Niveau α fällt die Entscheidung für H1 im Testproblem,

1. falls |T | > z1−α/2

2. falls T < −z1−α

3. falls T > z1−α

Der Test wird genauso durchgeführt wie ein Gauÿ-Test, aber es ist nur ein approximativerTest zum Niveau α, d.h. der Fehler 1. Art ist nur näherungsweise gleich α für µ = µ0.

Beispiel (fortgesetzt): Getreideockenabfüllung.Hypothesen:

H0 : µ = 300 = µ0 gegen H1 : µ 6= 300 .

Teststatistik:

t =x− µ0√s2n/n

=296− 300√12.52/100

= −3.2

Ablehnung der Nullhypothese: α = 0.01, z1−α/2 = z0.995 = 2.57.

H0 ablehnen, wenn |t| > 2.57

Entscheidung: Da |t| = 3.2 > 2.57 ist, ist die Nullhypothese zum Signikanzniveau 0.01abzulehnen.Für obiges Beispiel ergibt sich:

> xbar <- 296

> mu <- 300

> s <- 12.5

> n <- 100

> t <- (xbar -mu)/sqrt(s^2/n)

> t

[1] -3.2

> abs(t) > qnorm (0.995)

[1] TRUE

Berechnung des p-Wertes:

> p.value <- pnorm(t)/2

> p.value

[1] 0.000343569

χ2-Test für kategoriale MerkmaleMerkmale sind die Eigenschaften, für die wie uns bei Untersuchungsobjekten interessieren.Kategoriale Merkmale nehmen nur endliche viele verschiedene Werte (Ausprägungen) anund werden mit diskreten Zufallsvariablen beschrieben.Beispiel: Parteipräferenz.In einem Land gingen bei der letzten Wahl 40% der Stimmen an Partei A, 35% an ParteiB und 25% an Partei C.

95

Page 96: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Eine Woche vor der aktuell anstehenden Wahl ergab eine Stichprobenbefragung vom Um-fang n = 500 folgende Verteilung:

42% für Partei A, 38% für Partei B und 20% für Partei C.Hat sich die Wahlpräferenz gegenüber der letzten Wahl (signikant) verändert?Aufgabe: Vergleiche zweier diskreter Verteilungen, nämlich der Stimmenverteilung bei derletzten Wahl mit der Verteilung, die sich aus der Stichprobenbefragung ergibt.Wahlergebnis im Jahr 2000Partei i 1 2 3πi 0.40 0.35 0.25

Umfrage im Jahr 2004Partei i 1 2 3fi 0.42 0.38 0.20

Die Nullhypothese ist hierbei, dass sich die Verteilung der Stimmen im Vergleich zur Vor-wahl nicht verändert hat. Dann sollten unter der Nullhypothese die relativen Häu-gkeiten fi relativ gut mit den Wahrscheinlichkeiten πi übereinstimmen.Geben die beobachteten Abweichungen zwischen fi und πi Anlass, anzunehmen, dass sichdie Verteilung der Wählergunst verschoben hat?X . . . diskrete Zufallsvariable, die gewählte Partei angibt (i = 1, 2, 3),

P (X = i) = pi , i = 1, 2, 3 .

X1, . . . , Xn u.i.v wie X.Hypothese:

H0 : p1 = π1 und p2 = π2 und p3 = π3 gegen H1 : H0 ist falsch.

Ni sei die Anzahl der Wähler der Stichprobe, die sich für Partei k entschieden haben.

⇒ Ni ∼ Bin(500, pi)

Dann sind die relativen Häugkeiten pi = Ni/n geeignete Schätzer für pi.Es kann gezeigt werden (ohne Herleitung):

χ2 =3∑i=1

(Ni − nπi)2

nπi= n

3∑i=1

(Ni/n− πi)2

πi= n

3∑i=1

(pi − πi)2

πi∼ χ2

2 ,

falls H0 wahr ist.Es gilt: Groÿe Werte von χ2 treten auf bei groÿen Abweichungen zwischen den Wahr-scheinlichkeiten πi und den relativen Häugkeiten Ni/n. Bei groÿer Übereinstimmung sinddie Werte von χ2 dagegen klein.Anmerkung: Wegen N1 +N2 +N3 = 500 sind die Ni nicht unabhängig! Falls sie unabhängigwären, würde unter H0 gelten:

Ni − nπi√nπi(1− πi)

asymp. N(0, 1)-verteilt

⇒ χ2 =

3∑i=1

(Ni − nπi)2

nπi(1− πi)asymp. χ2

3-verteilt.

χ2-AnpassungstestSeien X1, . . . , Xn u.i.v. wie X, wobei X diskret mit Träger T = 1, . . . , k.Wir betrachten folgendes Testproblem

H0:P (X = i) = πi , i = 1, . . . , kgegen H1:P (X = i) 6= πi, für mindestens ein i ∈ T .

96

Page 97: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

(In H0 kann implizit eine hypothetische Verteilung enthalten sein!)Beachte: χ2 ∼ χ2

k−1 , falls H0 wahr ist. Die Approximation ist anwendbar, falls nπi ≥ 1 füralle i und nπi ≥ 5 für mindestens 80% des Trägers ist.Basierend auf der Teststatistik

χ2 =k∑i=1

(ni − nπi)2

nπi

und dem vorgegebenen Niveau α fällt die Entscheidung für H1, falls

χ2 > χ2k−1,1−α ,

wobei χ2k−1,1−α das (1− α)-Quantil der χ2

k−1-Verteilung bezeichnet.Beispiel: Parteipräferenz.X1, . . . , X500 unabhängig und identisch verteilt wie XTestproblem: H0: P (X = i) = πi gegen H1: P (X = i) 6= πi für mindestens ein i

Teststatistik: χ2 =3∑i=1

(Ni − nπi)2

nπi∼ χ2

2, falls H0 wahr ist.

Signikanzniveau: α = 0.05Kritischer Wert: c = χ2

2,0.95 = 5.99

Testprozedur: Falls χ2 > 5.99, verwerfe H0, sonst nicht.Wert der Teststatistik

χ2 =(210− 200)2

200+

(190− 175)2

175+

(100− 125)2

125= 6.79 > 5.99

⇒ H0 wird verworfen, d.h., das Wahlverhalten hat sich signikant verändert.Mit den Zahlen des obigen Beispiels:

> x <- c(210 ,190 ,100) # Verteilung im Jahr 2004

> p <- c(200 ,175 ,125) # Verteilung im Jahr 2000

> chisq.test(x,p)

Pearson 's Chi -squared test

data: x and p

X-squared = 6, df = 4, p-value = 0.1991

Warnmeldung: In chisq.test(x, p) :

Chi -Quadrat -Approximation kann inkorrekt sein

11.3. Zweistichprobentests

Beispiel: Autopreise.US-Behörden haben japanischen Autoherstellern vorgeworfen, ihre Autos in Japan teurerzu verkaufen als in den USA und auf diese Weise die US-Verkäufe zu subventionieren. EinÖkonom hat die Verkaufspreise (in Tausend US-$) von vergleichbaren Autos ausgewertet.x1, . . . , x50 bezeichnen die Verkaufspreise an 50 Standorten aus den USA und y1, . . . , y30

die Verkaufspreise an 30 Standorten in Japan. Dann ergaben sich folgende Werte

x =1

n

n∑i=1

xi = 16.596, s2X =

1

n− 1

n∑i=1

(xi − x)2, sX =√s2X = 1.981

y =1

m

m∑i=1

yi = 17.250, s2Y =

1

m− 1

m∑i=1

(yi − y)2, sY =√s2Y = 1.865

97

Page 98: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Unterschiede in den Mittelwerten sind festzustellen. Können diese Unterschiede auch zu-fällig zustande gekommen sein oder sprechen sie für niedrigere Verkaufspreise in den USA?Statistisches Modell:X . . . Verkaufspreis in den USA, Y . . . Verkaufspreis in Japan.Zu vergleichen sindE(X) = µX . . . Durchschnittspreis in den USA undE(Y ) = µY . . . Durchschnittspreis in Japan.

Die n = 50 Beobachtungen x1, . . . , xn zu den USA-Preisen werden mit ZufallsvariablenX1, . . . , Xn beschrieben, die m = 30 Beobachtungen y1, . . . , ym zu den Japan-Preisen wer-den mit Zufallszahlen Y1, . . . , Ym beschrieben.

Annahmen bzgl. der Verteilung der Xi, Yj :X1, . . . , Xn ∼ N(µX , σ

2X)

Y1, . . . , Ym ∼ N(µY , σ2Y )

X1, . . . , Xn, Y1, . . . , Ym stochastisch unabhängig.

Da die X1, . . . , Xn bzw. Y1, . . . , Ym unterschiedlich verteilt sind, spricht man von einemZweistichprobenproblem.Ziel der Untersuchung: Vergleich der Erwartungswerte. Ist ∆ = µX − µY gleich Null,gröÿer oder kleiner Null oder nimmt die Dierenz einen bestimmten Wert an?

Schätzen von ∆: ∆ = Xn − Ym.

Für den Schätzer gilt: E(∆) = E(Xn − Ym) = µX − µY

V ar(∆) = V ar(Xn − Ym) =σ2X

n+σ2Y

m

Der Schätzer ist als Linearkombination von unabhängigen normalverteilten Zufallsvariablenwieder normalverteilt.

⇒ ∆ = Xn − Ym ∼ N(µX − µY ,

σ2X

n+σ2Y

m

)⇒ Z =

Xn − Ym − (µX − µY )√σ2Xn +

σ2Ym

∼ N(0, 1) (Standardisierung)

Ausgehend von dieser Verteilungsaussage lassen sich Tests konstruieren.Einige Vorüberlegungen:

Von Interesse: µX − µY = δ0?

Z.B.: δ0 = 0 (sind Durchschnittspreise gleich?)

Falls µX − µY = δ0, gilt:

Z =Xn − Ym − δ0√

σ2Xn +

σ2Ym

∼ N(0, 1)

Es gilt:

Groÿe bzw. kleine Werte von Z sprechen gegen µX − µY = δ0, Werte nahe 0 nicht.

Wie im Einstichprobenfall können analog einseitige Testprobleme der Form µX − µY ≥ δ0

bzw. µX − µY ≤ δ0 behandelt werden.

98

Page 99: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Zweistichproben-Gauÿ-Test (bekannte Varianz)Seien X1, . . . , Xn unabhängig N(µX , σ

2X)-verteilt und Y1, . . . , Ym unabhängig N(µY , σ

2Y )-

verteilt.Auÿerdem seien X1, . . . , Xn, Y1, . . . , Ym unabhängig.Wir betrachten folgende Testprobleme über den Parameter ∆ = µX − µY :

1. H0 : µX − µY = δ0 gegen H1 : µX − µY 6= δ0,

2. H0 : µX − µY ≥ δ0 gegen H1 : µX − µY < δ0,

3. H0 : µX − µY ≤ δ0 gegen H1 : µX − µY > δ0.

Basierend auf der Teststatistik Z = Xn−Ym−δ0√σ2X/n+σ2

Y /mund dem vorgegebenen Niveau α fällt

die Entscheidung für H1 im Testproblem,

1. falls |z| > z1−α/2,

2. falls z < −z1−α,

3. falls z > z1−α.

Problem: σ2X und σ2

Y in der Regel unbekannt

1. Lösungsansatz: Approximatives Vorgehen bei groÿen StichprobenAngenommen n,m > 30, falls µX − µY = δ0, dann ist

T =Xn − Ym − δ0√

S2Xn +

S2Ym

asymptotisch N(0, 1)-verteilt, wobei

S2X =

1

n− 1

n∑i=1

(Xi − Xn)2 und S2Y =

1

m− 1

m∑i=1

(Yi − Ym)2

2. Lösungsansatz: Unbekannte, aber gleiche Varianzen.Zusätzliche Annahme: σ2

X = σ2Y , dann ist

T =Xn − Ym − δ0√

( 1n + 1

m)S2P

∼ tn+m−2

falls µX − µY = δ0, wobei

S2p =

1

n+m− 2

((n− 1)S2

X + (m− 1)S2Y

)(gepoolte Schätzung der Varianz)

Approximativer Zweistichproben-Gauÿ-Test (beliebige Varianz)Seien X1, . . . , Xn u.i.v. wie X und Y1, . . . , Ym u.i.v. wie Y . Auÿerdem seien X1, . . . , Xn,Y1, . . . , Ym unabhängig und n,m > 30.Die zu überprüfenden Hypothesen seien wie beim Zweistichproben-Gauÿ-Test bzw. Zweistichproben-t-Test.

99

Page 100: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Basierend auf der Teststatistik

Z =Xn − Ym − δ0√σ2X/n+ σ2

Y /mbzw. T =

Xn − Ym − δ0√S2Xn +

S2Ym

(bekannte Varianzen) (unbekannte Varianzen)

Und dem vorgegebenen Niveau α fällt die Entscheidung für H1 im Testproblem,

1. falls |z| > z1−α/2 bzw. |t| > z1−α/2,

2. falls z < −z1−α bzw. t < −z1−α,

3. falls z > z1−α bzw. t > z1−α.

Zweistichproben-t-Test, unbekannte aber gleiche VarianzenAnnahmen und Hypothesen im Fall bekannter Varianzen mit der zusätzlichen Annahmeσ2X = σ2

Y .Basierend auf der Teststatistik

T =Xn − Ym − δ0√

( 1n + 1

m)S2P

wobei

S2p =

1

n+m− 2

(n∑i=1

(Xi − Xn)2 +

m∑i=1

(Yi − Ym)2

)

=1

n+m− 2

((n− 1)S2

X + (m− 1)S2Y

)und dem vorgegebenen Niveau α fällt die Entscheidung für H1 im Testproblem,

1. falls |t| > tn+m−2,1−α/2,

2. falls t < −tn+m−2,1−α,

3. falls t > tn+m−2,1−α.

Falls n,m > 30, kann dieser Test auch für beliebige Verteilungen verwendet werden. Manersetze dafür die t-Quantile durch Normalverteilungsquantile.

Beispiel: Autopreise

Wir gehen davon aus, die Daten sind näherungsweise normalverteilt mit gleichen Varianzen(die entsprechenden Schätzer sind nahezu gleich groÿ). X1, . . . , Xn st.u. ∼ N(µX , σ

2X),

Y1, . . . , Ym st.u. ∼ N(µY , σ2Y ), X1, . . . , Xn, Y1, . . . , Ym st.u.

Hypothesen: H0 : µX − µY ≥ 0 gegen H1 : µX − µY < 0

Teststatistik

s2p =

1

n+m− 2

((n− 1)s2

X + (m− 1)s2Y

)=

49 · 1.9812 + 29 · 1.8652

49 + 29= 3.7585

100

Page 101: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

t =x− y√

( 1n + 1

m)s2P

=16.596− 17.250√3.7585 · ( 1

50 + 130)

= −1.4607

Signikanzniveau: α = 0.05

Kritischer Wert: −t78,0.95 ≈ −z0.95 = −1.64

Testprozedur: Falls t < −1.64, verwerfe H0, sonst nicht.

H0 wird nicht verworfen, d.h. ein signikanter Preisunterschied bei den Autopreisen istnicht nachweisbar.

Verbundene StichprobenBeispiel: Pupillometer

Mit einem Pupillometer kann man die Erweiterung (Dilatation) der Pupillen des Augesmessen. Studien haben einen Zusammenhang zwischen Dilatation und Interesse am beob-achteten Objekt festgestellt. 10 repräsentativ für die untersuchte Zielgruppe ausgewähltenPersonen werden zwei Besteck-Muster gezeigt und die Pupillendilatation gemessen.

Die Tabelle gibt die Messwerte der 10 Personen an. Es ist davon auszugehen, dass dieeinzelnen Personen individuell zu unterschiedlich starken Pupillendilatationen neigen.

Gibt es einen signikanten (α = 0.05) Unterschied der Reaktion der Kunden auf die Mus-ter?

No. Muster 1 Muster 21 1 0.82 0.97 0.663 1.45 1.224 1.21 15 0.77 0.816 1.32 1.117 1.81 1.38 0.91 0.329 0.98 0.9110 1.46 1.1

Es wurden Paare an Daten (xi, yi) erhoben, die mit Zufallsvariablen (Xi, Yi) beschriebenwerden. Es soll überprüft werden, ob im Mittel für beide Muster eine gleiche Reaktiongemessen wurde. Die Annahme

X1, . . . , Xn u.i.v. bzw. Y1, . . . , Yn u.i.v.

ist aber nicht mehr angemessen, da dem individuellen Dilatationspotential nicht Rechnunggetragen wird. Stattdessen betrachten wir

Zi = Xi − Yi

und gehen davon aus, dass die individuellen Schwankungen wegsubtrahiert werde.Ansatz:

101

Page 102: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

• Statistisches Modell: Zi ∼ N(∆, σ2) u.i.v.

• Dass die Dierenzen Zi u.i.v. sein sollen, ist auch eine Modellvereinfachung, die aberoft als akzeptabel angesehen wird.

• Die unterschiedlichen Mustereinüsse werden im Mittel durch den Erwartungswert∆ der Dierenzen erfasst.

• Ein groÿer Vorteil dieses Ansatzes: Hypothesen über ∆ kann man mit dem Gauÿ-Testbei bekanntem σ2, mit dem t-Test bei unbekanntem σ2 und mit dem approximativenGauÿ-Test bei groÿen Stichproben durchführen.

Beispiel: σ2 unbekannt ⇒ Einstichproben-t-Test

t-Test für verbundene StichprobenEs seien Zi = Xi − Yi und Z1, . . . , Zn unabhängig N(∆, σ2)-verteilte Zufallsvariablen.Wir betrachten folgende Testprobleme über den Parameter ∆:

1. H0 : ∆ = ∆0 gegen H1 : ∆ 6= ∆0

2. H0 : ∆ ≥ ∆0 gegen H1 : ∆ < ∆0

3. H0 : ∆ ≤ ∆0 gegen H1 : ∆ > ∆0

Basierend auf der Teststatistik

T =Zn −∆0√

S2Zn

=√nZn −∆0

SZ(T ∼ tn−1, falls ∆ = ∆0),

wobei S2Z die Stichprobenvarianz der Zi bezeichnet, und dem vorgegebenen Signikanzni-

veau α wird die Nullhypothese abgelehnt,

1. falls |T | > tn−1,1−α2

2. falls T < −tn−1,1−α

3. falls T > tn−1,1−α

Analog: σ2 bekannt: Gauÿ-Test; n groÿ: approximativer Gauÿ-TestBeispiel: Pupillendilatation.Wir gehen davon aus, die Dierenzen Zi = Xi − Yi sind näherungsweise normalverteilt,und führen für die z1, . . . , z10 einen t-Test durch.

No. 1 2 3 4 5 6 7 8 9 10

zi 0.2 0.31 0.23 0.21 -0.04 0.21 0.51 0.59 0.07 0.36

Hypothese: H0 : ∆ = ∆0 = 0 gegen H1 : ∆ 6= 0

Hilfsgröÿen: n = 10, z = 0.265, s2z = 0.03547.

Teststatistik: t = zn−∆0√s2zn

= 0.265−0√0.03547

10

= 4.45.

Kritischer Wert tn−1,1−α2

= t10−1,1− 0.052

= t9,0.975 = 2.2622

Ablehnungsbereich: C = (−∞,−tn−1,1−α2)∪(tn−1,1−α

2,∞) = (−∞,−2.2622)∪(2.2622,∞)

102

Page 103: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Testentscheidung: Da |t| > t9,0.975 bzw. t ∈ C wird H0 abgelehnt zum Niveau α = 0.05.Es gibt eine signikant unterschiedliche Reaktion auf beide Besteck-Muster.Mit den Zahlen des obigen Beispiels:

> Muster .1 <- c(1 ,0.97 ,1.45 ,1.21 ,0.77 ,1.32 ,1.81 ,0.91 ,0.98 ,1.46)

> Muster .2 <- c(0.8 ,0.66 ,1.22 ,1 ,0.81 ,1.11 ,1.3 ,0.32 ,0.91 ,1.1)

> t.test(Muster.1, Muster.2, paired=TRUE)

Paired t-test

data: Muster .1 and Muster .2

t = 4.4494 , df = 9, p-value = 0.001602

alternative hypothesis:

true difference in means is not equal to 0

95 percent confidence interval:

0.1302692 0.3997308

sample estimates:

mean of the differences

0.265

11.4. Zusammenhangsanalyse

Wie kann man die Unabhängigkeit von zweidimensionalen diskreten Zufallsvariablen nach-prüfen?

Beispiel: SonntagsumfrageIm Rahmen einer Sonntagsumfrage wurden 931 Personen bzgl. ihrer Parteienpräferenzbefragt.

CDU/CSU SPD FDP Grüne Rest SummeMänner 144 153 17 26 95 435Frauen 200 145 30 50 71 496Summe 344 298 47 76 166 931

Besitzen Männer und Frauen eine unterschiedliche Parteienpräferenz oder kann man dieAbweichungen auch durch Zufall erklären?Vorüberlegungen:

• Von jeder Person (Untersuchungsklassenobjekt k) werden das Geschlecht (xk) unddie Parteienpräferenz (yk) erfasst. Wir erfassen also Datenpaare (x1, y1), . . . , (xn, yn).

• Die Datenpaare werden statistisch beschrieben mit zweidimensionalen diskreten u.i.v.Zufallsvektoren (X1, Y1), . . . , (Xn, Yn). (X,Y ) sei verteilt wie (Xk, Yk). Die MerkmaleGeschlecht und Partei werden hierbei durch Zahlen kodiert.

• Beschreibung der Verteilung mit Einzelwahrscheinlichkeiten:

P (X = i, Y = j) = pij , i = 1, 2, j = 1, . . . , 5

• Die Randverteilungen sind dann gegeben durch

P (X = i) = pi·, P (Y = j) = p·j

mitpi· = pi1 + · · ·+ pi5 und p·j = p1j + p2j

103

Page 104: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Es soll Unabhängigkeit von X und Y überprüft werden, d.h. für i = 1, 2 und j = 1, . . . , 5muss gelten

P (X = i, Y = j) = P (X = i) · P (Y = j)

pij = pi· · p·j

Plausibilitätsbetrachtungen zur Konstruktion eines Tests:Nach obigen Überlegungen würde ein Ausdruck der Form

2∑i=1

5∑j=1

(pij − pi·p·j)2

Null werden im Falle der Unabhängigkeit und sonst gröÿer als Null sein.Wir ersetzen pij , pi·, p·j durch Schätzer:

• Nij = (zufällige) Anzahl des Auftretens von (i, j) als Wert von (Xk, Yk), k = 1, . . . , n,

• Ni· = (zufällige) Anzahl des Auftretens von i als Wert von Xk, k = 1, . . . , n,

• N·j = (zufällige) Anzahl des Auftretens von j als Wert von Yk, k = 1, . . . , n

P (X = i, Y = j) = pij ⇒ Nij ∼ B(n, pij)⇒ pij =Nij

n

P (X = i) = pi· ⇒ Ni· ∼ B(n, pi·)⇒ pi· =Ni·n

P (Y = j) = p·j ⇒ N·j ∼ B(n, p·j)⇒ p·j =N·jn

Mit geeigneter Normierung lässt sich die folgende Aussage zeigen:

χ2 = n ·2∑i=1

5∑j=1

(pij − pi·p·j)2

pi·p·j=

2∑i=1

5∑j=1

(Nij − Ni·N·j

n

)2

Ni·N·jn

asymptotisch χ2(2−1)(5−1) = χ2

4-verteilt

χ2-UnabhängigkeitstestSeien (X1, Y1), . . . , (Xn, Yn) u.i.v. zweidimensionale diskrete Zufallsvektoren gruppiert ineiner (k ×m)-Kontingenztafel, d.h. die X1 nehmen k verschiedene Wert an und die Y1 mverschiedene Werte. Wir betrachten das Testproblem

H0 : X1 und Y1 sind stochastisch unabhängig gegen

H1 : X1 und Y1 sind nicht stochastisch unabhängig.

Basierend auf der Teststatistik

χ2 =

k∑i=1

m∑j=1

(Nij − Ni·N·j

n

)2

Ni·N·jn

104

Page 105: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

und dem vorgegebenen Signikanzniveau α fällt die Entscheidung für H1, falls

χ2 > q(k−1)(m−1),1−α,

wobei q(k−1)(m−1),1−α das (1− α)-Quantil der χ2(k−1)(m−1)-Verteilung bezeichnet.

Bemerkung: Gemäÿ der Plausibilitätsüberlegungen nimmt χ2 im Falle der Abhängigkeitvon X1 und Y1 groÿe Werte an.

Beispiel: Sonntagsumfrage.X bezeichne das Geschlecht und Y die Parteienpräferenz.Hypothesen:

H0 : X und Y sind stochastisch unabhängig

H1 : H0 ist falsch

Teststatistik:

χ2 =2∑i=1

5∑j=1

(Nij − Ni·N·j

n

)2

Ni·N·jn

asymptotisch χ24-verteilt

Nij CDU/CSU SPD FDP Grüne Rest SummeMänner 144 153 17 26 95 435Frauen 200 145 30 50 71 496Summe 344 298 47 76 166 931

Hij = Ni·N·j/n160.73 139.24 21.96 35.51 77.56183.27 158.76 25.04 40.49 88.44

Eij = (Nij −Hij)2/Hij1.74 1.36 1.12 2.55 3.921.53 1.19 0.98 2.23 3.44

Hier ist χ2 = 20.26 =∑Eij wobei der Quantilwert 9.49 beträgt.

⇒ Es besteht ein signikanter Zusammenhang zwischen Geschlecht und Parteienpräferenz.Mit den Zahlen des letzten Beispiels:

> men <- c(144 ,153 ,17 ,26 ,95)

> women <- c(200 ,145 ,30 ,50 ,71)

> chisq.test(cbind(men ,women ))

Pearson 's Chi -squared test

data: cbind(men , women)

X-squared = 20.065 , df = 4, p-value = 0.0004849

Test auf Unkorreliertheit und zweidimensionale NormalverteilungBeispiel: Blutdruckdaten. Für 15 zufällig ausgewählte Frauen wurde das Alter (xi) fest-gestellt und der Blutdruck (yi) gemessen. Gibt es einen Zusammenhang zwischen diesenbeiden Merkmalen?

105

Page 106: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

i Alter (xi) Blutdruck (yi)1 47 1292 52 1393 30 1124 35 1195 59 1456 44 1337 63 1528 38 1179 49 14510 41 13611 32 11512 55 13713 46 13414 51 14115 63 157

Wir haben den Korrelationskoezienten als lineares Zusammenhangsmaÿ zwischen zweiZufallsvariablen kennen gelernt.Wir fassen die Datenpaare (x1, y1), . . . , (xn, yn) als Realisierung der zweidimensionalenu.i.v. Zufallsvektoren (X1, Y1), . . . , (Xn, Yn) auf. Wie schätzen wir den Korrelationskoe-zienten?

1. Schritt: Schätzen der Kovarianz. Nach der Verschiebungsregel gilt

σxy = Cov(X,Y ) = E(XY )− E(X)E(Y )

Erwartungswerte kann man gut durch arithmetische Mittel schätzen, also

MXY =1

n

n∑i=1

XiYi, MX =1

n

n∑i=1

Xi, MY =1

n

n∑i=1

Yi.

Damit ist die Analogie zur so genannten Momentenschätzmethode

SXY = MXY − MX · MY =1

n

n∑i=1

(Xi − Xn)(Yi − Yn)

ein Schätzer für Cov(X,Y ). Durch Änderung des Vorfaktors wird der Schätzer erwar-tungstreu,

Sxy =1

n− 1

n∑i=1

(Xi − Xn)(Yi − Yn) =1

n− 1

(n∑i=1

XiYi − n · Xn · Yn

)

2. Schritt Schätzen des Korrelationskoezienten.Ausgehend von der Denition

%XY =Cov(X,Y )√

V ar(X) · V ar(Y )

setzen wir für die Kovarianz und die Varianzen Schätzer ein:

RXY =SXY√S2XS

2Y

mit

S2X =

1

n− 1

n∑i=1

(Xi − Xn)2, S2Y =

1

n− 1

n∑i=1

(Yi − Yn)

106

Page 107: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

D.h.

RXY =SXY√S2XS

2Y

=1

n−1

∑ni=1(Xi − Xn)(Yi − Yn)√

1n−1

∑ni=1(Xi − Xn)2 · 1

n−1

∑ni=1(Yi − Yn)2

=

∑ni=1(Xi − Xn)(Yi − Yn)√∑n

i=1(Xi − Xn)2 ·∑n

i=1(Yi − Yn)2

Beispiel: Blutdruckdaten.Für den angegebenen Datensatz bekommen wir folgenden Schätzwert für den Korrelati-onskoezienten:

x = 47, y = 134.07,∑i

x2i = 34685

∑i

y2i = 272175,

∑i

xiyi = 96387

s2X =

∑i x

2i − nx2

n− 1=

34685− 15 · 472

14= 110.714,

s2Y =

∑i y

2i − ny2

n− 1=

272175− 15 · 134.072

14= 182.395,

sXY =

∑i xiyi − nxyn− 1

=96387− 15 · 47 · 134.07

14= 133.404,

rXY =sXY√s2Xs

2Y

=133.404√

110.714 · 182.395= 0.939

Der Schätzwert spricht für einen starken positiven Zusammenhang. Ist der Korrelations-koezient signikant von Null verschieden oder könnte dieser Wert auch zufällig zustandegekommen sein?

Um derartige Fragen beantworten zu können, brauchen wir eine geeignete Beschreibungder gemeinsamen Verteilung von X und Y , siehe Abschnitt über die 2-dimensionale Nor-malverteilung.

KorrelationstestSeien (X1, Y1), . . . , (Xn, Yn) gemeinsam normalverteilte, u.i.v. Zufallsvektoren.Wir betrachten folgende Testprobleme über die Korrelation

1. H0 : ρXY = 0 gegen H1 : ρXY 6= 0,

2. H0 : ρXY ≥ 0 gegen H1 : ρXY < 0,

3. H0 : ρXY ≤ 0 gegen H1 : ρXY > 0.

107

Page 108: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Basierend auf der Teststatistik

T =Rxy√

1−R2xy

√n− 2

und dem vorgegebenen Niveau α fällt die Entscheidung für H1 im Testproblem (hier giltT ∼ tn−2 falls ρXY = 0),

1. falls |T | > tn−2,1−α2,

2. falls T < −tn−2,1−α,

3. falls T > tn−1,1−α.

Beispiel: Blutdruckdaten.Für den angegebenen Datensatz bekommen wir folgenden Schätzwert für den Korrelati-onskoezienten rXY = 0.939.

Hypothese: H0 : ρXY = 0 gegen H1 : ρXY 6= 0

Teststatistik: t =√n− 2

rxy√1−r2xy

=√

15− 2 0.939√1−0.9392

= 9.82

Kritischer Wert: tn−2,1−α2

= t15−2,1− 0.012

= t13,0.995 = 3.0123.

Testentscheidung: Da |t| = 9.82 > 3.0123 ist die Nullhypothese der Unkorreliertheit abzu-lehnen.Mit den Zahlen des letzten Beispiels:

> Alter <- c(47 ,52 ,30 ,35 ,59 ,44 ,63 ,38 ,49 ,41 ,32 ,55 ,46 ,51 ,63)

> Blutdruck <- c(129 ,139 ,112 ,119 ,145 ,133 ,152 ,117 ,145 ,136 ,115 ,

137 ,134 ,141 ,157)

> plot(Alter ,Blutdruck)

> cor.test(Alter ,Blutdruck)

Pearson 's product -moment correlation

data: Alter and Blutdruck

t = 9.7131 , df = 13, p-value = 2.519e-07

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.8181349 0.9794044

sample estimates:

cor

0.937494

Numerische Unterschiede zu den auf den vorhergehenden Seiten durchgeführten Rechnun-gen sind auf Rundungen zurückzuführen.

108

Page 109: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

12. Einfache lineare Regression

12.1. Einfache lineare Regression

Beispiel: Rohöl und BenzinpreiseDie folgenden Daten geben die mittleren Rohöl-Preise xi (in Dollar/Barrel) und Benzin-preise yi (in Cent/Gallone) wieder:

i Jahr i yi xi1 1980 125 28.072 1981 138 35.243 1982 129 31.87...

......

...21 2000 151 28.2622 2001 146 22.96

Zu diesen Daten stellen sich einige Fragen:

• Ist ein Zusammenhang zwischen Rohölpreis und Benzinpreis feststellbar?

• Welchen Benzinpreis würde man im Mittel anhand der Daten prognostizieren, wennder Rohölpreis auf 50$ pro Barerel steigt?

• In welchem Bereich würde der Benzinpreis nicht nur sein Erwartungswert mitgroÿer Wahrscheinlichkeit liegen?

Schritt 1: Veranschaulichung mit Hilfe eines Streudiagramms

Abbildung 24: Darstellung der Daten als Streudiagramm (Quellcode auf S.??)

Schritt 2: Vermutung über Zusammenhang anstellen. Nicht unerwartet korrespondierengröÿere Ölpreise mit höheren Benzinpreisen. Man könnte näherungsweise einen linearenZusammenhang mutmaÿen. Seien (xi, yi) die Datenpaare, wobei xi den Rohölpreisen undyi den Benzinpreisen entspricht, dann gilt:

yi = a+ bxi + ei

109

Page 110: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

wobei die ei die Abweichungen von der Gerade a+ bx beschreiben.

Schritt 3: Ermittlung einer Geraden, die den Zusammenhang zwischen den Daten mög-lichst gut beschreibt. Dazu wird die Methode der kleinsten Quadrate verwendet.

12.2. Methode der kleinsten Quadrate

Ausgehend von der Beziehung:

yi = a+ bxi + ei, ei = yi − (a+ bxi) Fehler (Residuum)

sucht man nach einer Gerade, für die alle Fehlerterme (error) ei möglichst klein werden.Das erreicht man z.B. in dem man

Q(a, b) :=

n∑i=1

e2i =

n∑i=1

[yi − (a+ bxi)]2

minimiert. Wir gehen im Folgenden davon aus, dass die xi nicht alle identisch sind.

Abbildung 25: Darstellung der Fehlerquadrate (Quellcode auf S.??)

Das Minimierungsproblem ist:

Q(a, b) =n∑i=1

[yi − (a+ bxi)]2 → Min

Die kritischen Stellen werden ermittelt:

∂Q

∂a(a, b) =

n∑i=1

2 · [yi − (a+ bxi)] · (−1)

∂Q

∂b(a, b) =

n∑i=1

2 · [yi − (a+ bxi)] · (−xi)

110

Page 111: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Die Lösung des linearen Gleichungssystems

∂Q

∂a(a, b) = 0

∂Q

∂b(a, b) = 0

führt auf genau eine Lösung a, b, die Q minimiert:

b =

∑ni=1 xiyi − nxy∑ni=1 x

2i − nx2

, a = y − bx

Einfache lineare Regression und Kleinste-Quadrate-MethodeGegeben seien die reellwertigen Beobachtungswerte (x1, y1), ..., (xn, yn). Dann heiÿt

yi = a+ bxi + ei, i = 1, ..., n

einfache lineare Regressionsgleichung wobei a den Achsenabschnitt, b den Steigungs-parameter und ei die Residuen (Fehler) bezeichnen. Unter der Annahme s2

X > 0 sind dieKleinste-Quadrate-Koezienten für a und b gegeben durch:

a = y − bx, b =

∑ni=1 xiyi − nxy∑ni=1 x

2i − nx2

=1

n−1

∑ni=1(xi − x)(yi − y)

1n−1

∑ni=1(xi − x)2

Die Kleinste-Quadrate-Gerade (KQ-Gerade) ergibt sich durch y(x) = a + bx. DieWerte yi = a + bxi und ei = yi − yi bezeichnen wir als KQ-gettete Werte bzw. KQ-Residuen.Eigenschaften

• Die KQ-Gerade geht durch den Mittelpunkt (x, y).

a = y − bx⇒ y = a+ bx = y/(x).

• Die Summe der KQ-Residuen ist gleich 0:

n∑i=1

ei = 0

• ¯y = y

• Wenn alle Punkte (xi, yi) auf der Geraden a+ bx liegen, dann sind:

a = a, b = b, yi = yi, ei = 0

• Eine Prognose wird mit der KQ-Geraden vorgenommen. Für einen Wert x prognos-tiziert man den y-Wert:

y(x) = a+ bx

111

Page 112: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

12.3. Gütemaÿ für die Anpassung der Geraden

Wie gut lassen sich die Daten mit einer Geraden beschreiben?Streuungszerlegung der Regression

n∑i=1

(yi − y)2 =

n∑i=1

(yi − y)2 +

n∑i=1

(yi − yi)2

Ansatz:

• Die Residualstreuung ist die Summe der verbliebenen quadrierten Fehler nach An-passung der Geraden.

• Die Anpassung ist gut, falls der Anteil der erklärten Streuung an der Gesamtstreuunggroÿ ist:

R2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

=Erklärte StreuungGesamtstreuung

BestimmtheitsmaÿGegeben seien die reellwertigen Beobachtungswerte (x1, y1), ..., (xn, yn) mit

s2X > 0 und s2

Y > 0

Dann ist das Bestimmtheitsmaÿ der KQ-Regression gegeben durch:

R2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

= 1−∑n

i=1(yi − yi)2∑ni=1(yi − y)2

Eigenschaften

• 0 ≤ R2 ≤ 1

• R2 = r2XY

• R2 = 1 genau dann, wenn alle Punkte (xi, yi) auf einer Geraden liegen.

• R2 = 0 genau dann, wenn sXY = 0 ist.

Eine gute Beschreibung der Daten durch eine Gerade liegt bei groÿen Werten von R2 (nahe1) vor, eine schlechte bei kleinen Werten von R2 (nahe 0).Beispiel (fortgesetzt): Ölpreise Direkte Berechnung der Regressionsgeraden:

x = 21.572, y = 117.635,∑i

x2i = 11078.277

∑i

y2i = 309218,

∑i

xiyi = 57284.35

s2X =

∑i x

2i − nx2

n− 1=

11078.277− 22 · 21.5722

21= 40.026

s2Y =

∑i y

2i − ny2

n− 1=

57284.35− 22 · 117.6362

21= 227.475

sXY =

∑i xiyi − nxyn− 1

=57284.35− 22 · 21.572 · 117.636

21= 69.342

112

Page 113: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Daher:

b =sXYs2X

=69.342

40.026= 1.732, a = y − bx = 117.636− 1.732 · 21.572 = 80.273

Und für das Bestimmtheitsmaÿ ergibt sich:

rXY =sXY√s2Xs

2Y

=69.342√

40.026 · 227.475= 0.727, R2 = r2

XY = 0.529

Prognose für x = 50 durch Einsetzen in KQ-Gleichung

y(x) = a+ bx,

x = 50 ergibt y(50) ≈ 166.9.In R lässt sich die Regressionsgerade mit eine paar einfachen Kommandos berechnen undin das Streudiagramm einzeichnen:

plot(oelpreis ,benzinpreis) ## Scatterplot

myregression <- lm(benzinpreis~oelpreis)

myregression ## zeigt Ergebnis der Regressionsrechnung an

abline(myregression) ## zeichnet Regressionsgerade

Abbildung 26: Streudiagramm mit Regressionsgeraden (Quellcode auf S.??)

Vorhersage des BlutdrucksFür 15 zufällig ausgewählte Frauen wurde das Alter (xi) festgestellt und der Blutdruck(yi) gemessen.Wie kann zu gegebenem Alter der zu erwartende Blutdruck vorhergesagt werden?

113

Page 114: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

i Alter (xi) Blutdruck (yi)1 47 1292 52 1393 30 1124 35 1195 59 1456 44 1337 63 1528 38 1179 49 14510 41 13611 32 11512 55 13713 46 13414 51 14115 63 157

Die Berechnung der KQ-Daten und des Bestimmtheitsmaÿes wird R überlassen.

Abbildung 27: Regression zu Blutdruckdaten (Quellcode auf S.??)

Der Fit der Geraden ist hier besser: R2 ist gröÿer als im vorigen Beispiel.

y(45) = 77.363 + 1.2065 · 45 = 131.6 ≈ 132

Im Mittel würde man bei einer 45-jährigen Frau einen Blutdruck von 132 erwarten. Wiegenau ist der Wert und wie groÿ ist der normale Schwankungsbereich dieses Wertes füreinzelne Frauen?

12.4. Stochastisches Modell

Um für Datenpaare (xi, yi), i = 1, ..., n, für die man lineare Zusammenhänge zwischen denxi und yi-Werten vermutet, Wahrscheinlichkeitsaussagen ableiten zu können, muss man siemit einem geeigneten statistischen Modell breschreiben. Wie im letzten Abschnitt sollendie Daten durch eine Geradenbeziehung

yi = α+ βxi + ei

beschrieben werden.

Wenn die yi funktional beschrieben werden durch die xi bezeichnet man

114

Page 115: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

• yi als abhängige oder endogene Variablen

• xi als unabhängige oder exogene Variablen oder Regressoren und die

• ei als latente Variablen oder Störvariablen.

Die ei können nicht beobachtet werden und die Parameter α und β sind unbekannt.

Wo gibt es im Modell zufällige Komponenten?Beispiel: College-AbsolventenDie folgenden Daten geben die Anzahl der Absolventen eines kleinen Colleges an, die imJahr (xi) ihres Abschlusses einen Job gefunden haben. Die Anzahl (yi) der Absolventensoll über die Jahre etwa gleich groÿ gewesen sein.

Jahr 1 2 3 4 5 6Berufseinsteiger 121 138 115 162 160 174

Die Jahre xi sind nichtzufällig, während die konkreten Berufseinsteigerzahlen yi nicht vor-hersehbar waren und als zufällig interpretiert werden können.

Streudiagramm

Abbildung 28: Berufseinsteiger (Quellcode auf S.??)

Modell mit deterministischen Regressorenxi sind deterministisch und yi sind als Realisierungen von Zufallsvariablen Yi aufzufassen.Dann sind aber auch die ei = yi − α − βxi als Realisierungen von Zufallsvariablen εi =Yi − α− βxi aufzufassen.

Modellansatz:Yi = α+ βxi + εi

Beispiel (fortgesetzt): BlutdruckdatenIm Rahmen der Datenerhebung wurden 15 Frauen ausgewählt. Im Vorfeld der Erhebungist i.A. sowohl das Alter (xi) als auch der Blutdruck (yi) nicht bekannt und muss alsRealisierung von Zufallsvariablen Xi bzw. Yi aufgefasst werden.

115

Page 116: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Modell mit stochastischen Regressoren:Das zufällige Verhalten der Beobachtung xi und yi sowie ei werden beschrieben mitZufallsvariablen Xi, Yi und εi, die in folgender Beziehung stehen:

Yi = α+ βXi + εi

Dabei wird die Zusatzannahme getroen, dass

Xi und εi unabhängig

sind. Beide Regressionsmodelle haben groÿe Gemeinsamkeiten:

• Die Schätzer für die Parameter α und β werden mit den gleichen Formeln berechnet,s.u.

• Die bedingte Verteilung von Yi gegeben Xi = xi ist gleich der Verteilung, die sichaus dem deterministischen Ansatz ergibt.

Wir beschränken uns im Folgenden auf die nähere Untersuchung des Modells mit determi-nistischen Regressoren.

Standardmodell der linearen Einfachregressionx1, . . . , xn seien reelle Zahlen und Y1, . . . , Yn seien reelle Zufallsvariablen. Die Vektoren(x1, Y1), . . . , (xn, Yn) erfüllen das Standardmodell der linearen Einfachregression mit denParametern α, β und σ2 > 0, wenn

Yi = α+ βxi + εi, i = 1, . . . , n

gilt, wobei εi u.i.v. Zufallsvariablen sind, für die E(εi) = 0 und V ar(εi) = σ2 gilt.Anmerkungen:

• Die Zufallsvariablen εi können nicht beobachtet werden. Sie beschreiben die Abwei-chungen der Yi-Werte von der Regressionsgeraden α+ βx.

• Die xi-Werte sind entweder als einstellbare deterministische, d.h. nicht zufällige, Re-gressoren oder als Realisierungen von Zufallsvariablen Xi aufzufassen.

• Der Parameter β beschreibt die lineare Abhängigkeit der yi- von den xi-Werten.Ist β = 0, gibt es keine (lineare) Abhängigkeit.

Die Schätzer im Standardmodell berechnen wir wie oben durch Minimierung von

Q(α, β) :=n∑i=1

[Yi − (α+ β · xi)]2 → Minα,β

Als Ergebnis erhalten wir in Analogie zu oben:Wenn s2

X > 0 ergeben sich als Schätzer α und β im Standardmodell

α = Yn − β · x,

β =

∑ni=1 xiYi − nxYn∑ni=1 x

2i − nx2

=1

n−1

∑ni−1(xi − x)(Yi − Yn)

1n−1

∑ni=1(xi − x)2

=sXYs2X

.

α und β sind erwartungstreue Schätzer von α bzw. β, d.h.

E(α) = α und E(β) = β .

116

Page 117: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Anmerkung zur Bezeichnung: Wie in der Literatur gebräuchlich bezeichnen α und β i.F.sowohl die Schätzer als auch die Schätzwerte für α und β. Die jeweilige Bedeutung erschlieÿtsich aus dem Kontext.Beispiel (fortgesetzt): College-Absolventen.

x = 3.5, y = 145,∑i

x2i = 91,

∑i

y2i = 129030,

∑i

xiyi = 3234

s2X =

∑i x

2i − n · x2

n− 1=

91− 6 · 3.52

5= 3.5

s2Y =

∑i y

2i − n · y2

n− 1=

29030− 6 · 1452

5= 576

sXY =

∑i xiyi − n · x · y

n− 1=

3234− 6 · 3.5 · 145

5= 37.8

Daher

β =sXYs2X

=37.5

3.5= 10.8

α = y − β · x = 145− 10.8 · 3.5 = 107.2

rXY =sXY√s2X · s2

Y

=37.5√

3.5 · 576= 0.8419 R2 = r2

XY = 0.84192 = 0.788

Abbildung 29: Streudiagramm mit Regressionsgeraden (Quellcode auf S.??)

Zur näheren Beschreibung der Verteilung von α und β kann man die Varianzen berechnen.Dazu macht man sich zunutze, dass

β = β +n∑i=1

ciεi und α = α+n∑i=1

(1

n− cix

)εi

mitci =

xi − x∑ni=1(xi − x)2

117

Page 118: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

gilt. Die Varianzen berechnen sich als

V ar(β) = σ2β

=σ2∑n

i=1(xi − x)2

V ar(α) = σ2α =

σ2∑n

i=1 x2i

n ·∑n

i=1(xi − x)2

Diese Varianzen kann man nicht direkt berechnen, da sie noch vom unbekannten Parameterσ2 abhängen.

Aber: α bzw. β sind MSE- und schwach konsistent für α bzw. β, wenn die Konsistenz-bedingung

n∑i=1

(xi − x)2 →∞ für n→∞

gilt.Ausgehend von der Denition des Bestimmtheitsmaÿ kann man die Konstruktion eineserwartungstreuen Schätzers σ2 von σ2 auf bekannte Gröÿen zurückführen:

R2 = 1−∑2

i=1(yi − yi)2∑ni=1(yi − y)2

⇒n∑i=1

(yi − yi)2 = (1−R2)n∑i=1

(yi − y)2 = (1−R2)(n− 1)s2Y

Damit denieren wir

σ2 :=1

n− 2

n∑i=1

(yi − yi)2 =n− 1

n− 2(1−R2)s2

Y =n− 1

n− 2

(s2Y −

sXYs2X

)Die letzte Identität folgt wegen R2 = r2

XY = sXY /(s2Xs

2Y ).

Beispiel (fortgesetzt): Für die College-Daten gilt dann

σ2 =n− 1

n− 2s2Y (1−R2) =

5

4576 · (1− 0.7088) = 209.664

Mit dem Schätzer für σ2 kann man die Varianzen bzw. Standardfehler von α und β schätzen

σ2α =

σ2∑n

i=1 x2i

n ·∑n

i=1(xi − x)2σα =

√σ2α

σ2β

=σ2∑n

i=1(xi − x)2σβ =

√σ2β

Unter präziseren Verteilungsannahmen kann auch die Verteilung der Schätzer genauer be-schrieben werden und es können Tests konstruiert werden.Normalverteilungsannahme: Die Störvariablen sind normalverteilt, also εi u.i.v. undεi ∼ N(0, σ2).

Unter der Normalverteilungsannahme gilt

• α und β sind gemeinsam normalverteilt.

118

Page 119: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

• (n− 2) · σ2/σ2 ist χ2-verteilt mit n− 2 Freiheitsgraden.

• α und σ2 bzw. β und σ2 sind unabhängig.

Aus der Normalverteilungsannahme und der Denition der t-Verteilung folgt

α− ασα

=α− ασα

/σασα

=α− ασα

σ

=α− ασα

/√(n− 2)σ2

σ2(n− 2)= Z

/√W 2

(n− 2)∼ tn−2

mit Z =α

σα∼ N(0, 1), W 2 =

(n− 2)σ2

σ2∼ χ2

n−1.

Eine analoge Aussage gilt für βUnter der Normalverteilungsannahme gilt

α− ασα

∼ tn−2 undβ − βσβ

∼ tn−2

Mit Hilfe dieser Aussagen lassen sich Tests für α und β konstruieren:Tests für die RegressionskoezientenGegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvor-raussetzung sowie s2

X > 0. Wir betrachten folgende Testprobleme über die Parameter αund β:a) H0:α = α0 gegen H1:α 6= α0 , d) H0:β = β0 gegen H1:β 6= β0,b) H0:α ≥ α0 gegen H1:α < α0 , e) H0:β ≥ β0 gegen H1:β < β0,c) H0:α ≤ α0 gegen H1:α > α0 , f) H0:β ≤ β0 gegen H1:β > β0.Basierend auf der Teststatistik

Tα0 =α− α0√

σ2α

bzw. Tβ0 =β − β0√

σ2β

und dem vorgegebenen Signikanzniveau α∗ fällt die Entscheidung für H1 im Testproblema) , falls |Tα0 | > tn−2,1−α∗/2, d) , falls |Tβ0 | > tn−2,1−α∗/2b) , falls Tα0 < −tn−2,1−α∗ , e) , falls Tβ0 < −tn−2,1−α∗

c) , falls Tα0 > tn−2,1−α∗ , f ) , falls Tβ0 > tn−2,1−α∗Insbesondere der TestH0 : β = 0 ist wichtig, da hiermit überprüft wird, ob es einen linearenZusammenhang zwischen den yi- und xi-Werten gibt.

Beispiel (fortgesetzt) College-Daten.Wir wollen überprüfen, ob β = 0 ist. Das Signikanzniveau sei α∗ = 0.05. Dazu berechnenwir den Schätzer für den Standardfehler von β.

σ2β

=σ2∑n

i=1(xi − x)2=

σ2

(n− 1)s2X

=209.664

5 · 3.5= 11.9808⇒ σβ = 3.4613.

Damit ist

t =β − β0√

σ2β

=10.8− 0

3.4613= 3.12.

Der kritische Wert ist tn−2,1−α∗/2 = t4,0.975 = 2.7764. Wegen 3.12 > 2.7 ist die Nullhypo-these β = 0 abzulehnen. Es gibt also einen signikanten linearen Trend bei den Berufsein-steigerzahlen.Statistische Tests für die Regressionsparameter mit R

119

Page 120: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

> x <- 1:6

> y <- c(121 ,138 ,115 ,162 ,160 ,174)

> mymodel <- lm(y~x)

> summary(mymodel)

Call:

lm(formula = y ~ x)

Residuals:

1 2 3 4 5 6

3.0 9.2 -24.6 11.6 -1.2 2.0

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 107.200 13.481 7.952 0.00135 **

x 10.800 3.462 3.120 0.03553 *

Residual standard error: 14.48 on 4 degrees of freedom

Multiple R-squared: 0.7087 , Adjusted R-squared: 0.6359

F-statistic: 9.734 on 1 and 4 DF, p-value: 0.03553

Kondenzintervalle für die RegressionsparameterAusgehend von der Verteilungsaussage zu α und β kann man Kondenzintervalle für dieParameter α und β herleiten:Gegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvor-raussetzung. Dann sind [

α− tn−2,1−α∗/2σα, α+ tn−2,1−α∗/2σα]

bzw. [β − tn−2,1−α∗/2σβ, β + tn−2,1−α∗/2σβ

](1− α∗)-Kondenzintervalle für die Parameter α bzw. β.

Anmerkung: Diese Struktur von Kondenzintervallen ist sehr typisch.θ sei ein Parameterschätzer für einen Parameter θ und σθ sein Standardfehler.

θ − θσθ∼ N(0, 1) für alle zulässigen θ

⇒[θ − z1−α/2σθ, θ + z1−α/2σθ

]ist (1− α)-Kondenzintervall für θ

Beispiel: Kondenzintervall für µ bei bekanntem σ2. X1, . . . , Xn ∼ N(µ, σ2). Dann giltfür den Schätzer Xn für µ : V ar(Xn) = σ2/n:[

Xn − z1−α/2√σ2/n, Xn + z1−α/2

√σ2/n

]=[Xn − z1−α/2σXn , Xn + z1−α/2σXn

]θ sei ein Parameterschätzer für einen Parameter θ und σθ ein Schätzer für seinen Stan-dardfehler.

θ − θσθ∼ tm für alle zullässigen θ

⇒[θ − tm,1−α/2σθ, θ + tm,1−α/2σθ

]ist (1− α)-Kondenzintervall für θ

120

Page 121: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Anmerkung: i.A. m = n Anzahl der geschätzten Parameter.

Beispiel: Kondenzintervall für µ bei unbekanntem σ2. X1, . . . , Xn ∼ N(µ, σ2). Dann giltfür den Schätzer Xn für µ : V ar(Xn) = σ2/n und σ2

Xn= S2

n/n,[Xn − tn−1,1−α/2

√S2n/n, Xn + tn−1,1−α/2

√S2n/n

]=[Xn − t−1,1−α/2σXn , Xn + tn−1,1−α/2σXn

]Viele Statistikprogramme liefern als Ergebnis von komplexeren statistischen ModellenSchätzwerte für die Parameter und Standardfehler. Wenn die zugehörigen standardisiertenSchätzer t-verteilt oder asymptotisch normal verteilt sind, kann man obige Kondenzin-tervallkonstruktion direkt verwenden.

Beispiel: College-Absolventen.Wir berechnen ein 0.95-Kondenzintervall für β. σβ = 3.4613 und β = 10.8 wurde bereitsfrüher berechnet. Mit tn−2,1−α∗ = t4,0.975 = 2.7764 gilt[

β − tn−2,1−α∗/2σβ, β + tn−2,1−α∗/2σβ

]= [10.8− 2.7764 · 3.4613, 10.8 + 2.7764 · 3.4613]

= [1.19, 20.41]

Falls die Normalverteilungsannahme εi ∼ N(0, σ2) verletzt, aber die Konsistenzbedingung

n∑i=1

(xi − x)2 →∞ für n→∞

erfüllt ist, gelten die Verteilungsaussagen für die standardisierten Schätzer auch approxi-mativ. Dann gelten auch die angegebenen Tests und Kondenzintervalle approximativ.Beispiel (Fortsetzung): College-Daten.Die nächste Tabelle bezieht sich auf die Streuungszerlegung bei der linearen Regression,

n∑i=1

(yi − y)2

︸ ︷︷ ︸Gesamtstreuung

(SQT)

=n∑i=1

(yi − y)2

︸ ︷︷ ︸Erklärte Streuung

(SQE)

+n∑i=1

(yi − yi)2

︸ ︷︷ ︸Reststreuung

(SQR)

Kondenzintervalle für die Regressionsparameter mit R

> x <- 1:6

> y <- c(121 ,138 ,115 ,162 ,160 ,174)

> mymodel <- lm(y~x)

> confint(mymodel)

2.5 % 97.5 %

(Intercept) 69.770472 144.62953

x 1.188984 20.41102

PrognoseAusgehend vom Regressionsmodell

Yi = α+ βxi + εi

121

Page 122: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

interessiert man sich für die Regressionsgerade

y(x) = α+ βx

für einen Vorgabewert x.Schätzung von y(x) : Y (x) = α+ β · xDann gilt

E(Y (x)) = E(α+ β · x) = E(α) + E(β) · x = α+ β · x = y(x)

σ2Y (x)

= V ar(Y (x)) = V ar(α+ β · x) = . . . = σ2

(1

n+

(x− x)2∑i(xi − x)2

).

Y (x) ist also erwartungstreu und MSE- bzw. schwach konsistent.Die Varianz können wir schätzen mit

σ2Y (x)

= σ2

(1

n+

(x− x)2∑i(xi − x)2

).

Prognose für y(x):Y (x) = α+ β · x ist der Schätzer für y(x). Unter der Normalverteilungsannahme ist[

Y (x)− tn−2,1−α∗/2σY (x), Y (x) + tn−2,1−α∗/2σY (x)

]ein (1− α)-Kondenzintervall für y(x).

y(x0) beschreibt nur die Mittellage einer Zufallsvariable Y0, die zu einem Regressor x0

erhoben wird. Interessant ist häug der Wertebereich, in dem wir Y0 mir groÿer Wahrschein-lichkeit nden. Dazu muss nicht nur die Mittellage y(x0), sondern auch der Schwankungum diese Mittellage mit einem Störterm ε0 Rechnung getragen werden. Ansatz:

Y0 = α+ β · x0 + ε0 = Y (x0) + ε0, E(ε0) = 0, V ar(ε0) = σ2,

wobei ε0 unabhängig von ε1, . . . , εn.Damit ist

V ar(Y0) = V ar(Y (x0)) + V ar(ε0) = σ2

(1 +

1

n+

(x0 − x)2∑i(xi − x)2

)und

σ2Y0

= σ2

(1 +

1

n+

(x0 − x)2∑i(xi − x)2

).

Prognose der Werte der Zufallsvariablen Y0 zu gegebenen x0:Unter der Normalverteilungsannahme ist[

Y (x0)− tn−2,1−α∗/2σY0 , Y (x0) + tn−2,1−α∗/2σY0

]ein (1− α)-Kondenz- oder Prognoseintervall für Y0.

Beispiel: College-Absolventen.

122

Page 123: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Wir berechnen ein 0.95-Kondenzintervall für y(x0) und Y0 zu x0 = 7. Aus

x = 3.5, s2x = 3.5, σ = 14.461, t4,0.975 = 2.7764

ergibt sich

σ2Y (7)

= σ2

(1

n+

(x0 − x)2∑i(xi − x)2

)= 209.7 ·

(1

6+

(7− 3.5)2

5 · 3.5

)= 181.74

σ2Y0

= σ2 + σ2Y (7)

= 391.44, σY (7) = 13.4811, σY0 = 19.7848

Damit sind Y (7) = α+ β · 7 = 107.2 + 10.8 · 7 = 182.8, t4,0.975 = 2.7764, und[Y (7)− t6−2,0.975σY (7), Y (7) + t6−2,0.975σY (7)

]= [145.37, 220.23]

das gesuchte 95%-Kondenzintervall für den unbekannten Erwartungswert y(7) und[Y (7)− t6−2,0.975σY0 , Y (7) + t6−2,0.975σY0

]= [127.87, 237.73]

das 95%-Prognoseintervall für die zufälligen Werte von Y0 an der Stelle x = 7.

Abbildung 30: Prognose und Kondenzintervalle (Quellcode auf S.??)

In das Streudiagramm der College-Absolventen wurde in der obenstehenden Abbildungdie geschätzte Regressionsgerade Y (x) und zu jedem x0 die Kondenzintervalle zu Y (x0)und Y0 eingezeichnet. Der rote Punkt kennzeichnet den Prognosenpunkt zu x0 = 7.Die Kondenzintervalle werden gröÿer, je weiter x0 von x = 3.5 entfernt ist.Kondenz- und Prognosestreifen mit R

x <- 1:6; y <- c(121 ,138 ,115 ,162 ,160 ,174)

plot(x,y,xlim=c(0,8.5), ylim=c(50,260),

xlab="Jahr",ylab=" Berufseinsteiger",col="blue")

123

Page 124: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

mymodel <- lm(y~x)

y0 <- sum(mymodel$coefficients*c(1,0))

y8 <- sum(mymodel$coefficients*c(1,8))

lines(matrix(c(0,y0 ,8,y8),byrow=TRUE ,ncol =2))

newx <- data.frame(x=seq(0,8,by =0.1))

predEY <- predict(mymodel , newx , interval =" confidence ")

lines(data.matrix(newx), data.matrix(predEY [,2]),col="red")

lines(data.matrix(newx), data.matrix(predEY [,3]),col="red")

predY <- predict(mymodel , newx , interval =" prediction ")

lines(data.matrix(newx), data.matrix(predY[,2]),col="green ")

lines(data.matrix(newx), data.matrix(predY[,3]),col="green ")

points(7,predict(mymodel , data.frame(x=7)),col="red", pch =15)

124

Page 125: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

13. Varianzanalyse

Modelle der Varianzanalyse (ANOVAAnalysis of Variance) dienen zur Untersuchung derFrage, ob eine oder mehrere kategoriale Gröÿen (Faktoren) einen Einuss auf die metrischeKriteriumsvariable besitzen.

Je nach Anzahl der Faktoren spricht man von einer Varianzanalyse mit Einfach-, Zweifach-,. . . Klassikation.

Ausprägungen eines Faktors werden als Stufen des Faktors bezeichnet.

Ist jede Stufe eines Faktors mit jeder Stufe eines anderen kombiniert, so spricht man von(einem Versuchsplan mit) Kreuzklassikation, andernfalls von hierarchischer Klassikati-on.

13.1. Einfache Klassikation

Welchen (Mittelwert-) Einuss haben die k Stufen eines Faktors auf die KriteriumsvariableY ?[10pt]

Gruppe EW Umfang Stichprobe Mittelwert(=Faktorstufe)

1 µ1 n1 Y11 . . . Y1n1 Y1...

......

......

...i µi ni Yi1 . . . Yini Yi...

......

......

...k µk nk Yk1 . . . Yknk Yk

Yi =1

ni

ni∑j=1

Yij Mittelwert der Gruppe i

n = n1 + · · ·+ nk Umfang der gesamten Stichprobe

Y =1

n

k∑i=1

ni∑j=1

Yi,j

=1

n

k∑i=1

niYi

Mittelwert der gesamten Stichprobe

Modell 1

Yij = µi + eij i = 1, . . . , k, j = 1, . . . , ni

mit unabhängigen Zufallsvariablen e11, . . . , ek,nk (Fehlervariablen) und Gruppen-Erwartungswertenµ1, . . . , µk.

Annahmen:E(eij) = 0Var(eij) = σ2 (Varianzhomogenität)

125

Page 126: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Matrixschreibweise der Modellgleichungen:

Y = Xβ + e

mit

Y =

Y11...

Yknk

n-dim. Beobachtungsvektor

β =

µ1...µk

k-dim. Vektor der unbekannten Parameter

X =

1 0 · · · 0...

......

1 0 · · · 00 1 · · · 0...

......

0 1 · · · 0...

...0 0 · · · 1...

......

0 0 · · · 1

n1 Zeilen

n2 Zeilen

...nk Zeilen

X ist eine n× k-Matrix mit Rang(X) = k, die sog. Designmatrix.

e =

e11...

ek,nk

n-dim. Fehlervektor

Andere Parametrisierung

µi = µ0︸︷︷︸ + αi︸︷︷︸:= 1

n

∑ki=1 niµi := µi − µ0

mittlerer EW Eekt der Gruppe i

Modell 2 (Eektdarstellung)

Yij = µ0 + αi + eij i = 1, . . . , k, j = 1, . . . , ni

Hier gilt∑k

i=1 niαi = 0 (Reparametrisierungsbedingung).

Aufgabe: Schreibe das Modell in Matrixschreibweise

Y = Xβ + e

126

Page 127: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

mit geeigneter Designmatrix X und Parametervektor β.

Schätzen des Parametervektors β in Modell 1 mittels Methode der kleinsten Quadrate:

Minimierek∑i=1

ni∑j=1

(Yij − µi)2

liefert die Schätzwerte µi = YiFür Modell 2 erhält man:

µ0 = Yi und αi = Yi − Y

Schätzung der Varianz in beiden Modellen durch:

σ2 =SSE

n− k(mittlere Fehlerquadratsumme)

wobei

SSE :=

k∑i=1

ni∑j=1

(Yij − Yi)2

(Sum of Squares due to Errors Summe der quadrierten Residuen).Es gilt die folgende Streuungszerlegung:

k∑i=1

ni∑j=1

(Yij − Y )2 =

k∑i=1

ni(Yi − Y )2 +

k∑i=1

ni∑j=1

(Yij − Yi)2

Kurz:SST = SSA + SSE

Sum of Squares Sum of Squares Sum of SquaresTotal due to factor A due to Errors

Die Variation der gesamten Stichprobe (SST) ist also die Summe der Variation zwischen

den Gruppen und der Variation innerhalb der Gruppen.Begründung:

SST =

k∑i=1

ni∑j=1

(Yij − Y )2

=

k∑i=1

ni∑j=1

(Yij − Yi + Yi − Y )2

=

k∑i=1

ni∑j=1

((Yij − Yi)2 + 2(Yij − Yi)(Yi − Y ) + (Yi − Y )2

)= SSA + 2

k∑i=1

(Yi − Y )

ni∑j=1

(Yij − Yi)︸ ︷︷ ︸=0

+SSE

= SSA + SSE

Man sagt auch, dass die Gesamtvariation SST der Daten sich aus der erklärten VariationSSA und der unerklärten Restvariation SSE zusammensetzt.

127

Page 128: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Zur Überprüfung der globalen Nullhypothese

H0 : µ1 = · · · = µk (oder äquivalent α1 = · · · = αk = 0)

vergleicht man SSA und SSE, genauer

MSA :=SSA

k − 1und MSE :=

SSE

n− kHaben die Faktorstufen von A keinen unterschiedlichen Einuss auf die Zielgröÿe, dann istSSA/(k − 1) klein im Vergleich zu SSE/(n− k).Sind die Fehlervariablen ei normalverteilt (also N(0, σ2)-verteilt), so ist

F :=SSA/(k − 1)

SSE/(n− k)=MSA

MSE

unter der Nullhypothese F-verteilt mit den Freiheitsgraden k − 1 und n− k

Denition: Seien Z1, . . . , Zm, Z1, . . . , Zn unabhängige N(0, 1)-verteilte Zufallsvariablen.Dann heiÿt die Verteilung von

F :=(Z2

1 + · · ·+ Z2m)/m

(Z21 + · · ·+ Z2

n)/n

F-verteilt mit den Freiheitsgraden m und n.

F-TestDamit ergibt sich der F-Test der einfaktoriellen (oder einfachen) Varianzanalyse:

Lehne H0 zum Niveal α ab, fallsF > Fk−1,n−k;1−α︸ ︷︷ ︸

(1− α)-Quantil der F-Verteilung mit (k − 1) und(n− k) Freiheitsgraden.

Zur Beurteilung der Teststatistik von F verwendet man idealerweise die folgende Tafel dereinfachen Varianzanalyse:

Quadrat- mittlere

Variationsursache summen Freiheitsgrade Quadratsummen

zwischen den Stufen SSA (k − 1) MSAdes Faktors A

innerhalb der Stufen SSE (n− k) MSEdes Faktors A

Gesamt SST (n− 1) F =MSA

MSE

Überprüfung der Vorraussetzung zur Varianzhomogenität

• Grasch mit parallelen Boxplots

• Inferenzstatistisch mit

Levene-Test oder

Bartlett-Test

zur Überprüfung der Nullhypothese:

H0 : σ21 = · · · = σ2

k wobei σ2i = Var(Yij)

128

Page 129: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Multiple MittelwertvergleicheFührt der F-Test zur Ablehnung der globalen Nullhypothese, so sind zumindest nicht alleGruppen-Erwartungswerte identisch.

Welche (Kombination von) Gruppen sind für die Ablehnung verantwortlich?

Zur Beantwortung dieser Frage gibt es mehrere Methoden:

Scheé-Test: Lehne H0 : µi = µj zum Niveau α ab, falls:

|µi − µj |se(µi − µj)

>√

(k − 1)Fk−1,n−k,1−α

wobei

se(µi − µj) =

√SSE

n− k·

√1

ni+

1

nj

Den Scheé-Test gibt es auch in einer allgemeineren Version für lineare Kontraste zurÜberprüfung von Hypothesen der Form

H0 :k∑i=1

ciµi = 0 wobeik∑i=1

ci = 0.

Wichtiges Beispiel (s.o.): ci = 1, cj = −1, alle übrigen c′s = 0.

Anderer populärer Test zum simultanen Vergleich von Mittelwerten: Tukey-Test.

Kumulierung der Fehlerwahrscheinlichkeit beim multiplen TestenWerden alle Nullhypothesen:

H ij0 : µi = µj

z.B. mittels 2-Stichproben-t-Test durchgeführt, so sind insgesamt

l =

(k

2

)=k · (k − 1)

2

Einzeltests erforderlich. Wird jeder Einzeltest zum Niveau α durchgeführt, so führt dies zueiner Ination des multiplen α-Fehlers (auch experimentwise oder familywise error rate),deniert durch

p = P(mindestens eine Nullhypothese H ij0 fälschlicherweise ablehnen)

Sei Aij das Ereignis, H ij0 fälschlicherweise abzulehnen:

p = P(A12 ∪A13 ∪ · · · ∪A(i−1)j)

= P

⋃i 6=j

Aij

= 1−P

⋂i 6=j

Aij

︸ ︷︷ ︸≥∏i 6=j

P(Aij)︸ ︷︷ ︸=1−α

≤ 1− (1− α)l

129

Page 130: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

wobei l die Gesamtzahl der Einzeltests zum Niveau α.Bei Unabhängigkeit der Ereignisse Aij gilt Gleichheit.

Beispiel: α = 0.05, k = 5, also l = 10 ⇒ p ≤ 1− (1− 0.05)10 ≈ 0.4

Paarvergleiche nach dem Bonferroni-VerfahrenNach der Bonferroni-Ungleichung gilt:

P(∩Aij

)≥ 1−

∑P(Aij)︸ ︷︷ ︸l·α

Also gilt für die multiple Fehlerrate p:

α ≤ p ≤ lα

Werden die Einzelvergleiche statt zum Niveau α zum Niveau α/l durchgeführt, so ist diemultiple Fehlerrate höchstens gleich α!

Die Bonferroni-Korrektur ist jedoch sehr konservativ, der resultierende multiple Test be-sitzt eine geringe Power!Äquivalente Formulierung des Bonferroni-Verfahrens: Seien pij die p-Werte zu den Testsmit den Hypothesen H ij

0 : µi = µj

Dann ist der Bonferroni-korrigierte multiple p-Wert gegeben durch:

pBonf = l ·maxi 6=j

pij

13.2. Einfache Varianzanalyse mit R

Im Datensatz survey aus dem Paket MASS nden sich die Variablen Pulse (Pulsrate proMinute), Smoke (Rauchverhalten) und weitere.

Frage: Besteht ein Zusammenhang zwischen Pulsrate und Rauchverhalten?

> library(MASS)

> attach(survey)

> summary(Pulse)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA 's

35.00 66.00 72.50 74.15 80.00 104.00 45.00

> summary(Smoke)

Heavy Never Occas Regul NA's

11 189 19 17 1

> boxplot(Pulse ~ Smoke)

> aov(Pulse ~ Smoke)

Call:

aov(formula = Pulse ~ Smoke)

Terms:

Smoke Residuals

Sum of Squares 127.433 25926.797

130

Page 131: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Deg. of Freedom 3 187

Residual standard error: 11.77480

Estimated effects may be unbalanced

46 observations deleted due to missingness

> summary(aov(Pulse ~ Smoke))

Df Sum Sq Mean Sq F value Pr(>F)

Smoke 3 127.4 42.478 0.3064 0.8208

Residuals 187 25926.8 138.646

46 observations deleted due to missingness

Abbildung 31: Puls in Abhängigkeit vom Rauchverhalten

Besteht ein Zusammenhang zwischen Pulsrate und Geschlecht?

Überprüfen Sie, dass die Varianzanalyse bei einemMerkmal mit zwei Gruppen der Vergleichder Gruppenmittel identisch ist zum 2-Stichproben-t-Test:

> summary(aov(Pulse ~ Sex))

Df Sum Sq Mean Sq F value Pr(>F)

Sex 1 177.6 177.56 1.2953 0.2565

Residuals 189 25909.7 137.09

46 observations deleted due to missingness

131

Page 132: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

> t.test(Pulse ~ Sex , var.equal=TRUE)

Two Sample t-test

data: Pulse by Sex

t = 1.1381 , df = 189, p-value = 0.2565

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-1.413995 5.270794

sample estimates:

mean in group Female mean in group Male

75.12632 73.19792

Wird im linearen Modell für die Gruppenmittel angenommen, dass

µi = µ+ αi, i = 1, . . . , I

mit unbekannten µ und αi, so sind diese Parameter nicht eindeutig bestimmt.In R wird standardmäÿig angenommen, dass

α1 = 0 (Berechne die Behandlungskontraste)

α2, . . . αI sind dann die Abweichungen vom ersten Gruppenmittel in den Gruppen 2, . . . , I.

> lm(Pulse ~ Smoke)

Call:

lm(formula = Pulse ~ Smoke)

Coefficients:

(Intercept) SmokeNever SmokeOccas SmokeRegul

78.286 -4.292 -4.348 -4.598

> mean(Pulse[Smoke == "Heavy"], na.rm=TRUE)

Eine andere Wahl der Parametrisierung liefert die Nebenbedingung:

I∑i=1

αi = 0 Berechne die Kontraste so, dass deren Summe = 0

In R:

> model1 <- lm(Pulse ~ Smoke ,

+ contrasts=list(Smoke=" contr.treatment "));

> dummy.coef(model1)

Full coefficients are

(Intercept ): 78.28571

Smoke: Heavy Never Occas Regul

0.000000 -4.292293 -4.348214 -4.598214

> model2 <- lm(Pulse ~ Smoke ,

+ contrasts=list(Smoke="contr.sum"))

> dummy.coef(model2)

Full coefficients are

(Intercept ): 74.97603

Smoke: Heavy Never Occas Regul

3.3096805 -0.9826128 -1.0385338 -1.2885338

> sum(dummy.coef(model2)$Smoke)

[1] 1.110223e-16

132

Page 133: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Die Faktorstufen werden in R standardmäÿig in alphabetischer Reihenfolge dargestellt.Referenzkategorie (Baseline) ist damit die Faktorstufe, welche alphabetisch gesehen alserste auftaucht. In obigem Beispiel ist dies die Faktorstufe Heavy. Vermutlich ist es jedochsinnvoller, Never als Referenzkategorie zu wählen:

> levels(Smoke)

[1] ``Heavy '' ``Never '' ``Occas '' ``Regul ''

> levels(Smoke) <- c(``Never '',''Occas '',''Regul '',''Heavy '')

> levels(Smoke)

[1] ``Never '' ``Occas '' ``Regul '' ``Heavy ''

> model1 <- lm(Pulse~Smoke , contrasts=list(Smoke=''contr.treatment ''))

> dummy.coef(model1)

Full coefficients are

(Intercept ): 78.28571

Smoke: Never Occas Regul Heavy

0.000000 -4.292293 -4.348214 -4.598214

> model2 <- lm(Pulse~Smoke , contrasts=list(Smoke=''contr.sum ''))

> dummy.coef(model2)

Full coefficients are

(Intercept ): 74.97603

Smoke: Never Occas Regul Heavy

3.3096805 -0.9826128 -1.0385338 -1.2885338

Überprüfung auf gleiche Varianzen:

> bartlett.test(Pulse ~ Smoke)

Bartlett test of homogeneity of variances

data: Pulse by Smoke

Bartlett 's K-squared = 2.8627 , df = 3, p-value = 0.4133

> library(car)

> leveneTest(Pulse ~ Smoke , data=survey)

Levene 's Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)

group 3 0.6535 0.5817

187

Multipler paarweiser Vergleich von Hypothesen:

> pairwise.t.test(Pulse , Smoke , pool.sd=FALSE)

Pairwise comparisons using t tests with non -pooled SD

data: Pulse and Smoke

Heavy Never Occas

Never 1 - -

Occas 1 1 -

Regul 1 1 1

P value adjustment method: holm

Hier könnte die Varianz auch aus der gesamten Stichprobe ermittelt werden: pool.sd=TRUE.

133

Page 134: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

14. Versuchsplanung

Die folgende Darstellung orientiert sich an Köhler et alt., Biostatistik, 2007, und Rudolf etalt., Biostatistik, 2008.

14.1. Wahl geeigneter Merkmale

Objektivität, Reliabilität, ValiditätLiegt dem Fachwissenschaftler eine Fragestellung vor, so muss er sich entscheiden, welcheMerkmale er zur Beantwortung seiner Frage sinnvollerweise untersucht. Dazu sollte erzunächst die folgenden drei Kriterien bei der Auswahl seiner Merkmale beachten:Die Ausprägung des zu ermittelnden Merkmals ist unabhängig von der Person des Aus-werters eindeutig festzustellen.

Beispiel: die Bewertung von Deutsch-Aufsätzen ist oft stark vom beurteilenden Lehrerabhängig und somit wenig objektiv.Das Merkmal gestattet reproduzierbare Mess- (bzw. Beobachtungs-) Ergebnisse, bei Wie-derholung liegen also gleiche Resultate vor. Statt Reliabilität wird auch von Zuverlässig-keit gesprochen.

Beispiel: Beim Test einer neuen Methode zur Messung der Enzymaktivität wurde dasuntersuchte Homogenat in mehrere gleiche Proben aufgeteilt und jeweils gemessen. Dieerhaltenen Ergebnisse unterschieden sich teilweise um eine Gröÿenordnung (Faktor 10).Die Methode musste als unzuverlässig verworfen werden.Das Merkmal in seinen Ausprägungen spiegelt die für die Fragestellung wesentlichen Eigen-schaften wider. Statt Valitität wird auch von Gültigkeit oder Aussagekraft gesprochen.

Beispiel: Bei der Zulassung zum Medizin-Studium spielt die Durchschnittsnote im Ab-itur eine wichtige Rolle. Hat dieses Merkmal tatsächlich eine zentrale Bedeutung für dieBeurteilung, ob die Fähigkeit zum Arztberuf vorliegt?

• Ableitung einer durch einen Versuch zu bearbeitenden Fragestellung.

• Überführung dieser Fragestellung in ein biowissenschaftliches Modell mit entspre-chenden Forschungshypothesen.

• Erarbeitung einer Untersuchungsmethode zur Überprüfung der Hypothese.

14.2. Bedeutung der Versuchsplanung in der biowissenschaftlichenForschung

• Formalisierung des biowissenschaftlichen Modells durch ein entpsrechendes mathematisch-statistisches Modell mit den entsprechenden statistischen Hypothesen.

• Festlegung der Stichprobengewinnung.

• Detaillierte Festlegung des Versuchsplanes (zum Beispiel Anzahl der Faktorstufen,Anzahl der Wiederholungen, Umgang mit Störvariablen, Verteilung der Untersu-chungseinheiten auf die unterschiedlichen Versuchsbedingungen).

• Festlegung der Verfahren zur Datenanalyse einschlieÿlich der Untersuchung der not-wendigen Voraussetzungen.

• Bestimmung des optimalen Stichprobenumfangs.

134

Page 135: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Eine abgestimmte fachwissenschaftliche und biostatistische Versuchsplanung schat dieVoraussetzungen für

• die Genauigkeit der Versuchsergebnisse und ihre Kontrolle bei der Auswertung

• die Kontrolle oder die Elimination vor Störgröÿen

• die sachgerechte Beschreibung der Versuchsergebnisse durch grasche Darstellungenund statistische Maÿzahlen

• die Quantizierung und kritischen Wertung charakteristischer Beziehungen (Zusam-menhänge, Unterschiede) und

• die ökonomische Durchführung des Versuchs.

14.3. Grundlegende Aspekte der Versuchsplanung

14.3.1. Varianzquellen in biowissenschaftlichen Untersuchungen

Denition: Als Primärvarianz wird der Varianzanteil der Zielvariablen bezeichnet, derauschlieÿlich auf die Variation der experimentellen Bedingungen zurückgeführt werdenkann.

Die biostatistische Versuchsplanung soll die Voraussetzungen dafür schaen, dass dieserVarianzanteil möglichst groÿ sein kann, damit die interessierenden Eekte nachgewiesenwerden können.Denition: Als Sekundärvarianz wird der Varianzanteil bezeichnet, der durch die Wir-kung von Störvariablen hervorgerufen wird.

Die biostatistische Versuchsplanung soll eine Kontrolle potentieller Störvariablen sicher-stellen.Denition: Als Fehlervarianz wird der aus zufälligen Unterschieden zwischen den Un-tersuchungseinheiten oder aus unsystematischen, zufälligen Einüssen der Untersuchungresultierende Varianzanteil bezeichnet.

Die biostatistische Versuchsplanung hat die Aufgabe, diesen Varianzanteil so gering wiemöglich zu halten.Merksatz: ein wichtiges Ziel der biostatistischen Versuchsplanung besteht darin, die Pri-märvarianz zu maximieren, die Sekundärvarianz zu kontrollieren und die Fehlervarianz zuminimieren.

Das Verhältnis der Anteil von Primär-, Sekundär- und Fehlervarianz ist eng mit dem Begrider internen Validität einer Untersuchung verbunden.

Denition: eine Untersuchung ist intern valide (nach innen gültig), wenn die Unterschiedein der abhängigen Variablen (dem interessierenden Merkmal) zwischen den verschiedenenVersuchbedingungen eindeutig auf die Veränderungen der unabhängigen Variablen, d.h.auf die unterschiedlichen Versuchsbedingungen zurückgeführt werden können.Denition: Eine Untersuchung ist extern valide (nach auÿen gültig), wenn die Ergebnis-se der Untersuchung auf die Population und auf andere Situationen übertragen werdenkönnen.

135

Page 136: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

14.3.2. Allgemeine Prinzipien der Versuchsplanung

• Maximieren der Primärvarianz

• Konstanthalten von Störgröÿen

• Randomisierung von Versuchsbedingungen

• Matching

• Blockbildung

• Verblindung (einfach oder mehrfach)

• Wiederholungen

• mehrfaktorielle Strukturen

• statistische Kontrolle von Störfaktoren mittels Regressionsmethoden

• Einbeziehung einer Kontrollgruppe

• Symmetrie

14.3.3. Typen von Stichproben

• Einfache Zufallsstichproben

• Geschichtete Stichproben (zB hinsichtlich Alter und/oder Geschlecht)

• Klumpenstichproben (zB Herden oder Familien)

• Mehrstuge zufällige Auswahlverfahren

14.3.4. Einige wichtige Versuchspläne

• Einfaktorielle Randomisierungspläne für groÿe Stichprobenumfänge, dreifache Zu-fallszuordnung

• Blockversuchspläne

• Messwiederholungspläne

• Mehrfaktorielle Pläne

• Mischversuchspläne

• Unvollständige Versuchspläne wie hierarchische Pläne oder Lateinische Quadrate

14.4. Bestimmung optimaler Stichprobenumfänge

Einfaches Beispiel: 1-Stichproben-GauÿtestX1, . . . , Xn unabhängige Zufallsgröÿen, verteilt wie N(µ, σ2) mit unbekanntem Erwar-tungswert µ und bekannter Varianz σ2 > 0.Zu testen ist

H0 : µ ≤ µ0 gegen H1 : µ > µ0 (Signikanztest)

136

Page 137: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

mit dem rechtsseitigen Gauÿ-Test: Lehne H0 zum Niveau α ∈ (0, 1) ab, falls

√nx− µ0

σ> z1−α := Φ−1(1− α)

Gütefunktion dieses Tests:

G(µ) = Φ

(√nµ− µ0

σ− z1−α

)Die Wahrscheinlichkeit für einen Fehler 2. Art liegt damit für ein µ, das nur wenig gröÿerist als µ0, knapp unterhalb von 1− α.Sind wir nur an µ-Werten interessiert sind, die um mindestens eine von uns gewählte Gröÿe∆ > 0 von µ0 abweichen, testen wir die Hypothesen

H0 : µ ≤ µ0 gegen H∆ : µ > µ0 + ∆ (Relevanztest)

Für diesen Test kann die Wahrscheinlichkeit β für einen Fehler 2. Art kontrolliert werden:

β = 1−G(µ0 + ∆) = Φ

(z1−α −

√n

σ

)Diese Beziehung ist äquivalent mit

∆ =σ√n

(z1−α − zβ)

Zu vorgegebenen Wahrscheinlichkeiten α und β für einen Fehler 1. bzw. 2. Art, Streuungσ (geschätzt z.B. im Rahmen einer Pilotstudie) und minimaler relevanter Abweichung(Mindesteekt) ∆ ergibt sich für den minimalen Stichprobenumfang

n ≥σ2(z2

1−α + z21−β)

∆2

137

Page 138: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Anhang

138

Page 139: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

A. Literatur

[1] L. Fahrmeir et al.: Statistik Der Weg zur Datenanalyse, 7. Auage, Springer 2010.

[2] J. Groÿ: Grundlegende Statistik mit R Eine anwendungsorientierte Einführung in

die Verwendung der Statistik Software R, Vieweg+Teubner 2010.

[3] J. Hain: Statistik mit R Grundlagen der Datenanalyse, RRZN-Handbuch, LeibnizUniversität Hannover 2011 (erhältlich in der Benutzerberatung des RUS).

[4] W. Köhler, G. Schachtel, P. Voleske: Biostatistik: Eine Einführung für Biologen und

Agrarwissenschaftler, Springer 2007.

[5] M. Rudolf und W. Kuhlisch: Biostatistik eine Einführung für Biowissenschaftler,Pearson Studium 2008

[6] B. Shababa: Biostatistics with R An Introduction to Statistics Through Biological

Data, Springer 2012.

Page 140: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

B. Quellcode zu den Graken

Listing 2: grasche-methoden.r (erzeugt Abbildungen 1 / 2)# Zufallsgenerator zuruecksetzen

set.seed (2);

#Erste Grafik plotten

png ("2.1- grafische_methoden_a.png", width =500, height =800);

par(mfrow=c(3,2), mar=c(3,3,1,1), cex =1.2);

## Deskriptive Statistik

x <- c(2, 2, 3, 3, 3, 4, 2, 5, 5, 4, 4, 3);

n <- length(x)

h <- table(x) # absolute Haeufigkeitsverteilung

f <- h/n # relative Haeufigkeitsverteilung

## Stabdiagramm

plot(h)

plot(h/n)

## Saeulendiagramm

barplot(h)

barplot(h/n)

## Balkendiagramm

barplot(h, horiz=TRUE)

## Kreisdiagramm

pie(h)

# Grafikerzeugung beenden

dev.off ();

#Erste Grafik plotten

png ("2.1- grafische_methoden_b.png", width =800, height =300);

## Ab hier 2te Grafik

par(mfrow=c(1,3), cex =1.1);

## Normalverteilte Zufallszahlen

x <- rnorm (20)

## Stamm -Blatt -Diagramm

stem(x)

## Histogramm

hist(x)

hist(x, freq=FALSE)

## Empirische Verteilungsfunktion

F <- ecdf(x)

plot(F)

# Grafikerzeugung beenden

dev.off ();

140

Page 141: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Listing 3: quantile.r (erzeugt Abbildung 3)# Zufallsgenerator zuruecksetzen

set.seed (1);

# Grafik erzeugen.

png ("2.2.2 - quantile.png", width =400, height =380);

# Zufallszahlen erzeugen

z <- sort(runif (5))

# Plot einstellen

par(mar=c(4,3,1,1))

#Funktion einzeichnen

plot(stepfun(z,c(0, (1:5)/5)) , main="", xlab="", ylab="",

do.points=FALSE , ylim=c(0,1), xaxt="n", yaxt="n")

#Querlinien

# Die Gewaehlten Linienpositionen haengen von der Wahl des

# Startpunktes des Zufallsgenerators ab.

lines(c(0,z[2]), c(0.25 , 0.25), lty=2)

lines(c(0,z[3]), c(0.5, 0.5), lty=2)

lines(c(0,z[4]), c(0.75 , 0.75), lty=2)

# Achse links einzeichnen

axis(2, at=c(0, 0.25, 0.5, 0.75, 1), las=1,

labels=c(0, 0.25, 0.5, 0.75, 1))

# Achse unten einzeichnen

axis(1, at=z,

labels=c(expression(x[(1)]) , expression(x[(2)]) ,

expression(x[(3)]) , expression(x[(4)]) ,

expression(x[(5)])))

# Achse für Quantile

# Die Gewaehlten Quantilpositionen haengen von der Wahl des

# Startpunktes des Zufallsgenerators ab.

axis(1, at=c(z[2], z[3], z[4]), line=1, lwd=0,

labels=c(expression(x[0.25]) , expression(x[0.5]) ,

expression(x[0.75])))

# Grafikerzeugung beenden.

dev.off ();

Listing 4: boxplot.r (erzeugt Abbildung 4)# Zufallsgenerator zuruecksetzen

set.seed (1);

# Grafik erzeugen

png ("2.2.2 - box_plot.png", width =700, height =250);

# Plot einstellen

par(bty="n", mar=c(3,0,0,0), cex.axis =1.5)

# Zufallszahlen erzeugen

z <- sort(runif (5))

# Funktion einzeichnen

141

Page 142: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

boxplot(z, horizontal=TRUE , xaxt="n")

axis(1, at=z,

labels=c(expression(x[min]), expression(x[0.25]) ,

expression(x[0.5]) , expression(x[0.75]) ,

expression(x[max ])))

# Grafikerzeugung beenden

dev.off ();

Listing 5: lorenzkurve.r (erzeugt Abbildung 5)# Zufallsgenerator zuruecksetzen

set.seed (1);

# Grafik erzeugen.

png ("5.2- empirische_verteilungsfunktion.png", width =400, height =380);

# Zufallszahlen erzeugen

z <- rnorm (5)

# Raender waehlen.

par(mar=c(3,3,1,1))

# Funktion einzeichnen

plot(ecdf(z), xaxt="n", main="", ylab="", xlab ="");

# Achsen beschriften

axis(1, at=z,

labels=c(expression(x[1]), expression(x[2]),

expression(x[3]), expression(x[4]),

expression(x[5])))

# Grafikerzeugung beenden.

dev.off ();

Listing 6: blutdruck.r (erzeugt Abbildung 6)set.seed (1);

# Grafik erzeugen.

png ("3.2- blutdruck.png", width =500, height =380);

# Plot einstellen

par(mar=c(3,3,1,1), cex.lab =1.5);

# Zufallswerte erzeugen

x <- rnorm (40, mean=1, sd =0.2);

y <- x+rnorm (40,sd =0.1)+1;

x2 <- rnorm(40, mean=3, sd =0.2);

y2 <- x2+rnorm(40,sd=0.1) -2;

x <- c(x,x2);

y <- c(y,y2);

# Zufallswerte einzeichnen

plot(x,y, pch=16, cex=0.5,

bty="l", xlim=c(0,4), ylim=c(0,3),

xaxt="n", yaxt="n", xlab="", ylab ="");

142

Page 143: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

# Realen Zusammenhang einzeichnen

lines(c(0,4),c(2.5 ,0.5));

# Achsenbeschriftung

title(ylab=" Blutdrucksenkung", xlab=" Dosierung",line =1);

#Grafikerzeugung beenden

dev.off ();

Listing 7: zaehldichte-und-verteilungsfunktion.r (erzeugt Abbildung 8)## Zähldichte und Verteilungsfunktion

x <- 0:5

y <- dbinom (0:5, size=5,prob =0.4)

# Grafik erzeugen.

png ("5.2- zaehldichte_und_verteilungsfunktion.png", width =800, height =380);

par(mfcol=c(1 ,2))

## distribution function

plot(cbind(x,y),type="h",

main=" Wahrscheinlichkeitsfunktion",xlab="x",ylab="f(x)")

## cumulative distribution function

plot(stepfun(x,cumsum(c(0,y)),f = 0), verticals=FALSE ,

main=" Verteilungsfunktion",ylab="F(x)")

# Grafikerzeugung beenden

dev.off ();

Listing 8: hypergeometrischeverteilung.r (erzeugt Abbildung 9)## Zähldichte und Verteilungsfunktion der hypergeometrischen Verteilung

# Grafik erzeugen.

png ("5.3- hypergeometrische_verteilung.png", width =800, height =380);

# Parameter der hypergeometrischen Verteilung

N <- 10;

M <- 6;

n <- 6;

# Berechnen der Wahrscheinlichkeitsdichten

x <- 1:7;

y <- dhyper (1:7, M, N-M, n)

# Ausgabefenster einstellen.

par(mfcol=c(1 ,2))

## distribution function

plot(cbind(x,y),type="h",

main=" Wahrscheinlichkeitsfunktion",xlab="x",ylab="f(x)")

## cumulative distribution function

plot(stepfun(x,cumsum(c(0,y)),f = 0), verticals=FALSE ,

main=" Verteilungsfunktion",ylab="F(x)")

# Grafikerzeugung beenden

dev.off ();

143

Page 144: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

Listing 9: poissonverteilung.r (erzeugt Abbildung 10)## Zähldichte und Verteilungsfunktion der Poisson Verteilung

# Grafik erzeugen.

png ("5.3- poisson_verteilung.png", width =800, height =380);

# Berechnen der Wahrscheinlichkeitsdichten

x <- 0:10;

y <- dpois (0:10 , 3)

# Ausgabefenster einstellen.

par(mfcol=c(1 ,2))

## distribution function

plot(cbind(x,y),type="h",

main=" Wahrscheinlichkeitsfunktion",xlab="x",ylab="f(x)")

## cumulative distribution function

plot(stepfun(x,cumsum(c(0,y)),f = 0), verticals=FALSE ,

main=" Verteilungsfunktion",ylab="F(x)")

# Grafikerzeugung beenden

dev.off ();

Listing 10: gleichverteilung.r (erzeugt Abbildung 11)## Dichte und Verteilungsfunktion der Gleichverteilung

## Grafik erzeugen.

png ("6.1- gleichverteilung.png", width =800, height =380);

## Grafikfenster einstellen

par(mfcol=c(1,2), cex.axis =1.2, cex.lab =1.2);

x <- seq(-0.5, 1.5, 0.01);

## distribution function

plot(x, dunif(x),type="l",

main=" Dichtefunktion",xlab="x",ylab="f(x)");

## cumulative distribution function

plot(x, punif(x), type="l", main=" Verteilungsfunktion",ylab="F(x)");

## Grafikerzeugung beenden

dev.off ();

Listing 11: exponentialverteilung.r (erzeugt Abbildung 12)## Dichte und Verteilungsfunktion der Exponentialverteilung

## Grafik erzeugen.

png ("6.1- exponentialverteilung.png", width =800, height =380);

## Grafikfenster einstellen

par(mfcol=c(1,2), cex.axis =1.2, cex.lab =1.2);

x <- seq(0, 5, 0.01);

## distribution function

plot(x, dexp(x),type="l",

main=" Dichtefunktion",xlab="x",ylab="f(x)");

144

Page 145: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

## cumulative distribution function

plot(x, pexp(x), type="l", main=" Verteilungsfunktion",ylab="F(x)");

## Grafikerzeugung beenden

dev.off ();

Listing 12: normalverteilung.r (erzeugt Abbildung 13)## Dichte und Verteilungsfunktion der Normalverteilung

## Grafik erzeugen.

png ("6.3- normalverteilung.png", width =800, height =380);

## Grafikfenster einstellen

par(mfcol=c(1,2), cex.axis =1.2, cex.lab =1.2);

x <- seq(-4, 4, 0.01);

## distribution function

plot(x, dnorm(x),type="l",

main=" Dichtefunktion",xlab="x",ylab="f(x)");

## cumulative distribution function

plot(x, pnorm(x), type="l", main=" Verteilungsfunktion",ylab="F(x)");

## Grafikerzeugung beenden

dev.off ();

Listing 13: 2dimnormalverteilung.r (erzeugt Abbildungen 14 / 15 / 16)x1 <- seq(-5,5,length =41) # generating the vector series x1

x2 <- x1 # copying x1 to x2

# Funktion zur Berechnung der 2-Dimensionalen Dichte der Normalverteilung

# mu1 - Erwartungswert von x1

# mu2 - Erwartungswert von x2

# s11 - Varianz von x1

# s22 - Varianz von x2

# rho - Korrelationskoeffizient zwischen x1 und x2

f <- function(x1,x2 , mu1 , mu2 , s11 , s22 , rho)

term1 <- 1/(2* pi*sqrt(s11*s22*(1-rho ^2)))

term2 <- -1/(2*(1 -rho ^2))

term3 <- (x1-mu1 )^2/ s11

term4 <- (x2-mu2 )^2/ s22

term5 <- -2*rho*((x1 -mu1 )*(x2-mu2 ))/( sqrt(s11)*sqrt(s22))

term1*exp(term2 *(term3+term4 -term5))

dichtePlot < -function(mu1 , mu2 , s11 , s22 , rho)

z <- outer(x1,x2,f, mu1 , mu2 , s11 , s22 , rho); # Berchnen der Dichte Werte

persp(x1 , x2, z,

main="Zwei dimensionale Normalverteilung",

col=" lightgreen",

theta=30, phi=20,

r=50,

d=0.1,

expand =0.5,

ltheta =90, lphi =180,

shade =0.75,

145

Page 146: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

ticktype =" detailed",

nticks =5);

# Beschreibung der Parameter

mtext(substitute(

list(mu[1]==mu1 ,mu [2]==mu2 ,sigma [1]==s11 ,sigma [2]==s22 ,rho==rh),

list(mu1 = mu1 , mu2 = mu2 , s11 = s11 , s22 = s22 , rh = rho)),

cex =1.5)

# Grafik erzeugen

png ("8.6 -2 _dimensionale_normalverteilung_a.png", width =500, height =500);

dichtePlot (0,0, 1,1, 0);

# Grafikerzeugung beenden

dev.off ();

# Grafik erzeugen

png ("8.6 -2 _dimensionale_normalverteilung_b.png", width =500, height =500);

dichtePlot (0,0, 1.5,1, 0);

# Grafikerzeugung beenden

dev.off ();

# Grafik erzeugen

png ("8.6 -2 _dimensionale_normalverteilung_c.png", width =500, height =500);

dichtePlot (0,0, 1, 1, 0.8);

# Grafikerzeugung beenden

dev.off ();

Listing 14: alphaquantil.r (erzeugt Abbildung 18)

# Grafik erzeugen.

png ("10.1.2 - alpha_quantil.png", width =500, height =500);

#Zufallsgenerator zuruecksetzen

set.seed (1);

#Grafik einstellen

par(cex.axis =1.5, mar=c(3,2,3,2));

sample <- seq(-5,5, 0.01);

distf <- dnorm(sample );

alpha <- 0.05;

# Dichte der Normalverzteilung einzeichnen

plot(sample , distf , type="l",

main=" Dichte der N(0,1)- Verteilung",

xlab="", ylab="",

xaxt="n", yaxt="n",

xaxs="i", yaxs="i", ylim=c(0, 0.45));

# Alpha Quantil berechnen und markieren

q <- qnorm(1-alpha);

points(q,dnorm(q), type="h");

# Alpha Quantil ausfuellen

polygon(c(sample[sample >q],sample[sample >q][1]),

c(distf[sample >q], 0), col='gray ')

146

Page 147: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

# Quantil beschriften

axis(1, at=sample[sample >q][1], labels=substitute(z[1-alpha]), line =0)

# Beschriftung des Flaecheninhaltes

text (3.3, 0.1, expression (" Flaecheninhalt " ~ alpha), cex =1.4);

lines(c(3, 1.8), c(0.08, 0.03))

# Grafikerzeugung beenden.

dev.off ();

Listing 15: alphaquantilbeidseitig.r (erzeugt Abbildung 19)# Grafik erzeugen.

png ("10.1.2 - alpha_quantil_beidseitig.png", width =500, height =500);

#Zufallsgenerator zuruecksetzen

set.seed (1);

#Grafikfenster einstellen

par(cex.axis =1.5, mar=c(3,2,3,2));

sample <- seq(-5,5, 0.01);

distf <- dnorm(sample );

alpha <- 0.05;

# Dichte der Normalverzteilung einzeichnen

plot(sample , distf , type="l",

main=" Dichte der N(0,1)- Verteilung",

xlab="", ylab="",

xaxt="n", yaxt="n",

xaxs="i", yaxs="i", ylim=c(0, 0.45));

# Alpha Quantil berechnen und markieren

q1 <- qnorm(1-( alpha /2));

q2 <- qnorm(alpha /2);

points(q1,dnorm(q1), type="h");

points(q2,dnorm(q2), type="h");

# Quantile ausfuellen

polygon(c(sample[sample >q1],sample[sample >q1][1]),

c(distf[sample >q1], 0), col='gray ');

polygon(c(sample[length(sample[sample <q2]):1],

sample[sample <q2][ length(sample[sample <q2])]),

c(distf[length(distf[sample <q2]):1], 0), col='gray ');

# Quantile beschriften

axis(1, at=sample[sample >q1][1], labels=substitute(z[1-alpha /2]), line =0)

axis(1, at=sample[sample >q2][1], labels=substitute(z[alpha /2]), line =0)

# Beschriftung des Flaecheninhaltes

text (3.3, 0.05, expression(frac(alpha ,2)), cex =1.4);

text(-3.3, 0.05, expression(frac(alpha ,2)), cex =1.4);

# Grafikerzeugung beenden.

dev.off ();

Listing 16: pwert.r (erzeugt Abbildung 20)# Grafik erzeugen.

png ("10.2.3 - p_wert.png", width =600, height =400);

#Zufallsgenerator zuruecksetzen

147

Page 148: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

set.seed (1);

#Grafikfenster einstellen

par(cex.axis =1.5, mar=c(3,2,3,2));

sample <- seq(-5,5, 0.01);

distf <- dnorm(sample );

alpha <- 0.05;

p <- 0.01;

# Dichte der Normalverzteilung einzeichnen

plot(sample , distf , type="l",

main=" Dichte der N(0,1)- Verteilung",

xlab="", ylab="",

xaxt="n", yaxt="n",

xaxs="i", yaxs="i", ylim=c(0, 0.45));

# Alpha Quantil berechnen und markieren

qnorm(1-( alpha /2));

qnorm(alpha /2);

points(q1,dnorm(q1), type="h");

points(q2,dnorm(q2), type="h");

# Quantile ausfuellen

polygon(c(sample[sample >q1],sample[sample >q1][1]),

c(distf[sample >q1], 0), col=rgb(0.9, 0.9, 0.9));

polygon(c(sample[length(sample[sample <q2]):1],

sample[sample <q2][ length(sample[sample <q2])]),

c(distf[length(distf[sample <q2]):1], 0), col=rgb(0.9, 0.9, 0.9));

# Quantile beschriften

axis(1, at=sample[sample >q1][1], labels=substitute(z[1-alpha /2]), line =0)

axis(1, at=sample[sample >q2][1], labels=substitute(z[alpha /2]), line =0)

# Und nochmal das gleiche für den P Wert

# Alpha Quantil berechnen und markieren

q1 <- qnorm(1-(p/2));

q2 <- qnorm(p/2);

points(q1,dnorm(q1), type="h");

points(q2,dnorm(q2), type="h");

# Quantile ausfuellen

polygon(c(sample[sample >q1],sample[sample >q1][1]),

c(distf[sample >q1], 0), col='gray ');

polygon(c(sample[length(sample[sample <q2]):1],

sample[sample <q2][ length(sample[sample <q2])]),

c(distf[length(distf[sample <q2]):1], 0), col='gray ');

# Quantile beschriften

axis(1, at=sample[sample >q1][1], labels ="z", line =0)

axis(1, at=sample[sample >q2][1], labels="-z", line =0)

# Grafikerzeugung beenden.

dev.off ();

Listing 17: idealeguetefunktion.r (erzeugt Abbildung 21)# Grafik erzeugen.

png ("10.2.4 - ideale_guetefunktion.png", width =500, height =300);

#Signifikanzniveau

alpha <- 0.1

148

Page 149: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

# Fenstereinstellungen

par(mar=c(1,2,1,1), cex.axis =1.2);

# Ideale Guetefunktion einzeichnen

plot(ecdf(3), bty="n",

main="",

pch=1,

xlab="", ylab="",

xaxs="i", yaxs="i", # Kein Abstand zur Achse

xaxt="n", yaxt="n", # Keine automatische Achseneinzeichnung

xlim=c(0,6), ylim=c(-0.1, 1.1)); # Fenstergröÿe

points(3, alpha , pch =19);

# Pfeile fuer die Achsen zur besseren Optik

u <- par("usr");

arrows(u[1], 0, u[2], 0, code = 2, xpd = TRUE , length =0.15)

arrows(u[1], 0, u[1], u[4], code = 2, xpd = TRUE , length =0.15)

# Alpha und die 1 einzeichnen

axis(2, at=c(alpha ,1), labels=c(expression(alpha),1), las =1);

lines(c(u[1],3), c(alpha , alpha ));

# Mu0 einzeichnen

axis(1, at=3, pos=0, labels=expression(mu [0]));

# Annahmebereich

axis(1, at=1.5, labels=expression(H[0]), pos=-0.01, tick=FALSE );

arrows(0, -0.05, 3, -0.05, code = 2, xpd = TRUE , length =0.1);

# Ablehnungsbereich

axis(1, at=4.5, labels=expression(H[1]), pos=-0.01, tick=FALSE );

arrows (3.05 , -0.05, 6, -0.05, code = 1, xpd = TRUE , length =0.1);

# Grafikerzeugung beenden

dev.off ();

Listing 18: einseitigergaussguete.r (erzeugt Abbildung 22)# Grafik erzeugen.

png ("10.2.4 - guetefunktion_einseitiger_gauss.png", width =500, height =300);

# Fenstereinstellungen

par(mar=c(3,2,1,1), cex.axis =1.2);

alpha <- 0.05 #Signifikanzniveau

sigma <- 1; # Standardabweichung

mu0 <- 0;

n <- 30; #

# Berechnung der Gütefunktion

x <- seq(-0.5,1, 0.01);

y <- 1-pnorm(qnorm(1-alpha)-(x-mu0)/sigma*sqrt(n));

plot(x,y, type="l",

ylim=c(0,1.1),

yaxt="n", xaxt="n",

xaxs="i", yaxs="i",

bty="n");

# mu0 einzeichnen

149

Page 150: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

axis(1, at=mu0 , labels=expression(mu [0]));

# Alpha und die 1 einzeichnen

axis(2, at=c(alpha ,1), labels=c(expression(alpha),1), las =1);

lines(c(-0.5,mu0), c(alpha , alpha), lty =2);

lines(c(-0.5,1), c(1, 1), lty =2);

# Beliebigen Beta Fehler einzeichnen

tmp <-abs(( length(y[y<alpha ])+ length(y))/2);

text(x[tmp]-0.05, (1+y[tmp])/2, expression(beta), cex =1.2);

lines(c(x[tmp], x[tmp]), c(1, y[tmp ]));

# Pfeile fuer die Achsen zur besseren Optik

u <- par("usr"); # Fensterdaten laden

arrows(u[1], u[3], u[2], u[3], code = 2, xpd = TRUE , length =0.15);

arrows(u[1], u[3], u[1], u[4], code = 2, xpd = TRUE , length =0.15);

# Grafikerzeugung beenden

dev.off ();

Listing 19: zweiseitigergaussguete.r (erzeugt Abbildung 23)# Grafik erzeugen.

png ("10.2.4 - guetefunktion_zweiseitiger_gauss.png", width =500, height =300);

# Fenstereinstellungen

par(mar=c(3,2,1,1), cex.axis =1.2);

alpha <- 0.05 #Signifikanzniveau

sigma <- 1; # Standardabweichung

mu0 <- 0;

x <- seq(-1.5,1.5, 0.01);

# Berechnung der Gütefunktion

n <- 20;

y1 <- 1-pnorm(qnorm(1-alpha /2)-(x-mu0)/ sigma*sqrt(n))

+pnorm(qnorm(alpha /2)-(x-mu0)/ sigma*sqrt(n));

n <- 10;

y2 <- 1-pnorm(qnorm(1-alpha /2)-(x-mu0)/ sigma*sqrt(n))

+pnorm(qnorm(alpha /2)-(x-mu0)/ sigma*sqrt(n));

plot(x,y1, type="l",

ylim=c(0,1.1),

yaxt="n", xaxt="n",

xaxs="i", yaxs="i",

bty="n", lty =3);

lines(x,y2);

# Fensterdaten laden

u<-par("usr");

# Pfeile fuer die Achsen zur besseren Optik

arrows(u[1], u[3], u[2], u[3], code = 2, xpd = TRUE , length =0.15);

arrows(u[1], u[3], u[1], u[4], code = 2, xpd = TRUE , length =0.15);

# mu0 einzeichnen

axis(1, at=mu0 , labels=expression(mu [0]));

# Alpha und die 1 einzeichnen

axis(2, at=c(alpha ,1), labels=c(expression(alpha),1), las =1);

lines(c(u[1],mu0), c(alpha , alpha), lty =2);

150

Page 151: Biostatistik 1 - isa.uni- · PDF fileInhaltsverzeichnis I. Deskriptive Statistik 5 1. Einführung 6 2. Deskriptive Statistik univariater Daten 9 2.1. erteilungenV und ihre Darstellungen

lines(c(u[1],u[2]), c(1, 1), lty =2);

# Beschriftung der Varianten

text (0.9,0.5 , expression(n==10) , cex =1.2);

text (0.3,0.7 , expression(n==20) , cex =1.2);

# Grafikerzeugung beenden

dev.off ();

151