Upload
emeric-schlitt
View
109
Download
0
Embed Size (px)
Citation preview
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Stetige Zufallsgrößen
b
adxxfbXaP )()(
• Darstellung durch Dichtefunktion f
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
:
dxxfbFXPb
)()(b)(
Verteilungsfunktion stetiger Zufallsgrößen
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
Dic
hte
b
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Erwartungswert und Varianz stetiger Zufallsgrößen
Ist stetig mit Dichtefunktion , so definiert man:xf
dxxfXExXEXEXVar
dxxxfXE
)())(()))((()(
)()(
22
X
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Erwartungswert von linear transformierten Zufallsgrößen
Für eine Zufallsvariable X gilt (mit beliebigen Konstanten a und b):
)()(
)()(2 XVarbXbaVar
XEbaXbaE
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Eine stetige Zufallsvariable X heißt normalverteilt mit den Parametern , kurz X~N , falls sie die folgende Dichtefunktion besitzt:
2,
2
2)(
2
1exp
2
1:)(
x
Xf X
2 und
Erwartungswert Varianz 2)( XVar
Normalverteilung: Definition
)(XE
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Normalverteilung
);(~ 2NX
dtexF
sfunktionVerteilung
dtexf
tx
x
2)(5,0
2)(5,0
2
1)(
2
1)(
Beschreibung: „Glockenkurve“
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Anwendung der Normalverteilung
Die Normalverteilung dient als Verteilungsmodellin vielen praktischen Fragestellungen, z.B. bei
• Metrische Größen einer Population• Summen und Durchschnitte von Zufallsgrößen• Natürliche Variabilität• Messfehler
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Schwankungsbereiche der Normalverteilung
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel zur Normalverteilung
Bei 250 Katzen wurde der Creatinwert im Blut gemessen:
Studie:Judit Zapirain Gastón et al. Prävalenzen des felinen Herpesvirus-1 felinen Calicivirus und von Chlamydophila felis in Mehrkatzenhaushalten
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Quantile der Normalverteilung: Beispiel
Beispiel: Fehler bei Messung
• P (X > 20)
• P (5 < X < 20)
• P (-2 < X < 15)
Es sei X eine normalverteilte Zufallsvariable mit =10 und =25.Bestimmen Sie die folgenden Wahrscheinlichkeiten:
2
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
i.i.d. Zufallsgrößen
seien unabhängig und identisch verteilt.
Man schreibt auch dafür:
i.i.d. steht für „independent and identically distributed“.
Ist und ,
so gilt:
...,...,, 21 diiXXX n
nXXX
nVar
XXXn
E
nXXXVar
nXXXE
n
n
n
n
2
21
21
221
21
))...(1
(
))...(1
(
)...(
)...(
nXXX ,...,, 21
)( iXE2)( iXVar
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Grenzwertsätze
• Gesetz der großen Zahlen: Ist der Erwartungswert einer ZG X, so
liegt das der Mittelwert mit wachsendem n nahe bei
• Zentraler Grenzwertsatz: ist für große n annähernd normalverteilt. X
Bei einer Stichprobenziehung werden n Personen gefragt odern unabhängige Experimente durchgeführt. Man ordnet jedem Versuch eine Zufallsgröße Xn zu. Die n Zufallsgrößen sind dann i.i.d.Von Interesse ist dann u.a. die Verteilung des Stichprobenmittels
)...(1
: 21 nXXXn
X
X
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Diskrete Wahrscheinlichkeitsmodelle
)exp(!
)(
kkXP
k
Wahrscheinlichkeitsfunktion
• Poisson-Verteilung: Zählen seltener Ereignisse
Beispiele: Zahl der Fischvergiftungen pro Zeiteinheit
Zahl der Spontantumoren pro Zeiteinheit
historisch: Zahl der Todesfälle durch Hufschlag pro Jahr und Regiment
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel für Possion-Verteilung
Wahrscheinlichkeitsfunktion
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Lebensdauerverteilungen
Beispiel: Lebensdauern
• Exponentialverteilung
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Zusammenfassung: Verteilungen
• Wahrscheinlichkeitsmodelle dienen dazu, bestimmte (unsichere) Phänomene zu charakterisieren.
• Das Wahrscheinlichkeitsmodell ist abhängig von der zu charakterisierenden Größe. In der Literatur gibt es eine Vielzahl solcher Verteilungen.
• Man unterscheidet diskrete und stetige Verteilungen (Wahrscheinlichkeitsmodelle).
• Wichtige Kennzahlen von Verteilungen sind Erwartungswert und Varianz.
• Verteilungen haben meist Parameter, die durch das Problem gegeben sind, oder aus Daten geschätzt werden.
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Statistische Erhebungen
• Befragungen z.B. Befragung der Landwirte über das Verhalten der Tiere im Stall
• Experimente z.B. Versuch, welches Arzneimittel am besten zur Heilung führt
• Beobachtungen Auftreten einer Krankheit Erhebungen zu Tieren in einer Tierklinik
Bei der Erhebung von Daten unterscheidet man:
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Unterscheidungseinheiten / statistische Einheit / Merkmalsträger
• Einzelne Tiere
• Einzelne Herden
• Einzelne Landwirte
• Haushalte
Individuen, die einer Erhebung zugrunde liegen
Beispiele:
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Merkmale (Variablen)
Eigenschaften Untersuchungseinheiten z.B.
• Krankheitsstatus
• Blutparameter
• Geschlecht
• Anzahl der Kühe (bei Untersuchungseinheit Landwirt)
Merkmalsausprägungen
mögliche Werte des Merkmals
• Messergebnisse / positive Zahlen
• krank / gesund
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Charakterisierung von Merkmalen
quantitative Merkmale unterscheiden sich durch ihre Größe
• Alter, Gewicht, Milchleistung, Temperatur, Anzahl Keime, Schadstoffgehalt, …
qualitative Merkmale unterscheiden sich durch ihre Art
• Geschlecht, Namen, Rassen, Haltungsform
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Merkmalswerte
Die gemessenen, erfragten oder beobachteten Ausprägungendes Untersuchungsmerkmals sind die Merkmalswerte. Siestellen die Daten der Erhebung dar.
• Wiederkauverhalten: z.B. in Stunden pro Tag
• Arzneimittel: Dosis 1, Dosis 2, Dosis 0 (Placebo)
• Befund: gesund, fraglich, erkrankt
• Keimzahlen: Anzahl in 1000
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Skalen
Metrische Skala: Die Werte unterliegen einer Rangfolge und die
Abstände zwischen den Werten der Skala lassen sich interpretieren.
• Gewicht, Keimzahlen, Schadstoffmessung
Ordinalskala: Die Werte unterliegen einer Rangfolge, aber die Ab-
stände zwischen den Werten der Skala lassen sich nicht interpretieren.
• Bewertung (Noten), Gesundheitszustand
Nominalskala: Die Werte unterliegen keiner Rangfolge und sind nicht
Vergleichbar
• Geschlecht, Rasse, Haltungsform
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Deskriptive Statistik
Ziel: Beschreibung von Daten mit möglichst geringem
Informationsverlust
• Eigenschaften und Strukturen sichtbar machen• Graphisch und durch Kennwerte• Eindimensional und mehrdimensional• Zunächst keine Schlüsse auf die Grundgesamtheit
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Rohdaten und Datenmatrix
Die Daten liegen in der Regel als Datenmatrix vor:
• Zeilen entsprechen Untersuchungseinheiten• Spalten entsprechen Merkmalen• Elemente der Matrix sind die Merkmalsausprägungen• Fragen mit Mehrfachnennungen als Einzelne binäre Merkmale definieren
Hinweise zur Eingabe unter:www.stat.uni-muenchen.de/stablab/Excel.html
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel: Daten zu Mastenten (Ausschnitt)
- Ändern -
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Eindimensionale Statistische Kennwerte
Lagemaßzahlen
• Wo liegt die Masse der Daten?• Wo liegt die Mehrzahl der Daten?• Wo liegt die Mitte der Daten?• Welche Mehrmalsausprägung ist typisch für die
Häufigkeitsverteilung?
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Statistische Kennwerte
• Über welchen Bereich erstrecken sich die Daten?
• Wie groß ist die Schwankung der Ausprägungen?
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Eindimensionale Häufigkeitsverteilung
Hämatokrit
3 2,5 3,8 3,8
7 5,8 8,8 12,5
3 2,5 3,8 16,3
9 7,5 11,3 27,5
16 13,3 20,0 47,5
18 15,0 22,5 70,0
12 10,0 15,0 85,0
5 4,2 6,3 91,3
6 5,0 7,5 98,8
1 ,8 1,3 100,0
80 66,7 100,0
40 33,3
120 100,0
35
36
37
38
39
40
41
42
43
44
Gesamt
Gültig
SystemFehlend
Gesamt
Häufigkeit ProzentGültige
ProzenteKumulierteProzente
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Der Modus
Eigenschaften:
• oft nicht eindeutig• nur bei gruppierten Daten oder bei Merkmalen mit wenigen
Ausprägungen sinnvoll• stabil bei allen eindeutigen Transformationen• geeignet für alle Skalenniveaus
Definition: Häufigster Wert
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel Modus
Modus = 4
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Der Median
50% der Daten sind kleiner oder gleich med
50% der Daten sind größer oder gleich med
Zahlganzen
kfallsxx
Zahlganzen
kfallsx
hk
k
2)(
2
12
1
)1()(
)(
)()1( nxx
med =
sind geordnete Werte
Definition: Wert für den gilt
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Eigenschaften des Median
• anschaulich• stabil gegenüber monotonen Transformationen• geeignet für ordinale Daten• stabil gegenüber Ausreißern
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel Median
Statistiken
Hämatokrit80
40
40,00
40
Gültig
Fehlend
N
Median
Modus
Hämatokrit
3 2,5 3,8 3,8
7 5,8 8,8 12,5
3 2,5 3,8 16,3
9 7,5 11,3 27,5
16 13,3 20,0 47,5
18 15,0 22,5 70,0
12 10,0 15,0 85,0
5 4,2 6,3 91,3
6 5,0 7,5 98,8
1 ,8 1,3 100,0
80 66,7 100,0
40 33,3
120 100,0
35
36
37
38
39
40
41
42
43
44
Gesamt
Gültig
SystemFehlend
Gesamt
Häufigkeit ProzentGültige
ProzenteKumulierteProzente
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Das Quantil (Perzentil)
Anteil p der Daten sind kleiner oder gleich xp
Anteil 1-p der Daten sind größer oder gleich xp
Zahlganzenpkfallsxx
nphlkleinsteZakundZahlganzekeinenpfallsx
hk
k
)(2
1 )1()(
)(
Definition: Wert für den gilt
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Fünf-Punkte Zusammenfassung
Minimum, 25%-Quantil, Median,75%-Quantil,Maximum
Statistiken
Hämatokrit80
40
40,00
36,00
38,00
40,00
41,00
42,00
44,00
Gültig
Fehlend
N
Median
10
25
50
75
90
99
Perzentile
Hämatokrit
3 2,5 3,8 3,8
7 5,8 8,8 12,5
3 2,5 3,8 16,3
9 7,5 11,3 27,5
16 13,3 20,0 47,5
18 15,0 22,5 70,0
12 10,0 15,0 85,0
5 4,2 6,3 91,3
6 5,0 7,5 98,8
1 ,8 1,3 100,0
80 66,7 100,0
40 33,3
120 100,0
35
36
37
38
39
40
41
42
43
44
Gesamt
Gültig
SystemFehlend
Gesamt
Häufigkeit ProzentGültige
ProzenteKumulierteProzente
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Der Mittelwert (arithmetisches Mittel)
n
inx
1
1
• bekanntestes Lagemaß
• instabil gegen extreme Werte • geeignet für Intervallskalierte Daten
ix
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel Mittelwert
Hämatokrit
3 2,5 3,8 3,8
7 5,8 8,8 12,5
3 2,5 3,8 16,3
9 7,5 11,3 27,5
16 13,3 20,0 47,5
18 15,0 22,5 70,0
12 10,0 15,0 85,0
5 4,2 6,3 91,3
6 5,0 7,5 98,8
1 ,8 1,3 100,0
80 66,7 100,0
40 33,3
120 100,0
35
36
37
38
39
40
41
42
43
44
Gesamt
Gültig
SystemFehlend
Gesamt
Häufigkeit ProzentGültige
ProzenteKumulierteProzente
Deskriptive Statistik
80 35 44 39,48 2,093
80
Hämatokrit
Gültige Werte(Listenweise)
N Minimum Maximum MittelwertStandardabweichung