23
Kapitel 2 Induktive Statistik 2.1 Grundprinzipien der induktiven Statistik Ziel: Inferenzschluss, Repr¨ asentationsschluss: Schluss von einer Stichprobe auf Eigenschaf- ten der Grundgesamtheit, aus der sie stammt. Von Interesse sei ein Merkmal ˜ X in der Grundgesamtheit ˜ Ω. Ziehe eine Stichprobe (ω 1 ,...,ω n ) von Elementen aus ˜ Ω und werte ˜ X jeweils aus. Man erh¨ alt Werte x 1 ,...,x n . Diese sind Realisationen der i.i.d Zufallsvariablen oder Zufallselemente X 1 ,...,X n wobei die Wahrscheinlichkeitsverteilung der X 1 ,...,X n genau die H¨ aufigkeitsverh¨ altnisse in der Grundgesamtheit widerspiegelt. Die Frage lautet also: wie kommt man von Realisationen x 1 ,...,x n von i.i.d. Zufallsva- riablen X 1 ,...,X n auf die Verteilung der X i ? Dazu nimmt man h¨ aufig an, man kenne den Grundtyp der Verteilung der X 1 ,...,X n . Unbekannt seien nur einzelne Parameter davon. Beispiel: X i sei normalverteilt, unbekannt seien nur μ, σ 2 . = parametrische Verteilungsannahme (meist im Folgenden) Alternativ: Verteilungstyp nicht oder nur schwach festgelegt (z.B. symmetrische Verteilung) = nichtparametrische Modelle Klarerweise gilt im Allgemeinen (generelles Problem bei der Modellierung): Parame- trische Modelle liefern sch¨ arfere Aussagen – wenn ihre Annahmen zutreffen. Wenn ihre Annahmen nicht zutreffen, dann existiert die große Gefahr von Fehlschl¨ ussen. Wichtige Fragestellungen der induktiven Statistik: Treffe mittels der Auswertung einer Zufallsstichprobe oglichst gute Aussagen 63

Kapitel 2 Induktive Statistik - walter.userweb.mwn.dewalter.userweb.mwn.de/lehre/Stat2Soz_09/material/Stat2Soz_09_Skript-Teil2.pdf · 64 2.2. PunkschatzungÄ ² uber bestimmte CharakteristikaÄ

Embed Size (px)

Citation preview

Kapitel 2

Induktive Statistik

2.1 Grundprinzipien der induktiven Statistik

Ziel: Inferenzschluss, Reprasentationsschluss: Schluss von einer Stichprobe auf Eigenschaf-ten der Grundgesamtheit, aus der sie stammt.

• Von Interesse sei ein Merkmal X in der Grundgesamtheit Ω.

• Ziehe eine Stichprobe (ω1, . . . , ωn) von Elementen aus Ω und werte X jeweils aus.

• Man erhalt Werte x1, . . . , xn. Diese sind Realisationen der i.i.d Zufallsvariablen oderZufallselemente X1, . . . , Xn wobei die Wahrscheinlichkeitsverteilung der X1, . . . , Xn

genau die Haufigkeitsverhaltnisse in der Grundgesamtheit widerspiegelt.

Die Frage lautet also: wie kommt man von Realisationen x1, . . . , xn von i.i.d. Zufallsva-riablen X1, . . . , Xn auf die Verteilung der Xi?

• Dazu nimmt man haufig an, man kenne den Grundtyp der Verteilung der X1, . . . , Xn.Unbekannt seien nur einzelne Parameter davon.

Beispiel: Xi sei normalverteilt, unbekannt seien nur µ, σ2.

=⇒ parametrische Verteilungsannahme (meist im Folgenden)

• Alternativ: Verteilungstyp nicht oder nur schwach festgelegt (z.B. symmetrischeVerteilung)

=⇒ nichtparametrische Modelle

• Klarerweise gilt im Allgemeinen (generelles Problem bei der Modellierung): Parame-trische Modelle liefern scharfere Aussagen – wenn ihre Annahmen zutreffen. Wennihre Annahmen nicht zutreffen, dann existiert die große Gefahr von Fehlschlussen.

Wichtige Fragestellungen der induktiven Statistik: Treffe mittels der Auswertung einer

• Zufallsstichprobe

• moglichst gute ? ? ?

• Aussagen ??

63

64 2.2. Punkschatzung

• uber bestimmte Charakteristika ?

• der Grundgesamtheit.

? Welche Charakteristika sind fur die Fragestellung relevant? Naturlich werden fur dieInferenz bezuglich des Erwartungswerts andere Methoden als fur Schlusse uber dieVarianz benotigt.

?? verschiedene Formen:

– Punktschatzung: z.B. wahrer Anteil 0.4751

– Intervallschatzung: z.B. wahrer Anteil liegt zwischen 0.46 und 0.48

– Hpothesentest: der Anteil liegt hochstens bei 50%

? ? ? Was heißt gut?

– Festlegung von”Gutekriterien “(Genauigkeit? Wahrscheinlichkeit eines Fehlers

gering?)

– Wie konstruiert man ein gutes/optimales Verfahren?

2.2 Punkschatzung

Ziel: Finde einen moglichst guten Schatzwert fur eine bestimmte Kenngroße ϑ (Para-meter) der Grundgesamtheit, z.B. den wahren Anteil der rot/grun-Wahler, den wahrenMittelwert, die wahre Varianz, aber auch z.B. das wahre Maximum (Windgeschwindig-keit).

2.2.1 Schatzfunktionen

Gegeben sei die in Kapitel 2.1 beschriebene Situation: X1, . . . , Xn i.i.d. Stichprobe einesMerkmales X.

Definition: Sei X1, . . . , Xn i.i.d. Stichprobe. Eine Funktion

T = g(X1, . . . , Xn)

heißt Schatzer oder Schatzfunktion.

Beachte nochmals: Vor Ziehung der Stichprobe sind die Werte von T zufallig, deshalbwerden Schatzfunktionen mit Großbuchstaben bezeichnet wie Zufallsvariablen

Typische Beispiele fur Schatzfunktionen:

1. Arithmetisches Mittel der Stichprobe:

X = g(X1, . . . , Xn) =1

n

n∑

i=1

Xi

Fur binare, dummy-kodierte Xi ist X auch die relative Haufigkeit des Auftretensvon

”Xi = 1“ in der Stichprobe

Kapitel 2. Induktive Statistik 65

2. Stichprobenvarianz:

S2 = g(X1, . . . , Xn) =1

n

n∑

i=1

(Xi − X)2

3. Korrigierte Stichprobenvarianz:

S2 = g(X1, . . . , Xn) =1

n− 1

n∑

i=1

(Xi − X)2 =1

n− 1

(n∑

i=1

X2i − n · X2

)

4. Großter Stichprobenwert:

X(n) = g(X1, . . . , Xn) = maxi=1,...,n

Xi

5. Kleinster Stichprobenwert:

X(1) = g(X1, . . . , Xn)) = mini=1,...,n

Xi

Schatzfunktion und Schatzwert: Da X1, . . . , Xn zufallig sind, ist auch die SchatzfunktionT = g(X1, . . . , Xn) zufallig. Zieht man mehrere Stichproben, so erhalt man jeweils andereRealisationen von X1, . . . , Xn, und damit auch von T .

Die Realisation t (konkreter Wert) der Zufallsvariable T (Variable) heißt Schatzwert.

X1, . . . Xn Zufallsvariable T = g(X1, . . . , Xn)↓ ↓ ↓ ↓

x1, . . . xn Realisationen t = g(x1, . . . , xn)

Man hat in der Praxis meist nur eine konkrete Stichprobe und damit auch nur einenkonkreten Wert t von T . Zur Beurteilung der mathematischen Eigenschaften werden aberalle denkbaren Stichproben und die zugehorigen Realisationen der Schatzfunktion T her-angezogen.

D.h. beurteilt wird nicht der einzelne Schatzwert als solcher, sondern die Schatzfunktion,als Methode, d.h. als Regel zur Berechnung des Schatzwerts aus der Stichprobe.

Andere Notation in der Literatur: ϑ Schatzer fur ϑ.

Dabei wird nicht mehr direkt unterschieden zwischen Zufallsvariable (bei uns Großbuch-staben) und Realisation (bei uns klein). =⇒ Schreibe ϑ(X1, . . . , Xn) bzw. ϑ(x1, . . . , xn)wenn die Unterscheidung benotigt wird.

Beispiel: Durchschnittliche Anzahl der Statistikbucher in einer Grundgesamtheit von Stu-denten schatzen.

66 2.2. Punkschatzung

• Grundgesamtheit: Drei Personen Ω = ω1, ω2, ω3.• Merkmal X: Anzahl der Statistikbucher

X(ω1) = 3 X(ω2) = 1 X(ω3) = 2.

Wahrer Durchschnittswert: µ = 2.

• Stichprobe X1, X2 ohne Zurucklegen (Stichprobenumfangn = 2):

X1 = X(ω1) X2 = X(ω2)

wobei

ω1 erste gezogene Person, ω2 zweite gezogene Person.

Betrachte folgende moglichen Schatzer:

T1 = g1(X1, X2) = X =X1 + X2

2T2 = X1

T3 = g(X1, X2) =1

2X(2) =

max(X1, X2)

2

Zur Beurteilung: Alle moglichen Stichproben (vom Umfang n = 2, ohne Zurucklegen)betrachten:

Nummer Personen Realisationen vonder Stichprobe X1 X2 T1 T2 T3

1 ω1, ω2 3 1 2 3 32

2 ω1, ω3 3 2 2.5 3 32

3 ω2, ω1 1 3 2 1 32

4 ω2, ω3 1 2 1.5 1 15 ω3, ω1 2 3 2.5 2 3

2

6 ω3, ω2 2 1 1.5 2 1

2.2.2 Gutekriterien

Beurteile die Schatzfunktionen, also das Verfahren an sich, nicht den einzelnen Schatz-wert. Besonders bei komplexeren Schatzproblemen sind klar festgelegten Guteeigenschaf-ten wichtig.

Naturlich ist auch festzulegen, was geschatzt werden soll. Im Folgenden sei der Parameterϑ stets eine eindimensionale Kenngroße der Grundgesamtheit (z.B. Mittelwert, Varianz,Maximum)

Da T zufallig ist, kann man nicht erwarten, dass man immer den richtigen Wert trifft,aber den Erwartungswert von T berechnen:

Erstes Kriterium: keine systematische Unter- oder Uberschatzung, d.h.

Erwartungswert des Schatzers = wahrer Wert

Kapitel 2. Induktive Statistik 67

Erwartungstreue, Bias: Gegeben sei eine Stichprobe X1, . . . , Xn und eine SchatzfunktionT = g(X1, . . . , Xn) (mit existierendem Erwartungswert).

• T heißt erwartungstreu fur den Parameter ϑ, falls gilt

Eϑ(T ) = ϑ

fur alle ϑ.

• Die GroßeBiasϑ(T ) = Eϑ(T )− ϑ

heißt Bias (oder Verzerrung) der Schatzfunktion. Erwartungstreue Schatzfunktionenhaben per Definition einen Bias von 0.

Man schreibt Eϑ(T ) und Biasϑ(T ), um deutlich zu machen, dass die Großen von demwahren ϑ abhangen.

Anschauliche Interpretation: Erwartungstreue bedeutet, dass man im Mittel (bei wie-derholter Durchfuhrung des Experiments) den wahren Wert trifft.

Fortsetzung des Beispiels: Stichprobenziehung gemaß reiner Zufallsauswahl, d.h. jedeStichprobe hat dieselbe Wahrscheinlichkeit gezogen zu werden (hier 1

6).

Es gilt: (bei ϑ = µ = 2)

Eµ(T1) =1

6(2 + 2.5 + 2 + 1.5 + 2.5 + 1.5) =

12

6= 2

In der Tat gilt allgemein: Das arithmetische Mittel ist erwartungstreu fur den Erwar-tungswert.

Eµ(T2) =1

6(3 + 3 + 1 + 1 + 2 + 2) = 2

Wieder gilt allgemein: Einzelne Stichprobenvariablen ergeben erwartungstreue Schatzerfur den Erwartungswert.

Eµ(T3) =1

6(4 · 3

2+ 2 · 1) =

4

36= 2

T3 ist nicht erwartungstreu.

Biasµ(T3) = Eµ(T3)− 2 =4

3− 6

3= −2

3

Bias und Erwartungstreue bei einigen typischen Schatzfunktionen

• Das arithmetische Mittel X = 1n

∑ni=1 Xi ist erwartungstreu fur den Mittelwert µ

einer Grundgesamtheit: Aus X1, . . . , Xn i.i.d. und Eµ(X1) = Eµ(X2) = . . . = µ folgt:

E(X) = Eµ

(1

n

n∑

i=1

Xi

)=

1

nEµ

(n∑

i=1

Xi

)

=1

n

n∑

i=1

E(Xi)

=1

n

n∑

i=1

µ =1

n· n · µ = µ

68 2.2. Punkschatzung

• Sei σ2 die Varianz in der Grundgesamtheit. Es gilt

Eσ2(S2) =n− 1

nσ2,

also ist S2 nicht erwartungstreu fur σ2.

Biasσ2(S2) =n− 1

nσ2 − σ2 = − 1

nσ2

• Fur die korrigierte Stichprobenvarianz gilt dagegen:

Eσ2(S2) = Eσ2

(1

n− 1

n∑

i=1

(Xi − X)2

)

= Eσ2

(1

n− 1· n

n

n∑

i=1

(Xi − X)2

)

= Eσ2

(n

n− 1S2

)=

n

n− 1· n− 1

nσ2 = σ2

Also ist S2 erwartungstreu fur σ2. Diese Eigenschaft ist auch die Motivation fur dieKorrektur der Stichprobenvarianz.

• Vorsicht: Im Allgemeinen gilt fur beliebige, nichtlineare Funktionen g

E g(X) 6= g(E(X)).

Man kann also nicht einfach z.B.√· und E vertauschen. In der Tat gilt: S2 ist zwar

erwartungstreu fur σ2, aber√

S2 ist nicht erwartungstreu fur√

σ2 = σ.

Beispiel Wahlumfrage: Gegeben sei eine Stichprobe der wahlberechtigten Bundesburger.Geben Sie einen erwartungstreuen Schatzer des Anteils der rot-grun Wahler an.

Grundgesamtheit: Dichotomes Merkmal

X =

1 rot/grun: ja

0 rot/grun: nein

Der Mittelwert π von X ist der Anteil der rot/grun-Wahler in der Grundgesamtheit.

Stichprobe X1, . . . , Xn vom Umfang n:

Xi =

1 i-te Person wahlt rot/grun

0 sonst

Aus den Uberlegungen zum arithmetischen Mittel folgt, dass

X =1

n

n∑

i=1

Xi

ein erwartungstreuer Schatzer fur den hier betrachteten Parameter π ist.

Kapitel 2. Induktive Statistik 69

Also verwendet man die relative Haufigkeit in der Stichprobe, um den wahren Anteil π inder Grundgesamtheit zu schatzen.

Bedeutung der Erwartungstreue: Erwartungstreue ist ein schwaches Kriterium!

Betrachte die offensichtlich unsinnige Schatzfunktion

T2 = g2(X1, . . . , Xn) = X1,

d.h. T2 = 100%, falls der erste Befragte rot-grun wahlt und T2 = 0% sonst.

Die Schatzfunktion ignoriert fast alle Daten, ist aber erwartungtreu:

E(T2) = E(X1) = µ

Deshalb betrachtet man zusatzlich die Effizienz eines Schatzers, s.u.

Asymptotische Erwartungstreue

• Eine Schatzfunktion heißt asymptotisch erwartungstreu, falls

limn→∞

E(θ) = θ.

bzw.

limn→∞

Bias(θ) = 0.

gelten.

• Abschwachung des Begriffs der Erwartungstreue: Gilt nur noch bei einer unendlichgroßen Stichprobe.

• Erwartungstreue Schatzer sind auch asmptotisch erwartungstreu.

• Sowohl S2 als auch S2 sind asymptotisch erwartungstreu.

2.2.3 Effizienz

Beispiel Wahlumfrage: Gegeben sind die drei erwartungstreuen Schatzer (n sei gerade):

T1 =1

n

n∑

i=1

Xi

T2 =1

n/2

n/2∑

i=1

Xi

Was unterscheidet T1 von dem unsinnigen Schatzer T2, der die in der Stichprobe enthalteneInformation nicht vollstandig ausnutzt?

Vergleiche die Schatzer uber ihre Varianz, nicht nur uber den Erwartungswert!

70 2.2. Punkschatzung

Wenn n so groß ist, dass der zentrale Grenzwertsatz angewendet werden kann, dann giltapproximativ

1√n

∑ni=1(Xi − π)√π(1− π)

=

∑ni=1 Xi − n · π√

π(1− π)=

1n

∑ni=1 Xi − π√

π(1−π)n

∼ N (0; 1)

und damit

T1 =1

n

n∑

i=1

Xi ∼ N(

π;π(1− π)

n

).

Analog kann man zeigen:

T2 =1

n/2

n/2∑

i=1

Xi ∼ N(

π,π(1− π)

n/2

).

T1 und T2 sind approximativ normalverteilt, wobei T1 eine deutlich kleinere Varianz alsT2 hat.

T1 und T2 treffen beide im Durchschnitt den richtigen Wert π. T1 schwankt aber wenigerum das wahre π, ist also

”im Durchschnitt genauer“.

Andere Interpretation:

π− π+π

Dichte von T1

Dichte von T2

¡¡ª

¡¡ª

Fur jeden Punkt π+ > π ist damit P (T1 > π+) < P (T2 > π+)und fur jeden Punkt π− < π ist P (T1 < π−) < P (T2 < π−).

Es ist also die Wahrscheinlichkeit, mindstens um π+ − π bzw. π − π− daneben zu liegen,bei T2 stets großer als bei T1. Ein konkreter Wert ist damit verlasslicher, wenn er von T1,als wenn er von T2 stammt.

Diese Uberlegung gilt ganz allgemein: Ein erwartungstreuer Schatzer ist umso besser, jekleiner seine Varianz ist.

Var(T ) = Erwartete quadratische Abweichung von T von E(T )︸ ︷︷ ︸=ϑ !

Je kleiner die Varianz, umso mehr konzentriert sich die Verteilung eines erwartungstreuenSchatzers um den wahren Wert. Dies ist umso wichtiger, da der Schatzer den wahren Werti.A. nur selten exakt trifft.

Kapitel 2. Induktive Statistik 71

Effizienz:

• Gegeben seien zwei erwartungstreue Schatzfunktionen T1 und T2 fur einen Parameterϑ. Gilt

Varϑ(T1) ≤ Varϑ(T2) fur alle ϑ

undVarϑ∗(T1) < Varϑ∗(T2) fur mindestens ein ϑ∗

so heißt T1 effizienter als T2.

• Eine fur ϑ erwartungstreue Schatzfunktion T heißt UMVU-Schatzfunktion fur ϑ(uniformly minimum variance unbiased), falls

Varϑ(T ) ≤ Varϑ(T∗)

fur alle ϑ und fur alle erwartungstreuen Schatzfunktionen T ∗.

Bemerkungen:

• Inhaltliche Bemerkung: Der (tiefere) Sinn von Optimalitatskriterien wird klassi-scherweise insbesondere auch in der Gewahrleistung von Objektivitat gesehen. Ohnewissenschaftlichen Konsens daruber, welcher Schatzer in welcher Situation zu wahlenist, ware die Auswertung einer Stichprobe willkurlich und der Manipulation Tur undTor geoffnet.

• Ist X1, . . . , Xn eine i.i.d. Stichprobe mit Xi ∼ N (µ, σ2), dann ist

– X UMVU-Schatzfunktion fur µ und

– S2 UMVU-Schatzfunktion fur σ2.

• Ist X1, . . . , Xn mit Xi ∈ 0, 1 eine i.i.d. Stichprobe mit π = P (Xi = 1), dann istdie relative Haufigkeit X UMVU-Schatzfunktion fur π.

• Bei nicht erwartungstreuen Schatzern macht es keinen Sinn, sich ausschließlich aufdie Varianz zu konzentrieren.

Z.B. hat der unsinnige Schatzer T = g(X1, . . . , Xn) = 42, der die Stichprobe nichtbeachtet, Varianz 0.

Man zieht dann den sogenannten Mean Squared Error

MSEϑ(T ) := Eϑ(T − ϑ)2

zur Beurteilung heran. Es gilt

MSEϑ(T ) = Varϑ(T ) + (Biasϑ(T ))2.

Der MSE kann als Kompromiss zwischen zwei Auffassungen von Prazision gesehenwerden: moglichst geringe systematische Verzerrung (Bias) und moglichst geringeSchwankung (Varianz).

72 2.2. Punkschatzung

Konsistenz

• Ein Schatzer heißt MSE-konsistent, wenn gilt

limn→∞

(MSE(T )) = 0.

Beispiel: Der MSE von X ist gegeben durch

MSE(X) = Var(X) + Bias2(X)

=σ2

n+ 0

=σ2

n→ 0.

X ist also eine MSE-konsistente Schatzung fur den Erwartungswert.

• Ein Schatzer heißt konsistent, wenn gilt

limn→∞

(Var(T )) = 0.

X ist also auch konsistent.

2.2.4 Konstruktionsprinzipien guter Schatzer

Die Methode der kleinsten Quadrate

=⇒ Regressionsanalyse

Das Maximum-Likelihood-Prinzip

Aufgabe: Schatze den Parameter ϑ eines parametrischen Modells anhand einer i.i.d. Stich-probe X1, . . . , Xn mit der konkreten Realisation x1, . . . , xn.

Idee der Maximium-Likelihood (ML) Schatzung fur diskrete Verteilungen:

• Man kann fur jedes ϑ die Wahrscheinlichkeit ausrechnen, genau die Stichprobex1, . . . , xn zu erhalten:

Pϑ(X1 = x1, X2 = x2, . . . , Xn = xn) =n∏

i=1

Pϑ(Xi = xi)

• Je großer fur ein gegebenes ϑ0 diese Wahrscheinlichkeit ist, umso plausibler ist es,dass tatsachlich ϑ0 der wahre Wert ist (gute Ubereinstimmung zwischen Modell undDaten).

Beispiel: I.i.d. Stichprobe vom Umfang n = 5 aus einer B(10, π)-Verteilung:

6 5 3 4 4

Kapitel 2. Induktive Statistik 73

Wahrscheinlichkeit der Stichprobe fur gegebenes π:

P (X1 = 6, . . . , X5 = 4|π) = P (X1 = 6|π) · . . . · P (X5 = 4|π)

=

(10

6

)π6(1− π)4 · . . . ·

(10

4

)π4(1− π)6.

Wahrscheinlichkeit fur einige Werte von π:

π P (X1 = 6, . . . , X5 = 4|π)0.1 0.00000000000010.2 0.00000002272000.3 0.00000404252200.4 0.00030254810000.5 0.00024873670000.6 0.00000265611500.7 0.00000002504900.8 0.00000000000550.9 0.0000000000000

Man nennt daher L(ϑ) = Pϑ(X1 = x1, . . . , Xn = xn), nun als Funktion von ϑgesehen, die Likelihood (deutsch: Plausibilitat, Mutmaßlichkeit) von ϑ gegeben dieRealisation x1, . . . , xn.

• Derjenige Wert ϑ = ϑ(x1, . . . , xn), der L(ϑ) maximiert, heißt Maximum-Likelihood-Schatzwert ; die zugehorige Schatzfunktion T (X1, . . . , Xn) Maximum-Likelihood-Schatzer.

Bemerkungen:

• Fur stetige Verteilungen gilt

Pϑ(X1 = x1, X2 = x2, . . . , Xn = xn) = 0

fur beliebige Werte ϑ. In diesem Fall verwendet man die Dichte

fϑ(x1, . . . , xn) =n∏

i=1

fϑ(xi)

als Maß fur die Plausibilitat von ϑ.

• Fur die praktische Berechnung maximiert man statt der Likelihood typischerweisedie Log-Likelihood

l(ϑ) = ln(L(ϑ)) = lnn∏

i=1

Pϑ(Xi = xi) =n∑

i=1

ln Pϑ(Xi = xi)

bzw.

l(ϑ) = lnn∏

i=1

fϑ(xi) =n∑

i=1

ln fϑ(xi).

Dies liefert denselben Schatzwert ϑ und erspart beim Differenzieren die Anwendungder Produktregel.

74 2.2. Punkschatzung

Der Logarithmus ist streng monoton wachsend. Allgemein gilt fur streng monotonwachsende Funktionen g: x0 Stelle des Maximums von L(x) ⇐⇒ x0 auch Stelle desMaximums von g(L(x)).

Definition: Gegeben sei die Realisation x1, . . . , xn einer i.i.d. Stichprobe. Die Funktion inϑ

L(ϑ) =

n∏

i=1

Pϑ(Xi = xi) falls Xi diskret

n∏

i=1

fϑ(xi) falls Xi stetig.

heißt Likelihood des Parameters ϑ bei der Beobachtung x1, . . . , xn.

Derjenige Wert ϑ = ϑ(x1, . . . , xn), der L(ϑ) maximiert, heißt Maximum-Likelihood-Schatz-wert ; die zugehorige Schatzfunktion T (X1, . . . , Xn) Maximum-Likelihood-Schatzer.

Beispiel: Wahlumfrage

Xi =

1 falls Rot/Grun

0 sonst

Verteilung der Xi: Binomialverteilung

P (Xi = 1) = π

P (Xi = 0) = 1− π

P (Xi = xi) = πxi · (1− π)1−xi , xi ∈ 0; 1.Likelihood:

L(π) = P (X1 = x1, . . . , Xn = xn)

=n∏

i=1

πxi (1− π)1−xi

= π∑n

i=1 xi · (1− π)n−∑ni=1 xi

Logarithmierte Likelihood:

l(ϑ) = ln(P (X1 = x1, . . . , Xn = xn)) =n∑

i=1

xi · ln(π) + (n−n∑

i=1

xi) · ln(1− π)

Ableiten (nach ϑ):

∂πl(π) =

n∑

i=1

xi

π+

n−n∑

i=1

xi

1− π· (−1)

Nullsetzen und nach π Auflosen:

∂πl(π) = 0 ⇔

n∑

i=1

xi

π=

n−n∑

i=1

xi

1− π

⇔ (1− π)n∑

i=1

xi = n · π − π

n∑

i=1

xi

Kapitel 2. Induktive Statistik 75

⇔n∑

i=1

xi = n · π

also

π =

∑ni=1 xi

n

ML-Schatzung bei Normalverteilung

1. Schritt: Bestimme die Likelihoodfunktion

L(µ, σ2) =n∏

i=1

1√2π(σ2)

12

exp

(− 1

2σ2(xi − µ)2

)

=1

2πn2 (σ2)

n2

exp

(− 1

2σ2

n∑

i=1

(xi − µ)2

)

2. Schritt: Bestimme die Log-Likelihoodfunktion

l(µ, σ2) = ln(L(µ, σ2))

= ln(1)− n

2ln(2π)− n

2ln(σ2)− 1

2σ2

n∑

i=1

(xi − µ)2

3. Schritt: Ableiten und Nullsetzen der Loglikelihoodfunktion

∂l(µ, σ2)

∂µ=

1

2σ22 ·

n∑

i=1

(xi − µ) = 0

∂l(µ, σ2)

∂σ2= −n

2

1

σ2+

1

2(σ2)2

n∑

i=1

(xi − µ)2 = 0

4. Schritt: Auflosen der beiden Gleichungen nach µ und σ2

Aus der ersten Gleichung erhalten wir

n∑

i=1

xi − nµ = 0 also µ = x.

Aus der zweiten Gleichung erhalten wir durch Einsetzen von µ = x

n∑

i=1

(xi − x)2 = nσ2

also

σ2 =1

n

n∑

i=1

(xi − x)2

76 2.3. Intervallschatzung

Fazit:

• Der ML-Schatzer µ = X fur µ stimmt mit dem ublichen Schatzer fur den Erwar-tungswert uberein.

• Der ML-Schatzer σ2 = S2 fur σ2 ist verzerrt, d.h. nicht erwartungstreu.

Einige allgemeine Eigenschaften von ML-Schatzern

• ML-Schatzer θ sind im Allgemeinen nicht erwartungstreu.

• ML-Schatzer θ sind asymptotisch erwartungstreu.

• ML-Schatzer θ sind konsistent.

2.3 Intervallschatzung

2.3.1 Motivation und Hinfuhrung

Beispiel Wahlumfrage: Der wahre Anteil der rot-grun Wahler 2002 war genau 47.1%.Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genaueinen relativen Anteil von 47.1% von rot-grun Anhangern erhalten zu haben?

Xi =

1, rot/grun

0, sonst

P (Xi = 1) = π = 0.471

X =n∑

i=1

Xi ∼ B(n, π) mit n = 1000

P (X = 471) =

(n

x

)· πx · (1− π)n−x

=

(1000

471

)· 0.471471 · (1− 0.471)529

= 0.02567

D.h., mit Wahrscheinlichkeit von etwa 97.4%, verfehlt der Schatzer den wahren Wert.

Hat man ein stetiges Merkmal, so ist sogar P (X = a) = 0 fur jedes a, d.h. der wahreWert wird mit Wahrscheinlichkeit 1 verfehlt.

Konsequenzen:

• Insbesondere Vorsicht bei der Interpretation”knapper Ergebnisse“ (z.B. Anteil

50.2%)

Kapitel 2. Induktive Statistik 77

• Suche Schatzer mit moglichst kleiner Varianz, um”im Durchschnitt moglichst nahe

dran zu sein“

• Es ist haufig auch gar nicht notig, sich genau auf einen Wert festzulegen. Oft reichtdie Angabe eines Intervalls, von dem man hofft, dass es den wahren Wert uberdeckt:Intervallschatzung

Symmetrische Intervallschatzung basierend auf einer Schatzfunktion T = g(X1, . . . , Xn):

I(T ) = [T − a, T + a]

”Trade off“ bei der Wahl von a:

Je großer man a wahlt, also je breiter man das Intervall I(T ) macht, umso großer ist dieWahrscheinlichkeit, dass I(T ) den wahren Wert uberdeckt, aber umso weniger aussage-kraftig ist dann die Schatzung.

Extremfall im Wahlbeispiel: I(T ) = [0, 1] uberdeckt sicher π, macht aber eine wertloseAussage

⇒ Wie soll man a wahlen?

Typisches Vorgehen:

• Man gebe sich einen Sicherheitsgrad (Konfidenzniveau) γ vor.

• Dann konstruiert man das Intervall so, dass es mindestens mit der Wahrscheinlich-keit γ den wahren Parameter uberdeckt.

2.3.2 Definition von Konfidenzintervallen:

Gegeben sei eine i.i.d. Stichprobe X1, . . . , Xn zur Schatzung eines Parameters ϑ und ei-ne Zahl γ ∈ (0; 1). Ein zufalliges Intervall C(X1, . . . , Xn) heißt Konfidenzintervall zumSicherheitsgrad γ (Konfidenzniveau γ), falls fur jedes ϑ gilt:

Pϑ(ϑ ∈ C(X1, . . . , Xn)︸ ︷︷ ︸zufalliges Intervall

) ≥ γ.

Bemerkungen:

• Die Wahrscheinlichkeitsaussage bezieht sich auf das Ereignis, dass das zufallige In-tervall den festen, wahren Parameter uberdeckt. Streng genommen darf man imobjektivistischen Verstandnis von Wahrscheinlichkeit nicht von der Wahrscheinlich-keit sprechen,

”dass ϑ in dem Intervall liegt“, da ϑ nicht zufallig ist und somit keine

Wahrscheinlichkeitsverteilung besitzt.

• Typischerweise konstruiert man Konfidenzintervalle symmetrisch um einen SchatzerT . Es sind aber auch manchmal z.B. einseitige Konfidenzintervalle, etwa der Form

[X, X + b],

sinnvoll (beispielsweise bei sozial unerwunschten Ereignissen).

78 2.3. Intervallschatzung

2.3.3 Konstruktion von Konfidenzintervallen

Fur die Konstruktion praktische Vorgehensweise: Suche Zufallsvariable Z, die

• den gesuchten Parameter ϑ enthalt und

• deren Verteilung aber nicht mehr von dem Parameter abhangt, (”Pivotgroße“, dt.

Angelpunkt).

• Dann wahle den Bereich CZ so, dass Pϑ(Z ∈ CZ) = γ und

• lose nach ϑ auf.

Konfidenzintervall fur den Mittelwert eines normalverteilten Merkmals bei bekannterVarianz:

X1, . . . , Xn i.i.d. Stichprobe gemaß Xi ∼ N (µ, σ2), wobei σ2 bekannt sei.

Starte mit der Verteilung von X:

X ∼ N (µ, σ2/n).

Dann erfullt

Z =X − µ

σ· √n ∼ N (0; 1)

die obigen Bedingungen an eine Pivotgroße.

Bestimme jetzt einen Bereich [−z, z], wobei z so gewahlt sei, dass

P (Z ∈ [−z; z]) = γ

0-z z

γ

1−γ2

1−γ2

@@@R

¡¡¡ª

Bestimmung von z:

P (Z ∈ [−z; z]) = γ ⇔ P (Z ≥ z) =1− γ

2

beziehungsweise

P (Z ≤ z) = 1− 1− γ

2=

2− 1 + γ

2=

1 + γ

2.

Der entsprechende Wert lasst sich aus der Tabelle der Standardnormalverteilung ablesen.

Typische Beispiele:

Kapitel 2. Induktive Statistik 79

γ = 90% 1+γ2

= 95% z = 1.65γ = 95% 1+γ

2= 97.5% z = 1.96

γ = 99% 1+γ2

= 99.5% z = 2.58

Die Große z heißt das 1+γ2

-Quantil und wird mit z 1+γ2

bezeichnet.

Damit gilt also

P(−z 1+γ

2≤ Z ≤ z 1+γ

2

)= P

(−z 1+γ

2≤ X − µ

σ≤ z 1+γ

2

)= γ

Jetzt nach µ auflosen:

γ = P

(−

z 1+γ2· σ

√n

≤ X − µ ≤z 1+γ

2· σ

√n

)

= P

(−X −

z 1+γ2· σ

√n

≤ −µ ≤ −X +z 1+γ

2· σ

√n

)

= P

(X −

z 1+γ2· σ

√n

≤ µ ≤ X +z 1+γ

2· σ

√n

)

Damit ergibt sich das Konfidenzintervall[X −

z 1+γ2· σ

√n

, X +z 1+γ

2· σ

√n

]=

[X ±

z 1+γ2· σ

√n

]

Bemerkungen:

• Je großer σ, desto großer das Intervall!

(Großeres σ ⇒ Grundgesamtheit bezuglich des betrachteten Merkmals heterogener,also großere Streuung von X ⇒ ungenauere Aussagen.)

• Je großer γ, desto großer z 1+γ2

(Je mehr Sicherheit/Vorsicht desto breiter das Intervall)

• Je großer n und damit√

n, desto schmaler ist das Intervall

(Je großer der Stichprobenumfang ist, desto genauer!)

Kann man zur Stichprobenplanung verwenden!

Konfidenzintervall fur den Mittelwert eines normalverteilten Merkmals bei unbe-kannter Varianz: Neben dem Erwartungswert ist auch σ2 unbekannt und muss entspre-chend durch den UMVU-Schatzer

S2 =1

n− 1

n∑

i=1

(Xi − X)2,

(mit S =√

S2) geschatzt werden. Allerdings ist

Z =X − µ

S· √n

80 2.3. Intervallschatzung

jetzt nicht mehr normalverteilt, denn S ist zufallig.

Wir fuhren deshalb ein neues Verteilungsmodell ein.

t-Verteilung: Gegeben sei eine i.i.d. Stichprobe X1, . . . , Xn mit Xi ∼ N (µ, σ2). Dannheißt die Verteilung von

Z =X − µ

S· √n

t-Verteilung (oder Student-Verteilung) mit ν = n − 1 Freiheitsgraden. In Zeichen: Z ∼t(ν).

Informelle Erklarung zum Begriff Freiheitsgrade: Bei Kenntnis von x nur n− 1 frei vari-ierbare Daten.

Wichtige Werte der t-Verteilung sind tabelliert. Angegeben sind, fur verschiedene δ, dieLosung tδ der Gleichung

P (Z ≤ t(ν)δ ) = δ,

wobei t(ν)δ von der Anzahl ν der Freiheitsgrade abhangt. tδ ist das δ-Quantil der entspre-

chenden t-Verteilung (analog zu zδ als Quantil der Standardnormalverteilung).

Die Dichte einer t-Verteilung ist der Dichte der Standardnormalverteilung sehr ahnlich: Sieist auch symmetrisch um 0, besitzt aber etwas hohere Dichte fur extreme Werte (schwerereEnden).

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

Dichten von t-Verteilungen fur ν = 1 (—), = 2 (· · · ), = 5 (- - -) und = 20 (−−) Freiheitsgrade.

Unsicherheit durch zusatzliche Schatzung von σ lasst Daten starker schwanken.

Je großer ν ist, umso ahnlicher sind sich die t(ν)-Verteilung und die Standardnormalver-teilung. Fur ν →∞ sind sie gleich, ab ν = 30 gilt der Unterschied als vernachlassigbar.

Je großer n, desto geringer ist der Unterschied zwischen S2 und σ2 und damit zwischenX−µ

S

√n und X−µ

σ

√n.

Konfidenzintervall zum Konfidenzniveau γ:

Kapitel 2. Induktive Statistik 81

Ausgehend von

P

(−t 1+γ

2(n− 1) ≤ X − µ

S≤ t 1+γ

2(n− 1)

)= γ

wie im Beispiel mit bekannter Varianz nach µ auflosen (mit S statt σ)

P

(X −

t 1+γ2

(n− 1) · S√

n≤ µ ≤ X +

t 1+γ2

(n− 1) · S√

n

)= γ

Damit ergibt sich das Konfidenzintervall

[X ±

t 1+γ2

(n− 1) · S√

n

]

Bemerkungen:

• Es gelten analoge Aussagen zum Stichprobenumfang und Konfidenzniveau wie beibekannter Varianz.

• Fur jedes γ (und jedes ν) gilt

t 1+γ2

> z 1+γ2

also ist das t-Verteilungs-Konfidenzintervall (etwas) breiter.

Da σ2 unbekannt ist, muss es geschatzt werden. Dies fuhrt zu etwas großerer Unge-nauigkeit.

• Je großer ν, umso kleiner ist der Unterschied. Fur n ≥ 30 rechnet man einfach auchbei der t-Verteilung mit z 1+γ

2.

Beispiel: Eine Maschine fullt Gummibarchen in Tuten ab, die laut Aufdruck 250g Fullge-wicht versprechen. Wir nehmen im folgenden an, dass das Fullgewicht normalverteilt ist.Bei 16 zufallig aus der Produktion herausgegriffenen Tuten wird ein mittleres Fullgewichtvon 245g und eine Stichprobenstreuung (Standardabweichung) von 10g festgestellt.

a) Berechnen Sie ein Konfidenzintervall fur das mittlere Fullgewicht zum Sicherheitsni-veau von 95%.

b) Wenn Ihnen zusatzlich bekannt wurde, dass die Stichprobenstreuung gleich der tatsachli-chen Streuung ist, ware dann das unter a) zu berechnende Konfidenzintervall fur dasmittlere Fullgewicht breiter oder schmaler? Begrunden Sie ihre Antwort ohne Rech-nung.

• Fullgewicht normalverteilt.

• 16 Tuten gezogen ⇒ n = 16.

• Mittleres Fullgewicht in der Stichprobe: x = 245g.

• Stichprobenstreuung: s = 10g.

82 2.3. Intervallschatzung

zu a) Konstruktion des Konfidenzintervalls: Da die Varianz σ2 unbekannt ist, muss dasKonfidenzintervall basierend auf der t-Verteilung konstruiert werden:

[X ± t 1+γ2

(n− 1) · S√n

]

Aus dem Sicherheitsniveau γ = 0.95 errechnet sich 1+γ2

= 0.975.

Nachschauen in t-Tabelle bei 0.975 und 15 Freiheitsgraden (T = X−µS

√n ist t-

verteilt mit n-1 Freiheitsgeraden) liefert t0.975 = 2.13.

Einsetzen liefert damit

[245± 2.13 · 10

4] = [239.675; 250.325]

zu b) Jetzt sei σ2 bekannt. Dann kann man mit dem Normalverteilungs-Intervall rechnen:

[X ± z 1+γ2· σ√

n]

Da jetzt σ bekannt, ist die Unsicherheit geringer und damit das Konfidenzintervallschmaler.

In der Tat ist z 1+γ2

< t 1+γ2

.

Rechnerisch ergibt sich mit z 1+γ2

= 1.96 das Konfidenzintervall

[240.100; 249.900]

Beispiel: Klausurergebnisse

i punkte i punkte i punkte i punkte i punkte i punkte1 16.5 7 27.5 13 23 19 14 25 19.5 31 35.52 16.5 8 22 14 15 20 21 26 18 32 12.53 25.5 9 16.5 15 31 21 19.5 27 37.5 33 254 25 10 8 16 26 22 17.5 28 15.5 34 25.55 20.5 11 33.5 17 13.5 23 36 29 7.5 35 18.56 27.5 12 19.5 18 24 24 31.5 30 18

• Mittelwert und Varianz der Grundgesamtheit (alle 35 Klausuren):

µ = punkte = 21.81

σ2 = s2punkte = 7.562

• Wir ziehen insgesamt 80 Stichproben vom Umfang n = 5, n = 10, n = 20, n = 35und bestimmen Konfidenzintervalle zum Niveau 95%.

Kapitel 2. Induktive Statistik 83

510

1520

2530

3540

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80

Stichprobe

95% KI’s, Stichprobenumfang n=5

510

1520

2530

3540

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80

Stichprobe

95% KI’s, Stichprobenumfang n=10

Punktzahl der Klausur Statistik I: Konfidenzintervalle fur 80 Stichproben mit jeweiligemStichprobenumfang n = 5 (oben) und n = 10 (unten).

510

1520

2530

3540

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80

Stichprobe

95% KI’s, Stichprobenumfang n=20

510

1520

2530

3540

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80

Stichprobe

95% KI’s, Stichprobenumfang n=35

Punktzahl der Klausur Statistik I: Konfidenzintervalle fur 80 Stichproben mit jeweiligemStichprobenumfang n = 20 (oben), n = 35 (unten).

84 2.3. Intervallschatzung

510

1520

2530

3540

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80

Stichprobe

95% KI’s, Stichprobenumfang n=55

1015

2025

3035

40

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80

Stichprobe

95% KI’s, Stichprobenumfang n=5, Varianz bekannt

Punktzahl der Klausur Statistik I: Konfidenzintervalle fur 80 Stichproben mitStichprobenumfang n = 5. Oben ist die Varianz unbekannt, unten als bekannt

vorausgesetzt.

• Ergebnis:

– Die Breite der Konfidenzintervalle nimmt mit wachsendem n ab.

– Nicht alle Konfidenzintervalle enthalten den wahren Mittelwert µ = 23.1 (perKonstruktion mit Wahrscheinlichkeit 5%).

– Die Intervalle mit bekannter Varianz sind im Mittel enger.

– Die Intervalle mit bekannter Varianz sind immer gleich lang.

Approximative Konfidenzintervalle: Ist der Stichprobenumfang groß genug, so kann we-gen des zentralen Grenzwertsatzes das Normalverteilungs-Konfidenzintervall auf den Er-wartungswert beliebiger Merkmale (mit existierender Varianz) angewendet werden underhalt approximative Konfidenzintervalle.

Beispiel: Konfidenzintervall fur den Anteil π: Seien X1, . . . , Xn i.i.d. mit

Xi =

1

0, P (Xi = 1) = π.

E(Xi) = π

Var(Xi) = π · (1− π)

⇒ E(X) = π

Var(X) =π · (1− π)

n

Kapitel 2. Induktive Statistik 85

und approximativ fur großes n:

X − π√π·(1−π)

n

∼ N (0, 1)

π im Zahler: unbekannter Anteil = interessierender Parameter

π im Nenner:√

π(1−π)n

unbekannte Varianz von X; schatzen, indem X fur π eingesetzt

wirdim Nenner

γ ≈ P

−z 1+γ

2≤ X − π√

X(1−X)n

≤ z 1+γ2

= P

(X − z 1+γ

2·√

X(1− X)

n≤ π ≤ X + z 1+γ

2·√

X(1− X)

n

)

und damit das Konfidenzintervall[X ± z 1+γ

2·√

X(1− X)

n

]

Beispiel Wahlumfrage: Seien n = 500, X = 46.5% und γ = 95%.

z 1+γ2

= 1.96

Konfidenzintervall:[X ± z 1+γ

2·√

X(1− X)

n

]=

[0.465± 1.96 ·

√0.465(1− 0.465)

500

]

= [0.421; 0.508]