95
Mathematische Statistik Vorlesungsskript Thorsten Dickhaus Humboldt-Universität zu Berlin Sommersemester 2012 Version: 2. Juli 2012

Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Embed Size (px)

Citation preview

Page 1: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Mathematische Statistik

Vorlesungsskript

Thorsten Dickhaus

Humboldt-Universität zu Berlin

Sommersemester 2012

Version: 2. Juli 2012

Page 2: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Vorbemerkungen

Das Material zu diesem Skript habe ich im Wesentlichen im Rahmen meiner Vertretungsprofessur

an der Technischen Universität Clausthal im Sommersemester 2011 zusammengestellt.

Für die Manuskripterstellung danke ich Konstantin Schildknecht.

Übungsaufgaben und R-Programme zu diesem Kurs stelle ich auf Anfrage gerne zur Verfügung.

Einige Referenzen dazu finden sich im Text an den zugehörigen Stellen.

Page 3: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Verzeichnis der Abkürzungen undSymbole

B(p, q) Betafunktion, B(p, q) = Γ(p)Γ(q)/Γ(p+ q)

dxe Kleinste ganze Zahl größer oder gleich x

χ2ν Chi-Quadrat Verteilung mit ν Freiheitsgraden

M Komplement der Menge M

δa Dirac-Maß im Punkte a

D= Gleichheit in Verteilung

FX Verteilungsfunktion einer reellwertigen Zufallsvariable X

FDR False Discovery Rate

FWER Family Wise Error Rate

bxc Größte ganze Zahl kleiner oder gleich x

Γ(·) Gammafunktion, Γ(x) =∫∞

0 tx−1e−tdt, x > 0

im(X) Bildbereich einer Zufallsgröße X

iid. independent and identically distributed

1M Indikatorfunktion einer Menge M

L(X) Verteilungsgesetz einer Zufallsvariable X

LFC Least Favorable Configuration

N (µ, σ2) Normalverteilung mit Parametern µ und σ2

Φ Verteilungsfunktion der N (0, 1)-Verteilung

i

Page 4: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

ϕ(·) Verteilungsdichte der N (0, 1)-Verteilung

supp(F ) Träger der Verteilungsfunktion F

UNI[a, b] Gleichverteilung auf dem Intervall [a, b]

ii

Page 5: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Inhaltsverzeichnis

1 Grundlagen aus der Wahrscheinlichkeitstheorie 11.1 Bedingte Verteilungen und bedingte Erwartungswerte . . . . . . . . . . . . . . . 1

1.2 Erzeugende Funktion, Laplace- und Fouriertransformierte . . . . . . . . . . . . . 7

1.3 Konvergenzarten und Folgen von Zufallsvariablen . . . . . . . . . . . . . . . . . 17

2 Entscheidungstheorie 282.1 Entscheiden unter Unsicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2 Suffizienz und Vollständigkeit, Exponentialfamilien . . . . . . . . . . . . . . . . 38

3 Schätztheorie 443.1 Erwartungstreue Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2 Allgemeine Schätztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4 Testtheorie, Bereichsschätzungen 544.1 Allgemeine Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2 Tests für Parameter der Normalverteilung . . . . . . . . . . . . . . . . . . . . . 64

4.3 Bereichsschätzungen und der Korrespondenzsatz . . . . . . . . . . . . . . . . . 76

5 Ausgewählte weitere Themen 815.1 Grundlagen der stochastischen Simulation . . . . . . . . . . . . . . . . . . . . . 81

5.2 Statistische Lerntheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

Tabellenverzeichnis 85

Abbildungsverzeichnis 86

Literaturverzeichnis 87

iii

Page 6: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

iv

Page 7: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Kapitel 1

Grundlagen aus derWahrscheinlichkeitstheorie

1.1 Bedingte Verteilungen und bedingte Erwartungswerte

Erinnerung 1.1Seien X und Y reellwertige stetige Zufallsvariablen auf dem selben Wahrscheinlichkeitsraum

(Ω,F ,P) mit gemeinsamer Dichtefunktion f(X,Y ) : R2 → R+ bezüglich λ2 (Lebesguemaß),

so ist

(a) fY (y) =∫∞−∞ f(X,Y )(x, y)dx eine Randdichte von Y .

(b) fY |X(y|x) =f(X,Y )(x,y)

fX(x) , x, y ∈ R, eine bedingte Dichte von Y bezüglich X (mit 0/0 = 0).

(c) Bezeichne B die σ-Algebra der Borelmengen auf R. Für x ∈ R mit fX(x) > 0 heißt die

Mengenfunktion

B 3 B 7→ P(Y ∈ B|X = x) :=

∫BfY |X(y|x)λ(dy)

bedingte Verteilung von Y bezüglich X = x.

(d) Rechenregeln:

(i) P(X ∈ A, Y ∈ B) =∫A P(Y ∈ B|X = x)fX(x)λ(dx).

(ii) P(Y ∈ B) =∫∞−∞ P(Y ∈ B|X = x)fX(x)dx.

(iii) P((X,Y ) ∈ C) =∫∞−∞ P(Y ∈ C(x)|X = x)fX(x)dx

für C ∈ B2 und mit C(x) = y ∈ R|(x, y) ∈ C, dem x-Schnitt von C.

(iv) Sind A,B ∈ B mit P(X ∈ A) > 0, dann ist die elementare bedingte Wahrscheinlichkeit

von Y bzgl. X definiert durch P(Y ∈ B|X ∈ A) = P(X ∈ A, Y ∈ B)/P (X ∈ A).

1

Page 8: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Definition 1.2Seien (Ω1,A1) und (Ω2,A2) zwei Messräume. Eine Abbildung q : Ω1 × A2 → [0, 1] heißt

Übergangswahrscheinlichkeit (Markov-Kern) von Ω1 nach Ω2 (bzw. A2):⇔

(i) A′ 7→ q(x,A′) ist ein Wahrscheinlichkeitsmaß auf (Ω2,A2) für alle x ∈ Ω1.

(ii) x 7→ q(x,A′) ist (A1,B)-messbar für alle A′ ∈ A2.

Definition und Satz 1.3Seien (Ωi,Ai), i = 1, 2 zwei Messräume. Sei µ ein Wahrscheinlichkeitsmaß auf (Ω1,A1) und q

ein Markov-Kern von Ω1 nach Ω2.

a) Durch die Festlegung

µ⊗ q(A1 ×A2) :=

∫A1

q(x,A2)µ(dx), Ai ∈ Ai, i = 1, 2

wird auf (Ω1 × Ω2,A1 ⊗A2) das Wahrscheinlichkeitsmaß µ⊗ q definiert.

b) Für C ∈ A1 ⊗A2 gilt

µ⊗ q(C) =

∫Ω1

q(x,C(x))µ(dx).

Beweis: Für C ∈ A1 ⊗A2 schreiben wir kurz Q(C) :=∫

Ω1q(x,C(x))µ(dx).

Normierungsbedingung und σ-Additivität von Q (zur Übung) ⇒ Q ist ein Wahrscheinlichkeits-

maß auf (Ω1×Ω2,A1⊗A2). Sei jetzt A×B ∈ A1×A2 (Kartesisches Produkt!), so rechnen wir

nach:

Q(A×B) =

∫Ω1

q(x, (A×B)(x))µ(dx) =

∫Ω1

1A(x)q(x,B)µ(dx) =

∫Aq(x,B)µ(dx).

Aus dem Maßeindeutigkeitssatz folgt, daA1×A2 ein ∩-stabiles Erzeugendensystem vonA1⊗A2

ist, dass Q =: µ⊗ q eindeutig definiert ist.

Beispiel 1.4

a) Sei q(x,B) ≡ ν(B), ν Wahrscheinlichkeitsmaß auf (Ω2,A2). Dann ergibt sich

µ⊗ q(A1 ×A2) =

∫A1

q(x,A2)µ(dx) =

∫A1

ν(A2)µ(dx) = µ× ν(A1 ×A2),

also das “klassische” Produktmaß (hier zur Unterscheidung mit × notiert).

b) SeienX und Y stochastisch unabhängige Zufallsvariablen mit Werten in Ω1 bzw. Ω2, dann gilt

P(X,Y ) = PX × PY und mit a) folgt

P(X,Y ) = PX × PY = PX ⊗ PY , d.h. q(t, A2) = P(Y ∈ A2)

ist eine Version der bedingten Verteilung PY |X=t für alle t ∈ Ω1.

2

Page 9: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Satz 1.5 (Satz von Fubini für Markov-Kerne)

Unter den Bezeichnungen aus Satz 1.3 sei f : Ω1 × Ω2 → R eine messbare Abbildung. Dann gilt∫Ω1×Ω2

fd(µ⊗ q) =

∫Ω1

[∫Ω2

f(x, y)q(x, dy)

]µ(dx),

falls eine der folgenden Voraussetzungen gilt:

(i) f ≥ 0.

(ii) f ist (µ⊗ q)- quasiintegrierbar.

Beweis: Satz 14.29 in Klenke (2008).

Anmerkung:

Ist ν ein Wahrscheinlichkeitsmaß auf Ω2 und q(x,B) :≡ ν(B), so ergibt sich der klassische Satz

von Fubini über Produktmaße:∫Ω1×Ω2

fd(µ× ν) =

∫Ω1

[∫Ω2

fdν

]dµ =

∫Ω2

[∫Ω1

fdµ

]dν

unter den Voraussetzungen von Satz 1.5.

Bemerkung 1.6Für den Beweis von Satz 1.5 ist es wichtig, dass die Funktion

h : Ω1 → R, x 7→ h(x) :=

∫Ω2

f(x, y)q(x, dy)

messbar ist. Dies zeigt man mit algebraischer Induktion (zur Übung).

Definition 1.7Sei (Ω,A,P) ein Wahrscheinlichkeitsraum und seienX,Y Zufallsvariablen auf (Ω,F ,P) mit Wer-

ten in (Ω1,A1) bzw. (Ω2,A2). Dann heißt ein Markov-Kern q von Ω1 nach Ω2 mit der Eigenschaft

P(X ∈ A1, Y ∈ A2) =

∫A1

q(x,A2)PX(dx)

für alle Ai ∈ Ai, i = 1, 2, eine reguläre Version der bedingten Verteilung von Y bezüglich X .

Kurzform: P(X,Y ) = PX ⊗ q.

Ist (Ω2,A2) = (Rd,Bd) mit d ∈ N, so existiert stets eine reguläre Version von PY |X .

Definition 1.8Unter den Voraussetzungen von Definition 1.7 sei T : (Ω2,A2)→ (R,B) eine messbare Funktion

derart, dass T (Y ) ∈ L1(Ω,F ,P) ist.

Dann heißt

E [T (Y )|X = x] :=

∫T (y)q(x, dy) =: g(x)

eine Version des bedingten Erwartungswertes von T (Y ) unter der Hypothese X = x.

3

Page 10: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Bemerkung 1.9Unter den Voraussetzungen von Definition 1.8 gilt:

(i) Es existiert stets eine Version von E [T (Y )|X = x].

(ii) Alle Versionen von E [T (Y )|X = x] sind messbare und PX -integrierbare Abbildungen

g : Ω1 → R.

Definition und Satz 1.10Es seien die Voraussetzungen von Definition 1.8 mit T = id. gegeben.

a) Die Zufallsvariable E [Y |X] := g(X) = g X , die für X(ω) = x den Wert g(x) mit g(x) =

E [Y |X = x] =∫yq(x, dy) annimmt, heißt (eine) bedingte Erwartung von Y bezüglich X .

b) Bezeichne

σ(X) = X−1(A1) = X−1(B)|B ∈ A1 = A ∈ F | ∃B ∈ A1 : X−1(B) = A

die von X : (Ω,A)→ (Ω1,A1) erzeugte Unter-σ-Algebra von F .

Dann gilt für A ∈ σ(X) und mit B ∈ A1 so, dass X−1(B) = A ist, dass∫AY dP =

∫Ω1B(X)Y dP =

∫Ω1×R

1B(x)ydP(X,Y )(x, y)

=

∫Ω1

1B(x)

[∫Ryq(x, dy)

]PX(dx) =

∫Ω1

1B(x)g(x)PX(dx)

=

∫Bg(x)PX(dx) =

∫Ω1B(x)g(x)dP =

∫Ag XdP

=

∫AE [Y |X] dP.

c) Sei allgemein C eine Sub-σ-Algebra von F . Dann ist eine bedingte Erwartung Z ∈ E [Y |C](Schreibweise Z = E [Y |C]) charakterisiert durch

(i) Z ist (C,B)-messbar.

(ii) ∀C ∈ C :∫C ZdP =

∫C Y dP.

Formal kann jedes solche C ⊆ F als σ(X) für ein geeignetes X geschrieben werden.

Beispiel 1.11

a) Zeichen werden in einem Übertragungskanal mit einer unbekannten Wahrscheinlichkeit ge-

stört. Die unbekannte Störwahrscheinlichkeit wird als Zufallsvariable X mit Werten in (0, 1)

modelliert. Bei gegebenem X = p sollen die Störungen laut Modell iid auftreten.

4

Page 11: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Es sei Y :=“Wartezeit bis zur ersten Störung”, gemessen in Anzahl gesendeter Zeichen. Ge-

sucht ist nun die mittlere “Zeit” bis zur ersten Störung, falls X = p bekannt ist.

Lösung: Eine Version von PY |X=p ist die geometrische Verteilung mit Parameter p, also

P(Y = k|X = p) = p(1− p)k, k ≥ 0.

⇒ E [Y |X = p] =∞∑k=0

kp(1− p)k =1− pp

= g(p).

Gelte nun für die Störwahrscheinlichkeit X , dass P(X = 12) =: a und P(X = 3

4) = 1− a, so

folgt

E [Y |X] =1−XX

=: Z

mit P(Z = 1) = a = 1− P(Z = 13).

b) Sei Y reellwertige, integrierbare Zufallsvariable und X diskret mit Werten in N0. Dann kann

g(i) := E [Y |X = i] , i ∈ N0, wie folgt bestimmt werden. Nach elementarer bedingter Wahr-

scheinlichkeitsformel gilt:

P(Y ∈ B|X = i) =P(Y ∈ B,X = i)

P(X = i)

= [P(X = i)]−1

∫1Y ∈B 1X=idP

⇒ g(i) =E[Y 1X=i

]P(X = i)

, i ∈ N0.

Ausführliche Verifikation vermittels charakterisierender Integralgleichung ist eine Übungsauf-

gabe. Beispielsweise gilt z.B. für X := bY c, dass

E [Y |X = i] =E[Y 11≤Y <i+1

]P(i ≤ Y < i+ 1)

= g(i), i ∈ N0.

Bemerkung 1.12 (Anschauliche Interpretation von E [Y |X])

Sei Z := E [Y |X] (genauer sei Z ∈ E [Y |X]). Dann hat Z die folgenden Eigenschaften:

(i) Z ist auf dem selben Wahrscheinlichkeitsraum wie Y definiert.

(ii) Der Mittelwert von Z stimmt mit dem von Y überein, wenn auf Mengen X−1(B) einge-

schränkt wird.

(iii) Wegen Z = g(X) “variiert” Z aber nur so stark wie X . Nimmt X also z.B. nur endlich

viele Werte an, so auch Z = E [Y |X]. Die bedingte Erwartung ist also gewissermaßen eine

Glättung von Y entlang X .

5

Page 12: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(iv) Bild zur Veranschaulichung:

Abbildung 1.1: Skizze zur Veranschaulichung der bedingten Erwartung

(v) Liegt Y in L2(Ω,F ,P), so stellt E [Y |X] die beste L2-Approximation von Y unter allen

Funktionen der Gestalt h(X), h : Ω1 → R, dar, d.h. der L2-Abstand zwischen Y und

einer (deterministischen) L2-Transformation von X ist am kleinsten für E [Y |X]. Anders

ausgedrückt ist E [Y |X] die Projektion von Y auf L2(Ω, σ(X),P).

Wir beschließen diesen Abschnitt 1.1 mit wichtigen Rechenregeln für bedingte Erwartungen.

Satz 1.13 (Rechenregeln für bedingte Erwartungen, alle Aussagen P-f.s.)

Unter den Voraussetzungen von Definition 1.8 gelten die folgenden Rechenregeln.

a) Linearität der bedingten Erwartung:

E [αY1 + βY2|X] = αE [Y1|X] + βE [Y2|X] .

b) Satz von der iterierten Erwartungswertbildung:

E [Y ] = E [E [Y |X]] =

∫Ω1

E [Y |X = x]PX(dx).

c) Sei h : Ω1 × R→ R, so dass h(X,Y ) integrierbar ist, so folgt:

(i) E [h(X,Y )|X = x] = E [h(x, Y )|X = x] =∫h(x, y)PY |X=x(dy).

(ii) X ⊥ Y ⇒ E [h(X,Y )|X = x] = E [h(x, Y )] =∫h(x, y)PY (dy).

6

Page 13: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

d) Sei h : Ω1 → R messbar, so dass Y · h(X) integrierbar ist, so folgt:

E [Y · h(X)|X] = h(X) · E [Y |X] .

e) Sei g : (Ω1,A1)→ (Ω′,A′), so folgt:

E [E [Y |X] |g(X)] = E [Y |g(X)] = E [E [Y |g(X)] |X] .

f) Tower equation: Sind B1 ⊂ B2 Sub-σ-Algebren von F und ist Y ∈ L1(Ω,F ,P), so gilt P-f.s.

E [E [Y |B1] |B2] = E [Y |B1] = E [E [X|B2] |B1] .

Beachte: σ-Algebren können als Informationsstände interpretiert werden!

Beweis: Alle Aussagen folgen direkt aus Eigenschaften des Lebesgue-Integrals (vgl. Maß- und

Integrationstheorie) oder können mit algebraischer Induktion nachgewiesen werden (man verifi-

ziere z.B. Teil c) für Indikatorfunktionen).

1.2 Erzeugende Funktion, Laplace- und Fouriertransformierte

Statt der Angabe von Wahrscheinlichkeitsfunktionen (diskrete Zufallsgrößen) oder Verteilungs-

dichten (stetiger Fall) ist es in manchen Fällen (Berechnung von Momenten, Herleitung von Fal-

tungen) nützlicher, mit anderen Charakterisierungen von Wahrscheinlichkeitsverteilungen zu ar-

beiten. Insbesondere die charakteristische Funktion (Fourier-Transformierte) hat zentrale Bedeu-

tung; mehr dazu in Abschnitt 1.3 im Kontext der Verteilungskovergenz.

Definition 1.14Sei X eine Zufallsvariable mit Werten in N0. Die Potenzreihe GX : [0, 1] 7→ [0, 1] mit

t 7→ GX(t) := E[tX]

=

∞∑k=0

tkP(X = k)

heißt die erzeugende Funktion von X bzw. von PX (englisch: generating function).

Beispiel 1.15

a) Die Binomialverteilung B(n, p) hat die erzeugende Funktion t 7→ (1 − p + pt)n nach dem

Binomischen Lehrsatz.

b) Die Poissonverteilung Pois(λ) hat die erzeugende Funktion

t 7→∞∑k=0

tk exp (−λ)λk

k!= exp (λ(t− 1))

7

Page 14: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Satz 1.16 (Eigenschaften von GX )

a) Eindeutigkeitssatz: Haben zwei Zufallsvariablen, jeweils mit Werten in N0 die gleiche erzeu-

gende Funktion, so haben sie die gleiche Verteilung.

Kurz: GX = GY ⇒ PX = PY .

b) Es gilt P(X = 0) = GX(0) < GX(t) < GX(1) = 1∀t ∈ (0, 1)

c) GX ist stetig und in (0, 1) unendlich oft stetig differenzierbar. Es gilt für n ∈ N und die n-te

Ableitung G(n)X , dass

limt1

G(n)X (t) =

∞∑k=n

P(X = k) ·k∏

j=k−n+1

j

wobei beide Seiten +∞ sein können; d.h.

limt1

GX(t) = E [X] und limt↑1

G(n)X (t) = E [X(X − 1) . . . (X − n+ 1)]

das n-te Moment von X .

d) Ist Y eine weitere Zufallsvariable mit Werten in N0 stochastisch unabhängig von X , so ist

t 7→ GX(t)GY (t) die erzeugende Funktion von X + Y , d.h. von der Faltung PX ∗ PY , kurz:

GX+Y = GXGY

e) Induktiv folgt, dass für stochastisch unabhängige X1, . . . , Xn gilt

G∑ni=1Xi

=

n∏i=1

GXi .

Beweis:zu a)-c): Analysis I , Eigenschaften von Potenzreihen, Koeffizientenvergleich

zu d):

GX(t)GY (t) = (∞∑k=0

P(X = k)tk)(∞∑k=0

P(Y = k)tk)

Cauchy-Produkt-Formel=

∞∑k=0

tk(

k∑l=0

P(X = l)P(Y = k − l))

stoch. Unaghängigkeit=

∞∑k=0

tkk∑l=0

P(X = l, Y = k − l)

=

∞∑k=0

tkP(X + Y = k) = GX+Y (t)

8

Page 15: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 1.17

a) Beispiel 1.15a) zusammen mit 1.16e) zeigt, dass die Summe von n stochastisch unabhängigen,

identisch Bernoulli(p)-verteilter Indikatoren eine B(n, p)-Verteilung besitzt.

Ist allgemeiner X ∼ B(m, p), X ⊥ Y , so ist X + Y ∼ B(n+m, p).

b)

X ∼ Pois(α), Y Pois(β), X ⊥ Y

⇒ GX+Y (t) = GX(t)GY (t)1.15b)

= exp (α(t− 1)) exp (β(t− 1))

= exp ((α+ β)(t− 1))

d.h. X + Y ∼ Pois(α+ β)

Ferner gilt E [X] = Var (X) = α, denn

d

dtGX(t)

∣∣t=1− = α exp(α(t− 1))

∣∣t=−1

= α

undd2

dt2GX(t)

∣∣t=1− = α2 exp(α(t− 1))

∣∣t=1− = α2

⇒ E [X] = α,E[X2 −X

]= α2,E

[X2]

= α(α+ 1) und E[X2]− E2[X] = Var (X) = α.

Für allgemeinere Verteilungen reellwertiger Zufallsvariablen, die auf [0,∞) konzentriert sind,

empfiehlt sich häufig die Benutzung ihrer Laplace-Transformierten.

Definition 1.18Sei X eine reellwertige Zufallsvariable mit PX([0,∞)) = 1. Dann heißt LX : [0,∞) → R,

definiert durch

LX(s) := E [exp(−sX)] =

∫[0,∞)

exp(−sx)PX(dx)

für s ∈ R+0 , die Laplace-Transformierte von X (bzw. von PX oder FX ).

Satz 1.19 (Eigenschaften von LX )

a) Wegen 0 ≤ exp(−sx) ≤ 1,∀x ≥ 0, s ≥ 0 existiert LX auf [0,∞) und es gilt:

0 ≤ LX(s) ≤ 1 = LX(0),P(X = 0) = lims→∞

LX(s)

b) LX ist stetig auf [0,∞) und beliebig oft differenzierbar auf (0,∞) mit

L(k)X (s) = (−1)kE

[Xk exp(−sx)

], k ∈ N0, s > 0

E[Xk]

= lims0

(−1)kL(k)X (s)

wobei beide Seiten +∞ sein können.

9

Page 16: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

c) Umkehrformel:

Sei C(F ) := t ∈ R|F stetig in t die Menge der Stetigkeitsstellen einer Verteilungsfunktion

F auf R. Es gilt:

∀0 < x ∈ C(FX) : FX(x) = limn→∞

∑k≤nx

(−n)k

k!L

(k)X (n)

d) Eindeutigkeitssatz: PX ist durch LX eindeutig bestimmt.

e) Ist Y eine weitere reellwertige Zufallsvariable mit PY ([0,∞)) = 1 stochastisch unabhängig

von X , so ist LX+Y = LXLY .

Beweis:

zu a)

lims→∞

E [exp(−sX)] = E[1X=0

]= P(X = 0).

zu b)

d

dsLX(s) = lim

h→

LX(s+ h)− LX(s)

h

= limh→0

h−1[E [exp(−(s+ h)X)]− E [exp(−sX)]]

= limh→0

E[h−1exp(−(s+ h)X − exp(−sX)

]maj. Konvergenz

= E[

limh→0

exp(−(s+ h)X)− exp(−sX)

h

]= E

[d

dsexp(−sX)

]= E [−X exp(−sX)]

= −E [X exp(−sX)]

Induktion nach k liefert nun das Gewünschte.

zu c) siehe Feller (1971) XIII.4

zu d) Folgt aus c)

zu e) E [exp(−s(X + Y ))]stoch. Unabhängigkeit

= E[e−sX

]E[e−sY

]

10

Page 17: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 1.20

a) Sei X Exp(λ)-verteilt, dann ergibt sich

LX(s) = E [exp(−sX)] =

∫ ∞0

exp(−sx)λ exp(−λx)dx

= λ

∫ ∞0

exp(−(s+ λ)x)dx =λ

s+ λ

⇒ E[Xk]

= (−1)kdk

dskLX(s)|s=0+ = (−1)k(−1)k

k!λ

(s+ λ)k+|s=0+ =

k!

λk

b) Die Erlang(λ, n)-Verteilung als n-fache Faltung von Exp(λ) mit sich selbst hat die Laplace-

Transformierte s 7→ ( λs+λ)n.

Y ∼ Erlang(λ, n)⇒

E [Y ] =d

ds(

λ

s+ λ)n|s=0+ =

n

λ

E[Y 2]

=d2

ds2(

λ

s+ λ)n|s=0+

=n(n+ 1)λn

(s+ λ)n+2|s=0+ =

n(n+ 1)

λ2

⇒ Var (Y ) =n

λ2

Für eine reellwertige Zufallsvariable, deren Werte nicht auf [0,∞) eingeschränkt sind, existiert die

Laplace-Transformierte häufig nur auf Teilbereichen des Trägers ihrer Verteilung. Einen Extrem-

fall stellt die Cauchy-Verteilung dar, bei der die Laplace-Transformierte nur für s = 0 existiert.

Folglich ist hier die Laplace-Transformierte nicht zur Charakterisierung der Verteilung geeignet.

Zentrale Objekte der Wahrscheinlichkeitstheorie sind die charakteristischen Funktionen, die stets

existieren.

Bezeichne dazu i =√−1 die imaginäre Einheit.

Definition 1.21

a) Sei µ ein endliches Maß auf Rd für d ∈ N. Die Abbildung Cµ : Rd → C, definiert durch

ϕµ :=

∫exp(i < t, x >)µ(dx)

heißt Fourier - Transformierte von µ.

b) Sei X = (X1, . . . , Xd) ein Zufallsvektor mit (gemeinsamer) Verteilung PX . Dann heißt

ϕX := CPX die charakteristische Funktion von X .

11

Page 18: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

c) Für eine komplexwertige Zufallsvariable Z mit Real- und Imaginärteilen

Re(Z) ∈ L1(Ω,A,P) und Im(Z) ∈ L1(Ω,A,P) sei E [Z] := E [Re(Z)] + iE [Im(Z)].

Damit ist

ϕX(t) = E [exp(i < t, x >)] , t ∈ Rd

[Man beachte die Eulersche Formel: exp(iϑ) = cos(ϑ) + i sin(ϑ)!]

Wegen | exp(i < t, x >)| = 1,∀t, x ∈ Rd existiert ϕµ(t) für alle t ∈ Rd.

Satz 1.22 (Eigenschaften der charakteristischen Funktion)

a) ∀t ∈ Rd : |ϕX(t)| ≤ 1 = ϕX(0)

b) Affine Transformation: Sei X Zufallsgröße mit Werten in Rd und Y := AX+ b mit A ∈ Rm×d

und b ∈ Rm; d,m ∈ N. Dann gilt ϕY (u) = exp(i < u, b >)ϕX(ATu), u ∈ Rm. Ist speziell

d = m = 1 und a = −1, b = 0, so ergibt sich z.b.

ϕ−X(u) = ϕX(−u) = ϕX(u)

aufgrund der Symmetrieeigenschaften von Sinus und Cosinus.

c) PX = P−X genau dann, wenn ϕX (rein) reellwertig ist.

d) Die Zufallsvariablen X1, . . . , Xd sind genau dann stochastisch unabhängig, wenn ∀u ∈ Rd :

ϕX(u) =∏dk=1 ϕXk(uk) gilt, X = (X1, . . . , Xd)

T

e) Faltungsformel: sind X und Y stochastisch unabhängige Zufallsvektoren mit Werten in Rd, so

ist ϕX+Y = ϕX · ϕY

Beweis:

zu a) PX(Rd) = 1

zu b) zur Übung (Lineare Algebra)

zu c) Symmetrieeigenschaften von Sinus und Cosinus

zu d) Charakterisierung der stochastischen Unabhängikeit über

E [f(Xi)g(Xj)] = E [f(Xi)]E [g(Xj)]

für alle komplexwertigen, messbaren Funktionen f und g, Details z.B. in Kapitel 8 von

Breiman (1992)

zu e) Analog zum Beweis für Laplace-Transformierte in 1.19e).

12

Page 19: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Es existieren eine ganze Reihe von “Umkehrformeln”, die es erlauben, Verteilungsfunktionen,

Dichtefunktionen oder Wahrscheinlichkeitsfunktionen aus charakteristischen Funktionen zurück-

zugewinnen.

Satz 1.23

a) Diskrete Fourier-Inversionsformel:

Sei µ endliches Maß auf Zd ⇒ ∀x ∈ Zd gilt:

(i)

µ(x) = (2π)−d∫

[−π,π)dexp(i < t, x >)ϕµ(t)dt

(ii) ∑x∈Zd

µ(x)2 = (2π)−d∫

[−π,π)d|ϕµ(t)|2dt (Plancherel).

b) Besitzt µ eine λd-Dichte f , so gilt

f(x) = (2π)−d∫Rd

exp(−i < t, x >)ϕµ(t)λd(dt), x ∈ Rd.

c) In Dimension d = 1 gilt

FX(x) =1

2− 1

π

∫ ∞0

Im(e−itxϕX(t))

tdt

für alle Stetigkeitspunkte von FX .

d) Chungs Inversionsformel (hier nur d = 1):

Falls a < b und P(X = a) = P(X = b) = 0⇒

FX(b)− FX(a) = limT→∞

1

∫ T

−T

e−ita − e−itb

itϕX(t)dt.

Beweis:

zu a) Klenke (2008), Seiten 300-301

zu b) Klenke (2008), Seiten 300-301

zu c) Gil-Pelaez (1951)

zu d) Chung (2000)

13

Page 20: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Korollar 1.24 (Eindeutigkeitssatz)

Ein endliches Maß µ auf Rd ist durch Angabe der charakteristischen Funktion ϕµ eindeutig fest-

gelegt.

Satz 1.25 (Momentenberechnung)

Sei X = (X1, . . . , Xd) ein Zufallsvektor im Rd. Falls E [|X|m] für m ∈ N endlich ist, dann ist

ϕX m-mal stetig partiell differenzierbar und es gilt für alle t ∈ Rd:

∂m

∂xj1∂xj2 . . . ∂xjmϕX(t) = imE [Xj1Xj2 . . . Xjm exp(i < t, x >]

Beweis: (nach Jacod and Protter (2000), Theorem 13.2)

Wir schreiben abkürzend µ := PX und zeigen die Behauptung für m = 1. Für allgemeines m

wird die Aussage induktiv hergeleitet. Wir müssen zunächst die Existenz von ∂∂xj

ϕX(u) für jedes

u ∈ Rd nachweisen.

Dazu nehmen wir eine Folge tnn∈N in R1 mit tn → 0, n→∞ und Einheitsvektoren (ej)j=1,...d

her und rechnen die Richtungsableitung aus:

ϕX(u+ tnej)− ϕX(u)

tn=

∫Rdei<u,x>

ei<tnej ,x> − 1

tnµ(dx)

Betrachten wir den Bruch im Integranden:

exp(i < tnej , x > −1

tn=

cos(< tnej , x >)− 1 + i sin(< tnej , x >)

tn

−→n→∞tn→0

−xj sin(0) + ixj · cos(0)

= ixj nach L’Hospital’scher Regel.

Ferner gilt | exp(i<tnej ,x>)−1tn

| ≤ 2|x| für n ≥ N geeignet und 2|x| ∈ L1(Ω,A, µ) nach Vorraus-

setzung (n = 1). Mit majorisierter Konvergenz ergibt sich damit∫Rd

exp(i < u, x >)exp(i < tnej , x >)− 1

tnµ(dx)

−→n→∞

∫Rd

exp(i < u, x >)ixjµ(dx)

= iE[Xje

i<u,X>]

=∂

∂xjϕX(u)

Die Stetigkeit von ∂∂xj

ϕX(u)∀u ∈ Rd zeigt man wieder mit majorisierter Konvergenz.

14

Page 21: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 1.26 (Normalverteilungen)

a) Sei X ∼ N (0, 1) im R1. Dann ergibt sich

ϕX(t) = E [exp(itx)] =

∫R

cos(tx)1√2π

exp(−x2

2)dx+ i

∫R

sin(tx)1√2π

exp(−x2

2)dx︸ ︷︷ ︸

=0 ,da Integrand ungerade Funktion

x⇒ ϕ′X(t) =1√2π

∫R−x sin(tx) exp(−x

2

2)dx

partielle Integrationv(x)=sin(tx)

u′(x)=−x exp(−x22

)

= − 1√2π

∫Rt cos(tx) exp(−x

2

2)dx

= −tϕX(t)

Also:ϕ′X(t)

ϕX(t)= −t⇒ ln(ϕX(t)) = − t

2

2+ C

⇒ ϕX(t) = exp(− t2

2) exp(C).

Wegen ϕX(0) = 1 ist C = 0, also ϕX(t) = exp(− t2

2 ).

b) Y ∼ N (µ, σ2) im R1. Dann ist

YD= σX + µ⇒ Satz1.22b)

ϕY (t) = exp(itµ) exp(−σ2t2

2) = exp(itµ− σ2t2

2)

c) X = (X1, . . . , Xd) standardnormalverteilt im Rd

⇒ nach Satz 1.22d) : ϕX(t) =

d∏k=1

exp(−t2k2

) = exp(−1

2|t|2).

d) Y = (Y1, . . . , Ym) allgemein normalverteilt, Y ∼ Nm(µ,Σ).

Dann lässt sich Σ = QQT zerlegen und Y = QX + µ schreiben, wobei X standardnormal-

verteilt ist. So gilt:

ϕY (u) = exp(i < u, µ >) exp(−1

2|QTu|2) = exp(i < u, µ >) exp(−1

2< QTu,QTu >)

= exp(i < u, µ >) exp(−1

2(QTu)TQTu) = exp(i < u, µ >) exp(−1

2uTQQTu)

= exp(i < u, µ >) exp(−1

2uTΣu) = exp(i < u, µ > −1

2uTΣu)

= exp(i < u, µ ><1

2< u,Σu >).

15

Page 22: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 1.27 (weitere Beispiele (in d = 1))

a) Binomialverteilung: Sei X ∼ Bin(n, p), so gilt:

ϕX(t) =

n∑k=0

exp(itk)pk(1− p)n−k(n

k

)

=

n∑k=0

[exp(it)p]k(1− p)n−k(n

k

)=

bin. Lehrsatz[p exp(it) + (1− p)]n.

b) Gammaverteilung: Sei Y ∼ Gamma(1, r), so gilt:

ϕY (t) =

∫ ∞0

exp(ity)yr−1

Γ(r)e−ydy

=

∫ ∞0

yr−1

Γ(r)exp(−y(1− it))dy

= (1− it)−r∫ ∞

0

(−it)r

Γ(r)yr−1 exp(−y(1− it))dy

= (1− it)r wegen Normierungsbedingung von “Gamma(1− it, r)”.

Sei X ∼ Gamma(α, r), so gilt X D= Y/α

⇒ ϕX(t) = (1− it

α)−r = (

α

α− it)r.

c) Sei X ∼ UNI[a, b] (Gleichverteilung auf dem Intervall [a, b])

ϕX(t) =

∫ b

a

exp(itx)

(b− a)dx = [(it(b− a))−1 exp(itx)]ba

=exp(itb)− exp(ita)

it(b− a)(ϕX(0) = 1)

a = −b⇒ ϕx(t) =exp(itb)− exp(−itb)

2itb

=cos(tb) + i sin(tb)− cos(−tb)− i sin(−tb)

2itb

=sin(tb)

tb.

d) (Xi)i∈N stochastisch unabhängig, identisch verteilt. Sein N eine weitere Zufallsvariable, sto-

16

Page 23: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

chastisch unabhängig von den Xi, mit Werten in N. Sei

S :=

N∑i=1

Xi ⇒ ϕS(t) = E

exp(it

N∑j=1

Xj)

=

∑n∈N

P(N = n)ϕnX1(t) =

∑n

P(N = n) exp(n lnϕX1(t))

= E [exp(N lnϕX1(t))] = E [exp(iN(−n) lnϕX1(t))]

= ϕN (−i lnϕX1(t)) bei entsprechendem Konvergenzradius in C.

1.3 Konvergenzarten und Folgen von Zufallsvariablen

In diesem Kapitel betrachten wir Folgen (xn)n≥1 von (reellwertigen) Zufallsvariablen

Xn : (Ω,A,P) → (R,B(R)), n ≥ 1 und beschreiben, in welchen Weisen die Folge (Xn)n≥1

gegen einen Grenzwert, alse eine Grenz-ZufallsvariableX : (Ω,A,P)→ (R,B(R)) konvergieren

kann (für n → ∞). Da Xn, n ≥ 1 und X Funktionen sind, lassen sich (wie in der Funktional-

analysis) verschiedene Konvergenzarten unterscheiden, die in der Wahrscheinlichkeitstheorie mit

besonderen Begriffen gelegt werden.

Es bestehen ferner Implikationsbeziehnungen zwischen den Konvergenzarten, d.h., die “Stärke”

der Konvergenz lässt sich unterscheiden.

Definition 1.28 (Konvergenzarten)

Sei (Xn)n≥1 eine Folge von Zufallsvariablen auf einem gemeinsamen Wahrscheinlichkeitsraum,

∀n ∈ N : Xn : (Ω,A,P) → (R,B(R)) messbar. Ferner sei X : (Ω,A,P) → (R,B(R)) eine

weitere (reellwertige) Zufallsvariable auf dem gleichen Wahrscheinlichkeitsraum wie (Xn)n≥1.

a) Die Folge (Xn)n≥1 konvergiert P-fast sicher (mit Wahrscheinlichkeit 1) gegen X für n→∞ :

⇔ P(ω ∈ Ω : limn→∞

Xn(ω) = X(ω)) = 1

⇔ P( limn→∞

Xn = X) = 1

In Zeichen: XnP−f.s.→ X

b) Die Folge (Xn)n≥1 konvergiert P-stochastisch (nach Wahrscheinlichkeit) gegen X für n →∞:⇔

∀ε > 0 : limn→∞

P(|Xn −X| > ε) = 0

In Zeichen: XnP→ X .

c) Die Folge (Xn)n≥1 konvergiert in Verteilung (schwach) gegen X für n→∞:⇔

∀x ∈ C(FX) : limn→∞

FXn(x) = FX(x)

17

Page 24: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

In Zeichen: XnD→ X bzw. L(Xn)

w→ L(X).

Beachte: Das Maß P wird für die Definition der Verteilungskonvergenz nicht benötigt. Daher

können die Xn und/oder X in dieser Definition sogar auf unterschiedlichen Wahrscheinlich-

keitsräumen “leben”.

Eine exaktere Definition lauter daher:

Sei (Ω′, d) ein metrischer Raum und A′ die von den offenen Kugeln in der Metrik d erzeugte

σ-Algebra. Seien P und (Pn)n≥1 Wahrscheinlichkeitsmaße auf dem Messraum (Ω′,A′). Dann

konvergiert die Folge (Pn)n≥1 schwach gegen P für n→∞:⇔

∀f ∈ Cb(Ω′) : limn→∞

∫fdPn =

∫fdP

[Cb(Ω′) bezeichnet die Menge aller stetigen und beschränkten Abbildungen f : Ω′ → R.]

d) Sei p ≥ 1 und seien X,X1, X2, . . . Elemente von Lp(Ω,A,P). Dann konvergiert die Folge

(Xn)n≥1 im p-ten Mittel (in Lp) gegen X für n→∞:⇔

limn→∞

E [|Xn −X|p] = 0

In Zeichen: XnLp→ X .

Spezialfälle:

p = 1: Konvergenz im Mittel

p = 2: Konvergenz im quadratischen Mittel

Aus der Diskussion in Definition 1.28c) über die Verteilungskonvergenz (schwache Konvergenz

der Verteilungsgesetze) hat sich bereists ergeben, dass es unterschiedliche, äquivalente Charakte-

risierungen der vier in Definition 1.28 beschriebenen Kovergenzarten gibt. Dazu nun mehr.

Satz 1.29 (Alternative Charakterisierungen)

a)

XnP−f.s.→ X ⇔ P(lim inf

n→∞(Xn −X) = lim sup

n→∞(Xn −X) = 0) = 1

⇔ ∀ω ∈ Ω \N : limn→∞

(Xn(ω)−X(ω)) = 0,

wobei N eine P-Nullmenge bezeichnet.

Beachte: Yn := Xn −X ⇒

limn→∞

Yn = 0 =

∞⋂m=1

∞⋃k=0

∞⋂n=k

|Yn| <1

m

und damit messbar!

18

Page 25: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

b)

XnD→ X ⇔ ∀f ∈ Cb(R) : E [f(Xn] =

∫fdL(Xn) →

n→∞

∫fdL(X) = E [f(X)] .

Beweis:

zu a) ist unmittelbar klar.

zu b) macht von dem folgendem Hilfssatz Gebrauch, der Bezüge zwischen der Topologie und der

Integrationstheorie auf (R,B(R)) herstellt.

Er ist Teil des sogenannten “Portmanteau Theorem” und findet sich z.B. in Ash (1972)

Theorem 5.4.1 d)+e)

Hilfssatz 1.30 (ohne Beweis)

E [f(Xn)] →(n→∞)

E [f(X)]∀f ∈ Cb(R)

⇔ lim infn→∞

PXn(A) ≥ PX(A) für alle offenen Teilmengen A von Ω′ = R

⇔ PXn(A)→ PX(A)∀A ∈ B(R) mit PX(∂A) = 0 (“randlose Mengen”)

Da (−∞, x] für x ∈ C(FX) eine randlose Menge ist, liefert die zweite Äquivalenz im Hilfsatz

unmittelbar die “⇐”-Richtung der Aussage unter b).

Zum Beweis der “⇒”-Richtung zeigen wir:

limn→∞

FXn(x) = FX(x)∀x ∈ C(FX)⇒ ∀A ⊆ R offen: lim infn→∞

PXn(A) ≥ PX(A)

Sei dazu A ⊆ R offen beliebig ausgewählt. Wir schreiben A als disjunkte Vereinigung offener

Intervalle I1, I2, . . . Damit ergibt sich nach dem Lemma von Fatou

lim infn→∞

PXn(A) = lim infn→∞

∑k

PXn(Ik) ≥∑k

lim infn→∞

PXn(Ik). (∗)

Da FX nur abzählbar viele Unstetigkeitsstellen besitzen kann, lässt sich für jede Konstante ε > 0

die folgende Konstruktion durchführen:

Für jedes k sei I ′k ein rechtseitig abgeschlossenes Teilintervall von Ik, so dass

(1) alle Endpunkte der I ′k in C(FX) enthalten sind und

(2) ∀k : PX(I ′k) ≥ PX(Ik)− ε2−k.

Da XnD→ X , gilt nun

lim infn→∞

PXn(Ik) ≥ lim infn→∞

PXn(I ′k) = PX(I ′k).

Folglich gilt für (∗):

lim infn→∞

PXn(A) ≥∑k

PX(I ′k) ≥∑

k PX(Ik)− ε = PX(A)− ε.

Da ε beliebig klein gewählt werden kann, ist hiermit alles gezeigt.

19

Page 26: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Satz 1.31 (Levy’scher Stetigkeitssatz)

Es sei (Xn)n≥1 eine Folge von Zufallsvariablen mit zugehörigen charakteristischen Funktionen

(ϕn)n≥1.

a) Falls (Xn) gegen eine Zufallsvariable X in Verteilung konvergiert, dann konvergiert (ϕn) ge-

gen die charakteristische Funktion vonX , und zwar gleichmäßig auf jedem endlichen Intervall.

b) Falls (ϕn) punktweise gegen eine Funktion ϕ konvergiert, deren Realteil im Punkte (0, 1) stetig

ist, dann gilt:

(i) ϕ ist eine charakteristische Funktion, und damit existiert (genau) eine Wahrscheinlich-

keitsverteilung µ, deren charakteristische Funktion gerade ϕ ist.

(ii) L(Xn)w→ µ für n→∞.

Beweis: Satz 15.23 in Klenke (2008)

Anmerkung: Analoge Stetigkeitsätze gelten auch für erzeugende Funktionen und Laplace-

Transformierte.

Satz 1.32 (Implikationsbeziehungen zwischen Konvergenzarten)

Es sei (Xn)n≥1 eine Folge von Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω,A,P). Fer-

ner sei p ≥ 1 eine reelle Konstante.

(a) XnP−f.s.→ X ⇒ Xn

P→ X

(b) XnP−f.s.→ X impliziert X ∈ Lp(Ω,A,P) sowie Xn

Lp→ X genau dann, wenn H := |Xn|p :

n ≥ 1 gleichgradig integrierbar ist, d.h., falls limc→∞ supf∈H∫|f |≥c |f |dP = 0

(c) XnLp→ ⇒ Xn

Lq→ X ∀1 ≤ q ≤ p

(d) XnLp→ X ⇒ Xn

P→ X

(e) XnP→ X ⇒ Xn

D→ X

(f) Es ergibt sich die folgende Grafik:

Abbildung 1.2: Zusammenhang von Konvergenzarten

20

Page 27: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beweis:

zu a) ist offensichtlich

zu b) vgl. Abschnitt 6.2 in Klenke (2008)

zu c) Die Funktion G, definiert durch g(t) := tpq ist konvex auf R≥0 3 t. Nach der Jensen’schen

Ungleichung (vgl. Aufgabe 2, Blatt 1) gilt daher

E [|Xn −X|p] = E[|Xn −X|q

pq

]≥ (E [|Xn −X|q])

pq

und daher

(E [|Xn −X|p])1p ≥ (E [|Xn −X|q])

1q ∀n ∈ N.

zu d) Wir wenden die Markov-Ungleichung (vgl. Aufgabe 10a, Blatt 3) auf Yn := |Xn −X| mit

h(t) := tp an und erhalten für ε > 0:

P(|Xn −X| > ε) ≤ ε−pE [|Xn −X|p] .

zu e) Sei f eine gleichmäßig stetige beschränkte Funktion auf R und ε > 0 beliebig vorgegeben.

Dann gibt es ein δ > 0 mit der Eigenschaft:

|x− y| ≤ δ ⇒ |f(x)− f(y)| < ε;x, y ∈ R.

Wir rechnen:

|∫f(Xn)dP −

∫f(X)dP| ≤

∫|f(Xn)− f(X)|dP

=

∫|Xn−X|≤δ

|f(Xn)− f(X)|dP +

∫|Xn−X|>δ

|f(Xn)− f(X)|dP

≤ εP(|Xn −X| ≤ δ) + 2 supx∈R|f(X)| · P(|Xn −X| > δ)

Also gilt wegen XnP→ X , dass

lim supn→∞

|∫f(Xn)dP−

∫f(X)dP| ≤ ε

und damit ∫f(Xn)dP −→

n→∞

∫f(X)dP,

da ε beliebig gewählt wurde. Da aber∫f(Xn)dP −→

n→∞

∫f(X)dP ⇐⇒

(Transformationssatz)

∫fdPXn −→

n→∞

∫fdPX

ist hiermit alles gezeigt.

21

Page 28: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Bemerkung 1.33Die Implikationen aus Satz 1.32 sind im allgemeinen strikt, d.h., die Umkehrungen gelten allge-

mein nicht (vgl. dazu Übungsaufgaben 11 und 13). Ein Beispiel für XnD→ X , aber Xn

P9 X ist

gegeben durchXn(ω) = 1[0, 12

](ω), n ≥ 1 undX(ω) = 1( 12,1](ω) auf ([0, 1],B([0, 1]), UNI[0, 1]).

In dem Spezialfall, dass X ≡ xo P-fast sicher konstant ist, gilt jedoch:

XnP→ x0 ⇔ Xn

D→ X = x0

Beweis: siehe Bauer (1991) Beweis von Satz 5.1

Ein für die mathematische Statistik ungemein wichtiger Satz beschließe den technischen Teil die-

ses Paragraphen.

Satz 1.34 (Satz von Cramér-Slutsky (Slutzky))

Seien (Xn)n≥1 und (Yn)n≥1 zwei Folgen von Zufallsvariablen auf einem gemeinsamen Wahr-

scheinlichkeitsraum (Ω,A,P) mit Werten in (R,B(R)). Sei X : (Ω,A,P) → (R,B(R)) eine

weitere Zufallsvariable.

a) XnD→ X ∧ |Xn − Yn|

P→ 0⇒ YnD→ X

b) Sei c ∈ R. XnD→ X ∧ Yn

D→ c⇒

(i) Xn + Yn

D→ X + c

(ii) XnYnD→ cX

Beweis:

zu a) Sei f ∈ Cb(R) mit Lipschitz-Konstante K. Dann ist

|f(x)− f(y)| ≤ K|x− y| ∧ 2 supu∈R|f(u)|∀x, y ∈ R

Der Satz von der majorisierten Konvergenz liefert:

lim supn→∞

E [|f(Xn)− f(Yn)|] = 0

Also ergibt sich:

lim sup n→∞|E [f(Yn)]− E [f(X)] |

≤ lim supn→∞

|E [f(X)]− E [f(Xn)] |+ lim supn→∞

|E [f(Xn)− f(Yn)] |

= 0

zu b) (i) Definiere Zn := Xn + c und Zn := Xn + Yn. Dann gilt ZnD→ X + c und

|Zn − Zn|P→ 0. Also kann a) angewendet werden.

22

Page 29: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(ii) Theorem 2.3.3 in Lehmann (1999); Beweis in Bickel and Doksum (1977) bzw. Cramér

(1946).

“Stillschweigend” benutzen wir dabei den folgenden Satz.

Satz 1.35 (Continous Mapping Theorem)

h : R→ R messbar und stetig⇒ [XnD→ X ⇒ h(Xn)

D→ h(X)].

Wir kommen nun zu Anwendungen der Konvergenztheorie für Folgen von Zufallsvariablen.

Satz 1.36 (Kolmogoroffsches 0− 1 Gesetz)

Sei (Xn)n∈N eine Folge stochastisch unabhängiger Zufallsvariablen auf einem gemeinsamen Wahr-

scheinlichkeitsraum (Ω,A,P) mit beliebigen Wertebereichen. Dann gilt für jedes terminale (bzw.

asymptotische) Ereignis, d.h., für jedes Ereignis A ∈⋂∞n=1 σ(Xm : m > n) entweder P(A) =

0 oder P(A) = 1.

Beweis: Sei (Ω′k,A′k) der Wertebereich von Xk, k ∈ N und seien n ∈ N und CK ∈ A′k,k = 1, . . . , n beliebig ausgewählt. Definiere C := X1 ∈ C1, . . . , Xn ∈ Cn. Dann ist

1(Xk)k≥1∈C =n∏k=1

1Ck(Xk)

stochastisch unabhängig von 1A.

Ferner erzeugt das System aller Mengen C die Produkt-σ-Algebra⊗

k≥1A′k und deswegen ist

(Xk)k≥1 ⊥ 1A. Insbesondere ist A als Element von⋂n≥1 σ(Xm : m > n) damit stochastisch

unabhängig von A = 1A = 1, d.h. P(A∩A) = P(A)P(A)⇒ P(A) = [P(A)]2. Die Gleichung

x = x2 hat aber nur die Lösungen 0 und 1.

Korollar 1.37Es sei (Xn)n≥1 eine Folge stochastisch unabhängiger, reellwertiger Zufallsvariablen auf einem

gemeinsamen Wahrscheinlichkeitsraum (Ω,A,P). Dann sind lim infn→∞Xn, lim supn→∞Xn,

sowie die Cesàro-Limiten lim infn→∞ n−1∑n

i=1Xi und lim supn→∞ n−1∑n

i=1Xi allesamt

P-fast sicher konstant.

Beweis: Korollar 2.39 in Klenke (2008).

Satz 1.38 (Lemma von Borel-Cantelli)

Sei (Ak)k≥1 eine Folge von Ereignissen in einem gemeinsamen Wahrscheinlichkeitsraum (Ω,A,P)

und A := lim supk→∞Ak = ω ∈ Ω : ω ∈ Ak für unendlich viele k.

(a) Ist∑

k≥1 P(Ak) <∞, so ist P(A) = 0.

(b) Ist∑

k≥1 P(Ak) =∞ und sind alle (Ak)k≥1 stochastisch unabhängig, so ist P(A) = 1.

23

Page 30: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beweis:

zu (a): Es ist

A ⊆⋃k≥m

Ak und daher P(A) ≤∑k≥m

P(Ak)∀m ∈ N

Falls ∑k≥1

P(Ak) <∞⇒ limm→∞

∑k≥m

P(Ak) = 0⇒ P(A) = 0

zu (b):

AC =⋃m≥1

⋂k≥m

ACk ⇒

P(AC) ≤∑m≥1

P(⋂k≥m

ACk ) =∑m≥1

limn→∞

P(n⋂

k=m

ACk )

stoch. Unabh.=

∑m≥1

limn→∞

n∏k=m

(1− P(Ak))

1−x≤exp(−x)∀x∈[0,1]

≤∑m≥1

limn→∞

exp(−n∑

k=m

P(Ak))

=∑m≥1

0 = 0.

Eine zentrale Fragestellung in der (mathematischen) Statistik lautet: ”Unter welchen Vorausset-

zungen konzentriert sich der arithmetische Mittelwert (das empirische Mittel) einer Folge (Xn)n≥1

von Zufallsvariablen “hinreichend gut” um die theoretischen Mittelwerte E [Xn] für n→∞ ? “.

Die Beantwortung dieser Frage ist zentral zur Beurteilung der Qualität von Schätz- und Test-

verfahren. Das einfachste Beispiel ist vermutlich ein Bernoullisches Versuchsschema. Kann die

Trefferwahrscheinlichkeit p aus einer ”langen“ Messreihe ”gut“ inferiert werden?

Wahrscheinlichkeitstheoretisch wird dieser Problemkreis mit den Gesetzen der großen Zahlen be-

arbeitet.

Satz 1.39 (Gesetze der großen Zahlen)

Es sei (Xn)n≥1 eine Folge von integrierbaren, reellwertigen Zufallsvariablen auf einem gemein-

samen Wahrscheinlichkeitsraum (Ω,A,P). Sei

Sn :=

n∑i=1

(Xi − E [Xi]).

Wir sagen, dass (Xn)n≥1 dem schwachen bzw. starken Gesetz der großen Zahlen genügt, falls

n−1SnP−→ 0 bzw. n−1Sn

P−f.s.−→ 0.

24

Page 31: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(a) (Xn) genügt dem schwachen Gesetz der großen Zahlen, falls die (Xn)n∈N paarweise unkor-

reliert sind und

limn→∞

n−2n∑i=1

Var (Xi) = 0

gilt.

(b) (Xn) genügt dem starken Gesetz der großen Zahlen, falls die (Xn)n∈N identisch verteilt und

paarweise stochastisch unabhängig sind.

Beweis:

zu (a): Offenbar gilt ∀n ∈ N : Xn ∈ L2(Ω,A,P). Ferner ist E [Sn] = 0 und Var (Sn) =∑ni=1 Var (Xi) (nach Bienaymé) für alle n ∈ N.

Also ist Var(n−1Sn

)= n−2

∑ni=1 Var (Xi) =: σ2

n.

Nach Tschebyscheffscher Ungleichung folgt:

∀ε > 0 : P(|n−1Sn| ≥ ε) ≤ ε−2σ2n

Die Bedingung σ2n −→n→∞ 0 impliziert die P-stochastische Konvergenz von n−1Sn.

zu (b): Etemadi (1981) benutzt das Lemma von Borel Cantelli 1.38, den Satz von der monotonen

Konvergenz und eine Abschneidetechnik die ähnlich auch beim Zentralen Grenzwertsatz

in der Version von Lindeberg/Feller (siehe unten) gebraucht wird.

Satz 1.40 (Zentraler Grenzwertsatz)

Sei (Xn)n≥1 eine Folge (reellwertiger) stochastisch unabhängiger Zufallsvariablen inL2(Ω,A,P).

o.B.d.A. sei E [Xk] = 0∀k ∈ N.

Es sei σ2k := Var (Xk) = E

[X2k

]> 0∀k ∈ N. Sei Sn :=

∑nj=1Xj .

Beachte: Var (Sn) =∑n

k=1 σ2k.

Wir sagen, dass für die Folge (Xn)n≥1 ein Zentraler Grenzwertsatz gilt, falls

L(Sn√

Var (Sn))

w−→n→∞

N (0, 1).

Die folgenden drei Bedingungen sind jeweils hinreichend dafür, dass ein Zentraler Grenzwertsatz

für (Xn)n≥1 gilt:

(i) Alle Xk, k ∈ N haben dieselbe Verteilung

(ii) Ljapunov-Bedingung:

∃ δ > 0 : αk := E[|X2+δ

k |]<∞∀k ∈ N und

n∑i=1

αi = o((Var (Sn))2+δ2 )

⇔ limn→∞

(Var (Sn))−2+δ2

n∑j=1

E[|Xj |2+δ

]= 0

25

Page 32: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(iii) Lindeberg-Bedingung:

∀ε > 0 : [Var (Sn)]−1n∑j=1

∫|y|≥ε

√Var(Sn)

y2Fj(dy) −→(n→∞)

0,

wobei Fj(x) = P(Xj ≤ x), j ∈ N.

Bemerkung 1.41

a) (i)⇒ (ii)⇒ (iii)

b) Die Lindeberg-Bedingung stellt sicher, dass die individuellen Varianzen der Xk klein sind im

Vergleich zu ihrer Summe, denn (iii) impliziert, dass für gegebenes δ > 0 ein N(δ) existiert

mit der Eigenschaft

∀n > N(δ) :σk√

Var (Sn)< δ∀k = 1, . . . , n.

c) (i) ⇒ (iii) ist leicht einzusehen. Ist (Xn)n≥1 iid. verteilt, so ist Var (Sn) = nσ2 (mit σ2 =

Var (X1) und die linke Seite der Lindeberg-Bedingung wird zu σ−2∫|y|≥ε

√nσ y

2F (dy)

(mit F (X) = P(X1 ≤ x)).

Da X1 ∈ L2(Ω,A,P) ist und der Integrationsweg für n → ∞ verschwindet, folgt die Gültig-

keit der Lindeberg-Bedingung.

Beweis von Satz 1.40.

Beweis unter (i):

Sei ϕ die charakteristische Funktion von X1σ . Wir müssen zeigen, dass

L(n∑j=1

Xj/(√nσ))

w−→n→∞

N (0, 1).

Für fixes n ist die charakteristische Funktion von∑n

j=1Xj/(√nσ) gegeben durch t 7→ ϕn( t√

n).

Es bleibt nach Levy’schem Stetigkeitssatz (Satz 1.31) zu zeigen:

limn→∞

ϕn(t√n

)→ exp(− t2

2) punktweise ∀t ∈ R.

Da X1 ∈ L2(Ω,A,P), ist ϕ nach Satz 1.25 zweimal stetig differenzierbar und da E [X1] = 0 =ddtϕ(t)|t=0 und E

[(X1σ )2

]= 1 = − d2

dt2ϕ(t)|t=0, gilt die Taylorentwicklung um 0:

ϕ(t√n

) = 1 + 0− t2

2n+ o(n−1).

Damit ist limn→∞

ϕn(t√n

) = limn→∞

(1− t2

2n)n

= exp(− t2

2), da ∀x ∈ R : lim

n→∞(1 +

x

n)n = exp(x).

26

Page 33: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Der Beweis unter (iii), der die Aussage unter (ii) impliziert, wird ähnlich geführt und findet sich

in Feller (1971), Theorem 1 in Abschnitt XV.6.

Zur Gewinnung von präzisen Aussagen in der Statistik ist es überdies nützlich, dass unter der

Annahme der Existenz dritter Momente auch die (asymptotische) Größenordnung der Differenz

der Verteilungsfunktion der standardisierten Summenstatistik und Φ (der Verteilungsfunktion von

N (0, 1)) angegeben werden kann.

Satz 1.42 (Satz von Berry und Esséen)

Unter den Voraussetzungen von Satz 1.40 sei Fn die Verteilungsfunktion von Sn/√

Var (Sn), n ∈N. Dann gilt

supx∈R|Fn(x)− Φ(x)| ≤ 6

(Var (Sn))32

n∑j=1

E[|Xi|3

].

Sind (Xn)n≥1 iid. verteilt, so ergibt sich

supx∈R|Fn(X)− Φ(x)| ≤ 6

√n(Var (X1))

32

E[|X1|3

]∼ 1√

n.

Beweis: Satz 4.2.10 in Gaenssler and Stute (1977)

Zum Abschluss dieses Paragraphen nun noch der sogannte ”Hauptsatz der Statistik“.

Satz 1.43 (Glivenko-Cantelli)

Sei ((Xn1, . . . , Xnn))n∈N ein Dreiecksschema von zeilenweise stochastisch unabängigen Zufalls-

variablen auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω,A,P). Für jedes n ∈ N seien also

Xn1, . . . , Xnn stochastisch unabhängig mit zugehörigen Verteilungsfunktionen Fn1, . . . , Fnn. Be-

zeichne Fn = n−1∑n

i=1 Fni, n ∈ N.

Für jedes n ∈ N sei Gn : R→ [0, 1], definiert durch Gn(t) = n−1∑n

i=1 1(−∞,t](Xni), t ∈ R die

empirische Verteilungsfunktion von (Xnj)j=1,...,n.

Dann gilt:

supt∈R|Gn(t)− Fn(t)| P−f.s.−→ 0 für n→∞

Ist insbesondere (Xn)n≥1 eine Folge von Zufallsvariablen auf (Ω,A,P), iid verteilt mit Vertei-

lungsfunktion F (t) = P(X1 ≤ t), t ∈ R, so gilt:

supt∈R|Gn(t)− F (t)| P−f.s.−→ 0 für n→∞.

Beweis: Theorem 3.2.1 in Shorack and Wellner (1986)

Bemerkung 1.44Für jedes fixe t ∈ R folgt die (punktweise) P-fast sichere Konvergenz bereits aus dem starken

Gesetz der großen Zahlen, falls die (Xni)i=1,...,n iid sind.

Der allgemeine Fall wird bewiesen unter Anwendung des Prinzips der Quantilstransformation und

des Lemmas von Borel-Cantelli 1.38.

27

Page 34: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Kapitel 2

Entscheidungstheorie

2.1 Entscheiden unter Unsicherheit

Beim Übergang von der Wahrscheinlichkeitstheorie zur mathematischen Statistik sind zwei wich-

tige Änderungen zu „verkraften“:

(1) Die Modellbildung erfolgt typischerweise auf dem „Ausgaberaum“ (Wertebereich) von Zu-

fallsgrößen, nicht auf deren Definitionsbereich („Grundraum“).

(2) Statt eine einzige „richtige“ Wahrscheinlichkeitsverteilung für die Zufallsgröße X aus dem

Grundraum (Ω,F ,P) herzuleiten, wird eine Familie von indizierten Wahrscheinlichkeits-

maßen (Pϑ)ϑ∈Θ betrachtet und es wird zu ermitteln versucht, für welches ϑ das Maß Pϑ die

(unbekannte oder nur teilweise bekannte) Verteilung von X gemäß gewisser Kriterien am

besten / hinreichend gut beschreibt oder für welche ϑ die Verteilung Pϑ „kompatibel“ mit

Realisierungen x von X (Beobachtungen, Stichproben) ist.

Wir werden etwas konkreter: In der Wahrscheinlichkeitstheorie ist das grundlegende Objekt der

Wahrscheinlichkeitsraum (Ω,F ,P). Zufallsvariablen sind messbare Abbildungen X : Ω → Ω′.

Typischerweise berechnet man L(X) ≡ PX = P X−1, ein Wahrscheinlichkeitsmaß auf Ω′,

genannt die „Verteilung von X“.

Veranschaulichen wir uns dies durch ein elementares Beispiel, das des doppelten Würfelwurfs.

Hier ist Ω = 1, . . . , 62, F = 2Ω und P = (UNI1, . . . , 6)2. Sei X : Ω → 2, . . . , 12 = Ω′

die Augensumme. Dann ist für j ∈ Ω′

PX(j) = P(X = j) = P(ω ∈ Ω : X(ω) = j),

z. B. PX(7) = P(X = 7) = P((1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)) = 6/36 = 1/6.

In der Statistik lautet die Aufgabe nun indes, Rückschlüsse (Inferenz) auf P bzw. PX nur aufgrund

von Beobachtungen X = x zu machen. Zum Beispiel könnte man sich die Frage stellen, ob die

28

Page 35: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

beiden Würfel tatsächlich „fair“ sind und dazu das obige Experiment oft wiederholen und die

Ausgänge in einer Strichliste festhalten.

Bezeichne daher formal X eine Zufallsgröße, die den möglichen Ausgang eines Experimentes

beschreibt.1 Da man die statistischen Schlüsse über ϑ nur vermittels der Stichprobe X = x zieht,

liegt es nahe, den Bildraum von X nunmehr zum grundlegenden Objekt zu machen. Sei also von

nun an Ω der zu X gehörige Stichprobenraum, d. h., die Menge aller möglichen Realisierungen

von X und F ⊆ 2Ω eine σ-Algebra über Ω. Die Elemente von F heißen messbare Teilmengen

von Ω oder Ereignisse.

Bezeichne PX die Verteilung von X . Es gelte PX ∈ P = Pϑ : ϑ ∈ Θ. Der Wert ϑ kann als der

unbekannte und unbeobachtbare Zustand der Natur interpretiert werden.

Definition 2.1 (Statistisches Experiment / Modell)

Ein Tripel (Ω,F ,P) mit Ω 6= ∅ eine nichtleere Menge, F ⊆ 2Ω eine σ-Algebra über Ω und P =

Pϑ : ϑ ∈ Θ eine Familie von Wahrscheinlichkeitsmaßen auf F heißt statistisches Experiment

bzw. statistisches Modell.

Falls Θ ⊆ Rk, k ∈ N, so heißt (Ω,F ,P) parametrisches statistisches Modell, ϑ ∈ Θ Parameter

und Θ Parameterraum.

Appell: Obschon der eigentliche „Grundraum“ (der Definitionsbereich von X , die “Zielpopulati-

on“ ) in der zentralen Definition 2.1 nicht mehr explizit auftaucht und auch nur an einigen wenigen

Stellen im Skript für mathematische Zwecke gebraucht (und dann mit Ω−1 bezeichnet) wird, so

sollte man sich insbesondere in der Praxis doch stets und ständig auch über Ω−1 im Klaren sein

(“Repräsentativität “ ) !

Beispiel 2.2

a) In einem großen industriellen Produktionsprozess interessiert der Ausschussanteil, d.h., der

Anteil fehlerhafter Produktionstücke. Es wird zu diesem Zweck eine Stichprobe vom Umfang

n zufällig aus den gefertigen Produktionsstücken entnommen. Die Zahl n ∈ N ist von der

Geschäftsführung vorgegeben worden. Ihr wird nach Beendigung dieser Qualitätsprüfung mit-

geteilt, wie viele der n geprüften Teile sich als Ausschuss erwiesen haben.

Ω = 0, . . . , n,F = 2Ω (Potenzmenge), (Pϑ)ϑ∈Θ = (Bin(n, p))0≤p≤1,Θ = [0, 1] 3 p = ϑ.

b) Man nehme an, das Merkmal “Intelligenzquotient” sei in einer Zielpopulation (z.B der Bevöl-

kerung Frankreichs) normalverteilt. Man ist aus demoskopischen Gründen an Erwartungswert

und Varianz dieser Normalverteilung interessiert. Dazu führen n zufällig ausgewählte Ein-

wohnerInnen Frankreichs einen Intelligenztest unabhängig voneinander unter standardisier-

ten, kontrollierten Bedingungen durch. Für jede(n) TeilnehmerIn ergibt sich daraus ein Wert

1Witting (1985): „Wir denken uns das gesamte Datenmaterial zu einer „Beobachtung“ x zusammengefasst.“

29

Page 36: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

ihres/seines Intelligenzquotienten.

Ω = Rn,F = B(Rn),Θ = R× R≥0, ϑ = (µ, σ2), (Pϑ)ϑ∈Θ = ((N (µ, σ2))n)(µ,σ2)∈Θ.

Kritikpunkte: Der IQ kann weder negativ noch unendlich groß werden, noch kann jeder Wert

aus einem Intervall angenommen werden, da die Berechnungsformel nur auf rationalen Zahlen

basiert.

Hier ist das statistische Modell also nur eine näherungsweise Beschreibung des tatsächlichen

Vorgangs in der Natur! Allgemein ist jedes Modell (nur) eine Abstraktion der Wirklichkeit.

c) In einem landwirtschaftlichen Forschungsinstitut werden k unterschiedliche Weizensorten auf

jeweils n Feldstücken angebaut. Man ist an Unterschieden im mittleren Ertrag der Sorten inter-

essiert. Dazu nimmt man an, alle (k mal n) Ertragsmessungen seien stochastisch unabhängig

und jeweils normalverteilt mit einem Sorten-spezifischen Mittelwert µi, 1 ≤ i ≤ k. Die Va-

riabilität der Messungen sei rein technisch bedingt und daher bei allen (k mal n) Messungen

identisch sowie bekannt. Ein etwaiger “Feldeffekt” auf den Ertrag existiere nicht bzw. sei von

vernachlässigbarer Größenordnung.

Ω = Rn·k, F = B(Rn·k), Θ = Rk, ϑ = (µ1, . . . , µk)T =: ~µ

(Pϑ)ϑ∈Θ =

n⊗i=1

Nk(~µ, σ2 · Ik), σ2 > 0 bekannt

= Nn·k

~µ...

, σ2Ink

.Die Messwerte werden hier typischerweise in Matrixform vorliegen.

Statistische Inferenz beschäftigt sich damit, Aussagen über die wahre Verteilung PX bzw. den

wahren Parameter ϑ zu gewinnen. Speziell formalisieren wir dies durch Entscheidungsprobleme.

Definition 2.3Es sei (Ω,F , (Pϑ)ϑ∈Θ) ein statistisches Modell. Eine Entscheidungsregel ist eine messbare Ab-

bildung δ : (Ω,F) → (A,A). Der Messraum (A,A) heißt Aktionsraum. Jede Funktion L :

Θ × A → R≥0, die messbar im zweiten Argument ist, heißt eine Verlustfunktion. Das Tupel

(Ω,F , (Pϑ)ϑ∈Θ, A,A, L) heißt ein statistisches Entscheidungsproblem.

Das Risiko einer Entscheidungsregel δ bei Vorliegen des Parameters ϑ ist der (unter ϑ) erwartete

Verlust von δ, also

R(ϑ, δ) := Eϑ[L(ϑ, δ)

]=

∫ΩL(ϑ, δ(x))Pϑ(dx).

30

Page 37: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 2.4

(a) Punktschätzung:

Sei (Ω,F , (Pϑ)ϑ∈Θ) = (Rn,B(Rn), ((N (ϑ, 1))n)ϑ∈Θ=R).

Unsere Aufgabe sei, einen rellen Wert ϑ = ϑ(x) anzugeben, der den unbekannten Parameter

ϑ aus der Realisierung x = (x1, . . . , xn) “möglichst präzise schätzt.”

Wir formalisieren dies als statistisches Entscheidungsproblem, indem wir zu (Ω,F , (Pϑ)ϑ∈Θ)

den Aktionsraum (A,A) = (R,B(R)) sowie den quadratischen Verlust L(ϑ, a) = (ϑ −a)2, a ∈ A = R, hinzufügen. Betrachten wir nun speziell ϑ(x) = xn = n−1

∑nj=1 xj , so

errechnen wir

R(ϑ, ϑ) = Eϑ[(ϑ− Xn)2

]= Eϑ

[ϑ2 − 2ϑXn + X2

n

]= ϑ2 − 2ϑ2 + (ϑ2 +

1

n) =

1

n,

da Eϑ[X2n

]= (Eϑ

[Xn

])2 + Varϑ

(Xn

)ist und Varϑ

(Xn

)= n−2

∑nj=1 Varϑ (Xj) = 1/n

gilt.

(b) Hypothesentest:

Unter dem Modell aus (a) möchten wir entscheiden, ob ϑ in einem vorgebenen Teilbereich

Θ0 ⊂ R liegt oder in Θ1 := R \Θ0 (sowohl Θ0 als auch Θ1 seien nicht-leer).

Der Aktionsraum besteht hier nur aus zwei Elementen, A = a0, a1. O.B.d.A. kann also

(A,A) = (0, 1, 20,1) gewählt werden. Eine sinnvolle Verlustfunktion ist gegeben durch:

L(ϑ, a) = `1 1a=1,ϑ∈Θ0 + `2 1a=0,ϑ∈Θ1

für nicht-negative reelle Konstanten `1 und `2.

⇒ R(ϑ, δ) =

`1Pϑ(δ(x) = 1), falls ϑ ∈ Θ0,

`2Pϑ(δ(x) = 0), falls ϑ ∈ Θ1.

Die sogenannte “Typ-I-Fehlerwahrscheinlichkeit” wird also mit `1 und die sogenannte “Typ-

II-Fehlerwahrscheinlichkeit” mit `2 gewichtet. Es ist auch möglich, `1 = `1(ϑ) und `2 =

`2(ϑ) vom Wert des Parameters abhängig zu machen, um “schwere” Fehlentscheidungen stär-

ker zu “bestrafen”.

Um eine Entscheidungsregel auszuwählen bedarf es nun Vergleichskriterien zwischen kon-

kurrierenden Entscheidungsregeln. Da das Risiko vom unbekannten Parameter abhängt, kann

eine lokal (auf Θ∗ ⊂ Θ) “gute” Entscheidungsregel in Bereichen außerhalb von Θ∗ durchaus

sehr schlechte Eigenschaften haben.

31

Page 38: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Definition 2.5Es sei (Ω,F , (Pϑ)ϑ∈Θ, A,A, L) ein statistisches Entscheidungsproblem. Ferner seiM eine Men-

ge (konkurrierender) Entscheidungsregeln, also eine Menge von Abbildungen von Ω nach (A,A).

a) Die Entscheidungsregel δ1 heißt besser als die Entscheidungsregel δ2, falls ∀ϑ ∈ Θ:

R(ϑ, δ1) ≤ R(ϑ, δ2) gilt und falls ein ϑ0 ∈ Θ existiert mit R(ϑ0, δ1) < R(ϑ0, δ2). Eine Ent-

scheidungsregel δ∗ ∈M heißt zulässig inM, wenn es inM keine bessere Entscheidungsregel

gibt.

b) δ∗ ∈M heißt gleichmäßig beste Entscheidungsregel inM, falls

∀ϑ ∈ Θ : ∀δ ∈M : R(ϑ, δ) ≥ R(ϑ, δ∗).

c) Eine Entscheidungsregel δ∗ heißt minimax inM, falls

supϑ∈Θ

R(ϑ, δ∗) = infδ∈M

supϑ∈Θ

R(ϑ, δ).

d) Der Parameterraum Θ trage die σ-Algebra FΘ, die Verlustfunktion L sei produktmessbar und

ϑ 7→ Pϑ(B) sei messbar für alle B ∈ F .

Sei π ein Wahrscheinlichkeitsmaß auf (Θ,FΘ), dass die Unsicherheit über den Parameter vor

Experimentbeginn ausdrückt (a priori-Verteilung von ϑ). Das mit π assoziierte Bayesrisiko von

δ ∈M ist gegeben durch

Rπ(δ) := Eπ[R(θ, δ)

]:=

∫ΘR(ϑ, δ)π(dϑ)

=

∫Θ

∫ΩL(ϑ, δ(x))Pϑ(dx)π(dϑ).

δ∗ ∈M heißt Bayesregel oder Bayes-optimal inM (bezüglich π), falls

Rπ(δ∗) = infδ∈M

Rπ(δ).

Bemerkung 2.6

(1) Das Bayesrisiko kann auch als insgesamt zu erwartender Verlust interpretiert werden. Be-

trachte dazu den Messraum (Ω × Θ,F ⊗ FΘ) und das Wahrscheinlichkeitsmaß P auf

(Ω × Θ,F ⊗ FΘ), definiert durch P(dx, dϑ) = Pϑ(dx)π(dϑ) (die gemeinsame Verteilung

von Beobachtung und Parameter).

Bezeichnen wir mit X und θ die Koordinatenprojektionen von Ω × Θ auf Ω bzw. Θ, so gilt

damit

Rπ(δ) = EP[L(θ, δ(X))

].

32

Page 39: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(2) Die (existierende und P-fast sicher eindeutige) reguläre bedingte Verteilung von θ bezüglichX

(in Zeichen: Pθ|X=·) heißt a posteriori-Verteilung des Parameters gegeben die Beobachtung

X = x (vgl. hierzu Definition 1.7).

(3) Ist ∀ϑ ∈ Θ das Maß Pϑ absolutstetig bezüglich µ und π absolutstetig bezüglich ν mit Dichten

fX|θ=ϑ bzw. fθ und ist ferner fX|θ : Ω × Θ → R≥0 (F ⊗ FΘ)-messbar, so besitzt die a

posteriori-Verteilung Pθ|X=x des Parameters eine ν-Dichte, und zwar

fθ|X=x(ϑ) =fθ(ϑ) · fX|θ=ϑ(x)∫

Θ fX|θ=ϑ(x)fθ(ϑ)ν(dϑ)

(Bayesformel für Dichten, vgl. Erinnerung 1.1).

(4) Erhalten wir bei Wahl einer parametrischen Klasse von a priori-Verteilungen für ein statisti-

sches Modell dieselbe Klasse (nur mit “upgedateten” Parametern) als a posteriori-Verteilungen

zurück, so nennt man die entsprechenden Verteilungsklassen konjugiert.

Für komplexere Modelle ohne konjugierte Verteilungsklassen ist die Berechnung von a

posteriori-Verteilungen in der Regel nur numerisch möglich; es kommen dabei sogenannte

Markov Chain Monte Carlo (MCMC)-Algorithmen zum Einsatz. In der Praxis sind Bayesia-

nische Methoden sehr beliebt.

Beispiel 2.7

(a) Unter dem statistischen Modell aus Beispiel 2.4(a) (Normalverteilungen mit unbekanntem Er-

wartungswert ϑ und bekannter Varianz σ2 = 1, n-faches Produktexperiment) greifen wir das

statistische Entscheidungsproblem (Rn,B(Rn), ((N (ϑ, 1))n)ϑ∈R,R,B(R), L) der Punktschät-

zung mit L(ϑ, a) = (ϑ− a)2 wieder auf und betrachten die drei Entscheidungsregeln

ϑ1(x) = n−1n∑i=1

xi =: xn,

ϑ2(x) = xn + 1/2 und

ϑ3(x) ≡ 17.

WegenR(ϑ, ϑ1) = 1/n < 1/n+1/4 = R(ϑ, ϑ2) ist ϑ1 besser als ϑ2 und ϑ2 damit unzulässig.

Allerdings ist weder ϑ1 besser als ϑ3 noch umgekehrt. ϑ3 ist zulässig, da R(ϑ, ϑ3) = 0 für

ϑ = 17 und L nicht-negativ ist. In Abschnitt 2.2 werden wir sehen, dass auch ϑ1 zulässig ist.

(b) Unter den generellen Gegebenheiten von Beispiel 2.4(b) (Hypothesentest) seien sowohl Θ0 als

auch Θ1 jeweils einelementig (“einfach”), also Θ = ϑ0, ϑ1. Damit ist eine jede a priori-

Verteilung π durch die Angabe von π0 := π(ϑ0) und π1 := π(ϑ1) festgelegt. Die Wahr-

scheinlichkeitsmaße Pϑ0 und Pϑ1 mögen Dichten fX|θ=ϑ0 =: p0 und fX|θ=ϑ1 =: p1 bezüglich

eines Maßes µ (z.B. µ = P0 + P1) besitzen. π besitzt offensichtlich eine Zähldichte.

33

Page 40: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Erinnerung 2.8 (Absolutstetigkeit)

(Ω,F) ein Messraum, Pϑ und µ zwei Maße auf (Ω,F).

Pϑ ist absolutstetig bezüglich µ :⇔ µ(B) = 0⇒ Pϑ(B) = 0.

Also:

Pϑ absolutstetig bezüglich µ ⇔ N : N Nullmenge bzgl. Pϑ ⊇ N : N Nullmenge bzgl. µ.

Satz von Radon-Nikodym:

Pϑ absolutstetig bezüglich µ⇔ Pϑ besitzt eine µ-Dichte.

Beweis von “⇐” durch Widerspruch:

Falls Pϑ nicht absolutstetig bezüglich µ ist, so ∃N ∈ F : N Nullmenge von µ, aber nicht Null-

menge von Pϑ⇒ ∫Nfdµ = 0 6= Pϑ(N)

für alle als Dichte in Frage kommenden Funktionen f ⇒ Pϑ besitzt keine µ-Dichte.

Nach der Bayesformel ist die a posteriori-Verteilung festgelegt durch

P(θ = ϑj |X = x) =πjpj(x)∑1`=0 π`p`(x)

, j = 0, 1 (PX − fast überall).

Da das Minimax-Kriterium gegen den “worst case” bezüglich des Parameters absichert, ist es

strikter als ein Bayes-Kriterium. Formal heißt das:

Satz 2.9Vorraussetzungen wie unter Definition 2.5

(a) Für jede Entscheidungsregel δ gilt

supϑ∈Θ

R(ϑ, δ) = supπ∈Π

Rπ(δ),

wobei Π die Menge aller a priori Verteilungen bezeichnet. Insbesondere ist das Minimaxrisiko

nicht kleiner als das Risiko der mit einem π ∈ Π assoziierten Bayesregel.

(b) Für eine Minimaxregel δ∗ ∈M gilt

supπ∈Π

Rπ(δ∗) = infδ∈M

supπ∈Π

RΠ(δ).

Beweis: zu (a): Nach Rechteckregel gilt ∀π ∈ Π:

Rπ(δ) =

∫ΘR(ϑ, δ)π(dϑ) ≤ sup

ϑ∈ΘR(ϑ, δ)

Die Behauptung folgt durch Betrachten der speziellen a priori-Verteilungen εϑ, ϑ ∈ Θ.

34

Page 41: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

zu (b): Nach Teil (a) ist:

infδ∈M

supπ∈Π

Rπ(δ) = infδ∈M

supϑ∈Θ

R(ϑ, δ) und supπ∈Π

Rπ(δ∗) = supϑ∈Θ

R(ϑ, δ∗).

Satz 2.10Vorraussetzungen wie unter 2.9.

(a) Ist δ∗ minimax in M und eindeutig in dem Sinn, dass jede andere Minimaxregel in M die

gleiche Risikofunktion besitzt, so ist δ∗ zulässig.

(b) Ist δ∗ zulässig in M mit konstanter Risikofunktion, so ist δ∗ minimax in M .

(c) Ist δ∗ eine Bayesregel bezüglich π ∈ Π und eindeutig in dem Sinne, dass jede andere Bayes-

regel bezüglich π die gleiche Risikofunktion besitzt, so ist δ∗ zulässig.

Beweis: Übung.

Satz 2.11 (Kriterium für Bayes-Optimalität)

Eine Regel δ∗ ist Bayes-optimal, falls δ∗(X) = argmina∈A

EP[L(θ, a)|X

]P− f.s., d.h.

EP[L(θ, δ∗(x))|X = x

]≤ EP

[L(θ, a)|X = x

]∀a ∈ A und für PX -fast alle x ∈ Ω.

Beweis: Sei δ eine beliebige Entscheidungsregel. Dann ist

Rπ(δ) = EP[EP[L(θ, δ(X))|X

]]≥ EP

[EP[L(θ, δ∗(X))|X

]]= Rπ(δ∗).

Korollar 2.12Sei das statistische Entscheidungsproblem (Schätzproblem) (Ω,F , (Pϑ)ϑ∈Θ⊆R,R,B(R), L) gege-

ben.

(a) FürL(ϑ, a) = (ϑ−a)2 ist die bedingte Erwartung EP[θ|X

](also der a posteriori-Mittelwert)

Bayes- optimaler Schätzer von ϑ bezüglich der a priori-Verteilung π.

(b) Für L(ϑ, a) = |ϑ− a| ist jeder a posteriori-Median, d.h. jedes ϑπ mit P(θ ≤ ϑπ|X) ≥ 12 und

P(θ ≥ ϑπ|X) ≥ 12 Bayes-optimaler Schätzer (falls die a posteriori-Verteilung existiert).

Beweis: L2-Projektionseigenschaft der bedingten Erwartung, L1-Minimierungseigenschaft des

(eines) Medians.

35

Page 42: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 2.13 (Fortsetzung von 2.7(b))

Nach Satz 2.11 muss die Minimalstelle von EP[L(θ, a)|X = x

]bestimmt werden, um die optimale

Entscheidungsregel zu finden. Der Parameterraum Θ = ϑ0, ϑ1 ist diskret, also ist

EP[L(θ, a)|X = x

]=

1∑j=0

L(ϑj , a)P(θ = ϑj |X = x)

= L(ϑ0, a) · P(θ = ϑ0|X = x) + L(ϑ1, a) · P(θ = ϑ1|X = x)

=`1 · a · π0p0(x) + `2(1− a)π1p1(x)

π0p0(x) + π1p1(x)

Der Nenner ist offenbar unabhängig von a. Die Minimierung des Zählers bezüglich a ∈ 0, 1 er-

folgt durch a = 0, falls `1π0p0(x) > `2π1p1(x) ist und durch a = 1, falls

`2π1p1(x) > `1π0p0(x) ist. Also folgt:

δ∗(x) =

0, falls `1π0p0(x) > `2π1p1(x)

1, falls `2π1p1 > `1π0p0(x)

beliebig, falls `2π1p1(x) = `1π0p0(x)

ist Bayes-Klassifikator (Bayestest) für das Problem 2.7(b).

Ist speziell `1 = `2 gewählt, so heißt das ϑj , für welches wir uns entscheiden, „maximum a

posteriori (MAP)“-Schätzer.

Definition 2.14Eine Verteilung π∗ auf (Θ,FΘ) heißt ungünstigste a priori-Verteilung zu einem gegebenen statis-

tischen Entscheidungsproblem, falls

infδ∈M

Rπ∗(δ) = supπ∈Π

infδ∈M

Rπ(δ).

Schränken wir Π auf die Menge aller Einpunktmaße εϑ ein, so heißt ϑ∗ ungünstigste Parameter-

konfiguration, falls εϑ∗ ungünstigste a priori-Verteilung in der eingeschränkten Menge der Ein-

punktmaße ist.

Satz 2.15Zu einem statistischen Entscheidungsproblem seien eine a priori-Verteilung π∗ mit zugehöriger

Bayesregel δπ∗ ∈M gegeben.

Dann sind äquivalent:

(i) Rπ∗(δπ∗) = supϑ∈ΘR(ϑ, δπ∗) und

(ii) ∀π ∈ Π : ∀δ ∈M : Rπ(δπ∗) ≤ Rπ∗(δπ∗) ≤ Rπ∗(δ).Aus (i) bzw. (ii) folgen

(iii) δπ∗ ist minimax inM und

36

Page 43: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(iv) π∗ ist ungünstigste a priori-Verteilung.

Beweis: (ii)⇒ (i): Satz 2.9(a)⇒

supϑ∈Θ

R(ϑ, δπ∗) = supπ∈Π

Rπ(δπ∗).

Damit ergibt (ii), dass

Rπ∗(δπ∗) ≥ supϑ∈Θ

R(ϑ, δπ∗) und Rπ∗(δπ∗) ≤ supϑ∈Θ

R(ϑ, δπ∗).

(i)⇒ (ii):

δπ∗ ist Bayesregl⇒ Rπ∗(δπ∗) ≤ Rπ∗(δ) für alle δ ∈M. Eigenschaft (i) liefert zudem

Rπ(δπ∗) =

∫ΘR(ϑ, δπ∗)π(dϑ) ≤

∫ΘRπ∗(δπ∗)π(dϑ) = Rπ∗(δπ∗).

(ii)⇒(iii):

supϑ∈Θ

R(ϑ, δπ∗) = supπ∈Π

Rπ(δπ∗) = infδ∈M

Rπ∗(δ) = infδ∈M

supϑ∈Θ

R(ϑ, δ).

(ii)⇒ (iv):

infδ∈M

Rπ∗(δ) = supπ∈Π

Rπ(δπ∗) ≥ supπ∈Π

infδ∈M

Rπ(δ).

Beispiel 2.16 (Bayesianische Statistik im Binomial-Modell)

Sei (Ω,F , (Pϑ)ϑ∈Θ) = (0, . . . , n, 20,...,n, (Bin(n, p))p∈Θ=[0,1]), wobei n ≥ 1 fest vorgegeben

sei.

Gesucht: Bayes-Schätzer pa,b unter quadratischem Verlust, also L(p, a) = (p − a)2 und unter

π = Beta(a, b) als a priori-Verteilung.

Als a posteriori-Verteilung ergibt sich Beta(a + X, b + n − X), d.h. die Beobachtung X = x

führt zur a posteriori-Verteilung Beta(a+ x, b+ n− x) für den Parameter.

Übung⇒ pa,b(x) =a+X

a+ b+ n⇒ Ep

[(pa,b − p)2

]=a2 + p[n− 2a(a+ b)] + p2[(a+ b)2 − n]

(a+ b+ n)2.

Wählen wir speziell a∗ = b∗ =√n/2, so ist Ep

[(pa∗,b∗ − p)2

]= [4(1 +

√n)2]−1 unabhängig

von p ∈ [0, 1].

Damit ist pa∗,b∗(X) = (X +√n/2)/(n+

√n) minimax, denn:

(i)

Rπ∗(pa∗,b∗) = Eπ∗[R(θ, pa∗,b∗)

]= Eπ∗

[(4(1 +

√n)2)−1

]= [4(1 +

√n)2]−1

= R(p, pa∗,b∗) ∀p ∈ [0, 1].

37

Page 44: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(ii) Damit istRπ∗(pa∗,b∗) = supp∈[0,1]R(p, pa∗,b∗) und Satz 2.15 liefert die Minimax-Eigenschaft.

Ferner ist Beta(√n/2,

√n/2) ungünstigste a priori-Verteilung.

Anmerkung: Der natürliche Schätzer p = X/n ist also nicht minimax (aber zulässig).

Wir werden uns im Folgenden um Klassen M 3 δ bemühen, in denen es gleichmäßig beste

Verfahren gibt. Diese sind damit Standard in der Praxis.

2.2 Suffizienz und Vollständigkeit, Exponentialfamilien

In diesem Abschnitt beschäftigen wir uns mit Möglichkeiten, das Datenmaterial x (modelliert als

Realisierung vonX) so zu transformieren (in aller Regel: komprimieren, also zusammenzufassen),

dass dabei kein Informationsverlust geschieht; das heißt, dass die resultierenden transformierten

(komprimierten) Daten immer noch alle Information über ϑ ∈ Θ tragen, die in der Ausgangsbe-

obachtung X = x enthalten ist.

Definition 2.17 (Suffiziente Statistik)

Sei X eine Zufallsgröße mit Werten in (Ω,F) und (Ω,F , (Pϑ)ϑ∈Θ) ein statistisches Modell. Eine

Statistik S : (Ω,F) → (Ω′,F ′) heißt suffizient (für ϑ), falls für alle ϑ ∈ Θ eine Version der

regulären bedingten Verteilung von X bezüglich S existiert, die nicht von ϑ abhängt, d.h.

∃h : ∀ϑ ∈ Θ,∀B ∈ F : Eϑ[1B|S

]=: Pϑ(B|S) = h(B,S) Pϑ − f.s.

Statt h(B, s) schreiben wir E•[1B|S = s

]bzw. P•(B|S = s).

Beispiel 2.18

(a) Ein Laborassistent hat n Messprotokolle erhalten, und zwar in der Reihenfolge, in der die

Messungen durchgeführt wurden. Auf dem Weg in die EDV-Abteilung stößt er mit einer Kol-

legin zusammen und die n Protokollblätter fliegen dabei wild durcheinander. Er hebt sie auf

und ordnet sie nach der Größe des gemessenen Laborparameters an. Geht dabei Information

verloren?

Sei dazu ϑ der Laborparameter, X = (X1, . . . , Xn) mit X1, . . . , Xn iid. mit Lebesguedichte

fϑ für die Verteilung von X1. Das statistische Modell sei gegeben durch (Ω,F , (Pnϑ)ϑ∈Θ),

wobei Ω der zuX gehörige Stichprobenraum und Pϑ das durch fϑ induzierte Wahrscheinlich-

keitsmaß sind.

Die Aktion des Wiederaufsammelns und Ordnens der Laborblätter kann mathematisch be-

schrieben werden durch die Ordnungsstatistik X1:n, . . . , Xn:n, gegeben durch

X1:n := min1≤j≤n

Xj und X`+1:n := min(X1, . . . , Xn \ X1:n, . . . , X`:n), 1 ≤ ` ≤ n− 1.

38

Page 45: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Wegen der iid-Annahme und da Pnϑ(⋃i 6=jXi = Xj) = 0 ∀ϑ ∈ Θ gilt (stetige Verteilungen!),

ergibt sich ∀ϑ ∈ Θ : Pnϑ(X = x|(Xj:n)1≤j≤n = s) = 1/n!, falls (x1:n, . . . , xn:n) = s, und 0

sonst. Also ist die Ordnungsstatistik für Produktexperimente mit stetigen Verteilungsfamilien

suffizient und das Missgeschick des Assistenten hatte keinen Informationverlust zur Folge.

(b) Sei Ω ⊆ R und für alle ϑ ∈ Θ sei Pϑ eine nullsymmetrische Verteilung. Dann ist S, gegeben

durch S(x) = |x| suffizient, denn ∀ϑ ∈ Θ gilt:

Pϑ(X = x|S = s) =

1/2, falls |x| = s,

0, sonst.

(c) Sei (Ω,F , (Pϑ)ϑ∈Θ) = (Rn,B(Rn), ((UNI[0, ϑ])n)ϑ∈Θ=R≥0). Dann ist S, gegeben durch

S(x) = max1≤j≤n

xj , suffizient, denn nach Shorack and Wellner (1986) gilt für die gemeinsame

Dichte von Ordnungsstatistiken von n iid Zufallsvariablen, die jeweils die Dichte f besitzen,

dass (pp. 97-99, Shorack and Wellner (1986))

f(X1:n,...,Xn:n)(u1, . . . , un) = n!

n∏j=1

f(uj)1u1<u2<···<un.

Ferner berechnet sich die (Rand-) Dichte von max1≤j≤n

Xj = S wie folgt:

Pϑ(S ≤ s) = Pϑ(∀1 ≤ j ≤ n : Xj ≤ s) = [Fϑ(s)]n

⇒ fS(s) = n(Fϑ(s))n−1fϑ(s),

wobei Fϑ und fϑ die Verteilungsfunktion und die Lebesguedichte von UNI[0, ϑ] bezeichnen

mögen. Nach Erinnerung 1.1 (bedingte Dichten) erhalten wir damit

f(X1:n,...,Xn−1:n)|Xn:n=s(u) =n!∏n−1j=1 fϑ(uj)fϑ(s)

n(Fϑ(s))n−1fϑ(s)× 1u1<u2<···<un−1<s

= (n− 1)!n−1∏j=1

fϑ(uj) · 1uj<sFϑ(s)

· 1u1<u2<···<un−1

= (n− 1)!n−1∏j=1

ϑ−1 1[0,ϑ](uj) · 1[0,s](uj)

s/ϑ · 1[0,ϑ](s)1u1<u2<···<un−1

= (n− 1)!

n−1∏j=1

s−1 1[0,s](uj) · 1u1<u2<···<un−1 Pϑ − f.s.

Damit ist die bedingte Verteilung von (X1:n, . . . , Xn−1:n) gegeben Xn:n = s also die der

Ordnungstatistik des (n − 1)-fachen Produktmaßes der UNI[0, s]-Verteilung und damit ins-

besondere unabängig von ϑ.

39

Page 46: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Wenn man die Existenz von Dichten der Pϑ für alle ϑ ∈ Θ vorraussetzt, so gibt es ein bequemeres

Suffizienzkriterium.

Definition 2.19Ein statistisches Modell (Ω,F , (Pϑ)ϑ∈Θ) heißt dominiert (vom Maß µ), falls es ein σ-endliches

Maß µ auf F gibt, so dass für alle ϑ ∈ Θ das Wahrscheinlichkeitsmaß Pϑ absolutstetig bezüglich

µ ist (in Zeichen: ∀ϑ ∈ Θ : Pϑ << µ). Die durch ϑ parametrisierte Radon-Nikodym-Dichte

l(ϑ, x) :=dPϑdµ

(x), ϑ ∈ Θ, x ∈ Ω

heißt Likelihoodfunktion, wobei sie meistens für festgehaltenes (beobachtetes) x ∈ Ω als Funktion

von ϑ ∈ Θ aufgefasst wird.

Anmerkung: Die Familie aller stetigen Verteilungen auf (Rn,B(Rn)) ist dominiert von λn. Jedes

statistische Modell auf einem abzählbaren Stichprobenraum Ω ist dominiert vom Zählmaß.

Satz 2.20 (Faktorisierungskriterium von Neyman)

Es sei (Ω,F , (Pϑ)ϑ∈Θ) ein von µ dominiertes Modell mit Likelihoodfunktion l sowie S eine

(Ω′,F ′)-wertige Statistik. Dann ist S genau dann suffizient für ϑ, falls eine messbare Funktion

q : Ω → R≥0 existiert, so dass für alle ϑ ∈ Θ eine messbare Funktion gϑ : Ω′ → R≥0 existiert

mit

l(ϑ, x) = gϑ(S(x)) · q(x) für µ-fast alle x ∈ Ω.

Beweis: Abschnitt 2.6 in Lehmann and Romano (2005).

Beispiel 2.21

(a) Jede bijektive, bi-messbare Transformation (von) S ist stets suffizient.

(b) Betrachte (Ω = 0, 1n, 2Ω, ((Bernoulli(p))n)p∈[0,1]) für fest vorgegebenes n ∈ N. Dann ist

mit X = (X1, . . . , Xn) die Statistik S : Ω → 0, . . . , n gegeben durch S(x) =∑n

j=1 xj

suffizient für p, denn (Bernoulli(p))n besitzt die Zähldichte

P(X = x) = p∑nj=1 xj (1− p)n−

∑nj=1 xj = pS(x)(1− p)n−S(x)

und damit liegt eine Gestalt der Likelihoodfuktion wie in Satz 2.20 gefordert vor, denn es kann

gp(s) = ps(1− p)n−s und q(x) ≡ 1 gewählt werden.

Satz 2.22 (Rao-Blackwell)

Es sei (Ω,F , (Pϑ)ϑ∈Θ, A,A, L) ein statistisches Entscheidungsproblem. Dabei seien A ⊆ Rk

40

Page 47: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

konvex, k ∈ N und die Verlustfunktion L im zweiten Argument konvex. Ist S eine für ϑ suffiziente

Statistik, so gilt für jede Entscheidungsregel δ mit δ := E•[δ|S]

die Risikoabschätzung

∀ϑ ∈ Θ : R(ϑ, δ) ≤ R(ϑ, δ).

Ist L strikt konvex und Pϑ(δ = δ) < 1, so ist δ sogar besser als δ und δ damit unzulässig

(Reduktion durch Suffizienz).

Beweis:

R(ϑ, δ) = Eϑ[L(ϑ,Eϑ

[δ|S])] Jensensche

Ungleichung≤ Eϑ

[Eϑ[L(ϑ, δ)|S

]]= R(ϑ, δ)

mit Striktheit unter strikter Konvexität.

Beispiel 2.23 (Fortsetzung von 2.18(c))

Angenommen, wir wollen im statistischen Modell (Rn,B(Rn), ((UNI[0, ϑ])n)ϑ∈Θ=R≥0) den Pa-

rameter ϑ unter quadratischem Verlust schätzen. Da Eϑ[UNI[0, ϑ]

]= ϑ/2 gilt, ist ϑ(X) = 2Xn

ein plausibler Schätzer, da er im Mittel ϑ richtig schätzt. Allerdings ist dieses ϑ nicht zulässig. Wir

berechnen R(ϑ, ϑ) = 4Varϑ(Xn

)= ϑ2/(3n).

Andererseits haben unsere Rechnungen unter 2.18(c) ergeben, dass S = max1≤j≤n

Xj suffizient für ϑ

ist und dass ∀j = 1, . . . , n : PXj |S=s• = n−1δs + n−1

n UNI[0, s].

Untersuchen wir also ϑ(X) := E•[ϑ|S]

= 2n

∑ni=1 E•

[Xi|S

], so erhalten wir

E•[X1|S

]= n−1S +

n− 1

n

S

2=n+ 1

2nmax

1≤j≤nXj

und damit

ϑ(X) =n+ 1

nmax

1≤j≤nXj ⇒ R(ϑ, ϑ) = (

n+ 1

n)2Varϑ( max

1≤j≤nXj).

Unter Berücksichtigung der unter Beispiel 2.18.(c) berechneten Lebesguedichte von

S = max1≤j≤nXj ergibt sich schließlich

R(ϑ, ϑ) =

(n+ 1

n

)2 nϑ2

(n+ 1)2(n+ 2)

=ϑ2

n(n+ 2)≤ ϑ2

3n= R(ϑ, ϑ).

Definition 2.24 (Vollständigkeit)

a) Eine Statistik S : (Ω,F)→ (Ω′,F ‘) heißt vollständig für das statistische Modell (Ω,F , (Pϑ)ϑ∈Θ),

falls für alle messbaren Funktionen f : Ω′ → R gilt

∀ϑ ∈ Θ : Eϑ[f(S)

]= 0 ⇒ ∀ϑ ∈ Θ : f(S) = 0 Pϑ − f.s.

41

Page 48: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

b) Eine Statistik V : (Ω,F)→ (Ω‘,F ′) heißt ancillar für das statistische Modell (Ω,F , (Pϑ)ϑ∈Θ),

fallsL(V ) nicht von ϑ abhängt. Sie heißt ancillar erster Ordnung, falls Eϑ[V]

unabhängig von

ϑ ist.

Bemerkung 2.25Falls jede Statistik V der Form V = f(S), welche ancillar erster Ordnung ist, sogar Pϑ − f.s.konstant ist, so ist keine redundante Information in S enthalten und S ist damit vollständig für

(Pϑ)ϑ∈Θ. (Verwende f(S) = f(S)− E•[f(S)

]!)

Beispiel 2.26 (Fortsetzung von 2.23)

Die Lebesguedichte von S = max1≤j≤n

Xj ist nach Beispiel 2.18.(c) gegeben durch

fS(s) =nsn−1

ϑn1[0,ϑ](s).

Falls ∀ϑ ∈ R>0 gilt (f eine messbare Funktion):

Eϑ[f(S)

]=

∫ ϑ

0f(s)nϑ−nsn−1ds = 0,

so muss f ≡ 0 λ-fast überall gelten⇒ S = max1≤j≤n

Xj ist vollständig für ((UNI[0, ϑ])n)ϑ∈R>0 .

Definition 2.27 (Exponentialfamilie)

Es sei (Ω,F , (Pϑ)ϑ∈Θ) ein vom Maß µ dominiertes statistisches Modell. Dann heißt die Familie

(Pϑ)ϑ∈Θ eine Exponentialfamilie in η(ϑ) und T , falls gilt:

∃k ∈ N, η : Θ→ Rk, C : Θ→ R>0, T : Ω→ Rk messbar und h : Ω→ R>0 messbar:

l(ϑ, x) =dPϑdµ

(x) = C(ϑ)h(x) exp(〈η(ϑ), T (x)〉Rk).

Die Statistik T heißt natürliche suffiziente Statistik von (Pϑ)ϑ∈Θ (vgl. Neyman’sches Faktorisie-

rungskriterium 2.20).

Sind η1, . . . , ηk linear unabhängige Funktionen und gilt ∀ϑ ∈ Θ :

λ0 + λ1T1 + · · ·+ λkTk = 0 Pϑ − f.s. ⇒ λj = 0 ∀0 ≤ j ≤ k,

sind also ∀ϑ ∈ Θ die Funktionen (1, T1, . . . , Tk) Pϑ − f.s. linear unabängig, so heißt die Expo-

nentialfamile (strikt) k-parametrisch.

Die Menge

Z := z ∈ Rk :

∫Ω

exp(〈z, T (x)〉)h(x)µ(dx) ∈ (0,∞)

heißt der natürliche Parameterraum der Exponentialfamile (Pϑ)ϑ∈Θ. Die mit z ∈ Z entsprechend

(um-) parametrisierte Familie wird natürliche Exponentialfamilie in T genannt.

C(ϑ) heißt Normierungskonstante. Ihr Wert ist gegeben durch:

C(ϑ) =

[∫Ωh(x) exp(〈η(ϑ), T (x)〉)µ(dx)

]−1

.

42

Page 49: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 2.28

(a) (N (µ, σ2))µ∈R,σ2>0 ist zweiparametrische Exponentialfamilie in η(µ, σ2) = (µ/σ2, (2σ2)−1)t

und T (x) = (x,−x2)t bezüglich λ.

Jedes z ∈ R2 der Form z = (µ/σ2, 1/(2σ2))t ist natürlicher Parameter und Z = R × R>0.

Ist σ2 > 0 bekannt, so liegt eine einparametrische Exponentialfamilie in η(µ) = µ/σ2 und

T (x) = x vor.

(b) (Bin(n, p))p∈(0,1) (ausschließlich p ∈ 0, 1!) ist Exponentialfamilie in η(p) = log( p1−p)

(logit-Funktion) und T (x) = x bezüglich des Zählmaßes auf 0, 1, . . . , n. Der natürliche

Parameterraum ist R. Der Stichprobenumfang n ∈ N sei dabei wie üblich fest vorgegeben.

Lemma 2.29Bildet (Pϑ)ϑ∈Θ eine k-parametrische Exponentialfamilie in η(ϑ) und T (x) bzgl. µ, so bilden die

Produktmaße (Pnϑ)ϑ∈Θ eine k-parametrische Exponentialfamilie in η(ϑ) und∑n

i=1 T (xi) bzgl.

µn mit

dPnϑdµn

(x) = [C(ϑ)]n

(n∏i=1

h(xi)

)exp

(〈η(ϑ),

n∑i=1

T (xi)〉

), x = (x1, . . . , xn).

Beweis: Beachte:dPnϑdµn

(x) =n∏i=1

dPϑdµ

(xi).

Satz 2.30Es sei (Ω,F , (Pϑ)ϑ∈Θ) eine k-parametrische Exponentialfamilie in T mit natürlichem Parameter

ϑ ∈ Θ ⊆ Rk.

Besitzt Θ ein nicht-leeres Inneres, so ist T suffizient und vollständig.

Beweis: Witting (1985), S.364 ff.

43

Page 50: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Kapitel 3

Schätztheorie

3.1 Erwartungstreue Schätzer

Definition 3.1Es sei (Ω,F , (Pϑ)ϑ∈Θ) ein statistisches Modell, p ∈ N, %(ϑ) mit % : Θ → Rp ein (abgeleiteter)

Parameter und L eine Verlustfunktion.

Das statistische Entscheidungsproblem (Ω,F , (Pϑ)ϑ∈Θ,Rp,B(Rp), L) heißt Schätzproblem für

%(ϑ).

Eine Entscheidungsregel % : Ω→ Rp heißt Schätzvorschrift, die Zufallsgröße %(X) heißt Schätzer

für %(ϑ) und der Wert %(x) ∈ Rp heißt Schätzwert für %(ϑ) gegeben die Beobachtung X = x.

b(%, ϑ) := Eϑ[%]− %(ϑ) heißt Verzerrung (englisch: bias) von % bzw. %(X).

Der Schätzer %(X) heißt erwartungstreu bzw. unverzerrt, falls ∀ϑ ∈ Θ : b(%, ϑ) = 0.

Lemma 3.2 (Bias-Varianz-Zerlegung)

Unter den Gegebenheiten von Definition 3.1 sei p = 1 und L der quadratische Verlust, d.h.

L(ϑ, a) = (%(ϑ)− a)2, a ∈ A ⊆ R1.

(a) Das quadratische Risiko eines Schätzers %(X) mit endlicher Varianz lässt sich zerlegen in

Eϑ[L(ϑ, %)

]= E2

ϑ[%− %(ϑ)] + Varϑ (%) = b2(%, ϑ) + Varϑ (%) .

(b) Das quadratische Risiko eines erwartungstreuen, quadratintegrierbaren, reellwertigen Schät-

zers ist seine Varianz.

44

Page 51: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beweis: Teil (b) ist eine unmittelbare Konsequenz aus Teil (a). Zum Beweis von (a) rechnen wir

Eϑ[L(ϑ, %)

]= Eϑ

[(%− %(ϑ))2

]= Eϑ

[(%)2 − 2%%(ϑ) + (%(ϑ))2

]= Eϑ

[(%)2

]− 2%(ϑ)Eϑ

[%]

+ (%(ϑ))2

= Varϑ (%) + E2ϑ[%]− 2%(ϑ)Eϑ

[%]

+ (%(ϑ))2

= Varϑ (%) + E2ϑ[%− %(ϑ)], da Varϑ (%) = Eϑ

[(%)2

]− E2

ϑ[%].

Satz 3.3 (Lehmann-Scheffé)

Es sei (Ω,F , (Pϑ)ϑ∈Θ, A,A, L) das Schätzproblem für einen Parameter %(ϑ) ∈ R. Es existiere

ein erwartungstreuer Schätzer %(X) mit endlicher Varianz.

Ist S eine (für ϑ) suffiziente und vollständige Statistik, so ist %(X) = E•[%|S]

ein erwartungstreu-

er Schätzer von gleichmäßig kleinster Varianz in der Klasse M aller erwartungstreuen Schätzer

für %(ϑ). Wir nennen solche Schätzer UMVU-Schätzer (uniformly minimum variance unbiased

estimator).

Beweis: Die tower equation liefert sofort, dass %(X) erwartungstreu ist. Ferner ist %(X) der

fast-sicher einzige erwartungstreue, σ(S)-messbare Schätzer (sagen wir %) wegen Vollständigkeit

Eϑ[%− %

]= 0 und damit % = % Pϑ-fast sicher erfüllt.

Nach dem Satz von Rao-Blackwell besitzt %(X) damit ein kleineres quadratisches Risiko als jeder

andere erwartungstreue Schätzer, also minimale Varianz.

Beispiel 3.4 (Beispiel 2.23 und 2.26 fortgesetzt)

Im Schätzproblem (Rn,B(Rn), ((UNI[0, ϑ])n)ϑ∈R>0 ,R>0,B(R>0), L) (L : quadratischer Ver-

lust) für ϑ haben wir in Beispiel 2.23

ϑ(X) =n+ 1

nmax

1≤j≤nXj

als einen erwartungstreuen Schätzer ausgemacht, der aus einem erwartungstreuen Startschätzer

durch Bedingen auf die suffiziente und (nach Beispiel 2.26) vollständige Statistik S := max1≤j≤n

Xj

hervorgeht.

Damit ist ϑ(X) nach dem Satz von Lehmann-Scheffé 3.3 UMVU-Schätzer.

Definition 3.5Es sei (Ω,F , (Pϑ)ϑ∈Θ mit Θ ⊆ Rk ein von µ dominiertes statistisches Modell mit Likelihoodfunk-

tion l(ϑ, x).

Falls ϑ 7→ ln(l(ϑ, x)) für µ-fast alle x in ϑ0 differenzierbar ist, nennen wir

x 7→ d

dϑln(l(ϑ, x))|ϑ=ϑ0 =: l(·, ϑ0) Score-Funktion.

45

Page 52: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Die (k × k)-Matrix

I(ϑ0) := Eϑ0[l(·, ϑ0)(l(·, ϑ0))t

]heißt Fisher-Information im Punkte ϑ0.

Beispiel 3.6Wir betrachten das Normalverteilungsmodell (R,B(R), (N (µ, σ2))(µ,σ2)∈R×R>0

). Die λ-Dichte

von N (µ, σ2) ist gegeben durch

fµ,σ2(x) =1√2πσ

exp(−(x− µ)2

2σ2) = l(ϑ, x); ϑ = (µ, σ2)t.

Wir berechnen die Fisher-Information im Punkte (µ0, σ20) =: ϑ0 und erhalten

ln(l(ϑ, x)) = ln(1√2πσ

)− (x− µ)2

2σ2,

∂ ln(l(ϑ, x))

∂µ=

x− µσ2

,

∂ ln(l(ϑ, x))

∂σ2=

(x− µ)2 − σ2

2σ4=

(x− µ)2

2σ4− 1

2σ2

⇒ l(x, ϑ0)(l(x, ϑ0))t =

(x−µ0)2

σ40

(x−µ0)3

2σ60− (x−µ)

2σ40

(x−µ0)3

2σ60− (x−µ0)

2σ40

[(x−µ0)2−σ20 ]2

4σ80

⇒ I(ϑ0) =

σ−20 0

0 12σ4

0

.

Lemma 3.7Es seien X1, . . . , Xn Zufallsgrößen, die stochastisch unabhängige Experimente mit ein und der-

selben Parametermenge Θ ⊆ Rk induzieren. Existiert für alle 1 ≤ j ≤ n die jeweilige Fisher-

Information Ij auf ganz Θ, so existiert die gemeinsame, von X = (X1, . . . , Xn) erzeugte Fisher-

Information I und es gilt für alle ϑ ∈ Θ :

I(ϑ) =

n∑j=1

Ij(ϑ).

Beweis: Die gemeinsame Log-Likelihoodfunktion ist gegeben durch

ln(l(ϑ, x)) =

n∑j=1

ln(lj(ϑ, xj)) bezüglichn⊗j=1

µj .

Nach Voraussetzung ist ln(l(ϑ, x)) zudem fast überall differenzierbar mit Score-Funktion

l(x, ϑ) =

n∑j=1

lj(xj , ϑ).

46

Page 53: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Nach Übungsaufgabe gilt zudem Eϑ[lj(Xj , ϑ)

]= 0 ∀1 ≤ j ≤ n. Damit errechnen wir:

Eϑ[l(X,ϑ)(l(X,ϑ))t

]= Eϑ

n∑j=1

lj(Xj , ϑ)

n∑j=1

lj(Xj , ϑ)t

=

n∑k=1

n∑m=1

Eϑ[lk(Xk, ϑ)lm(Xm, ϑ)

]=

n∑j=1

Eϑ[lj(Xj , ϑ)lj(Xj , ϑ)

].

Satz 3.8 (Cramér-Rao-Schranke)

Seien (Ω,F , (Pϑ)ϑ∈Θ) mit Θ ⊆ Rk, k ∈ N ein statistisches Modell, % : Θ → R differenzierbar

in ϑ0 ∈ Θ \ ∂Θ und %(X) ein erwartungstreuer Schätzer für %(ϑ). Für alle ϑ in einer Umgebung

von ϑ0 gelte Pϑ << Pϑ0 .

Ferner sei die Likelihoodfunktion l(ϑ, x) L2(Pϑ0)-differenzierbar in ϑ0, d.h.

∃g : Θ× Ω→ Rk mit limϑ→ϑ0

Eϑ0[|l(ϑ, ·)− l(ϑ0, ·)− < g(ϑ0, ·), ϑ− ϑ0 > |2

]|ϑ− ϑ0|2

= 0.

Falls die Fisher-Information I(ϑ0) im Punkte ϑ0 endlich und strikt positiv definit ist, so gilt:

Eϑ0[(%− %(ϑ0))2

]= Varϑ0 (%) ≥ < I(ϑ0)−1%(ϑ0), %(ϑ0) > .

Beweis: Satz 2.124 in Witting (1985).

Satz 3.9Bildet (Pϑ)ϑ∈Θ eine einparametrische Exponentialfamilie in T mit natürlichem Parameter ϑ ∈ Θ

und ist % : Θ→ R ein erwartungstreu L2-schätzbarer Parameter, so ist die Cramér-Rao Schranke

genau dann scharf, wenn %(ϑ) eine affine Funktion von Eϑ[T]

ist.

Beweis: Korollar 2.127 in Witting (1985)

Beispiel 3.10Sei X = (X1, . . . , Xn) nach (N (µ, σ2))n verteilt. Dabei sei µ ∈ R der Parameter von Interesse

und σ2 > 0 bekannt.

Sei µ(X) = Xn = n−1∑n

i=1Xi. Dann ist µ(X) erwartungstreu und es gilt Varµ (µ) = σ2

n und

I(µ) = nσ2 nach Beispiel 3.6 mit Lemma 3.7. Also ist µ Cramér-Rao effizient, denn % = id.

Will man indes µ2 schätzen, so ist ein UMVU-Schätzer nach dem Satz von Lehmann-Scheffé gege-

ben durch µ2(x) = (Xn)2 − σn und es gilt

Varµ(µ2)

= Varµ((Xn)2

)=

4µ2σ2

n+

2σ4

n2,

Während die Cramér-Rao-Schranke den Wert 4µ2σ2

n liefert, also nicht scharf ist.

47

Page 54: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Korollar 3.11 (Punktschätzungen im Binomial- und Gauß-Modell)

(a) Für fest vorgegebenes n ∈ N betrachten wir (Ω = 0, 1n, 2Ω, ((Bernoulli(p))n)p∈[0,1])

S =∑n

j=1Xj ist suffizient und vollständig, also ist Sn UMVU-Schätzer für p

(b) Wir betrachten (Ω = Rn,B(Rn), (N (µ, σ2))n).

(i) Ist µ unbekannt und σ2 bekannt, so ist Xn = 1n

∑ni=1Xi UMVU-Schätzer für µ (Beispiel

3.10).

(ii) Ist σ2 unbekannt und µ bekannt, so ist S2 =∑n

i=1(Xi − µ)2 suffizient und vollständig

nach Satz 2.30 und damit ist S2

n UMVU-Schätzer für σ2.

(iii) Sind sowohl µ als auch σ2 unbekannt, so ist nach Beispiel 2.28a), Lemma 2.29 und Satz

2.30 T = (∑n

i=1Xi,∑n

i=1X2i ) suffizient und vollständig für ϑ = (µ, σ2).

Damit ist Xn weiterhin UMVU für µ, und mit S2 =∑n

i=1(Xi − Xn)2 ist nun S2

(n−1)

UMVU für σ2. (vgl. Übungsaufgabe!).

3.2 Allgemeine Schätztheorie

Definition 3.12 (Wünschenswerte Eigenschaften von Schätzern)

Sei (Ω,F , (Pϑ)ϑ∈Θ,R,B(R), L) ein Schätzproblem, %(ϑ) der interessierende (abgeleitete) Para-

meter und % eine Schätzvorschrift.

(a) Der Schätzer %(X) heißt erwartungstreu, falls Eϑ[%]

= %(ϑ) ∀ϑ ∈ Θ gilt.

(b) Falls %∗(X) erwartungstreu ist, so heißt %∗(X) effizient (bzw. UMVU), falls (∀ϑ ∈ Θ):

Varϑ (%∗) = inf%:%(X) erwartungstreu

Varϑ (%) .

(c) Ist n ∈ N ein Stichprobenumfang und Ω ⊆ Rn, so heißt %(X) = %n(X) konsistent bzw. stark

konsistent, falls %(X)→ %(ϑ) für n→∞ Pϑ-stochastisch bzw. Pϑ-fast sicher.

(d) Der Schätzer %(X) heißt asymptotisch normalverteilt, falls 0 < Eϑ[(%)2

]<∞ und

L

(%(X)− Eϑ

[%]√

Varϑ (%)

)w−→

n→∞N (0, 1) unter Pϑ.

Definition 3.13 (Momentenschätzer)

Es seien (Ωn ⊆ Rn,B(Rn), (Pnϑ)ϑ∈Θ) ein statistisches Modell und %(ϑ) mit % : Θ → Rp ein

abgeleiteter Parameter. Ferner sei ψ = (ψ1, . . . , ψq) : Ω→ Rq derart, dass

M(ϑ) := Eϑ[ψ]

= (

∫Ωψj(x)Pϑ(dx))j=1,....q

48

Page 55: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

existiert. Gibt es eine Borel-messbare Funktion G : M(Θ) → %(Θ) mit G M = % und liegt

∀x = (x1, . . . , xn) ∈ Ωn der Wert Mn(x) := n−1∑n

i=1 ψ(xi) in M(Θ), so heißt G(Mn(X))

Momentenschätzer (oder plug-in Schätzer) für %(ϑ) mit Momentenfunktionen ψ1, . . . , ψq.

Englisch: MOM (matching of moments)-estimator

Beispiel 3.14

(a) Sei X = (X1, . . . , Xn) mit X1, . . . , Xn iid, X1 ∼ Exp(λ) und sei λ > 0 unbekannt. Be-

trachte % = id und ψ = xk für ein fest vorgegebenes k ∈ N. Dann ist

Eλ[ψ]

= M(λ) =k!

λk∀k ∈ N, vgl. Aufgabe 5(b)

Damit kann G(z) = (k!z )

1k gewählt werden und es ergibt sich der Momentenschätzer

λk,n(X) = (k!

n−1∑n

i=1Xki

)1k

(b) Sei X = (X1, . . . , Xn) eine iid-Stichprobe mit X1 ∼ Poisson(α). Dann gilt α = Eα[X1

]=

Varα (X1). Somit sind sowohl

α1(X) = Xn als auch (siehe Aufgabe 27(b)) α2(X) = (n− 1)−1n∑i=1

(Xi − Xn)2

MOM-Schätzer für α.

Satz 3.15 (∆-Methode)

Es seien (Xn)n≥1 eine Folge von Zufallsvektoren mit Werten im Rk, k ∈ N, (σn)n≥1 eine Folge

positiver reeller Zahlen mit limn→∞

σn = 0, ϑ0 ∈ Rk sowie Σ ∈ Rk×k positiv definit. Es gelte:

σ−1n (Xn − ϑ0)

D−→ N (0,Σ)

Ist f : Rk → R in einer Umgebung von ϑ0 stetig differenzierbar mit σ2 := (∇f(ϑ0))tΣ∇f(ϑ0) >

0, so folgt

σ−1n (f(Xn)− f(ϑ0))

D−→ N (0, σ2).

Beweis: Theoreme 1.8.16 bzw. 1.8.22 in Lehmann and Casella (1998)

Satz 3.16 (Asymptotik von Momentenschätzern)

Unter den Voraussetzung von Definition 3.13 existiere der Momentenschätzer

%n(X) = G(n−1∑n

i=1 ψ(Xi)) für hinreichend großen Stichprobenumfang n.

(a) Ist G stetig, so ist %n(X) stark konsistent (und damit konsistent).

49

Page 56: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(b) Sei % : Θ→ R1 und gelte ∀1 ≤ j ≤ q : ψj ∈ L2(Pϑ0).

Setze Σ(ϑ0) := (Covϑ0 (ψi, ψj))i,j=1,...q. Falls G in einer Umgebung von M(ϑ0) stetig diffe-

renzierbar ist mit

0 < σ2 ≡ σ2(ϑ0) = (∇G(M(ϑ0)))tΣ(ϑ0)∇G(M(ϑ0)),

so ist %n(X) unter Pnϑ0 asymptotisch normalverteilt mit Rate n−12 und asymptotischer Varianz

σ2, d.h.√n(%n(X)− %(ϑ0))

D−−−−−→(n→∞)

N (0, σ2) unter Pnϑ0 .

Beweis:

zu (a): Starkes Gesetz der großen Zahlen

zu (b): ∆-Methode plus Zentraler Grenzwertsatz

Anmerkung: Satz 3.16 zeigt auch, dass MOM-Schätzer asymptotisch erwartungstreu sind. Für fest

vorgegebenen, finiten Stichprobenumfang n ∈ N kann ein MOM-Schätzer indes verzerrt sein.

Betrachten wir z.B. λ1,n aus Beispiel 3.14(a). Es gilt λ1,n(X) = nS mit S :=

∑nj=1Xi.

Ferner ist S ∼λErlang(n, λ) mit Lebesgue-Dichte

fS(s) =λnsn−1

(n− 1)!exp(−λs)1[0,∞)(s)(s)

⇒ En,λ[ 1

S

]=

∫ ∞0

λnsn−2

(n− 1)!exp(−λs)ds

=λn

(n− 1)!

∫ ∞0

sn−2 exp(−λs)ds

=λn

(n− 1)![ exp(−λs)

n− 1sn−1]∞0 +

∫ ∞0

λ exp(−λs)n− 1

sn−1ds

=λn

(n− 1)![0− 0] +

(n− 2)!

λn−1 =

λ

n− 1

⇒ Eλ[λ1,n

]=

n

n− 1λ 6= λ, n ≥ 2.

Definition 3.17 (Maximum Likelihood-Schätzer)

Es sei (Ω,F , (Pϑ)ϑ∈Θ) ein von µ dominiertes Modell mit Likelihoodfunktion l(ϑ, x). Der Para-

meterraum Θ trage die σ-Algebra FΘ. Eine Statistik ϑ(X) mit ϑ : (Ω,F) → (Θ,FΘ) heißt

Maximum-Likelihood-Schätzer (MLE) von ϑ, falls

l(ϑ(x), x) = supϑ∈Θ

l(ϑ, x)

für Pϑ-fast alle x ∈ Ω und alle ϑ ∈ Θ gilt.

50

Page 57: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Bemerkung 3.18

(a) Weder Existenz noch Eindeutigkeit eines MLE sind ohne weitere Modellannahmen sicherge-

stellt.

(b) Bei einer Re-Parametrisierung ϑ 7→ %(ϑ) ist natürlich %(X) := %(ϑ(X)) der MLE für %(ϑ),

falls der MLE ϑ(X) existiert.

Beispiel 3.19

(a) X1, . . . , Xn iid. mit X1 ∼ Poisson(λ), X := (X1, . . . , Xn) mit Werten in Nn0 . Der Parameter

λ > 0 sei unbekannt.

l(λ, x) =n∏i=1

exp(−λ)λxi

xi!

⇒ ln(l(λ, x)) =

n∑i=1

−λ+ xi ln(λ)− ln(xi!) = −nλ+ ln(λ)

n∑i=1

xi −n∑i=1

ln(xi!)

⇒ ∂

∂λln(l(λ, x)) = l(x, λ) = −n+ λ−1

n∑i=1

xi

⇒ λ(x) = n−1n∑i=1

xi, da∂2

∂λ2ln(l(λ, x)) < 0.

(b) Allgemeines Regressionsmodell

Sei Y = (Y1, . . . , Yn). Für jedes 1 ≤ i ≤ n gelte Yi = gϑ(xi) + εi. Dabei sind die (xj)1≤j≤n

deterministische, fest vorgegeben “Messstellen”, gϑ eine deterministische, vom interessieren-

den Parameter ϑ ∈ Θ ⊆ Rk, k ∈ N, parametrisierte Funktion und die (εj)1≤j≤n zufällige

iid. “Messfehler”, für die ε1 ∼ N (0, σ2) mit σ2 > 0 gelte.

Damit gilt ∀1 ≤ i ≤ n : Yi ∼ N (gϑ(xi), σ2) und Yi ⊥ Yj ∀1 ≤ i 6= j ≤ n.

Übungsaufgabe⇒ ϑ(Y ) = argminϑ∈Θ

∑n

i=1(Yi − gϑ(xi))2, also gleich dem Parameter, der

die Fehlerquadratsumme minimiert.

Lemma 3.20 (MLE in Exponentialfamilien)

Sei (Pϑ)ϑ∈Θ eine natürliche Exponentialfamilie in T . Der MLE ϑ(X) existiere und liege im Inne-

ren von Θ.

Dann ist ϑ implizit gegeben durch die Momentengleichung Eϑ(x)

[T]

= T (x).

Beweis: Wir schreiben die Loglikelihoodfunktion in der Form

ln(l(ϑ, x)) = ln(h(x))+ < ϑ, T (x) > −A(ϑ)

51

Page 58: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Damit ergibt sich die Score-Funktion als

l(x, %) =∂

∂ϑln(l(ϑ, x)) = T (x)− A(ϑ)

und

l(x, ϑ(x)) = T (x)− A(ϑ(x)) = 0 ⇔ T (x) = A(ϑ(x)).

Bleibt zu zeigen:

∀ϑ ∈ Θ \ ∂Θ : A(ϑ) = Eϑ[T]

Betrachten wir dazu die Laplace-Transformierte Lϑ(s) = Eϑ[

exp(− < s, T >)]

von T . Offenbar

gilt Lϑ(s) = exp(A(ϑ− s)−A(ϑ)) für ϑ− s ∈ Z , da

A(ϑ) = log(

∫Ωh(x) exp(< ϑ, T (x) >)µ(dx)

und

Eϑ[

exp(− < s, T >)]

=

∫h(x) exp(< ϑ, T (x) >) exp(− < s, T (x) >) exp(−A(ϑ))µ(dx)

= exp(−A(ϑ))

∫h(x) exp(< ϑ− s, T (x) >)µ(dx)

Damit ist:

d

dsLϑ(s) =

d

ds[exp(A(ϑ− s))

exp(A(ϑ))]

= exp(−A(ϑ)) exp(A(ϑ− s)) · (− d

dsA(ϑ− s))

⇒ − d

dsLϑ(s) = exp(−A(ϑ)) exp(A(ϑ− s)) d

dsA(ϑ− s)

Zur Berechnung von Eϑ[T]

ergibt sich schließlich

lims→0

[− d

dsLϑ(s)] = lim

s→0

d

dsA(ϑ− s)

= lims→0

limh→0

A(ϑ− s+ h)−A(ϑ− s)h

= A(ϑ)

Beispiel 3.21 (MLE im Gaußmodell)

Sei X = (X1, . . . , Xn) verteilt nach (N (µ, σ2))n. Sowohl µ als σ2 seien unbekannt. Der natürli-

che Parameter ist nach Beispiel 2.28(a) gegeben durch ϑ = ( µσ2 ,

12σ2 )t. Betrachten wir

Eϑ[(Xn, X

2n)t] !

= (Xn, X2n)t, so finden wir µ(X) = Xn und µ2 + σ2(X) = X2

n als MLE,

denn Eϑ[Xn

]= µ und Eϑ

[X2n

]= µ2 + σ2 ∀ϑ ∈ Z

52

Page 59: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Durch Reparametrisierung (µ, µ2 + σ2) 7→ (µ, σ2) erhalten wir

σ2(X) = X2n − (Xn)2 =

1

n

n∑i=1

(Xi − Xn)2.

Beachte: σ2 ist nicht erwartungstreu!

Satz 3.22 (Asymptotik des MLE für k-parametrische Modelle)

Es sei (Ωn,Fn, (Pnϑ)ϑ∈Θ)n≥1 mit Θ ⊆ Rk eine Folge dominierter (von µn) Produktexperimente

mit eindimensionaler Likelihoodfunktion l(ϑ, x) = dPϑdµ (x).

Es gelte:

(a) Der wahre Parameterwert ϑ0 liegt im Inneren von Θ, in Zeichen: ϑ0 ∈Θ.

(b) Für alle x1 ∈ Ω existieren alle zweiten Ableitungen von l(ϑ, x1) nach den Komponenten von

ϑ, und sie sind stetig aufΘ.

(c) Für alle ϑ ∈Θ und für alle 1 ≤ i, j ≤ k gilt

Eϑ[∂/(∂ϑi)l(ϑ,X1)

l(ϑ,X1)

]= 0 und Eϑ

[∂2/(∂ϑi∂ϑj)l(ϑ,X1)

l(ϑ,X1)

]= 0.

(d) Für jedes ϑ ∈Θ gibt es ein δϑ > 0, eine Umgebung U(ϑ, δϑ) ⊂

Θ sowie eine messbare

Funktion M(·, ϑ) auf Ω mit Eϑ[M(X1, ϑ)] <∞ derart, dass für alle 1 ≤ i, j ≤ k gilt∣∣∣∣ ∂2

∂ϑi∂ϑjl(ϑ′, ·)

∣∣∣∣ ≤M(·, ϑ′) ∀ϑ′ ∈ U(ϑ, δϑ).

(e) Die Fisher-Information zu einer Beobachtung, also

I(ϑ0) = Eϑ0[l(·, ϑ0)(l(·, ϑ0))t

]ist positiv definit.

Dann ist jeder konsistente MLE ϑn(X), wobei X = (X1, . . . , Xn) mit Werten in Ωn, unter ϑ0

asymptotisch normalverteilt:

√n(ϑn(X)− ϑ0)

D−→ Nk(0, I(ϑ0)−1) unter Pnϑ0 für n→∞.

Beweis: Satz 6.35 in Witting and Müller-Funk (1995).

Korollar 3.23Unter den Voraussetzungen von Satz 3.22 ist ϑn(X) asymptotisch Cramér-Rao-effizient. Existenz,

Eindeutigkeit und Konsistenz von ϑn können charakterisiert werden.

53

Page 60: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Kapitel 4

Testtheorie, Bereichsschätzungen

4.1 Allgemeine Testtheorie

Statistische Testprobleme lassen sich wie folgt beschreiben: Gegeben zwei disjunkte Teilmengen

P0,P1 vonP mitP0∪P1 = P ist eine Entscheidung darüber gesucht, ob PX zuP0 oderP1 gehört.

FallsP durch ϑ eineindeutig identifiziert ist, kann die Entscheidungsfindung auch vermittels ϑ und

Teilmengen Θ0 und Θ1 von Θ mit Θ0 ∩Θ1 = ∅ und Θ0 ∪Θ1 = Θ formalisiert werden.

Formale Beschreibung des Testproblems:

H0 : ϑ ∈ Θ0 versus H1 : ϑ ∈ Θ1 oder

H0 : PX ∈ P0 versus H1 : PX ∈ P1.

Die Hi, i = 1, 2 nennt man Hypothesen. H0 heißt Nullhypothese, H1 Alternativhypothese / Alter-

native. Oft interpretiert man H0 und H1 auch direkt selbst als Teilmengen des Parameterraums, d.

h., H0 ∪H1 = Θ und H0 ∩H1 = ∅. Zwischen H0 und H1 ist nun aufgrund von x ∈ Ω eine Ent-

scheidung zu treffen. Dazu benötigt man eine Entscheidungsregel. Eine solche bezeichnet man als

statistischen Test. Ein statistisches Testproblem ist demnach ein statistisches Entscheidungspro-

blem der Form (Ω,F , (Pϑ)ϑ∈Θ, 0, 1, 20,1, L). Wir greifen damit also Beispiel 2.4.(b) wieder

auf.

Definition 4.1 (Statistischer Test)

Ein statistischer Test ist eine messbare Abbildung

ϕ : (Ω,F)→ ([0, 1],B([0, 1])).

54

Page 61: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Dabei gelten die folgenden Konventionen:

ϕ(x) = 1 ⇐⇒ Nullhypothese wird verworfen, Entscheidung für H1,

ϕ(x) = 0 ⇐⇒ Nullhypothese H0 wird nicht verworfen,

0 < ϕ(x) < 1 : Der Wert ϕ(x) wird als Ablehnwahrscheinlichkeit unter

der Beobachtung X = x aufgefasst und ein nachfolgendes Exeriment,

unabhängig von X, dient zur letztendlichen Entscheidungsfindung.

Im dritten Fall (im Falle der sogenannten Randomisierung) wird typischerweise eine auf dem

Einheitsintervall gleichverteilte Zufallszahl u erzeugt und H0 abgelehnt, falls u ≤ ϕ(x) gilt. Wird

von vorne herein nur (0, 1, 20,1) als Wertebereich von ϕ zugelassen, so spricht man von einem

nicht-randomisierten Test.

Die Menge x ∈ Ω : ϕ(x) = 1 heißt Ablehnbereich oder kritischer Bereich von ϕ,

kurz: ϕ = 1. Die Menge x ∈ Ω : ϕ(x) = 0, kurz ϕ = 0, heißt Annahmebereich von ϕ.

Problem: Testen beinhaltet mögliche Fehlentscheidungen, deren Wahrscheinlichkeit durch geeig-

nete Kriterien in Schranken gehalten werden soll.

Fehler 1. Art (α-Fehler, type I error): Entscheidung für H1, obwohl H0 wahr ist.

Fehler 2. Art (β-Fehler, type II error): Nicht-Verwerfung von H0, obwohl H1 wahr ist.

Testentscheidung

0 1

H0 wahr kein Fehler Fehler 1. Art / Typ I-Fehler / α-Fehler

H0 falsch Fehler 2. Art / Typ II-Fehler / β-Fehler kein Fehler

Tabelle 4.1: Entscheidungsstruktur eines statistischen Hypothesentests

In aller Regel ist es nicht möglich, die Wahrscheinlichkeiten für die Fehler 1. und 2. Art gleichzei-

tig zu minimieren. In Beispiel 2.4.(b) haben wir eine Verlustfunktion L definiert, die das Auftreten

von Fehlern 1. und 2. Art bei Verwendung von ϕ gewichtet addiert hat. Die resultierende Risiko-

funktion ist dann gegeben als gewichtete Typ I- bzw. Typ II-Fehlerwahrscheinlichkeit, falls ϑ in

Θ0 bzw. in Θ1 liegt.

Ein anderer Zugang besteht in einer asymmetrischen Betrachtungsweise von Testproblemen:

(i) Begrenzung der Fehlerwahrscheinlichkeit 1. Art durch eine vorgegebene obere Schranke

α ∈ (0, 1) (das sogenannte Signifikanzniveau, englisch: level),

(ii) Unter der Maßgabe (i) Minimierung der Wahrscheinlichkeit für Fehler 2. Art

(„optimaler“ level α-Test).

55

Page 62: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Diese Herangehensweise ist vor allem dann gerechtfertigt, wenn Fehlentscheidungen zu Guns-

ten von H1 empfindliche Folgen haben und aus Gründen von z. B. Qualitätssicherung bzw. Haf-

tung o. ä. eine Einhaltung des Signifikanzniveaus, d. h. eine garantierte Begrenzung der Typ I-

Fehlerwahrscheinlichkeit, zwingend geboten ist. Insbesondere vermeidet dieser Ansatz die (sub-

jektive) Festlegung von Gewichten `1 und `2; der Wert α ∈ (0, 1) hat eine leicht interpretierbare

Bedeutung.

Beachte: Eine (zum Niveauα) statistisch abgesicherte Entscheidung kann also immer nur zu Guns-

ten von H1 getroffen werden⇒Merkregel: „Was nachzuweisen ist stets als Alternative H1 formulieren!“.

Definition 4.2Voraussetzungen wie unter Definition 4.1.

(i) Die Funktion βϕ : Θ → [0, 1], gegeben durch βϕ(ϑ) = Eϑ[ϕ]

=∫

Ω ϕdPϑ bezeichnet die

Ablehnwahrscheinlichkeit eines vorgegebenen Tests ϕ in Abhängigkeit von ϑ ∈ Θ. Schrän-

ken wir βϕ auf Θ1 3 ϑ ein, so heißt βϕ Gütefunktion von ϕ. Für ϑ ∈ Θ0 ergibt βϕ(ϑ) die

Typ I-Fehlerwahrscheinlichkeit von ϕ unter ϑ ∈ Θ0.

Für α ∈ (0, 1) vorgegeben heißt

(ii) ein Test ϕ mit βϕ(ϑ) ≤ α für alle ϑ ∈ H0 Test zum Niveau α,

(iii) ein Test ϕ zum Niveau α unverfälscht, falls βϕ(ϑ) ≥ α für alle ϑ ∈ H1 gilt,

(iv) ein Test ϕ1 zum Niveau α besser als ein zweiter Niveau-α Test ϕ2, falls βϕ1(ϑ) ≥ βϕ2(ϑ)

für alle ϑ ∈ H1 ist und ∃ϑ∗ ∈ H1 mit βϕ1(ϑ∗) > βϕ2(ϑ∗).

Wir betrachten in der Folge die Menge M der Niveau α-Tests mit der Risikofunktion

R(ϑ, ϕ) = 1 − βϕ(ϑ), ϑ ∈ Θ1. Unter diesen Prämissen ist das Testproblem bereits vollstän-

dig spezifiziert durch (Ω,F , (Pϑ)ϑ∈Θ, H0).

Definition 4.3Sei (Ω,F , (Pϑ)ϑ∈Θ, H0) ein statistisches Testproblem.

(a) Ist |Θ| = 2, Θ = ϑ0, ϑ1 und H0 = ϑ0, so heißt (Ω,F , (Pϑ)ϑ∈Θ, H0) ein binäres

Testproblem.

(b) Ist H0 von der Form ϑ ≤ ϑ0 für ein ϑ0 ∈ Θ ⊆ R und H1 = Θ \ H0 demnach gegeben

durch H1 = ϑ > ϑ0, so heißt (Ω,F , (Pϑ)ϑ∈Θ, H0) ein einseitiges Testproblem.

(c) Ist H0 von der Form ϑ = ϑ0 für ein ϑ0 ∈ Θ ⊆ R und H1 = ϑ 6= ϑ0, so heißt

(Ω,F , (Pϑ)ϑ∈Θ, H0) ein zweiseitiges Testproblem.

56

Page 63: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 4.4 (Einseitiger Binomialtest)

Von den 13 Todesfällen unter 55- bis 64-jährigen Arbeitern eines Kernkraftwerkes in Jahre 1995

waren 5 auf einen Tumor zurückzuführen. Die Todesursachenstatistik 1995 weist aus, dass Tumore

bei etwa 1/5 aller Todesfälle die Todesursache in der betreffenden Altersklasse (in der Gesamt-

bevölkerung) darstellen. Ist die beobachtete Häufung von tumorbedingten Todesfällen unter den

Arbeitern im Kernkraftwerk signifikant auffällig zu Niveau α = 5% oder noch “kompatibel” mit

den Gegebenheiten in der Gesamtpopulation?

BezeichneX die (zufällige) Anzahl der Tumortoten unter n = 13 Todesfällen von AKW-Mitarbeitern.

Wir modellieren Ω = 0, . . . , n = 13, F = 2Ω, (Pϑ)ϑ∈Θ = (Bin(13, p))p∈[0,1] und haben

H0 = p ≤ 1/5 gegen H1 = p > 1/5 (einseitig) zu testen.

Betrachten wir speziell nicht-randomisierte Tests ϕ der Form ϕ(x) = 1⇔ x > cα, mit kritischen

Bereichen Γα = (cα,∞). Um die Einhaltung des Signifikanzniveaus α = 5% sicherzustellen,

muss sup0≤p≤1/5

Pp(X > cα) ≤ α gelten bzw. äquivalent dazu inf0≤p≤1/5

Pp(X ≤ cα) ≥ 1− α.

Für festes k ∈ Ω ist

Pp(X = k) =

(n

k

)pk(1− p)n−k = l(p, k) und

Pp(X ≤ k) =k∑`=0

(n

`

)p`(1− p)n−` =: F (p, k).

Eine einfache Kurvendiskussion zeigt, dass ∀k ∈ Ω die Funktion F (·, k) fallend auf Θ0 = [0, 1/5]

ist (Übungsaufgabe).

Damit ist für alle k ∈ Ω: inf0≤p≤1/5

Pp(X ≤ k) = P1/5(X ≤ k) und cα wird so bestimmt, dass

cα = min

k ∈ Ω :

k∑`=0

(n

`

)(1

5

)`(4

5

)n−`≥ 1− α

,

damit die Typ II-Fehlerwahrscheinlichkeit möglichst klein wird.

Wir erhalten:4∑`=0

(13

`

)(1

5

)`(4

5

)13−`≈ 0.901 und

5∑`=0

(13

`

)(1

5

)`(4

5

)13−`≈ 0.9700.

Damit wird cα = 5 gewählt und H0 kann bei der tatsächlich beobachteten Datenlage x = 5 nicht

verworfen werden. Allerdings schöpfen wir das Signifikanzniveau α = 5% nicht voll aus, denn

sup0≤p≤1/5

Pp(X > 5) = P1/5(X > 5) = 1− P1/5(X ≤ 5) ≈ 3% < α.

Der randomisierte Test ϕ, gegeben durch

ϕ(x) =

0, x < 5

1/50, x = 5

1, x > 5

hat indes

57

Page 64: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

unter dem LFC p = 1/5 Typ I-Fehlerwahrscheinlichkeit genau gleich α = 5% und ist besser als

ϕ. Übungsaufgabe: Güteberechnung.

Definition und Satz 4.5 (Neyman-Pearson-Lemma)

Sei (Ω,F , (Pϑ)ϑ∈Θ, H0 = ϑ0) ein binäres Testproblem mit Θ = ϑ0, ϑ1. Bezeichne pi, i =

0, 1 die Dichte von Pϑi bezüglich eines dominierenden Maßes µ, z.B. µ = Pϑ0 + Pϑ1 .

Ein Test der Form

ϕ(x) =

1, falls p1(x) > kp0(x)

γ(x), falls p1(x) = kp0(x)

0, falls p1(x) < kp0(x)

mit kritischem Wert k ∈ R+ und γ(x) ∈ [0, 1] heißt Neyman-Pearson Test. Es gelten:

(i) Existenz:

Für jedes vorgebene α ∈ (0, 1) gibt es einen Neyman-Pearson-Test zum Niveau α mit

γ(x) ≡ γ ∈ [0, 1] konstant.

(ii) Hinreichende Bedingung für einen besten Test:

Jeder Neyman-Pearson-Test ϕ ist ein bester Test für H0 = ϑ0 versus H1 = ϑ1 zum

Niveau Eϑ0[ϕ].

(iii) Notwendige Bedingung für einen besten Test:

Falls ϕ bester Niveau α-Test fürH0 = ϑ0 versusH1 = ϑ1 ist, dann ist er für µ-fast alle

x ∈ Ω von der Form eines Neyman-Pearson-Tests.

Beweis:

zu (i): Sei G(c) = Pϑ0(p1(X) > cp0(X)). Da diese Wahrscheinlichkeit unter ϑ0 berechnet

wird, braucht man dabei nur die Menge aller derjenigen x ∈ Ω zu beücksichtigen, für die

p0(x) > 0 ist. Damit ist G(c) also die Wahrscheinlichkeit unter ϑ0, dass die Zufallsva-

riable p1(X)/p0(X) den Wert c übersteigt. Damit ist 1−G(c) eine Verteilungsfunktion

und G(c) selbst ist somit nicht-wachsend in c, rechtsseitig stetig und es gilt

G(c− 0)−G(c) = Pϑ0(p1(X)

p0(X)= c

), G(−∞) = 1 und G(+∞) = 0.

Für gegbenes 0 < α < 1 wähle c0 so, dass G(c0) ≤ α ≤ G(c0 − 0) gilt, und betrachte

den Test ϕ, gegeben durch

ϕ(x) =

1, falls p1(x) > c0p0(x)

γ, falls p1(x) = c0p0(x)

0, falls p1(x) < c0p0(x)

58

Page 65: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

mit γ := α−G(c0)G(c0−0)−G(c0) · 1G(c0−0)6=G(co) (+∞ · 0 = 0).

Wir berechnen das Niveau von ϕ als

Eϑ0[ϕ]

= Pϑ0(p1(X)

p0(X)> c0

)+

α−G(c0)

G(c0 − 0)−G(c0)Pϑ0

(p1(X)

p0(X)= c0

)= G(c0) +

α−G(c0)

G(c0 − 0)−G(c0)[G(c0 − 0)−G(c0)] = α,

falls γ > 0 ist, und Eϑ0[ϕ]

= Pϑ0(p1(X)p0(X) > c0

)= G(c0) = α im Falle γ = 0.

zu (ii): Sei ϕ ein Neyman-Pearson-Test, α := Eϑ0[ϕ]

und sei ϕ ein anderer Niveau α-Test.

Sei S+ := x ∈ Ω : ϕ(x)− ϕ(x) > 0 und S− := x ∈ Ω : ϕ(x)− ϕ(x) < 0.

Falls x ∈ S+ ⇒ ϕ(x) > 0 und p1(x) ≥ kp0(x).

Falls x ∈ S− ⇒ ϕ(x) < 1 und p1(x) ≤ kp0(x).

Also gilt:

Eϑ1[ϕ]− Eϑ1

[ϕ]

=

∫S+∪S−

(ϕ− ϕ)p1dµ

≥∫S+

(ϕ− ϕ)kp0dµ+

∫S−

(ϕ− ϕ)kp0dµ

= k(Eϑ0[ϕ]− Eϑ0

[ϕ])≥ 0.

zu (iii): Beweis zu Theorem 3.2.1.(iii) in Lehmann and Romano (2005) (ähnliche Schlusswei-

sen).

Bemerkung 4.6In einer Übungsaufgabe haben wir gesehen, dass für eine suffiziente Statistik S : (Ω,F) →(Ω′,F ′) der Dichtequotient p1(x)/p0(x) für µ-fast alle x ∈ Ω nur von S(x) abhängt.

Zur Bearbeitung einseitiger Testprobleme liefert ein isotoner Dichtequotient gleichmäßig

(über Θ1) beste Tests.

Definition 4.7Es seien (Ω,F , (Pϑ)ϑ∈Θ) ein von µ dominiertes statistisches Modell, Θ ⊆ R, mit Likelihoodfunk-

tion l(ϑ, x) und T : Ω→ R eine reellwertige Statistik.

Dann besitzt die Familie (Pϑ)ϑ∈Θ einen isotonen (monoton wachsenden) Dichtequotienten in T ,

falls:

(a) ϑ 6= ϑ ⇒ Pϑ 6= Pϑ, ϑ, ϑ ∈ Θ.

59

Page 66: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(b) Für alle ϑ < ϑ gibt es eine monoton wachsende Funktion h(·, ϑ, ϑ) : R → R+ (wobei

a/0 := +∞ für a > 0), so dass

l(ϑ, x)

l(ϑ, x)= h(T (x), ϑ, ϑ) für µ-fast alle x ∈ Ω.

Beispiel 4.8Ist (Pϑ)ϑ∈Θ mit Θ ⊆ R eine einparametrische Exponentialfamilie in η(ϑ) und T , so besitzt sie

einen isotonen Dichtequotienten, sofern η streng monoton wächst, denn es gilt

l(ϑ, x)

l(ϑ, x)= h(T (x), ϑ, ϑ)

mit

h(t, ϑ, ϑ) = C(ϑ)(C(ϑ))−1 exp([η(ϑ)− η(ϑ)]t).

Strenge Monotonie von η liefert Teil (a) von Definition 4.7 und Isotonie von exp(·) liefert Teil (b)

von Definition 4.7.

Satz 4.9 (Einseitiger UMP-Test)

Sei (Ω,F , (Pϑ)ϑ∈Θ) ein statistisches Modell mit Θ ⊆ R und isotonem Dichtequotienten in T . Für

α ∈ (0, 1) und ϑ0 ∈ Θ gilt dann:

(a) Unter allen Tests ϕ für das einseitige Testproblem H0 : ϑ ≤ ϑ0 gegen H1 : ϑ > ϑ0 mit der

Eigenschaft Eϑ0[ϕ]

= α gibt es einen Test ϕ∗, der die Fehlerwahrscheinlichkeiten 1. und 2.

Art gleichmäßig minimiert. Er ist gegeben durch

ϕ∗(x) =

1, falls T (x) > c(α)

0, falls T (x) < c(α)

γ, falls T (x) = c(α),

wobei c(α) ∈ R und γ ∈ [0, 1] festgelegt werden über die Gleichung Eϑ0[ϕ∗]

= α.

(b) Der Test ϕ∗ ist gleichmäßig bester Test zum Niveau α für das einseitige TestproblemH0 versus

H1. Im Englischen spricht man von einem “uniformly most powerful (UMP) test”.

Beweis: Theorem 3.4.1 in Lehmann and Romano (2005).

Fehlen nun noch beste Tests für zweiseitige Testprobleme. Hier ist intuitiv klar, dass zwei kritische

Werte gebraucht werde und daher zu deren Bestimmung die MengeM der Niveau α-Tests ggfs.

weiter eingeschränkt werden muss, um zwei Bestimmungsgleichungen angeben zu können. Wir

verwenden als zweites Kriterium (neben Niveaueinhaltung) die Unverfälschtheit (englisch: unbia-

sedness).

60

Page 67: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Satz 4.10 (Zweiseitiger UMPU-Test)

Es sei (Ω,F , (Pϑ)ϑ∈Θ) ein statistisches Modell. Die Familie (Pϑ)ϑ∈Θ mit Θ ⊆ R offen bilde eine

einparametrische Exponentialfamilie in η(ϑ) und T , wobei η streng monoton und stetig differen-

zierbar um ϑ0 mit η(ϑ0) 6= 0 sei, ϑ0 ∈ Θ. Für α ∈ (0, 1), k1 < k2 und γ1, γ2 ∈ [0, 1] erfülle der

Test ϕ∗, gegeben durch

ϕ∗(x) =

1, falls T (x) < k1 oder T (x) > k2

0, falls k1 < T (x) < k2

γj , falls T (x) = kj , j = 1, 2

die Bedingungen (an k1, k2, γ1, γ2)

[1] Eϑ0[ϕ∗]

= α und [2] Eϑ0[T · ϕ∗

]= αEϑ0

[T].

Dann ist ϕ∗ gleichmäßig bester unverfälschter (englisch: uniformly most powerful unbiased,

UMPU) Test zum Niveau α für das zweiseitige Testproblem H0 : ϑ = ϑ0 versus H1 : ϑ 6= ϑ0.

Beweis: Seiten 111-113 in Lehmann and Romano (2005).

Bemerkung 4.11In der MengeM der Tests zum Niveau α impliziert Unverfälschtheit schon, dass [1] und [2] erfüllt

sein müssen, siehe Übungsaufgabe.

Liegen keine Exponentialfamilien oder keine isotonen Dichtequotienten vor, so fällt es in aller

Regel schwer, UMP- bzw. UMPU-Tests anzugeben, bzw. sie existieren nicht. Dennoch existiert

im Falle dominierter Modelle ein generisches Testprinzip, das der Likelihood-Quotienten Tests.

Das Testproblem braucht dabei weder einseitig noch zweiseitig zu sein.

Definition 4.12 (Likelihood-Quotienten-Test)

Es sei (Ω,F , (Pϑ)ϑ∈Θ) ein dominiertes statistisches Modell mit Likelihoodfunktion l(ϑ, x). Das

interessierende Testproblem sei gegeben durch H0 = Θ0 gegen H1 = Θ1, Θ0 6= Θ1 6= ∅,Θ0 + Θ1 = Θ. Wir bezeichnen

Λ : Ω→ [1,∞], Λ(·) :=supϑ∈Θ l(ϑ, ·)supϑ∈Θ0

l(ϑ, ·)

als Likelihood-Ratio-Statistik und jeden Test der Form

ϕ(x) =

1, falls Λ(x) > k

0, falls Λ(x) < k

γ(x), falls Λ(x) = k

für k ≥ 1 und γ(x) ∈ [0, 1] als einen Likelihood-Quotienten Test.

61

Page 68: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Bemerkung 4.13Sind ϑ bzw. ϑ0 Maximum-Likelihood-Schätzer für ϑ, wobei ϑ in Θ bzw. Θ0 variieren darf, so ist

Λ(x) =l(ϑ(x), x)

l(ϑ0(x), x).

Satz 4.14Unter den Voraussetzungen von Satz 4.9 (einseitige UMP-Tests) ist der Likelihood-Quotienten Test

gleich dem angegebenen UMP-Test, falls der MLE in Θ1 liegt.

Beweis:

Λ(x) =supϑ∈Θ l(ϑ, x)

supϑ∈Θ0l(ϑ, x)

=supϑ∈Θ1

l(ϑ, x)

supϑ∈Θ0l(ϑ, x)

= supϑ>ϑ0

l(ϑ, x)

l(ϑ0, x)· infϑ≤ϑ0

l(ϑ0, x)

l(ϑ, x),

da supϑ∈Θ l(ϑ, x) für ϑ ∈ Θ1 angenommen wird.

Wegen isotonem Dichtequotienten ist:

Λ(x) = supϑ>ϑ0

h(T (x), ϑ0, ϑ) · infϑ≤ϑ0

h(T (x), ϑ, ϑ0)

also eine wachsende Funktion in T (x) (vgl. Übungsaufgabe).

Satz 4.15 (cf. Wilks (1938))

Das Produktmodell (Ωn,Fn, (Pnϑ)ϑ∈Θ) erfülle die Voraussetzungen von Satz 3.22 über die Asym-

ptotik von Maximum-Likelihood-Schätzern mit eindimensionaler Likelihoodfunktion l(ϑ, x1) und

es existiere ein eindeutiger, konsistenter MLE ϑn. Die Hypothesenmenge Θ0 liege in einem r-

dimensionalen Unterraum von Θ ⊆ Rk mit 0 ≤ r < k, wobei r = 0 dem Testen von Punkthypo-

thesen Θ0 = ϑ0 entspricht. Dann gilt

2 log(Λn(X)) = 2

[supϑ∈Θ

n∑i=1

ln(l(ϑ,Xi))− supϑ∈Θ0

n∑i=1

ln(l(ϑ,Xi))

]D→ χ2

k−r

unter jedem Pϑ0 mit ϑ0 ∈ Θ0 ∩ [Θ \ ∂Θ].

Insbesondere besitzt der Likelihood-Quotienten-Test

ϕ(x) = 1log(Λn(x))>χ2(k−r);(1−α)/2

mit χ2(k−r);(1−α) dem (1−α)-Quantil von χ2

k−r damit auf der Menge Θ0 ∩ [Θ \ ∂Θ] asymptotisch

das Niveau α ∈ (0, 1).

Beispiel 4.16 (Multinomialverteilung)

Wir betrachten eine Folge von n stochastisch unabhängigen, gleichartigen Versuchen mit (jeweils)

k möglichen Ausgängen. Dabei trete der Ausgang i für 1 ≤ i ≤ k−1 bei einem einzelnen Versuch

mit Wahrscheinlichkeit pi auf und wir definieren ferner pk := 1−∑k−1

i=1 pi.

62

Page 69: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Sei Nj , 1 ≤ j ≤ k, die Zufallsvariable, die die Anzahl an Versuchen beschreibt, deren Ausgang

gleich j ist. Dann heißt N = (N1, . . . , Nk) multinomialverteilt mit Parametern n, k − 1 und p =

(p1, . . . , pk−1), wobei wir n und k als fest vorgegeben betrachten wollen, so dass dim(Θ) = k−1

gilt.

Genauer gilt

Θ = (p1, . . . , pk−1) ∈ [0, 1]k−1 :k−1∑j=1

pj ≤ 1.

Als Likelihoodstatistik erhalten wir

l(p,N) =n!∏k

j=1Nj !

k∏`=1

pN``

und als MLE ergibt sich analog zum Binomialmodell pj = Nj/n, 1 ≤ j ≤ k − 1.

Betrachten wir nun die Punkthypothese Θ0 = π für einen fest vorgegebenen Vektor π ∈ Θ, so

ergibt sich als Likelihood-Ratio-Statistik

Λn(N) =l(p, N)

l(π,N)und log(Λn(N)) = n

k∑j=1

pj log

(pjπj

),

wobei wir wieder πk = 1−∑k−1

i=1 πi setzen, und es gilt 2 log(Λn(N))D−→ χ2

k−1 nach Satz 4.15.

Zur Durchführung des resultierenden asymptotisch χ2-Tests kann die folgende Überlegung hilf-

reich sein. Betrachten wir die Funktion h, gegeben durch h(x) = x log(x/x0) für eine fest vorge-

gebene reelle Zahl x0 ∈ (0, 1). Dann ist die Taylor-Entwicklung von h(x) um x0 gegeben durch

h(x) = (x− x0) +1

2x0(x− x0)2 + o[(x− x0)2] für x→ x0

und damit ist für p „nahe bei“ π

2 log(Λn(N)) ≈ Qn mit Qn =

k∑j=1

(Nj − nπj)2

nπj.

Die Statistik Qn heißt Pearson’sche Chi-Quadrat Statistik. Es gilt präziser

2 log(Λn(N))−Qn → 0 stochastisch

unter der Nullhypothese, so das auch Qn asymptotisch eine χ2k−1-Verteilung unter p = π besitzt.

Bemerkung 4.17Asymptotische χ2-Tests lassen sich auf die Situation von (k × `)-Feldertafeln verallgemeinern.

Sind zwei kategorielle Zufallsvariablen X und Y gegeben, wobei X genau k Werte und Y genau

` Werte annehmen kann, so kann die Hypothese X ⊥ Y mit einem asymptotischen χ2-Test in der

beobachteten (k × `)-Kontingenztafel getestet werden.

63

Page 70: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

4.2 Tests für Parameter der Normalverteilung

Satz 4.18 (Multivariate Normalverteilung)

Seien X1, . . . , Xd iid. standardnormalverteilte Zufallsvariablen. Dann heißt X = (X1, . . . , Xd)t

standardnormalverteilt im Rd, vgl. Beispiel 1.26c).

Ist ferner Σ = QQt ∈ Rm×m mit Q ∈ Rm×d eine positiv definite, symmetrische Matrix und

Y = QX+µ, µ ∈ Rm, so heißt Y = (Y1, . . . , Ym)t allgemein normalverteilt im Rm, in Zeichen:

Y ∼ Nm(µ,Σ), vgl. Beispiel 1.26d). Es gilt:

a) Y hat die λm-Dichte

ϕµ,Σ(y) = (2π)−m/2| det Σ|−1/2 exp(−1

2(y − µ)tΣ−1(y − µ)).

b)

∀1 ≤ j ≤ m : E[Yj ] = µj , ∀1 ≤ i, j ≤ m : Cov (Yi, Yj) = Σi,j .

Beweis: Siehe Kapitel 3.1 in Fahrmeir and Hamerle (1984).

Satz 4.19 (Affine Transformationen)

Sei Y ∼ Nm(µ,Σ), k ≤ m, A ∈ Rk×m eine Matrix mit maximalem Rang und b ∈ Rk. Dann hat

der Zufallsvektor Z = AY + b die k-dimensionale Normalverteilung Nk(Aµ+ b, AΣAt).

Beweis: Satz 9.5 in Georgii (2007).

Lemma 4.20Ist X standardnormalverteilt auf R1, so hat X2 die Gamma-Verteilung Γ 1

2, 12.

Beweis: Übung.

Korollar 4.21Seien X1, . . . , Xn iid. auf R1 mit L(X1) = N (0, 1). Dann ist

n∑i=1

X2i ∼ Γ 1

2,n2

= χ2n.

Beweis: Nach Lemma 4.20 istX1 ∼ Γ 12, 12. Faltungsstabilität der Familie der Gammaverteilungen

bezüglich des zweiten Parameters (siehe Übungsaufgabe) liefert die Aussage.

Anmerkung: Die Verteilung von∑n

i=1X2i wurde erstmals 1863 in der Dissertation von Ernst

Abbe (später Carl Zeiss Jena) hergeleitet, siehe Kendall (1971).

Lemma 4.22Seien α, r, s > 0 und X,Y stochastisch unabhängige Zufallsvariablen mit X ∼ Γα,r und

Y ∼ Γα,s. Dann sind S = X + Y und R = XX+Y stochastisch unabhängig mit S ∼ Γα,r+s

und R ∼ Beta(r, s).

64

Page 71: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beweis: Übung.

Satz und Definition 4.23Seien X1, . . . , Xm, Y1, . . . , Yn iid. standardnormalverteilt auf R1. Dann hat der Quotient

Fm,n := m−1m∑i=1

X2i / (n−1

n∑j=1

Y 2j )

die folgende Verteilungsdichte bezüglich λ:

fm,n(x) =mm/2nn/2

B(m/2, n/2)

xm/2−1

(n+mx)(m+n)/21(0,∞)(x).

Die Verteilung von Fm,n heißt Fisher’sche F -Verteilung mit m und n Freiheitsgraden (nach Sir R.

A. Fisher, 1890-1962).

Beweis: Übung.

Korollar und Definition 4.24Seien X,Y1, . . . , Yn iid. auf R mit X ∼ N (0, 1). Dann hat

T =X√

n−1∑n

j=1 Y2j

die λ-Dichte t 7→ τn(t) = (1 +t2

n)−

n+12 B(1/2, n/2)

√n−1.

Die Verteilung von T heißt Studentische t-Verteilung mit n Freiheitsgraden.

Beweis: Nach Satz 4.23 ist T 2 ∼ F1,n. Nach Transformationssatz hat daher |T | =√T 2 die

Dichtefunktion t 7→ f1,n(t2) · 2t, t > 0. Wegen der Symmetrie von N (0, 1) ist aber auch T

symmetrisch um 0 verteilt, d.h., T und −T haben die gleiche Verteilung. Also hat T die Vertei-

lungsdichte t 7→ f1,n(t2) · |t| = τn(t).

Satz 4.25 (Student (1908))

Im Gaußmodell (Rn,B(Rn), (Nµ,σ2)n)ϑ=(µ,σ2)∈Θ:=R×(0,∞) gilt für alle ϑ ∈ Θ:

(a)

Xn = n−1n∑j=1

Xj und S2 = (n− 1)−1n∑i=1

(Xi − Xn)2

sind stochastisch unabhängig.

(b)

Xn ∼ N (µ, σ2/n) undn− 1

σ2S2 ∼ χ2

n−1.

(c)

Tn :=

√n(Xn − µ)

S∼ tn−1.

65

Page 72: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Anmerkung: W. S. Gosset publizierte 1908 unter dem Pseudonym “Student”, da sein Arbeitge-

ber, die Guinness-Brauerei, ihren Mitarbeitern die Veröffentlichung wissenschaftlicher Arbeiten

verbot.

Damit folgen die auf dem Handout (Seiten 200-204 aus Witting (1985)) wiedergegebenen Stan-

dardtests für die Parameter der Normalverteilung allesamt aus der allgemeinen Testtheorie gemäß

Abschnitt 4.1. Eine weitere wichtige Anwendung ist das Testen linearer Hypothesen in linearen

Modellen.

Modell 4.26 (Klassische multiple lineare Regression, ANCOVA)

Wir betrachten den Stichprobenraum (Rn,B(Rn)) und modellieren Beobachtungen (y1, . . . , yn)

als Realisierungen von reellwertigen stochastisch unabhängigen Zufallsvariablen (Y1, . . . , Yn)

mit

∀1 ≤ i ≤ n : Yi = f(xi,1, . . . , xi,k) + εi = β0 +k∑j=1

βjxi,j + εi. (4.1)

Der Vektor β = (β0, β1, . . . , βk)t ist der Parameter von Interesse. Wir setzen p := k + 1, kürzen

ab:

Y := (Y1, . . . , Yn)t ∈ Rn : Response-Vektor

X :=

1 x1,1 . . . x1,k

......

...

1 xn,1 . . . xn,k

∈ Rn×p : Design-Matrix

ε := (ε1, . . . , εn)t ∈ Rn : Vektor der Fehlerterme

β ≡ (β0, β1, . . . , βk)t ∈ Rp : Parametervektor

und erhalten als Matrixschreibweise von (4.1)

Y = Xβ + ε. (4.2)

Ferner machen wir die folgenden Modellannahmen:

(a) Die Designmatrix habe maximalen Rang, so dass XtX ∈ Rp×p positiv definit und inver-

tierbar ist.

(b) Die Fehlerterme seien iid., wobei Pε1 induziert sei durch F . Es gelte E [ε1] = 0 und

0 < σ2 := Var (ε1) < ∞, also insbesondere Homoskedastizität. Die unbekannte Vertei-

lungsfunktion F sei ein Störparameter, also nicht selbst Ziel der statistischen Inferenz.

Optional machen wir an einigen Stellen zusätzlich eine Normalverteilungsannahme an die Fehler-

terme:

66

Page 73: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(c) ε1 ∼ N (0, σ2).

Definition 4.27 (Residuen)

Ist ein Schätzer β des Parametervektors verfügbar, so erhalten wir einen (naheliegenden plug-in)

Schätzer für den (bedingten) Erwartungswertvektor von Y durch E[Y ] = Xβ. Wir definieren die

Komponenten von E[Y ] als Yi := β0 + β1xi,1 + . . . + βkxi,k, i = 1, . . . , n und die sogenannten

Residuen als beobachtete Abweichungen der tatsächlich beobachteten Werte der Responsevaria-

blen von den Schätzwerten ihrer (bedingten) Erwartungswerte, also εi = yi − yi, 1 ≤ i ≤ n.

Satz 4.28Unter Modell 4.26 gilt:

(a) Der Kleinste Quadrate (KQ)-Schätzer des Parametervektors β ist gegeben durch

β ≡ β(Y ) = (XtX)−1XtY

und damit folgt außerdem die Darstellung

β − β = (XtX)−1Xtε.

(b) Durch Einsetzen von β in Y = Xβ ergibt sich ferner

Y = X(XtX)−1XtY =: HY

mit der (n×n)-MatrixH = X(XtX)−1Xt. Die MatrixH wird als Prädiktionsmatrix bzw.

hat matrix bezeichnet und X+ = (XtX)−1Xt heißt auch (Moore-Penrose) Pseudoinverse

von X .

(c) Nehmen wir speziell normalverteilte Fehlerterme an, so stimmt der Maximum-Likelihood-

Schätzer von β mit dem angegebenen KQ-Schätzer überein.

(d) Für den Schätzer β, gegeben durch β = (XtX)−1XtY gilt

E[β] = β und Cov(β) = σ2(XtX)−1.

Bemerkung 4.29Für β = X+Y wie unter Satz 4.28 gilt die sogenannte Streuungszerlegung:

n∑i=1

(yi − y)2 =

n∑i=1

(yi − y)2 +

n∑i=1

ε2i

⇐⇒: SST = SSR+ SSE

⇐⇒: s2y = s2

y + s2ε.

67

Page 74: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Satz 4.30 (Rechenregeln für Erwartungswertvektoren und Kovarianzmatrizen)

Seien Z1 und Z2 Zufallsvektoren mit Werten im Rd und A bzw. b geeignet dimensionierte, deter-

ministische Matrix bzw. Vektor sowie E[Z1] =: µ und Cov(Z1) := E[(Z1 − µ)(Z1 − µ)t] =: Σ.

Dann gilt

(i) E[Z1 + Z2] = E[Z1] + E[Z2].

(ii) E[AZ1 + b] = Aµ+ b.

(iii) Cov(Z1) = E[Z1Zt1]− µµt.

(iv) Var(btZ1) = btΣb =∑d

i=1

∑dj=1 bibjσij .

(v) Cov(AZ1 + b) = AΣAt.

(vi) E[Zt1AZ1] = sp(AΣ) + µtAµ.

Beweis: Satz B.1 in Fahrmeir et al. (2009).

Satz 4.31 (Multivariater zentraler Grenzwertsatz)

Wir betrachten Folgen von ANCOVA-Modellen, indiziert mit dem Stichprobenumfang n. Dabei

seien die folgenden beiden Voraussetzungen an die Folge von Designmatrizen (Xn)n≥p erfüllt.

(i) n−12 max

1≤i≤n,1≤j≤p

∣∣xi,j∣∣ −→ 0 für n→∞.

(ii) n−1XtnXn −→ V für eine positiv-definite, symmetrische Matrix V ∈ Rp×p.

Dann sind die folgenden beiden Aussagen richtig.

(a) Es sei at = (a1, . . . , ap) ein beliebig ausgewählter, aber fest vorgegebener Vektor im Rp.Dann gilt mit ρ2 = σ2atV a, dass

L(n−

12atXt

nε)

w−−−→n→∞

N (0, ρ2).

(b) Für β(n) = X+n Yn gilt, dass

L(√

n β(n)− β)

w−−−→n→∞

Np(0, σ2V −1

).

Beweis: Sei Sn := atXtnε. Wir beachten, dass

Sn =

p∑j=1

(aj

n∑i=1

xi,jεi

)=

n∑i=1

εi

p∑j=1

ajxi,j

=:

n∑i=1

bi εi

68

Page 75: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

eine Summe stochastisch unabhängiger, zentrierter Zufallsvariablen ist. Ferner gilt

Var (Sn) = σ2n∑i=1

b2i = σ2n∑i=1

p∑j,`=1

aja`xi,jxi,`

= σ2p∑

j,`=1

aja`(XtnXn)j,`

= σ2at(XtnXn)a.

Damit folgt Var(n−

12Sn

)= n−1σ2atXt

nXna −→ ρ2 = σ2atV a für n→∞.

Überprüfung der Lindeberg-Bedingung unter Verwendung von Annahme (i) komplettiert den Be-

weis von Aussage (a).

Zum Beweis von Aussage (b) beachten wir die unter Satz 4.28.(a) berechnete Darstellung

√nβ(n)− β =

1√n

(n−1XtnXn)−1Xt

nε.

Nach Cramér-Wold device (siehe z.B. Shorack and Wellner (1986), Seite 862) gilt

L(

1√nXtnε

)w−−−→

n→∞Np(0, σ2V

).

Da nach Annahme (ii) ferner (n−1XtnXn)−1 gegen V −1 konvergent ist, gilt insgesamt

L(

1√n

(n−1XtnXn)−1Xt

)w−−−→

n→∞Np(0, σ2V −1

).

Satz 4.32 (Verteilung quadratischer Formen)

1. Sei X ∼ Nn(µ,Σ) mit Σ symmetrisch und positiv definit.

Dann gilt (X − µ)tΣ−1(X − µ) ∼ χ2n.

2. Sei X ∼ Nn(0, In), R eine symmetrische, idempotente (n × n)-Matrix mit rang(R) = r

und B eine (p× n)-Matrix mit p ≤ n. Dann gilt

(a) XtRX ∼ χ2r

(b) Aus BR = 0 folgt: XtRX ist stochastisch unabhängig von BX .

3. Seien X ∼ Nn(0, In) und R sowie S symmetrische und idempotente (n× n)-Matrizen mit

rang(R) = r, rang(S) = s und RS = 0. Dann gilt

(a) XtRX und XtSX sind stochastisch unabhängig.

(b) srXtRXXtSX ∼ Fr,s.

69

Page 76: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beweis: Satz B.6 in Fahrmeir et al. (2009).

zu 1. Sei Σ1/2 die symmetrische und positiv definite Matrix mit Σ1/2 · Σ1/2 = Σ und inverser

Matrix Σ−1/2. Dann ist Z := Σ−1/2(X − µ) ∼ Nn(0, In). Aus der Definition der Chi-

Quadrat-Verteilung folgt ZtZ ∼ χ2n und damit die Behauptung.

zu 2. (a) Da R idempotent und symmetrisch ist, existiert eine orthogonale Matrix P mit R =

PDrPt, wobei Dr =

(Ir 0

0 0

). Weil P orthogonal ist, ist mit X auch auch W := P tX

gemäß Nn(0, In) verteilt. Die Aussage ergibt sich nun unter Verwendung von

XtRX = XtR2X = (RX)t(RX) = (PDrW )t(PDrW ) = W tDrPtPDrW

= W tDrW =

r∑i=1

W 2i

und der Definition der Chi-Quadrat-Verteilung.

(b) Es ist Z1 := BX ∼ Nn(0, BtB) und Z2 := RX ∼ Nn(0, R). Aus

Cov(Z1, Z2) = Cov(BX,RX) = B Cov(X)Rt = BR = 0

und der Normalverteilungseigenschaft folgt die stochastische Unabhängigkeit von Z1 und

Z2. Damit sind aber auch Z1 = BX und Zt2 · Z2 = XtRX stochastisch unabhängig.

zu 3. (a) Hier setzen wir Z1 := SX ∼ Nn(0, S) und Z2 := RX ∼ Nn(0, R). Wir berechnen

wieder

Cov(Z1, Z2) = S Cov(X)R = SR = StRt = (RS)t = 0.

Erneut folgt aufgrund der Normalverteilungseigenschaft aus der Unkorreliertheit die sto-

chastische Unabhängigkeit von Z1 und Z2 und damit die stochastische Unabhängigkeit von

Zt1Z1 und Zt2Z2. Die Behauptung ergibt sich nun aus den Identitäten XtSX = Zt1Z1 und

XtRX = Zt2Z2. Teil (b) ist eine einfache Folgerung aus 3.(a) und 1.

Definition 4.33 (Lineare Hypothesen)

Unter Modell 4.26 sei K eine deterministische (r × p)-Matrix mit rang(K) = r ≤ p. Wir nen-

nen K Kontrastmatrix und jedes Testproblem der Form H0: Kβ = d versus H1: Kβ 6= d mit

d ∈ Rr×1 fest vorgegeben ein (zweiseitiges) lineares Testproblem. Das bedeutet, dass unter der

linearen Hypothese H0 insgesamt r ≤ p linear unabhängige Bedingungen an die Parameter des

ANCOVA-Modells gestellt sind.

70

Page 77: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beispiel 4.34

(i) Test auf signifikanten Zusammenhang einer bestimmten Kovariable mit der Response:

H0 : βj = 0 vs. H1 : βj 6= 0

für ein vorgegebenes 1 ≤ j ≤ k.

⇒ K ∈ R1×p mit Einträgen Ki = 1i=j+1, und d = 0.

(ii) Test eines Subvektors β∗ = (β1, . . . , βr)t:

⇒ K =

0 1 0 . . . 0 0 . . . 0

0 0 1 . . . 0 0 . . . 0...

. . . 0 0 . . . 0

0 0 0 . . . 1 0 . . . 0

∈ Rr×p (4.3)

mit Einträgen Ki` = 1`=i+1 und d = 0.

(iii) Test auf Gleichheit zweier Regressionskoeffizienten:

H0 : βj1 − βj2 = 0 versus H1 : βj1 − βj2 6= 0, mit 1 ≤ j1 6= j2 ≤ k.

⇒ K ∈ R1×p mit Einträgen Ki = 1i=j1+1 − 1i=j2+1,

also K = (0, . . . , 0, 1︸︷︷︸j1+1-te

, 0, . . . , 0, −1︸︷︷︸j2+1-te

, 0, . . . , 0) und d = 0.

Satz 4.35Unter Modell 4.26 gilt:

(a) Zur Berechnung der Teststatistik eines Likelihood-Quotienten-Tests (also der Devianz) zum

Prüfen der lineare Hypothese H0: Kβ = d muss eine Maximierung der (Log-) Like-

lihoodfunktion unter den mittels K und d kodierten linearen Nebenbedingungen durchge-

führt werden. Dieser rechenintensive Schritt kann vermieden werden durch Verwendung der

Wald-Statistik

W = (Kβ − d)t(KV Kt)−1(Kβ − d), (4.4)

wobei β den MLE im vollen Modell und V die geschätzte Kovarianzmatrix von β bezeich-

nen. Die Statistik W ist asymptotisch äquivalent zur Devianz 2 log Λn(Y ) und es gilt insbe-

sondere L(W )w−−→H0

χ2r für n→∞.

(b) Treffen wir die Zusatzannahme 4.26.(c), so ist die Devianz eine isotone Transformation von

F = n−pr

∆SSESSE mit ∆SSE = SSEH0−SSE. Ferner ist F unterH0 dann exakt F -verteilt:

F ∼H0

Fr,n−p.

71

Page 78: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(c) Unter den Gegebenheiten von Teil (b) gilt W = rF .

Beweis: Zum Beweis der asymptotischen χ2r-Verteilung in Teil (a) kehren wir zurück zur Asym-

ptotik des MLE, vgl. Satz 3.22. Es gilt

√n(ϑn − ϑ0)

D→ N (0, I(ϑ0)−1) unter Pnϑ0 für n→∞

unter den genannten Regularitätsannahmen.

⇒ I(ϑ0)1/2n1/2(ϑn − ϑ0)D→ N (0, Ir), wobei r := dim(ϑ0).

Das Continuous Mapping Theorem liefert damit, dass

(ϑn − ϑ0)tnI(ϑ0)(ϑn − ϑ0)D→ χ2

r .

Ist die Fisher-Information stetig und I(ϑn) ein konsistenter Schätzer für I(ϑ0), so gilt auch

(ϑn − ϑ0)tnI(ϑn)(ϑn − ϑ0)D→ χ2

r . [A]

Beachte: nI(ϑ0) ist Fisher-Information des Produktmodells!

In unserem Fall ist H0 : Kβ − d = 0 zu prüfen, also ϑ0 = Kβ − d und ϑn = Kβ − d. Einsetzen

dieser Terme in [A] liefert L(W )w−−→H0

χ2r für n→∞. Weitere Details siehe Abschnitt 12.4.2 in

Lehmann and Romano (2005).

Für Teil (b) kürzen wir in Anlehnung an Bemerkung 4.13 ab

βH0 : MLE im reduzierten Modell (unter den durch K und d kodierten Nebenbedingungen),

σ2H0 : MLE der Fehlervarianz im reduzierten Modell,

l(y) := l((β, σ2ML), y),

lH0(y) := l((βH0 , σ2H0), y)

und berechnen

2 log ∆n(y) = 2[ln(l(y))− ln(lH0(y))

]= 2

[−n

2log(2πσ2

ML)− SSE

2σ2ML

+n

2log(2πσ2

H0) +SSEH0

2σ2H0

]

= n log(σ2

H0

σ2ML

) = n log(SSEH0

SSE) = n log(

∆SSE

SSE+ 1).

Zur Herleitung der Fr,n−p-Verteilung von F = n−pr

∆SSESSE verwenden wir Satz 4.32.3. Dazu

müssen wir noch zeigen:

(i) ∆SSE/σ2 ∼ χ2r

72

Page 79: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(ii) ∆SSE und SSE sind stochastisch unabhängig.

Wir zeigen die Eigenschaften (i) und (ii) sowie die Aussage von Teil (c) als Korollar 4.37.

Satz 4.36Unter den Gegebenheiten von Satz 4.35.(b) und (c) gilt:

(i) βH0 = β − (XtX)−1Kt(K(XtX)−1Kt)−1(Kβ − d).

Dieses βH0 erfüllt KβH0 = d, da KβH0 = Kβ − K(XtX)−1Kt(K(XtX)−1Kt)−1·(Kβ− d) = Kβ−Kβ+ d = d. Ferner ist βH0 = β, falls β bereits die Nebenbedingungen

erfüllt.

(ii) Mit der Abkürzung ∆H0 = (XtX)−1Kt(K(XtX)−1Kt)−1(Kβ − d) gilt

SSEH0 = εtε+ ∆tH0XtX∆H0 .

(iii) ∆SSE = (Kβ − d)t(K(XtX)−1Kt)−1(Kβ − d), also eine quadratische Form.

Beweis: Wegen Zusatzannahme 4.26.(c) ist βH0 hier sowohl KQ-Schätzer als auch MLE.

Zur expliziten Herleitung von βH0 bemerken wir zunächst, dass wir für jeden Vektor γ ∈ Rp wie

folgt umformen können.

||Y −Xγ||22 = (Y −Xγ)t(Y −Xγ)

= (Y t − γtXt)(Y −Xγ)

= Y tY − Y tXγ − γtXtY + γtXtXγ

= Y tY + γtXtXγ − 2Y tXγ.

Sei nun F = γ ∈ Rp : Kγ = d. Obige Rechnung zeigt, dass arg minγ∈F ||Y − Xγ||22 =

arg minγ∈FγtXtXγ − 2Y tXγ = arg minγ∈FγtXtXγ/2− Y tXγ ist.

Wir verwenden nun ein bekanntes Resultat aus der Linearen Algebra II: Soll eine Zielfunktion der

Form f(γ) = γtQγ/2− ctγ über dem Suchraum F minimiert werden, so ist die Lösung dadurch

gegeben, dass das lineare Gleichungssystem

Qγ −Ktξ = c

Kγ = d

simultan nach (γ, ξ) gelöst wird. In unserem Fall identifizieren wir Q = XtX und ct = Y tX und

haben folglich

XtXγ −Ktξ = XtY (4.5)

Kγ = d (4.6)

73

Page 80: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

zu lösen. Aus (4.5) erhalten wir unmittelbar

γ = β + (XtX)−1Ktξ. (4.7)

Setzen wir dieses γ in (4.6) ein, so ergibt sich ξ = [K(XtX)−1Kt]−1(d−Kβ). Rücksubstitution

von ξ in (4.7) ergibt schließlich

βH0 = β + (XtX)−1Kt[K(XtX)−1Kt]−1(d−Kβ)

= β − (XtX)−1Kt[K(XtX)−1Kt]−1(Kβ − d)

wie gewünscht.

Zum Nachweis der Aussagen unter (ii) und (iii) setzen wir nun βH0 = β −∆H0 in die Residuen

ein. Wir erhalten

yH0 = XβH0 = X(β −∆H0) = Xβ −X∆H0 = y −X∆H0 ,

εH0 = y − yH0 = y − y +X∆H0 = ε+X∆H0

und damit

SSEH0 = εtH0εH0 = (ε+X∆H0)t(ε+X∆H0)

= εtε+ εtX∆H0 + ∆tH0Xtε+ ∆t

H0XtX∆H0

= εtε+ ∆tH0XtX∆H0 ,

da Xtε = 0 ist (geometrische Eigenschaft von β). Damit ist

∆SSE = εtε+ ∆tH0XtX∆H0 − εtε = ∆t

H0XtX∆H0

=[(XtX)−1Kt(K(XtX)−1Kt)−1(Kβ − d)

]tXtX(XtX)−1Kt(K(XtX)−1Kt)−1(Kβ − d)

= (Kβ − d)t(K(XtX)−1Kt)−1K(XtX)−1Kt(K(XtX)−1Kt)−1(Kβ − d)

= (Kβ − d)t(K(XtX)−1Kt)−1(Kβ − d).

Korollar 4.37Unter den Gegebenheiten von Satz 4.35.(b) und (c) gilt:

(a) ∆SSE/σ2 ∼ χ2r

(b) ∆SSE⊥SSE

(c) W = rF = (n− p)∆SSESSE

74

Page 81: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Beweis: Für Teil (a) benutzen wir Satz 4.32.1. Wir definieren Z = Kβ. Unter H0 gilt dann

E [Z] = d und Cov(Z) = σ2K(XtX)−1Kt und, da β normalverteilt ist, gilt sogar

Z ∼ Nr(d, σ2K(XtX)−1Kt).

Zum Nachweis von Teil (b) beachten wir, dass ∆SSE eine Funktion (alleine) von β ist. Da

β⊥SSE ist, ist somit auch ∆SSE⊥SSE.

Schließlich rechnen wir für den Nachweis von Teil (c), dass

F =n− pr

∆SSE

SSE=n− pr

(Kβ − d)t(K(XtX)−1Kt)−1(Kβ − d)

(n− p)σ2

=(Kβ − d)t(σ2K(XtX)−1Kt)−1(Kβ − d)

r

=(Kβ − d)t(KV Kt)−1(Kβ − d)

r=W

r.

Beispiel 4.38 (Fortführung von Beispiel 4.34)

Für drei spezielle Testprobleme berechnen wir die konkrete Gestalt der F-Statistik.

(i) Test auf (signifikanten) Einfluss einer bestimmten Kovariable auf die Response:

H0 : βj = 0, H1 : βj 6= 0, 1 ≤ j ≤ k fest vorgegeben.

Wir haben K ∈ R1×p mit Einträgen Ki = 1i=j+1 nach Beispiel 4.34.(i) und d = 0.

Einsetzen liefert

∆SSE =SSE

n− p(βj)

2

Var(βj)und damit

F = (n− p)∆SSE

SSE=

(βj)2

Var(βj)und F ∼

H0

F1,(n−p).

Dieser F-Test ist äquivalent zum zweiseitigen t-Test mit der Teststatistik

T =|βj |

SE(βj)mit SE(βj) :=

√Var(βj).

(ii) Test eines Subvektors β∗ = (β1, . . . , βr):

Hier ist K ∈ Rr×p mit Einträgen Ki` = 1`=i+1, d = 0.

Damit ist

∆SSE =SSE β∗[Cov(β∗)]−1β∗

n− psowie F =

n− pr

∆SSE

SSE=β∗[Cov(β∗)]−1β∗

r

mit der Verteilungseigenschaft F ∼H0

Fr,(n−p).

75

Page 82: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

(iii) Globaltest:

H0 : βj = 0 ∀1 ≤ j ≤ k versus H1 : ∃j ∈ 1, . . . , k : βj 6= 0.

Hier ist SSEH0 = SST =∑n

i=1(Yi − Y )2 und damit nach Streuungszerlegung

∆SSE = SSEH0 − SSE = SST − SSE = SSR =n∑i=1

(Yi − Y )2

⇒ F =n− pk

∆SSE

SSE=n− pk

SSR

SSE=n− pk

R2

1−R2und F ∼

H0

Fk,(n−p).

Anmerkung: F-Tests können auch als Hotelling’s T 2-Tests ausgeführt werden. Es gilt nämlich:

Ist F ∼ Fr,s, so ist r(s+r−1)s F ∼ T 2(r, s+ r − 1) (Hotelling’s T 2-Verteilung, Hotelling (1931)).

Bemerkung 4.39Der multivariate zentrale Grenzwertsatz 4.31 besagt, dass auch ohne die Zusatzannahme 4.26.(c)

zumindest asymptotisch/approximativ gilt

β(n) ∼asNp(β, σ2

n(XtnXn)−1).

Damit bleiben alle unsere Resultate zur Testtheorie in linearen Modellen auch ohne die Annahme

normalverteilter Fehlerterme für große Stichprobenumfänge zumindest approximativ gültig. Sind

die Stichprobenumfänge indes nur moderat, bieten sich stattdessen Resamplingverfahren an, wenn

4.26.(c) nicht angenommen werden kann.

4.3 Bereichsschätzungen und der Korrespondenzsatz

Es gibt Dualitäten zwischen Testproblemen / Tests und (Bereichs-)Schätzproblemen / Konfidenz-

intervallen.

Definition 4.40Gegeben sei ein statistisches Modell (Ω,A,P = Pϑ : ϑ ∈ Θ). Dann heißt C = (C(x) : x ∈ Ω)

mit C(x) ⊆ Θ∀x ∈ Ω eine Familie von Konfidenzbereichen zum Konfidenzniveau 1 − α für

ϑ ∈ Θ :⇐⇒ ∀ϑ ∈ Θ : Pϑ (x ∈ Ω : C(x) 3 ϑ) ≥ 1− α.

Anmerkung: Ohne weitere Anforderungen an C ist diese Definition wertlos, da C(x) ≡ Θ ge-

setzt werden kann. „Optimale“ Konfidenzbereiche sollten möglichst „klein“ (d. h., informativ)

sein unter der Maßgabe, dass die Überdeckungswahrscheinlichkeit mindestens gleich dem Konfi-

denzniveau 1 − α ist. Berger (1985), Abschnitt 6.6.3, formalisiert das Bereichsschätzproblem als

statistisches Entscheidungsproblem und diskutiert vernünftige Verlustfunktionen in diesem Zu-

sammenhang.

Wir thematisieren das Bereichsschätzproblem hier nur in seiner Dualität zur Testtheorie.

76

Page 83: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Satz 4.41 (Korrespondenzsatz, siehe z.B. Lehmann and Romano (2005) oder Witting, 1985)

(a) Liegt für jedes ϑ ∈ Θ ein Test ψϑ für das Testproblem H0 = ϑ gegen H1 = Θ \ϑ zum Niveau α vor und wird ψ = (ψϑ, ϑ ∈ Θ) gesetzt, so ist C(ψ), definiert über

C(x) = ϑ ∈ Θ : ψϑ(x) = 0, eine Familie von Konfidenzbereichen zum Konfidenzniveau

1− α.

(b) Ist C eine Familie von Konfidenzbereichen zum Konfidenzniveau 1 − α und definiert man

ψ = (ψϑ, ϑ ∈ Θ) über ψϑ(x) = 1− 1C(x)(ϑ), so ist ψ ein multipler Test zum allgemeinen

lokalen Niveau α, d. h., ψϑ ist Test zum Niveau α für jedes ϑ ∈ Θ.

Beweis:Sowohl in (a) als auch in (b) erhält man ∀ϑ ∈ Θ : ∀x ∈ Ω : ψϑ(x) = 0⇐⇒ ϑ ∈ C(x). Also ist

ψ ein Test zum allgemeinen lokalen Niveau α genau dann, wenn

∀ϑ ∈ Θ : Pϑ (ψϑ = 0) ≥ 1− α

⇔ ∀ϑ ∈ Θ : Pϑ (x : C(x) 3 ϑ) ≥ 1− α

⇔ C ist Familie von Konfidenzbereichen zum Konfidenzniveau 1− α.

Bemerkung 4.42

(a) Die Dualität ψϑ(x) = 0 ⇔ ϑ ∈ C(x) lässt sich schön grafisch veranschaulichen, falls Ω

und Θ jeweils eindimensional sind.

(b) Ein einzelner Test ψ zum Niveau α für eine Hypothese H kann interpretiert werden als

(1− α)-Konfidenzbereich. Setze dazu

C(x) =

Θ , falls ψ(x) = 0,

K = Θ\H , falls ψ(x) = 1.

Umgekehrt liefert jeder Konfidenzbereich C(x) einen Test zum Niveau α für eine Hypothese

H ⊂ Θ mit zugehöriger Alternative K = Θ \H . Setze hierzu ψ(x) = 1K(C(x)), wobei

1B(A) :=

1 , falls A ⊆ B,

0 , sonst.

für beliebige Mengen A und B.

77

Page 84: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

- x

x∗︸ ︷︷ ︸ψϑ∗ (x)=0

6

ϑ

ϑ∗

C(x∗)

Abbildung 4.1: Dualität ψϑ(x) = 0 ⇔ ϑ ∈ C(x)

Beispiel 4.43Im Gaußmodell (Rn,B(Rn), ((N (µ, σ2))n)µ∈R=Θ) mit bekannter Varianz σ2 > 0 sei ein mög-

lichst kleiner (bezüglich des Lebesguemaßes) Teilbereich der reellen Achse gesucht, der den un-

bekannten Erwartungswert µ mit einer Wahrscheinlichkeit von (1−α) überdeckt und der nur von

x ∈ Rn abhängen darf.

Lösung: Die Statistik Xn ist suffizient für µ. Die Verteilung von√n(Xn−µ)/σ istN (0, 1). Damit

ist Xn unter µ symmetrisch um µ verteilt mit exponentiell abfallender Verteilungsmasse zu beiden

Seiten. Also ist ein optimaler Konfidenzbereich von der Form

C(x) = [µ− k(x), µ+ k(x)] mit µ ≡ µ(x) = xn.

78

Page 85: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Wir müssen zur Berechnung von k(x) das Konfidenzniveau (1− α) garantieren:

Pµ([Xn − k, Xn + k] 3 µ)!

= 1− α

⇔ Pµ(Xn − k ≤ µ ≤ Xn + k) = 1− α

⇔ Pµ(√nk

σ≥ Xn − µ

σ/√n≥ −√nk

σ) = 1− α

⇔ Pµ(−√nk

σ≤ Z ≤

√nk

σ) = 1− α, wobei Z ∼ N (0, 1)

⇔ Φ(√nk

σ)− Φ(−

√nk

σ) = 1− α

⇔ 2Φ(√nk

σ)− 1 = 1− α

⇔ Φ(√nk

σ) = 1− α

2⇔√nk

σ= z1−α/2 ⇔ k =

σ√nz1−α/2

⇒ C(x) =

[xn −

σ√nz1−α/2, xn +

σ√nz1−α/2

].

Bemerkung 4.44

a) Ist σ2 > 0 unbekannt, so liefert der Korrespondenzsatz 4.41, angewendet auf den t-Test

(Witting-Handout, Test Nr. 2) in Verbindung mit dem Kommentar über zweiseitige Tests auf

Seite 152 e), dass ein optimaler (1− α)-Konfidenzbereich für µ gegeben ist durch

C(x) =

[xn −

σ(x)√ntn−1,1−α/2, xn +

σ(x)√ntn−1,1−α/2

].

b) Die Rechnung unter Beispiel 4.43 hängt nicht von der konkreten Bauart von Xn, sondern

lediglich von der Tatsache ab, dass√n(Xn − µ)/σ standardnormalverteilt ist. Sie kann also

analog für andere Modelle mit normalverteilten suffizienten Statistiken durchgeführt werden.

In Kapitel 3.2 haben wir asymptotische Normalität als eine wünschenswerte Eigenschaft von

Punktschätzern kennengelernt. In Anknüpfung an Beispiel 4.43 in Verbindung mit Bemerkung

4.44b) erhalten wir das folgende Resultat.

Satz 4.45Sei (Ωn,Fn, (Pnϑ)ϑ∈Θ⊆Rk) ein Produktmodell mit den unter Satz 3.22 angegebenen Eigenschaf-

ten und ϑn(X) ein asymptotisch normalverteilter Punktschätzer für ϑ ∈ Rk in dem Sinne, dass√n(ϑn(X) − ϑ0)

D→ N (0, I−1(ϑ0)) unter ϑ0. Sei % : Θ → R eine stetig differenzierbare Abbil-

dung mit Gradient %(ϑ) 6= 0.

Dann gilt:

√n%(ϑn(X))− %(ϑ0)

D→ N (0, σ2

ϑ0) unter Pϑ0 mit σ2ϑ0 = %(ϑ0)I−1(ϑ0)%(ϑ0)t.

79

Page 86: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Ist die Fisher-Information stetig, so ist ein Konfidenzintervall für %(ϑ0) mit asymptotischer Über-

deckungswahrscheinlichkeit (1− α) gegeben durch

C(x) =[%(ϑn(x))± z1−α/2 σn

]mit

σ2n := %(ϑn(x))I−1(ϑn(x))

[%(ϑn(x))

]t.

Beweis: Abschnitt 12.4.2 in Lehmann and Romano (2005).

80

Page 87: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Kapitel 5

Ausgewählte weitere Themen

5.1 Grundlagen der stochastischen Simulation

Anwendung 5.1 (Näherungsweise Bestimmung von π)

Seien U und V zwei stochastisch unabhängige, identisch UNI[−1, 1]-verteilte Zufallsvariablen

und Z := (U, V ) mit Werten in [−1, 1]2. Dann ist Z bivariat gleichverteilt auf dem Quadrat

[−1, 1].

Bezeichnet K2(1) die Kreisscheibe mit Mittelpunkt 0 und Radius 1, so gilt nach geometrischer

Wahrscheinlichkeit

P(Z ∈ K2(1)) =λ2(K2(1))

λ2([−1, 1]2)=π

4

wobei λ2 das Lebesguemaß im R2 bezeichnet.

Sind also (Zj)j≥1 iid nach L(Z) verteilt, so liefert eine bivariate Version von 11.1a)

limn→∞

4

n

n∑i=1

1K2(1)(Zi) = π mit Wahrscheinlichkeit 1

Ein bivariater Zentraler Grenzwertsatz erlaubt ferner eine Vorbestimmung von n bei geforderter

Präzision der Näherungsrechnung.

Bemerkung 5.2Ist allgemeiner d ∈ N, A ⊂ Rd mit λd(A) <∞, so kann λd(A) wie folgt approximiert werden.

(1) Wähle Rd 3 B ⊃ A

(2) Erzeuge (Xi = xi)1≤i≤n iid. (quasi-/pseudo-iid.) mit X1 ∼ UNI(B).

(3) Approximiere λd(A)λd(B)

= (UNI(B))(A) = P(X1 ∈ A) durch∑n

i=1 1A(Xi)/n

Anmerkung: Für fast sichere Konvergenz in 5.2 muss A zu einer Vapnik-Clervonenkis-Klasse von

Rd gehören.

81

Page 88: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Anwendung 5.3 (Netzwerk-Zuverlässigkeit)

Sogenannte Konnektivitätsanalysen sind für viele technische Anwendungen wichtig, etwa in der

Telekommunikation oder im Transportwesen.

Wir modellieren die zu Grunde liegenden Netzwerke mathematisch mit Hilfe von Graphen, also

einer Menge von Knoten V und einer Menge von Kanten E. Dabei gebe es zwei ausgezeichnete

Knoten s ∈ V und t ∈ V so, dass das Vorhandensein einer intakten Verbindung von s nach t als

Konnektivitätskriterium dient.

Aufgabe sei nun die “Schätzung” bzw. näherungsweise Berechnung der “mittleren Zuverlässig-

keit”, also der Wahrscheinlichkeit einer intakten Verbindung von s nach t, falls Ausfallwahrschein-

lichkeiten für alle Kanten, vermittels derer ein Weg von s nach t möglich ist, gegeben sind.

Mathematische Modellbildung:

E = 1, . . . , k = |E|

∀1 ≤ j ≤ k : Xj := 1Kante j intakt,

(Xj)1≤j≤k stochastisch unabhängig,

∀1 ≤ j ≤ k : Xj ∼ Bernoulli(pj), pj ∈ [0, 1]

h : 0, 1k → 0, 1, h(x) = 1irgendeine Verbindung von s nach t intakt, x = (x1, . . . , xk)

Gesucht: Erwartungswert von h(X1, . . . , Xk). (entspricht der mittleren Zuverlässigkeit)

Algorithmus: (Simulation von Netzwerkzuständen)

(1) Erzeuge Pseudo-/Quasistichproben X(i) = x(i), 1 ≤ i ≤ n durch Generierung Bernoulli-

verteilter Zufallszahlen (siehe Präsentation F. Kirchhoff).

(2) Schätze die mittlere Zuverlässigkeit durch n−1∑n

i=1 h(x(i)).

Anwendung 5.4 (zufällige Abstände)

Sei U : (Ω,A,P)→ [0, 12 ]× [0, 1], U = (U1, U2)t, L(U) = UNI([0, 1

2 ]× [0, 1]) ein zufällig im

Rechteck [0, 12 ]× [0, 1] gleichverteilter Punkt und V = (V1, V2)t mit L(V ) = UNI([1

2 , 1]× [0, 1])

analog definiert.

Sei δ(U, V ) := ||U − V ||2 =√

(U1 − V1)2 + (U2 − V2)2 der zufällige Euklidische Abstand von

U und V .

82

Page 89: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Gesucht: Erwartungswert von δ(U, V ). Zunächst erhalten wir fU1(u) = 21[0, 12

](u)

fV1(ϑ) = 21[ 12,1](ϑ)

FV1(ϑ) = 2

∫ ϑ

12

1dt = 2(ϑ− 1

2) für ϑ ∈ [

1

2, 1]

FV1(ϑ) = 0, ϑ <1

2und FV1(ϑ) = 1, ϑ > 1

also FV1(ϑ) = 2(ϑ− 1

2)1[ 1

2,1](ϑ) + 1(1,∞)(ϑ)

Setzen wir nun X := V1 − U1, so ist

FX(x) = P(X ≤ x) = P(V1 − U1 ≤ x) =

∫P(V1 − U1 ≤ x|U1 = u)PU1(du)

= 2

∫ 12

0P(V1 ≤ x+ u)du =

2x2, falls 0 ≤ x < 12

4x− 1− 2x2, falls 12 ≤ x ≤ 1

0, x < 0

1, x > 1

⇒ fX(x) =

4x, x ∈ [0, 1

2)

4(1− x), x ∈ [12 , 1]

0, sonst

Setzen wir ferner Y := |V2−U2|, so folgt durch ähnliche Rechnung fY (y) = 2(1− y) · 1[0,1](y).

Also ist

E [%(U, V )] = E[√

x2 + y2]

=

∫ 1

0

∫ 1

0

√x2 + y2 fX(x)fY (y)dydx

≈ 0,64 (numerische Quadratur)

Algorithmus zu näherungsweisen Bestimmung dieses Wertes:

(1) Erzeuge Tupel (Xi = xi, Yi = yi)1≤i≤n gemäß des Bildungsgesetzes von X bzw. Y

(2) Approximiere E [%(U, V )] durch

n−1n∑i=1

√x2i + y2

i .

83

Page 90: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Ein Vegleich des Ergebnisses dieses Verfahrens mit dem einer numerischen Quadratur-Routine

kann zur Verifikation dienen. Für kompliziertre Annahmen and L(U),L(V ) ist die Herleitung

einer expliziten Berechnungsformel für E [%(U, V )] unter Umständen sehr beschwerlich, während

die approximative Berechnung analog zum hier beschriebenen Algorithmus erfolgen kann.

5.2 Statistische Lerntheorie

Die statistische Lerntheorie befasst sich mit Methoden, um anhand einer bivariaten mathema-

tischen Stichprobe (Xi, Yi)i=1,...,n einen funktionalen Zusammenhang, also eine Funktion f :

D → W , D 3 x 7→ y ∈ W , nur anhand der „Trainigsbeispiele“ (xi, yi)i=1,...,n, d. h., ohne

Formulierung eines statistischen Modells, zu „erlernen“. Dabei ist typischerweise D ⊆ Rp für

p >> 1 (Matrizen und Tensoren werden häufig, wenn nötig, gecastet) und W ⊆ R. Genauer

wird in einer vorgegebenen Funktionenklasse M diejenige Funktion f ∈ M gesucht, die ein

vorgegebenes Fehlermaß (empirisch) minimiert. Je nach Kardinalität von W unterscheidet man

unterschiedliche Teildisziplinen des statistischen Lernens. Ist W überabzählbar, so spricht man

von einer Regressionsaufgabe, für W ⊆ N von einer Klassifikationsaufgabe (englisch auch: pat-

tern recognition problem). Kann das „Label“ Y speziell nur genau zwei diskrete Werte annehmen

(sagen wir +1 und −1), so,liegt ein binäres Klassifikationsproblem vor. Die binäre Klassifikation

hat besondere Bedeutung in der (angewandten) Informatik, da im Computer sämtliche Informa-

tion binär codiert wird. So können binäre Klassifikationsalgorithmen sogar dazu benutzt werden,

Computerprogramme durch externen Input (z. B. EEG-Signale) zu steuern (siehe Blankertz et al.

(2010) ).

84

Page 91: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Tabellenverzeichnis

4.1 Entscheidungsstruktur eines statistischen Hypothesentests . . . . . . . . . . . . . 55

85

Page 92: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Abbildungsverzeichnis

1.1 Skizze zur Veranschaulichung der bedingten Erwartung . . . . . . . . . . . . . . 6

1.2 Zusammenhang von Konvergenzarten . . . . . . . . . . . . . . . . . . . . . . . 20

4.1 Dualität ψϑ(x) = 0 ⇔ ϑ ∈ C(x) . . . . . . . . . . . . . . . . . . . . . . . . . 78

86

Page 93: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Literaturverzeichnis

Ash, R. B. (1972). Measure, integration, and functional analysis. New York-London: Academic

Press, Inc.

Bauer, H. (1991). Probability theory. (Wahrscheinlichkeitstheorie.) 4., völlig überarb. u. neuge-

staltete Aufl. des Werkes: Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie. Berlin

etc.: Walter de Gruyter.

Berger, J. O. (1985). Statistical decision theory and Bayesian analysis. 2nd ed. Springer Series in

Statistics. New York etc.: Springer-Verlag.

Bickel, P. J. and K. A. Doksum (1977). Mathematical statistics. Basic ideas and selected topics.

Holden-Day Series in Probability and Statistics. San Francisco etc.: Holden-Day, Inc.

Blankertz, B., M. Tangermann, C. Vidaurre, T. Dickhaus, C. Sannelli, F. Popescu, S. Fazli,

M. Danóczy, G. Curio, and K.-R. Müller (2010). Detecting mental states by machine learning

techniques: The Berlin Brain-Computer Interface. In B. Allison, B. Graimann, and G. Pfurt-

scheller (Eds.), Brain-Computer Interfaces (Revolutionizing Human-Computer Interaction),

The Frontiers Collection, pp. 113–135. Berlin Heidelberg: Springer.

Breiman, L. (1992). Probability. Philadelphia, PA: SIAM.

Chung, K. L. (2000). A course in probability theory. 3rd ed. Orlando, FL: Academic Press.

Cramér, H. (1946). Mathematical methods of statistics. Princeton Mathematical series. Princeton

N. J.: Princeton University Press.

DasGupta, A. (2008). Asymptotic theory of statistics and probability. Springer Texts in Statistics.

New York, NY: Springer.

Efron, B. and R. J. Tibshirani (1993). An introduction to the bootstrap. Monographs on Statistics

and Applied Probability. 57. New York, NY: Chapman &amp; Hall.

87

Page 94: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Etemadi, N. (1981). An elementary proof of the strong law of large numbers. Z. Wahrscheinlich-

keitstheor. Verw. Geb. 55, 119–122.

Fahrmeir, L. and A. Hamerle (1984). Multivariate statistische Verfahren. Unter Mitarbeit von

Walter Häußler, Heinz Kaufmann, Peter Kemény, Christian Kredler, Friedemann Ost, Heinz

Pape, Gerhard Tutz. Berlin-New York: Walter de Gruyter.

Fahrmeir, L., T. Kneib, and S. Lang (2009). Regression. Models, methods and applications. (Re-

gression. Modelle, Methoden und Anwendungen.) 2nd ed. Statistik und ihre Anwendungen.

Berlin: Springer.

Feller, W. (1971). An introduction to probability theory and its applications. Vol II. 2nd ed. Wiley

Series in Probability and Mathematical Statistics. New York etc.: John Wiley and Sons, Inc.

Finner, H. (1994). Testing Multiple Hypotheses: General Theory, Specific Problems, and Relation-

ships to Other Multiple Decision Procedures. Habilitationsschrift. Fachbereich IV, Universität

Trier.

Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd, Edinburgh and London.

Gaenssler, P. and W. Stute (1977). Wahrscheinlichkeitstheorie. Hochschultext. Berlin-Heidelberg-

New York: Springer-Verlag.

Georgii, H.-O. (2007). Stochastics. Introduction to probability theory and statistics. (Stochas-

tik. Einführung in die Wahrscheinlichkeitstheorie und Statistik.) 3rd ed. de Gruyter Lehrbuch.

Berlin: de Gruyter.

Gil-Pelaez, J. (1951). Note on the inversion theorem. Biometrika 38, 481–482.

Hall, P. (1992). The bootstrap and Edgeworth expansion. Springer Series in Statistics, New York.

Hewitt, E. and K. Stromberg (1975). Real and abstract analysis. A modern treatment of the theory

of functions of a real variable. 3rd printing. Graduate Texts in Mathematics. 25. New York -

Heidelberg - Berlin: Springer-Verlag.

Hotelling, H. (1931). The generalization of Student’s ratio. Ann. Math. Stat. 2, 360–378.

Jacod, J. and P. Protter (2000). Probability essentials. Berlin: Springer.

Janssen, A. (1998). Zur Asymptotik nichtparametrischer Tests, Lecture Notes. Skripten zur Sto-

chastik Nr. 29. Gesellschaft zur Förderung der Mathematischen Statistik, Münster.

Kendall, M. (1971). Studies in the history of probability and statistics. XXVI: The work of Ernst

Abbe. Biometrika 58, 369–373.

88

Page 95: Mathematische Statistik - Mathematik - FB3 - Uni Bremen ...dickhaus/downloads/MathStat-SoSe12/skr… · Beweis: Satz 14.29 in Klenke (2008). Anmerkung: Ist ein Wahrscheinlichkeitsmaß

Klenke, A. (2008). Probability theory. (Wahrscheinlichkeitstheorie.) 2nd revised ed. Berlin: Sprin-

ger.

Lehmann, E. and G. Casella (1998). Theory of point estimation. 2nd ed. Springer Texts in Stati-

stics. New York, NY: Springer.

Lehmann, E. L. (1999). Elements of large-sample theory. New York, NY: Springer.

Lehmann, E. L. and J. P. Romano (2005). Testing statistical hypotheses. 3rd ed. Springer Texts in

Statistics. New York, NY: Springer.

Loève, M. (1977). Probability theory I. 4th ed. Graduate Texts in Mathematics. 45. New York -

Heidelberg - Berlin: Springer-Verlag.

Shorack, G. R. and J. A. Wellner (1986). Empirical processes with applications to statistics. Wiley

Series in Probability and Mathematical Statistics. New York, NY: Wiley.

Student (1908). The probable error of a mean. Biometrika 6, 1–25.

Wilks, S. (1938). The large-sample distribution of the likelihood ratio for testing composite hypo-

theses. Ann. Math. Stat. 9, 60–62.

Witting, H. (1985). Mathematische Statistik I: Parametrische Verfahren bei festem Stichproben-

umfang. Stuttgart: B. G. Teubner.

Witting, H. and U. Müller-Funk (1995). Mathematische Statistik II. Asymptotische Statistik: Pa-

rametrische Modelle und nichtparametrische Funktionale. Stuttgart: B. G. Teubner.

Witting, H. and G. Nölle (1970). Angewandte Mathematische Statistik. Optimale finite und asym-

ptotische Verfahren. Leitfäden der angewandten Mathematik und Mechanik. Bd. 14. Stuttgart:

B.G. Teubner.

89