112
Wahrscheinlichkeitstheorie Dr. C.J. Luchsinger 1 Wahrscheinlichkeit 1.1 Zufallsexperiment, Ereignisraum, Ereignisse Um Zufallsexperimente zu modellieren, in der Sprache der Mathematik zu beschreiben, uhren wir folgende Objekte ein: Ω; mathematisch ist dies einfach eine nichtleere Menge. Sie steht (aus Modellierungssicht) f¨ ur die Menge der Versuchsausg¨ ange; wir nennen sie auch Ereignisraum [engl Sample Space]. Es findet jeweils in einem Experiment genau ein sogenanntes Elementarereignis statt [engl (elementary) Outcome], z.B. ω 1 Ω oder ω 2 Ω etc. Ereignisse [engl Events] sind spezielle Teilmengen von Ω (Vorsicht: nicht irgendeine Teilmenge; wir m¨ ussen dem Ereignis auch eine Wahrscheinlichkeit zuordnen k¨onnen - siehe sp¨ ater). Die meisten Ereignisr¨aume sind aus einer der folgenden Liste (wird in der Vorlesung aus- gef¨ ullt): 1) Endliche Mengen: 2) Abz¨ahlbare Mengen: 1

Skript zur Vorlesung Wahrscheinlichkeitstheorie

Embed Size (px)

DESCRIPTION

Skript zur Vorlesung Wahrscheinlichkeitstheorie, gehalten von Dr. C.J. Luchsinger an der Uni Basel. Stand: April 2013. Mehr Informationen: http://www.luchsinger-mathematics.ch/wt.html

Citation preview

Page 1: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie

Dr. C.J. Luchsinger

1 Wahrscheinlichkeit

1.1 Zufallsexperiment, Ereignisraum, Ereignisse

Um Zufallsexperimente zu modellieren, in der Sprache der Mathematik zu beschreiben,

fuhren wir folgende Objekte ein: Ω; mathematisch ist dies einfach eine nichtleere Menge.

Sie steht (aus Modellierungssicht) fur die Menge der Versuchsausgange; wir nennen sie

auch Ereignisraum [engl Sample Space]. Es findet jeweils in einem Experiment genau ein

sogenanntes Elementarereignis statt [engl (elementary) Outcome], z.B. ω1 ∈ Ω oder ω2 ∈ Ω

etc. Ereignisse [engl Events] sind spezielle Teilmengen von Ω (Vorsicht: nicht irgendeine

Teilmenge; wir mussen dem Ereignis auch eine Wahrscheinlichkeit zuordnen konnen - siehe

spater).

Die meisten Ereignisraume sind aus einer der folgenden Liste (wird in der Vorlesung aus-

gefullt):

1) Endliche Mengen:

2) Abzahlbare Mengen:

1

Page 2: Skript zur Vorlesung Wahrscheinlichkeitstheorie

3) R und R+ := [0,∞):

4) Endliche kartesische Produkte (Replika):

5) Unendliche kartesische Produkte (Replika):

6) Funktionen:

2

Page 3: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir wenden uns jetzt den Ereignissen zu, also speziellen Teilmengen von Ω. Wir wollen

ab 1.3 diesen Ereignissen auch eine Wahrscheinlichkeit zuordnen.

Nebenbemerkung: Wir mussen uns in einer Mathematikvorlesung mit der Frage auseinan-

dersetzen, welche Verknupfungsoperationen mit Mengen zugelassen sein sollen. Wenn wir

hier nicht vorsichtig sind, konnen uble Sachen passieren; mehr dazu am Schluss dieses

Kapitels. Wenn Sie jemals Serviceveranstaltungen fur andere Studiengange halten (v.a.

Biologie, Medizin, Geographie, Psychologie, Soziologie), sollten Sie diese Diskussion nach

Moglichkeit vermeiden; in den Ingenieurwissenschaften, Physik und quantitative Finance

kann es notwendig sein, dass Sie dies kurz besprechen.

Da Sie bereits eine einfuhrende Veranstaltung in diesem Gebiet gehort haben, konnen wir

uns die elementaren Verknupfungsoperationen wie A ∩B und A ∪B sparen und gleich zu

den verbleibenden, fur uns neuen Verknupfungen schreiten, welche wir spater da und dort

benotigen:

1) A∆B := (A\B) ∪ (B\A) ist die sogenannte symmetrische Differenz; ein elementares

Ereignis soll dabei in A oder B sein, nicht aber in beiden.

2) StudentInnen, welche bereits die Vorlesung angewandte Stochastik besucht haben, ken-

nen die folgenden beiden Mengen:

lim supn

An :=∞⋂

k=1

∞⋃

n=k

An

und

lim infn

An :=∞⋃

k=1

∞⋂

n=k

An

Wir mussen uns daruber unterhalten, was diese Gebilde denn sind:

3

Page 4: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir definieren, dass eine Folge von Ereignissen A1, A2, . . . gegen A konvergiert, notiert als

limnAn = A,

wenn lim supnAn = lim infnAn = A. Sie zeigen in den Ubungen, dass monotone Folgen

von Mengen in diesem obigen Sinne konvergieren (wogegen?).

Wir fassen die mengentheoretischen Ausdrucke und ihre Bedeutung fur die Wahrschein-

lichkeitstheorie in folgender Tabelle zusammen:

Symbol Mengentheorie / Bedeutung fur die WT

Ω Menge / Ereignisraum, Menge der Versuchsausgange

ω Element von Ω / Elementarereignis, Versuchsausgang

A Teilmenge von Ω / Ereignis; falls ω ∈ A, sagt man, dass das Ereignis A

eingetreten ist

Ac Komplement von A / kein Elementarereignis aus A findet statt

A ∩B Schnittmenge von A und B / ein Elementarereignis aus A und B findet statt

A ∪B Vereinigung von A und B / ein Elementarereignis aus A oder B findet statt

A\B A ohne B / ein Elementarereignis aus A tritt ein, aber nicht aus B

A ⊂ B A ist Teilmenge von B / Wenn ein Elementarereignis aus A stattfindet, dann

immer auch ein Elementarereignis aus B

lim supnAn⋂∞k=1

⋃∞n=k An / Ereignis, bestehend im Eintreten von unendlich vielen der

Ereignisse A1, A2...

lim infnAn⋃∞k=1

⋂∞n=k An / Ereignis, bestehend im Eintreten aller Ereignisse A1, A2...,

mit eventueller Ausnahme einer endlichen Anzahl

φ leere Menge / unmogliches Ereignis

Ω ganze Menge / sicheres Ereignis (etwas muss passieren)

In der Literatur trifft man haufig folgende Notationen noch an: ∪ fur disjunkte Vereinigung,

AB fur die Schnittmenge, A+B bzw∑iAi fur disjunkte Vereinigungen.

4

Page 5: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Manchmal erlebt man den Umgang mit Funktionen einfacher als den mit Mengen. Weil wir

Gott sei Dank eine 1 zu 1 Beziehung zwischen Mengen und Indikatorfunktionen herstellen

konnen, durfen wir vieles auf der Ebene von Funktionen erledigen statt auf der Ebene von

Mengen. Die 1 zu 1 Beziehung ist denn einfach die Indikatorfunktion einer Menge:

1A(ω) := 1 falls ω ∈ A

0 falls ω /∈ A.

Wir wollen diese Funktion erstmal ein bisschen kennenlernen; in der Klasse: welche der

folgenden Ausdrucke sind gleich?

1A∪B ,1Ac ,min1A,1B,1A∆B ,1A∩B , 1− 1A,max1A,1B,1A1B , |1A − 1B |

Uberlegen Sie sich jetzt, dass

limn→∞

An = A

genau dann wenn punktweise gilt

limn→∞

1An(ω) = 1A(ω).

5

Page 6: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.2 Spezielle Mengen von Mengen (σ-Algebra, Dynkin- und π-Systeme)

1.2.1 σ-Algebren

Wir wollen den Ereignissen (z.B. A aus Ω) spater eine Wahrscheinlichkeit (P [A]) zuordnen.

Wenn wir mehrere Ereignisse vorgegeben haben, wollen wir auch die Wahrscheinlichkeiten

von deren Vereinigungen, Durchschnitten oder Komplementen angeben konnen. An die

Menge der Teilmengen von Ω, welche wir untersuchen, stellen wir also ein paar wenige

Bedingungen:

Definition 1.1 [σ-Algebra] Ein Teilmengensystem A von Ω heisst σ-Algebra, wenn

folgende 3 Bedingungen erfullt sind:

a) Ω ∈ A

b) A ∈ A ⇒ Ac ∈ A

c) A1, A2, . . . ∈ A ⇒ ∪n≥1An ∈ A.

1. Wieso muss φ immer in einer σ-Algebra enthalten sein?

2. Welches ist die kleinste σ-Algebra uberhaupt?

3. Wieso muss mit A und B immer auch A ∩B in einer σ-Algebra enthalten sein?

4. Welches ist die kleinste σ-Algebra, welche Ereignis A enthalt (von A erzeugte σ-

Algebra)?

6

Page 7: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Falls |Ω| = n < ∞, so hat die Potenzmenge von Ω bekanntlich Kardinalitat 2n, ist also

wiederum endlich. Man kann also im Fall |Ω| = n < ∞ einfach als A die Potenzmenge

von Ω wahlen und muss sich dann nicht mehr sorgen, dass man allenfalls eine Menge

untersucht, die gar nicht mehr in der σ-Algebra drin ist.

Nebenbemerkung: Der naive Wunsch, im Fall Ω = R als σ-Algebra einfach die Potenz-

menge von R zu nehmen, ist zwar verstandlich, fuhrt aber zu unerwunschten Resul-

taten. Wir werden am Ende dieses Kapitels diesen Punkt kurz diskutieren (Satz 1.30

von Banach und Kuratowski). Wenn Sie also jemals in Service-Veranstaltungen Nicht-

Mathematiker/innen unterrichten, sind Sie realistischerweise gezwungen, bei der Einfuh-

rung normalverteilter Zufallsgrossen zu mogeln: Sie konnen nicht fur jede x-beliebige

Menge B aus R angeben, wie gross die Wahrscheinlichkeit ist, dass eine normalverteilte Zu-

fallsgrosse X Werte in B annimmt. Es kommt dann namlich vor, dass die normalverteilte

Zufallsgrosse X einzelne Punkte mit Wahrscheinlichkeit grosser Null annimmt. Dies ist

nicht das, was wir unter einer normalverteilten Zufallsgrosse verstehen wollen.

Wir mussen uns also einschranken; man nimmt statt der Potenzmenge von R die sogenann-

te Borel-σ-Algebra B(R). Sie ist per Definitionem die kleinste σ-Algebra auf R, welche alle

geschlossenen Intervalle enthalt. Die Mengen aus B(R) nennen wir Borel-Mengen. Man

sagt auch, B(R) wird von der Menge der geschlossenen Intervalle erzeugt; mehr dazu in

den Ubungen.

Wir wollen B(R) ein bisschen untersuchen; was ist darin alles enthalten?

Was glauben Sie, wie ist die Kardinalitat von B(R)?

7

Page 8: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.2.2 Dynkin- und π-Systeme

Wenn Sie ein komplexes, abstraktes Mengensystem dahingehend untersuchen mussen, ob

es sich dabei um eine σ-Algebra handelt, kann dies auf direktem Weg sehr schwierig sein.

Die folgenden Mengensysteme konnen hier helfen:

Definition 1.2 [Dynkin-System, auch d-System oder Monoton-System] Ein

Teilmengensystem D von Ω heisst Dynkin-System, wenn folgende 3 Bedingungen erfullt

sind:

a) Ω ∈ D

b) A ∈ D ⇒ Ac ∈ D

c) A1, A2, . . . ∈ D, paarweise disjunkt, ⇒ ∪n≥1An ∈ D.

Untersuchen Sie den Zusammenhang zwischen Dynkin-System und σ-Algebra.

Ein Beispiel eines Dynkin-Systems:

8

Page 9: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Lemma 1.3 Sei D ein Dynkin-System. Dann gelten:

1. A,B ∈ D und A ⊂ B, dann gilt auch B\A ∈ D [Stabilitat des Dynkin-Systems bei

Bildung eigentlicher Komplemente]

2. (An)n eine monoton wachsende Folge aus D, dann gilt ∪∞n=1An ∈ D.

Beweis Lemma 1.3

Wir ziehen hiermit gleich mit der Definition eines d-Systems aus Karr Seite 21:

9

Page 10: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Definition 1.4 [π-System, Durchschnittsstabilitat] Ein Teilmengensystem C von

Ω heisst π-System oder durchschnittsstabil, wenn mit A,B ∈ C auch A ∩B ∈ C.

Satz 1.5 Ein Dynkin-System ist genau dann eine σ-Algebra, wenn es auch durch-

schnittsstabil ist.

Beweis Satz 1.5

10

Page 11: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wie bei den σ-Algebren, die von Mengensystemen erzeugt werden konnen, kann man auch

Dynkin-Systeme von Mengen erzeugen; analog gilt hier per Definitionem namlich: Sei Uein Teilmengensystem von Ω. Dann ist per Definitionem D(U) das kleinste Dynkin-System,

welches U enthalt. Es gilt dann der zentrale

Satz 1.6 [Monoton-Lemma fur Mengen] Sei C ein π-System. Dann gilt:

D(C) = σ(C).

Beweis Satz 1.6

2 Bemerkungen zur Bedeutung dieses Satzes:

11

Page 12: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.3 Wahrscheinlichkeit P [.]

Definition 1.7 [Wahrscheinlichkeit P ] Eine Wahrscheinlichkeit P ist eine reell-

wertige Funktion auf den Mengen aus A. Dabei mussen folgende 3 Bedingungen erfullt

sein:

a) A ∈ A ⇒ P [A] ≥ 0

b) P [Ω] = 1

c) Sei Ai∞i=1 eine abzahlbare Folge von disjunkten Mengen aus A, dann muss gelten:

P [∪∞i=1Ai] =∞∑

i=1

P [Ai].

Man darf in Definition 1.7 c) z.B. auch Ai = φ, i ≥ 3 wahlen!

Man nennt das Tripel (Ω,A, P ) auch Wahrscheinlichkeitsraum; auf englisch Probability

Space. Eigenschaft c) nennen wir σ-Additivitat. In Vorlesung und Ubungen sei Ω immer

nichtleer (spater auch die Grundmenge bei allgemeinen Massen) - ausser wir sprechen es

explizit an.

Wir betrachten ein paar einfache Beispiele; mehr in den Ubungen:

12

Page 13: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Aus Definition 1.7 lassen sich nutzliche Eigenschaften ableiten, welche wir im folgenden

Lemma zusammenfassen.

Lemma 1.8 [nutzliche Eigenschaften von P ] Sei (Ω,A, P ) ein Wahrschein-

lichkeitsraum. Mit A,B ∈ A, (Ai)ni=1 eine endliche und (Bi)∞i=1 eine unendliche Folge

von Ereignissen aus A gelten folgende Aussagen:

a) P [φ] = 0.

b) [endliche Additivitat] Sei Aini=1 eine endliche Folge von pw disjunkten Mengen

aus A, dann muss gelten:

P [∪ni=1Ai] =n∑

i=1

P [Ai].

Daraus folgt auch das ”Prinzip der Gegenwahrscheinlichkeit”: P [A] = 1− P [Ac].

c) A ⊆ B ⇒ P [B] = P [A] + P [B\A]. Damit ist P insbesondere monoton in dem

Sinne, dass A ⊆ B ⇒ P [A] ≤ P [B].

d) P [A ∪B] = P [A] + P [B]− P [A ∩B]. Damit ist P sogenannt (endlich) subadditiv:

P [A ∪B] ≤ P [A] + P [B].

e) Sei Bi∞i=1 eine abzahlbare Folge von Mengen aus A, dann muss gelten:

P [∪∞i=1Bi] ≤∞∑

i=1

P [Bi]. (Boolesche Ungleichung; subadditiv)

Beweis von Lemma 1.8 Diese Beweise haben wir zum Teil schon in der WTS in den

Ubungen besprochen. Sie sind jetzt in den WT-Ubungen im ”Must”-Teil angesiedelt. Im

Gegensatz zum ersten Semester wird jetzt auf die strenge mathematische Beweisfuhrung

(jenseits von anschaulichen Venn-Diagrammen) Wert gelegt. Die obigen Aussagen sind so

einleuchtend, dass man sich (als MathematikerIn) bewusst sein muss, dass sie trotzdem zu

beweisen sind!

13

Page 14: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 1.9 Sei P eine nichtnegative, endlich additive Mengenfunktion auf A mit P [Ω] =

1. Dann sind die folgenden 4 Aussagen aquivalent:

a) P ist auch σ-additiv (und damit eine Wahrscheinlichkeit),

b) Mit An ↑ A in A gilt auch P [An] ↑ P [A],

c) Mit An ↓ A in A gilt auch P [An] ↓ P [A],

d) Mit An ↓ φ in A gilt auch P [An] ↓ 0.

Die Bedeutung dieses Satzes liegt in folgendem Punkt: endliche Additivitat halten wir

sofort fur eine sinnvolle Anforderung an ein sinnvolles P . Schwierigkeiten hat man allen-

falls mit der weitergehenden σ-Additivitat. Obiger Satz sagt, dass dies die gleich starke

Forderung ist wie Forderungen b), c) und d). Dies sind jedoch Forderungen nach einer

(monotonen) Stetigkeit von P , welche wir eher akzeptieren konnen.

Beweis von Satz 1.9

14

Page 15: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Als Vorbereitung auf den kommenden Satz: konvergiert

An :=[ (−1)n

n, 2 +

(−1)n

n

]

und wenn ja, wogegen (vgl p 4 oben)?

Satz 1.10 [Stetigkeit von P ] Es gelten

P [lim infn

An] ≤ lim infn

P [An] ≤ lim supn

P [An] ≤ P [lim supn

An]

und damit: falls An → A, dann auch P [An]→ P [A].

Beweis von Satz 1.10

15

Page 16: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 1.11 [Borel-Cantelli I - wichtig fur Konvergenzaussagen]

∞∑n=1

P [An] <∞⇒ P [lim supn

An] = 0. (BC− I)

Es folgt wegen Satz 1.10 automatisch auch lim supn→∞ P [An] = 0 und damit auch

limn→∞ P [An] = 0; spatestens jetzt sollte dies an ein Resultat aus der Analysis I erinnern!

Die Hauptaussage (BC-I) ist jedoch flexibler einsetzbar, da der limsup sehr umfassend ist.

Beweis von Satz 1.11

16

Page 17: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 1.12 [Eindeutigkeit von P ] Sei A eine σ-Algebra auf Ω und S ein π-System

derart, dass σ(S) = A. Seien nun P1, P2 Wahrscheinlichkeiten auf (Ω,A) derart, dass

P1 = P2 auf S, dann P1 = P2 auf A.

Beweis von Satz 1.12

17

Page 18: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.4 Wahrscheinlichkeiten auf R: (R,B(R), P )

Aus der Vorlesung WTS kennen wir bereits die Zufallsgrossen, welche wir in Kapitel 2 in-

tensiv studieren werden. Deren Verteilungsfunktionen liefern uns Wahrscheinlichkeiten auf

(R,B(R)), siehe Satz 1.17. Dies ist Grund genug, bereits jetzt in Kapitel 1 die Wahrschein-

lichkeiten auf R ein bisschen genauer unter die Lupe zu nehmen. Bevor wir dies tun, wollen

wir noch sogenannte Null-Mengen einfuhren:

Definition 1.13 [P -Nullmenge, P -fast sicher, (P -f.s., P -fs, fs)] Ein Ereignis A

gilt P -fast sicher, wenn P [A] = 1. Hingegen ist A eine P -Nullmenge, wenn P [A] = 0.

Ein paar kleine Bemerkungen:

Gilt zwingend A = Ω bzw A = φ?

18

Page 19: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Von Satz 1.12 wissen wir, dass jede Wahrscheinlichkeit P auf (R,B(R)) durch die Werte

auf den Intervallen der Art (−∞, t] eindeutig determiniert ist. Es lohnt sich deshalb, diese

(aus der WTS bekannten) Gebilde genauer zu untersuchen. Dazu definieren wir erstmals:

Definition 1.14 [Verteilungsfunktion von P ] Die Verteilungsfunktion von P ist

die Funktion FP : R −→ [0, 1], definiert als FP (t) := P [(−∞, t]]. Wenn es klar ist, konnen

wir die Indexierung in FP auch lassen und nur F schreiben.

Achten Sie bitte darauf, dass wir in Kapitel 1 die Verteilungsfunktionen untersuchen, ohne

Zufallsgrossen zu erwahnen (ausser zur Motivation)! Wir lernen jetzt die Verteilungsfunk-

tionen ein bisschen kennen. Es gilt

Satz 1.15 [Eindeutigkeit F, P ] Wenn FP1 = FP2 , dann gilt P1 = P2 auf B(R).

Beweis Satz 1.15

Wichtige Folgerung fur die Anwendungen: In der Vlsg WTS und in der Ausbildung

anderer Studiengange lernen die StudentInnen zum Beispiel die Wahrscheinlichkeiten der

Normalverteilung uber die Normalverteilungstabelle (meist hinten in Statistik-Buchern)

kennen. Man konnte sich fragen, ob durch diese Tabelle (abgesehen von der Maschenweite

des Gitters; beachten Sie auch die Monotonie von F ) P eindeutig festgelegt ist. Satz 1.15

bejaht dies auf B(R). B(R) enthalt aber alles, was AnwenderInnen ausrechnen wollen:

Komplemente, Vereinigungen, Schnitte.

19

Page 20: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Der folgende Satz ist bereits aus der WTS bekannt; wir formulieren ihn nochmals und

beweisen ihn unter Einsatz der bisherigen Resultate.

Satz 1.16 [Elementare Eigenschaften von FP ] Sei FP die Verteilungsfunktion

von P . Dann gelten:

a) FP ist monoton wachsend; damit existieren jeweils die Limiten von links und von rechts

b) FP ist rechtsstetig; a) und b) heissen zusammen vom Franzosischen: ”cadlag”

c) limt→−∞ FP (t) = 0 und limt→∞ FP (t) = 1.

Beweis von Satz 1.16

Wir definieren noch F (∞) := limt→∞ F (t) und F (−∞) := limt→−∞ F (t) - nach obigem

sind diese Definitionen sinnvoll!

20

Page 21: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Ohne Beweis fugen wir noch an, dass jede Funktion auf R, welche die Eigenschaften

aus Satz 1.16 besitzt, eine Verteilungsfunktion einer Wahrscheinlichkeit P ist. Damit lassen

sich beinahe beliebige Wahrscheinlichkeiten entwickeln.

Satz 1.17 Sei F : R → R monoton wachsend und rechtsstetig mit F (−∞) = 0 und

F (∞) = 1. Dann existiert ein eindeutiges P auf B(R) so, dass FP = F .

Beispiel zu Satz 1.17

21

Page 22: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir haben in der WTS 2 Typen von Zufallsgrossen kennengelernt: diskret und stetig.

Mittels der Verteilungsfunktionen dieser Zufallsgrossen erhalten wir mit Satz 1.17 also

damit auch 2 Typen von Wahrscheinlichkeiten auf (R,B(R)). Schon in der WTS haben Sie

sich vielleicht die Frage gestellt, ob das denn alles sei. Mit wenig Nachdenken kommt man

schnell auf die Idee, dass man ja auch Linearkombinationen solcher Wahrscheinlichkeiten

nehmen kann (siehe auch Ubungsblatt 3). Haben wir damit alles? Die Antwort folgt erst in

1.6 (Vollstandige Klassifikation der Wahrscheinlichkeiten auf (R,B(R)). Wir wollen jedoch

kurz, halb zur Repetition, die beiden bisherigen Arten von Wahrscheinlichkeiten nochmals

anschauen.

Definition 1.18 [Diskrete Wahrscheinlichkeit] Eine Wahrscheinlichkeit P auf R

ist diskret, wenn es eine hochstens abzahlbare Menge C gibt, sodass P (C) = 1.

Beispiel zu Definition 1.18

Der folgende Satz ist derart anschaulich, dass er in der WTS bereits unbewiesen (und

vielleicht auch unausgesprochen) benutzt wurde. Er besagt, dass diskrete Wahrschein-

lichkeiten endliche oder abzahlbar unendliche konvexe Linearkombinationen von Dirac-

Massen (Punktmassen) sind. Die Verteilungsfunktionen wachsen nur durch ”Sprunge”.

22

Page 23: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 1.19 [Charakterisierung von diskreten Wahrscheinlichkeiten] Fur Wahr-

scheinlichkeiten auf R sind die folgenden Aussagen aquivalent:

a) P ist diskret.

b) Es existiert eine reelle Folge (ti) und Zahlen pi ≥ 0 mit∑i pi = 1 derart, dass P =

∑i piδti .

c) Es existiert eine reelle Folge (ti) und Zahlen pi ≥ 0 mit∑i pi = 1 derart, dass FP (t) =

∑i pi1ti≤t.

Wir lassen oben im Satz und unten im Beweis beide Falle zu: endliche oder abzahlbar

unendliche Folgen bzw. Reihen.

Beweis Satz 1.19

Bemerkung/Warnung zum Wort ”diskret” in der WT und der restlichen Mathematik (zB

diskrete Menge):

23

Page 24: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir wenden uns jetzt den stetigen Wahrscheinlichkeiten zu und prazisieren gleich mal:

ab jetzt heissen die stetigen Wahrscheinlichkeiten bzw stetigen Zufallsgrossen aus der WTS

absolut stetige Wahrscheinlichkeiten (bzw. Zufallsgrossen).

Definition 1.20 [absolut stetige Wahrscheinlichkeit] Eine Wahrscheinlichkeit

P auf R nennen wir absolut stetig, wenn es eine nichtnegative Funktion fP (Dichte von

P ) auf R derart gibt, dass fur alle (a, b]

P [(a, b]] = L−∫ b

a

fP (t)dt.

Beispiel aus der WTS:

Bemerkung zur Dichtefunktion: fP (t) ist nicht eindeutig:

1) Das obige Integral ist ein Lebesgue-Integral (L-∫

, vgl Vlsg ”Reelle Analysis”; siehe

auch kommende Seite); aber schon bei einem ”normalen” Riemann-Integral, R-∫

, kann

man solch eine Dichtefunktion mindestens an endlich vielen Punkten andern.

2) Bei Lebesgue-Integralen gilt das sowieso (vgl Vlsg ”Reelle Analysis”).

3) Die Differenzen bei den diversen denkbaren fp’s betreffen aber lediglich Lebesgue-

Nullmengen (Forster Analysis III, Satze 2-4 in § 7).

4) Man spricht deshalb auch von einer ”Version” der Dichtefunktion (und wahlt dann mit

Vorteil zum Beispiel eine stetige Version).

24

Page 25: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Bemerkungen zur Integrationsart:

1) Das Integral in Definition 1.20 ist im allgemeinen Fall ein L-∫

.

2) Wenn der Integrand nichtnegativ ist (zum Beispiel bei einer Dichte), ist ein R-∫

immer

auch ein L-∫

(die Umkehrung gilt nicht - damit ist das L-∫

allgemeiner als das R-∫

).

3) Was wenn der Integrand auch negativ sein darf?

4) In den Vlsg’en WTS, AS, SM und WT sind konkrete Integrale de facto immer R-∫

,

ausser es wird speziell erwahnt. In den Beweisen sind es aber oft L-∫

. StudentInnen,

welche das L-∫

noch nicht kennen, stellen sich ohne Nachteil einfach immer ein R-∫

vor.

Falls fP (t) stuckweise stetig ist (endliche Unterteilung), ist ein L-∫

immer ein R-∫

.

5) Kontrastbeispiel: L-∫ 1

01Q(s)ds = (L-

∫aber nicht R-

∫).

6) Schema Integrationsarten, falls Integrand nicht-negativ:

7) ”Stieltjes”-Integrale (Riemann-Stieltjes und Lebesgue-Stieltjes-Integrale) haben auf der

Basis (x-Achse) im Allgemeinen keine gleichmassige Gewichtung. Riemann- und Lebesgue-

Integrale schon. Mehr dazu in Kapitel 4.

Sie beweisen noch im Must-Teil von Ubungsblatt 4 folgende kleine Umformulierung:

Korollar 1.21 [absolut stetige Wahrscheinlichkeit und FP ] Eine Wahrschein-

lichkeit P auf R ist genau dann absolut stetig, wenn es eine nichtnegative Funktion fP

(Dichte von P ) auf R gibt mit∫∞−∞ fP (s)ds = 1, so dass

FP (t) =∫ t

−∞fP (s)ds.

Damit konnen wir also jede beliebige nichtnegative Funktion f mit∫∞−∞ f(s)ds = 1 als

Dichte einer Wahrscheinlichkeit P auffassen - dies ergibt uns also ein grosses Universum

von Wahrscheinlichkeiten!

25

Page 26: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.5 Bedingte Wahrscheinlichkeit P [A|B]; Produktformel, Bayes und FTW

Diese Konzepte kamen schon in der Vlsg WTS (und AS) sehr ausfuhrlich zum Einsatz,

so dass wir nur als Repetition die Definition und die drei zentralen Regeln angeben. Kleine

Aufgaben dazu sind auf Ubungsblatt 4 zu losen.

Definition 1.22 [Bedingte Wahrscheinlichkeit P [A|B]]

P [A|B] :=P [A ∩B]P [B]

,

falls P [B] > 0. Man nennt P [A|B] die bedingte Wahrscheinlichkeit von A gegeben B.

Es gilt die sogenannte Produktformel:

P [A|B]P [B] = P [A ∩B] = P [B|A]P [A].

Der Leser / die Leserin zeige: P [.|B] ist selber auch eine Wahrscheinlichkeit.

Formel von Bayes:

P [A|B] =P [A ∩B]P [B]

=P [B|A]P [A]

P [B|A]P [A] + P [B|Ac]P [Ac].

Lemma 1.23 [Formel von der totalen Wahrscheinlichkeit FTW] B1, B2, . . .

sei eine Partition von Ω (die Bi’s sind disjunkt und ∪∞i=1Bi = Ω). Weiter sei fur alle

Bi, i ≥ 1, P [Bi] > 0 erfullt. Dann gilt fur jedes A ∈ A:

P [A] =∞∑

i=1

P [A|Bi]P [Bi]. (FTW )

Ein analoges Resultat gilt auch fur eine endliche Partition.

26

Page 27: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.6 Miscellanea; Sie finden hier Bemerkungen zu:

1.6.1 R

1.6.2 Allgemeine Masse

1.6.3 Lebesgue Mass

1.6.4 Singular stetige Wahrscheinlichkeit auf R - Cantorsches Diskontinuum

1.6.5 Vollstandige Klassifikation der Wahrscheinlichkeiten auf (R,B(R))

1.6.6 Warum σ-Algebren? Warum P auf B(R) und nicht auf P(R)?

1.6.7 Das Banach-Tarski-Paradoxon

1.6.8 Wichtige, nicht behandelte Probleme

1.6.1 R := R ∪ −∞ ∪ ∞

Mutti hat Ihnen mal gesagt, dass Sie nicht ”durch 0 teilen” durfen. Auch war es Ihnen

verboten, ∞+∞ =∞ zu schreiben, obschon Sie dies immer gereizt hatte. Hier durfen Sie

solch schlimme Sachen endlich machen - vorausgesetzt, Sie beachten einige wenige Regeln.

Wir erlauben dies, weil sich dann einige Satze eleganter formulieren lassen. Ayatollah’s

aus der reinen Mathematik sei versichert: unteres ist ganz koscher.

x+ y :=

∞ falls x ∈ R und y =∞ oder umgekehrt∞ falls x = y =∞−∞ falls x ∈ R und y = −∞ oder umgekehrt−∞ falls x = y = −∞.

xy :=

∞ falls x > 0 und y =∞ oder umgekehrt∞ falls x < 0 und y = −∞ oder umgekehrt∞ falls x = y =∞ oder x = y = −∞−∞ falls x > 0 und y = −∞ oder umgekehrt−∞ falls x < 0 und y =∞ oder umgekehrt−∞ falls x =∞ und y = −∞ oder umgekehrt0 falls x = 0 oder y = 0.

x

y:=

∞ falls x > 0 und y = 0−∞ falls x < 0 und y = 00 falls x ∈ R und y = ±∞.

∞−∞ durfen Sie nach wie vor nicht machen; ebenso nicht ±∞ durch ±∞ teilen.

Falls Sie Schwierigkeiten haben, sich etwas unter −∞ und +∞ vorzustellen, ersetzen Sie

einfach −∞ durch ”Velo” und +∞ durch ”Maschendrahtzaun”. Es geht topologisch genau

so gut - aber −∞ und +∞ sind anschaulicher.

27

Page 28: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.6.2 Allgemeine Masse

Wir kommen jetzt zu einer Verallgemeinerung des Konzeptes der Wahrscheinlichkeit,

zu den Massen. Masse sind nichtnegativ und σ-additiv; hingegen muss das Mass nicht

1 sein; nicht mal endlich. Despektierlich ist die Wahrscheinlichkeit ein Spezialfall der

Masstheorie, bei der das Mass endlich, genauer von Mass 1 ist. Aber diese Sicht ist

polemisch, despektierlich und vor allem ignorant.

Definition 1.24 [Mass] Sei E eine Menge und E eine σ-Algebra auf E. Dann

definieren wir:

a) (E, E) heisst Messraum; die Mengen aus E nennen wir messbare Mengen.

b) Ein Mass µ auf (E, E) ist eine Mengenfunktion µ : E → R+ derart, dass µ(φ) = 0 und

wir verlangen auch, dass µ σ-additiv ist:

µ(∪nAn) =∑n

µ(An),

wo die Folge An disjunkt aus E.

c) µ ist endlich wenn µ(E) <∞.

d) µ ist σ-endlich, wenn eine aufsteigende Folge Ei aus E existiert derart, dass ∪Ei = E

und µ(Ei) <∞ fur alle i ≥ 1.

e) Das Tripel (E, E , µ) bezeichnen wir als Massraum.

Wir sehen sofort, dass unsere Wahrscheinlichkeitsraume immer auch Massraume sind (vgl

Definition 1.7). Die endlichen Massraume sind insofern nahe verwandt mit Wahrschein-

lichkeiten, als dass jedes endliche Mass µ mit Hilfe einer Wahrscheinlichkeit P geschrieben

werden kann:

µ(A) = µ(E)P (A).

Es gibt vor allem ein zentral wichtiges, unendliches Mass, welches wir fur diese Vorlesung

brauchen. Wenn wir dieses haben, konnen wir weitere nicht-triviale Beispiele zu Definition

1.24 anschauen und den obigen Begriffen ein bisschen Leben einhauchen. Es handelt sich

dabei um das Lebesgue-Mass.

28

Page 29: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.6.3 Lebesgue-Mass

In der Analysis wird das Lebesgue-Mass eingefuhrt. Die saubere Einfuhrung des Lebesgue-

Masses dauert mehrere Stunden. Deshalb verzichten wir in dieser Vorlesung darauf. Es

ist auch so, dass man durch die saubere Einfuhrung des Lebesgue-Masses nicht unbedingt

besser damit zu rechnen versteht...

Wir kennen den Messraum (R,B(R)). Der folgende Satz garantiert uns ein Mass λ auf

diesem Messraum, der dadurch zum Massraum (R,B(R), λ) wird. Das Mass λ, dessen

Existenz dort garantiert wird, erweitert unseren bisherigen Begriff der Lange eines Inter-

valls. Auf normalen Intervallen I = [a, b] mit a ≤ b gilt λ(I) = b− a. a darf ubrigens −∞sein und b darf ebenso +∞ sein. Die Lange wird dann +∞.

Satz 1.25 [Existenz des Lebesgue-Masses λ] Auf (R,B(R)) existiert ein ein-

deutiges σ-endliches Mass λ - das Lebesgue-Mass - derart, dass fur jedes Intervall I :=

[a, b], a ≤ b gilt: λ(I) = b− a.

Wir haben in Definition 1.13 die P -Nullmengen kennengelernt. Analog definiert man jetzt

Definition 1.26 [Lebesgue-Nullmengen] Eine Menge A ∈ B(R) heisst Lebesgue-

Nullmenge, wenn λ(A) = 0.

Bemerkungen zu fs/as (WT) und fu/ae (Analysis)

29

Page 30: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Lemma 1.27 [Q ist eine Lebesgue-Nullmenge]

Beweis Lemma 1.27

Fangfrage zum Beweis von Lemma 1.27: Q ist dicht in R; haben wir damit nicht auch

bewiesen, dass R eine Lebesgue-Nullmenge ist?

30

Page 31: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.6.4 Singular stetige Wahrscheinlichkeit auf R - Cantorsches Diskontinuum

Wir haben bisher die beiden Typen von Wahrscheinlichkeiten ”diskret” und ”absolut

stetig” kennengelernt (”absolut stetig” war in der einfuhrenden Vlsg WTS einfach ”stetig”).

Es war uns intuitiv sofort klar, dass man auch konvexe Linearkombinationen dieser Wahr-

scheinlichkeiten bilden kann. Jetzt kommt ein dritter Typ, dessen Existenz nicht offen-

sichtlich ist:

Definition 1.28 [singular stetige Wahrscheinlichkeiten] Sei P eine Wahrschein-

lichkeit und FP deren Verteilungsfunktion. Falls FP stetig ist und die Menge der Wachs-

tumspunkte von FP Lebesgue-Mass 0 haben, nennen wir P singular stetig.

Bemerkungen zu Wachstumspunkte von FP

Man konnte Zweifel haben, dass so was uberhaupt existiert. Zudem ist man versucht zu

formulieren, dass abzahlbare Mengen immer Lebesgue-Mass 0 haben (das stimmt sogar

(unformuliertes Korollar zu Lemma 1.27)) und uberabzahlbare Mengen nicht mehr Mass

0 haben. Zum Kontrast fuhren wir jetzt das Cantorsche Diskontinuum ein:

31

Page 32: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Welche Eigenschaften hat dieses Diskontinuum?

1.6.5 Vollstandige Klassifikation der Wahrscheinlichkeiten auf (R,B(R)), ohne

Beweis

Satz 1.29 [Vollstandige Klassifikation der Wahrscheinlichkeiten] Jede Vertei-

lungsfunktion F kann als konvexe Linearkombination F = aFd + bFa + cFs dargestellt

werden. Dabei sind Fd eine diskrete, Fa eine absolut stetige und Fs eine singular stetige

Verteilungsfunktion.

Worin liegt die tiefere Bedeutung dieses Satzes? Definition 1.18 (diskrete Wahrschein-

lichkeit) scheint einleuchtend (mit der Ausnahme, dass eine Wahrscheinlichkeit auf Q

diskret ist (obschon Q dicht in R)). Danach folgt jedoch die irritierend indirekte Defi-

nition von absolut stetigen Wahrscheinlichkeiten uber die Verteilungsfunktion mit Hilfe

des Lebesgue-Integrals! Man muss also das Lebesgue-Mass kennen und das Lebesgue-

Integral, um die Definition von absolut stetigen Wahrscheinlichkeiten zu verstehen - ist

das nicht Willkur, muss das so sein? Satz 1.29 ist dann jedoch so einfach und elegant, dass

das wohl der kanonische Weg ist, den eine hohere Instanz vorgesehen hat!

32

Page 33: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.6.6 Warum σ-Algebren? Warum P auf B(R) und nicht auf P(R)?

Man fragt sich als jungeR StudentIn zu Recht, weshalb wir diese σ-Algebren einfuhren und

nicht einfach ein P auf P(R) definieren. Dazu ein paar Grunde:

1. Es funktioniert so, wie wir es gemacht haben (siehe bisheriges Kapitel). Dies tont

defensiv-hilflos, in Anbetracht der Schwierigkeiten, welche sonst auftreten, ist es eine sehr

gute Antwort.

2. In der Finanzmathematik (allgemein in einer Vorlesung ”Stochastische Prozesse, Martin-

galtheorie”) betrachtet man nicht nur einzelne Zufallsgrossen X (siehe Kapitel 2), sondern

ganze sogenannte Stochastische Prozesse Xt. Bereits in der WTS haben wir am Rand

darauf hingewiesen, dass Zufallsgrossen X nicht beliebige Funktionen X : Ω → R sind,

sondern sogenannt messbare Abbildungen sein mussen (das Urbild muss in der σ-Algebra

sein). Dies wird auch bei den Stochastischen Prozessen der Fall sein. Dort wird man aber

nicht nur eine σ-Algebra haben, sondern eine ganze Folge von solchen σ-Algebren. Diese

stehen in der Finanzwelt fur die Informationsmenge - und die ist gerade dort sehr wichtig!

3. Der Hammer ist dann der folgende

Satz 1.30 [von Banach und Kuratowski (1929)] Unter Annahme der Gultigkeit

der Kontinuumshypothese gibt es keine auf ganz P(R) definierte, σ-additive Funktion P

so, dass P [R] = 1 und fur jedes x ∈ R gilt P [x] = 0.

Damit scheiden die absolut stetigen Wahrscheinlichkeiten schon mal aus; diese geben

einzelnen Punkten immer Wahrscheinlichkeit 0. Damit haben wir auf ganz P(R) auch

keine Normalverteilung. Die Service-Vorlesungen in Statistik fur IngenieurInnen, Natur-

wissenschaftlerInnen, OekonomInnen, SoziologInnen und PsychologInnen sind in diesem

Punkt also regelmassig falsch. Hingegen wird es kaum jemals Probleme geben, da die

Mengen zwischen B(R) und P(R) meines Wissens NIE in der Praxis auftreten.

Was, wenn wir die Kontinuumshypothese nicht annehmen wollen? Solange es zwischen N

und R nur eine endliche Kaskade von verschiedenen Machtigkeiten gibt, gilt ein analoger

Satz.

33

Page 34: Skript zur Vorlesung Wahrscheinlichkeitstheorie

1.6.7 Das Banach-Tarski-Paradoxon

Der folgende Satz benotigt im Beweis das Auswahlaxiom und sonst lediglich die akzep-

tierten Axiome der Mathematik. Dann ist der Satz mathematisch richtig, aber schwer

nachvollziehbar (vgl. auch Artikel in der NZZ von Frau Prof. Bandle):

Satz 1.31 [Banach-Tarski-Paradoxon] Sei K eine Kugel im R3. Dann existiert

eine Zerlegung

K = A1 ∪A2 ∪ . . . ∪Am ∪B1 ∪B2 ∪ . . . ∪Bn

von K in paarweise disjunkte Teilmengen Ai, Bj derart, dass wir damit 2 neue Kugeln K

gleicher Grosse zusammensetzen konnen:

K = A′1 ∪A′2 ∪ . . . ∪A′m

und

K = B′1 ∪B′2 ∪ . . . ∪B′n,

wo Ai kongruent zu A′i ist und Bj kongruent zu B′j. Die A′i bzw B′j sind wieder disjunkt.

1.6.8 Wichtige, nicht behandelte Probleme

1. Man kann sich fragen, ob es zwischen B(R) und P(R) etwas ”relevantes” gibt? Die

Antwort ist klar JA: Wir haben in Satz 1.25 die Existenz des Lebesgue-Masses lediglich

auf (R,B(R)) garantiert erhalten. Wir sagen jetzt, dass eine Menge Λ zum System B(R)

gehort, falls 2 Borel-Mengen A,B derart existieren, dass A ⊂ Λ ⊂ B mit λ(B\A) = 0.

Das System B(R) heisst das System der Lebesgue-Mengen und ist eine σ-Algebra (kleine

Ubungsaufgabe). Damit kann man also das Lebesgue-Mass naturlich auf B(R) fortsetzen;

man spricht dann von einer Vervollstandigung von λ. Wir haben damit folgende Kaskade

von Systemen:

B(R) B(R) P(R).

Die im Artikel von Frau Bandle erwahnte Vitali-Menge ist ein Grund fur das letzte ” ”

(Beweis in Vlsg falls Zeit). Wir werden B(R) in dieser Vorlesung kaum benutzen, aber in

der hoheren Stochastik und Masstheorie ist es notwendig, sich damit auseinanderzusetzen.

34

Page 35: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2. Wir haben - nicht nur beim Lebesgue-Mass - die Existenzfrage von Massen und vor allem

Wahrscheinlichkeiten ausgeklammert. Dabei ist es meist einfach, Wahrscheinlichkeiten

auf einfachen Systemen zu definieren und deren Existenz und Vereinbarkeit mit den

Axiomen der Wahrscheinlichkeit zu beweisen. Dass diese Wahrscheinlichkeiten dann aber

zum Beispiel sinnvoll auf ganz B(R) erweitert/fortgesetzt werden konnen - das ist lang-

wierig. Die Beweise (Fortsetzungssatze) gehoren in eine Vorlesung uber Masstheorie.

35

Page 36: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie

Dr. C.J. Luchsinger

2 Zufallsgrossen

Bevor wir uns den Zufallsgrossen zuwenden (2.3), wollen wir noch kurz 2 Themen vor-

holen: Allgemeine Bemerkungen zu Abbildungen und Mengen (2.1) und Bemerkungen zu

Rn,B(Rn) und λ auf (Rn,B(Rn)) (2.2):

2.1 Allgemeine Bemerkungen zu Abbildungen und Mengen

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Wir untersuchen erstmal das Urbild einer

Menge unter einer Abbildung und fordern vorerst nicht, dass die Abbildung messbar (d.h.

eine Zufallsgrosse) ist.

Definition 2.1 [Urbild einer Menge] Sei X eine Funktion von Ω nach R. Das

Urbild unter einer Abbildung X von B ∈ P(R) ist die folgende Teilmenge von Ω:

X−1(B) := X ∈ B := ω|X(ω) ∈ B.

Man beachte, dass wir erst am Schluss dieser Definitions-Kette einen mathematisch exak-

ten Ausdruck haben!

Wir wollen die Abbildung X−1 genauer untersuchen; die Abbildung X−1 erhalt Teilmen-

gen, Vereinigungen, Schnitte, Disjunktheit und Komplementbildung (vergleiche auch mit

Honours-Aufgabe auf Blatt 2):

Lemma 2.2 [X−1 und Mengenoperationen] Seien A,B sowie Bα|α ∈ I Borel-

Mengen. Dann gelten:

a) Sei A ⊂ B, dann auch X−1(A) ⊂ X−1(B)

b) X−1(∪IBα) = ∪IX−1(Bα)

c) X−1(∩IBα) = ∩IX−1(Bα)

d) Falls A ∩B = φ, dann auch X−1(A) ∩X−1(B) = φ

e) X−1(Ac) = [X−1(A)]c

Vorsicht: ∪α∈IBα /∈ B(R) moglich, da I uberabzahlbar hier erlaubt!

36

Page 37: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Je nach Zeit; Beweis von Teilen von Lemma 2.2 in Vlsg; sonst/Rest in den

Ubungen:

37

Page 38: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2.2 Bemerkungen zu Rn,B(Rn) und λ auf (Rn,B(Rn))

Definition 2.3 [B(Rn)] Die Borel-σ-Algebra auf Rn ist diejenige σ-Algebra B(Rn),

welche vom π-System der Rechtecke (Cartesische Produkte von Intervallen)

n∏

i=1

(ai, bi]

erzeugt wird.

Ein weiterer Erzeuger von B(Rn) ist die Menge ∏ni=1Bi|Bi ∈ B(R). Man beachte, dass

∏ni=1Bi|Bi ∈ B(R) $ B(Rn); Ausnahmebeispiel:

Wir wollen noch das Lebesgue-Mass λ auf (Rn,B(Rn)) einfuhren. Wir unterscheiden bei

der Bezeichnung von λ nicht nach Dimension! Auf (Rn,B(Rn)) ist λ das einzige σ-endliche

Mass derart, dass (ai ≤ bi, fur 1 ≤ i ≤ n)

λ( n∏

i=1

[ai, bi])

=n∏

i=1

(bi − ai).

Man sieht an dieser Formel bereits, dass eine Gerade in der Ebene Lebesgue-Mass 0 hat

und ebenso eine Ebene im R3. Allgemein Hyperebenen im Rn; auch der Graph von stetigen

Funktionen f : Rn−1 → R mit kompaktem Trager (vgl Vlsg Reelle Analysis).

38

Page 39: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2.3 Zufallsgrosse

Definition 2.4 [Zufallsgrosse X auf (Ω,A, P )] Eine Zufallsgrosse auf (Ω,A, P ) ist

eine Funktion X : Ω→ R mit der Eigenschaft, dass

X−1(B) ∈ A (mb)

fur alle B ∈ B(R). Die geforderte Eigenschaft nennt man Messbarkeit (mb).

Warum diese mb?

Obige Definition ist ubrigens ein Spezialfall von

Definition 2.5 [messbare Abbildung, Borel-Funktion] Es seien (E1, E1) und

(E2, E2) Messraume (vgl. Definition 1.24). g : E1 → E2. g heisst E1 − E2-messbar, wenn

g−1(A) ∈ E1

fur alle A ∈ E2. Falls (Ei, Ei) = (R,B(R)) fur i ∈ 1, 2, nennt man g eine Borel-Funktion.

Fur LeserInnen auf der Suche nach den ganz grossen Zusammenhangen der hoheren Mathe-

matik: wenn Sie den Begriff des Messraumes mit der Topologie und die messbare Abbildung

mit der stetigen Funktion vergleichen, werden Sie gewisse Analogien entdecken.

39

Page 40: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Bemerkungen zu Definition 2.4:

1. Zufallsgrossen nennt man auch Zufallsvariablen.

2. In der Vlsg WTS (weitgehend auch in AS, SM) haben wir uns nicht um die mb

gekummert. Dies wird jetzt anders. Um jedoch die beiden Teile auseinanderzuhalten: fur

die Anwendungen und Ihre Vorstellungswelt ist eine Zufallsgrosse einfach eine Funktion

X : Ω→ R; damit die Mathematik nicht schiefgeht, fordern wir dazu noch die mb.

Beispiele (Indikatorfunktion(en), konstante Funktionen, einfache Zufallsgrossen):

40

Page 41: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2.4 Ein paar weitere, verwandte Definitionen

Definition 2.6 [n-dimensionaler Zufallsvektor] Ein n-dimensionaler Zufallsvek-

tor X = (X1, . . . , Xn) ist eine Funktion Ω → Rn derart, dass jede Koordinate eine Zu-

fallsgrosse ist.

Zufallsvektoren werden wir vor allem auch in der Vorlesung SM benutzen: Wenn wir Daten

(x1, . . . , xn) haben, so stellen wir uns vor, diese Daten sind Realisationen eines Zufallsvek-

tors X = (X1, . . . , Xn), also X(ω) = (X1(ω), . . . , Xn(ω)) = (x1, . . . , xn), fur ein ω, welches

gerade eingetreten ist (”Zustand der Welt”). Das geschieht im Modellierungsschritt, wo

man auch die Verteilung der Zufallsgrosse wahlen muss (je mehr Zufallsgrossen Sie ken-

nen, desto besser konnen Sie das). Wir haben diesen Schritt im Statistikteil der WTS auch

schon gemacht. In der Informatik heisst Modellierung ubrigens etwas anderes! In der WT

werden wir Zufallsvektoren entweder in obigem Sinn benutzen (zufalliges Element im Rn)

oder als endliche Folge von Zufallsgrossen. Mathematisch ist es beide Male das gleiche.

Definition 2.7 [Sub-σ-Algebra, Filtration] Seien A und F beide σ-Algebren. Wir

sagen, A ist eine Sub-σ-Algebra von F (geschrieben als A ⊆ F), wenn ∀A ∈ A gilt

A ∈ A ⇒ A ∈ F .

Sei T eine geordnete Menge und seien (At)t∈T Sub-σ-Algebren von A. Wir nennen eine

Familie (At)t∈T eine Filtration (in A), wenn

s ≤ t⇒ As ⊆ At. (Isotonie)

Definition 2.8 [(At)t∈T -adaptierter Stochastischer Prozess] Sei T eine geord-

nete Indexmenge. Wir nennen (Ω,A, P, (At)t∈T , (Xt)t∈T ) [kurz (Xt)t∈T ] einen (At)t∈T -

adaptierten stochastischen Prozess [kurz ”stochastischen Prozess”], wenn fur alle t ∈ T

gilt, dass Xt At − B(R)-messbar ist.

41

Page 42: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wie bei der Definition der Zufallsgrosse, vernebelt die strenge mathematische Definition

den Blick auf das Wesentliche: T ist die Zeitmenge (diskret oder stetig je nach Model-

lierungsgegenstand) und der Zustandsraum ist allgemein R. Fur jedes feste ω ∈ Ω nennen

wir die Abbildung von T nach R

t→ Xt(ω)

Pfad (Trajektorie, Realisierung) des Prozesses. Man nennt deswegen stochastische Prozesse

auch zufallige Funktionen. In der Funktionalanalysis werden Sie die Analysis in einer

Verallgemeinerung betreiben, dass Sie (deterministische) Funktionen (zB im C[[0,∞)])

wie Punkte in einem Raum begreifen werden. In dieser Abstraktion werden dann viele

Resultate bewiesen, welche fur die Stochastischen Prozesse ebenfalls gebraucht werden

konnen. In der hoheren Stochastik sind deshalb gute Kenntnisse in Funktionalanalysis

sehr wichtig.

In den Anwendungen (vgl Vlsg AS) kann man dann je nach Modellierungsgegenstand also

die Zeit (zB diskret oder stetig) und den Zustandsraum (diskret oder stetig) frei wahlen;

fur’s erste gibt es die folgenden 4 (= 2 ∗ 2) Moglichkeiten:

42

Page 43: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2.5 Von Zufallsgrossen erzeugte σ-Algebren

Das folgende Resultat haben wir auf Blatt 2 im Honours-Teil bereits zu Fuss bewiesen;

wir werden es jetzt mit neu erlernten Begriffen und Resultaten eleganter formulieren und

beweisen konnen:

Lemma 2.9 [von X erzeugte σ-Algebra] Sei X eine Zufallsgrosse. Die Familie

σ(X) := X−1(B)|B ∈ B(R)

ist eine σ-Algebra auf Ω. Man nennt sie ”die von X erzeugte σ-Algebra”.

Beweis Lemma 2.9:

43

Page 44: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Beispiele zu ”von X erzeugte σ-Algebra”

44

Page 45: Skript zur Vorlesung Wahrscheinlichkeitstheorie

kleine Dissonanz und deren Auflosung

Wir haben in der WTS die Zufallsgrossen folgendermassen definiert:

WTS-Definition 2.1 [Zufallsgrosse X auf (Ω,A, P )] Eine Zufallsgrosse auf (Ω,A, P )

ist eine Funktion X : Ω → R mit der Eigenschaft, dass ω ∈ Ω|X(ω) ≤ a ∈ A fur alle

reellen a. Die geforderte Eigenschaft nennt man Messbarkeit.

Wie ist das jetzt mit unserer Definition 2.4?

45

Page 46: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2.6 Algebraische Verknupfungen, Limiten und Transformationen von Zufalls-

grossen

Falls Sie Wahrscheinlichkeitsrechnung und Statistik auf Gymnasial- oder Fachhoch-

schulstufe unterrichten oder Service-Veranstaltungen fur Nicht-MathematikerInnen halten,

so werden Sie ohne Bedenken zum Beispiel Summen von Zufallsgrossen bilden. Defini-

tion 2.4 beinhaltet aber, wie bereits gesagt, 2 Teile. Der erste Teil ist unproblematisch:

Zufallsgrossen sind Abbildungen von Ω nach R. Also wird man Summen und andere al-

gebraische Verknupfungen und Limiten punktweise definieren. Aber sind das dann noch

Zufallsgrossen? Haben wir auch die Messbarkeit? Die folgenden Lemmata bejahen dies:

Lemma 2.10 [Algebraische Operationen] Seien X und Y Zufallsgrossen. Dann

gilt:

a) aX + bY ist eine Zufallsgrosse, wo a, b ∈ R; damit wird die Menge aller Zufallsgrossen

zu einem

b) maxX,Y und minX,Y sind Zufallsgrossen

c) XY ist eine Zufallsgrosse

d) Falls fur jedes ω ∈ Ω gilt, dass Y (ω) 6= 0, so ist auch X/Y eine Zufallsgrosse

e) X+, X−, |X| sind Zufallsgrossen.

Beweis von Lemma 2.10

46

Page 47: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Beweis von Lemma 2.10 (Fortsetzung)

47

Page 48: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Lemma 2.11 [Folgen, Limiten, Summen von Zufallsgrossen] Sei (Xi)i≥1 eine

Folge von Zufallsgrossen. Dann gilt:

a) supnXn, infnXn sind Zufallsgrossen.

b) lim supnXn, lim infnXn sind Zufallsgrossen.

c) Falls X(ω) := limn→∞Xn(ω) fur alle ω ∈ Ω existiert, dann ist auch X eine Zu-

fallsgrosse.

d) Falls X(ω) :=∑∞n=1Xn(ω) fur alle ω ∈ Ω existiert, dann ist auch X eine Zufallsgrosse.

Beweis von Lemma 2.11

Kleine Bemerkung:

48

Page 49: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Lemma 2.12 [Transformationen von Zufallsgrossen] Sei (X1, . . . , Xn) ein Zu-

fallsvektor und sei g : Rn → R eine Borel-Funktion (g−1(B) ∈ B(Rn) fur alle B ∈ B(R)).

Dann ist auch Y := g(X1, . . . , Xn) eine Zufallsgrosse.

Beweis von Lemma 2.12

49

Page 50: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir haben die einfachen Zufallsgrossen bereits eingefuhrt. Sie werden ihrem Namen

vollig gerecht insofern, dass sie endliche Linearkombinationen von Indikatorfunktionen sind

- und Indikatorfunktionen sind wirklich einfach zu handhaben. Wir werden die einfachen

Zufallsgrossen bei der Definition von Erwartungswerten benutzen. Dazu wird Lemma 2.13

benutzt:

Lemma 2.13 [Approximation nichtnegativer Zufallsgrossen durch eine Folge

einfacher Zufallsgrossen] Sei X eine nichtnegative Zufallsgrosse. Dann gibt es eine

monoton wachsende Folge einfacher Zufallsgrossen 0 ≤ X1 ≤ X2 . . . sodass Xn(ω) ↑ X(ω)

fur alle ω ∈ Ω.

Beweis von Lemma 2.13

50

Page 51: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir kommen jetzt - was die Beweistechnik anbelangt (!) - zu einem Analogon von

Satz 1.6 [Monoton-Lemma fur Mengen]. Wir werden das nachfolgende Monoton-Lemma

fur Zufallsgrossen dann einsetzen, wenn wir beweisen wollen, dass eine bestimmte Menge

von Zufallsgrossen alle Zufallsgrossen enthalt.

Theorem 2.14 [Monoton-Lemma fur Zufallsgrossen] Sei G ein π-System, wel-

ches A erzeugt. H sei eine Menge von Funktionen auf Ω derart, dass

i) 1 ∈ H (konstante Funktion ist drin)

ii) 1A ∈ H fur alle A ∈ Giii) H ist ein Vektorraum

iv) Falls Xn ∈ H fur alle n und supnXn(ω) < ∞ fur alle ω ∈ Ω, dann gehort auch

supnXn zu H.

Dann beinhaltet H alle (!) Zufallsgrossen.

Beweis von Theorem 2.14

51

Page 52: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Beweisfortsetzung:

Bemerkung 2.15 [zu Karr-Theorem 2.22] Im Buch von Karr hat es hier noch ein

Theorem 2.22; es ist falsch: 1Ac ist zum Beispiel nicht in H, wenn man S = A wahlt!

52

Page 53: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2.7 Verteilungen, Verteilungsfunktionen und vorgegebene Verteilungen

2.7.1 Verteilungen und Verteilungsfunktionen im Fall von Zufallsgrossen (n=1)

Wir haben in Kapitel 1 (Wahrscheinlichkeit) nach der Wahrscheinlichkeit P auch die

Verteilungsfunktion einer Wahrscheinlichkeit FP auf (R,B(R)) kennengelernt. Mit Defini-

tion 1.14 und Satz 1.15 haben wir eine 1-1-Beziehung zwischen den P und den FP erhalten.

Wir haben damit viel Vorarbeit geleistet, welche uns jetzt ein zugiges Vorgehen erlaubt,

um diese Konzepte mit dem X zu verbinden. In Kapitel 1 hatten wir die Zufallsgrossen

hochstens zu Motivationszwecken benutzt.

Wir werden in 2.7.3 lernen, dass wir zu jeder vorgegebenen Verteilungsfunktion bzw

Wahrscheinlichkeit immer auch eine Zufallsgrosse mit ebendieser Verteilung konstruieren

konnen. Zu jeder Zufallsgrosse erhalten wir aber auch kanonisch eine Wahrscheinlichkeit

auf (R,B(R)):

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Sei X eine Zufallsgrosse auf diesem Wahr-

scheinlichkeitsraum. In Aufgabe 34 haben Sie gezeigt: durch

PX(B) := P [X−1(B)] := P [ω|X(ω) ∈ B]

wird eine Wahrscheinlichkeit auf (R,B(R)) definiert. Wir haben damit zusammengefasst

folgende 2 Wahrscheinlichkeitsraume (Ω,A, P ) und (R,B(R), PX):

Nebenbei: in der allgemeinen Masstheorie spricht man von einem Bildmass; P wird durch

X abgebildet; man hat dann in diesem Sinn fur ein B ∈ B(R) folgende Schreibweise

X(P )[B] := P [X−1(B)].

53

Page 54: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Es folgen noch einige Bezeichnungen, die sich eingeburgert haben:

Definition 2.16 [Verteilung, Verteilungsfunktion, Survivalfunktion] Sei X

eine Zufallsgrosse. Dann nennt man

a) PX(B) := P [X−1(B)], B ∈ B(R), die Verteilung von X. Das Wort ”Verteilung” wird

umgangssprachlich jedoch auch allgemeiner benutzt; man kann sagen, X hat die Verteilung

N (µ, σ2) oder hat diese Dichte oder Verteilungsfunktion statt das PX(B) anzugeben.

b) FX(t) := PX((−∞, t]) := P [X ≤ t] die Verteilungsfunktion von X. Englisch: Cumula-

tive Distribution Function (CDF).

c) SX(t) := 1 − FX(t) := P [X > t] nennt man selbsterklarend die Survivalfunktion (am

Besten motiviert mit der Exp(λ)-Zufallsgrosse):

X nennen wir diskret, absolut stetig oder singular stetig, falls das PX von der je-

weiligen Art ist. Ebenso spricht man im Fall von absolut stetigen Zufallsgrossen X von

der Dichtefunktion fX , falls fX = fP und fP die Dichtefunktion von PX ist.

54

Page 55: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Bemerkungen zur Gleichheit von Zufallsgrossen bzw deren Verteilungen:

55

Page 56: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2.7.2 Verteilungen und Verteilungsfunktionen im Fall von Zufallsvektoren

Definition 2.17 [Gemeinsame Verteilungsfunktion; engl. Joint CDF] Sei

X = (X1, . . . , Xn) ein Zufallsvektor. Dann definieren wir:

a) Die Verteilung von X ist die Wahrscheinlichkeit PX(B) := P [X ∈ B] auf Rn.

b) Die Gemeinsame Verteilungsfunktion von X ist die Funktion FX : Rn → [0, 1], welche

folgendermassen definiert ist:

FX(t1, . . . , tn) := P [X1 ≤ t1, . . . , Xn ≤ tn].

Auch hier kann man zeigen, dass PX durch FX eindeutig festgelegt ist (kleine HA).

Wir zeigen jetzt, dass wir aus der gemeinsamen Verteilungsfunktion von X immer die

Randverteilungen herausdestillieren konnen:

Lemma 2.18 [Gewinnen von FXi aus FX ] Sei X ein Zufallsvektor. Dann gilt fur

alle t, i:

FXi(t) = limtj→∞,j 6=i

FX(t1, . . . , ti−1, t, ti+1, . . . , tn).

Beweis Lemma 2.18

56

Page 57: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Analog zum eindimensionalen Fall, nennen wir einen Zufallsvektor X

* diskret, falls es eine hochstens abzahlbare Menge C ⊂ Rn gibt, sodass P [X ∈ C] = 1.

* absolut stetig, falls es eine Funktion fX : Rn → R+ (gemeinsame Dichte - im Gegensatz

zu den Rand-Dichten) gibt, sodass

P [X1 ≤ t1, . . . , Xn ≤ tn] =∫ t1

−∞. . .

∫ tn

−∞fX(u1, . . . , un)du1 . . . dun.

Im Fall der diskreten Zufallsvektoren gilt (Vorsicht beim vermuteten absolut stetigen

Pendant):

Lemma 2.19 [diskreter Zufallsvektor und diskrete Einzelkomponenten] Ein

Zufallsvektor ist genau dann diskret, wenn alle seine Einzelkomponenten diskrete Zu-

fallsgrossen sind.

Beweis Lemma 2.19

57

Page 58: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Lemma 2.20 [absolut stetiger Zufallsvektor und absolut stetige Einzelkom-

ponenten] Sei X = (X1, . . . , Xn) ein absolut stetiger Zufallsvektor. Dann gilt fur alle

Einzelkomponenten, dass auch diese absolut stetig sind und es gilt:

fXi(t) =∫ ∞−∞

. . .

∫ ∞−∞

fX(u1, . . . , ui−1, t, ui+1, . . . , un)du1 . . . dui−1dui+1 . . . dun.

Beweis Lemma 2.20 und Gegenbeispiel zur vermuteten Umkehrung

In Karr folgen an dieser Stelle noch die wichtigsten Verteilungen. Wir haben dies in der

WTS (weitere in SM, AS) besprochen. Lesen Sie vielleicht nochmals WTS-Kapitel 4 durch.

Auch die Transformation von stetigen Zufallsgrossen wurde bereits in WTS-Kapitel 2 (2.6)

besprochen. Karr geht noch unvollstandig auf die mehrdimensionalen Transformationen

ein; dies machen wir nur einmal in der Vlsg SM.

58

Page 59: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2.7.3 Vorgegebene Verteilungen

Bisher haben wir Zufallsgrossen X einfach als gegeben betrachtet. Wir haben Satze

geschrieben der Art: ”sei X standardnormalverteilt”, also eine N (0, 1)-Zufallsgrosse. Dies

konnten wir zu Recht machen, denn es gilt

Satz 2.21 [Existenz von (Ω,A, P ) und X zu gegebenem F ] Sei F eine Vertei-

lungsfunktion auf R. Dann existiert ein Wahrscheinlichkeitsraum (Ω,A, P ) und eine Zu-

fallsgrosse X so, dass FX = F .

Beweis Satz 2.21 (handschriftlich bereits in 2.5 behandelt)

Satz 2.21 ist jedoch nur eine Existenzaussage, wir wollen noch eine konstruktive Methode

herleiten. Dazu fuhren wir Konzepte ein, welche in der Vorlesung SM in Kapitel 4 auch

verwendet werden.

59

Page 60: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Definition 2.22 [Inverse von F oder Quantil-Funktion von F ] Wir definieren

die Inverse (oder Quantil-Funktion) einer Verteilungsfunktion F als

F−1(x) := inft : F (t) ≥ x, x ∈ (0, 1).

Ein paar Bemerkungen und Bilder, um dieses Konstrukt besser kennenzulernen:

Wir listen hier ein paar elementare Eigenschaften von F−1 auf, welche wir gleich benutzen

werden. Sie beweisen diese Aussagen in Ubungsblatt 9.

Lemma 2.23 [elementare Eigenschaften von F−1] Sei F−1 die Inverse von F .

Dann gelten:

a) Fur alle (x, t) gilt F−1(x) ≤ t⇔ x ≤ F (t).

b) F−1 ist monoton wachsend und links-stetig.

c) Falls F stetig ist, dann gilt F (F−1(x)) = x fur alle x ∈ (0, 1).

60

Page 61: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Jetzt kommt - im Gegensatz zu Satz 2.21 - eine konstruktive Methode. Dazu ein paar

Vorbemerkungen:

1. Im Statistik-Paket R (vgl Vlsg WTS) und in anderen Statistik-Paketen haben Sie alle

wichtigen Zufallsgrossen bereits implementiert.

2. Man kann sich aber einerseits fragen, wie die EntwicklerInnen von R dies gemacht haben

und andererseits kann es auch sein, dass Sie in einer anderen Programmierumgebung dies

zu Fuss selber machen mussen.

3. Was jetzt folgt berucksichtigt nicht allfallige algorithmische Probleme wegen der Rechen-

geschwindigkeit.

4. Im Semesterapparat finden Sie das Buch ”Introduction to Stochastic Calculus Applied

to Finance” von Lamberton/Lapeyre. Dort hat es in Kapitel 8 weitere Angaben zur

Programmierung von Zufallsgrossen, Zufallsvektoren und -Prozessen.

5. Wir setzen im Folgenden voraus, dass Sie eine U [0, 1]-Zufallsgrosse bereits besitzen.

Diese erhalten Sie in meist genugender Prazision zum Beispiel, in dem Sie einen Zufalls-

generator fur naturliche Zahlen von 1 bis N haben und dann das Resultat durch N teilen.

6. Die jetzt folgende Methode ”Quantil-Transformation” (eher Statistik) nennt man auch

”Inverse Distribution Function”-Methode (eher Stochastik).

Lemma 2.24 [Inverse Distribution Function-Methode] Sei F eine Verteilungs-

funktion auf R. Sei U eine U [0, 1]-Zufallsgrosse Dann hat X := F−1(U) die Verteilungs-

funktion F .

Beweis von Lemma 2.24 und Beispiel (exp(λ))

Sie sehen anhand des Beispiels auch, dass Sie entweder F−1 in geschlossener Form

bereits haben mussen oder eine gute numerische Approximation kennen.

61

Page 62: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Zu Lemma 2.24 gibt es auch eine Umkehrung. In der Vorlesung SM sehen wir mit

Hilfe von WT-Lemma 2.25 in SM-Kapitel 4 uber Testtheorie, dass bei stetiger Teststatistik

unter der Nullhypothese der P-Wert eine U [0, 1]-Verteilung besitzt.

Lemma 2.25 [Verteilung von FX(X) wenn FX stetig] Sei FX stetig, dann hat

FX(X) eine U [0, 1]-Verteilung.

Beweis Lemma 2.25

Ohne Beweis fugen wir noch das Pendant fur Vektoren von Satz 2.21 an:

Satz 2.26 [Existenz von (Ω,A, P ) und X zu gegebenem F ] Sei F : Rn →[0, 1] eine n-dimensionale Verteilungsfunktion. Dann existiert ein Wahrscheinlichkeits-

raum (Ω,A, P ) und ein Zufallsvektor X := (X1, . . . , Xn) so, dass FX = F .

62

Page 63: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir schliessen dieses Kapitel ab mit Bemerkungen zu Folgen von Zufallsgrossen. Wir

brauchen dies in Kapitel 5 und vor allem in der Vlsg AS.

Nehmen wir einmal an, wir haben mathematisch sauber ein (Ω,A, P ) und eine Folge

von Zufallsgrossen (Xn)n≥0 konstruiert. Dann muss wegen der Stetigkeit von P sicher

gelten:

P [X1 ≤ t1, . . . , Xn ≤ tn] = limt→∞

P [X1 ≤ t1, . . . , Xn ≤ tn, Xn+1 ≤ t].

Falls wir zu einer gegebenen Folge von Verteilungsfunktionen (Fn)n≥0 eine Folge von Zu-

fallsgrossen (Xn)n≥0 konstruieren wollen, mussen wir also sicher fordern, dass

limt→∞

Fn+1(t1, . . . , tn, t) = Fn(t1, . . . , tn).

In der Tat ist diese Konsistenzbedingung auch genugend. Dies ist ein fundamentales Re-

sultat aus der Masstheorie und lautet (Beweis in A.N. Sirjaev: Wahrscheinlichkeit)

Satz 2.27 [Satz von Kolmogorov uber die Existenz stochastischer Prozesse]

Fur alle n gelte, dass Fn eine Verteilungsfunktion auf Rn ist. Es gelte zudem die Konsis-

tenzbedingung

limt→∞

Fn+1(t1, . . . , tn, t) = Fn(t1, . . . , tn)

fur alle n und (t1, . . . , tn). Dann gibt es einen Wahrscheinlichkeitsraum (Ω,A, P ) und

eine Folge von Zufallsgrossen (Xn)n≥0 so, dass Fn fur alle n die Verteilungsfunktion von

(X1, . . . , Xn) ist.

63

Page 64: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie

Dr. C.J. Luchsinger

3 Unabhangigkeit

Wir repetieren zuerst unsere elementaren Vorstellungen von Unabhangigkeit von Ereignis-

sen und Zufallsgrossen aus der WTS:

64

Page 65: Skript zur Vorlesung Wahrscheinlichkeitstheorie

3.1 Unabhangigkeit von Zufallsgrossen

Entgegen dem Aufbau in WTS werden wir jetzt zuerst die Unabhangigkeit von Zufallsgros-

sen behandeln und definieren hierzu erstmal:

Defintion 3.1 [Unabhangigkeit von Zufallsgrossen] Zufallsgrossen X1, . . . , Xn

sind unabhangig, wenn

P [X1 ∈ B1, . . . , Xn ∈ Bn] =n∏

i=1

P [Xi ∈ Bi]

fur alle Borelmengen B1, . . . , Bn. Eine unendliche Menge von Zufallsgrossen sei un-

abhangig, wenn jede endliche Teilmenge hiervon unabhangig ist.

Obige Definition ist ein wenig umstandlich: wir mussten dazu jede Borel-Menge

uberprufen - und die konnen kompliziert sein! Bereits in der Vlsg WTS haben wir je-

doch gesehen, dass die Faktorisierung der Verteilungsfunktion bereits ein gleichwertiges

Kriterium ist. Damit konnen wir - wie schon haufig in Kapitel 1 und 2 - eine Vereinfachung

machen derart, dass anstelle von allen Borel-Mengen lediglich ein Erzeugendensystem von

B(R) - hier die halboffenen Intervalle (−∞, a] - uberpruft werden mussen.

Satz 3.2 [Faktorisierung von F und Unabhangigkeit] Zufallsgrossen X1, . . . , Xn

sind unabhangig genau dann wenn

FX(t1, . . . , tn) =n∏

i=1

FXi(ti)

fur alle t1, . . . , tn ∈ R.

Beweis Satz 3.2

⇒:

65

Page 66: Skript zur Vorlesung Wahrscheinlichkeitstheorie

⇐:

66

Page 67: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Bereits in der Vlsg WTS haben wir immer wieder betont, dass die Definition der Vertei-

lungsfunktion(en) gleich ist fur alle Arten von Verteilungen (diskret, absolut stetig und sin-

gular stetig - sogar fur konvexe Linearkombinationen hiervon). Unterschiede ergeben sich,

sobald wir die Wahrscheinlichkeitsfunktionen (diskret) bzw die Dichten (absolut stetig) im

Hinblick auf die Unabhangigkeit der zugrunde liegenden Zufallsgrossen untersuchen wollen.

Deshalb folgen jetzt 2 sich entsprechende Satze (Satz 3.3 und Satz 3.4):

Satz 3.3 [Unabhangigkeit diskreter Zufallsgrossen] Seien X1, . . . , Xn diskrete

Zufallsgrossen mit Werten in der abzahlbaren Menge C. Dann gilt: X1, . . . , Xn sind un-

abhangig genau dann wenn

P [X1 = a1, . . . , Xn = an] =n∏

i=1

P [Xi = ai]

fur alle a1, . . . , an ∈ C.

Beweis Satz 3.3

67

Page 68: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Dann noch das Analogon im stetigen Fall:

Satz 3.4 [Unabhangigkeit absolut stetiger Zufallsgrossen] X := (X1, . . . , Xn)

sei ein absolut stetiger Zufallsvektor. Dann gilt: X1, . . . , Xn sind unabhangig genau dann

wenn

fX(x1, . . . , xn) =n∏

i=1

fXi(xi)

fur fast alle x1, . . . , xn ∈ R.

Beweis Satz 3.4

68

Page 69: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Um das folgende, kleine Korollar zu verstehen, lesen Sie vorher bitte die Resultate und

Definitionen aus 2.7 nochmals durch. Gemass Lemma 2.20 gilt, dass die Komponenten

eines absolut stetigen Zufallsvektors immer auch absolut stetig sind. Wir haben bereits

dort darauf hingewiesen, dass - im Gegensatz zum diskreten Fall - die Umkehrung nicht

gilt und dazu auch ein Beispiel gegeben. Hingegen gilt die Umkehrung, wenn wir noch die

Unabhangigkeit der Einzelkomponenten fordern:

Korollar 3.5 [absolut stetiger Vektor und absolut stetige Komponenten bei

Unabhangigkeit] Seien X1, . . . , Xn unabhangige Zufallsgrossen. Dann gilt: die Kompo-

nenten (Xi)ni=1 sind genau dann absolut stetig, wenn auch der Vektor (X1, . . . , Xn) absolut

stetig ist.

Beweis Korollar 3.5

69

Page 70: Skript zur Vorlesung Wahrscheinlichkeitstheorie

3.2 Unabhangigkeit von Ereignissen

Definition 3.6 [Unabhangigkeit von Ereignissen] Ereignisse A1, . . . , An sind

unabhangig, wenn die Indikatoren 1A1 , . . . ,1An (Zufallsgrossen!) unabhangig sind. Eine

unendliche Sammlung von Ereignissen nennen wir unabhangig, wenn jede endliche Teil-

sammlung unabhangig ist.

Wir mussen naturlich schauen, dass diese Definition gleichwertig mit der Definition aus

der WTS ist - dies ist der Fall:

Satz 3.7 [Gleichwertigkeit der Definitionen von Unabhangigkeit von Ereig-

nissen] Ereignisse A1, . . . , An sind unabhangig genau dann wenn

P [∩i∈IAi] =∏

i∈IP [Ai]

fur jede Teilmenge I ⊆ 1, . . . , n.

Beweis Satz 3.7

Sie beweisen in einer Ubungsaufgabe, dass A1, . . . , An genau dann unabhangig sind, wenn

auch Ac1, . . . , Acn unabhangig sind.

70

Page 71: Skript zur Vorlesung Wahrscheinlichkeitstheorie

In Kapitel 1 haben wir in Satz 1.11 [Borel-Cantelli I] gezeigt, dass

∞∑n=1

P [An] <∞⇒ P [lim supn

An] = 0.

Im Fall von Unabhangigkeit haben wir auch eine Umkehrung der Art:

Satz 3.8 [Borel-Cantelli II] Seien A1, A2, . . . unabhangige Ereignisse. Dann gilt

∞∑n=1

P [An] =∞⇒ P [lim supn

An] = 1.

Beweis Satz 3.8

In den Ubungen werden Sie noch Beispiele zu Borel-Cantelli angeben mussen.

71

Page 72: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie

Dr. C.J. Luchsinger

4 Erwartungswerte

4.0 Ein paar Vorbemerkungen

1. Wir haben in Kapitel 2 nach Lemma 2.11 einen kurzen Abstecher gemacht, in dem

wir eine Erweiterung von (Ω,A, P ) und einem darauf definierten X vorgenommen haben,

um auch Werte ±∞ als Werte einer Zufallsgrosse zuzulassen. Wir brauchen dies in der Vlsg

AS. Falls eine Zufallsgrosse X mit Wahrscheinlichkeit > 0 den Wert +∞ annimmt (und

beispielsweise nach unten beschrankt ist), dann definieren wir den Erwartungswert als +∞.

Es ist aber bereits in der Vlsg WTS darauf hingewiesen worden, dass eine Zufallsgrosse

durchaus sowohl mit Wahrscheinlichkeit 1 endliche Werte annehmen kann, aber trotzdem

keinen endlichen Erwartungswert hat. Dazu geben Sie im Must-Teil auf Blatt 10 ein

einfaches Beispiel (benutzen Sie dazu den Erwartungswertsbegriff aus der WTS).

2. In der WTS haben wir in WTS-Definition 3.1 den Erwartungswert E[X] einer

diskreten und (absolut) stetigen Zufallsgrosse X definiert als

E[X] :=∑

xixiP [X = xi] falls X diskret∫∞

−∞ xf(x)dx falls X (absolut) stetig.

Weiters definierten wir mit g(x) eine Borel-Funktion von R nach R:

E[g(X)] =∑

xig(xi)P [X = xi] falls X diskret∫∞

−∞ g(x)f(x)dx falls X (absolut) stetig.

Diese Definitionen gelten, falls die Summe bzw. das Integral existiert. Dabei wird jeweils

uber den gesamten Wertebereich der Zufallsgrosse summiert respektive integriert.

Diese ”Definitionen” reichen fur eine einfuhrende Vorlesung und Serviceveranstaltun-

gen. Sie sind auch anschaulich wegen des bekannten Durchschnitts und der physikalischen

72

Page 73: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Interpretation als Schwerpunkt. Diese beiden Definitionen sind aber nicht ganz unprob-

lematisch, wenn einfach so parallel hingeschrieben. Die erste ist ein Spezialfall der zweiten

Definition und es ist nicht sofort ersichtlich, dass dies nicht auf einmal zu 2 verschiede-

nen Erwartungswerten fuhren konnte: je nachdem, ob man in einer konkreten Situation

die erste oder die zweite Definition benutzt. Das Problem obiger Definitionen ist aber ins-

besondere, dass wir in der modernen Stochastik ein besseres Fundament brauchen; deshalb

wird zur Definition von Erwartungswerten weit ausgeholt (4.1-4.3, 4.4, 4.5). Wir werden

die obigen Resultate in 4.5 (also relativ spat) sauber erarbeiten.

3. Was wollen wir sinnvollerweise von einem Erwartungswert fordern (haben wir in

der WTS uber E gelernt)?

73

Page 74: Skript zur Vorlesung Wahrscheinlichkeitstheorie

4.1 Erwartungswert einfacher Zufallsgrossen

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Wir haben in Kapitel 2 einfache Zufallsgrossen

eingefuhrt in dem Sinne, dass Sie nur endlich viele Werte annehmen und damit eine Darstel-

lung in der Art

X =n∑

i=1

ai1Ai (D)

besitzen, wo (Ai)ni=1 eine Partition von Ω ist (die ai’s mussen nicht verschieden sein). Dann

definieren wir erstmal

Definition 4.1 [Erwartungswert einer einfachen Zufallsgrosse] Sei X eine

einfache Zufallsgrosse mit Darstellung X =∑ni=1 ai1Ai . Dann definieren wir

E[X] :=n∑

i=1

aiP [Ai].

Wir orientieren uns damit bei dieser Definition durchaus am diskreten Fall von WTS-

Definition 3.1: auch dort war der Erwartungwert eine gewichtete Summe; die Gewichte sind

dabei die Wahrscheinlichkeiten (P [Ai]), mit denen die Werte (ai) angenommen werden.

Sie zeigen in einer kleinen Ubung, dass dies wohldefiniert in dem Sinne ist, dass der Er-

wartungswert nicht von der Darstellung (D) abhangt.

Berechnen Sie mit Hilfe von Definition 4.1 E[1A] und E[c], wo c eine Konstante.

74

Page 75: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Nach diesen kleinen Resultaten folgen Linearitat und Monotonie von E bei einfachen Z.G.:

Satz 4.2 [Linearitat von E bei einfachen Z.G.] Seien X,Y beide einfache Z.G.

und a, b ∈ R. Dann ist auch aX + bY eine einfache Z.G. und es gilt:

E[aX + bY ] = aE[X] + bE[Y ].

Beweis von Satz 4.2:

Wie folgt jetzt hieraus die Monotonie von E bei einfachen Z.G.?

75

Page 76: Skript zur Vorlesung Wahrscheinlichkeitstheorie

4.2 Erwartungswert nichtnegativer Zufallsgrossen

In Lemma 2.13 haben wir gezeigt, dass wir fur jede Z.G. X mit X ≥ 0 eine Folge

von einfachen Zufallsgrossen 0 ≤ X1 ≤ X2 . . . haben, sodass Xn(ω) ↑ X(ω) punktweise.

Es ist dann naheliegend, den Erwartungswert nichtnegativer Zufallsgrossen als Limes von

Erwartungswerten ebensolcher Z.G. zu definieren:

Definition 4.3 [Erwartungswert nichtnegativer Zufallsgrossen] Sei X eine

nichtnegative Zufallsgrosse. Sei Xn eine monotone, nichtnegative Folge von einfachen

Zufallsgrossen, sodass Xn ↑ X. Dann definieren wir

E[X] := limn→∞

E[Xn] ≤ ∞.

Wegen der Monotonie von E fur einfache Z.G. haben wir auch E[X1] ≤ E[X2] ≤ . . ..

Damit existiert der Limes auf jeden Fall (monotone Folgen konvergieren immer eigentlich

oder uneigentlich). Der Limes kann aber unendlich sein.

Wir mussen noch die technisch relevante Erwartung uberprufen, dass obiger E[X] nicht

von der gewahlten Folge abhangt; dies ist der Fall:

Lemma 4.4 [E ist unabhangig von der approximierenden Folge] Seien (Xn)

und (Xk) beides Folgen von monotonen, nichtnegativen, einfachen Z.G., welche beide gegen

X konvergieren. Dann gilt auch

limn→∞

E[Xn] = limk→∞

E[Xk].

Streng mathematisch gesehen, durfte man in Definition 4.3 nicht das gleiche Zeichen ”E”

fur den Erwartungswert benutzen wie in Definition 4.1. Aber wegen Lemma 4.4 durfen wir

bei einfachen, nichtnegativen Zufallsgrossen X diese auch durch die ”Folge” von Xn := X

fur alle n ”approximieren” und erhalten damit den gleichen Wert in Definition 4.1 wie

in Definition 4.3. In 4.3 wird diese mathematische Raffinesse noch in den negativen Teil

fortgesetzt - es wird also erlaubt sein, hier immer das gleiche Symbol E zu benutzen!

76

Page 77: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Beweis von Lemma 4.4:

77

Page 78: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Genau wie in Teil 4.1 werden wir auch hier - jetzt fur eine grossere Klasse von Z.G. - die

wichtigsten Eigenschaften beweisen:

Satz 4.5 [Linearitat von E bei nichtnegativen Zufallsgrossen] Seien X,Y je

nichtnegative Z.G. und a, b ∈ R+. Dann gilt

E[aX + bY ] = aE[X] + bE[Y ].

Beweis Satz 4.5:

Auch hier wollen wir noch auf die Monotonie von E bei nichtnegativen Z.G. schliessen:

78

Page 79: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Es folgen jetzt noch ein paar Resultate vor 4.3, welche thematisch eher zu Kapitel 5

(n→∞) gehoren, beweistechnisch aber jetzt Sinn machen:

Der folgende Satz ist der erste in dieser Vlsg, welcher die allgemeine Frage in WT und

Analysis behandelt:

”wann darf ich Limesbildung und Integration vertauschen?”.

Satz 4.6 [Lemma von Fatou] Sei (Xn) eine nichtnegative Folge von Zufallsgrossen.

Dann gilt:

E[lim infn→∞

Xn] ≤ lim infn→∞

E[Xn].

Geben Sie eine Situation an, in der obige Ungleichung strikt gilt:

In den Ubungen mussen Sie im Honours-Programm noch eine Erweiterung hin zum lim sup

beweisen.

Beweis von Satz 4.6:

79

Page 80: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 4.7 [Satz uber monotone Konvergenz von Beppo Levi (1875-1961)] Sei

(Xn) eine monotone, nichtnegative Folge von Zufallsgrossen mit Xn ↑ X. Dann gilt:

limn→∞

E[Xn] = E[ limn→∞

Xn] = E[X].

Ein analoger Satz gilt auch in der Analysis; vgl zB Satz 1 in §9 in Forster Analysis III.

Beweis von Satz 4.7:

Beachten Sie bitte, dass unser Beispiel nach dem Lemma von Fatou nicht im Widerspruch

zu Satz 4.7 steht!

In den Vlsg’en WTS, AS und SM haben wir bereits mehrfach die Umformung

E[∞∑

k=1

Yk] =∞∑

k=1

E[Yk]

gemacht. Ohne Einschrankungen (diese waren in WTS, AS und SM immer gegeben) gilt

diese Formel nicht; hingegen konnen wir jetzt schon beweisen:

Satz 4.8 [Partialsummen und Vertauschung von Limesbildung und Integra-

tion] Seien Yk ≥ 0 und∑∞k=1 Yk(ω) <∞ fur alle ω ∈ Ω. Dann gilt:

E[∞∑

k=1

Yk] =∞∑

k=1

E[Yk].

Beweis Satz 4.8:

80

Page 81: Skript zur Vorlesung Wahrscheinlichkeitstheorie

4.3 Erwartungswert von Zufallsgrossen (Integrierbare Zufallsgrossen)

Wir kommen hiermit zum letzten Erweiterungsschritt nach 4.1 und 4.2: wir werden

jetzt auch die negativen Zufallsgrossen einbeziehen. Gegenuber 4.2 werden wir uns aber

auch leicht einschranken, da wir Endlichkeit der involvierten Grossen fordern.

Wir repetieren aus Kapitel 2: X+ := maxX, 0, X− := −minX, 0 (beide nichtnegativ!)

und damit X = X+ −X− und |X| = X+ +X−.

Definition 4.9 [Integrierbar, Erwartungswert, L1] Sei X eine Z.G.. Dann

definieren wir

a) X ist integrierbar, wenn E[|X|] <∞.

b) Falls X integrierbar ist, definieren wir den Erwartungswert von X als

E[X] = E[X+]− E[X−].

c) Wir bezeichnen mit L1 die Menge der integrierbaren Zufallsgrossen.

Kleine Betrachtungen zu Definition 4.9:

81

Page 82: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 4.10 [Linearitat von E] Seien X,Y ∈ L1 und a, b ∈ R, dann gilt

aX + bY ∈ L1

und

E[aX + bY ] = aE[X] + bE[Y ].

Beweis Satz 4.10:

In kleinen Ubungsaufgaben zeigen Sie noch fur X ∈ L1, dass dann |E[X]| ≤ E[|X|] und

falls X ≤ Y ∈ L1, dann E[X] ≤ E[Y ].

82

Page 83: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Nach Lemma von Fatou (Satz 4.6), Satz uber die monotone Konvergenz (Satz 4.7),

folgt hiermit ein dritter Satz uber die Frage, wann Limesbildung und Integration (Sum-

mation, Erwartungswertbildung) vertauscht werden darf:

Satz 4.11 [Satz uber majorisierte Konvergenz von Henri Lebesgue (1875-

1941)] Seien X1, X2, . . . und X integrierbare Z.G. derart, dass fur alle ω ∈ Ω gilt Xn(ω)→X(ω). Wir fordern weiter, dass eine Z.G. Y derart existiert, dass Y ∈ L1 und |Xn| ≤ Y

fur alle n. Dann gilt:

limn→∞

E[Xn] = E[X].

Ein analoger Satz gilt auch in der Analysis; vgl zB Satz 2 in §9 in Forster Analysis III.

Beweis Satz 4.11:

Vermeintliche Gegenbeispiele und Beispiele:

83

Page 84: Skript zur Vorlesung Wahrscheinlichkeitstheorie

4.4 Integration bezuglich Verteilungsfunktionen

Die Integration bezuglich Verteilungsfunktionen ist ein Spezialfall des Riemann-Stielt-

jesschen Integrals (noch allgemeiner ware das Lebesgue-Stieltjessche Integral nach Thomas

Jan Stieltjes (1856-1894)). Als Sie in der einfuhrenden Vorlesung uber Analysis das

Riemann-Integral kennengelernt haben, haben Sie wohl unschwer festgestellt, dass die

Gewichtung einer Funktion f(x) auf der x-Achse gleichmassig geschah: wenn Sie eine

Treppenfunktion ψ integriert haben, so haben Sie kleine Rechtecke summiert:∫ b

a

ψ(x)dx :=n∑

k=1

ck(xk − xk−1).

(Eine Funktion f ist demnach genau dann Riemann-integrierbar, wenn man ein Ober- und

Unterintegral von Treppenfunktionen beliebig nahe zusammenfuhren kann.)

Eine physikalisch sinnvolle Erweiterung dieses Integral-Begriffes geht dann in die Rich-

tung, dass man nicht mehr einfach gleichmassig (uniform, gleichgewichtet, Distanz (xk −xk−1)) die Funktionswerte summiert, sondern eine gewichtete Summe von Funktionswerten

nimmt: damit gelangen wir zum Riemann-Stieltjesschen Integral.

Definition 4.12 [Riemann-Stieltjessches Integral] Seien f und α zwei reell-

wertige Funktionen auf [a, b]. Sei Z := x0, . . . , xn eine Zerlegung von [a, b] und ξ :=

ξ1, . . . , ξn ein zugehoriger Zwischenvektor, so heisst

Sα(f, Z, ξ) :=n∑

k=1

f(ξk)[α(xk)− α(xk−1)]

eine Riemann-Stieltjessche Summe fur f bezuglich α. Wenn fur jede Folge von Zerlegun-

gen, deren Feinheit gegen Null konvergiert, diese Summe konvergiert (die Grenzwerte fallen

alle zusammen (!)), so sagen wir, dass f bezuglich α RS-integrierbar ist (Riemann-Stietjes-

integriebar). Man schreibt dafur∫ b

a

f(x)dα(x),∫ b

a

fdα(x) oder∫ b

a

fdα.

Mit α(x) = x haben wir unser bekanntes Riemann-Integral! Fur die weiteren Berechnun-

gen zentral ist dann

84

Page 85: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 4.13 [Verbindung Riemann-Integral und RS-Integral] Ist die Funktion f

Riemann-integrierbar und existiert die Ableitung α′ auf [a, b], so existiert

∫ b

a

fdα

und es gilt

RS −∫ b

a

fdα = R−∫ α−1(b)

α−1(a)

fα′dx.

PhysikerInnen konnen bei solchen Formeln (vgl. Substitutionsregel der Integrationsrech-

nung) der Versuchung eines ausgeklugelten Differentialkalkuls nicht widerstehen, um diese

Formel zu begrunden; dieses geht folgendermassen:

Solange man sich bewusst ist, dass dies noch kein Beweis obiger Formel ist, ist es OK zum

Finden von Losungen (ahnlich wie beim Losen von DGL und PDE’s). Aber es ist kein

Beweis; diesen findet man zB in Heusser I: Kapitel XI.

85

Page 86: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Nach dieser Auflistung von Definition und Resultaten uber das Riemann-Stieltjessche

Integral aus der Analysis, wollen wir jetzt die Integration bezuglich Verteilungsfunktionen

einfuhren. Dabei werden wir zwar sehen, dass diese Erwartungswerte eben Riemann-

Stieltjessche Integrale sind, hingegen kann man die ganze Theorie auch ohne Kenntnisse

des Riemann-Stieltjesschen Integrals verstehen und einfuhren. Genau so werden wir das -

abgesehen von Querverweisen - auch machen.

Es sei - ebenfalls vorbereitend - darauf hingewiesen, dass im ganzen bisherigen Kapitel 4

bei jedem Erwartungswert

E[X]

einer Zufallsgrosse X auch eine Wahrscheinlichkeit P im Spiel ist (Definition 4.1 und darauf

basierende Erweiterungen). Deshalb indexiert man den Erwartungswert manchmal, sobald

die dazugehorige Wahrscheinlichkeit P eine Rolle spielt in der Art

EP [X].

Zum Beispiel in der Finanzmathematik werden Sie nicht nur das ”normale”, aus his-

torischen Daten geschatzte, P fur die Entwicklung eines stochastischen Prozesses (zum

Beispiel Aktienkurs St) haben, sondern auch ein sogenanntes ”Risk-Neutral-Measure” Q.

Sie haben dann - was Anfanger sehr stark verwirrt - ein EP [St] und ein EQ[St].

Falls wir jetzt eine Verteilungsfunktion F auf R haben, dann gibt es wegen Satz 1.17 ein

eindeutiges P auf B(R) derart, dass FP = F . Es gilt dann

P [(a, b]] = F (b)− F (a). (Gewicht)

Wir haben beim Exkurs uber das Riemann-Stieltjessche Integral gesagt, dass man mit

dem Riemann-Stieltjesschen Integral eine unterschiedliche Gewichtung bei der Integration

erreicht. Genau dies machen wir (versteckt) mit Hilfe von (Gewicht) in nachfolgender

Definition. Die nachfolgenden Funktionen sollen alle Borel-messbar sein.

86

Page 87: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Definition 4.14 [Integral bezuglich einer Verteilungsfunktion] Sei F eine

Verteilungsfunktion auf R. Dann definieren wir

a) fur eine nichtnegative Funktion g das Integral von g bezuglich F als

Rg(x)dF (x) := EF [g] ≤ ∞,

wobei wir (vgl. oben) EF [g] und EP [g] simultan verwenden. EF [g] ist ein uns bekannter

Ausdruck: es ist der Erwartungswert der Zufallsgrosse g auf dem Wahrscheinlichkeitsraum

(R,B(R), PF ) (vgl Teil 4.2). Man benutzt an dieser Stelle ublicherweise ein kleines g fur

eine Zufallsgrosse (!) wegen spaterer Formeln!

b) Analog zu 4.3 definieren wir: eine Funktion g ist integrierbar bezuglich F , falls

R|g(x)|dF (x) <∞.

Wir definieren in dem Fall das Integral von g bezuglich F als

Rg(x)dF (x) :=

Rg+(x)dF (x)−

Rg−(x)dF (x).

Da Sie diese Integrationsform noch nicht kennen, als Erklarungsversuch ein Resultat aus

der Zukunft: wir werden spater sehen, dass E[X] =∫∞−∞ x dFX(x). Angenommen, X ist

eine N (µ, σ2)-Zufallsgrosse. Dann musste ja gelten, dass E[X] =∫∞−∞ x dFX(x) = µ. Wie

kann aber ein Integral uber ganz R (!) von x einen endlichen Wert liefern, ja uberhaupt

definiert sein? Da hilft eben die ungleiche Gewichtung durch dF , welche wir im Riemann-

Stieltjesschen Integral haben:

87

Page 88: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir haben in Definition 4.14 das Integral bezuglich einer Verteilungsfunktion definiert

als etwas uns wohl bekanntes, als einen Erwartungswert. Damit konnen wir jetzt aber alle

Resultate aus 4.2 und 4.3 importieren - sie mussen auch fur dieses Integral gelten. Wir

repetieren die wichtigsten Resultate summarisch und ubersetzen sie gleich in die neue

Sprache:

* g ≡ c⇒ ∫gdF = c (nicht so bei Riemann-Integral)

* B ∈ B(R)⇒ ∫1BdF = PF (B)

* g, h je ≥ 0; a, b ∈ R+ oder g, h integrierbar und a, b ∈ R dann (Linearitat)

∫(ag + bh)dF = a

∫gdF + b

∫hdF

* Monotonie: 0 ≤ g ≤ h oder g, h integrierbar und g ≤ h ⇒ ∫gdF ≤ ∫ hdF

* Fatou: gn ≥ 0 fur alle n, dann∫

lim infn gndF ≤ lim infn∫gndF

* Monotone Konvergenz: 0 ≤ g1 ≤ g2 . . . ≤ gn ↑ g fur alle x, dann∫gndF ↑

∫gdF .

* Majorisierte Konvergenz: gn → g fur alle x und existiert h integrierbar, sodass

|gn| ≤ h fur alle n, dann∫gndF →

∫gdF.

Wo stehen wir? Wir konnen (ausser mit Hilfe von unbewiesenen Resultaten aus

WTS) zum Beispiel nicht mal einen Erwartungswert einer absolut-stetigen Zufallsgrosse

berechnen (ausser wir approximieren ihn mit Hilfe einer monoton wachsenden Folge von Er-

wartungswerten von einfachen Zufallsgrossen - viel Spass!). Wir werden jetzt zuerst unter-

suchen, wie ein Integral bezuglich einer Verteilungsfunktion aussieht, wenn die Verteilungs-

funktion diskret bzw absolut-stetig ist. Damit konnen wir dann in 4.5 endlich die Formeln

aus WTS (WT-Kapitel 4.0) herleiten.

88

Page 89: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Integrale bezuglich diskreter Verteilungsfunktionen sind Summen:

Satz 4.15 [Integral bezuglich einer diskreten Verteilungsfunktion] Sei F (t) =∑pi1(ti ≤ t), dann gilt fur alle nichtnegativen g

∫gdF =

i

pig(ti). (4.1)

Beweis Satz 4.15:

Korollar 4.16 [integrierbares g bei diskretem F ] g ist integrierbar bzgl F genau

dann wenn ∑

i

pi|g(ti)| <∞.

In dem Fall gilt (4.1).

89

Page 90: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Integrale bezuglich absolut-stetiger Verteilungsfunktionen sind Riemann-Integrale:

Satz 4.17 [Integral bezuglich einer absolut-stetigen Verteilungsfunktion] Sei

F eine absolut-stetige Verteilungsfunktion mit (stuckweise) stetiger Dichtefunktion f . Sei

g nichtnegativ und (stuckweise) stetig. Dann gilt:

∫gdF =

∫ ∞−∞

g(x)f(x)dx, (4.2)

dabei haben wir auf der rechten Seite jetzt ein (normales) Riemann-Integral (vgl Satz 4.13).

Beweis-Skizze Satz 4.17 (Vervollstandigung in den Ubungen):

Korollar 4.18 [integrierbares g bei absolut-stetigem F ] Sei F eine absolut-

stetige Verteilungsfunktion mit (stuckweise) stetiger Dichtefunktion f . Sei g (stuckweise)

stetig. Dann ist g integrierbar bzgl F , genau dann wenn

∫ ∞−∞|g(x)|f(x)dx <∞,

wobei dann (4.2) gilt.

90

Page 91: Skript zur Vorlesung Wahrscheinlichkeitstheorie

4.5 Operationelle Formeln zur Berechnung von Erwartungswerten

Wir werden in den folgenden 4 Resultaten (Satz 4.19, Korollar 4.20, Satz 4.21 und

Satz 4.22), meist zuerst immer noch relativ abstrakt, die zentralen Formeln herleiten. Diese

mussen danach noch explizit fur die Anwendung ausgedeutscht werden (am Schluss von

Teil 4.5).

Satz 4.19 [Operationelle Formel bei nichtnegativen Zufallsgrossen] Sei X ≥0. Dann gelten:

E[X] =∫ ∞

0

xdFX(x) =∫ ∞

0

[1− FX(y)]dy. (4.3)

Wir haben also in der Mitte ein Integral bzgl einer Verteilungsfunktion, wobei jetzt g(x) ≡x; das Integral rechts ist ein Riemann-Integral! Wir kennen die Formel rechts bereits aus

der WTS.

Beweis von Satz 4.19

91

Page 92: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Der Spezialfall, wo X nur Werte auf N0 annimmt, war schon in der WTS speziell

hervorgehoben worden und wird in der AS eingesetzt:

Korollar 4.20 [Operationelle Formel bei Zufallsgrossen mit Werten nur in

N0] Sei P [X ∈ N0] = 1. Dann gelten:

E[X] =∞∑n=0

nP [X = n] =∞∑

k=1

P [X ≥ k]. (4.4)

Beweis von Korollar 4.20

Wir werden jetzt auch negative Werte erlauben und erhalten dazu

Satz 4.21 [Operationelle Formel bei X ∈ L1] Sei X ∈ L1. Dann gilt

E[X] =∫ ∞−∞

xdFX(x). (4.5)

Beweis von Satz 4.21

92

Page 93: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Zum Schluss noch der Fall, wo wir nicht nur den Erwartungswert einer Zufallsgrosse

X, also E[X] berechnen wollen, sondern - wo g borelsch - den Erwartungswert einer trans-

formierten Zufallsgrosse g(x), also E[g(X)]. Dazu konnte man theoretisch einfach die

Verteilungsfunktion von g(X) berechnen und dann mit den bisherigen Formeln fortfahren.

Dies kann schwierig werden - es ist Gott sei Dank auch nicht notwendig:

Satz 4.22 [Operationelle Formel fur E[g(X)]] Sei g(X) ∈ L1 oder zumindest g

nichtnegativ. Dann gilt

E[g(X)] =∫ ∞−∞

g(x)dFX(x). (4.6)

Beweis von Satz 4.22

93

Page 94: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wirklich operationelle Formeln fur den taglichen Gebrauch und Ihre Begrundung

Auf Englisch nennt man obige Formel(n) zur Berechnung von E[g(X)] auch the ”Law

of the unconscious statistician” weil die (angewandten) StatistikerInnen im Gegensatz zu

den hard core MasstheoretikerInnen die Mathematik hinter obiger Formel nicht sehen:

http://en.wikipedia.org/wiki/Law of the unconscious statistician.

Warum haben wir dieses∫gdF uberhaupt eingefuhrt? Es erlaubt uns eine okonomische Be-

weisfuhrung: moglichst viel (Satz 4.19, 4.21 und 4.22) wird gemeinsam fur alle Verteilungs-

arten gezeigt. Wir haben nach Satz 1.29 (Vollstandige Klassifikation der Wahrschein-

lichkeiten) und mit der dortigen Bezeichnung fur jede Verteilungsfunktion F eine Darstel-

lung der Art F = aFd + bFa + cFs. Danach kann man dann noch a = 1 oder b = 1 setzen

und erhalt dann die ublichen Spezialfalle.

94

Page 95: Skript zur Vorlesung Wahrscheinlichkeitstheorie

4.6 Lp-Raume und Ungleichungen

In diesem Teil folgen wichtige Ungleichungen im Zusammenhang mit Erwartungswer-

ten. Man kann in einer allgemeinen Masstheorie-Vorlesung auf einem hoheren Niveau viele

der nachfolgenden Resultate abstrakter herleiten; die wichtigsten Anwendungen sind dann

in der Analysis (vgl Forster Analysis III, §10) und hier nachfolgend in der Wahrschein-

lichkeitstheorie. Meist gibt es ein Pendant der folgenden Resultate mit Erwarungswerten

in der Form von Integralen (Riemann- und mehrdimensionale Lebesgue-Integra-

le) oder Summen.

Definition 4.23 [Lp-Raum] Sei 1 ≤ p <∞. Dann bezeichnen wir mit Lp die Menge

der Zufallsgrossen X derart, dass E[|X|p] <∞ (p-tes Moment immer noch integrierbar).

Um uns kommende Beweise zu vereinfachen, behandeln wir noch

Lemma 4.24 [Young’s Ungleichung] Sei h : R+ → R+ eine stetige, streng mono-

ton wachsende Funktion mit h(0) = 0 und h(∞) =∞. Sei k die punktweise Inverse von h.

Wir definieren H(x) :=∫ x

0h(y)dy und K(x) :=

∫ x0k(y)dy. Dann gilt fur alle a, b ∈ R+,

ab ≤ H(a) +K(b).

Beweis Lemma 4.24

95

Page 96: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir halten hier noch fest, dass naturlich weiterhin die Jensen-Ungleichung (WTS-

Lemma 3.5) und die Ungleichung(en) von Bienayme-Tschebyschew (und artverwandte)

(WTS-Satz 5.1) gelten; Sie beweisen in den Ubungen eine Verallgemeinerung von WTS-

Satz 5.1.

Satz 4.25 [Holdersche Ungleichung] Seien p, q > 1 derart, dass

1p

+1q

= 1,

mit X ∈ Lp und Y ∈ Lq. Dann gilt XY ∈ L1 und

E[|XY |] ≤ E[|X|p]1/pE[|Y |q]1/q.

Die analogen Satze in der Analysis sind Satz 7 in §16 in Forster Analysis I (Summen),

Beispiel (18.5) in §18 in Forster Analysis I (Riemann-Integral) und Lemma 1 in §10 in

Forster Analysis III (mehrdimensionale Lebesgue-Integrale).

Beweis Holdersche Ungleichung

Korollar 4.26 [Cauchy-Schwarz Ungleichung] Seien X,Y ∈ L2. Dann ist XY ∈L1 und

E[|XY |] ≤√E[|X|2]E[|Y |2] .

Die allgemeinste Form dieses Resultats ist wohl in der Linearen Algebra die gleichnamige

Ungleichung (Fischer LinAlg, 5.1.3 und 5.4.7). Die analogen Satze in der Analysis finden

sich bei der Holderschen Ungleichung an oben genannten Stellen. Die Cauchy-Schwarz

Ungleichung ist offensichtlich ein Spezialfall der Holderschen Ungleichung wo p = q = 2;

damit ist nichts mehr zu beweisen.

96

Page 97: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Nach diesen schonen Analogien zwischen der Analysis und der WT kommt jetzt leider

ein wichtiger Unterschied: Wir haben bereits in der WTS in den Ubungen (damals ohne

den jetzigen Uberbau - jetzt in der neuen Sprache) bewiesen, dass wenn 1 ≤ r ≤ s, dann

gilt Ls ⊆ Lr; der Beweis geht (WT hat endliches Mass!) folgendermassen:

Warum gilt das analoge Resultat nicht in der Analysis? Gegenbeispiel:

Sie untersuchen fur die WT noch den Fall wo 0 < r ≤ s ≤ 1 in den Ubungen.

Neben obigen Inklusionen in der WT gilt sogar weitergehend, dass E[|X|p]1/p wachsend

ist in p, p ≥ 1:

Korollar 4.27 [Lyapunov-Ungleichung] Sei 1 ≤ r ≤ s und X ∈ Ls. Dann gilt

E[|X|r]1/r ≤ E[|X|s]1/s.

Beweis Korollar 4.27

97

Page 98: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir haben in der WTS bereits (spatestens bei der Definition der Varianz) gesehen,

dass fur X ∈ L2 immer gilt

E[X2] ≥ E[X]2.

Man kann dies jetzt auf ganz viele Arten mit Hilfe obiger Satze beweisen bzw memorieren,

wie alles?

98

Page 99: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wir kommen jetzt zu einem unscheinbaren Resultat (Dreiecksungleichung), welches

dann gewaltige Konsequenzen hat:

Satz 4.28 [Minkowski-Ungleichung] Sei p ≥ 1 und X,Y ∈ Lp. Dann ist auch

X + Y ∈ Lp und

E[|X + Y |p]1/p ≤ E[|X|p]1/p + E[|Y |p]1/p.

Die analogen Satze in der Analysis sind Satz 8 in §16 in Forster Analysis I (Summen),

Beispiel (18.5) in §18 in Forster Analysis I (Riemann-Integral) und Corollar zu Lemma

1 in §10 in Forster Analysis III (mehrdimensionale Lebesgue-Integrale).

Beweis Satz 4.28

Nach Wikipedia (22. Mai 2008): Minkowski (1864-1909); 1896-1902 an ETHZ, Kollege

von Hurwitz, Albert Einstein war Schuler von Minkowski.

99

Page 100: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Was folgt jetzt aus Satz 4.28? Skizze weiterer Pfad in WT und Funktional-Analysis

100

Page 101: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie

Dr. C.J. Luchsinger

5 n→∞ (Konvergenz, LLN)

5.1 Konvergenzarten

In der WT gibt es viele Konvergenzarten fur Folgen von Zufallsgrossen. Sie haben

alle ihre Berechtigung. In der Analysis untersucht man auch die Konvergenz von Funktio-

nenfolgen und hat auch dort (zum Teil) analoge Begriffe und Theoreme. Es gibt jedoch

einen wichtigen Unterschied: in der WT haben wir ein endliches Mass (im Gegensatz zum

Lebesgue-Mass auf R in der Analysis). Damit gelten in der WT Satze, welche verallge-

meinert in der Analysis nicht gelten. Wir werden die Resultate aus der Analysis auch

prasentieren (aber ohne Beweise, immerhin mit Gegenbeispielen).

Im Folgenden ist (Xn)n∈N eine Folge von Zufallsgrossen auf einem Wahrscheinlichkeitsraum

(Ω,A, P ); ebenso ist X eine Zufallsgrosse auf dem gleichen (Ω,A, P ).

1. Ein erster Konvergenzbegriff macht einen Ruckgriff auf die gewohnliche Konvergenz

einer Folge von reellen Zahlen: die Konvergenz in Wahrscheinlichkeit, auch stochas-

tische Konvergenz genannt. Dazu wahlen wir ein festes ε > 0 und berechnen

pn(ε) := P [|Xn −X| > ε].

Dieses pn(ε) ist jetzt eine reelle Zahl! Wenn wir jetzt n → ∞ gehen lassen, dann ist das

eine gewohnliche Konvergenz von reellen Zahlen (hoffentlich gegen 0). Exakte Definition:

Wir sagen, dass eine Folge von Zufallsgrossen Xn, n ≥ 0, in Wahrscheinlichkeit gegen eine

Zufallsgrosse X konvergiert, wenn fur jedes ε > 0 gilt:

limn→∞

P [|Xn −X| > ε] = 0.

In den Anwendungen ist die Zufallsgrosse X haufig ein Mittelwert (von iid Xi) oder 0.

Diese Konvergenz kommt beim Gesetz der grossen Zahlen vor (WLLN: Weak Law of

Large Numbers).

101

Page 102: Skript zur Vorlesung Wahrscheinlichkeitstheorie

2. Ein weiterer Konvergenzbegriff macht ebenfalls Ruckgriff auf die gewohnliche Konver-

genz einer Folge von reellen Zahlen: die fast sichere Konvergenz. Jargon: fs-Konvergenz

(fast sichere) oder as-Konvergenz (almost surely); in der Analysis eher ae-Konvergenz (al-

most everywhere). Dazu fixiert man zuerst ein bestimmtes Elementarereignis ω. Man

kann sich dann fur dieses ω fragen, ob limn→∞Xn(ω) = X(ω). Falls dies nicht nur fur ein

bestimmtes ω gilt, sondern im Gegenteil die Menge aller ω’s mit dieser Eigenschaft Mass

1 haben, dann liegt fs-Konvergenz vor. Exakte Definition: Die Folge von Zufallsgrossen

Xn, n ≥ 0, konvergiert fs gegen X, wenn

P [ω| limn→∞

Xn(ω) = X(ω)] = 1.

Auch hier wird in den Anwendungen die Zufallsgrosse X haufig ein Mittelwert (von iid Xi)

oder 0 sein. Auch diese Konvergenz kommt beim Gesetz der grossen Zahlen vor (SLLN:

Strong Law of Large Numbers).

Leute von der Gasse sprechen in den beiden ersten Fallen vom ”limP” und vom ”Plim”.

3. Der dritte wichtige Konvergenzbegriff wird uber die Erwartungswerte definiert: die

sogenannte Lp-Konvergenz. Die Folge (Xn), n ≥ 1, konvergiert gegen eine Zufallsgrosse

X in der Lp-Norm (eigentlich eine Pseudo-Norm), wenn gilt:

limn→∞

E[|Xn −X|p] = 0.

Auch hier wird X haufig eine Konstante sein. Fur p = 2 spricht man auch von Konvergenz

im quadratischen Mittel.

4. Die vierte Konvergenzart tanzt insofern aus der Reihe, als dass die Folge der Zu-

fallsgrossen Xn nicht auf demselben Wahrscheinlichkeitsraum definiert sein muss (wir wer-

den nicht einzelne ω’s von Anfang bis Unendlich verfolgen). Man stutzt sich bei dieser

Konvergenz auf die Verteilungsfunktion; dies gibt der Konvergenz in Verteilung auch

den Namen: Eine Folge von Zufallsgrossen Xn, n ≥ 1, konvergiert in Verteilung gegen eine

Zufallsgrosse X, wenn die Folge der Verteilungsfunktionen FXn(a) gegen die Verteilungs-

funktion FX(a) konvergiert und zwar an allen Stetigkeitspunkten von FX ! Es gibt viele

102

Page 103: Skript zur Vorlesung Wahrscheinlichkeitstheorie

alternative Definitionen dieser Konvergenzart (auch in allgemeinen metrischen Raumen),

die hier vorgestellte ist die elementarste. Diese Konvergenz haben wir in WTS-Kapitel 5

schon kennengelernt. Die Konvergenz war dort gegen eine Standard-Normalverteilung -

die Verteilungsfunktion der Normalverteilung ist bekanntlich uberall stetig, womit wir die

Sache mit den Stetigkeitspunkten in der WTS gar nicht beachten mussten.

Vergleich zur Vorlesung WTS:

1. Mit fs-Konvergenz und Lp-Konvergenz haben wir zwei neue Konvergenzarten kennen-

gelernt.

2. Neu haben wir eine allgemeine Zufallsgrosse X als Limes und nicht mehr nur einen

Mittelwert oder eine N (0, 1)-Zufallsgrosse.

3. In der elementaren WTS (auch in der Mittelschule und fur Nicht-Mathematiker/innen

an den Hochschulen) wird meist die Konvergenz in Wahrscheinlichkeit gebraucht um die

Konvergenz des arithmetischen Mittels gegen den theoretischen Mittelwert (eine reelle

Zahl und keine Zufallsgrosse mit positiver Varianz) zu formulieren (LLN) und die Kon-

vergenz in Verteilung fur den CLT. Kurz: Konvergenz in Wahrscheinlichkeit fur Konver-

genz gegen einen einzelnen Punkt und Konvergenz in Verteilung gegen eine Zufallsgrosse

mit positiver Varianz. Dies ist am Anfang der Ausbildung als Gedachtnisstutze und

Orientierung durchaus erlaubt - ab jetzt aber zu simpel.

103

Page 104: Skript zur Vorlesung Wahrscheinlichkeitstheorie

5.2 DAS Schema (WT)

104

Page 105: Skript zur Vorlesung Wahrscheinlichkeitstheorie

5.3 Konvergenzsatze

Satz 5.1 [Lp-Konvergenz ⇒ Konvergenz in Wahrscheinlichkeit] Sei (Xn),

n ≥ 1, eine Folge von Zufallsgrossen, welche in der Lp-Norm gegen eine Zufallsgrosse X

konvergiert. Dann konvergiert die Folge auch in Wahrscheinlichkeit gegen X.

Beweis von Satz 5.1 Œ nehmen wir X = 0. Sei ε > 0. Wir haben

E[|Xn|p] ≥ E[|Xn|pI|Xn|≥ε] ≥ εpE[I|Xn|≥ε] = εpP [|Xn| ≥ ε]. (5.1)

Wenn die Folge aber in Lp konvergiert, dann wegen (5.1) auch in Wahrscheinlichkeit.

Lemma 5.2 [p ≥ q ≥ 1: Lp-Konvergenz⇒ Lq-Konvergenz] Sei (Xn), n ≥ 1, eine

Folge von Zufallsgrossen, welche in der Lp-Norm gegen eine Zufallsgrosse X konvergiert

und sei p ≥ q ≥ 1. Dann konvergiert die Folge auch in der Lq-Norm gegen X.

Beweis von Lemma 5.2:

105

Page 106: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 5.3 [fs-Konvergenz ⇒ Konvergenz in Wahrscheinlichkeit] Sei (Xn), n ≥1, eine Folge von Zufallsgrossen, welche fs gegen eine Zufallsgrosse X konvergiert. Dann

konvergiert die Folge auch in Wahrscheinlichkeit gegen X.

Beweis von Satz 5.3

106

Page 107: Skript zur Vorlesung Wahrscheinlichkeitstheorie

Satz 5.4 [Konvergenz in Wahrscheinlichkeit ⇒ Konvergenz in Verteilung]

Sei (Xn), n ≥ 1, eine Folge von Zufallsgrossen, welche in Wahrscheinlichkeit gegen eine

Zufallsgrosse X konvergiert. Dann konvergiert die Folge auch in Verteilung gegen X.

Beweis von Satz 5.4

Man beachte auch den Spezialfall einer Konvergenz gegen eine Konstante auf Blatt 11 als

Erganzung zu Satz 5.4.

107

Page 108: Skript zur Vorlesung Wahrscheinlichkeitstheorie

5.4 Beispiele und Gegenbeispiele

5.4.1 Erstes Beispiel/Gegenbeispiel

Sei (Ω,A, P ) = ([0, 1],B([0, 1]), λ). Wir definieren eine Folge von Zufallsgrossen

Xn(ω) := 1[0,1/n](ω).

Untersuchen Sie dieses Beispiel im Hinblick auf Ihre bisherigen Kenntnisse aus Kapitel 5.

108

Page 109: Skript zur Vorlesung Wahrscheinlichkeitstheorie

5.4.2 Zweites Beispiel/Gegenbeispiel

Sei (Ω,A, P ) = ([0, 1],B([0, 1]), λ). Wir definieren eine Folge von Zufallsgrossen

Xn(ω) := n1[0,1/n](ω).

Untersuchen Sie dieses Beispiel im Hinblick auf Ihre bisherigen Kenntnisse aus Kapitel 5.

109

Page 110: Skript zur Vorlesung Wahrscheinlichkeitstheorie

5.4.3 Drittes Beispiel/Gegenbeispiel

Finden Sie ein Beispiel, das zeigt, dass aus der Konvergenz in L1 nicht zwingend die

fs-Konvergenz folgt.

110

Page 111: Skript zur Vorlesung Wahrscheinlichkeitstheorie

5.5 Und wie sieht das Ganze in der Analysis aus?

111

Page 112: Skript zur Vorlesung Wahrscheinlichkeitstheorie

5.6 LLN (WLLN, SLLN) revisited

Aus Zeitgrunden konnen wir den Beweis des SLLN im FS 10 nicht fuhren, er folgt im

FS 12. Interessierte StudentInnen sind bis dann auf Karr verwiesen.

Definition 5.5 [Gesetz der grossen Zahlen] Eine Folge Xi, i ≥ 1, von Zu-

fallsgrossen mit endlichen Erwartungswerten genugt dem (schwachen/starken) Gesetz der

grossen Zahlen, wenn die Folge

1n

n∑

i=1

(Xi − E[Xi])

(in Wahrscheinlichkeit/fast sicher) gegen 0 konvergiert. Die Abkurzungen WLLN und

SLLN stehen englisch fur Weak Law of Large Numbers (bei Konvergenz in Wahrschein-

lichkeit) resp. Strong Law of Large Numbers (bei fast sicherer Konvergenz).

In Satz 5.3 sehen wir, dass aus SLLN die WLLN folgt. Das Gesetz der grossen Zahlen ist

offenbar eine Eigenschaft einer Folge. Es gilt folgender starker Satz, welcher ubrigens nicht

die Existenz einer Varianz fordert:

Satz 5.6 [Satz von Kolmogoroff] Sei Xi, i ≥ 1, eine Folge von paarweise un-

abhangigen, identisch verteilten Zufallsgrossen mit E[|X1|] <∞. Dann genugt diese Folge

dem SLLN; es gilt also1n

n∑

i=1

Xi → E[X1]

fast sicher, falls n→∞. Diese Folge genugt wegen Satz 5.3 auch dem WLLN.

Beweis: Karr und/oder FS 12 in dieser Vlsg.

112