121
Nichtparametrische Statistik Prof. Dr. Alois Kneip Statistische Abteilung Institut für Gesellschafts- und Wirtschaftswissenschaften Universität Bonn Inhalt: 1. Einführung 2. Die empirische Verteilungsfunktion, Ordnungsstatistiken und nichtparametrische Tests 3. Nichtparametrische Dichteschätzung 4. Nichtparametrische Regressionsanalyse 5. Multivariate Kurvenschätzung: Nichtparametrische und se- miparametrische Methoden Nichtparametrisch@LS-Kneip 0–1

Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Embed Size (px)

Citation preview

Page 1: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Nichtparametrische Statistik

Prof. Dr. Alois KneipStatistische AbteilungInstitut für Gesellschafts- und WirtschaftswissenschaftenUniversität Bonn

Inhalt:

1. Einführung

2. Die empirische Verteilungsfunktion, Ordnungsstatistiken undnichtparametrische Tests

3. Nichtparametrische Dichteschätzung

4. Nichtparametrische Regressionsanalyse

5. Multivariate Kurvenschätzung: Nichtparametrische und se-miparametrische Methoden

Nichtparametrisch@LS-Kneip 0–1

Page 2: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Literatur:

• Bowman, A.W. und Azzalin, A. (1997): Applied SmoothingTechniques for Data Analysis; Clarendon Press

• Büning, H. und Trenkler, G. (1994): Nichtparametrische sta-tistische Methoden; de Gruyter

• Wand, M.P. and Jones, M.C. (1995): Kernel Smoothing, Chap-man and Hall

• Härdle, W. (1990): Applied Nonparametric Regression; Cam-bridge University Press

• Silverman, B.W. (1986): Density Estimation for Statisticsand Data Analysis, Chapman and Hall

Nichtparametrisch@LS-Kneip 0–2

Page 3: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

1 Einführung

Parametrische Statistik: Für gegebene Daten wird daszugrundeliegende stochastische Modell bis auf einige unbekann-te Parameter vollständig spezifiziert ⇒ Parameterschätzung,Inferenz für die Modellparameter (Statistik II; Lineares Modell)

Nichtparametrische Statistik: Es wird kein parametri-sches Modell spezifiziert; die statistische Analyse beruht auf qua-litativen Modellannahmen (z.B. Stetigkeit oder Symmetrie einerVerteilung.

Nichtparametrische Kurvenschätzung: Die interes-sierenden Objekte sind ”Kurven” (Funktionen, Flächen). Die wich-tigsten Anwendungen sind die Schätzung von Regressions- undDichtefunktionen.

Nichtparametrisch@LS-Kneip 1–3

Page 4: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Nichtparametrische RegressionRegressionsmodell:

Yi = m(Xi) + ϵi

• m(Xi) = E(Yi|X = Xi) - Regressionsfunktion

• ϵ1, ϵ2, . . . i.i.d., E(ϵi) = 0, var(ϵi) = σ2

• Lineare Einfachregression: m(x) ist eine Gerade

m(X) = β0 + β1X

⇒ Die Struktur der Regressionsfunktion ist bis auf zwei un-bekannte Parameter β0, β1 vollständig festgelegt

⇒ Schätzung der Regressionsfunktion wird zurückgeführtauf die Schätzung der Parameter β0, β1Problem: Annahme eines linearen Zusammenhangs korrekt?

• Nichtparametrische Regression: Es wird keine spezielle funk-tionale Form der Regressionsfunktion angenommen.Qualitative Modellannahme: m hinreichend ”glatt”⇒ Funktionale Form der Regressionsfunktion wird aus denDaten bestimmt!

Nichtparametrisch@LS-Kneip 1–4

Page 5: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel: Gesamtausgaben in Abhängigkeit vom Alter

Die folgenden Daten stammen aus einer Stichprobe von briti-schen Haushalten aus dem Jahr 1980. Die Beobachtungen bein-halten die Gesamtausgaben für alle Güter und Dienstleistungenvon allen Haushalten mit einem gegeben Alter (Alter ≡ ”Alterdes Haushaltsvorstands”).

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 1–5

Page 6: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Anpassung einer Ausgleichsgerade:

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrische Regression (Glättende Splines):

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 1–6

Page 7: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Nichtparametrische Dichteschätzung

Beispiel: Analyse von Einkommnensdaten

• Quelle: U.K. Family Expenditure Survey (FES) 1968-1995

• Ungefähr 7000 britische Haushalte pro Jahr

• Für jeden Haushalt: Einkommen aus verschiedenen Quellen,Ausgaben für verschiedene Güter, Alter, Familiengröße, Be-rufe, etc.

Nominale Nettoeinkommen im Jahr 1976 (136 von 7041 Haus-halten):

66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.3672.88 40.22 45.87 70.99 31.28 54.58 40.72 17.87 26.09 62.87 90.525.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85 70.5357.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.5786.96 46.12 50.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.51 48.27 14.1517.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.2140.56 72.33 29.69 25.07 17.52 76.62 37.29 50.81 73.07 15.52 98.7390.81 15.70 45.44 68.14 18.76 80.38 61.50 41.39 76.96 87.07 78.0329.82 96.03 92.10 14.09 35.29 48.17 75.71 110.77 93.50 55.92 14.15144.97 36.54 52.92 98.42 55.98 14.15 23.90 115.05 22.23 37.7617.45 29.11 48.71 36.86 21.87 61.03 24.04 16.43 42.34 48.48 16.8834.74 29.42 121.75 113.76 97.20 86.62

Nichtparametrisch@LS-Kneip 1–7

Page 8: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Standardansatz: Annahme einer Normalverteilung (= parame-trisches Modell mit zwei unbekannten Parametern: Erwartungs-wert und Varianz)

In komplexeren Situationen: Charakterisierung von Vertei-lungen durch statistische Maßzahlen:

• Mittelwert, Median

• Varianz, Quartilsabstand

• Gini Koeffizient, Quantile

Maßzahlen geben immer nur Teilaspekte von Verteilungseigen-schaften wieder.

Detailliertere Informationen: Dichteschätzung

Histogramm (FES Einkommensdaten, 1976):

0 13 26 39 52 65 78 91 104 117 130 143 156 169 182 195income

0

200

400

600

800

1000

Nichtparametrisch@LS-Kneip 1–8

Page 9: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Verfeinertes Histogramm und Kernschätzer (FES, 1976)

0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income

0.000

0.004

0.008

0.012

Kernschätzer:

• Definitionsgleichung:

ft(x) =1

nh

∑i

K

(x−Xit

h

)

• ft schätzt die wahre Dichte ft der Einkommensverteilung imJahre t = 1976

Nichtparametrisch@LS-Kneip 1–9

Page 10: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Geschätzte relative Einkommensdichten (Kernschätzer)1968-1988

0.5 1.0 1.5 2.0 2.5

0.0

0.2

0.4

0.6

0.8

1.0

Multivariate Kernschätzung der gemeinsamen Dichte von Ein-kommen und Alter im Jahr 1984:

0.5

1

1.5

2

20

40

60

80

100

00.0

10.0

20.0

3

Nichtparametrisch@LS-Kneip 1–10

Page 11: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

1.1 Charakterisierung von eindimensionalen Ver-teilungen

Wichtige Grundbegriffe

Man betrachte eine eindimensionale Zufallsvariable X.z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem ameri-kanischen Aktienmarkt, Körpergröße japanischer Frauen, ...

Verteilungsfunktion F von X:F (x) = P (X ≤ x) für jedes x ∈ R

• diskrete Zufallsvariable: X nimmt nur abzählbar viele Wertex1, x2, x3, . . . anP (X = xi) = fi, i = 1, 2, . . . ,

F (x) =∑

xi≤x

fi

• stetige Zufallsvariable: Es existiert eine Dichtefunktion f , sodaßF (x) =

x∫−∞

f(t)dt

Nichtparametrisch@LS-Kneip 1–11

Page 12: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Stetige Zufallsvariablen=50

00.2

0.4

His

togra

mm

n=500

00.2

0.4

His

togra

mm

n=5000

00.2

0.4

His

togra

mm

Model

00.2

0.4

Dic

hte

Nichtparametrisch@LS-Kneip 1–12

Page 13: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Wahrscheinlichkeitsdichte:f(x) 0; Z +11 f(x)dx = 1:Verteilungsfunktion:F(x) monoton wachsendF(1) = 0; F(+1) = 1:

Dichtefunktion

-3 -2 -1 0 1 2 3

x

0.2

0.4

0.6

0.8

1f(

x)

f(x)

bF(b)

Verteilungsfunktion

-3 -2 -1 0 1 2 3

x

00.2

0.4

0.6

0.8

1F

(x)

F(x)

b

F(b)

Nichtparametrisch@LS-Kneip 1–13

Page 14: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Eigenschaften der Verteilungsfunktion:

• 0 ≤ F (x) ≤ 1 für alle x ∈ IR; F ist eine monoton wachsendeFunktion

• limx→−∞ F (x) = 0

• limx→∞ F (x) = 1

• Für x0 < x1 gilt P (x0 < X ≤ x1) = F (x1)− F (x0)

• F ist immer rechtsstetig, d.h. für alle x giltlimh→0,h>0 F (x+ h) = F (x)

• Für stetige Zufallsvariablen mit Dichtefunktion f giltf(x) = F ′(x)

Eigenschaften von Dichtefunktionen:

• f(x) ≥ 0 für alle x ∈ IR

•∫∞−∞ f(x)dx = 1

Man beachte: Für stetige Zufallsvariablen gilt P (X = x) = 0 füralle x ∈ IR und P (X ≤ x) = P (X < x) = F (x).

Sowohl Verteilungsfunktionen als auch Dichtefunktionen sind wich-tige Werkzeuge der statistischen Inferenz. Dichten sind jedochwesentlich leichter interpretierbar und lassen direkte Rückschlüs-se auf die Struktur der zugrunde liegenden Verteilung zu.

Nichtparametrisch@LS-Kneip 1–14

Page 15: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Symmetrische Verteilung:Eine Zufallsvariable X heißt symmetrisch verteilt um den Punktµ, wenn P (X ≤ µ− x) = P (X ≥ µ+ x) für alle reellen Zahlen xgilt.

Beispiele: Körpergröße, Intelligenzquotient, logarithmierte Kon-sumausgaben, etc.

-10 -5 5 10

0.1

0.2

0.3

0.4

Linkssteile (= rechtsschiefe) Verteilung

1 2 3 4 5 6 7

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Beispiele: Einkommen, Vermögen, Konsumausgaben

Nichtparametrisch@LS-Kneip 1–15

Page 16: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Rechtssteile (= linksschiefe) Verteilung

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

0.5

Beispiel: Sterbealter

Bimodale (bzw. multimodale) Verteilungen

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

0.5

Eine Verteilung heißt bimodal (bzw. multimodal), falls die zuge-hörige Dichte zwei (bzw. mehrere) Gipfel besitzt. Multimodalitätdeutet i.Allg. auf die Existenz mehrerer in sich homogener aberuntereinander heterogener Teilpopulationen hin (Mischungsver-teilungen).

Nichtparametrisch@LS-Kneip 1–16

Page 17: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Wichtige Parameter einer stetigen Z.v. X

• Mittelwert (Erwartungswert)

µ = E(X) =

∫ ∞

−∞xf(x)dx

• Median (streng monoton wachsendes F ):Der Median ist derjenige Wert µmed mit F (µmed) = 0.5

• Varianz

σ2 = V ar(X) = E((X − µ)2

)= E(X2)− µ2

• Erwartungswert einer transformierten Zufallsvariablen X →g(X)

E(g(X)) =

∫ ∞

−∞g(x)f(x)dx

Anmerkung: Die Existenz von Mittelwert und Varianz stellt Be-dingungen an die Struktur von f . Für einige Verteilungen sinddaher Mittelwert und Varianz nicht definiert.Beispiel: Die Cauchy Verteilung (mit Parametern u, s)

f(x) =1

π· s

s2 + (x− u)2

besitzt weder Erwartungswert noch Varianz; aber: µmed = u.

Lageregeln (µ, µmed existieren):

• symmetrische Verteilung: µ = µmed

• Linkssteile Verteilung: µ > µmed

• Rechtssteile Verteilung: µ < µmed

Nichtparametrisch@LS-Kneip 1–17

Page 18: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

1.2 Wichtige Verteilungsmodelle der parame-trischen Statistik

Die Gleichverteilung (Rechteckverteilung)

Nimmt eine Zufallsvariable nur in einem Intervall [a, b] Wertean und wird keiner der Werte oder Teilintervalle ”bevorzugt”, soist X gleichverteilt (X ∼ U(a, b)). Die Dichte ist dann gegebendurch

f(x) =1

b− afür a ≤ x ≤ b

und f(x) = 0 für x ∈ [a, b].

-4 -2 2 4

0.025

0.05

0.075

0.1

0.125

0.15

• E(X) = (a+ b)/2

• V ar(X) = 112 (b− a)2

Wichtige Sonderfälle sind a = 0, b = 1 und a = 0, b = θ (θunbekannter Parameter).

Nichtparametrisch@LS-Kneip 1–18

Page 19: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die Normalverteilung N(µ, σ2)

Viele statistische Verfahren basieren auf der Annahme, daß eineZ.v. X normalverteilt ist, d.h. X ∼ N(µ, σ2)

Wahrscheinlichkeitsdichte:

f(x) = 1σ√2πe−(x−µ)2/2σ2

für −∞ < x <∞, σ > 0

• E(X) = µ, V ar(X) = σ2

Standardisierte Normalverteilung N(0, 1)

• X ∼ N(µ, σ2) ⇒ Z = X−µσ ∼ N(0, 1)

• Standardisierte Dichtefunktion und Verteilungsfunktion

ϕ(x) =1√2πe−x2/2, Φ(z) =

∫ z

−∞ϕ(x)dx

• N(0, 1) ist tabelliert und

P (X ≤ x) = P (X − µ

σ≤ x− µ

σ) = P (Z ≤ x− µ

σ)

Nichtparametrisch@LS-Kneip 1–19

Page 20: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Dichtefunktion (Normalverteilung)

-3 -2 -1 0 1 2 3 4 5 6x

0.20.4

0.60.8

11.2

f(x)

N(0,1)

N(2,1/3)

N(2,1)

N(2,2)

Dichtefunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

00.1

0.20.3

0.4

f(x)

Verteilungsfunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

00.2

50.5

0.75

1

F(x)

Nichtparametrisch@LS-Kneip 1–20

Page 21: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die χ2-Verteilung

Sind X1, . . . , Xn unabhängige, standardnormalverteilte Zufalls-variablen, so folgt X = X2

1 + · · ·+X2n einer χ2-Verteilung mit n

Freiheitsgraden (X ∼ χ2n),

f(x) =1

2n/2Γ(n/2)xn/2−1e−x/2, x ≥ 0

Die Gammafunktion ist definiert durch Γ(u) =∫∞0zu−1e−zdz

2 4 6 8 10

0.1

0.2

0.3

0.4

0.5

• µ = E(X) = n

• V ar(X) = 2n

Anwendung:Einfache Zufallsstichprobe X1, . . . , Xn, Xi ∼ N(µ, σ2)

⇒ (n−1)S2

σ2 ∼ χ2n−1 für S2 = 1

n−1

∑i(Xi − X)2.

Nichtparametrisch@LS-Kneip 1–21

Page 22: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die t-Verteilung

X und Y seien unabhängige Zufallsvariablen mit X ∼ N(0, 1)

und Y ∼ χ2n. Die Variable T = X/

√Y/n hat eine t-Verteilung

mit n Freiheitsgraden (T ∼ tn),

f(x) =Γ((n+ 1)/2)√πnΓ(n/2)

(1 +x2

n)−(n+1)/2

-4 -2 2 4

0.05

0.1

0.15

0.2

0.25

0.3

0.35

• µ = E(X) = 0 für n > 1

• V ar(X) = nn−2 für n > 2

Anwendung:Einfache Zufallsstichprobe X1, . . . , Xn, Xi ∼ N(µ, σ2)

⇒√n(X−µ)

S ∼ tn−1 für S2 = 1n−1

∑i(Xi − X)2.

Nichtparametrisch@LS-Kneip 1–22

Page 23: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die F -Verteilung

X und Y seien unabhängige Zufallsvariablen mit X ∼ χ2m und

Y ∼ χ2n. Die Variable F =

√X/m/

√Y/n hat eine F -Verteilung

mit m und n Freiheitsgraden (F ∼ Fm,n)

Anwendung: Varianzanalyse!

Die Lognormalverteilung

X ist lognormalverteilt mit Parametern µ und σ2 (X ∼ LN(µ, σ2)),wenn die Dichte gegeben ist durch

f(x) =1

x√2πσ2

e−(lnx−µ)2/2σ2

, x > 0

Die transformierte Zufallsvariable Y = lnX ist dann normalver-teilt mit E(Y ) = µ und V ar(Y ) = σ2.

2 4 6 8

0.1

0.2

0.3

0.4

0.5

0.6

• E(X) = eµ+σ2/2

• V ar(X) = e2µ+σ2

(eσ2 − 1)

Anwendung: In der Ökonometrie häufig zur Modellierung vonlinkssteilen Verteilungen (z.B. Einkommensverteilungen) ange-wandtes Modell.

Nichtparametrisch@LS-Kneip 1–23

Page 24: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die Exponentialverteilung

X ist exponentialverteilt mit dem Parameter λ > 0 (X ∼ Ex(λ)),wenn die Dichte gegeben ist durch

f(x) = λe−λx, x ≥ 0

1 2 3 4 5

0.2

0.4

0.6

0.8

• E(X) = 1λ

• V ar(X) = 1λ2

Anwendung: Standardverteilung zur Modellierung von Wartezei-ten

Die Gammaverteilung

X heißt gammaverteilt mit den Parametern r > 0 und λ > 0

(X ∼ Γ(r, λ)), falls

f(x) =λ

Γ(r)(λx)r−1e−λx, x ≥ 0

Spezialfälle: Ex(λ) = Γ(1, λ) und χ2n = Γ(n2 ,

12 ).

Nichtparametrisch@LS-Kneip 1–24

Page 25: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Mischungen von Normalverteilungen

Die Verteilung einer Zufallsvariablen X ist eine Mischung zweierNormalverteilungen, falls sich für Parameter µ1, µ2, σ

21 , σ

22 und

0 < α < 1 die zugehörige Dichte in folgender Form darstellenlässt:

f(x) = α · 1

σ1√2πe−(x−µ1)

2/2σ21 + (1− α) · 1

σ2√2πe−(x−µ2)

2/2σ22

Solche Mischungsansätze werden z.B. häufig zur Modellierungbimodaler Verteilungen verwendet.

Verallgemeinerung: Mischung von k Normalverteilungen

f(x) =

k∑i=1

αi ·1

σi√2πe−(x−µi)

2/2σ2i

mit α1 > 0, . . . , αk > 0 und∑k

i=1 αi = 1

Für hinreichend großes k ist es möglich, jede beliebige stetigeDichtefunktion durch eine Mischung von k Normalverteilungenbeliebig gut zu approximieren.

Nichtparametrisch@LS-Kneip 1–25

Page 26: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

1.3 Mehrdimensionale Verteilungen

• Ein d-dimensionaler Zufallsvektor ist ein Spaltenvektor X =

(X1, . . . , Xd)T , dessen einzelne Elemente alle Zufallsvaria-

blen sind.

Diskrete Zufallsvariable: X nimmt nur abzählbar

viele Werte x1, x2, · · · ∈ IRd an:

Wahrscheinlichkeitsfunktion: p(xi) = P (X = xi)

⇒ P (X ∈ [a1, b1]× · · · × [ad, bd]) =∑

xi∈[a1,b1]×···×[ad,bd]

p(xi)

Stetige Zufallsvariable:

Dichtefunktion: f(x1, . . . , xd)

⇒P (X ∈ [a1, b1]× · · · × [ad, bd])

=

b1∫a1

. . .

bd∫ad

f(x1, . . . , xd)dx1 . . . dxd

Nichtparametrisch@LS-Kneip 1–26

Page 27: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Eigenschaften von Dichtefunktionen:

• f(x1, . . . , xd) ≥ 0

•∫ ∞

−∞. . .

∫ ∞

−∞f(x1, . . . , xd)dx1 . . . dxd = 1

Anmerkung: Eine allgemeine Möglichkeit zur Darstellung vonWahrscheinlichkeiten ist wiederum die Verteilungsfunktion F :

F (a1, . . . , ad) = P (X1 ≤ a1, . . . , Xd ≤ ad)

Zur Vereinfachung der Schreibweise werden im folgenden nur ste-tige Zufallsvariablen betrachtet.

Jedes Element Xj von X besitzt eine Randverteilung

(oder ”Marginalverteilung”). Dies ist nichts anderes als die

univariate Verteilung von Xj (ohne Berücksichtigung der

anderen Variablen).

Formal:

• Verteilungsfunktion der Randverteilung von Xj :

Fj(x) = P (Xj ≤ x)

• Randdichte fj , z.B. für j = 1

f1(x1) =

∫ ∞

−∞. . .

∫ ∞

−∞f(x1, x2 . . . , xd)dx2 . . . dxd

Nichtparametrisch@LS-Kneip 1–27

Page 28: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Exkurs: Mehrdimensionale Integrale

Die Berechnung von∫ b1

a1

∫ b2

a2

g(x, y)dxdy erfolgt in zwei Schrit-

ten:

1. Berechnung der Funktion G(y) =

∫ b2

a2

g(x, y)dx für jeden

Wert y

2. Berechnung von∫ b1

a1

G(y)dy

Beispiel:∫ 1

0

∫ 1

0

4xy dxdy =

∫ 1

0

4y[

1

2x2]10

dy =

∫ 1

0

2y dy = 1

Rechenregeln:∫ b1

a1

∫ b2

a2

g(x, y)dxdy =

∫ b2

a2

∫ b1

a1

g(x, y)dydx

∫ b1

a1

∫ b2

a2

g1(y)g2(x, y)dxdy =

∫ b1

a1

g1(y)

∫ b2

a2

g2(x, y)dxdy

Abkürzungen:∫g(x, y) dxdy =

∫ ∞

−∞

∫ ∞

−∞g(x, y)dxdy∫

[a1,b1]×[a2,b2]

g(x, y) dxdy =

∫ b1

a1

∫ b2

a2

g(x, y)dxdy

Nichtparametrisch@LS-Kneip 1–28

Page 29: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Bedingte Verteilungen

Bedingte Verteilung von Xj gegeben

X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xp = xd

= Verteilung von Xj bei festgehaltenen Werten von

X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xd = xd

Beispiel: bedingte Dichte von X1 gegeben X2 = x2, . . . , Xd = xd:

f(x1 | x2, . . . , xd) =f(x1, x2, . . . , xd)

fX2,...,Xd(x2, . . . , xd)

wobei fX2,...,Xdgemeinsame Dichte von X2, . . . , Xd

Von zentraler Bedeutung in der Regressionsanalyse sind bedingteErwartungswerte:

Bedingter Erwartungswert von X1 für gegebene Werte

X2 = x2, . . . , Xd = xd:

m(x2, . . . , xd) := E(X1|X2 = x2, . . . , Xd = xd)

=∫x1f(x1 | x2, . . . , xd)dx1

m(x2, . . . , xd) - Regressionsfunktion

Nichtparametrisch@LS-Kneip 1–29

Page 30: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Unabhängigkeit:

Die Zufallsvariablen X1, . . . , Xd sind voneinander

unabhängig, wenn für alle x = (x1, . . . , xd)T gilt

F (x1, . . . , xd) = F1(x1) · F2(x2) · . . . · Fd(xd) bzw.

f(x1, . . . , xd) = f1(x1) · f2(x2) · . . . · fd(xd)

Folgerungen: Ist Xj unabhängig von Xk, so gilt

• Die Randdichte von Xj ist gleich der bedingten Dichte vonXj gegeben Xk = xk

fj(xj) = f(xj | xk) für alle xk

• Der bedingte Erwartungswert von Xj gegeben Xk = xk istgleich dem unbedingten Erwartungswert von Xj (die Regres-sionsfunktion ist eine Konstante)

E(Xj | Xk = xk) = E(Xj) für alle xk

Nichtparametrisch@LS-Kneip 1–30

Page 31: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel

X1 - verfügbares Haushaltseinkommen

X2 - Alter des Haushaltsvorstandes

Daten: Britischer ”Family Expenditure Survey”; Zufallstichprobevon ungefähr 7000 Haushalten im Jahr 1976

Geschätzte gemeinsame Dichte von relativem Einkom-men und Alter

0.5

1

1.5

2

20

40

60

80

100

00.0

10.0

20.0

3

Nichtparametrisch@LS-Kneip 1–31

Page 32: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Geschätzte Dichte der Randverteilung des relativen Ein-kommens

0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income

0.000

0.004

0.008

0.012

Regression von Einkommen auf Alter

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 1–32

Page 33: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel: Sei X = (X1, X2)T und

f(x1, x2) =

12x1 +

32x2 falls 0 ≤ x1, x2 ≤ 1

0 sonst

f ist eine Dichtefunktion, da f(x1, x2) ≥ 0 und∞∫

−∞

∞∫−∞

f(x1, x2)dx1dx2 =1

2

[x212

]10

+3

2

[x222

]10

=1

4+

3

4= 1

Dichte der Randverteilungen:

f1(x1) =

∞∫−∞

f(x1, x2)dx2 =

1∫0

f(x1, x2)dx2 =1

2x1 +

3

4

f2(x2) =

∞∫−∞

f(x1, x2)dx1 =

1∫0

f(x1, x2)dx1 =3

2x2 +

1

4

Man beachte:

f(x1, x2) =1

2x1+

3

2x2 =

(1

2x1 +

3

4

)·(3

2x2 +

1

4

)= f1(x1)·f2(x2)

⇒ X1 und X2 sind nicht unabhängig

Nichtparametrisch@LS-Kneip 1–33

Page 34: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Bedingte Dichte von X2 gegeben X1 = x1

f(x2 | x1) =12x1 +

32x2

12x1 +

34

⇒ Regressionsfunktion: Bedingter Erwartungswert von X2 gege-ben X1 = x1

m(x1) = E(X2 | X1 = x1)

=

1∫0

x2f(x2 | x1)dx2 =

1∫0

x2

12x1 +

32x2

12x1 +

34

dx2 =14x1 +

12

12x1 +

34

Nichtparametrisch@LS-Kneip 1–34

Page 35: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

1.4 Statistische Testverfahren

Einfache Zufallsstichprobe:X1, . . . , Xn unabhängig und iden-tisch N(µ, σ2) verteilt.

• Einseitiger Test

Nullhypothese H0: : µ = µ0

Alternative H1: µ > µ0

• Zweiseitiger Test

Nullhypothese H0: µ = µ0

Alternative H1: µ = µ0

Allgemeine Formulierung eines Testproblems:

H0 : θ ∈ Ω0 gegen H1 : θ ∈ Ω1,

wobei die Mengen Ω0 und Ω1 jeweils die unter der Nullhypothe-se und der Alternative zulässigen Werte einer interessierendenGröße θ bezeichnen.

Im obigen Beispiel : Zweiseitiger Test ⇒ θ = µ, Ω0 = µ0,Ω1 = µ ∈ IR|µ = µ0Einseitiger Test ⇒ θ = µ, Ω0 = µ0, Ω1 = µ ∈ IR|µ > µ0.

Einfache und zusammengesetzte Hypothesen: Je nachdem,ob Ω0 bzw. Ω1 ein oder mehrere Elemente enthalten, heißen dieHypothesen H0 bzw. H1 einfach oder zusammengesetzt.

Nichtparametrisch@LS-Kneip 1–35

Page 36: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Statistischer Test: Verfahren zur Entscheidung zwischenH0 und H1 auf der Grundlage der beobachteten Daten.

Teststatistik: Ein statistischer Test basiert auf einer Teststa-tistik (auch: Prüfgröße) T = T (X1, . . . , Xn). Die Entscheidungfällt auf der Grundlage des aus den Daten berechneten WertsTbeob von T . Je nach Realisation entscheidet man sich für odergegen die vorliegende Hypothese.

Ablehnbereich: Menge C derart, dass

• Tbeob ∈ C ⇒ Entscheidung für H0

• Tbeob ∈ C ⇒ Entscheidung für H1

Typischerweise ist C von der Form (−∞, c0], [c1,∞) oder(−∞, c0] ∪ [c1,∞). Die Grenzen der jeweiligen Intervalle werdenals kritische Werte bezeichnet und ergeben sich in den meistenFällen als Quantile der Verteilung von T unter der Nullhypothe-se.

Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig ist

Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist

Test zum Niveau α (z.B. α = 5%)

P ( Fehler 1. Art ) = P (T ∈ C| H0 wahr) ≤ α

Nichtparametrisch@LS-Kneip 1–36

Page 37: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Illustration: Gauß Test

Beispiel: QualitätskontrolleEine Maschine soll bestimmte Werkstücke mit einer Länge vonµ0 = 18.3 (mm) herstellen. Zufallsschwankungen um die mittlereLänge sind normalverteilt mit Standardabweichung σ = 0.18.

Es ist bekannt, dass es aus technischen Gründen möglich ist,dass sich die Maschine im Laufe der Zeit dejustieren kann, sodass der wahre Erwartungswert µ eventuell ungleich µ0 = 18.3

ist. Gleichzeitig kann jedoch angenommen werden, dass die Stan-dardabweichung σ = 0.18 unverändert bleibt.

Für eine Zufallsstichprobe von n = 9 Werkstücken aus der aktu-ellen Produktion ergab sich eine mittlere Länge X = 18.48.

Testproblem (zweiseitig): H0 : µ = µ0 gegen H1 : µ = µ0

Testproblem (einseitig): H0 : µ = µ0 gegen H1 : µ > µ0

Das einseitige Problem ist dann von Interesse, wenn man zusätzlichweiß, dass eine Dejustierung nur zu µ > 18.3 führen kann.

Teststatistk:

Z =

√n(X − µ0)

σ

Unter H0: Z ∼ N(0, 1)

Zweiseitiger Test zum Niveau α:Lehne H0 ab, falls |Zbeob| > z1−α/2

Einseitiger Test zum Niveau α:Lehne H0 ab, falls Zbeob > z1−α

Zbeob steht für den aus den Daten berechneten Wert von Z, wäh-rend z1−α/2 bzw. z1−α die entsprechenden Quantile der Stan-dardnormalverteilung sind.

Nichtparametrisch@LS-Kneip 1–37

Page 38: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Im Beispiel gilt Zbeob = 3 und somit für den zweiseitigen Test

• Test zum Signifikanzniveau α = 0.05:Es gilt z1−α/2 = z0.975 = 1.96

⇒ |Zbeob| = 3 > 1.96 = z1−α/2

⇒ Ablehnung der Nullhypothese;

• Test zum Signifikanzniveau α = 0.01:Es gilt z1−α/2 = z0.995 = 2.576

⇒ |Zbeob| = 3 > 2.576 = z1−α/2

⇒ Ablehnung der Nullhypothese

-3 -2 -1 0 1 2 30.0

0.1

0.2

0.3

0.4

zbeob

Signifikanztest zum Niveau α=0.05

z0.975

Ablehn-bereich

-z0.975

Ablehn-bereich

-3 -2 -1 0 1 2 30.0

0.1

0.2

0.3

0.4

zbeob

Signifikanztest zum Niveau α=0.01

z0.995

Ablehn-bereich

-z0.995

Ablehn-bereich

Nichtparametrisch@LS-Kneip 1–38

Page 39: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

1.5 Der p-Wert

Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beob-achteten Prüfgrößenwert oder einen in Richtung der Alternativeextremeren Wert zu erhalten.

Interpretation:

• ”Glaubwürdigkeit” von H0: H0 ist wenig glaubwürdig, fallsder p-Wert sehr klein ist

• Der in einer konkreten Anwendung berechnete p-Wert hängtvon dem beobachteten Datensatz ab. Er liefert Informa-tionen über die Resultate der zugehörigen Signifikanztestszu den verschiedenen Niveaus α :

α > p-Wert ⇒ Ablehnung von H0

α < p-Wert ⇒ Beibehaltung von H0

In der Praxis:

• Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein Test zumNiveau 5% führt zur Ablehnung von H0)

• Häufig: Test ”schwach ”signifikant, falls 0.05 > p-Wert > 0.01

(d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0;ein Test zum Niveau 1% führt dagegen zur Beibehaltung vonH0)

Nichtparametrisch@LS-Kneip 1–39

Page 40: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Illustration: Gauß Test

Vorgehen: Unter H0 gilt Z ∼ N(0, 1). Man berechnet aus denDaten den realisierten Wert zbeob. Der p-Wert ist nun die Wahr-scheinlichkeit, unter der Standardnormalverteilung einen Wertzu beobachten, der betragsmäßig größer oder gleich Zbeob ist.

Einseitiger Test:

p-Wert = P (Z ≥ Zbeob| H0 wahr) = 1− Φ(Zbeob),

wobei Φ die Verteilungsfunktion der Standardnormalverteilungbezeichnet.

Zweiseitiger Test:

p-Wert = 2min P (Z ≥ Zbeob |H0 wahr), P (Z ≤ Zbeob |H0 wahr)= P (|Z| ≥ |Zbeob| |H0 wahr) = 2(1− Φ(|Zbeob|))

Man beachte:p-Wert = P (|Z| ≥ |Zbeob |H0 wahr) und α = P (|Z| ≥ z1−α/2 |H0 wahr))

⇒|Zbeob| > z1−α/2, falls α > p-Wert

|Zbeob| < z1−α/2, falls α < p-Wert

• Für einen gegebenen Datensatz lässt sich aus dem p-Wertablesen, zu welchem Niveau α der zugehörige Signifikanztestdie Nullhypothese gerade noch verworfen hätte.

– Falls α > p-Wert, so gilt |Zbeob| > z1−α/2. Ein Test zueinem Niveau α > p-Wert führt also zur Ablehnung derNullhypothese.

– Falls α < p-Wert, so gilt |Zbeob| < z1−α/2. Ein Test zueinem Niveau α < p-Wert führt also zur Beibehaltungder Nullhypothese.

Nichtparametrisch@LS-Kneip 1–40

Page 41: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Besipiel: Sei Zbeob = 1.77 ⇒ p-Wert = 0.076

α = 0, 1 > p-Wert ⇒ Ablehnung von H0

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.1

0.2

0.3

0.4

zbeob

z0.95=1.645<zbeob

α/2=0.05α/2=0.05

-z0.95=-1.645

α = 0, 076 = p-Wert

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.00.0

0.1

0.2

0.3

0.4

zbeob

z0.962=1.77=zbeob

α/2=0.038

-1.77=-zbeob

α/2=0.038

α = 0, 02 < p-Wert ⇒ Annahme von H0

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.00.0

0.1

0.2

0.3

0.4

zbeob

z0.99=2.326>zbeob

α/2=0.01α/2=0.01

-z0.99=-2.326

Nichtparametrisch@LS-Kneip 1–41

Page 42: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel „Qualitätskontrolle“ (zweiseitiger Test): Der in diesemBeispiel tatsächlich beobachtete Wert ist Zbeob = 3.

⇒ p-Wert = P (|Z| ≥ 3 |H0 wahr)) = 2(1− Φ(3)) = 0, 0026

Aus p-Wert = 0, 0026 lässt sich direkt schließen, dass sowohlein Test zum Signifikanzniveau α = 0, 05 als auch ein Test zumNiveau α = 0, 01 zur Ablehnung vonH0 führen. Das Testergebnisist „hochsignifikant“.

Der p-Wert eines einseitigen Tests wird durch die folgende Figurillustriert. Es sei Zbeob = 1.77 (⇒ p-Wert = 0.038)

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.00.0

0.1

0.2

0.3

0.4

zbeob

z0.962=1.77=zbeob

0.038

Nichtparametrisch@LS-Kneip 1–42

Page 43: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Illustration: t-Test

Es seien X1, . . . , Xn unabhängig und identisch N(µ, σ2) verteilt.µ und σ2 seien unbekannt.

Testproblem: H0 : µ = µ0 gegen H1 : µ = µ0

Teststatistik des t-Tests:

T =

√n(X − µ0)

S

Test zum Niveau α

• Einseitiger Test: Ablehnung von H0, falls

Tbeobachtet ≥ tn−1;1−α

• Zweiseitiger Test: Ablehnung von H0, falls

|Tbeobachtet| ≥ tn−1;1−α/2

Der p-Wert (Überschreitungswahrscheinlichkeit):

• Einseitiger Test:

p-Wert = P (Tn−1 ≥ Tbeobachtet)

• Zweiseitiger Test:

p-Wert = P (|Tn−1| ≥ |Tbeobachtet|)

Nichtparametrisch@LS-Kneip 1–43

Page 44: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Daten:X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 = 16.50, X5 = 18.90,n = 5.

⇒ X = 18.1

Testproblem: H0 : µ = 17 gegen H1 : µ = 17

Tbeobachtet =

√5(18.1− 17)

1.125= 2.187

⇒ p-Wert = P (|Tn−1| ≥ 2.187) = 0.094

Tests zu verschiedenen Niveaus α:

α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von H0

α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von H0

α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187

⇒ Ablehnung von H0

α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von H0

α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von H0

Nichtparametrisch@LS-Kneip 1–44

Page 45: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

1.6 Die Gütefunktion

Allgemein: Für jeden möglichen Wert θ ∈ Ω0∪Ω1 lässt sich dieWahrscheinlichkeit

β(n, α; θ)

:= P ( Ablehnung von H0, falls wahrer Parameterwert gleich θ)

berechnen.

Diese sogenannte Gütefunktion β ist ein wichtiges Werkzeugzur Beurteilung der Qualität eines Tests und zum Vergleich ver-schiedener Testprozeduren. β hängt vom Parameterwert θ, demSignifikanzniveau α und der Stichprobengröße n ab.

• β(n, α; θ) ≤ α für alle θ ∈ Ω0

Bei der Konstruktion eines sinnvollen Tests wird natürlich imAllgemeinen darauf geachtet, das Niveau α voll auszuschöp-fen. Es gilt dann β(n, α; θ) = α für mindestens ein θ ∈ Ω0.

In manchen Fällen, z.B. bei diskreten Teststatistiken oderbei komplizierten, zusammengesetzten Nullhypothesen, ist esjedoch nicht möglich, ein vorgegebenes Niveau α voll auszu-schöpfen und es gilt β(n, α; θ) < α für alle θ ∈ Ω0. Manspricht dann von einem konservativen Test.

• Güte eines Tests: Bei der Beurteilung der Qualität einesTests sind die Werte von β(n, α; θ) für θ ∈ Ω1 von entschei-dender Bedeutung. Für θ ∈ Ω1 ist β(n, α; θ) die Wahrschein-lichkeit, die richtige Entscheidung zu treffen und H1 anzu-nehmen. Diese Wahrscheinlichkeit sollte natürlich möglichstgroß sein. Ein Test hat eine umso höhere Güte, je näherβ(n, α; θ) bei 1 liegt für θ ∈ Ω1.

Nichtparametrisch@LS-Kneip 1–45

Page 46: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

• Unverfälschter Test: Ein Test zum Niveau α heißt un-verfälscht, wenn β(n, α; θ) ≥ α für alle θ ∈ Ω1. Für einenunverfälschten Test ist also die Wahrscheinlichkeit H0 abzu-lehnen, wenn H0 falsch ist, mindestens so groß wie jene, H0

abzulehnen, wenn H0 zutrifft.

• Konsistenter Test: Ein Test zum Niveau α heißt konsi-stent, falls

limn→∞

β(n, α; θ) = 1

für alle θ ∈ Ω1. Bei einem konsistenten Test konvergiertalso die Wahrscheinlichkeit, die Nullhypothese für θ ∈ Ω1

korrekterweise abzulehnen, mit wachsendem Stichprobenum-fang gegen 1.

• Gleichmäßig bester Test für ein gegebenes Testproblem:Ein Test mit Gütefunktion β(n, α; θ) heißt gleichmäßig be-ster Test (uniformly most powerful), falls für jeden alterna-tiven Test mit Gütefunktion β∗(n, α; θ)

β(n, α; θ) ≥ β∗(n, α; θ) für alle n und θ ∈ Ω1

Leider lassen sich gleichmäßig beste Tests nur für wenige,sehr spezielle Testprobleme konstruieren.

Nichtparametrisch@LS-Kneip 1–46

Page 47: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel „Qualitätskontrolle“ (Gauß-Test):

• Wenn H1 wahr ist, so hängt die Güte β(n, α;µ) des Testsvon dem wahren Wert µ ∈ Ω1 ab.

Sei H1 wahr und µ = 18.36 wahrer Parameterwert⇒ Z =

√n(X−18.3)

σ ∼ N(1, 1)

⇒ β(9, 0.05; 18.36) = P (|Z| ≥ z1−α/2|µ = 18.36) = 0.168

-2 0 2 4

0.0

0.1

0.2

0.3

0.4

z0.975

β

H1 wahr und µ=18,36: Z~N(1,1)

-z0.975

Sei H1 wahr und µ = 18, 48 wahrer Parameterwert⇒ Z =

√n(X−18.3)

σ ∼ N(3, 1)

⇒ β(9, 0.05; 18.48) = P (|Z| ≥ z1−α/2|µ = 18.48) = 0.873

-2 0 2 40.0

0.1

0.2

0.3

0.4

z0.975

β

H_1 wahr und µ=18,48: Z~N(3,1)

-z0.975

Nichtparametrisch@LS-Kneip 1–47

Page 48: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel „Qualitätskontrolle“ (Gauß-Test):

• Es ist nicht möglich, beide Fehlerwahrscheinlichkeiten gleich-zeitig beliebig klein zu machen. Je kleiner α, desto größer dieWahrscheinlichkeit eines Fehlers 2. Art, d.h. desto kleiner β.

Sei H1 wahr und µ = 18.48 ∈ Ω1 wahrer Parameterwert ⇒Z ∼ N(3, 1)

α = 0.05 ⇒ β(9, 0.05; 18.48) = P (|Z| ≥ z0,975︸ ︷︷ ︸1.96

|µ = 18.48) = 0.873

-2 0 2 40.0

0.1

0.2

0.3

0.4

z0.975

β

Niveau α=0,05 (H_1 wahr und µ=18,48)

-z0.975

α = 0.01 ⇒ β(9, 0.01; 18.48) = P (|Z| ≥ z0,995︸ ︷︷ ︸2.576

|µ = 18.48) = 0.663

-2 0 2 40.0

0.1

0.2

0.3

0.4

z0.995

β

Niveau α=0,01 (H1 wahr, µ=18,48)

-z0.995

Nichtparametrisch@LS-Kneip 1–48

Page 49: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel „Qualitätskontrolle“ (Gauß-Test):

• Für festes Signifikanzniveau wird β(n, α;µ) umso größer, jegrößer der Stichprobenumfang n ist.

• H0 wahr: Unabhängig von n gilt Z =√n(X−18.3)

σ ∼ N(0, 1)

⇒ P ( Fehler 1. Art ) = α

• Sei H1 wahr und µ = 18.36. Dann gilt

Z =

√n(X − 18.3)

σ∼ N(

√n1

3, 1)

und es ergibt sich

n = 9 β(9, 0.05; 18.36) = 0.168

n = 36 β(36, 0.05; 18.36) = 0.516

n = 81 β(81, 0.05; 18.36) = 0.873

n = 144 β(144, 0.05; 18.36) = 0.979

Nichtparametrisch@LS-Kneip 1–49

Page 50: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

1.7 Asymptotische relative Effizienz

Im Folgenden betrachten wir einseitige Testprobleme mit ein-fachen Nullhypothesen der Form H0 : θ = θ0, θ, θ0 ∈ IR, undzusammengesetzten Alternativen der Form H1 : θ > θ0 oderH1 : θ < θ0.

Das von Pitman entwickelte Konzept der asymptotischen rela-tiven Effizienz erlaubt nun den Vergleich der Güte zweier kon-sistenter Testverfahren, die sich jeweils durch verschiedene Test-statistiken T1 bzw. T2 und zugehörige Gütefunktionen β1(n, α; θ)bzw. β2(n, α; θ) charakterisieren lassen.

Das Effizienzmaß beruht auf der Einsicht, dass es bei einem Ver-gleich unterschiedlicher Tests nicht sehr sinnvoll ist, die Gütevon „sehr weit“ von θ0 entfernten Alternativen θ, |θ − θ0| groß,zu betrachten. Für jeden vernünftigen, konsistenten Test ist fürsolche Alternativen der Wert von β nahe 1. Interessant sind „lo-kale“ Alternativen θ, die relativ nahe bei θ0 liegen. Der konkreteAbstand |θ − θ0| muss hierbei in Abhängigkeit vom Stichprobe-numfang betrachtet werden.

Die folgende Konstruktion des Effizienzmaßes beruht auf der Vor-aussetzung, dass die Gütefunktionen β1(n, α; θ) und β2(n, α; θ)

jeweils monoton wachsende Funktionen des Abstands |θ − θ0|sind, und dass lim|θ|→∞ β1(n, α; θ) = lim|θ|→∞ β1(n, α; θ) = 1.

• Man betrachtet eine Folge lokaler Alternativen θ1, θ2, . . . mit|θ1 − θ0| > |θ2 − θ0| > . . . und limi→∞ θi = θ0.

• Für vorgegebene 0 < α < 1 und 0 < β < 1 berechnet mannun für Test 1 eine zugehörige Folge n1, n2, . . . von Stich-probengrößen derart, dass für alle i = 1, 2, . . . der Wert der

Nichtparametrisch@LS-Kneip 1–50

Page 51: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Gütefunktion β1(ni, α; θi) möglichst nahe an β ist, d.h.

β1(ni, α; θi) ≈ β

Anmerkung: Exakte Gleichheit β1(ni, α; θi) = α ist z.B. fürdiskrete Teststatistiken nicht immer erreichbar.

• Für den zweiten Test wird sodann eine zugehörige Folge vonStichprobenumfängen m1,m2, . . . bestimmt, so dass für allei = 1, 2, . . . der Wert der Gütefunktion β2(mi, α; θi) mög-lichst nahe an β ist, d.h.

β2(mi, α; θi) ≈ β

• Asymptotische relative Effizienz des Tests T1 zumTest T2:

ET1,T2 = limi→∞

mi

ni,

vorausgesetzt, dass dieser Limes existiert und für jede Wahlvon θi und α, β derselbe ist.

Interpretation:

• ET1,T2= 1 ⇒ beide Tests annähernd gleich effizient (für

lokale Alternativen)

• ET1,T2 = γ < 1 ⇒ Test 2 ist effizienter als Test 1! Um an-nähernd die gleiche (lokale) Güte zu erreichen, werden vonTest 2 um den Faktor γ weniger Beobachtungen gebrauchtals von Test 1.

• ET1,T2 = γ∗ > 1 ⇒ Test 1 ist effizienter als Test 2! Umannähernd die gleiche (lokale) Güte zu erreichen, werden vonTest 2 um den Faktor γ mehr Beobachtungen gebraucht alsvon Test 1.

Nichtparametrisch@LS-Kneip 1–51

Page 52: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2 Die empirische Verteilungsfunktion,Ordnungsstatistiken und nichtparame-trische Tests

Gegeben: Stetige Zufallsvariable X mit Dichtefunktion f undVerteilungsfunktion F (d.h. f(t) = F ′(t))

Daten: Einfache Zufallsstichprobe X1, . . . , Xn

2.1 Die empirische Verteilungsfunktion

Ein wichtiges Werkzeug zur Analyse solcher Daten ist die soge-nannte empirische Verteilungsfunktion.

Absolute kumulierte Häufigkeitsverteilung:

Hn(x) = Anzahl der Werte Xi mit Xi ≤ x

Empirische Verteilungsfunktion:Fn(x) = Hn(x)/n = Anteil der Werte Xi mit Xi ≤ x

Eigenschaften:

• 0 ≤ Fn(x) ≤ 1

• Fn(x) = 0, falls x < X(1), wobeiX(1) - kleinster beobachteterWert

• F (x) = 1, falls x ≥ X(n), wobei X(n) - größter beobachteterWert

• Fn monoton wachsende Treppenfunktion

Nichtparametrisch@LS-Kneip 2–1

Page 53: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel:Preise (in Euro) für eine Pizza mit Salami und Pilzen in achtzufällig ausgewählten Pizzerien in Bonn

x1 x2 x3 x4 x5 x6 x7 x8

5,20 4,80 5,40 4,60 6,10 5,40 5,80 5,50

Empirische Verteilungsfunktion:

4.0 4.5 5.0 5.5 6.0 6.50.0

0.2

0.4

0.6

0.8

1.0

Nichtparametrisch@LS-Kneip 2–2

Page 54: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die empirische Verteilungsfunktion ist mit der sogenannten Ord-nungsstatistik eng verbunden.

• Als Ordnungsstatistik bezeichnet man das n-Tupel(X(1), . . . , X(n)), wobei X(1) ≤ X(2) ≤ · · · ≤ X(n) die derGröße nach geordneten Werte der Stichprobe sind.

• Für alle r = 1, . . . , n wird X(r) als r-te Ordnungsstatistikbezeichnet

Konstruktion von Fn(x) anhand von X(1) ≤ X(2) ≤ · · · ≤X(n):

• Fn(x) = 0, falls x < X(1)

• Fn(x) = 1, falls x ≥ X(n)

• Fn(X(i)) = Fn(X(i−1)) +1n

Fn(x) = F (X(i)), falls x ∈ [X(i), X(i+1))

Achtung: Falls alle xi voneinander verschieden sind, wächst F (x)

an jedem Beobachtungswert genau um den Betrag 1n; sind zwei

Beobachtungen gleich, so wächst F (x) an dem entsprechendenZahlenwert um den Betrag 2

n, bei drei gleichen Beobachtungen

um 3n, etc.

• Fn(x) = 1, falls x ≥ x(n)

• Fn hängt von den Werten der beobachteten Stichprobe ab,d.h. für jedes x ist Fn(x) eine Zufallsvariable.

• Fn ist diskret mit den Realisationsmöglichkeiten m/n (m =

0, 1, . . . , n).

Nichtparametrisch@LS-Kneip 2–3

Page 55: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Theoretische Eigenschaften der empirischen Verteilungsfunktion:

Satz 1: Für jedes feste x gilt

nFn(x) ∼ B(n, F (x)),

d.h. nFn(x) ist binomialverteilt mit den Parametern n und F (x).Die Wahrscheinlichkeitsverteilung von Fn(x) ist somit gegebendurch

P(Fn(x) =

m

n

)=

n

m

F (x)m(1−F (x))n−m, m = 0, 1, . . . , n

Folgerungen:

• E(Fn(x)) = F (x), d.h. Fn(x) ist ein erwartungstreuer Schät-zer von F (x)

• V ar(Fn(x)) =1nF (x)(1− F (x)), d.h. mit wachsender Stich-

probengröße verringert sich die Streuung von Fn(x) um F (x)

(Fn(x) ist ein konsistenter Schätzer von F (x)).

Satz von Glivenko-Cantelli:

P

(lim

n→∞supx∈IR

|Fn(x)− F (x)| = 0

)= 1

Nichtparametrisch@LS-Kneip 2–4

Page 56: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die Verteilung von Y = F (X)

Man beachte den Unterschied zwischen F (x) und F (X):

• Für gegbenes x ∈ IR ist F (x) eine feste Zahl,F (x) = P (X ≤ x)

• F (X) ist eine Zufallsvariable, wobei F die zu X gehörendeVerteilungsfunktion ist

Satz 2: X habe die stetige Verteilungsfunktion F . Dann ist Y =

F (X) gleichverteilt auf dem Intervall [0, 1], d.h.

F (X) ∼ U(0, 1),

P (a ≤ F (X) ≤ b) = b− a für alle 0 ≤ a < b ≤ 1

Folgerung: Für stetiges F können

• F (X1), . . . , F (Xn) als Stichprobenvariablen bezüglich der gleich-verteilten Zufallsvariablen F (X)

• (F (X(1)), . . . , F (X(n)) als Ordnungsstatistik aus einer gleich-verteilten Grundgesamtheit

aufgefasst werden.

Nichtparametrisch@LS-Kneip 2–5

Page 57: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.2 Quantile

Quantile sind ein wichtiges Werkzeug der nichtparametrischenStatistik. Sie liefern wichtige Maßzahlen z.B. zur Charakterisie-rung von Lage und Streuung einer Verteilung.

Quantil: Sei 0 < p < 1. Jede Zahl ψp mit der Eigenschaft

P (X < ψp) ≤ p ≤ P (X ≤ ψp)

heißt p-tes Quantil (oder kurz p-Quantil) der Zufallsvariablen X

• Falls die Verteilungsfubktion F streng monoton steigend ist,so sind alle p-Quantile durch p = F (ψp) eindeutig bestimmt.

• Enthält F konstante Segmente (z.B. bei diskreten Zufallsva-riablen), so sind manche p-Quantile nicht eindeutig, und esgibt Intervalle von möglichen Lösungen (in der Praxis wirddann häufig mit dem Mittelwert des jeweiligen Intervalls ge-rechnet).

Wichtige Quantile:

• µmed = ψ0.5 heißt Median (mindestens 50% der Beobachtun-gen sind kleiner gleich ψ0.5 und mindestens 50% der Beob-achtungen sind größer gleich ψ0.5)In der nichtparametrischen Statistik dient häufig der Median(anstatt des Mittelwerts) als Lagemaß zur Bestimmung desZentrums einer VerteilungVorteile des Medians: Robust gegen Ausreißer; im Gegen-satz zum Mittelwert auch bei extrem links bzw. rechtssteilenVerteilungen gut interpretierbar.

• ψ0.25 bzw. ψ0.75 heißen unteres bzw. oberes Quartil

Nichtparametrisch@LS-Kneip 2–6

Page 58: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der Quartilsabstand QA = ψ0.75 − ψ0.25 ist ein häufig ver-wendetes Streuungsmaß.

• ψ0.1 bzw. ψ0.9 heißen 1. bzw. 9. Perzentil

Quantile der empirischen Verteilung:

Gegeben: Einfache Zufallsstichprobe X1, . . . , Xn

Approximationen der ”wahren” Quantile der zugrunde liegendenVerteilung erhält man unter Benutzung der OrdnungsstatistikenX(r). Die Definition der entsprechenden empirischen Quantilefolgt den oben angegebenen Formeln, allerdings müssen Wahr-scheinlichkeiten durch relative Häufigkeiten ersetzt werden.

(empirisches) p-Quantil: Wert ψn;p mit 0 < p < 1, so daß

Anzahl xi≤ψn;p

n≥ p und Anzahl xi≥ψn;p

n≥ 1− p

ψn;p = x([np]+1), wenn np nicht ganzzahlig

ψn;p = (x(np) + x(np+1))/2, wenn np ganzzahlig

[np] ist die zu np nächste kleinere ganze Zahl.

Anmerkung: Falls np nicht ganzzahlig, so ist ψn;p eindeutig bestimmt;

falls np ganzzahlig, so gibt es ein Intervall von prinzipiell möglichenWerten.

Nichtparametrisch@LS-Kneip 2–7

Page 59: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der Boxplot ist ein häufig verwendetes Werkzeug zur grafischenDarstellung von Datenmaterial. Er basiert auf der Verwendungvon Quantilen.

Boxplot:

• ψn;0,25 - Anfang der Schachtel (”Box”)ψn;0,75 - Ende der Schachtel (”Box”)⇒ QA - Länge der Schachtel (”Box”)

• Der Median ψn;0,75 wird durch Strich in der Box markiert(manchmal wird auch x durch eine gestrichelte Linie mar-kiert)

• Man bestimmt die ”Zäune”zl = ψn;0,25 − 1, 5 ·QAundzu = ψn;0,75 + 1, 5 ·QA

• Zwei Linien (”Whiskers”) gehen zum kleinsten und größtenBeobachtungswert innerhalb des Bereichs [zl, zu] der Zäune

• Beobachtungen außerhalb der ”Zäune” zl, zu werden einzelneingezeichnet

Boxplots liefern Informationen über wichtige Charakteristika ei-ner Verteilung:

• Lage und Streuung

• Struktur (symmetrisch, rechtssteil, linkssteil)

• Existenz von Ausreißern

Nichtparametrisch@LS-Kneip 2–8

Page 60: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Graphische Darstellung einigerMazahlen der Lage und der VariationBoxplot (BoxWhiskerPlot, Schachtelzeichnung)

x0;25 3QAx0;25 1;5QA (lower fence)x0;25x0;75x0;75+1;5QA (upper fence)x0;75+3QA

x0;5 QAÆ?

Æ?

Nichtparametrisch@LS-Kneip 2–9

Page 61: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel:Geordnete Urliste (n=10):

0,1 0,1 0,2 0,4 0,5 0,7 0,9 1,2 1,4 1,9

Histogramm:

0.0 0.5 1.0 1.5 2.0

x

0.0

0.2

0.4

0.6

0.8

Boxplot:

0.0 0.5 1.0 1.5 2.0

x

Nichtparametrisch@LS-Kneip 2–10

Page 62: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

010

2030

40

Stun

denl

ohn

Frauen Maenner

Nichtparametrisch@LS-Kneip 2–11

Page 63: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Konfidenzintervalle für Quantile

Für 0 < p < 1 ist ψn;p natürlich nur eine Approximation des”wahren” Quantils ψp und hängt von den Beobachtungswerten(Zufall!) ab. Es ist daher von Interesse ein Konfidenzintervall fürψp zu konstruieren.

Die Grundidee zur Konstruktion eines Konfienzintervalls zum Ni-veau 1 − α besteht in der Verwendung von Ordnungsstatistikenund der Bestimmung von Zahlen l,m ∈ 1, . . . , n derart, dass

P(X(l) < ψp < X(m)

)≈ 1− α

Man beachte, dass

P(X(l) < ψp < X(m)

)= P (X(l) < ψp)− P (X(m) < ψp)

= P (F (X(l)) < p)− P (F (X(m)) < p)

F (X(l)) bzwm F (X(m)) lassen sich als Ordnungsstatistiken auseiner gleichverteilten Grundgesamtheit auffassen. Nach einigenRechnungen erhält man

P (F (X(l)) < p)− P (X(m) < ψp) =m−1∑i=l

ni

pi(1− p)n−i

= P (Bn,p ≤ m− 1)− P (Bn,p ≤ l − 1),

wobei Bn,p eine Zufallsvariable ist, die einer Binomialverteilungmit den Parametern n und p folgt. Die entsprechenden Wahr-scheinlichkeiten lassen sich den Tabellen der Binomialverteilungentnehmen. Typischerweise existieren keine Zahlen l,m derart,dass P (Bn,p ≤ m − 1) − P (Bn,p ≤ l − 1) exakt gleich 1 − α ist.In der Praxis werden daher l und m so bestimmt, dass

• P (Bn,p ≤ m− 1)− P (Bn,p ≤ l − 1) ≈ 1− α,m− l kleinstmöglich

Nichtparametrisch@LS-Kneip 2–12

Page 64: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.3 Nichtparametrische Testverfahren

Es existiert eine fast unüberschaubare Vielzahl von nichtparame-trischen Testverfahren für die verschiedensten Fragestellungen.Im Folgenden werden nur einige ausgewählte Methoden vorge-stellt. Verschiedene nichtparametrische Tests beruhen auf teilwei-se völlig unterschiedlichen Grundideen. Es gibt jedoch eine Reihevon allgemeinen Grundsätzen, die eine gemeinsame Grundlagevieler Testprozeduren bilden:

• Allgemeinheit: Die zu testende Nullhypothese wird in allge-meiner Form formuliert (keine Parametrisierung; insbeson-dere keine Abhängigkeit von Existenz und Werten der Para-meter spezifischer Verteilungen)

• Verteilungsfreiheit: Die Verteilung der Teststatistik unter derNullhypothese sollte (tendenziell) verteilungsfrei sein, d.h.unabhängig von der spezifischen Struktur der zugrundelie-genden Verteilung der interessierenden Variable sein.

• Robustheit: Möglichst geringer Einfluss von möglichen ”Aus-reißern” innerhalb der vorliegenden Daten

2.4 Anpassungstests

Anpassungstests (”Goodness-of-Fit” Tests) dienen zur Überprü-fung der Hypothese, ob eine beobachtete Variable eine bestimm-te, spezifierte Verteilung besitzt, wie z.B. eine Exponentialver-teilung mit Parameter λ = 1 oder eine Normalverteilung mitMittelwert 0 und Varianz 1. Die Grundidee solcher Tests bestehtdarin zu untersuchen, ob sich die beobachtete Verteilung hinrei-chend gut der hypothetischen Verteilung anpasst.

Nichtparametrisch@LS-Kneip 2–13

Page 65: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der Kolmogoroff-Smirnoff TestGegeben: Zufallsvariable X mit stetiger Verteilungsfunktion F

Daten: Einfache Zufallsstichprobe X1, . . . , Xn

Ziel: Test der Nullhypothese H0 : F = F0, wobei F0 eine genauspezifizierte Verteilungsfunktion ist.

Beispiele: F0 - Verteilungsfunktion einer Normalverteilung mitMittelwert 0 und Varianz 1; F0 - Verteilungsfunktion einer Ex-ponentialverteilung mit Parameter λ = 1.

• Fn(x) ist ein erwartungstreuer und konsistenter Schätzer vonF (x)

• Falls die Nullhypothese F = F0 also richtig ist, sollten dieAbweichungen |Fn(x)− F0(x)| rein zufällig und hinreichendklein sein.

Diese Einsichten führen auf den Kolmogoroff-Smirnoff Test.

Testproblem:

H0 : F (x) = F0(x) für alle x ∈ IR

H1 : F (x) = F0(x) für mindestens ein x ∈ IR

Teststatistik:

Dn = supx∈IR

|Fn(x)− F0(x)|

Ablehnung von H0, falls Dn > dn,1−α

Hierbei bezeichnet dn,1−α das 1 − α-Quantil der Verteilung vonDn unter der Nullhypothese.

Nichtparametrisch@LS-Kneip 2–14

Page 66: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Frage: Verteilung von Dn unter H0?

a) Unter der Nullhypothese F = F0 ist die Teststatistik Dn

für alle stetigen Verteilungsfunktionen F0 verteilungsfrei undstimmt mit der Verteilung der Zufallsvariable D∗

n,

D∗n = sup

y∈[0,1]

|y − F ∗n(y)|,

überein. Hierbei bezeichnet F ∗n die empirische Verteilungs-

funktion einer einfachen Zufallsstichprobe aus einer U(0, 1)-Verteilung.

b) Asymptotische Verteilung (große Stichproben): Für alleλ > 0 gilt

limn→∞

P (Dn ≤ λ/√n) = 1− 2

∞∑k=1

(−1)k−1e−2k2λ2

• Ergebnis a) impliziert, dass sich die kritischen Werte desKolmogoroff-Smirnoff Tests durch Monte-Carlo-Simulationen(am Computer) approximieren lassen.

– Mit Hilfe eines Zufallszahlengenerators werden n unab-hängige, auf [0, 1] gleichverteilte Zufallszahlen erzeugt undder zugehörige Wert D∗

n,1 = supy∈IR |y − F ∗n(y)| berech-

net.

– Diese Prozedur wird k mal wiederholt (k groß, z.B. k =

2000)⇒ k Werte: D∗

n,1, D∗n,2, . . . , D

∗n,k

– Das (1− α)-Quantil der empirischen Verteilung vonD∗

n,1, D∗n,2, . . . , D

∗n,k liefert eine Approximation von dn,1−α

(umso genauer, je größer k)

Nichtparametrisch@LS-Kneip 2–15

Page 67: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

• Für kleine Werte von n sind die kritischen Werte dn,1−α ta-belliert.

Beispiel: (aus Büning und Trenkler)

Es sei zu testen, dass für einen bestimmten PKW-Typ der Ben-zinverbrauch in Litern pro 100 km bei einer Geschwindigkeit von100 km/h normalverteilt ist mit µ = E(X) = 12 und σ = 1. Eineeinfache Zufallsstichprobe von 10 Fahrzeugen dieses Typs ergabfolgenden Literverbrauch:

12.4 11.8 12.9 12.6 13.0 12.5 12.0 11.5 13.2 12.8

Man erhält (n = 10): D10 = 0.3554

Kritischer Wert des Kolmogoroff-Smirnoff Tests für n = 10 undα = 0.05: d10,0.95 = 0.409

⇒ Annahme der Nullhypothese, da 0.3554 < 0.409

Anmerkung: Der Test ist auch für diskrete Verteilungen (Fnicht stetig) anwendbar. Er ist dann konservativ, d.h. unterder Nullhypothese ist die Wahrscheinlichkeit eines Fehlers 1. Artkleiner gleich α.

Nichtparametrisch@LS-Kneip 2–16

Page 68: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Behandlung von zusammengesetzten Nullhypothesen

Man spricht von einer zusammengesetzten Nullhypothese, fallsF0(x) ≡ F0(x, θ) nur bis auf unbekannte Parameter θ ∈ IRm

spezifiziert ist. Ein Beispiel ist eine Normalverteilung mit unbe-kanntem Mittelwert und unbekannter Varianz, d.h. θ = (µ, σ2).In einem solchen Fall möchte man also testen, ob die Daten ”nor-malverteilt” sind (mit beliebigem Mittelwert und Varianz).

Testproblem:

H0 : F (x) = F0(x, θ) für alle x ∈ IR; θ unbekannt

H1 : Für alle möglichen θ: F (x) = F0(x, θ) für mindestensein x ∈ IR

Teststatistik:

Dn = supx∈IR

|Fn(x)− F0(x, θ)|

Hierbei bezeichnet θ die Maximum-Likelihood Schätzung von θ

(z.B. θ = (X, σ2), σ2 = 1n

∑i(Xi − X)2, im Falle einer Normal-

verteilung).

Ablehnung von H0, falls Dn > dn,1−α

• Im Allgemeinen werden die gleichen kritischen Werte ge-nommen wie beim Test einer einfachen Nullhypothese (sieheoben). Der Test ist in diesem Fall konservativ, d.h. unter derNullhypothese ist die Wahrscheinlichkeit eines Fehlers 1. Artkleiner gleich α.

• Für den Spezialfall einer Normalverteilung wurden von Lil-liefors exakte kritische Werte berechnet. Der resultierende”Test von Lillifors” ist in vielen statistischen Programmpa-keten implementiert.

Nichtparametrisch@LS-Kneip 2–17

Page 69: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der χ2-AnpassungstestDaten:

• Zufallsstichprobe X1, . . . , Xn i.i.d.

• Xi nimmt nur q verschiedene Werte an Xi ∈ a1, . . . , aq

Verteilungshypothese: Die Verteilung von X ist so, dass

P (X = aj) = π0j , j = 1, . . . , q

wobei π01 , . . . , π

0q vorgegebene Werte

χ2-Anpassungstest:

• Test von H0 : πi = P (X = aj) = π0j gegen

H1 : πj = π0j für ein j = 1, . . . , q

• der Test beruht auf Vergleich von

nj = Anzahl der Xi, i = 1, . . . , n, mit Xi = aj

mit der zu erwartenden Häufigkeit unter

H0 : E(nj) = nπ0j

Teststatistik:

Q =

q∑j=1

(nj − nπ0j )

2

nπ0j

Asymptotische Approximation (n groß):

Q ∼ χ2q−1

⇒ Ablehnung von H0, falls Q ≥ χ2q−1,1−α

Nichtparametrisch@LS-Kneip 2–18

Page 70: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Anmerkung: Unter H0 folgen n1, . . . , nq einer sogenannten “Mul-tinomialverteilung”:

P (n1 = m1, . . . , nq = mq) =n!

m1! · · ·mq!(π0

1)m1 · (π0

2)m2 · · · (π0

q)mq

Jede Anwendung des χ2-Tests auf stetige Verteilungen erforderteine Gruppierung Daten in q Klassen.

Anwendung: Test auf univariate Standardnormalverteilung

• Unterteilung der reellen Achse in q disjunkte TeilintervalleA1, . . . , Aq

NH0,1L

A1 A2 .........Aq

Πi0

=àAi

1!!!!!!!2 Π

expH-12x2Lâx

• Berechnung der theoretischen Wahrscheinlichkeiten

π0j = P (X ∈ Aj) =

∫Aj

1√2π

exp

(−1

2x2)dx

(P : Normalverteilung)

• Berechnung von nj = Anzahl der Beobachtungen, die in dasIntervall Aj fallen⇒ χ2-Test

Nichtparametrisch@LS-Kneip 2–19

Page 71: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Verallgemeinerung: Test auf Normalverteilung (Xi ∼ N(µ, σ2))

• Vorgehen analog; aber: theoretische Wahrscheinlichkeiten

π0j ≡ π0

j (µ, σ) = P (X ∈ Aj) =

∫Aj

1√2πσ

exp

(−1

2

(X − µ)2

σ2

)dx

hängen nun von unbekannten Parametern µ, σ2 ab!

• Bestimmung von Schätzungen µ und σ und Approximationder theoretischen Wahrscheinlichkeiten durch π0

j (µ, σ)

• Teststatistik:

Q =

q∑j=1

(nj − nπ0

j (µ, σ))2

nπ0j (µ, σ)

• Unter H0: Q ∼ χ2q−3

Allgemein: Zusammengesetzte Verteilungshypothesem unbekannte Parameter zu schätzen

⇒ Unter H0: Q ∼ χ2q−m−1

• Es gibt theoretische Arbeiten, die zeigen, dass Q asymptotischnicht χ2-verteilt ist, wenn die Parameter nach der Maximum-Likelihood Methode aus ungruppierten Daten geschätzt werden(z.B. bei Verwendung von µ = X, σ2 = 1

n

∑i(Xi − X)2).

• Die Approximation Q ∼ χ2q−m−1 ist jedoch für großes n kor-

rekt, wenn die unbekannten Parameter θ ∈ IRm nach der χ2-Minimum Methode geschätzt werden: θ = (θ1, . . . , θm)τ minimie-ren Q, d.h. sie sind Lösungen der nachfolgenden m Gleichungen(j = 1, . . . ,m):

−1

2

∂Q

∂θℓ=

q∑j=1

(nj − nπ0

j (θ)

π0j (θ)

+(nj − nπ0

j (θ))2

2π0j (θ)

2

)∂π0

j (θ)

∂θℓ= 0

Nichtparametrisch@LS-Kneip 2–20

Page 72: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.5 Einstichprobentests: Lineare Rangtests

Rangtests spielen eine zentrale Rolle unter den nichtparametri-schen Testverfahren. Sie zeichnen sich oft durch Robustheit undeine relativ hohe Effizienz aus.

Ränge:Man betrachte eine einfache Zufallsstichprobe X1, . . . , Xn

Ränge sind eng verbunden mit der zugehörigen Ordnungsstatistk(X(1), . . . , X(n)). Im Folgenden wird der Rang einer BeobachtungXi mir r(Xi) bezeichnet.

r(Xi) = Anzahl aller Beobachtungen Xj , j = 1, . . . , n, mit Xj ≤ Xi

= Platznummer von Xi in der Ordnungstatistik

Xi kleinste Beobachtung ⇒ r(Xi) = 1

Xi zweitkleinste Beobachtung ⇒ r(Xi) = 2

...

Xi zweitgrößte Beobachtung ⇒ r(Xi) = n− 1

Xi größte Beobachtung ⇒ r(Xi) = n

Achtung: Es wird angenommen, dass alle Xi ungleich sind; fürstetige Variablen gilt P (Xi = Xj) = 0, falls i = j.

Nichtparametrisch@LS-Kneip 2–21

Page 73: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

• Da X1, . . . , Xn unabhängig und identisch verteilte Zufallsva-riablen sind, ist r(X1), . . . , r(Xn) formal als zufällige Permu-tation aller ganzen Zahlen zwischen 1 und n anzusehen.

• E(r(Xi) =n+12

• V ar(r(Xi) =n2−112

Beispiele (n=5):

Xi 0, 3 1, 5 −0, 1 0, 8 1, 0

r(Xi) 2 5 1 3 4

Xi 2, 0 0, 5 0, 9 1, 3 2, 6

r(Xi) 4 1 2 3 5

Mögliches Problem: Existenz von Bindungen (engl. ”Ties”), d.h.von identischen Meßwerten

Übliche Lösung: Übergang zu Durchschnittsrängen

Beispiele (n=5):

Xi 1, 09 2, 17 2, 17 2, 17 3, 02

r(Xi) 1 3 3 3 5

Xi 0, 5 0, 5 0, 9 1, 3 1, 3

r(Xi) 1, 5 1, 5 3 4.5 4.5

Man beachte: Im Falle der Existenz von Bindungen ist die empi-rische Varianz von r(Xi) notwendigerweise kleiner als n2−1

12 .

Nichtparametrisch@LS-Kneip 2–22

Page 74: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Lineare Rangstatistiken:

Gegeben: Zufallsvariable X mit stetiger Verteilungsfunktion F

Daten: Einfache Zufallsstichprobe X1, . . . , Xn

Nichtparametrische Einstichprobentests befassen sich mit Hypo-thesen bzgl. der Lage einer Verteilung. Die Nullhypothese lässtsich typischerweise so formulieren, dass der Median der Vertei-lung gleich einem fest vorgegebenen Wert µ0 ist. Zur Vereinfa-chung betrachten wir im Folgenden nur zweiseitige Tests. Einsei-tige Testprobleme lassen sich jedoch völlig analog behandeln.

Testproblem:

H0 : µmed = µ0

H1 : µmed = µ0

Beispiel: (aus Büning und Trenkler)

Zur Untersuchung der Intelligenz von Studenten der fachrich-tung Wirtschaftswissenschaften wurden n = 10 Studenten zu-fällig ausgewählt und ihre IQ-Werte bestimmt. Es ergaben sichfolgende Werte

Xi 99 131 118 112 128 136 120 107 134 122

Frage: Ist der Beobachtungsbefund verträglich mit der HypotheseH0 : µmed = 110?

Nichtparametrisch@LS-Kneip 2–23

Page 75: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Lineare Rangstatistiken beruhen auf den Differenzen Di = Xi −µ0 und der Berechnung der Größen

r(|Di|) := Rang von |Di| = |Xi − µ0| in der Stichprobe

der Absolutbeträge|D1|, . . . , |Dn| der Differenzen

Vi :=

1 falls Xi − µ0 > 0

0 falls Xi − µ0 ≤ 0

Für eine geeignete Gewichtsfunktion g ist eine lineare Rang-statistik dann von der Form

L+n =

n∑i=1

g(r(|Di|)) · Vi

Beispiel (µ0 = 110):

Xi 99 131 118 112 128 136 120 107 134 122

Vi 0 1 1 1 1 1 1 0 1 1

|Di| 11 21 8 2 18 26 10 3 24 12

r(|Di|) 5 8 3 1 7 10 4 2 9 6

Es existieren allgemeine theoretische Resultate über die Wahl derGewichtsfunktion zur Definition von lokal optimalen Rangtests(”lokal optimal” bezieht sich auf Verteilungen ”in der Nähe” vonspezifischen parametrischen Verteilungen, wie z.B. der Normal-verteilung).

Die in der Praxis hauptsächlich benutzten linearen Rangtestssind jedoch der Vorzeichentest (”Sign” Test) und der WilcoxonTest.

Nichtparametrisch@LS-Kneip 2–24

Page 76: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der Vorzeichentest

Spezialfall mit der Gewichtsfunktion g(x) = 1 für alle x.

Zum Testen von H0 : µmed = µ0 verwendet der Vorzeichentestdaher die Teststatistik

V +n =

n∑i=1

Vi

• Unter H0 gilt P (Vi = 1) = 12 und P (Vi = 0) = 1

2

• Hieraus lässt sich folgern, dass unter H0 die Statistik V ∗n

einer Binomialverteilung mit den Parametern n und 12 folgt:

V +n ∼ B(n,

1

2)

⇒ Ein Test zum Niveau α lehnt die Nullhypothese ab, falls ent-weder P (Bn, 12

≤ V +n ) ≤ α/2 oder P (Bn, 12

≥ V +n ) ≤ α/2.

n groß: Approximation der Binomialverteilung durch eine Nor-malverteilung möglich. Unter H0 gilt approximativ

V +n − n/2√n/4

∼ N(0, 1)

Anmerkungen: Theoretisch gilt P (Xi − µ0 = 0) = 0. In derPraxis ist es jedoch möglich, dass Beobachtungen mit Xi−µ0 = 0

existieren. Solche Beobachtungen werden üblicherweise aus derStichprobe entfernt (und n entsprechend verkleinert).

Der Vorzeichentest lässt sich in einfacher Weise modifizieren, umz.B. Hypothesen der Form ψ0,75 = ψ0 zu testen.

Nichtparametrisch@LS-Kneip 2–25

Page 77: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der Wilcoxon Test

Der Wilcoxon Test ist ein Spezialfall mit der Gewichtsfunktiong(x) = x für alle x. Er beruht auf der zusätzlichen Voraussetzung,dass die zugrundeliegende Verteilung symmetrisch ist.

Zum Testen von H0 : µmed = µ0 verwendet der Wilcoxon Testdaher die Teststatistik

W+n =

n∑i=1

r(|Di|) · Vi

Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für denbeobachteten Wert entweder W+

n ≤ wn,α/2 oder W+n ≥ wn,1−α/2

gilt. Hierbei sind wn,α/2 und wn,α/2 die entsprechenden Quantileder Verteilung von Wn unter H0.

• Unter H0 ist die Wn verteilungsfrei. Die kritischen Wertelassen sich durch Auszählen berechnen. Für kleine Werte nlassen sich in der Literatur Tabellen finden.

• Asymptotische Approximation (n groß):

W+n − n(n+1)

4√V ar(W+

n )∼ N(0, 1),

wobei V ar(W+n ) = n(n+1)(2n+1)

24

Achtung: Die oben angegebenen Verteilungen beruhen auf der Annah-me einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenzvon Bindungen = Null). In der Praxis können jedoch Bedingungenexistieren. Dann sind die obigen Verteilungen nur noch approximativgültig, und die Genauigkeit der Approximation sinkt mit der Anzahlder Bedingungen (relativ zu n). In der Literatur wurden jedoch einigeKorrekturformeln entwickelt.Nichtparametrisch@LS-Kneip 2–26

Page 78: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Anwendung: Vergleiche aus verbundenen Stich-proben

Verbundene Stichproben: Ein interessierendes Merkmal wirdunter zwei unterschiedlichen Bedingungen (X und Y ) an densel-ben Untersuchungseinheiten erhoben.

Stichprobenvariablen (X1, Y1), . . . , (Xn, Yn)

X1, . . . , Xn unabhängig und ident. verteilt wie XY1, . . . , Ym unabhängig und ident. verteilt wie YXi und Yi sind nicht voneinander unabhängig; z.B. (Xi, Yi)

Messung an der gleichen Untersuchungseinheit

Beispiel: WerbekampganeDie nachfolgende Tabelle gibt die wöchentlichen Umsätze (in10000 Euro) von 6 Filialen einer Handelskette vor und nach einerWerbekampagne wieder.

Filiale 1 2 3 4 5 6

vor W.k. (X) 18,5 15,6 20,1 17,2 21,1 19,3

nach W.k. (Y) 20,2 16,6 19,8 19,3 21,9 19,0

⇒ x = 18, 63, y = 19, 47

Frage: War die Werbekampagne erfolgreich? Hat sie in der Ten-denz (Lage!) zu „signifikant“ höheren Umsätzen geführt?

Nichtparametrisch@LS-Kneip 2–27

Page 79: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Nichtparametrischer Ansatz: Man betrachtet die zugehörigeStichprobe der DifferenzenZ1 = X1 − Y1, Z2 = X2 − Y2, . . . , Zn = Xn − Yn

Die zugrundeliegende Fragestellung lässt sich dann übersetzen indie Frage: Ist der Median von Z1, . . . , Zn ungleich Null?

⇒ Testproblem:

H0 : µmed;Z = 0

H1 : µmed;Z = 0

⇒ Anwendung des Vorzeichentests oder des Wilcoxon Tests aufdie Stichprobe Z1, . . . , Zn.

Die Güte verschiedener Testverfahren

• Parametrische Alternative (unter der Annahme approxi-mativ normalverteilter Daten mit µmed = µ = E(X)): t-Test

• Unter der Voraussetzung einer Normalverteilung ist der t-Test effizienter als der Vorzeichentest (asymptotische rela-tive Effizienz=0.637). Für Verteilungen, die stark von derNormalverteilung abweichen, kann der Vorzeichentest jedochwesentlich effizienter sein als der t-Test.

• Im Falle einer symmetrischen Verteilung ist der WilcoxonTest immer effizienter als der Vorzeichentest. Im Falle einerNormalverteilung beträgt die asymptotische relative Effizi-enz des Wilcoxon Tests im Vergleich zum t-Test ungefähr0, 96 (d.h. der Wilcoxon Test ist fast ebenso effizient wie dert-Test). Für symmetrische, aber nicht normale Verteilungenkann der Wilcoxon Test natürlich wesentlich effizienter seinals der t-Test.

Nichtparametrisch@LS-Kneip 2–28

Page 80: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.6 Zweistichprobenprobleme: Rangtests

Gegeben: ZufallsvariableX und Y mit stetigen Verteilungsfunk-tionen FX und FY

Daten: Unabhängige ZufallsstichprobenX1, . . . , Xm und Y1, . . . , Ynaus Grundgesamtheiten mit den Verteilungsfunktionen FX undFY .

Zu testende Nullhypothese: H0 : FX = FY , d.h. die zugrundeliegenden Verteilungen sind gleich.

Beispiel: Kaffee und SchreibgeschwindigkeitIn einem Experiment wurde der Einfluss von Koffein auf dieSchreibgeschwindigkeit auf einer Computer-Tastatur gemessen.20 trainierte Probanden wurden zufällig in zwei Gruppen vonjeweils 10 Personen aufgeteilt. Während die erste Gruppe keineGetränke erhielt, wurde der zweiten Gruppe 200 mg Koffein inForm von mehreren Tassen Kaffee verabreicht. Danach wurdenbei jedem Probanden die Zahl der Anschläge pro Minute auf derComputer-Tastatur gemessen (Durchschnitt aus einem zehnmi-nütigem Schreibtest).

kein Koffein (X) 242.8 245.3 244.0 240.2 247.1 248.3

241.7 244.7 246.5 240.4

200 mg Koff. (Y) 246.4 251.1 250.2 252.3 248.0 250.9

246.1 248.2 245.6 250.0

Frage: Gibt es einen Unterschied zwischen der Schreibgeschwin-digkeit mit und ohne Koffein?

Nichtparametrisch@LS-Kneip 2–29

Page 81: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

• Rangtests beruhen auf den Rängen der Beobachtungen Xi

bzw. Yi in der kombinierten Stichprobe aller N = m + n

Beobachtungen

r(Xi) = Anzahl aller Xj , j = 1, . . . ,m, mit Xj ≤ Xi

+ Anzahl aller Yj , j = 1, . . . , n, mit Yj ≤ Xi

r(Yi) = Anzahl aller Xj , j = 1, . . . ,m, mit Xj ≤ Yi

+ Anzahl aller Yj , j = 1, . . . , n, mit Yj ≤ Yi

• Unter H0 : FX = FY ist die kombinierte Stichprobe als ein-fache Zufallsstichprobe des Umfangs N := m + n aus einerGrundgesamtheit mit der Verteilungsfunktion FX = FY auf-zufassen. Die Ränge sollten dann eine rein zufällige Permu-tationen der Zahlen zwischen 1 und N sein. Die Grundideevon Rangtests besteht darin zu überprüfen, ob eine solche”Zufälligkeit” der Ränge vorliegt, oder ob systematische Un-terschiede zwischen den Rangverteilungen von X und Y aufunterschiedliche Verteilungen (→ Alternative) hinweisen.

Wir betrachten zunächst allgemeine theoretische Eigenschaftenvon linearen Rangstatistiken. Hierbei wird zunächst vorausge-setzt, dass keine Bindungen existieren (FX , FY stetig!). Sei

Vi :=

1 falls die i-te Variable in der kombinierten,

geordneten Sichprobe eine X-Variable ist

0 sonst

Lineare Rangstatistiken lassen sich nun allgemein in der Form

LN =

N∑i=1

aiVi

schreiben, wobei a1, a2, . . . geeignete Gewichte (”Scores”) bezeich-nen.Nichtparametrisch@LS-Kneip 2–30

Page 82: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Verschiedene Testverfahren unterscheiden sich durch die jeweiligeSpezifikation der Gewichte ai.

• (V1, V2, . . . , VN ) ist ein Vektor, der aus m Einsen und n Nul-

len besteht. Es gibt

Nm

verschiedene Kombinationen die-

ser m Einsen und n Nullen, die unter der Nullhypothese allegleich wahrscheinlich sind.

• Unter H0 : FX = FY ist die Verteilung von LN verteilungs-frei. Kritische Werte können durch Auszählen bestimmt wer-den,

P (LN = c |H0) =q(c)Nm

,

mit q(c) = Anzahl der Vektoren (V1, . . . , VN ) mit LN =∑Ni=1 aiVi = c.

• Unter H0 gilt weiterhin:

– E(Vi) =mN

– V ar(Vi) =mnN2

– Cov(Vi, Vj) =−mn

N2(N−1)

– E(LN ) = mN

∑Ni=1 ai

– V ar(LN ) = mnN2(N−1) (N

∑Ni=1 a

2i − (

∑Ni=1 ai)

2)

• ZN = LN−E(LN )√V ar(LN )

ist asymptotisch N(0, 1)-verteilt.

Nichtparametrisch@LS-Kneip 2–31

Page 83: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Rangtests sind typischerweise nicht konsistent gegen alle denk-baren Alternativen. Durch gezielte Wahl der Gewichte ai lassensich jedoch Tests entwickeln, die besonders effizient bei der Ent-deckung von Lage- oder Variabilitätsalternativen sind.

Lagealternativen:

• Man spricht von Lagealternativen, falls FX = FY , die Ver-teilungen FX und FY jedoch ähnliche Struktur besitzen undsich nur in der Lage des Zentrums der Verteilung unterschei-den.

• Vereinfachtes Testproblem für Lagealternativen:

H0 : FX = FY

H1 : FX(x) = FY (x − θ) für alle x ∈ IR und ein θ ∈ IR,θ = 0

• Man beachte jedoch: Die Güte der nachfolgenden Tests (vonWilcoxon und van der Waerden) hängt nicht wesentlich da-von ab, dass die Struktur der beiden Verteilungen (unter derAlternative) ähnlich ist. Wichtig ist nur, dass die Zentren(Mediane) der beiden Verteilungen gegeneinander verscho-ben sind.

• Lineare Rangtests für Lagealternativen sind allgemein da-durch charakterisiert, dass die Gewichte so gewählt werden,dass die Folge a1 < a2 < · · · < an streng monoton steigendist (oder alternativ streng monoton fallend).

Nichtparametrisch@LS-Kneip 2–32

Page 84: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der Wilcoxon-Rangsummentest

Der Wilcoxon Test ist ein Test für Lagealternativen. Er verwen-det eine lineare Rangstatistik mit Gewichten ai = i.

Zum Testen von H0 : FX = FY verwendet der Wilcoxon Testdaher die Teststatistik

WN =N∑i=1

i · Vi =m∑j=1

r(Xj)

Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für denbeobachteten Wert entweder WN ≤ ωN,α/2 oder WN ≥ ωN,1−α/2

gilt. Hierbei sind ωN,α/2 und ωN,1−α/2 die entsprechenden Quan-tile der Verteilung von WN unter H0.

• Unter H0 ist die Wn verteilungsfrei. Die kritischen Wertelassen sich durch Auszählen berechnen (siehe oben).

• E(WN ) = m(N+1)2 , V ar(Wn) =

mn(N+1)12

• Asymptotische Approximation (n groß): WN approximativnormalverteilt mit Erwartungswert m(N+1)

2 und Varianz mn(N+1)12 .

Achtung: Die oben angegebenen Verteilungen beruhen auf der Annah-

me einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz

von Bindungen = Null). In der Praxis können jedoch Bedingungenexistieren. Dann sind die obigen Verteilungen nur noch approximativ

gültig, und die Genauigkeit der Approximation sinkt mit der Anzahl

der Bedingungen (relativ zu n). In der Literatur wurden jedoch einigeKorrekturformeln entwickelt.

Nichtparametrisch@LS-Kneip 2–33

Page 85: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der Test von van der Waerden

Der Test von van der Waerden ist ebenfalls ein Test für Lageal-ternativen. Er verwendet eine lineare Rangstatistik mit Gewich-ten ai = Φ−1( i

N+1 ). Hierbei ist Φ die Verteilungsfunktion derStandardnormalverteilung.

Zum Testen von H0 : FX = FY verwendet dieser Test daher dieTeststatistik

VWN =

N∑i=1

Φ−1(i

N + 1) · Vi =

m∑j=1

Φ−1(r(Xj)

N + 1)

Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für denbeobachteten Wert |VWn| ≥ vwN,1−α/2 gilt. Hierbei ist vwN,α/2

das entsprechende Quantil der Verteilung von VWn unter H0.

• Unter H0 ist die Wn verteilungsfrei. Die kritischen Wertelassen sich durch Auszählen berechnen (siehe oben).

• Unter H0 ist die Verteilung von Wn symmetrisch um Null.

• E(VWN ) = 0, und V ar(VWn) =mn

N(N−1)

∑Ni=1(Φ

−1( iN+1 ))

2

• Für großes n ist VWN approximativ normalverteilt.

Achtung: Die oben angegebenen Verteilungen beruhen auf der Annah-

me einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz

von Bindungen = Null). In der Praxis können jedoch Bedingungen

existieren. Dann sind die obigen Verteilungen nur noch approximativgültig, und die Genauigkeit der Approximation sinkt mit der Anzahl

der Bedingungen (relativ zu n).

Nichtparametrisch@LS-Kneip 2–34

Page 86: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die Güte verschiedener Testverfahren

• Parametrische AlternativeZusatzannahme: Normalverteilungen mit gleichen Varianzen,X ∼ N(µ1, σ

2) und Y ∼ N(µ2, σ2)

⇒ t-Test für zwei Stichproben

T =X − Y

S√1/n + 1/m

UnterH0 folgt T einer t-Verteilung mit N−2 Freiheitsgraden(Ablehnung von H0, falls |T | zu groß).

• Die asymptotische relative Effizienz des Wilcoxon-Rangsummen-tests im Vergleich zum t-Test ist 0.955 bei Annahme ei-ner Normalverteilung. Für stark links- oder rechtssteile Ver-teilungen sowie für Verteilungen mit langen ”Tails” ist derWilcoxon-Rangsummentest effizienter als der t-Test. Die un-tere Grenze der asymptotischen relativen Effizienz ist 0.864,eine obere Grenze existiert nicht.

• Bei Annahme einer Normalverteilung ist die asymptotischerelative Effizienz des van der Waerden Test im Vergleich zumt-Test gleich 1 (d.h. der van der Waerden Test ist dann inetwa genauso gut wie der t-Test). Für Verteilungen mit lan-gen ”Tails” ist der Wilcoxon-Rangsummentest effizienter alsder Test von van der Waerden.

Nichtparametrisch@LS-Kneip 2–35

Page 87: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Streuungsalternativen:

Sowohl der Wilcoxon-Rangsummentest, der Test von van derWaerden als auch der t-Test sind i.Allg. nicht konsistent fürStreuungsalternativen.

• Man spricht von Streuungsalternativen, falls die Lagen derZentren der Verteilungen FX und FY identisch sind, und sichdie beiden Verteilungen nur durch unterschiedliche Streuungunterscheiden.

• Vereinfachtes Testproblem für Streuungsalternativen

H0 : FX = FY

Es wird vorausgesetzt, dass die Mediane der beiden Ver-teilungen gleich sind, µmed := µmed,X = µmed,Y . Bezeich-nen FX−µmed

und FY−µmeddann jeweils die Verteilungen

von X − µmed und Y − µmed, so lassen sich Streuungsal-ternativen folgendermaßen formulieren:H1 : FX−µmed

(x) = FY−µmed(θx) für alle x ∈ IR und ein

θ ∈ IR, θ = 0

• Wahl der Gewichte ai bei Tests für Streuungsalternativen:Extrem kleinen und extrem großen Beobachtungen werdenkleine Gewichte ai zugewiesen, während die mittleren Messwer-te hohe Gewichte erhalten.

Nichtparametrisch@LS-Kneip 2–36

Page 88: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Der Siegel-Tukey-Test

Der Test von Siegel und Tukey für Variabilitätsalternativen kannals Analogon zum Wilcoxon-Rangsummentest bei Lagealternati-ven aufgefasst werden.

Zum Testen von H0 : FX = FY verwendet dieser Test daher dieTeststatistik

SN =N∑i=1

ai · Vi,

wobei die Gewichte nach folgender Regel bestimmt werden:

a1 = 1, aN = 2, aN−1 = 3, a2 = 4, a3 = 5, aN−2 = 6,

aN−3 = 7, a4 = 8, a5 = 9, aN−4 = 10, . . .

Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für denbeobachteten Wert entweder SN ≤ ωN,α/2 oder SN ≥ ωN,1−α/2

gilt.

• Unter H0 ist die Verteilung von SN gleich der Verteilung derTeststatistik WN des Wilcoxon-Rangsummentests. KritischeWerte lassen sich daher direkt übertragen.

• E(SN ) = m(N+1)2 , V ar(Sn) =

mn(N+1)12

• Asymptotische Approximation (n groß): SN approximativnormalverteilt mit Erwartungswert m(N+1)

2 und Varianz mn(N+1)12 .

Achtung: Die oben angegebenen Verteilungen beruhen auf der Annah-

me einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenzvon Bindungen = Null). Es ist jedoch möglich, den Test bei Vorhan-

densein von Bindungen entsprechend zu modifizieren.

Nichtparametrisch@LS-Kneip 2–37

Page 89: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.7 Zweistichprobenprobleme: Der Kolmogoroff-Smirnoff Test

Gegeben: ZufallsvariableX und Y mit stetigen Verteilungsfunk-tionen FX und FY

Daten: Unabhängige ZufallsstichprobenX1, . . . , Xm und Y1, . . . , Ynaus Grundgesamtheiten mit den Verteilungsfunktionen FX undFY .

Allgemeines Testproblem:

H0 : FX = FY

H1 : FX = FY

• Die jeweiligen empirischen Verteilungsfunktionen FX,m undFY,n sind erwartungstreue und konsistente Schätzer von FX

und FY .

• Falls die Nullhypothese F = F0 also richtig ist, sollten dieAbweichungen |FX,m(x) − FY,n(x)| rein zufällig und hinrei-chend klein sein.

Diese Einsichten führen auf den Zweistichprobentest von Kolmo-goroff und Smirnoff.

Teststatistik:

Dm,n = supx∈IR

|FX,m(x)− FY,n(x)|

Ablehnung von H0, falls Dm,n > dm,n,1−α

Hierbei bezeichnet dm,n,1−α das 1−α-Quantil der Verteilung vonDm,n unter der Nullhypothese.

Nichtparametrisch@LS-Kneip 2–38

Page 90: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Frage: Verteilung von Dm,n unter H0?

a) Unter der Nullhypothese FX = FY ist die Teststatistik Dn

für alle stetigen Verteilungsfunktionen FX , FY verteilungs-frei. Kritische Werte lassen sich durch Auszählen gewinnen(der Wert von Dm,n hängt nur von der Rängen der X- undY -Werte in der kombinierten, geordneten Stichprobe ab).

b) Asymptotische Verteilung (große Stichproben): Für alleλ > 0 gilt

limn→∞

P (Dm,n ≤ λ/√mn/(m+ n)) = 1−2

∞∑k=1

(−1)k−1e−2k2λ2

c) Der Kolmogoroff-Smirnoff Test ist konsistent für alle Alter-nativen. Für Lagealternativen ist er allerdings weniger effizi-ent als z.B. der Wilcoxon-Rangsummentest.

Nichtparametrisch@LS-Kneip 2–39

Page 91: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.8 Vergleich mehrerer unabhängiger Stichpro-ben (nichtparametrische Varianzanalyse)

• Daten: Unabhängige Beobachtungen Xij , j = 1, . . . , ni,von i = 1, . . . , c verschiedenen Gruppen in Abhängigkeit voneinem Faktor („Treatment“).

Gruppe 1: X11, X12, . . . , X1n1 ⇒ Verteilung F1

Gruppe 2: X21, X22, . . . , X2n2 ⇒ Verteilung F2

...Gruppe c: Xc1, Xc2, . . . , Xcnc ⇒ Verteilung Fc

• Parametrische Statistik (Annahme einer Normalverteilung)⇒ Varianzanalyse

• Nichtparametrische Verfahren:

– keine parametrischen Modellannahmen bezüglich der Struk-tur der Verteilungen

– rein qualitative Annahmen über die Verteilungsfunktio-nen Fi, i = 1, . . . , c, die die verschiedenen Gruppen cha-rakterisieren (Fi stetig)

– Robustheit gegenüber Ausreißern

• Allgemeine Formulierung des Testproblems (Gleichheit allerGruppen):

H0 : F1 = F2 = · · · = Fc

gegen

H1 : ∃i, j mit Fi = Fj

Nichtparametrisch@LS-Kneip 2–40

Page 92: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Kruskall-Wallis Test:

• Der Test basiert auf der Verwendung von “Rangstatistiken”

• Rang von Xij in der geordneten Gesamtstichprobe aller Be-obachtungenr(Xij) = Anzahl aller Beobachtungen Xkl, k = 1, . . . , c,l = 1, . . . , nj mit Xkl ≤ Xij

• z.B.:

Xij kleinste Beobachtung ⇒ r(Xij) = 1

Xij zweitkleinste Beobachtung ⇒ r(Xij) = 2

...

Xij zweitgrößte Beobachtung ⇒ r(Xij) = N − 1

Xij größte Beobachtung ⇒ r(Xij) = N

(N =

c∑j=1

nj)

Achtung: Es wird angenommen, dass alle Xij ungleich sind; fürstetige Variablen P (Xij = Xkl) = 0, falls i = k oder j = l.

Nichtparametrisch@LS-Kneip 2–41

Page 93: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Es gilt:

• 1 ≤ r(Xij) ≤ N

• Die Gesamtheit der Ränge aller Beobachtungen ist die Mengealler Zahlen zwischen 1 und N

⇒ R = 1N

N∑i=1

i = N+12

Grundidee des Tests: Man betrachtet

Ri =

ni∑j=1

r(Xij) bzw. Ri =1

ni

ni∑j=1

r(Xij), i = 1, . . . , c

• Falls H0 wahr: Es existieren keine Unterschiede zwischen denGruppen; für jede Beobachtung ist jeder Rang gleichwahr-scheinlich⇒ tendenziell: Ri ≈ R

• Falls H0 falsch: Für einige Gruppen beobachtet man tenden-ziell höhere Werte (⇒ höhere Ränge) als für andere (niedri-gere Ränge)⇒ tendenziell: Größere Unterschiede zwischen Ri und R

Nichtparametrisch@LS-Kneip 2–42

Page 94: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

f1 f2 f3

Beobachtungen:

X11 X12 X13 X21 X22 X23 X31 X32 X33

0.7 0.6 1.0 1.2 0.9 1.4 1.8 2.0 1.7

Geordnete Stichprobe:

X12 X11 X22 X13 X21 X23 X33 X31 X32

0.6 0.7 0.9 1.0 1.2 1.4 1.7 1.8 2.0

Rang: 1 2 3 4 5 6 7 8 9

⇒ R1 = 1+2+43 = 2.33, R2 = 3+5+6

3 = 4.67,

R3 = 7+8+93 = 8, R = 5

Nichtparametrisch@LS-Kneip 2–43

Page 95: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Test von Kruskall-Wallis:

• Teststatistik

H =12

N(N + 1)

c∑i=1

ni(Ri−R)2 =12

N(N + 1)

c∑i=1

niR2i−3(N+1)

• Unter H0 ist die Teststatistik H verteilungsfrei. Die kriti-schen Werte lassen sich durch Auszählen berechnen und sindfür kleine Werte von N tabelliert.

• Asymptotische Approximation: UnterH0 (ni genügend groß),

H ∼ χ2c−1

⇒ Ablehnung von H0, falls H > χ2c−1;1−α

(bzw. p-Wert genügend klein)

Anmerkung: Ein mögliches praktisches Problem ist das Auftre-ten von mehreren einander gleichen Beobachtungswerten (“Ties”oder ”Bindungen”) ⇒ jeder solchen Beobachtung wird der Mit-telwert der zugehörigen Ränge zugeordnet.

Es ist jedoch zu beachten, dass die oben genannte theoretischeVerteilung von H unter der Nullhypothese auf der Annahme be-ruht, dass die Wahrscheinlichkeit von gleichen Beobachtungswer-ten gleich Null ist (stetige Variablen). Treten Bindungen auf,so wird die tatsächliche Varianz von H (unter H0) durch dieχ2-Approximation tendenziell überschätzt. In der Literatur sindzahlreiche Korrekturformeln vorgeschlagen worden, die jedochnur bei ”relativ wenigen” Bindungen eine gute Approximationliefern.Nichtparametrisch@LS-Kneip 2–44

Page 96: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel: X – Ausgaben für Milchprodukte

Frage: Beeinflussung durch Werbekampagnien

Studie eines Marktforschungsinstituts: c = 4

Werbespots ausgestrahlt durch verschiedene lokale TV-Stationen.4 Stichproben von 30 zufällig ausgewählten Haushalten, die je-weils genau einen der ausgestrahlten Werbespots empfangen konn-ten (AD1, AD2, AD3, AD4)

Problem: Unterschiede zwischen AD1, AD2, AD3, AD4?

Daten:

Nr. AD1 AD2 AD3 AD4

1 20.02 25.89 15.01 24.45

2 25.07 47.45 24.12 27.99

3 38.25 54.13 29.73 45.16

4 48.62 70.97 33.78 53.79

5 54.88 78.20 44.75 63.71

6 60.18 83.72 54.48 89.31

7 36.38 19.89 23.39 32.77

8 45.73 25.11 30.70 55.80

9 59.29 45.55 38.13 52.71

10 66.70 50.40 53.93 65.27

11 75.54 63.68 55.80 84.29

12 78.78 74.03 76.87 100.37

13 26.63 9.21 3.57 14.50

14 28.36 4.64 24.77 29.37

15 50.33 33.11 24.88 31.73

Nr. AD1 AD2 AD3 AD4

16 57.89 32.18 33.00 39.91

17 75.75 41.00 37.64 54.46

18 81.68 48.74 53.43 68.43

19 15.67 27.61 8.62 26.41

20 21.59 39.18 23.65 48.24

21 24.99 55.17 28.67 64.27

22 34.35 69.29 34.82 82.17

23 53.94 71.61 43.40 100.17

24 52.39 91.73 61.85 101.24

25 32.34 22.18 22.95 24.40

26 30.60 32.01 34.73 34.46

27 45.78 45.13 52.44 47.61

28 53.33 55.07 63.37 49.01

29 54.66 59.30 75.58 67.59

30 70.01 68.90 79.11 81.53

Man erhält (c = 4, ni = 30, N = 120)

R1 = 167530 , R2 = 1781.5

30 , R3 = 1652.530 , R4 = 2251

30 ,

R = 60.5

Nichtparametrisch@LS-Kneip 2–45

Page 97: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

• Für c = 2 ist der Kruskal-Wallis Test äquivalent zum Wilcoxon-Rangsummentest.

• Parametrische Alternative (bei Annahme einer Normalver-teilung): F-Test

F =

c∑i=1

ni(Xi· − X··)2/(c− 1)

c∑i=1

ni∑j=1

(Xij − Xi·)2/(N − c)

Unter H0: F ∼ Fc−1,N−c

• Bei Annahme einer Normalverteilung ist die asymptotischerelative Effizienz des Kruskall-Wallis Tests gegenüber demF-Test gleich 3/π ≈ 0.955. Sie fällt nicht unter 0.864 und istfür manche Alternativen größer als 1.

Nichtparametrisch@LS-Kneip 2–46

Page 98: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.9 Vergleich mehrerer verbundener Stichpro-ben

• Daten: Beobachtungen Xij , j = 1, . . . , n, in Abhängigkeitvon i = 1, . . . , c verschiedenen Stufen eines Faktors („Treat-ment“).

• Im Unterschied zu unabhängigen Stichproben hängen die Be-obachtungen Xij jedoch noch von der jeweiligen Stufe j einesweiteren Faktors („Block“) ab, d.h. für gegebenes i = 1, . . . , c

besitzen die Beobachtungen Xi1, Xi2 . . . , Xin jeweils unter-schiedliche Verteilungen (bzw. sind nicht voneinander unab-hängig).

• Parametrische Statistik ⇒ Zweifaktorielle VarianzanalyseModell: Xij = µ+ αi + βj + ϵij

• Nichtparametrische Verfahren:

– Zu jeder Beobachtung gehört eine Verteilung Fij ; dieseVerteilungen können je nach Stufe von Treatment i =

1, . . . , c und Block j = 1, . . . , n unterschiedlich sein.

• Allgemeine Formulierung des Testproblems (kein Effekt desTreatments):

H0 : Für alle j = 1, . . . , n gilt F1j = F2j = · · · = Fcj

gegen

H1 : Verneinung von H0

Nichtparametrisch@LS-Kneip 2–47

Page 99: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Beispiel: Die nachfolgende Tabelle enthält die vierteljährlichenUmsätze (in 100000 Euro) von drei Filialen einer Kaufhausketteim jahr 2003.

Filiale A Filiale B Filiale C

1. Quartal 13,8 11,7 10,3

2. Quartal 9,8 10,4 9,3

3. Quartal 9,1 9,6 9,4

4. Quartal 15,8 14,2 14,9

Es soll nun die Hypothese getestet werden, dass es keine signi-fikanten Unterschiede zwischen den Umsätzen der drei Filialengibt.

Ränge Rij:

Filiale A Filiale B Filiale C

1. Quartal 3 2 1

2. Quartal 2 3 1

3. Quartal 1 3 2

4. Quartal 3 1 2

Ri 9 9 6

Ri 2.25 2.25 1.5

Nichtparametrisch@LS-Kneip 2–48

Page 100: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Test von Friedman:

• Innerhalb eines jeden Blocks werden die c Beobachtungender Größe nach geordnet und ihnen die Ränge 1, . . . , c zuge-wiesen.

Block j: Beobachtungen X1j , X2j , . . . , Xcj

⇒ Ränge R1j , R2j , . . . , Rcj

(keine Bindungen: Rij ist eine Zahl zwischen 1 und c)

• Berechnung der Rangsummen und der DurchschnittsrängeRi =

∑nj=1Rij Ri =

Ri

n

• Es gilt R = 1c

∑ci=1 Ri =

1nc

∑ci=1

∑nj=1Rij =

c+12

• Unter H0 sollte approximativ (bis auf Zufallsschwankungen)R1 ≈ · · · ≈ Rc ≈ R gelten.

• Unter H0 : E(Rij) = R, V ar(Rij) =c2−112 .

Teststatistik des Friedman-Tests:

Fc =12n

c(c+ 1)

c∑i=1

(Ri − R)2 =12

nc(c+ 1)

c∑i=1

R2i − 3n(c+ 1)

• Unter H0 ist die Teststatistik Fc verteilungsfrei. Die kriti-schen Werte lassen sich durch Auszählen berechnen und sindfür kleine Werte von c, n tabelliert.

• Asymptotische Approximation: UnterH0 (ni genügend groß),

Fc ∼ χ2c−1

⇒ Ablehnung von H0, falls Fc > χ2c−1;1−α

(bzw. p-Wert genügend klein)

Nichtparametrisch@LS-Kneip 2–49

Page 101: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.10 Mathematisch statistischer Anhang

2.10.1 Parameterschätzung

Ausgangspunkt der Punktschätzung sind n Stichprobenziehun-gen oder Zufallsexperimente, die durch die ZufallsvariablenX1, . . . , Xn

repräsentiert werden.X1, . . . , Xn werden auch als Stichprobenvariablen bezeichnet.

Im Folgenden werden wir von einfachen Zufallsstichproben(bzw. n unabhängigen Wiederholungen eines Zufallsexperiments)ausgehen.

• X1, . . . , Xn Folge von Zufallsvariablen, die jeweils eine ein-zelne Ziehung (Wiederholung) beschreiben

• Alle Xi haben die gleiche Verteilung wie X und X1, . . . , Xn

sind voneinander unabhängig

X1, . . . , Xn - unabhängig und identisch verteilte Zufallsvaria-

blen

Realisierungen (tatsächlich beobachtete Werte):

x1, . . . , xn

Die Aufgabe des Statistikers ist nun, aus den Daten, d.h. denRealisierungen x1, . . . , xn, den Wert des interessierenden Para-meters zu schätzen.

Nichtparametrisch@LS-Kneip 2–50

Page 102: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Hierzu bedient er sich einer Schätzfunktion, d.h. einer Regel,die angibt, wie aus den Stichprobenvariablen die jeweiligen Schät-zungen zu berechnen sind.

Schätzung des Mittelwerts µ

• Schätzfunktion (Zufallsvariable)

X =1

n

n∑i=1

Xi

• Schätzwert (aus den Daten)

x =1

n

n∑i=1

xi

x ist ein numerischer Wert (z.B. x = 12)

Schätzung der Varianz σ2

• Schätzfunktion (Zufallsvariable)

S2 =1

n

n∑i=1

(Xi − X)2

• Schätzwert (aus den Daten)

s2 =1

n

n∑i=1

(xi − x)2

s2 ist ein numerischer Wert (z.B. s2 = 3.1)

Nichtparametrisch@LS-Kneip 2–51

Page 103: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Allgemein: Sei θ ein beliebiger Parameter (z.B. Mittelwert, Va-rianz, Korrelation, etc.).

Eine Punktschätzung von θ ist eine Funktion der Realisierun-gen x1, . . . , xn der Form

θ = g(x1, . . . , xn)

Jedesmal, wenn die n Stichprobenziehungen erneut durchgeführtwerden, resultiert ein anderer Schätzwert. Der Zufallscharakterdes Verfahrens wird in der Darstellung der Schätzfunktion durch

θ = g(X1, . . . , Xn)

ausgedrückt. θ ist als Funktion von Zufallsvariablen selbst eineZufallsvariable.

Eine Schätzfunktion (oder „Schätzstatistik“ oder„Schätzer“) für einen Paramter θ ist eine Funktion

θ = g(X1, . . . , Xn)

Der aus den Realisationen resultierende numerische Wert

θ = g(x1, . . . , xn)

ist der zugehörige Schätzwert.

Nichtparametrisch@LS-Kneip 2–52

Page 104: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.10.2 Eigenschaften von Schätzstatistiken

Es gibt i.Allg. viele verschiedene Möglichkeiten, einen Parameterθ zu schätzen. In diesem Abschnitt werden Kriterien entwickelt,die es erlauben, die Güte eines Schätzverfahrens zu beurteilen.

ErwartungstreueMan erwartet von einer Schätzstatistik, dass sie tendenziell denrichtigen Wert liefert, d.h. weder systematisch unter- noch über-schätzt. Diese Eigenschaft wird als Erwartungstreue bezeich-net.

Erwartungstreue und Verzerrung (Bias)Eine Schätzstatistik θ = g(X1, . . . , Xn) heißt erwartungs-treu für θ, falls

E(θ) = θ

Sie heißt asymptotisch erwartungstreu für θ, falls

E(θ) → θ für n→ ∞

Der Bias ist bestimmt durch

Bias(θ) = E(θ)− θ

Nichtparametrisch@LS-Kneip 2–53

Page 105: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

• Allgemein: X ist ein erwartungstreuer Schätzer von µ =

E(X)

E(X) =1

n

n∑i=1

E(Xi) = µ

• S2 = 1n

∑ni=1(Xi − X)2 ist kein erwartungstreuer Schätzer

von σ2. Es gilt

E(S2) = E(1

n

n∑i=1

(Xi − X)2) =n− 1

nσ2

⇒ Bias(S2) = E(S2)− σ2 = − 1

nσ2

S2 ist jedoch asymptotisch erwartungstreu, da der Bias fürwachsendes n gegen Null konvergiert.

• Die Stichprobenvarianz

S2 =1

n− 1

n∑i=1

(Xi − X)2

ist dagegen ein erwartungstreuer Schätzer von σ2, da

E(S2) = E(n

n− 1S2) = σ2

Nichtparametrisch@LS-Kneip 2–54

Page 106: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Varianz und mittlerer quadratischer Fehler

Zur Beurteilung von Schätzverfahren ist neben der Grundten-denz, d.h. dem Wert von E(θ), natürlich auch die Streuung derresultierenden Schätzwerte von Bedeutung. Für erwartungstreueSchätzstatistiken lässt sich die Genauigkeit des Verfahrens voll-ständig an der Varianz festmachen. Statistische Programmpaketeliefern dann i.Allg. zusätzlich zum Schätzwert den sogenanntenStandardfehler, d.h. die Wurzel aus der Varianz.

Der Standardfehler einer erwartungstreuen Schätzstatistikist gegeben durch

σθ =

√V ar(θ) =

√V ar(g(X1, . . . , Xn)

Standardfehler von X:√

Var(X) = σ/√n

Vergleicht man zwei erwartungstreue Schätzer θ1 und θ2, so istθ1 genauer „wirksamer“ als θ2, falls

V ar(θ1) ≤ V ar(θ2)

Allgemeines Kriterium zum Vergleich von Schätzfunktionen: Er-wartete mittlere quadratische Abweichung

Nichtparametrisch@LS-Kneip 2–55

Page 107: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Analogie: Schießen auf eine ZielscheibeParameter θ ⇔ Ziel; Schätzfunktion ⇔ Schütze;Schätzwert ⇔ Das Ergebnis eines einzelnen Schusses

Schütze (Schätzer) 1: „erwartungstreu“, kleine Streuung:

Ziel

Schütze (Schätzer) 2: verzerrt, kleine Streuung:

Ziel

Schütze (Schätzer) 3: „erwartungstreu“, große Streuung:

Ziel

Nichtparametrisch@LS-Kneip 2–56

Page 108: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Erwartete mittlere quadratische Abweichung (MSE)

MSE(θ) = E((θ − θ)2

)Vereinfachte Formel:

MSE(θ) = Bias(θ)2 + V ar(θ)

Anmerkung: „MSE“ steht für „Mean Squared Error“

Der MSE liefert ein allgemeines Maß zur Beurteilung der Schätz-genauigkeit und erlaubt einen sinnvollen Vergleich von Schätzern(unabhängig ob erwartungstreu oder verzerrt).

Wirksamkeit von SchätzstatistikenVon zwei Schätzstatistiken θ1 und θ2 heißt θ1 MSE-wirksamer (oder „effizienter“), wenn

MSE(θ1) ≤MSE(θ2)

für alle möglichen Werte des Parameters θ.

Folgerung: Sind θ1 und θ2 erwartungstreu, so ist θ1 wirksamer(oder effizienter) als θ2, falls

V ar(θ1) ≤ V ar(θ2)

Nichtparametrisch@LS-Kneip 2–57

Page 109: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Wenn X ∼ N(µ, σ2), so gilt für die beiden Schätzer S2 und S2

von σ2

• S2 ist erwartungstreu und V ar(S2) = 2σ4

n−1

• Bias(S2) = − 1nσ

2,

aber V ar(S2) = (n−1)2

n22σ4

n−1 < V ar(S2)

• S2 ist MSE-wirksamer als S2, für alle Werte von σ2 und n

gilt

MSE(S2) =2σ4

n− 1(1− 3

2n+

1

2n2) <

2σ4

n− 1=MSE(S2)

Erwartungstreue erleichtert sowohl den Umgang mit Schätzfunk-tionen als auch ihre Interpretation. Obwohl S2 (geringfügig) wirk-samer ist als S2, wird in der Praxis daher i.Allg. S2 als Schätzervon σ2 verwendet.

Anders ist die Situation bei vielen komplexen Schätzproblemen,wie sie in der modernen Statistik häufig vorkommen. In solchenFällen sind erwartungstreue Schätzer oft sehr viel weniger wirk-sam als leicht verzerrte, die nur asymptotisch erwartungstreusind. Manchmal ist es auch gar nicht möglich, Schätzer zu de-finieren, die für einen festen Stichprobenumfang n erwartungs-treu sind. Die Wirksamkeit steht dann bei der Beurteilung vonSchätzfunktionen im Vordergrund.

Nichtparametrisch@LS-Kneip 2–58

Page 110: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.10.3 Konsistenz

Eine wichtiger Punkt bei der Beurteilung von Schätzfunktionen ist

weiterhin ihr Verhalten bei wachsendem n. Solche asymptotischenÜberlegungen spielen in der modernen Statistik eine zentrale Rolle.

Da mit wachsendem Stichprobenumfang immer mehr Informa-tion über den zu schätzenden Parameter zur Verfügung steht,sollte jeder sinnvolle Schätzer konsistent sein, d.h. die Verteilungvon θ ≡ θn sollte sich für n → ∞ immer mehr um den wahrenWert θ konzentrieren. Grundlage der mathematischen Formali-sierung sind hierbei allgemeine Konzepte der Konvergenz vonZufallsvariablen.

Konvergenz in Wahrscheinlichkeit:Seien X1, X2, . . . und X Zufallsvariablen auf einem Wahr-scheinlichkeitsraum (Ω,A,P). Xn konvergiert in Wahr-scheinlichkeit gegen X, wenn für jedes ϵ > 0

limn→∞

P [|Xn −X| < ϵ] = 1

gilt. Man schreibt auch Xn →P X

Schwache Konsistenz:Eine Schätzstatistik θ heißt „schwach konsistent“ , fallsθn →P θ

Nichtparametrisch@LS-Kneip 2–59

Page 111: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Konvergenz im quadratischen Mittel:Seien X1, X2, . . . und X Zufallsvariablen auf einem Wahr-scheinlichkeitsraum (Ω,A,P). Xn konvergiert im quadra-tischen Mittel gegen X, falls

limn→∞

E(|Xn −X|2

)= 0

Man schreibt dann Xn →MSE X

Konsistenz im quadratischen Mittel:θ heißt „konsistent im quadratischen Mittel“ , fallsθn →MSE θ.

Starke Konvergenz (Konvergenz mit Wahrscheinlichkeit 1):Seien X1, X2, . . . und X Zufallsvariablen auf einem Wahr-scheinlichkeitsraum (Ω,A,P). Xn konvergiert mit Wahr-scheinlichkeit 1 (oder ”stark”, ”fast sicher”) gegen X, wenn

P[lim

n→∞Xn = X

]= 1

Man schreibt dann Xn →a.s. X

Starke Konsistenz (Konsistenz mit Wahrscheinlichkeit 1):Eine Schätzstatistik θ heißt „stark konsistent“ , falls θn →a.s.

θ

• Xn →MSE X impliziert Xn →P X

• Xn →a.s. X impliziert Xn →P X

Nichtparametrisch@LS-Kneip 2–60

Page 112: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Anwendung: Gesetz der großen ZahlenEs gilt E(X) = µ und V ar(X) = σ2

n

⇒MSE(X) = V ar(X) =σ2

n→n→∞ 0

⇒ X →P µ für n→ ∞

Beispiel: QualitätskontrolleEine Maschine soll bestimmte Werkstücke mit einer vorgegebe-nen Solllänge (18, 3 mm) herstellen. Gewisse zufällige Schwan-kungen sind im Produktionsprozess unvermeidlich, und aus Er-fahrung weiß man, dass diese Schwankungen normalverteilt mitStandardabweichung σ = 0, 18 sind.

Es ist bekannt, dass es aus technischen Gründen möglich ist,dass sich die Maschine im Laufe der Zeit dejustieren kann. Manist sich daher nicht sicher, wie lang die produzierten Werkstückeim Mittel wirklich sind. Für die Zufallsvariable X =„Länge einesWerkstücks“ gilt also

X ∼ N(µ, (0, 18)2)

Um Informationen über den wahren Wert von µ zu gewinnen,wird eine Zufallsstichprobe von n Werkstücken vermessen. EineSchätzung von µ erfolgt über den empirischen Mittelwert derresultierenden Beobachtungen, d.h. man benutzt den SchätzerX.

Allgemein gilt X ∼ N(µ, σ2

n ). Da im gegebenen Fall σ = 0, 18

gilt, erhält man

n = 9 : Standardfehler = 0, 06, MSE(X) = 0, 0036

n = 144 : Standardfehler = 0, 015, MSE(X) = 0, 000225

Nichtparametrisch@LS-Kneip 2–61

Page 113: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Da X ∼ N(µ, σ2

n ), erlaubt die Kenntnis des Standardfehlers zu-dem die Berechnung von zentralen Schwankungsintervallen.

P [µ− z1−α/2σ√n≤ X ≤ µ+ z1−α/2

σ√n] = 1− α

Für α = 0, 05 gilt z0,975 = 1, 96 und

n = 9 : P [µ− 0, 1176 ≤ X ≤ µ+ 0, 1176] = 0, 95

n = 144 : P [µ− 0, 0294 ≤ X ≤ µ+ 0, 0294] = 0, 95

0.0

0.5

1.0

1.5

n=9

0,025

µ

0,025

0.0

0.5

1.0

1.5

n=144

0,025

µ

0,025

Nichtparametrisch@LS-Kneip 2–62

Page 114: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.10.4 Konvergenz in Verteilung

Sei Z1, Z2, . . . eine Folge von Zufallsvariablen mit Verteilungs-funktionen F1, F2, . . . , und sei Z eine Zufallsvariable mit Ver-teilungsfunktion F . Zn konvergiert in Verteilung gegen Z,falls

limn→∞

Fn(t) → F (t) an jedem Stetigkeitspunkt t von F

Man schreibt dann Zn →L Z

Wichtigster Spezialfall: Der zentrale Grenzwertsatz

Satz (Ljapunov): Sei X1, X2, . . . eine Folge von unabhängigenZufallsvariablen, für die jeweils die Erwartungswerte E(Xi) = µi,E((Xi − µi)

2) = σ2i = 0 und E(|Xi − µi|3) = βi existieren. Falls

dann (∑n

i=1 βi)1/3

(∑n

i=1 σ2i )

1/2 → 0 für n→ ∞, so gilt∑ni=1(Xi − µi)

(∑n

i=1 σ2i )

1/2→L N(0, 1)

Manchmal wird die Konvergenz Zn →L N(0, 1) abgekürzt durchdie Schreibweise Zn ∼ AN(0, 1)

Nichtparametrisch@LS-Kneip 2–63

Page 115: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.10.5 Wichtige Ungleichungen

Ungleichung von Tschebyscheff:

P [|X − µ| > kσ] ≤ 1

k2für alle k > 0

⇒ P [µ− kσ ≤ X ≤ µ+ kσ] ≥ 1− 1

k2

k P [µ− kσ ≤ X ≤ µ+ kσ]

2 ≥ 1− 14 = 0, 75

3 ≥ 1− 19 ≈ 0, 89

4 ≥ 1− 116 = 0, 9375

Verallgemeinerung:

P [|X − µ| > k] ≤ E(|X − µ|r)kr

für alle k > 0, r = 1, 2, . . .

Die Cauchy-Schwarz Ungleichung:

• Für beliebige Zahlen x1, . . . , xn und y1, . . . , yn gilt

(n∑

i=1

xiyi)2 ≤ (

n∑i=1

x2i )(n∑

i=1

y2i )

• Integralversion:(∫ b

a

f(x)g(x)dx

)2

≤ (

∫ b

a

f(x)2dx)(

∫ b

a

g(x)2dx)

• Anwendung auf Zufallsvariablen:

(E(XY ))2 ≤ E(X2) · E(Y 2)

Die Hölder Ungleichung:Sei p > 1 und 1

p + 1q = 1

Nichtparametrisch@LS-Kneip 2–64

Page 116: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

• Für beliebige Zahlen xi, yi ≥ 0, i = 1, . . . , n giltn∑

i=1

xiyi ≤ (n∑

i=1

xpi )1/p(

n∑i=1

yqi )1/q

• Integralversion (f(x) ≥ 0, g(x) ≥ 0):∫ b

a

f(x)g(x)dx ≤ (

∫ b

a

f(x)pdx)1/p(

∫ b

a

g(x)qdx)1/q

• Anwendung auf Zufallsvariablen:

E(|X| · |Y |) ≤ (E(|X|p))1/p · (E(|Y |q))1/q

Jensens Ungleichung:Eine Funktion f heißt konvex, falls für alle 0 < α < 1

f(αx+ (1− α)y) ≤ αf(x) + (1− α)f(y)

Sei X eine Zufallsvariable mit E(X) = µ und sei f eine konvexeFunktion. Dann gilt

E(f(X)) ≥ f(E(X))

Nichtparametrisch@LS-Kneip 2–65

Page 117: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

2.10.6 Stochastische Ordnungssymbole (Konvergenzra-ten)

In der Mathematik werden häufig die Symbole O(·) und o(·) be-nutzt, um die Schnelligkeit der Konvergenz einer Folge zu quan-tifizieren.

Seien z1, z2, z3, . . . und r1, r2, r3, . . . (deterministische) Folgenvon Zahlen.

• Man schreibt zn = O(1), falls die Folge beschränkt ist, d.h.es existiert ein M <∞ so dass zn ≤M für alle n ∈ IN.

• Man schreibt zn = o(1), falls zn → 0.

• zn = O(rn) bedeutet, dass |zn|/|rn| = O(1).

• zn = o(rn) bedeutet, dass |zn|/|rn| → 0.

Beispiel:∑n

i=1 i = O(n2),∑n

i=1 i = o(n3)

Entsprechend werden in der Stochastik die Symbole OP (·) undoP (·) benutzt, um die Schnelligkeit der Konvergenz einer Fol-ge von Zufallsvariablen zu quantifizieren. Sei Z1, Z2, Z3, . . . eineFolge von Zufallsvariablen. r1, r2, . . . sei entweder eine determi-nistische Folge von Zahlen oder ebenfalls eine Folge von Zufalls-variablen.

• Man schreibt Zn = Op(1), falls die Folge Zn stochastischbeschränkt ist, d.h. für jedes ϵ > 0 existiert ein Mϵ <∞ undein nϵ ∈ IN, so dass

P (|Zn| > Mϵ) ≤ ϵ für alle n ≥ nϵ

• Man schreibt Zn = oP (1), falls die Folge schwach gegen Nullkonvergiert, d.h. Zn →P 0.

• Zn = OP (rn) bedeutet, dass |Zn|/|rn| = OP (1).

Nichtparametrisch@LS-Kneip 2–66

Page 118: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

• Zn = oP (rn) bedeutet, dass |Zn|/|rn| →P 0.

Beispiel: X − µ = OP (n−1/2)

2.10.7 Die Taylorsche Formel

Taylorentwicklung spielen eine zentrale Rolle in der asymptoti-schen Statistik.

Man betrache eine k-mal stetig differenzierbare Funktion f (k >0). Das Ziel einer Taylorentwicklung ist die Bestimmung einesPolynoms (höchstens) k-ten Grades, dessen Ableitungen in ei-nem gegebenen Punkt x0 mit denen von f übereinstimmen. Einderartiges Polynom ergibt in der Nähe von x0 eine gute Appro-ximation an die Funktion f .

Satz: Taylorsche Formel (mit Restglied)Sei x1 > x0. Ist f k-mal stetig differenzierbar auf [x0, x1] und(k + 1)-mal differenzierbar auf ]x0, x1[, so gibt es ein ζ ∈]x0, x1[,so dass

f(x1) = f(x0)+k∑

j=1

f (j)(x0)·(x1 − x0)

j

j!+f (k+1)(ζ)· (x1 − x0)

k+1

(k + 1)!

Sinngemäß dasselbe gilt, falls x1 < x0.

Satz: Taylorsche Formel (qualitative Fassung)Ist f k-mal stetig differenzierbar auf [x0, x1], so gibt es eine inx0 stetige Funktion r mit r(x0) = 0, so dass

f(x1) = f(x0) +k∑

r=1

f (r)(x0) ·(x1 − x0)

r

r!+ r(x1) · (x1 − x0)

k︸ ︷︷ ︸=o((x1−x0)k)

Nichtparametrisch@LS-Kneip 2–67

Page 119: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

Die wichtigsten Spezialfälle sind Taylorentwicklungen erster undzweiter Ordnung:

• Taylorentwicklung erster Ordnung:

f(x1) = f(x0) + f ′(x0) · (x1 − x0) + o(|x1 − x0|)

• Taylorentwicklung zweiter Ordnung:

f(x1) = f(x0)+f′(x0)·(x1−x0)+

1

2f ′′(x0)·(x1−x0)2 +o(|x1−x0|2)

Beispiel: Man betrachte die Funktion ln(x) am Punkt x0 = 1.Die erste bzw. zweite Ableitung von ln(x) ist 1

x bzw. −1x2

⇒ Taylorentwicklung erster Ordnung: ln(x1) = x1 − 1

⇒ Taylorentwicklung zweiter Ordnung: ln(x1) = (x1 − 1) −(x1−1)2

2

Genauigkeit der Approximationen:

x1 ln(x1) x1 − 1 (x1 − 1)− (x1−1)2

2

1.01 0.00995 0.01 0.00995

1.05 0.04879 0.05 0.04875

1.1 0.09531 0.1 0.09500

1.2 0.18232 0.2 0.18000

1.4 0.33647 0.4 0.32000

1.6 0.47000 0.6 0.42000

2.0 0.69315 1.0 0.50000

2.10.8 Integration

Substitution: Die Substitutionsregel ist ein wichtiges Hilfsmit-tel um Integrale zu berechnen. Sie ist das Gegenstück zur Ketten-regel in der Differentialrechnung. Anschaulich ausgedrückt wird

Nichtparametrisch@LS-Kneip 2–68

Page 120: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

durch die Substitution ein Teil des Integranden ersetzt. Das Zielliegt dabei darin, das Integral zu vereinfachen und so letztendlichauf ein elementares Integral zurückzuführen. Es ist dabei jedochzu beachten, immer auch das Differential und evt. auch die Inte-grationsgrenzen mitzusubstituieren.

Satz: Sei g : [a, b] → IR eine stetig differenzierbare Funktion. Füreine stetige Funktion f : IR → IR gilt dann∫ b

a

f(g(x)) · g′(x)dx =

∫ g(b)

g(a)

f(u)du

Vorgehensweise: Man substituiert zunächst g(x) := u und g′(x)dx :=

du. Sodann integriert man f bzgl. u über [g(a), g(b)].

Satz: Sei g : A→ B eine differenzierbare, bijektive Funktion voneinem Intervall A auf ein Intervall B. Für eine stetige Funktionf : B → IR und [a, b] ⊂ B gilt dann∫ g−1(b)

g−1(a)

f(g(x)) · g′(x)dx =

∫ b

a

f(u)du

Beispiele:∫ 2

0

xex2

dx =1

2

∫ 2

0

ex2

2x dx =1

2

∫ 4

0

eudu =1

2(e4 − 1)

∫ 1

0

xe1−x2

dx = −1

2

∫ 1

0

e1−x2

· (−2x) dx = −1

2

∫ 0

1

eudu =1

2

∫ 1

0

eudu

=1

2(e1 − 1)

Partielle Integration

Satz: Sind die Funktionen f, g auf dem Intervall [a, b] differen-

Nichtparametrisch@LS-Kneip 2–69

Page 121: Nichtparametrische Statistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekann-te

zierbar, so gilt∫ b

a

f(x)g′(x)dx = f(x)g(x)|ba −∫ b

a

f ′(x)g(x)dx

Beispiel:∫ 2

1

x2ln(x)dx =1

3x3ln(x)|21 −

1

3

∫ 2

1

x2dx = 4.77

Nichtparametrisch@LS-Kneip 2–70