183
Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren zum Testen von Hypothesen 6. Hauptkomponentenanalyse 7. Faktoranalyse 8. Konfirmatorische Faktoranalyse 9. Kontingenztafeln und Korrespondenzanalyse 10. Diskriminanzanalyse Literatur: Härdle, W. und Simar, L. (2003). Applied Multivariate Statistical Analysis. Springer Verlag Jobson, J.D. (1991). Applied Multivariate Data Analysis. Springer Verlag (zwei Bände) Multivariate Statistik@LS-Kneip 0–1

Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

  • Upload
    lynhan

  • View
    241

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Multivariate Statistik

Inhalt:

1. Grundlagen

2. Multivariate Verteilungen

3. Regressionsanalyse

4. Varianzanalyse

5. Allgemeine Verfahren zum Testen von Hypothesen

6. Hauptkomponentenanalyse

7. Faktoranalyse

8. Konfirmatorische Faktoranalyse

9. Kontingenztafeln und Korrespondenzanalyse

10. Diskriminanzanalyse

Literatur:

Härdle, W. und Simar, L. (2003). Applied Multivariate StatisticalAnalysis. Springer Verlag

Jobson, J.D. (1991). Applied Multivariate Data Analysis. SpringerVerlag (zwei Bände)

Multivariate Statistik@LS-Kneip 0–1

Page 2: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Einführung

Multivariate Datenanalyse

• Daten in der Form einer Datenmatrix

• Statistische Verfahren zur

– Explorativen Datenanalyse (”DataMining”)

– Modellierung und statistische Inferenz (konfirmatorischeDatenanalyse)

Ziele:

• Beschreibung, Zusammenfassung und Darstellung der in ei-nem Datensatz enthaltenen Informationen

• Entdeckung von (verborgenen) Strukturen in den Daten

• Identifikation von untypischen Beobachtungen (Ausreißern)

• Aufbau eines statistischen Modells, das die entdeckten Struk-turen erklären kann

• Überprüfung eines Modells durch Kontrolle von zufallsbe-dingten Ungenauigkeiten

• Überprüfung von Hypothesen

• Prognose, Klassifizierung

• Varianzanalyse: Verfahren zur statistischen Inferenz

Multivariate Statistik@LS-Kneip 0–2

Page 3: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel: Eine Firma betreibt ihre Produkte in verschiedenenLändern. Von Interesse für die Firmenleitung hinsichtlich gewis-ser Marketing Strategien ist zu erfahren, ob sich bestimmte Pro-dukte vergleichbaren Typs in manchen Ländern besser umsetzenlassen als in anderen.

Daten für zufällig herausgegriffene Monate:

Produkt I Produkt II

A 42 45 42 41 38 39 37 41

Land B 36 36 35 35 39 40 36 36

C 33 32 32 33 36 34 36 33

Multivariate Statistik@LS-Kneip 0–3

Page 4: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 0.1 (Car Data)Im „car data“–Datensatz (Chambers et al.; 1983) wurden 13 ver-schiedene Variablen von 74 unterschiedlichen Autotypen erhoben.Die Abkürzungen im Datensatz sind wie folgt:

X1: P Price

X2: M Mileage (in miles per gallone)

X3: R78 Repair record 1978 (rated on a 5-point scale;5 best, 1 worst)

X4: R77 Repair record 1977 (scale as before)

X5: H Headroom (in inches)

X6: R Rear seat clearance (distance from front seatback to rear seat, in inches)

X7: Tr Trunk space (in cubic feet)

X8: W Weight (in pound)

X9: L Length (in inches)

X10: T Turning diameter (clearance required to makea U-turn, in feet)

X11: D Displacement (in cubic inches)

X12: G Gear ratio for high gear

X13: C Company headquarter (1 for U.S., 2 for Ja-pan, 3 for Europe)

Multivariate Statistik@LS-Kneip 0–4

Page 5: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Model P M R78 R77 H R Tr

1 AMC-Concord 4099.00 22.00 3 2 2.50 27.50 11.00

2 AMC-Pacer 4749.00 17.00 3 1 3.00 25.50 11.00

3 AMC-Spirit 3799.00 22.00 . . 3.00 18.50 12.00

4 Audi-5000 9690.00 17.00 5 2 3.00 27.00 15.00

5 Audi-Fox 6295.00 23.00 3 3 2.50 28.00 11.00

6 BMW-320i 9735.00 25.00 4 4 2.50 26.00 12.00

7 Buick-Century 4816.00 20.00 3 3 4.50 29.00 16.00

8 Buick-Electra 7827.00 15.00 4 4 4.00 31.50 20.00

9 Buick-Le-Sabre 5788.00 18.00 3 4 4.00 30.50 21.00

10 Buick-Opel 4453.00 26.00 . . 3.00 24.00 10.00

11 Buick-Regal 5189.00 20.00 3 3 2.00 28.50 16.00

12 Buick-Riviera 10372.00 16.00 3 4 3.50 30.00 17.00

13 Buick-Skylark 4082.00 19.00 3 3 3.50 27.00 13.00

14 Cad.-Deville 11385.00 14.00 3 3 4.00 31.50 20.00

15 Cad.-Eldorado 14500.00 14.00 2 2 3.50 30.00 16.00

16 Cad.-Seville 15906.00 21.00 3 3 3.00 30.00 13.00

17 Chev.-Chevette 3299.00 29.00 3 3 2.50 26.00 9.00

18 Chev.-Impala 5705.00 16.00 4 4 4.00 29.50 20.00

19 Chev.-Malibu 4504.00 22.00 3 3 3.50 28.50 17.00

20 Chev.-Monte-C. 5104.00 22.00 2 3 2.00 28.50 16.00

21 Chev.-Monza 3667.00 24.00 2 2 2.00 25.00 7.00

22 Chev.-Nova 3955.00 19.00 3 3 3.50 27.00 13.00

23 Datsun-200−SX 6229.00 23.00 4 3 1.50 21.00 6.00

24 Datsun-210 4589.00 35.00 5 5 2.00 23.50 8.00

25 Datsun-510 5079.00 24.00 4 4 2.50 22.00 8.00

26 Datsun-810 8129.00 21.00 4 4 2.50 27.00 8.00

27 Dodge-Colt 3984.00 30.00 5 4 2.00 24.00 8.00

28 Dodge-Diplomat 5010.00 18.00 2 2 4.00 29.00 17.00

29 Dodge-Magnum 5886.00 16.00 2 2 3.50 26.00 16.00

30 Dodge-St.-Regis 6342.00 17.00 2 2 4.50 28.00 21.00

Multivariate Statistik@LS-Kneip 0–5

Page 6: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 0.2 (U.S. Companies Data)Im „U.S. Companies Data“– Datensatz wurden 6 verschiedeneVariablen für 79 amerikanische Unternehmen aus den Top 500Unternehmen erhoben. Die verwendeten Abkürzungen sind diefolgenden:

X1: A Assets

X2: S Sales

X3: MV Market Value

X4: P Profits

X5: CF Cash Flow

X6: E Employees

Multivariate Statistik@LS-Kneip 0–6

Page 7: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Company A S MV P CF E Sector

1 19788.00 9084.00 10636.00 1092.90 2576.80 79.40 Communic.

2 5074.00 2557.00 1892.00 239.90 578.30 21.90 Communic.

3 13621.00 4848.00 4572.00 485.00 898.90 23.40 Energy

4 1117.00 1038.00 478.00 59.70 91.70 3.80 Energy

5 1633.00 701.00 679.00 74.30 135.90 2.80 Energy

6 5651.00 1254.00 2002.00 310.70 407.90 6.20 Energy

7 5835.00 4053.00 1601.00 −93.80 173.80 10.80 Energy

8 3494.00 1653.00 1442.00 160.90 320.30 6.40 Energy

9 1654.00 451.00 779.00 84.80 130.40 1.60 Energy

10 1679.00 1354.00 687.00 93.80 154.60 4.60 Energy

11 1257.00 355.00 181.00 167.50 304.00 0.60 Energy

12 1743.00 597.00 717.00 121.60 172.40 3.50 Energy

13 1440.00 1617.00 639.00 81.70 126.40 3.50 Energy

14 14045.00 15636.00 2754.00 418.00 1462.00 27.30 Energy

15 3010.00 749.00 1120.00 146.30 209.20 3.40 Energy

16 3086.00 1739.00 1507.00 202.70 335.20 4.90 Energy

17 1995.00 2662.00 341.00 34.70 100.70 2.30 Energy

18 3614.00 367.00 90.00 14.10 24.60 1.10 Finance

19 2788.00 271.00 304.00 23.50 28.90 2.10 Finance

20 327.00 542.00 959.00 54.10 72.50 2.80 Finance

21 5401.00 550.00 376.00 25.60 37.50 4.10 Finance

22 44736.00 16197.00 4653.00 −732.50 −651.90 48.50 Finance

23 401.00 176.00 1084.00 55.60 57.00 0.70 Finance

24 4789.00 453.00 367.00 40.20 51.40 3.00 Finance

25 2548.00 264.00 181.00 22.20 26.20 2.10 Finance

26 5249.00 527.00 346.00 37.80 56.20 4.10 Finance

27 3720.00 356.00 211.00 26.60 34.80 2.40 Finance

28 33406.00 3222.00 1413.00 201.70 246.70 15.80 Finance

29 12505.00 1302.00 702.00 108.40 131.40 9.00 Finance

30 8998.00 882.00 988.00 93.00 119.00 7.40 Finance

Multivariate Statistik@LS-Kneip 0–7

Page 8: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 0.3 (French Food Data)Der Datensatz beschreibt die durchschnittlichen Ausgaben für Nah-rungsmittel von verschiedenen Familientypen in Frankreich(MA=Handwerker , EM=Angestellte, CA=Manager) mit unter-schiedlich vielen Kindern (2,3,4 oder 5 Kinder). Die Daten stam-men von Lebart, Morineau and Fénelon (1982).

Brot Gemüse Früchte Fleisch Geflügel Milch Wein

1 MA2 332.00 428.00 354.00 1437.00 526.00 247.00 427.00

2 EM2 293.00 559.00 388.00 1527.00 567.00 239.00 258.00

3 CA2 372.00 767.00 562.00 1948.00 927.00 235.00 433.00

4 MA3 406.00 563.00 341.00 1507.00 544.00 324.00 407.00

5 EM3 386.00 608.00 396.00 1501.00 558.00 319.00 363.00

6 CA3 438.00 843.00 689.00 2345.00 1148.00 243.00 341.00

7 MA4 534.00 660.00 367.00 1620.00 638.00 414.00 407.00

8 EM4 460.00 699.00 484.00 1856.00 762.00 400.00 416.00

9 CA4 385.00 789.00 621.00 2366.00 1149.00 304.00 282.00

10 MA5 655.00 776.00 423.00 1848.00 759.00 495.00 486.00

11 EM5 584.00 995.00 548.00 2056.00 893.00 518.00 319.00

12 CA5 515.00 1097.00 887.00 2630.00 1167.00 561.00 284.00

x 446.7 737.8 505.0 1886.7 803.2 358.2 368.6

Var(Xi) 102.6 172.2 158.1 378.9 238.9 112.1 68.7

Multivariate Statistik@LS-Kneip 0–8

Page 9: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1 Grundlagen

1.1 Charakterisierung von eindimensionalen Ver-teilungen

Wichtige Grundbegriffe

Man betrachte eine eindimensionale Zufallsvariable X.z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem ameri-

kanischen Aktienmarkt, Körpergröße japanischer Frauen, ...

Verteilungsfunktion F von X:F (x) = P (X ≤ x) für jedes x ∈ R

• diskrete Zufallsvariable: X nimmt nur abzählbar viele Wertex1, x2, x3, . . . anP (X = xi) = fi, i = 1, 2, . . . ,

F (x) =∑

xi≤x

fi

• stetige Zufallsvariable: Es existiert eine Dichtefunktion f , sodaßF (x) =

x∫−∞

f(z)dz

Multivariate Statistik@LS-Kneip 1–1

Page 10: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Stetige Zufallsvariablen=50

00.2

0.4

His

togra

mm

n=500

00.2

0.4

His

togra

mm

n=5000

00.2

0.4

His

togra

mm

Model

00.2

0.4

Dic

hte

Multivariate Statistik@LS-Kneip 1–2

Page 11: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Wahrs heinli hkeitsdi hte:f(x) � 0; Z +1�1 f(x)dx = 1:Verteilungsfunktion:F(x) monoton wa hsendF(�1) = 0; F(+1) = 1:

Dichtefunktion

-3 -2 -1 0 1 2 3

x

0.2

0.4

0.6

0.8

1f(

x)

f(x)

bF(b)

Verteilungsfunktion

-3 -2 -1 0 1 2 3

x

00.2

0.4

0.6

0.8

1F

(x)

F(x)

b

F(b)

Multivariate Statistik@LS-Kneip 1–3

Page 12: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Wichtige Parameter einer stetigen Z.v. X

• Mittelwert (Erwartungswert)

µ = E(X) =

∫ ∞

−∞xf(x)dx

• Varianz

σ2 = V ar(X) = E((X − µ)2

)= E(X2)− µ2

• Erwartungswert einer transformierten Zufallsvariablen X →g(X)

E(g(X)) =

∫ ∞

−∞g(x)f(x)dx

Schätzer auf der Grundlage einer einfachen Zufallsstichpro-be X1, . . . , Xn

• Mittelwert: X = 1n

∑ni=1Xi

• Varianz: S2 = 1n−1

∑ni=1(Xi − X)2

Multivariate Statistik@LS-Kneip 1–4

Page 13: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.2 Die Normalverteilung N(µ, σ2)

Viele statistische Verfahren basieren auf der Annahme, daß eineZ.v. X normalverteilt ist, d.h. X ∼ N(µ, σ2)

Wahrscheinlichkeitsdichte:

f(x) = 1σ√2πe−(x−µ)2/2σ2

für −∞ < x <∞, σ > 0

• E(X) = µ, V ar(X) = σ2

Standardisierte Normalverteilung N(0, 1)

• X ∼ N(µ, σ2) ⇒ Z = X−µσ ∼ N(0, 1)

• Standardisierte Dichtefunktion und Verteilungsfunktion

ϕ(x) =1√2πe−x2/2, Φ(z) =

∫ z

−∞ϕ(x)dx

• N(0, 1) ist tabelliert und

P (X ≤ x) = P (X − µ

σ≤ x− µ

σ) = P (Z ≤ x− µ

σ)

Multivariate Statistik@LS-Kneip 1–5

Page 14: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Dichtefunktion (Normalverteilung)

-3 -2 -1 0 1 2 3 4 5 6x

0.20.4

0.60.8

11.2

f(x)

N(0,1)

N(2,1/3)

N(2,1)

N(2,2)

Dichtefunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

00.1

0.20.3

0.4

f(x)

Verteilungsfunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

00.2

50.5

0.75

1

F(x)

Multivariate Statistik@LS-Kneip 1–6

Page 15: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.3 Schätzer und ihre Verteilungen

Sei X ∼ N(µ, σ2)

Einfache Zufallsstichprobe: X1, . . . , Xn

Dann gilt:

X ∼ N(µ,σ2

n)

⇒ Konfidenzintervall zum Niveau 1 − α für µ bei bekanntenσ

µ ∈ [X ± z1−α/2σ√n]

z1−α/2 - 1−α/2-Quantil der Standardnormalverteilung; z0.975 =

1.96

√n(X − µ)

S∼ Tn−1

Tn−1 - Studentsche t-Verteilung mit n− 1 Freiheitsgraden

⇒ Konfidenzintervall für µ bei unbekannter Varianz

µ ∈ [X ± t1−α/2;n−1S√n]

Multivariate Statistik@LS-Kneip 1–7

Page 16: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

(n− 1)S2

σ2∼ χ2

n−1

χ2n−1 - χ2 Verteilung mit n− 1 Freiheitsgraden

Zentraler Grenzwertsatz

Seien X1, . . . , Xn unabhängig und identisch verteilte Zufallsva-riablen mit E(Xi) = µ und V ar(Xi) = σ2 > 0.

• Die Folge von Zufallsvariablen

Zn =

∑ni=1Xi − nµ√

nσ2=

√n

(X − µ

σ

)konvergiert mit steigendem n gegen die standardisierte Nor-malverteilung N(0, 1)

• Für genügend großes n sind die Beziehungen X ∼ N(µ, σ2

n ),√n(X−µ)

S ∼ Tn−1, (n− 1)S2

σ2 ∼ χ2n−1 approximativ erfüllt.

Multivariate Statistik@LS-Kneip 1–8

Page 17: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.4 Konstruktion von Schätzstatistiken

Es stellt sich die Frage, wie man bei einem gegebenen Schätzpro-blem vorgehen kann, um eine geeignete Schätzfunktion für einenunbekannten Parameter (z.B. Mittelwert, Varianz, Quantile) zufinden, der hier allgemein mit θ bezeichnet werden soll.

In der Statistik wurden hierzu eine ganze Reihe verschiedenerVerfahren entwickelt. In diesem Abschnitt werden dei Verfahrendiskutiert: Die Momentenmethode, die Kleinste-QuadrateMethode und der Maximum-Likelihood Ansatz.

Der Schwerpunkt liegt auf dem sehr allgemeinen Maximum-Likelihood-Prinzip, das auch in komplexen Schätzsituationenanwendbar ist. Theoretische Resultate zeigen zudem, dass dieMaximum-Likelihood-Methode i.Allg. sehr wirksame Schätzer lie-fert.

Wir setzen jeweils voraus, dass X1, . . . , Xn unabhängig und iden-tisch verteilt sind (unabhängige Wiederholungen von X).

Multivariate Statistik@LS-Kneip 1–9

Page 18: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.4.1 Die Momentenmethode

In seiner einfachsten Form ist der Ansatz der Momentenmethode,ein interessierendes Moment vonX (wie E(X), E(X2)) durch dasentsprechenden Moment der beobachteten Daten zu schätzen.Erwartungswerte werden durch arithmetische Mittel ersetzt.

Beispiele:

Schätzung von µ = E(X) durch X = 1n

∑ni=1Xi

Schätzung von µ = E(X3) durch X = 1n

∑ni=1X

3i

1.4.2 Die Kleinste-Quadrate Methode

Der Ansatz der Kleinste-Quadrate Methode besteht darin, dieaufsummierten quadratischen Abweichungen zwischen Beobach-tungswert und geschätztem Wert zu minimieren. Dieses Prinzipfindet insbesondere Anwendung in der Regressionsanalyse.

Beispiel: Zur Bestimmung der zentralen Tendenz wird µ so ge-schätzt, dass

n∑i=1

(Xi − µ)2 minimal

Daraus resultiert nach einfacher Ableitung als Schätzer das arith-metische Mittel X

Multivariate Statistik@LS-Kneip 1–10

Page 19: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.4.3 Maximum Likelihood-Schätzung

Beispiel: Eine Firma besitze einen relativ großen Lagerbestandan Glühbirnen. Um sich einen Eindruck von dem Anteil defek-ter Glühbirnen zu verschaffen, wird eine Zufallsstichprobe von 5Birnen gezogen. 3 davon sind defekt.

Statistisches Modell:

• Zufallsvariable X =

1 falls Glühbirne defekt

0 sonst

X ∼ Bernoulli(p)

p = P [X = 1] - Anteil der defekten Glühbirnen

• Einfache ZufallsstichprobeX1, . . . , X5. Die beobachteten Wer-te sindx1 = 1, x2 = 0, x3 = 1, x4 = 1, x5 = 0

Problem: Schätzung des wahren Wertes von p?

Idee der Maximum Likelihood-Schätzung: Man betrachtetalle möglichen Werte 0 ≤ p ≤ 1 und wählt dann denjenigenaus, der die beobachteten Daten am besten erklärt.

Multivariate Statistik@LS-Kneip 1–11

Page 20: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Die Wahrscheinlichkeit, genau die beobachtete Stichprobe x1, . . . , x5zu ziehen, hängt von p ab:

P [X1 = x1, X2 = x2, X3 = x3, X4 = x4, X5 = x5|p]

= P [X1 = x1] · P [X2 = x2] · P [X3 = x3]

· P [X4 = x4] · P [X5 = x5]

= p · (1− p) · p · p · (1− p)

= p3(1− p)2

⇒ Für alle p ∈ [0, 1]: Falls p der wahre Wert ist, so gilt

L(p) = P [X1 = x1, . . . , X5 = x5|p] = p3(1− p)2

L(p) wird als Likelihoodfunktion bezeichnet.

Für alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlichkeit an,dass die beobachteten Werte x1, . . . , x5 auftreten, falls der be-trachtete Wert p gleich dem wahren Wert ist. Der Ansatz derMaximum Likelihood-Schätzung besteht nun darin, denjenigenWert auszuwählen für den diese Wahrscheinlichkeit maximal ist.

• p = 0 ⇒ L(p) = 0 ⇒ beobachtete Werte unmöglich!

• p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081

• p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512

Multivariate Statistik@LS-Kneip 1–12

Page 21: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

0.0 0.2 0.4 0.6 0.8 1.0

p

0.00

0.01

0.02

0.03

0.04

L(p)

L(p) wird am Punkt p = 0.6 maximal ⇒ p = 0.6 ist die Maxi-mum Likelihood-Schätzung des unbekannten wahren Wertesvon p.

p = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1], für den dieWahrscheinlichkeit, dass gerade die beobachteten Werte x1, . . . , x5auftreten, maximal ist.

Multivariate Statistik@LS-Kneip 1–13

Page 22: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Das Maximum Likelihood-PrinzipDas obige Beispiel liefert eine Illustration des Maximum Likelihood-Prinzip zur Konstruktion einer Schätzfunktion. Allgemein lässtsich dieses Prinzip folgendermaßen darstellen:

Statistisches Modell:

• Man betrachtet eine einfache ZufallsstichprobeX1, . . . , Xn (unabhängige Wiederholungen von X). Die Ver-teilung von X hängt von einem Parameter θ ab, dessen wah-rer Wert unbekannt ist.

• beobachtete (realisierte) Werte: x1, . . . , xn

Problem: Schätze θ

�� ��1. Schritt: Berechnen der Likelihoodfunktion L(θ)

Die Likelihoodfunktion ergibt sich in Abhängigkeit von allen prin-zipiell möglichen Werten von θ. Sie quantifiziert (bei diskretenZufallsvariablen) die Wahrscheinlichkeit, dass gerade die beob-achteten Werte x1, . . . , xn auftreten, falls der wahre Wert desParameters mit dem betrachteten Wert θ übereinstimmt.

Multivariate Statistik@LS-Kneip 1–14

Page 23: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Diskrete Verteilung mit Wahrscheinlichkeitsfunktion f(x) ≡f(x|θ)

L(θ) ≡ L(x1, . . . , xn|θ) = P [X1 = x1, . . . , Xn = xn|θ]

= P [X1 = x1|θ] · P [X2 = x2|θ] · · ·P [Xn = xn|θ]

= f(x1|θ) · f(x2|θ) · · · f(xn|θ)

• Stetige Verteilung mit Dichtefunktion f(x) ≡ f(x|θ)

L(θ) ≡ L(x1, . . . , xn|θ) = f(x1|θ) · f(x2|θ) · · · f(xn|θ)

2. Schritt: Maximieren von L(θ) über alle prinzipiell möglichenWerten θ liefert die Maximum Likelihood-Schätzung θ deswahren Parameterwertes,

L(θ) = maxθL(θ)

Schätzwert: θ ⇔ arg maxθL(x1, . . . , xn|θ)

Schätzfunktion: θ ⇔ arg maxθL(X1, . . . , Xn|θ)

Multivariate Statistik@LS-Kneip 1–15

Page 24: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Illustration: Maximum Likelihood-Schätzung des Mittelwerts µeiner Normalverteilung mit bekannter Varianz σ2 = 1

n = 20 Beobachtungen; f(x|µ) = 1√2π

exp(− (x−µ)2

2

)µ = 2 ⇒ Likelihood L(2) klein:

-2 -1 0 1 2 3 4

x

0.0

0.1

0.2

0.3

0.4

f(xi| 2)

µ = 1 ⇒ Likelihood L(1) > L(2)

-2 -1 0 1 2 3 4x

0.0

0.1

0.2

0.3

0.4

f(xi| 1)

Maximale Likelihood für µ = x = −0.29 ⇒ µ = −0.29

-2 -1 0 1 2 3 4x

0.0

0.1

0.2

0.3

0.4

f(xi|-0.29)

Multivariate Statistik@LS-Kneip 1–16

Page 25: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anwendung: Maximum Likelihood-Schätzung ei-nes Anteilswertes

• X1, . . . , Xn einfache Zufallsstichprobe;X ∼ Bernoulli(p);zu schätzen: wahrer Anteilswert p

• beobachtet: s =n∑

i=1

xi mal ”1” und n− s mal ”0”

• Damit ergibt sich

L(p) = P [X1 = x1] · P [X2 = x2] · · ·P [Xn = xn]

= ps(1− p)n−s

• Maximum-Likelihood: p maximiert L(p)

• Eine Lösung des Maximierungsproblems ergibt sich durchAbleiten und Nullsetzen:

∂L(p)

∂p= sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1

⇒ 0 = sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1

⇒ p =s

n=

∑ni=1 xin

= x

• durch Berechnen der zweiten Ableitung ist leicht zu über-prüfen, dass L(p) an der Stelle p ein (eindeutig bestimmtes)Maximum annimmt.

⇒ X ist Maximum Likelihood-Schätzer des Anteilswertes

Multivariate Statistik@LS-Kneip 1–17

Page 26: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.4.4 Logarithmierte Likelihood

Vorgehen zur Bestimmung einer Maximum Likelihood-Schätzung:Ableiten von L(θ) und anschließendes Nullsetzen.Problem: Oft ”unfreundliche” Ausdrücke

Ausweg: Verwendung derLog-Likelihoodfunktion lnL(θ)

• θ maximiert L(θ) ↔ θ maximiert lnL(θ)

• Summen an Stelle von Produkten bei der Log-Likelihoodfunktion:

L(θ) = f(x1|θ) · f(x2|θ) · · · f(xn|θ)

⇒ lnL(θ) =

n∑i=1

ln f(xi|θ)

Ansatz zur Berechnung von θ:

1. Differenzieren: l(θ) = ddθ lnL(θ)

2. Nullsetzen: θ Lösung von l(θ) = 0

3. Verifikation, dass θ wirklich ein Maximum ist (zweite Ablei-tung)

Multivariate Statistik@LS-Kneip 1–18

Page 27: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anwendung: Maximum Likelihood-Schätzung desMittelwerts einer Normalverteilung

• X1, . . . , Xn einfache Zufallsstichprobe;X ∼ N(µ, σ2); σ2 bekanntzu schätzen: wahrer Mittelwert µ

• beobachtet: x1, . . . , xn

• Likelihoodfunktion:

L(µ) = f(x1|θ) . . . f(xn|θ)

=1√2πσ

exp

(− (x1 − µ)2

2σ2

). . .

1√2πσ

exp

(− (xn − µ)2

2σ2

)

• Log-Likelihoodfunktion:

lnL(µ) = n · ln 1√2πσ

+

n∑i=1

− (xi − µ)2

2σ2

• Ableitung nach µ:

l(µ) =d

dθlnL(µ) =

n∑i=1

(xi − µ)

σ2

Multivariate Statistik@LS-Kneip 1–19

Page 28: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Berechnung von µ:

0 = l(µ) =

n∑i=1

xi − µ

σ2

⇒ 0 =

n∑i=1

(xi − µ) =

n∑i=1

xi − nµ

⇒ µ =

∑ni=1 xin

= x

Anmerkung: Falls σ2 ebenfalls unbekannt ist, ist dieLog-Likelihoodfunktion

lnL(µ, σ2) = n · ln 1√2πσ

+

n∑i=1

− (xi − µ)2

2σ2

über µ und σ2 zu maximieren

• Partielle Ableitungen:l1(µ, σ

2) = ∂∂µ lnL(µ, σ2), l2(µ, σ2) = ∂

∂σ2 lnL(µ, σ2)

• Nullsetzen: µ, σ2 Lösungen des Gleichungssystemsl1(µ, σ

2) = 0, l2(µ, σ2) = 0

Durch analoge Rechnungen wie oben ergibt sich µ = x. Als Ma-ximum Likelihood-Schätzung von σ2 ergibt sich

s2 =1

n

n∑i=1

(xi − x)2

Multivariate Statistik@LS-Kneip 1–20

Page 29: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Eigenschaften von ML-Schätzern

• ML-Prinzip sehr direkt:Maximierung der (Log-)Likelihoodfunktion

• Anwendung in komplexen Situationen:numerische, rechnergestützte Lösungen unter Verwendunggeeigneter Optimierungsalgorithmen

• Vollständige asymptotische statistische Theorie

– Asymptotische Theorie ⇒ Approximation für wachsendeStichprobengröße n (n→ ∞, Schreibweise: θ ≡ θn)

• Eigenschaften von ML-Schätzern (asymptotische Theorie):Unter schwachen Regularitätsbedingungen

– Asymptotisch erwartungstreu: E(θn) → θ0 für n→ ∞

– Konsistenz: θn →p θ0 für n→ ∞

– Asymptotisch wirksamste (effiziente) Schätzer von θ0

Multivariate Statistik@LS-Kneip 1–21

Page 30: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.5 Statistische Testverfahren

Beipiel: t-Test

Einfache Zufallsstichprobe:X1, . . . , Xn unabhängig und iden-tisch N(µ, σ2) verteilt.

• Einseitiger Test

Nullhypothese H0: : µ = µ0

Alternative H1: µ > µ0

• Zweiseitiger Test

Nullhypothese H0: µ = µ0

Alternative H1: µ = µ0

Statististischer Test: Verfahren zur Entscheidung zwischenH0 und H1 auf der Grundlage der beobachteten Daten

Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig ist

Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist

Test zum Niveau α (z.B. α = 5%)

P ( Fehler 1. Art ) ≤ α

Multivariate Statistik@LS-Kneip 1–22

Page 31: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Teststatistik des t-Tests:

T =

√n(X − µ0)

S

Test zum Niveau α

• Einseitiger Test: Ablehnung von H0, falls

Tbeobachtet ≥ tn−1;1−α

• Zweiseitiger Test: Ablehnung von H0, falls

|Tbeobachtet| ≥ tn−1;1−α/2

Der p-Wert (Überschreitungswahrscheinlichkeit):

• Einseitiger Test:

p-Wert = P (Tn−1 ≥ Tbeobachtet)

• Zweiseitiger Test:

p-Wert = P (|Tn−1| ≥ |Tbeobachtet|)

Multivariate Statistik@LS-Kneip 1–23

Page 32: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beob-achteten Prüfgrößenwert oder einen in Richtung der Alternativeextremeren Wert zu erhalten.

Interpretation:

• ”Glaubwürdigkeit” von H0: H0 ist wenig glaubwürdig, fallsder p-Wert sehr klein ist

• Der in einer konkreten Anwendung berechnete p-Wert hängtvon dem beobachteten Datensatz ab. Er liefert Informa-tionen über die Resultate der zugehörigen Signifikanztestszu den verschiedenen Niveaus α :

α > p-Wert ⇒ Ablehnung von H0

α < p-Wert ⇒ Beibehaltung von H0

In der Praxis:

• Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein Test zumNiveau 5% führt zur Ablehnung von H0)

• Häufig: Test ”schwach ”signifikant, falls 0.05 > p-Wert > 0.01

(d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0;ein Test zum Niveau 1% führt dagegen zur Beibehaltung vonH0)

Multivariate Statistik@LS-Kneip 1–24

Page 33: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 1.1

Daten:X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 = 16.50, X5 = 18.90,n = 5.

⇒ X = 18.1

Testproblem: H0 : µ = 17 gegen H1 : µ = 17

Tbeobachtet =

√5(18.1− 17)

1.125= 2.187

⇒ p-Wert = P (|Tn−1| ≥ 2.187) = 0.094

Tests zu verschiedenen Niveaus α:

α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von H0

α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von H0

α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187

⇒ Ablehnung von H0

α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von H0

α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von H0

Multivariate Statistik@LS-Kneip 1–25

Page 34: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.6 Grafische Darstellung von Verteilungen

1.6.1 BoxplotGraphis he Darstellung einigerMa�zahlen der Lage und der VariationBoxplot (Box{Whisker{Plot, S ha htelzei hnung)

x0;25 � 3QAx0;25 � 1;5QA (lower fen e)x0;25x0;75x0;75+1;5QA (upper fen e)x0;75+3QA

x0;5 QAÆ?

Æ?

Multivariate Statistik@LS-Kneip 1–26

Page 35: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Fortsetzung Beispiel 0.1 (Car Data)Die Daten in der Graphik stammen aus der zweiten Spalte im„Car data“–Datensatz und beschreiben den Benzinverbrauch (mi-les per gallon) für amerikanische, japanische und europäischeAutomobilproduzenten.

U.S. Autos japanische Autos Europ. Autos

1520

2530

3540

Boxplot für Benzinverbrauch

Ben

zinv

erbr

auch

(in

mile

s pe

r G

allo

n)

Plym. Champ

VW Rabbit Diesel

Multivariate Statistik@LS-Kneip 1–27

Page 36: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.6.2 Histogramm

f(x)^

{

h{

h

{h

{

h

{h

X 0

����

������������������������������������

������������

����

����

����

�������� X

• Ausgehend von einem Punkt x0 zeichne über alle Intervalleder Form [x0 + jh, x0 + (j + 1)h) Rechtecke mit

– Breite: h

– Höhe :

Anzahl Datenpunkte in [x0 + jh, x0 + (j + 1)h)

nh

=1

n∑i=1

I (xi ∈ [x0 + jh, x0 + (j + 1)h))

n

=1

h· relative Häufigkeit fj

– Fläche :

n∑i=1

I (xi ∈ [x0 + jh, x0 + (j + 1)h))

n

• x0, h frei wählbare Parameter,h - „Binbreite“ (binwidth)

Multivariate Statistik@LS-Kneip 1–28

Page 37: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.6.3 Empirische Verteilungsfunktion

Die empirische Verteilungsfunktion beantwortet die Frage, wel-cher Anteil der Daten kleiner oder gleich einem interessiertemx-Wert ist. Um diese Frage zu beantworten, bildet man die biszur Schranke x aufsummierten relativen Häufigkeiten. Die em-pirische Verteilungsfunktion eines diskreten Merkmals lässt sichfolgendermaßen beschreiben:

F (x) =H(x)

n=

Anzahl der Werte xi mit xi ≤ x

n

Die empirische Verteilungsfunktion bei diskreten Merkmalen isteine monoton wachsende Treppenfunktion, die an den Ausprä-gungen a1, . . . , ak um die entsprechende relative Häufigkeit nachoben springt.

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

empirische Verteilungsfunktion

x

Fn(

x)

Multivariate Statistik@LS-Kneip 0–29

Page 38: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Fortsetzung Beispiel 0.1 (Car Data)

10 15 20 25 30 35 40

0.0

0.2

0.4

0.6

0.8

1.0

empirische Verteilungsfunktion Benzinverbrauch Car−Data

miles per Gallon

empir

ische

Ver

teilu

ngsfu

nktio

n

Mit zunehmender Anzahl an realisierten Ausprägungen wird diesprunghafte Treppenfunktion immer glatter und geht in eine ste-tige, monoton wachsende Verteilungsfunktion über.

−3 −2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

empirische Verteilungsfunktion einer normalverteilten Zufallsvariablen (n=200)

x

Fn(x

)

Multivariate Statistik@LS-Kneip 1–30

Page 39: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

1.6.4 Normal-Quantil-Plots (NQ-Plots)

• Quantile der Standardnormalverteilung

p 0.5 0.75 0.95 0.975 0.99

zp 0 (Median) 0.67 1.64 1.96 2.33

• Für eine N(µ, σ2)-Verteilung gilt folgende Beziehung zwi-schen den zugehörigen Quantilen ψp und den entsprechendenQuantilen zp der Standardnormalverteilung:

ψp = µ+ σ · zp

• Daten: X1, X2, . . . , Xn

• Geordnete Urliste der Daten X(1) ≤ · · · ≤ X(n)

⇒ X(i) schätzt das i−0.5n -Quantil der zugrundeliegen-

den Verteilung von X

• Der Normal-Quantil-Plot besteht aus den Punkten(z 0,5

n, X(1)), (z 1,5

n, X(2)), (z 2,5

n, X(3)), · · · , (zn−0,5

n, X(n))

im z-x-Koordinatensystem

• Falls die Verteilung von X wirklich eine Normalverteilungist, sollten die Punkte (z i−0,5

n, X(i)) approximativ auf einer

Gerade liegen,

X(i) = β0 + β1z i−0,5n

+ Zufallsschwankungen

Multivariate Statistik@LS-Kneip 1–31

Page 40: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

−2 −1 0 1 2

−2

−1

01

2

NQ−Plot einer Normalverteilung (a)

Theoretical Quantiles

Sam

ple

Qua

ntile

s

−2 −1 0 1 2

−5

05

1015

NQ−Plot einer linkssteilen Verteilung (b)

Theoretical Quantiles

Sam

ple

Qua

ntile

s

−2 −1 0 1 2

−10

−6

−4

−2

02

4

NQ−Plot einer rechtssteilen Verteilung (c)

Theoretical Quantiles

Sam

ple

Qua

ntile

s

−2 −1 0 1 2

−5

05

NQ−Plot einer symmetrischen, stark gekümmten Verteilung (d)

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Falls weiterhin x = 0 gilt, aber die Verteilung linkssteil ist, sosind die z-Quantile größer als die x-Quantile, so dass der NQ-Plotdurchhängt, in der Tendenz also konvex ist (siehe b). Für einerechtssteile Verteilung erhält man ganz analog einen konkavenNQ-Plot (siehe c).Für eine symmetrische Verteilung, die bei x = 0 einen im Ver-gleich zur Standardnormalverteilung spitzeren Gipfel, d.h. einestärkere Wölbung hat und dafür dickere Enden links und rechtsbesitzt, erhält man einen NQ-plot wie in Abbildung d.

Multivariate Statistik@LS-Kneip 1–32

Page 41: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

2 Multivariate Verteilungen und die Be-schreibung hochdimensionaler Daten

2.1 Elementare Matrixalgebra

• A− (n× d) Matrix

A =

a11 . . . a1d...

an1 . . . and

• Transponierte einer (n× d)-Matrix A

AT =

a11 . . . an1...

a1d . . . and

⇒ AT − (d× n) Matrix

• Spezialfall: n = d ⇒ Eine (d× d)-Matrix A heißt ”quadrati-sche Matrix”

• Sei A eine quadratische (d × d)-Matrix; A heißt ”symme-trisch”, fallsAT = A⇔ aij = aji für alle i, j = 1, . . . , d

Multivariate Statistik@LS-Kneip 2–1

Page 42: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Summe zweier (n× d)-Matrizen A,B

A+B =

a11 . . . a1d...

an1 . . . and

+

b11 . . . b1d...

...

bn1 . . . bnd

=

a11 + b11 . . . a1d + b1d

...

an1 + bn1 . . . and + bnd

• Produkt einer (n1× d)-Matrix A und einer (d×n2)-MatrixB

A ·B =

a11 . . . a1d...

an11 . . . an1d

·

b11 . . . b1n2

...

bd1 . . . bdn2

=

d∑

i=1

a1ibi1 . . .d∑

i=1

a1ibin2

...d∑

i=1

an1ibi1 . . .d∑

i=1

an1ibin2

︸ ︷︷ ︸

(n1×n2)−Matrix

• Rang einer (n× d)-Matrix A:rang(A) = Anzahl der voneinander linear unabhängigen Zei-len bzw. Spalten

Multivariate Statistik@LS-Kneip 2–2

Page 43: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Determinante einer quadratischen (d× d)-Matrix

| A |=∑

±a1ia2i . . . adm

Summierung über alle Permutationen i, j, . . . ,m) von (1, 2, . . . , d);positives Vorzeichen bei geraden Permutationen, negativesVorzeichen bei ungeraden Permutationen

• Spur einer quadratischen (d× d)-Matrix

spur(A) =d∑

i=1

aii = Summe der Diagonalelemente

• Inverse einer symmetrischen (d×d)-Matrix A, rang(A) = d:

A−1 ·A = A ·A−1 = Id

– A−1 - Inverse von A

– Id - (d× d)-Einheitsmatrix:

Id =

1 0

. . .

0 1

Multivariate Statistik@LS-Kneip 2–3

Page 44: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Terminologie: Vektoren und Matrixen

Name Definitionen Beispiel

Skalar a ∈ R (d = n = 1) 3

Spaltenvektor a =

a1

a2...

ap

(d = 1)

1

3

Zeilenvektor aT = (a1, . . . , ap) (n = 1) (1 3)

Vektor von Einsen 1n = (1, . . . , 1)︸ ︷︷ ︸n

T

1

1

Vektor von Nullen 0n = (0, . . . , 0)︸ ︷︷ ︸n

T

0

0

Diagonalmatrix aij = 0, i = j, n = p

1 0

0 2

Multivariate Statistik@LS-Kneip 2–4

Page 45: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Name Definitionen Beispiel

Einheitsmatrix (p× p) Ip =

1 0

. . .

0 1

︸ ︷︷ ︸

p

1 0

0 1

symmetrische Matrix(p× p)

aij = aji (AT = A)

1 2

2 3

Null-Matrix aij = 0

0 0

0 0

OberereDreiecksmatrix

aij = 0 i < j

1 2 4

0 1 3

0 0 1

Idempotente Matrix A2 = A

1/2 1/2

1/2 1/2

Orthogonale Matrix ATA = AAT = I

1√2

1√2

1√2

− 1√2

Multivariate Statistik@LS-Kneip 2–5

Page 46: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Wichtige Rechenregeln

• spur(A + B) = spur(A) + spur(B) , falls A,B (n × p)-Matrizen

• spur(cA) = c · spur(A) , falls A (n× p)-Matrix, c Skalar

• spur(AB) = spur(BA) , falls A (n× p)-Matrix,B (p× n)-Matrix

• |cA| = cp|A| , falls A (p× p)-Matrix, c Skalar

• |AB| = |A||B| , falls A,B (p× p)-Matrizen

• |AB| = |BA|, falls A (n× p)-Matrix, B (p× n) Matrix

• |A−1| = |A|−1 , falls A (p× p)-Matrix, rang(A) = p

Multivariate Statistik@LS-Kneip 2–6

Page 47: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Eigenwerte und Eigenvektoreneiner quadratischen (d× d)-Matrix A:

γ = (γ1, . . . , γd]T ∈ IRd Eigenvektor zum Eigenwert λ ∈ IR genau

dann wennA · γ = λ · γ

A symmetrische (d× d)-Matrix

⇒ Es existieren d orthonormale Eigenvektoren γ1, . . . , γd ∈ IRd

und d zugehörige reele Eigenwerte λ1, . . . , λd, so dass

• A · γi = λi · γi, i = 1, . . . , d

• spur(A) =d∑

i=1

λi

• | A |= λ1 · λ2 · . . . · λd

Orthonormal: γTi γi = 1, γTi γj = 0 für alle i, j = 1, . . . , d

Beispiel: Sei A =

2 0

0 3

• Eigenwerte von A: λ1 = 3, λ2 = 2

• Eigenvektoren: γ1 =

0

1

, γ2 =

1

0

Multivariate Statistik@LS-Kneip 2–7

Page 48: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

2.2 Charakterisierung multivariaterVerteilungen

• Ein d-dimensionaler Zufallsvektor ist ein Spaltenvektor X =

(X1, . . . , Xd)T , dessen einzelne Elemente alle Zufallsvaria-

blen sind.

• Ziel: Analyse von X auf der Grundlage einer Zufallsstich-probe Xi = (X1i, X2i, . . . , Xdi)

T , i = 1, . . . , n

• Grafische Darstellung: Scatterplot

Diskrete Zufallsvariable: X nimmt nur abzählbar

viele Werte x1, x2, · · · ∈ IRd an:

Wahrscheinlichkeitsfunktion: p(xi) = P (X = xi)

⇒ P (X ∈ [a1, b1]× · · · × [ad, bd]) =∑

xi∈[a1,b1]×···×[ad,bd]

p(xi)

Stetige Zufallsvariable:

Dichtefunktion: f(x1, . . . , xd)

⇒P (X ∈ [a1, b1]× · · · × [ad, bd])

=

b1∫a1

. . .

bd∫ad

f(x1, . . . , xd)dx1 . . . dxd

Multivariate Statistik@LS-Kneip 2–8

Page 49: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

S atterplotAlter vs. Stundenlohn

20 30 40 50 60Alter

1020

3040

Stun

denlo

hn

3D-S atterplotAlter vs. Stundenlohn vs. Ausbildungsjahre

2633

4149

(Alter) 8

16

23

30

(Lohn)

5

7

10

13

(Ausbildung)

Multivariate Statistik@LS-Kneip 2–9

Page 50: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

S atterplot-Matrix Alter

Stundenlohn

Ausbildungsjahre

Multivariate Statistik@LS-Kneip 2–10

Page 51: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Eigenschaften von Dichtefunktionen:

• f(x1, . . . , xd) ≥ 0

•∫ ∞

−∞. . .

∫ ∞

−∞f(x1, . . . , xd)dx1 . . . dxd = 1

Anmerkung: Eine allgemeine Möglichkeit zur Darstellung vonWahrscheinlichkeiten ist wiederum die Verteilungsfunktion F :

F (a1, . . . , ad) = P (X1 ≤ a1, . . . , Xd ≤ ad)

Zur Vereinfachung der Schreibweise werden im folgenden nur ste-tige Zufallsvariablen betrachtet.

Jedes Element Xj von X besitzt eine Randverteilung

(oder ”Marginalverteilung”). Dies ist nichts anderes als die

univariate Verteilung von Xj (ohne Berücksichtigung der

anderen Variablen).

Formal:

• Verteilungsfunktion der Randverteilung von Xj :

Fj(x) = P (Xj ≤ x)

• Randdichte fj , z.B. für j = 1

f1(x1) =

∫ ∞

−∞. . .

∫ ∞

−∞f(x1, x2 . . . , xd)dx2 . . . dxd

Multivariate Statistik@LS-Kneip 2–11

Page 52: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Exkurs: Mehrdimensionale Integrale

Die Berechnung von∫ b1

a1

∫ b2

a2

g(x, y)dxdy erfolgt in zwei Schrit-

ten:

1. Berechnung der Funktion G(y) =

∫ b2

a2

g(x, y)dx für jeden

Wert y

2. Berechnung von∫ b1

a1

G(y)dy

Beispiel:∫ 1

0

∫ 1

0

4xy dxdy =

∫ 1

0

{4y[

1

2x2]10

}dy =

∫ 1

0

2y dy = 1

Rechenregeln:∫ b1

a1

∫ b2

a2

g(x, y)dxdy =

∫ b2

a2

∫ b1

a1

g(x, y)dydx

∫ b1

a1

∫ b2

a2

g1(y)g2(x, y)dxdy =

∫ b1

a1

g1(y)

∫ b2

a2

g2(x, y)dxdy

Abkürzungen:∫g(x, y) dxdy =

∫ ∞

−∞

∫ ∞

−∞g(x, y)dxdy∫

[a1,b1]×[a2,b2]

g(x, y) dxdy =

∫ b1

a1

∫ b2

a2

g1(y)g2(x, y)dxdy

Multivariate Statistik@LS-Kneip 2–12

Page 53: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Bedingte Verteilungen

Bedingte Verteilung von Xj gegeben

X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xp = xd

= Verteilung von Xj bei festgehaltenen Werten von

X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xd = xd

Beispiel: bedingte Dichte von X1 gegeben X2 = x2, . . . , Xd = xd:

f(x1 | x2, . . . , xd) =f(x1, x2, . . . , xd)

fX2,...,Xd(x2, . . . , xd)

wobei fX2,...,Xdgemeinsame Dichte von X2, . . . , Xd

Von zentraler Bedeutung in der Regressionsanalyse sind bedingteErwartungswerte:

Bedingter Erwartungswert von X1 für gegebene Werte

X2 = x2, . . . , Xd = xd:

m(x2, . . . , xd) := E(X1|X2 = x2, . . . , Xd = xd)

=∫x1f(x1 | x2, . . . , xd)dx1

m(x2, . . . , xd) - Regressionsfunktion

Multivariate Statistik@LS-Kneip 2–13

Page 54: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Unabhängigkeit:

Die Zufallsvariablen X1, . . . , Xd sind voneinander

unabhängig, wenn für alle x = (x1, . . . , xd)T gilt

F (x1, . . . , xd) = F1(x1) · F2(x2) · . . . · Fd(xd) bzw.

f(x1, . . . , xd) = f1(x1) · f2(x2) · . . . · fd(xd)

Folgerungen: Ist Xj unabhängig von Xk, so gilt

• Die Randdichte von Xj ist gleich der bedingten Dichte vonXj gegeben Xk = xk

fj(xj) = f(xj | xk) für alle xk

• Der bedingte Erwartungswert von Xj gegeben Xk = xk istgleich dem unbedingten Erwartungswert von Xj (die Regres-sionsfunktion ist eine Konstante)

E(Xj | Xk = xk) = E(Xj) für alle xk

Multivariate Statistik@LS-Kneip 2–14

Page 55: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel

X1 - verfügbares Haushaltseinkommen

X2 - Alter des Haushaltsvorstandes

Daten: Britischer ”Family Expenditure Survey”; Zufallstichprobevon ungefähr 7000 Haushalten im Jahr 1976

Geschätzte gemeinsame Dichte von relativem Einkom-men und Alter

0.5

1

1.5

2

20

40

60

80

100

00.0

10.0

20.0

3

Multivariate Statistik@LS-Kneip 2–15

Page 56: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Geschätzte Dichte der Randverteilung des relativen Ein-kommens

0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income

0.000

0.004

0.008

0.012

Regression von Einkommen auf Alter

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Multivariate Statistik@LS-Kneip 2–16

Page 57: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel: Sei X = (X1, X2)T und

f(x1, x2) =

12x1 +

32x2 falls 0 ≤ x1, x2 ≤ 1

0 sonst

f ist eine Dichtefunktion, da f(x1, x2) ≥ 0 und∞∫

−∞

∞∫−∞

f(x1, x2)dx1dx2 =1

2

[x212

]10

+3

2

[x222

]10

=1

4+

3

4= 1

Dichte der Randverteilungen:

f1(x1) =

∞∫−∞

f(x1, x2)dx2 =

1∫0

f(x1, x2)dx2 =1

2x1 +

3

4

f2(x2) =

∞∫−∞

f(x1, x2)dx1 =

1∫0

f(x1, x2)dx1 =3

2x2 +

1

4

Man beachte:

f(x1, x2) =1

2x1+

3

2x2 =

(1

2x1 +

3

4

)·(3

2x2 +

1

4

)= f1(x1)·f2(x2)

⇒ X1 und X2 sind nicht unabhängig

Multivariate Statistik@LS-Kneip 2–17

Page 58: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Bedingte Dichte von X2 gegeben X1 = x1

f(x2 | x1) =12x1 +

32x2

12x1 +

34

⇒ Regressionsfunktion: Bedingter Erwartungswert von X2 gege-ben X1 = x1

m(x1) = E(X2 | X1 = x1)

=

1∫0

x2f(x2 | x1)dx2 =

1∫0

x2

12x1 +

32x2

12x1 +

34

dx2 =14x1 +

12

12x1 +

34

Anmerkung: Dies ist eine nichtlineare Funktion von x1

Multivariate Statistik@LS-Kneip 2–18

Page 59: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

2.3 Erwartungswerte multivariater Verteilun-gen

Die wichtigsten Parameter einer univariaten Verteilung sind derErwartungswert (Zentrum der Verteilung) und die Varianz (Maßfür die Streuung).

Die entsprechenden Parameter einer multivariaten Verteilung sindder Vektor der Erwartungswerte und die Kovarianzmatrix.

Erwartungswert (”Mittelwert”) der Zufallsvariable Xj , j =

1, . . . , d :

µj = E(Xj) =

∞∫−∞

xfj(x)dx

⇒ Erwartungsvektor

µ =

µ1

...

µd

= E(X) =

E(X1)

...

E(Xd)

Multivariate Statistik@LS-Kneip 2–19

Page 60: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Allgemeine Berechnung von Erwartungswerten(zur Vereinfachung: d = 2).

Sei X = (X1, X2)T und g : R2 → R eine stetige Funktion von

x = (x1, x2)T

⇒ E(g(X)) =

∞∫−∞

∞∫−∞

g(x1, x2)f(x1, x2)dx1dx2

Rechenregeln

• Sei a = (a1, . . . , ad)T ein fest vorgegebener Vektor. Dann gilt

E(a) = a, E(aTX) = aTE(X) = aTµ

• Sei a = (a1, . . . , am)T und A eine (m× d)-Matrix. Dann gilt

E(A ·X + a) = A · E(X) + a = A · µ+ a

Multivariate Statistik@LS-Kneip 2–20

Page 61: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

2.4 Die Kovarianzmatrix

Maß für die Streuung der Z.v. Xj , j = 1, . . . , d :

Varianz von Xj

Var(Xj) = σ2j = E((Xj − µj)

2)

Maß für den Zusammenhang zweier Z.v. Xj und Xk:

Kovarianz zwischen Xj und Xk

σjk := Cov(Xj , Xk) = E[(Xj − µj) · (Xk − µk)]

Eigenschaften der Kovarianz:

• Cov(Xj , Xk) > 0 ⇒ tendenziell Xj ↗⇔ Xk ↗

• Cov(Xj , Xk) < 0 ⇒ tendenziell Xj ↗⇔ Xk ↘

• Xj , Xk unabhängig ⇒ Cov(Xj , Xk) = 0

Bei höherdimensionalen Zufallsvektoren ordnet man die Varian-zen und Kovarianzen der einzelnen Komponenten in einer Matrixan. Dies ergibt die Kovarianzmatrix Σ des Zufallsvektors X

Multivariate Statistik@LS-Kneip 2–21

Page 62: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Kovarianzmatrix von X = (X1, . . . , Xd)T

Σ = COV(X) =

σ21 σ12 σ13 · · · σ1d

σ21 σ22 σ23 · · · σ2d

......

......

σd1 σd2 σd3 · · · σ2d

Es gilt

Σ = E[(X − µ)(X − µ)T ]

=

E((X1 − µ1)

2) . . . E[(X1 − µ1)(Xd − µd)]...

...

E[(Xd − µd)(X1 − µ1)] . . . E[(Xd − µd)2]

• Σ = COV(X) ist eine symmetrische (d× d)-Matrix

• Σ = COV(X) ist eine positiv semidefinite Matrix: Für jedenVektor a = (a1, . . . , ad)

T gilt

aTΣa ≥ 0

Schreibweise: Σ ≥ 0

Multivariate Statistik@LS-Kneip 2–22

Page 63: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Standardisiertes Zusammenhangsmaß: Korrelation

ρ(Xj , Xk) = ρjk =σjk

σj · σk=

Cov(Xj , Xk)√Var(Xj)Var(Xk)

Eigenschaften der Korrelation:

• ρ(Xj , Xk) > 0 ⇒ tendenziell Xj ↗⇔ Xk ↗

• ρ(Xj , Xk) < 0 ⇒ tendenziell Xj ↗⇔ Xk ↘

• Xj , Xk unabhängig ⇒ ρ(Xj , Xk) = 0

• −1 ≤ ρ(Xj , Xk) ≤ 1

• ρ(Xj , Xk) = 1 ⇒ Xj = β0 + β1Xk für ein β1 > 0

• ρ(Xj , Xk) = −1 ⇒ Xj = β0 + β1Xk für ein β1 < 0

Korrelationsmatrix

P =

1 ρ12 ρ13 · · · ρ1d

ρ21 1 ρ23 · · · ρ2d...

......

...

ρd1 ρd2 ρd3 · · · 1

P ist die Kovarianzmatrix der standardisierten VariablenZj = (Xj − µj)/σj .

Multivariate Statistik@LS-Kneip 2–23

Page 64: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Zusammenhang von Korrelation und Lage derPunktewolkePerfekte Korrelation*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

***

*

*

*

*

**

*

*

*

*

**

*

*

**

*

*

*

*

*

*

**

*

*

*

*

*

*

*

***

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

***

*

*

*

***

*

*

*

*

*

*

*

*

*

*

*

*

*

***

*

*

*

*

*

*

*

**

*

*

*

*

*

*

**

**

*

*

*

*

*

**

**

*

-2.0 -1.0 0.0 1.0 2.0X[,1]

-2.0

-1.0

0.0

1.0

2.0

X[,2]

r=+1

*

*

**

**

*

***

*

*

*

**

*

**

**

**

*

*

*

*

***

*

*

*

*

*

*

*

*

***

*

****

*

*

*

*

*

*

*

**

*

**

**

*

*

**

*

*

*

*

*

*

**

**

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

**

**

*

**

**

*

**

*

*

*

*

**

*

*

*

*

*

**

*

*

*

*

**

*

*

*

*

*

*

*

*

**

*

*

**

*

*

*

**

*

*

**

**

**

*

*

-3.0 -2.0 -1.0 0.0 1.0 2.0X[,1]

-2.0

-1.0

0.0

1.0

2.0

3.0

X[,2]

r=-1

Multivariate Statistik@LS-Kneip 2–24

Page 65: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Starke Korrelation*

**

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

**

*

**

*

*

* *

**

*

*

*

*

*

**

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

**

*

*

*

* *

*

**

*

*

*

*

*

**

*

*

*

*

**

*

*

*

*

*

* **

**

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

* ***

** *

*

**

*

*

* *

*

*

*

*

*

**

*

**

*

*

*

-2.0 -1.0 0.0 1.0 2.0 3.0 4.0X[,1]

-2.0

-1.0

0.0

1.0

2.0

X[,2]

r=+0.8

*

*

**

*

*

*

**

***

*

*

*

**

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*** *

*

*

*

*

*

*

**

*

**

*

* *

*

*

*

**

**

*

*

*

* *

*

**

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

* *

*

*

**

*

**

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

-3.0 -2.0 -1.0 0.0 1.0 2.0X[,1]

-2.0

-1.0

0.0

1.0

2.0

X[,2]

r=-0.8

Multivariate Statistik@LS-Kneip 2–25

Page 66: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

S hwa he Korrelation*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

* **

**

*

**

*

*

*

*

***

*

*

**

*

* *

*

*

**

**

*

**

* *

*

*

*

*

*

**

*

*

*

*

* *

*

*

*

*

**

*

*

*

*

*

**

*

*

* *

*

*

*

*

*

*

**

*

*

*

*

*

*

*

**

* ** *

*

*

**

** *

*

*

*

*

****

****

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

* *

*

*

*

*

**

**

*

* *

-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]

-3.0

-2.0

-1.0

0.0

1.0

2.0

3.0

X[,2]

r=+0.2

*

*

*

*

*

*

*

*

*

*

**

**

*

*

*

*

*

*

**

*

*

**

*

*

* *

*

*

*

*

*

*

*

**

**

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

**

*

*

*

* *

*

*

*

*

*

*

**

*

*

*

***

*

*

*

*

*

*

*

*

*

*

***

*

*

**

* *

*

**

*

**

*

*

*

*

*

* **

*

*

*

*

* *

**

*

-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]

-2.0

-1.0

0.0

1.0

2.0

X[,2]

r=-0.2

Multivariate Statistik@LS-Kneip 2–26

Page 67: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Keine Korrelation

**

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

**

**

*

*

*

**

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

**

*

*

** *

**

**

***

*

*

**

*

*

*

*

*

*

**

**

*

**

*

***

* **

*

*

*

*

*

*

-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]

-2.0

-1.0

0.0

1.0

2.0

X[,2]

r=0

Multivariate Statistik@LS-Kneip 2–27

Page 68: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Rechenregeln:

• Σ = COV(X) = E[XXT ]− E(X) · E(X)T

• Für einen fest vorgegebenen Vektor a ∈ IRd:

COV(aTX) = aT · COV(X) · a

• Für einen festen Vektor a ∈ IRm und eine (m× d)-Matrix A

COV(A ·X + a) = A · COV(X) ·AT

• Für zwei d-dimensionale Z.v. X und Y

COV(X + Y ) =COV(X) + COV(Y ) + E[(X − E(X))(Y − E(Y ))T ]

+ E[(Y − E(Y )(X − E(X))T ]

Multivariate Statistik@LS-Kneip 2–28

Page 69: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Daten: Xi = (X1i, X2i, . . . , Xdi)T , i = 1, . . . , n

Schätzung von µ durch

X =1

n

n∑i=1

Xi =

1n

∑ni=1X1i

...1n

∑ni=1Xdi

=

X1

...

Xd

Empirische Varianzen:

s2j =1

n− 1

n∑i=1

(Xji − Xj)2

Empirische Kovarianzen:

sjk =1

n− 1

n∑i=1

(Xji − Xj)(Xki − Xk)

Empirischer Korrelationskoeffizient

rjk =sjksjsk

⇒ Empirische Kovarianzmatrix S und empirische Korrelations-matrix R (Schätzungen von Σ und P )

Multivariate Statistik@LS-Kneip 2–29

Page 70: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anwendung: Marktstudie über den Verkauf einer bestimm-ten Pullovermarke (”Classic blue pullover”)

X1 - Anzahl der verkauften Pullover

X2 - Preis des Pullovers

X3 - Ausgaben für Werbung

X4 - Zeitliche Dauer der Anwesenheit eines Verkäufers (in Stun-den)

Daten für n = 10 Perioden

Ergebnisse:

X1 = 172.7, X2 = 104.7, X3 = 104.0, X4 = 93.8

Σ = S =

1037.21

−80.02 219.84

1430.70 92.10 2624.00

271.44 −91.58 210.30 177.36

P = R =

1

−0.168 1

0.867 0.121 1

0.633 −0.464 0.308 1

Multivariate Statistik@LS-Kneip 2–30

Page 71: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

2.5 Die Spektralzerlegung

Problem: Allgemeine Darstellung, Berechnung von Matrizenwie Σ−1,Σ− 1

2 bei gegebenen Σ?

Spektralzerlegung: Sei A eine symmetrische (d × d)-Matrix.Dann lässt sich A in der folgenden Form umschreiben:

A = ΓΛΓT

=

d∑j=1

λjγjγTj

wobei

• λ1, λ2, . . . , λd - Eigenwerte von A und

Λ =

λ1

λ2 0

. . .

0 λd

• γ1, γ2, . . . , γd orthonormale Eigenvektoren zu den Eigenwer-ten λ1, . . . , λdund

Γ = (γ1 . . . γd)

Γ ist eine orthogonale Matrix

Multivariate Statistik@LS-Kneip 2–31

Page 72: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel:

Sei A =

1 2

2 3

Die Eigenwerte von A ergeben sich als Nullstellen von∣∣∣∣∣∣1− λ 2

2 3− λ

∣∣∣∣∣∣ = (1− λ)(3− λ)− 4 = 0

⇒ Eigenwerte:

λ1 = 2 +√5, λ2 = 2−

√5

Eigenvektoren:

γ1 =

0.5257

0.8506

, γ2 =

0.8506

−0.5257

Somit ergibt sich:

A =

0.5257 0.8506

0.8506 −0.5257

2 +√5 0

0 2−√5

0.5257 0.8506

0.8506 −0.5257

A−1 =

0.5257 0.8506

0.8506 −0.5257

1

2+√

50

0 1

2−√

5

0.5257 0.8506

0.8506 −0.5257

Multivariate Statistik@LS-Kneip 2–32

Page 73: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Zerlegung einer Kovarianzmatrix Σ (nichtsingulär)

Da Σ > 0 gilt λ1, . . . , λd > 0

Spektralzerlegung:

Σ = ΓΛΓT = Γ

λ1

λ2 0

. . .

0 λd

ΓT

Σ−1 = ΓΛ−1ΓT mit Λ−1 =

1λ1

1λ2

0

. . .

0 1λd

Σ− 12 = ΓΛ− 1

2ΓT mit Λ− 12 =

1√λ1

1√λ2

0

. . .

0 1√λd

Multivariate Statistik@LS-Kneip 2–33

Page 74: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel: Sei

Σ =

1 12

12 1

Eigenwerte:

λ1 =3

2, λ2 =

1

2

Eigenvektoren:

γ1 =

1√2

1√2

, γ2 =

1√2

− 1√2

⇒ Σ =

1√2

1√2

1√2

− 1√2

32 0

0 12

1√2

1√2

1√2

− 1√2

Σ−1 =

1√2

1√2

1√2

− 1√2

23 0

0 2

1√2

1√2

1√2

− 1√2

Σ− 12 =

1√2

1√2

1√2

− 1√2

√ 23 0

0√2

1√2

1√2

1√2

− 1√2

Multivariate Statistik@LS-Kneip 2–34

Page 75: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

2.6 Die multivariate Normalverteilung

Die wichtigste multivariate Verteilung ist die sogenannte ”multi-variate Normalverteilung”.

Als Vorstufe betrachten wir die gemeinsame Verteilung von d un-abhängig normalverteilten Zufallsvariablen X1, X2, . . . , Xd, wo-bei Xi ∼ N(µi, σ

2i ). Die Dichtefunktion fi von Xi ist dann gege-

ben durch

fi(xi) =1√2πσi

exp(−1

2(xi − µi

σi)2)

Unabhängigkeit impliziert

f(x1, x2, . . . , xd) = f1(x1)f2(x2) . . . fd(xd)

=1

(2π)d/2σ1 · · ·σdexp(−1

2

d∑i=1

(xi − µi

σi)2)

Matrizielle Form: Mit x = (x1, . . . , xd)T ,

µ = (µ1, . . . , µd)T und

Σ :=

σ21 0 0 · · · 0

0 σ22 0 · · · 0

· · · ·· · · ·· · · ·0 0 0 · · · σ2

d

gilt

f(x1, . . . , xd) =1

(2π)d/2|Σ|1/2exp(−1

2(x − µ)TΣ−1(x − µ))

Multivariate Statistik@LS-Kneip 2–35

Page 76: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Definition: Ein Zufallsvektor X = (X1, . . . , Xd)T mit dem Er-

wartungswertvektor µ = (µ1, . . . , µd)T und nichtsingulärer Ko-

varianzmatrix

Σ :=

σ21 σ12 σ13 · · · σ1d

σ21 σ22 σ23 · · · σ2d

· · · ·· · · ·· · · ·σd1 σd2 σd3 · · · σ2

d

heißt multivariat normalverteilt (mit Parametern µ und Σ),wenn die Dichtefunktion des Zufallsvektors X durch

f(x1, . . . , xd) =1

(2π)d/2|Σ|1/2exp(−1

2(x − µ)TΣ−1(x − µ))

gegeben ist.

Wir schreiben dann kurz

X = (X1, . . . , Xd)T ∼ Nd(µ,Σ)

Multivariate Statistik@LS-Kneip 2–36

Page 77: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Dichte der zweidimensionalen StandardnormalverteilungN2(0, I):

Multivariate Statistik@LS-Kneip 2–37

Page 78: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Wichtige Eigenschaften:

• Sei X = (X1, . . . , Xd)T ∼ Nd(µ,Σ). Unkorreliertheit zweier

Variablen Xi und Xj impliziert dann Unabhängigkeit.

Cov(Xi, Xj) = 0 ⇔ Xi unabhängig von Xj

• Lineare Transformationen:Sei X = (X1, . . . , Xd)

T ∼ Nd(µ,Σ). A sei eine (m, d)-Matrixmit vollem Zeilenrang m ≤ d und b ∈ IRm sei ein m-Vektor.Dann gilt

Y = AX + b ∼ Nm(Aµ+ b, AΣAT )

• Spezialfall: Mahalanobis Transformation.Sei Y ∼ Nd(µ,Σ). Die Matrix Σ−1 sei definiert durch

Σ− 12 · Σ− 1

2 = Σ−1

⇒ Z = Σ− 12 (Y − µ) ∼ Nd(0, Id)

undZTZ ∼ χ2

d

Multivariate Statistik@LS-Kneip 2–38

Page 79: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Spezialfall: Linearkombinationen.Für Y = c1X1 + c2X2 + · · ·+ cdXd = cTX gilt:

Y ∼ N(cTµ, cTΣc)

• Satz von Cramer-World: Y = (Y1, . . . , Yd) ist genau dannmultivariat normalverteilt, wenn jede mögliche Linearkom-bination cTY eine univariate Normalverteilung besitzt

• Dieses Resultat impliziert insbesondere, dass alle Randver-teilungen einer multivariaten Normalverteilung univariat nor-mal sind. Gilt X = (X1, . . . , Xd)

T ∼ Nd(µ,Σ), so erhält man

Xj ∼ N(µj , σ2j ), j = 1, . . . , d

• Achtung: Die Umkehrung gilt nicht! AusXj ∼ N(µj , σ2j , j =

1, . . . , d lässt sich nicht automatisch schließen, dass X =

(X1, . . . , Xd)T ∼ Nd(µ,Σ). Normale Randverteilungen sind

nur eine notwendige, aber keine hinreichende Bedingung fürmultivariate Normalität. Es ist zusätzlich nötig, dass alle Li-nearkombinationen der Variablen Xj normalverteilt sind.

Satz von Cramer-World: X = (X1, . . . , Xd) ist genaudann multivariat normalverteilt, wenn für jeden d-dimensionalenVektor c = 0d die resultierende Zufallsvariable cTX =

∑dj=1 cjXj

eine univariate Normalverteilung besitzt.

Multivariate Statistik@LS-Kneip 2–39

Page 80: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Bedingte Verteilungen: Ist ein Zufallsvektor X multivariatnormalverteilt, so sind auch alle zugehörigen bedingten Vertei-lungen multivariat normal.

Man betrachte einen Zufallsvektor X = (X1, . . . , Xd)T ∼ Nd(µ,Σ).

Für ein 0 < q < d seien X1 = (X1, . . . , Xq)T und X2 = (Xq+1, . . . , Xd)

T .Die führt auf folgenden Partitionierung von Σ:

Σ =

Σ1 Σ12

Σ21 Σ2

mit

Σ1 =

σ21 . . . σ1q...

...

σq1 . . . σ2q

, Σ2 =

σ2q+1 . . . σq+1,d

......

σd,q+1 . . . σ2d

,

Σ12 =

σ1,q+1 . . . σ1d

......

σq,q+1 . . . σ2qd

= ΣT21

MitΣ1|2 := Σ1 − Σ12Σ

−12 Σ21

ergibt sich dann:

• Die bedingte Verteilung von X1 gegeben X2 = x2 ist multi-variat normal:

(X1|X2 = x2) ∼ Nq

(µ1 +Σ12Σ

−12 (x2 − µ2),Σ1|2

)• Die Zufallsvariablen X2 und ϵ := X1−µ1−Σ12Σ

−12 (X2−µ2)

sind voneinander unabhängig.

Multivariate Statistik@LS-Kneip 2–40

Page 81: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anwendung: Lineare Einfachregression

Man betrachte zwei eindimensionale Zufallsvariablen Y,X. In derRegressionsanalyse interessiert man sich für die Modellierung derVariation von Y in Abhängigkeit von X.

Zusatzannahme: Die gemeinsame Verteilung von (Y,X) seimultivariat normalverteilt:Y

X

∼ N(µ,Σ), Σ =

σ21 σ12

σ21 σ22

Σ1.2 ist eine positive reelle Zahl mit Σ1.2 = σ2

1 − σ212

σ22

. Für ϵ :=Y − µ1 − σ12

σ22(X − µ2), µ1 = E(Y ), µ2 = E(X), ergibt sich aus

den obigen Resultaten:

Y = µ1 +σ12σ22

(X − µ2) + ϵ

= µ1 −σ12σ22

µ2︸ ︷︷ ︸β0

+σ12σ22︸︷︷︸

β1

X + ϵ

E(ϵ) = 0, ϵ ∼ N(0,Σ1.2︸︷︷︸σ2

), ϵ unabhängig von X

Die Regressionsfunktion ist gegeben durch die lineare FunktionE(Y |X = x) = β0 + β1x.

Falls also die gemeinsame Verteilung von (Y,X) multivariat nor-mal ist, so ist das Standardmodell der linearen Einfachregressionnotwendigerweise gültig.

Multivariate Statistik@LS-Kneip 2–41

Page 82: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3 Multiple Regression

Problem: Analysiere den Einfluss mehrerer erklärender („unab-hängiger“) Variablen X1, X2, . . . , Xp auf eine Zielvariable („ab-hängige Variable“) Y .

• Beobachtungen(Y1, X11, . . . , X1p), (Y2, X21, . . . , X2p), . . . , (Yn, Xn1, . . . , Xnp)

• Modell�

Yi = β0 + β1Xi1 + β2Xi2 + . . .+ βpXip + ϵi

ϵ1, . . . , ϵn i.i.d., E(ϵi) = 0, Var(ϵi) = σ2

[ϵi ∼ N(0, σ2)

]• Die in dem Modell postulierte lineare Struktur

β0 + β1Xi1 + . . .+ βpXip = m(Xi1, . . . , Xip)

= E(Y |X1 = Xi1, . . . , Xp = Xip)

der Regressionsfunktion m notwendigerweise erfüllt, falls derVektor (Yi, Xi1, Xi2, . . . , Xip)

T ein multivariat normalver-teilter Zufallsvektor ist.

• Im Rahmen des obigen Modellansatzes lassen sich jedochauch komplexere nichtlineare Zusammenhänge zwischen Y

und den erklärenden Variablen erfassen. Dies kann durchEinführung zusätzlicher Modellvariablen Xij geschehen, dieFunktionen der ursprünglichen erklärenden Variablen sind.

Multivariate Statistik@LS-Kneip 3–1

Page 83: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiele möglicher Regressionsmodelle:

∗ Yi = β0 +β1Xi1 +β2Xi2 +β3X2i2 +β4X

2i2 +β5Xi1xi2 + ϵi

Setzt man Xi3 := X2i1, Xi4 := X2

i2 und Xi5 := Xi1Xi2,so führt dies auf:Yi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 + β5Xi5 + ϵi

∗ Yi = β0 + β1 lnX∗i1 + β2Xi2 + β3(lnX

∗i1)

2 + β4X2i2 + ϵi

Setzt man Xi1 := lnX∗i1, Xi3 := (lnX∗

i1)2 und Xi4 :=

X2i2,

so führt dies wieder auf ein Modell der FormYi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 ++ϵi

Die einzige Bedingung bei der Modellbildung ist, dass diepostulierte Regressionsbeziehung linear in den Parameternβi ist.

Achtung: Natürlich ist bei der nachfolgenden Interpretationdes Modells die Definition der Modellvariablen zu beachten.

Multivariate Statistik@LS-Kneip 3–2

Page 84: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Spezialfall: linearen Einfachregression (p = 1)

• Schätzer der Koeffizienten durch die Kleinste Quadrate Me-thode:

β1 =

n∑i=1

(Xi − X)(Yi − Y )

n∑i=1

(Xi − X2), β0 = Y − β1X

Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha

Beobachtungen für n = 7 Parzellen

X 100 200 300 400 500 600 700

Y 40 50 50 70 65 65 80

100 200 300 400 500 600 700

Duenger

40

50

60

70

80

Ertra

g

Schätzungen im Beispiel Ernteertrag - Dünger:

Schätzwert Standardfehler t-Wert P (|T | > |t|)

Konstante (β0) 36.42857 5.03812 7.23 0.001

Dünger (β1) .0589286 .0112656 5.23 0.003R2 = 0.8455

Multivariate Statistik@LS-Kneip 3–3

Page 85: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Mögliche Verallgemeinerung: m(x) quadratisches oder kubi-sches Polynom

m(X) = β0 + β1X + β2X2

oder m(X) = β0 + β1X + β2X2 + β3X

3

Beispiel: Dünger (X) -Ernteertrag (Y )

7 zusätzliche Beobachtungen

0 200 400 600 800 1000 1200 1400

Duenger

40

60

80

100

120

Ansatz: Quadratisches Polynom

Y ≈ β0 + β1X + β2X2

Kleinste-Quadrate-Methode: β0, β1 und β2 minimieren

Q(β0, β1, β2) =

n∑i=1

(yi − β0 − β1xi − β2x2i )

2

⇒ β0 = 27, 6, β1 = 0, 11, β2 = −0, 000057

Multivariate Statistik@LS-Kneip 3–4

Page 86: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 3.1 (Bilanzdaten)Bilanzdaten für eine Stichprobe von 40 englischen Firmen (Jahr1983)

Variablen:

RETCAP - Return on capital employed (Kapitalertrag)

WCFTCL - Ratio of working capital flow to total current liabilities

WCFDT - Ratio of the working capital flow to the total debt

GEARRAT - Gearing ratio (debt-equity ratio)

LOGSALE - Log10 of total sales

LOGASST - Log10 of total assets

NFATAST - Ration of net fixed assets to total assets

CAPINT - Capital intensity (ratio of total sales to total assets)

FATTOT - Gross fixed assets to total assets

INVAST - Ratio of total inventories to total assets

PAYOUT - Payout ratio

QUIKRAT - Quick ratio

CURRAT - current ratio

Modell:RETCAP = β0 + β1 WCFTCL + β2 WCFDT + β3 GEAR-RAT + β4 LOGSALE + β5 LOGASST + β6 NFATAST + β7

CARINT + β8 FATTOT + β9 INVAST + β10 PAYOUT + β11

QUIKRAT + β12 CURRAT + ϵ

Multivariate Statistik@LS-Kneip 3–5

Page 87: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

RET

CA

PW

CFT

CL

WC

FT

DT

GEA

RR

AT

LO

GSA

LE

LO

GA

SST

NFATA

ST

CA

PIN

TFAT

TO

TIN

VTA

ST

PAY

OU

TQ

UIK

RAT

CU

RR

AT

10.19

0.16

0.16

0.15

5.23

4.84

0.28

2.47

0.36

0.42

0.31

0.54

1.33

20.22

0.26

0.16

0.54

4.15

4.34

0.13

0.64

0.16

0.04

0.45

0.83

0.93

30.17

0.26

0.20

0.49

5.38

4.88

0.43

3.18

0.74

0.13

0.50

0.84

1.09

40.12

0.08

0.08

0.39

4.12

3.93

0.23

1.55

0.50

0.37

0.65

0.50

1.09

50.21

0.34

0.34

0.11

4.78

4.59

0.30

1.56

0.50

0.20

0.25

1.10

1.74

60.12

0.25

0.25

0.19

4.15

3.91

0.34

1.74

0.38

0.31

0.80

1.00

1.89

70.15

0.25

0.16

0.35

5.70

5.56

0.48

1.39

0.62

0.22

0.46

0.73

1.38

80.10

0.12

0.09

0.39

4.42

4.21

0.26

1.60

0.42

0.30

1.03

0.94

1.57

90.08

0.04

0.04

0.50

4.71

4.51

0.25

1.58

0.33

0.31

0.00

0.74

1.28

10

0.31

0.12

0.11

0.41

4.47

4.19

0.17

1.88

0.25

0.31

0.25

0.66

1.10

11

0.21

0.36

0.33

0.08

4.39

4.23

0.40

1.43

0.71

0.17

0.61

1.06

1.49

12

0.22

0.37

0.37

0.16

4.03

3.83

0.42

1.55

0.62

0.17

0.25

0.97

1.38

13

0.20

0.48

0.48

0.13

3.86

3.88

0.68

0.96

0.97

0.13

0.60

0.61

1.00

14

0.11

0.18

0.15

0.23

3.91

3.87

0.40

1.09

0.64

0.15

0.80

0.92

1.23

15

0.38

0.25

0.20

0.27

5.16

4.67

0.21

3.13

0.32

0.38

0.39

0.33

1.39

16

0.23

0.24

0.24

0.00

5.71

4.98

0.27

5.44

0.38

0.50

0.36

0.24

1.29

17

0.32

0.09

0.09

0.11

4.71

4.31

0.09

2.51

0.13

0.31

0.53

0.86

1.34

18

0.13

0.06

0.05

0.55

4.68

4.50

0.24

1.51

0.40

0.42

0.00

0.44

1.14

19

0.29

0.60

0.60

0.00

4.52

4.87

0.57

0.45

0.58

0.01

0.21

1.18

1.21

20

0.09

0.10

0.09

0.28

4.99

4.41

0.34

3.82

0.50

0.46

1.52

0.34

1.28

21

−0.50

−1.28

−1.28

1.78

4.06

3.55

0.16

3.21

0.30

0.37

0.00

0.50

1.06

22

0.17

0.12

0.11

0.28

4.28

3.97

0.26

2.07

0.32

0.37

0.22

0.67

1.36

23

−0.04

−0.04

−0.04

0.46

4.76

4.32

0.19

2.79

0.32

0.28

0.00

0.72

1.11

24

0.26

0.23

0.23

0.00

4.25

3.88

0.21

2.34

0.26

0.27

0.53

1.20

1.83

25

0.21

0.40

0.30

0.20

4.41

4.38

0.24

1.07

0.36

0.24

0.42

1.77

2.72

26

0.15

0.30

0.21

0.66

4.40

4.36

0.70

1.08

1.07

0.15

0.00

0.29

0.58

27

0.23

0.07

0.07

0.11

4.83

4.44

0.17

2.46

0.22

0.00

0.67

0.88

0.88

28

0.20

0.33

0.28

0.33

4.21

4.04

0.53

1.47

1.16

0.07

0.21

0.77

0.91

29

0.19

0.16

0.14

0.30

4.31

4.17

0.25

1.38

0.33

0.42

0.52

0.49

1.28

30

0.08

0.18

0.10

0.35

4.95

4.87

0.31

1.21

0.51

0.27

1.08

1.44

2.36

31

0.19

0.15

0.14

0.19

5.58

5.44

0.22

1.36

0.36

0.22

0.40

0.96

1.35

32

0.20

0.63

0.35

0.21

4.77

4.86

0.21

0.81

0.34

0.26

0.51

2.63

3.98

33

0.14

0.27

0.20

0.30

5.00

4.83

0.72

1.48

0.74

0.09

0.53

0.26

0.54

34

0.04

0.07

0.07

0.18

4.18

3.92

0.28

1.83

0.54

0.23

4.21

1.08

1.57

35

0.10

0.15

0.12

0.13

5.76

5.78

0.12

0.96

0.21

0.28

0.43

0.57

1.40

36

−0.09

−0.46

−0.22

0.68

3.97

4.08

0.62

0.77

0.71

0.19

0.00

0.60

1.45

37

0.10

0.18

0.14

0.23

5.69

5.63

0.33

1.14

0.52

0.23

0.12

0.83

1.56

38

0.20

0.13

0.12

0.05

4.79

4.42

0.04

2.35

0.07

0.37

0.33

0.80

1.42

39

0.13

0.17

0.13

0.22

5.49

5.35

0.26

1.37

0.52

0.41

0.53

0.75

1.73

40

0.08

0.14

0.14

0.19

4.09

3.87

0.17

1.64

0.27

0.34

0.91

0.74

1.57

Multivariate Statistik@LS-Kneip 3–6

Page 88: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Umschreibung des Modells in Matrixschreibweise:

Sei Y =

Y1...

Yn

, X =

X11 X12 · · · X1p

X21 X22 · · · X2p

...... · · ·

...

Xn1 Xn2 · · · Xnp

β =

β0

β1...

βp

, ϵ =

ϵ1

ϵ2...

ϵn

• Modell�

�Y = X · β + ϵ

E(ϵ) = 0, COV(ϵ) = σ2 · In,

[ϵ ∼ Nn(0, σ2 · In)]

Multivariate Statistik@LS-Kneip 3–7

Page 89: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.1 Schätzung von β = (β0, . . . βp)T

• Kleinste Quadrate Methode: Bestimme β0, β1, . . . , βp durchMinimieren von

Q(β0, . . . , βp) =n∑

i=1

(Yi − Yi)2

=

n∑i=1

(Yi − β0 − β1Xi1 − . . .− βpXip)2

• Kleinste-Quadrate-Schätzer ββ = [XTX]−1XTY(falls rang(X) = rang(XTX) = p+ 1

)

3.1.1 Eigenschaften von β

1. Erwartungswerte

E(β) =

E(β0)

...

E(βp)

=

β0...

βp

= β

d.h. β ist ein erwartungstreuer Schätzer von β

2. Kovarianzmatrix

COV(β) = COV([XTX]−1XTY )

= [XTX]−1XT COV(Y )X[XTX]−1

= σ2[XTX]−1XTX[XTX]−1

= σ2[XTX]−1

Multivariate Statistik@LS-Kneip 3–8

Page 90: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3. VerteilungFalls ϵi ∼ N(0, σ2

i ) und daher ϵ ∼ Nn(0, σ2In), so erhält man

β ∼ Np+1

(β, σ2[X

TX]−1)

Anmerkung: Für großes n bleibt die angegebene Vertei-lung auch dann i.A. approximativ gültig, wenn die ϵi nichtnormalverteilt sind (zentraler Grenzwertsatz)

Anmerkung: Satz von Gauss-Markovβ ist der wirksamste Schätzer von β in der Klasse aller linearenund erwartungstreuen Schätzer.

3.2 Konfidenzintervalle und Tests

Wichtige Notation

• Im Folgenden sei cij = ij-tes Element der Matrix [XTX]−1,d.h.

c00 c01 · · · c0p

c10 c11 · · · c1p...

... · · ·...

cp0 cp1 · · · cpp

:= [XTX]−1

• Weiterhin sei H := X[XTX]−1XT

(H wird in der Literatur oft als „Hat“-Matrix bezeichnet)

– y =

Y1...

Yn

= Xβ = X[XTX]−1XTY = H · Y

– H ist idempotent: H2 = H ·H = H

Multivariate Statistik@LS-Kneip 3–9

Page 91: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• (In −H) ist idempotent:

(In −H)2 = (In −H) · (In −H) = In −H

• spur(H) = rang(H) = p+ 1;

spur(In −H) = rang(In −H) = n− p− 1

(allgemein für idempotente Matrizen A : spur(A) = rang(A))

Schätzung von σ2

• Wie bei der linearen Einfachregression ist für die Konstruk-tion von Tests und Konfidenzintervallen eine Schätzung derFehlervarianz σ2 notwendig.

• Die Residuen ϵi = Yi − Yi = Yi − β0 −p∑

j=1

βjXij „schätzen“

den Fehler ϵi

• Schätzer σ2 von σ2:

σ2 =1

n− p− 1

n∑i=1

(Yi − Yi)2

=1

n− p− 1(Y − Y )T (Y − Y )

=1

n− p− 1(Y −HY )T (Y −HY )

=1

n− p− 1Y T (I −H)(I −H)Y

=1

n− p− 1Y T (I −H)Y

• σ2 ist ein erwartungstreuer Schätzer von σ2

• (n− p− 1) σ2

σ2 ∼ χ2n−p−1

Multivariate Statistik@LS-Kneip 3–10

Page 92: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Verteilung von βj , j = 0, 1, . . . , p

• Aus β =

β0...

βp

∼ Np+1(β, σ2 · [XTX]−1)︸ ︷︷ ︸

c00 · · · c0p

.

.

.. . .

.

.

.

cp0 · · · cpp

folgt βj ∼ N(βj , σ

2 · cjj)

⇒ Standardisierung

βj − βjσ√cjj

∼ N(0, 1)

• Ersetzt man σ2 durch σ2 folgt die standardisierte Schätz-funktion einer Student t-Verteilung

βj − βjσ√cjj

∼ tn−p−1

Konfidenzintervalle

Es gilt:

P

(−tn−p−1;1−α/2 ≤ βj − βj

σ√cjj

≤ tn−p−1;1−α/2

)= 1− α

⇒ P(βj − tn−p−1;1−α/2 σ

√cjj ≤ βj ≤ βj + tn−p−1;1−α/2 σ

√cjj)= 1− α

⇒ Konfidenzintervall für βj zum Niveau 1− α:

βj = βj ± tn−p−1;1−α/2 σ√cjj

Multivariate Statistik@LS-Kneip 3–11

Page 93: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anmerkung:Allgemein gilt tn−p−1;1−α > tn−p∗−1;1−α, falls p > p∗. Mit wach-sender Parameterzahl werden daher i.A. die Konfidenzin-tervalle größer, was bedeutet, dass die Schätzungen unge-nauer sind (man beachte aber, dass sich durch Hinzufügen vonweiteren erklärenden Variablen auch die Werte von √

cjj ändern;i.A. werden diese jedoch ebenfalls größer)

Hypothesen Tests

• Man betrachtet Hypothesen der Form

H0 : βj = c gegen H1 : βj = c

– c vorgegener Wert, j ∈ {1, . . . , p}

• von besonderem Interesse: H0 : βj = 0

• Teststatistik:

T =βj − c

σ√cjj

• Ablehnung von H0, falls |T | ≥ tn−p−1;1−α/2

(bzw. falls p-Wert zu klein)

• analog: einseitige Tests

Multivariate Statistik@LS-Kneip 3–12

Page 94: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Fortsetzung Beispiel 3.1 (Bilanzdaten)Call:

lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +

NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +

CURRAT, data = FinAccount.data)

Residuals:

Min 1Q Median 3Q Max

-0.16446 -0.02444 0.00393 0.01966 0.12775

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.29223 0.16282 1.795 0.0839 .

WCFTCL 0.14052 0.24090 0.583 0.5645

WCFTDT 0.40595 0.33880 1.198 0.2413

GEARRAT 0.02987 0.11953 0.250 0.8045

LOGSALE 0.17788 0.16804 1.059 0.2992

LOGASST -0.18583 0.16335 -1.138 0.2653

NFATAST -0.16564 0.16948 -0.977 0.3371

CAPINT -0.01540 0.03343 -0.461 0.6488

FATTOT -0.10143 0.10528 -0.963 0.3439

INVTAST -0.21510 0.22294 -0.965 0.3432

PAYOUT -0.02090 0.01757 -1.190 0.2446

QUIKRAT -0.08236 0.10911 -0.755 0.4569

CURRAT 0.01953 0.07695 0.254 0.8016

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.06382 on 27 degrees of freedom

Multiple R-Squared: 0.8526, Adjusted R-squared: 0.7871

F-statistic: 13.02 on 12 and 27 DF, p-value: 2.843e-08

Analysis of Variance Table

Response: RETCAP

Df Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.51985 0.51985 127.6391 9.736e-12 ***

WCFTDT 1 0.01798 0.01798 4.4153 0.04509 *

GEARRAT 1 0.01456 0.01456 3.5753 0.06942 .

LOGSALE 1 0.00154 0.00154 0.3785 0.54358

LOGASST 1 0.01876 0.01876 4.6061 0.04100 *

NFATAST 1 0.03311 0.03311 8.1284 0.00825 **

CAPINT 1 0.00032 0.00032 0.0784 0.78155

FATTOT 1 0.00652 0.00652 1.6010 0.21657

INVTAST 1 0.00663 0.00663 1.6275 0.21292

PAYOUT 1 0.00611 0.00611 1.5008 0.23113

QUIKRAT 1 0.01058 0.01058 2.5982 0.11861

CURRAT 1 0.00026 0.00026 0.0644 0.80157

Residuals 27 0.10997 0.00407

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Multivariate Statistik@LS-Kneip 3–13

Page 95: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Correlation of Coefficients

(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST

(Intercept) 1.000000000 0.52104986 -0.54667642 -0.524345719 -0.13431042 0.009418179 -0.15541665

WCFTCL 0.521049863 1.00000000 -0.94471505 -0.580881116 -0.21910569 0.156580117 0.20985032

WCFTDT -0.546676421 -0.94471505 1.00000000 0.793465605 0.28929574 -0.230504793 -0.21524620

GEARRAT -0.524345719 -0.58088112 0.79346561 1.000000000 0.33026827 -0.281804819 -0.11432615

LOGSALE -0.134310420 -0.21910569 0.28929574 0.330268268 1.00000000 -0.989451472 0.20278802

LOGASST 0.009418179 0.15658012 -0.23050479 -0.281804819 -0.98945147 1.000000000 -0.20268216

NFATAST -0.155416650 0.20985032 -0.21524620 -0.114326146 0.20278802 -0.202682156 1.00000000

CAPINT -0.014666905 0.09818840 -0.13879375 -0.170008706 -0.90601862 0.904508642 -0.18921747

FATTOT 0.058513448 -0.04655850 -0.05094791 -0.235382657 -0.29072896 0.292141104 -0.78974222

INVTAST -0.432175413 0.02377413 -0.05891393 -0.095325592 -0.19183853 0.227158072 0.36231759

PAYOUT -0.325020023 -0.20782823 0.29470453 0.422478113 0.05062779 -0.009843849 0.04370014

QUIKRAT -0.533635028 -0.14167952 0.08172062 -0.008014308 -0.07434729 0.127580944 0.35239596

CURRAT 0.388744950 -0.02415868 0.06650992 0.103014568 0.16030983 -0.204815916 -0.32561462

CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT

(Intercept) -0.01466690 0.05851345 -0.43217541 -0.325020023 -0.533635028 0.38874495

WCFTCL 0.09818840 -0.04655850 0.02377413 -0.207828230 -0.141679524 -0.02415868

WCFTDT -0.13879375 -0.05094791 -0.05891393 0.294704529 0.081720616 0.06650992

GEARRAT -0.17000871 -0.23538266 -0.09532559 0.422478113 -0.008014308 0.10301457

LOGSALE -0.90601862 -0.29072896 -0.19183853 0.050627792 -0.074347291 0.16030983

LOGASST 0.90450864 0.29214110 0.22715807 -0.009843849 0.127580944 -0.20481592

NFATAST -0.18921747 -0.78974222 0.36231759 0.043700140 0.352395957 -0.32561462

CAPINT 1.00000000 0.24485828 0.08042719 -0.024562195 0.078676806 -0.10517463

FATTOT 0.24485828 1.00000000 -0.04646685 -0.201524746 -0.086966926 0.07828367

INVTAST 0.08042719 -0.04646685 1.00000000 -0.005059230 0.852478848 -0.87138283

PAYOUT -0.02456219 -0.20152475 -0.00505923 1.000000000 -0.003892286 -0.00342210

QUIKRAT 0.07867681 -0.08696693 0.85247885 -0.003892286 1.000000000 -0.94774362

CURRAT -0.10517463 0.07828367 -0.87138283 -0.003422100 -0.947743619 1.00000000

Multivariate Statistik@LS-Kneip 3–14

Page 96: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Konfidenzintervall für m(X01, . . . , X0p) zu gegebenenX01, . . . , X0p

• m(X01, . . . , X0p) = β0 +p∑

j=1

βjX0j = aT0 β für a0 =

1

X01

...

X0p

• m(X01, . . . , X0p) = β0 +

p∑j=1

βjX0j = aT β

⇒ E(m(X01, . . . , X0p) = E(aT0 β) = aT0 β = m(X01, . . . , X0p)

Var(aT0 β) = aT0 COV(β)a0 = σ2aT0 [XTX]−1a0

⇒ m(X01, . . . , X0p) ∼ N( aT0 β︸︷︷︸m(X01,...,X0p)

, σ2aT0 [XTX]−1a0)

und

m(X01, . . . , X0p)−m(X01, . . . , X0p)

σ√aT0 [X

TX]−1a0∼ tn−p−1

Konfidenzintervall:

β0 +

p∑j=1

βjX0j︸ ︷︷ ︸m(X01,...,X0p)

= β0+

p∑j=1

βjX0j±tn−p−1;1−α/2 σ√aT0 [X

TX]−1a0

Multivariate Statistik@LS-Kneip 3–15

Page 97: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anmerkung:Ein wichtiges Maß für die Genauigkeit der Schätzung von m

aus den Datenpunkten (X11, . . . , X1p), . . . , (Xn1, . . . , Xnp) ist dermittlere quadratische Fehler:

MSE =1

n

n∑i=1

E[(m(Xi1, . . . , Xip)− m(Xi1, . . . , Xip))

2]

• Man erhält

MSE =1

n

n∑i=1

Var (m(Xi1, . . . , Xip))

=1

n

n∑i=1

σ2(1, Xi1, . . . , Xip) · [XTX]−1 ·

1

Xi1

...

Xip

• (1, Xi1, . . . , Xip) · [XTX]−1 ·

1

Xi1

...

Xip

= hii

hii ist das i-te Diagonalelement der MatrixH = X[XTX]−1XT

⇒ MSE =σ2

n

n∑i=1

hii =σ2

nspur(H) = σ2 p+ 1

n

• Bei gleichem σ2 liefert daher ein hochdimensionales Modell(p groß) weniger genaue Schätzer als ein niedrigdimensionales(p klein)

• Das Hinzufügen weiterer erklärender Variablen in ein beste-hendes Regressionsmodell hat nur Sinn, wenn entweder

Multivariate Statistik@LS-Kneip 3–16

Page 98: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

a) die neue Variable als Funktion der bereits vorhandenenVariable definiert ist und nichtlineare Zusammenhängequantifiziert, die die Modellanpassung entscheidend ver-bessern

oder

b) die neue Variable einen wichtigen Teil der im Rahmendes bestehenden Modells verbleibenden Streuung der Y -Werte erklärt; sie führt also auf ein neues Modell mit be-tragsmäßig kleineren Zufallschwankungen ϵ und dement-sprechend kleinerer Fehlervarianz σ2. Die Reduktion derFehlervarianz σ2 muss größer sein als die durch den Term„ p+1

n “ bedingte Erhöhung des MSE

• In einem Regressionsmodell ist es sinnvoll Variablen zu eli-minieren, die wenig oder gar nichts zur Erklärung der Y -Werte beitragen

3.3 Prognose

• Problem: Prognostiziere zu gegebenen Werten (X01, . . . , X0p)

der erklärenden Variablen die zugehörige Realisierung Y0 derZielvariable Y

• Modell:

Y0 = β0 +

p∑j=1

βjX0j + ϵ0 = m(X01, . . . , X0p) + ϵ0

ϵ0 ∼ N(0, σ2); ϵ0 unabhängig von ϵ1, . . . , ϵn

Multivariate Statistik@LS-Kneip 3–17

Page 99: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Prognose:

Y0 = β0 +

p∑j=1

βjx0j = m(X01, . . . , X0p)

• Problem: Genauigkeit der Prognose

– E(Y0 − Y0) = 0

– Mit a0 =

X01

...

X0p

gilt Y0 = aT0 β + ϵ0, Y = aT0 β

und daher

Var(Y0 − Y0) = Var(aT0 β − aT0 β + ϵ0)

= Var(AT0 β) + Var(ϵ0)

= σ2aT0 [XTX]−1a0 + σ2

⇒ Y0 − Y0 ∼ N(0, σ2(1 + aT0 [X

TX]−1a0))

⇒ Y0 − Y

σ√1 + aT0 [X

TX]−1a0∼ tn−p−1

• Prognoseintervall

Y0 = Y0 ± tn−p−1;1−α/2 σ√1 + aT0 [X

TX]−1a0

Multivariate Statistik@LS-Kneip 3–18

Page 100: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.4 Die Streuungszerlegung

• Frage: Welcher Anteil der Streunung der Yi lässt sich durchdie Regression von Y auf X erklären?

• Man beachte: 1n

n∑i=1

Yi = Y

• Streuungszerlegung:

n∑i=1

(Yi − Y )2︸ ︷︷ ︸SQT

=

n∑i=1

(Yi − Y )2︸ ︷︷ ︸SQE

+

n∑i=1

(Yi − Y )2︸ ︷︷ ︸SQR

∗ Yi = β0 +p∑

j=1

βjXij (ohne Fehler) ⇒ SQR = SQE

∗ β1 = β2 = . . . = βp = 0 ⇒ Yi = Y ⇒ SQT = SQR

• Varianzanalyse:Wie in der einfachen Regression lässt sich aufbauend auf derStreuungszerlegung ein F -Test zum Test der Hypothese

H0 : β1 = β2 = . . . = βp = 0 gegen H1 : ∃ βj = 0

durchführen

∗ Qualitativ entspricht H0 der Hypothese „das Regressions-modell erklärt keinerlei Variation der Yi“

∗ Teststatistik

F =SQE /p

SQR /n− p− 1

∗ Unter H0: F ∼ Fp,n−p−1

∗ Ablehnung von H0, falls F > Fp,n−p−1;1−α

(bzw. p-Wert zu klein)

Multivariate Statistik@LS-Kneip 3–19

Page 101: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.5 Das Bestimmtheitsmaß

• Wie bei der einfachen Regression ist das Bestimmtheitsmaß(oder „Determinationskoeffizient“) definiert durch

R2 =SQE

SQT=

n∑i=1

(Yi − Y )2

n∑i=1

(Yi − Y )2= 1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2

• 0 ≤ R2 ≤ 1

• Wie bei der linearen Einfachregression dient R2 als Maßzahlfür die Güte der Modellanpassung

R2 nahe 1 ⇒ σ2 (Schätzung von σ2) klein,z.B. gute Prognosen zu erwarten

R2 nahe 0 ⇒ β1 ≈ β2 ≈ . . . ≈ βp ≈ 0

Regression nutzlos

• R2 wird oft dazu benutzt verschiedene Regressionsmodelle(mit unterschiedlichen Variablen Xij) zu vergleichen:Besseres Modell ⇔ R2 größer

• Problem bei Modellen mit unterschiedlicher DimensionModell 1: Yi = β0 +

p∑j=1

βjXij + ϵi ⇒ R2p

Modell 2: Yi = β0 +p∑

j=1

βjXij +βp+1Xip+1 + ϵi ⇒ R2p+1

Notwendigerweise: R2p+1 ≥ R2

p

• Es ist möglich, diese Dimensionsabhängigkeit zu verringern,indem man zum „adjustierten Bestimmtheitsmaß“ (adjustedR2) übergeht.

Multivariate Statistik@LS-Kneip 3–20

Page 102: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Adjusted R2:

R2adj = 1−

n∑i=1

(Yi − Yi)2/n− p− 1

n∑i=1

(Yi − Y )2/n− 1

Begründung:

R2 = 1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2= 1−

1n−1

n∑i=1

(Yi − Yi)2

1n−1

n∑i=1

(Yi − Y )2

= 1−

dimensionsabhängig︷ ︸︸ ︷n− p− 1

n−1 σ2

1n−1

n∑i=1

(Yi − Y )2

Dagegen:

R2adj = 1− σ2

1n−1

n∑i=1

(Yi − Y )2

Multivariate Statistik@LS-Kneip 3–21

Page 103: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anmerkung:In manchen Anwendungen werden Modelle ohne Konstante β0verwendet

Beispiel: Working Modell

Yi = β1Xi + β2Xi logXi + ϵi

• Schätzung und Analyse dieser Modelle sind völlig analog zudem oben beschriebenen Vorgehen. Bzgl. Konstruktion vonKonfidenzintervallen, Prognose, etc. sind genau die gleichenVerfahren anzuwenden

• Einzige Ausnahme: Die Streuungszerlegung gilt ausschließ-lich für Modelle mit einer Konstanten β0.⇒ Probleme bei der Definition von R2:

1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2kann negativ werden

• Für Modelle ohne Konstante β0 wird daher in der Praxishäufig eine alternative Definition von R2 benutzt:

R2 = 1−

n∑i=1

(Yi − Yi)2

n∑i=1

Y 2i

⇒ Die Werte von R2 für Modelle mit und ohne Konstante sindnicht vergleichbar

Multivariate Statistik@LS-Kneip 3–22

Page 104: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.6 Modelldiagnose

• Regression: Residualanalyse dient als Werkzeug zu Modell-diagnose

• Bei der einfachen Regression sieht man Verletzungen der Mo-dellannahmen oft schon am Streudiagramm selbst; Residual-plots zeigen solche Effekte jedoch häufig deutlicher und sindauch im Rahmen der multiplen Regression anwendbar.

• Grundidee: Laut Modellannahme sind ϵ1, ϵ2, . . . , ϵn unab-hängig und identisch verteilt mit Mittelwert 0 (sowie ϵi ∼N(0, σ2)) ⇒ betrachtet man die Werte von ϵi in Abhängig-keit von Xij (bzw. Yi), so sollten diese Werte rein zufällig umNull schwanken; keine Muster, keine systematischen Struk-turen

• Residuum ϵi = Yi − Yi = Yi − βo −p∑

j=1

βjXij

• Graphik („Residualplot“): Üblicherweise werden die Wer-te der ϵi in Abhängigkeit von den prognostizierten WertenYi graphisch dargestellt (alternativ: ϵi als Funktion des In-dex i oder in Abhängigkeit von Xij) ⇒ Identifikation vonmöglichen Problemen, wie z.B.

Idealfall: keine systematischen Strukturen, ϵi rein zufällig(gutes Modell)

Multivariate Statistik@LS-Kneip 3–23

Page 105: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

In der Praxis werden mehrere verschiedene Arten von Resi-dualplots benutzt. Wichtige Variante: studentisierte Re-siduen

Analyse von ϵi (für p = 1): Es gilt E(ϵi) = 0 und

∗ Var(ϵi) = Var(Yi − Yi) = σ2

1− 1

n− (Xi − X)2

n∑j=1

(Xj − Xj)2

∗ COV(ϵi, ϵk) = −σ2

1

n+

(Xi − X)(Xk − X)n∑

j=1

(Xj − X)2

⇒ i.A. negative Korrelation; die ϵi sind tendenziell stärkergestreut als die wahren Fehlerterme ϵi

– Studentisierte Residuen

ri =ϵi

σ

√1− 1

n − (Xi−X)2n∑

i=1(Xj−X)2

⇒ Var(ri) ≈ Var(ϵiσ) = 1

⇒ Normalverteilung: Etwa 95% der ri zwischen −2 und 2;etwa 99, 9% der ri zwischen −3 und 3

Studentisierte Residuen für p>1:

ri =ϵi

σ√1− hii

Es gilt wiederum Var(ri) = Var(ϵi/σ) = 1.

Multivariate Statistik@LS-Kneip 3–24

Page 106: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Mögliche Probleme:a.) mangelnde Modellanpassung

0 50 100 150

−2

02

4 Mangelnde Modellanpassung

fitted y

resi

dual

s

Mögliche Lösungen: Komplexeres linearer Modell oder nicht-lineare/nichtparametrische Regression

Multivariate Statistik@LS-Kneip 3–25

Page 107: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

b.) Heteroskedastizität

0 50 100 150

−20

0−

150

−10

0−

500

5010

0

Heteroskedadastizität

fitted y_i

Res

idua

ls

Multivariate Statistik@LS-Kneip 3–26

Page 108: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Mögliche Lösungen (illustriert für p = 1)

– Datentransformation, z.B.

Y → Y ∗ = lnY, Y → Y ∗ = ln(Y + 1), Y → Y ∗ =√Y ,

Y → Y ∗ =1

Y, . . .

oderX → X∗ = lnX, X → X∗ =

√X, . . .

⇒ Multiple (einfache) Regression von Y ∗ auf X∗

– Formal: Datentransformation:

Nichtlineares Modell ⇔ Lineares ModellBeispiel:

Yi = β0eβ1X(1 + δi) = β0e

β1X + β0eβ1X · δi︸ ︷︷ ︸ϵi

wobei δ1, . . . , δn i.i.d ,Var(δi) = σ2

⇒ Fehlerterme ϵi = β0eβ1Xδi heteroskedastisch,

⇒ Var(ϵi) = (β0eβ1X)2σ2

⇒ lnYi = lnβ0 + β1Xi + ln(1 + δi)︸ ︷︷ ︸≈ homoskedastische Fehler

– Lösung in komplexeren Situationen:Verallgemeinerte Kleinste-Quadrate Methode

Multivariate Statistik@LS-Kneip 3–27

Page 109: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

c) Existenz von Ausreißern

Residualplot: Es existieren extrem große oder extrem kleineBeobachtungen, deren Werte weit außerhalb des „normalen“Wertebereichs liegen („Ausreißer“)

0 20 40 60 80 100

−40

−20

020

40

Multivariate Statistik@LS-Kneip 3–28

Page 110: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

0 20 40 60 80 100 120

−20

−10

010

2030

4050

Solche untypischen Beobachtungen (Ausreißer) können dieWerte der geschätzen Parameter β0, β1, Konfidenzintervalle,etc. sehr stark beeinflussen. Im Extremfall können sie zurFolge haben, dass die Resultate der gesamten Regressions-analyse unsinnig und nicht interpretierbar sind.

Es exisitiert eine Vielzahl von statistischen Diagnoseverfah-ren, die es erlauben, den Einfluss einzelner Beobachtungenauf die Modellanpassung zu diagnostizieren und zu quantifi-zieren. Ein wichtiges Diagnosewerkzeug ist die Distanz vonCook („Cook’s D“).

Multivariate Statistik@LS-Kneip 3–29

Page 111: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Identifikation von Ausreißern: Cook‘s Distance

– Daten (Y1, X1), . . . , (Yn, Xn)

⇒ Schätzungen β der Regressionsparameter

– Problem: Identifikation von einzelnen Beobachtungen, diedie Schätzungen „zu stark“ beeinflussen

– Ansatz (illustriert für p = 1): Für eine gegebene Beobach-

tung (Yi, Xi) berechnet man neue Schätzer β−i =

(β0,−i

β1,−i

)aus

den verbleibenden Daten (Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn),die durch Weglassen der betrachteten Beobachtungen (Yi, Xi)

entstehen

→ geringer Einfluss von (Yi, Xi) auf die Schätzwerte ⇔

kleiner Unterschied zwischen β =

(β0,

β1,

)und β−i =

(β0,−i

β1,−i

)→ „starker“ Einfluss von (Yi, Xi) ⇔ großer Unterschied zwi-schen β und β−i

– Cook’s Distance:

Di =(β−i − β)T ·XTX · (β−i − β)

2σ2

wobei X =

1 X1

1 X2

......

1 Xn

Multivariate Statistik@LS-Kneip 3–30

Page 112: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

– Verallgemeinerung auf multiple Regression (p > 1 erklärendenVariablen)

Di =(β−i − β)T ·XTX · (β−i − β)

(p+ 1)σ2

mit β =

β0

β1...

βp

, β−i =

β0,−i

β1,−i

...

βp,−i

, X =

1 X11 · · · X1p

......

......

1 Xn1 · · · Xnp

– Faustregel: Einfluss von (Yi, Xi) „zu stark“, falls Di > 0, 8

Weiteres mögliches Problem: Starke Abweichung der Verteilungder Residuen von der Normalverteilung⇒ Überprüfung mit Hilfe eines NQ-Plots

Multivariate Statistik@LS-Kneip 3–31

Page 113: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

−0.4 −0.2 0.0 0.2

−0.

15−

0.10

−0.

050.

000.

050.

10

residuals

FinAccount.lm$fitted

Fin

Acc

ount

.lm$r

esid

10 1517

21

23

36

Multivariate Statistik@LS-Kneip 3–32

Page 114: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

cook

s.di

stan

ce(F

inA

ccou

nt.lm

)

15

36

Beispiel: Finanzdaten

Multivariate Statistik@LS-Kneip 3–33

Page 115: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

FinAccount.data (logsale, wcftcl, retcap)

3.5 4.0 4.5 5.0 5.5 6.0−0.

8−

0.6

−0.

4−

0.2

0.0

0.2

0.4

−1.5−1.0

−0.5 0.0

0.5 1.0

FinAccount.data$LOGSALE

Fin

Acc

ount

.dat

a$W

CF

TC

L

Fin

Acc

ount

.dat

a$R

ET

CA

P

Multivariate Statistik@LS-Kneip 3–34

Page 116: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Fortsetzung Beispiel 3.1 (Beobachtung Nr. 36 eliminiert)Call:

lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +

NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +

CURRAT, data = FinAccount.data, subset = subset36)

Residuals:

Min 1Q Median 3Q Max

-0.171573 -0.023960 0.002148 0.021181 0.125335

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.31709 0.15510 2.044 0.0512 .

WCFTCL 0.70177 0.36339 1.931 0.0644 .

WCFTDT -0.17173 0.43353 -0.396 0.6952

GEARRAT -0.02223 0.11647 -0.191 0.8501

LOGSALE 0.22334 0.16118 1.386 0.1776

LOGASST -0.23342 0.15693 -1.487 0.1489

NFATAST -0.18345 0.16116 -1.138 0.2654

CAPINT -0.02245 0.03194 -0.703 0.4884

FATTOT -0.09713 0.09999 -0.971 0.3403

INVTAST 0.01530 0.24133 0.063 0.9499

PAYOUT -0.01818 0.01674 -1.086 0.2874

QUIKRAT 0.02183 0.11610 0.188 0.8523

CURRAT -0.09164 0.09201 -0.996 0.3284

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.06059 on 26 degrees of freedom

Multiple R-Squared: 0.8613, Adjusted R-squared: 0.7973

F-statistic: 13.46 on 12 and 26 DF, p-value: 3.016e-08

Analysis of Variance Table

Response: RETCAP

Df Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.46219 0.46219 125.8814 1.832e-11 ***

WCFTDT 1 0.02529 0.02529 6.8887 0.014332 *

GEARRAT 1 0.01003 0.01003 2.7318 0.110395

LOGSALE 1 0.00172 0.00172 0.4682 0.499873

LOGASST 1 0.01576 0.01576 4.2922 0.048344 *

NFATAST 1 0.03464 0.03464 9.4357 0.004941 **

CAPINT 1 0.00065 0.00065 0.1768 0.677554

FATTOT 1 0.00618 0.00618 1.6825 0.205992

INVTAST 1 0.00726 0.00726 1.9780 0.171441

PAYOUT 1 0.00580 0.00580 1.5805 0.219869

QUIKRAT 1 0.01984 0.01984 5.4035 0.028174 *

CURRAT 1 0.00364 0.00364 0.9920 0.328441

Residuals 26 0.09546 0.00367

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Multivariate Statistik@LS-Kneip 3–35

Page 117: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Correlation of Coefficients

(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST

(Intercept) 1.00000000 0.38956136 -0.45837896 -0.52737995 -0.121073173 -0.00302710 -0.15915420

WCFTCL 0.38956136 1.00000000 -0.96215539 -0.53113627 -0.026242779 -0.02115385 0.08868250

WCFTDT -0.45837896 -0.96215539 1.00000000 0.72453429 0.117349008 -0.06674973 -0.12219710

GEARRAT -0.52737995 -0.53113627 0.72453429 1.00000000 0.286597321 -0.23702015 -0.09870837

LOGSALE -0.12107317 -0.02624278 0.11734901 0.28659732 1.000000000 -0.98962238 0.19253690

LOGASST -0.00302710 -0.02115385 -0.06674973 -0.23702015 -0.989622382 1.00000000 -0.19151853

NFATAST -0.15915420 0.08868250 -0.12219710 -0.09870837 0.192536899 -0.19151853 1.00000000

CAPINT -0.02348492 -0.02487289 -0.02789975 -0.13962728 -0.907061253 0.90533313 -0.18158322

FATTOT 0.06005554 -0.01247175 -0.05231081 -0.23416285 -0.284646578 0.28534978 -0.78953987

INVTAST -0.33908138 0.38637396 -0.36035733 -0.18957546 -0.098394313 0.12362249 0.29059130

PAYOUT -0.31627587 -0.06679073 0.16308193 0.39184096 0.061558533 -0.02217937 0.03893778

QUIKRAT -0.43819459 0.27124705 -0.24855858 -0.10858215 -0.001602355 0.04362809 0.28885624

CURRAT 0.25864173 -0.48443956 0.44671315 0.21651853 0.039739641 -0.06798273 -0.22435488

CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT

(Intercept) -0.02348492 0.06005554 -0.33908138 -0.31627587 -0.438194585 0.25864173

WCFTCL -0.02487289 -0.01247175 0.38637396 -0.06679073 0.271247052 -0.48443956

WCFTDT -0.02789975 -0.05231081 -0.36035733 0.16308193 -0.248558578 0.44671315

GEARRAT -0.13962728 -0.23416285 -0.18957546 0.39184096 -0.108582147 0.21651853

LOGSALE -0.90706125 -0.28464658 -0.09839431 0.06155853 -0.001602355 0.03973964

LOGASST 0.90533313 0.28534978 0.12362249 -0.02217937 0.043628093 -0.06798273

NFATAST -0.18158322 -0.78953987 0.29059130 0.03893778 0.288856236 -0.22435488

CAPINT 1.00000000 0.24088219 0.01676524 -0.03341470 0.019633816 -0.01549034

FATTOT 0.24088219 1.00000000 -0.03034511 -0.19903019 -0.067805734 0.04898199

INVTAST 0.01676524 -0.03034511 1.00000000 0.03487938 0.884015429 -0.89884279

PAYOUT -0.03341470 -0.19903019 0.03487938 1.00000000 0.033478497 -0.05244663

QUIKRAT 0.01963382 -0.06780573 0.88401543 0.03347850 1.000000000 -0.94591501

CURRAT -0.01549034 0.04898199 -0.89884279 -0.05244663 -0.945915015 1.00000000

Multivariate Statistik@LS-Kneip 3–36

Page 118: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

0 10 20 30 40

01

23

45

6

Index

cook

s.di

stan

ce(F

inA

ccou

nt.lm

36)

15

21

Bilanzdaten: Beobachtung Nr. 36 eliminiert

Multivariate Statistik@LS-Kneip 3–37

Page 119: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Fortsetzung Beispiel 3.1 (Beob. Nr. 36, 21 eliminiert)Call:

lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +

NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +

CURRAT, data = FinAccount.data, subset = subset3621)

Residuals:

Min 1Q Median 3Q Max

-0.114051 -0.025729 0.002496 0.020328 0.096191

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.24883 0.14386 1.730 0.09603 .

WCFTCL 1.11519 0.36955 3.018 0.00579 **

WCFTDT -0.21457 0.39528 -0.543 0.59206

GEARRAT -0.01992 0.10610 -0.188 0.85261

LOGSALE 0.49969 0.18335 2.725 0.01156 *

LOGASST -0.48743 0.17500 -2.785 0.01005 *

NFATAST -0.30425 0.15446 -1.970 0.06003 .

CAPINT -0.08022 0.03706 -2.165 0.04017 *

FATTOT -0.11086 0.09125 -1.215 0.23571

INVTAST 0.23047 0.23588 0.977 0.33790

PAYOUT 0.00168 0.01717 0.098 0.92284

QUIKRAT 0.08012 0.10827 0.740 0.46617

CURRAT -0.18976 0.09244 -2.053 0.05070 .

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.0552 on 25 degrees of freedom

Multiple R-Squared: 0.6958, Adjusted R-squared: 0.5498

F-statistic: 4.765 on 12 and 25 DF, p-value: 0.0004878

Analysis of Variance Table

Response: RETCAP

Df Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.047642 0.047642 15.6372 0.000557 ***

WCFTDT 1 0.010905 0.010905 3.5794 0.070138 .

GEARRAT 1 0.005412 0.005412 1.7763 0.194620

LOGSALE 1 0.000785 0.000785 0.2578 0.616117

LOGASST 1 0.013883 0.013883 4.5568 0.042776 *

NFATAST 1 0.033529 0.033529 11.0050 0.002783 **

CAPINT 1 0.001899 0.001899 0.6234 0.437195

FATTOT 1 0.006151 0.006151 2.0190 0.167700

INVTAST 1 0.006755 0.006755 2.2171 0.149000

PAYOUT 1 0.004616 0.004616 1.5151 0.229817

QUIKRAT 1 0.029806 0.029806 9.7830 0.004433 **

CURRAT 1 0.012839 0.012839 4.2140 0.050699 .

Residuals 25 0.076167 0.003047

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Multivariate Statistik@LS-Kneip 3–38

Page 120: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Correlation of Coefficients

(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST

(Intercept) 1.00000000 0.25886305 -0.44161845 -0.51953513 -0.20815361 0.10633325 -0.08995742

WCFTCL 0.25886305 1.00000000 -0.88019622 -0.47189260 0.24743517 -0.27189310 -0.06265495

WCFTDT -0.44161845 -0.88019622 1.00000000 0.72346150 0.06809419 -0.02963908 -0.10265551

GEARRAT -0.51953513 -0.47189260 0.72346150 1.00000000 0.23469242 -0.19861549 -0.09651239

LOGSALE -0.20815361 0.24743517 0.06809419 0.23469242 1.00000000 -0.99283653 -0.03958873

LOGASST 0.10633325 -0.27189310 -0.02963908 -0.19861549 -0.99283653 1.00000000 0.03055107

NFATAST -0.08995742 -0.06265495 -0.10265551 -0.09651239 -0.03958873 0.03055107 1.00000000

CAPINT 0.09870425 -0.29287808 0.00479410 -0.11497895 -0.94123940 0.93787338 0.05703034

FATTOT 0.07015313 -0.03774640 -0.04959255 -0.23425352 -0.26336644 0.26718843 -0.73050733

INVTAST -0.37870246 0.48369898 -0.35114796 -0.17353256 0.14366455 -0.11495364 0.14476753

PAYOUT -0.36251907 0.15120039 0.12490684 0.35197000 0.31907267 -0.28120406 -0.10997746

QUIKRAT -0.46071386 0.33246193 -0.25179089 -0.10420785 0.12689705 -0.08859774 0.20169866

CURRAT 0.30983668 -0.58095791 0.42281895 0.19265006 -0.22377246 0.19293233 -0.06226297

CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT

(Intercept) 0.09870425 0.07015313 -0.37870246 -0.3625191 -0.46071386 0.30983668

WCFTCL -0.29287808 -0.03774640 0.48369898 0.1512004 0.33246193 -0.58095791

WCFTDT 0.00479410 -0.04959255 -0.35114796 0.1249068 -0.25179089 0.42281895

GEARRAT -0.11497895 -0.23425352 -0.17353256 0.3519700 -0.10420785 0.19265006

LOGSALE -0.94123940 -0.26336644 0.14366455 0.3190727 0.12689705 -0.22377246

LOGASST 0.93787338 0.26718843 -0.11495364 -0.2812041 -0.08859774 0.19293233

NFATAST 0.05703034 -0.73050733 0.14476753 -0.1099775 0.20169866 -0.06226297

CAPINT 1.00000000 0.22581777 -0.21227688 -0.3080268 -0.11748793 0.25026183

FATTOT 0.22581777 1.00000000 -0.04991539 -0.2039406 -0.07891690 0.06956516

INVTAST -0.21227688 -0.04991539 1.00000000 0.1954777 0.88237285 -0.91243979

PAYOUT -0.30802678 -0.20394057 0.19547769 1.0000000 0.12738969 -0.23610374

QUIKRAT -0.11748793 -0.07891690 0.88237285 0.1273897 1.00000000 -0.92804032

CURRAT 0.25026183 0.06956516 -0.91243979 -0.2361037 -0.92804032 1.00000000

Multivariate Statistik@LS-Kneip 3–39

Page 121: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

0.00 0.05 0.10 0.15 0.20 0.25

−0.

10−

0.05

0.00

0.05

0.10

residuals (obs. 36 and 21 excluded)

FinAccount.lm3621$fitted

Fin

Acc

ount

.lm36

21$r

esid

Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert

Multivariate Statistik@LS-Kneip 3–40

Page 122: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

0 10 20 30

0.0

0.1

0.2

0.3

0.4

0.5

Index

cook

s.di

stan

ce(F

inA

ccou

nt.lm

3621

)

31

Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert

Multivariate Statistik@LS-Kneip 3–41

Page 123: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

−2 −1 0 1 2

−0.

10−

0.05

0.00

0.05

0.10

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

17

22

29

Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert

Multivariate Statistik@LS-Kneip 3–42

Page 124: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.7 Modellbildung

3.7.1 Komplexere Modelle mit quadratischen Termenund Interaktionen

• Wie in der einfachen Regression ist auch in der multiplenRegression die Annahme eines linearen Zusammenhangs zwi-schen Y und den erklärenden Variablen eine wesentliche Re-striktion

• Eine Standardoption in vielen statistischen Softwarepaketenist die Erfassung von nichtlinearen Effekten durch das Hin-zufügen von quadratischen Termen und/oder Interaktionen

Beispiel:Yi als Funktion von zwei erklärenden Variablen Xi1 und Xi2

– Lineares Modell:

Yi = β0 + β1Xi1 + β2Xi2 + ϵi

– Modell mit quadratischen Termen und Interaktionen:

Yi = β0+β1Xi1+β2Xi2+ β3X2i1 + β4X

2i2︸ ︷︷ ︸

quadratische Terme

+β5Xi1Xi2︸ ︷︷ ︸Interaktion

+ϵi

• Die Notwendigkeit der zusätzlichen Terme kann durch einenVergleich der Modellanpassung des nichtlinearen Modells imVergleich zum linearen Modell überprüft werden (R2

adj grö-ßer für das nichtlineare Modell als für das lineare Modell?).Ein „F -Test“ (siehe Kapitel 4.9) erlaubt einen Test der Hy-pothese

H0 : β3 = β4 = β5 = 0

Anmerkung: Das Hinzufügen nichtlinearer Terme und dieanschließende Überprüfung der Modellanpassung machen i.A.

Multivariate Statistik@LS-Kneip 3–43

Page 125: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

nur dann Sinn, wenn R relativ groß im Vergleich zur Anzahlder erklärenden Variablen ist.

• Bei bestimmten ökonomischen Variablen wird „standardmä-ßig“ ein entsprechender quadratischer Term in das Modelleingefügt. Ein Beispiel ist die Variable „Alter einer Person“.Fast alle Modelle,bei denen als erklärender Variable Alterauftritt, beinhalten auch die Variable (Alter)2. Der Grundist, dass sich Personen mittleren Alters in fast allen Aspek-ten ökonomischen Verhaltens sowohl von sehr jungen Leutenals auch von Rentnern unterscheiden.

• Eine weitere wichtige Möglichkeit zur Verbesserung der Mo-dellanpassung sind VariablentransformationenBeispiele:

Yi = β0 + β1 lnXi1 + β2Xi2 + ϵi

Yi = β0 + β1√Xi1 + β2 lnXi2 + ϵi

lnYi = β0 + β1 lnXi1 + β2 lnXi2 + ϵi

......

• Von besonderem Interesse sind Transformationen, die auf„mehr Normalität“ führen. Man beachte, dass der Zusam-menhang zwischen Yi und den erklärenden VariablenXi1, Xi2, . . . , Xip notwendigerweise linear ist, falls(Yi, Xi1, . . . , Xip) ein multivariat normalverteilter Zufallsvek-tor ist.

• Eine Reihe von ökonomischen Variablen wie Einkommen,Vermögen, Verkäufe, etc. werden „standardmäßig“ logarith-miert. Dies sind positive Variablen mit linkssteilen Vertei-lungen; Logarithmierung führt daher auf „mehr Normalität“.

Multivariate Statistik@LS-Kneip 3–44

Page 126: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.8 Multikollinearität

• Die Parameter β0, . . . , βp eines Regressionsmodells sind nichteindeutig identifizierbar, d.h. nicht eindeutig bestimmbar,falls die Werte einer Variablen Xij sich als Linearkombinati-on der Werte anderer erklärender ergeben.Beispiel:

X =

X11 . . . X1p

......

......

1 Xn1 . . . Xnp

und Xj = γ1

1...

1

+ γ2X1

︸︷︷︸X1

︸︷︷︸Xp

• In der Praxis kommt es häufig vor, dass einige Modellvaria-blen „fast“ kollinear sind. Man spricht dann von dem Phäno-men der „Multikollinearität“. Die Matrix [XTX]−1 ist dannzwar noch invertierbar, einige der Diagonalelemente cjj kön-nen aber möglicherweise sehr groß sein(Analogie: man dividiert „fast“ durch Null)⇒ Erhöhung der Schätzungenauigkeit.

• Diagnose von Multikollinearität

– Analyse der Korrelationsmatrix der Modellvariablen(Xi1, . . . , Xip). Zwei Variablen sind „fast“ kollinear, fallsihre Korrelation betragsmäßig nahe 1 ist.

– Analyse komplexerer Multikollinearitäten durch Hilfsre-gressionen, z.B. Xij in Abhängigkeit vonXi1, . . . , Xij−1, Xij+1, . . . , Xip

Multivariate Statistik@LS-Kneip 3–45

Page 127: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Hilfsregression:

Xij = α0+α1Xi1+. . .+αj−1Xij−1+αjXij+1+. . .+αp−1Xip+δi

⇒ Berechnung von α0, . . . , αp−1 durch die Kleinste-QuadrateMethode

⇒ Bestimmung des zugehörigen Wertes von R2

⇒ Multikollinearität, falls R2 sehr nahe 1

Oft wird statt R2 die sogenannte „Tolerance“ = 1−R2

interpretiert. Multikollinearität falls 1−R2 sehr klein

• Eine mögliche Behandlung von Multikollinearitäten ist dieVariablenelimination. Sind beispielsweise zwei Variablen fastkollinear, so nimmt man nur eine von beiden in das Regres-sionsmodell auf.

• Aber: Starke Korrelation zweier Variablen ist nichtnotwendigerweise ein Problem. Es ist möglich, dass geradeder „kleine Unterschied“, der zwischen beiden noch besteht,einen wichtigen Teil der Variation von Y erklärt. Ein Beispielsind die Variablen LOGSALE und LOGASST in Beispiel 3.1

Multivariate Statistik@LS-Kneip 3–46

Page 128: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 3.2 (Multikollinearität)Datensatz 1

Y X1 X2

1 3 0 0

2 0 1 0

3 5 5 6

4 6 6 6

Datensatz 2

Y X1 X2

1 3 0 0

2 −5 6 0

3 10 0 6

4 6 6 6

• Generierendes Modell für Datensatz 1 und Datensatz 2:Yi = 2−Xi1 + 1, 5Xi2 + ϵ

Multivariate Statistik@LS-Kneip 3–47

Page 129: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Resultierende Schätzungen

Datensatz 1:Call:

lm(formula = Y ~ X1 + X2, data=beispiel1)

Residuals:

1 2 3 4

1 -1 -1 1

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.000 1.732 1.155 0.454

X1 -1.000 2.000 -0.500 0.705

X2 1.500 1.700 0.883 0.540

Residual standard error: 2 on 1 degrees of freedom

Multiple R-Squared: 0.8095, Adjusted R-squared: 0.4286

F-statistic: 2.125 on 2 and 1 DF, p-value: 0.4364

Datensatz 2:Call:

lm(formula = y ~ X1 + X2, data=beispiel2)

Residuals:

1 2 3 4

1 -1 -1 1

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.0000 1.7321 1.155 0.454

X1 -1.0000 0.3333 -3.000 0.205

X2 1.5000 0.3333 4.500 0.139

Residual standard error: 2 on 1 degrees of freedom

Multiple R-Squared: 0.9669, Adjusted R-squared: 0.9008

F-statistic: 14.62 on 2 and 1 DF, p-value: 0.1818

⇒ Schätzungen auf Grundlage des Datensatzes 2 5-malgenauer!

Multivariate Statistik@LS-Kneip 3–48

Page 130: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.8.1 Qualitative Variablen

• Viele wichtige Regressionsmodelle beinhalten erklärende Va-riablen von „qualitativer“ Struktur, deren „Werte“ eine Teil-gruppenzugehörigkeit signalisieren (z.B. Geschlecht, Natio-nalität, Bildungsgrad, Region,...)

• Beispiel: Automobile in den USA

∗ Zielvariable : Y - Benzinverbrauch („Miles per Gallon“)

∗ Erklärende Variablen: Xi1 = Gewicht

Herkunftsregion:

↗ Amerika

→ Europa

↘ Japan⇒ Modell: Yi = β0 + β1Xi1 + β2Xi2 + ϵi ???

• Grundidee: Einführung von Indikatorvariablen

Xi2 = Regioni1 =

1 falls Auto i aus amerik. Produktion

0 sonst

Xi3 = Regioni2 =

1 falls Auto i aus europ. Produktion

0 sonst

Xi4 = Regioni3 =

1 falls Auto i aus japanischer Produktion

0 sonst

⇒ In einem Modell der Form

Yi = β0+β1Gewichti+β2Regioni1+β3Regioni2+β4Regioni3+ϵi

entsprechen β2, β3, β4 unterschiedlichen Niveaus von Y jenach Herkunftsland.

Multivariate Statistik@LS-Kneip 3–49

Page 131: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Aber: Das obige Modell ist nicht identifizierbar, die Wer-te der Parameter β0, β2, β3, β4 sind nicht eindeutig be-stimmt.Es gilt z.B. ebenfalls

Yi = β0 − 4︸ ︷︷ ︸β∗0

+β1Gewichti + (β2 + 4)︸ ︷︷ ︸β∗2

Regioni1

+ (β3 + 4)︸ ︷︷ ︸β∗3

Regioni2 + (β4 + 4)︸ ︷︷ ︸β∗4

Regioni3 + ϵi

⇒ In der Matrixschreibweise Y = X · β + ϵ gilt:

X =

1 Gewicht1 Region11 Region12 Region13

......

......

...

1 Gewichtn Regionn1 Regionn2 Regionn3

und

1...

1

=

Region11

...

Regionn1

+

Region12

...

Regionn2

+

Region13

...

Regionn3

d.h. die erste Spalte von X ist eine Linearkombinationder 3., 4. und 5. Spalte

⇒ rang(XTX) = p, XTX nicht invertierbar

⇒ Es exisitiert kein eindeutig bestimmter Kleinste-Quadrate-Schätzer von β

• Lösung: Elimination einer Faktorstufe der qualitaiven Va-riablen ⇒ Sinnvolles Modell:

Yi = β0 + β1Gewichti + β2Regioni1 + β3Regioni2 + ϵi

Multivariate Statistik@LS-Kneip 3–50

Page 132: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Interpretation:

Model Year

Mile

s pe

r G

allo

n

Model Year

Mile

s pe

r G

allo

n

Model Year

Mile

s pe

r G

allo

n

dotted=“japanisch“, dashed=“europäisch“, solid=“amerikanisch“

β2 = Unterschied im Niveau von Y zwischen amerikanischenund japanischen Autos

β3 = Unterschied im Niveau von Y zwischen europäischenund japanischen Autos

• Allgemeiner Ansatz für eine qualitative Variable, die m ver-schiedene Stufen besitzt:Definiere (m− 1) Indikatorvariablen

Multivariate Statistik@LS-Kneip 3–51

Page 133: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 3.3 (Benzinverbrauch von Automobilen in den USA)• „Miles per Gallon“ als Funktion von Gewicht und Modelljahr

Call:

lm(formula = MPG ~ GEWICHT + BAUJAHR, data = car.data, na.action = na.omit)

Residuals:

Min 1Q Median 3Q Max

-8.8771 -2.3107 -0.1138 2.0697 14.3241

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.428e+01 3.974e+00 -3.592 0.000369 ***

GEWICHT -6.673e-03 2.148e-04 -31.066 < 2e-16 ***

BAUJAHR 7.579e-01 4.909e-02 15.439 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.438 on 394 degrees of freedom

Multiple R-Squared: 0.8063, Adjusted R-squared: 0.8053

F-statistic: 820.1 on 2 and 394 DF, p-value: < 2.2e-16

• Modell mit Interaktion:Call:

lm(formula = MPG ~ GEWICHT + BAUJAHR + GEWICHT:BAUJAHR, data = car.data)

Residuals:

Min 1Q Median 3Q Max

-8.0301 -1.9669 -0.1101 1.6651 12.9336

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.139e+02 1.293e+01 -8.806 < 2e-16 ***

GEWICHT 2.889e-02 4.430e-03 6.522 2.14e-10 ***

BAUJAHR 2.087e+00 1.715e-01 12.166 < 2e-16 ***

GEWICHT:BAUJAHR -4.762e-04 5.926e-05 -8.036 1.10e-14 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.19 on 393 degrees of freedom

Multiple R-Squared: 0.8336, Adjusted R-squared: 0.8324

F-statistic: 656.5 on 3 and 393 DF, p-value: < 2.2e-16

Multivariate Statistik@LS-Kneip 3–52

Page 134: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• „Miles per Gallon“ als Funktion von Modelljahr und Herkunftder Autos

Call:

lm(formula = MPG ~ BAUJAHR + land1 + land2, data = car.data)

Residuals:

Min 1Q Median 3Q Max

-14.0142 -3.5063 -0.4679 3.3964 13.4564

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -51.84775 5.50372 -9.420 <2e-16 ***

BAUJAHR 1.06270 0.07068 15.035 <2e-16 ***

land1TRUE -8.39896 0.67028 -12.531 <2e-16 ***

land2TRUE -0.82834 0.84386 -0.982 0.327

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.093 on 393 degrees of freedom

Multiple R-Squared: 0.576, Adjusted R-squared: 0.5728

F-statistic: 178 on 3 and 393 DF, p-value: < 2.2e-16

70 72 74 76 78 80 82

1020

3040

50

Model Year

Mile

s pe

r G

allo

n

70 72 74 76 78 80 82

1020

3040

50

70 72 74 76 78 80 82

1020

3040

50

dotted=“japanisch“, dashed=“europäisch“, solid=“amerikanisch“

Multivariate Statistik@LS-Kneip 3–53

Page 135: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.9 Inferenz für Teilmodelle

• In vielen Anwendungen wird eine Zielvariable Y zunächstals Funktion sehr vieler (p groß) erklärender Variablen mo-delliert. In solchen Fällen versucht man üblicherweise „über-flüssige“ Variablen zu eliminieren und das hochdimensiona-le Originalmodell auf ein niedriger dimensionales Teilmodellmit q < p Variablen zu reduzieren. Dies ist aus mehrerenGründen interessant:

∗ Erhöhung der Schätzgenauigkeit

∗ Effizientere Prognosen

∗ Ökonomische Interpretation: Welche Variablen sind wirk-lich wichtig?

• Man beachte: Für eine sinnvolle Analyse reicht es nichtaus einfach diejenigen Variablen zu eliminieren, bei denender t-Test die Hypothese H0 : βj = 0 nicht ablehnt. Sol-che Variablen sind „Kandidaten“ für eine Elimination, abernicht mehr, denn der t-Test besagt, dass man die betreffen-de Variable evtl. eliminieren kann, wenn man alle anderenVariablen beibehält. Das Zusammenspiel der Variablen beider „Erklärung“ von Y kann jedoch sehr komplex sein undder t-Test sagt nichts darüber aus, was passiert, wenn manmehrere Variablen gleichzeitig eliminiert.

• Es gibt verschiedene Ansätze zur Analyse der Qualität vonTeilmodellen

Multivariate Statistik@LS-Kneip 3–54

Page 136: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3.9.1 F-Test zur Überprüfung der Modellanpassung ei-nes Teilmodells

• Originalmodell („full model“)

Yi = β0+β1Xi1+ . . .+βqXiq +βq+1Xiq+1+ . . .+βpXip+ ϵi

• Teilmodell („reduced model“)

Yi = β0 + β1Xi1 + . . .+ βqXiq + ϵi (q < p)

Ist das Originalmodell gültig, so gilt das Teilmodell genau dann,wenn βq+1 = βq+2 = . . . = βp = 0

⇒ Test der Hypothese

H0 : βq+1 = . . . = βp = 0 gegen

H1 : es exisitiert ein βj , j > q, mit βj = 0

• Idee: Verallgemeinerung der Streunugszerlegung

Sei Y Fi = β0 + β1Xi1 + . . .+ βpXip

(βj - Kleinste-Quadrate-Schätzer basierend auf dem Origi-nalmodell)

und

Y Ri = β∗

0 + β∗1Xi1 + . . .+ β∗

qXiq

(β∗j - Kleinste-Quadrate-Schätzer basierend auf dem Teilm-

odell)

Multivariate Statistik@LS-Kneip 3–55

Page 137: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

⇒n∑

i=1

(Yi − Y Ri )2 =

n∑i=1

(Y Fi − Y R

i )2 +n∑

i=1

(Yi − Y Fi )2

n∑i=1

(Y Fi − Y R

i )2 tendenziell↗ eher klein, falls H0 wahr

↘ eher groß, falls H0 falsch

• Teststatistik (partielle F -Statistik)

F =

n∑i=1

(Y Fi − Y R

i )2/(p− q)

n∑i=1

(Yi − Y Fi )2/(n− p− 1)

• Unter H0 : F ∼ Fp−q,n−p−1

• Ablehnung von H0, falls F > Fp−q,n−p−1;1−α

(bzw. p-Wert zu klein)

Multivariate Statistik@LS-Kneip 3–56

Page 138: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Fortsetzung Beispiel 3.1 (Teilmodell A)Daten: Bilanzdaten (Beobachtungen Nr. 36, 21 eliminiert)Teilmodell A: Modell mit den Variablen WCFTCL, LOGSALE,

LOGASST, CAPINTCall:

lm(formula = RETCAP ~ WCFTCL + LOGSALE + LOGASST + CAPINT, data = FinAccount.data,

subset = subset3621)

Residuals:

Min 1Q Median 3Q Max

-0.154622 -0.036501 -0.008783 0.032408 0.166703

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.082705 0.109319 0.757 0.45469

WCFTCL 0.348577 0.110404 3.157 0.00339 **

LOGSALE 0.126079 0.209904 0.601 0.55218

LOGASST -0.130110 0.203823 -0.638 0.52765

CAPINT 0.002503 0.042095 0.059 0.95294

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.07379 on 33 degrees of freedom

Multiple R-Squared: 0.2824, Adjusted R-squared: 0.1954

F-statistic: 3.246 on 4 and 33 DF, p-value: 0.02373

Analysis of Variance Table

Response: RETCAP

Df Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.047642 0.047642 8.7493 0.005688 **

LOGSALE 1 0.000489 0.000489 0.0898 0.766277

LOGASST 1 0.022548 0.022548 4.1409 0.049957 *

CAPINT 1 0.000019 0.000019 0.0035 0.952936

Residuals 33 0.179691 0.005445

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

„partielle“ F-Statistik: (q = 4, p = 12, n = 38)

R2F = 0.6958, R2

R = 0.2824,

R2F, adj = 0.5498, R2

R, adj = 0.1954

⇒ F-Test: F = 4, 24679 > F12−4;38−12−1;0,95 = 2.337057

⇒ Ablehnung von H0

Multivariate Statistik@LS-Kneip 3–57

Page 139: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Fortsetzung Beispiel 3.1 (Teilmodell B)Daten: Bilanzdaten (Beobachtungen 36, 21 eliminiert)

Teilmodell B: Modell mit den Variablen WCFTCL, LOGSALE,LOGASST, NFATAST, CAPINT, CURRAT

Call:

lm(formula = RETCAP ~ WCFTCL + LOGSALE + LOGASST + NFATAST +

CAPINT + CURRAT, data = FinAccount.data, subset = subset3621)

Residuals:

Min 1Q Median 3Q Max

-0.119611 -0.024415 0.002286 0.026353 0.109663

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.26557 0.08311 3.195 0.00320 **

WCFTCL 0.86503 0.11703 7.392 2.53e-08 ***

LOGSALE 0.43782 0.15802 2.771 0.00937 **

LOGASST -0.42670 0.15294 -2.790 0.00894 **

NFATAST -0.47026 0.08330 -5.645 3.38e-06 ***

CAPINT -0.06436 0.03192 -2.016 0.05255 .

CURRAT -0.11337 0.02192 -5.172 1.31e-05 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.05209 on 31 degrees of freedom

Multiple R-Squared: 0.664, Adjusted R-squared: 0.599

F-statistic: 10.21 on 6 and 31 DF, p-value: 3.079e-06

Analysis of Variance Table

Response: RETCAP

Df Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.047642 0.047642 17.5554 0.0002149 ***

LOGSALE 1 0.000489 0.000489 0.1802 0.6741029

LOGASST 1 0.022548 0.022548 8.3086 0.0071069 **

NFATAST 1 0.022896 0.022896 8.4367 0.0067248 **

CAPINT 1 0.000107 0.000107 0.0396 0.8435856

CURRAT 1 0.072580 0.072580 26.7446 1.313e-05 ***

Residuals 31 0.084128 0.002714

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

„partielle“ F-Statistik (q = 6, p = 12, n = 38):R2

F = 0.6958, R2R = 0.664,

R2F, adj = 0.5498, R2

R, adj = 0.599

⇒ F-Test: F = 0, 2943 < F12−6;38−12−1;0,95 = 2, 49

⇒ Keine Ablehnung von H0

Multivariate Statistik@LS-Kneip 3–58

Page 140: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

4 Varianzanalyse

• Problem: Vergleich der Verteilungen einer Zielvariable Y

für mehrere Gruppen, die sich in einem oder mehreren Merk-malen oder “Faktoren” unterscheiden

• Man konzentriert sich auf Unterschiede in den Mittelwerten(Zentrum) der Verteilungen

• Statistischer Test (F-Test): Entscheidung, ob die beobachte-ten Unterschiede in den Mittelwerten der einzelnen Gruppengroß genug sind, um davon auf Unterschiede in den zugehö-rigen Grundgesamtheiten schließen zu können

• Der Test basiert auf einer Prüfgröße, die misst, wie groß dieVariabilität zwischen den Gruppen im Vergleich zur Variab-lilität innerhalb der Gruppen ist.

• Man unterscheidet zwischen Modellen mit “festen Effekten”(Faktoren fest vorgegeben) und Modellen mit “zufälligen Ef-fekten” (Faktoren selbst Zufallsvariablen)

• Formal lassen sich varianzanalytische Probleme als Spezial-fälle der Regressionsanalyse auffassen (Regression mit reinqualitativen erklärenden Variablen). Sichtweise (und Notati-on) sind jedoch unterschiedlich. Methodisch basiert die Va-rianzanalyse zudem auf der Einführung geeigneter Nebenbe-dingungen.

Multivariate Statistik@LS-Kneip 4–1

Page 141: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 4.1 (Testfamilien)

Zielgröße Y – Ausgaben für Milchprodukte

Frage: Beeinflussung durch Werbekampagnien

Studie eines Marktforschungsinstituts: c = 4

Werbespots ausgestrahlt durch verschiedene lokale TV-Stationen.4 Stichproben von 30 zufällig ausgewählten Haushalten, die je-weils genau einen der ausgestrahlten Werbespots empfangen konn-ten (AD1, AD2, AD3, AD4)

Problem: Unterschiede zwischen AD1, AD2, AD3, AD4?

Daten:

Nr. AD1 AD2 AD3 AD4

1 20.02 25.89 15.01 24.45

2 25.07 47.45 24.12 27.99

3 38.25 54.13 29.73 45.16

4 48.62 70.97 33.78 53.79

5 54.88 78.20 44.75 63.71

6 60.18 83.72 54.48 89.31

7 36.38 19.89 23.39 32.77

8 45.73 25.11 30.70 55.80

9 59.29 45.55 38.13 52.71

10 66.70 50.40 53.93 65.27

11 75.54 63.68 55.80 84.29

12 78.78 74.03 76.87 100.37

13 26.63 9.21 3.57 14.50

14 28.36 4.64 24.77 29.37

15 50.33 33.11 24.88 31.73

Nr. AD1 AD2 AD3 AD4

16 57.89 32.18 33.00 39.91

17 75.75 41.00 37.64 54.46

18 81.68 48.74 53.43 68.43

19 15.67 27.61 8.62 26.41

20 21.59 39.18 23.65 48.24

21 24.99 55.17 28.67 64.27

22 34.35 69.29 34.82 82.17

23 53.94 71.61 43.40 100.17

24 52.39 91.73 61.85 101.24

25 32.34 22.18 22.95 24.40

26 30.60 32.01 34.73 34.46

27 45.78 45.13 52.44 47.61

28 53.33 55.07 63.37 49.01

29 54.66 59.30 75.58 67.59

30 70.01 68.90 79.11 81.53

Multivariate Statistik@LS-Kneip 4–2

Page 142: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

4.1 Einfaktorielle Varianzanalyse

• c verschiedene Gruppen in Abhängigkeit von einem Faktor(“Treatment”)

• Für jede einzelen Gruppe: ni, (i = 1, . . . , c) unabhängigeBeobachtungen der interessierenden Zielvariable Y

• Beobachtungen

Faktor

Stufe 1 Stufe 2 . . . Stufe c

Y11 Y21 . . . Yc1...

.... . .

...

Y1n1 Y2n2 . . . Ycnc

empirische

Mittelwerte Y1· Y2· . . . Yc·

empirische

Varianzen s21 s22 . . . s2c

Multivariate Statistik@LS-Kneip 4–3

Page 143: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Wichtige Annahmen: (Varianzanalyse mit festen Effek-ten)

– Y11, . . . , Ycnc sind voneinander unabhängig

– Normalverteilung aller Variablen Yij– Homoskedastizität: Alle Varianzen sind gleich.

• Modell:

Yij = µi + εij , i = 1, . . . , c, j = 1, . . . , ni

wobei

– ε11, . . . , εcnc voneinander unabhängig

– εij ∼ N(0, σ2) für alle i, j

• Frage: Unterschiedliche Auswirkung der Faktorstufen aufdie Zielgröße?

⇒ Testproblem:

H0 : µ1 = µ2 = · · · = µc

gegen

H1 : µi = µj für mindestens ein Paar (i, j)

Multivariate Statistik@LS-Kneip 4–4

Page 144: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Umformulierung des Modells in die „Effektdar-stellung“:

Yij = µ+ αi + ϵij i = 1, . . . , c; j = 1, . . . , ni(ϵij i.i.d. , ϵij ∼ N(0, σ2)

)mit

• µ = 1N

c∑i=1

niµi – globales Mittel (“Grand Mean”)

mit N =c∑

i=1

ni Gesamtzahl aller Beobachtungen

• αi = µi − µ Effekt der i-ten Faktorstufe

•c∑

i=1

niαi = 0

⇒ Umschreibung des Testproblems

H0 : α1 = α2 = · · · = αc = 0

gegen

H1 : mindestens zwei αi = 0

Multivariate Statistik@LS-Kneip 4–5

Page 145: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Zusammenhang mit der Regressionsanalyse

• Formale Einführung von Indikatorvariablen:

Xij;l =

1 falls die Beobachtung Yij zur l-ten Gruppe gehört

0 sonst

• Per Definition von Yij gilt offensichtlich Xij;l = 0 für l = j

und Xij;i = 1. Das Regressionsmodell mit Indikatorvariablenlässt sich also in folgender Form schreiben:

Yij = µ︸︷︷︸≡β0

+ α1︸︷︷︸≡β1

Xij;1 + · · ·+ αc︸︷︷︸≡βc

Xij;c + ϵij

= µ+ αi + ϵij

• Das Problem der Identifizierbarkeit der Parameter wird inder Varianzananalyse durch die Nebenbedingung

c∑i=1

niαi =

0 beseitigt. Es lässt sich zeigen, dass die nachfolgend defi-nierten Schätzer µ, αi Kleinste-Quadrate Schätzer von µ, αi

unter der Nebenbedingungc∑

i=1

niαi = 0 sind.

Multivariate Statistik@LS-Kneip 4–6

Page 146: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Schätzungen

– Mittelwerte µi, i = 1, . . . c:

µi = Yi· =1

ni

ni∑j=1

Yij

– Grand Mean:

µ =1

N

c∑i=1

niµi =1

N

c∑i=1

niYi·

=1

N

c∑i=1

ni∑j=1

Yij := Y··

– αi = µi − µ = Yi· − Y··

Fortsetzung Beispiel 4.1 (Testfamilien)

Stufe 1 Stufe 2 Stufe 3 Stufe 4

Yi· 37.2 39.6 34.5 51.0

Y·· 40.6 40.6 40.6 40.6

Yi· − Y·· −3.4 −1.0 −6.1 10.4

s2i 430.3 547.6 354.2 605.3

⇒ geschätzte αi = 0

• Aber: Zufallsschwankungen!

• Frage: Unterschiede signifikant? ⇒ Definition einer Prüfgrö-ße, Test

Multivariate Statistik@LS-Kneip 4–7

Page 147: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Die Streuungszerlegung

Gesamtstreuung der beobachteten Werte von Y :

SQT =c∑

i=1

ni∑j=1

(Yij − Y··)2

Streuungszerlegung:

c∑i=1

ni∑j=1

(Yij − Y··)2

︸ ︷︷ ︸SQT

=c∑

i=1

ni∑j=1

(Yi· − Y··)2

︸ ︷︷ ︸SQE

+c∑

i=1

ni∑j=1

(Yij − Yi·)2

︸ ︷︷ ︸SQR

• SQE =c∑

i=1

ni∑j=1

(Yi· − Y··)2 =

c∑i=1

ni(Yi· − Y··)2

– “erklärte Streuung”

– Streuung zwischen den Stichproben

• SQR =c∑

i=1

ni∑j=1

(Yij − Yi·)2

– “Residualstreuung”

– Streuung innerhalb der Stichproben

• MQR := 1N−c SQR = 1

N−c

c∑i=1

ni∑j=1

(Yij − Yi·)2

ist erwartungstreuer Schätzer von σ2.

Multivariate Statistik@LS-Kneip 4–8

Page 148: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• H0 wahr ⇒ α1 = · · · = αc = 0 ⇒c∑

i=1

niα2i = 0

⇒ tendenziell: SQE =c∑

i=1

niα2i klein im Vergleich zu SQR

• H1 wahr ⇒c∑

i=1

niα2i > 0

⇒ tendenziell: SQE =c∑

i=1

niα2i groß im Vergleich zu SQR

• Teststatistik (H0 gegen H1):

F =SQE /c− 1

SQR/N − c=MQE

MQR[MQE :=

1

c− 1

c∑i=1

ni(Yi· − Y··)2

]

• Unter H0: F ∼ Fc−1,N−c

⇒ Ablehung von H0, falls der beobachtete Wert Fbeobachtet

zu groß ist (Niveaus: α = 0.05, α = 0.01)

– Fbeobachtet > Fc−1,N−c;1−α

– p-Wert = P (Fc−1,N−c > Fbeobachtet) < α

Multivariate Statistik@LS-Kneip 4–9

Page 149: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Unter H0:

X�1×

X�2×

X�3×

Unter H1:

X�1×

X�2×

X�3×

Multivariate Statistik@LS-Kneip 4–10

Page 150: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Varianzanalysetabelle

Streu- Frei- mittlere

ungs- Streu- heits- quadratische

ursache ung grade Abweichung F

Faktor SQE c− 1 SQEc−1 = MQE MQE

MQR

Residuen SQR N − c SQRN−c = MQR

Fortsetzung Beispiel 4.1 (Testfamilien)

Streu- Frei- mittlere

ungs- Streu- heits- quadratische

ursache ung grade Abweichung F

Werbung 4585.7 3 1528.6 3.16

Residuen 56187.4 116 484.4

Für die Überschreitungswahrscheinlichkeit ergibt sich:

p-Wert = P (F3,116 > 3.16) = 0.0275 < 5%

H0 ist daher abzulehnen.

Multivariate Statistik@LS-Kneip 4–11

Page 151: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

4.2 Paarweise Vergleiche (Kontraste)

• Problem: Nehmen wir an, dass in einer Anwendung der F -Test die Nullhypothese ablehnt. In vielen Fällen wird mansich dann dafür interessieren, welche Stufen des Faktors sichsignifikant voneinander unterscheiden.

⇒ Man untersucht die “Kontraste”

µi − µj (= αi − αj), i = 1, . . . , c; j = 1, . . . , i, i > j

• Frage: µi − µj = 0? (insgesamt c(c−1)2

Vergleiche)

• Vorgehen für einen vorgegebenen Kontrast µi − µj :

• Es gilt

Yi· − Yj· ∼ N

(µi − µj , σ

2

(1

ni+

1

nj

))⇒ Yi· − Yj· − (µi − µj)

σ[

1ni

+ 1nj

] 12

∼ N(0, 1)

• Schätzung von σ2 durch

σ2 = MQR =1

N − c

c∑i=1

ni∑j=1

(Yij − Yi·)2

⇒ Yi· − Yj· − (µi − µj)

σ[

1ni

+ 1nj

] 12

∼ tN−c

⇒ (1− α)-Konfidenzintervall für µi − µj :

Yi· − Yj· ± tN−c;1−α2σ

[1

ni+

1

nj

] 12

Multivariate Statistik@LS-Kneip 4–12

Page 152: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

⇒ Signifikanztest zum Niveau α für

H0 : µi − µj = 0

gegen

H1 : µi − µj = 0

H0 : µi − µj = 0 wird abgelehnt, falls

0 ∈

[Yi· − Yj· ± tN−c;1−α

[1

ni+

1

nj

] 12

]Man spricht dann von einem “signifikanten” Kontrast.

• Diese Prozedur ist geeignet, wenn es sich um die Analyseeines einzelnen, fest vorgegebenen Kontrasts handelt.

• Problematisch, wenn es sich um das Auffinden von signi-fikanten Kontrasten innerhalb einer größeren Anzahl ( c(c−1)

2 )von paarweisen Vergleichen handelt.

• Man stößt dann auf das Problem des Multiplen Testens(oder das “Problem der multiplen Vergleiche”).

Multivariate Statistik@LS-Kneip 4–13

Page 153: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Das Problem des Multiplen Testens

• Multiple Tests: Durchführung von mehreren Signifikanztestsinnerhalb der gleichen empirischen Studie

• Beispiel: m verschiedene voneinander unabhängige Tests; fürjeden dieser Tests sei H0 wahr

⇒ P

Ablehung von H0

durch mindestens

einen der m Tests

= 1− (1− α)m =: αm

m αm

1 0.05

3 0.143

5 0.226

10 0.401

100 0.994 (!)

⇒ Interpretation eines signifikanten Resultats?

• Analog: m (1− α)-Konfidenzintervalle

P

mind. eines der m Konfidenz-

intervalle enthält nicht

den wahren Parameterwert

= 1− (1− α)m

⇒ Varianzanalyse: m = c(c−1)2 paarweise Vergleiche; Inter-

pretation eines signifikanten Kontrasts?

Multivariate Statistik@LS-Kneip 4–14

Page 154: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Lösung: Konstruktion von simultanen Tests bzw. Kon-fidenzintervallen: Modifikation der Konstruktionsprinzipienderart, dass

P

Fehler 1. Art durch

mind. einen der m Tests

≤ α

bzw.

P

alle Konfidenzintervalle

gleichzeitig enthalten den

wahren Parameterwert

= 1− α

1) Allgemeines Verfahren: Bonferroni

Satz (Bonferroni): Gegeben seien m verschiedene EreignisseA1, A2, . . . , Am. Dann gilt

P (A1 ∩A2 ∩ · · · ∩Am) ≥ 1−m∑i=1

P ( Ai︸︷︷︸“nicht Ai”

)

Anwendung:

• m verschiedene Tests zum Signifikanzniveau α∗ = αm :

⇒ P

Fehler 1. Art durch

mind. einen der m Tests

≤m∑i=1

α

m= α

Multivariate Statistik@LS-Kneip 4–15

Page 155: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Analog: (1− α∗)-Konfidenzintervalle zum Niveau α∗ = αm

⇒ P

alle Konfidenzintervalle

gleichzeitig enthalten den

wahren Parameterwert

≥ 1−m∑i=1

α

m= 1− α

• Anwendung auf Identifikation von signifikanten Kontrasten:Mit α∗ = 2α

c(c−1) gilt:

P

µi−µj∈[Yi·−Yj·±t

N−c;1−α∗2

σ[

1ni

+ 1nj

] 12

]für alle i, j mit i > j

≥ 1 − α

⇒ signifikativ, falls

0 ∈

[Yi· − Yj· ± tN−c;1−α∗

[1

ni+

1

nj

] 12

]

• Aber: Es existieren subtilere Verfahren, die spezifisch für dieVarianzanalyse sind

2) Verfahren von Scheffé

Simultane Konfidenzintervalle zum Niveau 1− α:[Yi· − Yj· ± σ

[(c− 1)Fc−1,N−c,1−α

(1ni

+ 1nj

)] 12

]

P

µi−µj∈[Yi·−Yj·±σ

[(c−1)Fc−1,N−c,1−α

(1ni

+ 1nj

)] 12

]für alle i, j, i > j

≥ 1− α

Multivariate Statistik@LS-Kneip 4–16

Page 156: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

3) Verfahren von Tukey:

Sei n = n1 = · · · = nc. Simultane Konfidenzintervalle zum Ni-veau 1− α: [

Yi· − Yj· ± qc,N−c,1−ασ√n

]Hierbei ist qc,N−c,1−α das (1−α)-Quantil der sogenannten “Studentized-Range-Verteilung” mit c und N − c als Freiheitsgraden. DieseVerteilung ist gerade definiert als die Verteilung von

maxi =j

∣∣Yi· − Yj·∣∣

σ/√n

unter H0 : µ1 = µ2 = · · · = µc

⇒ P

µi−µj∈[Yi·−Yj·±qc,N−c,1−α]

für alle i, j, i > j

= 1− α

Fortsetzung Beispiel 4.1 (Testfamilien)

• Methode von Scheffé: Keine signifikanten Kontraste

• Verfahren von Bonferroni, Tukey: µ4 − µ3 signifikativ vonNull verschieden

Multivariate Statistik@LS-Kneip 4–17

Page 157: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

4.3 Zweifaktorielle Varianzanalyse mit festenEffekten

• Es existieren zwei verschiedene Faktoren A und B, die dieZielvariable Y beeinflussen

• i = 1, . . . , c Stufen für Faktor A, j = 1, . . . , d Stufen fürFaktor B

• Für jede Stufenkombination (“Zelle”) (i, j) n > 1 unabhängi-ge Messungen von Y

⇒ N = c · d · n Beobachtungen:

Yijk, i = 1, . . . , c; j = 1, . . . , d; k = 1, . . . , n

Modell (Effektdarstellung):

Yijk = µij + εijk

= µ+ αi + βj + γij + εijk

wobei

• ε111, . . . , εcdn i.i.d., εijk ∼ N(0, σ2)

• µ = 1c·d

c∑i=1

d∑j=1

µij – Grand Mean

• αi beschreibt den Effekt von Faktor A auf der i-ten Faktor-stufe

– αi = µi· − µ, µi· =1d

d∑j=1

µij

–c∑

i=1

αi = 0

Multivariate Statistik@LS-Kneip 4–18

Page 158: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• βj beschreibt den Effekt von Faktor B auf der j-ten Faktor-stufe

– βj = µ·j − µ, µ·j =1c

c∑i=1

µij

–d∑

j=1

βj = 0

• γij beschreibt die Interaktion (oder Wechselwirkung) vonA und B auf der Faktorstufenkombination (i, j)

– γij = µij − (µ+ αi + βj)

–c∑

i=1

γij = 0,d∑

j=1

γij = 0

• Einfachster Fall: c = 2, d = 2

1

2

Faktor A

1 2Faktor B

µij

Abbildung 1: keineWechselwirkungen

1 2Faktor B

µij

Abbildung 2: nurWechselwirkungen

1 2Faktor B

µij

Abbildung 3:Haupteffekte +Wechselwirkungen

Multivariate Statistik@LS-Kneip 4–19

Page 159: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Schätzungen:

• MittelwerteFaktor B

1 2 . . . d

1 Y11· Y12· . . . Y1d· Y1··

Faktor A...

......

...

c Yc1· Yc2· . . . Ycd· Yc··

Y·1· Y·2· . . . Y·d· Y···

• Schätzung von µ

µ =1

N

c∑i=1

d∑j=1

n∑k=1

Yijk = Y···

• Schätzungen von αi

αi = Yi·· − Y··· mit Yi·· =1

dn

d∑j=1

n∑k=1

Yijk

• Schätzungen von βj

βj = Y·j· − Y··· mit Y·j· =1

cn

c∑i=1

n∑k=1

Yijk

• Schätzungen von γij

γij = Yij· − (µ+ αi + βj)

= Yij· − (Y··· + Yi·· − Y··· + Y·j· − Y···)

= Yij· − Yi·· − Y·j· + Y···

mit Yij· =1

n

n∑k=1

Yijk

Multivariate Statistik@LS-Kneip 4–20

Page 160: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Schätzungen von εijk: Es gilt

εijk = Yijk − (µ+ αi + βj + γij) = Yijk − µij

⇒ εijk = Yijk − Yij·

• Die zugehörigen Signifikanztests beruhen auf einer Verallge-meinerung der in der Einfachklassifikation verwendeten Streu-ungszerlegung

Beispiel 4.2 (Leistungen junger Arbeitnehmer)

• Y – Leistung

• Faktor A: Zufriedenheit mit den Arbeitsbedingungen

• Faktor B: Familiäre Situation

• Pro Faktorkombination wurden 5 Arbeitnehmer zufällig aus-gewählt

Multivariate Statistik@LS-Kneip 4–21

Page 161: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Familiäre Situation

Partner allein lebend

zufrieden 85 50

89 52

91 65

95 71

80 72

unzufrieden 34 30

30 28

28 33

23 16

40 23

Mittelwerte:

Faktor B

1 2

1 88 62

Faktor A

2 31 26

α1 = −α2 = 23.25 γ11 = −γ12 = 5.25

β1 = −β2 = 7.75 γ22 = −γ21 = 5.25

Multivariate Statistik@LS-Kneip 4–22

Page 162: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Die Streuungszerlegung

c∑i=1

d∑j=1

n∑k=1

(Yijk − Y···)2

= SQT = SQA+SQB+SQAB+SQR

• SQA = dnc∑

i=1

(Yi·· − Y···)2 = dn

c∑i=1

α2i

– Streuung bedingt (“erklärt”) durch Faktor A

• SQB = cnd∑

j=1

(Y·j· − Y···)2 = cn

d∑j=1

β2j

– Streuung bedingt (“erklärt”) durch Faktor B

• SQAB = nc∑

i=1

d∑j=1

(Yij· − Yi·· − Y·j· + Y···)2

= nc∑

i=1

d∑j=1

γ2ij

– Streuung bedingt (“erklärt”) durch Interaktionen

• SQR =c∑

i=1

d∑j=1

n∑k=1

(Yijk − Yij·)2 =

c∑i=1

d∑j=1

n∑k=1

ε2ijk

– Residualstreuung– MQR = 1

cd(n−1) SQR ist ein erwartungstreuer Schätzer derVarianz σ2

• Dies ermöglicht die die Defintion von Prüfgrößen zum Testender verschiedenen möglichen Hypothesen (Nichtexistenz-Existenzvon Effekten der Faktoren A, B bzw. Interaktionen)

Multivariate Statistik@LS-Kneip 4–23

Page 163: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Teststatistiken:

• Signifikanztest zum Niveau α von

HA0 : α1 = · · · = αc = 0

gegen

HA1 : Verneinung von HA

0

– Teststatistik FA = SQA /c−1SQR /cd(n−1) =

MQAMQR

– unter HA0 : FA ∼ Fc−1,cd(n−1)

⇒ Ablehnung von HA0 , falls FA > Fc−1,cd(n−1);1−α

(bzw. p-Wert hinreichend klein)

• Signifikanztest von

HAB0 : γ11 = · · · = γcd = 0

gegen

HAB1 : Verneinung von HAB

0

– Teststatistik: FAB = SQAB /(c−1)(d−1)SQR /cd(n−1) = MQAB

MQR

– Unter HAB0 : FAB ∼ F(c−1)(d−1),cd(n−1)

⇒ Ablehung von HAB0 , falls

FAB > F(c−1)(d−1),cd(n−1);1−α

(bzw. p-Wert ausreichend klein)

Multivariate Statistik@LS-Kneip 4–24

Page 164: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Varianzanalysetabelle

Streu- Frei- mittlere

ungs- Streu- heits- quadratische

ursache ung grade Abweichung F

Faktor A SQA c−1 MQA= SQAc−1 FA=MQA

MQR

Faktor B SQB d−1 MQB= SQBd−1 FB=MQB

MQR

Interakt.

A×B

SQAB (c−1)(d−1) MQAB= SQAB(c−1)(d−1)

FAB=MQABMQR

Residuen SQR cd(n−1) MQR= SQRcd(n−1)

Fortsetzung Beispiel 4.2 (Leistungen junger Arbeitnehmer)

Streuungs- Freih.- mittl. quadr.

ursache Streuung grade Abweichung F

Faktor A 10811.25 1 10811.25 190.51

Faktor B 1201.25 1 1201.25 21.17

Interakt. A×B 551.25 1 551.25 9.71

Residuen 908 16 56.75

• FA = 190.51 > F1,16,0.95 = 4.94 ⇒ Ablehnung von HA0

• FB = 21.17 > F1,16,0.95 = 4.94 ⇒ Ablehung von HB0

• FAB = 9.71 > F1,16,0.95 = 4.94 ⇒ Ablehnung HAB0

Multivariate Statistik@LS-Kneip 4–25

Page 165: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

4.4 Zweifaktorielle Varianzanalyse mit einer Be-obachtung pro Zelle

• Zwei Faktoren A und B

• Eine einzige Beobachtung Yij für jede Zelle (i, j);i = 1, . . . , c, j = 1, . . . , d.

• Problem: Vollständige Analyse wie in 2.3 nicht möglich, dadann SQR = 0

• Aber: Analyse möglich, wenn man davon ausgehen kann,dass keine Wechselwirkungen existieren (γij = 0)

• Modell:

Yij = µ+ αi + βj + εij

[ε11, . . . , εcd i.i.d., εij ∼ N(0, σ2)]

– µ = 1N

c∑i=1

d∑j=1

Yij =: Y··, N = cd

– αi = Yi· − Y·· =1d

d∑j=1

Yij − Y··

– βj = Y·j − Y·· =1c

c∑i=1

Yij − Y··

– εij = Yij − (µ+ αi + βj) = Yij − Yi· − Y·j + Y··

⇒SQR =

c∑i=1

d∑j=1

(Yij − Yi· − Y·j + Y··)2 =

c∑i=1

d∑j=1

ε2ij

MQR := 1(c−1)(d−1) SQR erwartungstreuer Schätzer von σ2

Multivariate Statistik@LS-Kneip 4–26

Page 166: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Signifikanztest von

HA0 : α1 = · · · = αc = 0 gegen HA

1 : Verneinung von HA0

– Teststatistik: FA = SQA /c−1SQR /(c−1)(d−1) =

MQAMQR

– Unter HA0 : FA ∼ Fc−1,(c−1)(d−1)

⇒ Ablehnung von HA0 , falls FA zu groß

• Signifikanztest von

HB0 : β1 = · · · = βd = 0 gegen HB

1 : Verneinung von HB0

– Teststatistik: FB = SQB /d−1SQR /(c−1)(d−1) =

MQBMQR

– Unter HB0 : FB ∼ Fd−1,(c−1)(d−1)

⇒ Ablehnung von HB0 , falls FB zu groß

Multivariate Statistik@LS-Kneip 4–27

Page 167: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

4.5 Varianzanalyse in der Praxis

• Die besprochenen Konzepte lassen sich leicht auf Modelle mitmehr als zwei Faktoren verallgemeinern

Faktoren: A,B,C,D, . . .

• Modell

Yijkl... = Haupteffekte

+ Interaktionen (A×B,A×C,...,A×B×C,... )

+ Zufallsschwankungen

• F-Tests zum Testen der verschiedenen Hypothesen

Erweitertes Beispiel 4.1 (Testfamilien)Käufe von Milchprodukten und Werbekampagnien

AD – Werbespot (i = 1, . . . 4)Region – Region (j = 1, . . . 5)Size – Haushaltsgröße (k = 1, . . . , 6)

benutztes Modell:

Yijk = µ+ αi︸︷︷︸AD

+ βj︸︷︷︸Region

+ γk︸︷︷︸size

+(αγ)ij + εijk

Varianzanalysetabelle:SQ Freiheitsgrade F p-Wert

AD 4585.7 3 14.2 0.000

Region 4867.5 4 11.3 0.000

Size 40967.7 5 75.8 0.000

AD*Size 412.8 15 0.25 0.999

Residuen 9939.5 92

Multivariate Statistik@LS-Kneip 4–28

Page 168: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Daten (Auszug):

Ausgaben AD Region Size

1 20.02 1.00 1.00 1.00

2 25.07 1.00 1.00 2.00

3 38.25 1.00 1.00 3.00

4 48.62 1.00 1.00 4.00

5 54.88 1.00 1.00 5.00

6 60.18 1.00 1.00 6.00

7 36.38 1.00 2.00 1.00

8 45.73 1.00 2.00 2.00

9 59.29 1.00 2.00 3.00

10 66.70 1.00 2.00 4.00

11 75.54 1.00 2.00 5.00

12 78.78 1.00 2.00 6.00

13 26.63 1.00 3.00 1.00

14 28.36 1.00 3.00 2.00

15 50.33 1.00 3.00 3.00

16 57.89 1.00 3.00 4.00

17 75.75 1.00 3.00 5.00

18 81.68 1.00 3.00 6.00

19 15.67 1.00 4.00 1.00

20 21.59 1.00 4.00 2.00

21 24.99 1.00 4.00 3.00

22 34.35 1.00 4.00 4.00

23 53.94 1.00 4.00 5.00

24 52.39 1.00 4.00 6.00

25 32.34 1.00 5.00 1.00

26 30.60 1.00 5.00 2.00

Ausgaben AD Region Size

27 45.78 1.00 5.00 3.00

28 53.53 1.00 5.00 4.00

29 54.66 1.00 5.00 5.00

30 70.01 1.00 5.00 6.00

31 25.89 2.00 1.00 1.00

32 47.45 2.00 1.00 2.00

33 54.13 2.00 1.00 3.00

34 70.97 2.00 1.00 4.00

35 78.20 2.00 1.00 5.00

36 83.72 2.00 1.00 6.00

37 19.89 2.00 2.00 1.00

38 25.11 2.00 2.00 2.00

39 45.55 2.00 2.00 3.00

40 50.40 2.00 2.00 4.00

41 63.68 2.00 2.00 5.00

42 74.03 2.00 2.00 6.00

43 9.21 2.00 3.00 1.00

44 4.64 2.00 3.00 2.00

45 33.11 2.00 3.00 3.00

46 32.18 2.00 3.00 4.00

47 41.00 2.00 3.00 5.00

48 48.74 2.00 3.00 6.00

49 27.61 2.00 4.00 1.00

50 39.18 2.00 4.00 2.00

51 55.17 2.00 4.00 3.00

52 69.29 2.00 4.00 4.00

Multivariate Statistik@LS-Kneip 4–29

Page 169: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Allgemeines Vorgehen:

• Überprüfung der der Varianzanalyse zugrundeliegenden Hy-pothesen

• Unabhängigkeit ⇔ Natur der Beobachtungen, Datenerhe-bungen

• Normalität, Homoskedastizität

– Vergleich der geschätzten Varianzen

– NQ-Plot, Boxplot, Kernschätzer

• Falls notwendig:

– Transformation der Daten

Y → lnY

Y →√Y

Y → ln(Y + 1)

Y → 1Y

...

– Elimination von Ausreißern

• Eventuell: Test auf Gleichheit der Varianzen (Test von Bart-lett, Test von Hartley, . . . )

Multivariate Statistik@LS-Kneip 4–30

Page 170: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 4.3 (Gesamtausgaben)

• Ein Faktor (c = 3): Drei verschiedene Regionen

• Y – Gesamtausgaben (Nahrungsmittel, Getränke, Alkohol,Tabak, . . . )

• Daten Yij, i = 1, 2, 3, j = 1, . . . , 25, für jeweils 25 zufälliggezogene Haushalte

• Logarithmische Transformation Y ∗ij = lnYij sinnvoll

Originaldaten:Yi· 184.0 326.5 221.1

S2i 18198.0 76723.5 16460.9

logarithmische Daten:Y ∗i· 5.01 5.45 5.20

S∗i2 0.415 0.734 0.457

• Varianzanalysetabelle für Y ∗:

Freiheits-

SQ grade F

Region 2.44 2 2.27

Residuen 38.54 72

Da 2.27 < F2,72,0.95 = 3.0 erscheint H0 akzeptabel

Multivariate Statistik@LS-Kneip 4–31

Page 171: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

4.6 Ein einfaches Modell der Varianzanalysemit Messwiederholungen (“Repeated Mea-sures”)

• Messungen der Reaktionen eines Individuums (Versuchsein-heit) auf jede von i = 1, . . . , c verschiedenen Stufen einesFaktors

• n zufällig ausgewählte Individuen

• Beobachtungen Yij ,i = 1, . . . , c – Faktorstufen; j = 1, . . . , n – Individuen

• Modell

Yij = µ+ αi + βj + εij i = 1, . . . , c; j = 1, . . . , n

– αi – Effekt der i-ten Faktorstufe (fester Effekt)

– βj – individueller Effekt (“subject effect”, zufälliger Ef-fekt)– βj ∼ N(0, σ2

B), β1, . . . , βn unabhängig

– ε11, . . . , εcn i.i.d., εij unabhängig von βj , εij ∼ N(0, σ2)

• Das Modell impliziert:

– E(Yij) = µ+ αi

– Var(Yij) = σ2B + σ2

– cov(Yij , Ykl) = 0, falls i = k

– cov(Yij , Ykj) = σ2B , falls i = k

Multivariate Statistik@LS-Kneip 4–32

Page 172: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anmerkung:

• Das Modell ist restriktiv; es existieren jedoch Testverfahren(Tests auf “Compound Symmetry”), die dazu dienen, die An-nahmen zu testen.

• Alternative Ansätze beruhen auf der Theorie der multiva-riaten Normalverteilung, für jedes Individuum wird Yj =

(Y1j , Y2j , . . . , Ycj)′ als Vektor von Beobachtungen aufgefasst,

dessen Eigenschaften analysiert werden. Man spricht dannvon “multivariaten Verfahren” zur Analyse von Messwieder-holungen.

• Das Vorgehen ist weitgehend analog zur Zweifachklassifika-tion mit festen Effekten

• αi = Yi· − Y··

[= αi +

1n

n∑j=1

εij − 1cn

c∑i=1

n∑j=1

εij

]

• βi = Y·j − Y··

[= βj +

1c

c∑i=1

εij − 1cn

c∑i=1

n∑j=1

εij

]“Prädiktor” (Schätzung der Realisierung) von βj

• εij = Yij − Yi· − Y·j + Y··[= εij − 1

n

n∑j=1

εij − 1c

c∑i=1

εij +1cn

c∑i=1

n∑j=1

εij

]

Multivariate Statistik@LS-Kneip 4–33

Page 173: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

• Nichtexistenz-Existenz von Effekten der einzelnen Faktorstu-fen: Signifikanztest von

HA0 : α1 = · · · = αc = 0 gegen HA

1 : Verneinung von HA0

– Teststatistik:

FA =

c∑i=1

n(Yi·−Y··)2

c−1c∑

i=1

n∑j=1

(Yij−Yi·−Y·j+Y··)2

(c−1)(n−1)

=SQA /c− 1

SQR /(c− 1)(n− 1)=

MQA

MQR

– Unter HA0 : FA ∼ Fc−1,(c−1)(n−1)

⇒ Ablehnung, falls FA zu groß

• Nichtexistenz-Existenz von individuellen Effekten:Signifikanztest von

HB0 : σ2

B = 0 gegen HB1 : σ2

B > 0

– Teststatistik:

FB =

n∑j=1

c(Y·j−Y··)2

n−1c∑

i=1

n∑j=1

(Yij−Yi·−Y·j+Y··)2

(c−1)(n−1)

=SQB /n− 1

SQR /(c− 1)(n− 1)=

MQB

MQR

– Unter HB0 : FB ∼ Fn−1,(c−1)(n−1)

⇒ Ablehnung, falls FB zu groß

Multivariate Statistik@LS-Kneip 4–34

Page 174: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 4.4 (Stress amerikanischer Polizeioffiziere)

• Y – Maßzahl für den Stress in c = 8 verschiedenen Problem-situationen

• Stichprobe von n = 50 Polizeioffizieren

• Variablen:Y1 – Untersuchungen in Situationen mit schweren Verlet-

zungen, Todesfällen

Y2 – Behandlungen gewalttätiger oder unter Drogen ste-hender Personen

Y3 – Beschimpfungen

Y4 – Misserfolg bei der Aufklärung schwerer Straftaten

Y5 – Freispruch eines Schuldigen wegen fehlerhaften Arbeit

Y6 – Probleme innerhalb der Polizeieinheit

Y7 – Untersuchung familiärer Probleme

Y8 –

• Varianzanalysetabelle

Freiheits-

Problem- SQ grade MQ F p-Wert

situation 138.32 7 19.76 20.66 0.000

Residuen 328.06 343 0.96

⇒ Unterschiede im Stressniveau für die verschiedenen Pro-blemsituationen

Multivariate Statistik@LS-Kneip 4–35

Page 175: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Nr. Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8

1 2.00 3.00 2.00 2.00 2.00 2.00 3.00 2.00

2 1.00 1.00 2.00 3.00 1.00 1.00 3.00 2.00

3 1.00 2.00 3.00 5.00 2.00 4.00 5.00 1.00

4 2.00 2.00 1.00 3.00 3.00 4.00 3.00 3.00

5 1.00 3.00 2.00 3.00 4.00 4.00 3.00 3.00

6 1.00 2.00 2.00 3.00 4.00 3.00 3.00 3.00

7 2.00 3.00 2.00 4.00 4.00 3.00 4.00 3.00

8 3.00 1.00 1.00 3.00 2.00 3.00 3.00 1.00

9 2.00 1.00 1.00 4.00 4.00 4.00 3.00 4.00

10 2.00 1.00 2.00 3.00 2.00 5.00 4.00 5.00

11 2.00 1.00 3.00 2.00 2.00 2.00 2.00 1.00

12 2.00 1.00 2.00 3.00 5.00 5.00 4.00 2.00

13 4.00 3.00 4.00 3.00 4.00 3.00 3.00 3.00

14 3.00 3.00 4.00 3.00 4.00 4.00 3.00 2.00

15 2.00 3.00 3.00 3.00 2.00 3.00 2.00 2.00

16 2.00 3.00 5.00 4.00 4.00 4.00 5.00 2.00

17 1.00 3.00 3.00 2.00 4.00 4.00 1.00 4.00

18 2.00 2.00 1.00 3.00 3.00 3.00 2.00 4.00

19 1.00 1.00 2.00 3.00 1.00 1.00 1.00 1.00

20 3.00 4.00 4.00 2.00 3.00 5.00 3.00 4.00

21 3.00 2.00 1.00 3.00 2.00 2.00 2.00 3.00

22 1.00 1.00 3.00 3.00 1.00 5.00 1.00 2.00

23 1.00 2.00 4.00 3.00 3.00 3.00 3.00 4.00

24 3.00 3.00 2.00 4.00 4.00 3.00 4.00 4.00

25 3.00 4.00 5.00 4.00 4.00 5.00 5.00 4.00

26 1.00 3.00 3.00 3.00 3.00 2.00 4.00 2.00

27 4.00 3.00 2.00 3.00 4.00 4.00 5.00 4.00

28 2.00 1.00 2.00 3.00 2.00 1.00 3.00 2.00

29 2.00 2.00 2.00 3.00 3.00 3.00 3.00 2.00

30 4.00 2.00 3.00 3.00 4.00 2.00 3.00 2.00

31 5.00 1.00 2.00 3.00 4.00 3.00 4.00 2.00

32 4.00 3.00 2.00 3.00 4.00 5.00 3.00 4.00

33 1.00 2.00 3.00 2.00 2.00 3.00 2.00 2.00

34 2.00 2.00 2.00 3.00 1.00 2.00 1.00 2.00

35 3.00 2.00 1.00 2.00 2.00 1.00 2.00 1.00

36 4.00 3.00 2.00 3.00 2.00 4.00 4.00 1.00

37 2.00 3.00 3.00 4.00 3.00 3.00 4.00 2.00

38 3.00 3.00 2.00 4.00 4.00 3.00 3.00 3.00

39 1.00 3.00 2.00 3.00 2.00 3.00 3.00 1.00

40 3.00 3.00 4.00 3.00 2.00 1.00 4.00 3.00

41 1.00 1.00 5.00 3.00 3.00 3.00 3.00 1.00

42 5.00 3.00 3.00 3.00 4.00 4.00 5.00 4.00

43 3.00 3.00 2.00 3.00 1.00 2.00 1.00 2.00

44 1.00 1.00 1.00 5.00 5.00 4.00 5.00 4.00

45 3.00 2.00 2.00 3.00 2.00 2.00 4.00 2.00

46 3.00 2.00 3.00 3.00 3.00 3.00 3.00 3.00

47 3.00 3.00 3.00 4.00 4.00 3.00 4.00 5.00

48 1.00 1.00 1.00 2.00 2.00 4.00 1.00 3.00

49 2.00 2.00 1.00 3.00 3.00 4.00 3.00 1.00

50 1.00 1.00 3.00 4.00 4.00 2.00 3.00 4.00Multivariate Statistik@LS-Kneip 4–36

Page 176: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Anmerkung:

• Das besprochene Modell ist das einfachste Beispiel eines Mo-dells mit gemischten Effekten (fest + zufällig). Solche Mo-delle werden auch als “Varianzkomponentenmodelle” bezeich-net.

• Für das diskutierte einfache Modell konnten die gleichenAnalyseverfahren verwendet werden wie in der gewöhnlichenVarianzanalyse mit festen Effekten. Dies ist jedoch bei kom-plizierteren gemischten Modellen nicht mehr der Fall. DieSchätzung unbekannter Parameter erfolgt dann über den Maxi-mum-Likelihood Ansatz, während für die zufälligen Effektebeste erwartungstreue Prädikatoren (BLUP) bestimmt wer-den ⇒ EM-Algorithmus.

Multivariate Statistik@LS-Kneip 4–37

Page 177: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Fortsetzung Beispiel 4.1 (Testfamilien)

−2

−1

01

2

020406080100

Nor

mal

Q−Q

Plo

t Bei

spie

l Tes

tfam

ilien

(A

D1)

The

oret

ical

Qua

ntile

s

Sample Quantiles

−2

−1

01

2

020406080100

Nor

mal

Q−Q

Plo

t Bei

spie

l Tes

tfam

ilien

(A

D2)

The

oret

ical

Qua

ntile

s

Sample Quantiles

−2

−1

01

2

020406080100

Nor

mal

Q−Q

Plo

t Bei

spie

l Tes

tfam

ilien

(A

D3)

The

oret

ical

Qua

ntile

s

Sample Quantiles

−2

−1

01

2

020406080100

Nor

mal

Q−Q

Plo

t Bei

spie

l Tes

tfam

ilien

(A

D4)

The

oret

ical

Qua

ntile

s

Sample Quantiles

Multivariate Statistik@LS-Kneip 4–38

Page 178: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

AD

1A

D2

AD

3A

D4

020406080100

Bo

xp

lots

Beis

pie

l T

estf

am

ilie

n

We

rbe

sp

ots

/TV

Sta

tio

ne

n

Ausgaben für Milchprodukte

Multivariate Statistik@LS-Kneip 4–39

Page 179: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Beispiel 4.5 (Gesamtausgaben)

region1 region2 region3 logreg1 logreg2 logreg3

1 76.81 950.61 65.02 4.34 6.86 4.17

2 223.09 956.31 182.24 5.41 6.86 5.21

3 186.25 113.91 306.65 5.23 4.74 5.73

4 142.82 181.92 82.14 4.96 5.20 4.41

5 54.01 473.28 86.79 3.99 6.16 4.46

6 80.14 119.48 139.88 4.38 4.78 4.94

7 557.38 98.71 312.40 6.32 4.59 5.74

8 183.76 159.00 287.69 5.21 5.07 5.66

9 105.29 283.53 320.33 4.66 5.65 5.77

10 273.47 292.12 138.53 5.61 5.68 4.93

11 564.42 95.73 418.19 6.34 4.56 6.04

12 338.71 390.46 236.41 5.83 5.97 5.47

13 137.14 257.37 161.80 4.92 5.55 5.09

14 110.71 240.27 41.67 4.71 5.48 3.73

15 170.50 819.83 170.05 5.14 6.71 5.14

16 75.35 260.68 420.65 4.32 5.56 6.04

17 127.35 415.23 147.19 4.85 6.03 4.99

18 265.57 45.39 98.16 5.58 3.82 4.59

19 169.11 71.49 301.49 5.13 4.27 5.71

20 179.01 471.33 355.38 5.19 6.16 5.87

21 45.75 791.58 64.60 3.82 6.67 4.17

22 124.04 68.65 206.25 4.82 4.23 5.33

23 228.21 132.75 377.87 5.43 4.89 5.93

24 104.00 149.57 125.18 4.64 5.01 4.83

25 76.50 322.17 481.24 4.34 5.78 6.18

Multivariate Statistik@LS-Kneip 4–40

Page 180: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

reg

ion

1re

gio

n2

reg

ion

3

200400600800

Bo

xp

lots

Beis

pie

l G

esam

tau

sg

ab

en

Re

gio

ne

n

Gesamtausgaben

Multivariate Statistik@LS-Kneip 4–41

Page 181: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

−2

−1

01

2

100200300400500

N−

Q−

Plo

t (R

eg

ion

1)

Th

eo

retica

l Q

ua

ntile

s

Sample Quantiles

−2

−1

01

2

200400600800

N−

Q−

Plo

t (R

eg

ion

2)

Th

eo

retica

l Q

ua

ntile

s

Sample Quantiles

−2

−1

01

2

100200300400

N−

Q−

Plo

t (R

eg

ion

3)

Th

eo

retica

l Q

ua

ntile

s

Sample Quantiles

Multivariate Statistik@LS-Kneip 4–42

Page 182: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

Re

gio

n1

Re

gio

n2

Re

gio

n3

4.0

4.5

5.0

5.5

6.0

6.5

Bo

xp

lots

lo

gari

tmie

rte G

esam

tau

sg

ab

en

Re

gio

ne

n

log. Gesamtausgaben

Multivariate Statistik@LS-Kneip 4–43

Page 183: Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren

−2

−1

01

2

4.0

4.5

5.0

5.5

6.0

N−

Q−

Plo

t R

eg

ion

1 (

log

arith

mie

rte

We

rte

)

Th

eo

retica

l Q

ua

ntile

s

Sample Quantiles

−2

−1

01

2

4.0

4.5

5.0

5.5

6.0

6.5

N−

Q−

Plo

t R

eg

ion

2 (

log

arith

mie

rte

We

rte

)

Th

eo

retica

l Q

ua

ntile

s

Sample Quantiles

−2

−1

01

2

4.0

4.5

5.0

5.5

6.0

N−

Q−

Plo

t R

eg

ion

3 (

log

arith

mie

rte

We

rte

)

Th

eo

retica

l Q

ua

ntile

s

Sample Quantiles

Multivariate Statistik@LS-Kneip 4–44