60

Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Embed Size (px)

Citation preview

Page 1: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik

Angewandte Multivariate Statistik

Prof. Dr. Ostap Okhrin

Ostap Okhrin 1 of 60

Page 2: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Principal Components Analysis(Hauptkomponentenanalyse)

Ziel:

� Reduziere die Dimension einer p-variaten Zufallsvariable X über

Linearkombinationen.

� Diese Linearkombinationen sollten die gröÿte Streuung zwischen

den Werten von X erzeugen, z. B. in dem die

Linearkombinationen mit den gröÿten Varianzen gesucht werden.

Ostap Okhrin 2 of 60

Page 3: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Principal Components Analysis(Hauptkomponentenanalyse)

Standardisierte Linearkombination (SLC)Für eine standardisierte Linearkombination (SLC) mit einem

gewichteten Durchschnitt von X kann

δ>X =∑p

j=1δjXj ||δ|| = 1,

∑pj=1

δ2j = 1

↗standardisiert

geschrieben werden. δ = (δ1, ..., δp)> ist dabei der Wichtungsvektor,

der die Richtung der Linearkombinationen bestimmt.

Ostap Okhrin 3 of 60

Page 4: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Mit Hilfe der SLC kann ein δ gefunden werden, das die Varianz von

δ>X maximiert:

max{δ:‖δ‖=1}

Var(δ>X ) = max{δ:‖δ‖=1}

δ> Var(X )δ.

Die Lösung zu Theorem 2: der maximale Vektor (die beste Richtung)

ist der Eigenvektor γ1 mit dem dazugehörigen gröÿten Eigenwert λ1der Kovarianz-Matrix Σ = Var(X ).

Ostap Okhrin 4 of 60

Page 5: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Gegeben sei:

erste Hauptkomponente: Y1 = γ>1X

zweite Hauptkomponente: Y2 = γ>2X

...und so weiter mit γi⊥γj∀i 6= j .

Allgemein:Die Hauptkomponenten (PC) Transformation einer Zufallsvariable X

mit E(X ) = µ, Var(X ) = Σ = ΓΛΓ> ist:

Y = Γ>(X − µ)

Anmerkung: Die Variable X ist zentriert, damit die Hauptkomponente

einen Erwartungswert von Null erhält.

Ostap Okhrin 5 of 60

Page 6: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

−3 −2 −1 0 1 2 3−5

0

5Direction in Data

−3 −2 −1 0 1 2 3−1

0

1Projection

Explained variance 0.50520Total variance 1.96569Explained percentage 0.25701

Abbildung 1: Eine beliebige SLC

Ostap Okhrin 6 of 60

Page 7: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

−3 −2 −1 0 1 2 3−5

0

5Direction in Data

−3 −2 −1 0 1 2 3−1

0

1Projection

Explained variance 1.46049Total variance 1.96569Explained percentage 0.74299

Abbildung 2: Die interessanteste SLC

Ostap Okhrin 7 of 60

Page 8: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Beispiel

Bivariate Normalverteilung N(0,Σ), Σ =(1ρρ1

), ρ > 0.

Eigenwerte dieser Matrix sind λ1 = 1 + ρ und λ2 = 1− ρ mit den

dazugehörigen Eigenvektoren

γ1 =1√2

(1

1

), γ2 =

1√2

(1

−1

).

Die PC Transformation ist somit

Y = Γ>(X − µ) =1√2

(1 1

1 −1

)X

or (Y1

Y2

)=

1√2

(X1 + X2

X1 − X2

).

Ostap Okhrin 8 of 60

Page 9: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Die erste Hauptkomponente (PC) ist

Y1 =1√2

(X1 + X2)

und die zweite ist

Y2 =1√2

(X1 − X2).

Ostap Okhrin 9 of 60

Page 10: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Berechne die Varianzen von diesen Hauptkomponenten (PCs)

Var(Y1) = Var

{1√2

(X1 + X2)

}=

1

2Var(X1 + X2)

=1

2{Var(X1) + Var(X2) + 2Cov(X1,X2)}

=1

2(1 + 1 + 2ρ) = 1 + ρ

= λ1.

Auf die gleiche Weise kann Var(Y2) = λ2 = 1− ρ. gefunden werden.

Ostap Okhrin 10 of 60

Page 11: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Theorem

Sei X ∼ (µ,Σ) und Y = Γ>(X − µ) die PC Transformation. Dann ist

für j=1,...,p:EYj = 0

Var(Yj) = λjCov(Yi ,Yj) = 0, for i 6= jVar(Y1) ≥ · · · ≥ Var(Yp) ≥ 0∑p

j=1Var(Yj) = tr(Σ)∏p

j=1Var(Yj) = |Σ|.

Ostap Okhrin 11 of 60

Page 12: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Theorem

Es gibt keine SLC, die eine gröÿere Varianz als λ1 = Var(Y1) hat.

Theorem

Sei Y = a>X eine SLC, die nicht mit den ersten k Hauptkomponenten

(PCs) von X korreliert, dann wird Var(Y ) durch a = γk+1 maximal.

Ostap Okhrin 12 of 60

Page 13: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Zusammenfassung: SLC

� Eine standardisierte Linearkombination (SLC) ist ein gewichteter

Durchschnitt δ>X =∑p

j=1δjXj . Der Vektor δ hat eine Länge von

1.

� Durch Maximieren der Varianz von δ>X wird der Eigenvektor

δ = γ1 gefunden. Dieser Eigenvektor gehört zum gröÿten

Eigenwert λ1 der Kovarianzmatrix Σ = Var(X ).Das entspricht einer Projektion von X in einem eindimensionalen

Raum, in dem die Komponenten von X von den Elementen γ1gewichtet werden.

� Y1 = γ>1

(X − µ) wird die erste Hauptkomponente (�rst PC)

genannt.

Ostap Okhrin 13 of 60

Page 14: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Zusammenfassung: SLC

� Diese Projektion kann für höhere Dimensionen verallgemeinert

werden. Die PC Transformation ist eine Lineartransformation

Y = Γ>(X − µ), mit Σ = Var(X ) = Γ>ΛΓ und µ = EX .

Y1,Y2, . . . ,Yp wird erste, zweite,. . . , p-te Hauptkomponente

(�rst, second,. . . ,pth PCs) genannt.

Ostap Okhrin 14 of 60

Page 15: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Zusammenfassung: SLC

� Die Hauptkomponenten (PCs) haben einen Erwartungswert von

Null, eine Varianz Var(Yj) = λj , und keine Kovarianzen. Gilt

λ1 ≥ . . . ≥ λp, ist Var(Y1) ≥ . . . ≥ Var(Yp). Des Weiteren sei∑pj=1

Var(Yj) = tr(Σ) und∏p

j=1Var(Yj) = |Σ|.

� Wenn Y = a>X eine SLC ist, die nicht mit den ersten kHauptkomponenten von X korreliert, wird die Varianz von Ydurch die Wahl von a gleich der (k + 1)ten Hauptkomponente

maximiert.

Ostap Okhrin 15 of 60

Page 16: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

Hauptkomponenten in der Praxis

� µ wird x ,

� Σ ändert sich zu S = GLG>

Y = (X − 1nx>)G

SY = n−1Y>HY= n−1G>(X − 1nx

>)>H(X − 1nx>)G

= n−1G>X>HXG = G>SG = L

L = diag(`1, . . . , `p) ist die Matrix der Eigenwerte von S.

Ostap Okhrin 16 of 60

Page 17: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

y1 = (X − 1nx>)g1

g1 = 1. Evec(S)

g2 = 2. Evec(S)

g3 = 3. Evec(S)

...

Die Hauptkomponenten-Methode ist emp�ndlich gegenüber Skala-bzw. Maÿstabsänderungen. Die Hauptkomponenten (PC)

Transformation sollte nur für Daten angewendet werden, die nahezu

die selbe Skala in jeder Variable aufweisen.

Ostap Okhrin 17 of 60

Page 18: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

BeispielEs wird der Banknotendatensatz betrachtet. Der Mittelwertsvektor von

X ist:

x = (214.9, 130.1, 129.9, 9.4, 10.6, 140.5)> ,

der Vektor mit den Eigenwerten von S ist:

` = (2.985, 0.931, 0.242, 0.194, 0.085, 0.035)> .

Ostap Okhrin 18 of 60

Page 19: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

Die Eigenvektoren gj entsprechen den Spalten von G:

G =

−0.044 0.011 0.326 0.562 −0.753 0.0980.112 0.071 0.259 0.455 0.347 −0.7670.139 0.066 0.345 0.415 0.535 0.6320.768 −0.563 0.218 −0.186 −0.100 −0.0220.202 0.659 0.557 −0.451 −0.102 −0.035−0.579 −0.489 0.592 −0.258 0.085 −0.046

Die erste Spalte von G ist der erste Eigenvektor. Er liefert die

Gewichte, die für die erste Hauptkomponente benötigt werden.

Abbildung 3 zeigt die geplotteten Hauptkomponenten, echte

Banknoten wurden mit o und gefälschte mit + gekennzeichnet.

Ostap Okhrin 19 of 60

Page 20: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

!!

!

!

!

!!

!

!

!

!

!

!!!

!

!

!

!

!!

!!

!

!

!

!

!

!

!

!

!

!

!!

!

!!

!

!

!

!

!

!

!

!!

!!

!

!

!

!!

!

!

!

!

!

!

!

!!!

!!!

!

!

!

!

!

!

!! !

!

! !

!

!

!

!

!!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!51 !49 !47

!50

!48

!46

!44

First vs. Second PC

PC1

PC2

!

!

! !

!

!

! !

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

! !

!!

!

!

!!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!!

!

!!

!! !

!

!

!

!

!

!

!!

!

!

!

!

!

!

!!

!

!

!!

!

!!

!

!

!

!50 !48 !46 !44

!238.5

!240.0

!241.5

Second vs. Third PC

PC2

PC3

!

!

!!

!

!

!!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!!

!

!

!!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!!

!

!!

!!!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!!

!

!

!!

!

!!

!

!

!

!51 !49 !47

!238.5

!240.0

!241.5

First vs. Third PC

PC1

PC2

!

!

! !! !

1 2 3 4 5 6

0.0

1.0

2.0

3.0

Eigenvalues of S

Index

Lambda

Abbildung 3: Hauptkomponenten der Bankdaten.

Ostap Okhrin 20 of 60

Page 21: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

Beispiel (Skala- bzw. Maÿstabsänderung)Umskalierung der Variablen X1,X2,X3, und X6 in cm,

nur X4 und X5 werden weiterhin mm angegeben.

Damit ist

x = (21.49, 13.01, 12.99, 9.4, 10.6, 14.05)> ,

und

` = (2.101, 0.623, 0.005, 0.002, 0.001, 0.0004)> .

Dieses Ergebnis unterscheidet sich ganz klar vom vorherigen (siehe

Abbildung 4): die 1. Hauptkomponente wird durch X4 und die 2.

Hauptkomponente durch X5 dominiert. Die anderen Variablen haben

deutlich weniger Gewicht.

Ostap Okhrin 21 of 60

Page 22: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

!! !

!

!

!

!

!!

!

!

!

!!!

!

!

!

!

!!

!

!

!

!!

!

!

!

!

!

!

!

!!

!!

!

!

!

!

!

!

!

!!!

!

!

!

!

!

!!

!

!

!

!

!

!

!

! !!

!!!

!

!

!!

!

!

!! !

!

!!

!!

!

!

!!

!

!

!

!

!

!!

!

!

!

!

!!

!!

8 9 10 11 12 13

!10

!9

!8

!7

!6

First vs. Second PC

PC1

PC2

!

!

!!

!

!

!

!

!

!

!

!

!

!!

!

! !

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!!

!

!

!!

!

!

! !!

!!

!

!!

!

!

!

!!

!

!

!!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!!

!

!

!!

!

!

!

!10 !9 !8 !7 !6

!14.3

!14.1

!13.9

Second vs. Third PC

PC2

PC3

!

!

!!

!

!

!

!

!

!

!

!

!

!!

!

! !

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!!

!

!

!!

!

!

!!!

!!

!

!!

!

!

!

!!

!

!

!!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!!

!

!

!!

!

!

!

8 9 10 11 12 13

!14.3

!14.1

!13.9

First vs. Third PC

PC1

PC2

!

!

! ! ! !

1 2 3 4 5 6

0.0

1.0

2.0

Eigenvalues of S

Index

Lambda

Abbildung 4: Hauptkomponenten der umskalierten Bankdaten

Ostap Okhrin 22 of 60

Page 23: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

Zusammenfassung: PCs in der Praxis

� Die Skala (bzw. der Maÿstab) der Variablen sollte ungefähr gleich

sein, wenn eine Hauptkomponentenanalyse (PCA) durchgeführt

wird.

� Für die Anwendung der PCA in der Praxis wird µ durch den

Mittelwert x und Σ durch die empirische Kovarianz S ersetzt.

Anschlieÿend werden die Eigenwerte `1, . . . , `p und die

Eigenvektoren g1, . . . , gp von S berechnet.

� Für die gra�sche Darstellung der Hauptkomponenten wird die

geplottete 1. Hauptkomponente der 2. Hauptkomponente (und

eventuell der 3. Hauptkomponente) gegenübergestellt.

� Die Komponenten des Eigenvektors gi sind die Gewichte der

originalen Variablen in den Hauptkomponenten.

Ostap Okhrin 23 of 60

Page 24: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

Interpretation der Hauptkomponenten

Die Varianz wird durch die ersten q Hauptkomponenten erklärt.

ψ =λ1 + · · ·+ λq

p∑j=1

λj

=

q∑j=1

Var(Yj)

p∑j=1

Var(Yj)

=

q∑j=1

Var(Yj)

tr(Σ)

Ostap Okhrin 24 of 60

Page 25: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

Kovarianzen zwischen dem Hauptkomponenten Vektor Y und dem

Originalvektor X :

Cov(X ,Y ) = E(XY>)− EX EY>

= E(XX>Γ)− µµ>Γ = Var(X )Γ

= ΣΓ

= ΓΛΓ>Γ

= ΓΛ

Korrelation zwischen Variable Xi und der Hauptkomponente Yj :

ρXiYj= γij

(λjσXiXi

)1/2

.

Ostap Okhrin 25 of 60

Page 26: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

BeispielBankdaten:

Eigenwert Varianz- kumulierter

anteil Anteil

2.985 0.67 0.67

0.931 0.21 0.88

0.242 0.05 0.93

0.194 0.04 0.97

0.085 0.02 0.99

0.035 0.01 1.00

Ostap Okhrin 26 of 60

Page 27: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

!

!

!!

!!

1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

Swiss Bank Notes

Index

Vari

ance E

xpla

ined

Abbildung 5: Relativer Varianzanteil, der durch die Hauptkomponenten erklärt

werden kann.

Ostap Okhrin 27 of 60

Page 28: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

ψ1 =λ1 + · · ·+ λq

p∑j=1

λj

Arbeitsschritte fürs Plotten:

1. Berechnen der Kovarianzmatrix

2. Berechnen der Eigenwerte

3. Standardisieren der Eigenwerte durch die Summe der Eigenwerte

4. Plotten der Anteile auf der y�Achse

Ostap Okhrin 28 of 60

Page 29: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

!1.0 !0.5 0.0 0.5 1.0

!1

.0!

0.5

0.0

0.5

1.0

Swiss Bank Notes

First PC

Se

co

nd

PC

X1

X2X3

X4

X5

X6

Abbildung 6: Korrelation der originalen Variablen mit den Hauptkomponenten.

Ostap Okhrin 29 of 60

Page 30: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

Zusammenfassung: Interpretation

� Die Gewichtung der Hauptkomponenten bestimmt in welche

Richtungen, ausgedrückt in Originalkoordinaten, die beste

Varianzerklärung liegt. Es muss beachtet werden, dass die PCA

nicht skaleninvariant ist.

� Der relative Anteil ψq =∑q

j=1λj/∑p

j=1λj ist ein Maÿstab dafür,

wie gut die ersten q Hauptkomponenten die Variation erklären.

� Wie gut die Hauptkomponenten die Variation in den Daten

erklären, kann mit einem Scree Plot von diesen Variationen

gra�sch dargestellt werden.

Ostap Okhrin 30 of 60

Page 31: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

Zusammenfassung: Interpretation

� Die Korrelation zwischen einer Hauptkomponente Yj und einer

Originalvariable Xi kann mit ρXiYj= γij

(λj

σXi Xj

)1/2

berechnet

werden.

� Wird in der Praxis eine Datenmatrix betrachtet, wird die

Korrelation stattdessen mit r2XiYj=

`jg2ij

sXi Xjberechnet. Anders

ausgedrückt entspricht r2XiYjdem Varianzanteil von Xi , der durch

Yj erklärt werden kann.

∗ Ein Plot von rXiY1und rXiY2

zeigt, welche Variablen aus dem

Originaldatensatz am stärksten mit den Hauptkomponenten

korrelieren. Das sind jene Variablen, die sehr Nahe am

Einheitskreis liegen.

Ostap Okhrin 31 of 60

Page 32: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

Asymptotische Eigenschaften derHauptkomponenten

Theorem

Sei Σ > 0 mit eindeutigen Eigenwerten und U ∼ m−1Wp(Σ,m) mit

den spektralen Zerlegungen Σ = ΓΛΓ> und U = GLG> gegeben.

Dann sind

(a)√m(`− λ)

L−→ Np(0, 2Λ2),

(b)√m(gj − γj)

L−→ Np(0,Vj), mit Vj = λj∑

k 6=jλk

(λk−λj )2γkγ

>k ,

(c) Cov(gj , gk) = Vjk , (r , s)-Element von Vjk ist:λjλkγrkγsj

[m(λj−λk )2],

(d) Elemente in ` asymptotische unabhängige Elemente in G

Ostap Okhrin 32 of 60

Page 33: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

BeispielSei X1, . . . ,Xn ∼ N(µ,Σ), nS ∼Wp(Σ, n − 1), dann kann das letzte

Theorem wie folgt ausgedrückt werden:

√n − 1(`j − λj)

L−→ N(0, 2λ2j ), j = 1, . . . , p .

Da die Varianz 2λ2j unbekannt ist, wird die Log-Transformation und

das Transformationstheorem (siehe Multivariate Verteilungen) wie

folgt angewendet:√n − 1

2(log `j − log λj)

L−→ N(0, 1)

Ein zweiseitiges Kon�denzintervall sieht wie folgt aus:

log(`j)− 1.96

√2

n − 1≤ log λj ≤ log(`j) + 1.96

√2

n − 1

Ostap Okhrin 33 of 60

Page 34: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

Gegeben seien die Bankdaten mit: n = 200, `1 = 2.98.Dafür ist

log(2.98)± 1.96

√2

200− 1= log(2.98)± 0.1965

und das Kon�denzintervall: P{λ1 ∈ (2.448, 3.62)} ≈ 0.95

Ostap Okhrin 34 of 60

Page 35: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

Erklärung der Varianz durch die ersten qHauptkomponenten

ψ =λ1 + · · ·+ λq

p∑j=1

λj

·

ψ̂ =`1 + · · ·+ `q

p∑j=1

`j

·

Ostap Okhrin 35 of 60

Page 36: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

Ausgehend vom Theorem und Nichtlinearität von ψ in λ wird das

Transformationstheorem 4.11 angewendet:

√n − 1(ψ̂ − ψ)

L−→ N(0,D>VD)

V = 2Λ2

D = (d1, · · · , dp)>

dj =∂ψ

∂λj=

{1−ψtr(Σ)

for 1 ≤ j ≤ q,−ψtr(Σ)

for q + 1 ≤ j ≤ p.

Ostap Okhrin 36 of 60

Page 37: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

Theorem √n − 1(ψ̂ − ψ)

L−→ N(0, ω2),

ω2 = D>VD =2

{tr(Σ)}2{

(1− ψ)2(λ21 + · · ·+ λ2q)

+ ψ2(λ2q+1 + · · ·+ λ2p)}

=2 tr(Σ2)

{tr(Σ)}2(ψ2 − 2βψ + β)

β =λ21

+ · · ·+ λ2qλ21

+ · · ·+ λ2p.

Hinweis: Mit tr(Λ) = tr(Σ) und tr(Λ2) = tr(Σ2) können die

Berechnungen vereinfacht werden!

Ostap Okhrin 37 of 60

Page 38: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

BeispielDie erste berechnete Hauptkomponente der Schweizer Banknoten

erklärt 67% der Variation. Nun soll getestet werden, ob der wahre

Anteil sogar bei 75% liegt.

Das Kon�denzintervall mit einer 1-α=0.95Vertrauenswahrscheinlichkeit sei gegeben:

0.668± 1.96

√ω̂2

n − 1,

ω̂2 kann wie folgt berechnet werden:

β̂ =`21

`21

+ · · ·+ `2p= 0.902.

tr(S) = 4.472

tr(S2) =

p∑j=1

`2j = 9.883

Ostap Okhrin 38 of 60

Page 39: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

ω̂2 =2 tr(S2)

tr(S)2(ψ̂2 − 2β̂ψ̂ + β̂) = 0.142

Damit ist:

0.668± 1.96

√0.142

199= (0.615, 0.720).

Das heiÿt, die (Null-) Hypothese, dass ψ = 75% kann mit einer

Irrtumswahrscheinlichkeit von α = 5% abgelehnt werden!

Ostap Okhrin 39 of 60

Page 40: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

Zusammenfassung: AsymptotischeEigenschaften derHauptkomponenten

� Die Eigenwerte `j und Eigenvektoren gj sind asymptotisch

normalverteilt, im Speziellen√n − 1(`− λ)

L−→ Np(0, 2Λ2).

� Für die Eigenwerte gilt√

n−12

(log `j − log λj)L−→ N(0, 1).

Ostap Okhrin 40 of 60

Page 41: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

Zusammenfassung: AsymptotischeEigenschaften derHauptkomponenten

� Die asymptotische Normalverteilung erlaubt Kon�ndenzintervalle

zu konstruieren und auf den Anteil der Varianz zu testen, der von

den ersten q Hauptkomponenten erklärt wird.

� Es gilt für die geschätzten ψ̂ von ψ das√n − 1(ψ̂ − ψ)

L−→ N(0, ω2) .

Ostap Okhrin 41 of 60

Page 42: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA

Normalisierte Hauptkomponentenanalyse(NPCA)

Die Hauptkomponentenanalyse (PCA) ist abhängig von der Skala bzw.

dem Maÿstab von Xj .

Die Standardisierung der Komponenten Xj , wenn die Datenmatrix Xsei:

Korrektur des Mittelwertes:

XC = HX

zentrierte Datenmatrix (H = In − n−11n1>n )

Ostap Okhrin 42 of 60

Page 43: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA

Korrektur bzw. Anpassung der Skala bzw. des Maÿstabes:

XS = HXD−1/2 ,

D = diag(sX1X1, . . . , sXpXp) , xS = 0 ,SXS

= R�Korrelationsmatrix

Die PCA von XS wird NPCA (Normalisierte

Hauptkomponentenanalyse) genannt, mit

R = GRLRGR> ,

LR = diag(`R1, . . . , `Rp ).

Die NPC's sind:

Z = XSGR = (z1, . . . , zp) .

Ostap Okhrin 43 of 60

Page 44: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA

Die NPC's genügen:

z = 0,

SZ = GR>SXSGR = GR>RGR = LR .

Kovarianz und Korrelation

SXS ,Z =1

nX>S Z = GRLR

RXS ,Z = GRLRLR−1/2 = GRLR1/2

rXiZj= rXsiZj

=√ljgR,ij

p∑j=1

r2XiZj= 1.

Ostap Okhrin 44 of 60

Page 45: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA

French Food Data

Die Daten beinhalten durchschnittliche Ausgaben für Lebensmittel

verschiedener Familien in Frankreich (manual workers = MA,

employees = EM, managers = CA) mit unterschiedlicher Kinderzahl

(2,3,4 or 5 children). Die Daten sind von Lebart, Morineau and

Fénelon (1982).

Ostap Okhrin 45 of 60

Page 46: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA

!1.0 !0.5 0.0 0.5

!0.4

!0.2

0.0

0.2

0.4

0.6

0.8

French Food data

First Factor ! Families

Second F

acto

r !

Fam

ilie

s

MA2

EM2

CA2

MA3

EM3

CA3

MA4

EM4

CA4

MA5

EM5

CA5

Abbildung 7: Gra�sche Darstellung der Individuen

Ostap Okhrin 46 of 60

Page 47: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA

!1.0 !0.5 0.0 0.5 1.0

!1

.0!

0.5

0.0

0.5

1.0

French Food data

First Factor ! Goods

Se

co

nd

Fa

cto

r !

Go

od

s

bread

vegetables

fruits

meatpoultry

milkwine

Abbildung 8: Gra�sche Darstellung der Variablen

Ostap Okhrin 47 of 60

Page 48: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA

Zusammenfassung: NPCA

� Die normalisierte Hauptkomponentenanalyse (NPCA) entspricht

der Hauptkomponentenanalyse (PCA), die auf eine standardisierte

(normalisierte) Datenmatrix XS angewendet wird.

� Die gra�sche Darstellung liefert ähnliche Bilder wie bei der PCA,

jedoch wird hier die relative Position der Individuen

berücksichtigt. Im Gegensatz zur PCA hat bei der NPCA jede

Variable das selbe Gewicht (bei der PCA hat die Variable mit der

gröÿten Varianz das gröÿte Gewicht).

� Die Qualität der Darstellungen kann durch

ψ =`1 + `2 + . . .+ `q

p∑j=1

`j

.

geschätzt werden.

Ostap Okhrin 48 of 60

Page 49: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Hauptkomponenten als faktorielle Methode

Die empirischen Hauptkomponenten (normalisiert oder nicht) sind

äquivalent zu den Faktoren, die man beim Zerlegen der Datenmatrix

erhalten würde.

� Die Hauptkomponenten entsprechen Faktoren und werden durch

die Zeilen der zentrierten Datenmatrix repräsentiert.

� Die normalisierten Hauptkomponenten (NPCs) entsprechen den

Faktoren der standardisierten Datenmatrix.

Ostap Okhrin 49 of 60

Page 50: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Betrachtet man die Individuen (die Zeilen von X ) und die Variablen

(die Spalten von X ) in einer kleineren Dimension, dann ist

XC = HX .

Die spektrale Zerlegung von X>C XC ist der Zerlegung von SX ähnlich:

X>C XC = X>H>HX = nSX = nGLG>.

Die faktoriellen Variablen werden durch die Projektion von XC auf Gberücksichtigt,

Y = XCG = (y1, . . . , yp).

Ostap Okhrin 50 of 60

Page 51: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Da HXC = XC , folgt sofort, dass

y = 0,

SY = G>SXG = L = diag(`1, . . . , `p).

Die faktoriellen Achsen des Streudiagramms der Individuen sind somit

um den Ursprung zentriert und streuen stärker in die erste Richtung

(die erste Hauptkomponente hat die Varianz `1), danach in die zweite

Richtung (die zweite Hauptkomponente hat die Varianz `2).

Ostap Okhrin 51 of 60

Page 52: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Duale Relationen

Die Projektionen der Spalten von XC in die Eigenvektoren vk von

XCX>C sind

X>C vk =1√n`kX>C XCgk =

√n`kgk .

Projektionen der ersten p Achse sind die Spalten von

X>C V =√nGL1/2.

Ostap Okhrin 52 of 60

Page 53: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Geometrische Darstellung

Betrachte

x>C [j]xC [k] = nsXjXk,

||xC [j]||2 = nsXjXj,

mit xC [j] und xC [k], dabei sei die j-te und k-te Spalte von XC . Wenn

θjk der Winkel zwischen xC [j] und xC [k] ist, kann

cos θjk =x>C [j]xC [k]

‖xC [j]‖ ‖xC [k]‖= rXjXk

geschrieben werden.

Ostap Okhrin 53 of 60

Page 54: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Qualität der Darstellungen

Die Qualität der Darstellungen kann mit

ψ =`1 + `2 + . . .+ `q

p∑j=1

`j

.

bestimmt werden.

Ostap Okhrin 54 of 60

Page 55: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Es ist sinnvoll den Winkel ϑik zwischen der Darstellung eines

Individuum i und der k-ten Hauptkomponente - oder die

normalisierten Hauptkomponenten-Achse zu berechnen.

cosϑik =y>i ek‖yi‖‖ek‖

=yik‖xCi‖

für die Hauptkomponenten oder analog

cos ζik =z>i ek‖zi‖‖ek‖

=zik‖xSi‖

für die normalisierten Hauptkomponenten, dabei beschreibt ek den

k-ten Einheitsvektor ek = (0, . . . , 1, . . . , 0)>.

Ostap Okhrin 55 of 60

Page 56: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Ein Individuum i wird durch die k-te PC Achse dargestellt, wenn sein

entsprechender Winkel klein ist, zum Beispiel, wenn cos2 ϑik für

k = 1, . . . , p ist dieser nahezu eins. Für jedes Individuum gilt i ,

p∑k=1

cos2 ϑik =y>i yi

x>CixCi=

x>CiGG>xCix>CixCi

= 1

Die Werte cos2 ϑik werden manchmal relative Beiträge der k-ten Achse

zur Darstellung des i-ten Individuums genannt.

Ostap Okhrin 56 of 60

Page 57: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Zusammenfassung: Hauptkomponentenals faktorielle Methode

� Normalisierte Hauptkomponenten (NPCs) sind

Hauptkomponenten (PCs), die auf eine standardisierte

(normalisierte) Datenmatrix XS angewendet werden.

� Die gra�sche Darstellung der NPCs ist äquivalent zu der

gra�schen Darstellung der PCs. Der Unterschied liegt lediglich in

der Position der Individuen.

� Die Qualität der Darstellung einer Variablen kann über den

prozentualen Varianzanteil von Xi bewertet werden. Dieser lässt

sich durch eine Hauptkomponente, z.B., mit r2XiYjerklären.

Ostap Okhrin 57 of 60

Page 58: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten

Common Principal Components (GemeinsameHauptkomponenten)

� Zusammengesetze Dimensionsreduktionstechnik

� Die Schätzung der Hauptkomponenten erfolgt gleichzeitig in

verschiedenen Gruppen.

� Der identische Raum wird von Eigenvektoren aufgespannt.

Flury (1988)HCPC : Σi = ΓΛiΓ

>, i = 1, ..., k

Σi Bevölkerungs Kovarianzmatrix der Gruppe iΓ = (γ1, ..., γp) Transformationsmatrix

Λi = diag(λi1, ..., λip) Eigenwertmatrix

Ostap Okhrin 58 of 60

Page 59: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten

Beispiel

Gemeinsame Hauptkomponentenanalyse für die impliziten

Ober�ächenschwankungen des Dax-Index von 1999.

Ober�ächenglättung (tageweise).

Drei Gruppen (Laufzeiten in Monaten): τ = 1, τ = 2 and τ = 3

Der Moneynessbereich: 0.85− 1.10

Ostap Okhrin 59 of 60

Page 60: Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten

1 2 3 4 5 6

!1.0

!0.5

0.0

0.5

1.0

PCP for CPCA, 3 eigenvectors

moneyness

loading

Abbildung 9: Faktorladungen der ersten (dick), der zweiten (mittel), und der

dritten (dünn) Hauptkomponente.

Ostap Okhrin 60 of 60