Angewandte Multivariate Statistik · Angewandte Multivariate StatistikComparison of ... Wir wollen...

Angewandte Multivariate Statistik

Prof. Dr. Ostap Okhrin

Ostap Okhrin 1 of 52

Angewandte Multivariate Statistik Comparison of Batches Boxplots

Explorative Datenanalyse

Eine alte 1000 Schweizer Franken Banknote.

Beispiel: Daten von der Schweizer Bank

Folgende Merkmalsvariablen einer 1000 Schweizer Franken

Banknote sind bekannt:

X1 = Länge der Banknote

X2 = Länge der Banknote auf der linken kurzen Seite

X3 = Länge der Banknote auf der rechten kurzen Seite

X4 = Abstand vom innen liegenden Bilderrahmen zur unteren Grenze

X5 = Abstand vom innen liegenden Bilderrahmen zur oberen Grenze

X6 = Länge der diagonalen Linie innerhalb des Bildes

Fortsetzung des Beispiels:

Ein Datensatz enthält Merkmale von 200 Schweizer Banknoten. DieHälfte der betrachteten Banknoten ist echt, die andere gefälscht.Es ist wichtig zwischen echten und gefälschten Banknotenunterscheiden zu können.Wir wollen Verfahren entwickeln, mit denen wir zwischen den echtenund den gefälschten Banknoten di�erenzieren können.Welche Werkzeuge können uns dabei helfen? Wie können wirUnterschiede visualisieren?

Boxplots

Boxplot

� ist eine Technik zur Visualisierung von Variablen-Verteilungen.

� hilft uns die Lage, Schiefe, Streuung, Spannweite und Ausreiÿerzu bestimmen.

� ist besonders nützlich beim Vergleich von Streu- und Lagemaÿe

� wird auch gra�sche Five Number Summary (Fünf PunkteZusammenfassung) genannt: Median, zwei Quartile und zweiExtremwerte

Stadt Staat Einw. (10000) Statistische ReihenfolgeTokio Japan 3420 x(15)Mexiko City Mexico 2280 x(14)Seoul Süd Korea 2230 x(13)New York USA 2190 x(12)Sao Paulo Brasilien 2020 x(11)Bombay Indien 1985 x(10)Delhi Indien 1970 x(9)Shanghai China 1815 x(8)Los Angeles USA 1800 x(7)Osaka Japan 1680 x(6)Jakarta Indonesien 1655 x(5)Calcutta Indien 1565 x(4)Kairo Ägypten 1560 x(3)Manila Philippinen 1495 x(2)Karachi Pakistan 1430 x(1)

Tabelle 1: Die 15 gröÿten Städte der Welt im Jahr 2006.

Five Number Summary

� Oberes Quartil FU� Unteres Quartil FL� Median = tiefster Punkt (Zentralwert)

� Extremwerte

Berücksichtigung der Order Statistics (statistischen Reihenfolge)→ Tiefe eines Datenwerts x(i): min{i , n − i + 1}

Tiefe eines Viertels =[Tiefe des Medians] + 1

Median

Order Statistics (Statistische Reihenfolge) {x(1), x(2), . . . , x(n)} ist einSet von geordneten Messwerten x1, x2, . . . , xndabei sei x(1) der kleinste und x(n) der gröÿte Messwert.Median M

x( n+12 ) wenn n ungerade

2)+ x( n

}wenn n gerade

Aufbau des Boxplots

Median: 1815 (Wert von Datenpunkt 8)Quartile (Tiefe = 4.5): 1610=FL, 2105=FUExtremwerte (Tiefe = 1): 1430, 3420Interquartilsabstand: FU − FL = dFAntennen (Whisker) auÿerhalb der Box: FU + 1.5dF , FL − 1.5dF

1. Konstruiere die Box mit den Quartilen FU und FL

2. Kennzeichne den Median mit | und den Mittelwert mit...

3. Zeichne die Antennen (Whisker) mit a4. Markiere Ausreiÿer mit •, wenn sie auÿerhalb von

[FL − 1.5dF ,FU + 1.5dF ] liegen und mit ?, wenn sie auÿerhalbvon [FL − 3dF ,FU + 3dF ] liegen

World Cities

Boxplot

Population

Boxplot der gröÿten Städte der Welt.

US JAPAN EU

Car Datamileage

Boxplot für die Fahrleistung von (US) amerikanischen, japanischen undeuropäischen Pkw (von links nach rechts).

●●

GENUINE COUNTERFEIT

Swiss Bank Notes

Variable X6 (Bilddiagonale der Schweizer Banknote), die echteBanknote ist links.

●●

GENUINE COUNTERFEIT

Swiss Bank Notes

Variable X1 (Länge der Banknote), die echte Banknote ist links.

Zusammenfassung: Boxplots

� Median und Mittelwert sind Zentralwerte.

� Die relative Lage von Median (und Mittelwert) in der Box gilt alsMaÿwert für die Schiefe der Verteilung.

� Die Länge der Box ist ein Maÿwert für die Streuung der Daten(Interquartilsabstand).

� Die Länge der Antennen (Whisker) markiert die Spannweite derVerteilung.

Zusammenfassung: Boxplots

� Die Ausreiÿer werden mit • dargestellt, wenn sie auÿerhalb[FL − 1.5dF ,FU + 1.5dF ] liegen und mit ?, wenn sie auÿerhalb[FL − 3dF ,FU + 3dF ] liegen

� Durch Boxplots kann man nicht auf Multimodalitäten oderCluster schlieÿen.

� Vergleicht man die relativen Gröÿen und Lagen der Boxplots,vergleicht man Verteilungen miteinander.

Angewandte Multivariate Statistik Comparison of Batches Histogramme

Histogramme

f̂h(x) = n−1h−1∑j∈Z

n∑i=1

I{xi ∈ Bj(x0, h)}I{x ∈ Bj(x0, h)}

� Bj(x0, h) = [x0 + (j − 1)h, x0 + jh), j ∈ Z.� [., .) bezeichnet ein links geschlossenes, rechts geö�netes Intervall.

� I{•} bezeichnet die Indikator Funktion.� h ist ein Glättungsparameter und kontrolliert die Klassenbreite im

Histogramm.

Swiss Bank Notes

h = 0.1

138 139 140 141

Swiss Bank Notes

h = 0.3

138 139 140 141

Swiss Bank Notes

h = 0.2

138 139 140 141

Swiss Bank Notes

h = 0.4

138 139 140 141

Merkmalsvariable X6 (Bilddiagonale) der gefälschten Banknoten.Histogramme mit dem Startpunkt x0 = 137.8 und der Klassenbreiteh = 0.1 (oben links), h = 0.2 (unten links), h = 0.3 (oben rechts),h = 0.4 (unten rechts).

Swiss Bank Notes

x_0 = 137.65

138 139 140 141

Swiss Bank Notes

x_0 = 137.85

138 139 140 141

Swiss Bank Notes

x_0 = 137.75

138 139 140 141

Swiss Bank Notes

x_0 = 137.95

138 139 140 141

Merkmalsvariable X6 (Bilddiagonale) der gefälschten Banknoten.Histogramme mit der Klassenbreite h = 0.4 und dem Startpunktx0 = 137.65 (oben links), x0 = 137.75 (unten links), x0 = 137.85(oben rechts), x0 = 137.95 (unten rechts).

Zusammenfassung: Histogramme

� Die Modalklasse lässt sich aus einem Histogramm ablesen.

� Die Modalklasse entspricht dem gröÿten Viereck im Histogramm.Das ist jene Klasse mit der gröÿten Häu�gkeitsdichte.

� Histogramme mit der selben Klassenbreite h müssen nichtidentisch sein. Ihr Aussehen sind abhängig vom Startpunkt x0.

� Der Ein�uss des Startpunktes x0 ist enorm. Eine Änderung von x0kann das Aussehen des Histogramms drastisch beein�ussen.

Zusammenfassung: Histogramme

� Wird die Klassenbreite h zu groÿ gewählt, ist das Histogramm zu�ach und unstrukturiert.

� Eine zu kleine Klassenbreite h lässt das Histogramm instabilwerden.

� Die optimale Klassenbreite kann mit hopt =(24√π

) 13geschätzt

werden.

� Es wird empfohlen stetige Dichtefunktionen zu schätzen, wie zumBeispiel kernel densities (Kerndichte).

Angewandte Multivariate Statistik Comparison of Batches Kerndichteschätzer

Kernel densities (Kerndichte)

Die Dichte kann wie folgt geschätzt werden

f̂h(x) = n−1(2h)−1n∑

I(|x − xi | ≤ h)

Des Weiteren ist K (u) = I (|u| ≤ 1/2)

f̂h(x) = n−1h−1n∑

(x − xi

)K ist der Kern (kernel).

Kernel Funktionen

K (•) Kernel

K (u) = 1

2I(|u| ≤ 1) Uniform

K (u) = (1− |u|)I(|u| ≤ 1) TriangleK (u) = 3

4(1− u2)I(|u| ≤ 1) Epanechnikov

K (u) = 15

16(1− u2)2I(|u| ≤ 1) Quartic (Biweight)

K (u) = 1√2π

exp(−u2

2) = ϕ(u) Gaussian

Tabelle 2: Kernel Funktionen.

Kernel Funktionen

−2 0 20

Uniform

−2 0 20

Triangle

−2 0 20

Epanechnikov

−2 0 20

Quartic (biweight)

−2 0 20

Gaussian

Kernel Funktionen.

137 138 139 140 141 142 143

Swiss bank notes

Counterfeit / Genuine

Dichte der Merkmalsvariable X6 (Bilddiagonale) von echten undgefälschten Banknoten.

Festlegen der Bandbreite h

Silvermans Daumenregel

Gaussian kernel

K (u) =1√2π

exp(−u2

hG = 1.06σ̂n−15

Quartic kernel

K (u) =15

16(1− u2)2I(|u| ≤ 1)

hQ = 2.62hG

Standardabweichung der Stichprobe: σ̂ =

√n−1

n∑i=1

(xi − x̄)2

0.02 0.04 0.06

9 10 11

Dichte-Konturlinien der Variablen X5,X6 von echten und gefälschtenBanknoten.

Dichte (Umrisse) der Variablen X4,X5,X6 von echten und gefälschtenBanknoten.

Zusammenfassung: Kernel densities

� Die Kerneldichte schätzt die Verteilungsdichte mit dersogenannten Kernel Methode.

� Die Bandbreite h bestimmt über den Glättungsgrad desgeschätzten f̂ .

� Kernel densities sind Glättungsfunktionen. Mit ihnen könnenVerteilungen gra�sch dargestellt werden (ab 3 Dimensionen).

Zusammenfassung: Kernel densities

� Die Bandbreite kann mit der Hilfe der einfachen DaumenregelhG = 1.06σ̂n−1/5. berechnet werden, sollte aber nur zusammenmit dem Kernel ϕ angewendet werden.

� Kerneldichteschätzer sind explorative Werkzeuge zur Bestimmungvon Modi, Lage, Schiefe, Ausläufer der Verteilung, Asymmetrien,etc.

Angewandte Multivariate Statistik Comparison of Batches Streudiagramme

Scatterplots (Streudiagramme)

Streudiagramme - bivariate oder trivariate Gegenüberstellung vonVariablen

� (3D)-Datenrotation

� Trennlinien

� Draftman's Plot (Paarweise Streudiagrammmatrix)

� Koordinatensysteme mit parallelen Achsen

●●

●●●

●●

●●●

●●

● ●

●●

7 8 9 10 11 12 13

Swiss bank notes

upper inner frame (X5)

2D Streudiagramm für X5 und X6 der Banknoten. Die echtenBanknoten werden durch Kreise, die gefälschten durch Dreieckedargestellt.

Swiss bank notes

●●

●●●

● ●

●●

●●●

●●

8 10 11 13 14 8 9 10 11 12

Lower inner frame (X4) Upper inner frame (X5)

3D Streudiagramm für die Variablen (X4,X5,X6) der Banknoten. Dieechten Banknoten werden durch Kreise, die gefälschten durch Dreieckedargestellt.

128.5 129.0 129.5 130.0 130.5 131.0 131.5

●●

● ●

●●●

●●

●●●

●●

● ●

●●

●●●

● ●

●●

7 8 9 10 11 12

7 8 9 10 11 12 13

●●

●● ●

●●●

●●

●●●●

●●

● ●

●●●

●●

●● ●

●●

8 9 10 11 12

●● ●

●●

●●●

● ●●

●●

● ●●

●●

● ●

●●

8 9 10 11 12

7 8 9 10 11 12 13

●●

● ●

●●●●●

●●

●●●

●●

● ●

●●

●●●

●●

138 139 140 141 142

●●●

●●

● ●

●●

● ●●

●●●

●●

●●●

●●

●● ●

●●

● ●

●●

138 139 140 141 142

●●

●●●

●●

●● ●

●●

● ●

●●

●●●●●

●●●

●●

● ●

●●

●●●

● ●●●

●●●

138 139 140 141 142

Draftman's Plot der Banknoten. Die Bilder in der linken Spalte zeigendie Variablenpaare (X3,X4), (X3,X5) und (X3,X6), in der Mittewerden (X4,X5) sowie (X4,X6) und unten rechts (X5,X6) dargestellt.Die obere rechte Hälfte stellt die korrespondierendenDichte-Konturlinien-Plots dar (density contour plots).

Angewandte Multivariate Statistik Comparison of Batches Streudiagramme

Zusammenfassung: Scatterplots

� 2D- und 3D-Streudiagramme machen einzelne Punkte, ganzeWolken oder Subcluster sichtbar.

� Sie zeigen positive oder negative Abhängigkeiten zwischenVariablen.

� Draftman's Plot (Streudiagramm-Matrix) wird zum Erkennen vonStrukturen verwendet, die durch die Werte der Variablen bedingtsind.

Angewandte Multivariate Statistik Comparison of Batches Cherno�-Flury Gesichter

Cherno�-Flury Faces (Cherno�-Gesichter)

Cherno�-Flury faces für die 91. bis 110. beobachtete Banknote imDatensatz.

Sechs Variablen - Gesichtseigenschaften

X1 = 1, 19 (Augengröÿe)

X2 = 2, 20 (Pupillengröÿe)

X3 = 4, 22 (Stellung der Augen)

X4 = 11, 29 (oberer Haaransatz)

X5 = 12, 30 (unterer Haaransatz)

X6 = 13, 14, 31, 32 (Gesichtsfalten und Haarfarbe)

Observations 1 to 50

Flury faces der 1.-50. beobachteten Banknote im Datensatz.

Zusammenfassung: Cherno�-FluryFaces

� Gesichter (Faces) können genutzt werden, um Untergruppen ineinem multivariaten Datensatz aufzudecken.

� Beobachtungen innerhalb einer Untergruppen haben ähnlicheGesichter.

� Ausreiÿer können durch extrem di�erenzierte Gesichteridenti�ziert werden (z.B. dunkles Haar, lächelndes oderglückliches Gesicht).

� Ist ein Element von X unüblich, wird sich das korrespondierendeGesichtselement in seiner Gestalt signi�kant von anderenunterscheiden.

Angewandte Multivariate Statistik Comparison of Batches Andrews Kurven

Andrews Kurven

Jede multivariate Beobachtung Xi = (Xi ,1, ..,Xi ,p) ∈ Rp kann, wiefolgt, in eine Kurve transformiert werden

� p ist ungerade

fi (t) =Xi,1√

2+Xi,2 sin(t)+Xi,3 cos(t)+. . .+Xi,p−1 sin

(p − 1

)+Xi,p cos

(p − 1

� p ist gerade

fi (t) =Xi,1√

2+ Xi,2 sin(t) + Xi,3 cos(t) + . . .+ Xi,p sin

Die Beobachtung entspricht den Koe�zienten einer sogenanntenFourier Reihe, t ∈ [−π, π].

Andrews Kurven

� Untergruppen werden charakterisiert durch ähnliche Kurven.

� Ausreiÿer entsprechen einzelnen Kurven, die sich stark vonanderen Kurven abheben.

� Die Reihenfolge der Variablen spielt bei der Interpretation einewichtige Rolle.

Betrachtet man die 96. beobachtete Schweizer Banknote,

X96 = (215.6, 129.9, 129.9, 9.0, 9.5, 141.7)

wird die dazugehörige Andrews' Kurve wie folgt bestimmt:

f96(t) =215.6√

2+ 129.9 sin(t) + 129.9 cos(t) + 9.0 sin(2t) + 9.5 cos(2t) + 141.7 sin(3t)

Andrews curves (Bank data)

0 1 2 3 4 5 6

Andrews Kurven für die beobachteten Schweizer Banknoten 96 � 105im Datenset. Die Reihenfolge der Variablen ist 1,2,3,4,5,6.

Betrachtet man die 96. beobachtete Schweizer Banknote aus demDatenset,

X96 = (215.6, 129.9, 129.9, 9.0, 9.5, 141.7)

und legt die umgekehrte Reihenfolge der Variablen zu Grunde, istAndrews' Kurve:

f96(t) =141.7√

2+ 9.5 sin(t) + 9.0 cos(t) + 129.9 sin(2t) + 129.9 cos(2t) + 215.6 sin(3t)

Andrews curves (Bank data)

0 1 2 3 4 5 6

Andrews Kurve für die beobachteten Schweizer Banknoten 96�105 imDatenset. Die Reihenfolge der Variablen ist 6,5,4,3,2,1.

Zusammenfassung: Andrews Kurve

� Ausreiÿer erscheinen als einzelne Andrews Kurven, die sichdeutlich von den anderen Kurven abheben.

� Eine Untergruppe besteht charakteristisch aus einem Set vonähnlichen Kurven.

� Die Reihenfolge der Variablen spielt eine wichtige Rolle bei derInterpretation der Kurven.

� Die Reihenfolge der Variablen kann mit Hilfe der PrincipalComponent Analyse optimiert werden.

� Bei mehr als 20 Beobachtungen erhält man ein sogenanntes�signal-to-ink-ratio�, d.h. die Kurven lassen sich schlechtinterpretieren.

Angewandte Multivariate Statistik Comparison of Batches Koordinatensysteme mit parallelen Achsen

Koordinatensysteme mit parallelen Achsen

� Basieren nicht auf das orthogonale Koordinatensystem.

� Erlaubt die Darstellung von mehr als vier Dimensionen.

Anstatt Beobachtungen in ein orthogonales Koordinatensystem zuplotten, werden deren Koordinaten in ein System mit parallelen Achsengezeichnet.Diese Darstellungsmethode ist jedoch emp�ndlich gegenüber derReihenfolge der Variablen.

Parallel coordinates plot (Bank data)

V1 V2 V3 V4 V5 V6

Beobachtung 96�105 sind in ein System mit parallelen Koordinatengeplottet.

Parallel coordinates plot (Bank data)

V1 V2 V3 V4 V5 V6

f1-f200

Dargestellt ist der komplette Banknoten-Datensatz. Echte Banknotenwerden durch schwarze Linien dargestellt, gefälschte durch rote.

Angewandte Multivariate Statistik Comparison of Batches Koordinatensysteme mit parallelen Achsen

Zusammenfassung: Koordinatensystememit parallen Achsen

� Werden Variablen in einem System mit parallelen Koordinatengeplottet, können im Gegensatz zu kartesischenKoordinatensystemen, mehr als vier Dimensionen dargestelltwerden.

� Ausreiÿer entsprechen Polygonenkurven, die sich deutlich vonanderen Kurven abheben.

� Die Reihenfolge der Variablen muss bei der Bestimmung vonUntergruppen beachtet werden.

� Untergruppen können durch unterschiedliche Farben kenntlichgemacht werden.

Angewandte Multivariate Statistik · Angewandte Multivariate StatistikComparison of ... Wir wollen...

Documents

Arbeitsbereich Entwicklungswissenschaft und Angewandte ...hscheit/pdf/einfuehrung_psychologie... · 1 Arbeitsbereich Entwicklungswissenschaft und Angewandte Entwicklungspsychologie

Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

BERUFSVERBAND ANGEWANDTE KUNST SCHLESWIG-HOLSTEIN … · BERUFSVERBAND ANGEWANDTE KUNST SCHLESWIG-HOLSTEIN Berufsverband Angewandte Kunst Schleswig-Holstein e.V. Breite Straße 10-12

Angewandte Baudynamik

Prof. Dr. H. Graßl, Angewandte Physik 1 Angewandte Physik Schwingungen und Wellen

Angewandte Multivariate Statistik · City Country Pop. (10000) Order Statistics Tokyo Japan 3420 x ... Jakarta Indonesia 1655 x (5) ... K x x i h K isthekernel

Alphabetische Reihenfolge - DIEHOGA

Modulhandbuch B.Sc. Angewandte Informatik Otto-Friedrich ... · Otto-Friedrich-Universität Bamberg Modulhandbuch B.Sc. Angewandte Informatik Fakultät Wirtschaftsinformatik und Angewandte

Konzept – Angewandte Mathematik

Angewandte Mathematik - fbmn · 2018. 4. 5. · Angewandte Mathematik (aus dem Jahr 2011 in der 2017 aktualisierten Fassung) • Beschlüsse des Prüfungsausschusses Angewandte Mathematik

FERNSTUDIENGANG ANGEWANDTE UMWELTWISSENSCHAFTEN …

© SRDP-Angewandte Mathematik, 2015 Standardisierte Reife- und Diplomprüfung Angewandte Mathematik Standardisierte Reife- und Diplomprüfung Angewandte Mathematik

Traumjob - lotto-bw.de · Spieleinsatz 20.613.473,00 € GewinnzahlenSuperzahl Gewinnzahlen in gezogener Reihenfolge: Gewinnzahlen in gezogener Reihenfolge: 299 36 64938

Angewandte Limnologie_1

Technische Universität Dresden · Komplementär zur technologischen Reihenfolge existiert auch eine organisatorische Reihenfolge, die die Job-Reihenfolge beschreibt, die man im Verlauf

Linguistics Funktionale und Angewandte Linguistik ... · Funktionale und Angewandte Linguistik / Functional and Applied ... Funktionale und Angewandte Linguistik / Functional

Application Angewandte

SpezialistIn für angewandte Kinästhetik · 8 Das Berufsbild der SpezialistIn für angewandte Kinäst hetik im Überblick: Die SpezialistIn für angewandte Kinästhetik befasst sich

Institut für Angewandte Medienwissenschaft - home.zhaw.ch · Public Storytelling in Convergent Media Zürcher Hochschule für Angewandte Wissenschaften Institut für Angewandte Medienwissenschaft

Richtige Reihenfolge - Schritt für Schritt€¦ · IVF HARTMANN AG, CH-8212 Neuhausen - Schutzbekleidung Richtige Reihenfolge - Schritt für Schritt . 1. Schritt\rHände desinfizieren