Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun...

Preview:

Citation preview

(basierend auf Slides von Lukas Meier)

Deskriptive Statistik

Deskriptive Statistik: Ziele

Daten zusammenfassen durch numerische Kennzahlen.

Grafische Darstellung der Daten.

1

Quelle: Ursus Wehrli, Kunst aufräumen

Modell vs. Daten

2

Bis jetzt haben wir nur Modelle (Verteilungen) angeschaut.

Jetzt betrachten wir (erstmals) reale Daten.

Vorerst treffen wir aber keine Annahmen, dass diese von einer bestimmtenVerteilung kommen! D.h. wir legen uns nicht auf ein Modell fest.

Basierend auf den Daten können wir diverse Kennzahlen berechnen bzw. die Daten grafisch darstellen.

Kennzahlen: Überblick

Wir haben 𝑛𝑛 beobachtete Datenpunkte 𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑛𝑛 (z.B. das Verkehrsaufkommenan 𝑛𝑛 verschiedenen Tagen oder Orten).

Wir unterscheiden zwischen

Lageparameter («Wo liegen die Beobachtungen auf der Mess-Skala?»)

arithmetisches Mittel («Durchschnitt») empirischer Median empirische Quantile

Streuungsparameter («Wie streuen die Daten um ihre mittlere Lage?»)

empirische Varianz empirische Standardabweichung empirische Quartilsdifferenz

3

Arithmetisches Mittel und empirische Varianz

Arithmetisches Mittel(emp. Pendant des Erwartungswerts 𝜇𝜇)

Empirische Varianz(emp. Pendant der Varianz 𝜎𝜎2)

Empirische Standardabweichung(emp. Pendant der Standardabweichung 𝜎𝜎)

Siehe Beispiel Wandtafel

4

x =1

n

nX

i=1

xi

s2 =1

n¡ 1

nX

i=1

(xi ¡ x)2

s =ps2

Schwerpunkt der Daten

0 50 100 150

Geordnete Stichprobe

Wir ordnen unseren Datensatz in aufsteigender Reihenfolge und bezeichnendie geordneten Daten mit 𝑥𝑥 𝑖𝑖 , d.h.

Die Position einer Beobachtung in der geordneten Stichprobe bezeichnet man als Rang (die kleinste Beobachtung hat also Rang 1, die grösste Beobachtung Rang 𝑛𝑛)

Sind Beobachtungen gleich gross, so teilt man ihnen in der Regel ihrendurchschnittlichen Rang zu

Siehe Beispiel Wandtafel

5

Empirische Quantile

Das empirische 𝛼𝛼 × 100 %-Quantil (0 < 𝛼𝛼 < 1) ist ein Wert 𝑞𝑞𝛼𝛼, so dass etwa𝛼𝛼 × 100% der Datenpunkte kleiner sind als 𝑞𝑞𝛼𝛼.

Genau: Falls 𝛼𝛼𝑛𝑛 ∉ ℕ, dann: 𝑞𝑞𝛼𝛼= x( 𝛼𝛼𝛼𝛼 ), wobei 𝛼𝛼𝑛𝑛 die kleinste ganze Zahl grösser als 𝛼𝛼𝑛𝑛 ist Falls 𝛼𝛼𝑛𝑛 ∈ ℕ, dann: 𝑞𝑞𝛼𝛼= 1

2(𝑥𝑥(𝛼𝛼𝛼𝛼) + 𝑥𝑥(𝛼𝛼𝛼𝛼+1))

Es gibt (viele) Variationen für die genaue Definition. Für grosse 𝑛𝑛 ist der Unterschied aber vernachlässigbar.

6

Empirische Quantile: Beispiel

7

90%-Quantil: 0.9 � 12 = 10.8 10.8 ∉ ℕ und 10.8 = 11 90%-Quantil = 𝑥𝑥 11 = 80.45

25%-Quantil:0.25 � 12 = 3 3 ∈ ℕ 25%-Quantil = 1

2(𝑥𝑥 3 + 𝑥𝑥 4 ) = 80.06

𝑖𝑖 1 2 3 4 5 6 7 8 9 10 11 12

𝑥𝑥 𝑖𝑖 79.97 79.98 80.04 80.08 80.12 80.23 80.35 80.38 80.39 80.44 80.45 80.48

Datensatz ist schon geordnet

Ausgewählte Quantile

Median (Zentralwert): 50%-Quantil 𝑞𝑞0.5

Unteres Quartil: 25%-Quantil 𝑞𝑞0.25

Oberes Quartil: 75%-Quantil 𝑞𝑞0.75

Die Differenz der Quartile 𝑞𝑞0.75 − 𝑞𝑞0.25 bezeichnet man als Quartilsdifferenz, bzw. Interquartile Range (IQR). Diese ist ein Streuungsmass.

Bsp.

8

𝑖𝑖 1 2 3 4 5 6 7 8 9 10 11𝑥𝑥(𝑖𝑖) 6.2 6.3 7.0 7.1 9.6 9.9 10.8 11.8 12.5 14.4 16.2

Median Oberes QuartilUnteres Quartil

IQR = 12.5-7.0 = 5.5

𝑛𝑛 = 11:

0.25 ⋅ 11 = 2.75 → 𝑞𝑞0.25 = 𝑥𝑥(3)

0.5 ⋅ 11 = 5.5 → 𝑞𝑞0.5 = 𝑥𝑥(6)

0.75 ⋅ 11 = 8.25 → 𝑞𝑞0.75 = 𝑥𝑥(9)

0 20 40 60 80 100 120 140

Med

ian

�̅�𝑥

Arithmetisches Mittel vs. Median: Einkommen [k CHF]7 Beobachtungen

9

0 50 100 150

0 50 100 150 200 250 300 350 400

�̅�𝑥

Med

ian

�̅�𝑥

Med

ian

10

Der Median und die Quartilsdifferenz sindrobuste Kennzahlenfür die Lage und die Streuung der Daten, d.h., sie werden nichtgross von Ausreissernbeeinflusst. Mittelwert und Standardabweichungsind nicht robust.

Arithmetisches Mittel vs. Median

11

Grafische Darstellungen: Überblick

Wir behandeln folgende Darstellungen: Histogramm Boxplot empirische kumulative Verteilungsfunktion

12

Histogramm

Aufteilung des Wertebereichs in Intervalle der Breite ℎ.

Zähle Anzahl Beobachtungen in jedem Intervall.

Graphische Darstellung mit Balken. Höhe der Balken ist

#(𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵ℎ𝐵𝐵𝐵𝐵𝑛𝑛𝐵𝐵𝐵𝐵𝑛𝑛 𝑖𝑖𝑖𝑖 𝐼𝐼𝑛𝑛𝐵𝐵𝐵𝐵𝐼𝐼𝐼𝐼𝐵𝐵𝐼𝐼𝐼𝐼)𝑛𝑛ℎ

Die Gesamtfläche unter dem Histogramm ist 1. Die Fläche über einem Intervall entspricht die relative Häufigkeit (vgl Dichte).

13

Old Faithful Geysir (Yellowstone): Daten

14

Zeitspanne [Min] zwischen Ausbrüchen Eruptionsdauer [Min]

Daten z.B. von hierhttp://stat.ethz.ch/Teaching/Datasets/geysir.dat

Histogramme der Zeitspanne

15

Relative Häufigkeit von Wartezeiten imIntervall [70,80] ist etwa0.02*(75-70) + 0.04*(80-75) = 30%

• Histogramm ergibt oft einen gutenÜberblick: Symmetrie, AnzahlGipfel, Lage, Streuung, …

• Je breiter die Klassen, je mehrwerden die Datenzusammengefasst (“Erosion”)

Boxplot: Schematischer Aufbau

16

MedianUnteres Quartil

Oberes Quartil

Grösste «normale» Beobachtung

Kleinste «normale» Beobachtung

Ausreisser (falls vorhanden)

Ausreisser (falls vorhanden)

Qua

rtils

diffe

renz

(ent

hält

50%

der

Dat

en)

Boxplot: Schematischer Aufbau

Die grösste normale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5 � 𝐼𝐼𝐼𝐼𝐼𝐼 vom oberen Quartil entfernt ist, wobei 𝐼𝐼𝐼𝐼𝐼𝐼 die Quartilsdifferenz ist:Also grösster Datenwert 𝑥𝑥𝑖𝑖 mit 𝑥𝑥𝑖𝑖 − 𝑞𝑞0.75 < 1.5 ⋅ 𝐼𝐼𝐼𝐼𝐼𝐼

Die kleinste normale Beobachtung ist entsprechend analog definiert mit dem unteren Quartil:Also kleinster Datenwert 𝑥𝑥𝑖𝑖 mit 𝑞𝑞0.25 − 𝑥𝑥𝑖𝑖 < 1.5 ⋅ 𝐼𝐼𝐼𝐼𝐼𝐼

Ausreisser sind Punkte, die ausserhalb dieser Bereiche liegen.

17

Boxplot und Histogramm der Wartezeiten zwischen Eruptionen

18

Wir sehen die verschiedenen

Peaks im Boxplot nicht!

Mehrere Boxplots

Mit mehreren Boxplots kann man einfach und schnell die Verteilung von verschiedenen Gruppen (Methoden, Produkte, …) vergleichen.

19

Schiefe

20

symmetrisch rechtsschief linksschief

Boxplot: Bemerkungen

Ein Boxplot ist eine grobere Zusammenfassung als ein Histogramm. Es eignet sich gut um mehrere Datensätze zu vergleichen.

Im Boxplot sind ersichtlich: Lage Streuung Schiefe

Man sieht aber z.B. nicht, ob eine Verteilung mehrere «Peaks» (Gipfel) hat.

21

Empirische kumulative Verteilungsfunktion

22

Empirische kumulative Verteilungsfunktion ist definiert als der Anteil der Punkte, die kleiner als ein bestimmter Wert 𝑥𝑥 sind, d.h.

Bild

40 50 60 70 80 90 100

0.0

0.2

0.4

0.6

0.8

1.0

Zeitspanne

F nx

Treppenfunktion:Sprunghöhe 1/𝑛𝑛 bei Beobachtungen 𝑥𝑥𝑖𝑖(bzw. ein Vielfaches davon, wenn es mehrereBeobachtungen mit demgleichen Wert 𝑥𝑥𝑖𝑖 gibt).

23

Modell (“Theorie”) Daten (beobachtete Stichprobe)

Erwartungswert Arithm. Mittel

Varianz Empirische Varianz

Kumulative Verteilungsfunktion Empirische kumulative Verteilungsfunktion

Dichte Histogramm (normiert auf Fläche 1)

0.00.10.20.30.40.5

5 7 9 11 13

f(x)

x

0.00.20.40.60.81.0

5 7 9 11 13

P[X

≤ x]

x

x =1

n

nX

i=1

xi

s2 =1

n¡ 1

nX

i=1

(xi ¡ x)2

0.0

0.2

0.4

0.6

0.8

1.0

5 6 7 8 9 10 11 12 13x

0.00

0.10

0.20

0.30

5 6 7 8 9 10 11 12 13

𝑛𝑛 → ∞

Deskriptive Statistik: 2 Dimensionen

Wir haben nun paarweise beobachtete Daten

Zum Beispiel die Note der Basisprüfung (𝑦𝑦𝑖𝑖) und die Note der Zwischenprüfung(𝑥𝑥𝑖𝑖) der Studenten. Oder die Eruptionsdauer (𝑦𝑦𝑖𝑖) und die Zeitspanne (𝑥𝑥𝑖𝑖) zumvorangehenden Ausbruch des Old Faithful Geysir.

Neue Grafiken/Kennzahlen: zweidimensionales Streudiagramm empirische Kovarianz und Korrelation

24

𝑥𝑥1, … , 𝑥𝑥𝛼𝛼

𝑦𝑦1, … ,𝑦𝑦𝛼𝛼

0 1 2 3 4 5 6 7

23

45

6

Zwischenpruefung

Basi

spru

efun

g

Zweidimensionales Streudiagramm

Beispiel der Zwischen- und Basisprüfung (mit «jittering»):

25

Zweidimensionales Streudiagramm

Beispiel Old Faithful:

26Time to next eruption

Zusammenhänge gibt es viele…

27Quelle: The New England Journal of Medicine

Empirische Kovarianz und Korrelation

Empirische Kovarianz

Empirische Korrelation

wobei 𝑠𝑠𝑥𝑥 , 𝑠𝑠𝑦𝑦 die empirischen Standardabweichungen sind.

28

sxy =1

n¡ 1

nX

i=1

(xi ¡ x)(yi ¡ y)

rxy =sxysxsy

2 [¡1; 1]

Empirische Kovarianz und Korrelation

29

Beitrag eines Datenpaares zur empirischen Kovarianz/Korrelation

�̅�𝑥

�𝑦𝑦

𝐼𝐼𝑥𝑥𝑦𝑦 = 0.86

Empirische Korrelation: Bemerkungen

Korrelation misst «nur» den linearen Zusammenhang. Das Zeichen von 𝐼𝐼𝑥𝑥𝑦𝑦 misst die «Richtung» der linearen Zusammenhang.

Der Betrag |𝐼𝐼𝑥𝑥𝑦𝑦| misst die «Stärke» der linearen Zusammenhang.

30

Quelle: Wikipedia

Pass auf:Hier gibt es einen nicht-linearen Zusammenhangzwischen X und Y, der nichtvon 𝐼𝐼𝑥𝑥𝑦𝑦 detektiert wird.

Empirische Korrelation: ein anderes klassisches Beispiel

Man sollte die Daten immer auch anschauen, statt sich «blind» auf Kennzahlen zu verlassen.

31

5 10 15

46

810

12

x1

y1

Corr = 0.82

5 10 15

46

810

12

x2

y2

Corr = 0.82

5 10 15

46

810

12

x3

y3

Corr = 0.82

5 10 15

46

810

12

x4y4

Corr = 0.82

Recommended