32
(basierend auf Slides von Lukas Meier) Deskriptive Statistik

Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Embed Size (px)

Citation preview

Page 1: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

(basierend auf Slides von Lukas Meier)

Deskriptive Statistik

Page 2: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Deskriptive Statistik: Ziele

Daten zusammenfassen durch numerische Kennzahlen.

Grafische Darstellung der Daten.

1

Quelle: Ursus Wehrli, Kunst aufräumen

Page 3: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Modell vs. Daten

2

Bis jetzt haben wir nur Modelle (Verteilungen) angeschaut.

Jetzt betrachten wir (erstmals) reale Daten.

Vorerst treffen wir aber keine Annahmen, dass diese von einer bestimmtenVerteilung kommen! D.h. wir legen uns nicht auf ein Modell fest.

Basierend auf den Daten können wir diverse Kennzahlen berechnen bzw. die Daten grafisch darstellen.

Page 4: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Kennzahlen: Überblick

Wir haben 𝑛𝑛 beobachtete Datenpunkte 𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑛𝑛 (z.B. das Verkehrsaufkommenan 𝑛𝑛 verschiedenen Tagen oder Orten).

Wir unterscheiden zwischen

Lageparameter («Wo liegen die Beobachtungen auf der Mess-Skala?»)

arithmetisches Mittel («Durchschnitt») empirischer Median empirische Quantile

Streuungsparameter («Wie streuen die Daten um ihre mittlere Lage?»)

empirische Varianz empirische Standardabweichung empirische Quartilsdifferenz

3

Page 5: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Arithmetisches Mittel und empirische Varianz

Arithmetisches Mittel(emp. Pendant des Erwartungswerts 𝜇𝜇)

Empirische Varianz(emp. Pendant der Varianz 𝜎𝜎2)

Empirische Standardabweichung(emp. Pendant der Standardabweichung 𝜎𝜎)

Siehe Beispiel Wandtafel

4

x =1

n

nX

i=1

xi

s2 =1

n¡ 1

nX

i=1

(xi ¡ x)2

s =ps2

Schwerpunkt der Daten

0 50 100 150

Page 6: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Geordnete Stichprobe

Wir ordnen unseren Datensatz in aufsteigender Reihenfolge und bezeichnendie geordneten Daten mit 𝑥𝑥 𝑖𝑖 , d.h.

Die Position einer Beobachtung in der geordneten Stichprobe bezeichnet man als Rang (die kleinste Beobachtung hat also Rang 1, die grösste Beobachtung Rang 𝑛𝑛)

Sind Beobachtungen gleich gross, so teilt man ihnen in der Regel ihrendurchschnittlichen Rang zu

Siehe Beispiel Wandtafel

5

Page 7: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Empirische Quantile

Das empirische 𝛼𝛼 × 100 %-Quantil (0 < 𝛼𝛼 < 1) ist ein Wert 𝑞𝑞𝛼𝛼, so dass etwa𝛼𝛼 × 100% der Datenpunkte kleiner sind als 𝑞𝑞𝛼𝛼.

Genau: Falls 𝛼𝛼𝑛𝑛 ∉ ℕ, dann: 𝑞𝑞𝛼𝛼= x( 𝛼𝛼𝛼𝛼 ), wobei 𝛼𝛼𝑛𝑛 die kleinste ganze Zahl grösser als 𝛼𝛼𝑛𝑛 ist Falls 𝛼𝛼𝑛𝑛 ∈ ℕ, dann: 𝑞𝑞𝛼𝛼= 1

2(𝑥𝑥(𝛼𝛼𝛼𝛼) + 𝑥𝑥(𝛼𝛼𝛼𝛼+1))

Es gibt (viele) Variationen für die genaue Definition. Für grosse 𝑛𝑛 ist der Unterschied aber vernachlässigbar.

6

Page 8: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Empirische Quantile: Beispiel

7

90%-Quantil: 0.9 � 12 = 10.8 10.8 ∉ ℕ und 10.8 = 11 90%-Quantil = 𝑥𝑥 11 = 80.45

25%-Quantil:0.25 � 12 = 3 3 ∈ ℕ 25%-Quantil = 1

2(𝑥𝑥 3 + 𝑥𝑥 4 ) = 80.06

𝑖𝑖 1 2 3 4 5 6 7 8 9 10 11 12

𝑥𝑥 𝑖𝑖 79.97 79.98 80.04 80.08 80.12 80.23 80.35 80.38 80.39 80.44 80.45 80.48

Datensatz ist schon geordnet

Page 9: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Ausgewählte Quantile

Median (Zentralwert): 50%-Quantil 𝑞𝑞0.5

Unteres Quartil: 25%-Quantil 𝑞𝑞0.25

Oberes Quartil: 75%-Quantil 𝑞𝑞0.75

Die Differenz der Quartile 𝑞𝑞0.75 − 𝑞𝑞0.25 bezeichnet man als Quartilsdifferenz, bzw. Interquartile Range (IQR). Diese ist ein Streuungsmass.

Bsp.

8

𝑖𝑖 1 2 3 4 5 6 7 8 9 10 11𝑥𝑥(𝑖𝑖) 6.2 6.3 7.0 7.1 9.6 9.9 10.8 11.8 12.5 14.4 16.2

Median Oberes QuartilUnteres Quartil

IQR = 12.5-7.0 = 5.5

𝑛𝑛 = 11:

0.25 ⋅ 11 = 2.75 → 𝑞𝑞0.25 = 𝑥𝑥(3)

0.5 ⋅ 11 = 5.5 → 𝑞𝑞0.5 = 𝑥𝑥(6)

0.75 ⋅ 11 = 8.25 → 𝑞𝑞0.75 = 𝑥𝑥(9)

Page 10: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

0 20 40 60 80 100 120 140

Med

ian

�̅�𝑥

Arithmetisches Mittel vs. Median: Einkommen [k CHF]7 Beobachtungen

9

Page 11: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

0 50 100 150

0 50 100 150 200 250 300 350 400

�̅�𝑥

Med

ian

�̅�𝑥

Med

ian

10

Der Median und die Quartilsdifferenz sindrobuste Kennzahlenfür die Lage und die Streuung der Daten, d.h., sie werden nichtgross von Ausreissernbeeinflusst. Mittelwert und Standardabweichungsind nicht robust.

Page 12: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Arithmetisches Mittel vs. Median

11

Page 13: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Grafische Darstellungen: Überblick

Wir behandeln folgende Darstellungen: Histogramm Boxplot empirische kumulative Verteilungsfunktion

12

Page 14: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Histogramm

Aufteilung des Wertebereichs in Intervalle der Breite ℎ.

Zähle Anzahl Beobachtungen in jedem Intervall.

Graphische Darstellung mit Balken. Höhe der Balken ist

#(𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵ℎ𝐵𝐵𝐵𝐵𝑛𝑛𝐵𝐵𝐵𝐵𝑛𝑛 𝑖𝑖𝑖𝑖 𝐼𝐼𝑛𝑛𝐵𝐵𝐵𝐵𝐼𝐼𝐼𝐼𝐵𝐵𝐼𝐼𝐼𝐼)𝑛𝑛ℎ

Die Gesamtfläche unter dem Histogramm ist 1. Die Fläche über einem Intervall entspricht die relative Häufigkeit (vgl Dichte).

13

Page 15: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Old Faithful Geysir (Yellowstone): Daten

14

Zeitspanne [Min] zwischen Ausbrüchen Eruptionsdauer [Min]

Daten z.B. von hierhttp://stat.ethz.ch/Teaching/Datasets/geysir.dat

Page 16: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Histogramme der Zeitspanne

15

Relative Häufigkeit von Wartezeiten imIntervall [70,80] ist etwa0.02*(75-70) + 0.04*(80-75) = 30%

• Histogramm ergibt oft einen gutenÜberblick: Symmetrie, AnzahlGipfel, Lage, Streuung, …

• Je breiter die Klassen, je mehrwerden die Datenzusammengefasst (“Erosion”)

Page 17: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Boxplot: Schematischer Aufbau

16

MedianUnteres Quartil

Oberes Quartil

Grösste «normale» Beobachtung

Kleinste «normale» Beobachtung

Ausreisser (falls vorhanden)

Ausreisser (falls vorhanden)

Qua

rtils

diffe

renz

(ent

hält

50%

der

Dat

en)

Page 18: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Boxplot: Schematischer Aufbau

Die grösste normale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5 � 𝐼𝐼𝐼𝐼𝐼𝐼 vom oberen Quartil entfernt ist, wobei 𝐼𝐼𝐼𝐼𝐼𝐼 die Quartilsdifferenz ist:Also grösster Datenwert 𝑥𝑥𝑖𝑖 mit 𝑥𝑥𝑖𝑖 − 𝑞𝑞0.75 < 1.5 ⋅ 𝐼𝐼𝐼𝐼𝐼𝐼

Die kleinste normale Beobachtung ist entsprechend analog definiert mit dem unteren Quartil:Also kleinster Datenwert 𝑥𝑥𝑖𝑖 mit 𝑞𝑞0.25 − 𝑥𝑥𝑖𝑖 < 1.5 ⋅ 𝐼𝐼𝐼𝐼𝐼𝐼

Ausreisser sind Punkte, die ausserhalb dieser Bereiche liegen.

17

Page 19: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Boxplot und Histogramm der Wartezeiten zwischen Eruptionen

18

Wir sehen die verschiedenen

Peaks im Boxplot nicht!

Page 20: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Mehrere Boxplots

Mit mehreren Boxplots kann man einfach und schnell die Verteilung von verschiedenen Gruppen (Methoden, Produkte, …) vergleichen.

19

Page 21: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Schiefe

20

symmetrisch rechtsschief linksschief

Page 22: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Boxplot: Bemerkungen

Ein Boxplot ist eine grobere Zusammenfassung als ein Histogramm. Es eignet sich gut um mehrere Datensätze zu vergleichen.

Im Boxplot sind ersichtlich: Lage Streuung Schiefe

Man sieht aber z.B. nicht, ob eine Verteilung mehrere «Peaks» (Gipfel) hat.

21

Page 23: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Empirische kumulative Verteilungsfunktion

22

Empirische kumulative Verteilungsfunktion ist definiert als der Anteil der Punkte, die kleiner als ein bestimmter Wert 𝑥𝑥 sind, d.h.

Bild

40 50 60 70 80 90 100

0.0

0.2

0.4

0.6

0.8

1.0

Zeitspanne

F nx

Treppenfunktion:Sprunghöhe 1/𝑛𝑛 bei Beobachtungen 𝑥𝑥𝑖𝑖(bzw. ein Vielfaches davon, wenn es mehrereBeobachtungen mit demgleichen Wert 𝑥𝑥𝑖𝑖 gibt).

Page 24: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

23

Modell (“Theorie”) Daten (beobachtete Stichprobe)

Erwartungswert Arithm. Mittel

Varianz Empirische Varianz

Kumulative Verteilungsfunktion Empirische kumulative Verteilungsfunktion

Dichte Histogramm (normiert auf Fläche 1)

0.00.10.20.30.40.5

5 7 9 11 13

f(x)

x

0.00.20.40.60.81.0

5 7 9 11 13

P[X

≤ x]

x

x =1

n

nX

i=1

xi

s2 =1

n¡ 1

nX

i=1

(xi ¡ x)2

0.0

0.2

0.4

0.6

0.8

1.0

5 6 7 8 9 10 11 12 13x

0.00

0.10

0.20

0.30

5 6 7 8 9 10 11 12 13

𝑛𝑛 → ∞

Page 25: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Deskriptive Statistik: 2 Dimensionen

Wir haben nun paarweise beobachtete Daten

Zum Beispiel die Note der Basisprüfung (𝑦𝑦𝑖𝑖) und die Note der Zwischenprüfung(𝑥𝑥𝑖𝑖) der Studenten. Oder die Eruptionsdauer (𝑦𝑦𝑖𝑖) und die Zeitspanne (𝑥𝑥𝑖𝑖) zumvorangehenden Ausbruch des Old Faithful Geysir.

Neue Grafiken/Kennzahlen: zweidimensionales Streudiagramm empirische Kovarianz und Korrelation

24

𝑥𝑥1, … , 𝑥𝑥𝛼𝛼

𝑦𝑦1, … ,𝑦𝑦𝛼𝛼

Page 26: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

0 1 2 3 4 5 6 7

23

45

6

Zwischenpruefung

Basi

spru

efun

g

Zweidimensionales Streudiagramm

Beispiel der Zwischen- und Basisprüfung (mit «jittering»):

25

Page 27: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Zweidimensionales Streudiagramm

Beispiel Old Faithful:

26Time to next eruption

Page 28: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Zusammenhänge gibt es viele…

27Quelle: The New England Journal of Medicine

Page 29: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Empirische Kovarianz und Korrelation

Empirische Kovarianz

Empirische Korrelation

wobei 𝑠𝑠𝑥𝑥 , 𝑠𝑠𝑦𝑦 die empirischen Standardabweichungen sind.

28

sxy =1

n¡ 1

nX

i=1

(xi ¡ x)(yi ¡ y)

rxy =sxysxsy

2 [¡1; 1]

Page 30: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Empirische Kovarianz und Korrelation

29

Beitrag eines Datenpaares zur empirischen Kovarianz/Korrelation

�̅�𝑥

�𝑦𝑦

𝐼𝐼𝑥𝑥𝑦𝑦 = 0.86

Page 31: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Empirische Korrelation: Bemerkungen

Korrelation misst «nur» den linearen Zusammenhang. Das Zeichen von 𝐼𝐼𝑥𝑥𝑦𝑦 misst die «Richtung» der linearen Zusammenhang.

Der Betrag |𝐼𝐼𝑥𝑥𝑦𝑦| misst die «Stärke» der linearen Zusammenhang.

30

Quelle: Wikipedia

Pass auf:Hier gibt es einen nicht-linearen Zusammenhangzwischen X und Y, der nichtvon 𝐼𝐼𝑥𝑥𝑦𝑦 detektiert wird.

Page 32: Deskriptive Statistik - metaphor.ethz.ch · Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete Daten Zum Beispiel die Note der Basisprüfung (𝑦𝑦 𝑖𝑖)

Empirische Korrelation: ein anderes klassisches Beispiel

Man sollte die Daten immer auch anschauen, statt sich «blind» auf Kennzahlen zu verlassen.

31

5 10 15

46

810

12

x1

y1

Corr = 0.82

5 10 15

46

810

12

x2

y2

Corr = 0.82

5 10 15

46

810

12

x3

y3

Corr = 0.82

5 10 15

46

810

12

x4y4

Corr = 0.82