Upload
prof-dr-jan-kirenz
View
2.971
Download
1
Embed Size (px)
Citation preview
Statistik
Prof. Dr. Jan Kirenz
Deskriptive Statistik
Photo Credit: Unsplash, Roman Mager
ANALYTICS Grundlagen
Prof. Dr. Jan Kirenz
Was ist deskriptive Statistik?
Mit Hilfe der deskriptiven Statistik werden empirische Daten (z.B. Umfrageergebnisse) durch Kennzahlen, Tabellen und Grafikenübersichtlich dargestellt.
Deskriptive Statistik
Der Begriff „deskriptiv“ bedeutet dasselbe wie „beschreibend“.
Prof. Dr. Jan Kirenz
Was ist deskriptive Statistik?
Welche Tabellen, Kennzahlen und Visualisierungen wir für die Beschreibung der Daten nutzen können, hängt insbesondere von dem Skalenniveau der Variablen ab.
Deskriptive Statistik
Prof. Dr. Jan Kirenz
In einer Umfrage wurden 15 Personen nach ihrem Familienstand befragt
Beispiel
Variable = Familienstand
Ausprägungen = ledig, verheiratet, geschieden, verwitwet.
Familienstand
Photo Credit: Unsplash, Helloquence
Prof. Dr. Jan Kirenz
Was für „Berechnungen“ können wir mit der nominal skalierten Variable „Familienstand“ durchführen?
Frage: Wie können wir das Ergebnis übersichtlich darstellen?
Folgende Informationen haben wir durch die Befragung erhalten:
Ausprägung = 8 ledig, 4 verheiratet, 2 geschieden, 1 verwitwet.
Photo Credit: Unsplash, Roman Mager
Prof. Dr. Jan Kirenz
Da die Variable nominal skaliert ist, können wir bspw. Häufigkeiten in einer Tabelle aufzeigen. Hierbei sollten die beobachteten und die prozentualen Häufigkeiten angegeben werden.
Merkmals-ausprägung
Beobachtete Häufigkeit
Relative Häufigkeit
Verheiratet 4 27 %
Ledig 8 53 %
Geschieden 2 13 %
Verwitwet 1 7 %
SUMME 15 100 %
Tabelle: Häufigkeiten
Prof. Dr. Jan Kirenz
Ergebnisse nominaler Variablen werden üblicherweise als Balkendiagramme und/oder Kuchendiagramme dargestellt.
Visualisierungen:
4
8
2 102468
10
Verh
eira
tet
Ledi
g
Ges
chie
den
Verw
itwet
27%
53%
13% 7%
Verheiratet Ledig
Geschieden Verwitwet
Statistik
Lagemaße
Photo Credit: Unsplash, Roman Mager
Prof. Dr. Jan Kirenz
ANALYTICS Grundlagen
Prof. Dr. Jan Kirenz
Kennzahlen: Lagemaß und StreuungsmaßEs gibt zwei verschiedene Arten von Kennzahlen, die wir hier berechnen können: Lagemaße und Streuungsmaße.
Lagemaße geben Auskunft über die zentrale Tendenzvon Ausprägungen.
Streuungsmaße geben Auskunft über die Verteilungder Werte.
Prof. Dr. Jan Kirenz
Kennzahlen: Lagemaß und Streuungsmaß
Wir werden insbesondere die folgenden Kennzahlen behandeln:
Lagemaße:• Modus • Median • Arithmetisches Mittel
Streuungsmaße• Quartilsabstand• Standardabweichung
Prof. Dr. Jan Kirenz
Kennzahlen: Lagemaß und Streuungsmaß
Wir werden insbesondere die folgenden Kennzahlen behandeln:
Lagemaße:• Modus • Median • Arithmetisches Mittel
Streuungsmaße• Quartilsabstand• Standardabweichung
Prof. Dr. Jan Kirenz
Zusammenhang zwischen Lagemaßen und
SkalenniveausSkalenniveau Operationen Interpretation Berechenbare
Lagemaße
Nominalskala =/≠ gleich oder ungleich Modus
Ordinalskala =/≠; </> kleiner, gleich oder größer Modus. Median
Metrisch =/≠; </>; +/−; ×/÷
Aussagen zu Verhältnissen
Modus. Median,arithmetisches Mittel
Prof. Dr. Jan Kirenz
x: Größe in cm
20 erwachsene deutsche Frauen
KleinsteFrau
GrößteFrau
Beispiel: Körpergröße
Wir messen die Größe von 20 Frauen und reihen sie der Größe nach auf. Die kleinste Frau steht ganz links, die größte ganz rechts.
Prof. Dr. Jan Kirenz
Beispiel KörpergrößeZum besseren Verständnis der Kennzahlen reihen wir die 20 Frauen entsprechen ihrer Größe nebeneinander auf:
Dabei steht die kleinste Frau ganz links und die größte ganz rechts. Frauen mir gleicher Größe stehen hintereinander.
x: Größe in m
20 Frauen
1,62
KleinsteFrau
GrößteFrau
1,63 1,64 1,65 1,66 1,67 1,68
Prof. Dr. Jan Kirenz
Umfrageergebnis der Studie:
Wir haben die Größe von 20 Frauen erfragt.
In der Tabelle ist das Ergebnis der Befragung abgetragen.
Merkmals-ausprägung Häufigkeit Relative
Häufigkeit
1.62 1 5 %
1.63 2 10 %
1.64 4 20 %
1.65 6 30 %
1.66 4 20 %
1.67 2 10 %
1.68 1 5 %
20 100 %
Prof. Dr. Jan Kirenz
Merkmals-ausprägung Häufigkeit Relative
Häufigkeit
1.62 1 5 %
1.63 2 10 %
1.64 4 20 %
1.65 6 30 %
1.66 4 20 %
1.67 2 10 %
1.68 1 5 %
20 100 %
Lesebeispiel:6 der Frauen sind 1,65 m groß.
Da dies die häufigste Ausprägung ist, ist dies der Modus
Lagemaße: Modus
Prof. Dr. Jan Kirenz
Lagemaße: Modus
• Modus = die häufigste Ausprägung.
• Der Modus gibt an, welche Merkmalsausprägung (z.B. in einer Befragung) am häufigsten vorkommt
• Falls keine Ausprägung häufiger als alle anderen vorkommt gibt es keinen Modus
Prof. Dr. Jan Kirenz
Lagemaße: Median Median : der Wert, der bei einer der Größe nach geordneten Zahlenreihe an der mittleren (zentralen) Stelle steht.
x: Größe in m
20 Frauen
1,62
KleinsteFrau
GrößteFrau
1,63 1,64 1,65 1,66 1,67 1,68
Übung: Berechnung des Medians
Prof. Dr. Jan Kirenz
Lagemaße: Median Hinweise:
Ist die Anzahl der Werte ungerade, so ist es, bei in Reihenfolge sortierten Werten, der mittlere Wert.
Zahlenwerte:
489 113 141 120 217 109 675 218 96 225 132
sortierte Werte:
96 109 113 120 132 141 217 218 225 489 675
MEDIAN
Prof. Dr. Jan Kirenz
Lagemaße: Median
Hinweise:
Im Falle einer geraden Anzahl von Werten ist der Median der Mittelwert aus den beiden mittleren Werten.
sortierte Werte:
96 109 113 120 132 141 217 218 225 489 675 690
Median = (141+217)/2 = 179
Prof. Dr. Jan Kirenz
Lagemaße: Median Median : der Wert, der bei einer der Größe nach geordneten Zahlenreihe an der mittleren (zentralen) Stelle steht.
x: Größe in m
20 Frauen
1,62
KleinsteFrau
GrößteFrau
1,63 1,64 1,65 1,66 1,67 1,68
Übung: Berechnung des Medians1,62 1,63 1,63 1,64 1,64 1,64 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,661,64 1,66 1,66 1,67 1,67 1,68
1,65 1,65+2
Prof. Dr. Jan Kirenz
Lagemaße: Arithmetisches MittelArithmetisches Mittel: Addition aller Werte eines Datensatzes und Teilung der Summe durch die Anzahl aller Werte.
Prof. Dr. Jan Kirenz
Arithmetisches Mittel: Addition aller Werte eines Datensatzes und teilt die Summe durch die Anzahl aller Werte.
x: Größe in m
20 Frauen
1,62
KleinsteFrau
GrößteFrau
1,63 1,64 1,65 1,66 1,67 1,68
1,62 1,63 1,63 1,64 1,64 1,64 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,661,64 1,66 1,66 1,67 1,67 1,68+ + + + + + + + + + + + + + + + + + +
20
= 1,65
Lagemaße: Arithmetisches Mittel
Prof. Dr. Jan Kirenz
Frage: Was können wir noch aus den vorliegenden Informationen ermitteln?
x: Größe in m
20 Frauen
1,62
KleinsteFrau
GrößteFrau
1,63 1,64 1,65 1,66 1,67 1,68
Prof. Dr. Jan Kirenz
Stellen wir uns nun vor, wir hätten Daten von 1.000 Frauen erhoben...
Prof. Dr. Jan Kirenz
x: Größe in cm
1.000 erwachsene deutsche Frauen
165 20690
KleinsteFrau
GrößteFrau
Arithmetischer Mittelwert
Prof. Dr. Jan Kirenz
Punkte = 1.000 erwachsene deutsche Frauen
x: Größe in cm
KleinsteFrau
GrößteFrau
165 20690
f(x)
Wahrscheinlichkeitsdichtefunktionen
Prof. Dr. Jan Kirenz 28
Wahrscheinlichkeitsdichtefunktionen
Nun können wir (mit Hilfe der Dichtefunktion) bspw. die Frage beantworten, wie viele Frauen zwischen 150 cm und 165 cm groß sind: 20% bzw. 200 Frauen
Prof. Dr. Jan Kirenz
Warscheinlichkeitsdichtefunktion:
Hinweise:
• Die Wahrscheinlichkeitsdichtefunktion oder „Dichte“ (engl. probability density function) ist ein
Hilfsmittel zur Beschreibung einer stetigenWahrscheinlichkeitsverteilung.
Prof. Dr. Jan Kirenz
Warscheinlichkeitsdichtefunktion:
Hinweise:
• Stetig sind solche Merkmale, die theoretisch unendlich viele Ausprägungen aufweisen können (z.B. Körpergröße, Länge, Gewicht, Zeit).
• Das Gegenteil von stetig ist diskret.
• Diskret sind solche Merkmale, die nur endlich viele Ausprägungen annehmen können. Insbesondere sind alle Merkmale diskret, deren Werte man durch Zählen ermitteln kann (z.B. Seiten eines Würfels)
Prof. Dr. Jan Kirenz
Warscheinlichkeitsfunktion:
• Bei diskreten Werten können Wahrscheinlichkeitsfunktionen ermittelt werden
• Bsp.: Wahrscheinlichkeitsfunktion eines Würfels (Merkmal: Augenzahl)
Werte sind diskret.
D.h., dass z.B. zwischen den Werten 1 und 2 keine weiteren Werte liegen (es gibt „Lücken“)
Prof. Dr. Jan Kirenz
Warscheinlichkeitsfunktion:
Frage: wie sieht die Wahrscheinlichkeitsfunktion von zwei Würfelwürfen mit zwei Würfeln aus (als Säulendiagramm dargestellt)?:
Die Augen sind das Merkmal.Deren Anzahl ist die Merkmalsausprägung.
Die Funktion gibt die Wahrscheinlichkeit des Auftretens einer bestimmten Ausprägung an.
Prof. Dr. Jan Kirenz
Warscheinlichkeitsfunktion:
Prof. Dr. Jan Kirenz 34
Warscheinlichkeitsdichtefunktion:
Körpergröße ist stetig (es kann theoretisch jeder beliebige Wert vorkommen – also theoretisch unendlich viele)
Prof. Dr. Jan Kirenz 35
Frage: wie viel Prozent der Frauen sind zwischen 90 cm und 165 cm groß?
Warscheinlichkeitsdichtefunktion:
Prof. Dr. Jan Kirenz 36
Frage: wie viel Prozent der Frauen sind zwischen 90 cm und 165 cm groß?
Warscheinlichkeitsdichtefunktion:
50% der Frauen
Prof. Dr. Jan Kirenz 37
50% der Werte
Normalverteilung
50% der Werte
Arithmetisches Mittel
Diese Art der Verteilung nennt man „Normalverteilung“ (oder auch Gaußverteilung)
Merkmale:• Kurvenverlauf ist
symmetrisch• Median, Mittelwert
und Modus sind identisch
= Median = Modus
Prof. Dr. Jan Kirenz 38
Linksschiefe Verteilung ≠ Normalverteilung
Arith
met
isch
esM
ittel
Med
ian
Diese Art der Verteilung nennt man „linksschief“ (zum Vergleich in blau die Normalverteilung)
Mod
us
Prof. Dr. Jan Kirenz 39
Rechtsschiefe Verteilung≠ Normalverteilung
Diese Art der Verteilung nennt man „rechtsschief“ (zum Vergleich in blau die Normalverteilung)
Med
ian
Mod
us
Arith
met
isch
esM
ittel
Prof. Dr. Jan Kirenz 40
Rechtsschiefe Verteilung≠ Normalverteilung
Prof. Dr. Jan Kirenz
Median vs. arithmetisches Mittel• Bsp: monatliches Einkommen von 4 Personen.• Keine Normalverteilung • Verteilung ist ___________________
• Mittelwert = ____________ Euro im Moment
• Median = ____________ Euro im Monat
• Frage: welcher Wert beschreibt das durchschnittliche Einkommen der Mehrzahl der Personen besser?
Prof. Dr. Jan Kirenz
Median vs. arithmetisches Mittel
• Sobald keine Normalverteilung vorliegt ist es nicht sinnvoll, das arithmetische Mittel zu berechnen.
• Der Median bleibt immer in der „Mitte“ der Verteilung – er ist bei nicht normalverteilten Daten dem arithmetischen Mittel vorzuziehen.
Prof. Dr. Jan Kirenz
Deskriptive Statistik
Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahl
(1) WelchesSkalenniveau liegt vor?
(2) Welche Verteilung liegt vor? --> Lagemaße
Nominal Verteilung nicht relevant
Modus
Ordinal Verteilung nichtrelevant
ModusMedian
Metrisch
Fall 1: Daten sind nicht normalverteilt
ModusMedian
Fall 2: Daten sind normalverteilt
ModusMedian
Mittelwert
Logik zur Auswahl der Lagemaße
Prof. Dr. Jan Kirenz
Lagemaße: Zusammenfassung
Modus Median Arithmetisches Mittel
Häufigster Wert Zentraler Wert Durchschnittlicher Wert
Gibt die Kategorie an, die am häufigsten besetzt ist
Gibt den mittleren Wert an, der eine nach der Größe geordnete Reihe von Messwerten halbiert
Definiert als Quotient aus der Summe aller beobachteten Werte und der Anzahl der Werte.
Bestimmbar für alle Skalenniveaus
Bestimmbar für ordinale und metrische Skalenniveaus (auch wenn keine Normalverteilung vorliegt)
Nur bei metrischenSkalenniveaus mit Normalverteilung
Prof. Dr. Jan Kirenz
Wiederholungsfragen
Bitte geben Sie jeweils an, ob die Aussage richtig oder falsch ist:
Markieren Sie dafür das Kästchen vor der Ziffer: Richtige Aussage þ / Falsche Aussage: ý .
1. o Bei nominalskalierten Variablen ist es sinnvoll, einen Mittelwert zu berechnen.
2. o Der Modalwert ist der am häufigsten vorkommende Wert.
3. o Bei metrischen Merkmalen können wir nur den Modalwert berechnen.
4. o Diskret sind solche Merkmale, die nur endlich viele Ausprägungen annehmen können.
5. o Stetig sind solche Merkmale, die überabzählbar viele Ausprägungen aufweisen können (z.B. Länge, Gewicht, Zeit).
6. o Die Normalverteilung ist ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen.
7. o Der Median kann auch dann berechnet werden, wenn bei metrischen Merkmalen keine Normalverteilung vorliegt
8. o Das arithmetische Mittel kann auch bei ordinalen Merkmalen berechnet werden.
45
Statistik
Streuungsmaße
Photo Credit: Unsplash, Roman Mager
Prof. Dr. Jan Kirenz
ANALYTICS Grundlagen
Prof. Dr. Jan Kirenz
Kennzahlen: Lagemaß und Streuungsmaß
Wir werden insbesondere die folgenden Kennzahlen behandeln:
Lagemaße:• Modus • Median • Arithmetisches Mittel
Streuungsmaße• Quartilsabstand• Standardabweichung
Prof. Dr. Jan Kirenz 48
Streuungsmaße: Standardabweichung
Mittelwert
Die Standardabweichung ist ein Maß für die Streubreite der Werte um dessen Mittelwert (nur bei Normalverteilung)
Kleinster Wert Größter Wert-1s-2s 2s1s
1 Standard-abweichung nach links
1 Standard-abweichung nach rechts
Im Intervall von -1s bis +1s liegen bei Normalverteilungen immer zwei Drittel (68,27%) aller Werte
68,27%
Prof. Dr. Jan Kirenz 49
Mittelwert
Die Standardabweichung ist ein Maß für die Streubreite der Werte um dessen Mittelwert
Kleinster Wert Größter Wert-1s-2s 2s1s
1 Standard-abweichung nach links
1 Standard-abweichung nach rechts
Im Intervall von -2s bis +2s liegen bei Normalverteilungen immer etwa 95,45% aller Werte.
95,45%
Streuungsmaße: Standardabweichung
Prof. Dr. Jan Kirenz
• Übung:
• 1.000 Personen wurden befragt, wie hoch ihre monatliche Handyrechnung ist:
• Die gewonnenen Daten sind normalverteilt.• Der Mittelwert liegt bei 40 Euro• Die Standardabweichung liegt bei 5 Euro (d.h., dass die
durchschnittliche Entfernung aller Antworten zum Mittelwert 27 Euro beträgt)
• Frage: welche Werte haben +s1 und –s1? Wieviel Prozent der Personen befinden sich zwischen -s1 und +s1
Streuungsmaße: Standardabweichung
Prof. Dr. Jan Kirenz 51
(Median)
Der Quartilsabstandermittelt, in welchem Bereich sich die mittleren 50% der Werte befinden
Quartil 1 Quartil 2
Auch anwendbar wenn keine Normalverteilung vorliegt
25%
Streuungsmaße: Quartilsabstand
Quartil 350% 75%Enthält: ... aller Werte
Der Quartilsabstand entspricht der Differenz zwischen dem oberen (3) und unteren (1) Quartil
Quartilsabstand = Q3-Q1
25% 25% 25% 25%
Prof. Dr. Jan Kirenz 52Median
Mit einem Boxplot lassen sich die Quartile gut visualisieren
25%
Streuungsmaße: Quartile & Boxplot
50% 75%
oberer Whisker
Der Boxplot (auch Box-Whisker-Plot) ist ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskaliertenMerkmals verwendet wird.
unteres Quartil oberes Quartil
Quartil 1 Quartil 2 Quartil 3unterer Whisker
25% 25% 25% 25%
Prof. Dr. Jan Kirenz
Deskriptive Statistik
Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen
(1) Skalenniveau (2) Verteilung Streuungsmaße
Nominal Verteilung nicht relevant
(es gibt keine Streuung)
Ordinal Verteilung nichtrelevant
Quartilsabstand
Metrisch
Fall 1: Daten sind nicht normalverteilt Quartilsabstand
Fall 2: Daten sind normalverteilt
Quartilsabstand,Standardabweichung
Logik zur Auswahl der Streuungsmaße
Prof. Dr. Jan Kirenz
Deskriptive Statistik
Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen
(1) Skalenniveau (2) Verteilung Lagemaße Streuungsmaße
Nominal Verteilung nicht relevant
Modus -
Ordinal Verteilung nichtrelevant
ModusMedian Quartilsabstand
Metrisch
Fall 1: Daten sind nicht normalverteilt
ModusMedian Quartilsabstand
Fall 2: Daten sind normalverteilt
ModusMedian
Mittelwert
QuartilsabstandStandardabweichung
Logik zur Auswahl der Kennzahlen