37
Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19

Univariate Häufigkeitsverteilungen

  • Upload
    others

  • View
    18

  • Download
    0

Embed Size (px)

Citation preview

Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19
Skalenniveaus
Skalenniveau Relation zwischen
Ratio Verhältnis Alter, Einkommen,
Gruppierte Daten
Bundesland
Percent
k..Anzahl der Kategorien einer Variable (15) n..Anzahl der Beobachtungen (5444) nk.. Anzahl der Beobachtungen in Kategorie k
Absolute Häufigkeit: nk..Anzahl der Fälle, die die k-te Ausprägung der Variable x annehmen (n8 = 303)
Relative Häufigkeit pk=nk/n *100 er Ausprägung k (p8 = 5.6%) Prozentanteil der Beobachtungen in Kategorie k
Gültige Relative Häufigkeit pk(gültig)=nk/(n - missing) : (p8 (gültig) = 5.6) Prozentanteil der gültigen Beobachtungen in Kategorie
Häufigkeitstabellen ungruppierte Daten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/19
Kumulierter Anteil Summe der Anteile von der ersten Kategorie einer Variablen bis zur zu einer bestimmten Kategorie, einschliesslich des Wertes der Kategorie
cp(x8)=47.2%
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/19 Quelle: Kühnel, Krebs 2001 S. 49
Empirische Verteilungsfunktion
Quelle: Kühnel, Krebs 2001 S. 51
Quantilwerte ungruppierte Daten
Kumulierter Anteil
Q25: 25% Quantil
25% der Geburtsgewichte sind kleiner bzw. gleich 3060g, 75% der Geburtsgewichte liegen über 3060g
Q50=Median
Q75: 75% Quantil
75% der Geburtsgewichte sind kleiner bzw. gleich 3710g, 25% liegen darüber
Bestimmung von Quantilswerten
2. Rangreihen von Daten 1,4, 6,7,9,10,20,22,25,36,38,50,55,60,61,67,68
Bsp: n=17 Quantilanteil =0.25 i=4.25 ->nächsthöhere ganze Zahl=5 Q25=9
Bestimmung von Quantilswerten bei gruppierte Daten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/19
Graphische Darstellung von
1. Metrische Variablen Stabdiagramm Histogramm Box plots
2. Nominalskalierte Variablen Balkendiagramm Kreisdiagramm Säulendiagramm
Stabdiagramm
Geburtsgewicht in g
120
100
80
60
40
20
0
Länge der Linie: Häufigkeit der Ausprägung nicht so günstig für metrische Variablen mit vielen Ausprägungen
Geburtsgewicht in g
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/19
•Gruppierte metrische Variablen •einander berührende Balken •Flächentreue A) B) gleich grosse ungleich grosse Klassen Klassen Höhe der Balken: Höhe der Balken: Häufigkeit der Quotient Relative Häufigkeit Kategorie zu Klassenbreite
Charakteristika von Häufigkeitsvereilungen
Unimodal, symmetrisch U-förmig, bimodal, symmetrisch
Linksschief, rechtssteil Rechtsschief, linkssteil
5406N =
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/19
•metrische Variablen •rote Box: mittlere 50% der Verteilung •Grenzen der Box: 25% und 75% Quantil •mittlerer Wert in der Box: Median •Kreise: Outliers; Sterne: extreme Outliers •Linien außerhalb der Box: Wertebereich der Normalverteilung
Balkendiagramm
%Häufigkeit der Wahlabsicht
Kreis/Tortendiagramm
Kühnel, Krebs 2001 S. 62
Säulendiagramm
%Anteil Geburten nach Geschlecht
Kühnel, Krebs 2001. Statistik für die Sozialwissenschaften, S. 67- 106
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/18
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/18
Kennwerte univariater Verteilungen
Lagemasse
• Modus: am häufigsten auftretende Ausprägung einer Verteilung
• Median: teilt Verteilung in zwei gleich grosse Teile
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/18
Lagemasse
Lagemasse
Median=Q0.50 Gerade Fallzahl
Arithmetische Mittel Rohdaten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/18
Arithmetische Mittel
Gruppierte Häufigkeitstabelle
Geometrische Mittel Durchschnittswert bei
prozentuellen Änderungen
Jahr Zinsen Basispreis 1 E 1 15% 1,15 E 2 10% 1,265 E (=1.15 E*1.10) 3 20% 1,518 E (=1,265 E*1.20)
1,518=1 E * 1,15 * 1,10 * 1,20
Durchschnittliche Zinsen?
Welches Lagemass soll wann eingestezt werden?
• Skalenniveau • Robustheit gegenüber Extremwerten
Nachteile • Geringe Informationen über Verteilung • Fehlende Eindeutigkeit bei mehrgipfeligen
Verteilungen
Welches Lagemass soll wann eingesetzt werden?
Beobachtung i Beispiel 1 Beispiel 2 1 1 -999 2 3 3 3 6 6 4 8 8 5 10 10 6 12 12 7 15 15 8 17 17 9 19 19
10 20 20 11 21 21
Median ( i=(n+1)/2=6) 12 12 arithmetisches Mittel 12 -78,91
Extremwerte
metrische Skalen
Streuungsmasse
Varianz
Varianz wird kleiner: je näher die einzelnen Werte beim Mittelwert liegen
Varianz wird größer: je mehr die einzelnen Werte vom Mittelwert abweichen
Daten 1 2 3 4
Arithmetische Mittel=2,5
Varianz 1,66667
Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 (1-2,5)2 (7-2,5)2
Varianz 9
Standardabweichung
Arithmetische Mittel=2,5
Varianz 1,66667 Standardabweichung 1,290994
Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 (1-2,5)2 (7-2,5)2
Varianz 9 Standardabweichung 3
Variationskoeffizient
Arithmetische Mittel=2,5
Varianz 1,66667 Standardabweichung 1,290994 Variationskoeffizient 0,516398
Daten 1 1 1 7
Arithmetische Mittel=2,5
Varianz 9 Standardabweichung 3 Variationskoeffizient 1,2
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/18
Streuungsmasse SPSS Output
Statistiken
Schiefe & Steilheit von Verteilungen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/18
Schiefe & Steilheit von Verteilungen
Schiefekoeffizient (SK)
Steilheit (Kurtosis)
SK>0 rechtsschiefe Verteilung SK<0 linksschiefe Verteilung SK=0 symmetrische Verteilung
ST>0 steile Verteilung ST<0 flache Verteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/18
Geburtsgewichtsverteilung
Fehlend 3 Mittelwert 3366g Lagemasse Median 3420g Modus 3700g Standardabweichung 544,56g Streuungsmasse Varianz 296549,03 Variationskoeffizient 0,16 Spannweite 3480g Minimum 1190g
Maximum 4670g