Upload
dangkhue
View
218
Download
0
Embed Size (px)
Citation preview
1
1Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Auswertung univariaterDatenmengen - deskriptiv
2Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Bibliografie
Prof. Dr. Kück; Statistik, Vorlesungsskript Abschnitt 6.1.3, 6.1.4, 6.1.5
Bleymüller/Gehlert/Gülicher;Statistik für WirtschaftswissenschaftlerVerlag Vahlen
Bleymüller/Gehlert;Formeln, Tabellen und ProgrammeVerlag Vahlen
2
3Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Will man mehrere Eigenschaften (Merkmale) der Objekte (Einheiten) miteinander vergleichen, ist es erforderlich, die unterschiedlichen Merkmalsdimensionen auszuschalten. Das geschieht mittels Standardisierung.
Die hier behandelten Formen der Standardisierung sind:
z-Transformation
0,1-Standardisierung
Standardisierte Maßzahlen
4Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Es gilt:
z-Transformation
Abweichung gegenüber dem Mittel
Die Differenz zwischen Merkmalswert und Mittelwert im Zähler sowie die Standardabweichung im Nenner haben die selbe Dimension, die sich wegkürzt. Durch z-Transformation erhält man dimensionslose Daten.
σµaz i
i−
=Dabei bedeuten:zi : neuer Wertai : alter Wertµ : arithmetisches Mittelσ : Standardabweichung
3
5Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Eigenschaften der standardisierten Werte zi:
sie sind dimensionslose relative Abweichungen,
das arithmetische Mittel ist Null, E(Z) = 0
die Varianz hat den Wert Eins, V(Z) = 1
z-Transformation
ai
0
0
zi
Gemessene Werte
Standardisierte Werte
6Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Die standardisierten Werte zi sind anschaulicher als die Ausgangswerte ai, denn:
–1 < zi < 1
einfacher Streubereich
–2 < zi < 2
doppelter Streubereich
–3 < zi < 3
dreifacher Streubereich
f(z)
z-3 3210-2 -168,3%*95,5%*99,7%*
z-Transformation
Abweichungen im einfachen Streubereich drücken Normalität in den Abweichungen aus, Abweichungen im dreifachen Streubereich sind eher unwahrscheinlich. *Die angegebenen Wahrscheinlichkeiten gelten nur für die Normalverteilung!
4
7Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Beispiel: Die standardisierten Merkmalswerte der Leistung der 250 Autos weisen folgende Verteilung auf:
Z-Wert: Leistung [PS]
4,003,50
3,002,50
2,001,50
1,00,500,00
-,50-1,00
-1,50
Std.abw. = 1,00
Mittel = 0,00
N = 250,00
Normalverteilungskurve
z-Transformation
SPSS-Diagramm
Ein Merkmalswert von 280 PS entspricht einem zi-Wert von 2,24; er liegt außerhalb des zweifachen Streubereiches und ist somit auffällig abweichend vom Mittelwert.
8Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Beispiel: Stellt man die standardisierten Werte des Verbrauches dar, so ergibt sich folgende Verteilung:
z-Transformation
SPSS-Diagramm
Der VW Lupo mit einem Verbrauch von 4,3 l/100 km hat einen standardisierten Wert von -2,17 , der Ford Mondeo 2,5i V6 hat einen z-Wert von 2,8.
Normalverteilungskurve
Z-Wert: Kraftstoffverbrauch durchschnittlich
3,252,75
2,251,75
1,25,75,25-,25
-,75-1,25
-1,75-2,25
40
30
20
10
0
Std.abw. = 1,00
Mittel = 0,00
N = 250,00
5
9Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Beispiel: Wie sind einzelne Fahrzeuge hinsichtlich ihrer Leistungsausstattung und ihrem Benzinverbrauch vergleichend zu beurteilen?
z-Transformation - Beispiel
0,782,8Ford Mondeo 2,5i V6
0,260,25Volvo S80 2,4
-0,88-2,17VW Lupo
Z-Wert der Leistung
Z-Wert des Verbrauchs
><
≈
Analytische Interpretation: Bezüglich der 250 untersuchten Autos hat VW Lupo sowohl eine unterdurchschnittliche Leistung als auch einen unterdurchschnittlichen Verbrauch. Jedoch ist der Verbrauch deutlich geringer als die Leistung im Vergleich zu den anderen 249 Autos. VW Lupo ist ein Fahrzeug, das einen geringen Energieeinsatz je Leistung hat. Negativ fällt in dieser Hinsicht Ford Mondeo auf, Volvo S80 ist „ausgeglichen“.
10Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
z-Transformation - Beispiel
a (1) a (2)1 1,8 2314 -0,90 -0,902 2,1 2700 -0,63 -0,633 4,7 6043 1,72 1,724 1,6 2057 -1,09 -1,095 2,5 3214 -0,27 -0,276 1,3 1672 -1,36 -1,367 2,8 3600 0,00 0,008 3,2 4114 0,36 0,369 4,4 5657 1,45 1,45
10 3,6 4629 0,72 0,72Mittelwert 2,8 3600 0,00 0,00Streuung 1,1 1422 1,00 1,00
z (1) z (2)
Beispiel: Vergleich zweier Messreihen in unterschiedlichen Wertebereichen:
Was erkenntman daraus?
6
11Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Eine weitere Standardisierungsmöglichkeit ist die Eingrenzung des Wertebereiches [0….1) .
0,1-Standardisierung
maxmin
maxii aa
aas
−−
=
Sind alle ai positiv, so liegen alle si zwischen o und 1.Für den maximalen Merkmalswert amax nimmt die standardisierte Größe si den Wert 0 an, für den minimalen Merkmalswert amin ist si gleich 1.Man sieht somit deutlich Abweichungen gegenüber dem Höchstwert, der zum Maßstab der Standardisierung gemacht wird. Das ist bei Unternehmensvergleichen mit ökonomischen Kennzahlen sinnvoll.
12Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
0,1-Standardisierung von zwei Reihen - Beispiel
a (1) a (2)1 1,8 2314 0,85 0,852 2,1 2700 0,76 0,763 4,7 6043 0,00 0,004 1,6 2057 0,91 0,915 2,5 3214 0,65 0,656 1,3 1672 1,00 1,007 2,8 3600 0,56 0,568 3,2 4114 0,44 0,449 4,4 5657 0,09 0,09
10 3,6 4629 0,32 0,32Minimum 1,3 1672 1,00 1,00Maximum 4,7 6043 0,00 0,00
s (1) s (2)
7
13Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Beispiel: Würde Nils nicht 101 kg sondern ungesunde 146 kg wiegen, hat die Änderung des Maximalwertes Auswirkung auf alle standardisierten Werte:
Ausreißerproblematik bei 0,1-Standardisierung - Beispiel
Name Lisa Anna Antje Marie Dörte Sven Uwe Kai Jan NilsNr. i 1 2 3 4 5 6 7 8 9 10
xi 44 46 50 54 56 69 72 78 80 101si 1,00 0,96 0,89 0,82 0,79 0,56 0,51 0,40 0,37 0,00
Name Lisa Anna Antje Marie Dörte Sven Uwe Kai Jan NilsNr. i 1 2 3 4 5 6 7 8 9 10
xi 44 46 50 54 56 69 72 78 80 146si 1,00 0,98 0,94 0,90 0,88 0,75 0,73 0,67 0,65 0,00
Die gleiche Auswirkung hätte die Änderung des Minimalwertes – in diesem Fall das Gewicht von Lisa. Die 0,1-Standardisierung ist daher problematisch.
14Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Momente sind Maßzahlen für die Beurteilung eindimensionaler Häufigkeitsverteilungen. Sie sind durchschnittliche potenzierte Abweichungen der Merkmalswerte von einem Bezugspunkt.
Man unterscheidet folgende Arten zur Bildung der Momente:
Einführung Momente
Gewöhnliche Momente mit dem Bezugspunkt Null
Zentrale Momente um den Bezugspunkt des arithmetischen Mittels
( ) ( )∑=
−=N
1i
rir µx
N1µm
( ) ∑=
=N
1i
rir x
N10m
8
15Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Das gewöhnliche erste Moment mit dem Bezugspunkt Null ist das arithmetische Mittel:
Das 2., 3. und 4. zentrale Moment mit dem Bezugspunkt des arithmetischen Mittel ergeben:
die Varianz:
die Schiefe:
die Wölbung:
Momente, Schiefe und Wölbung
( ) ( )∑=
−==N
1i
2i2
2 µxN1µmσ
( ) ( )∑=
−=N
1i
3i3 µx
N1µm
( ) ( )∑=
−=N
1i
4i4 µx
N1µm
( ) ∑=
==N
1i
1i1 x
N10mµ
16Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Die angegebenen Maße sind absolute Maßzahlen, welche die jeweilige Dimension der Merkmalsausprägung in der jeweiligen Potenz haben. (z. B. hat das Schiefemaß für die Verteilung einer Zeitdauer in Stunden die Dimension Stunden³)
Daher ergeben sich oft sehr hohe Werte, die für praktische Auswertungen ungeeignet sind. Momente werden deshalb auch als relative Maßzahlen angegeben.
Momente Schiefe und Wölbung
9
17Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Aussage dieser Momente:
Neben Lageparametern und Streuungsmaßen lässt sich eine Häufigkeitsverteilung auch noch durch Parameter beschreiben, welche die Form der Verteilung charakterisieren. Hierzu gehören die Momente Schiefe und Wölbung.
Schiefe- und Wölbungsmaße sind deshalb sinnvoll, weil Häufigkeitsverteilungen trotz gleichem arithmetischen Mittel und gleicher Standardabweichung unterschiedliche Formen aufweisen können.
Momente Schiefe und Wölbung
18Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Beispiel: Folgende drei Häufigkeitsverteilungen haben bei gleichem arithmetischen Mittel von 10 und gleicher Varianz von 6,4 unterschiedliche Formen:
Klassenmitte xi 4 6 8 10 12 14 16
f(xi) 0,1 0,1 0,2 0,5 0,2 0,1 0,1
Klassenmitte xi 4 6 8 10 12 14 16
f(xi) 0 0,2 0,2 0,3 0,2 0,2 0
Klassenmitte xi 4 6 8 10 12 14 16
f(xi) 0,1 0,1 0,2 0,3 0,4 0,1 0
00,10,20,30,40,50,6
0
0,1
0,2
0,3
0,4
0
0,1
0,2
0,3
0,4
0,5
Momente Schiefe und Wölbung - Beispiel
1
2
3
10
19Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
1 und 2 sind symmetrische Verteilungen, wobei sich bei 1 die Merkmalswerte stärker um den Mittelwert konzentrieren.
Die Verteilungen 1 und 2 unterscheiden sich in ihrer Steilheit.
Verteilung 3 ist asymmetrisch, konkret: linksschief (rechtssteil).
0
0,1
0,2
0,3
0,4
0
0,1
0,2
0,3
0,4
0,5
Momente Schiefe und Wölbung
Die Asymmetrie wird durch das Maß der Schiefe ausgewiesen.
1 2 3
Die Steilheit der Verteilung wird durch das Maß der Wölbung ausgewiesen.
00,10,20,30,40,50,6
20Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Eine Verteilung ist symmetrisch, wenn es eine Symmetrieachse gibt, so dass linke und rechte Hälfte der Verteilung spiegelbildlich sind:
Schiefe (skewness)
00,05
0,10,15
0,20,25
0,3
Bei empirischen Verteilungen ist exakte Symmetrie selten!
11
21Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Schiefe (skewness)
00,05
0,10,15
0,20,25
Eine Verteilung ist rechtsschief bzw. linkssteil, wenn der überwiegende Teil der Daten linksseitig lokalisiert ist, d.h. kleine Merkmalsausprägungen große Häufigkeiten haben.
Eine Verteilung ist linksschief bzw. rechtssteil, wenn der überwiegende Teil der Daten rechtsseitig lokalisiert ist, d.h. große Merkmalsausprägungen große Häufigkeiten haben.
0,00
0,10
0,20
0,30
0,40
0,50
1 2 3 4 5 6 7
22Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Das absolute Schiefemaß ist wie folgt definiert:
Absolutes Schiefemaß (skewness)
Bei rechtsschiefer Verteilung ist das Maß positiv,bei symmetrischer Verteilung ist das Maß Null,bei linksschiefer Verteilung ist das Maß negativ.
( ) ( )∑=
−=N
1i
3i3 µx
N1µm
Das Schiefemaß ist das Mittel der kubierten Abweichung der Einzelwerte vom Mittel. Da durch die 3. Potenz das Vorzeichen der Abweichung erhalten bleibt, kürzen sich bei symmetrischen Verteilungen die Abweichungen weg; bei asymmetrischen Verteilungen wird jedoch ein Schiefemaß größer oder kleiner Null ausgewiesen.
12
23Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Das absolute Schiefemaß ist umso größer, je größer die Streuung der Merkmalswerte ist. Um die Schiefe verschiedener Verteilungen zu vergleichen, empfiehlt sich eine Normierung.
Analog zum Variationskoeffizienten erhält man ein relatives Maß:
Relatives Schiefemaß (skewness)
( ) ( )³σµm
µm 3*3 =
Das relative Schiefemaß ist eine dimensionslose Größe, welche die relative Abweichung von der Symmetrie indiziert.
Relatives Schiefemaß:(drittes Standardmoment)
24Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Beispiel: Für die 250 untersuchten Autos soll die Verteilung des Anschaffungspreises mit der Verteilung des Kraftstoffverbrauchesverglichen werden:
Preis [DM]
210000,0
190000,0
170000,0
150000,0
130000,0
110000,0
90000,0
70000,0
50000,0
30000,0
10000,0
60
50
40
30
20
10
0
Std.abw. = 26500,57 Mittel = 42609,9
N = 250,00
Kraftstoffverbrauch durchschnittlich [l/100km]
14,0013,50
13,0012,50
12,0011,50
11,0010,50
10,009,50
9,008,50
8,007,50
7,006,50
6,005,50
5,004,50
40
30
20
10
0
Std.abw . = 1,81 Mittel = 8,22
N = 250,00
( ) ( )³σµm
µm 3*3 =
SPSS-Diagramm
Um die unterschiedlich dimensionierten Merkmale miteinander vergleichen zu können, wird das relative Schiefemaß verwendet:
Schiefemaß (skewness) - Beispiel
13
25Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Beispiel: Für die 250 untersuchten Autos soll die Verteilung des Anschaffungspreises mit der Verteilung des Kraftstoffverbrauchesverglichen werden:
Preis [DM]
210000,0
190000,0
170000,0
150000,0
130000,0
110000,0
90000,0
70000,0
50000,0
30000,0
10000,0
60
50
40
30
20
10
0
Std.abw. = 26500,57 Mittel = 42609,9
N = 250,00
Kraftstoffverbrauch durchschnittlich [l/100km]
14,0013,50
13,0012,50
12,0011,50
11,0010,50
10,009,50
9,008,50
8,007,50
7,006,50
6,005,50
5,004,50
40
30
20
10
0
Std.abw . = 1,81 Mittel = 8,22
N = 250,00
( ) 2,935µm Preis*3 = ( ) 0,668µm Verbrauch
*3 =
Schiefemaß (skewness) - Beispiel
Der optische Eindruck – die Verteilung der Anschaffungspreise ist stärker asymmetrisch als die Verteilung des Kraftstoffverbrauches –wird durch das relative Schiefemaß bestätigt.
26Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Maßzahlen der Wölbung sollen charakterisieren, wie stark oder schwach der zentrale Bereich und die Randbereiche der Verteilung besetzt sind.
Wölbung (Exzess, Kurtosis)
0
0,1
0,2
0,3
0,4
00,10,20,30,40,50,6
Trotz gleicher Varianz weisen die beiden symmetrischen Verteilungen unterschiedliche Wölbungen auf.
Verteilungen mit gleicher Streuung können unterschiedliche Wölbungen besitzen.
14
27Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Die absolute Wölbung ist wie folgt definiert:
Absolutes Wölbungsmaß (Exzess, Kurtosis)
( ) ( )∑=
−=N
1i
4i4 µx
N1µm
Das Wölbungsmaß ist aufgrund der vierten Potenz stets positiv. Ausnahme: alle Merkmalswerte sind gleich, es existieren keine Abweichungen vom Mittelwert.
28Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Die relative Wölbung wird im Vergleich zur Standardnormalverteilung definiert, deren Wölbungsmaß 3 ergibt. Der Wert Null für das modifizierte relative Wölbungsmaß indiziert die Normalverteilung.
Relatives Wölbungsmaß (Exzess, Kurtosis)
• m*4(µ) = 0, Normalverteilung• m*4(µ) > 0, Maximum der Verteilung größer als NV• m*4(µ) < 0, Maximum der Verteilung kleiner als NV
( ) ( )3
σµmµm 4
4*4 −= !
Das modifizierte relative Wölbungsmaß kann analog zur Schiefe ein positives oder negatives Vorzeichen haben oder im Fall der Normalverteilung Null sein.
Modifiziertes relatives Wölbungsmaß:
15
29Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Wölbung - Grafische Darstellung
m*4(µ) > 0
m*4(µ) = 0
m*4(µ) < 0
Normalverteilung
30Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Das Diagramm eines Boxplots ermöglicht eine komprimierte Visualisierung einer univariaten Häufigkeitsverteilung, indem die fünf Punkte einer Verteilung zusammengefasst dargestellt werden.
Beschreibung von Häufigkeitsverteilungen mittels grafischer Verfahren
• Maximum• oberes Quartil• Median• unteres Quartil• Minimum
Merkm
alsausprägung
Aufbau des Boxplots:
16
31Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Aus der konkreten Gestalt des Boxplots lassen sich Aussagen über die empirische Verteilung ableiten.
Boxplots bei asymmetrischer Verteilung
Merkm
alsausprägung
Bei einer asymmetrischen Verteilung liegt der Median nicht mittig in der Box.
Ungleich breite Abstände zwischen Extrema und unteren bzw. oberen Quartil(„whiskers“ ) indizieren ebenfalls Asymmetrie.
Der Streubereich der Merkmalswerte wird durch die Spannweite derExtrema gekennzeichnet.
Je nachdem, wo der Median innerhalb der Box liegt, lassen sich Aussagen über die Symmetrie der Verteilung treffen.
32Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Boxplots bei symmetrischer Verteilung
Für eine exakt symmetrische Verteilung hat das Boxplot folgende Gestalt:
Bei empirischen Verteilungen ist exakte Symmetrie selten!
Der Median liegt mittig in der Box,
die Abstände zwischen Extrema und unteren bzw. oberen Quartil sind gleich.
Merkm
alsausprägung
Jegliche Abweichungen davon bedeuten Asymmetrie der empirischen Verteilung.
17
33Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Die Gruppe der Großraumlimousinen ist im Vergleich am wenigsten asymmetrisch und weist beim Merkmal Leistung den geringsten Streubereich auf.Den größten Streubereich haben Stufenhecklimousinen.Extreme Leistungen im oberen Leistungsbereich gibt es bei SH und STH.
971172016N =
Karosserieform
STHSHKGL
Leis
tung
[PS
]
400
300
200
100
0
245246247249248
250
211216215214223229235
3029
Beispiel: Für die 250 untersuchten Autos sei die Leistung der Großraumlimousinen, Kombis, Schrägheckfahrzeuge, Stufenheck-limousinen mittels der Boxplot-Darstellung vergleichend dargestellt:
Aussagen des Boxplots - Beispiel
SPSS-Diagramm
34Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
971172016N =
Karosserieform
STHSHKGL
Leis
tung
[PS
]
400
300
200
100
0
245246247249248
250
211216215214223229235
3029
SPSS kann optional bestimmte Objekte aus der Erstellung des Boxplots ausschließen.
Als Ausreißer werden Objekte behandelt, deren Merkmalswerte zwischen 1,5 und 3 Boxlängen vom oberen oder unteren Rand der Box entfernt sind. Die Boxlänge entspricht dem interquartilenBereich.
Als Extremwerte werden Objekte behandelt und gekennzeichnet ausgewiesen, deren Merkmalswerte mehr als 3 Boxlängen vom oberen oder unteren Rand der Box entfernt sind. Die Boxlänge entspricht dem Interquartilsabstand.
Boxplots - Ausreißerproblematik
18
35Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Boxplots für Haushaltsnettoeinkommen in Ost- und Westdeutschland, Quelle: Datenreport 2004 - Beispiel
36Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V
Lage- und Streuungsparameter
Alles Klar?
Sind Sie wachsam!