25
Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und R¨ ange 2.1 Merkmal und Stichprobe An (geeignet ausgew¨ ahlten) Untersuchungseinheiten (Beobachtungsein– heiten, Merkmalstr¨ ager) werden Werte eines oder mehrerer Merkmale festgestellt. Merkmal (Variable) ist die zu untersuchende Gr¨ oße einer Untersuchungseinheit. StatSoz 25

Teil I: Deskriptive Statistik - Rechenzentrum: Startseite · PDF fileTeil I: Deskriptive Statistik 2 Grundbegri e ... F ur die statistische Analyse kann es sinnvoll sein, metrische

Embed Size (px)

Citation preview

Teil I: Deskriptive Statistik

2 Grundbegriffe

2.1 Merkmal und Stichprobe

2.2 Skalenniveau von Merkmalen

2.3 Geordnete Stichproben und Range

2.1 Merkmal und Stichprobe

An (geeignet ausgewahlten)

Untersuchungseinheiten (Beobachtungsein–heiten, Merkmalstrager)

werden Werte eines oder mehrerer Merkmale

festgestellt.

Merkmal (Variable) ist die zu untersuchende

Große einer Untersuchungseinheit.

StatSoz 25

Merkmalsauspragungen sind die moglichen

Werte, die von einem Merkmal angenommen

werden konnen.

Tabelle 2–1 Merkmale und ihre Auspragungen

Einheit Merkmal AuspragungPerson Geschlecht weiblich, mannlich

Berufsstatus Arbeiter, Beamter,...Alter in Jahren 1, 2, 3, . . .Lebensraum landl. Region, Stadt

Haushalt Anzahl der Personen 1, 2, 3 . . .Realeinkommen Betrage in e

Grundgesamtheit (Kollektiv, Population):

Menge aller potentiellen Untersuchungseinheiten

fur eine bestimmte Fragestellung.

Vollerhebung: Alle Merkmalstrager einer

Grundgesamtheit werden in die Untersuchung

einbezogen.

StatSoz 26

Stichprobe: Endliche Teilmenge einer Grund-

gesamtheit. Hat diese Menge n Elemente, so

spricht man von einer Stichprobe vom Umfang

n (sample of size n).

Daten, Beobachtungen: konkrete Werte der

Merkmalsauspragungen einer Stichprobe.

Beispiel:

Grundgesamtheit: Haushalte einer Stadt

Merkmal: Anzahl der Haushaltsmitglieder

Stichprobe vom Umfang 5: H1, H2, H3, H4, H5

Daten: 4, 5, 6, 6, 4

Bemerkung: Die Begriffe Stichprobe und Daten

werden auch haufig synonym verwendet (so auch

im Folgenden).

Es gibt verschiedene Merkmalstypen:

StatSoz 27

• Ein qualitatives (artmaßig erfassbares)

Merkmal hat nur endlich viele Auspragun-

gen, die Namen oder Kategorien sind. Quali-

tative Merkmale werden auch als kategorialeMerkmale bezeichnet. Beispiele:

– Familienstand: ledig - verheiratet - eheahn-

liche Partnerschaft - geschieden - verwitwet

– Schulabschluss: kein Schulabschluss -

Hauptschulabschluss - mittlere Reife - Fach-

hochschulreife - Abitur

• Ein quantitatives (in naturlicher Weise zah-

lenmaßig erfassbares) Merkmal liegt vor,

wenn seine Auspragungen eine Große wieder-

geben. Beispiele:

– Einwohnerzahl

– Intelligenzquotient

– Zeitmessung

StatSoz 28

Eine andere Unterscheidung ist in diskrete und

stetige Merkmale.

• Diskretes Merkmal (discrete variable): Ein

solches Merkmal kann nur endlich viele oder

hochstens abzahlbar unendlich viele Aus-

pragungen annehmen (haufig ganzzahlig, also

0, 1, 2, ...). Qualitative Merkmale sind immer

diskret. Quantitative Merkmale sind dann dis-

kret, wenn ihre Merkmalsauspragungen durch

einen Zahlvorgang ermittelt werden (soge-

nannte Zahldaten).

Beispiele fur Zahldaten:

– Anzahl der Einwohner

– Anzahl der Mitglieder eines Haushaltes

– Anzahl der Pendler einer Region

– Anzahl der Geburten eines Jahres in einem

Land

StatSoz 29

• Stetiges Merkmal (continuous variable): Die

Auspragungen konnen (wenigstens dem Prin-

zip nach) beliebige Werte aus einem Intervall

annehmen, alle Werte aus einem Intervall sind

also denkbar. Die Auspragungen werden in der

Regel durch einen Messvorgang ermittelt, so-

genannte Messdaten.

Beispiele:

– Langenmessung

– Zeitmessung

Zusammenfassung:

Merkmal diskret stetigqualitativ ja neinquantitativ ja ja

(Zahldaten) (Messdaten)

StatSoz 30

Bemerkung: Stetige Merkmale konnen nur dis-

kret beobachtet werden (Messgenauigkeit), An-

gaben z. B. auf zwei Dezimalstellen hinter

dem Komma genau (Rundungen). In der Pra-

xis ist die Unterscheidung diskret/stetig vielfach

willkurlich.

2.2 Skalenniveau von Merkmalen

Fur statistische Analysen ist die Einteilung in

qualitative und quantitative Merkmale zu grob.

Von entscheidender Bedeutung fur die

– Interpretation von Daten und

– Eignung statistischer Verfahren

ist es, wie bzw. nach welchen Kriterien die Merk-

malsauspragungen gemessen und geordnet wer-

den konnen.

StatSoz 31

Grundsatzlich erfolgt die Messung der Merk-malswerte mit Hilfe einer Skala (Messvor-schrift).

Skala: Anordnung von Zahlen, denen die Merk-

malsauspragungen eindeutig zugordnet werden.

Skalenwerte: Zahlenwerte, die auf einer Skala

Berucksichtigung finden. Man spricht in diesem

Zusammenhang auch von Skalierung.

Das Skalenniveau gibt an

1. welche Vergleichsaussagen und welche rech-nerischen Operationen fur die Skalenwerte

sinnvoll und somit zulassig sind

2. welche Transformationen von Skalenwer-ten die Messung erhalten (sogenannte zulassi-

ge Transformationen).

StatSoz 32

Die verschiedenen Skalenniveaus (Ubersicht):

Qualitative Merkmale

Nominalskala Ordinalskala

Quantitative Merkmale

Metrische Skala

Intervallskala Verhaltnisskala

StatSoz 33

Nominalskala (Skala mit dem niedrigsten Niveau)

Charakteristika:

– keine naturliche Rangordnung der Skalenwerte

– Zuordnung von Zahlen ist lediglich eine Ko-

dierung der Merkmalsauspragungen

– Anordnung hat keine inhaltliche Bedeutung

Vergleichsaussagen: gleich (=), ungleich (6=)

Rechnerische Operationen: Haufigkeiten

Zulassige Transformationen: bijektive (einein-

deutige) Abbildungen (siehe Aufgabe 3, Blatt

1)

StatSoz 34

Tabelle 2–2 Nominale Merkmale und Kodierungen

Merkmal Merkmalsauspragungen KodierungFamilienstand ledig 1

verheiratet 2geschieden 3verwitwet 4eheahnliche Partnerschaft 5

Erwerbsstatus Selbststandige 1Beamte 2Angestellte 3Arbeiter 4Rentner 5Arbeitslose 6Sozialhilfeempfanger 7

Geschlecht mannlich 0weiblich 1

Spezialfall nominalskalierter Merkmale sind

binare Merkmale (dichotome Merkmale):

Merkmale mit nur zwei Auspragungen (haufig

0/1–kodiert).

StatSoz 35

Ordinalskala (Rangskala)

Charakteristika:

Die Merkmalsauspragungen sind Kategorien, bei

denen eine naturliche Rangordnung aufgrund

ihrer Große bzw. Intensitat gegeben ist.

Vergleichsaussagen: gleich (=), ungleich (6=)

sowie kleiner (<), großer (>)

Rechnerische Operationen: Haufigkeiten,

Range

Zulassige Transformationen: streng monotone

(ordnungserhaltende) Abbildungen (siehe Aufga-

be 3, Blatt 1)

StatSoz 36

Tabelle 2–3 Beispiele fur ordinalskalierte Merkmale

Merkmal Merkmalsauspragungen Skalapolitisches sehr stark 1Interesse stark 2

mittel 3wenig 4uberhaupt nicht 5

Meinung Ablehnung −1 (1)neutral 0 (2)Zustimmung 1 (3)

Beachte: Bei nominal– und ordinalskalierten

Merkmalen haben Abstande (Differenzen) und

Verhaltnisse (Quotienten) von Skalenwerten

keine inhaltliche Bedeutung, sind also nicht

vergleichbar.

StatSoz 37

Bei quantitativen Merkmalen verwendet man ei-

ne metrische Skala. Hier liegt Messbarkeit im

engeren Sinne vor, wobei Skalenwerte im All-

gemeinen eine Dimension haben (Minute, km,

km2, e, usw.).

Charakteristika:

– Abstande zwischen Skalenwerten sind inter-

pretierbar

– naturliche Rangordnung durch die Große der

Merkmalswerte

Bei der metrischen Skala wird zwischen Intervall–

und Verhaltnisskala unterschieden.

StatSoz 38

Intervallskala (Differenzenskala)

Charakteristika:

Bezugspunkt dieser Skala (Nullpunkt, Durch-

schnittswert) ist willkurlich festgelegt. Konse-

quenz: Vergleich von Differenzen ist sinnvoll,

nicht aber von Quotienten.

Vergleichsaussagen: gleich (=), ungleich (6=)

sowie kleiner (<), großer (>)

Rechnerische Operationen: Haufigkeiten,

Range, Subtraktionen

Zulassige Transformationen: lineare Abbildun-

gen (siehe Aufgabe 3, Blatt 1)

Beispiele intervallskalierter Merkmale:

– Intelligenzquotient (Wechsler–Skala)

– Jahreszahlen

StatSoz 39

Verhaltnisskala (Ratioskala)

Charakteristika:

Naturlicher (absoluter) Nullpunkt ist gegeben,

Vergleich von Verhaltnissen (Quotienten) ist

daher sinnvoll. Gleiche Quotienten drucken einen

gleich großen Unterschied aus.

Vergleichsaussagen: gleich (=), ungleich (6=)

sowie kleiner (<), großer (>)

Rechnerische Operationen: Haufigkeiten,

Range, Subtraktionen, Divisionen

Zulassige Transformationen: lineare homoge-

ne Abbildungen (siehe Aufgabe 3, Blatt 1)

Beispiele verhaltnisskalierter Merkmale:

– Alter in Jahren

– Einkommen in e– Entfernung in km

StatSoz 40

Die verschiedenen Skalenniveaus stellen eine

Hierachie dar:

Tabelle 2–4 Sinnvoll interpretierbare Berechnungen

Skala zahlen ordnen subtrahieren dividierenNominal ja nein nein neinOrdinal ja ja nein neinIntervall ja ja ja nein

Verhaltnis ja ja ja ja

Bemerkung: Statistische Methoden, die fur ein

niedriges Skalenniveau geeignet sind, konnen

auch fur ein hoheres Skalenniveau verwendet

werden (zahlen und ordnen ist stets fur metri-

sche Merkmale durchfuhrbar). Die Umkehrunggilt nicht! Fur metrische Merkmale kann et-

wa der Durchschnittswert (arithmetisches Mit-

tel) berechnet werden, was fur ordinal– und no-

minalskalierte Merkmale im Allgemeinen vollig

sinnlos ist.

StatSoz 41

Skalentransformationen

Fur die statistische Analyse kann es sinnvoll sein,

metrische Daten so zu transformieren, dass ih-

re Auspragungen ordinalskaliert sind, auch wenn

solche Transformationen immer mit einem ge-

wissen Informationsverlust verbunden sind (denn

aus der Kenntnis der transformierten Werte

konnen die ursprunglichen Werte nicht mehr

zuruckgewonnen werden).

Die wichtigsten Transformationen sind der Uber-

gang zu

– Kategorien, Klassen (Klassenbildung ,,von

... bis”, ,,Klassierung der Daten”)

– Rangen (Daten werden der Große nach ge-

ordnet, der kleinste Wert erhalt Rang 1, der

zweitkleinste Wert Rang 2, usw.)

StatSoz 42

Beispiel: (i) Klassierung von Daten

Tabelle 2–5 Einkommensklassen (monatl. Einkommen)

von bis unter Skala1 2400 1

2400 4800 24800 7200 37200 9600 49600 12000 5

12000 16000 616000 20000 720000 25000 825000 36000 936000 50000 1050000 75000 1175000 100000 12

100000 und mehr 13

StatSoz 43

(ii) Rangbildung

Es wurden 12 Haushalte nach ihrem verfugbaren

Einkommen (in e) befragt:

Tabelle 2–6 Einkommens–Daten

Haushalt Nr. Einkommen1 12402 17003 20404 19905 12406 13507 10608 9209 1620

10 148011 112012 1780

StatSoz 44

Tabelle 2–7 Range der Einkommens–Daten

Einkommen Ranggeordnet

920 11060 21120 31240 4.51240 4.51350 61480 71620 81700 91780 101990 112040 12

Durchschnittsrang

Der Beobachtungswert 1240 kommt zweimal

vor. Es sind die Range 4 und 5 zu vergeben.

Man bildet den Durchschnittsrang:

Rang(1240) =4 + 5

2= 4.5

StatSoz 45

2.3 Geordnete Stichproben und Range

Gegeben seien Daten

x1, x2, . . . , xn

Bezeichne

x(1) die kleinste der n Zahlen x1, . . . , xn

x(2) die zweitkleinste der n Zahlen x1, . . . , xn

...

x(n) die großte der n Zahlen x1, . . . , xn

x(k) heißt k–te Ordnungsgroße. Per Definition

gilt stets

x(1) ≤ x(2) ≤ . . . ≤ x(n)

x(1), . . . , x(n) heißt geordnete Stichprobe.

StatSoz 46

Tabelle 2–8 Einkommens–Daten, geordnet

i xi x(i)

1 1240 9202 1700 10603 2040 11204 1990 12405 1240 12406 1350 13507 1060 14808 920 16209 1620 1700

10 1480 178011 1120 199012 1780 2040

Der Rang einer Zahl xi innerhalb einer Stich-

probe gibt an, die wie–vielt–kleinste Zahl sie ist.

Um den Rang einer Beobachtung zu bestimmen

ist es sinnvoll, die Daten der Große nach zu

ordnen.

Formaler versteht man unter einem Rang folgen-

des:

StatSoz 47

1. Fall: Der Beobachtungswert xi kommt in der

Stichprobe nur einmal vor. Dann ist der Rangvon xi gleich 1 plus Anzahl der Beobachtungen

die kleiner als xi sind:

Rang(xi) = 1 + Anzahl der xj mit xj < xi

2. Fall: Der Beobachtungswert xi kommt in der

Stichprobe k–mal vor, k ≥ 2 (man spricht von

einer Bindung der Lange k). Dann hat man fur

diese k gleichen Beobachtungswerte die Range

ri, ri + 1, . . . , ri + (k − 1)

zu vergeben, wobei

ri = 1 + Anzahl der xj mit xj < xi

Kame der Beobachtungswert xi nur einmal vor,

so ware die Zahl ri der Rang von xi.

StatSoz 48

Diese k gleichen Beobachtungswerte bekommen

alle den gleichen Rang, den Durchschnittsrang.

Dieser ist definiert als das arithmetische Mittel

der zu vergebenden Range:

Rang(xi)

=ri + (ri + 1) + . . .+ [ri + (k − 1)]

k(2.1)

Formel (2.1) lasst sich vereinfachen (Aufgabe 5,

Blatt 1).

Beachte: Die Rang–Transformation

xi→ Rang(xi)

einer Beobachtung xi ist immer nur in Bezug auf

die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe

6, Blatt 1)

StatSoz 49