8
Modul G.1 WS 07/08: Statistik 8.11.2006 1 Deskriptive Statistik Definition Unter deskriptiver Statistik versteht man eine Gruppe statistischer Methoden zur Beschreibung von Daten anhand statistischer Kennwerte, Graphiken, Diagramme und/oder Tabellen. Ziel Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten, so dass Aussagen über genau jene Objekte gemacht werden, welche tatsächlich untersucht wurden. Beispiel Wenn an einem Tag das Alter aller Patienten in einem Krankenhaus erhoben wurde, können mit Hilfe einer deskriptiven Statistik Aussagen über das Alter der Patienten an genau diesem Tag in genau diesem Krankenhaus gemacht werden. Klingt trivial wir alle haben uns an diese Art der Beschreibung der messbaren Wirklichkeit gewöhnt. (Arbeitslosenzahlen, Verkehrstote etc.) Schließende Statistik (Inferenzstatistik) schließt aus den Daten einer Stichprobe auf Werte in der Population. Z.B. Einschätzung der Altersstruktur in anderen Krankenhäusern. So eine Schätzung ist immer nur mit einer gewissen Fehlerwahrscheinlichkeit möglich. Wie kommen wir zu unseren Daten? Wir messen. Danach können wir analysieren und interpretieren, d.h. Schlüsse über die reale Welt ziehen. Um mit Hilfe von statistischen Methoden analysieren und interpretieren zu können müssen wir unsere Messungen in Merkmalsausprägungen und Variablen umwandeln. z.B. männlich = 1 und weiblich =0. Was sind Merkmale und Variablen? Definition Ein Merkmal ist eine Eigenschaft, die zu einem Objekt oder einer Person gehört und eine bestimmte Anzahl von Merkmalsausprägungen hat. Es wird versucht diese Merkmale durch Messungen in Zahlen zu überführen. Merkmale, die in Zahlen überführt wurden, werden als Variablen bezeichnet. Es wird zwischen qualitativen und quantitativen Merkmalen unterschieden: Qualitative Merkmale Mit qualitativen Merkmalen wird die Zugehörigkeit zu einer Kategorie beschrieben. z.B. Geschlecht entweder/oder Quantitative Merkmale: Quantitative Merkmale beschreiben die Ausprägung eines Objekts oder einer Person in diesem Merkmal. Dies geschieht auf einem Kontinuum von Werten. Z.B. Körpergröße. Jede Person hat zum Messzeitpunkt einen bestimmten Wert. Hinweis: Skalen. Qualitative Merkmale > Nominalskala. Quantitative Merkmale: höhere Skalen. (Ordinal, Intervall und Verhältnis) Definition Eine Variable ist ein in Zahlen überführtes Merkmal. Diese Überführung wird auch Operationalisierung genannt.

Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

  • Upload
    dodieu

  • View
    226

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

Modul G.1 WS 07/08: Statistik 8.11.2006 1 Deskriptive Statistik Definition Unter deskriptiver Statistik versteht man eine Gruppe statistischer Methoden zur Beschreibung von Daten anhand statistischer Kennwerte, Graphiken, Diagramme und/oder Tabellen. Ziel Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten, so dass Aussagen über genau jene Objekte gemacht werden, welche tatsächlich untersucht wurden. Beispiel Wenn an einem Tag das Alter aller Patienten in einem Krankenhaus erhoben wurde, können mit Hilfe einer deskriptiven Statistik Aussagen über das Alter der Patienten an genau diesem Tag in genau diesem Krankenhaus gemacht werden. Klingt trivial – wir alle haben uns an diese Art der Beschreibung der messbaren Wirklichkeit gewöhnt. (Arbeitslosenzahlen, Verkehrstote etc.) Schließende Statistik (Inferenzstatistik) schließt aus den Daten einer Stichprobe auf Werte in der Population. Z.B. Einschätzung der Altersstruktur in anderen Krankenhäusern. So eine Schätzung ist immer nur mit einer gewissen Fehlerwahrscheinlichkeit möglich. Wie kommen wir zu unseren Daten? Wir messen. Danach können wir analysieren und interpretieren, d.h. Schlüsse über die reale Welt ziehen. Um mit Hilfe von statistischen Methoden analysieren und interpretieren zu können müssen wir unsere Messungen in Merkmalsausprägungen und Variablen umwandeln. z.B. männlich = 1 und weiblich =0. Was sind Merkmale und Variablen? Definition Ein Merkmal ist eine Eigenschaft, die zu einem Objekt oder einer Person gehört und eine bestimmte Anzahl von Merkmalsausprägungen hat. Es wird versucht diese Merkmale durch Messungen in Zahlen zu überführen. Merkmale, die in Zahlen überführt wurden, werden als Variablen bezeichnet. Es wird zwischen qualitativen und quantitativen Merkmalen unterschieden: Qualitative Merkmale Mit qualitativen Merkmalen wird die Zugehörigkeit zu einer Kategorie beschrieben. z.B. Geschlecht – entweder/oder Quantitative Merkmale: Quantitative Merkmale beschreiben die Ausprägung eines Objekts oder einer Person in diesem Merkmal. Dies geschieht auf einem Kontinuum von Werten. Z.B. Körpergröße. Jede Person hat zum Messzeitpunkt einen bestimmten Wert. Hinweis: Skalen. Qualitative Merkmale > Nominalskala. Quantitative Merkmale: höhere Skalen. (Ordinal, Intervall und Verhältnis) Definition Eine Variable ist ein in Zahlen überführtes Merkmal. Diese Überführung wird auch Operationalisierung genannt.

Page 2: Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

Modul G.1 WS 07/08: Statistik 8.11.2006 2 Es gibt zwei Arten von Variablen, die sich parallel zu qualitativen und quantitativen Merkmalen verhalten: Diskrete Variablen Merkmale bei denen nur endlich viele, bzw. abzählbar unendlich viele Ausprägungen möglich sind werden in diskrete Variablen überführt. Es gibt keine Zwischenstufen zwischen zwei Kategorien. Beispiele: Parteizugehörigkeit, Berufe, Pflanzenarten Kontinuierliche Variablen Kontinuierliche Variablen können (zumindest) theoretisch auf einem beliebig genauen Kontinuum beschrieben werden. Beispiel: Körpergröße, Reaktionszeiten, Lautdauern Wie kommen wir zu unseren Variablen? Durch Messen. Messen ist also eine Zuordnung von Objekten zu Zahlen. Die Relationen zwischen den gemessenen Zahlen reflektieren dann die analogen Relationen zwischen den Objekten.

Maße der zentralen Tendenz und der Dispersion

Maße der zentralen Tendenz und der Dispersion stellen Beschreibungen der Verteilung der Messwerte einer Variablen dar. Z.B die Mitte einer Menge von Werten oder die Streuung von Werten. D.h. letzlich wird die Verteilungsform dargestellt.

Maße der zentralen Tendenz

Modalwert oder Modus (engl. mode)

Definition

Der Modalwert ist derjenige Wert einer Verteilung, welcher am häufigsten besetzt

ist.

Eigenschaften

stabil gegenüber Extremwerten (erklären > Ausreißer)

kann für alle Skalenniveaus verwendet werden

Maximum einer Verteilung

unimodale vs. bimodale vs. multimodale Verteilungen

wird oft bei nominalskalierten Daten und bei Daten mit asymmetrischer Verteilung

verwendet

Bsp. gehörte Kategorie

Page 3: Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

Modul G.1 WS 07/08: Statistik 8.11.2006 3

Median

Definition

Der Median ist derjenige Wert, der die geordnete Reihe der Messwerte in die oberen

und unteren 50 Prozent aufteilt. Somit ist die Anzahl der Messwerte über und unter

dem Median gleich.

Beispiel

Bei 17 Personen belegt die neunte (17+1/2) den Median. Bei 16 Personen wird der Median

über den Mittelwert zwischen der achten und der neunten Person der Rangreihe berechnet.

Eigenschaften

Anzahl der Messwerte über und unter dem Median ist gleich (entspricht einem

Prozentrang von 50)

mindestens Ordinalskalenniveau

stabil gegenüber Extremwerten

Arithmetisches Mittel (mean, arithmetic average)

Definition

Das arithmetische Mittel ist die Summe aller Messwerte, geteilt durch deren Anzahl

N. Beim artihmetischen Mittel handelt es sich um den Durchschnitt aller Messwerte.

Page 4: Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

Modul G.1 WS 07/08: Statistik 8.11.2006 4

Das Rechnen mit dem Summenzeichen ∑ (Sigma).

Das Summenzeichen ∑ ermöglicht eine kürzere Schreibweise für additive Verknüpfungen.

Die sog. Zählervariable i gibt den „Startwert“ einer Addition an, er ist hier 1. N ist die obere

Grenze der Summe, sozusagen der „Endwert“. Hinter dem Summenzeichen wird der zu

addierende Term angegeben. D.h. obige Formel würde in Langschreibweise folgendermaßen

aussehen:

x1 + x2 + x3 + …..+ xn

𝑥 = N

Eigenschaften

Summe der Zentralen Momente ergibt Null.

Zentrales Moment= (xi – 𝑥 ) Formel: 𝑥i− 𝑥 = 0𝑁

𝑖=1

Bei kleinen Stichproben sehr abhängig von Extremwerten

Die Daten müssen mindestens intervallskaliert sein.

Gewichtete arithmetische Mittel

Gewichtete artihmetische Mittel werden sinnvoll, wenn ein Gesamtmittelwert aus

verschiedenen Stichproben unterschiedlicher Größe gebildet werden soll.

Definition: Beim Gewichteten arithmetischen Mittel (GAM) werden die einzelnen

Gruppenmittelwerte an der jeweiligen Gruppengröße gewichtet.

Vergleich Modus, Median und Mittelwert

Page 5: Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

Modul G.1 WS 07/08: Statistik 8.11.2006 5

Maße der Dispersion

Mittelwerte sind Maße der Mitte von Verteilungen. Nun soll die Variabilität oder auch Streuung von Verteilungen definiert werden.

Variationsbreite (range)

Definition

Der Range, die Spannweite, beschreibt bei kontinuierlichen Daten Differenz

zwischen Maximum und Minimum; bei nominalskalierten Daten die Anzahl der

Kategorien

Vorteile

sehr einfach zu berechnen

kann für alle Skalenniveaus verwendet werden

Nachteile

sehr abhängig von nur 2 Werten

keine Aussage über die dazwischen liegenden Werte

kann nicht für theoretische Verteilungen verwendet werden, da z.B. die Normalverteilung

für einen Bereich von definiert ist.

Quartile, Interquartilabstand (interquartile range)

Definition

Als Quartile werden jene Punkte Q1, Q2 und Q3 bezeichnet, welche eine Verteilung in

vier gleich große Abschnitte aufteilen. Das mittlere Quartil Q2 entspricht dem

Median, das untere Quartil Q1 einem Prozentrang von 25 und das obere Quartil Q3

von 75. Die Differenz von Q3 und Q1 wird als Interquartilabstand (IQA) bezeichnet.

Page 6: Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

Modul G.1 WS 07/08: Statistik 8.11.2006 6 Vorteile

Kann auch auf ordinalskalierte Daten angewendet werden.

Der Interquartilabstand bezieht sich nur auf die mittleren 50 % der Daten, weshalb

Ausreißer keine Rolle spielen.

Nachteil

Die Werte außerhalb werden nicht berücksichtigt.

Varianz (variance)

Quadrieren, da einfache Summe null ergeben würde unterschiedliche Stichproben

können verglichen werden

Mittelwert aller Abweichungsquadrate

Unterschied Population (griechische Buchstaben) und Stichprobe (lateinische Buchstaben)

(Wir können oft nicht die gesamte Population untersuchen (z.B. alle Sprecher des

Deutschen), so müssen wir von einer Stichprobe ausgehen und übertragen die Ergebnisse

auf die Gesamtpopulation. > Wir machen Vorhersagen.

Definition Freiheitsgrade (degrees of freedom): beschreibt die Anzahl der frei wählbaren Werte. Durch die Berechnung eines Kennwerts aus N Messwerten wird ein Messwert „unfrei“. Beispiel Wenn vier Freunde um Geld gespielt haben: Der erste sagt er habe 20 Euro gewonnen, Der zweite sagt: 20 Euro verloren, der dritte: 10 Euro gewonnen, dann MUSS der vierte 10 Euro verloren haben. Der Messwert wird „unfrei“.

Also:

df=N-1

Im Prinzip führt das Rechnen mit N-1 zu einer größeren Varianz (vorsichtige oder auch konservative Schätzung). Die Varianz mit N-1 wird natürlich bei zunehmender Stichprobengröße N immer ähnlicher.

Histogram of formants$f1

formants$f1

Fre

qu

en

cy

300 350 400 450

05

10

15

20

25

Q1 Median Q3

Page 7: Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

Modul G.1 WS 07/08: Statistik 8.11.2006 7 Standardabweichung(standard deviation)

Durch das Quadrieren der Werte bei der Berechnung der Varianz ensteht ein schwierig zu interpretierender Kennwert. Deshalb wird die Wurzel aus der Varianz gezogen und so die Standardabweichung (Streuung des Mittelwerts) berechnet. Die Standardabweichnung hat so auch wieder die gleiche physikalische Einheit wie das arithmetische Mittel.

Da die Abweichungen für die Varianz quadriert wurden, muss die Wurzel gezogen werden,

um wieder die gleiche physikalische Einheit der Messwerte zu erhalten.

Variabilitätskoeffizient

Die Standardabweichung hängt von der Größe des Mittelswert ab, d.h. je größer der

Mittelwert umso größer auch die Standardabweichung. Um feststellen zu können, ob zwei

Stichproben mit sehr unterschiedlichen Mittelwerten unterschiedlich stark streuen, wird der

Variabilitätskoeffizient berechnet.

Definition

Der Variabilitätskoeffizient gibt an, wie viel Prozent des arithmetischen Mittels die

Standardabweichung beträgt.

𝑠𝑥

𝑥 ∗ 100

Beispiel Zwei Psychologen testen soziale Kompetenz mit unterschiedlichen Fragebögen an der selben

Gruppe. Beide Fragebögen ergeben einen verhältnisskalierten Messwert. Die Befragungen

ergeben unterschiedliche Mittelwerte und Standardabweichungen. Der Variabilitätskoeffizient

kann klären, welche Erhebung eine größere Streuung hat.

Page 8: Deskriptive Statistik - ipds.uni-kiel.de · Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer bestimmten Stichprobe zum Erhebungszeitpunkt der Daten,

Modul G.1 WS 07/08: Statistik 8.11.2006 8

Ein Überblick zu den Maßen

Die folgende Tabelle gibt einen Überblick zu den vorausgesetzten Skalenniveaus bei den

verschiedenen Lage- und Streuungsmaßen

Maß Nominal Ordinal Intervall Verhältnis

Häufigkeit + + + +

Modalwert + + + +

Range + + + +

Quartile - + + +

Median - + + +

Arithmetisches Mittel - - + +

Varianz - - + +

Standardabweichung - - + +

Variabilitätskoeffizient - - - +