24

Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

Embed Size (px)

Citation preview

Page 1: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Eine Einführung in R:

Deskriptive Statistiken und Graphiken

Bernd Klaus, Verena Zuber

Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE),Universität Leipzig

28. Oktober 2010

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 1/24

Page 2: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

I. Diskrete DatenHäu�gkeitstabellenDarstellung

II. Stetige DatenMaÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

III. Graphiken in R

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 2/24

Page 3: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Häu�gkeitstabellenDarstellung

I. Diskrete Daten: Deskriptive Statistiken und Graphiken

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 3/24

Page 4: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Häu�gkeitstabellenDarstellung

Was sind diskrete Variablen?

Diskrete Variablen nehmen nur eine endliche Anzahl an Werten an:

I Kategorial: Es besteht keine Rangordnung der Kategorien

I Ordinal: Kategorien können geordnet werden

Kategoriale oder ordinale Variablen sollten in R als Faktorende�niert sein.

Mit einer Häu�gkeitstabelle kann man ein kategoriales Objektzusammenfassen:

I table(object): Absolute Häu�gkeiten

I prop.table(table(object)): Relative Häu�gkeiten

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 4/24

Page 5: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Häu�gkeitstabellenDarstellung

Betrachten wir einen Faktor mit 4 Ausprägungen:DNA <- rep(c(�A�, �C�, �G�, �T�), 10)

1 �A�2 �C�3 �G�3 �T�...

...

I table(DNA) ergibt:

A C G T

10 10 10 10

I prop.table(table(DNA)) ergibt:

A C G T

0.25 0.25 0.25 0.25

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 5/24

Page 6: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Häu�gkeitstabellenDarstellung

Kuchendiagramm und Balkendiagramm

AC

G T

Kuchendiagramm

A C G T

Balkendiagramm

02

46

81

0

Zu erzeugen mit:pie(table(DNA)) barplot(table(DNA))

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 6/24

Page 7: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

II. Stetige Daten: Deskriptive Statistiken und Graphiken

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 7/24

Page 8: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Was sind stetige Variablen?

Stetige Variablen können (in der Theorie) eine unendliche Anzahlan Werten annehmen. Beispiele:

I Gewicht

I Gröÿe

I Gehalt

R speichert stetige Variablen alsmetrische Objekte (numeric) ab.

Häu�gkeitstabelle sind für stetige Variablen meist nicht geeignet.Wichtiger sind:

I Maÿe für die Lage

I Maÿe für die Streuung

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 8/24

Page 9: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Maÿe für die Lage

Die Lage (location) gibt an, in welcher Gröÿenordnung sichDaten bewegen.

I (Empirische) Mittelwert

x =1

n

n∑i=1

xi =1

n(x1 + . . . + xn) .

I In R: mean()

I Modus: Der Wert, der am häu�gsten in den Daten vorkommt

I In R: which.max()

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 9/24

Page 10: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Maÿe für die Lage II

I x%-Quantile, trennen die Daten in zwei Teile.So liegen x% der Daten unter dem x%-Quantileund 100− x% darüber.

I Median x0.5 entspricht dem 50%-QuantilI In R: median()I 25%-Quantil x0.25 (das erste Quartil)I 75%-Quantil x0.75 (das dritte Quartil)

I Der Median ist robuster gegen Ausreiÿer als derErwartungswert

I Oder gleich in R: summary()

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 10/24

Page 11: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Maÿe für die Streuung

Die Streuung (scale) gibt an, wie stark die verschiedenenWerte voneinander abweichen.

I Die (empirische) Varianz

s2 =1

n − 1

n∑i=1

(xi − x)2 =1

n

((x1 − x)2 + . . . + (xn − x)2

).

I Spannbreite:Di�erenz vom gröÿten zum kleinsten Wert

I Interquartilsabstand:

IQR = x0.75 − x0.25

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 11/24

Page 12: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Beispiel: oecd -Daten

Betrachten wir das durchnittliche, frei verfügbare Einkommen einerFamilie [ pro Kind, in tausend US-Dollar ].

I Einen Überblick erhält man durch:

summary(Einkommen)

Min. 1st Qu. Median Mean 3rd Qu. Max.

5.10 16.60 21.10 19.18 22.65 34.20

I Die Varianz bzw. Standardabweichung

var(Einkommen)

[1] 50.75937

sd(Einkommen) (alternativ sqrt(var(Einkommen)) )[1] 7.124561

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 12/24

Page 13: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Beispiel: oecd -Daten II

I Den Interquartilsabstand erhält man durch:

IQR(Einkommen)

[1] 6.05

I Die Spannweite mit

max(Einkommen)-min(Einkommen)

[1] 29.1

Bei der Variable Alkohol (Prozentsatz der 13-15 jährigen Kinder,die mindestens zweimal betrunken waren) bestehen fehlende Werte.

I Mittelwertsberechnung über

mean(Alkohol,na.rm=TRUE)

[1] 15.225

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 13/24

Page 14: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Was ist ein Boxplot?

Der Boxplot ist eine Graphik zur Darstellung stetiger Variablen.Er enthält

I Minimum und Maximum

I 25%-Quantil und 75%-Quantil

I Median

I In R: boxplot(variable)

I Um Variablen getrennt nach Faktorstufen zu untersuchen,bietet sich an: boxplot(variable ∼ factor)

I Einschub: Ein Label für den Faktor Geofactor(Geo,levels=c(�R�,�E�),

labels=c(�Nicht-Europa�,�Europa�))

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 14/24

Page 15: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Boxplot: Alkohol1

01

52

02

5

Boxplot

Nicht−Europa Europa

10

15

20

25

Boxplot für Europa und Nicht−Europa

Zu erzeugen mit:boxplot(Alkohol) boxplot(Alkohol∼ Geo)

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 15/24

Page 16: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Stripchart: AlkoholEine Alternative zum Boxplot bei wenigen Beobachtungen ist derStripchart:

10 15 20 25Nic

ht−E

urop

aE

urop

a

Alkohol

Zu erzeugen mit:stripchart(Alkohol∼Geo)

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 16/24

Page 17: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Was ist ein Histogramm?

I Zur Erstellung eines Histogramms teilt man die Daten inhomogene Teilintervalle ein und plottet dann die absoluteHäu�gkeit pro Teilintervall

I Dieses Verfahren gibt einen ersten Überblick über dieVerteilung der Daten( => Ermitteln der �empirischen Dichte� möglich )

hist(x, breaks = �AnzahlBins�, freq = NULL )

I x: DatenI breaks = �AnzahlBins�: Steuerung der TeilintervalleI freq=TRUE: absolute Häu�gkeitenI freq=FALSE: relative Häu�gkeiten (�empirische Dichte�)

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 17/24

Page 18: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Maÿe für die LageMaÿe für die StreuungBoxplotStripchartsHistogramm

Histogramm: Einkommen

Histogramme des Einkommens mit verschiedenen Binstärken

Histogram of Einkommen

Einkommen

Fre

qu

en

cy

5 10 15 20 25 30 35

02

46

81

01

2

Histogram of Einkommen

Einkommen

Fre

qu

en

cy

5 10 15 20 25 30 35

01

23

45

6

Zu erzeugen mit:hist(Einkommen) hist(Einkommen, breaks=15)

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 18/24

Page 19: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

III. Graphiken in R: Grundaufbau und Parameter

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 19/24

Page 20: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Graphiken in R

R kennt einen Standardbefehl für einfache Graphiken (plot()),aber auch viele spezielle Befehle, wie hist() oder pie().

plot(x, y, type, main, par (...) )

I x: Daten der x-Achse

I y: Daten der y -Achse

I type=�l�: Darstellung durch eine Linie

I type=�p�: Darstellung durch Punkte

I main: Überschrift der Graphik

I par (...): Zusätzlich können sehr vieleParametereinstellungen geändert werden

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 20/24

Page 21: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Parameter für Graphiken in R

par(cex, col, lty, mfrow, pch, x/yaxs)

I cex: Skalierung von Graphikelementen

I col: Farbe (colors() zeigt die vorde�nierten Farben an)

I lty: Linienart

I mfrow: Anordnen von mehreren Graphiken nebeneinander

I pch: Andere Punkte oder Symbole

I x/yaxs: Stil der x- bzw. y -Achse

Einen Überblick über die Parameter erhält man mit ?par.par() kann entweder im plot() -Befehl gesetzt werden oder alseigene Funktion vor einem oder mehreren plot()-Befehlen.

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 21/24

Page 22: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Aufbau von Graphiken in R

1. plot(): Bildet den Grundstein einer Graphik

2. Zusätzlich können weitere Elemente eingefügt werden wie:I lines(): LinienI points(): PunkteI legend(): LegendeI text(): Text

3. dev.off(): schlieÿt die Graphik

Einen Überblick erhält man mit der betre�enden Hilfefunktion,z.B. ?legend.

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 22/24

Page 23: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

Abspeichern von Graphiken

Folgende Graphikformate können in R erzeugt werden:

I pdf()

I ps()

I jpg()

Beispiel:pdf(file=�boxplot.pdf�, width=13, height=6)

par(mfrow=c(1,2))

boxplot(Alkohol, main=�Boxplot�)

boxplot(Alkohol∼Geo, main=�Boxplot für ...�)

par(mfrow=c(1,1))

dev.off()

Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 23/24

Page 24: Eine Einführung in R: Deskriptive Statistiken und Graphiken · I. Diskrete Daten II. Stetige Daten III. Graphiken in R Eine Einführung in R: Deskriptive Statistiken und Graphiken

I. Diskrete DatenII. Stetige Daten

III. Graphiken in R

−3 −2 −1 0 1 2 3

−1.

0−

0.5

0.0

0.5

1.0

Cos und Sin

x

y

cosinussinus

pdf(file=�RGraphiken/beispiel.pdf�, width=12, height=6)

plot(x,y, type=�l�, col=�darkviolet�, main=�Cos und Sin�)

lines(x,z, col=�magenta�)

points(x,null, pch=3)

legend(�topleft�, c(�cosinus�,�sinus�),

col=c(�darkviolet�, �magenta�), lty=1)

dev.off()Bernd Klaus, Verena Zuber Deskriptive Statistiken und Graphiken 24/24