117
Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen in der univariaten Analyse Multivariate Analyse Praktikum zur Statistik mit R Till Breuer Institut für Mathematische Statistik Universität Münster 5. Oktober 2010 Till Breuer Praktikum zur Statistik

Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

  • Upload
    dinhthu

  • View
    217

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Praktikum zur Statistik mit R

Till Breuer

Institut für Mathematische StatistikUniversität Münster

5. Oktober 2010

Till Breuer Praktikum zur Statistik

Page 2: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 3: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 4: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Literatur I

Fahrmeir, Künstler, Pigeot, TutzStatistik. Der Weg zur DatenanalyseSpringer-Verlag Berlin · Heidelberg · New York

Ahlers, S.Einführung in die Statistik mit RSkript zur Veranstaltungwww.math.uni-muenster.de/statistik/praktika/Statistikpraktikum/SS09/Skript.pdf

Backhaus, Erichsen, Plinke und WeiberMultivariate AnalysemethodenSpringer-Lehrbuch

Till Breuer Praktikum zur Statistik

Page 5: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 6: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Was tut man in der Statistik?

Daten sammelnDaten analysierenPrognosen und Entscheidungen treffen

Till Breuer Praktikum zur Statistik

Page 7: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Klassenspiegel

30 Schüler bekommen ihre Klausur zurück.Ziel: Durchschnittsnote berechnen und Notenverteilungskizzieren

Till Breuer Praktikum zur Statistik

Page 8: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Einkommensverteilung

Beispiel : 10.000 Personen werden zu ihrem Einkommen befragt.Ziel: Darstellung der Einkommensverteilung, Lage undStreuung einschätzen

Till Breuer Praktikum zur Statistik

Page 9: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Einkommensverteilung

Till Breuer Praktikum zur Statistik

Page 10: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Epidemiologische Studie zumRauchverhalten

Fragestellung: Wie wirkt sich das Merkmal “Rauchverhalten” aufdas Lungenkrebsrisiko aus?Ziel: Quantifizierung des Einflusses gewisser Merkmale undFaktoren.

Till Breuer Praktikum zur Statistik

Page 11: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Düngemittel

Fragestellung: Wie stark ist der Zusammenhang zwischen dereingesetzten Menge eines Düngemittels und der Erntemenge?Ziel: Quantifizierung des Zusammenhanges zweierMerkmalsausprägungen

Till Breuer Praktikum zur Statistik

Page 12: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Produktionsprozess

Fragestellung: Lohnt sich die Umstellung einesProduktionsprozesses? Wie groß ist das Risiko bei einerUmstellung?Ziel: Treffen und Validieren einer Entscheidung

Till Breuer Praktikum zur Statistik

Page 13: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Glühbirne

Fragestellung: Wie groß ist die Lebensdauer einer Glühbirne auseiner bestimmten ProduktionZiel: Schätzen der mittleren Lebensdauer einer Glühbirne

Till Breuer Praktikum zur Statistik

Page 14: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Münzwurf

Ein Schiedsrichter entscheidet über die Wahl der Spielrichtung durcheinen Münzwurf.

Fragestellung: Ist die verwendete Münze fair.Ziel: Entscheidung darüber, ob die Münze fair ist oder nicht.

Till Breuer Praktikum zur Statistik

Page 15: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

weitere Beispiele

Inwieweit sind die Antworten zur Sonntagsfrage, die in einerUmfrage erhalten werden, repräsentativ für alleWahlberechtigten?Ist Therapie A besser als Therapie B?

Till Breuer Praktikum zur Statistik

Page 16: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Drei Arten der Datenanalyse

Bei der Datenanalyse lassen sich drei Grundaufgaben der Statistikunterscheiden:

Beschreiben (Deskription)Suchen (Exploration)Schließen (Induktion)

Till Breuer Praktikum zur Statistik

Page 17: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beschreiben => Deskriptive Statistik

Beschreibende und graphische Aufbereitung und Komprimierungvon Daten, z. B. zur Präsentation umfangreichen Datenmaterials,z.B.

... Beschreiben durch Lage- und Streumaße

... Darstellen durch Gruppierung der Daten

...graphischen Darstellungen durch Balkendiagramme oderHistogramme

Till Breuer Praktikum zur Statistik

Page 18: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Suchen => Explorative Statistik

Darstellung von DatenSuche nach Strukturen und Besonderheiten in den Datenverwendet keine Stochastik, dafür häufig rechenaufwendigeMethodenwird typischerweise eingesetzt, wenn die Fragestellung nichtgenau definiert ist oder die Wahl eines geeigneten statistischenModells unklar ist

Till Breuer Praktikum zur Statistik

Page 19: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Schließen => Induktive (schließende) Statistik

Zielsetzung ist über die erhobenen Daten hinaus allgemeinereSchlußfolgerungen für umfassendere Grundgesamtheiten zuziehen.Dazu: Einbeziehung von Wahrscheinlichkeitstheorie undStochastikEine statistisch abgesicherte Beantwortung solcher Fragenerfordert eine sorgfältige Versuchsplanung, vorbereitendedeskriptive und explorative Analysen sowie klar definiertestochastische Modelle, um wahrscheinlichkeitstheoretischeRückschlüsse zu ermöglichen.

Till Breuer Praktikum zur Statistik

Page 20: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 21: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Definitionen

Statistische Einheiten: Objekte, an denen interessierendeGrößen erfasst werden

Grundgesamtheit: Menge aller für die Fragestellungrelevanten statistischen Einheiten

Teilgesamtheit: Teilmenge der GrundgesamtheitStichprobe: tatsächlich untersuchte Teilmenge

der GrundgesamtheitMerkmal: interessierende Größe, VariableMerkmalsausprägung: konkreter Wert des Merkmals für

eine bestimmte statistische Einheit

Till Breuer Praktikum zur Statistik

Page 22: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel: Mietspiegel

Statistische Einheiten: Wohnungen, an denen dieinteressierenden Größen erfaßt werdenGrundgesamtheit: Menge aller Wohnungen in München wie imGesetzStichprobe: Wohnungen, deren Daten erfasst wurdenMerkmale: Alter, Größe, Preis/qmMerkmalsausprägungen: für das Baujahr gibt es dieAusprägungen „bis 1929“,..., „2004-2005“; für die Wohnfläche dieAusprägungen „21-30 qm“, ..., „151-160qm“, für den Preis/qm dieAusprägungen x ∈ R≥0.

Till Breuer Praktikum zur Statistik

Page 23: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Ziel- und Einflussgrößen

Merkmale werden auch Variablen genannt.Man unterscheidet Variablen, die beeinflußt werden, diesogenannten Zielgrößen, und solche, die beeinflussen.Die beeinflussenden Variablen werden aufgeteilt in beobachtbareVariablen, die als Einflussgrößen oder Faktoren bezeichnetwerden, und in nicht beobachtbare Variablen, die Störgrößen.Störgrößen werden auch als latente Faktoren bezeichnet.

Till Breuer Praktikum zur Statistik

Page 24: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

Beispiel

In einer epidemiologischen Studie wird der Einfluss des MerkmalsRauchverhalten auf das Merkmal Lungenkrebs untersucht.

Das Rauchverhalten ist eine Einflussgröße.Das Merkmal Lungenkrebs ist die Zielgröße.Als Störgröße tritt z. B. die Prädisposition für Lungenkrebs auf.

Till Breuer Praktikum zur Statistik

Page 25: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 26: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 27: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Beispiel: Mietspiegel

In vielen Städten und Gemeinden der Bundesrepublik werdensogenannte Mietspiegel erstellt. Sie bieten Mietern und Vermieterneine Marktübersicht zu Miethöhen, helfen in Mietberatungsstellen undwerden, neben Sachverständigen, auch zur Entscheidung inMietstreitprozessen herangezogen.Nach §558 BGB ist die ortsübliche Vergleichsmiete wie folgt definiert:

„Die ortsübliche Vergleichsmiete wird gebildet aus denüblichen Entgelten, die in der Gemeinde oder einervergleichbaren Gemeinde für Wohnraum vergleichbarer Art,Größe, Ausstattung, Beschaffenheit und Lage in den letztenvier Jahren vereinbart oder, von Erhöhungen nach §560abgesehen, geändert worden sind“.

Till Breuer Praktikum zur Statistik

Page 28: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Das Gesetzlegt die Grundgesamtheiten fest, aus denen die Stichproben fürdie Erstellung von Mietspiegeln zu ziehen sind.gibt einen Hinweis auf die statistische Analysemethode:Sinngemäß bedeutet dies für die Nettomiete, dass ihrDurchschnittswert in Abhängigkeit von Merkmalen wie Art,Größe, Ausstattung, Beschaffenheit und Lage der Wohnung zubestimmen bzw. zu schätzen ist.

Till Breuer Praktikum zur Statistik

Page 29: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Erstellung des Mietspiegels

aus der Gesamtheit aller nach dem Mietgesetz relevantenWohnungen der Stadt wird eine repräsentative Stichprobegezogendie interessierenden Daten werden von Interviewern inFragebögen eingetragenDas mit der Datenerhebung beauftragte Institut, in MünchenInfratest, erstellt daraus eine Datei, die der anschließendenstatistischen Beschreibung, Auswertung und Analyse zugrundeliegt.Die Präsentation der Ergebnisse erfolgt schließlich in einerMietspiegelbroschüre bzw. im Internet.

Till Breuer Praktikum zur Statistik

Page 30: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Ausschnitt aus dem Münchener Mietspiegel 2003

Nettomiete/qmWohnfläche

Baualter bis 38 qm 39 bis 80 qm 81qm und mehrbis 1918 10.96(20) 7.86(189) 7.46(190)1919 bis 48 8.00(5) 7.07(128) 6.71(53)1949 bis 65 10.32(64) 8.10(321) 7.68(68)1966 bis 77 10.43(112) 8.10(364) 7.67(151)1978 bis 89 11.00(10) 9.41(115) 8.95(42)ab 1990 11.40(6) 10.19(154) 9.80(59)

Tabelle 1.2: Einfacher Tabellen-Mietspiegel, in Klammern die Anzahlder einbezogenen Wohnungen

Till Breuer Praktikum zur Statistik

Page 31: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Erhebung von Daten

Befragungschriftlichmündlichoffengeschlossen

BeobachtungExperiment

Till Breuer Praktikum zur Statistik

Page 32: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Stichprobenarten

Wann immer man auf eine Vollerhebung (d. h. eine Erfassung allerstatistischen Einheiten einer Grundgesamtheit) verzichtet, greift manauf die Ziehung einer Stichprobe zurück.

Stichprobenart Bemerkungeinfache Zufalls- stark zufallsabhängig,stichprobe technisch schwer umsetzbarsystematische Ziehung kann systematische Fehler habengeschichtete Zufalls- meistens einfacherstichprobe umsetzbar und repräsentativer

als einf. ZufallsstichprobeKlumpenstichprobe erhöhte praktische Umsetzbarkeit,

ggf. große Verzerrungen bei Klumpen,die untereinander heterogen sind

Till Breuer Praktikum zur Statistik

Page 33: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Beispiele für Stichprobenarten - GeschichteteZufallsstichprobe

Beispiel (Bundestagswahl)

Einflussgrößen wie Alter, Geschlecht, Bildungsstatus, etc.beeinflussen das WahlverhaltenEine geschichtete Zufallsstichprobe ermöglicht bessereVorhersagen

Till Breuer Praktikum zur Statistik

Page 34: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Beispiele für Stichprobenarten - Klumpenstichprobe

Beispiel

Bei einer soziologischen Befragung in einem bestimmten Berufwerden die Ergebnisse jeweils unternehmensweit zusammengefasst.Die Klumpen sind die einzelnen Unternehmen.

Till Breuer Praktikum zur Statistik

Page 35: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Verzerrte Stichproben

Werden jedoch Elemente der Grundgesamtheit bei der Ziehung nichtberücksichtigt, spricht man von einer verzerrten Stichprobe. MöglicheVerzerrungen sind:

Verzerrung Ursache und BeispielSelektions-Bias bewusster Ausschluss von

Elementen von der ZiehungBeispiel: Internet- oder ZeitungsumfrageNonresponse-Bias (unangenehme) Fragen

bleiben unbeantwortetBeispiel: Fragen zum Sexualverhalten etc.Selfselection-Bias Umfragen auf freiwilliger BasisBeispiel: McKinsey-Studie „Perspektive

Deutschland“(2003)

Till Breuer Praktikum zur Statistik

Page 36: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Studiendesigns

StudientypQuerschnitt- an einer bestimmten Anzahl von Objekten,studie wird zu einem bestimmten Zeitpunkt ein

Merkmal oder mehrere erfasstBeispiel: AbsolventenstudieZeitreihe ein Objekt wird hinsichtlich eines Merkmals

über einen ganzen Zeitraum beobachtetBeispiele: Aktienkurse, DAXLängsschnitt- eine Gruppe wird hinsichtlich eines Merkmalsstudie über einen ganzen Zeitraum beobachtet

Till Breuer Praktikum zur Statistik

Page 37: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Aufgaben zur Datenerhebung

Till Breuer Praktikum zur Statistik

Page 38: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 39: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Beispiele: Mermale und Ausprägungen

Geschlechtmännlich weiblich43 57

Schulnoten1 2 3 4 5 62 4 12 8 2 -

Körpergröße≤ 170cm 171-190cm > 191cm19 65 16

Was lässt sich hinsichtlich Beschaffenheit, Ordnung undAbstand der Merkmalsausprägungen beobachten?

Till Breuer Praktikum zur Statistik

Page 40: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Stetige und diskrete Mermale

diskret: endlich oder abzählbar unendlichviele Ausprägungen

stetig: alle Werte eines Intervalls sindmögliche Ausprägungen

quasi-stetig: diskret messbare, aberfein abgestufte Daten

Geschlecht, Schulnoten: diskretKörpergröße: stetig, diskrete Einteilungquasi-stetige Merkmale sind etwa Nettomiete oder Kredithöhe

Till Breuer Praktikum zur Statistik

Page 41: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Skalenarten

nominalskaliert: Ausprägungen sind Namen,keine Ordnung möglich

ordinalskaliert: Ausprägungen können geordnet,aber Abstände nicht interpretiert werden

intervallskaliert: Ausprägungen sind Zahlen, Interpre-tation der Abstände möglich

verhältnisskaliert: Ausprägungen besitzen sinnvollenabsoluten Nullpunkt

Till Breuer Praktikum zur Statistik

Page 42: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Kriterien für Skalenarten

sinnvoll interpretierbare BerechnungenSkalenart auszählen ordnen Differenzen Quotientennominal ja nein nein neinordinal ja ja nein neinintervall ja ja ja neinverhältnis ja ja ja ja

Till Breuer Praktikum zur Statistik

Page 43: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Beispiele

nominalskaliert: das Merkmal Zentralheizung im Mietspiegel mitden möglichen Ausprägungen „ja“ und „nein“ordinalskaliert: das Merkmal Schulnote mit den Ausprägungen 1bis 6intervallskaliert: das Merkmal Temperatur in Grad Celsius mitden möglichen Ausprägungen x ∈ R, x > −273,15verhältnisskaliert: das Merkmal Nettomiete im Mietspiegel mitden Ausprägungen x ∈ R≥0

Till Breuer Praktikum zur Statistik

Page 44: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Qualitative und quantitative Mermale

Qualitative Mermale geben keine Intensität bzw. Ausmaß wieder.Sie besitzen endlich viele Ausprägungen besitzen und sindhöchstens ordinalskaliert.Quantitative Mermale geben Intensitäten bzw. Ausmaße wieder.Kardinalskalierte (also intervall- / verhältnisskalierte) Merkmalesind stets ebenfalls quantitativ.

qualitativ: endlich viele Ausprägungen,höchstens Ordinalskala

quantitativ: Ausprägungen geben Intensität wieder

Till Breuer Praktikum zur Statistik

Page 45: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Zusammenfassungdiskret: endlich oder abzählbar unendlich

viele Ausprägungenstetig: alle Werte eines Intervalls sind

mögliche Ausprägungenquasi-stetig: diskret messbare, aber fein abgestufte Datennominalskaliert: Ausprägungen sind Namen,

keine Ordnung möglichordinalskaliert: Ausprägungen können geordnet,

aber Abstände nicht interpretiert werdenintervallskaliert: Ausprägungen sind Zahlen, Interpre-

tation der Abstände möglichverhältnisskaliert: Ausprägungen besitzen sinnvollen

absoluten Nullpunktqualitativ: endlich viele Ausprägungen,

höchstens Ordinalskalaquantitativ: Ausprägungen geben Intensität wieder

Till Breuer Praktikum zur Statistik

Page 46: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Am Anfang: DatenerhebungMerkmalstypen

Aufgabe

Diskutieren Sie die im Rahmen des Münchener Mietspiegelerhobenen Mermale Nettomiete, Wohnfläche, Baualter, Gebäudetyp(Ausprägungen: Hochhaus/Wohnblock), Zentralheizung (dezentralbetriebene Strom- oder Gasheizungen/Einzelöfen/keine Heizung),Warmwasserversorgung (einfache/keine), Lage der Wohnung(einfache/durchschnittliche/gute/beste) und Ausstattung des Bads(keins/nicht gekachelt/zweites vollständiges Badvorhanden/besondere Zusatzausstattung) hinsichtlich ihres jeweiligenSkalenniveaus. Entscheiden Sie zudem, ob es sich um diskrete oderstetige, bzw. quantitative oder qualitative Merkmale handelt.

Till Breuer Praktikum zur Statistik

Page 47: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 48: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 49: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Histogramme

Hat man einen großen Datensatz mit vielen verschiedenenMerkmalsausprägungen eines quantitativen Merkmals, so werden dieobigen Darstellungen häufig unübersichtlich. Man verwendet dannz. B. Histogramme.

DefinitionEin Histogramm ist ein spezielles Säulendiagramm, bei dem dieMerkmalsausprägungen in k ∈ N≥2 Intervalle [c0, c1), . . . , [ck−1, ck )zusammengefasst sind.Über dem Intervall [cj−1, cj ) wird ein Rechteck (der Breite cj − cj−1)abgetragen, dessen Fläche proportional zur Anzahl derBeobachtungen ist, die in das Intervall fallen.

Histogramme, die die Häufigkeit jedes Wertes skizzieren,zeigen den Verlauf der empirischen Dichtefunktion.

Till Breuer Praktikum zur Statistik

Page 50: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Histogramme II

HistogrammeZeichne über den Klassen [c0, c1), . . . , [ck−1, ck )Rechtecke mitBreite: dj = cj − cj−1Höhe: proportional zu hj/dj bzw. fj/djFläche: proportional zu hj bzw. fj

Dabei seien hj und fj die absolute bzw. relative Zahl derBeobachtungen in [cj−1, cj ).

Till Breuer Praktikum zur Statistik

Page 51: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Beispiel: Mietspiegel München ’03

Wir lesen die Datentabelle nettomieten.csv mit demread.table-Befehl ein.Wir erzeugen ein Histogramm mit dem hist Befehl aus derNettomieten-Spalte der Datentabelle nettomieten.csv.R teilt die x-Achse in gleichgroße Intervalle. Die Anzahl derIntervalle wird automatisch auf ca. log2 n festgelegt, wenn n dieAnzahl der Beobachtungen ist.Es gibt weitere Optionen, z. B. breaks="Scott" undbreaks="Freedman-Diaconis". Der breaks Befehl kannauch mit einem Vektor verwendet werden, der angibt, an welchenPunkten ein neues Rechteck beginnen soll (auf der x-Achse).

Till Breuer Praktikum zur Statistik

Page 52: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Beispiel: Mietspiegel München ’03

Wir lesen die Datentabelle nettomieten.csv mit demread.table-Befehl ein.Wir erzeugen ein Histogramm mit dem hist Befehl aus derNettomieten-Spalte der Datentabelle nettomieten.csv.R teilt die x-Achse in gleichgroße Intervalle. Die Anzahl derIntervalle wird automatisch auf ca. log2 n festgelegt, wenn n dieAnzahl der Beobachtungen ist.Es gibt weitere Optionen, z. B. breaks="Scott" undbreaks="Freedman-Diaconis". Der breaks Befehl kannauch mit einem Vektor verwendet werden, der angibt, an welchenPunkten ein neues Rechteck beginnen soll (auf der x-Achse).

Till Breuer Praktikum zur Statistik

Page 53: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Beispiel: Mietspiegel München ’03

Wir lesen die Datentabelle nettomieten.csv mit demread.table-Befehl ein.Wir erzeugen ein Histogramm mit dem hist Befehl aus derNettomieten-Spalte der Datentabelle nettomieten.csv.R teilt die x-Achse in gleichgroße Intervalle. Die Anzahl derIntervalle wird automatisch auf ca. log2 n festgelegt, wenn n dieAnzahl der Beobachtungen ist.Es gibt weitere Optionen, z. B. breaks="Scott" undbreaks="Freedman-Diaconis". Der breaks Befehl kannauch mit einem Vektor verwendet werden, der angibt, an welchenPunkten ein neues Rechteck beginnen soll (auf der x-Achse).

Till Breuer Praktikum zur Statistik

Page 54: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Beispiel: Mietspiegel München ’03

Wir lesen die Datentabelle nettomieten.csv mit demread.table-Befehl ein.Wir erzeugen ein Histogramm mit dem hist Befehl aus derNettomieten-Spalte der Datentabelle nettomieten.csv.R teilt die x-Achse in gleichgroße Intervalle. Die Anzahl derIntervalle wird automatisch auf ca. log2 n festgelegt, wenn n dieAnzahl der Beobachtungen ist.Es gibt weitere Optionen, z. B. breaks="Scott" undbreaks="Freedman-Diaconis". Der breaks Befehl kannauch mit einem Vektor verwendet werden, der angibt, an welchenPunkten ein neues Rechteck beginnen soll (auf der x-Achse).

Till Breuer Praktikum zur Statistik

Page 55: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Der hist-Befehl

hist(data)breaks="Sturges" erzeugt ein Histogramm aus dem Daten-

satz data, wobei k ≈ log2(n) + 1 Säu-len mit d1 = . . . = dk verwendet werden

"Scott" wie oben, jedoch mit k ≈ n1/3

20 wie oben, jedoch mit k = 20 Säulenc(c0, ...,ck) x-Achse wird unterteilt in Intervalle

[c0, c1), . . . , [ck−1, ck ).

Till Breuer Praktikum zur Statistik

Page 56: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Verteilungen in RVerteilung Name in R Parameter in R ParameterBinomial binom size n

prob pHypergeometrisch hyper m M

n N −Mk n

Poisson pois lambda λNormal normal mean µ

sd σGleich unif min a

max bExponential exp rate λt t df nChiquadrat chisq df kF f df1 m

df2 ns. S. 32 Skript von S. Ahlers

Till Breuer Praktikum zur Statistik

Page 57: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Aufruf von Verteilungen in R

Beispiel: Normalverteilung

Dichtefunktion: dnormVerteilungsfunktion: pnormQuantilsfunktion: qnormZufallsdaten: rnorm

Funktionen plottet man in R mit den Befehlen plot und curve:

> curve(dgamma(x, shape = 5), from = 0, to = 20,+ n = 200, type = “l”)>> x<-seq(-3,3,length=10000)> plot(x,dnorm(x),type=“l”

Till Breuer Praktikum zur Statistik

Page 58: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Anwendung: Gesetz der großen Zahlen

> data <- rnorm(n = 100, mean = 0, sd = 1)> hist(data, prob=T)> x <- seq(from=par(“usr”)[1], to=par(“usr”)[2],length=100)> lines(x, dnorm(x, mean=0, sd=1), xpd=T, lwd=2)

Mit dem Befehl lines können nachträglich Funktionsverläufe in einDiagramm gezeichnet werden.

Till Breuer Praktikum zur Statistik

Page 59: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Absolute und relative Häufigkeiten

h(aj ) :=∑k

i=1 1{xi=aj} absolute Häufigkeit von aj

(=: hj )

f (aj ) :=hjn relative Häufigkeit von aj

h1, . . . ,hk absolute Häufigkeitsverteilungf1, . . . , fk relative Häufigkeitsverteilung

a1, . . . ,ak und h1, . . . ,hk heißen Häufigkeitsdaten.

Till Breuer Praktikum zur Statistik

Page 60: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Kumulierte Häufigkeiten I

Ordinalskaliertes Merkmal: SchulnoteHäufigkeitstabelle: Klassenspiegel

sehr gut gut befriedigend ausreichend mangelhaft4 7 10 8 2

Kumulierte Häufigkeitensehr gut gut befriedigend ausreichend mangelhaft4 11 21 29 31

kumulierte Häufigkeiten:i∑

j=1nj

kumulierte relative Häufigkeiten:i∑

j=1fj

Till Breuer Praktikum zur Statistik

Page 61: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Kumulierte Häufigkeiten II

> noten <- c(3,4,2,3,4,1,3,1,3,4,4,2,2,2, ...)> noten_tabelle.summiert <- cumsum(noten_tabelle)> noten_tabelle.summiert

sehr gut gut befriedigend ausreichend mangelhaft4 11 21 29 31

> noten_tabelle.relativ.summiert <-+ cumsum(round(noten_tabelle/sum(noten_tabelle),2))

sehr gut gut befriedigend ausreichend mangelhaft0.13 0.36 0.68 0.94 1.00

Till Breuer Praktikum zur Statistik

Page 62: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Kumulierte Häufigkeiten - Säulendiagramm

sehr gut gut befriedigend ausreichend mangelhaft

0.0

0.2

0.4

0.6

0.8

1.0

Till Breuer Praktikum zur Statistik

Page 63: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Kumulierte Häufigkeitsverteilung

DefinitionDie absolute kumulierte Häufigkeitsverteilung eines (mindestensordinalskalierten) Merkmals X ist durch die Funktion H mit

H(x) = Anzahl der Werte xi mit xi ≤ x

gegeben.

Bemerkung

Es gilt also auchH(x) =

∑i:ai≤x

hi

Till Breuer Praktikum zur Statistik

Page 64: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Die empirische Verteilungsfunktion

DefinitionDie empirische Verteilungsfunktion F ist definiert durch

F (x) := H(x)/n =∑

i:ai≤x

fi = n−1n∑

i=1

1(−∞,x ](xi ).

Till Breuer Praktikum zur Statistik

Page 65: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Der Satz von Glivenko und Cantelli

Satz (von Glivenko und Cantelli)

Seien X1,X2, . . . eine Folge u. i. v. Zufallsgrößen mit Werten in R.Fn(·) = Fn(·, x1, . . . , xn) sei die empirische Verteilungsfunktion vonx1, . . . , xn.Dann konvergiert Fn(·,X1, . . . ,Xn) für n→∞ P-f. s. gleichmäßig inx ∈ R gegen die Verteilungsfunktion F von X1.

Till Breuer Praktikum zur Statistik

Page 66: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x

y

F7

F

Abbildung: F7 vs. FTill Breuer Praktikum zur Statistik

Page 67: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Histogramme, Häufigkeitsverteilungen und Verteilungen

Aufgaben

Skizziere eine der folgenden Verteilungen:Gamma-VerteilungExponentialverteilungBinomialverteilungPoissonverteilung

Wie sieht die Verteilung von X + Y aus, wobei X und Y N(0, 1)-verteilteZufallsgrößen seien?Erstelle eine Zeichnung, die den Funktionsverlauf derVerteilungsfunktion Standardnormalverteilung zeigt. Füge dieserZeichnung die empirische Verteilungsfunktion von 100 Zufallsdatenhinzu, die mittels der Standardnormalverteilung generiert sind.

Generiere einen Vektor mit den Zufallsdaten und sortiere diesenBilde die kumulierten SummenPlotte den Vektor mit den kumulierten Daten auf einem geeignetenIntervallFüge die Verteilungsfunktion der Normalverteilung mit insDiagramm ein

Till Breuer Praktikum zur Statistik

Page 68: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 69: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Uni- und multivariate Analyse

Univariate Analyse betrifft die Auswertung der Erhebung einesMerkmals.Multivariate Analyse betrifft die Auswertung der Erhebungmehrerer Merkmale

Till Breuer Praktikum zur Statistik

Page 70: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 71: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Darstellungsarten

Tabellen, die ein- und mehrdimensionale HäufigkeitenzusammenfassenGruppierung von DatenDiagrammeVerlaufskurvenKenngrößen wie zum Beispiel Mittelwert, Median oder Streuung

Till Breuer Praktikum zur Statistik

Page 72: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Daten- / Häufigkeitstabellen

Fahrgastbefragung

ja neinFahrt zum ArbeitsplatzFahrt zum Studium/SchuleBesuch von Familie/FreundenEinkauf/ShoppingUrlaubSonstiges

Till Breuer Praktikum zur Statistik

Page 73: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Häufigkeitstabelle

1000 befragte Fahrgästeabs. Häufigk. rel. Häufigk.

Fahrt zum Arbeitsplatz 203 0.2Fahrt zum Studium/Schule 463 0.46Besuch von Familie/Freunden 87 0.087Einkauf/Shopping 101 0.1Urlaub 4 0.004Sonstiges 142 0.14

Werte sind auf zwei Effektive Stellen gerundetDie Daten lassen sich grafisch darstellen

Till Breuer Praktikum zur Statistik

Page 74: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Darstellungsmöglichkeiten

Diagramm Beschreibung Befehl in RStab- a1, . . . ,ak werden auf der plot(. . .,

x-Achse abgetragen, ortho- type="h")gonal zur x-Achse wird überaj ein Strich proportionalzu hj abgetragen

Säulen- wie Säulendiagramm mit barplotSäulen statt Strichen

Balken- wie Säulendiagramm, jedoch barplot(...,mit vertauschten Achsen horiz=TRUE)

Kreis- Flächen der Kreissektoren pieproportional zu den Häufig-keiten: fj · 360◦

Till Breuer Praktikum zur Statistik

Page 75: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Kuchendiagramm in R

> x <- c(203, 463, 87, 101, 4, 142)> names(x) <- c(“Fahrt zum Arbeitsplatz”, ...)> pie(x, labels = names(x))

Die gezielte Zuweisung von Farben erfolgt mit dem Parameter “col”.In R gibt es 9 Standardfarben und weitere Farbpakete, wie z.B.rainbow, heat.colors, terrain.colors, rgb.

Till Breuer Praktikum zur Statistik

Page 76: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Kuchendiagramm

Till Breuer Praktikum zur Statistik

Page 77: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Stabdiagramm> plot(x, type=“h”)

1 2 3 4 5 6

0100

200

300

400

Index

x

Till Breuer Praktikum zur Statistik

Page 78: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Säulendiagramm> barplot(x)

Arbeitspl. Schule Freunde Einkauf Urlaub Sonst.

0100

200

300

400

Till Breuer Praktikum zur Statistik

Page 79: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Balkendiagramm> barplot(x, horiz=“T”)

Arbeitspl.

Schule

Freunde

Einkauf

Urlaub

Sonst.

0 100 200 300 400

Till Breuer Praktikum zur Statistik

Page 80: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Aufgabe

Bei der letzten Bundestagswahl in Deutschland (im September 2009) ergabsich folgende Stimmverteilung beim Merkmal Zweitstimme (bei 44.005.575Stimmen):

CDU/CSU SPD FDP Die Linke Grüne Andere14.658.515 9.990.488 6.316.080 5.155.933 4.643.272 3.241.287

(a) Geben Sie die Daten als Vektor ein und ordnen Sie den Vektorabsteigend. Berechnen Sie die zugehörigen prozentualen Anteile anden abgegebenen (und gültigen) Stimmen auf eine Nachkommastellegenau.

(b) Erzeugen Sie mit den Daten aus (a) ein mit den Parteinamen und denzugehörigen Prozentzahlen beschriftetes Kreissektorendiagramm (inden entsprechenden Parteifarben).

(c) Erstellen Sie ein geordnetes Säulendiagramm in den entsprechendenParteifarben.

Till Breuer Praktikum zur Statistik

Page 81: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 82: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Urliste und sortierte Daten

Von der Urliste x1, . . . , xn können wir zur geordneten Listex(1) ≤ . . . ≤ x(n) übergehen.

Dies geschieht in R mit dem Befehl sort.

Till Breuer Praktikum zur Statistik

Page 83: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Klasseneinteilung - Der Befehl cut

Stetige Merkmale können in Klassen eingeteilt werden. Diesgeschieht in R mit dem Befehl cut. Dieser ersetzt die Werte einesVektors durch die Klasse, innerhalb derer er liegt.

Beispiel: Größenmessung im Kindergarten

> groesse <- c(103,105,106, ...)> klass.groesse <-+ cut(groesse,c(85,90,95, ...),include.lowest=TRUE)> klass.groesse[1] (100, 105] (100, 105] (105, 110] ...Levels: [85,90] (90,95] (95,100] (100,105] (105,110](110,115] (115,120]

Für äquidistante Klassen (wie hier) kann der Befehl seq genutztwerden.

Till Breuer Praktikum zur Statistik

Page 84: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Grafisch: Häufigkeitsverteilung / Histogramm

Im falle eines stetigen quantitativen Merkmals, ist eineHäufigkeitsverteilung nicht mehr aussagekräftig.

In diesem Fall ist ein Histogramm hilfreich, das annähernd denVerlauf der empirischen Verteilung skizziert. Die Häufigkeiten werdendabei auf Teilintervallen zusammengefasst. Ein Histogramm erzeugtman mit dem Befehl hist.

Probleme bei der Darstellung mittels Histogramm ergeben sich, fallsdie Daten über ein sehr großes Intervall gestreut sind und nichtbeschränkt sind. Dann können die Säulen die Höhe 0 haben.

Till Breuer Praktikum zur Statistik

Page 85: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Unimodale und multimodale Verteilungen

Viele (empirische) Verteilungen weisen eines der folgenden Verhaltenauf:

Im Histogramm gibt es einen Gipfel, von dem aus dieHäufigkeiten zu den Randbereichen abfallen, ohne dass einzweiter Gipfel auftritt. Solche Verteilungen heißen unimodal.Tritt ein zweiter (und kein weiterer) Gipfel auf, so heißt dieVerteilung bimodal.Treten weitere Nebengipfel auf, so heißt die Verteilungmultimodal.

Till Breuer Praktikum zur Statistik

Page 86: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Symmetrie

DefinitionEine (empirische) Verteilung heißt symmetrisch, wenn es eineSymmetrieachse gibt, so dass die linke und die rechte Hälfte derVerteilung annähernd spiegelbildlich zueinander sind.

Bemerkung

Exakte Symmetrie ist bei empirischen Verteilungen selten gegeben.

Till Breuer Praktikum zur Statistik

Page 87: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

0

2

4

6

8

Eine symmetrische Datenverteilung

Till Breuer Praktikum zur Statistik

Page 88: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Schiefe

DefinitionEine (empirische) Verteilung heißt linkssteil oder rechtsschief, wennder überwiegende Anteil der Daten linksseitig konzentriert ist.Analog heißt eine (empirische) Verteilung rechtssteil oder linksschief,wenn der überwiegende Anteil der Daten rechtsseitig konzentriert ist.

Typische Beispiele für linkssteile Verteilungen sindEinkommensverteilungen.

Till Breuer Praktikum zur Statistik

Page 89: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Schiefe

DefinitionEine (empirische) Verteilung heißt linkssteil oder rechtsschief, wennder überwiegende Anteil der Daten linksseitig konzentriert ist.Analog heißt eine (empirische) Verteilung rechtssteil oder linksschief,wenn der überwiegende Anteil der Daten rechtsseitig konzentriert ist.

Typische Beispiele für linkssteile Verteilungen sindEinkommensverteilungen.

Till Breuer Praktikum zur Statistik

Page 90: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

02

46

8

02

46

8

Abbildung: Links- bzw. rechtsschiefe DatenTill Breuer Praktikum zur Statistik

Page 91: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Aufgaben

Lesen Sie den Datensatz nettomieten.csv ein. Die ersteSpalte mit dem Namen bla gibt das Mermal “Nettomiete”wieder. Lesen Sie diese in einen Vektor ein.Nehmen Sie eine geeignete Klasseneinteilung vor. Zeichnen Sieanschließend ein Säulendiagramm des Datensatzes.Listen Sie die absoluten Häufigkeiten auf (Tipp: Nutzen Sie denBefehl table)Zeichnen Sie ein Histogramm.Beurteilen Sie die Schiefe der Verteilung.

Till Breuer Praktikum zur Statistik

Page 92: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 93: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Beschreibung von Verteilungen

Bei der Datenanalyse, z. B. der Analyse des Nettomietniveaus inMünchen, ergeben sich häufig Fragen der folgenden Art:

Wo liegt das Zentrum der Daten?Wie stark streuen die Daten um das Zentrum?Ist die Verteilung symmetrisch oder schief?Gibt es Ausreißer?

Till Breuer Praktikum zur Statistik

Page 94: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Das arithmetische Mittel

DefinitionDas arithmetische Mittel wird aus der Urliste x1, . . . , xn durch

x =1n

n∑i=1

xi

berechnet.

Für Häufigkeitsdaten mit Ausprägungen a1, . . . ,ak und relativeHäufigkeiten f1, . . . , fk gilt

x =k∑

i=1

fiai .

In R lässt sich das arithmetische Mittel eines Vektors x mit demBefehl mean(x) berechnen.

Till Breuer Praktikum zur Statistik

Page 95: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Eigenschaften des arithmetischen Mittels

Das arithmetische Mittel ist für kardinalskalierte Daten sinnvoll.Das arithmetische Mittel besitzt die Schwerpunkteigenschaft

n∑i=1

(xi − x) = 0.

Das arithmetische Mittel reagiert empfindlich auf extreme Werteund Ausreißer.(Man ersetze den größten Wert in der Nettomietenliste durch20000)Das arithmetische Mittel stimmt i. A. mit keiner der möglichenAusprägungen überein.

Till Breuer Praktikum zur Statistik

Page 96: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Resistente/Robuste Lagemaße

DefinitionEin Lagemaß heißt resistent oder robust, falls es unempfindlichgegenüber extremen Werten/Ausreißern ist.

Till Breuer Praktikum zur Statistik

Page 97: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Der (Stichproben-)Median

Ein robustes Lagemaß ist der Median. Um ihn zu bilden, betrachtetman die geordnete Liste x(1), ..., x(n).

DefinitionDer Median xmed von x1, . . . , xn ist durch

xmed =

{x( n+1

2 ), falls n ungerade ist,12 (x(n/2) + x(n/2+1)), falls n gerade ist,

definiert.

Der Median wird in R mit dem Befehl median berechnet.

Till Breuer Praktikum zur Statistik

Page 98: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Eigenschaften des Medians

Der Median ist ab dem Ordinalskalenniveau sinnvoll.Der Median xmed ist robust gegenüber Ausreißern (Beispiel:Nettomietendatensatz).Mindestens 50% der Daten sind ≥ xmed und mindestens 50% derDaten sind ≤ xmed.Der Median stimmt i. A. mit keiner der möglichen Ausprägungenüberein.

Wann stimmt der Median mit einer tatsächlichenAusprägung überein?

Till Breuer Praktikum zur Statistik

Page 99: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Der Modus

Ein weiteres gebräuchliches Lagemaß ist der Modus.

DefinitionEin Modus xmod ist eine Ausprägung mit größter Häufigkeit.

Bemerkung

Der Modus ist eindeutig, falls die Häufigkeitsverteilung eineindeutiges Maximum besitzt.

Till Breuer Praktikum zur Statistik

Page 100: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Eigenschaften des Modus’

Der Modus ist bereits auf Nominalskalenniveau sinnvoll.Der Modus ist robust.Der Modus ist eine Ausprägung des Merkmals.

Till Breuer Praktikum zur Statistik

Page 101: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Lageregeln

Symmetrische Verteilungen: x ≈ xmed ≈ xmodLinkssteile Verteilungen: xmod < xmed < xRechtssteile Verteilungen: x < xmed < xmod

Till Breuer Praktikum zur Statistik

Page 102: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Gruppierte Lagemaße

Liegen die Daten nicht als Urliste sondern gruppiert vor, so kann mannur Näherungswerte der Lagemaße bilden.

Modus: Bestimme Modalklasse (Klasse mit dergrößten Beobachtungszahl) und verwendeKlassenmitte als Modus

Median: Bestimme Einfallsklasse [ci−1, ci ) desMedians und darausxmed, grupp = ci−1 +

di (0,5−F (ci−1))fi

.Arithm. Mittel: xgrupp =

∑ki=1 fimi .

Till Breuer Praktikum zur Statistik

Page 103: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Gruppierte Lagemaße II

Bei der Bildung der gruppierten Lagemaße ergibt sich:Der wahre Modus muss nicht einmal in der Modalklasse liegen.Der wahre Modus muss nicht mit einem Beobachtungswertzusammenfallen.

Till Breuer Praktikum zur Statistik

Page 104: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Streuung

Folgende Maßzahlen messen die Abweichung quantitativer Datenvon ihrem Zentrum:

Mittlere absolute Abweichung 1n

∑ni=1 |xi − x |

Mittlere quadratische Abweichungd2 = 1

n

∑ni=1(xi − x)2 =: x2 − x2

Stichprobenvarianz s2 = 1n−1

∑ni=1(xi − x)2 = n

n−1 d2

Spannweite R(x) = x(n) − x(1) (ausreißerempfindlich)Interquartilsabstand IQR(x) = x0.75 − x0.25

Die Stichprobenvarianz eines Vektors x wird in R mit dem Befehlvar(x) berechnet.

Die Spannweite lässt sich durch diff(range(x)) berechnen.

Till Breuer Praktikum zur Statistik

Page 105: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Aufgabe

Wir betrachten wieder den Datensatz nettomieten.csvBerechnen Sie arithmetisches Mittel und den Median der Spaltemit den Nettomieten.Berechnen Sie das arithmetische Mittel, den Median und denModus der gruppierten Daten. Was fällt Ihnen auf?Berechnen Sie die Varianz und die Spannweite der Daten.

Till Breuer Praktikum zur Statistik

Page 106: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Gliederung1 Überblick über die Statistik

Ziele in der Statistik und der deskriptiven StatistikGrundlegende Definitionen

2 Grundlagen der deskriptive StatistikAm Anfang: DatenerhebungMerkmalstypen

3 Häufigkeiten, empirische Verteilung und VerteilungenHistogramme, Häufigkeitsverteilungen und Verteilungen

4 Datendarstellungen in der univariaten AnalyseAufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

5 Multivariate AnalyseZusammenhänge

Till Breuer Praktikum zur Statistik

Page 107: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Quantile

DefinitionFür 0 < p < 1 heißt jeder Wert qp, für den ein Anteil von mindestensp der Daten ≤ qp und mindestens ein Anteil von 1− p ≥ qp ist,p-Quantil.

Bemerkung

Für ein p-Quantil gilt

qp = x([np]+1), wenn np nicht ganzzahlig ist,qp ∈ [x(np), x(np+1)], wenn np ganzzahlig ist.

Till Breuer Praktikum zur Statistik

Page 108: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Quantile in R

In R werden Quantile mit dem quantile-Befehl aufgerufen.Man bestimme die Quartile des Nettomieten-Datensatzes.Gibt die Lage der Quartile im Vergleich zum Median Aufschlussbzgl. der Schiefe des Datensatzes?

Till Breuer Praktikum zur Statistik

Page 109: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Quantil einer Verteilung

Entsprechend ist die Quantilsfunktion F−1 einer Verteilung Q auf(R,B) definiert:

Definition (Quantilsfunktion)

F−1(p) = inf{x ∈ R : F (x) ≥ p}= inf{x ∈ R : Q((x ,∞)) ≤ 1− p} für p ∈ (0,1)

Sie wird auch als Pseudo-Inverses der Verteilungsfunktion oder als1− p-Fraktil bezeichnet. Ihr Aufruf in R erfolgt mittels “q + Name derVerteilung”.

Till Breuer Praktikum zur Statistik

Page 110: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Quartile

Definition

Ein unteres Quartil ist ein 25%-Quantil,ein oberes Quartil ein 75%-Quantil.

Till Breuer Praktikum zur Statistik

Page 111: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Fünf-Punkte-Zusammenfassung

DefinitionDie Fünf-Punkte-Zusammenfassung besteht aus

dem Minimum, dem ersten Quartil, dem Median, dem dritten Quartilund dem Maximum

des Datensatzes.

Die Fünf-Punkte-Zusammenfassung ist in R im Befehl summaryenthalten.

Till Breuer Praktikum zur Statistik

Page 112: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Boxplots

In einem Boxplot eines Datensatzes x1, . . . , xn werden in einKoordinatensystem

ein Rechteck (eine Box) gezeichnet, die auf der y -Achse nachoben gegen das obere Quartil und nach unten gegen das untereQuartil begrenzt ist,eine Horizontale auf der Höhe des Medians durch die Box gelegt,vertikale Linien eingezeichnet, die sogenannten Whiskers, vonder Box nach oben und nach unten bismin{q3/4 + 3/2(q3/4 − q1/4), x[n]} bzw. bismax{q1/4 − 3/2(q3/4 − q1/4), x[1]}, wo die Linien durch kurzehorizontale Linien begrenzt werden.

Till Breuer Praktikum zur Statistik

Page 113: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Boxplots II

Werte jenseits der Whiskers werden in den Boxplot durch ◦ oder× markiert.Die Differenz q3/4 − q1/4 heißt Interquartilsabstand (IQR).Werte, die jenseits der Whiskers liegen, heißen Outlyer, wennsie im Bereich [q1/4 − 3IQR,q3/4 + 3IQR] liegen.Werte außerhalb dieses Bereichs werden Extremwerte genannt.

Till Breuer Praktikum zur Statistik

Page 114: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

NQ-Plots: Idee

Ein Zweck der Berechnung der empirischen Verteilungsfunktion kanndie Überprüfung der Normalverteilungsannahme sein: Ist es statthaftanzunehmen, dass die Daten normalverteilt sind? DieseFragestellung ist mit einem Normal-Quantil-Plot leichter zugänglich.Bei diesem Plot trägt man in einem Koordinatensystem die k t kleinsteBeobachtung auf der y -Achse gegen die erwartete k t-kleinsteBeobachtung eines Vektors mit n standardnormalverteiltenZufallsgrößen ab.Unabhängig von Erwartungswert und Varianz sollte sich beinormalverteilten Daten eine Gerade abzeichnen.

Till Breuer Praktikum zur Statistik

Page 115: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

NQ-Plot

DefinitionSei x(1), . . . , x(n) die geordnete Urliste. Für i = 1, . . . ,n werden die(i − 1/2)/n-Quantile z(i) der N (0,1)-Verteilung berechnet. DerNormal-Quantil-Plot (NQ-Plot) besteht aus den Punkten

(z(1), x(1)), . . . , (z(n), x(n))

im z-x-Koordinatensystem.

Bemerkung

Sind die Daten normalverteilt mit Erwartungswert µ und Varianz σ2,so liegen die Daten in etwa auf der Geraden x = µ+ σz.

Till Breuer Praktikum zur Statistik

Page 116: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

QQ-Plots in R

Bei einem Quantile-Quantile-Plot werden die Quantile zweierstatistischer Variablen gegeneinander abgetragen werden, um ihreVerteilungen zu vergleichen.

Einen NQ-Plot erhält man mit dem Befehl qqnorm.Einen QQ-Plot erhält man mit dem Befehl qqplot.

Till Breuer Praktikum zur Statistik

Page 117: Praktikum zur Statistik mit R - uni-muenster.de · Überblick über die Statistik Grundlagen der deskriptive Statistik Häufigkeiten, empirische Verteilung und Verteilungen Datendarstellungen

Überblick über die StatistikGrundlagen der deskriptive Statistik

Häufigkeiten, empirische Verteilung und VerteilungenDatendarstellungen in der univariaten Analyse

Multivariate Analyse

Aufbereitung und grafische DarstellungDarstellung quantitativer MerkmaleKenngrößen metrischer Merkmale (Lage- und Streumaße)Quantile, Boxplots und Normal-Quantil-Plots

Aufgabe

Zeichnen Sie den NQ-Plot des Nettomietendatensatzes.Zeichnen Sie anschließend zum Vergleich einige NQ-Plots einesmit der Normalverteilung generierten Datensatzes. Wählen Siedazu Anzahl der Zufallsdaten, sowie Mittelwert und Varianzentsprechend zu den Daten aus dem Nettomietendatensatz.Erzeugen Sie einen NQ-Plot jeweils eines Zufallsdatensatzes,der mit der B(0.1,10)-, der B(0.9,10)- bzw. der Γ(5,1)-Verteilung generiert werde.Man verwende den Befehl boxplot, um mit R ein Boxplot desNettomietendatensatzes zu erzeugen.Was lässt sich aus dem NQ-Plot, bzw. dem Boxplot hinsichtlichder Schiefe des Nettomietendatensatzes schließen?

Till Breuer Praktikum zur Statistik