© SYNTEGRIS INFORMATION SOLUTIONS GMBH
ww w . syn t egris .de
Einführung in die Statistik mir R
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
GESCHÄFTSFÜHRUNG
Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens Wiemer, Finance & Administration
GRÜNDUNGSJAHR & FIRMENSITZ
2000, Neu-Isenburg bei Frankfurt am Main MITARBEITER
>35 hoch qualifizierte Entwickler, Architekten und Berater mit jahrelanger Projekterfahrung. Wir arbeiten In-House oder bei Ihnen vor Ort. SCHWERPUNKTE
Data Warehouse, Business Process Development, Anwendungsentwicklung, Administration, Schulung
Überblick
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Syntegris bietet umfassende Unterstützung bei der Planung, Entwicklung, Implementierung und Optimierung von Softwarelösungen.
Dies gilt für das gesamte Spektrum, angefangen bei der fachlichen Konzeption, dem Prozessdesign über die Entwicklung und Modernisierung der Businesslogik mit JEE oder APEX, bis zum produktiven Betrieb der Anwendung, der Administration und dem Tuning von Datenbanken.
Wir erstellen komplette Business Universen, DWH-Architekturen oder einzelne Data Marts für Ihre systemübergreifende betriebliche Steuerung und das Reporting.
Wir konzipieren und erstellen für unsere Kunden individuelle maßgeschneiderte Lösungen.
Syntegris ist von Beginn an Oracle Partner und mittler- weile auch Oracle Gold Partner Database Specialized.
Gegenstand
© SYNTEGRIS INFORMATION SOLUTIONS GMBH © SYNTEGRIS INFORMATION SOLUTIONS GMBH
Geschäftsbereiche
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Oracle umarmt R
Interaktion zwischen Oracle und R
R ist Bestandteil der Oracle Advanced Analytics Option Oracle R Enterprise erlaubt es den Anwendern der R-Sprache, bestehende Scripts und Statistikmodelle mit Informationen in der Oracle-Datenbank zu verbinden. R-Scripts können über gewöhnliche SQL-Befehle (Structured Query Language) aufgerufen werden. Oracle bietet eine gegenseitige Integration zwischen R und dem Hadoop-Rahmenwerk für die Verarbeitung großer Datenmengen an. Dadurch könnten R-Programmierer ein Script schreiben und dieses dann in verschiedenen Umgebungen einsetzen, einschliesslich in den Big-Data-Appliances der Datenbanker. Auf die Resultate aus dem Advanced-Analytics-Modul kann zudem aus Oracles BI-Suite (Business Intelligence) und aus der Exalytics In-Memory-Appliance heraus zugegriffen werden.
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
R
R ist eine freie Programmiersprache für statistisches Rechnen und statistische Grafiken. R ist Teil des GNU-Projekts und auf vielen Plattformen verfügbar. R gilt zunehmend als die Standardsprache für statistische Problemstellungen sowohl im kommerziellen als auch im wissenschaftlichen Bereich R läuft in einer Kommandozeilenumgebung. Erweiterungsmöglichkeiten • Benutzeroberflächen • Pakete
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
R Studio
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Statistik Theorie
Was ist Statistik
Statistik „ist die Lehre von Methoden zum Umgang mit quantitativen Informationen“ (Daten). Sie ist eine Möglichkeit, „eine systematische Verbindung zwischen Erfahrung (Empirie) und Theorie herzustellen“. Statistik wird als eigenständige mathematische Disziplin über das Sammeln, die Analyse, die Interpretation oder Präsentation von Daten betrachtet Statistik wird als Teilgebiet der Mathematik, insbesondere der Stochastik, angesehen. Untersuchungsgegenstand der Statistik sind Vorgänge, deren Resultate nicht mit Sicherheit vorhersehbar sind und die man daher als Zufallsexperimente bezeichnet. In diesem Sinne ist jede Messung, deren Resultate streuen, z.B. die Ausbildung der individuellen Körpergröße oder das Steueraufkommen einer Region ein Zufallsexperiment.
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Statistik Theorie
Teilgebiete der Statistik
Die deskriptive Statistik
Die induktive Statistik
Explorative Statistik
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Statistik Theorie
Betrachtungsgegenstand der Statistik
Beobachtet werden Attribute (Merkmale) von realen Objekten. Für statistische Auswertungen ist eine Abbildung (Zuordnung) jeder Ausprägung eines Attributes auf eine Zufallsvariable (Zahl) notwendig. Ein wesentliches Augenmerk ist bei der Abbildung einer Ausprägung auf das Skalenniveau zu richten- • Nominales Messniveau
• Ordinales Messniveau
• Kardinales Messniveau •
• Die Statistik betrachtet nur (Zufalls-)Zahlen, keine Einheiten wie Gewicht, Länge, Frequenz, etc.
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Statistik Theorie
Skalenniveau
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Statistik
Beispiel Abbildung eines Attributs
Geburtstag einer Person am 01.03.74
•
•
•
•
•
Die Art der Abbildung
•
•
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Folgende Kennzahlen und Lageparameter eignen sich für die Beschreibung univariater, d.h. eindimensionaler Daten: • Mittelwert (nur kardinal) • Standardabweichung (nur kardinal) • Varianz (nur kardinal) • Minimum • Maximum • Spannweite • Median • Quantile • Schiefe (nur kardinal)
Die Schiefe beschreibt die Art und Stärke der Asymmetrie einer Verteilung. Sie zeigt an, ob und wie stark die Verteilung nach rechts (positive Schiefe) oder nach links (negative Schiefe) geneigt ist.
• Wölbung (bzw. Excess) (nur kardinal) Die Wölbung ist eine Maßzahl für die Steilheit bzw. „Spitzigkeit“ einer Verteilung. Sie das zentrale Moment 4. Ordnung. Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen. Exzess=0: normalgipflig , > 0 steilgipflig, < 0
Univariate Daten
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Folgende graphische Darstellungen eignen sich für univariate Daten: • Histogramme • BoxPlots
Univariate Daten
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Livedemo stetige Attribute
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Die Korrelation beschreibt den linearer Zusammenhang zwischen kardinalen Daten Der Korrelationskoeffizient liegt zwischen -1 und 1. Oft: • Absolut Wert <= 0.2 kein Zusammenhang • Absolut Wert > 0.2 und <= 0.5 schwacher Zusammenhang • Absolut Wert > 0.5 starker Zusammenhang Eine Korrelation beschreibt jedoch keine Ursache-Wirkungs-Beziehung in die eine und/oder andere Richtung, d.h. aus einem starken Zusammenhang folgt nicht, dass es auch eine eindeutige Ursache-Wirkungs-Beziehung gibt.
yx falsch
Beispiele: • Aus der Tatsache, dass in Sommern mit hohem Speiseeisumsatz viele Sonnenbrände auftreten, kann man
nicht schlussfolgern, dass Eisessen Sonnenbrand erzeugt. • Zwischen dem Rückgang der Störche und einem Rückgang der Anzahl Neugeborener kann es durchaus eine
Korrelation geben, aber weder bringen Störche Kinder noch umgekehrt.
Korrelation
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Livedemo Korrelation
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Regressionsanalysen sind statistische Analyseverfahren, die zum Ziel haben, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu modellieren. Sie werden insbesondere verwendet, wenn Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren sind. Mathematisch kann die Beziehung zwischen den unabhängigen Variablen x und der abhängigen Variablen y im eindimensionalen Fall dargestellt werden als
y=f(x)+e
Regression
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Livedemo Regression
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Fazit
„Ich muss meine Daten verstehen, bevor ich eine sinnvolle statistische Aussage treffen kann.“ R ist das Werkzeug!
© SYNTEGRIS INFORMATION SOLUTIONS GMBH
Danke
SYNTEGRIS INFORMATION SOLUTIONS GMBH
HERMANNSTRASSE 54-56
63263 NEU-ISENBURG
FON (06102) 29 86 68
FAX (06102) 55 88 06
SYNTEGRIS.DE