View
45
Download
0
Category
Preview:
Citation preview
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Do you know what K-Means …for your Business? Cluster-Analysen mit Oracle
Harald Erb Oracle Business Analytics & Big Data
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
• Harald Erb • Principal Sales Consultant
• Information Architect
• Kontakt
+49 (0)6103 397-403
• harald.erb@oracle.com
Kontakt
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
K-Means Verfahren im Oracle-Kontext
3
Data Lab
Innovation
Discovery
Output Events
& Daten
Handlungsrelevante
Informationen Umsetzbare
Erkenntnisse
Data
Reservoir
Data Factory Enterprise
Information Store
(Echtzeit-)
Datenstrom
“Tagesgeschäft”
Unternehmens-
daten (ERP, CRM,
operative Daten)
Externe
strukturierte
Daten
Line of Governance
Intelligente
Prozesse
Event Engine BI &
Analyse
DOAG 2016 Konferenz, Nürnberg
Oracle White Paper - Information Management & Big Data, A Reference Architecture, 2014
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Allgemeines, k-Means Algorithmen bzw. Erweiterungen
Cluster-Analysen mit k-Means
4
• Cluster-Analyse:
Oberbegriff für multivariate Methoden, die versuchen, Strukturen (Cluster) in den Daten zu finden
Methoden basieren meist auf Berechnungen der Distanz der Beobachtungen im multidimensionalen Datenraum
• Typische Fragestellungen:
Abnormale Datenpunkte innerhalb eines großen Data Sets finden
Cluster ähnlicher Textdokumente oder Kundensegmente
Guter Einstieg in Datenanalysen, bevor Klassifikations- oder Regressionsmethoden zum Einsatz kommen
• k-Means Clustering :
gehört zu den Austauschverfahren und ist ein partitionierender Clustering Algorithmus
Unterscheidung. Algorithmus von Lloyd ("der" k-Means Algorithmus) vs. MacQueen (führte mit dem Begriff "k-Means allerdings einen anderen Algorithmus ein)
• Vor- und Nachteile
Einfache und schnelle Implementierung, gute Laufzeiten
Schwachstelle: Die gefundene Lösung hängt stark von den gewählten Startpunkten ab
• Verschiedene k-Means Variationen, u.a.:
k-Medians: verwendet statt der euklidischen Distanz, u.a. die sog. „Manhattan-Distanz“ zur Abstandsberechnung
k-Means++-Algorithmus: wählt die Cluster-Schwerpunkte nicht zufällig, sondern nach Vorschrift
k-Medoids (PAM, Partitioning Around Medoids) minimiert die Distanzen (statt der Summe der Varianzen bei k-Means)
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Ablauf
Prinzip von k-Means
5
1. Initialisierung 2. Klassifizierung 3. Cluster-Zentren (Mean) berechnen 4. Iteration
n Durchgänge bis die Verschiebung der Cluster-Zentren ausreichend klein ist bzw. gegen 0 geht
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 6 DOAG 2016 Konferenz, Nürnberg
Cluster-Analysen für alle
Oracle Data Visualization
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Tool-Überblick
Oracle Data Visualization Desktop
7
Datenquellen anbinden
DOAG 2016 Konferenz, Nürnberg
Data Sets inspizieren, aufbereiten & mit anderen Daten verknüpfen
Daten visualisieren und
übergreifend über alle Data Sets hinweg analysieren
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Out-of-the Box: Analytische Funktionen
Cluster-Analyse mit Oracle Data Visualization Desktop
8
Für Ad-hoc Abfragen und im Data Visualization Tool bekommen Business Analysten mächtige aber leicht anwendbare Rechenfunktionen angeboten:
1. Trend Lines
2. Bin / Histogram
3. Regression Analysis
4. Forecast
5. Cluster
6. Outliers
7. Custom R scripts
Business Analysts
Anwendung der neuen Analytics
Funktionen oder Custom R Scripts
Neue Erkenntnisse erlangen
Data Lab
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Verwendung: Analytics 1-Click-Funktionen
Cluster-Analyse mit Oracle Data Visualization Desktop
9
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 10
Verwendung: cluster()-Funktion im Berechnungseditor
Cluster-Analyse mit Oracle Data Visualization Desktop
Detailinformationen zur Cluster-Bildung sind abrufbar
Verfügbare Methoden für K-Means: MacQueen, Lloyd, Hartigan-Wong, Forgy
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 11
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Cluster-Analyse im Data Lab
Oracle Big Data Discovery vs. BDD-Shell und Jupyter Notebook
DOAG 2016 Konferenz, Nürnberg 12
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Team Sport: Ein Tool für Business Analysts and Data Scientists
Oracle Big Data Discovery
13
DWH / OLTP
Databases
Database Administrator
(Enterprise IT)
Hadoop
Data Integration Specialist
(Enterprise IT)
Data Engineer
Data Science
Discovery Output
Business Analyst
New KPI, Report Requirement
Data Scientist
New Data Set (cleaned / enriched)
Arbeiten in einem Team
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Visual Data Discovery
Oracle Big Data Discovery
14 DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Data Scientist setzt Analyse mit anderen Techniken fort
Oracle Big Data Discovery
16
DWH / OLTP
Databases
Database Administrator
(Enterprise IT)
Hadoop
Data Integration Specialist
(Enterprise IT)
Data Engineer
Data Science
Discovery Output
Business Analyst
New KPI, Report Requirement
Data Scientist
New Data Set (cleaned / enriched)
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
BDD Shell
Oracle Big Data Discovery
DOAG 2016 Konferenz, Nürnberg 17
Liste mit Oracle Big Data Discovery Data Sets
Import der Spark Machine Learning library MLlib
Konvertierung eines Oracle Big Data Discovery Data Sets in einen Apache Spark Dataframe
Import Package NumPy (Numerical Python)
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Direktzugriff auf Oracle Big Data Discovery Data Sets
Jupyter Notebook
18 DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 19
Cluster-Analyse in Echtzeit
Oracle Stream Analytics
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 20
IoT Logical Reference Architecture
Adapted from: Internet of Things (IoT) - are traditional architectures good enough?, 2016, Guido Schmutz, SlideShare
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Oracle Stream Analytics
21
K-Means Machine Learning Pattern
DOAG 2016 Konferenz, Nürnberg
Prinzip der Anomalie-Erkennung (im 2-dimensionalen Raum)
Beispiel: Herstellung von Netzteilen. Ein 2-dimensionaler Raum ist über 2 Variablen (Features) definiert, die Messpunkte liegen üblicherweise in 2 Gruppen. Ein auffälliges Gerät ( x ) liegt zwar im Toleranzbereich aber außerhalb der beiden Gruppen
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Oracle Stream Analytics
22
Event Stream zuweisen
Live Output
Topolgie-Ansicht
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Oracle Stream Analytics vs. Apache Streaming Lösungen
23
Adapted from: Introduction to Streaming Analytics, 2016, Guido Schmutz, SlideShare
DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Hier geht die Analyse erst richtig los
K-Means Cluster Resultate interpretieren
24 DOAG 2016 Konferenz, Nürnberg
www.quora.com/How-do-you-interpret-k-means-clustering-results
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Smart analysieren – mit Vorgehensmodell, Wissen und Oracle Business Analytics
Take away Message
25 DOAG 2016 Konferenz, Nürnberg
Data Analytics Kreislauf ein iterativer Prozess inkl. Fehlschläge! Im Fokus steht dabei immer die fachliche Aufgabe bzw. das Ziel der Analyse
Trotz komfortabler Analyse-Tools kommt Man nicht an solcher Lektüre vorbei, denn....
...K-means clustering (und die Anwendung anderer Algorithmen) is not a free lunch http://varianceexplained.org/r/kmeans-free-lunch
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
Nächster Talk
Wie weiter?
26 DOAG 2016 Konferenz, Nürnberg
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 27
Wie weiter? Oracle Technology Network: Data Visualization Desktop Tool • Software-Download (incl. Oracle R Distribution 3.1.1) öffen
Oracle Technology Network: Data Visualization Public Gallery • Diverse Advanced Analytics Beispiele inkl. Deployments öffen
Oracle BI TECHDEMO YouTube Channel • u.a. mit Sample App Version v607 und Advanced Analytics öffnen
Oracle Business Intelligence 12c Dokumentation • Beschreibung aller logischen Advanced Analytics SQL-Funktionen öffnen
Boris Dahav (Oracle USA) – Blog: • Enabling R and the relevant Analytics functions on OBIEE 12c öffnen
• OBIEE 12c Adv. Analytics Functions – Part 1: Introduction & Trendline öffnen
• OBIEE 12c Adv. Analytics Functions – Part 2: BIN and WIDTH_BUCKET öffnen
• OBIEE 12c Adv. Analytics Functions – Part 3: Forecast öffnen
• OBIEE 12c Adv. Analytics Functions – Part 4: Cluster öffnen
• OBIEE 12c Adv. Analytics Functions – Part 5: Outlier öffnen
• OBIEE 12c Adv. Analytics Functions – Part 6: Regression öffnen
• OBIEE 12c Adv. Analytics Functions – Part 7: EVALUATE_SCRIPT öffnen
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 28 DOAG 2016 Konferenz, Nürnberg
Recommended