154
Datenanalyse in der Praxis Bild durch Klicken auf Symbol hinzufügen Bild durch Klicken auf Symbol hinzufügen Bild durch Klicken auf Symbol hinzufügen

Datenanalyse in der Praxis

Embed Size (px)

Citation preview

Page 1: Datenanalyse in der Praxis

Datenanalyse in der Praxis

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 2: Datenanalyse in der Praxis

Agenda Datenanalyse am Beispiel Datenanalyse im Enterprise Bereich

Page 3: Datenanalyse in der Praxis

Datenanalyse am Beispiel Aufgabe:

Wo begegnet uns Datenanalyse ?

Sammelt Beispiele aus eurem Wissen!

Page 4: Datenanalyse in der Praxis

Kursziel Einblick in Datenanalyse

Architekturen kennen Methoden und Konzepte Kennenlernen Gelerntes praktisch ausprobieren Ausprägungen kennen lernen

Page 5: Datenanalyse in der Praxis

Agenda des Kurses Grundlagen von Datenanalyse und Beispiele Datenanalyse in Unternehmen Freie Daten und Datenquellen Datenanalyse am Beispiel mit Power * Andere Formen der Datenanalyse

Page 6: Datenanalyse in der Praxis

Ausprägungen von Datenanalyse

Page 7: Datenanalyse in der Praxis

Data Warehouse Systeme

Motivation

Bild durch Klicken auf Symbol hinzufügenDatenanalyse im

Enterprise Bereich

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 8: Datenanalyse in der Praxis

Folienherkunft Teile der Folien im folgenden Abschnitt stammen aus der Vorlesung

Datenmanagement im Gesundheitssystem aus dem Jahr 2011ff an der Universität Oldenburg, die von mir mitentwickelt und gehalten worden ist

Page 9: Datenanalyse in der Praxis

Beispielhaftes Szenario

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 10: Datenanalyse in der Praxis

Entwicklung DB Schema

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 11: Datenanalyse in der Praxis

DB Nutzung Anfragen:

Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die meisten Kisten?

Probleme Nutzung externer Quellen (Kundendatenbank, Konsumdaten,... )

Daten mit zeitlichem Bezug

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 12: Datenanalyse in der Praxis

Erweitertes Szenario

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 13: Datenanalyse in der Praxis

DB Nutzung II Anfragen

Verkaufen wir in Hannover mehr Bier als in Oldenburg? Wie viel Cola wurde im Sommer in ganz Niedersachsen verkauft? Mehr als Wasser?

Probleme Anfragen über mehrere Datenbanken Anfragen mit Geographiebezug

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 14: Datenanalyse in der Praxis

Mögliche Lösungen Variante 1: „Verteilte DB“

Globale Anfrage über mehrere DBs Views mit Union Nachteil: aufwändige verteilte Anfrageausführung

Variante 2: „Zentrale DB“ Änderungen über einer zentralen DB Nachteil: lange Antwortzeiten im operativen Betrieb

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 15: Datenanalyse in der Praxis

Lösung: Data Warehouse (DWH)

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 16: Datenanalyse in der Praxis

Beispiele aus der Praxis Wal-Mart (www.wal-mart.com) Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse

Größe: ca. 300 TB (2003) [Jim Gray, Computer Zeitung 17/2003] Täglich bis zu 20.000 DW-Anfragen Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten)

Basis für Warenkorbanalyse, Kundenklassifizierung, . . . Ebay

Data Warehouse 6+ Petabyte mit 17 * 10^12 Datensätzen täglich 150 * 10^9 Aktualisierungen 2 Petabyte Data Warehouse zu Analysezwecken [North 2010], [DBMS2 2009]

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 17: Datenanalyse in der Praxis

Beispiele aus der Praxis Bundesagentur für Arbeit Öffentliche Verwaltung Unternehmensweites Data Warehouse

Größe: ca. 17 TB (2010), [Bauer Günzel, 2009]

15.000 Anwender Integriert 80 Datenquellen und führt monatliche Aktualisierungen um Umfang

von 250GB durch

Basis für Arbeitsmarktberichterstattung und Controlling Keine Basisdatenbank fürs DWH DWH wird direkt aus den Externen und internen Quellen geladen

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 18: Datenanalyse in der Praxis

Beispielhafte Fragestellungen Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen Untersuchung der Wirksamkeit von Marketing-Aktionen Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc. Analyse des Lagerbestands Warenkorbanalyse mit Hilfe der Kassenbons Erstellung von Statistiken, Publikationen und Analysen sowie Controlling

Wie viele Personen waren in einem Gebiet arbeitslos? Wie ist die prozentuale Verteilung bezogen auf alle Arbeitssuchenden? Wurden die vordefinierten Ziele zur Vermittlungsquote Bundesweit, Landesweit oder Gebietsweit

erfüllt?

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 19: Datenanalyse in der Praxis

Beispiel Gesundheitswesen Beispiel Epidemiologisches Krebsregister Niedersachsen (EKN)

EKN ist ein DWH (Auswertungsplattform MUSTANG) Quelldaten:

Keine direkten Quellsysteme Explizite Datenerfassung, Meldungen über Neuerkrankungen

Beispiele für Analysefragestellungen: Erfasste Neuerkrankungen Erkrankungsalter Nach Diagnosen

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 20: Datenanalyse in der Praxis

Beispiel EKN Analyse

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 21: Datenanalyse in der Praxis

Technische Einführung

Dr. Yvette Teiken

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 22: Datenanalyse in der Praxis

Agenda Klassische Architekturen / Referenzarchitektur Ausprägungen in der Praxis

Page 23: Datenanalyse in der Praxis

Anforderungen an ein DWH Unabhängigkeit zwischen Datenquellen und Analysesystemen, Daten im

DWH sind redundant Dauerhafte Bereitstellung integrierter Daten Einheitliche Sicht auf bereitgestellte Daten Mehrfachverwendung der bereitgestellten Daten Durchführung beliebiger Anfragen Erweiterbarkeit (insb. neue Datenquellen) Automatisierung

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 24: Datenanalyse in der Praxis

Definition Data Warehouse (1) Data Warehouse (DWH) =

“A subject oriented, integrated, nonvolatile, time variant collection of data organized to support management needs” [Inmon 1993]

Merkmale: Themenorientierung Integration und Vereinheitlichung Dauerhaftigkeit, Stabilität Zeitorientierung der Informationen Analyse und Entscheidungsunterstützung für das Management

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 25: Datenanalyse in der Praxis

Charakteristika von DWH Themenorientierung (subject-oriented):

Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels (Produkte, Kunden)

Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und

extern)

Nicht-flüchtige Datenbasis (non-volatile): stabile, persistente Datenbasis Daten im DWH werden nicht mehr entfernt oder geändert

Zeitbezogene Daten (time-variant): Speicherung über längeren Zeitraum Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 26: Datenanalyse in der Praxis

Definition Data Warehouse (2) Data Warehouse (DWH) =

“Physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt. Im Unterschied zur Basisdatenbank, steht der Auswertungsaspekt (analyseorientiertes Schema) im Mittelpunkt, der sich oft in einem multidimensionalen Schema widerspiegelt. Häufig, aber nicht notwendigerweise findet eine Historisierung der Daten statt, indem in periodischen Abständen Daten hinzugeladen, aber nicht modifiziert werden.” [Bauer Günzel 2009]

Wichtige Unterscheidung zu Inmon: Es fehlt „to support management needs“ Z.B. Datenanalyse von Patientendaten fördert Behandlungswissen, nicht

Management

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 27: Datenanalyse in der Praxis

Weitere Begriffe Data Warehousing

„Data Warehousing ist kein Produkt, sondern der Prozess der Zusammenführung und des Managements von Daten aus verschiedenen Quellen mit dem Zweck, eine einheitliche, detaillierte Sicht auf den einzelnen Geschäftsbereich oder das gesamte Unternehmen zu erhalten.“[Jung, Winter 2000]

„alle Schritte des Datenbeschaffungsprozesses, das Speichern und Analysieren der Daten“ [Bauer Günzel 2009]

Data Mart externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch

OLAP (Online Analytical Processing) (Paradigma) explorative, interaktive Analyse auf Basis des konzeptuellen

Datenmodells

Business Intelligence ….

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 28: Datenanalyse in der Praxis

Referenzarchtiektur nach [Bauer Günzel 2001]

02.05.2023Dipl.-Inform. Yvette Teiken

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse

Extraktion Laden Laden Analyse

Transformation

Monitor

Data-Warehouse-Manager

Metadaten-Manager

RepositoryDatenflussKontrollfluss Data-Warehouse-System

Bereich der Datenbeschaffung

Page 29: Datenanalyse in der Praxis

Bild durch Klicken auf Symbol hinzufügenBedeutung für die Praxis Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 30: Datenanalyse in der Praxis

Referenzarchitektur Jede Datenanalyse basiert auf dieser Architektur

Selten vollständig Techniken und Konzepte sind identisch, egal

EDW, PDW, Analytisches Data Warehouse Big Data Desktop Analyse

Page 31: Datenanalyse in der Praxis

Beispiel aus der Praxis I Krankenkasse

Besonderheit: Gesundheitsrelevante Daten Fachbereich

Page 32: Datenanalyse in der Praxis

Beispiel aus der Praxis II Handelskonzern

Besonderheit: Lagerlogistik und Bestellwesen

Page 33: Datenanalyse in der Praxis

Beispiel aus der Praxis III Krankenkasse

Besonderheit: Spezialauswertung für Leihprozesse

Page 34: Datenanalyse in der Praxis

Beispiel aus der Praxis IV Amazon Redshift http://aws.amazon.com/de/redshift/ Frage:

Was wird angeboten? Wobei hilft es? Welche Probleme löst es nicht

Page 35: Datenanalyse in der Praxis

BI-Reifegradmodelle

Dipl.-Inform. Yvette Teiken 02.05.2023

Page 36: Datenanalyse in der Praxis

Bild durch Klicken auf Symbol hinzufügenDatenanalyse am Beispiel Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 37: Datenanalyse in der Praxis

Self Service BI Idee: Nutzer ohne große BI Infrastruktur Daten Analysieren zu lassen

ExtrahierenSäubernTransformierenAuswertenTeilen

Page 38: Datenanalyse in der Praxis

Power BI Neue Strategie für Datenanalyse bei Microsoft Grundlage: Microsoft Excel Bestandteile

Power Query (Extract und Transform) Power Pivot (Transformieren) Powerview (Auswerten) Power Map (Geografische Analyse)

Vorteil In vielen Firmen verfügbar Nutzer sind vertraut mit Verwendung Lässt sich in Infrastruktur integrieren

Page 39: Datenanalyse in der Praxis

Power Query I Laden von verschiedenen Datenquellen Interaktive und wiederholbare Anfragen erstellen

Page 40: Datenanalyse in der Praxis

Power Query II

Page 41: Datenanalyse in der Praxis

Datenquelle Web: wikipedia

http://de.wikipedia.org/wiki/Krankenhaus

Page 42: Datenanalyse in der Praxis

Krankenhaus Daten laden I

Page 43: Datenanalyse in der Praxis

Krankenhaus Daten laden II

Page 44: Datenanalyse in der Praxis

Krankenhaus Daten auswerten

Page 45: Datenanalyse in der Praxis

Demohttp://de.wikipedia.org/wiki/Krankenhaus

Page 46: Datenanalyse in der Praxis

Laden aus Api: XML

http://daten.berlin.de/datensaetze/liste-der-badestellen-badegew%C3%A4sserqualit%C3%A4t

Page 47: Datenanalyse in der Praxis

XML Struktur Analysieren

http://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=

Page 48: Datenanalyse in der Praxis

Drill Down zur Tabelle

Page 49: Datenanalyse in der Praxis

Demohttp://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=

Page 50: Datenanalyse in der Praxis

Weitere Anbindungsmöglichkeiten

Page 51: Datenanalyse in der Praxis

Bild durch Klicken auf Symbol hinzufügenTransformation Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 52: Datenanalyse in der Praxis

Transformations

Page 53: Datenanalyse in der Praxis

Große Übung Datenanalyse

Page 54: Datenanalyse in der Praxis

Große Übung Ziel: Analyse der Straßenunfälle in UK Ausfälligkeiten

Tage Alter Straßen Tageszeiten

Beispiel stammt von Chris Webb (http://blog.crossjoin.co.uk/) Einreichung zum PowerBi Wettbewerb. Demo von ihm: https://www.youtube.com/watch?v=War1pSs2LAM

Page 55: Datenanalyse in der Praxis

Vorgehen

Extrahieren: Daten laden und dem Modell hinzufügen

Säubern: Nicht notwendig Transformieren

Zeit Hierarchie Dimensionstabellen verknüpfen

Auswerten Interaktive Diagramme erstellen

ExtrahierenSäubernTransformierenAuswertenTeilen

Page 56: Datenanalyse in der Praxis

Datenintegration Lade Daten mittels Ordner Ins Datenmodell laden Verknüpfen Ein Jahr sollte zunächst reichen

Page 57: Datenanalyse in der Praxis

Ergebnisse prüfen

Page 58: Datenanalyse in der Praxis

Power View aufrufen

Page 59: Datenanalyse in der Praxis

Ergebnis Datenintegration

Page 60: Datenanalyse in der Praxis

Aggregation Verdichten oder detaillieren Daten Beliebtes Beispiel Zeit

Jahr Monat Tag

Page 61: Datenanalyse in der Praxis

Dimensionstabelle Zeit

Page 62: Datenanalyse in der Praxis

Dimensionstabelle Zeit Zeit zum Datenmodell hinzufügen Verknüpfung mit Datensätzen auf niedrigster Ebene Erstellung von Hierarchien

Page 63: Datenanalyse in der Praxis

Datenmodell mit Zeitdimension

Page 64: Datenanalyse in der Praxis

Transformieren Aufgaben

Daten in das Ziel Format übertragen Daten vereinheitlichen (Geschlecht) Daten auflösen

Page 65: Datenanalyse in der Praxis

Dimensionstabellen I

Page 66: Datenanalyse in der Praxis

Dimensionstabellen II Müssen zum Datenmodell hinzugefügt werden Müssen verknüpft werden IDs ausblenden Dimensionen nach Analysezweck auswählen

Page 67: Datenanalyse in der Praxis

Vollständiges Modell mit Dimensionen

Page 68: Datenanalyse in der Praxis

Meine Ergebnisse

Page 69: Datenanalyse in der Praxis

Unfälle nach Jahr als Tabelle

Page 70: Datenanalyse in der Praxis

Vergleich über Jahre

Page 71: Datenanalyse in der Praxis

KPI definieren

Page 72: Datenanalyse in der Praxis

Analyse nach Alter

Page 73: Datenanalyse in der Praxis

Farbscala

Page 74: Datenanalyse in der Praxis

Gefährliche Tage

Page 75: Datenanalyse in der Praxis

Fußgängerunfälle

Page 76: Datenanalyse in der Praxis

Auswertung nach Wochentagen

Page 77: Datenanalyse in der Praxis

Bild durch Klicken auf Symbol hinzufügenDaten und freie Daten Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 78: Datenanalyse in der Praxis

Woher kommen Daten Offene Datenquellen (Open data) Non Open Data

Page 79: Datenanalyse in der Praxis

Open (Government) Data

„Offene Daten sind Daten, die von jedem/r frei benutzt, weiterverwendet und geteilt werden können – die einzige Einschränkung betrifft die Verpflichtung auf die Nennung des Urhebers“

Page 80: Datenanalyse in der Praxis

10 Prinzipien

Vollständigkeit Primärquelle Zeitliche Nähe Leichter Zugang Maschinenlesbarkeit

Diskriminierungsfreiheit Verwendung offener Standards Offene Lizenzierung Dauerhaftigkeit Kostenfreiheit

http://sunlightfoundation.com/policy/documents/ten-open-data-principles/

Page 81: Datenanalyse in der Praxis

Warum ?

Neelie Kroes EU Kommissarin für digitale

Agenda

„Geben Sie ihre Daten frei, um Arbeitsplätze und Wachstum zu schaffen“

Page 82: Datenanalyse in der Praxis

Nutzen Wirtschaftlicher Nutzen Bürger-Nutzen Transparenz Verwaltung

Page 83: Datenanalyse in der Praxis

Arten von Daten 1. Umweltdaten (Feinstaub, CO2, Pollen)

2. Märkte (Wochen-, Floh-, Weihnachtsmärkte)3. Events (Straßenfeste, Konzerte, Lange Nacht der …, Sportereignisse)4. Entsorgung (Termin in meiner Straße, Recyclinghöfe, Containerstandorte, Sondermüll)5. Infrastruktur (Radwege, Toiletten, Briefkästen, Geldautomaten, Telefone)6. Verkehr (Baustellen, Staus, Sperrungen)7. Nahverkehr (Fahrpläne, Verspätungen, Zugausfälle, Sonderfahrten)8. Öffnungszeiten (Bibliotheken, Museen, Ausstellungen)9. Verwaltung (Formulare, Zuständigkeiten, Ämter, Öffnungszeiten)10. Verbraucherberatung, Schuldnerberatung11. Familie (Horte, Kindergärten)12. Bildung (Schulen, Volkshochschulen, Hochschulen und Unis)13. Wohnen (Wohngeld, Mietspiegel, Immobilien, Grundstückspreise)14. Gesundheit (Krankenhäuser, Apotheken, Notdienst, Spezialisten, Beratungsstellen, Blutspende)15. Haustiere (Tierärzte, Tierheim, Tierpflege)16. Kontrolle (Badegewässer, Lebensmittel, Gaststätten, Preise)17. Recht (Gesetze, Vorschriften, Beratung, Schlichter, Gutachter)18. Polizeiticker (aktuelle Vorfälle, Fahndung, Kriminalitätsatlas)19. Stadtplanung (Flächennutzungsplan, Bauvorhaben, Verkehr, Flughäfen)20. Bevölkerung (Zahl, regionale Verteilung, Demografie, Kaufkraft, Beschäftigung/Arbeitslosigkeit, Kinder)21. Finanzdaten (Budgets, Aufträge, Verträge)

Page 84: Datenanalyse in der Praxis

Crowd Sourcing http://codefor.de/

Page 85: Datenanalyse in der Praxis

Beispiel Berlin

http://daten.berlin.de/datensaetze

Page 86: Datenanalyse in der Praxis

Open Data Berlin 885 Datensätze in 22 Kategorien Beispiele

Finanzamt Atlas Berlin Straßen und Volksfester Liste der Badestellen Denkmalliste Arbeitslosenquote

Page 87: Datenanalyse in der Praxis

Weltbank Idee: Globale Zusammenhänge verstehen

Page 88: Datenanalyse in der Praxis

Datenportal für Deutschland

https://www.govdata.de/

Page 89: Datenanalyse in der Praxis

Datenportal der EU

http://publicdata.eu/

Page 90: Datenanalyse in der Praxis

Datenportal UK

http://data.gov.uk/

Page 91: Datenanalyse in der Praxis

(Inoffizieller) Metakatalog für Open Data in Deutschland

https://offenedaten.de/

Page 92: Datenanalyse in der Praxis

Open Data Klassifikation

http://5stardata.info/

Page 93: Datenanalyse in der Praxis

1 Stern Daten sind verfügbar, egal in welchem Format, aber nutzt offene Lizenz

Page 94: Datenanalyse in der Praxis

1 Stern - Vorteile

Als Datenkonsument Daten können angesehen werden Drucken Lokal speicherbar Ändern wie man will Man kann es jedem teilen

Als Daten Bereitsteller Einfach zu veröffentlichen Man muss die Verwendung nicht

erläutern

Page 95: Datenanalyse in der Praxis

2 Sterne Daten sind als strukturierte Daten verfügbar

Z. B. Excel statt einem pdf

Page 96: Datenanalyse in der Praxis

2 Sterne Vorteile

Als Datenkonsument Mann kann alles wie unter 1 Stern

und Daten können direkt mit Software

verarbeitet werden (Berechnungen, Visualisierungen)

Es kann zu anderen Formaten exportiert werden

Als Daten Bereitsteller Publizieren ist immer noch einfach

Page 97: Datenanalyse in der Praxis

3 Sterne Es werden urheberrechtliche nicht geschützte Formate verwendet

CSV statt Excel

Page 98: Datenanalyse in der Praxis

3 Sterne Vorteile

Als Datenkonsument Alles was mit 2 Sterne geht Daten können auf beliebige Weise

manipuliert werden Kann mit beliebiger Software

manipuliert werden

Als Daten Bereitsteller Es werden ggf. Plug-Ins zum

Publizieren benötigt Immer noch relativ einfache

Bereitstellung

Page 99: Datenanalyse in der Praxis

4 Sterne Verwende Uris um Daten zugreifbar zu machen, damit Leute das verweisen

können

Page 100: Datenanalyse in der Praxis

4 Sterne Vorteile

Als Datenkonsument Daten können verlinked werden Man kann es Bookmarken Teile der Daten wieder verwenden Kann Daten mit anderen Daten

kombinieren

Als Daten Bereitsteller Granularere Kontrolle über Daten Andere Bereitsteller können die

Daten verlinken

Page 101: Datenanalyse in der Praxis

5 Sterne Verlinkte Daten zu anderen und liefere Kontext

Page 102: Datenanalyse in der Praxis

5 Sterne Vorteile

Als Datenkonsument Mehr verknüpfte Daten finden wenn

man Daten verwendet Man muss mit kaputten Links

umgehen Sicherheitsrisiko wenn Daten von

fremden Quellen importiert werden

Als Daten Bereitsteller Daten sind entdeckbar Wert der Daten erhöht sich Man profitiert genauso wie der

Konsument

Page 103: Datenanalyse in der Praxis

Übung zu Open Data Ziel: Überblick über offene Datenquellen zu bekommen Fragen

Welche Art von Daten werden bereitgestellt? Welche Daten findet ihr besonders interessant und warum? Wie granular sind die Daten? Wie sind die zugänglich? Bewertung der Datenquelle Präsentation im Plenum

Gruppen Global: Weltbank.org UK: Data.gov Deutschland: govdata.de EU: http://opendata.eu/

Page 104: Datenanalyse in der Praxis

Bild durch Klicken auf Symbol hinzufügenNon Open Data Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 105: Datenanalyse in der Praxis

Andere Datenquellen Unternehmensdaten

Internet Dienste Haben meistens eine API Registrieren Zugriff über Web Schnittstellen

Page 106: Datenanalyse in der Praxis

Facebook Graph API

Page 107: Datenanalyse in der Praxis

Demo Facebook API me erminasde/posts ewebaskets/posts

Page 108: Datenanalyse in der Praxis

Beispiel: Social Media AnalyseAuswertung von sozialen Netzwerken

• Untersuchung des Medien-Konsumverhaltens • Quantitativ-statistische Auswertung von Kommunikationsinhalten• Erkennung von Trends, Influencern und Konkurrenzaktivitäten• Nutzung von Facebook, Twitter und anderen Sozialen Netzwerken als Datenquelle• Hohes Datenwachstum• Semi-strukturierte Datenformate• Häufige Änderungen der Datenstrukturen

Page 109: Datenanalyse in der Praxis

Quelle: Facebook Datenströme

Page 110: Datenanalyse in der Praxis

Verabeitung der Daten mit Hadoop

Page 111: Datenanalyse in der Praxis

Analyse der Ergebnisse mit Excel

Page 112: Datenanalyse in der Praxis
Page 113: Datenanalyse in der Praxis

Andere Visualisierung

Page 114: Datenanalyse in der Praxis

Twitter

Page 115: Datenanalyse in der Praxis

Twitter Visualisierung

http://tweetping.net/

Page 116: Datenanalyse in der Praxis

Twitter: Mehr lernen

http://blogs.ischool.berkeley.edu/i290-abdt-s12/

Page 117: Datenanalyse in der Praxis

fitbit

Page 118: Datenanalyse in der Praxis

Trakt.tv

Page 119: Datenanalyse in der Praxis

Weitere Quellen http://www.programmableweb.com/

Page 120: Datenanalyse in der Praxis

Bild durch Klicken auf Symbol hinzufügenDatenanalyse mit Tableau Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 121: Datenanalyse in der Praxis
Page 122: Datenanalyse in der Praxis
Page 123: Datenanalyse in der Praxis
Page 124: Datenanalyse in der Praxis
Page 125: Datenanalyse in der Praxis

Big Data

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 126: Datenanalyse in der Praxis

Agenda Überblick Was ist Hadoop Hive Map Reduce Pig

Page 127: Datenanalyse in der Praxis

Die 3 Vs

Quelle: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data

Page 128: Datenanalyse in der Praxis

Was ist Big Data ?

Page 129: Datenanalyse in der Praxis

Was ist Big Data?

Page 130: Datenanalyse in der Praxis

Warum Big Data –Neue Zahlen 2008: Google processes 20 PB a day 2009: Facebook has 2.5 PB user data + 15 TB/day 2009: eBay has 6.5 PB user data + 50 TB/day 2011: Yahoo! has 180-200 PB of data 2012: Facebook ingests 500 TB/day

Page 131: Datenanalyse in der Praxis

Datenspeicherung Data storage is not trivial Data volumes are massive Reliably storing PBs of data is challenging Disk/hardware/network failures Probability of failure event increases with number ofmachines For example:

1000 hosts, each with 10 disks a disk lasts 3 year how many failures per day?

Page 132: Datenanalyse in der Praxis

Ursprünge Hadoop is an open-source implementation based on GFS and MapReduce from

Google Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. (2003) The Google File System Jeffrey Dean and Sanjay Ghemawat. (2004) MapReduce: Simplified Data Processing on Large Clusters OSDI 2004

Page 133: Datenanalyse in der Praxis

Architektur

Page 134: Datenanalyse in der Praxis

Eigeschaften A distributed file system Redundant storage Designed to reliably store data using commodity hardware Designed to expect hardware failures Intended for large files Designed for batch inserts The Hadoop Distributed File System

Page 135: Datenanalyse in der Praxis

HDFS - files and blocks Files are stored as a collection of blocks Blocks are 64 MB chunks of a file (configurable) Blocks are replicated on 3 nodes (configurable) The NameNode (NN) manages metadata about files and blocks The SecondaryNameNode (SNN) holds a backup of the NN data DataNodes (DN) store and serve blocks

Page 136: Datenanalyse in der Praxis

Replication Multiple copies of a block are stored Replication strategy:

Copy #1 on another node on same rack Copy #2 on another node on different rack

Page 137: Datenanalyse in der Praxis

Schreiben in HDFS

Page 138: Datenanalyse in der Praxis

Lesen in HDFS

Page 139: Datenanalyse in der Praxis

Ausfall Datenknoten DNs check in with the NN to report health Upon failure NN orders DNs to replicate under-replicated blocks

Page 140: Datenanalyse in der Praxis

Arbeiten mit HDFS

Page 141: Datenanalyse in der Praxis

Name Node Tool for browng HDFS

Page 142: Datenanalyse in der Praxis

Job Tracker

Page 143: Datenanalyse in der Praxis

Hive

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 144: Datenanalyse in der Praxis

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing

(MapReduce)

Scripting(Pig)

NoSQL Database(HBase)

Metadata(HCatalog)

Data Integration( ODBC / SQOOP/ REST)

Relational

(SQL Server)

Machine Learning(Mahout)

Graph(Pegasus)

Stats processin

g(RHadoo

p)

Event Pipeline(Flum

e)

Active Directory (Security)

Monitoring & Deployment

(System Center)

C#, F#, .NET

JavaScript

Pipeline / workflow(Oozie)

Azure Storage Vault (ASV)

PDW Polybase

Business Intelligence (Excel, Power View, SSAS)

World's Data (Azure Data Marketplace)

Event Driven

Processing

LegendRed = Core HadoopBlue = Data processingPurple = Microsoft integration points and value addsOrange = Data MovementGreen = Packages

HDInsight / Hadoop Eco-System

Page 145: Datenanalyse in der Praxis

Beispiel: Social Media AnalyseAuswertung von sozialen Netzwerken

• Untersuchung des Medien-Konsumverhaltens • Quantitativ-statistische Auswertung von Kommunikationsinhalten• Erkennung von Trends, Influencern und Konkurrenzaktivitäten• Nutzung von Facebook, Twitter und anderen Sozialen Netzwerken als Datenquelle• Hohes Datenwachstum• Semi-strukturierte Datenformate• Häufige Änderungen der Datenstrukturen

Page 146: Datenanalyse in der Praxis

Quelle: Facebook Graph API

Page 147: Datenanalyse in der Praxis

Verabeitung der Daten mit Hadoop

Page 148: Datenanalyse in der Praxis

Analyse der Ergebnisse mit Excel

Page 149: Datenanalyse in der Praxis

Eigene Map Reduce Tasks

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Page 150: Datenanalyse in der Praxis

Beispiel: Analyse von FreitextTextanalye von Sitzungs- protokollen

• Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten• Schnelle Erkennung von Kerninformationen der verarbeiteten Texte• Erkennung nicht bekannter Zusammenhänge• Hypothesen generieren, überprüfen und schrittweise verfeinern• Extraktion von Haltungen gegenüber einem Thema durch semantische Algorithmen• Hohes Datenwachstum

Page 151: Datenanalyse in der Praxis

Quelle: Plenarprotokolle Bundestag

Page 152: Datenanalyse in der Praxis

Verarbeitung der Daten mit Hadoop

Page 153: Datenanalyse in der Praxis

Analyse der Ergebnisse mit Excel

Page 154: Datenanalyse in der Praxis

Zusammenfassung Coole Vorlesung zum Weiter machen http://blogs.ischool.berkeley.edu/i290-abdt-s12

/

Niemand in Deutschland hat Big Data!