Data Warehouse und Data Mining
Seminarvortrag zum Thema:
VonChristian Hägele
gehalten am 30. Januar 2004
Betreuer: Dr. M. Grabert
Einführungsseminar Data Mining
Christian Hägele30. Januar 2004
Universität Ulm
Seite 2Einführung − Problemstellung
Einführung" Unternehmen bekommen eine Unmenge von Daten
aus den unterschiedlichsten Quellen
" Es ist sicherlich auch wichiges Wissen in diesen Daten enthalten
" Dieses Wissen aus der Vielfalt von Daten effektiv zu extrahieren ist ein großes Problem
Christian Hägele30. Januar 2004
Universität Ulm
Seite 3Einführung − Lösungsmöglichkeiten
Lösungsmöglichkeiten" Data Warehouse
� Zum Bereitstellen der Daten
" Online Analytic Processing (OLAP)� Zur Durchführung von Ad−hoc Anfragen in
multidimensionalen Datenmodellen
" Data Mining� Zum Aufdecken von Zusammenhängen auf Grundlage der
zugrunde liegenden Daten
ETL
DataWarehouse
Data Mining
OLAP
Data Marts
OperativeSysteme
ExterneQuellen
ETL − Prozess Datenspeicher Analysetools
Christian Hägele30. Januar 2004
Universität Ulm
Seite 4Einführung − Grafischer Überblick
Christian Hägele30. Januar 2004
Universität Ulm
Seite 5Data Warehouse
Data Warehouse" Was ist ein DW?
� Zentraler Datenpool
" Warum DW? Was sind die Vorteile gegenüber den operativen Systemen?
� DW ist optimiert für die Datenanalyse und Reporting
� DW hat auch historische Daten gespeichert (read−only)
� DW hat alle Daten zentral, aufbereitet, bereinigt und im gleichen Format gespeichert
Christian Hägele30. Januar 2004
Universität Ulm
Seite 6Data Warehouse − Data Marts
Data Marts" Was sind Data Marts?
� Data Marts sind „kleine“ Data Warehouses, die nur einen Teil des Unternehmens erfassen
" Warum Data Marts?
� Passen unter Umständen besser in die unternehmensinterne IT−Struktur
� Schneller zu erstellen als ein „großes“ DW / Performance
E T L
D a taW a r e h o u s e
D a ta M in in g
O L A P
D a ta M a r t s
O p e r a t iv eS y s te m e
E x t e r n eQ u e l l e n
E T L − P r o z e s s D a te n s p e ic h e r A n a ly s e t o o ls
Christian Hägele30. Januar 2004
Universität Ulm
Seite 7Data Warehouse − Data Marts
" Unabhängige Data Marts Vorteile:" Entspricht unter
Umständen der vorhanden IT−Struktur besser
" Schneller zu erstellen als direkt ein großes DW
Nachteile:" 2 malige
Datentransformation" Überschneidungen
zwischen den Data Marts kaum zu vermeiden
Christian Hägele30. Januar 2004
Universität Ulm
Seite 8Data Warehouse − Data Marts
" Abhängige Data Marts Vorteile:" Keine
Überschneidungen" Nur eine Daten−
transformation
Nachteile:" In der Praxis nur mit
viel Mehraufwand durchführbar
Christian Hägele30. Januar 2004
Universität Ulm
Seite 9Data Warehouse − Enstehung eines DW
Entstehung eines DW" Planung
� DW sollte von allen Stellen, die später mit dem DW arbeiten möchten, mitgeplant werden
� Insbesondere sollte auch das Management in die Planungen einbezogen werden
� Einbettung in die unternehmensinterne IT−Struktur
� Abhängige oder unabhängige Data Marts
Christian Hägele30. Januar 2004
Universität Ulm
Seite 10Data Warehouse − ETL
Der ETL−Prozess" Die Extraktionsphase (E)
� Extrahieren der Daten aus den operativen Systemen bzw. externen Quellen
" Die Transformationsphase (T)� Alle Daten auf ein einheitliches Format (z.B. CWM)
bringen� Daten bereinigen
" Die Ladephase (L)
ETL
DataWarehouse
Data Mining
OLAP
Data Marts
OperativeSysteme
ExterneQuellen
ETL − Prozess Datenspeicher Analysetools
Christian Hägele30. Januar 2004
Universität Ulm
Seite 11Anwendungen des DW − OLAP
OLAP" Was ist OLAP? (Online Analytic Processing)
� Multidimensionales Analysewerkzeug
" Was hat OLAP mit Data Warehouse zu tun?
� Ein DW ist ideal für die mehrdimensionalen Analysen eines OLAP−Werkzeugs
Christian Hägele30. Januar 2004
Universität Ulm
Seite 12Anwendungen des DW − OLAP − Werkzeuge
" Darstellung als Datenwürfel Beispielanfrage" Wie viele Produkte
der Produktgruppe G wurden in Region 3 im 2. Quartal 2002 verkauft?
Christian Hägele30. Januar 2004
Universität Ulm
Seite 13Anwendungen des DW − OLAP − Werkzeuge
" Roll−Up, Drill−Down und Drill−Across
Christian Hägele30. Januar 2004
Universität Ulm
Seite 14Anwendungen des DW − OLAP − Werkzeuge
" Pivotierung / Rotierung
" Slicing und Dicing
Christian Hägele30. Januar 2004
Universität Ulm
Seite 15Anwendungen des DW − Data Mining
Data Mining" Was ist Data Mining?
� Analysewerkzeug, das Zusammenhänge und Auffälligkeiten innerhalb der Daten aufdeckt
" Was sind die Vorteile des Data Minings gegenüber anderen Analysetools?
� Data Mining findet selbständig Zusammenhänge innerhalb der Daten
Christian Hägele30. Januar 2004
Universität Ulm
Seite 16Anwendungen des DW − Data Mining
Data Mining" Data Mining vs. OLAP
� OLAP liefert statistische Belege für die Hypothesen eines Anwenders
� Data Mining liefert selbständig neue Zusammenhänge aus den Daten heraus
" Data Mining und DW
� Data Mining innerhalb eines „großen“ DW oder Data Mining innerhalb der vielen „kleinen“ Data Marts
ETL
DataWarehouse
Data Mining
OLAP
Data Marts
OperativeSysteme
ExterneQuellen
ETL − Prozess Datenspeicher Analysetools
Christian Hägele30. Januar 2004
Universität Ulm
Seite 17Fazit − Ende