Data Mining für Business Intelligence
Data Mining for Business Intelligence
Stefan Beranek
Gudrunstrasse 185/1/19
A-1100 Wien, AUSTRIA
Telefon: +43-676-6675640
E-Mail: [email protected]
2
Data Mining für Business Intelligence
Data Mining for Business Intelligence
Stichworte:
Data Mining, Business Intelligence, Anwendungen, E-Marketing, Entwicklung, Wissensbasis
Keywords:
Data Mining, Business Intelligence, application, development, e-marketing, knowledge base
Zusammenfassung
Dieser Text gibt einen groben Überblick über Business Intelligence mit einigen üblichen
Rahmenmodellen, anschlieÿend wird das Gebiet des Data Minings aufgearbeitet, seine Ent-
wicklung und wie man Daten als Datenbasis dafür sammeln kann, sowie die verschiedenen
Vorgangsweisen um mit dieser Datenbasis zu arbeiten und daraus Wissen zu gewinnen, um
das Gebiet mit einigen Anwendung wie im Bereich der Universität oder des E-Marketings
sowie im Bereich der Abschätzung des Wertes eines Kunden für einen Mobilfunkbetreiber
abzurunden.
Abstract
This text gives a rough overview of basic models of Business Intelligence. After this it starts
with the basis of Data Mining, especially its historical development, how to collect data to
use as a data base for later knowledge deduction and how to use this data basis. Further more
this article continues with a description how these technices are applied in special applications
like in an university or in E-Marketing or in a mobile communications company.
Inhaltsverzeichnis
1 Einleitung 7
2 Business Intelligence 11
2.1 Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Rahmenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Balanced Scorecard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Data Monitoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Supply Chain Management (SCM) . . . . . . . . . . . . . . . . . . . . 15
2.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Data Mining 19
3.1 Der Beginn des Data Minings . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Data Mining im speziellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Data Mining als Interdisziplinäres Fach . . . . . . . . . . . . . . . . . . . . . . 21
3.4 Datenbasis und mögliche Mustervorkommen . . . . . . . . . . . . . . . . . . . 22
3.4.1 Relationale Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.2 Datawarehouses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.3 Transaktionsdatenbanken . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.4 Moderne Datenbanksysteme . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5 Verwendete Vorgangsweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5.1 Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5.2 Wissensableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Art der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.7 Vorbereitung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.8 Anwendungen und die Zukunft des DM . . . . . . . . . . . . . . . . . . . . . . 28
3.8.1 Data Mining in der Anwendung an der Universität . . . . . . . . . . . 28
3.8.2 Data Mining in der Anwendung im E-Marketing . . . . . . . . . . . . . 28
3.9 Die praktische Anwendung und die Zukunft . . . . . . . . . . . . . . . . . . . 31
3
4 INHALTSVERZEICHNIS
4 Data Mining in der Business Intelligence 33
4.1 Der Wert des einzelnen Kunden für einen Mobilfunkbetreiber . . . . . . . . . . 33
4.1.1 Verweildauer des Kunden . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.2 Zeitwertberechnung eines Kundenvertrags . . . . . . . . . . . . . . . . 34
4.1.3 Abschätzen des Erfolgs eines Kundenbindungsprogrammes . . . . . . . 34
4.1.4 Andere Kampagnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5 Schlussworte 37
INHALTSVERZEICHNIS 5
Vorwort
Dieser Text entstand im Rahmen des Wirtschaftsuniversitätsfaches �Seminar aus Informati-
onswirtschaft� von o. Univ. Prof. Dr. Wolfgang Janko und Priv. Doz. Dr. Michael Hahsler im
Sommersemester 2007.
Mein Dank gilt im besonderen meinen beiden Freunden Mag. rer. nat. Stefan Padlesak
und Mag. phil. Robert Koch die mir bei der Ausarbeitung dann und wann jeweils als Lektoren
hilfreich zur Seite standen.
6 INHALTSVERZEICHNIS
Kapitel 1
Einleitung
Der Begri� Intelligence bedeutet nicht, wie so oft von non-native speakern fälschlicherweise
gedacht, Intelligenz. Jedoch ist dieser Begri� in der praktischen Ausübung des Intelligence
gatherings, dass heiÿt des Einsammelns von Informationen, nicht nur peripher mit diesem
Wort verbunden. Denn, wie später in der Arbeit noch in ausführlicher Form dargestellt, ist es
die intelligente Einholung von gewissen Informationen und dann fasst noch essentieller für den
positiv zu absolvierenden Arbeitsprozess, die intelligente Herausholung der für die Aufgabe
wertvollen Informationen intelligent auszuwerten. Wie sich dann noch herausstellen wird, ist
es gerade dieser Punkt der besondere Beachtung �nden sollte und letztendlich auch muss,
damit man das Ziel der Anwendung zu einem gütlichen Ende bringen kann.
So ist auch der Name einer der verschiedenen Nachrichtendienste zu verstehen, der Cen-
tral intelligence Agency, kurz CIA. Diese Einheit versucht auch anhand von Informationen
verwendbare Lagebilder zu erstellen. Allgemein kann man sagen, dass Nachrichtendienste In-
formationen zu verschiedenen Themenbereichen sammeln (Auÿen-, Innen- und Sicherheitspo-
litik stehen dabei im Mittelpunkt), welche unterstützend für die Urteils�ndung der politischen
Führung verwendet werden. Fehler können groÿe Auswirkungen haben, wie beispielsweise die
unzureichenden Information im Vorfeld des Irakkrieges.
Ähnlich verhält es sich natürlich auf einem anderen Gebiet mit der Business Intelligence.
Hier legt man Hauptaugenmerk auf das Geschäft, in der Durchführung der Aufgabe lassen
sich aber Gemeinsamkeiten nicht von der Hand weisen. Den auch in dieser Sphäre können
Fehler ungeahnte negative Auswirkungen haben, diese auszuschliessen oder zumindest auf ein
geringes Maÿ zu reduzieren ist eines der hauptsächlich verfolgten Ziele innerhalb des Data
Minings bzw. der Business Intelligence.
Es geht, wie so oft im Leben und vor allem auch in der Wirtschaft, vor allem um Wissen,
am besten auch noch, dass man mehr als der wirtschaftliche Kontrahent weiss. Klaus North
meint dazu im Buch Wissensorientierte Unternehmensführung (North, 1999):
�Die Bedeutung der Ressource �Wissen� wird in Volkswirtschaften und Un-
7
8 KAPITEL 1. EINLEITUNG
Abbildung 1.1: Die Wissenstreppe von Klaus North zeigt die Schritte vom Zeichen als Basis-einheit der Daten bis zur gesteigerten Wettbewebsfähigkeit (In Anlehnung an North, 1999)
ternehmen zunehmend erkannt. Die gesellschaftlichen und organisatorischen Rah-
menbedingungen zur Generierung und e�ektiven Nutzung von Wissen werden in
der nahen Zukunft die Wettbewerbsfähigkeit bestimmen. Ziel wissensorientierter
Unternehmensführung ist es, aus Informationen Wissen zu generieren, und dieses
Wissen in nachhaltige Wettbewerbsvorteile umzusetzen, die als Geschäftserfolge
messbar werden.�
In diesem Zusammenhang entwickelte er auch die allgemein gebräuchliche Wissenstreppe
(siehe Abb. 1.1), die darstellen soll, wie es gelingen kann Wissen zu generieren und e�ektiv
nutzbar zu machen.
Im Bereich der Informatik kann dabei dieser Prozess automatisiert werden, hierbei ist
natürlich die richtige Wahl der Kennzahlen und Kategorisierungen im Allgemeinen notwendig.
Denn wie dargestellt macht es de�nitiv keinen Sinn die richtigen Fragen zu stellen, aber die
gesammelten Informationen nicht zu nützlichen und brauchbaren Antworten zu verarbeiten
bzw. zu formen. Dies ist die Problemstellung und ich ho�e, dass es mir gelingen wird bezüglich
der Business Intelligence und dem damit in Zusammenhang stehenden Data Mining etwas Licht
in die Sache zu werfen.
Das ein Run auf diese Art der Intelligence eingesetzt hat, zeigen die zuletzt erhobenen
Daten, nachdem im Jahr 2007 gemäÿ den Äusserungen von diversen Analysten und Experten
der Informationstechnologie Branche ein Gesamtumsatz des Marktes von insgesamt bis zu 1,76
Milliarden Euro nicht unmöglich zu erreichen ist (Wikipedia.org, 2007a). Einige der weltweit
gröÿten Firmen bieten als Teil ihres Anbotportfolios auch solche Dienste an, wie zum Beispiel
Microsoft, Oracle, oder ein anderer Branchenprimus SAP. Anhand dieser Au�istung und dem
feststellen des Marktpotenzial wird erst so richtig klar, dass man nicht von einem Phantom
innerhalb der Computergemeinschaft sprechen kann und sich genaues ansehen dieser Sphäre
lohnt.
9
Meine Arbeit wird das Rad nicht neu er�nden, dennoch ho�e ich einen Einstieg in das
Thema zu scha�en, so dass der geneigte Leser am Schluss ein besseres Verständnis über die
essentielle Bedeutung dieser Thematik hat. Die Geschwindigkeit mit der sich dieser Teilbe-
reich weiterentwickelt macht es geradezu unmöglich das Feld zu hundert Prozent abzudecken,
gewisse Grundaussagen möchte ich aber in meiner Arbeit nicht verschweigen. Probleme sollen
aufgezeigt werden und theoretische Grundbegri�ichkeiten in der notwendigen Ausführlichkeit
aufgezeigt werden. Natürlich kann man in der Kürze meiner Arbeit für dieses Seminar nicht
alles mit der Aufmerksamkeit versehen die gewisse Teile vielleicht benötigt hätten, unterm
Strich soll aber eine gewisse Klarheit über die Thematik der Business Intelligence und die des
Data Minings entstehen und das ganze könnte so als Einstieg in diese Bereiche dienen.
Abschlieÿend möchte ich dem Leser dieser Arbeit nur schon vorab ein letztes Mal von der
Wichtigkeit diese Faches überzeugen, allein mit der Zahl 1960, da diese den Begin der Ära
des Data Minings festsetzt (Wikipedia.org, 2007a). Man hat es also nicht mit einem Modegag
zu tun sondern mit etwas handfestem, dass die Geschäftsbranche schon seit nunmehr fast
50 Jahre beschäftigt. Da dies so festzustellen ist sollte man dem Thema auch mit dem ihm
gebührenden Respekt gegenüberstehen. Ich werde versuchen in der Arbeit meinen Teil dazu
beizutragen und ho�e dem Leser zu einem kurzweiligen Einstieg zu verhelfen. Viel Spaÿ!
10 KAPITEL 1. EINLEITUNG
Kapitel 2
Business Intelligence
Zur Einleitung in das Themengebiet hier ein Zitat des Begri�es Business-Intelligence aus
Wikipedia (Wikipedia.org, 2007a)
�Der Begri� Business-Intelligence (aus dem englischen �Business Intelligence�
= Geschäftsanalyse, geschäftliche Nachforschung, geschäftliche Erkenntnisse, Abk.
BI) wurde Anfang bis Mitte der 1990er Jahre populär und bezeichnet Systeme und
Prozesse zur systematischen Analyse eines Unternehmens und seines kommerziellen
Umfeldes�meist mit Computersystemen. Ziel ist die Gewinnung von Erkenntnissen,
die in Hinsicht auf die Unternehmensziele bessere operative, taktische oder strate-
gische Entscheidungen ermöglichen. Dies geschieht mit Hilfe analytischer Konzepte
und IT-Systeme, die Daten über das eigene Unternehmen, die Mitbewerber oder
Marktentwicklung im Hinblick auf den gewünschten Erkenntnisgewinn auswerten.
Mit den gewonnenen Erkenntnissen können Unternehmen ihre Geschäftsabläufe,
Kunden- und Lieferantenbeziehungen pro�tabler machen, Kosten senken, Risiken
minimieren und die Wertschöpfung vergröÿern. Der Begri� wird dem Fachgebiet
der Wirtschaftsinformatik zugerechnet.�
Business Intelligence (kurz BI) Anwendungen und Technologien ermöglichen Firmen besser
informierte Wirtschaftsentscheidungen zu tre�en und geben ihnen damit einen klaren Wettbe-
werbsvorteil. Damit erlauben sie es, Firmen interne und externe Informationen zu extrapolieren
und dadurch Prognossen über die zukünftigen Trends ihrer Branche zu erstellen. Dem Mana-
gement wird nun dadurch unter anderem erleichtert, die Position ihrer Firma im Vergleich zu
ihren Konkurrenten festzustellen.
BI Methoden helfen beim analysieren folgender Bereiche: Änderungen der Trends im
Markt, Änderungen im Kundenverhalten und Ausgabeverhalten, eruieren der Kundenwün-
sche, Möglichkeiten der Firma und Marktkonditionen im Allgemeinen. Weiters erhält das
Management so Hilfestellungen welche Änderungen die Trends wie beein�ussen.
11
12 KAPITEL 2. BUSINESS INTELLIGENCE
BI Systeme ermöglichen es wirtschaftliche Entscheidungen auf eine auf Daten basieren-
de Grundlage zu stellen und von intuitiven Entscheidungen Abstand zu nehmen. Zusätzlich
wird die Komunikation zwischen den Abteilungen gestärkt, koordinierte Aktivitäten werden
ermöglicht, und Firmen ist es möglich schneller auf Änderungen (�nanzielle Änderungen, Ver-
änderungen des Kundengeschmacks, Änderungen im Supply-Chain Bereich, etc.) zu reagieren.
Wenn BI Systeme ein hochwertiges Design besitzen und vollständig in den Entscheidungspro-
zess integriert sind, steigern sie die Performance einer Firma. Zugang zu aktuellen und aku-
raten Informationen ist eine der wichtigsten Resourcen einer Firma. Zusammenfassend kann
man somit sagen, dass Business Intelligence Methoden Entscheidungsprozesse erleichtern und
mittelbar auch die Kundenzufriedenheit steigern.
Im Dienstleistungssektor benötigen Firmen up-to-date Informationen über Kundenbedürf-
nisse, sodass die Firma sich schnell den geänderten Wünschen anpassen kann. BI ermöglicht
hier nun Informationen zu Trends im jeweiligen Marktsektor zu sammeln und zu analysieren
und somit mit neuen inovativen Produkten oder Serviceleistungen den gegebenen Kunden-
wünschen entsprechend aufzuwarten. BI hilft auch Managern sich besser über die Aktionen
der Konkurrenten zu informieren. Auÿerdem ermöglicht BI eine bessere Kommunikation über
ausgewählte stategische Informationen mit Geschäftspartnern, wie z.B. der Austausch von
Daten über Inventarstände, Leistungskennzahlen und Daten zur eigenen Supply Chain für die
jeweiligen Zuliefer�rmen.
Des weiteren versorgen BI Systeme Manger mit Informationen über den Stand von wirt-
schaftlichen Trends oder Marktgegebenheiten und mit tiefergehenden Wissen über die internen
Operationen der eigenen Firma.
2.1 Voraussetzungen
Um e�ektiv zu funktionieren benötigen BI Technologien ein sicheres Computer Sytem, wel-
ches verschiedene Stufen der Zugangsberechtigungen zu einem Datawarehouse(siehe auch Kap.
3.4.2) ermöglicht, je nach Berechtigungsstufe, vom einfachen Mitarbeiter bis zum obersten
Chef. Weiters besteht klarerweise die Notwendigkeit, genügend Speicherkapazität für alle ge-
sammelten Daten zur Verfügung zu stellen. Damit in Zusammenhang muss auch überlegt
werden, wie lange die Daten gespeichert werden (data retention time). Um hier zu instrumen-
taliserbaren Auswertungsergebnissen zu kommen, muss man dazu Benchmarks für das System
erstellen und benötigt jeweils passende Arbeitssziele.
BI Analysten haben nun Softwarewerkzeuge zum Sammeln und Auswerten groÿer Mengen
an unstrukturierter Daten, wie Produktionskennzahlen, Verkaufsstatistiken, Anwesenheitsli-
sten, Kundenpro�le, etc., entwickelt. Jede BI-Anwendung ist dabei nun eigens für einen be-
stimmten Marktsektor (allgemeiner Verkauf, Finanzsektor, etc.) entwickelt worden um diesen
2.2. RAHMENMODELLE 13
gegebenen Anforderungen möglichst e�zient zu genügen.
2.2 Rahmenmodelle
2.2.1 Balanced Scorecard
Das Balanced Scorecard Konzept wurde von Dr. Robert Kaplan und Dr. David Norton im
Jahre 1992 entwickelt und wurde bereits weltweit bei vielen Firmen, Nonpro�t-Organisationen
und Regierungen implementiert (vgl. Kirby, 2006).
Die Balanced Scorcard ist:
• Ein Konzept welches die Strategien einer Organisation anhand von vier Perspektiven,
Finanz, Kunde, interne Prozesse sowie Lernen und Wachstum misst.
• Ein Kommunikationssystem, welches die Lücke zwischen den gesetzten Zielen der Füh-
rung und den Mitgliedern, die letztendlich für die Ereichung der gesetzten Ziele direkt
verantwortlich sind, schlieÿt.
• Ein Messsystem, welches über die Performance berichtet und Prognossen über die zu-
künftige Leistungen ermöglicht.
• Ein Prozess zur Implementierung und Organisation von strukturellen Änderungen.
Im Balanced Scorecard System gibt die Strategy Map einen auf einer Seite zusammenge-
fassten Überblick über die Strategien der Organisation. In einer pro�torentierten Situtation
beginnt die Organisation mit dem �nanziellen Ziel (da ja die Gewinnereichung als oberste
Zielmaxime zählt), achtet auf Kundenwünsche und untersucht nun die Wirkung der internen
Prozesse.
Jedes Kreis- und jedes Blasensymbol in der Strategy Map in Abb. 2.1 präsentiert ein
strategisches Ziel der Organisation. Unter jedem Ziel ist vermerkt, wie es gemessen wird (wie
die Performance bezüglich des Zieles gemessen und überwacht wird), sowie die notwendigen
Initiativen (Aktionsprogramme zum Erreichen der Ziele). Die meisten Organisationen folgen
in der Realität einem jährlichen Operationsplan welcher zwar diesen Massnahmen, Zielen und
Initiativen grob ähnelt aber sich natürlich im Detail davon unterscheidet.
2.2.2 Data Monitoring
Einer der wichtigsten Aspekte im Firmenleben sind Daten und ihr Ein�uss. Vom Kundenser-
vice bis hin zum Oberen Management werden Daten über Kundenorganisationenen, Produkte,
Inventar und Angestellte generiert, welche einen wichtigen Faktor für das Verstehen der Un-
ternehmenslandschaft spielen.
14 KAPITEL 2. BUSINESS INTELLIGENCE
Abbildung 2.1: Eine Beispiel für eine Strategy Map( (Kirby, 2006))
Gute Daten sind der Schlüsselfaktor für eine gute Entscheidungsperspektive für das strate-
gische Management. Sie geben den Entscheidern genügend Hintergrundinformationen um die
Geschäftssituation zu verstehen und Trends auf dem Markt zu erkennen. Eine Organisation
kann jedoch nicht einfach die Qualität der Daten erhöhen und diese als statische Referenz
nutzen. Daten re�ektieren die Veränderung der Welt um uns herum. Daher sind gute Daten
dynamisch und verändern sich ständig. Viele Firmen können nun die Qualität dieser Daten
nicht erhalten, weil zuviel Zeit beim Datentransport bzw. der Datenverarbeitung vergeht �
die Daten werden ungenau oder sind bereits komplett falsch wenn sie die Entscheidungsträger
erreichen.
Data Monitoring ist eine Schlüsselkomponente für die Sicherstellung der Datenqualität
und Datenintegration. Auÿerdem hilft das Monitoring beim Identi�zieren und Korrigieren
der Ine�zienzen bei den automatisierten Prozessabläufen.Einfach gesagt ist Data-Monitoring
wichtig um Daten konsitent, genau und zuverlässig zu halten.
Um diese Ziele zu erreichen gibt es fünf Phasen (Fisher, 2006):
1. Data Pro�ling
Dabei wird zuerst überprüft wie gut der vorhandene Datenbestand ist bzw. was dessen
Stärken und Schwächen sind.
2. Data Quality
Hierbe geht es nun um die Verbesserung des bestehenden Datenpools.
2.2. RAHMENMODELLE 15
Abbildung 2.2: Pro�ling, Qualität, Integration, Enrichment und Monitoring formen die Basiseiner vollständigen Data Monitoring Implementierung (Teachey, 2007)
3. Data Integration
An dieser Stelle werden Informationen zum selben realen Objekt (z.B. ein bestimmter
Kunde) aus verschiedenen Quellen miteinander verknüpft.
4. Data Enrichment
In dieser Phase werden externen Daten zum Vervollständigen und Ergänzen der vorhan-
denen Daten benutzt.
5. Data Monitoring
IIm Data Monitoring geht es darum, die nun erreichten Erfolge bzw. die nun erreichte
Qualität des Datenbestandes durch fortlaufende Vorgänge zu erhalten.
Der Zusammenhang dieser Phasen ist in der Abbildung zu erkennen (Abb. 2.2).
2.2.3 Supply Chain Management (SCM)
Supply Chain Management ist der Prozess in dem die Plannung, Implementierung und das
Controlling der Operationen in der Bescha�ungskette durchgeführt wird, wobei hier die Kun-
denanforderung und die Unternehmensziele stets im Vordergrund stehen. Das SCM verwaltet
alle Bewegungen der Rohsto�e bis hin zum fertigen Endprodukt.
16 KAPITEL 2. BUSINESS INTELLIGENCE
Aktivitäten des SCM
Beim SCM werden alle Bewegungen von Rohsto�en in ein Unternehmen und die Bewegungen
der fertiggestellten Endprodukte zu den Konsumenten gesteuert.
Da viele Unternehmen sich mittelerweile auf ihr Kernkompetenzen fokusieren, haben sie
das Management für die Rohmaterialienbescha�ung und Vertriebskanäle ausgelagert. Dadurch
entstehen für diese Firmen weniger Kosten bei mehr E�zienz. Durch diese neue Vorgehens-
weise, verliert das Unternehmen an Kontrolle in diesem Segment. Doch wie bereits 1990 die
Wissenschaftler Hahn und Watts sagten: "without a competent supplier network, a �rm's
ability to compete e�ectively in the market can be hampered signi�cantly� (Ogden, 2006).
Wie hier erwähnt ist es immer noch wichtig dass das Liferantennetz funktioniert. Auch wenn
die Aufnahme oder die Koordination dieses Netze ausgelagert wurde.
Weniger Kontrolle und mehr Supply Chain Partner führen zur Entstehung von neuen Sup-
ply Chain Management Konzepten. Es gibt mittlerweile verschiedene Modelle, um die vielen
Aktivitäten, die man zum Steuern der Rohsto�bewegung in Unternehmen und Organisationen
benötigt. Diese Supply Chain Aktivitäten kann man sodann gruppieren in der strategischen,
taktischen und operationalen Ebene. (vgl. Wikipedia.org, 2007c)
• Strategische Aktivitäten
� Strategische Netzwerk Optimierung: inkludiert die Anzahl, den Ort und die Gröÿe
der Lagerhallen, Vertriebszentren und Einrichtungen
� Strategische Partnerschaften: mit Liferanten, Vertrieb, und Kundenanforderung
� Produkt Design Koordination: so dass neue und existierende Produkte optimal in
die Bescha�ungskette integriert werden können
� IT Infrastruktur: um die SCM Operationen zu unterstützen
• Taktische Aktivitäten
� Bescha�ungsverträge und andere Einkaufsentscheidungen
� Produktionsentscheidungen
� Inventarentscheidungen: bezüglich Quantität, Ort und Qualität des Inventars
� Trasportstrategy: inkludiert die Häu�gkeit und die Routen
� Benchmarking für alle Operationen gegen Konkurrenten
• Operationale Aktivitäten
� Tägliche Produktion und Verkaufsplannung
� Produktionsplannung für jede Fabrik in der Bescha�ungskette
2.3. ZUSAMMENFASSUNG 17
� Nachfrageplannung und Vorschau: um alle Kundenanforderung decken zu können
� Produktionsoperationen: inkludiert den Verbauch an Materialien und die Abfuhr
von Fertigprodukten
2.3 Zusammenfassung
Nachdem nun das Gebiet der Business Intelligence, das sich als Hauptziel auf die Fahnen
schreibt den Unternehmen den entscheidenden Wettbewerbsvorteil durch bessere Informatio-
nen zu liefern und dazu einige Rahmenmodelle als praktische Ansätze zur Verfügung stellt,
wird nun im nächsten Kapitel auf das Datamining und seine Anwendungen eingegangen, bei
dem es auch um allgemeinere, nicht nur wirtschaftsspezi�sche Ansätze geht.
18 KAPITEL 2. BUSINESS INTELLIGENCE
Kapitel 3
Data Mining
Zur Einleitung in das Themengebiet hier wieder eine Erklärung des Begri�es Data Mining aus
Wikipedie (Wikipedia.org, 2007b):
�Unter Data Mining versteht man die Anwendung von (statistisch-mathemati-
schen) Methoden auf einen Datenbestand mit dem Ziel der Mustererkennung. Da-
bei �nden insbesondere solche Methoden Anwendung, die hervorragende asympto-
tische Laufzeiten haben, weshalb Data-Mining oft im Zusammenhang mit grossen
Datenbeständen genannt wird. Gleichwohl ergeben sich durch den Verzicht auf Mo-
dellannahmen über den Datenentstehungsprozess auch bei kleinen Datenbeständen
interessante Anwendungsmöglichkeiten.�
Die Anwendung von �Data Mining� ist in der heutigen Zeit nicht zuletzt auch in den
verschiedenen Sektoren der Privatwirtschaft ein immer stärker auftretendes Phänomen. Die
Anwendungsgebiete sind mannigfaltig und reichen von der Auswertung von Einkaufsdaten der
Supermarktkunden, gewonnen durch die Speicherung der auf ihren Stammkarten vermerkten
Einkäufe, durch welche man die von ihnen gep�egten Einkaufsgewohnheiten ablesen kann bis
hin zu nachrichtendienstlichen Tätigkeiten wie das Echelon System, welches sich darauf spe-
zialisiert nach gewissen Worten beziehungsweise Zeichenkonstrukten mögliche Gefahrenherde
so schnell und früh wie möglich zu erkennen um sie baldigst unter Kontrolle zu bekommen.
Nachstehend will ich nun versuchen eine Einführung über den Bereich des Data Minings
zu geben, um als Abschluss den Verwendungszweck im Bereich der Business-Intelligence dar-
zustellen.
3.1 Der Beginn des Data Minings
Wie so oft am Anfang von Er�ndungen stand auch am Start des Data Minings die Notwen-
digkeit. Die Menge an Daten nahm über die Zeit naturgemäÿ zu und musste verwaltet und
19
20 KAPITEL 3. DATA MINING
zielgerichtet ausgewertet werden. Schon in den 60er Jahren des 20. Jahrhunderts begann man
an geeigneten Auswertsystemen zu basteln, dazu gehören grob gesprochen (Eder, 2002):
1. Datensammlung;
2. Datenbankerstellung;
3. Datenverwaltung
4. Datenanalyse und -auswertung
Ad 1.) und 2.): Dieser Prozess begann wie gesagt schon in den 60ern, als einfache Daten-
verarbeitung ohne in komplexere Ge�lde abzudriften.
Ad 3): In den 70er Jahren und Anfang der 80er-Dekade begann man Systeme zu entwickeln,
welche sich um das Datenmanagement selbst kümmern sollten. Da wären zum Beispiel hier-
archische und netzwerkbasierende Datenbanksysteme, User Interfaces, User Forms und User
Berichte, On-Line Transaction processing (OLTP umfasst unter anderem die sofortige Antwort
eines Systems auf eine Benutzeranfrage), und so weiter zu nennen.
Von diesem Hauptkonstrukt traten drei groÿe Leitlinien heraus, Advanced Database Sy-
stems ab Mitte der 80er Jahre, Data Warehousing (siehe auch Kap. 3.4.2) und Data Mining ab
den späten 80er Jahren und zuletzt Web-Based Databases Systems (mit dem Schwerpunkt des
Internets als Schnittstelle) in der letzten Dekade des 20. Jahrhunderts. Die neueste Entwicklung
ist ab dem neuen Millennium eine neue Generation der integrierten Informationssysteme(IIS).
Dabei werden die Geschäftsprozesse und die Prozesse der Datenerhebung/-verarbeitung an-
einander angepasst, damit man die Daten während den laufenden Prozessen bereits erheben
kann und vom IIS gleichzeitig miteinander vollautomatisch verknüpft.
3.2 Data Mining im speziellen
Unter dem Wort Data Mining versteht man im algemeinen Kontext das �nden von essentiellen
und wichtigen Informationen, herausgezogen aus einem Haufen von unnnötigen und nicht
zielführenden Daten. Diesen wertvollen Sto� abzubauen ist das erklärte Ziel des Data Minings.
Man kann Data Mining jedoch auch als einen Teil dieses allumfassenden Prozesses verste-
hen und um Doppeldeutigkeiten zu vermeiden, den gesamten Ablauf dann unter dem Begri�
�knowledge discovery in databases (KDD)� führen, wovon ich hier aber absehen möchte, es sei
hier nur der Volständigkeit halber erwähnt.
Dieser Vorgang lässt sich wiederum in sieben Abschnitte unterteilen: (Jiawei and Kamber,
2001, S.7)
1. Data cleaning (hier geht es um das entfernen von miÿliebigen und inkonsistenten Daten)
3.3. DATA MINING ALS INTERDISZIPLINÄRES FACH 21
2. Data Integration (mulitple Datenquellen werden zusammengeführt)
3. Data Selection (für das Forschungsobjekt wichtige Daten werden von der bestehenden
Database herausge�ltert)
4. Data Transformation (Daten werden in einen bestimmten bearbeitbaren Zustand ge-
bracht, zum Beispiel durch Zusammenfassen oder Aggregation dieser.)
5. Data Mining (Datenmuster sollen extrahiert werden - dies ist als das Data Mining
schlechthin zu verstehen)
6. Musterbewertung (Aufgrund von verschiedenen Massnahmen wird versucht die wirklich
aussagekräftigen und nutzbaren Muster zu entdecken)
7. Die Präsentation der Ergebnisse (die Visualisierung der herausgefundenen Erkenntnisse
für den Anwender)
3.3 Data Mining als Interdisziplinäres Fach
Im Bereich des Data Mings kann man nicht nur die Standards aus einem Bereich zu rate
ziehen, sondern muss versuchen aus verschiedenen Sektoren die für die Aufgabe richtigen und
wichtigen Kriterien miteinzubeziehen. Diese können aus dem Fach der Statistik, der Visua-
lisierung, der Informationswissenschaft, der Datenbanktechnologie, oder anderen Disziplinen
kommen. Das von mir schon erwähnte Beispiel, des zu untersuchenden Verhaltens der Käufer
im Supermarkt, wird wohl auch auf Teile der Disziplin der Psychologie zurückgreifen, oder das
Beispiel des Systems des Echelons, wird sich auch durch Hinweise aus der Politikwissenschaft
leiten lassen, vor allem hinsichtlich der Betrachtung von wichtigen Begri�en dieser Disziplin
der Wissenschaft.
Wichtige Punkte im Bereich die immer zu berücksichtigen sind die Methodologie
und die Interaktion mit den einzelnen Anwendern, da ja nicht jeder User dasselbe Wissen aus
den schon gesammelten Informationen ziehen will.
Aus dem letztgenannten Grund ist es wichtig eine breite Wissensbasis aufzubauen, da-
mit zumindest der Groÿteil der Anfragen der Anwender zufriedenstellend beantwortet werden
kann. Han und Kamber(Jiawei and Kamber, 2001, S.30) zeigen hier die wesentlichen Aufga-
ben der Wissens�ndung auf: �data characterization, discriminiation, association, classi�action,
clustering, trend and deviation analysis, and similiarity analysis.�
22 KAPITEL 3. DATA MINING
3.4 Datenbasis und mögliche Mustervorkommen
In diesem Abschnitt wird geklärt, an was für einer Datenbasis Data Mining ansetzen kann
(siehe auch Jiawei and Kamber, 2001).
3.4.1 Relationale Datenbanken
Ein Datenbanksystem (engl. DBMS=Data Base Managment System) besteht aus einer Samm-
lung zusammenhängender Daten, der Datenbank und den Softwarewerkzeugen um diese Daten
zu verwalten und zu bearbeiten. Dabei werden Mechanismen angewendet um die Struktur der
Datenbank festzulegen, um Datenbanken zu speichern, auf diese parallel zugreifen zu können
und um die Sicherheit und Konsistenz der darin be�ndlichen Daten zu gewährleisten sowohl
gegenüber unerlaubtem Zugri� aber auch gegen Harwarefehler und Systemabstürze.
3.4.2 Datawarehouses
Ein Datawarehoue ist ein System, das seine Information aus vielen unabhängigen Datenbanken
bezieht, die ihre Daten in jeweils zu einander inkompatiblem Formaten ablegen. Hier scha�-
te ein Datawarehouse Abhilfe indem es seine Information über eine zentrale Datenbank zur
Verfügung stellt. Seine Daten erhält es durch einen Ablauf der aus Datenbereinigung, Daten-
transformation, Datenintegration, Datenübertragung und periodischen Datenabgleich besteht.
Es werden in einem Datawarehouse die Daten nach ihrem referenzierten Bereich aufgeteilt,
zum Beispiel in die Bereiche Kunden, Lieferanten und Aktivitäten. Um nun als Entschei-
dunggrundlage dienen zu können, indem man zum Beispiel Trends extrapolieren kann, werden
Daten über einen längereren Zeitraum aufbewahrt (zum Beispiel über ein Jahrzent) und es
werden nicht die einzelnen Geschäftstransaktionen verzeichnet sondern nur aggregierte Werte
wie etwa der Gesamtumsatz des Produktes xy im Monat z.
Datawarehouses unterstützen den Einsatz von Data Mining auf ihren Informationsinhalt,
beim Einsatz dieser Technik ist man allerdings immer noch auf weitere Werkzeuge aus dem
Data Mining angewisen, mithin kann ein Datawarehouse damit nur als Datenquelle für Data
Mining dienen.
3.4.3 Transaktionsdatenbanken
Im Allgemeinen besteht eine Transaktiondatenbank aus einer Datei, in der jede durchgeführte
Transaktion durch einen Eintrag vermerkt ist. Als Beispiel sei hier ein Einkauf in einem Su-
permarkt genannt: Hier wird ein Eintrag erstellt, der eine einzigarte Transaktionsnummer und
eine Au�istung der gekauften Waren enthält. Weiters werden weitere Informationen vermerkt,
3.4. DATENBASIS UND MÖGLICHE MUSTERVORKOMMEN 23
wie in diesem Beispiel die Kundennummer und eine Vermerk der betro�enen Geschäftsnieder-
lassung.
3.4.4 Moderne Datenbanksysteme
Als eine der aktuelleren Entwicklungen im Datenbankbereich kann die Einbindung von nicht-
textuellen Daten (Bildern, Videos, Kartenamterial, Webseiten, ..) und damit einhergehend die
Weiterentwicklung der Fähigkeiten und Konzepte der Datenbanken gesehen werden:
• Objektorientierte Datenbanken
Hierbei setzt sich der Datenbestand aus einer Ansammlung von Objekten zusammen,
von denen jedes gewisse Eigenschaften besitzt und in der Lage ist mit anderen Objekten
durch das zusenden von Nachrichten zu interaggieren aber auch selbst Daten bearbeiten
kann und nun unter Zuhilfenahme sogenannter Methoden (Programmteile die auf die
die im Objekt abgelegten Eigenschaften auswerten) auf Nachrichten antworten kann.
• Objekt-Relationale Datenbanken
Hierbei handelst es sich um relationale Datenbanken die um das Konzept der Objekt-
orientierung erweitert sind.
• Heterogene Datenbanken und Altdatenbanken
Eine heterogene oder inhomogene Datenbank besteht aus einer Gruppe von miteinander
lose verbundenen Datenbanken, dies entsteht oft dadurch das Datenbanken die schon
lange bestehen zu neuen Systemen miteinander verbunden werden. Da es hierbei nicht
nur um das Abfragen und generieren von allgemeinen Informationen wie im Data Ware-
housing geht, tri�t man hier in noch viel höherem Umfang auf Probleme mit der un-
terschiedlichen Darstellung der gleichen Information und den Schwierigkeiten, zwischen
den unterschiedlichen (Alt)Systemen Schnittstellen zu de�nieren.
Gerade in diesem Bereich sind Neuerungen und Entwicklungen unabwendbar, einfach
aus dem Grund das der Informatik als nicht mehr so neues Anwendungsgebiet in den
letzten Jahrzenten viele zueinander inkompatible Datenbanksysteme entsprungen sind
um anschliessend bis auf Nischen wieder vom Markt zu verschwinden. Datenbanken, oder
um genau zu sein das von Ihnen abgebildete Wissen, stellen einen enormen Sachwert für
ein Unternehmen dar und dieser Wert fällt und steigt natürlich mit der Fähigkeit mit
den eigenen Daten nun auch das tun zu können, was man möchte.
24 KAPITEL 3. DATA MINING
3.5 Verwendete Vorgangsweisen
Data Mining kann grundsätzlich zur Beantwortung von zwei Typen von Fragen herangezogen
werden: (Perner, 2002b, S.42�)
1. Vorhersagen aufgrund historischem, gegebenen Datenmaterials (siehe 3.5.1)
• Einteilung in Klassen
• Regressionsanalyse
2. Wissensableitung aus vorhandenen Daten über den IST-Zustand bzw. über Zusammen-
hänge innerhalb der Datenmenge. (siehe 3.5.2)
• Abweichungsanalyse
• Clusterbildung
• Ableitung von Zusammenhängen durch Regel�ndung
• Visualisierung
Meist beginnt man mit Typ-2 Anfragen als Basis für die nachfolgenden Anfragen des Typ-1.
3.5.1 Vorhersagen
Abbildung 3.1: Erkennung der Unterschiede gegebener Klassen
Bei der Einteilung in Klassen geht es darum zu erkennen wodurch sich mehrere, vom Be-
nutzer im vorhinein festgelegte, Klassen von Datensätzen unterscheiden, zum Beispiel gilt es
zu prüfen, was die Klasse der regelmässigen Käufer von den seltenen Käufern unterscheidet
anhand der sonstigen festgestellten Merkmale wie Alter, Geschlecht, Quelle des Kundenkon-
taktes etc.
Bei der Regressionsanalyse geht es nun um etwas ähnliches, jedoch konzeptionell anderes:
Hier möchte man die Auswirkung der Veränderung einer Variable auf eine andere erfahren. Um
3.5. VERWENDETE VORGANGSWEISEN 25
Abbildung 3.2: Regressionsanalyse am klassischen 2D-Beispiel der Regressionsgeraden
beim Einkäuferbeispiel zu bleiben, geht es hier darum den Zusammenhang zwischen gekauften
Wein�aschen und gekauften Zahnpastatuben festzustellen und das ganze zum Beispiel durch
einen numerischen Wert, einen Korrelationskoe�zienten oder dergleichen darzustellen.
3.5.2 Wissensableitung
Im Bereich der Abweichungsanalyse geht es darum mit Standardmethoden der Statistik das
vorhandene Datenmaterial zu bearbeiten, angefangen bei einfachen Mittelwert und Standard-
abweichungsberechnungen bis zum vollen Umfang der üblichen Methoden.
Abbildung 3.3: Bei der Clusterbildung ist die Erzeugung der Klassen das Endprodukt der
Analyse
Im Anwendungsbereich der Clusterbildung geht es darum, die vorhandenen Datensätze zu
sogenanneten Clustern (Gruppen von ähnlichen Datensätzen) zusammenzufassen, wobei hier-
bei a priori noch keine �xen Gruppierungen feststehen sondern nach einfachen Grundformeln
versucht wird, festzulegen welche Datensätze �ähnlich� sind und welche nicht, indem zum Bei-
spiel die Ähnlichkeit zweier Datensätze über den euklidischen Abstand im n-dimensionalen
Raum der Eigenschaften de�niert wird mit den daraus resultierenden Schwierigkeiten, um
anschliessend daraus eine Grundlage für eine Einteilung in Klassen zu gewinnen. Die hierbei
26 KAPITEL 3. DATA MINING
angesprochenen Probleme beginnen bereits mit gar nicht so einfachen Frage wie sehr die ein-
zelnen Eigenschaften zu gewichten sind. Ein 20 Jahre alter Mann mag einer 80jährigen Frau
weniger ähnlich sein als einem 16jährigen Knaben im Einkaufsverhalten, aber um welchen
Faktor genau? Da hier also viele Daten einzufügen sind die nicht direkt dem vorhandenen
Datenpool entspringen, gibt es mithin eine groÿe Anzahl an Möglichkeiten Cluster zu bilden.
Als weiterer Punkt wurde die Ableitung durch Regel�ndung genannt, hierunter ist das
�nden von (einfachen) Zusammenhängen zu verstehen, die sich nicht durch die Gruppierung
der Datensätze wie im Clustering ergeben sondern bereits durch den Vergleich der Datensätze
bezüglich zweier beliebiger Eigenschaften und ihres Zusammenhangs mit einfachen Wenn-
Dann-Regeln.
Visualisierungen sind hier als ein wichtiger Teil jeglicher Wissensinferenz zu betrachten, da
ein Mensch von Natur aus verältnismässig schlecht mit einer riesigen Anzahl von Zahlen, wie
sie in allen diesen Verfahren entstehen, umgehen kann, aber sehr gut ein davon abgeleitetes
Bild mit einem ebenso hohen Informationsgehalt gebrauchen kann.
3.6 Art der Daten
Data Mining kann nicht nur nach der Art der Herangehensweise und der Zielsetzung di�eren-
ziert werden sondern auch nach der Art der untersuchten Daten. Obwohl natürlich die meisten
Ansätze universell anwendbar sind haben sich im Laufe der Zeit doch immer wieder neue An-
sätze entwickelt wie das Text Mining, Bild Mining oder Web Mining, die ihre Bedeutung durch
eine besondere Herangehensweise bei der Vorbereitung der Daten für die Untersuchung oder
durch die besonderern Schwierigkeiten die durch die spezielle Arte der Datenrepräsentierung
gegeben sind besitzen.
Um hier ein Beispiel zu nennen: Obwohl ein Bild sich auch als eine Tabelle von Farbwerten
die durch Zahlen wiedergegeben werden, darstellen lässt, ist es sinnvoller nicht das gesamte
Bild als Dateneinheit zu benutzen sondern eine vereinfachte, von Störungen bereinigte Version
die sich mithin auch durch eine geringere Informationsmenge auszeichnet.
Auch bei Textdokumenten kann noch eine zusätzliche Besonderheit zu beachten sein, diese
mögen eventuell als gedruckte Texte die erst in ein digitales Dokument umgewandelt werden
müssen, vorliegen. Auch muss man für die Bedeutung unnötige Formatierungen der Texte
aus diesen entfernen und last but not least gilt es sich mit der hohen Kontextsensitivität
natürlicher Sprache und ähnlichem herumzuschlagen(Perner, 2002a, S.9�)).
3.7. VORBEREITUNG DER DATEN 27
3.7 Vorbereitung der Daten
Um überhaupt mit den Werkzeugen des Data Mining auf eine Datensammlung losgehen zu
können, muss diese zuerst passend vorbereitete werden, dabei gilt es folgende Schritte durch-
zuführen:
1. Datenbereinigung
Einträge mit Werten die ausserhalb des de�nierten Wertebereichs sind, sind hier zu
entfernen. Um hier einen möglichst geringen Aufwand erbringen zu müssen gilt es bereits
bei der Zusammenstellung der Datensammlung darauf zu achten, dass zum Beispiel keine
Personen mit einem Alter unter 5 Jahren bei Autokäufen verzeichnet sind etc. Weiters
sind Datensätze, deren Werte sehr stark von den anderen Werten abweichen (Ausreiÿer)
zu entfernen um die Repräsentativität der auf diesem Datenmaterial erstellten Antworten
zu erhöhen.
2. Behandlung von unzuverlässigen und eventuell gestörten Daten
Daten die durch irgendeine Art von Messverfahren aufgenommen wurden, sind übli-
cherweise durch Messfehler und alle Arten von Störungen (Fehler durch Gerätschaften,
Umgebungsein�üsse, die Person des Messenden..) beein�usst, um dies zu kompensieren
bzw. zu reduzieren gilt es beispielsweise mit geglätteten Daten zu arbeiten, Störungen
dieser Art lassen sich natürlich nur veringern, aber nicht ausschliessen.
3. Au�üllen fehlender Informationen
Jeder unvollständige Datensatz kann nun einfach verworfen werden, da dabei aber In-
formation verloren geht, ist es meist besser fehlende Werte eines Datensatzes durch eine
geeignete Schätzung, sei es der Mittelwert dieses Wertes bei den anderen Datensätzen
oder der Wert den der zu diesem Datensatz ähnlichste Datensatz dort besitzt.
4. Codierung
Um den Datenpool mit einer Data Mining Software bearbeiten zu können, kann es
notwendig sein, textuelle Werte wie Farben (rot, grün, blau, gelb,. . . ), durch eine Zah-
lenrepräsentation zu ersetzen. (rot=1, grün=2,. . . ).
5. Abstraktion
Daten von hoher Komplexität werden hier bei Bedarf durch einfachere repräsentiert, als
klassisches Beispiel sind hier wieder Bilder zu nennen, die man eventuell durch statisti-
sche Werte ersetzt bzw. im medizinischen Bereich (vgl. Perner, 2002a, S.18) beispielsweise
durch Expertenaussagen über das Bild.
28 KAPITEL 3. DATA MINING
3.8 Anwendungen und die Zukunft des DM
Als weiteren Themenbereich wird hier zuerst auf die diversen Anwendungen des Datamining
eingegangen um mit zukünftigen Entwicklungen diesen Themenkreis abzurunden.
3.8.1 Data Mining in der Anwendung an der Universität
Universitäten unterstützen adminstrative und akademische Prozesse. Adminstrative Prozesse
beinhalten alle Transaktionsprozesse und Entscheidungsunterstützung. Das inkludiert Prozes-
se wie Verwaltung der Unterrichtsgelder, Unterstützung durch Stipendien, und Analysen der
zukün�gen Immatrikulierungen. Akademische Prozesse hingegen beinhalten Unterrichtsver-
waltungen, Forschungsprojekte, Verwaltung der Labors, usw..
Hauptsächlich wird Date Mining und Data Warehousing in den administrativen Porzessen
praktiziert. Um nur eine Zahl zu nennen hat die Firma Hyperion als einer der Platzhirschen
über 90 Universitäten als Kunden. Hauptaufgaben des Datamining sind hierbei diverse Anayl-
sen bezüglich der Qualität der Leistung für Studenten (LVA-Bewertungen oder Studentenan-
zahl), auf Basis dieser Auswertungen werden dann weitere Untersuchungen getätigt.
In den akademischen Prozessen selbst wird Data Mining und BI nur den Wirtschaftsstu-
denten gelehrt, jedoch nicht den Informatikstudenten (Watson, 2006):
�When it comes to academic computing, BI and data warehousing are typically
taught in information systems courses in business schools (rather than, say, in
the computer science department). These courses teach concepts, methodologies,
technologies, and applications of BI and data warehousing. Not all business schools
o�er these courses (often titled �decision support systems�), but many do.�
3.8.2 Data Mining in der Anwendung im E-Marketing
Für viele Kunden ist die Besonderheit des E-Commerce primär dadurch gegeben, dass man
Waren und Dienstleistungen online auswählen und bestellen kann, ohne jemals die eigenenen
vier Wände verlassen zu müssen (Perner, 2002b).
Ganzheitlich betrachtet ist das natürlich nur ein kleiner Teilaspekt des Gesamtkonzepts des
Online-Verkaufs. Genauso wie im Standardverkaufsprozess gilt es auch hier dem interessierten
Kunden mit Rat und Tat zur Seite zustehen, sowohl vor dem Kauf durch ein breites Infor-
mationsangebot zur gewünschten Ware bzw. Dienstleistung, aber auch ganz besonders nach
einem getätigten Auftrag, da gerade durch eine gute anschliessende Betreuung des Kunden
eine dauerhafte Kundenbeziehung erst gescha�en und erhalten werden kann.
Um jetzt diesen Dienst am Kunden erbringen zu können, muss der Inhaber eines Online-
Shops die Wünsche und Verhaltensweisen seiner Kundschaft durch deren Verhalten beim Ver-
kaufsprozess erforschen können. Anschlieÿend muss er genau dieses Wissen nutzen, um dem
3.8. ANWENDUNGEN UND DIE ZUKUNFT DES DM 29
Kunden genau die Information zur Verfügung zu stellen, die ihm zum Abschluss der Transak-
tion noch fehlt; Genau an dieser Stelle kann die Disziplin des Datamining nun eine helfende
Hand reichen und ihren groÿen Wert beweisen.
Unterschiede zum traditionellen �O�ine�-Marketing
Um E-Marketing zu verstehen muss man sowohl die Gemeinsamkeiten als auch die Unter-
schiede gegenüber dem konventionellen Verkaufsprozess im Auge behalten: Dabei gilt es alle
Schritte bei der Erstellung der Website von der konzeptionellen Festlegung des Projekts bis zur
Anpassung des Inhalts sowie natürlich der angepassten Werbung zu berücksichtigen � einer
der schwerwiegendsten Fehler der hierbei passieren kann ist es, die Online-Repräsentanz des
Unternehmens als schlichte Erweiterung der bisherigen Marketingbestrebungen der eigenen
Firma zu behandeln.
Wenn man sich nun mit der Materie des E-Marketing beschäftigt, ist die jeweilige Zielset-
zung grob in vier Kategorien zu unterteilen (Perner, 2002b):
1. Online-Werbung
Hierbei soll eine Werbebotschaft kostene�zient an ein bestimmtes Kundensegment ver-
mittelt werden.
2. Online-Verkauf
Dies ist der Verkauf von Gütern mit Hilfe eines Webshops, das beinhaltet zumindest
einen Online verfügbaren Warenkatalog und die Möglichkeit, die Ware auf eine sichere
und zuverlässige Art und Weise direkt bestellen zu können.
3. Online-Dienstleistung
Diese kann sowohl als kostenlose aber auch als kostenbehaftete Zur-Verfügung-Stellung
von Dienstleistungen verstanden werden, mit dem Unterschied zur klassischen Dienst-
leistung, dass diese jederzeit von jedem Ort der Welt genutzt werden kann.
4. Online-Zusammenarbeit
Hierunter sind die Möglichkeiten subsummiert, bei denen es darum geht den Nutzer in
Kontakt mit anderen Nutzern mit gleichen Interessen und Problemen zu bringen, sei es
durch Online-Foren, Chaträume oder dergleichen.
Um eine erfolgreiche Online-Repräsentanz zu erstellen sind nun Ansätze aus diesen Berei-
chen zu vereinigen und umzusetzen. Dazu müssen die Kunden, um auf der Höhe der Zeit zu
sein, interaktive und informative Inhalte mit einer möglichst intuitiven Navigation präsentiert
werden. Damit so auch die Kunden eine langfristige Bindung an das Unternehmen aufbauen,
30 KAPITEL 3. DATA MINING
gilt es laufend aktuelle Inhalte zu präsentieren und sich an die ständig wechselnden Kunden-
wünsche anzupassen. Dazu sind permanent die Wünsche und Bedürfnisse des Kunden mit
Techniken des Dataminings zu erfassen.
Information über den Kunden
Auf einer E-Commerce Webseite sind die Daten über den Kunden verteilt über die Information
der gekauften Güter (Marketingdaten), die Metadaten des Servers und die Zugri�sinforma-
tionen der Webserver. Daraus kann nun Wissen abgeleitet werden über den Marketing- und
Verkaufsprozess mit dem Kunden sowie natürlich über die Website selber.
Verschiedene Datenquellen:
1. Serverlogs und Cookies
Einträge in Webserver-Log�les werden automatisch erstellt, wenn ein Benutzer eine URL
angefordert hat, indem er sich diese auf seinem PC darstellen lässt, dabei wird die IP-
Adresse des Besuchers, einige Daten über sein verwendetes System und die besuchte Seite
verzeichnet und zu guter letzt natürlich die Uhrzeit. Aus diesen Informationen kann man
unter einigen Grundannahmen, zum Beispiel dass ein Benutzer die Seite verlassen hat,
wenn zwischen 2 Aufrufen mehr als 20 Minuten vergangen sind, nun der Weg eines
Benutzers durch die Website abgeleitet werden.
Um einen Benutzer der eine Seite besucht hat beim nächsten Besuch wiederzuerkennen,
übermittelt der Server auf den Computer des Besuchers einen sogeannten Cookie, das ist
eine kleine Datei die am Rechner des Besuchers abgelegt wird und an der der Server den
Benutzer beim nächsten Besuch wiedererkennt, damit umgeht man das Problem, dass
unter einer IP-Adresse der Zugri� durchaus von verschiedenen Computern aus erfolgen
kann.
2. Pro�le und vom Benutzer eingegebene Daten
Meist werden Benutzerdaten gerade bei Webshops in Form von Formularen abgefragt, in
denen der Benutzer auÿer kaufrelevanten Daten wie seinem Namen und seiner Adresse
etc. oft auch Interessen und weitere Informationen preisgibt.
3. Metadaten
Um die Besuche eines Webshops auswerten zu können, muss auch die Struktur der
Website selber festgestellt werden, diese ist bei gröÿeren Projekten bereits einfacher
über eine maschinelle Auswertung der Website, als durch einen menschlichen Ersteller
zu generieren.
3.9. DIE PRAKTISCHE ANWENDUNG UND DIE ZUKUNFT 31
Ergebnis
Durch die Applikation der allgemeinen Möglichkeiten und Abläufe die das Data Mining in
diesem Kontext zu bieten hat, kann der Absatz erhöht werden (indem man dem Kunden zum
Beispiel anhand seines bisherigen Verhaltens einer Gruppe von Kunden zuordnet und daraus
ableitet, welches Angebot diesen Kunden am ehesten zum Kauf verleiten könnte) oder die
Bindung des Kunden verstärkt werden (ein Kunde, der �ndet was er sucht und den Dienst
erhält, der ihn glücklich macht, wird zum treuen Kunden) oder Vorhersagen über Reaktionen
der Kundschaft auf geplante Veränderungen abgeleitet werden (wenn man das Verhalten der
Kundschaft jetzt nesser versteht, kann man daraus eher Aussagen über zukünftiges Verhalten
ableiten), wodurch sich insgesamt wieder einmal enorme Nutzenpotentiale für den erfahrenen
Data Miner in diesem Bereich ergeben, die sich direkt in barer Münze für die jeweilige Firma
auswirken.
3.9 Die praktische Anwendung und die Zukunft
Ohne Zahlen läuft in Konzernen nichts, jedoch arbeiten in groÿen Firmen normalerweise viele
Menschen, von denen die meisten mit mathematischen Aufgaben überfordert sind. Das Re-
sultat ist, daÿ quantitative Analysen (wie z.B. Data Mining) meist auf sehr niedrigem Niveau
angesetzt werden.
Die Techniken die angewandt werden sollten, sind stark abhängig von der Art und Grösse
der Firma. Viele Firmen greifen dabei auf gängige Softwareprodukte (z.B.: Microsoft, SAS,
...) zurück: (Monash, 2006)
�But no matter what tools you use, the basic story remains the same � enter-
prises have a lot of quantitative and/or objective data, and if you squeeze that
data hard enough, something valuable will probably pop out.�
Data Mining ist zwar eine umstrittene Disziplin, doch groÿe Firmen betreiben Data Mi-
ning sehr rege in vielen Industriezweigen und Anwendungsgebieten, mit durchwegs sehr guten
Ergebnissen. Groÿe Software�rmen wie z.B. SAS und Oracle erweitern regelmäÿig ihre Soft-
ware Produkte um neue Funktionen des Data Minings. Ein praktisches Beispiel dafür sind
Anwendungen, die immer aufwendigere statistische Analysen ermöglichen.
Im Bereich des Text minings sind zur Zeit groÿe Enticklungen zu verzeichnen. Auch Markt-
bereiche innerhalb der Softwareentwicklung, wie etwa die Web-Suche oder Antispam Produkte
verlassen sich auf Data Mining für weite Bereiche der Entwicklung und Forschung. Andere der
heute üblichen Softwarelösungen für Data Mining können in den Bereich der Kundenanbots-
erstellungen eingeordnet werden.
32 KAPITEL 3. DATA MINING
Einer der zur Zeit am schnellsten wachsenden Bereiche des DM ist die Ursachenforschung
bei Produktfehlern, so wird die amerikanische Automobilbranche durch das TREAD Gesetz
(Transportation Recall Enhancement, Accountability and Documentation (Monash, 2006) ex-
plizit verp�ichtet auf periodischer Basis ihre Garantieabwicklungen und andere Aufzeichnun-
gen auf Anzeichen von Produktfehlern hin zu durchforschen. Auch beispielsweise im pharma-
zeutischen Markt gibt es derartige Bestrebungen und Vorschriften.
Einige der wichtigsten Verwendungsgebiete für das Data Mining könnten fürderhin Ge-
sundheitsp�ege und wissenschaftliche Forschung sein. Daten zu Genomen, klinische Aufzeich-
nungen und allgemeine medizinische Artikel können alle mittels Data Mining aufgearbeitet,
untersucht und ausgewertet werden. In der Praxis werden hierbei spezialisierte Techniken, wie
Text Mining und die Analyse von netzwerkartigen Zusammenhängen, verwendet. DM trägt
somit zur Aufarbeitung von Daten bei einer Vielzahl technischer Disziplinen, von Astrophysik
bis Wasserqualitätforschung, bei, und wird hier in der Zukunft noch weiter an Bedeutung zu
nehmen.
Kapitel 4
Data Mining in der Business Intelligence
Hier wird examplarisch als Beispiel für die manigfaltigen Anwendungen des Data Mining in
der Business Intelligence ein Anwendungfall dargebracht.
4.1 Der Wert des einzelnen Kunden für einen Mobilfunk-
betreiber
Der Wert eines Kunden lässt sich durch die erwartete Summe der durch Ihn verursachten
Einnahmen minus der für in getätigten Ausgaben über die Dauer der Kundenbeziehung mit
dem Kunden de�nieren. Dabei muss unterschieden werden zwischen Kunden die einzelne Käufe
tätigen und denen die privatrechtlich gesehen ein Dauerschuldverhältnis eingehen und laufend
Einnahmen erbringen, was im Mobilfunkbereich der Regelfall ist.
Hierbei geht es im besonderen darum die Wechselhäu�gkeit der Kundschaft bzw. ihre Treue
zu untersuchen, da diese sich direkt auf den Wert des Kunden auswirkt, denn wer ewig treu
bleibt zahlt auch gut. Besonders geht es bei der Berechnung dieses Wertes um die Festlegung
der Rentabilitätsgrenze für etwaige Kundenbindungs und Neukundenaquisitionsprogramme.
Um diese Konzepte auf ein mathematisches Fundament zu stellen benötigt man 3 Berech-
nungsgrundlagen:
1. Die Dauer der Bindung, also wie lange es erwartungsgemäÿ dauern wird bis der einzelne
Kunde im Schnitt seinen Vertrag beendet.
2. Den Wert eines Kunden zu einer gegeben Zeit (Cash�ow).
3. Und als letzten, an sich einfachsten Teil die Festlegung einer einfachen Diskontierungs-
funktion, die angibt, wieviel der morgen vom Kunden eingenommene Euro heute wert
ist.
33
34 KAPITEL 4. DATA MINING IN DER BUSINESS INTELLIGENCE
4.1.1 Verweildauer des Kunden
Als einfache Berechnungsbasis kann man hier etwa annehmen, dass wenn 5% der Kunden je-
den Monat wechseln, der durchschnittliche Kunde mit 95% Chance in jedem Monat noch dem
Unternehmen treu bleibt. Dieses stark vereinfachte Modell ignoriert natürlich jegliches indi-
vuelle Charakteristikum des einzelnen Kundem, da sich diese aber über die Berechnung einer
grossen Anzahl an Kunden ausmitteln können, ist hiermit kein gänzlich unbrauchbarer Ansatz
gegeben. Es werden oft weit komplexere Verfahren für die Berechnung der Wechselwilligkeit
des Kunden und mithin für sein Verweildauer beim Unternehmen erstellt, beginnend bei der
Auswertung der bisherigen Verweildauer mit einer Analyse der Daten hinsichtlich einzelner
Faktoren mit Hilfe des Dataminings.
Ein weitere Ansatz wäre die Kunden in einzelne Segmente zu unterteilen und für jedes
Kundensegment unabhängige Daten zu generieren, hierfür kann man bereits die Unterstützung
von Softwaretools benutzen, die den Prozess der Segmentierung nach einigen wenigen Kriterien
weitgehend automatisieren (Rosset and Neumann, 2003).
4.1.2 Zeitwertberechnung eines Kundenvertrags
Bei dieser Berechnung wird zumeist ein Ansatz gewählt, der die aktuellen und bisherigen
Zahlungs�üsse des Kundens als Referenz nimmt und das Ergebnis als für immer konstant
annimmt, komplexere Berechnungsmethoden, beispielsweise auf der zuvor erwähnten Segmen-
tebene, sind durchaus auch in Verwendung. Diese sind meist durch sehr individuelle Ansätze
geprägt, dass heisst jede Firma wählt hier eigene geheime Verfahren. Insgesamt wird aber der
meiste Aufwand auf eine Abschätzung und Vorrausberechnung der Verweildauer aufgewendet.
4.1.3 Abschätzen des Erfolgs eines Kundenbindungsprogrammes
In der Abbildung (Abb. 4.1) ist ein Beispiel für eine solche Regel�ndung gezeigt die bei der
Entwicklung einer Kampagne mit dem Ziel der längeren Kundenbindung (und der Erhöhung
des Kundenwertes) entwickelt wird. Durch dieses Werkzeug in Kombination mit einer erprob-
ten Formel für die Bewertung der Kundenwerte zum Beispiel auf Segmentebene kann man sehr
handfeste Ergebnisse erarbeiten, wieviel eine Kampagne genau kosten darf um noch Gewinne
zu erbringen, bzw. wie hoch der jeweilige Gewinn ist. So kann für jedes Segment der passende
Anreiz zu längerem Verweilen bzw. zu höheren Einnahmen durch das Unternehmen gegeben
werden, da verschiedene Segmente beim selben Programm unterschiedlich gut ansprechen.
4.1. DER WERT DES EINZELNEN KUNDEN FÜR EINEN MOBILFUNKBETREIBER35
Abbildung 4.1: Automatisch gefundene Regeln für Wechselwahrscheinlichkeit (engl. Churn)und Loyalität des Kundensegments (Rosset and Neumann, 2003)
4.1.4 Andere Kampagnen
Andere Entscheidungsprobleme verhalten sich hierbei sehr ähnlich, so können haargenau die
gleichen Konzepte für die Aufwertung des einzelnen Kunden durch das umsteigen auf teurere
Produkte benutz werden.
36 KAPITEL 4. DATA MINING IN DER BUSINESS INTELLIGENCE
Kapitel 5
Schlussworte
Im Rahmen der hier vorliegenden Arbeit habe ich versucht, mich mit dem Thema des Data
Minings im speziellen Kontext der Business Intelligence auseinanderzusetzen, indem ich dem
Leser von einem kurzen Überblick über die Bedeutung der beiden Themen bis zu einer ansch-
liessenden Behandlung von Data Mining und desen Anwendungen einen Überblick über dieses
Gebiet vermittelt habe.
Gerade aufgrund der enormen Wichtigkeit, in der heutigen Zeit gut informiert zu sein,
sowohl im privaten aber auch ganz besonders im geschäftlichen Umfeld kann in einem so
kurzen Text aber natürlich nicht mehr als ein kurzer Abriss statt�nden und so muss ich den
geneigten Leser zur weiteren Vertiefung dieses Bereiches auf mein Literaturverzeichnis zur
weiteren Information verweisen, ho�e aber doch zumindest einen Einblick in dieses äuÿerst
interessante Teilgebiet der Wirtschaftsinformatik gegeben zu haben.
37
38 KAPITEL 5. SCHLUSSWORTE
Literaturverzeichnis
M. Eder. Data mining - vorgehensmodell zur produktevaluation, 2002. Diplomarbeit, Betreu-
ung: o. Univ.-Prof. Dr. Michael Schre�, unter Anleitung von: Univ.-Ass. Dr. Günter Preuner
ausgeführt an der Universität Linz, Institut für Wirtschaftsinformatik, Data And Knowledge
Engineering.
T. Fisher. Add controls to your data governance and compliance programs. Business Intelli-
gence Journal, 11(4), 2006.
H. Jiawei and M. Kamber. Datamining - Concepts and Techiques. Academic Press, United
Kingdom, 2001.
L. Kirby. Why you need more than a dashboard to manage your strategy. Business Intelligence
Journal, 11(4), 2006.
C. A. Monash. Computerworld. Business Intelligence Journal, 40(37), 2006.
K. North. Wissensorientierte Unternehmensführung. Gabler Verlag, 1999.
J. A. Ogden. Supply base reduction: An empirical study of critical success factors. Journal of
Supply Chain Management, 42(4), 2006.
P. Perner. Data Mining on Multimedia Data. Springer Verlag Berlin Heidelberg, 2002a.
P. E. Perner. Advances in Data Mining - Applications in E-Commerce, Medicine, and Know-
ledge Management. Springer Verlag Berlin Heidelberg, 2002b.
S. Rosset and E. Neumann. Customer lifetime value models for decision support. Data Mining
and Knowledge Discovery, 7(3), 2003.
D. Teachey. The �ve-step approach to more valuable enterprise data. What Works, 22, 2007.
URL http://www.tdwi.org/Publications/WhatWorks.
H. J. Watson. Bi and data warehousing in universities. Business Intelligence Journal, 11(3),
2006.
39
40 LITERATURVERZEICHNIS
Wikipedia.org. Wikipedia die freie enzyklopädie, 2007a. URL http://de.wikipedia.org/
wiki/Business-Intelligence.
Wikipedia.org. Wikipedia die freie enzyklopädie, 2007b. URL http://de.wikipedia.org/
wiki/Data_mining.
Wikipedia.org. Wikipedia die freie enzyklopädie, 2007c. URL http://en.wikipedia.org/
wiki/Supply_chain_management.