Data Mining für Business Intelligence Data Mining for

Data Mining für Business Intelligence

Data Mining for Business Intelligence

Stefan Beranek

Gudrunstrasse 185/1/19

A-1100 Wien, AUSTRIA

Telefon: +43-676-6675640

E-Mail: [email protected]

2

Data Mining für Business Intelligence

Data Mining for Business Intelligence

Stichworte:

Data Mining, Business Intelligence, Anwendungen, E-Marketing, Entwicklung, Wissensbasis

Keywords:

Data Mining, Business Intelligence, application, development, e-marketing, knowledge base

Zusammenfassung

Dieser Text gibt einen groben Überblick über Business Intelligence mit einigen üblichen

Rahmenmodellen, anschlieÿend wird das Gebiet des Data Minings aufgearbeitet, seine Ent-

wicklung und wie man Daten als Datenbasis dafür sammeln kann, sowie die verschiedenen

Vorgangsweisen um mit dieser Datenbasis zu arbeiten und daraus Wissen zu gewinnen, um

das Gebiet mit einigen Anwendung wie im Bereich der Universität oder des E-Marketings

sowie im Bereich der Abschätzung des Wertes eines Kunden für einen Mobilfunkbetreiber

abzurunden.

Abstract

This text gives a rough overview of basic models of Business Intelligence. After this it starts

with the basis of Data Mining, especially its historical development, how to collect data to

use as a data base for later knowledge deduction and how to use this data basis. Further more

this article continues with a description how these technices are applied in special applications

like in an university or in E-Marketing or in a mobile communications company.

Inhaltsverzeichnis

1 Einleitung 7

2 Business Intelligence 11

2.1 Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 Rahmenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.1 Balanced Scorecard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.2 Data Monitoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.3 Supply Chain Management (SCM) . . . . . . . . . . . . . . . . . . . . 15

2.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Data Mining 19

3.1 Der Beginn des Data Minings . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2 Data Mining im speziellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3 Data Mining als Interdisziplinäres Fach . . . . . . . . . . . . . . . . . . . . . . 21

3.4 Datenbasis und mögliche Mustervorkommen . . . . . . . . . . . . . . . . . . . 22

3.4.1 Relationale Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4.2 Datawarehouses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4.3 Transaktionsdatenbanken . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4.4 Moderne Datenbanksysteme . . . . . . . . . . . . . . . . . . . . . . . . 23

3.5 Verwendete Vorgangsweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.5.1 Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.5.2 Wissensableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.6 Art der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.7 Vorbereitung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.8 Anwendungen und die Zukunft des DM . . . . . . . . . . . . . . . . . . . . . . 28

3.8.1 Data Mining in der Anwendung an der Universität . . . . . . . . . . . 28

3.8.2 Data Mining in der Anwendung im E-Marketing . . . . . . . . . . . . . 28

3.9 Die praktische Anwendung und die Zukunft . . . . . . . . . . . . . . . . . . . 31

3

4 INHALTSVERZEICHNIS

4 Data Mining in der Business Intelligence 33

4.1 Der Wert des einzelnen Kunden für einen Mobilfunkbetreiber . . . . . . . . . . 33

4.1.1 Verweildauer des Kunden . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.1.2 Zeitwertberechnung eines Kundenvertrags . . . . . . . . . . . . . . . . 34

4.1.3 Abschätzen des Erfolgs eines Kundenbindungsprogrammes . . . . . . . 34

4.1.4 Andere Kampagnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5 Schlussworte 37

INHALTSVERZEICHNIS 5

Vorwort

Dieser Text entstand im Rahmen des Wirtschaftsuniversitätsfaches �Seminar aus Informati-

onswirtschaft� von o. Univ. Prof. Dr. Wolfgang Janko und Priv. Doz. Dr. Michael Hahsler im

Sommersemester 2007.

Mein Dank gilt im besonderen meinen beiden Freunden Mag. rer. nat. Stefan Padlesak

und Mag. phil. Robert Koch die mir bei der Ausarbeitung dann und wann jeweils als Lektoren

hilfreich zur Seite standen.

6 INHALTSVERZEICHNIS

Kapitel 1

Einleitung

Der Begri� Intelligence bedeutet nicht, wie so oft von non-native speakern fälschlicherweise

gedacht, Intelligenz. Jedoch ist dieser Begri� in der praktischen Ausübung des Intelligence

gatherings, dass heiÿt des Einsammelns von Informationen, nicht nur peripher mit diesem

Wort verbunden. Denn, wie später in der Arbeit noch in ausführlicher Form dargestellt, ist es

die intelligente Einholung von gewissen Informationen und dann fasst noch essentieller für den

positiv zu absolvierenden Arbeitsprozess, die intelligente Herausholung der für die Aufgabe

wertvollen Informationen intelligent auszuwerten. Wie sich dann noch herausstellen wird, ist

es gerade dieser Punkt der besondere Beachtung �nden sollte und letztendlich auch muss,

damit man das Ziel der Anwendung zu einem gütlichen Ende bringen kann.

So ist auch der Name einer der verschiedenen Nachrichtendienste zu verstehen, der Cen-

tral intelligence Agency, kurz CIA. Diese Einheit versucht auch anhand von Informationen

verwendbare Lagebilder zu erstellen. Allgemein kann man sagen, dass Nachrichtendienste In-

formationen zu verschiedenen Themenbereichen sammeln (Auÿen-, Innen- und Sicherheitspo-

litik stehen dabei im Mittelpunkt), welche unterstützend für die Urteils�ndung der politischen

Führung verwendet werden. Fehler können groÿe Auswirkungen haben, wie beispielsweise die

unzureichenden Information im Vorfeld des Irakkrieges.

Ähnlich verhält es sich natürlich auf einem anderen Gebiet mit der Business Intelligence.

Hier legt man Hauptaugenmerk auf das Geschäft, in der Durchführung der Aufgabe lassen

sich aber Gemeinsamkeiten nicht von der Hand weisen. Den auch in dieser Sphäre können

Fehler ungeahnte negative Auswirkungen haben, diese auszuschliessen oder zumindest auf ein

geringes Maÿ zu reduzieren ist eines der hauptsächlich verfolgten Ziele innerhalb des Data

Minings bzw. der Business Intelligence.

Es geht, wie so oft im Leben und vor allem auch in der Wirtschaft, vor allem um Wissen,

am besten auch noch, dass man mehr als der wirtschaftliche Kontrahent weiss. Klaus North

meint dazu im Buch Wissensorientierte Unternehmensführung (North, 1999):

�Die Bedeutung der Ressource �Wissen� wird in Volkswirtschaften und Un-

7

8 KAPITEL 1. EINLEITUNG

Abbildung 1.1: Die Wissenstreppe von Klaus North zeigt die Schritte vom Zeichen als Basis-einheit der Daten bis zur gesteigerten Wettbewebsfähigkeit (In Anlehnung an North, 1999)

ternehmen zunehmend erkannt. Die gesellschaftlichen und organisatorischen Rah-

menbedingungen zur Generierung und e�ektiven Nutzung von Wissen werden in

der nahen Zukunft die Wettbewerbsfähigkeit bestimmen. Ziel wissensorientierter

Unternehmensführung ist es, aus Informationen Wissen zu generieren, und dieses

Wissen in nachhaltige Wettbewerbsvorteile umzusetzen, die als Geschäftserfolge

messbar werden.�

In diesem Zusammenhang entwickelte er auch die allgemein gebräuchliche Wissenstreppe

(siehe Abb. 1.1), die darstellen soll, wie es gelingen kann Wissen zu generieren und e�ektiv

nutzbar zu machen.

Im Bereich der Informatik kann dabei dieser Prozess automatisiert werden, hierbei ist

natürlich die richtige Wahl der Kennzahlen und Kategorisierungen im Allgemeinen notwendig.

Denn wie dargestellt macht es de�nitiv keinen Sinn die richtigen Fragen zu stellen, aber die

gesammelten Informationen nicht zu nützlichen und brauchbaren Antworten zu verarbeiten

bzw. zu formen. Dies ist die Problemstellung und ich ho�e, dass es mir gelingen wird bezüglich

der Business Intelligence und dem damit in Zusammenhang stehenden Data Mining etwas Licht

in die Sache zu werfen.

Das ein Run auf diese Art der Intelligence eingesetzt hat, zeigen die zuletzt erhobenen

Daten, nachdem im Jahr 2007 gemäÿ den Äusserungen von diversen Analysten und Experten

der Informationstechnologie Branche ein Gesamtumsatz des Marktes von insgesamt bis zu 1,76

Milliarden Euro nicht unmöglich zu erreichen ist (Wikipedia.org, 2007a). Einige der weltweit

gröÿten Firmen bieten als Teil ihres Anbotportfolios auch solche Dienste an, wie zum Beispiel

Microsoft, Oracle, oder ein anderer Branchenprimus SAP. Anhand dieser Au�istung und dem

feststellen des Marktpotenzial wird erst so richtig klar, dass man nicht von einem Phantom

innerhalb der Computergemeinschaft sprechen kann und sich genaues ansehen dieser Sphäre

lohnt.

9

Meine Arbeit wird das Rad nicht neu er�nden, dennoch ho�e ich einen Einstieg in das

Thema zu scha�en, so dass der geneigte Leser am Schluss ein besseres Verständnis über die

essentielle Bedeutung dieser Thematik hat. Die Geschwindigkeit mit der sich dieser Teilbe-

reich weiterentwickelt macht es geradezu unmöglich das Feld zu hundert Prozent abzudecken,

gewisse Grundaussagen möchte ich aber in meiner Arbeit nicht verschweigen. Probleme sollen

aufgezeigt werden und theoretische Grundbegri�ichkeiten in der notwendigen Ausführlichkeit

aufgezeigt werden. Natürlich kann man in der Kürze meiner Arbeit für dieses Seminar nicht

alles mit der Aufmerksamkeit versehen die gewisse Teile vielleicht benötigt hätten, unterm

Strich soll aber eine gewisse Klarheit über die Thematik der Business Intelligence und die des

Data Minings entstehen und das ganze könnte so als Einstieg in diese Bereiche dienen.

Abschlieÿend möchte ich dem Leser dieser Arbeit nur schon vorab ein letztes Mal von der

Wichtigkeit diese Faches überzeugen, allein mit der Zahl 1960, da diese den Begin der Ära

des Data Minings festsetzt (Wikipedia.org, 2007a). Man hat es also nicht mit einem Modegag

zu tun sondern mit etwas handfestem, dass die Geschäftsbranche schon seit nunmehr fast

50 Jahre beschäftigt. Da dies so festzustellen ist sollte man dem Thema auch mit dem ihm

gebührenden Respekt gegenüberstehen. Ich werde versuchen in der Arbeit meinen Teil dazu

beizutragen und ho�e dem Leser zu einem kurzweiligen Einstieg zu verhelfen. Viel Spaÿ!

10 KAPITEL 1. EINLEITUNG

Kapitel 2

Business Intelligence

Zur Einleitung in das Themengebiet hier ein Zitat des Begri�es Business-Intelligence aus

Wikipedia (Wikipedia.org, 2007a)

�Der Begri� Business-Intelligence (aus dem englischen �Business Intelligence�

= Geschäftsanalyse, geschäftliche Nachforschung, geschäftliche Erkenntnisse, Abk.

BI) wurde Anfang bis Mitte der 1990er Jahre populär und bezeichnet Systeme und

Prozesse zur systematischen Analyse eines Unternehmens und seines kommerziellen

Umfeldes�meist mit Computersystemen. Ziel ist die Gewinnung von Erkenntnissen,

die in Hinsicht auf die Unternehmensziele bessere operative, taktische oder strate-

gische Entscheidungen ermöglichen. Dies geschieht mit Hilfe analytischer Konzepte

und IT-Systeme, die Daten über das eigene Unternehmen, die Mitbewerber oder

Marktentwicklung im Hinblick auf den gewünschten Erkenntnisgewinn auswerten.

Mit den gewonnenen Erkenntnissen können Unternehmen ihre Geschäftsabläufe,

Kunden- und Lieferantenbeziehungen pro�tabler machen, Kosten senken, Risiken

minimieren und die Wertschöpfung vergröÿern. Der Begri� wird dem Fachgebiet

der Wirtschaftsinformatik zugerechnet.�

Business Intelligence (kurz BI) Anwendungen und Technologien ermöglichen Firmen besser

informierte Wirtschaftsentscheidungen zu tre�en und geben ihnen damit einen klaren Wettbe-

werbsvorteil. Damit erlauben sie es, Firmen interne und externe Informationen zu extrapolieren

und dadurch Prognossen über die zukünftigen Trends ihrer Branche zu erstellen. Dem Mana-

gement wird nun dadurch unter anderem erleichtert, die Position ihrer Firma im Vergleich zu

ihren Konkurrenten festzustellen.

BI Methoden helfen beim analysieren folgender Bereiche: Änderungen der Trends im

Markt, Änderungen im Kundenverhalten und Ausgabeverhalten, eruieren der Kundenwün-

sche, Möglichkeiten der Firma und Marktkonditionen im Allgemeinen. Weiters erhält das

Management so Hilfestellungen welche Änderungen die Trends wie beein�ussen.

11

12 KAPITEL 2. BUSINESS INTELLIGENCE

BI Systeme ermöglichen es wirtschaftliche Entscheidungen auf eine auf Daten basieren-

de Grundlage zu stellen und von intuitiven Entscheidungen Abstand zu nehmen. Zusätzlich

wird die Komunikation zwischen den Abteilungen gestärkt, koordinierte Aktivitäten werden

ermöglicht, und Firmen ist es möglich schneller auf Änderungen (�nanzielle Änderungen, Ver-

änderungen des Kundengeschmacks, Änderungen im Supply-Chain Bereich, etc.) zu reagieren.

Wenn BI Systeme ein hochwertiges Design besitzen und vollständig in den Entscheidungspro-

zess integriert sind, steigern sie die Performance einer Firma. Zugang zu aktuellen und aku-

raten Informationen ist eine der wichtigsten Resourcen einer Firma. Zusammenfassend kann

man somit sagen, dass Business Intelligence Methoden Entscheidungsprozesse erleichtern und

mittelbar auch die Kundenzufriedenheit steigern.

Im Dienstleistungssektor benötigen Firmen up-to-date Informationen über Kundenbedürf-

nisse, sodass die Firma sich schnell den geänderten Wünschen anpassen kann. BI ermöglicht

hier nun Informationen zu Trends im jeweiligen Marktsektor zu sammeln und zu analysieren

und somit mit neuen inovativen Produkten oder Serviceleistungen den gegebenen Kunden-

wünschen entsprechend aufzuwarten. BI hilft auch Managern sich besser über die Aktionen

der Konkurrenten zu informieren. Auÿerdem ermöglicht BI eine bessere Kommunikation über

ausgewählte stategische Informationen mit Geschäftspartnern, wie z.B. der Austausch von

Daten über Inventarstände, Leistungskennzahlen und Daten zur eigenen Supply Chain für die

jeweiligen Zuliefer�rmen.

Des weiteren versorgen BI Systeme Manger mit Informationen über den Stand von wirt-

schaftlichen Trends oder Marktgegebenheiten und mit tiefergehenden Wissen über die internen

Operationen der eigenen Firma.

2.1 Voraussetzungen

Um e�ektiv zu funktionieren benötigen BI Technologien ein sicheres Computer Sytem, wel-

ches verschiedene Stufen der Zugangsberechtigungen zu einem Datawarehouse(siehe auch Kap.

3.4.2) ermöglicht, je nach Berechtigungsstufe, vom einfachen Mitarbeiter bis zum obersten

Chef. Weiters besteht klarerweise die Notwendigkeit, genügend Speicherkapazität für alle ge-

sammelten Daten zur Verfügung zu stellen. Damit in Zusammenhang muss auch überlegt

werden, wie lange die Daten gespeichert werden (data retention time). Um hier zu instrumen-

taliserbaren Auswertungsergebnissen zu kommen, muss man dazu Benchmarks für das System

erstellen und benötigt jeweils passende Arbeitssziele.

BI Analysten haben nun Softwarewerkzeuge zum Sammeln und Auswerten groÿer Mengen

an unstrukturierter Daten, wie Produktionskennzahlen, Verkaufsstatistiken, Anwesenheitsli-

sten, Kundenpro�le, etc., entwickelt. Jede BI-Anwendung ist dabei nun eigens für einen be-

stimmten Marktsektor (allgemeiner Verkauf, Finanzsektor, etc.) entwickelt worden um diesen

2.2. RAHMENMODELLE 13

gegebenen Anforderungen möglichst e�zient zu genügen.

2.2 Rahmenmodelle

2.2.1 Balanced Scorecard

Das Balanced Scorecard Konzept wurde von Dr. Robert Kaplan und Dr. David Norton im

Jahre 1992 entwickelt und wurde bereits weltweit bei vielen Firmen, Nonpro�t-Organisationen

und Regierungen implementiert (vgl. Kirby, 2006).

Die Balanced Scorcard ist:

• Ein Konzept welches die Strategien einer Organisation anhand von vier Perspektiven,

Finanz, Kunde, interne Prozesse sowie Lernen und Wachstum misst.

• Ein Kommunikationssystem, welches die Lücke zwischen den gesetzten Zielen der Füh-

rung und den Mitgliedern, die letztendlich für die Ereichung der gesetzten Ziele direkt

verantwortlich sind, schlieÿt.

• Ein Messsystem, welches über die Performance berichtet und Prognossen über die zu-

künftige Leistungen ermöglicht.

• Ein Prozess zur Implementierung und Organisation von strukturellen Änderungen.

Im Balanced Scorecard System gibt die Strategy Map einen auf einer Seite zusammenge-

fassten Überblick über die Strategien der Organisation. In einer pro�torentierten Situtation

beginnt die Organisation mit dem �nanziellen Ziel (da ja die Gewinnereichung als oberste

Zielmaxime zählt), achtet auf Kundenwünsche und untersucht nun die Wirkung der internen

Prozesse.

Jedes Kreis- und jedes Blasensymbol in der Strategy Map in Abb. 2.1 präsentiert ein

strategisches Ziel der Organisation. Unter jedem Ziel ist vermerkt, wie es gemessen wird (wie

die Performance bezüglich des Zieles gemessen und überwacht wird), sowie die notwendigen

Initiativen (Aktionsprogramme zum Erreichen der Ziele). Die meisten Organisationen folgen

in der Realität einem jährlichen Operationsplan welcher zwar diesen Massnahmen, Zielen und

Initiativen grob ähnelt aber sich natürlich im Detail davon unterscheidet.

2.2.2 Data Monitoring

Einer der wichtigsten Aspekte im Firmenleben sind Daten und ihr Ein�uss. Vom Kundenser-

vice bis hin zum Oberen Management werden Daten über Kundenorganisationenen, Produkte,

Inventar und Angestellte generiert, welche einen wichtigen Faktor für das Verstehen der Un-

ternehmenslandschaft spielen.


Abbildung 2.1: Eine Beispiel für eine Strategy Map( (Kirby, 2006))

Gute Daten sind der Schlüsselfaktor für eine gute Entscheidungsperspektive für das strate-

gische Management. Sie geben den Entscheidern genügend Hintergrundinformationen um die

Geschäftssituation zu verstehen und Trends auf dem Markt zu erkennen. Eine Organisation

kann jedoch nicht einfach die Qualität der Daten erhöhen und diese als statische Referenz

nutzen. Daten re�ektieren die Veränderung der Welt um uns herum. Daher sind gute Daten

dynamisch und verändern sich ständig. Viele Firmen können nun die Qualität dieser Daten

nicht erhalten, weil zuviel Zeit beim Datentransport bzw. der Datenverarbeitung vergeht �

die Daten werden ungenau oder sind bereits komplett falsch wenn sie die Entscheidungsträger

erreichen.

Data Monitoring ist eine Schlüsselkomponente für die Sicherstellung der Datenqualität

und Datenintegration. Auÿerdem hilft das Monitoring beim Identi�zieren und Korrigieren

der Ine�zienzen bei den automatisierten Prozessabläufen.Einfach gesagt ist Data-Monitoring

wichtig um Daten konsitent, genau und zuverlässig zu halten.

Um diese Ziele zu erreichen gibt es fünf Phasen (Fisher, 2006):

1. Data Pro�ling

Dabei wird zuerst überprüft wie gut der vorhandene Datenbestand ist bzw. was dessen

Stärken und Schwächen sind.

2. Data Quality

Hierbe geht es nun um die Verbesserung des bestehenden Datenpools.

2.2. RAHMENMODELLE 15

Abbildung 2.2: Pro�ling, Qualität, Integration, Enrichment und Monitoring formen die Basiseiner vollständigen Data Monitoring Implementierung (Teachey, 2007)

3. Data Integration

An dieser Stelle werden Informationen zum selben realen Objekt (z.B. ein bestimmter

Kunde) aus verschiedenen Quellen miteinander verknüpft.

4. Data Enrichment

In dieser Phase werden externen Daten zum Vervollständigen und Ergänzen der vorhan-

denen Daten benutzt.

5. Data Monitoring

IIm Data Monitoring geht es darum, die nun erreichten Erfolge bzw. die nun erreichte

Qualität des Datenbestandes durch fortlaufende Vorgänge zu erhalten.

Der Zusammenhang dieser Phasen ist in der Abbildung zu erkennen (Abb. 2.2).

2.2.3 Supply Chain Management (SCM)

Supply Chain Management ist der Prozess in dem die Plannung, Implementierung und das

Controlling der Operationen in der Bescha�ungskette durchgeführt wird, wobei hier die Kun-

denanforderung und die Unternehmensziele stets im Vordergrund stehen. Das SCM verwaltet

alle Bewegungen der Rohsto�e bis hin zum fertigen Endprodukt.


Aktivitäten des SCM

Beim SCM werden alle Bewegungen von Rohsto�en in ein Unternehmen und die Bewegungen

der fertiggestellten Endprodukte zu den Konsumenten gesteuert.

Da viele Unternehmen sich mittelerweile auf ihr Kernkompetenzen fokusieren, haben sie

das Management für die Rohmaterialienbescha�ung und Vertriebskanäle ausgelagert. Dadurch

entstehen für diese Firmen weniger Kosten bei mehr E�zienz. Durch diese neue Vorgehens-

weise, verliert das Unternehmen an Kontrolle in diesem Segment. Doch wie bereits 1990 die

Wissenschaftler Hahn und Watts sagten: "without a competent supplier network, a �rm's

ability to compete e�ectively in the market can be hampered signi�cantly� (Ogden, 2006).

Wie hier erwähnt ist es immer noch wichtig dass das Liferantennetz funktioniert. Auch wenn

die Aufnahme oder die Koordination dieses Netze ausgelagert wurde.

Weniger Kontrolle und mehr Supply Chain Partner führen zur Entstehung von neuen Sup-

ply Chain Management Konzepten. Es gibt mittlerweile verschiedene Modelle, um die vielen

Aktivitäten, die man zum Steuern der Rohsto�bewegung in Unternehmen und Organisationen

benötigt. Diese Supply Chain Aktivitäten kann man sodann gruppieren in der strategischen,

taktischen und operationalen Ebene. (vgl. Wikipedia.org, 2007c)

• Strategische Aktivitäten

� Strategische Netzwerk Optimierung: inkludiert die Anzahl, den Ort und die Gröÿe

der Lagerhallen, Vertriebszentren und Einrichtungen

� Strategische Partnerschaften: mit Liferanten, Vertrieb, und Kundenanforderung

� Produkt Design Koordination: so dass neue und existierende Produkte optimal in

die Bescha�ungskette integriert werden können

� IT Infrastruktur: um die SCM Operationen zu unterstützen

• Taktische Aktivitäten

� Bescha�ungsverträge und andere Einkaufsentscheidungen

� Produktionsentscheidungen

� Inventarentscheidungen: bezüglich Quantität, Ort und Qualität des Inventars

� Trasportstrategy: inkludiert die Häu�gkeit und die Routen

� Benchmarking für alle Operationen gegen Konkurrenten

• Operationale Aktivitäten

� Tägliche Produktion und Verkaufsplannung

� Produktionsplannung für jede Fabrik in der Bescha�ungskette

2.3. ZUSAMMENFASSUNG 17

� Nachfrageplannung und Vorschau: um alle Kundenanforderung decken zu können

� Produktionsoperationen: inkludiert den Verbauch an Materialien und die Abfuhr

von Fertigprodukten

2.3 Zusammenfassung

Nachdem nun das Gebiet der Business Intelligence, das sich als Hauptziel auf die Fahnen

schreibt den Unternehmen den entscheidenden Wettbewerbsvorteil durch bessere Informatio-

nen zu liefern und dazu einige Rahmenmodelle als praktische Ansätze zur Verfügung stellt,

wird nun im nächsten Kapitel auf das Datamining und seine Anwendungen eingegangen, bei

dem es auch um allgemeinere, nicht nur wirtschaftsspezi�sche Ansätze geht.


Kapitel 3

Data Mining

Zur Einleitung in das Themengebiet hier wieder eine Erklärung des Begri�es Data Mining aus

Wikipedie (Wikipedia.org, 2007b):

�Unter Data Mining versteht man die Anwendung von (statistisch-mathemati-

schen) Methoden auf einen Datenbestand mit dem Ziel der Mustererkennung. Da-

bei �nden insbesondere solche Methoden Anwendung, die hervorragende asympto-

tische Laufzeiten haben, weshalb Data-Mining oft im Zusammenhang mit grossen

Datenbeständen genannt wird. Gleichwohl ergeben sich durch den Verzicht auf Mo-

dellannahmen über den Datenentstehungsprozess auch bei kleinen Datenbeständen

interessante Anwendungsmöglichkeiten.�

Die Anwendung von �Data Mining� ist in der heutigen Zeit nicht zuletzt auch in den

verschiedenen Sektoren der Privatwirtschaft ein immer stärker auftretendes Phänomen. Die

Anwendungsgebiete sind mannigfaltig und reichen von der Auswertung von Einkaufsdaten der

Supermarktkunden, gewonnen durch die Speicherung der auf ihren Stammkarten vermerkten

Einkäufe, durch welche man die von ihnen gep�egten Einkaufsgewohnheiten ablesen kann bis

hin zu nachrichtendienstlichen Tätigkeiten wie das Echelon System, welches sich darauf spe-

zialisiert nach gewissen Worten beziehungsweise Zeichenkonstrukten mögliche Gefahrenherde

so schnell und früh wie möglich zu erkennen um sie baldigst unter Kontrolle zu bekommen.

Nachstehend will ich nun versuchen eine Einführung über den Bereich des Data Minings

zu geben, um als Abschluss den Verwendungszweck im Bereich der Business-Intelligence dar-

zustellen.

3.1 Der Beginn des Data Minings

Wie so oft am Anfang von Er�ndungen stand auch am Start des Data Minings die Notwen-

digkeit. Die Menge an Daten nahm über die Zeit naturgemäÿ zu und musste verwaltet und

19

20 KAPITEL 3. DATA MINING

zielgerichtet ausgewertet werden. Schon in den 60er Jahren des 20. Jahrhunderts begann man

an geeigneten Auswertsystemen zu basteln, dazu gehören grob gesprochen (Eder, 2002):

1. Datensammlung;

2. Datenbankerstellung;

3. Datenverwaltung

4. Datenanalyse und -auswertung

Ad 1.) und 2.): Dieser Prozess begann wie gesagt schon in den 60ern, als einfache Daten-

verarbeitung ohne in komplexere Ge�lde abzudriften.

Ad 3): In den 70er Jahren und Anfang der 80er-Dekade begann man Systeme zu entwickeln,

welche sich um das Datenmanagement selbst kümmern sollten. Da wären zum Beispiel hier-

archische und netzwerkbasierende Datenbanksysteme, User Interfaces, User Forms und User

Berichte, On-Line Transaction processing (OLTP umfasst unter anderem die sofortige Antwort

eines Systems auf eine Benutzeranfrage), und so weiter zu nennen.

Von diesem Hauptkonstrukt traten drei groÿe Leitlinien heraus, Advanced Database Sy-

stems ab Mitte der 80er Jahre, Data Warehousing (siehe auch Kap. 3.4.2) und Data Mining ab

den späten 80er Jahren und zuletzt Web-Based Databases Systems (mit dem Schwerpunkt des

Internets als Schnittstelle) in der letzten Dekade des 20. Jahrhunderts. Die neueste Entwicklung

ist ab dem neuen Millennium eine neue Generation der integrierten Informationssysteme(IIS).

Dabei werden die Geschäftsprozesse und die Prozesse der Datenerhebung/-verarbeitung an-

einander angepasst, damit man die Daten während den laufenden Prozessen bereits erheben

kann und vom IIS gleichzeitig miteinander vollautomatisch verknüpft.

3.2 Data Mining im speziellen

Unter dem Wort Data Mining versteht man im algemeinen Kontext das �nden von essentiellen

und wichtigen Informationen, herausgezogen aus einem Haufen von unnnötigen und nicht

zielführenden Daten. Diesen wertvollen Sto� abzubauen ist das erklärte Ziel des Data Minings.

Man kann Data Mining jedoch auch als einen Teil dieses allumfassenden Prozesses verste-

hen und um Doppeldeutigkeiten zu vermeiden, den gesamten Ablauf dann unter dem Begri�

�knowledge discovery in databases (KDD)� führen, wovon ich hier aber absehen möchte, es sei

hier nur der Volständigkeit halber erwähnt.

Dieser Vorgang lässt sich wiederum in sieben Abschnitte unterteilen: (Jiawei and Kamber,

2001, S.7)

1. Data cleaning (hier geht es um das entfernen von miÿliebigen und inkonsistenten Daten)

3.3. DATA MINING ALS INTERDISZIPLINÄRES FACH 21

2. Data Integration (mulitple Datenquellen werden zusammengeführt)

3. Data Selection (für das Forschungsobjekt wichtige Daten werden von der bestehenden

Database herausge�ltert)

4. Data Transformation (Daten werden in einen bestimmten bearbeitbaren Zustand ge-

bracht, zum Beispiel durch Zusammenfassen oder Aggregation dieser.)

5. Data Mining (Datenmuster sollen extrahiert werden - dies ist als das Data Mining

schlechthin zu verstehen)

6. Musterbewertung (Aufgrund von verschiedenen Massnahmen wird versucht die wirklich

aussagekräftigen und nutzbaren Muster zu entdecken)

7. Die Präsentation der Ergebnisse (die Visualisierung der herausgefundenen Erkenntnisse

für den Anwender)

3.3 Data Mining als Interdisziplinäres Fach

Im Bereich des Data Mings kann man nicht nur die Standards aus einem Bereich zu rate

ziehen, sondern muss versuchen aus verschiedenen Sektoren die für die Aufgabe richtigen und

wichtigen Kriterien miteinzubeziehen. Diese können aus dem Fach der Statistik, der Visua-

lisierung, der Informationswissenschaft, der Datenbanktechnologie, oder anderen Disziplinen

kommen. Das von mir schon erwähnte Beispiel, des zu untersuchenden Verhaltens der Käufer

im Supermarkt, wird wohl auch auf Teile der Disziplin der Psychologie zurückgreifen, oder das

Beispiel des Systems des Echelons, wird sich auch durch Hinweise aus der Politikwissenschaft

leiten lassen, vor allem hinsichtlich der Betrachtung von wichtigen Begri�en dieser Disziplin

der Wissenschaft.

Wichtige Punkte im Bereich die immer zu berücksichtigen sind die Methodologie

und die Interaktion mit den einzelnen Anwendern, da ja nicht jeder User dasselbe Wissen aus

den schon gesammelten Informationen ziehen will.

Aus dem letztgenannten Grund ist es wichtig eine breite Wissensbasis aufzubauen, da-

mit zumindest der Groÿteil der Anfragen der Anwender zufriedenstellend beantwortet werden

kann. Han und Kamber(Jiawei and Kamber, 2001, S.30) zeigen hier die wesentlichen Aufga-

ben der Wissens�ndung auf: �data characterization, discriminiation, association, classi�action,

clustering, trend and deviation analysis, and similiarity analysis.�


3.4 Datenbasis und mögliche Mustervorkommen

In diesem Abschnitt wird geklärt, an was für einer Datenbasis Data Mining ansetzen kann

(siehe auch Jiawei and Kamber, 2001).

3.4.1 Relationale Datenbanken

Ein Datenbanksystem (engl. DBMS=Data Base Managment System) besteht aus einer Samm-

lung zusammenhängender Daten, der Datenbank und den Softwarewerkzeugen um diese Daten

zu verwalten und zu bearbeiten. Dabei werden Mechanismen angewendet um die Struktur der

Datenbank festzulegen, um Datenbanken zu speichern, auf diese parallel zugreifen zu können

und um die Sicherheit und Konsistenz der darin be�ndlichen Daten zu gewährleisten sowohl

gegenüber unerlaubtem Zugri� aber auch gegen Harwarefehler und Systemabstürze.

3.4.2 Datawarehouses

Ein Datawarehoue ist ein System, das seine Information aus vielen unabhängigen Datenbanken

bezieht, die ihre Daten in jeweils zu einander inkompatiblem Formaten ablegen. Hier scha�-

te ein Datawarehouse Abhilfe indem es seine Information über eine zentrale Datenbank zur

Verfügung stellt. Seine Daten erhält es durch einen Ablauf der aus Datenbereinigung, Daten-

transformation, Datenintegration, Datenübertragung und periodischen Datenabgleich besteht.

Es werden in einem Datawarehouse die Daten nach ihrem referenzierten Bereich aufgeteilt,

zum Beispiel in die Bereiche Kunden, Lieferanten und Aktivitäten. Um nun als Entschei-

dunggrundlage dienen zu können, indem man zum Beispiel Trends extrapolieren kann, werden

Daten über einen längereren Zeitraum aufbewahrt (zum Beispiel über ein Jahrzent) und es

werden nicht die einzelnen Geschäftstransaktionen verzeichnet sondern nur aggregierte Werte

wie etwa der Gesamtumsatz des Produktes xy im Monat z.

Datawarehouses unterstützen den Einsatz von Data Mining auf ihren Informationsinhalt,

beim Einsatz dieser Technik ist man allerdings immer noch auf weitere Werkzeuge aus dem

Data Mining angewisen, mithin kann ein Datawarehouse damit nur als Datenquelle für Data

Mining dienen.

3.4.3 Transaktionsdatenbanken

Im Allgemeinen besteht eine Transaktiondatenbank aus einer Datei, in der jede durchgeführte

Transaktion durch einen Eintrag vermerkt ist. Als Beispiel sei hier ein Einkauf in einem Su-

permarkt genannt: Hier wird ein Eintrag erstellt, der eine einzigarte Transaktionsnummer und

eine Au�istung der gekauften Waren enthält. Weiters werden weitere Informationen vermerkt,

3.4. DATENBASIS UND MÖGLICHE MUSTERVORKOMMEN 23

wie in diesem Beispiel die Kundennummer und eine Vermerk der betro�enen Geschäftsnieder-

lassung.

3.4.4 Moderne Datenbanksysteme

Als eine der aktuelleren Entwicklungen im Datenbankbereich kann die Einbindung von nicht-

textuellen Daten (Bildern, Videos, Kartenamterial, Webseiten, ..) und damit einhergehend die

Weiterentwicklung der Fähigkeiten und Konzepte der Datenbanken gesehen werden:

• Objektorientierte Datenbanken

Hierbei setzt sich der Datenbestand aus einer Ansammlung von Objekten zusammen,

von denen jedes gewisse Eigenschaften besitzt und in der Lage ist mit anderen Objekten

durch das zusenden von Nachrichten zu interaggieren aber auch selbst Daten bearbeiten

kann und nun unter Zuhilfenahme sogenannter Methoden (Programmteile die auf die

die im Objekt abgelegten Eigenschaften auswerten) auf Nachrichten antworten kann.

• Objekt-Relationale Datenbanken

Hierbei handelst es sich um relationale Datenbanken die um das Konzept der Objekt-

orientierung erweitert sind.

• Heterogene Datenbanken und Altdatenbanken

Eine heterogene oder inhomogene Datenbank besteht aus einer Gruppe von miteinander

lose verbundenen Datenbanken, dies entsteht oft dadurch das Datenbanken die schon

lange bestehen zu neuen Systemen miteinander verbunden werden. Da es hierbei nicht

nur um das Abfragen und generieren von allgemeinen Informationen wie im Data Ware-

housing geht, tri�t man hier in noch viel höherem Umfang auf Probleme mit der un-

terschiedlichen Darstellung der gleichen Information und den Schwierigkeiten, zwischen

den unterschiedlichen (Alt)Systemen Schnittstellen zu de�nieren.

Gerade in diesem Bereich sind Neuerungen und Entwicklungen unabwendbar, einfach

aus dem Grund das der Informatik als nicht mehr so neues Anwendungsgebiet in den

letzten Jahrzenten viele zueinander inkompatible Datenbanksysteme entsprungen sind

um anschliessend bis auf Nischen wieder vom Markt zu verschwinden. Datenbanken, oder

um genau zu sein das von Ihnen abgebildete Wissen, stellen einen enormen Sachwert für

ein Unternehmen dar und dieser Wert fällt und steigt natürlich mit der Fähigkeit mit

den eigenen Daten nun auch das tun zu können, was man möchte.


3.5 Verwendete Vorgangsweisen

Data Mining kann grundsätzlich zur Beantwortung von zwei Typen von Fragen herangezogen

werden: (Perner, 2002b, S.42�)

1. Vorhersagen aufgrund historischem, gegebenen Datenmaterials (siehe 3.5.1)

• Einteilung in Klassen

• Regressionsanalyse

2. Wissensableitung aus vorhandenen Daten über den IST-Zustand bzw. über Zusammen-

hänge innerhalb der Datenmenge. (siehe 3.5.2)

• Abweichungsanalyse

• Clusterbildung

• Ableitung von Zusammenhängen durch Regel�ndung

• Visualisierung

Meist beginnt man mit Typ-2 Anfragen als Basis für die nachfolgenden Anfragen des Typ-1.

3.5.1 Vorhersagen

Abbildung 3.1: Erkennung der Unterschiede gegebener Klassen

Bei der Einteilung in Klassen geht es darum zu erkennen wodurch sich mehrere, vom Be-

nutzer im vorhinein festgelegte, Klassen von Datensätzen unterscheiden, zum Beispiel gilt es

zu prüfen, was die Klasse der regelmässigen Käufer von den seltenen Käufern unterscheidet

anhand der sonstigen festgestellten Merkmale wie Alter, Geschlecht, Quelle des Kundenkon-

taktes etc.

Bei der Regressionsanalyse geht es nun um etwas ähnliches, jedoch konzeptionell anderes:

Hier möchte man die Auswirkung der Veränderung einer Variable auf eine andere erfahren. Um

3.5. VERWENDETE VORGANGSWEISEN 25

Abbildung 3.2: Regressionsanalyse am klassischen 2D-Beispiel der Regressionsgeraden

beim Einkäuferbeispiel zu bleiben, geht es hier darum den Zusammenhang zwischen gekauften

Wein�aschen und gekauften Zahnpastatuben festzustellen und das ganze zum Beispiel durch

einen numerischen Wert, einen Korrelationskoe�zienten oder dergleichen darzustellen.

3.5.2 Wissensableitung

Im Bereich der Abweichungsanalyse geht es darum mit Standardmethoden der Statistik das

vorhandene Datenmaterial zu bearbeiten, angefangen bei einfachen Mittelwert und Standard-

abweichungsberechnungen bis zum vollen Umfang der üblichen Methoden.

Abbildung 3.3: Bei der Clusterbildung ist die Erzeugung der Klassen das Endprodukt der

Analyse

Im Anwendungsbereich der Clusterbildung geht es darum, die vorhandenen Datensätze zu

sogenanneten Clustern (Gruppen von ähnlichen Datensätzen) zusammenzufassen, wobei hier-

bei a priori noch keine �xen Gruppierungen feststehen sondern nach einfachen Grundformeln

versucht wird, festzulegen welche Datensätze �ähnlich� sind und welche nicht, indem zum Bei-

spiel die Ähnlichkeit zweier Datensätze über den euklidischen Abstand im n-dimensionalen

Raum der Eigenschaften de�niert wird mit den daraus resultierenden Schwierigkeiten, um

anschliessend daraus eine Grundlage für eine Einteilung in Klassen zu gewinnen. Die hierbei


angesprochenen Probleme beginnen bereits mit gar nicht so einfachen Frage wie sehr die ein-

zelnen Eigenschaften zu gewichten sind. Ein 20 Jahre alter Mann mag einer 80jährigen Frau

weniger ähnlich sein als einem 16jährigen Knaben im Einkaufsverhalten, aber um welchen

Faktor genau? Da hier also viele Daten einzufügen sind die nicht direkt dem vorhandenen

Datenpool entspringen, gibt es mithin eine groÿe Anzahl an Möglichkeiten Cluster zu bilden.

Als weiterer Punkt wurde die Ableitung durch Regel�ndung genannt, hierunter ist das

�nden von (einfachen) Zusammenhängen zu verstehen, die sich nicht durch die Gruppierung

der Datensätze wie im Clustering ergeben sondern bereits durch den Vergleich der Datensätze

bezüglich zweier beliebiger Eigenschaften und ihres Zusammenhangs mit einfachen Wenn-

Dann-Regeln.

Visualisierungen sind hier als ein wichtiger Teil jeglicher Wissensinferenz zu betrachten, da

ein Mensch von Natur aus verältnismässig schlecht mit einer riesigen Anzahl von Zahlen, wie

sie in allen diesen Verfahren entstehen, umgehen kann, aber sehr gut ein davon abgeleitetes

Bild mit einem ebenso hohen Informationsgehalt gebrauchen kann.

3.6 Art der Daten

Data Mining kann nicht nur nach der Art der Herangehensweise und der Zielsetzung di�eren-

ziert werden sondern auch nach der Art der untersuchten Daten. Obwohl natürlich die meisten

Ansätze universell anwendbar sind haben sich im Laufe der Zeit doch immer wieder neue An-

sätze entwickelt wie das Text Mining, Bild Mining oder Web Mining, die ihre Bedeutung durch

eine besondere Herangehensweise bei der Vorbereitung der Daten für die Untersuchung oder

durch die besonderern Schwierigkeiten die durch die spezielle Arte der Datenrepräsentierung

gegeben sind besitzen.

Um hier ein Beispiel zu nennen: Obwohl ein Bild sich auch als eine Tabelle von Farbwerten

die durch Zahlen wiedergegeben werden, darstellen lässt, ist es sinnvoller nicht das gesamte

Bild als Dateneinheit zu benutzen sondern eine vereinfachte, von Störungen bereinigte Version

die sich mithin auch durch eine geringere Informationsmenge auszeichnet.

Auch bei Textdokumenten kann noch eine zusätzliche Besonderheit zu beachten sein, diese

mögen eventuell als gedruckte Texte die erst in ein digitales Dokument umgewandelt werden

müssen, vorliegen. Auch muss man für die Bedeutung unnötige Formatierungen der Texte

aus diesen entfernen und last but not least gilt es sich mit der hohen Kontextsensitivität

natürlicher Sprache und ähnlichem herumzuschlagen(Perner, 2002a, S.9�)).

3.7. VORBEREITUNG DER DATEN 27

3.7 Vorbereitung der Daten

Um überhaupt mit den Werkzeugen des Data Mining auf eine Datensammlung losgehen zu

können, muss diese zuerst passend vorbereitete werden, dabei gilt es folgende Schritte durch-

zuführen:

1. Datenbereinigung

Einträge mit Werten die ausserhalb des de�nierten Wertebereichs sind, sind hier zu

entfernen. Um hier einen möglichst geringen Aufwand erbringen zu müssen gilt es bereits

bei der Zusammenstellung der Datensammlung darauf zu achten, dass zum Beispiel keine

Personen mit einem Alter unter 5 Jahren bei Autokäufen verzeichnet sind etc. Weiters

sind Datensätze, deren Werte sehr stark von den anderen Werten abweichen (Ausreiÿer)

zu entfernen um die Repräsentativität der auf diesem Datenmaterial erstellten Antworten

zu erhöhen.

2. Behandlung von unzuverlässigen und eventuell gestörten Daten

Daten die durch irgendeine Art von Messverfahren aufgenommen wurden, sind übli-

cherweise durch Messfehler und alle Arten von Störungen (Fehler durch Gerätschaften,

Umgebungsein�üsse, die Person des Messenden..) beein�usst, um dies zu kompensieren

bzw. zu reduzieren gilt es beispielsweise mit geglätteten Daten zu arbeiten, Störungen

dieser Art lassen sich natürlich nur veringern, aber nicht ausschliessen.

3. Au�üllen fehlender Informationen

Jeder unvollständige Datensatz kann nun einfach verworfen werden, da dabei aber In-

formation verloren geht, ist es meist besser fehlende Werte eines Datensatzes durch eine

geeignete Schätzung, sei es der Mittelwert dieses Wertes bei den anderen Datensätzen

oder der Wert den der zu diesem Datensatz ähnlichste Datensatz dort besitzt.

4. Codierung

Um den Datenpool mit einer Data Mining Software bearbeiten zu können, kann es

notwendig sein, textuelle Werte wie Farben (rot, grün, blau, gelb,. . . ), durch eine Zah-

lenrepräsentation zu ersetzen. (rot=1, grün=2,. . . ).

5. Abstraktion

Daten von hoher Komplexität werden hier bei Bedarf durch einfachere repräsentiert, als

klassisches Beispiel sind hier wieder Bilder zu nennen, die man eventuell durch statisti-

sche Werte ersetzt bzw. im medizinischen Bereich (vgl. Perner, 2002a, S.18) beispielsweise

durch Expertenaussagen über das Bild.


3.8 Anwendungen und die Zukunft des DM

Als weiteren Themenbereich wird hier zuerst auf die diversen Anwendungen des Datamining

eingegangen um mit zukünftigen Entwicklungen diesen Themenkreis abzurunden.

3.8.1 Data Mining in der Anwendung an der Universität

Universitäten unterstützen adminstrative und akademische Prozesse. Adminstrative Prozesse

beinhalten alle Transaktionsprozesse und Entscheidungsunterstützung. Das inkludiert Prozes-

se wie Verwaltung der Unterrichtsgelder, Unterstützung durch Stipendien, und Analysen der

zukün�gen Immatrikulierungen. Akademische Prozesse hingegen beinhalten Unterrichtsver-

waltungen, Forschungsprojekte, Verwaltung der Labors, usw..

Hauptsächlich wird Date Mining und Data Warehousing in den administrativen Porzessen

praktiziert. Um nur eine Zahl zu nennen hat die Firma Hyperion als einer der Platzhirschen

über 90 Universitäten als Kunden. Hauptaufgaben des Datamining sind hierbei diverse Anayl-

sen bezüglich der Qualität der Leistung für Studenten (LVA-Bewertungen oder Studentenan-

zahl), auf Basis dieser Auswertungen werden dann weitere Untersuchungen getätigt.

In den akademischen Prozessen selbst wird Data Mining und BI nur den Wirtschaftsstu-

denten gelehrt, jedoch nicht den Informatikstudenten (Watson, 2006):

�When it comes to academic computing, BI and data warehousing are typically

taught in information systems courses in business schools (rather than, say, in

the computer science department). These courses teach concepts, methodologies,

technologies, and applications of BI and data warehousing. Not all business schools

o�er these courses (often titled �decision support systems�), but many do.�

3.8.2 Data Mining in der Anwendung im E-Marketing

Für viele Kunden ist die Besonderheit des E-Commerce primär dadurch gegeben, dass man

Waren und Dienstleistungen online auswählen und bestellen kann, ohne jemals die eigenenen

vier Wände verlassen zu müssen (Perner, 2002b).

Ganzheitlich betrachtet ist das natürlich nur ein kleiner Teilaspekt des Gesamtkonzepts des

Online-Verkaufs. Genauso wie im Standardverkaufsprozess gilt es auch hier dem interessierten

Kunden mit Rat und Tat zur Seite zustehen, sowohl vor dem Kauf durch ein breites Infor-

mationsangebot zur gewünschten Ware bzw. Dienstleistung, aber auch ganz besonders nach

einem getätigten Auftrag, da gerade durch eine gute anschliessende Betreuung des Kunden

eine dauerhafte Kundenbeziehung erst gescha�en und erhalten werden kann.

Um jetzt diesen Dienst am Kunden erbringen zu können, muss der Inhaber eines Online-

Shops die Wünsche und Verhaltensweisen seiner Kundschaft durch deren Verhalten beim Ver-

kaufsprozess erforschen können. Anschlieÿend muss er genau dieses Wissen nutzen, um dem

3.8. ANWENDUNGEN UND DIE ZUKUNFT DES DM 29

Kunden genau die Information zur Verfügung zu stellen, die ihm zum Abschluss der Transak-

tion noch fehlt; Genau an dieser Stelle kann die Disziplin des Datamining nun eine helfende

Hand reichen und ihren groÿen Wert beweisen.

Unterschiede zum traditionellen �O�ine�-Marketing

Um E-Marketing zu verstehen muss man sowohl die Gemeinsamkeiten als auch die Unter-

schiede gegenüber dem konventionellen Verkaufsprozess im Auge behalten: Dabei gilt es alle

Schritte bei der Erstellung der Website von der konzeptionellen Festlegung des Projekts bis zur

Anpassung des Inhalts sowie natürlich der angepassten Werbung zu berücksichtigen � einer

der schwerwiegendsten Fehler der hierbei passieren kann ist es, die Online-Repräsentanz des

Unternehmens als schlichte Erweiterung der bisherigen Marketingbestrebungen der eigenen

Firma zu behandeln.

Wenn man sich nun mit der Materie des E-Marketing beschäftigt, ist die jeweilige Zielset-

zung grob in vier Kategorien zu unterteilen (Perner, 2002b):

1. Online-Werbung

Hierbei soll eine Werbebotschaft kostene�zient an ein bestimmtes Kundensegment ver-

mittelt werden.

2. Online-Verkauf

Dies ist der Verkauf von Gütern mit Hilfe eines Webshops, das beinhaltet zumindest

einen Online verfügbaren Warenkatalog und die Möglichkeit, die Ware auf eine sichere

und zuverlässige Art und Weise direkt bestellen zu können.

3. Online-Dienstleistung

Diese kann sowohl als kostenlose aber auch als kostenbehaftete Zur-Verfügung-Stellung

von Dienstleistungen verstanden werden, mit dem Unterschied zur klassischen Dienst-

leistung, dass diese jederzeit von jedem Ort der Welt genutzt werden kann.

4. Online-Zusammenarbeit

Hierunter sind die Möglichkeiten subsummiert, bei denen es darum geht den Nutzer in

Kontakt mit anderen Nutzern mit gleichen Interessen und Problemen zu bringen, sei es

durch Online-Foren, Chaträume oder dergleichen.

Um eine erfolgreiche Online-Repräsentanz zu erstellen sind nun Ansätze aus diesen Berei-

chen zu vereinigen und umzusetzen. Dazu müssen die Kunden, um auf der Höhe der Zeit zu

sein, interaktive und informative Inhalte mit einer möglichst intuitiven Navigation präsentiert

werden. Damit so auch die Kunden eine langfristige Bindung an das Unternehmen aufbauen,


gilt es laufend aktuelle Inhalte zu präsentieren und sich an die ständig wechselnden Kunden-

wünsche anzupassen. Dazu sind permanent die Wünsche und Bedürfnisse des Kunden mit

Techniken des Dataminings zu erfassen.

Information über den Kunden

Auf einer E-Commerce Webseite sind die Daten über den Kunden verteilt über die Information

der gekauften Güter (Marketingdaten), die Metadaten des Servers und die Zugri�sinforma-

tionen der Webserver. Daraus kann nun Wissen abgeleitet werden über den Marketing- und

Verkaufsprozess mit dem Kunden sowie natürlich über die Website selber.

Verschiedene Datenquellen:

1. Serverlogs und Cookies

Einträge in Webserver-Log�les werden automatisch erstellt, wenn ein Benutzer eine URL

angefordert hat, indem er sich diese auf seinem PC darstellen lässt, dabei wird die IP-

Adresse des Besuchers, einige Daten über sein verwendetes System und die besuchte Seite

verzeichnet und zu guter letzt natürlich die Uhrzeit. Aus diesen Informationen kann man

unter einigen Grundannahmen, zum Beispiel dass ein Benutzer die Seite verlassen hat,

wenn zwischen 2 Aufrufen mehr als 20 Minuten vergangen sind, nun der Weg eines

Benutzers durch die Website abgeleitet werden.

Um einen Benutzer der eine Seite besucht hat beim nächsten Besuch wiederzuerkennen,

übermittelt der Server auf den Computer des Besuchers einen sogeannten Cookie, das ist

eine kleine Datei die am Rechner des Besuchers abgelegt wird und an der der Server den

Benutzer beim nächsten Besuch wiedererkennt, damit umgeht man das Problem, dass

unter einer IP-Adresse der Zugri� durchaus von verschiedenen Computern aus erfolgen

kann.

2. Pro�le und vom Benutzer eingegebene Daten

Meist werden Benutzerdaten gerade bei Webshops in Form von Formularen abgefragt, in

denen der Benutzer auÿer kaufrelevanten Daten wie seinem Namen und seiner Adresse

etc. oft auch Interessen und weitere Informationen preisgibt.

3. Metadaten

Um die Besuche eines Webshops auswerten zu können, muss auch die Struktur der

Website selber festgestellt werden, diese ist bei gröÿeren Projekten bereits einfacher

über eine maschinelle Auswertung der Website, als durch einen menschlichen Ersteller

zu generieren.

3.9. DIE PRAKTISCHE ANWENDUNG UND DIE ZUKUNFT 31

Ergebnis

Durch die Applikation der allgemeinen Möglichkeiten und Abläufe die das Data Mining in

diesem Kontext zu bieten hat, kann der Absatz erhöht werden (indem man dem Kunden zum

Beispiel anhand seines bisherigen Verhaltens einer Gruppe von Kunden zuordnet und daraus

ableitet, welches Angebot diesen Kunden am ehesten zum Kauf verleiten könnte) oder die

Bindung des Kunden verstärkt werden (ein Kunde, der �ndet was er sucht und den Dienst

erhält, der ihn glücklich macht, wird zum treuen Kunden) oder Vorhersagen über Reaktionen

der Kundschaft auf geplante Veränderungen abgeleitet werden (wenn man das Verhalten der

Kundschaft jetzt nesser versteht, kann man daraus eher Aussagen über zukünftiges Verhalten

ableiten), wodurch sich insgesamt wieder einmal enorme Nutzenpotentiale für den erfahrenen

Data Miner in diesem Bereich ergeben, die sich direkt in barer Münze für die jeweilige Firma

auswirken.

3.9 Die praktische Anwendung und die Zukunft

Ohne Zahlen läuft in Konzernen nichts, jedoch arbeiten in groÿen Firmen normalerweise viele

Menschen, von denen die meisten mit mathematischen Aufgaben überfordert sind. Das Re-

sultat ist, daÿ quantitative Analysen (wie z.B. Data Mining) meist auf sehr niedrigem Niveau

angesetzt werden.

Die Techniken die angewandt werden sollten, sind stark abhängig von der Art und Grösse

der Firma. Viele Firmen greifen dabei auf gängige Softwareprodukte (z.B.: Microsoft, SAS,

...) zurück: (Monash, 2006)

�But no matter what tools you use, the basic story remains the same � enter-

prises have a lot of quantitative and/or objective data, and if you squeeze that

data hard enough, something valuable will probably pop out.�

Data Mining ist zwar eine umstrittene Disziplin, doch groÿe Firmen betreiben Data Mi-

ning sehr rege in vielen Industriezweigen und Anwendungsgebieten, mit durchwegs sehr guten

Ergebnissen. Groÿe Software�rmen wie z.B. SAS und Oracle erweitern regelmäÿig ihre Soft-

ware Produkte um neue Funktionen des Data Minings. Ein praktisches Beispiel dafür sind

Anwendungen, die immer aufwendigere statistische Analysen ermöglichen.

Im Bereich des Text minings sind zur Zeit groÿe Enticklungen zu verzeichnen. Auch Markt-

bereiche innerhalb der Softwareentwicklung, wie etwa die Web-Suche oder Antispam Produkte

verlassen sich auf Data Mining für weite Bereiche der Entwicklung und Forschung. Andere der

heute üblichen Softwarelösungen für Data Mining können in den Bereich der Kundenanbots-

erstellungen eingeordnet werden.


Einer der zur Zeit am schnellsten wachsenden Bereiche des DM ist die Ursachenforschung

bei Produktfehlern, so wird die amerikanische Automobilbranche durch das TREAD Gesetz

(Transportation Recall Enhancement, Accountability and Documentation (Monash, 2006) ex-

plizit verp�ichtet auf periodischer Basis ihre Garantieabwicklungen und andere Aufzeichnun-

gen auf Anzeichen von Produktfehlern hin zu durchforschen. Auch beispielsweise im pharma-

zeutischen Markt gibt es derartige Bestrebungen und Vorschriften.

Einige der wichtigsten Verwendungsgebiete für das Data Mining könnten fürderhin Ge-

sundheitsp�ege und wissenschaftliche Forschung sein. Daten zu Genomen, klinische Aufzeich-

nungen und allgemeine medizinische Artikel können alle mittels Data Mining aufgearbeitet,

untersucht und ausgewertet werden. In der Praxis werden hierbei spezialisierte Techniken, wie

Text Mining und die Analyse von netzwerkartigen Zusammenhängen, verwendet. DM trägt

somit zur Aufarbeitung von Daten bei einer Vielzahl technischer Disziplinen, von Astrophysik

bis Wasserqualitätforschung, bei, und wird hier in der Zukunft noch weiter an Bedeutung zu

nehmen.

Kapitel 4

Data Mining in der Business Intelligence

Hier wird examplarisch als Beispiel für die manigfaltigen Anwendungen des Data Mining in

der Business Intelligence ein Anwendungfall dargebracht.

4.1 Der Wert des einzelnen Kunden für einen Mobilfunk-

betreiber

Der Wert eines Kunden lässt sich durch die erwartete Summe der durch Ihn verursachten

Einnahmen minus der für in getätigten Ausgaben über die Dauer der Kundenbeziehung mit

dem Kunden de�nieren. Dabei muss unterschieden werden zwischen Kunden die einzelne Käufe

tätigen und denen die privatrechtlich gesehen ein Dauerschuldverhältnis eingehen und laufend

Einnahmen erbringen, was im Mobilfunkbereich der Regelfall ist.

Hierbei geht es im besonderen darum die Wechselhäu�gkeit der Kundschaft bzw. ihre Treue

zu untersuchen, da diese sich direkt auf den Wert des Kunden auswirkt, denn wer ewig treu

bleibt zahlt auch gut. Besonders geht es bei der Berechnung dieses Wertes um die Festlegung

der Rentabilitätsgrenze für etwaige Kundenbindungs und Neukundenaquisitionsprogramme.

Um diese Konzepte auf ein mathematisches Fundament zu stellen benötigt man 3 Berech-

nungsgrundlagen:

1. Die Dauer der Bindung, also wie lange es erwartungsgemäÿ dauern wird bis der einzelne

Kunde im Schnitt seinen Vertrag beendet.

2. Den Wert eines Kunden zu einer gegeben Zeit (Cash�ow).

3. Und als letzten, an sich einfachsten Teil die Festlegung einer einfachen Diskontierungs-

funktion, die angibt, wieviel der morgen vom Kunden eingenommene Euro heute wert

ist.

33

34 KAPITEL 4. DATA MINING IN DER BUSINESS INTELLIGENCE

4.1.1 Verweildauer des Kunden

Als einfache Berechnungsbasis kann man hier etwa annehmen, dass wenn 5% der Kunden je-

den Monat wechseln, der durchschnittliche Kunde mit 95% Chance in jedem Monat noch dem

Unternehmen treu bleibt. Dieses stark vereinfachte Modell ignoriert natürlich jegliches indi-

vuelle Charakteristikum des einzelnen Kundem, da sich diese aber über die Berechnung einer

grossen Anzahl an Kunden ausmitteln können, ist hiermit kein gänzlich unbrauchbarer Ansatz

gegeben. Es werden oft weit komplexere Verfahren für die Berechnung der Wechselwilligkeit

des Kunden und mithin für sein Verweildauer beim Unternehmen erstellt, beginnend bei der

Auswertung der bisherigen Verweildauer mit einer Analyse der Daten hinsichtlich einzelner

Faktoren mit Hilfe des Dataminings.

Ein weitere Ansatz wäre die Kunden in einzelne Segmente zu unterteilen und für jedes

Kundensegment unabhängige Daten zu generieren, hierfür kann man bereits die Unterstützung

von Softwaretools benutzen, die den Prozess der Segmentierung nach einigen wenigen Kriterien

weitgehend automatisieren (Rosset and Neumann, 2003).

4.1.2 Zeitwertberechnung eines Kundenvertrags

Bei dieser Berechnung wird zumeist ein Ansatz gewählt, der die aktuellen und bisherigen

Zahlungs�üsse des Kundens als Referenz nimmt und das Ergebnis als für immer konstant

annimmt, komplexere Berechnungsmethoden, beispielsweise auf der zuvor erwähnten Segmen-

tebene, sind durchaus auch in Verwendung. Diese sind meist durch sehr individuelle Ansätze

geprägt, dass heisst jede Firma wählt hier eigene geheime Verfahren. Insgesamt wird aber der

meiste Aufwand auf eine Abschätzung und Vorrausberechnung der Verweildauer aufgewendet.

4.1.3 Abschätzen des Erfolgs eines Kundenbindungsprogrammes

In der Abbildung (Abb. 4.1) ist ein Beispiel für eine solche Regel�ndung gezeigt die bei der

Entwicklung einer Kampagne mit dem Ziel der längeren Kundenbindung (und der Erhöhung

des Kundenwertes) entwickelt wird. Durch dieses Werkzeug in Kombination mit einer erprob-

ten Formel für die Bewertung der Kundenwerte zum Beispiel auf Segmentebene kann man sehr

handfeste Ergebnisse erarbeiten, wieviel eine Kampagne genau kosten darf um noch Gewinne

zu erbringen, bzw. wie hoch der jeweilige Gewinn ist. So kann für jedes Segment der passende

Anreiz zu längerem Verweilen bzw. zu höheren Einnahmen durch das Unternehmen gegeben

werden, da verschiedene Segmente beim selben Programm unterschiedlich gut ansprechen.

4.1. DER WERT DES EINZELNEN KUNDEN FÜR EINEN MOBILFUNKBETREIBER35

Abbildung 4.1: Automatisch gefundene Regeln für Wechselwahrscheinlichkeit (engl. Churn)und Loyalität des Kundensegments (Rosset and Neumann, 2003)

4.1.4 Andere Kampagnen

Andere Entscheidungsprobleme verhalten sich hierbei sehr ähnlich, so können haargenau die

gleichen Konzepte für die Aufwertung des einzelnen Kunden durch das umsteigen auf teurere

Produkte benutz werden.

36 KAPITEL 4. DATA MINING IN DER BUSINESS INTELLIGENCE

Kapitel 5

Schlussworte

Im Rahmen der hier vorliegenden Arbeit habe ich versucht, mich mit dem Thema des Data

Minings im speziellen Kontext der Business Intelligence auseinanderzusetzen, indem ich dem

Leser von einem kurzen Überblick über die Bedeutung der beiden Themen bis zu einer ansch-

liessenden Behandlung von Data Mining und desen Anwendungen einen Überblick über dieses

Gebiet vermittelt habe.

Gerade aufgrund der enormen Wichtigkeit, in der heutigen Zeit gut informiert zu sein,

sowohl im privaten aber auch ganz besonders im geschäftlichen Umfeld kann in einem so

kurzen Text aber natürlich nicht mehr als ein kurzer Abriss statt�nden und so muss ich den

geneigten Leser zur weiteren Vertiefung dieses Bereiches auf mein Literaturverzeichnis zur

weiteren Information verweisen, ho�e aber doch zumindest einen Einblick in dieses äuÿerst

interessante Teilgebiet der Wirtschaftsinformatik gegeben zu haben.

37

38 KAPITEL 5. SCHLUSSWORTE

Literaturverzeichnis

M. Eder. Data mining - vorgehensmodell zur produktevaluation, 2002. Diplomarbeit, Betreu-

ung: o. Univ.-Prof. Dr. Michael Schre�, unter Anleitung von: Univ.-Ass. Dr. Günter Preuner

ausgeführt an der Universität Linz, Institut für Wirtschaftsinformatik, Data And Knowledge

Engineering.

T. Fisher. Add controls to your data governance and compliance programs. Business Intelli-

gence Journal, 11(4), 2006.

H. Jiawei and M. Kamber. Datamining - Concepts and Techiques. Academic Press, United

Kingdom, 2001.

L. Kirby. Why you need more than a dashboard to manage your strategy. Business Intelligence

Journal, 11(4), 2006.

C. A. Monash. Computerworld. Business Intelligence Journal, 40(37), 2006.

K. North. Wissensorientierte Unternehmensführung. Gabler Verlag, 1999.

J. A. Ogden. Supply base reduction: An empirical study of critical success factors. Journal of

Supply Chain Management, 42(4), 2006.

P. Perner. Data Mining on Multimedia Data. Springer Verlag Berlin Heidelberg, 2002a.

P. E. Perner. Advances in Data Mining - Applications in E-Commerce, Medicine, and Know-

ledge Management. Springer Verlag Berlin Heidelberg, 2002b.

S. Rosset and E. Neumann. Customer lifetime value models for decision support. Data Mining

and Knowledge Discovery, 7(3), 2003.

D. Teachey. The �ve-step approach to more valuable enterprise data. What Works, 22, 2007.

URL http://www.tdwi.org/Publications/WhatWorks.

H. J. Watson. Bi and data warehousing in universities. Business Intelligence Journal, 11(3),

2006.

39

http://www.tdwi.org/Publications/WhatWorks

40 LITERATURVERZEICHNIS

Wikipedia.org. Wikipedia die freie enzyklopädie, 2007a. URL http://de.wikipedia.org/

wiki/Business-Intelligence.

Wikipedia.org. Wikipedia die freie enzyklopädie, 2007b. URL http://de.wikipedia.org/

wiki/Data_mining.

Wikipedia.org. Wikipedia die freie enzyklopädie, 2007c. URL http://en.wikipedia.org/

wiki/Supply_chain_management.

http://de.wikipedia.org/wiki/Business-Intelligence

http://de.wikipedia.org/wiki/Business-Intelligence

http://de.wikipedia.org/wiki/Data_mining

http://de.wikipedia.org/wiki/Data_mining

http://en.wikipedia.org/wiki/Supply_chain_management

http://en.wikipedia.org/wiki/Supply_chain_management

Documents

Data Mining für Business Intelligence Data Mining for