46
Copyright © 2001 , SAS Institute Inc. All rights reserved. Moderne Data Mining –Techniken und -Anwendungen Dr. Reinhard Strüby Business Competence Center SAS Deutschland

Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

ModerneData Mining –Technikenund -Anwendungen

Dr. Reinhard Strüby

Business Competence Center

SAS Deutschland

Page 2: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

SAS Data Mining: SEMMA TechnologieStichproben• Zufällig, geschichtet

Exploration• Grafisch, interaktiv

Modifikationen• Ausreißer, Transformationen, Imputationen

Modellierungen• Regressionen, Entscheidungsbäume, Neuronale Netze

Assessment• Liftcharts, Profitcharts

Page 3: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Strukturiertes Arbeiten

•Flußdiagramme erstellen

•HTML-Reports ablegen

Design von Analyseprozessen

•Mausklickprogrammierung

•SEMMA Technologie

Anlage und Verwaltung von Projekten

•Server- oder Clientprojekte

•Daten und Analysen variabel

Page 4: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Explorationsphase

•Verteilungen

•Segmente

•Korrelationen

Page 5: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Einflußanalyse

•Wertigkeiten der Merkmale

•Cluster-Charakterisierung

Clusterungen

•K-Means

•SOM/Kohonen

Page 6: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Hierarchische Einflüsse

•Einfache Charakterisierung

•Automatisch oder interaktiv

Entscheidungsbäume

•Segmente mit Überproportionalität

•Identifizierung von Merkmalen und Werten

Page 7: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Modellvergleiche

•SAS Mining Modelle

•Beliebige Modelle

Zieloptimierung

•Responsemaximierung

•Kostenminimierung

Chartbewertung der Modellqualität

•Liftcharts

•Profitcharts

Page 8: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

User Defined Models

•SAS Prozeduren und Programme

•Beliebige externe Modellierungen

Page 9: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

HTML-Reports

•Grafiken

•Ergebnistabellen

Page 10: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Link-Analysen

•Komplexe Abhängigkeiten

•Interaktive Responseexploration

Page 11: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Assoziationen: Warenkorb

Assoziationen

Link Analysis

Page 12: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Warenkorb-Assoziationen (MDS-Plot)

Visualisierung der Beziehungen in einem Warenkorb

Farben und Linienstärken entsprechend Konfidenz und Lift

Größe der Knoten proportional zum Verkaufsertrag

Page 13: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Text Mining

Aufdecken und Verwenden von Wissen in Dokumenten

Mustererkennung

Beziehungen zwischen Dokumenten und Begriffen

Transformation von Text in quantitative Informationen

Knowledge

Page 14: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Text MiningÄhnlichkeiten von Dokumenten• Gemeinsamkeiten in Verwendung von Wortkombinationen• Ähnlichkeiten von Wörtern

-basierend auf ihrem Vorkommen in ähnlichen Dokumenten

Verwendung externer Quellen• Navigations-Sequenzen bei Webnutzung • Akzeptanz von Themen für spezielle Kundengruppen• Kundencluster aus analogem Navigationsverhalten

Page 15: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Text Mining AnwendungenKlassifikation und Clusterung• Email-Filterung• Mail & Help Desk Routing• Kategorisierung in Wissensdatenbanken

Prognose• Aktienkurs aus gegenwärtigen Geschäftsberichten• Kundenzufriedenheit• Servicekosten anhand von Service Log Daten in Textform

Page 16: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Text Mining Prozeß

Page 17: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Singular Value Decomposition (SVD)Dimensionsreduzierung• Informationsmatrix

Latente Semantik Analyse• Zusammenhang zwischen Begriffen und Dokumenten• Dokumente mit unterschiedlichen Wortmustern aber

ähnlicher Bedeutung

Page 18: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Memory-Based Reasoning“When I see a bird that walks like a duck, swims like a duck and quacks like a duck – I call that bird a duck.” Richard C. Cushingk-Nearest Neighbor Algorithmus

Startprobe: Basisprognose durch Ähnlichkeiten

Weitere Variable bekannt• Nachführung der Probe• Präzisierung der Prognose

Ähnlichkeiten zu iterativen Segmentierungen

Page 19: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Memory-Based Reasoning

Page 20: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Memory-Based Reasoning

Page 21: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Memory-Based Reasoningim Vergleich

Alternative zu anderen prediktiven Modellierungstechniken• Vorteilhaft bei erkennbaren Strukturen und Mustern

Modellanpassung mit zeitlicher Dimension

Einfache Interpretation

Hoher Speicherdedarf

Aufwendige Modellnutzung• Keine Formel, kein SAS Base Code• Rechenintensive Abstandskalkulationen

Page 22: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

MFC Tree Browser

Page 23: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

MFC Tree Assessment Plot

Page 24: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Princomp / Dmneural

Additive nichtlineare Modelle

Wenn Kollinearitäten Modellgüte einschränken

Hauptkomponenten mit höchstem Bestimmtheitsmaß auf Zielgrößen

Bucket-Hauptkomponenten als Input-Variablen einer Neuronalen-Netz-Modellierung

Binäre oder intervallskalierte Zielvariable

Page 25: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

NEURAL oder DMNEURAL ?

NEURAL für kleinere Datenmengen• Feingliedrige Modellierung komplexer nichtlinearer

Zusammenhänge• Zeitintensiv

DMNEURAL für große Datenmengen• Gröbere Modellierung• Hohe Performance und numerische Stabilität

Page 26: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Time Series Node Operative Transaktionsdaten in Zeitreihen überführen

Trendberechnungen

Saisonale Effekte aufdecken

Page 27: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Seasonal PlotMittlere Zielwerte für jede Saison

Page 28: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Trend PlotMittlere Zielwerte für jedes Intervall des Zyklus

Page 29: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

ZweistufenmodelleKombinierte Vorhersage von nominaler und intervallskalierter Zielgröße

Beispiel: Kundenbewertung• Kunde kauft: ja/nein• Wenn Kunde kauft: Umsatzprognose

Page 30: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

ZweistufenmodelleAutomatische Modellwahl für beide Teilmodelle

Modellverknüpfung kann gesteuert werden• Transfer-Funktionen• Filter-Optionen

Intervall-Modell wird korrigiert durch Posteriori-Wahrscheinlichkeiten des Class-Modells

Erzeugter Scorecode kombiniert beide Modelle

Assessment-Plots für das zusammengesetzte Modell

Page 31: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Erhebliche Vereinfachung

Page 32: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Typische Anwendungen für Mehrstufenmodelle

Marketing Automation / Kampagnenmanagement• Basisselektionen• Auswahl der Kommunikationskanäle• Cell Splits• Testkampagnen• Responsebewertungen• Optimierte mehrstufige Kampagnen

Page 33: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Score Code DeploymentC*Score und J*Score

Automatische Übersetzung• Input: SAS Datastep Score Code generiert durch

Enterprise Miner (kein manueller Code)• Ouput: Score Code in C und Java Syntax

Erleichterte Verwendung eines EM Model Score Code außerhalb der SAS Umgebung• Erfordert kein SAS System zur Laufzeit• Erlaubt Einbettung in externe Anwendungen

Page 34: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Fehlerfrüherkennung

Verbrauchsoptimierter Motorbetrieb

Vermeidung von Triebwerksstandläufen

Optimierung des Arbeitsumfangs bei der Triebwerksüberholung

Engine Diagnostic Toolsbei der LH-Technik

Page 35: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

CorrectiveMaintenanceAction

IBM Mainframe FrankfurtACM Ground SystemPerformance Analysis - Aircraft- Engine- APU

Trend Recognition

Data Link

automaticAlert Messages

On Request Output:-Input Data-Trends-Alert Messages

Action Order

ACMS

Test CellMSEng.T/CCust.OEM

Page 36: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Engine Condition Monitoring - FunktionenEngineEngine Condition Condition Monitoring Monitoring -- FunktionenFunktionen

EARLYFAILURE

DETECTION

COLDFAN TRIMBALANCE

SLOATLEGT MARGIN

TEST CELLDERATE

STATISTICS

OIL SYSTEMMONITORING

SOAP

CONTROLSMONITORING

MPA

Page 37: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Weiterentwicklung des Instandhaltungssystems

Erhöhung der Sicherheitsreserven

Verringerung des Kraftstoffverbrauchs

Minimierung der Umweltbelastung

Verringerung der Wartungskosten

Page 38: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

AnalysezieleErweiterung bisheriger Analysen durch komplexere nichtlineare Modelle mit Wechselwirkungen

Selektion wesentlicher Variablen aus wachsender Zahl von Meßgrößen

Erkennen von Zusammenhängen innerhalb von Schadensgruppen

Page 39: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

ErgebnissePräzisere Analyseergebnisse durch Kombination mehrerer signifikanter Triebwerksparameter

Reduzierung redundanter Warnmeldungen

Erhöhte Flexibilität des Systems

Page 40: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Data Mining in der GenforschungProc ALLELE• Analyse genetischer Markierungsdaten

Proc CASECONTROL• Tests auf Relationen zwischen Markierung und Erkrankung

Proc FAMILY• Transmission/Disequilibrium-Tests (TDT)

Proc HAPLOTYPE• MLE für Haplotype-Häufigkeiten

Proc PSMOOTH• Glättungsmethoden für multiples Testen

Page 41: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Kaufkraftindexauf Gemeindeebene

Kaufkraftindexauf Gemeindeebene

Page 42: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Anteil der Fahrzeugklassen am Gesamt-PKW-Bestand

Anteil der Fahrzeugklassen am Gesamt-PKW-Bestand

Page 43: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

AbschlusswahrscheinlichkeitLebensversicherung über € 100.000

Verteilung der besten 10%(Verteilung prozentual zurAnzahl der Respondenten)

Verteilung der besten 10%(Verteilung prozentual zurAnzahl der Respondenten)

Page 44: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

Page 45: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.

SAS Enterprise MinerVersion 5.0 (SAS Version 9)

Page 46: Moderne Data Mining –Techniken und -Anwendungende.saswiki.org/images/d/df/6.KSFE-2002-praesen-Reinhard-Strüby-Mo… · Text Mining Anwendungen Klassifikation und Clusterung •

Copyright © 2001 , SAS Institute Inc. All rights reserved.