58
Data Mining – Merkmalsextraktion, Merkmalsgenerierung, Merkmalsselektion als Schlüssel zum Erfolg Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de [email protected]

Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

  • Upload
    aldona

  • View
    61

  • Download
    0

Embed Size (px)

DESCRIPTION

Data Mining – Merkmalsextraktion, Merkmalsgenerierung, Merkmalsselektion als Schlüssel zum Erfolg. Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de [email protected]. Überblick. Unterstützung des Data Mining Prozesses - PowerPoint PPT Presentation

Citation preview

Page 1: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Data Mining – Merkmalsextraktion,

Merkmalsgenerierung, Merkmalsselektion

als Schlüssel zum Erfolg

Katharina MorikLehrstuhl Informatik VIII

Universität Dortmundwww-ai.cs.uni-dortmund.de

[email protected]

Page 2: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Überblick

Unterstützung des Data Mining Prozesses MiningMart – direkte Datenbankintegration

– Telekommunikationsanwendung– Versicherungsanwendung

Yale – stand-alone mit Datenbank- oder Dateizugriff– automatische Merkmalsextraktion aus Musikdaten– peer2peer Organisation von Musiksammlungen

Credo

Page 3: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

DM Prozess 3

CRISP – Prozess der Wissensentdeckung

Businessunderstanding

Dataunderstanding

EvaluationDeployment

Modeling

Datapreparation

64% der Wissensentdecker brauchen mehr als 61% der Zeit einer Anwendung für die Vorverarbeitung (KDnuggets poll Okt.2003).

Page 4: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

DM Prozess

Werkzeuge für Data Mining

Unterstützung des zentralen Lernschrittes (Modellierung) bereits sehr gut – Vorverarbeitung?

Dokumentation des gesamten Prozesses? Wiederverwendbarkeit eines Prozesses?

LS8 entwickelt Werkzeuge, die den gesamten Prozess unterstützen dokumentieren wiederverwenden lassen!

Page 5: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

DM Prozess 5

Vorverarbeitung

Fehlende Werte Zusammenstellen der Informationen aus mehreren

Datenbanktabellen zu einem Beispiel (in einer Tabelle)

Ausreißererkennung Sampling Erzeugen der Merkmale gemäß der Anforderung des

Lernalgorithmus’.

Page 6: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 6

Mining Mart Ziele

Operatoren für die Vorverarbeitung– direkt auf der Datenbank– maschinelles Lernen für die Vorverarbeitung

Dokumentation – der Daten– der Fälle

Wiederverwendung von abstrahierten Fällen

Page 7: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 7

Mining Mart Ansatz

Metadaten zur Beschreibung von– Daten, – Operatoren und– Fällen (Sequenzen von Operatoren)

Compiler, der Metadaten in ausführbaren SQL-Code übersetzt

Sammlung von Fällen in Form von operationalen Metadaten

Page 8: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Lernoperatoren des MetamodellsDataMiningStep

Classification Regression Clustering Associations Subgroupdiscovery

SVM_light decisionTree MySVM k-means Sidos,Midos

Lernoperatoren sind auch Vorverarbeitungoperatoren!Beispiel: C4.5 zur Disketisierung oder Ersetzung fehlender Werte.

NEU

Page 9: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 9

Meta Modell für Metadaten

Das begriffliche Modellbeschreibt die Objekte und Klassen der Anwendung

Das Fallmodellbeschreibt Operator-ketten

Das Ausführungsmodellgeneriert SQL statementsoder Aufrufe externer Verfahren

Das relationale Modellbescheibt die Datenbank

Page 10: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 10

TILab

CustomerData Warehouse

Daten• Kundeninformation• Service Profil der Kunden• Tarifdetails der Kunden• Extra service Information Anrufdaten aggregiert je Monat• Rechnungsdaten aggregiert je Monat

• Beschwerden • Missbrauch • Kundenkontakt • Marktdaten

13 operationale Systeme

•Mehr als 500 Attribute je Kunde•Loading: monatlich•Datenvolumen: 1.5 Tb

Welche Kunden werden den Vertrag kündigen?

Page 11: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Fallentwicklung mit Mining Mart

Schritte:–Begriffe, Attribute, Relationen

– Operatoren

– Kette aufbauen

Page 12: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 12

Begriffe, Attribute, Relationen

Demographische Attribute

Anrufdaten

Daten über Services

Einnahmedaten

Page 14: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 14

Ergebnis der Vorverarbeitung

16 Rohattribute

45 Generierte Attribute

Merkmalsgenerierung Merkmalsauswahl

Page 15: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Churn prediction Ketten Medium value customers are selected

training set

decision tree operator applied to fit predict the likelihood of a customer to become a churner in the month M6

Save output

4 Lernläufe, einen für jedes Kundensegment

Page 17: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Performanz

PRED_ACTPRED_CHN

ACTIVE

CHURNER

11

8986

140

20

40

60

80

100

MEDIUM customer model performance

PRED_ACTPRED_CHN

ACTIVE

CHURNER

19

8194

60

20

40

60

80

100

HIGH customer model performance

Training / test set: 70% / 30%

Page 18: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 18

Schlussfolgerung von TILab:

Speed up for some preprocessing tasks increased by 50% at least.

Power users may find Mining Mart as easy to use as the leading commercial dm platforms.

It enables building libraries of predefined data mining applications that can be easily modified.

MiningMart guarantees the highest scalability, since it exploits leading commercial db tools features.

Quality of data mining output increases. Bottom line: Mining Mart supports efficiently and effectively the

preprocessing stage of a data mining process.

Page 19: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 19

Versicherungsanwendung

Versicherung (SwissLife): Analyse der Rückkäufe Daten:

– Auszug aus dem Data Warehouse einer Versicherungsgesellschaft in anonymisierter Form

– Oracle-Datenbank, 18 Tabellen und 15 Relationen– Informationen zu Versicherungsverträgen und

demographische Daten zu den Partnern– 217 586 Versicherungsverträge und 163 745 Partner

Mit gegebenen Merkmalen Lernergebnis nur max. – Precision: 57%– Recall: 80%

Page 20: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 20

Auszug aus der VersicherungstabelleVVID VVAENDR VVWIVON VVWIBIS VVAENDAT VVAENDART ...

16423 1 1946 1998 1946 1000

16423 2 1998 1998 1998 27

16423 3 1998 1998 1998 4

16423 4 1998 1998 1998 54

16423 5 1998 1998 1998 4

16423 6 1998 9999 1998 61

5016 1 1997 1999 1997 33

5016 2 1999 2001 1999 33

5016 3 2001 2001 2001 33

5016 4 2001 2001 2001 33

5016 5 2001 2002 2001 81

5016 6 2002 9999 2001 94

... ... ... ... ... ... ...

Page 21: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 21

Merkmalsgenerierung mit Hilfe von TFIDF Termfrequenz beschreibt, wie oft ein bestimmtes

Attribut in einem Vertrag geändert wurde

Die Dokumentfrequenz entspricht der Anzahl der Verträge, in denen das Attribut geändert wurde

TFIDF Merkmale

geändert wurde|Zeitpunkte),( iji axcatf

geändert wurde|)( iji aCcadf

)(C

log),(),(i

jiji adfcatfcatfidf

Page 22: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 22

Erzeugung der TFIDF MerkmaleVVID ... VVSTACD VVPRFIN VVPRZA VVINKZWEI VVBEG VVEND VVINKPRL ...16423 4 1 2 2 1946 1998 295,29

16423 4 1 2 2 1946 1998 295,29

16423 4 5 2 0 1946 2028 0

16423 5 3 2 0 1946 2028 0

16423 4 1 2 2 1946 1998 295,29

16423 5 3 2 0 1946 1998 0

VVSTACDVVPRFINVVPRZAVVINKZWEIVVBEGVVENDVVINKPRL

3403023 Hanna Köpcke

Page 23: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

MiningMart 23

Lernverfahren und Ergebnisse

Training einer SVM 10-fache Kreuzvalidierung Ergebnis

– Accuracy: 99,4%– Precision: 94,9%– Recall: 98,2%

Die guten Ergebnisse können mit Thorsten Joachims TCat-Theorie erklärt werden.

Schlüssel zum Erfolg lag in der Erzeugung von TFIDF-Merkmalen.

Page 24: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

TCat-Konzepte

Das TCat-Konzept

beschreibt eine binäre Klassifikationsaufgaben mit s disjunkten Mengen von Merkmalen. Die i-te Menge enthält fi Merkmale. Jedes positive Beispiel enthält pi Merkmale aus der jeweiligen Menge, und jedes negative Beispiele enthält ni Merkmale aus der Menge. Das gleiche Merkmal kann mehrmals in einem Dokument vorkommen.

sss fnpfnpTCat ::,,:: 111

Page 25: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

TCat im Bild

20 aus 100 Stoppwörtern, 5 aus 600 mittelhäufigen und 10 aus seltenen Wörtern kommen in POS- und NEG-Dokumenten vor;4 aus 200 mittelhäufigen Wörtern in POS, 1 in NEG, 9 aus 3000 seltenen Wörtern in POS, 1 in NEG(Es müssen nicht immer die selben Wörter sein!)

positive Dokumente

negative Dokumente

4

4

9

91

1 10

101

1Wörter nachRang geordnet

Page 26: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Lernbarkeit von TCat-Konzepten

Schranke des erwarteten Generalisierungsfehles einer Support Vector Maschine nach Joachims

2

2 21 bac

cbanR

2

1

2

1

2

1

2

1

2

d

r

s

i i

i

s

i i

ii

s

i i

i

krcR

fnc

fnpb

fpa

mit

Page 27: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 27

Systemunterstützung durch Yale

Experimente sind (geschachtelte) Ketten von Operatoren für Vorverarbeitung, maschinelles Lernen und Evaluation.

Abspeichern der Ketten erlaubt ihre Wiederverwendung mit anderen Parametern:– Daten:

• Datenformat in XML beschrieben• Datei

– Lernparameter

Page 30: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 30

Intelligente Systeme für Musik

Automatische Annotation von Musik Lernen von Metadaten

Klassifikation von Musik nach– Genre (nur noch als benchmark)– Benutzerpräferenzen– Gelegenheiten

Automatische Organisation von Sammlungen Empfehlungen

z.B. EU-Projekt SIMAChttp://www.semanticaudio.org/

Page 31: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 31

Technischer Kern

Audiodaten sind Zeitreihenunivariat: Elongation

Wir müssen Ähnlichkeiten von Zeitreihen erkennen– Indexing– Clustering

Page 32: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 32

Clustering von Zeitreihen – Standard

Database C

Query Q(template)

Given a Query Q, a reference database C and a distance measure, find the location that best matches Q.

The best matching subsection.

Note that we can always convert subsequence matching to whole matching by sliding a window across the long sequence, and copying the window contents.

So passen ähnliche Musikstücke nicht!

Page 33: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 33

Dynamic Time Warping

C

QC

Q

(i,j) = d(qi,cj) + min{ (i-1,j-1) , (i-1,j ) , (i,j-1) }

Warping path w

So auch nicht!

Page 34: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 34

Technischer Kern

Merkmalsextraktion ist notwendig für– Annotation– Indexierung– Clustering– Klassifikation

Je Aufgabe unterschiedliche Merkmale nötig!– Klangähnlichkeit, Liedtexte, Kulturelle Metadaten

(MPEER, Stephan Baumann)– Verschiedene Benutzer verwenden andere Merkmale

(Klassifikation von Benutzerpräferenzen, Ingo Mierswa)

Page 35: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 35

Low Level Descriptors

Lautstärke Spectral Centroid (Cepstral) Mel Frequency Cepstral Coefficient (MFCC) Zero Crossing Rate Peaks: Amplitude, Zweithöchster/ Höchsten, Intervall

zwischen Zweithöchstem und Höchstem

Page 36: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 36

High-Level Descriptors

Genre Stimmung: glücklich, traurig, neutral Tempo: sehr langsam – sehr schnell, variierend Komplexität: gering, mittel, hoch Gefühl: sanft, neutral, aggressiv Fokus: Gesang, beides, InstrumentLernaufgabe: Klassifikation nach HLD, gegeben LLDErgebnis: klappt nicht!

Pohle et al. 2005

Page 37: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 37

Merkmalsextraktion lernen lassen!

Zils, A. Pachet, F. 2004. Automatic Extraction of Music Descriptors from Acoustic Signals. ISMIR

Mierswa, I. Morik, K. 2005. Automatic Feature Extraction for Classifying Audio Data. Machine Learning Journal, 58, 127 - 149.

Genetische Programmierung zur Optimierung der Merkmalsextraktion für eine Lernaufgabe!

Einzelbestandteile der LLD kombinieren lassen zu einem Merkmalsbaum, der ein Merkmal extrahiert.

Page 41: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Phasenraum )1ty,t(yyt

Zeitreihe Ny,...,1y

Deter-ministicProcess

yt

time t yt

yt+1

AR(1)-process with outlier (AO)

yt

timet yt

yt+1

Heart rate

HRt

time t yt

yt+1

U.Gather, M. Bauer

Phasenraum

Deterministischer Prozess

AR(1) Prozessmit Ausreißer

Herzrate

Page 44: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 44

Darstellung der geeigneten Transformationen für eine Aufgabe

Methodenbaum:– Reihe von Transformationen, durch ein Funktional

abgeschlossen• Transformationen von Wertereihen in Wertereihen• Transformation in einen anderen Raum

– Fensterung ist eine Transformation, die selbst wieder ein Methodenbaum ist

Aufbau eines Methodenbaums:– Dynamische Fensterung erzeugt neue Teilbäume

Anwendung eines Methodenbaums erzeugt Merkmale für eine gegebene Wertereihe

Page 45: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 45

Methodenbaum

T: FFT F: MaxIndexT: Hanning

T: Fensterung

Wertereihe Merkmale

F: Avg + Var

Wurzel

T: EMA

Page 46: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 46

Lernen eines Methodenbaums für eine Aufgabe mit genetischer Programmierung Training der Merkmalsextraktion auf Teilmenge der

Daten. Anwendung der Merkmalsextraktion auf alle Daten

für die Lösung einer Lernaufgabe. Genetische Programmierung:

– Individuen: Methodenbäume– Fitness durch Kreuzvalidierung der jeweiligen

Lernaufgabe nach Vorverarbeitung durch das zu evaluierende Individuum.

Page 47: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 47

Jede Aufgabe verlangt andere Merkmale

Pop vs. Klassik: durchschnittliche Länge nach einer Phasenraumtransformation bestes Merkmal; korrekte Klassifikation von 184 der 200 Instanzen

Pop vs. Techno: Varianz der Extremadifferenz als bestes Merkmal; korrekte Klassifikation von 132 der 160 Instanzen.

Benutzerpräferenzen: jeder Benutzer braucht andere Merkmale! 84,5 -- 95,2 accuracy85,9 – 98,3 precision83,7 – 99,0 recall

Page 48: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 48

Experimente zum Lernen mit Merkmalstransformation

Lernen des Methodenbaums für eine Aufgabe:Ergebnis diese Lernlaufs ist ein Yale-Experiment.

Durchführung des gelernten Yale-Experiments. Lernen der Analyseaufgabe mit den gelernten

Merkmalen.

Page 54: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 54

Allgemein: Funktionsapproximation

Approximiert wird die zu Grunde liegende Funktion.

Diese ist oft nichtlinear. Die Güte der Approximation

wird anhand neuer, vorher nicht gesehener Daten bewertet.

Multikriterielle Optimierung:– so einfach wie möglich– so korrekt wie möglich– Paretofront möglicher

Lösungen

Page 55: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Nemoz

NEtwork Media OrganiZer:

Collaborative clustering in P2P networks

Einbindung von Yale

Kopieren

Clustering

Klassifikation

Stöberngemäß eigener Präferen

zen

Page 56: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Yale 56

Ergebnisse

39 Taxonomien von Liedern. Alle Objekte einer Taxonomie

herausnehmen als Xq

Clustering durch– LACE,– K-means clustering,– Single link clustering

Wurst, Morik, Mierswa 2006

Method Correlation Absolute distance

Collabor. clustering

0.44 0.68

K-means 0.23 1.9

Single-link 0.1 10.8

random 0.09 1.8

Tatsächlich verbessern die Taxonomien der andern das Ergebnis.

Page 57: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Zusammenfassung Erzeugte Merkmale ermöglichen erst Lernerfolg in

vielen Anwendungen.– Telekommunikation– Versicherung

Musikdaten sind der Härtetest für Merkmalsextraktion– Merkmalsextraktion– Verschiedene Merkmalsextraktion je konkreter

Lernaufgabe– Komplizierte Ähnlichkeitsmaße

Lernen der Merkmalsextraktion– LLD dekomponieren zu einfachen Bausteinen– HLD als Methodenbaum

Page 58: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund

Credo

Vorverarbeitung ist entscheidend für die Qualität der Wissensentdeckung.

Vorverarbeitung ist aufwändig und schwierig, daher Wiederverwendung wichtig.– Abstraktion durch Metadaten (MiningMart) bzw.

Experimente (Yale)

Vielen Dank für Ihre Aufmerksamkeit!