4. Klassifikation · 4 Anwendungen von Klassifikationsverfahren § Klassifikation von Zeitungsartikeln oder Blogposts in Politik, Sport, Kultur, Reise und Auto § Klassifikation von

4. Klassifikation

2

Inhalt§ 4.1 Motivation

§ 4.2 Evaluation

§ 4.3 Logistische Regression

§ 4.4 k-Nächste Nachbarn

§ 4.5 Naïve Bayes

§ 4.6 Entscheidungsbäume

§ 4.7 Support Vector Machines

§ 4.8 Neuronale Netze

§ 4.9 Ensemble-Methoden

Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

3

4.1 Motivation§ Regressionsverfahren erklären metrisches Merkmal

anhand unabhängiger metrischer Merkmale

§ Beispiel: Sage Verbrauch (in l/100km) anhand Gewicht, PS, Hubraum, Zylinder, Beschleunigung und Jahr voraus

§ Klassifikationsverfahren erklären nominales Merkmalanhand unabhängiger metrischer Merkmale

§ Beispiel: Sage Herkunft (Europa, Japan, U.S.A.) anhandVerbrauch, Gewicht, Hubraum, Zylinder und Jahr voraus


4

Anwendungen von Klassifikationsverfahren§ Klassifikation von Zeitungsartikeln oder Blogposts

in Politik, Sport, Kultur, Reise und Auto

§ Klassifikation von E-Mailsin Spam und Nicht-Spam

§ Segmentierung von Kundenin Schnäppchenjäger, Normalos und Luxusliebhaber

§ Produktempfehlungen für bestimmten Kunden durch Klassifikation in Interessant und Nicht-Interessant

§ Handschrifterkennung auf Überweisungsträgern durch Klassifikation der gescannten Zeichen in Klassen 0-9


5

Überwachtes vs. unüberwachtes Lernen§ Verfahren des maschinellen Lernens lassen sich in

verschiedene Kategorien einteilen; zwei wichtige sind

§ überwachtes Lernen (supervised learning) mit Klassifikationsverfahren als typischem Beispiel nutzt Trainingsdaten (z.B. klassifizierte Datenpunkte) aus

§ unüberwachtes Lernen (unsupervised learning) mitClusteringverfahren als typischem Beispiel erkenntZusammenhänge in den gegebenen Daten


6

Überwachtes vs. unüberwachtes Lernen§ Beispiel: Betrachten wir Zeitungsartikel als Anwendung

§ Klassifikationsverfahren, als überwachtes Lernen, lernt anhand von bereits manuell klassifizierten Zeitungsartikeln, vorher unbekannte Zeitungsartikel in Politik, Sport, Kultur, Reise und Auto einzuteilen

§ Clusteringverfahren, als unüberwachtes Lernen, teilt eine gegebene Menge von Zeitungsartikeln anhand ihres Inhalts in möglichst homogene Gruppen (cluster) auf; diese Gruppen sind vorab nicht festgelegt und müssen nichtden manuell bestimmten Klassen Politik etc. entsprechen


7

Binäre vs. Mehrklassen Klassifikation§ Klassifikationsverfahren lassen sich nach der Ausprägung

des zu erklärenden nominalen Merkmals unterscheiden

§ binäre Klassifikationsverfahren (z.B. Spam vs. Nicht-Spam)wenn es zwei Werte des zu erklärenden Merkmals gibt

§ Mehrklassen Klassifikationsverfahren (z.B. Sport vs. Politik vs. Kultur) wenn es mehr als zwei Werte des zu erklärenden Merkmals gibt


8

Binäre vs. Mehrklassen Klassifikation§ Binäre Klassifikationsverfahren z.B.

§ logistische Regression

§ Support Vector Machines

§ Mehrklassen Klassifikationsverfahren z.B.

§ Entscheidungsbäume

§ k-Nächste Nachbarn

§ Naïve Bayes


9

Binäre vs. Mehrklassen Klassifikation§ Binäre Klassifikationsverfahren lassen sich durch „Trick“

zur Klassifikation in mehr als zwei Klassen einsetzen

§ bestimme für jede Klasse einen Klassifikator, der die Klassen von allen anderen Klassen unterscheidet(z.B. Sport vs. Nicht-Sport als Vereinigung anderer Klassen)

§ klassifiziere vorher unbekannten Datenpunkt mit jedem der zuvor bestimmten Klassifikatoren (z.B. Sport vs. Nicht-Sport, Politik vs. Nicht-Politik, Kultur vs. Nicht-Kultur)und weise dem Datenpunkt die Klasse des Klassifikatorsmit dem höchsten Konfidenz-Wert zu


10

4.2 Evaluation§ Systematische Vorgehensweise, um die Güte eines

Klassifikationsverfahrens zu messen bzw. verschiedeneVerfahren miteinander zu vergleichen

§ Analog zur Evaluation von Regressionsverfahren, ist eine Aufteilung der manuell klassifizierten Daten in Trainings- und Testdaten ggf. mitKreuzvalidierung sinnvoll


11

Konfusionsmatrix§ Wenden wir einen Klassifikator auf unsere Testdaten an,

so erhalten wir als Ergebnis eine Konfusionsmatrix

§ Spalten entsprechen wirklichen Klassen der Testdaten; Zeilen geben Vorhersage des Klassifikators wieder

§ Beispiel: Klassifikation in Sport, Kultur und Politik

§ je Klasse wurden 10 von 20 Daten-punkten korrekt klassifiziert

§ 3 der Datenpunkte aus Politik wurdenfälschlicherweise als Sport klassifiziert


S K PS 10 4 3K 5 10 7P 5 6 10

12

Gütemaße§ Konfusionsmatrix bildet Grundlage zur Berechnung

verschiedener Gütemaße eines Klassifikators

§ Präzision (precision) als Maß der Fähigkeit,eine bestimmte Klasse genau zu erkennen

§ Ausbeute (recall) als Maß der Fähigkeit,alle Datenpunkte einer Klasse zu erkennen

§ F-Maß (f-measure) als harmonisches Mittelvon Precision und Recall


13

Präzision (precision)

§ Präzision (precision) eines Klassifikators für eine bestimmte Klasse ist definiert als

§ #TP (true positives) als Zahl der Datenpunkte aus der betrachteten Klasse, die korrekt in die betrachtete Klasse eingeordnet wurden

§ #FP (false positives) als Zahl der Datenpunkte aus anderen Klassen, die fälschlicherweise in die betrachtete Klasseeingeordnet wurden


Precision =

#TP

#TP + #FP

14

Präzision (precision)


§ Betrachte jede Zeile der Konfusionsmatrix

§ Sport: #TP ist 10 #FP ist 7 und Präzision damit 10 / 17

§ Kultur: #TP ist 10 #FP ist 12 und Präzision damit 10 / 22

§ Politik: #TP ist 10 #FP ist 11 und Präzision damit 10 / 21


S K PS 10 4 3K 5 10 7P 5 6 10

15

Ausbeute (recall)

§ Ausbeute (recall) eines Klassifikators für einebestimmte Klasse ist definiert als

§ #TP (true positives) als Zahl der Datenpunkte aus der betrachteten Klasse, die korrekt in die betrachtete Klasse eingeordnet wurden

§ #FN (false negatives) als Zahl der Datenpunkte aus der betrachteten Klasse, die fälschlicherweise in eine andere Klasse eingeordnet wurden


Recall = #TP#TP + #FN

16

Ausbeute (recall)


§ Betrachte jede Spalte der Konfusionsmatrix

§ Sport: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20

§ Kultur: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20

§ Politik: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20


S K PS 10 4 3K 5 10 7P 5 6 10

17

Micro- vs. Macro-Average§ Bisher haben wir Präzision und Ausbeute nur für eine

bestimmte Klasse definiert; man möchte diese jedoch auch über alle Klassen hinweg angeben können

§ Macro-averaged Precision und Recall als Mittelwertüber Präzision und Ausbeute je Klasse


S K PS 10 4 3K 5 10 7P 5 6 10

Precision =

1

3

310

17

+

10

22

+

10

21

4

Recall = 13

31020 + 10

20 + 1020

4

18

Micro- vs. Macro-Average§ Micro-averaged Precision aggregiert zuerst #TP, #FP

über alle Klassen hinweg


S K PS 10 4 3K 5 10 7P 5 6 10

Precision =

#TPS + #TPK + #TPP#TPS + #TPK + #TPP + #FPS + #FPK + #FPP

= 10 + 10 + 1010 + 10 + 10 + 7 + 12 + 11

19

Micro- vs. Macro-Average§ Micro-averaged Recall aggregiert zuerst #TP und #FN

über alle Klassen hinweg


S K PS 10 4 3K 5 10 7P 5 6 10

Recall = #TPS + #TPK + #TPP#TPS + #TPK + #TPP + #FNS + #FNK + #FNP

= 10 + 10 + 1010 + 10 + 10 + 10 + 10 + 10

20

F-Maß (f-measure)

§ F-Maß (f-measure) als harmonisches Mittel zwischenPrecision und Recall kombiniert die beiden Maße

und nimmt einen Wert in [0,1] an


F1 = 2 · Precision · Recall

Precision + Recall

21

4.3 Logistische Regression§ Logistische Regression ist ein Klassifikationsverfahren,

welches auf linearer Regression aufbaut, jedochein binäres nominales Merkmal erklärt

§ Rückblick: Multiple lineare Regression erklärt abhängiges metrisches Merkmal y als lineare Kombination unabhängiger metrischer Merkmale x(,j)

mit Vorhersage


yi = —0 + —1x(i,1) + —2x(i,2) + . . . + —mx(i,m)

yi œ R

22

Logistische Regression§ Daten stehen in Form von n Beobachtungen zur Verfügung

§ Jeder Datenpunkt (x(i,1), …, x(i,m), yi) besteht aus

§ als Werte der unabhängigen Merkmale x(,j)

§ als Wert des abhängigen Merkmals y

§ Logistische Regression verwendet eine lineare Kombination der unabhängigen Merkmale,transformiert den Wert der Vorhersagejedoch derart, dass er in [0,1] liegt


(x(1,1), . . . , x(1,m), y1), . . . , (x(n,1), . . . , x(n,m), yn)

yi œ {0, 1}

x(i,j) œ R

23

Logistische Funktion§ Logistische Funktion (auch: Sigmoidfunktion) bildet einen

Wert auf einen Wert ab


z œ R f(z) œ [0, 1]

f(z) = 11 + e≠z

-5 0 5

0.0

0.2

0.4

0.6

0.8

1.0

z

f(z)

24

Logistische Regression§ Logistische Regression erklärt das abhängige nominale

Merkmal anhand der unabhängigen metrischenMerkmale als

§ Vorhersage kann als Wahrscheinlichkeit P[yi=1|xi]interpretiert werden dass der Datenpunkt xi

zur Klasse yi = 1 gehört und lässt sichdurch Runden in einen binären Wertin {0,1} transformieren


yi

= 11 + e≠(—0+—1x(i,1)+—2x(i,2)+...+—mx(i,m))

yi

25

Logistische Regression§ Logistische Regression als Optimierungsproblem

§ Optimaler Parametervektor β ist mittels stochastischem Gradientenverfahren bestimmbar


arg min

—

nÿ

i=1≠ (yi · log(yi) + (1 ≠ yi) · log(1 ≠ yi))

26

Logistische Regression in R§ Beispiel: Binäre Klassifikation von Autos nach Herkunft

U.S.A vs. Japan/Europa anhand aller anderen Merkmale


1 # Modell ausgeben

2 autos $HK <- 03 autos $HK[ autos$ Herkunft == "U.S.A."] <- 14

5 # Trainings - (70%) und Testdaten (30%) erzeugen

6 train <- sample (nrow(autos), 0.7*nrow(autos ))7 autos. train <- autos[train ,]8 autos.test <- autos[-train ,]9

10 # Logistische Regression

11 fit <- glm(HK ˜ Gewicht +PS+ Verbrauch + Beschleunigung +Jahr+ Zylinder +Hubraum ,12 data=autos.train , family = binomial ())13

14 # Vorhersagen auf Testdaten berechnen

15 prob <- predict (fit , autos.test , type=" response ")16 pred <- factor (prob > 0.5, levels =c(FALSE ,TRUE), labels =c("0","1"))17

18 # Konfusionsmatrix berechnen

19 perf <- table(pred , autos.test$HK , dnn=c(" Vorhersage "," Daten"))

27

Logistische Regression in R


1 # Konfusionsmatrix ausgeben

2 perf3

4 Daten5 Vorhersage 0 16 0 42 127 1 3 618

9 # Modell ausgeben

10

11 fit12

13 Call: glm( formula = HK ˜ Gewicht + PS + Verbrauch + Beschleunigung +14 Jahr + Zylinder + Hubraum , family = binomial (), data = autos.train)15

16 Coefficients :17 ( Intercept ) Gewicht PS18 -23.689858 -0.011688 -0.00622119 Verbrauch Beschleunigung Jahr20 0.523234 0.193104 0.28884121 Zylinder Hubraum22 -1.878439 7.271401

28

Logistische Regression§ Parameter βj können bezüglich der Chancen (odds)

interpretiert werden

§ Erhöhung des Merkmals x(,j) um eine Einheit verändertdie Chance, dass der Datenpunkt zur Klasse yi = 1 gehörtum einen Faktor exp(βj)

§ Beispiel: Auto mit einem Liter höheren Hubraum stammt mitum Faktor 1438 = exp(7.2714) höheren Wahrscheinlichkeitaus U.S.A.


P [yi = 1]P [yi = 0] = P [yi = 1]

(1 ≠ P [yi = 1])

29

Zusammenfassung§ Klassifikationsverfahren haben viele Anwendungen

§ Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

§ Konfusionsmatrix stellt Vorhersagen und Daten gegenüber und erlauft Berechnung von Präzision,Ausbeute und F-Maß als Gütemaße

§ Logistische Regression zur binären Klassifikation basierend auf linearer Regression


30

Literatur[1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz:

Statistik – Der Weg zur Datenanalyse,Springer 2012

[2] R. Kabacoff: R In Action,Manning 2015 [Kapitel 17]

[3] N. Zumel und J. Mount: Practical Data Science with R,Manning 2014 [Kapitel 7]


Documents

4. Klassifikation · 4 Anwendungen von Klassifikationsverfahren § Klassifikation von Zeitungsartikeln oder Blogposts in Politik, Sport, Kultur, Reise und Auto § Klassifikation von