35
Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner [email protected] chemnitz.de www.tu-chemnitz.de/ ~brum Chemnitz, den 24. Juni

Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner [email protected] brum

Embed Size (px)

Citation preview

Page 1: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

Präsentation der Diplomarbeit

Large margin Kernel Machines for binary Classification

Michael Brückner

[email protected]

www.tu-chemnitz.de/~brum

Chemnitz, den 24. Juni 2005

Page 2: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

2

▪ Einleitung▪ Grundlagen der Kernel-Verfahren▪ Kernel-Perceptron▪ Support-Vektor-Verfahren▪ Analytic Center Machine▪ Bayes-Point-Klassifikatoren▪ p-Center Machine▪ Experimenteller Vergleich der Verfahren

Überblick über die Arbeit

Page 3: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

3

▪ Klassifikation ist die Zuordnung von Daten zu einer begrenzte Anzahl von Klassen mit Hilfe eines Klassifikators, z.B. Email → {Spam, Ham}

▪ Zwei Klassen → Binäre Klassifikation▪ Finden eines Klassifikators durch überwachtes

Lernen▪ empirisch & simulativ (Neuronales Netz)▪ induktiv (Regelsystem/Entscheidungsbaum)▪ analytisch (Kernel Machine)

Einleitung

Einleitung

Page 4: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

4

▪ Feature Mapping Funktion welche Eingabedaten aus dem Eingaberaum X in einen (höher-dimensionalen) Raum abbildet.

▪ Feature Space FRaum in den die Eingabedaten abgebildet werden.

▪ Kernel-Funktion k(x1,x2)Entfernung zweier Punkte x1 und x2 im Feature Space.

▪ Kernel-Matrix GEntfernungsmatrix mit den Abständen aller Eingabe-datenpunkte im Feature Space.

Grundlagen der Kernel-Verfahren

Grundlagen der Kernel-Verfahren

Page 5: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

5

Exemplarische Darstellung des Feature Mapping ,Feature Space F, und der Kernel-Funktion k

Grundlagen der Kernel-Verfahren

Page 6: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

6

▪ Binärer Klassifikator hBerechnet für einen Eingabedatenpunkt x mit Hilfe einer Klassifikationsfunktion den Klassifikationswert. Das Vorzeichen dieses Wertes entspricht der zu x zugeordneten Klasse y.

▪ Lineare KlassifikationsfunktionLineare Funktion welche durch einen Gewichtsvektor w und einen Bias b gegeben ist: f(x) = <x,w> + b.

▪ Kernel-KlassifikationsfunktionIm Feature Space lineare Funktion welche durch ein Feature Mapping , einen Gewichtsvektor w und einen Bias b gegeben ist: f(x) = <(x),w> + b.

Grundlagen der Kernel-Verfahren

Page 7: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

7

▪ Kernel-Funktion enthält alle notwendigen Informationen über Feature Mapping Feature Mapping muss nicht explizit gegeben sein.

▪ Eigenschaften allgemeiner Kernel-Funktionen durch Mercer-Bedingungen festgelegt.

▪ Lernverfahren welche Kernel-Funktionen nutzen werden als Kernel Machines bezeichnet.

▪ Large margin Kernel Machines sind Verfahren, welche unter Verwendung nicht-statistischer Ansätze eine (möglichst) optimale Kernel-Klassifikationsfunktion suchen.

Grundlagen der Kernel-Verfahren

Page 8: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

8

g g

▪ Kernel-Klassifikationsfunktion kann als Trenn-gerade bzw. Trennebene im Feature Space aufgefasst werden.

▪ Abbildung zeigt nahezu optimale Trenngerade (links) und beliebige Trenngerade (rechts).

Grundlagen der Kernel-Verfahren

Page 9: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

9

▪ Version Space VMenge aller möglichen Gewichtsvektoren. Curved Version Space und Bounded Version Space sind Teilmengen von V.

Grundlagen der Kernel-Verfahren

Page 10: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

10

▪ Gewichtsvektor der optimalen Trenngerade/Trennebene ist Schwerpunkt des Version Space= Bayes-Klassifikator.

▪ Schwerpunkt schlecht berechenbar. Jedoch, Vektoren nahe des Schwerpunktes (z.B. Inkreismittelpunkt, Analytic Center, p-Center) bilden ebenfalls sehr gute Klassifikatoren zahlreiche Large margin Kernel Machines.

▪ „Aufweichen“ der Version Space-Bedingungen mittels Verlust-Funktionen wirkt verrauschten Daten entgegen verbesserter Klassifikator.

Grundlagen der Kernel-Verfahren

Page 11: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

11

▪ Idee: Verwende Perceptron-Lernen im Feature Space.▪ Beginne mit beliebigen Startvektor w und prüfe

sukzessive ob alle Eingabedatenpunkte xi richtig klassifiziert werden, d.h. sign(<xi,w>) = yi.

▪ Wird Vektor xi falsch klassifiziert addiere xi für yi = +1 bzw. subtrahiere xi für yi = -1.

▪ Wird Vektor xi richtig klassifiziert belasse w.

▪ Wiederhole diese Schritte bis w alle xi korrekt klassifiziert.

Kernel-Perceptron

Kernel-Perceptron

Page 12: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

12

Kernel-Perceptron

▪ Kernelization des Perceptron-Algorithmus (1)▪ Satt Gewichtsvektor w wird dualer Gewichtsvektor

verwendet welcher wie folgt definiert ist

.

▪ Die Überprüfung sign(<xi,w>) = yi wird ersetzt durch

wobei der (i,j)-te Eintrag der Kernel-

Matrix G ist.

1

( )m

j jj

w x

1

0 ( ), ( ), ( )m

i i i j i jj

y y

x w x x

( ), ( )i j x x

Page 13: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

13

Kernel-Perceptron

▪ Kernelization des Perceptron-Algorithmus (2)▪ Satt Addition/Subtraktion von xi wird (xi) zu w

addiert bzw. von w subtrahiert, d.h.

▪ Lediglich i-te Komponente des dualen Gewichts-vektors wird verändert

1 1

( )

( ) ( ) ( )

i i

m m

j j j j i ij j

i i i

y

y

y

w w x

x x x

Page 14: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

14

▪ Soft Perceptron▪ Kernel-Perceptron mit abgeschwächten/verstärkten

Version Space-Bedingungen▪ Idee: Update-Bedingung zunächst strenger aus-

legen (kleinerer Version Space) und den Version Space danach sukzessive vergrößern, z.B. durch

wobei k der Iterationsschritt und gi der i-te Spalten-vektor der Kernel Matrix G ist.

T

1( ),

1,

i i

i i

yk

yk

x w w

g G

Kernel-Perceptron

Page 15: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

15

▪ Existieren zahlreiche Modifikationen des Perceptron-Algorithmus, z.B.▪ Perceptron mit L2-Verlustfunktion▪ Perceptron Algorithm with Margin (PAM)▪ Pocket Perceptron▪ Competitive Perceptron▪ Voted Perceptron▪ Bayes Perceptron

▪ Kombination mehrerer Ideen kann zu sehr guten Kernel Machines führen wie zum Beispiel dem Soft Bayes Perceptron.

Kernel-Perceptron

Page 16: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

16

▪ Idee: Maximiere Abstand zwischen Trennebene und allen Punkten.

▪ Dieser Abstand heißt minimal geometrical margin und wird oft verkürzt margin genannt Ergebnis der Support Vector Machine (SVM) ist der „Maximal Margin“-Klassifikator.

▪ Der minimal geometrical margin ist indirekt proportional zur Länge des Gewichtsvektors Minimierung dieser Länge.

Support-Vektor-Verfahren

Support-Vektor-Verfahren

Page 17: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

17

Support-Vektor-Verfahren

g

wi wi

▪ „Maximal Margin“-Klassifikator entspricht dem Inkreismittelpunkt des (curved) Version Space.

Page 18: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

18

Support-Vektor-Verfahren

▪ Optimierungsproblem der SVM

wird mit Hilfe des Lagrange-Ansatz in ein quadratisches Optimierungsproblem (QP) umgewandelt und durch QP-Solver gelöst.

▪ Durch Hinzufügen einer Verlust-Funktion erhält man die Soft margin SVM.

1 1maximiere max min ,

2

Bedingung ( ), 1 1...i i

γ

y b i m

ww w

w

x w

Page 19: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

19

▪ Abhängig von der verwendeten Verlust-Funktion unterscheidet man▪ hard margin SVM (total loss = keine Verlust-Funktion)▪ L1-SVM (hinge loss)▪ L2-SVM (squared hinge loss)

▪ R1-SVM (-insenstive loss, modulus loss für = 0)

▪ R2-SVM (squared -insenstive loss, (least) square loss für = 0)

▪ Verfahren die „Maximal Margin“-Klassifikator approximieren, z.B. Sparse SVM.

Support-Vektor-Verfahren

Page 20: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

20

▪ Idee: Anstelle des Inkreismittelpunktes bestimmt Analytic Center Machine (ACM) den Mittelpunkt der größten, in VS einbeschreibaren Ellipse.

▪ Dieser Punkt heißt Analytic Center und ist definiert durch

wobei VS der curved Version Space ist.

Analytic Center Machine

Analytic Center Machine

S

a1

arg max ln ( ),m

i iV i

y b

ww x w

Page 21: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

21

▪ Daraus ergibt sich das Optimierungsproblem

welches mit Hilfe des Lagrange-Ansatzes in ein Nullstellenproblem überführt werden kann.

,

1

maximiere ln ( ),

Bedingung , 1

m

i ib

i

y b

wx w

w w

Analytic Center Machine

1

T 1

T

L 2

L( , , ) L

L 1bb

G G

G

1

1 1 0

Page 22: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

22

▪ Dieses Nullstellenproblem wird mit Hilfe des Newton-Verfahrens gelöst, d.h.und werden so gewählt, dass

im k-ten Iterationsschritt. Unter Vorgabe einer gültigen Startlösung konvergiert das Verfahren i.d.R. nach 10 – 30 Iterationen.

Analytic Center Machine

( 1) ( )

( ) ( ) ( ) 2 ( ) ( ) ( ) ( 1) ( )

( 1) ( )

L( , , ) L( , , )

k k

k k k k k k k k

k k

b b b b

0

( 1) ( 1), k kb ( 1)k

Page 23: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

23

▪ Bayes Point Machines (BPM) approximieren den Bayes-Klassifikator, d.h. sie bestimmen den Schwerpunkt des Version Space.

▪ Schwerpunkt wird auch mit Masse-Schwerpunkt, Centroid oder Bayes Point bezeichnet.

▪ Genau Berechnung des Schwerpunktes in O(n!) Näherungsverfahren wie Direct BPM, Balancing Board Machine, Billiard BPM usw.

Bayes-Point-Klassifikatoren

Bayes-Point-Klassifikatoren

Page 24: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

24

Bayes-Point-Klassifikatoren

▪ Direct Bayes Point Machine▪ Idee: Berechnung aller Eckpunkte des curved

Version Space Mittelwert dieser Eckpunkte liegt nahe des Schwerpunktes.

wobei .

▪ Berechnung nur möglich wenn Dimension des Feature Space groß genug, so dass Kernel Matrix G invertierbar ist.

1G y

1,

1i i

i i

y ym

G

Page 25: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

25

Bayes-Point-Klassifikatoren

▪ Balancing Board Machine (1)▪ Gekrümmte Fläche des curved Version Space wird

durch Polygon (Board) approximiert.

Page 26: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

26

Bayes-Point-Klassifikatoren

▪ Balancing Board Machine (2)▪ Idee: Wenn Board im Gleichgewicht liegt, ist der

Auflagepunkt des Boards nahe dem gesuchten Schwerpunkt des Version Space.

▪ Board im Gleichgewicht wenn Board-Schwerpunkt = Auflagepunkt Balancing Board Machine (BBM).

▪ Beginne mit beliebiger Startlösung w und berechne Schwerpunkt des durch w und V definierten Boards.

▪ Drehe Vektor w in Richtung dieses Schwerpunktes.▪ Wiederhole diese Schritte bis Konvergenz erreicht.

▪ Berechnung des Board-Schwerpunktes aufwendig Abschätzen der Randpolygone durch Kegel, somitBoard von Ellipsoiden begrenzt (leicht berechenbar).

Page 27: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

27

Bayes-Point-Klassifikatoren

▪ Billiard Bayes Point Machine▪ Idee: Punkte einer (hinreichend langen) Flugbahn

eines Billardballs im Raum repräsentieren diesen Raum, d.h. Mittelwert all dieser Punkte entspricht Schwerpunkt des Raumes Billiard BPM.

▪ Beginne mit beliebiger Startlösung w (Anfangsposition des Billardballs) und beliebiger Flugrichtung v.

▪ Lasse Billardball in Richtung v „fliegen“, und „reflektiere“ ihn an der ersten Wand (Rand des bounded Version Space) die er berührt, d.h. neue Position des Balls ist Berührungspunkt mit der Wand und neue Richtung ist reflektierte Richtung.

▪ Wiederhole letzen Schritt hinreichend oft und mittle über die gesamt Flugbahn.

▪ Mehrfache Wiederholung stabileres Ergebnis.

Page 28: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

28

▪ Idee: Verwendung des p-Center als Gewichtsvektor, da dieses▪ i.d.R. näher am Schwerpunkt von VS als

Inkreismittelpunkt oder Analytic Center▪ Schneller zu berechnen als Schwerpunkt,

weil p-Center-Algorithmus leicht parallelisierbar

▪ Zwei Implementierungen möglich:▪ p-Center des bounded Version Space berechnen▪ p-Center des curved Version Space bestimmen

p-Center Machine

p-Center Machine

Page 29: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

29

▪ p-Center eines konvexen Bereiches▪ Beginne mit einer beliebigen Startlösung w

und projiziere diesen Punkt auf alle Randflächen des Bereiches.

▪ Bestimme zusätzlich die,diesen Projektions-punkten, gegen-überliegendenPunkte und bildeden Mittelwert alldieser Randpunkte.

▪ Wiederhole diese Schritte bis Konvergenz erreicht.

p-Center Machine

Page 30: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

30

▪ p-Center des bounded Version Space▪ Version Space ist unbegrenzt, sodass

„gegenüberliegender Punkt“ nicht immer existiert begrenzen des Version Space durch Kugel.

▪ Berechnung des p-Centers für diesen Bereich genauso wie zuvor, jedoch Kugeloberfläche als zusätzliche Projektions- und Randfläche.

▪ Kernelization des p-Center-Algorithmus für den bounded Version Space ergibt approximated p-Center Machine (approx. PCM).

p-Center Machine

Page 31: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

31

▪ p-Center des curved Version Space▪ Curved Version Space ist gekrümmtes Polygon

Berechnung des p-Centers dieses Polygons.▪ Wegen Krümmung keine Mittelung der Randpunkte,

sondern Berechnung des mittleren Winkel bezüglich jeder Projektion und Drehung des Vektors w um den mittleren Winkel.

▪ Berechnung der Winkel effizient möglich da diese wiederum unabhängig von einander parallelisierbar.

▪ Kernelization des Ansatzes ergibt exact p-Center Machine (exact PCM).

p-Center Machine

Page 32: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

32

▪ Qualität der Verfahren stark abhängig von verwendetem Kernel, Kernel-Parametern, Anzahl Datenpunkte usw. Vergleich und Bewertung der Kernel Machines schwierig.

▪ Für „saubere“ Daten sind Billiard BPM, ACM, und Bayes Perceptron am geeignetsten.

▪ Bei verrauschten Daten sind Direct BPM, PCM, und SVM i.d.R. besser.

Experimenteller Vergleich der Verfahren und Zusammenfassung

Experimenteller Vergleich der Verfahren

Page 33: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

33

Experimenteller Vergleich der Verfahren

Qualität der Verfahren für Datensatz „Heart“

Kernel MachineRBF (hard margin) RBF (soft margin) Polynomial

error dev. # SV error dev. # SV error dev. # SV(Soft) PA 21.69 3.45 68 17.45 3.21 162 22.00 3.67 72(Soft) Bayes PA 21.00 3.16 129 17.18 3.06 162 20.75 2.91 133L1-SVM 21.81 3.02 111 15.68 2.96 99 16.48 3.19 148L2-SVM 21.81 3.02 111 15.71 2.97 150 16.08 3.35 162LM-SVM 21.81 3.02 111 16.33 3.29 162 16.44 3.29 162LS-SVM 22.24 3.08 162 15.72 2.92 162 16.10 3.40 162Direct SVM 22.24 3.08 162 15.72 2.92 162 16.11 3.27 162Sparse SVM 20.98 3.23 83 15.67 3.04 8 17.88 4.17 12Exact ACM 18.59 3.28 162 16.24 3.30 162 15.96 3.38 162Direct BPM 22.44 3.04 162 15.75 2.94 162 16.08 3.28 162Approx. BBM 21.58 3.24 162 15.73 2.92 162 16.10 3.26 162Billiard BPM 20.06 3.00 162 15.87 3.04 162 15.92 3.33 162Exact PCM 20.43 3.19 162 15.68 3.03 162 16.06 3.36 162Approx. PCM 20.43 3.22 162 15.61 3.01 162 16.08 3.85 162

Page 34: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

34

Experimenteller Vergleich der Verfahren

Konvergenz-Eigenschaften für Datensatz „Heart“

Winkel

Wiederholungen

Page 35: Präsentation der Diplomarbeit Large margin Kernel Machines for binary Classification Michael Brückner brum@hrz.tu-chemnitz.de brum

35

▪ Zahlreiche verschiedene Kernel Machines.▪ Qualitätsunterschiede oft gering bzw. abhängig von

Daten und Parametern theoretisch bessere Verfahren müssen nicht besser in der Praxis sein!

▪ Entscheidender ist effizienter Umgang mit Ressourcen (Speicher, Laufzeit, …) und Robustheit eines Verfahrens, d.h. Unabhängigkeit von Parametern.

Zukünftige Verfahren müssten Wahl der Kernel-parameter mit zum Gegenstand des Lernens machen – ähnlich Neuronaler Netze.

Experimenteller Vergleich der Verfahren

Zusammenfassung