Support Vector Regression

1

Support Vector Regression

Seminar Machine LearningWS 2003/04

Sebastian Schneegans

2

Übersicht

Support Vector Regression – Sebastian Schneegans

I. Konzept der Support Vector RegressionErläuterung der Problemstellung und der Lösungsideen, Formulieren der Aufgabe als Optimierungsproblem

II. Lösen des OptimierungsproblemsAufstellen des Lagrangepolynoms, Ermitteln der Ebenengleichung und Anwenden des Kernel-Tricks

III. Variationen der Support Vector Regressiona) υ-SVRb) Weitere Variationen

3

Teil I:Konzept der Support Vector

Regression


4

Problem der Funktionsschätzung


• Gegeben:{(x1, y1), (x2, y2), ..., (xn, yn)}, xiH, yiRmit Skalarproduktraum H, meist H = Rd

Unabhängig und identisch verteilt nach einer Wahrscheinlichkeitsverteilung P(x, y)

• verrauschte Funktion x g(x) + ω(x)• Gesucht:

Schätzung f(x) mit minimalem RisikoR[f] = ∫c(y, f(x)) dP(x, y)

• c: Y Y R Fehlerfunktion• Da aber P(x, y) unbekannt: Minimiere empirisches Risiko

mit möglichst flacher Funktion

5

Grundidee der SVR

Übertragung der Prinzipien von SVM auf die Funktionsschätzung:

• Lineare Approximation durch Hyperebene der Formf(x) = w, x + b

• Repräsentation durch (wenige) Support Vectors• Nicht-Linearität durch Kernel-Funktion

Φ(xi), Φ(xj) = k(xi, xj)


6

Geometrische Interpretation

y

x1

x2


w

w, x + b = 0

SVM zur Klassifizierung:

7

f(x) = w, x + b

x2

Geometrische Interpretation

x1


w, x + b = 0

SVR zur Funktionsschätzung:y

Der Parameter b verschiebt die Ebene in entlang der y-Achse.

Der Vektor w bestimmt die Steigungder (Hyper-)Ebene.Dies folgt aus der Linea-rität des Skalarprodukts:

d

1i iixwxw,

8

Fehlerfunktion

ε-insensitive loss:|y – f(x)|ε = max {0, |y – f(x)| – ε}

x1

f(x)

εε

ε-ε

|y – f(x)|ε

y – f(x)


iξ

*iξ

*iii

iii

ξεy)f(ξε)f(y

xx

9

Formulierung des Minimierungsproblems


n1i

*iin

1ε

n1i iin

1 ξξ)f(yR[f] x• Minimieren des empirischen Fehlers:

ww,ww 212

21 bzw. minimiere

• Verwendung einer möglichst flachen Funktion f(x):

n1i

*iin

1221(*) ξξC, τminimiere wξw

• Gewichtung der beiden Ziele zueinander durch Parameter C :

i i i

*i i i

*i i

y , b ε ξ

, b y ε ξ

ξ ,ξ 0

w x

w x

• Nebenbedingungen:

10

Minimierung von w bei SVR und SVM

f(x)

x1

x2

1

-1

Kanonische Hyperebene bei SVMzur Mustererkennung:

1b,y ii xw


11

Minimierung von w bei SVR und SVM

f(x)

x1

x2

1

-1

Kanonische Hyperebene bei SVMzur Mustererkennung:

1b,y ii xw

Je kleiner der Abstand derseparierenden Hyperebene vom nächsten Trainingspunkt, desto steiler muss die Funktion f(x) verlaufen, um obige Bedingung zu erfüllen!


12

Teil II:Lösen des Optimierungs-

problems


13

Aufstellen des Lagrange-Polynoms

Nebenbedingungen:

n

1i*iin

1221(*) ξξC, τminimiere wξw

i i i

*i i i

*i i

y ,x b ε ξ

,x b y ε ξ

ξ ,ξ 0

w

w


Duale Formulierung: Einführen neuer Parameter , um Nebenbedingungen in das Lagrange-Polynom zu integrieren:

n n2 * * *1 1i i i i i i2 n i 1 i 1

ni i i ii 1

n * *i i i ii 1

L C ξ ξ η ξ η ξ

α ε ξ y , +b

α ε ξ + y , b

w

w x

w x

0η,α (*)i

(*)i

Minimiere L in Bezug auf Variablen und maximiere L inBezug auf Variablen .

(*) b, , ξw(*)(*) ,ηα

14

Nebenbedingen im Lagrange-Polynom

Die Nebenbedingung iii ξεyb, xw

wird gewährleistet durch die Minimierung (bzgl. ) bzw.Maximierung (bzgl. ) des Terms

ni i i ii 1

α ε ξ y , +b

w x


(*) b, , ξwiα

< 0, wenn Bedingung verletzt

beliebig groß, wenn maximiert bzgl. iαZur Minimierung muss ξi die Nebenbedingung erfüllen.

Bemerke: αi wird 0 für alle Trainingspunkte innerhalb des ε-Bandes auf Grund der KKT-Bedingungen!

15

Vereinfachen des Lagrange-Polynoms


Lösung des Minimierungs- bzw. Maximierungsproblems ist ein Sattelpunkt,alle partiellen Ableitungen sind hier null:

(*)i

n *b i ii 1

n *i i ii 1

* *Ci imξ

L -α +α 0

L -α α 0

L α η 0

w w x

Einsetzen liefert schließlich das zu lösende Optimierungsproblem als

n * *1i i j j i j2 i,j 1

n n* *i i i i ii 1 i 1

maximiere - α α α α ,

ε α α y α α

x x

nC(*)

in

1i*ii α ααmit ,0,0

16

• Der Vektor w ergibt sich als Linearkombination von Trainingsvektoren (den Support Vectors):

Bestimmung der Ebenengleichung


n *i i ii 1

-α α

w x

n *i i ii 1

f , b -α α , bi x w x x x

• Die Funktion f(x) lässt sich nun auch ohne explizite Angabe von w schreiben:

n

C*iii

nC

iii

0,α einfür ε,yb0,α einfür ε,yb

xwxw

• Der Wert von b lässt sich aus einem der SVs bestimmen, der gerade auf dem Rand desε-Bandes liegt:

(xi, yi)y

x1

b

ε

17

Nicht-Linearität durch Kernels


)Φ(:Φ

xx

xΗΧ X: Eingaberaum,

H: Merkmalsraum (meist H = Rd)mit

• Erweiterung auf nicht-lineare Funktionen durch Vorverarbeitungder Eingaben mittels Abbildung Φ:

Φ• Beispiel:X = R, H = R2

)(),(),( jiji xxxx ΦΦk • Kernel-Funktion zur schnelleren

Berechnung:

n *i i ii 1

f -α α k , bx x x

• Damit:

18

Teil III:Variationen der Support

Vector Regression


a) ν-Support Vector Regression

19

Einfluss des Parameters ε

kleines ε kleiner empirischer Fehlergroßes ε flache Funktion, wenige SVs


[Smola98]

20

Automatische Wahl von ε: -SVR

Minimiere nun auch ε, gewichtet mit neuem Parameter :

(Nebenbedingungen wie vorher)

Proposition: ist obere Schranke für den Anteil der

Trainingspunkte, die außerhalb des ε-Bandes liegen ist untere Schranke für den Anteil der SVs an den

Trainingspunkten

n2(*) *1 1i i2 n i 1

minimiere τ , , C ξ ξ

w ξ w


21

Bedeutung des Parameters


f(x)

ε1

x1

n1i

*iin

1 ξξMinimieren des Teilausdrucks

ε1

Beispiel: 102 ν10,n

101i

*ii10

1110

21 ξξεm

(vier Punkte außerhalb des ε-Bandes)

22

Bedeutung des Parameters


f(x)

ε2

ε2

x1

d

d

Beispiel: 102 ν10,n

101i

*ii10

1110

21 ξξεm

n1i

*iin

1 ξξMinimieren des Teilausdrucks

(vier Punkte außerhalb des ε-Bandes)

12

10410

1i*ii10

1102

1102

101i

*ii10

1210

22

mmdξξdε

ξξεm

dεε 12

23

Teil III:Variationen der Support

Vector Regression


b) Weitere Variationen

24

Parametrische Unempfindlichkeitsmodelle


• Bei verrauschten Funktionenx g(x) + ω(x)ist die Stärke des Rauschens oft abhängig von der Eingabe.

-3 -2 -1 0 1 2 3-1.5

-1

-0.5

0

0.5

1

1.5

2

• Um dies bei der Funktionsschätzung zu berücksichtigen, kann die Breite des ε-Bandes in Abhängigkeit von x variiert werden:

)ζ(:)ζ(

xxx

RΗ

• Die Funktion ζ(x) tritt dann in den Nebenbedingungen als Skalierungsfaktor von ε auf:

iiii ξ)εζ(ybx, xw

25

Optimierung über ℓ1-Norm


• ℓ1-Norm:

d1i ix

1x

• Vorteil: Optimierung lässt sich durch lineare Programmierung lösen (bisher quadratische Programmierung)

• Idee: Minimiere Koeffizienten anstelle von ,um flache Funktion zu erzeugen:

mit Nebenbedingungen:

n1i

*iin

1n1i

*iin

1 ξξCαα minimiere

n * *j j j i i ij 1

n *i j j j i ij 1

(*) (*)i i

α - α k , b y ε ξ

y α α k , b ε ξ

,ξ 0

x x

x x

α

(*)iα w

26

Andere Fehlerfunktionen


• An Stelle des ε-insensitive loss können auch andere Funktionen zur Fehlermessung verwendet werden, z. B.:

-3 -2 -1 0 1 2 30

0.5

1

1.5

2

2.5

3

-3 -2 -1 0 1 2 30

0.5

1

1.5

2

2.5

3

-3 -2 -1 0 1 2 30

0.5

1

1.5

2

2.5

3

sonstf(x)yσf(x)yfür f(x)yf(x)y,x,c

f(x)yf(x)y,x,cf(x)yf(x)y,x,c

2σ

22σ1

Huber

221

Gauss

Laplace

Laplacian loss Gaussian loss Huber‘s robust loss

• Nachteil: Alle Trainingspunkte tragen zu w bei, nicht nur wenige Support Vectors

27

Zusammenfassung


• Support Vector Regression als Übertragung der SVM auf das Problem der Funktionsschätzung

• Lineare Regression durch Hyperebene• Bestimmen der Ebenengleichung über

Minimierungsproblem mit Nebenbedingungen• Duale Formulierung als Lagrange-Polynom• Erweiterung auf nicht-linearen Fall durch Kernel-

Trick -SVR zur einfacheren Bestimmung der Parameter

Documents

Support Vector Regression