Upload
elvina
View
115
Download
1
Tags:
Embed Size (px)
DESCRIPTION
Seminar Machine Learning WS 2003/04. Support Vector Regression. Sebastian Schneegans. Konzept der Support Vector Regression Erläuterung der Problemstellung und der Lösungsideen, Formulieren der Aufgabe als Optimierungsproblem - PowerPoint PPT Presentation
Citation preview
1
Support Vector Regression
Seminar Machine LearningWS 2003/04
Sebastian Schneegans
2
Übersicht
Support Vector Regression – Sebastian Schneegans
I. Konzept der Support Vector RegressionErläuterung der Problemstellung und der Lösungsideen, Formulieren der Aufgabe als Optimierungsproblem
II. Lösen des OptimierungsproblemsAufstellen des Lagrangepolynoms, Ermitteln der Ebenengleichung und Anwenden des Kernel-Tricks
III. Variationen der Support Vector Regressiona) υ-SVRb) Weitere Variationen
3
Teil I:Konzept der Support Vector
Regression
Support Vector Regression – Sebastian Schneegans
4
Problem der Funktionsschätzung
Support Vector Regression – Sebastian Schneegans
• Gegeben:{(x1, y1), (x2, y2), ..., (xn, yn)}, xiH, yiRmit Skalarproduktraum H, meist H = Rd
Unabhängig und identisch verteilt nach einer Wahrscheinlichkeitsverteilung P(x, y)
• verrauschte Funktion x g(x) + ω(x)• Gesucht:
Schätzung f(x) mit minimalem RisikoR[f] = ∫c(y, f(x)) dP(x, y)
• c: Y Y R Fehlerfunktion• Da aber P(x, y) unbekannt: Minimiere empirisches Risiko
mit möglichst flacher Funktion
5
Grundidee der SVR
Übertragung der Prinzipien von SVM auf die Funktionsschätzung:
• Lineare Approximation durch Hyperebene der Formf(x) = w, x + b
• Repräsentation durch (wenige) Support Vectors• Nicht-Linearität durch Kernel-Funktion
Φ(xi), Φ(xj) = k(xi, xj)
Support Vector Regression – Sebastian Schneegans
6
Geometrische Interpretation
y
x1
x2
Support Vector Regression – Sebastian Schneegans
w
w, x + b = 0
SVM zur Klassifizierung:
7
f(x) = w, x + b
x2
Geometrische Interpretation
x1
Support Vector Regression – Sebastian Schneegans
w, x + b = 0
SVR zur Funktionsschätzung:y
Der Parameter b verschiebt die Ebene in entlang der y-Achse.
Der Vektor w bestimmt die Steigungder (Hyper-)Ebene.Dies folgt aus der Linea-rität des Skalarprodukts:
d
1i iixwxw,
8
Fehlerfunktion
ε-insensitive loss:|y – f(x)|ε = max {0, |y – f(x)| – ε}
x1
f(x)
εε
ε-ε
|y – f(x)|ε
y – f(x)
Support Vector Regression – Sebastian Schneegans
iξ
*iξ
*iii
iii
ξεy)f(ξε)f(y
xx
9
Formulierung des Minimierungsproblems
Support Vector Regression – Sebastian Schneegans
n1i
*iin
1ε
n1i iin
1 ξξ)f(yR[f] x• Minimieren des empirischen Fehlers:
ww,ww 212
21 bzw. minimiere
• Verwendung einer möglichst flachen Funktion f(x):
n1i
*iin
1221(*) ξξC, τminimiere wξw
• Gewichtung der beiden Ziele zueinander durch Parameter C :
i i i
*i i i
*i i
y , b ε ξ
, b y ε ξ
ξ ,ξ 0
w x
w x
• Nebenbedingungen:
10
Minimierung von w bei SVR und SVM
f(x)
x1
x2
1
-1
Kanonische Hyperebene bei SVMzur Mustererkennung:
1b,y ii xw
Support Vector Regression – Sebastian Schneegans
11
Minimierung von w bei SVR und SVM
f(x)
x1
x2
1
-1
Kanonische Hyperebene bei SVMzur Mustererkennung:
1b,y ii xw
Je kleiner der Abstand derseparierenden Hyperebene vom nächsten Trainingspunkt, desto steiler muss die Funktion f(x) verlaufen, um obige Bedingung zu erfüllen!
Support Vector Regression – Sebastian Schneegans
12
Teil II:Lösen des Optimierungs-
problems
Support Vector Regression – Sebastian Schneegans
13
Aufstellen des Lagrange-Polynoms
Nebenbedingungen:
n
1i*iin
1221(*) ξξC, τminimiere wξw
i i i
*i i i
*i i
y ,x b ε ξ
,x b y ε ξ
ξ ,ξ 0
w
w
Support Vector Regression – Sebastian Schneegans
Duale Formulierung: Einführen neuer Parameter , um Nebenbedingungen in das Lagrange-Polynom zu integrieren:
n n2 * * *1 1i i i i i i2 n i 1 i 1
ni i i ii 1
n * *i i i ii 1
L C ξ ξ η ξ η ξ
α ε ξ y , +b
α ε ξ + y , b
w
w x
w x
0η,α (*)i
(*)i
Minimiere L in Bezug auf Variablen und maximiere L inBezug auf Variablen .
(*) b, , ξw(*)(*) ,ηα
14
Nebenbedingen im Lagrange-Polynom
Die Nebenbedingung iii ξεyb, xw
wird gewährleistet durch die Minimierung (bzgl. ) bzw.Maximierung (bzgl. ) des Terms
ni i i ii 1
α ε ξ y , +b
w x
Support Vector Regression – Sebastian Schneegans
(*) b, , ξwiα
< 0, wenn Bedingung verletzt
beliebig groß, wenn maximiert bzgl. iαZur Minimierung muss ξi die Nebenbedingung erfüllen.
Bemerke: αi wird 0 für alle Trainingspunkte innerhalb des ε-Bandes auf Grund der KKT-Bedingungen!
15
Vereinfachen des Lagrange-Polynoms
Support Vector Regression – Sebastian Schneegans
Lösung des Minimierungs- bzw. Maximierungsproblems ist ein Sattelpunkt,alle partiellen Ableitungen sind hier null:
(*)i
n *b i ii 1
n *i i ii 1
* *Ci imξ
L -α +α 0
L -α α 0
L α η 0
w w x
Einsetzen liefert schließlich das zu lösende Optimierungsproblem als
n * *1i i j j i j2 i,j 1
n n* *i i i i ii 1 i 1
maximiere - α α α α ,
ε α α y α α
x x
nC(*)
in
1i*ii α ααmit ,0,0
16
• Der Vektor w ergibt sich als Linearkombination von Trainingsvektoren (den Support Vectors):
Bestimmung der Ebenengleichung
Support Vector Regression – Sebastian Schneegans
n *i i ii 1
-α α
w x
n *i i ii 1
f , b -α α , bi x w x x x
• Die Funktion f(x) lässt sich nun auch ohne explizite Angabe von w schreiben:
n
C*iii
nC
iii
0,α einfür ε,yb0,α einfür ε,yb
xwxw
• Der Wert von b lässt sich aus einem der SVs bestimmen, der gerade auf dem Rand desε-Bandes liegt:
(xi, yi)y
x1
b
ε
17
Nicht-Linearität durch Kernels
Support Vector Regression – Sebastian Schneegans
)Φ(:Φ
xx
xΗΧ X: Eingaberaum,
H: Merkmalsraum (meist H = Rd)mit
• Erweiterung auf nicht-lineare Funktionen durch Vorverarbeitungder Eingaben mittels Abbildung Φ:
Φ• Beispiel:X = R, H = R2
)(),(),( jiji xxxx ΦΦk • Kernel-Funktion zur schnelleren
Berechnung:
n *i i ii 1
f -α α k , bx x x
• Damit:
18
Teil III:Variationen der Support
Vector Regression
Support Vector Regression – Sebastian Schneegans
a) ν-Support Vector Regression
19
Einfluss des Parameters ε
kleines ε kleiner empirischer Fehlergroßes ε flache Funktion, wenige SVs
Support Vector Regression – Sebastian Schneegans
[Smola98]
20
Automatische Wahl von ε: -SVR
Minimiere nun auch ε, gewichtet mit neuem Parameter :
(Nebenbedingungen wie vorher)
Proposition: ist obere Schranke für den Anteil der
Trainingspunkte, die außerhalb des ε-Bandes liegen ist untere Schranke für den Anteil der SVs an den
Trainingspunkten
n2(*) *1 1i i2 n i 1
minimiere τ , , C ξ ξ
w ξ w
Support Vector Regression – Sebastian Schneegans
21
Bedeutung des Parameters
Support Vector Regression – Sebastian Schneegans
f(x)
ε1
x1
n1i
*iin
1 ξξMinimieren des Teilausdrucks
ε1
Beispiel: 102 ν10,n
101i
*ii10
1110
21 ξξεm
(vier Punkte außerhalb des ε-Bandes)
22
Bedeutung des Parameters
Support Vector Regression – Sebastian Schneegans
f(x)
ε2
ε2
x1
d
d
Beispiel: 102 ν10,n
101i
*ii10
1110
21 ξξεm
n1i
*iin
1 ξξMinimieren des Teilausdrucks
(vier Punkte außerhalb des ε-Bandes)
12
10410
1i*ii10
1102
1102
101i
*ii10
1210
22
mmdξξdε
ξξεm
dεε 12
23
Teil III:Variationen der Support
Vector Regression
Support Vector Regression – Sebastian Schneegans
b) Weitere Variationen
24
Parametrische Unempfindlichkeitsmodelle
Support Vector Regression – Sebastian Schneegans
• Bei verrauschten Funktionenx g(x) + ω(x)ist die Stärke des Rauschens oft abhängig von der Eingabe.
-3 -2 -1 0 1 2 3-1.5
-1
-0.5
0
0.5
1
1.5
2
• Um dies bei der Funktionsschätzung zu berücksichtigen, kann die Breite des ε-Bandes in Abhängigkeit von x variiert werden:
)ζ(:)ζ(
xxx
RΗ
• Die Funktion ζ(x) tritt dann in den Nebenbedingungen als Skalierungsfaktor von ε auf:
iiii ξ)εζ(ybx, xw
25
Optimierung über ℓ1-Norm
Support Vector Regression – Sebastian Schneegans
• ℓ1-Norm:
d1i ix
1x
• Vorteil: Optimierung lässt sich durch lineare Programmierung lösen (bisher quadratische Programmierung)
• Idee: Minimiere Koeffizienten anstelle von ,um flache Funktion zu erzeugen:
mit Nebenbedingungen:
n1i
*iin
1n1i
*iin
1 ξξCαα minimiere
n * *j j j i i ij 1
n *i j j j i ij 1
(*) (*)i i
α - α k , b y ε ξ
y α α k , b ε ξ
,ξ 0
x x
x x
α
(*)iα w
26
Andere Fehlerfunktionen
Support Vector Regression – Sebastian Schneegans
• An Stelle des ε-insensitive loss können auch andere Funktionen zur Fehlermessung verwendet werden, z. B.:
-3 -2 -1 0 1 2 30
0.5
1
1.5
2
2.5
3
-3 -2 -1 0 1 2 30
0.5
1
1.5
2
2.5
3
-3 -2 -1 0 1 2 30
0.5
1
1.5
2
2.5
3
sonstf(x)yσf(x)yfür f(x)yf(x)y,x,c
f(x)yf(x)y,x,cf(x)yf(x)y,x,c
2σ
22σ1
Huber
221
Gauss
Laplace
Laplacian loss Gaussian loss Huber‘s robust loss
• Nachteil: Alle Trainingspunkte tragen zu w bei, nicht nur wenige Support Vectors
27
Zusammenfassung
Support Vector Regression – Sebastian Schneegans
• Support Vector Regression als Übertragung der SVM auf das Problem der Funktionsschätzung
• Lineare Regression durch Hyperebene• Bestimmen der Ebenengleichung über
Minimierungsproblem mit Nebenbedingungen• Duale Formulierung als Lagrange-Polynom• Erweiterung auf nicht-linearen Fall durch Kernel-
Trick -SVR zur einfacheren Bestimmung der Parameter