Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Schritte der Datenanalyse:
Überblick
2
Aggregation und
Selektion von
Daten.
Integration und
Säuberung der
Daten.
Feature-
Extraktion.
Modell-Selektion
& -Anpassung.
Training &
Evaluation des
Modells auf
gegebenen Daten.
Vorhersage für
neue Daten.
Daten-
vorverarbeitung
Anwendung
der LösungProblemanalyse
Bestimmen von
gegeb./gesuchten
Größen.
Wahl des
Performanzmaß/
Zielkriteriums.
Modellraum und
Modellannahmen.
Algorithmen für
das Optimieren
des Zielkriteriums
finden.
Implementieren
der Algorithmen.
Problemlösung
Gegeben: Trainingsdaten mit bekannten Zielattributen
(gelabelte Daten).
Eingabe: Instanz (Objekt, Beispiel, Datenpunkt,
Merkmalsvektor) = Vektor mit Attribut-Belegungen.
Ausgabe: Belegung des/der Zielattribut(e).
Klassifikation: Nominaler Wertebereich des Zielattributs.
Ordinale Regression: Ordinaler Wertebereich des Zielattributs.
Regression: Numerischer Wertebereich des Zielattributs.
Gesucht: Modell .
Überwachtes LernenProblemstellung
3
:f yx
Entscheidungsbäume/Regelsysteme:
Klassifikations-, Regressions-, Modellbaum.
Lineare Modelle:
Trennebenen, Regressionsgerade.
Nicht-lineare Modelle, linear in den Parametern:
Nicht-lineare Datentransformation + lineares Modell.
Kernel-Modell.
Probabilistisches Modell.
Nicht-lineare Modelle, nicht-linear in den Parametern:
Neuronales Netz.
Überwachtes LernenArten von Modellen
4
Instanzen (Vektoren mit m Einträgen) liegen im
m-dimensionalen Eingaberaum.
Dieser wird in durch Trenngerade (Hyperebene Hw)
halbiert.
Lineare ModelleLineare Modelle für Klassifikation
5
ja nein
x2
x1
Hw +
-
Instanzen (Vektoren mit m Einträgen) liegen im
m-dimensionalen Eingaberaum.
Dieser wird in durch Trenngerade (Hyperebene Hw)
halbiert.
Lineare ModelleLineare Modelle für Klassifikation
6
x2
x1
Hw
ID x1 x2 y
1 0,9 3,0 +
2 3,0 4,1 +
3 1,2 0,3 -
Hyperebene Hw ist durch Normalenvektor w und
Verschiebung w0 gegeben:
Entscheidungsfunktion:
Lineare ModelleLineare Modelle für Klassifikation
7
x2
Hw
( ) ( ( ))y sign fx x
wz ( )f z
w
0w
w
x1
T
0{ | ( ) 0}H f w w x x x w
Normalenvektor w
Zu klassifizierender Punkt z
Zielfunktionswert f(z)
Verschiebung w0
Umformulierung mit zusätzlichem, konstanten
Eingabeattribut x0=1:
Lineare ModelleLineare Modelle für Klassifikation
8
0
1
1
2T
0 0 1 2 1 2 2( ) [ ] [1 ]m m
m
m
ww
ww
f w w x x x x x x w
ww
x x w
Erweiterte Instanzx2
Hw
x1
x0
Aus Hyperebene im m-dimensionalen
Eingaberaum wird Hyperebene im
(m+1)-dimensionalen Eingaberaum.
Abstand zur Regressionsgerade (Hyperebene Hw)
liefert numerischen Wert.
Entscheidungsfunktion:
Lineare ModelleLineare Modelle für Regression
9
x2
x1
Hw
( ) 0f x
( ) 1f x
( ) 2f x
( ) 1f x
( ) ( )y fx x
ID x1 x2 y
1 0,9 3,0 0,5
2 3,0 4,1 2,5
3 1,2 0,3 -1,0
Für kleine bis sehr große Klassifikations- &
Regressionsprobleme.
Falls unverrauschte Daten linear separierbar.
Falls Interpretierbarkeit der Entscheidung nicht
notwendig.
Für Daten mit überwiegend numerischen Attributen.
Falls schnelles & einfaches Verfahren gewünscht.
Lineare Modelle Besonders geeignet …
10
Gegeben: n Trainingsinstanzen xi mit Zielattribut yi.
Gesucht: Parametervektor w der Klassifikations-/
Regressionsfunktion .
Maximum Likelihood (ML)-Schätzer für Parameter.
Maximum A-Posteriori (MAP)-Schätzer für Parameter.
Lernen linearer ModelleProblemstellung
11
11 1
1 2 1 2
1
[ ] [ ]
n
n n
m mn
x x
y y y
x x
X x x x y
T( )f x x w
ML-Schätzer = minimieren einer Verlustfunktion:
MAP-Schätzer = minimieren einer regularisierten
Verlustfunktion:
Lernen linearer ModelleAnsatz
12
1
1
arg max ( , | ) arg max ( | , )
arg min ( ( ), )
n
ML i i
i
n
i i
i
p p y
l f y
w w
ww
w X y w x w
x
1
1
arg max ( | , ) arg max ( | , ) ( )
arg min ( ( ), ) ( )
n
MAP i i
i
n
i i
i
p p y p
l f y
w w
ww
w w X y x w w
x w
Binary loss:
Perceptron loss:
Hinge loss:
Logistic loss:
Lernen linearer ModelleVerlustfunktion für binäre Klassifikation yi {–1,+1}
13
0/1
1 ( ) 0( ( ), )
0 ( ) 0
i i
i i
i i
y fl f y
y f
w
w
w
xx
x
1 ( ) 1 ( ) 0( ( ), ) max(0,1 ( ))
0 1 ( ) 0
i i i i
h i i i i
i i
y f y fl f y y f
y f
w w
w w
w
x xx x
x
( ) ( ) 0( ( ), ) max(0, ( ))
0 ( ) 0
i i i i
p i i i i
i i
y f y fl f y y f
y f
w w
w w
w
x xx x
x
( )
log ( ( ), ) log(1 )i iy f
i il f y e
w x
w x
( ( ))i isign f yw x
( ( ))i isign f yw x
( )i iy fw x
l
0 1
1
1
Binary loss ist nicht konvex
schwer zu minimieren!
Absolute loss:
Squared loss:
-Insensitive loss:
Lernen linearer ModelleVerlustfunktion für Regression
14
( ( ), ) ( )a i i i il f y f y w wx x
( ) ( ) 0( ( ), ) max(0,| ( ) | )
0 ( ) 0
i i i i
i i i i
i i
f y f yl f y f y
f y
w w
w w
w
x xx x
x
2( ( ), ) ( )s i i i il f y f y w wx x
( )i if yw x
l
0 1
1
1
Idee: Entscheidung basierend auf so wenig wie
möglich Attributen treffen.
Wenig Einträge im Parametervektor (Gewichte) ungleich Null:
Geringe Manhatten-Norm:
Geringe (quadratische) euklidische Norm:
Lernen linearer ModelleRegularisierer
15
0 0( ) Anzahl 0jw w w 0 ist nicht konvex
schwer zu minimieren!
1 11
( )m
j
j
w
w w
2 2
2 21
( )m
j
j
w
w w
Ziel: Minimierung von empirischen Verlust +
Regularisierer:
Analytische Lösung (nur selten möglich).
Beispiel: Ridge Regression.
Numerische Lösung der primalen OA.
Beispiel: Perceptron.
Numerische Lösung der dualen OA.
Beispiel: duale Support Vector Machine (SVM).
Lernen linearer ModelleLösen der Minimierungsaufgabe
16
T
1
( ) ( , ) ( )n
i i
i
L l y
w x w w
Greedy-Suche (z.B. Abstiegsrichtung + Linesearch).
Lernen linearer ModelleNumerische Lösungsansätze
17
Startlösung
ww0w1
AbstiegsrichtungLL(w0)
L(w1)
Greedy-Suche (z.B. Abstiegsrichtung + Linesearch).
Gradientenabstieg (z.B. Newton-Verfahren).
Lernen linearer ModelleNumerische Lösungsansätze
18
Startlösung
ww0w1
Gradient
LL(w0)
L(w1)
Greedy-Suche (z.B. Abstiegsrichtung + Linesearch).
Gradientenabstieg (z.B. Newton-Verfahren).
Cutting-Plane-Verfahren.
Lernen linearer ModelleNumerische Lösungsansätze
19
Startlösung
ww0w1
Planes
LL(w0)
L(w1)
Greedy-Suche (z.B. Abstiegsrichtung + Linesearch).
Gradientenabstieg (z.B. Newton-Verfahren).
Cutting-Plane-Verfahren.
Innere-Punkt-Verfahren.
Lernen linearer ModelleNumerische Lösungsansätze
20
Startlösung
ww0w1
LL(w0)
L(w1)
Verlustfunktion:
Regularisierer:
Analytische Lösung:
Lernen linearer ModelleBeispiel: Ridge Regression (yi R)
21
2T( ( ), )s i i i il f y y w x x w
2
2
1
( )m
j
j
w
w
2 2T
1 1
2 2
2 2
T T
T T T T T
( )
( ) ( )
( ) 2
n m
i i j
i j
L y w
w x w
Xw y w
Xw y Xw y w w
w X X I w w X y y y
T T
T 1 T
( ) 2( ) 2 0
( )
L
w X X I w X y
w X X I X y
Quadratische OA ohne
Nebenbedingungen
Nach w ableiten und
Ableitung Null setzen
Verlustfunktion:
Regularisierer:
Numerische Lösung des primalen Problems:
Stochastischer Gradientenabstieg.
Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})
22
0
T T
T
0( ( ), )
0 0
i i i i
p i i
i i
y yl f y
y
w
x w x wx
x w
1
T
T
( ( ), )( )
( ( ), ) 0
0
np i i
i
p i i i i i i
i i
l f yL
l f y y y
y
w
w
xw
w
x x x w
w 0 x w
1
( ) ( ( ), ).n
p i i
i
L l f y
ww x
i-ter Stochastischer
Gradient
Gradient
Verlustfunktion:
Regularisierer:
Algorithmus (Gradientenabstieg):
Perceptron(Instanzen (xi, yi))
Setze w = 0
DO
WHILE w verändert
RETURN w
Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})
23
0
T T
T
0( ( ), )
0 0
i i i i
p i i
i i
y yl f y
y
w
x w x wx
x w
1
( ( ), )np i i
i
l f y
w xw w
w
Verlustfunktion:
Regularisierer:
Algorithmus (Stochastischer Gradientenabstieg):
Perceptron(Instanzen (xi, yi))
Setze w = 0
DO
FOR i = 1…n
WHILE w verändert
RETURN w
Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})
24
T T
T
0( ( ), )
0 0
i i i i
p i i
i i
y yl f y
y
w
x w x wx
x w
( ( ), )p i il f y
w xw w
w
0
Verlustfunktion:
Regularisierer:
Algorithmus (Stochastischer Gradientenabstieg):
Perceptron(Instanzen (xi, yi))
Setze w = 0
DO
FOR i = 1…n
WHILE w verändert
RETURN w
Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})
25
T T
T
0( ( ), )
0 0
i i i i
p i i
i i
y yl f y
y
w
x w x wx
x w
T
T
0
0 0
i i i i
i i
y y
y
x x ww w
x w
0
Verlustfunktion:
Regularisierer:
Algorithmus (Stochastischer Gradientenabstieg):
Perceptron(Instanzen (xi, yi))
Setze w = 0
DO
FOR i = 1…n
IF THEN
WHILE w verändert
RETURN w
Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})
26
T T
T
0( ( ), )
0 0
i i i i
p i i
i i
y yl f y
y
w
x w x wx
x w
i iy w w x
T 0i iy x w
0
Verlustfunktion:
Regularisierer:
Numerische Lösung des primalen Problems
bspw. mittels Subgradientenansatz, z.B. Pegasos.
Lösen der dualen (quadratischen) OA
bspw. mittels QP-Solver, z.B. QuadProg.
Lernen linearer ModelleBeispiel: Support Vector Machine (yi {–1,+1})
27
T T
T
1 1 0( ( ), )
0 1 0
i i i i
h i i
i i
y yl f y
y
w
x w x wx
x w2
2
1
1( )
2
m
j
j
w
w
2T
1 1
1( ) mit 1 , 0
2
n m
i j i i i i
i j
L w y
w x w
T T T T( ) mit 0, 0 i iL y α α X Xα y α 1 α
Gegegeben:
Konvexe, ableitbare Verlustfunktion l mit Ableitung .
Konvexer, ableitbarer Regularisierer mit Ableitung .
Algorithmus (Gradientenabstieg mit dyn. Schrittweite):
RegERM(Instanzen (xi, yi))
Setze k = 0, 0 = 1, w0 = 0
DO
IF k > 0 THEN
WHILE
RETURN wk
Lernen linearer ModelleAllgemein: Regularized Empirical Risk Minimization
28
1
1
k k k k
k k
w w g
T
1
( , ) ( )n
k k k
i i i
i
l y
g x w x w
T1 1 1 1 T 1( ) (( ) )k k k k k k k g g g g g
1k k w w
Barzilai-Borwein-
Verfahren
( , )l z yl
z
Lineare Modelle geeignet für sehr große
Klassifikations- & Regressionsprobleme.
Besonders geeignet für numerische, (nahezu) linear
separierbare Daten.
Lernen von linearen Modellen:
Analytisch (z.B. Ridge Regression).
Numerisch bspw. durch Gradientenabstieg (z.B. primale SVM).
Gefundene Lösung global optimal für konvexe
Verlustfunktion & Regularisierer.
Zusammenfassung
29