29
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Lineare Modelle

INTELLIGENTE DATENANALYSE IN MATLAB

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

INTELLIGENTE DATENANALYSE

IN MATLAB

Überwachtes Lernen: Lineare Modelle

Schritte der Datenanalyse:

Überblick

2

Aggregation und

Selektion von

Daten.

Integration und

Säuberung der

Daten.

Feature-

Extraktion.

Modell-Selektion

& -Anpassung.

Training &

Evaluation des

Modells auf

gegebenen Daten.

Vorhersage für

neue Daten.

Daten-

vorverarbeitung

Anwendung

der LösungProblemanalyse

Bestimmen von

gegeb./gesuchten

Größen.

Wahl des

Performanzmaß/

Zielkriteriums.

Modellraum und

Modellannahmen.

Algorithmen für

das Optimieren

des Zielkriteriums

finden.

Implementieren

der Algorithmen.

Problemlösung

Gegeben: Trainingsdaten mit bekannten Zielattributen

(gelabelte Daten).

Eingabe: Instanz (Objekt, Beispiel, Datenpunkt,

Merkmalsvektor) = Vektor mit Attribut-Belegungen.

Ausgabe: Belegung des/der Zielattribut(e).

Klassifikation: Nominaler Wertebereich des Zielattributs.

Ordinale Regression: Ordinaler Wertebereich des Zielattributs.

Regression: Numerischer Wertebereich des Zielattributs.

Gesucht: Modell .

Überwachtes LernenProblemstellung

3

:f yx

Entscheidungsbäume/Regelsysteme:

Klassifikations-, Regressions-, Modellbaum.

Lineare Modelle:

Trennebenen, Regressionsgerade.

Nicht-lineare Modelle, linear in den Parametern:

Nicht-lineare Datentransformation + lineares Modell.

Kernel-Modell.

Probabilistisches Modell.

Nicht-lineare Modelle, nicht-linear in den Parametern:

Neuronales Netz.

Überwachtes LernenArten von Modellen

4

Instanzen (Vektoren mit m Einträgen) liegen im

m-dimensionalen Eingaberaum.

Dieser wird in durch Trenngerade (Hyperebene Hw)

halbiert.

Lineare ModelleLineare Modelle für Klassifikation

5

ja nein

x2

x1

Hw +

-

Instanzen (Vektoren mit m Einträgen) liegen im

m-dimensionalen Eingaberaum.

Dieser wird in durch Trenngerade (Hyperebene Hw)

halbiert.

Lineare ModelleLineare Modelle für Klassifikation

6

x2

x1

Hw

ID x1 x2 y

1 0,9 3,0 +

2 3,0 4,1 +

3 1,2 0,3 -

Hyperebene Hw ist durch Normalenvektor w und

Verschiebung w0 gegeben:

Entscheidungsfunktion:

Lineare ModelleLineare Modelle für Klassifikation

7

x2

Hw

( ) ( ( ))y sign fx x

wz ( )f z

w

0w

w

x1

T

0{ | ( ) 0}H f w w x x x w

Normalenvektor w

Zu klassifizierender Punkt z

Zielfunktionswert f(z)

Verschiebung w0

Umformulierung mit zusätzlichem, konstanten

Eingabeattribut x0=1:

Lineare ModelleLineare Modelle für Klassifikation

8

0

1

1

2T

0 0 1 2 1 2 2( ) [ ] [1 ]m m

m

m

ww

ww

f w w x x x x x x w

ww

x x w

Erweiterte Instanzx2

Hw

x1

x0

Aus Hyperebene im m-dimensionalen

Eingaberaum wird Hyperebene im

(m+1)-dimensionalen Eingaberaum.

Abstand zur Regressionsgerade (Hyperebene Hw)

liefert numerischen Wert.

Entscheidungsfunktion:

Lineare ModelleLineare Modelle für Regression

9

x2

x1

Hw

( ) 0f x

( ) 1f x

( ) 2f x

( ) 1f x

( ) ( )y fx x

ID x1 x2 y

1 0,9 3,0 0,5

2 3,0 4,1 2,5

3 1,2 0,3 -1,0

Für kleine bis sehr große Klassifikations- &

Regressionsprobleme.

Falls unverrauschte Daten linear separierbar.

Falls Interpretierbarkeit der Entscheidung nicht

notwendig.

Für Daten mit überwiegend numerischen Attributen.

Falls schnelles & einfaches Verfahren gewünscht.

Lineare Modelle Besonders geeignet …

10

Gegeben: n Trainingsinstanzen xi mit Zielattribut yi.

Gesucht: Parametervektor w der Klassifikations-/

Regressionsfunktion .

Maximum Likelihood (ML)-Schätzer für Parameter.

Maximum A-Posteriori (MAP)-Schätzer für Parameter.

Lernen linearer ModelleProblemstellung

11

11 1

1 2 1 2

1

[ ] [ ]

n

n n

m mn

x x

y y y

x x

X x x x y

T( )f x x w

ML-Schätzer = minimieren einer Verlustfunktion:

MAP-Schätzer = minimieren einer regularisierten

Verlustfunktion:

Lernen linearer ModelleAnsatz

12

1

1

arg max ( , | ) arg max ( | , )

arg min ( ( ), )

n

ML i i

i

n

i i

i

p p y

l f y

w w

ww

w X y w x w

x

1

1

arg max ( | , ) arg max ( | , ) ( )

arg min ( ( ), ) ( )

n

MAP i i

i

n

i i

i

p p y p

l f y

w w

ww

w w X y x w w

x w

Binary loss:

Perceptron loss:

Hinge loss:

Logistic loss:

Lernen linearer ModelleVerlustfunktion für binäre Klassifikation yi {–1,+1}

13

0/1

1 ( ) 0( ( ), )

0 ( ) 0

i i

i i

i i

y fl f y

y f

w

w

w

xx

x

1 ( ) 1 ( ) 0( ( ), ) max(0,1 ( ))

0 1 ( ) 0

i i i i

h i i i i

i i

y f y fl f y y f

y f

w w

w w

w

x xx x

x

( ) ( ) 0( ( ), ) max(0, ( ))

0 ( ) 0

i i i i

p i i i i

i i

y f y fl f y y f

y f

w w

w w

w

x xx x

x

( )

log ( ( ), ) log(1 )i iy f

i il f y e

w x

w x

( ( ))i isign f yw x

( ( ))i isign f yw x

( )i iy fw x

l

0 1

1

1

Binary loss ist nicht konvex

schwer zu minimieren!

Absolute loss:

Squared loss:

-Insensitive loss:

Lernen linearer ModelleVerlustfunktion für Regression

14

( ( ), ) ( )a i i i il f y f y w wx x

( ) ( ) 0( ( ), ) max(0,| ( ) | )

0 ( ) 0

i i i i

i i i i

i i

f y f yl f y f y

f y

w w

w w

w

x xx x

x

2( ( ), ) ( )s i i i il f y f y w wx x

( )i if yw x

l

0 1

1

1

Idee: Entscheidung basierend auf so wenig wie

möglich Attributen treffen.

Wenig Einträge im Parametervektor (Gewichte) ungleich Null:

Geringe Manhatten-Norm:

Geringe (quadratische) euklidische Norm:

Lernen linearer ModelleRegularisierer

15

0 0( ) Anzahl 0jw w w 0 ist nicht konvex

schwer zu minimieren!

1 11

( )m

j

j

w

w w

2 2

2 21

( )m

j

j

w

w w

Ziel: Minimierung von empirischen Verlust +

Regularisierer:

Analytische Lösung (nur selten möglich).

Beispiel: Ridge Regression.

Numerische Lösung der primalen OA.

Beispiel: Perceptron.

Numerische Lösung der dualen OA.

Beispiel: duale Support Vector Machine (SVM).

Lernen linearer ModelleLösen der Minimierungsaufgabe

16

T

1

( ) ( , ) ( )n

i i

i

L l y

w x w w

Greedy-Suche (z.B. Abstiegsrichtung + Linesearch).

Lernen linearer ModelleNumerische Lösungsansätze

17

Startlösung

ww0w1

AbstiegsrichtungLL(w0)

L(w1)

Greedy-Suche (z.B. Abstiegsrichtung + Linesearch).

Gradientenabstieg (z.B. Newton-Verfahren).

Lernen linearer ModelleNumerische Lösungsansätze

18

Startlösung

ww0w1

Gradient

LL(w0)

L(w1)

Greedy-Suche (z.B. Abstiegsrichtung + Linesearch).

Gradientenabstieg (z.B. Newton-Verfahren).

Cutting-Plane-Verfahren.

Lernen linearer ModelleNumerische Lösungsansätze

19

Startlösung

ww0w1

Planes

LL(w0)

L(w1)

Greedy-Suche (z.B. Abstiegsrichtung + Linesearch).

Gradientenabstieg (z.B. Newton-Verfahren).

Cutting-Plane-Verfahren.

Innere-Punkt-Verfahren.

Lernen linearer ModelleNumerische Lösungsansätze

20

Startlösung

ww0w1

LL(w0)

L(w1)

Verlustfunktion:

Regularisierer:

Analytische Lösung:

Lernen linearer ModelleBeispiel: Ridge Regression (yi R)

21

2T( ( ), )s i i i il f y y w x x w

2

2

1

( )m

j

j

w

w

2 2T

1 1

2 2

2 2

T T

T T T T T

( )

( ) ( )

( ) 2

n m

i i j

i j

L y w

w x w

Xw y w

Xw y Xw y w w

w X X I w w X y y y

T T

T 1 T

( ) 2( ) 2 0

( )

L

w X X I w X y

w X X I X y

Quadratische OA ohne

Nebenbedingungen

Nach w ableiten und

Ableitung Null setzen

Verlustfunktion:

Regularisierer:

Numerische Lösung des primalen Problems:

Stochastischer Gradientenabstieg.

Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})

22

0

T T

T

0( ( ), )

0 0

i i i i

p i i

i i

y yl f y

y

w

x w x wx

x w

1

T

T

( ( ), )( )

( ( ), ) 0

0

np i i

i

p i i i i i i

i i

l f yL

l f y y y

y

w

w

xw

w

x x x w

w 0 x w

1

( ) ( ( ), ).n

p i i

i

L l f y

ww x

i-ter Stochastischer

Gradient

Gradient

Verlustfunktion:

Regularisierer:

Algorithmus (Gradientenabstieg):

Perceptron(Instanzen (xi, yi))

Setze w = 0

DO

WHILE w verändert

RETURN w

Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})

23

0

T T

T

0( ( ), )

0 0

i i i i

p i i

i i

y yl f y

y

w

x w x wx

x w

1

( ( ), )np i i

i

l f y

w xw w

w

Verlustfunktion:

Regularisierer:

Algorithmus (Stochastischer Gradientenabstieg):

Perceptron(Instanzen (xi, yi))

Setze w = 0

DO

FOR i = 1…n

WHILE w verändert

RETURN w

Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})

24

T T

T

0( ( ), )

0 0

i i i i

p i i

i i

y yl f y

y

w

x w x wx

x w

( ( ), )p i il f y

w xw w

w

0

Verlustfunktion:

Regularisierer:

Algorithmus (Stochastischer Gradientenabstieg):

Perceptron(Instanzen (xi, yi))

Setze w = 0

DO

FOR i = 1…n

WHILE w verändert

RETURN w

Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})

25

T T

T

0( ( ), )

0 0

i i i i

p i i

i i

y yl f y

y

w

x w x wx

x w

T

T

0

0 0

i i i i

i i

y y

y

x x ww w

x w

0

Verlustfunktion:

Regularisierer:

Algorithmus (Stochastischer Gradientenabstieg):

Perceptron(Instanzen (xi, yi))

Setze w = 0

DO

FOR i = 1…n

IF THEN

WHILE w verändert

RETURN w

Lernen linearer ModelleBeispiel: Perceptron (yi {–1,+1})

26

T T

T

0( ( ), )

0 0

i i i i

p i i

i i

y yl f y

y

w

x w x wx

x w

i iy w w x

T 0i iy x w

0

Verlustfunktion:

Regularisierer:

Numerische Lösung des primalen Problems

bspw. mittels Subgradientenansatz, z.B. Pegasos.

Lösen der dualen (quadratischen) OA

bspw. mittels QP-Solver, z.B. QuadProg.

Lernen linearer ModelleBeispiel: Support Vector Machine (yi {–1,+1})

27

T T

T

1 1 0( ( ), )

0 1 0

i i i i

h i i

i i

y yl f y

y

w

x w x wx

x w2

2

1

1( )

2

m

j

j

w

w

2T

1 1

1( ) mit 1 , 0

2

n m

i j i i i i

i j

L w y

w x w

T T T T( ) mit 0, 0 i iL y α α X Xα y α 1 α

Gegegeben:

Konvexe, ableitbare Verlustfunktion l mit Ableitung .

Konvexer, ableitbarer Regularisierer mit Ableitung .

Algorithmus (Gradientenabstieg mit dyn. Schrittweite):

RegERM(Instanzen (xi, yi))

Setze k = 0, 0 = 1, w0 = 0

DO

IF k > 0 THEN

WHILE

RETURN wk

Lernen linearer ModelleAllgemein: Regularized Empirical Risk Minimization

28

1

1

k k k k

k k

w w g

T

1

( , ) ( )n

k k k

i i i

i

l y

g x w x w

T1 1 1 1 T 1( ) (( ) )k k k k k k k g g g g g

1k k w w

Barzilai-Borwein-

Verfahren

( , )l z yl

z

Lineare Modelle geeignet für sehr große

Klassifikations- & Regressionsprobleme.

Besonders geeignet für numerische, (nahezu) linear

separierbare Daten.

Lernen von linearen Modellen:

Analytisch (z.B. Ridge Regression).

Numerisch bspw. durch Gradientenabstieg (z.B. primale SVM).

Gefundene Lösung global optimal für konvexe

Verlustfunktion & Regularisierer.

Zusammenfassung

29