39
Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Nicolas Schilling Information Systems and Machine Learning Lab (ISMLL) Institute of Computer Science University of Hildesheim, Germany 20.06.2017 Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany 20.06.2017 1 / 35

Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

  • Upload
    others

  • View
    28

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen

Automatisierte Hyperparameter Optimierung imMaschinellen Lernen

Nicolas Schilling

Information Systems and Machine Learning Lab (ISMLL)Institute of Computer Science

University of Hildesheim, Germany

20.06.2017

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 1 / 35

Page 2: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen

Outline

Einfuhrung in Maschinelles Lernen

Hyperparameter Optimierung im Maschinellen Lernen

Automatisierte Hyperparameter Optimierung

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 1 / 35

Page 3: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Outline

Einfuhrung in Maschinelles Lernen

Hyperparameter Optimierung im Maschinellen Lernen

Automatisierte Hyperparameter Optimierung

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 2 / 35

Page 4: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Ziel des Maschinellen Lernens

Ziel im maschinellen Lernen ist es, aus gegebenen Inputs einen odermehrere Outputs vorherzusagen, zum Beispiel

I anhand der Worter in einer Mail bestimmen, ob es Spam ist

I erkennen, ob und wo auf einem Bild ein Objekt zu sehen ist

I aus Gesprochenem bestimmen, welche Worter gesagt wurden

I vorherzusagen, welche Gegenstande fur den Kunden eines Web-Shopsinteressant sind

I und viele mehr

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 2 / 35

Page 5: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Maschinelles Lernen

Das Ziel ist also eine Abbildung/Modell f zu lernen welches zu gegebenemInput x

I einen Output y vorhersagt, so dass

f (x) ≈ y

I fur das Lernen werden Trainingsdaten benotigt

D = {(x1, y1), ..., (xn, yn)}

I das gelernte Modell wird auf Testdaten evaluiert, die unterschiedlichzu den Trainingsdaten sind.

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 3 / 35

Page 6: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Fehlerfunktionen

Wann ist ein gelerntes Modell ein gutes Modell?

I wenn es die Trainingsdaten akkurat vorhersagen kann

I also wenn der Fehler in der Vorhersage gering wird

I Als Fehlerfunktion wird beispielsweise der quadratische Fehler genutzt

L(f ,D) =∑

(x ,y)∈D

(y − f (x))2

I das Ziel ist es ein Modell f zu finden welches den Fehler minimiert

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 4 / 35

Page 7: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Beispiel: Lineare RegressionDas Vorhersagemodell fur p verschiedene Input Variablen wird definiert als

f (x ; θ) = θ0 +

p∑i=1

θixi

= θ0 + θ1x1 + ...+ θpxp

Ein lineares Regressionsmodell wird dann komplett durch seine Parameterθ bestimmt.

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 5 / 35

Page 8: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Lernen des Modells

Gesucht werden dann die Parameter θ? die den Fehler minimieren

θ? = arg minθ

∑(x ,y)∈D

(y − f (x ; θ))2

Ublicherweise werden die Parameter regularisiert, um eine Uberanpassungan die Trainingsdaten zu vermeiden

θ? = arg minθ

∑(x ,y)∈D

(y − f (x ; θ))2 + λ‖θ‖2

Dafur muss jedoch der richtige Tradeoff λ erst gefunden werden!

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 6 / 35

Page 9: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

UberanpassungWird ein Modell nicht entsprechend regularisiert:

I kann es sich den Trainingsdaten uberanpassenI die Fahigkeit zu generalisieren verschwindetI die Performance auf den Testdaten ist schlecht

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 7 / 35

Page 10: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Lernen des Modells

Ublicherweise werden die Parameter zufallig initialisiert und dann miteinem Gradientenabstieg gelernt:

I der Gradient des Trainingsfehlers zeigt in die Richtung des starkstenAnstiegs

I also folgen wir der entgegengesetzten (negativen) Richtung

I die Parameter werden aktualisiert:

θneui = θalt

i − α∂L∂θi

I die Schrittweite α bestimmt wie lange wir dem negativen Gradientenfolgen

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 8 / 35

Page 11: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Einfluss der Schrittweite

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 9 / 35

Page 12: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Einfluss der Schrittweite

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 10 / 35

Page 13: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Empfehlungssysteme im E-Commerce

Ziel ist es, zu einem Item/Nutzer Input das Rating vorherzusagen, dazusind Daten gegeben:

Nutzer Matrix Toy Story 3 Titanic

Tim 5 3 -

Lara 2 - 1

Lucas 1 5 3

Sarah 1 - 5

Wie kann ein Modell aussehen, welches die Bewertungen vorhersagt?

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 11 / 35

Page 14: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Empfehlungssysteme im E-Commerce

Lineare Regression funktioniert nicht, da keine aussagekraftigen Featuresvorhanden sind

f (x) = θ0 + θNutzer + θFilm

I erstelle Features/Merkmale fur jeden Nutzer und Film

I beispielsweise wie sehr ein Nutzer ein gewisses Genre mag

I oder wie sehr ein Film einem Genre entspricht

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 12 / 35

Page 15: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Empfehlungssysteme im E-CommerceEs seien Merkmale pi gegeben wie sehr der Film i einem von drei Genresangehort. Fur die Genres Action, Comedy und Romance und fur den FilmToy Story 3 beispielsweise:

pi =(0.7 0.8 0.1

)Dazu kennen Sie die Kundeninteressen qu fur den u-ten Kunden:

qu =(0.3 1 0.4

)Dann konnte eine Vorhersage aussehen:

f (i , u) = p>i qu

= pi ,1qu,1 + pi ,2qu,2 + pi ,3qu,3

= 0.7 · 0.3 + 0.8 · 1 + 0.1 · 0.4= 1.05

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 13 / 35

Page 16: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Empfehlungssysteme im E-Commerce

Wo ist der Haken an dem Modell?

I jeder Film muss aufwandig “einsortiert” werden.

I wie sehr ein Film dem Genre Comedy entspricht liegt im Auge desBetrachters

I jeder Nutzer musste eingeben, welche Genres er wie sehr mag

I wieviele Genres sollten genommen werden?

Die Losung ist nicht praktikabel! Allerdings kann so ein Modell und dieFeatures direkt gelernt werden!

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 14 / 35

Page 17: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen

Empfehlungssysteme: Faktorisierungsmodelle

Das Rating von Nutzer u fur Item i wird als Faktorisierung modelliert:

r(u, i) = q>u pi

I qu ∈ RK beschreibt latente Features fur den Nutzer u

I pi ∈ RK beschreibt latente Features fur das Item i

I Interaktion der beiden Vektoren (Skalarprodukt) beschreibt das Rating

I alle Parameter werden aus den Daten gelernt

Welche Dimensionalitat K ist sinnvoll?

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 15 / 35

Page 18: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung im MaschinellenLernen

Outline

Einfuhrung in Maschinelles Lernen

Hyperparameter Optimierung im Maschinellen Lernen

Automatisierte Hyperparameter Optimierung

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 16 / 35

Page 19: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung im MaschinellenLernen

Hyperparameter im Maschinellen Lernen

Parameter die von Hand gesetzt werden mussen und nicht von Datengelernt werden heißen Hyperparameter. Sie tauchen uberall imMaschinellen Lernen auf

I Regularisierung/Komplexitat des Modells

I Lernalgorithmus

I Auswahl der Fehlerfunktion

I Auswahl des Modells an sich

I Vorverarbeitung der Daten

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 16 / 35

Page 20: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung im MaschinellenLernen

Hyperparameter Optimierung

Fur Daten D, Fehlerfunktion L und Lernalgorithmus A, finde dieHyperparameter Konfiguration λ? ∈ Λ so dass:

λ? := arg minλ∈Λ

L(Aλ(Dtrain),Dval) := arg minλ∈Λ

b(λ,D) .

I suchen die Konfiguration, die auf den Validierungsdaten die bestePerformance zeigt

I wir schreiben die Black Box Funktion kurz b(λ,D)

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 17 / 35

Page 21: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung im MaschinellenLernen

Grid Suche

Grid Suche ist eine primitive Form der Suche

I fur jeden Hyperparameter, definiere eine Menge von Konfigurationenz.B. fur die Schrittweite α

{0.1 , 0.001 , 0.0001 , 0.00001}

I lerne das Modell unter jeglicher moglichen HyperparameterKombination

I nehme das Modell welches den geringsten Fehler auf denValidierungsdaten hat

I Problem: Die Anzahl an Auswertungen wachst exponenziell mit derAnzahl an Hyperparametern

I immer komplexere Modelle benotigen immer mehr Rechenzeit

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 18 / 35

Page 22: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Outline

Einfuhrung in Maschinelles Lernen

Hyperparameter Optimierung im Maschinellen Lernen

Automatisierte Hyperparameter Optimierung

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 19 / 35

Page 23: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Sequential Model Based Optimization

Optimierung der Validierungsperformance ist kostspielig, daher

I lerne ein sogenanntes Surrogatmodell auf den bekanntenObservationen sodass Ψ ≈ b

I nutze das Surrogatmodell um Regionen zu finden in denen dieHyperparameter gut funktionieren

I evaluiere die Black Box (lerne das Modell zu der HyperparameterKonfiguration)

I wiederhole den Prozess, bis b optimiert ist oder das Budget ausgeht

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 19 / 35

Page 24: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Sequential Model Based Optimization

Angenommen, ein Surrogat Modell ist schon gelernt:

I Wie wird der nachste Punkt ausgewahlt?

I Punkt mit maximaler Performance?=⇒ Exploitation

I Punkt mit maximaler Unsicherheit?=⇒ Exploration

I Einen guten Tradeoff bietet das Expected Improvement

EI (λ) =

∫ ∞

0I P(I |Ψ, λbest) dI

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 20 / 35

Page 25: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

SMBO Beispiel

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

ObjectivePredicted MeanPrediction UncertaintyExpected ImprovementObserved Points●

ObjectivePredicted MeanPrediction UncertaintyExpected ImprovementObserved Points

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 21 / 35

Page 26: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

SMBO Beispiel

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

ObjectivePredicted MeanPrediction UncertaintyExpected ImprovementObserved Points●

ObjectivePredicted MeanPrediction UncertaintyExpected ImprovementObserved Points

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 22 / 35

Page 27: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

SMBO Beispiel

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

ObjectivePredicted MeanPrediction UncertaintyExpected ImprovementObserved Points●

ObjectivePredicted MeanPrediction UncertaintyExpected ImprovementObserved Points

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 23 / 35

Page 28: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

SMBO Beispiel

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

●●

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

ObjectivePredicted MeanPrediction UncertaintyExpected ImprovementObserved Points●

ObjectivePredicted MeanPrediction UncertaintyExpected ImprovementObserved Points

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 24 / 35

Page 29: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Hyperparameter Optimierung uber Datensatze

I Ublicherweise wird die Hyperparameter Optimierung fur jedenDatensatz neu gemacht

I Grid Suche funktioniert wenn der Suchraum durch Erfahrung schoneingeschrankt werden kann

I diese Erfahrung macht man typischerweise beim Optimieren derHyperparameter fur andere Datensatze

I konnen wir das nicht auch automatisieren, indem wir vergangeneErgebnisse auf anderen Datensatzen in das Surrogatmodellintegrieren?

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 25 / 35

Page 30: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Hinzunahme der Datensatzinformation

I Datensatz Ids konnen beispielsweise uber eine binare IndikatorVariable eingefugt werden

I leicht und intuitiv

I ein normales Regressionsmodell lernt wieder nur einen Bias

I Datensatzcharakteristiken konnen berechnet werden, beispielsweisedie Anzahl der Features, Instanzen usw.

I hohere Ausdrucksstarke

I aufwendig zu berechnen

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 26 / 35

Page 31: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Meta Surrogatmodelle - Anforderungen

I Nichtlinearitat: Validierungsperformance in Abhangigkeit derHyperparameter ist nichtlinear

I Ein Multilayer Perceptron kann gut mit Nichtlinearitat umgehen

I Kategorische Features: Das Surrogatmodell sollte mehr als einenBias aus kategorischen features lernen

I Faktorisierungsmodelle funktionieren gut in diesem Szenario

I Latente Features konnen als gelernte Meta-Features verstanden werden

=⇒ Kombination aus Multilayer Perceptrons undFaktorisierungsmodellen?

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 27 / 35

Page 32: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Unsere Herangehensweise: Factorized MultilayerPerceptronsWir nutzen ein neues Surrogatmodell:

I der erste Layer hat eine Faktorisierungsmaschine als Signalfunktion(normalerweise nur eine lineare Summe)

zk = σ(w0,k +

n∑i=1

wi ,kxi +1

2

n∑i=1

n∑j=i+1

〈vi ,k , vj ,k〉xixj)

I vi ,k sind latente Features fur Input i und Output k

I Interaktionen von Hyperparametern und Datensatzen kann somodelliert werden

I das Modell bietet ausreichend Komplexitat um nichtlineareVorhersagen zu treffen

I kann mittels Backpropagation gelernt werden

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 28 / 35

Page 33: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Erstellung der Meta Daten

Wir haben fur zwei bekannte Modelle: LibSVM und AdaBoost dieValidierungsperformance fur 25 Datensatze durch eine Grid Sucheberechnet.

AdaBoost

I Anzahl an Iterationen I

I Anzahl der Produktterme M

⇒ Insgesamt 108 Observationenpro Datensatz

LibSVM

I Wahl des Kernels

I Tradeoff Parameter C

I Kernel Breite γ, Kernel Grad d

⇒ Insgesamt 288 Observationen proDatensatz

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 29 / 35

Page 34: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Evaluationsmetriken

Alle Experimente werden im leave-one-out Scheme uber alle 25 Datensatzeausgefuhrt

I Average Rank: Durchschnittlicher Rang aller zu vergleichendenMethoden

I Average Hyperparameter Rank: Durschnittlicher Rang der bestenHyperparameter Konfiguration die bisher gefunden wurde

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 30 / 35

Page 35: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

SMBO: Konkurrierende Surrogatmodelle

I Random Search (Bergstra and Bengio)

I Independent Gaussian Process (Snoek et al.)

I SMAC++ (Random Forest Surrogate) (Hutter et al.)

I SCoT (SVM Rank + Gaussian Process) (Bardenet et al.)

I MKL-GP (Gaussian Process with Kernel also modelling data setdistances) (Yogatama and Mann)

I Multilayer Perceptron

I Factorized Multilayer Perceptron

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 31 / 35

Page 36: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Average Rank

Optimal

FMLP

Random

SMAC++

SCoT

2

4

6

0 30 60 90Number of Trials

Ave

rage

Ran

k

RandomI−GPSMAC++SCoT

MKL−GPMLPFMLPOptimal

AdaBoost

Optimal

FMLP

Random

SMAC++

SCoT

2

4

6

0 50 100 150Number of Trials

Ave

rage

Ran

k

SVM

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 32 / 35

Page 37: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Average Hyperparameter Rank

MKL−GP

SCoT

FMLP0

10

20

30

40

0 10 20 30 40 50Number of Trials

Ave

rage

Hyp

erpa

ram

eter

Ran

k

RandomI−GPSMAC++SCoT

MKL−GPMLPFMLP

AdaBoost

MKL−GP

SMAC++

FMLP

0

25

50

75

100

0 10 20 30 40 50Number of Trials

Ave

rage

Hyp

erpa

ram

eter

Ran

k

RandomI−GPSMAC++SCoT

MKL−GPMLPFMLP

SVM

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 33 / 35

Page 38: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Zusammenfassung

I Hyperparameter Optimierung ist ein allgegenwartiges Problem imMaschinellen Lernen

I automatische Hyperparameter Optimierung ist mit Hilfe vonMeta-Wissen moglich

I Auch die Wahl des Vorhersagemodells kann teilautomatisiert werden

I fur mehr Informationen: www.hylap.org

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 34 / 35

Page 39: Automatisierte Hyperparameter Optimierung im Maschinellen ... · Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einfuhrung in Maschinelles Lernen Ziel des Maschinellen

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte HyperparameterOptimierung

Vielen Dank fur die Aufmerksamkeit

Kontakt: Nicolas SchillingMail: [email protected]

The authors gratefully acknowledge the co-funding of their work by the GermanResearch Foundation (DFG) under grant SCHM 2583/6-1.

Nicolas Schilling, Information Systems and Machine Learning Lab (ISMLL), University of Hildesheim, Germany

20.06.2017 35 / 35