Exploiting Random Walks for Learning Algorithmisches Lernen WS 2001/02 Referent: Fabian Wleklinski ([email protected])[email protected]

Exploiting Random Walksfor Learning

„Algorithmisches Lernen“WS 2001/02

Referent: Fabian Wleklinski ([email protected])

19. Februar 2002 Exploiting Random Walks for Learning 2

Motivation Peter L. Bartlett, Paul Fischer,

Klaus-Uwe Höffgen: Exploiting Random Walks for Learning

Fischer; Höffgen: Informatik II, Dortmund

(Prof. Dr. Ingo Wegener) http://ls2-www.cs.uni-dortmund.de/

Algorithmen ermitteln einige Konzeptklassen als erste: RSE boolean Treshold 2-term DNF


Gliederung1. Algorithmisches Lernen

2. PAC-Lernen

3. Hypercube-Irrfahrten

4. Mistake Bound Model

5. Bsp: Schwellwertfunktionen

6. Prob. mistake Bound Model

7. Bounded Mistake Rate Model

8. Modell-Vergleiche

9. Zusammenfassung & Ausblick

10.Literatur


Algorithmisches Lernen

deterministischer Lernalgorithmus A Abbildung von der Menge aller kategorisierten

Beispielfolgen auf die Menge aller Hypothesen


Algorithmisches Lernen Einige Algorithmen haben -Parameter „Performance-Parameter“ [0,1] reguliert die „Leistung“ des Algorithmus

(Korrektheit der Hypothese) polynomialzeit-Algorithmus darf abhängig

von 1/ mehr Zeit benötigen


Algorithmisches Lernen Lernalgorithmus ist zeitpolynomiell, wenn Rechenzeit für eine Vorhersage polynomiell ist1. zur Größe der Beispiele

und

2. ggf. zum Kehrwert des Performance-Parameters


Algorithmisches Lernen sam()-Funktion Eingabe

unendlich lange Beispielfolge x Länge t Konzept f

Ausgabe Beispielfolge

der Länge t,Klassifizierungen

1 1 2 2

1 2

sam , , , , , , ,

, , :

t t t

i n

x f x f x x f x x f x

x x x i x X x

Beispiele x1 bis xt

Klassifizierungen f(x1) bis f(xt)



2. PAC-Lernen








10.Literatur


PAC-Lernen Eingabe: Vertrauensparameter , Fehlerparameter , Beispiellänge n

Ermittle Anzahlanzufordernder Beispiele s := s(, , n)

Wiederhole s mal: Fordere Beispiel an: (Wert,Klassifikation)

Bestimme Hypothese h

Klassifikation=1 Wert ist im zu

lernenden Konept


PAC-Lernen Genauer: Fehler soll mit großer

Wahrscheinlichkeit klein sein: WsD[ fehlerD(c,hc) ] 1- c zu erlernendes Konzept hc erlernte Hypothese

fehlerD Abweichung zwischen c und hc

D Verteilung auf n


PAC-Lernen (effizientes) Lernen von DNFs? Allgemein nicht möglich! Aber möglich unter bestimmten

Einschränkungen: Membership-Queries uniforme Verteilungen Begrenzung für Anzahl der

Terme/Disjunktionen Begrenzung für Anzahl der

Attribute/Konjunktionen ...


PAC-Lernen Viele Erweiterungen des PAC-Modells Aldous und Vazirani:

A Markovian extension of Valiant’s learning model Freund: Efficient learning of typical finite automata

from random walks Lernen von Irrfahrt-DFAs ohne Membership-Queries

Nachteile des PAC-Modells? Beispiele müssen unabhängig gezogen werden!

aber in der Praxis oft Zusammenhänge zwischen aufeinanderfolgenden Beispielen!

z.B. Flugbahn eines Flugkörpers „Hypercube-Irrfahrten“!



2. PAC-Lernen








10.Literatur


Hypercube-Irrfahrten

Engl: „Random Walks“ P. Bartlett, P. Fischer, K. Höffgen: Exploiting

Random Walks for Learning Proceedings of the 7th ACM conference on

computational learning theory, 1994, pp. 318-327 Was ist eine „Hypercube-Irrfahrt“? ... folgt!


Hypercube-Irrfahrten n-dimens. Würfel 2n Ecken Im Beispiel: n=3

Wandern auf den Kanten

Aufeinanderfolgende Beispiele: maximal ein Bit kippt Hamming-Abstand 1

Entspricht z.B. div. physikalischen Prozessen

(0,1,0)

(0,0,0) (1,0,0)

(1,1,0)

(0,1,1)

(0,0,1)(1,0,1)

(1,1,1)



(0,1,0)

(0,0,0) (1,0,0)

(1,1,0)

(0,1,1)

(0,0,1)(1,0,1)

(1,1,1) Bartlett, Fischer, Höffgen: Mächtigkeit dieser

Zusatzinformationen? DFAs lernbar? RSEs lernbar? Schwellwertfunktionen

lernbar?



11 1

1falls ham , 1

| , , 10 sonst

tt t

v xWs x v x x n

Formale Beschreibung einer Irrfahrt bestimmte Übergänge sind „unmöglich“: Ws=0! wir betrachten nur uniforme Irrfahrten!

d.h. jeder mögliche Übergang ist gleichwahrscheinlich!



2. PAC-Lernen








10.Literatur


Mistake Bound Model Mistake Bound Model Algorithmus A soll für alle Beispielfolgen

und alle Konzepte maximal N Fehler machen.


Mistake Bound Model

Mistake-Indicator-Function M Eingabe

Lernalgorithmus A, Konzept f, Beispielfolge x, Performance-Parameter , Länge t

Ausgabe 1 wenn A das t-te Beispiel falsch klassifiziert

(nach Verarbeitung von t-1 Beispielen)

1,

1 2

1 wenn A ,sam ,,

0 sonst

, ,

t t ttA f

n

x f x f xM x

x x x X f F


Mistake Bound Model

Fehleranzahl-Funktion Eingabe

Lernalgorithmus A, Konzept f, Beispielfolge x

Ausgabe Anzahl der fehlerhaften

Arbeitshypothesen (Sofern die Summe

konvergiert...)

, ,1

tA f A f

t

N x M x

Hier ist wieder die Mistake-Indicator-

Function!


Mistake Bound Model

, , ,ˆ maxmax

n nn n

A F A ff F x

N N x

Fehlerschranken-Funktion Maximum der Fehleranzahl für

jede gültige Eingabe x aus Xn und für jedes Konzept f aus Fn

Eingabe Konzeptklasse Fn, Beispielmenge Xn,

Algorithmus A Ausgabe

Anzahl der Zeitpunkte, zu denen A nach der Verarbeitung von t Beispielen eine falsche Arbeitshypothese benutzt.

Hier ist wieder die

Fehleranzahl-Funktion!


Mistake Bound Model Fehlerschrankenlernbarkeit engl: „mistake bound learnable“ Konzeptklasse F ist fehlerschrankenlernbar,

wenn es einen Algorithmus A gibt, der effizient ist dessen Fehlerschranke nur polynomial zur

Beispiellänge n wächst.

D.h. es gibt einen Alg. A, der für jedes Konzept aus F und jede Beispielfolge

maximal N Fehler macht!


Mistake Bound Model exakte Fehlerschrankenlernbarkeit engl: „exactly mistake bound learnable“ Eine Konzeptklasse F ist exakt

fehlerschrankenlernbar Alg. A:1. A ist fehlerbeschränkt

2. A weiß jederzeit, ob sich die Arbeitshypothese exakt einem Konzept angepasst hat

3. A kann aus der Arbeitshypothese die exakte Repräsentation des Konzeptes in Polynomialzeit berechnen

4. A gibt nur dann eine Hypothese zurück, wenn er diese endgültig ist – aber niemals eine Arbeitshypothese!


Mistake Bound Model Anwendungen? Beispiele? Bartlett, Fischer und Höffgen schlagen

Mistake-Bound-Lernalgorithmen vor für boolesche Schwellwertfunktionen kommt gleich...!

zweitermige RSE siehe Original-Paper!



2. PAC-Lernen








10.Literatur


Bsp: Schwellwertfunktionen

1 1, 1

1 falls , ,

0 sonstn n

w n

w x w xf x x

Konfiguration: Gewichtsvektor w, Schwellwert

Eingabe: Eingabevektor x

Ausgabe: 1 wenn Schwellwert überschritten, 0 sonst


Bsp: Schwellwertfunktionen

Algorithmus A macht für jedes Beispiel Yt: errate Klassifikation von Yt:

1 wenn Yt w Schwellwert 0 sonst

erhalte korrekte Klassifikation korrigiere ggf. Arbeitshypothese hc

1 1, 1

1 falls , ,

0 sonstn n

w n

w x w xf x x


Bsp: Schwellwertfunktionen Algorithmus A: klassifiziere das 1-te Beispiel als „0“ klassifiziere jedes weitere Beispiel wie das

vorherige wenn Fehler: merke den Fehler (z.B. in einem Array)


Bsp: Schwellwertfunktionen falls A einen Fehler gemacht hat, dann wurde der Schwellwert „von unten kommend“ erreicht, oder der Schwellwert „von oben kommend“ unterschritten.

A erlangt im Fehlerfall zwei Informationen: Das aktuelle Beispiel „berührt“ den Schwellwert, und das vorhergehende Beispiel berührte ihn ebenfalls!

A lernt aus jedem Fehler! A lernt eigentlich ausschließlich aus Fehlern ;-)


Bsp: Schwellwertfunktionen li sei die (korrekte) Klassifikation des i-

ten Beispiels wYt-1 muß entweder , oder (-1) sein! wYt-1 = lt-1-1

wYt muß gegenteilig klassifiziert sein! wYt = -lt-1

Gewichts-

vektor w

aktuelles Beispiel

Yt

Schwellwert


Bsp: Schwellwertfunktionen A formuliert die Gleichungen wYt-1 +(1-lt-1) = 0 wYt +(lt-1) = 0

A merkt sich diese Gleichungen in einem Array!

1 1 1, 1,1 , , 1,t t t tS S Y l Y l


Bsp: Schwellwertfunktionen Was bedeuten die Gleichungen in dem

Array S ? z.B. ((1,1,1,1,1,1,1,1),-1,0) S w (1,1,1,1,1,1,1,1) - = 0

Bedeutung: „Wenn Du ein Beispiel (1,1,1,1,1,1,1,1)

bekommst, dieses mit dem Gewichtsvektor multiplizierst, und darauf (-1) addierst, dann ist die Aussage, das Beispiel überschreitet den Schwellwert nicht: falsch!“

Es werden also falsche Aussagen gespeichert!


Bsp: Schwellwertfunktionen Algorithmus A kann also jede Aussage

überprüfen, bevor er sie macht! A macht keinen Fehler zweimal!

Mehr als das! A verwendet S als Vektorraum! z.B. s1=((1,1,1,1,1,1,1,1),-1,0) S,

s2=((1,0,1,0,1,0,1,0),-1,0) S s1- s2 span(S)

((0,1,0,1,0,1,0,1),0,0) S Neue Aussage: „Wenn Du ein Beispiel (0,1,0,1,0,1,0,1) bekommst,

dieses mit dem Gewichtsvektor multiplizierst, dann ist die Aussage, das Beispiel überschreitet den Schwellwert nicht: falsch!“


Bsp: Schwellwertfunktionen Hier der vollständige Algorithmus in

Pseudocode: IF (Yt,-1,lt-1) INSIDE span(s)

THEN predict 1-lt-1

ELSE predict lt-1

IF lt-1 != lt THEN add(Yt,-1,lt-1) to S


Bsp: Schwellwertfunktionen Hier noch einmal in

natürlichsprachlicher Schreibweise: IF (Aussage) INSIDE

(Falschaussagen) THEN mache gegenteilige Aussage

ELSE mache AussageIF (Fehler gemacht) THEN

merke neue Falschaussage


Bsp: Schwellwertfunktionen S = Menge linear unabhängiger

Gleichungen Zielkonzept kann berechnet werden,

sobald n+1 Gleichungen bekannt! d.h. maximal n+1 Fehler!

Resumee: Boolesche Schwellwertfunktionen sind über Irrfahrten im Mistake Bound Model mit n+1 Fehlern exakt lernbar!



2. PAC-Lernen








10.Literatur


Probab. Mistake Bound Model Mistake Bound Model Algorithmus A soll für alle Beispielfolgen und alle

Konzepte maximal N Fehler machen.

Probabilistic Mistake Bound Model Algorithmus A soll für fast alle Beispielfolgen und

fast alle Konzepte maximal N Fehler machen.

Neu: Vertrauens-Parameter beeinflusst, auf welche Arbeitshypothese sich A

nach der Verarbeitung einiger Beispiele festgelegt hat!


Probab. Mistake Bound Model Annahme: Ein Beispielpfad x wird durch einen stochastischen

Prozess P erzeugt

Prozessmenge Pn Gesamtheit aller Prozesse

Gewisse Prozessabläufe sind wahrscheinlicher als andere Verteilung P ist gegeben!

Notation: P{x : [Prädikat]} Wahrscheinlichkeit für Erfüllung von [Prädikat]

durch x, gegeben Verteilung P.


Probab. Mistake Bound Model

, , , ,

Wahrscheinlichkeit, dass Fehleranzahldes Lernalgorithmus größer als die

Fehlerschranke ist

ˆ min : : : ,n nA F n n A fN m f F x N x m

Fehlerschranke wird zur -Vertrauens-Fehlerschranke! „Nimm unter allen Fehlerschranken, die mit Ws.

oder weniger überschritten werden, die kleinste!“ Aussage von N: „Der Lernalgorithmus A macht nur N Fehler.

Allerdings gibt es mit Wahrscheinlichkeit einige Ausrutscher.“

Hier kommt die Verteilung in‘s Spiel!


Probab. Mistake Bound Model probabilistische

Fehlerschrankenlernbarkeit engl: „probably mistake bound learnable“

Eine Konzeptklasse F ist probabilistisch fehlerschrankenlernbar Lernalg. A: A lernt F, A läuft in Polynomialzeit, Fehlerschranke von A wächst polynomiell

mit der Länge der Beispiele sowie mit 1/.


Probab. Mistake Bound Model

, , , , ,ˆ ˆmin

n n n nF A FA

N N Welche Fehlerschranke besitzt „der beste“

Lernalgorithmus A für eine Konzeptklasse? betrachte das Minimum der Fehlerschranken!

für einen bestimmten Vertrauensparameter , für eine bestimmte Konzeptklasse Fn, für eine bestimmte Verteilung pn, und für alle Lernalgorithmen A


Probab. Mistake Bound Model exakte prob. Fehlerschrankenlernbarkeit siehe „exakte Fehlerschrankenlernbarkeit“! engl: „exactly probably mistake bound learnable“ Eine Konzeptklasse F ist exakt probabilistisch

fehlerschrankenlernbar Alg. A:1. A ist probabilistisch fehlerbeschränkt

2. A weiß jederzeit, ob sich die Arbeitshypothese exakt einem Konzept angepasst hat

3. A kann aus der Arbeitshypothese die exakte Repräsentation des Konzeptes in Polynomialzeit berechnen

4. A gibt nur dann eine Hypothese zurück, wenn er diese endgültig ist – aber niemals eine Arbeitshypothese!


Probab. Mistake Bound Model Anwendungen? Beispiele? Bartlett, Fischer und Höffgen schlagen

probabilistischen Mistake-Bound-Lernalgorithmus für zweitermige DNFs vor siehe Original-Paper! lernt 2-term DNFs exakt!

Erläuterung zu platzintensiv! Statt dessen: „warum sollte eine Lernalgorithmus in diesem

Model lernen?“ ...


Probab. Mistake Bound Model WENN j: Yt+1 befriedigt E(j){ sage_vorher 1; WENN fehler: S:=S xj

} SONST {sage_vorher 0;

WENN fehler: tue nichts;}

d.h. A lernt nichtsaus diesem Fehler!


Probab. Mistake Bound Model Probabilismus entsteht z.B. durch: Fehler, aus denen nicht gelernt wird, die

aber u.U. weitere Fehler provozieren, aus denen gelernt werden kann



2. PAC-Lernen








10.Literatur


Bounded Mistake Rate Model Probabilistic Mistake Bound Model Algorithmus A darf für wenige

Beispielfolgen und wenige Konzepte eine Fehlerschranke überschreiten.

Bounded Mistake Rate Model Algorithmus A darf ab bestimmter

Beispiellänge ein jedes Beispiel nur noch „selten“ falsch kategorisieren.

Was bedeutet dieser Unterschied? Erklärung folgt....!


Bounded Mistake Rate Model Erweiterung des Mistake-Indicator M Erinnerung: M gibt für Zeitpunkt t 0 bzw. 1 zurück

Neu: Einbeziehung der Verteilung! Aber was geschieht hier eigentlich?!

, , ,ˆ , supsup ,

n n

n n

tA F x P A f

f F P

M t E M x

Hier tritt erstmalig der Erwartungswert auf!

Hier begegnet uns wieder der

Mistake-Indicator!


Bounded Mistake Rate Model

, , ,ˆ , supsup ,

n n

n n

tA F x P A f

f F P

M t E M x

Der „erweiterte Mistake-Indicator“ ist die Wahrscheinlichkeit (0;1) mit der ein Algorithmus A zum Zeitpunkt t für die Konzeptklasse Fn einen Fehler macht!

Dabei wird das Maximum über alle Konzepte und Prozesse betrachtet!


Bounded Mistake Rate Model

0 0 , ,ˆ: , : : : ,

n nA FA n t t t M t

„Fn im Bounded Mistake Rate Model lernbar“: Es gibt einen Algorithmus A, der Fn lernt, und

ab einem bestimmten Zeitpunkt nur noch „sehr selten“ Fehler macht.


Bounded Mistake Rate Model Anwendungen? Beispiele? Gut geeignet für stationäre Prozesse! Bartlett, Fischer und Höffgen

demonstrieren diesen Algorithmus nicht Die Suche mit „google“ nach „bounded

mistake rate“ bringt 5 Treffer... ;-) => keine Anwendungen (?)



2. PAC-Lernen








10.Literatur


Modell-Vergleiche Gegenüberstellung:


2. prob. Mistake Bound Model


Vergleich zwischen #1 und #2: Jeder Alg. A, der aus X in #1 lernt, tut das auch

in #2!

, , , , ,ˆ ˆ

n n n nA F A FN N

Fehlerschranke im Mistake Bound Model

Fehlerschranke im prob. Mistake

Bound Model


Modell- Vergleiche Vergleich zwischen #2 und #3: Aus jedem Alg. A, der aus X in 2. lernt,

lässt sich ein Alg. A‘ konstruieren, der aus X in 3. lernt!



2. PAC-Lernen








10.Literatur


Zusammenfassung & Ausblick Drei PAC-Erweiterungen vorgestellt Anpassungen für stochastische Prozesse exakte Hypothesenrepräsenen können

gefunden werden wichtig für „Implementierungen“ der Hyp.!

Beispielabfolge birgt Informationsgehalt! ähnlich zu Membership-Queries!


Zusammenfassung & Ausblick Weiterentwicklungen Ersetzen der Irrfahrten durch andere

Pfade, z.B. paarweises Bit-Kippen:

· jedes Bit kann nur mit „Partnerbit“ gekippt werden

mehrfach-Bit-Kippen:· konstante Anzahl beliebiger Bits muss gekippt

werden

Erforschung der Beziehung zu Membership Queries



2. PAC-Lernen








10.Literatur


Literatur Peter L. Bartlett, Paul Fischer, Klaus-Uwe

Höffgen: Exploiting Random Walks for Learning

Prof. Dr. Georg Schnitger: Skript Algorithmisches Lernen, April 2001

Ron Rivest: Machine Learning Funda Ergtin, S. Ravi Kumar, Ronitt

Rubinfeld: On Learning Bounded-Width Branching Programs http://vorlon.cwru.edu/~afe

/PUBLICATIONS/colt95.pdf


Literatur Vasant Honavar: Artificial Intelligence

COM S 673 Lecture Notes Week 9 http://www.cs.iastate.edu/~honavar/Course

s/cs673/spring96/Notes/week9.ps

Nader H. Bshouty, Jeffrey C. Jackson: Learning DNF over the Uniform Distribution Using a Quantum Example Oracle http://epubs.siam.org/sam-bin/dbq/article/2

9312


Kontakt & Downloads Fabian Wleklinski: [email protected]

Folien und Ausarbeitung in div. Formaten verfügbar unter: http://www.stormzone.de/uni/Hauptstudium

/seminare/algorithmisches_lernen/FW/list.php3


Ende Das war‘s!

Vielen Dank für Eure Aufmerksamkeit!

Documents

Exploiting Random Walks for Learning Algorithmisches Lernen WS 2001/02 Referent: Fabian Wleklinski ([email protected])[email protected]