Meger ősítéses Tanulás = Reinforcement Learning (RL)

Megerősítéses Tanulás=

Reinforcement Learning (RL)

Szepesvári Csaba

Gépi Tanulás és Ember-Gép Interfészek Csoport

MTA SZTAKI

szcsaba@sztaki.hu

www.sztaki.hu/~szcsaba

Gépi tanulás és Ember-Gép Interfészek CsoportMTA SZTAKI, 2004-

• Tanulás– Megerősítéses tanulás– Klasszifikáció– Jellegzetesség kivonás

• Alkalmazási területek– Kontroll, játékok– Beszéd– Természetes nyelv (NKFP projekt:

NYELVBÁNYÁSZ)– Pénzügyi mat. (portfólió opt.)

•Kocsis Levente, PhD

•Szepesvári Csaba, PhD

•Szamonek Zoltán, PhD hallg.

•„your name”?

MA: Megerősítéses Tanulás

•Tartalom:

•Motiváció

•Algoritmusok, módszerek, eszközök

•Alkalmazások

AI - „a nagy kép”

Intelligencia:- Tanulás„Programozói” lustaság + a feladatok komplexitásának kezelése:- Minél önállóbb tanulás

PókerCélok: •mesterszintű játék•játék aspektusok•ellenfél modellezés

Hol tartunk? (MLHCI Csoport)

Autóverseny-szimulátorCélok: •Emberi teljesítmény mesteri reprodukciója•Autóvezetés forgalomban

Mi a megerősítéses tanulás (RL) ?

• Nagyfokú önállóság a tanulásban• Információk:

– büntetés/jutalom alapján– megfigyelések a környezetről (állapotok)

• Cél: a jutalom egy függvényét maximalizálni!

s9s5s4s2

……

r9r5r4r1

a9a5a4a2 …a3a1

A k-karú bandita probléma

Ágens

Akciók

Átlagos kifizetés (jutalom)

0, 0, 5, 10, 35

5, 10, -15, -15, -10

Markov Döntési Folyamatok ~ Markov Decision Processes

(MDPs)• Állapotok, véletlentől függő átmenetekkel• Átmenetvalószínűségek aktuális állapottól függnek

• Transition matrix P, and reward function

r = 2211r = 0a1

Hosszútávú jutalom

• Ágens politikája rögzített:

• Az Rt kifizetés a t pillanat utáni össz-jutalom

r9r5r4r1

Érték = Hasznosság = Várható kifizetés

• Rt valószínűségi változó

• Vehetjük a várható értékét! Politikától függ Rt !

• Feladat: találjuk meg azt a politikát amelyik a várható értéket maximalizálja, minden állapotban

Az eddigi sztori..• RL feladatok részei:

– Több lépéses döntési feladatok

– Cél *-ot megtalálni

– Kritérium: Rövid távú Hosszú távú

rt+1 rt+2 rt+3

at at+1 at+2st st+1 st+2 st+3

A Bellman egyenletek

• A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető:

Másképp:

V = TV vagy BV = 0

Bellman egyenletek- optimális értékelő függvény

• Optimális értékelő függvény

• Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a)

• Ez optimális!!!• Politika javítás algoritmus: (kiértékel, javít)*

„Bootstrapping” módszerek• P és R ismeretét feltételezve; Dinamikus Programozás

• Nem ismerjük P-t és R-et, mintavételezés;

„Temporal Difference learning”

st st+1rt+1

at = (st)

TD(0) tanulás: Politikák kiértékelése

is the policy to be evaluated

Initialise arbitrarily for all

Repeat

select an action at from (st)

observe the transition

update according to

t:=t+1

st st+1rt+1

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

ˆ ( )tV s s S

ˆ ( )tV s

„On-” és „Off-” politika tanulás• „On politika”: az éppen követett politikát értékeljük pl. TD

tanulással

• „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk

• Pl. Q-tanulás:

st st+1rt+1

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t

b AQ s a Q s a r Q s b Q s a

„Off-politika” tanulás

• A Q-tanulás előnyei

– Az optimális politika értékét becsli

– miközben tetszőleges (felfedező) akciókat lehet végrehatjani

• -mohó felfedezés:

• Mohó akció valószínűséggel

• Véletlen akció 1-valószínűséggel

• Garantált konvergencia, ha kellően bejárjuk az MDP-t

• Meg lehet-e találni -ot „on-politika” algoritmussal?

„On politika” tanulás: Sarsa

• Töröljük a „max” operátort!• Értékeljük a követett politikát:

• Fokozatosan, lassan változtassuk a politikát• Konvergál! (Jaakkola,Singh,Littman,Szepesvári)

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a

atst+1st

„On politika” tanulás: Sarsa

Initialise arbitrarily for all

select an action at from explore( )

Repeat

observe the transition

select an action at+1 from explore( )

update according to

t:=t+1

atst+1st

Összefoglalás: TD, Q-learning, Sarsa • TD learning

• One step Q-learning

• Sarsa learning

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a

strt+1

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t

b AQ s a Q s a r Q s b Q s a

atst+1st

• Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”:

• Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan:

2-es fokozat: „Eligibility traces”, TD( • A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk:

1 if ( )

( ) otherwiset

s se s

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( )) ( )t t t t t t t tV s V s r V s V s e s

ˆ ( )tV s

at-2 at-1 at

rt-1 rt rt+1

st-2 st-1 st st+1

„Eligibility trace” a Q-tanulásban: Q()

• Sokféleképpen lehet csinálni

• Pl. minden s,a párra:

• Nem-mohó akciónál is van információ visszaterjesztés

• Elvész a konvergencia garancia!

• Watkin’s megoldási javaslata: nem-mohó után e:=0

• Probléma: hatásfokot csökkenti

• “Bias variance” dilemma

st+1rt

at-1 atat+1

st-1 st

agreedy

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , ) ( , )t t t t t t t t t

b AQ s a Q s a r Q s b Q s a e s a

Sarsa()

• Másik megoldás: használjuk a Sarsa algoritmust!

• Minden s,a párra:

• Konvergencia tulajdonság megmarad(?)

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , ) ( , )t t t t t t t t t tQ s a Q s a r Q s a Q s a e s a

at at+1 at+2

rt+1 rt+2

st st+1 st+2

„Közelítő” RL

• Miért?

– Idő és tárkorlátok!

(Bellman: dimenzionalítás átka)

– Általánosítás új szituációkra (elégtelen mintavételezés)

• Megoldások

– Érték-függvény közelítése

– Politika térbeli keresés

– Közelítő modellek + tervezés

Lineáris approximáció

• Egyszerű és hasznos!

• Vannak konvergencia eredmények

• Most: lineáris TD(

Súlyvektor a t. időpillanatban:

„Feature” vektor az s állapotra:

Becslés

Cél: minimalizálni..

1 , 2t t t t n

1 , 2s s s s n

t̂ t sV s

2ˆMSE ( )t t

P s V s V s

Értékfüggvény közelítés: approximátorok• Választások: pl. CMAC, RBF népszerűek

• CMAC: n db. cserépdarab

• „Features”

• Tulajdonságok– „Coarse coding”

– Szabályos fedés jó hatásfok

– Véletlen hash: memóriaigénycsökkenti

1 , 2s s s s n

1 or 0s i

Lineáris közelítések

• Gradiens módszer -re

• TD egyenlet új alakja:

• Most az E.T. n-dimenziós vektor, amit így módosítunk:

• Konvergál -hoz

1 1ˆ ˆ

t t t t t t t tr V s V s e

1t t te e

Újabb önreklám

• William D. Smart, Cs. Szepesvári, ICML’2004:

• Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva.

• Nem gradiens módszer.

• A megfelelő gradiens módszer konvergenciája nem ismert.

• Sejtés: ....

Konvergens?

Egy különösen sikeres példa:TD-gammon

• TD() tanulás, 1 rejtett rétegű neuronháló, Backprop

• 1,500,000 játék (saját magával)

• A legjobb játékosokkal azonos képességek (világbajnok)

• Backgammon állapottere: ~1020 , DP nem megy!!

Modell alapú RL: struktúrált modellek• Dinamikus Bayes háló a P állapotátmenetek reprezentációjára

(másképp: faktorizált MDP)

• V: fa

• Backup: „goal regression”

• Hasonlít a tervezési feladatokra

RL: rejtett állapotok

• POMDP, k-Markov

• POMDP-ben a tervezés nem(sem) kivihető (intractable)

• Faktorizált POMDP-k: igéretes

• Politika keresés előnyös

at at+1 at+2

rt+1 rt+2

st st+1 st+2

ot ot+1 ot+2

Politika keresés (direkt módszer)

• Módszerek– Gradiens– Evolúciós (egyéb local/global search)

Alkalmazások

Robot navigációs feladat

• Pavlov: Nomad 200 robot

• Nomad 200 simulator

Sridhar MahadevanUMass

Hierarchikus modellek – térbeli modellezésre

575 states

1385 states

Corridorstate

Entireenvironment

Productionstate

Sridhar MahadevanUMass

Hierarchikus modellek

abstract states

product states,which generate observations

entry states

exit states

verticaltransitions

horizontaltransitions

Internet forgalom-szabályozás“Multi-protocol label switching”

Ingress router

ingress router egress router

egress router

Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolásvalószínűségét minimalizáljuk

(Yong Liu, Singapore)

Robot foci: szimulációs liga

Situation (s) Action (a) Utility Q(s,a)

Ball kickable, goal near shoot 0.6

Ball kickable, goal far shoot 0.33

Ball kickable, goal far pass 0.4

… … …

Jeremy WyattYoshiyuki MatsumuraMatthew ToddUniversity of BirminghamSchool of Computer Science

A k-lábú robot

Egyidejű (konkurrens) akciók

Example: driving

Look in the mirror Look at the road Check the speed

Press brakes Accelerate Press brakes

Put on high gear Steer the wheelSteer the wheel

Right arm

Decision epochs

Head & eyes

Alkalmazások (A-tól N-ig)

• Airline Meal Planning

• Behaviourial Ecology

• Capacity Expansion

• Decision Analysis

• Equipment Replacement

• Fisheries Management

• Gambling Systems

• Highway Pavement Repair

• Inventory Control

• Job Seeking Strategies

• Knapsack Problems

• Learning

• Medical Treatment

• Network Control

M.L.Puterman, 2002

Alkalmazások (O-tól Z-ig)

• Option Pricing

• Project Selection

• Queueing System Control

• Robotic Motion

• Scheduling

• Tetris

• User Modeling

• Vision (Computer)

• Water Resources

• X-Ray Dosage

• Yield Management

• Zebra Hunting

M.L.Puterman, 2002

Néhány további RL alkalmazás

• Liftek vezérlése (Barto & Crites)• Ütemezési feladatok, űrsikló pakolása (Zhang &

Dietterich)• Dinamikus csatorna kiosztás mobil hálózatokban (Singh

& Bertsekas)• Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni

tanulás, zsonglőrködés• Ragadozó-préda (PacMan)• Portfólió optimalizálás

Aktív területek

• Optimális felfedező stratégiák

• Struktúrált modellek

• Relációs modellek

• Folytonos állapot és akció-terek

• Hierarchikus RL

• Állapotok és akciók absztrakciói (options, macros,..)

• Rejtett állapotok (eg. POMDPs)

• Prediktív állapot-reprezentáció

• Politika keresés

• Szignifikancia tesztek

Reinforcement Learning: key papers

OverviewsR. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press,

1998.J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity

and Learning. Springer Verlag, 2003.L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal

of Artificial Intelligence Research, 4:237-285, 1996.

Value Function ApproximationD. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998.

Eligibility TracesS.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces.

Machine Learning, 22:123-158, 1996.

Structured Models and Planning

C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999.

R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000.

B. Sallans. Reinforcement Learning for Factored Markov Decision ProcessesPh.D. Thesis, Dept. of Computer Science, University of Toronto, 2001.

K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

Policy SearchR. Williams. Simple statistical gradient algorithms for connectionist reinforcement

learning. Machine Learning, 8:229-256.R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for

Reinforcement Learning with Function Approximation. NIPS 12, 2000.

Hierarchical Reinforcement LearningR. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework

for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211.

R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998.

A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

Exploration

N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999.

J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001.

POMDPs

L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.

Meger ősítéses Tanulás = Reinforcement Learning (RL)

Documents

A tanulás tanítása

Hálózati tanulás

japán tanulás 3

Kooperatív tanulás és web2

Tanulás társaktól (szociális tanulás) Etológia II

Tanulás tanítása programmodul

A tanulás tanítása, tanulása.doc

Off-Policy Deep Reinforcement Learning without Exploration · 2019-08-13 · Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto 1 2David Meger Doina Precup

„ADDIG IS MÍG NAGY LESZEK” · „Addig is míg nagy leszek” - 3 - SZIVÁRVÁNY ÓVODA NEVELÉSI PROGRAMJA Tanulás Tanulás Tanulás CSALÁD külső világ tevékeny megismerése

Tanulás számítógéppel

Gépi tanulás, neuronhálók · Egy intelligens rendszernek szükségszerűen rendelkeznie kell adaptációs, tanulási képességgel. Mi a (gépi) tanulás? • A gépi tanulás

Munka és tanulás integrációja

Konnektivizmus, hálózatalapú tanulás

A tanulás reneszánsza

Missa de falicimento de celso meger 26 04

Japán tanulás 1

การใช้งาน MEGER

Tanulás az idegrendszerben

japán tanulás 10

Reverse Meger in Indian Banking Industry