54
Veštačka inteligencija i igre Andrej Ivašković Matematička gimnazija, N 30. mart 2015. Andrej Ivašković Veštačka inteligencija i igre

Veštacka inteligencija i igre

Embed Size (px)

Citation preview

  • Vetaka inteligencija i igre

    Andrej Ivakovi

    Matematika gimnazija, Nedelja informatike

    30. mart 2015.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Uvodna razmatranjaNeki osnovni pojmovi

    O emu emo priati ovde

    Polovina prijavljenih je navelo ovo predavanje kaonajzanimljivije!

    Kako uopte definisati na zadatak?

    Ono to raunari rade uspeno esto prestajemo da nazivamovetakom inteligencijom.Neke oblasti:

    mainsko uenje (i gomila primena i tehnika!);obrada prirodnih jezika;automatsko dokazivanje teorema.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Uvodna razmatranjaNeki osnovni pojmovi

    Filozofska i etika pitanja

    Da li je vetaka inteligencija nemogua?

    Da li bismo smeli da se bavimo daljim istraivanjima u ovojoblasti?

    Krajem 2014. oglasili se Stiven Hoking, Elon Mask, Bil Gejts. . .

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Uvodna razmatranjaNeki osnovni pojmovi

    ta je bilo reeno?

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Uvodna razmatranjaNeki osnovni pojmovi

    O emu NEEMO priati

    Kako napraviti balansirano ponaanje za "vetakuinteligenciju"u raunarskih igrama.

    Tjuringov test.Algoritmi i heuristike mainskog uenja:

    analiza klastera;genetiki algoritmi;neuralne mree.

    Hrpa matematika koja je inae neophodna za vetakuinteligenciju.

    Moji planovi za osvajanje sveta pomou zlih robota.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Uvodna razmatranjaNeki osnovni pojmovi

    Na cilj danas

    Definisati agente.Pokazati neke standardne ideje iz vetake inteligencije nasledeim primerima igara:

    nauiti mainu da igra iks-oks;nauiti mainu da igra ah, korienje pretraga stabala iminimax algoritma;igranje igre go.

    Kako napraviti algoritam koji agentu u nepoznatom svetuodreuje optimalno ponaanje?

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Uvodna razmatranjaNeki osnovni pojmovi

    Agenti

    Agentom nazivamo bilo kakav ureaj koji je u mogunosti daprima nadraaje iz okoline i reaguje na njih.

    REAGUJ

    OKRUENJE

    AGENT

    OSETI

    Kako ocenjujemo agente?

    Kakvo sve moe da bude okruenje?

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Uvodna razmatranjaNeki osnovni pojmovi

    Programiranje agenata

    Moemo li da odravamo tabelu koja e povezivati nizove draisa reakcijama?

    Agent je autonoman ukoliko njegovo ponaanje na neki nainzavisi od njegovih prethodno primljenih drai.Agent treba da odrava:

    opis trenutnog stanja okruenja;informacije o tome kako se okruenje menja nezavisno odagenta;informacije o tome kako agentove radnje menjaju okruenje.

    Agent bira reakcije u zavisnosti od cilja i preferiranog puta.Ravnotea izmeu primene nauenog i uenja.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Struktura igre iks-oks

    Svi ste (nadam se) upoznati sa tim kako ova igra funkcionie.

    Postoji mali konaan broj stanja igre koja moemo dapredstavimo vorovima aciklinog usmerenog grafa, a graneovog grafa su potezi. Radi jednostavnosti emo koristiti stablo(do nekih stanja moe da se doe na vie naina).ta dalje radimo sa ovim stablom?

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Odreivanje pobednike strategije

    U ovakvim igrama moemo da odredimo za svako stanje da li jepobedniko, gubitniko ili nereeno, gde npr. stanje zovemopobednikim ukoliko pri optimalnoj igri oba igraa igra koji jena potezu sigurno pobeuje.Nakon izgradnje stabla, obilazimo stablo u post-order ("odozdona gore"):

    Za listove stabla znamo kojoj vrsti stanja odgovaraju.Za ostale vorove razmatramo sluajeve:

    1 Ukoliko postoji potez koji iz nekog stanja S dolazi do gubitnikogstanja L, tada je S pobedniko.

    2 Ukoliko svi potezi mogui u stanju S vode do pobednikih stanja,S je gubitniko stanje.

    3 U suprotnom, stanje S je nereeno.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Malo uoptenje. . .

    Ovaj princip moemo da koristimo u velikom broju igara samalim brojem stanja (ukljuujui i one koje imaju samo jednogigraa npr. Rubikova kocka).Razmotrimo varijantu u kojoj svaki potez nosi poznati odreenibroj poena, a cilj svakog igraa je da se ostvari to je moguevea prednost u odnosu na drugog igraa.

    Osnovna ideja algoritma ostaje ista, ali sada je "rekurentnaveza" drugaija.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Minimax algoritam

    Za svako stanje znamo koji je igra na potezu. Jednog igraazovemo Max, a drugog Min.Posmatrajmo razliku izmeu poena koje ima Max i poena kojeima Min. Pri optimalnoj strategiji oba igraa:

    Min eli da minimizuje ovu razliku, pri emu smatra da Maxigra optimalno;Max eli da maksimizuje ovu razliku, pri emu smatra da Minigra optimalno;ova dva cilja se uravnotee: minimalan gubitak Min-a jejednak maksimalnom dobitku Max-a (minimax teorema).

    Sada emo probati da razmotrimo primer jedne "apstraktne"igre.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1

    1 9 5

    4

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1

    1 9 5

    4

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    2

    6 2 3

    1

    1 9 5

    4

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Ilustracija minimax algoritma

    4

    2

    6 2 3

    1

    1 9 5

    4

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Gde dolazi do problema?

    ta ako su ciklusi dozvoljeni?

    ta ako do ciklusa ne sme da doe, ali ga graf igre dozvoljava?

    ta ako igra ima mnogo veliki broj stanja?

    Jasno je da moramo da pribegnemo nekim heuristikama.Definiemo ply : broj poteza "unapred" koje razmatramo usvakom trenutku. Po nekim procenama, dobar igra aha (aline majstor) ima 3 ply.Ali i dalje ne moemo da prikaemo itavo stablo. . .

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Malo o ahu

    Igra je stara 1500 godina.Istraivanja zapoetka etrdesetih godina, prvi programirazvijani krajem pedesetih.Ve sedamdesetih poeli da pobeuju vrhunske igrae.1996. godine Deep Blue igra est partija protija GarijaKasparova sa rezultatom 42 (u korist Kasparova). Narednegodine Deep Blue pobeuje rezultatom 3122

    12 .

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Deep Blue

    Razvijan sedam godina od strane IBM-a.256 procesora od po 120MHz, rezultat je da se u jednojsekundi obavi 1.138 1010 floating point operacija.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    ta kae IBM, kako ovo radi?

    Definiemo funkciju procene (evaluation function) eval kojadaje "vrednost" svakom poloaju i zavisi od sledeihparametara:

    materijalna vrednost: kolika je naa prednost u odnosu naprotivnika u smislu "jaine" figura; rauna se kao

    wifi, gde je

    wi jaina neke figure (1 je za peaka, 5 je za topa itd), fiodreuje kom igrau pripada (1);poziciona vrednost: sabrati po svim figurama broj napadnutihpolja;vrednost bezbednosti kralja: ocenjuje koliko su razna polja"bezbedna", pa onda uzima u obzir njihovu udaljenost od kralja;vrednost tempa: zavisi od toga koliko protivnik unapreujesvoj poloaj.

    Funkcije procene su este u igrama ovog tipa, ali je njihovosmiljanje u optem sluaju teak problem.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    ta sada sa eval?

    Primenimo minimax algoritam, ali ne na celom stablu, ve saogranienom dubinom (ply agenta). Listovi ovog stabla sadrevrednosti relevantne za minimax.

    Meutim, ak i uz ovu aproksimaciju, na jednom savremenomraunaru je neophodno 2min za 34 ply. Kako da pobedimovelemajstore?

    Problem je u tome to razmatramo dosta neoptimalnih stanja uminimax algoritmu. Moramo nekako da ih se otarasimo!

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez

    Vratimo se primeru izvravanja minimax algoritma.

    Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez

    Vratimo se primeru izvravanja minimax algoritma.

    Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

    2

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez

    Vratimo se primeru izvravanja minimax algoritma.

    Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

    2

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez

    Vratimo se primeru izvravanja minimax algoritma.

    Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

    2

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez

    Vratimo se primeru izvravanja minimax algoritma.

    Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

    2

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez

    Vratimo se primeru izvravanja minimax algoritma.

    Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

    2

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez

    Vratimo se primeru izvravanja minimax algoritma.

    Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

    2

    2

    6 2 3

    1 9 5

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez

    Vratimo se primeru izvravanja minimax algoritma.

    Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

    4

    2

    6 2 3

    1 9 5

    4

    4 5 7

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    rez u optem sluaju

    U stvari je re o pretrazi po dubini (DFS), pri emu prirazmatranju nekog vora razmatramo samo vorove na putu donjega.

    Na tom putu, neka je najvea vrednost koju moe dapostigne Max, a najmanja vrednost koju moe da postigneMin (na samom poetku se podesi = , = +).Koristiemo funkcije player(Node* v) i opponent(Node* v), a napoetku se pozove player(root).

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Vrednosti i su podloni promenama, nain kako se vidi izrazmatranja n < m i n < .

    Nemamo puno sluajeva. . .

    v1

    . . . . . .

    v2

    . . . m n

    . . .

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Pseudokod za player(Node* v)

    1 int player(Node* v)2 {3 if (cutOff(v)) return eval(v);4 value = -INFINITY;5 foreach (u : v -> children)6 {7 value = max(value , opponent(u));8 if (value > BETA) return value;9 if (value > ALPHA) ALPHA = value;

    10 }11 return value;12 }

    Kod za opponent(Node* v) je analogan. . .

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Koliko je dobar rez?

    Ignoriimo detalje oko predstavljanja stanja, interesuje nasiskljuivo vreme.Za poetak, minimax je imao vremensku sloenost O (qp), gdeje q faktor ravanja (broj moguih poteza u svakom stanju), a ptraeni ply.Za rez ponaanje dosta zavisi od redosleda kojim seobilaze vorovi. U savrenom sluaju bismo mogli da imamo

    O(q

    p2

    ).

    Za rez moe da se dokae da je asimptotska sloenost:

    O((

    qlog q

    )p),

    odnosno, za praktine vrednosti q priblino O(q

    3p4

    ).

    U praksi uspevamo da odredimo redoslede koji nam pomau daudvostruimo ply.

    Andrej Ivakovi Vetaka inteligencija i igre

  • "The Fathers of the field had been prey confusing: John von Neumannspeculated about computers and the human brain in analogies suicientlywild to be worthy of a medieval thinker and Alan M. Turing thought aboutcriteria to sele the question of whether Machines Can Think, a question

    of which we now know that it is about as relevant as the question ofwhether Submarines Can Swim."

    Edsger W. Dijkstra

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Pravila igre go

    Data je tabla sa 19 horizontalnih i 19 vertikalnih linija, napoetku je prazna.Crni i Beli imaju etone koje naizmenino stavljaju na tablu.Crni igra prvi.etoni se stavljaju na preseke linija.Igra moe da preskoi jedan potez bilo kada, ali mora dartvuje jedan svoj eton.Igra se zavrava nakon dva uzastopna preskoena poteza, priemu je Beli taj koji zavrava igru.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Pravila igre go

    Teritorija nekog igraa podrazumeva broj preseka na kojima suetoni tog igraa ili koji su atvoreni" etonima tog igraa.Pobeuje igra sa vie teritorije.Ukoliko nakon poteza igraa A neka grupa etona B postaje"potpuno okruena" etonima A, ta grupa se sklanja sa table.Superko pravilo: ne sme da se ponovi nijedan poloaj koji sejavio ranije u toku igre.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Igre sa malim brojem stanjaahGo

    Tekoe

    Tabla je mnogo vea nego u ahu, mnogo vie mogunosti.

    Predstavljanje stanja je problematino, mora da se zadovoljisuperko pravilo.

    Vizuelna priroda igre: ljudima ovo ide bolje!

    U sutini, jedino to sada moemo da radimo u ovom trenutkuje da iskoristimo "jo nepotpuniju" varijantu reza, gde serazmatra samo nasumino odabran podskup poteza: spada uMonte Karlo algoritme.Ipak, postoje neki uspesi: 2013. pobeuje 9. dan igraa uzpoetnu prednost od tri etona. . .

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Matematiki formalizamQ-uenje

    ta ovo podrazumeva?

    OKRUENJE

    nagradekazne

    akcija

    nadraaj

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Matematiki formalizamQ-uenje

    Okruenje i reakcije agenata

    Pokuaemo da se bavimo uenjem koje nee ni na koji nainbiti u vezi sa teorijom verovatnoe i matematikom analizom(ha ha ha!).Okruenje je zadato nekim stanjima s1, s2, . . . , sn.Agent moe u svakom stanju da donese iste odluke, nazovimoih akcijama a1, a2, . . . , am.Uvodimo pretpostavku da je okruenje deterministiko, temoemo da modelujemo grafom:

    // s1a1 //

    a2

    OO

    s2a1 //

    a2~~

    OO

    s3 //

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Matematiki formalizamQ-uenje

    Funkcije promene stanja i nagrade

    Skup stanja: S = {s1, s2, . . . , sn}.Skup akcija: A = {a1, a2, . . . , am}.Poto je svet deterministiki, za zadato stanje i akciju jejedinstveno odreeno naredno stanje. Stoga je prirodno uvestifunkciju promene stanja: S : S A S.Agent eli da uradi neki zadatak. Smatraemo da umemo daprevedemo ovaj zadatak u "maksimizuj neki broj poena".Kaemo da primena akcije u nekom stanju donosi nekunagradu.

    Zato uvodimo funkciju nagrade:R : S A R.Dakle, koje su znaenja S (s, a) iR (s, a)?

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Matematiki formalizamQ-uenje

    Funkcija polise

    Agent na poetku nema informacije o funkcijama S iR.U toku uenja treba da formira funkciju polise p : S Akoja za svako stanje odreuje koju akciju bi trebalo sprovesti.Kako sada odabrati optimalnu polisu?Ako je startno stanje s S, za datu polisu p definiimo:

    s1 = s, s2 = S (s1, p (s1)), . . . , sk = S

    (sk1, p

    (sk1

    )), . . . ;

    rk = R (sk, p (sk)).Traimo neku ocenu polise p. Jedna mogunost je naredna, gdeje naa procena odnosa nagrade koja je dostupna sada inagrade koja je dostupna posle (discount factor):

    V p (s) =

    k=1

    k1rk = r1 + r2 + 2r3 + . . .

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Matematiki formalizamQ-uenje

    Q funkcija

    elimo da naemo popt, gde je popt (s) = argmaxp {V p (s)} zadato startno stanje s. Uvedimo i oznaku Vopt = V popt .

    Nalaenje optimalne polise nije teko ukoliko znamo S iR. . .Definiimo funkciju Q, gde s S, a A:

    Q (s, a) = R (s, a) + Vopt (S (s, a))Znaenje Q odgovara kvalitetu neke akcije ukoliko nakon njepratimo optimalnu polisu.

    Nauiti Q je dovoljno za ustanovljavanje optimlne polise jer:popt (s) = argmax

    a{Q (s, a)}

    Ko se usuuje da ispie formalan dokaz?

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Matematiki formalizamQ-uenje

    Nagovetaj iterativnog postupka

    Primetimo Vopt (s) = max {Q (s, )}.Stoga, kada ovo uvrstimo u definiciju Q:

    Q (s, a) = R (s, a) + max{Q (S (s, a) , )}

    Ovo nagovetava da, ako je Q trenutna procena za Q, da eR (s, a) + max

    {Q (S (s, a) , )}

    biti bolja procena za Q (s, a) od Q (s, a). Pri tome je Q tabelaaktuelnih procena za Q za sve elemente S A.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Matematiki formalizamQ-uenje

    Algoritam Q-uenja

    Na poetku je Q tabela popunjena nasumino odabranimvrednostima.

    1 Trenutno stanje je s, isprobaj neku akciju a (odabir a je magijaverovatnoe!).

    2 Uradi a, sleduje nagradaR (s, a).3 Posmatraj novo stanje S (s, a).4 Auriranje:

    Q (s, a) R (s, a) + max

    {Q (s, a) ,

    }5 Idi na 1.

    Andrej Ivakovi Vetaka inteligencija i igre

  • ta pod ovim podrazumevamo?Primeri igara

    Uenje sa pojaanjem

    Matematiki formalizamQ-uenje

    ta nam ovo govori?

    Agent pokuava da maksimizuje nagradu, ali "ne razume" ta, ustvari, radi.

    Koliko je ovo slino oveku?

    Moemo simpatine stvari da uradimo ako na ispravan nainomoguimo definisanje i itanjeR.Google DeepMind, uenje bez konteksta (jedini ulazni podacisu pikseli!):

    Andrej Ivakovi Vetaka inteligencija i igre

    ta pod ovim podrazumevamo?Uvodna razmatranjaNeki osnovni pojmovi

    Primeri igaraIgre sa malim brojem stanjaahGo

    Ucenje sa pojacanjemMatematicki formalizamQ-ucenje

    fd@rm@0: fd@rm@1: