Veštacka inteligencija i igre

Vetaka inteligencija i igre

Andrej Ivakovi

Matematika gimnazija, Nedelja informatike

30. mart 2015.

Andrej Ivakovi Vetaka inteligencija i igre

ta pod ovim podrazumevamo?Primeri igara

Uenje sa pojaanjem

Uvodna razmatranjaNeki osnovni pojmovi

O emu emo priati ovde

Polovina prijavljenih je navelo ovo predavanje kaonajzanimljivije!

Kako uopte definisati na zadatak?

Ono to raunari rade uspeno esto prestajemo da nazivamovetakom inteligencijom.Neke oblasti:

mainsko uenje (i gomila primena i tehnika!);obrada prirodnih jezika;automatsko dokazivanje teorema.



Uenje sa pojaanjem


Filozofska i etika pitanja

Da li je vetaka inteligencija nemogua?

Da li bismo smeli da se bavimo daljim istraivanjima u ovojoblasti?

Krajem 2014. oglasili se Stiven Hoking, Elon Mask, Bil Gejts. . .



Uenje sa pojaanjem


ta je bilo reeno?



Uenje sa pojaanjem


O emu NEEMO priati

Kako napraviti balansirano ponaanje za "vetakuinteligenciju"u raunarskih igrama.

Tjuringov test.Algoritmi i heuristike mainskog uenja:

analiza klastera;genetiki algoritmi;neuralne mree.

Hrpa matematika koja je inae neophodna za vetakuinteligenciju.

Moji planovi za osvajanje sveta pomou zlih robota.



Uenje sa pojaanjem


Na cilj danas

Definisati agente.Pokazati neke standardne ideje iz vetake inteligencije nasledeim primerima igara:

nauiti mainu da igra iks-oks;nauiti mainu da igra ah, korienje pretraga stabala iminimax algoritma;igranje igre go.

Kako napraviti algoritam koji agentu u nepoznatom svetuodreuje optimalno ponaanje?



Uenje sa pojaanjem


Agenti

Agentom nazivamo bilo kakav ureaj koji je u mogunosti daprima nadraaje iz okoline i reaguje na njih.

REAGUJ

OKRUENJE

AGENT

OSETI

Kako ocenjujemo agente?

Kakvo sve moe da bude okruenje?



Uenje sa pojaanjem


Programiranje agenata

Moemo li da odravamo tabelu koja e povezivati nizove draisa reakcijama?

Agent je autonoman ukoliko njegovo ponaanje na neki nainzavisi od njegovih prethodno primljenih drai.Agent treba da odrava:

opis trenutnog stanja okruenja;informacije o tome kako se okruenje menja nezavisno odagenta;informacije o tome kako agentove radnje menjaju okruenje.

Agent bira reakcije u zavisnosti od cilja i preferiranog puta.Ravnotea izmeu primene nauenog i uenja.



Uenje sa pojaanjem

Igre sa malim brojem stanjaahGo

Struktura igre iks-oks

Svi ste (nadam se) upoznati sa tim kako ova igra funkcionie.

Postoji mali konaan broj stanja igre koja moemo dapredstavimo vorovima aciklinog usmerenog grafa, a graneovog grafa su potezi. Radi jednostavnosti emo koristiti stablo(do nekih stanja moe da se doe na vie naina).ta dalje radimo sa ovim stablom?



Uenje sa pojaanjem


Odreivanje pobednike strategije

U ovakvim igrama moemo da odredimo za svako stanje da li jepobedniko, gubitniko ili nereeno, gde npr. stanje zovemopobednikim ukoliko pri optimalnoj igri oba igraa igra koji jena potezu sigurno pobeuje.Nakon izgradnje stabla, obilazimo stablo u post-order ("odozdona gore"):

Za listove stabla znamo kojoj vrsti stanja odgovaraju.Za ostale vorove razmatramo sluajeve:

1 Ukoliko postoji potez koji iz nekog stanja S dolazi do gubitnikogstanja L, tada je S pobedniko.

2 Ukoliko svi potezi mogui u stanju S vode do pobednikih stanja,S je gubitniko stanje.

3 U suprotnom, stanje S je nereeno.



Uenje sa pojaanjem


Malo uoptenje. . .

Ovaj princip moemo da koristimo u velikom broju igara samalim brojem stanja (ukljuujui i one koje imaju samo jednogigraa npr. Rubikova kocka).Razmotrimo varijantu u kojoj svaki potez nosi poznati odreenibroj poena, a cilj svakog igraa je da se ostvari to je moguevea prednost u odnosu na drugog igraa.

Osnovna ideja algoritma ostaje ista, ali sada je "rekurentnaveza" drugaija.



Uenje sa pojaanjem


Minimax algoritam

Za svako stanje znamo koji je igra na potezu. Jednog igraazovemo Max, a drugog Min.Posmatrajmo razliku izmeu poena koje ima Max i poena kojeima Min. Pri optimalnoj strategiji oba igraa:

Min eli da minimizuje ovu razliku, pri emu smatra da Maxigra optimalno;Max eli da maksimizuje ovu razliku, pri emu smatra da Minigra optimalno;ova dva cilja se uravnotee: minimalan gubitak Min-a jejednak maksimalnom dobitku Max-a (minimax teorema).

Sada emo probati da razmotrimo primer jedne "apstraktne"igre.



Uenje sa pojaanjem


Ilustracija minimax algoritma

6 2 3

1 9 5

4 5 7



Uenje sa pojaanjem



2

6 2 3

1 9 5

4 5 7



Uenje sa pojaanjem



2

6 2 3

1

1 9 5

4 5 7



Uenje sa pojaanjem



2

6 2 3

1

1 9 5

4

4 5 7



Uenje sa pojaanjem



4

2

6 2 3

1

1 9 5

4

4 5 7



Uenje sa pojaanjem


Gde dolazi do problema?

ta ako su ciklusi dozvoljeni?

ta ako do ciklusa ne sme da doe, ali ga graf igre dozvoljava?

ta ako igra ima mnogo veliki broj stanja?

Jasno je da moramo da pribegnemo nekim heuristikama.Definiemo ply : broj poteza "unapred" koje razmatramo usvakom trenutku. Po nekim procenama, dobar igra aha (aline majstor) ima 3 ply.Ali i dalje ne moemo da prikaemo itavo stablo. . .



Uenje sa pojaanjem


Malo o ahu

Igra je stara 1500 godina.Istraivanja zapoetka etrdesetih godina, prvi programirazvijani krajem pedesetih.Ve sedamdesetih poeli da pobeuju vrhunske igrae.1996. godine Deep Blue igra est partija protija GarijaKasparova sa rezultatom 42 (u korist Kasparova). Narednegodine Deep Blue pobeuje rezultatom 3122

12 .



Uenje sa pojaanjem


Deep Blue

Razvijan sedam godina od strane IBM-a.256 procesora od po 120MHz, rezultat je da se u jednojsekundi obavi 1.138 1010 floating point operacija.



Uenje sa pojaanjem


ta kae IBM, kako ovo radi?

Definiemo funkciju procene (evaluation function) eval kojadaje "vrednost" svakom poloaju i zavisi od sledeihparametara:

materijalna vrednost: kolika je naa prednost u odnosu naprotivnika u smislu "jaine" figura; rauna se kao

wifi, gde je

wi jaina neke figure (1 je za peaka, 5 je za topa itd), fiodreuje kom igrau pripada (1);poziciona vrednost: sabrati po svim figurama broj napadnutihpolja;vrednost bezbednosti kralja: ocenjuje koliko su razna polja"bezbedna", pa onda uzima u obzir njihovu udaljenost od kralja;vrednost tempa: zavisi od toga koliko protivnik unapreujesvoj poloaj.

Funkcije procene su este u igrama ovog tipa, ali je njihovosmiljanje u optem sluaju teak problem.



Uenje sa pojaanjem


ta sada sa eval?

Primenimo minimax algoritam, ali ne na celom stablu, ve saogranienom dubinom (ply agenta). Listovi ovog stabla sadrevrednosti relevantne za minimax.

Meutim, ak i uz ovu aproksimaciju, na jednom savremenomraunaru je neophodno 2min za 34 ply. Kako da pobedimovelemajstore?

Problem je u tome to razmatramo dosta neoptimalnih stanja uminimax algoritmu. Moramo nekako da ih se otarasimo!



Uenje sa pojaanjem


rez

Vratimo se primeru izvravanja minimax algoritma.

Moemo da postepeno auriramo koren, a neki voroviimpliciraju da ne vredi razmatrati potez. . .

2

6 2 3

1 9 5

4 5 7



Uenje sa pojaanjem


rez



2

2

6 2 3

1 9 5

4 5 7



Uenje sa pojaanjem


rez



4

2

6 2 3

1 9 5

4

4 5 7



Uenje sa pojaanjem


rez u optem sluaju

U stvari je re o pretrazi po dubini (DFS), pri emu prirazmatranju nekog vora razmatramo samo vorove na putu donjega.

Na tom putu, neka je najvea vrednost koju moe dapostigne Max, a najmanja vrednost koju moe da postigneMin (na samom poetku se podesi = , = +).Koristiemo funkcije player(Node* v) i opponent(Node* v), a napoetku se pozove player(root).



Uenje sa pojaanjem


Vrednosti i su podloni promenama, nain kako se vidi izrazmatranja n < m i n < .

Nemamo puno sluajeva. . .

v1

. . . . . .

v2

. . . m n

. . .



Uenje sa pojaanjem


Pseudokod za player(Node* v)

1 int player(Node* v)2 {3 if (cutOff(v)) return eval(v);4 value = -INFINITY;5 foreach (u : v -> children)6 {7 value = max(value , opponent(u));8 if (value > BETA) return value;9 if (value > ALPHA) ALPHA = value;

10 }11 return value;12 }

Kod za opponent(Node* v) je analogan. . .



Uenje sa pojaanjem


Koliko je dobar rez?

Ignoriimo detalje oko predstavljanja stanja, interesuje nasiskljuivo vreme.Za poetak, minimax je imao vremensku sloenost O (qp), gdeje q faktor ravanja (broj moguih poteza u svakom stanju), a ptraeni ply.Za rez ponaanje dosta zavisi od redosleda kojim seobilaze vorovi. U savrenom sluaju bismo mogli da imamo

O(q

p2

).

Za rez moe da se dokae da je asimptotska sloenost:

O((

qlog q

)p),

odnosno, za praktine vrednosti q priblino O(q

3p4

).

U praksi uspevamo da odredimo redoslede koji nam pomau daudvostruimo ply.


"The Fathers of the field had been prey confusing: John von Neumannspeculated about computers and the human brain in analogies suicientlywild to be worthy of a medieval thinker and Alan M. Turing thought aboutcriteria to sele the question of whether Machines Can Think, a question

of which we now know that it is about as relevant as the question ofwhether Submarines Can Swim."

Edsger W. Dijkstra


Uenje sa pojaanjem


Pravila igre go

Data je tabla sa 19 horizontalnih i 19 vertikalnih linija, napoetku je prazna.Crni i Beli imaju etone koje naizmenino stavljaju na tablu.Crni igra prvi.etoni se stavljaju na preseke linija.Igra moe da preskoi jedan potez bilo kada, ali mora dartvuje jedan svoj eton.Igra se zavrava nakon dva uzastopna preskoena poteza, priemu je Beli taj koji zavrava igru.



Uenje sa pojaanjem


Pravila igre go

Teritorija nekog igraa podrazumeva broj preseka na kojima suetoni tog igraa ili koji su atvoreni" etonima tog igraa.Pobeuje igra sa vie teritorije.Ukoliko nakon poteza igraa A neka grupa etona B postaje"potpuno okruena" etonima A, ta grupa se sklanja sa table.Superko pravilo: ne sme da se ponovi nijedan poloaj koji sejavio ranije u toku igre.



Uenje sa pojaanjem


Tekoe

Tabla je mnogo vea nego u ahu, mnogo vie mogunosti.

Predstavljanje stanja je problematino, mora da se zadovoljisuperko pravilo.

Vizuelna priroda igre: ljudima ovo ide bolje!

U sutini, jedino to sada moemo da radimo u ovom trenutkuje da iskoristimo "jo nepotpuniju" varijantu reza, gde serazmatra samo nasumino odabran podskup poteza: spada uMonte Karlo algoritme.Ipak, postoje neki uspesi: 2013. pobeuje 9. dan igraa uzpoetnu prednost od tri etona. . .



Uenje sa pojaanjem

Matematiki formalizamQ-uenje

ta ovo podrazumeva?

OKRUENJE

nagradekazne

akcija

nadraaj



Uenje sa pojaanjem


Okruenje i reakcije agenata

Pokuaemo da se bavimo uenjem koje nee ni na koji nainbiti u vezi sa teorijom verovatnoe i matematikom analizom(ha ha ha!).Okruenje je zadato nekim stanjima s1, s2, . . . , sn.Agent moe u svakom stanju da donese iste odluke, nazovimoih akcijama a1, a2, . . . , am.Uvodimo pretpostavku da je okruenje deterministiko, temoemo da modelujemo grafom:

// s1a1 //

a2

OO

s2a1 //

a2~~

OO

s3 //



Uenje sa pojaanjem


Funkcije promene stanja i nagrade

Skup stanja: S = {s1, s2, . . . , sn}.Skup akcija: A = {a1, a2, . . . , am}.Poto je svet deterministiki, za zadato stanje i akciju jejedinstveno odreeno naredno stanje. Stoga je prirodno uvestifunkciju promene stanja: S : S A S.Agent eli da uradi neki zadatak. Smatraemo da umemo daprevedemo ovaj zadatak u "maksimizuj neki broj poena".Kaemo da primena akcije u nekom stanju donosi nekunagradu.

Zato uvodimo funkciju nagrade:R : S A R.Dakle, koje su znaenja S (s, a) iR (s, a)?



Uenje sa pojaanjem


Funkcija polise

Agent na poetku nema informacije o funkcijama S iR.U toku uenja treba da formira funkciju polise p : S Akoja za svako stanje odreuje koju akciju bi trebalo sprovesti.Kako sada odabrati optimalnu polisu?Ako je startno stanje s S, za datu polisu p definiimo:

s1 = s, s2 = S (s1, p (s1)), . . . , sk = S

(sk1, p

(sk1

)), . . . ;

rk = R (sk, p (sk)).Traimo neku ocenu polise p. Jedna mogunost je naredna, gdeje naa procena odnosa nagrade koja je dostupna sada inagrade koja je dostupna posle (discount factor):

V p (s) =

k=1

k1rk = r1 + r2 + 2r3 + . . .



Uenje sa pojaanjem


Q funkcija

elimo da naemo popt, gde je popt (s) = argmaxp {V p (s)} zadato startno stanje s. Uvedimo i oznaku Vopt = V popt .

Nalaenje optimalne polise nije teko ukoliko znamo S iR. . .Definiimo funkciju Q, gde s S, a A:

Q (s, a) = R (s, a) + Vopt (S (s, a))Znaenje Q odgovara kvalitetu neke akcije ukoliko nakon njepratimo optimalnu polisu.

Nauiti Q je dovoljno za ustanovljavanje optimlne polise jer:popt (s) = argmax

a{Q (s, a)}

Ko se usuuje da ispie formalan dokaz?



Uenje sa pojaanjem


Nagovetaj iterativnog postupka

Primetimo Vopt (s) = max {Q (s, )}.Stoga, kada ovo uvrstimo u definiciju Q:

Q (s, a) = R (s, a) + max{Q (S (s, a) , )}

Ovo nagovetava da, ako je Q trenutna procena za Q, da eR (s, a) + max

{Q (S (s, a) , )}

biti bolja procena za Q (s, a) od Q (s, a). Pri tome je Q tabelaaktuelnih procena za Q za sve elemente S A.



Uenje sa pojaanjem


Algoritam Q-uenja

Na poetku je Q tabela popunjena nasumino odabranimvrednostima.

1 Trenutno stanje je s, isprobaj neku akciju a (odabir a je magijaverovatnoe!).

2 Uradi a, sleduje nagradaR (s, a).3 Posmatraj novo stanje S (s, a).4 Auriranje:

Q (s, a) R (s, a) + max

{Q (s, a) ,

}5 Idi na 1.



Uenje sa pojaanjem


ta nam ovo govori?

Agent pokuava da maksimizuje nagradu, ali "ne razume" ta, ustvari, radi.

Koliko je ovo slino oveku?

Moemo simpatine stvari da uradimo ako na ispravan nainomoguimo definisanje i itanjeR.Google DeepMind, uenje bez konteksta (jedini ulazni podacisu pikseli!):


ta pod ovim podrazumevamo?Uvodna razmatranjaNeki osnovni pojmovi

Primeri igaraIgre sa malim brojem stanjaahGo

Ucenje sa pojacanjemMatematicki formalizamQ-ucenje

fd@rm@0: fd@rm@1:

Documents

Veštacka inteligencija i igre