Inleiding adaptieve systemen

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Inleiding adaptieve systemen

Competitie en coöperatie


Inhoud

• Twee-persoons competitieve symmetrische niet-nulsom spelen op basis van volledige informatie met simultane zetten en kwantitatieve beloningen– Prisoner’s Dilemma ( PD )– Stag Hunt ( SH )– Chicken ( CK )

• Begrippen: Pareto-optimale oplossing, Nash-evenwicht

• Uitbreidingen van het Prisoner’s Dilemma– Geïtereerd ( IPD )– Geïtereerd evolutionair ( IEPD )– Geïtereerd ruimtelijk evolutionair ( SIEPD )– Geïtereerd continu ruimtelijk evolutionair( CSIEPD )


Coöperatieve spelen

Agent 2

Agent 1

a1 a2 a3

a1 11 –30 0

a2 –30 7 6

a3 0 0 5

Doel: coördinatie


Competitieve spelen

Agent 2

Agent 1

a1 a2 a3

a1 11, 11 –30, 1 0, 1

a2 1, –30 7, 7 6, 0

a3 1, 0 0, 6 5, 5

Doel: eigen winst-

maximalisatie


Competitieve spelen

• Wie doet de vaat?• Gedeelde koffiepot• Meeliften in groepswerk• Wielrenners in een

kopgroep• NIMBY problematiek

(windmolenpark)• Vangstquotum in de

visserij• Handelsoorlog• Wapenwedloop


Koffiezet dilemma:twee potten koffie op een dag

• Pot koffie zetten (naar apparaat lopen, alle handelingen doen etc.): kosten C = 2

• Pot koffie drinken: baten B = 3

• Koffie zetten en drinken: nut is B – C = 1

Ik ( De Ander )

Is sociaal Verzaakt

Ben sociaal

Beiden één pot koffie zetten en samen drinken: B – C ( B – C ) = 1 ( 1 )

De ander profiteert: B – 2C ( B ) = –1 ( 3 )

Verzaak Ik profiteer : B ( B – 2C ) = 3 ( –1 )

We vertikken het allebei om koffie te zetten: 0 ( 0 )(C, B) → PD. Voor andere waarden

van C en B krijgen we een ander spel. (Doen we nu niet.)


Prisoner’s dilemma

(Speler B)

(Mondje dicht) (Verklikken)

Speler A

Mondje dichtTaakstraf

(Taakstraf)

Levenslang (Vrij en getuigen-bescherming)

Verklikken

Vrij en getuigen-

bescherming (Levenslang)

Straf (Straf)


Een abstractie

• Jij bent speler Speler 1.• Je speelt één keer,

zonder vooraf te (kunnen of willen) communiceren met Speler 2.

• Wat zou je doen als je wist dat Speler 2 samenwerkt (C)?

• Wat zou je doen als je wist dat Speler 2 verzaakt (D)?

• Dus wat zou je i.h.a. doen?

• Wat zou Speler 2 i.h.a. doen?

• Zou het uitmaken als Speler 1 en Speler 2 van te voren mochten communiceren?

Speler 2

Spe-ler 1

C D

C 3 ( 3 ) 0 ( 5 )

D 5 ( 0 ) 1 ( 1 )


Pareto front

• Een paar α = (αA, αB) heet een actie-profiel

– Afgekort met AP (“actie-profiel”)

– α van “actie”

• Een AP domineert een ander AP als

1. Tenminste één speler daar strict beter van wordt.

2. Geen enkele andere speler daar slechter van wordt.

• Een AP welke niet gedomineerd wordt door een ander AP, heet Pareto-optimaal

• Pareto-front = { PO opl. }

A ( B )

( C ) ( D )

C 3 ( 3 ) 0 ( 5 )

D 5 ( 0 ) 1 ( 1 )

Sommeren van nut is geen optie. (Som van Euro’s en Dollars = ??)


Nash evenwicht

• Je speelt beiden C (C) (links-boven).– Heb je reden om van

strategie C af te wijken?– Heeft B reden om af te

wijken?• Jij speelt C, maar B speelt

D (rechts-boven).– Weer dezelfde vragen voor

spelers A en B• Dezelfde vragen voor AP

(C, D) (links-onder).• Tenslotte voor AP (D, D)

• We zeggen dat een AP zich in een Nash-evenwicht bevindt als geen partij er baat bij heeft zijn actie (eenzijdig) te veranderen.

A ( B )

( C ) ( D )

C 3 ( 3 ) 0 ( 5 )

D 5 ( 0 ) 1 ( 1 )

Probleem: het Nash-evenwicht is NIET Pareto-optimaal


Normaalvorm(= generieke 2x2 matrix)

CC: we werken samen (Reward payoff, R)

DC: ik verzaak, de ander is een sukkel (Temptation payoff, T)

CD: ik ben coöperatief de ander verzaakt (Sucker payoff, S)

DD: we verzaken beiden (Penalty payoff, P)

Je krijgt verschillende spelen als je gaat

variëren met P, R, S, T

Naam van het spel

( Speler B )

( C ) ( D )

Spe-ler A

C R ( r ) S ( t )

D T ( s ) P ( p )


Tragedy of the commons

Meerdere deelnemers + indirecte interactie, bv. middels gedeelde reserves. Voorbeeld: overbevissing

• Reward ( R ): iedereen houdt zich aan het visquotum

• Verleiding ( T ): jij houd je er, als één van de weinigen, niet aan

• Penalty ( P ): iedereen heeft lak aan het quotum → zee leeg

• Sukkel ( S ): jij houd je er, als één van de weinigen, wel aan → zee leeg EN je hebt zelf niets

• Column van Lebbis (Hans Sibbel) over over-bevissing (in Spijkers met Koppen, 30 mei 2009).


Prisoner’s dilemma en Tragedy of the commons: T > R > P > S

DC: ik ga praten (verklikken) ten koste van mijn partner

CC: we houden beiden onze mond

DD: we gaan allebei praten

CD: ik houd m’n mond, maar wordt verklikt door mijn partner

Chicken game


Chicken: T > R > S > P

Ook wel: “sway or dare”

DC: ik rij rechtdoor, de ander niet

CC: we wijken beiden uit

CD: ik wijk uit, de ander rijdt rechtdoor

DD: we rijden beiden rechtdoor


Snowdrift: T > R > S > P

DC: ik blijf zitten, de ander ruimt sneeuw

CC: we ruimen beiden sneeuw

CD: ik ruim sneeuw, de ander niet

DD: we ruimen beiden geen sneeuw (en vriezen dood)

Ook hier geldt weer: T > R > S > P. Dus identiek aan Game of Chicken


Ontsnapte wielrenner terughalen

DC: de ander haalt groen terug en terwijl hij dat doet, ga ik in z’n wiel zitten

CC: we halen hem samen terug

CD: ik haal hem terug, met die ander in m’n wiel (en verminder zo m’n winstkansen)

DD: niemand haalt iemand terug (en we verliezen allebei de wedstrijd)

Ook hier geldt weer: T > R > S > P. Dus identiek aan Game of Chicken

Jij

Je con-current


Hert of haas: R > T > P > S

CC: we jagen samen op een hert

DC: ik jaag op een haas (jij vruchteloos op een hert)

DD: we jagen beiden op een haas

CD: jij jaagt op een haas (ik vruchteloos op een hert)

Claude Monet. De Jacht (1876)Hier geldt NIET: T > R >

S > P. Dus NIET identiek aan Game of Chicken


Samen uit, samen thuis

CC: we komen allemaal

DC: ik zeg af, de anderen komen

DD: we zeggen allemaal af

CD: ik kom, de anderen zeggen af

Hier geldt weer: R > T > P > S. Dus: Stag Hunt


Man:

• DC: we gaan samen naar voetbal

• CD: we gaan samen naar ballet

• DD: ik ga naar voetbal, jij gaat naar ballet

• CC: ik ga naar ballet, jij gaat naar voetbal

Battle of the sexes T > S > P > R

Weer andere ordening dan Prisoner’s,

Chicken en Stag Hunt.


Generieke 2x2 strategie-matrix

Als de ander D …

Als de ander C

…

… dan is het beter voor mij als ik C

… dan is het beter voor mij als ik D

… dan is het beter voor mij als ik C

Werk altijd samen → Spel zonder

dilemma’s

Coördineer met je partner → Stag

Hunt

… dan is het beter voor mij als ik D

Anti-coördineer met je partner →

Chicken (Snowdrift)

Verzaak altijd → Prisoner’s Dilemma


Overzicht van 2x2 competitief

Battle of the sexesPareto: CD, DC; Nash: CD, DC

( Speler B )

( C ) ( D )

Spe-ler A

C 0 ( 0 ) 2 ( 3 )

D 3 ( 2 ) 1 ( 1 )

Stag HuntPareto: CC; Nash: CC, DD

( Speler B )

( C ) ( D )

Spe-ler A

C 4 ( 4 ) 1 ( 3 )

D 3 ( 1 ) 2 ( 2 )

ChickenPareto: CD, DC; Nash: CD, DC

( Speler B )

( C ) ( D )

Spe-ler A

C 0 ( 0 ) -1 ( 1 )

D 1 ( -1 ) -5 ( -5 )

Prisoner’s dilemmaPareto: CC, CD, DC; Nash: DD

( Speler B )

( C ) ( D )

Spe-ler A

C 3 ( 3 ) 0 ( 5 )

D 5 ( 0 ) 1 ( 1 )


Competitie en coöperatie

Gemixte strategieën


Gemixte strategie

• Stel, speler A besluit C met kans p te spelen. We zeggen dan dat A volgens een gemixte strategie met parameter p speelt. Kortweg: de strategie van A is p.

• Evenzo noteren we een gemixte strategie van B als q.

• Vraagstuk: voor welke paren van kansen vormt (p, q) een Nash-evenwicht?

p

1 – p

q

1 – q


PrB(C) is bekend

Stel, A weet dat B met kans q actie C speelt, i.e., PrB(C) = q

Wanneer wordt het voor A interessant om ook actie C te spelen?

Antwoord: als en slechts als:

PayoffA( C | PrB(C) = q ) > PayoffA( D | PrB(C) = q )

Als en slechts als: qR + (1 – q)S > qT + (1 – q)P

q oplossen geeft:

q > (P – S)/(R – T + P – S), als R – T + P – S > 0

q < (P – S)/(R – T + P – S), als R – T + P – S < 0

S > P, anders.

A ( B )

C D

C R ( r ) S ( t )

D T ( s ) P ( v )


Nash-evenwicht bij gemixte strategie

• Neem aan dat 0 < R – T + P – S < 1

• In dat geval zagen we dat A– Beter kan samenwerken

a.e.s.a. q > (P – S)/(R – T + P – S)

– Beter kan verzaken a.e.s.a. q < (P – S)/(R – T + P – S)

– In alle andere gevallen is de waarde van p voor A irrelevant.

• Hetzelfde geldt voor B, maar dan symmetrisch p

q

SPTR

SP

svtr

sv


Ik

De Ander

Prisoner’s dilemma

0 ( 5 )

3 (3)

Eén NE

1 (1)


Ik

De Ander

Stag hunt (samen uit, samen thuis)Drie NE, waarvan één labiel

4 ( 4 )

1 ( 3 )

3 ( 1 )

2 ( 2 )


Ik

De Ander

Chicken (Snowdrift game)Drie NE

-5 ( -5 )

0 ( 0 )

-1 ( 1 )1 ( -1 )


Ik

De And

er

Battle of the sexes Eén NE

0 ( 0 )

1 ( 1 ) 3 ( 2 )

2 ( 3 )

Berekenen vangemixt Nash evenwicht

• UA(p,q) = 3pq + 2p(1−q) + 5(1−p)q + (1−p)(1−q)

• ∂/∂p UA(p,q) = 3q + 2(1−q) + 5q·−1 + (1−q) ·−1

= −3q + 1

• ∂/∂p UA(p,q) = 0

↔ q = 1/3.

Een payoff matrixNash: (1, 0), (0,1) en (2/5, 1/3)

( Speler B )

( C ) ( D )

Spe-ler A

C 3 ( 1 ) 2 ( 4 )

D 5 ( 2 ) 1 ( 0 )

• UB(p,q) = pq + 4p(1−q) + 2(1−p)q

• ∂/∂q UB(p,q) = 0

↔ p = 2/5.


Variaties ophet Prisoner’s Dilemma


Variaties

• Het herhaalde Prisoner’s Dilemma (Eng.: Iterated PD, IPD)

• Een evolutionaire variant van het IPD (EIPD)

• Een ruimtelijk-evolutionaire variant van het IPD (SEIPD)

• Een continu-ruimtelijk-evolutionaire variant van het IPD (CSEIPD)


Iterated Prisoner’s Dilemma (IPD)

Enkele strategieën:

• Altijd samenwerken (ALL-C)

• Altijd verzaken (ALL-D)

• Maar wat doen (RAND)

Payoff matrix éénmalige interactie

Ik De Ander

C D

C 3 ( 3 ) 0 ( 5 )

D 5 ( 0 ) 1 ( 1 )

• Oog om oog, tand om tand (Engels: tit-for-tat, TFT)


Voorbeeld van2 Episoden van elk 10 Ronden

D D D D D D D D D D

ALL-D 5 1 1 1 1 1 1 1 1 1

TFT 0 1 1 1 1 1 1 1 1 1

C D D D D D D D D D

C C C D D C C C D C

RAND 3 3 3 5 1 0 3 3 5 0

TFT 3 3 3 0 1 5 3 3 0 5

C C C C D D C C C D


Opbrengst van rij t.o.v. kolom

ALL-C ALL-D RAND TFT Gem.

ALL-C 3 0 1.5 3 1.9

ALL-D 5 1 3 ↓ 1 2.5

RAND 4 0.5 2.25 2.25 2.3

TFT 3 ↑ 1 2.25 3 2.3


Succes en zwakte van TFT

Succes:• Kan onmogelijk uitgebuit

worden• Presteert nooit slechter dan

tegenstander

Zwakte:• Kort geheugen: blijft bij D

hangen in D, tenzij tegenstander C doet

• Presteert nooit beter dan tegenstander

TitTat


Met TFT nooit echt veelslechter af dan tegenstander

C

C

0

C

C

0

D

C

–5

D

D

0

D

D

0

D

D

0

C

D

5

C

C

0

C

C

0

C

C

0

D

D

0

C

D

5

C

C

0

D

C

–5

• Speler 2 kan één keer verzaken, maar moet bij wisseling van strategie altijd zijn winst weer inleveren.

2

1

Speel een IPD tegen de computer


Andere strategieën

• UNFORGIVING: als tegenstander verzaakt, dan nooit meer meewerken

• TF2T: tit-for-two-tats: TFT, maar pas vergelden na twee opeenvolgende defects van tegenstander.

• PAVLOV: start met C. Wissel strategie als sucker of punishment.

Werkt beter onder noise dan TFT.

Meer: zie mijn master seminar over adaptive agents, onderdeel “repeated games”


Discrete replicator-dynamiek(Flake: ecological world, pp. 297-300)

Initialisatie:• Stel K strategieën vast, bv. { ALL-C, ALL-D, RAND,

TFT, UNFORGIVING, PAVLOV }. (Hier K = 6.)• Stel aantal ronden N vast. (Zeg, N = 200.)• Reward i tegen j = Ri,j = gemiddelde opbrengst voor i

tegen j over N ronden.• Geef iedere strategie i een initieel aandeel Pi z.d.d. som

der gewichten = 1.0.Herhaal voor E episoden:• Score i = gemiddelde opbrengst voor strategie i.• Pas Pi aan op basis van de gewogen score.


Update-formulevoor strategie-aandeelDe score van Strategie i op tijdstip t is gelijk aan de

gemiddelde interactie-opbrengst van i, gewogen naar de populatieomvang van soorten:

n

jjj

iii

tStP

tStPtP

1

)()(

)()()1(

n

kikki tRtPtS

1

)()()(

Het aandeel van Strategie i op een volgend tijdstip t+1 is gelijk aan


Flake: ecological world (ideal)


Flake: ecological world (noise-free)


Flake: ecological world (noise)


Spatial iterated PD (SIPD)

• Initiële populatie: 60% coöperatief, rest verzaakt.

• Strategie per cel:1. Concurreer met acht

buren.2. Adapteer strategie van

meest succesvolle buur.

• Kleuren:– Blauw: blijft C– Rood: blijft D– Geel: D → C– Groen: C → D

Interessante parameter: beloning

om te verzaken

α

Spatial iterated PD (SIPD)

• C– Zes buren werken mee,

twee niet. Opbrengst: 6.– Vijf buren werken mee, drie

niet. Opbrengst: 5.

• D– Zes buren werken mee,

twee niet. Opbrengst: 6α.– Vijf buren werken mee, drie

niet. Opbrengst: 5α.– Wil D profijt trekken, dan

moeten er meewerkende buren zijn!

Een payoff matrixNash: (1, 0), (0,1) en (2/5, 1/3)

( Speler B )

( C ) ( D )

Spe-ler A

C 1 ( 1 ) 0 ( α )

D α ( 0 ) 0 ( 0 )

• N.B. Het ruimtelijk IPD zoals te vinden in Netlogo ≠ het ruimtelijk IPD zoals dat beschreven is in het boek van Flake.

α > 1


Ordening van strategieën

DC

DD CC

CD1

2 3

4


Chicken: DC > CC > CD > DD

DC

DD CC

CD1

2 3

4 !


Hert of haas: CC > DC > DD > CD

DC

DD CC

CD1

2 3

4

!


Prisoner’s: DC > CC > DD > CD

DC

DD CC

CD1

2 3

4


Doebeli et al. (1999): continuous spatial iterated PD (CSIPD)

• Strategie: bepaal investering I

• Winst(I) = Baten(I) – Kosten(I)

• Alle kosten zijn voor jezelf—alle baten gaan naar je buren.

• Stel, als voorbeeld

– I1 = 0.3 (voorheen: D)

– I2 = 0.5 (voorheen: C)

– 8 buren in grid, waarvan 6 x C

Baten =Def 8(1 – e(– I))

Ik ( Andere 8 )

6 x C 2 x C

C 22 14

D 24 15 Dit voorbeeld geeft een discrete (= geheeltallige) versie van het

Prisoner’s Dilemma

Kosten =Def 0.7 * I

Max. winst

Investering →



Waardoor samenwerking?

• I1 < I2

• Als Groen van Rood wil winnen dan moet

6B(I2) + 2B(I1) – 8C(I2) > 4B(I2) + 4B(I1) – 8C(I1)

• Oftewel: B(I2) – B(I1) > 4(C(I2) – C(I1))

• Dit is precies het geval als B (een lineaire factor, hier: 4) harder stijgt dan C ↔ in het begin!

I1I1

I1

I1

I2

I2

I2

I2 I2I2

I1

I2

Voor exacte uitwerking zie slides master seminar adaptive agents, “real-valued spatial games”


Samenvatting

Centraal probleem: Hoe beweeg je individuen tot samenwerken als er verleidingen zijn om te verzaken?

• Stag Hunt: er zijn equilibria, t.w.: nooit samenwerken, altijd samenwerken en, met gemixte strategie, soms samenwerken.

• Chicken: er zijn equilibria. Geen symmetrisch equilibrium voor pure strategieën, wel voor scenario’s met gemixte strategieën (!)

• Prisoner’s: in 2-persoon scenario is er geen Pareto-optimale gedeelde strategie. Samenwerking kan alleen ontstaan als er herhaling, ruimte, continuïteit, reputatie, vertrouwen of super-rationaliteit in het model wordt ingebouwd.

Documents

Inleiding adaptieve systemen