Jesús Muñoz San Miguel Matemáticas II: Teoría de juegos no cooperativos Segunda parte

Jesús Muñoz San Miguel

Matemáticas II:Teoría de juegos no cooperativos

Segunda parte

JUEGOS EN FORMA EXTENSIVAHay dos representaciones principales de representar un juego y sus reglas • La forma normal o forma estratégica se emplea para estudiar juegos simultáneos. • La forma extensiva se emplea para estudiar juegos secuenciales.

Las dos representaciones son intercambiables, cada juego en forma extensiva se puede escribir en forma estratégica y, del mismo modo, todos los juegos en forma estratégica se puede representar en forma extensiva.

• quién: ¿qué grupo de jugadores interactúa de manera estratégica?.• qué: ¿qué acciones alternativas u opciones tiene cada jugador disponibles?• cuándo: ¿en qué orden actúa cada jugador?• cuánto: ¿qué cantidad pueden ganar (o perder) ?

El juego del teatro (simultáneo) Dos jugadores van a ver un musical de Broadway que tiene gran demanda por lo que sólo queda una entrada y el que llegue primero será el que lo consiga (si llegan a la vez hay una probabilidad del 50 por ciento para cada jugador). Tienen que decidir qué forma de transporte tomar: b (autobús), c (taxi), o s (metro). Un taxi es más rápido que el metro, que, a su vez, es más rápido que el autobús. Los pagos dependen de la obtención de la entrada, así como del modo de transporte.

c s b

c , (T,c),(N,s) (T,c), (N,b)

s (N,s),(T,c) , (T,s),(N,b)

b (N,b),(T,c) (N,b),(T,s) ,

Forma extensiva de un juego: Representación gráfica que adquiere forma de árbol.• Comienza con el nodo raíz (nodo que representa el comienzo del juego)• Del nodo raíz salen varias ramas (representan las posibles elecciones del primer jugador que toma una decisión)• Cada rama termina en un nodo de uno de estos dos tipos:• nodo de decisión (situación en la que un jugador realiza una nueva elección que da

lugar a nuevas ramas)• nodo terminal (corresponde al final del juego)

•Cada nodo terminal está etiquetado con los pagos de los jugadores

El juego del teatro (secuencial)

Representación de movimientos simultáneos • Un jugador actúa igual si elige simultáneamente a sus oponentes que si elige

después pero desconoce la elección de éstos. • Sustituimos los nodos en los que un jugador no puede distinguir la elección realizada

por un óvalo que los envuelve, que recibe el nombre de conjunto de información.

El juego del teatro (simultáneo)

Estrategia: regla de decisión que le dice a un jugador cómo actuar en cada momento.• Cada estrategia da lugar a una acción en cada nodo de decisión o, en su caso, en

cada conjunto de información. • Si tenemos una y sólo una estrategia para cada jugador podemos determinar como

se desarrollará el juego exactamente• Una estrategia mixta es una distribución de probabilidad sobre las estrategias puras

Forma extensiva del juego del teatro (secuencial)

Forma estratégica del juego del teatro (secuencial)

ccc …. scb ….

c …. ….

s …. ….

b …. ….

Estrategia: regla de decisión que le dice a un jugador cómo actuar en cada momento.• Cada estrategia da lugar a una acción en cada nodo de decisión o, en su caso, en

cada conjunto de información. • Si tenemos una y sólo una estrategia para cada jugador podemos determinar como

se desarrollará el juego exactamente• Una estrategia mixta es una distribución de probabilidad sobre las estrategias purasForma extensiva del juego del teatro (simultáneo)

Forma estratégica del juego del teatro (simultáneo)c s b

c (T,c)+(N,c),(T,c)+(N,c)

(T,c),(N,s) (T,c), (N,b)

s (N,s),(T,c) (T,s)+(N,s),(T,s)+(N,s)

(T,s),(N,b)

b (N,b),(T,c) (N,b),(T,c) (T,b)+(N,b),(T,b)+(N,b)

Consistencia del árbol del juego

Los predecesores de un nodo A son todos los nodos desde los que se puede ir a A a través de una secuencia de ramas.

Si imponemos las siguientes restricciones sobre los predecesores de los nodos podemos garantizar la consistencia• Un nodo no puede ser un predecesor de si mismo.• El predecesor de un predecesor de un nodo es también su predecesor: si A es un

predecesor de un nodo B y B es un predecesor del nodo C entonces A es un predecesor de C

• Los nodos pueden ordenarse: si A y B son ambos predecesores de C o bien A es un predecesor de B o bien B es un predecesor de A

• Debe haber un antecesor común: si dos nodos A y B no son predecesores uno del otro debe haber un tercer nodo C que preceda a ambos.

Juegos de información perfecta son juegos en forma extensiva con exactamente un nodo en cada conjunto de información(no hay movimientos simultáneos).

En un juegos de información perfecta no existe ambigüedad y cada vez que un jugador juega conoce exactamente la historia del juego

Juego de entrada 1 Coca-Cola tiene que decidir si entra (E=enter) o no entra (O=out) en un nuevo mercado dominado por su rival Pepsi. La decisión de Coca-Cola se guía por la rentabilidad potencial de este nuevo mercado, que depende de la reacción de Pepsi. Si Pepsi contraataca y actúa duro (T=tough), Coca-Cola tiene pérdidas. Por el contrario, si Pepsi no contraataca y se acomoda (a=accommodate) lo que tiene es ganancias

Juego de entrada II (juego de información perfecta)En este juego de entrada, después de observar la respuesta de Pepsi, Coca-Cola tiene que decidir si reacciona contraatacando y actúa duro (T) o no lo hace y se acomoda (a)

Juego de entrada III (juego de información imperfecta)En este juego de entrada, Coca-Cola tiene que decidir si reacciona contraatacando o no sin conocer la reacción de Pepsi

Una predicción razonable sobre un juego tiene que incluir la racionalidad secuencial• La racionalidad implica que un jugador escogerá la mejor respuesta a su

disposición en un nodo de decisión teniendo en cuenta su percepción sobre el futuro del juego.

• La secuencialidad implica que en el futuro los jugadores razonarán de la misma manera y en un nodo posterior escogerán la mejor respuesta teniendo en cuenta su percepción sobre lo que resta del futuro del juego.

Juego de entrada I (continuación)Comprobar, utilizando la forma estratégica del juego, que el juego de entrada I tiene como equilibrios de Nash (E,A) y (O, T)

El único equilibrio razonable es (E,A), en el que Coca-Cola entra en el mercado y Pepsi no contraataca.

Tough Acommodate

Enter -2,-1 1,2

Out 0,5 0,5

Coke \ Pepsi T A

ETT -2, -1 0,-3

ETA -2, -1 1, 2

EAT -3,1 0,-3

EAA -3, 1 1, 2

OTT 0, 5 0, 5

OTA 0, 5 0, 5

OAT 0, 5 0, 5

OAA 0, 5 0, 5

Juego de entrada II (continuación)Cada estrategia de Coca-Cola tiene tres componentes: • la primera le dice si entrar o no en el mercado, • la segunda le dice que hacer si Pepsi actúa duro • la tercera le dice que hacer si Pepsi se acomoda.

Hay esencialmente tres equilibrios de Nash en estrategias puras:• Equilibrios de Nash en los que Pepsi actúa duro (T) y Coca-Cola juega cualquiera de las

cuatro estrategias en las que se mantiene fuera (O.T.T , O.T.A, O.A.T y O.A.A)• (ETA,A) con el resultado de que Coca-Cola entra y se acomodan ambas empresas.• (EAA,A) con el mismo resultado que en el segundo equilibrio.

La única estrategia secuencialmente racional para Coca-Cola es ETAEl único equilibrio de Nash secuencialmente racional es (ETA,A) .

El poder del compromiso.• Aunque parece que es peor tener menos opciones, hay juegos en los que tener menos

opciones puede suponer tener más pagos. • Si un jugador tiene más opciones se puede comportar de manera muy diferente en el

futuro. Este comportamiento afecta al juego actual y a los demás jugadores. • Este cambio puede ser beneficioso o perjudicial para el jugador con mayores opciones.

Juego de entrada II’ (variante del juego de entrada II).En el juego de entrada II reducimos las opciones de Coca-Cola después de su entrada en elmercado y suponemos que Coca-Cola no se puede acomodar. Coca-Cola sólo tiene la opción de competir y jugar duro

Juego de entrada I’ (variante del juego de entrada I).En el juego de entrada I reducimos las opciones de Pepsi después de la entrada de Coca-Cola eliminando acomodar. Pepsi sólo tiene la opción de competir y jugar duro

INDUCCIÓN HACIA ATRÁS• En un nodo de decisión final la única predicción razonable es la que tiene en cuenta que

el jugador tomará la acción que maximiza sus ganancias (la decisión del jugador que elige termina el juego).

• En el penúltimo nodo de decisión el jugador conoce la consecuencia exacta de cada una de sus elecciones porque sabe la decisión que se tomará en el nodo de decisión final (en el penúltimo nodo de decisión puede calcular el pago exacto de cada una de sus decisiones y elegir la mejor opción).

• En el nodo anterior el jugador conoce la consecuencia exacta de sus elecciones porque sabe que elección se tomará en el penúltimo nodo de decisión y la elección que se hará en el nodo final.

La inducción hacia atrás es la repetición de este proceso hasta llegar al nodo inicial • Permite obtener una solución secuencialmente razonable siempre y cuando haya un

último nodo desde el que empezar-• Teorema de Kuhn: todo juego de información perfecta con un número finito de nodos

tiene una solución por inducción hacia atrás y si todos los pagos de cada jugador son distintos la solución es única

Inducción hacia atrás y eliminación de estrategias dominadas.• Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la

estrategia con la mejor decisión en este nodo domina la estrategia alternativa y cualquier otra estrategia que no tome esta decisión en ese nodo.

• Si dos estrategias son idénticas en todas partes excepto en un penúltimo nodo de decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el penúltimo nodo).

• Al continuar el proceso obtenemos la solución por inducción hacia atrás en la forma extensiva y la solución por eliminación iterada de estrategias dominadas en la forma estratégica.

Juego de entrada I Comprobar que el resultado por IEDS es (E,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva.Juego de entrada II Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva.

Juego de entrada I Comprobar que el resultado por IEDS es (E,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva.

Juego de entrada II Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva.

Tough Acommodate

Enter -2,-1 1,2

Out 0,5 0,5

Coke \ Pepsi T A

ETT -2, -1 0,-3

ETA -2, -1 1, 2

EAT -3,1 0,-3

EAA -3, 1 1, 2

OTT 0, 5 0, 5

OTA 0, 5 0, 5

OAT 0, 5 0, 5

OAA 0, 5 0, 5

Exercise Consider entry game II again, but now suppose that Coke's decision on the FSU market is reversible in the following sense: after it has entered and after Pepsi has chosen T or A, Coke has any one of three options to choose from: T, A, and O (out). Suppose that exiting at that point nets Coke a payoff of -1 and Pepsi a payoff of 3 if it had been Tough and 4 had it accommodated. Write down the extensive form of this game and solve the game by backward induction. Explain any connection to the power of commitment.Write down the strategic form of the game and solve the game by IEDS. Explain connection between steps of iterated elimination and of backward induction.

Juego de entrada IIICoca-Cola tiene que decidir si entra o no entra en un nuevo mercado dominado por su rival Pepsi. La decisión de Coca-Cola se guía por la rentabilidad potencial de este nuevo mercado, que depende de la reacción de Pepsi. Si Pepsi contraataca y actúa duro, Coca-Cola tiene pérdidas. Por el contrario, si Pepsi no contraataca y se acomoda lo que tiene son ganancias. Coca-Cola tiene que decidir si reacciona contraatacando sin conocer la reacción de Pepsi

Coke \ Pepsi T A

ET -2,-1 0,-3

EA -3,1 1,2

OT 0,5 0,5

OA 0,5 0,5

Coke \ Pepsi T A

T -2,-1 0,-3

A -3,1 1,2

EQUILIBRIO PERFECTO EN SUBJUEGOS

Subjuegos y estrategias en un subjuego

Un subjuego es una parte de un juego en forma extensiva formada por una colección de nodos que satisface:• El subjuego comienza en un nodo de decisión simple.• El subjuego contiene todos los sucesores del nodo inicial.• Si el subjuego contiene parte de un conjunto de información lo contiene completo.

Una estrategia especifica que hacer en cualquier momento del juego, por tanto también lo hace en el subjuego y es una estrategia para el subjuego.• Si una estrategia se denota por si y un subjuego del juego original por g, la estrategia

para el subjuego se denota por si(g).

Equilibrio perfecto en subjuegos (EPS).

Un perfil de estrategia es un EPS si especifica un equilibrio de Nash en cada subjuego

• Un perfil de estrategias es un EPS de un juego en forma extensiva G si es un equilibrio de Nash de g para cada subjuego g de G.

• Todo EPS es un equilibrio de Nash (pero no al revés).• En un juego con información perfecta los EPS son las soluciones por inducción hacia

atrás (si la solución por inducción hacia atrás es única hay un único EPS).

Juego de entrada IIIEn el juego post-entrada tenemos dos equilibrios puros, (T, T) y (A,A) y un equilibrio en estrategias mixtas (1/3, 1/2), donde estas probabilidades son las probabilidades de T.

Los únicos equilibrios perfectos en subjuegos son (E.A,A), (O.T, T) y (O,1/3, 1/2),

Coke \ Pepsi T A

ET -2,-1 0,-3

EA -3,1 1,2

OT 0,5 0,5

OA 0,5 0,5

Coke \ Pepsi T A

T -2,-1 0,-3

A -3,1 1,2

El dilema del prisionero en dos etapas.En una primera aproximación al dilema del prisionero iterado se considerara que tras la primera interacción entre los prisioneros, y una vez reveladas sus decisiones, vuelven a interactuar y los pagos que obtienen son la suma de los pagos correspondientes

Calvin \ Klein

Confess Not Confess

Confess 0,0 7,-2Not

Confess -2,7 5,5

El único equilibrio se obtiene cuando los dos prisioneros confiesan en cualquier circunstancia

Exercise Let us modify the timing structure of the game of entry III. Suppose that Coke's entry decision is made at the same time that Pepsi decides between tough and accommodate. Then, if Coke chooses to enter, it has a further decision between tough and accommodate. Suppose that the payoffs at every terminal node that follow enter are as before. If Coke stays out, then the payoffs are (0, -1) if Pepsi plays T and (0, 0) if it plays A. Write down the extensive form of this game. How many subgames are there in this game? Solve the game by backward induction. Be sure to detail every step. Suppose the payoffs when Coke stays out are (0, 1) and (0, 0) instead when, respectively, Pepsi plays T and A. Solve this game by backward induction.

Exercise Let us yet again modify the game of entry III. Suppose as before that Coke's entry decision and Pepsi's T/A decisions are simultaneous. Suppose, furthermore, that when Coke makes its subsequent choice between T and A it is unaware of Pepsi's choice. Write down the extensive form. How many subgames are there in this game? How many strategies does Coke have? (Use the payoffs of previous exercise) Explain why this timing structure is equivalent to Coke and Pepsi making a single simultaneous decision. What are the strategies involved? Find the Nash equilibria of the game.

JUEGOS REPETIDOS.Definición Un juego repetido se define por un juego de etapa G en forma estratégica, que se juega de forma repetida en tiempo discreto:

G = {Si, πi, i = 1,. . ., N}con Si es el conjunto de estrategias del jugador i y πi (s1, s2, ..., Sn) su función de pagos.

Definición Si el número de repeticiones, T, es finito, el juego es un juego repetido finitamente y si el juego no tiene un fin fijo es un juego infinitamente repetido.

• En juegos finitamente repetidos los pagos son la suma de los pagos en cada etapa.• En juegos infinitamente repetidos los pagos se descuentan con un factor δ: 0 <δ <1,

Interpretación del factor δ• Cada vez que se juega el juego de etapa, hay una probabilidad p de que la interacción

actual sea la última (la probabilidad de que estos jugadores jueguen el juego de etapa de nuevo es δ = 1-p). Los beneficios se calculan como el pago esperado.

• El pago de la etapa t + 1 se valora como una fracción δ en la etapa t. La fracción δ asociada es un factor de descuento y se valoran los beneficios como el valor actual.

Nota• En cada etapa del juego todos los jugadores conocen la historia del proceso.• Las estrategias se pueden expresar como acciones a realizar dependiendo de la historia

del juego hasta la etapa correspondiente

El dilema del prisionero modificado en T etapas.En el dilema del prisionero modificado los prisioneros tienen también la opción de confesar parcialmente con la matriz de pagos

Este proceso se repite T veces y los pagos son la suma de los pagos de cada etapa

Player 1 \ Player 2 c p n c 0, 0 3, -1 7, -2p -1, 3 3, 3 6, 0n -2, 7 0, 6 5, 5

El juego de etapa tiene dos equilibrios• (C,C) con pagos (0, 0).• (P, P) con pagos (3, 3).

El dilema del prisionero modificado en dos etapas.

• Estrategia I: En la primera etapa jugar N.• Si en la primera etapa se ha jugado (N,N) jugar P.• En caso contrario jugar C.

• Estrategia II: En la primera etapa jugar N (II.A)//P (II.B)• Si en la primera etapa se ha jugado (N, P) jugar P.• En caso contrario jugar C.

• Estrategia III: Jugar P en cualquier caso.• Estrategia IV: Jugar C en cualquier caso

En el dilema del prisionero modificado en 2 etapas tenemos equilibrios perfectos es subjuegos si:— Ambos jugadores juegan con I.— El primer juega con II.A y el segundo con II.B.— Ambos jugadores juegan con III.— Ambos jugadores juegan con IV.


El dilema del prisionero modificado en T etapas.En el dilema del prisionero modificado los prisioneros tienen también la opción de confesar parcialmente con la matriz de pagos


Tenemos un EPS si ambos jugadores juegan con la siguiente estrategia:

Jugar N en la primera etapa.• Si en las etapas anteriores todos

los jugadores han jugado N jugar N, salvo en la última etapa que jugamos P.

• En caso contrario jugar C.

Equilibrios básicos• Ambos jugadores juegan C en cualquier caso. • Ambos jugadores juegan P en cualquier caso.

Otros equilibrios. El comportamiento de los jugadores en cada etapa depende del comportamiento observado en etapas anteriores

En dos etapas tenemos un EPS si ambos jugadores juegan con la estrategia• En la primera etapa jugar N.

• Si en la primera etapa se ha jugado (N,N) jugar P.• En caso contrario jugar C.

En T etapas tenemos un EPS si ambos jugadores juegan con la estrategia:• En la primera etapa jugar N.

• Si en las etapas anteriores todos los jugadores han jugado N jugar N, salvo en la ultima etapa que jugamos P.

• En caso contrario jugar C.

El comportamiento en cada etapa depende del comportamiento observado en etapas anteriores

Proposición En un juego repetido cuyo juego de etapa G = {Si, πi, i = 1,. . ., N} tiene exactamente un equilibrio de Nash, (s1*, s2*, ..., Sn*), hay un único EPS. En este equilibrio, el jugador i si juega si* en cada una de las etapas, independientemente de lo que podría haber sido interpretado por él mismo o cualquiera de los otros, en cualquier etapa anterior

El dilema del prisionero en T etapas.• El juego de etapa tiene un único equilibrio $(C,C)$.• Los jugadores pueden jugar en todo momento como si les quedara una única etapa.• El juego completo tiene un único equilibrio: los dos jugadores confiesan siempre y en

cualquier contingencia

Nota Si hay más de un equilibrio de Nash, siempre existe la posibilidad de mantener un buen comportamiento en las primeras etapas de interacción.

• Buen comportamiento en las interacciones tempranas puede ser recompensado por el juego de mejores equilibrios de Nash en subjuegos futuros

• Cualquier desviación de esta conducta puede ser castigado por el juego de malos equilibrios de Nash en subjuegos futuras.

Exercise Write down the extensive form of the once-repeated Battle of the Sexes and sketch the extensive form of the T-times-repeated game. Show that in the T-times-repeated game, a subgame perfect equilibrium is to play (football, opera) in every stage regardless of what got played in the previous stages. Show as well that other subgame perfect equilibrium is to play (opera, football) in every stage regardless of what got played in the previous stages.

Exercise Show that in every finitely repeated game, if there is more than one stage-game Nash equilibrium one subgame perfect equilibrium is to alternate between these equilibria

JUEGOS REPETIDOS INDEFINIDAMENTE

El dilema del prisionero iterado (infinitamente).En el dilema del prisionero iterado se considerara que tras la primera interacción entre los prisioneros, y una vez reveladas sus decisiones, vuelven a interactuar y los pagos que obtienen son la suma de los pagos descontados.

Factor de descuento asociado a un interés

Probabilidad p de que el juego termine

Calvin \ Klein

Confess Not Confess

Confess 0,0 7,-2Not

Confess -2,7 5,5

El dilema del prisionero iterado (infinitamente).En el dilema del prisionero iterado se considerara que tras la primera interacción entre los prisioneros, y una vez reveladas sus decisiones, vuelven a interactuar y los pagos que obtienen son la suma de los pagos descontados.

Estrategia del disparador severo:• Jugar N en la primera etapa.• Si en las etapas anteriores los jugadores han jugado siempre N entonces jugar N.• En caso contrario jugar C de ahora en adelante.

Si ambos jugadores juegan con la estrategia del disparador severo tenemos un EPS

En las estrategias del tipo disparador hay un perfil de estrategias cooperativo tras el cual sialgunos de los jugadores se desvía, el jugador juega un perfil de estrategias de castigo

Calvin \ Klein

Confess Not Confess

Confess 0,0 7,-2Not

Confess -2,7 5,5

El dilema del prisionero iterado (infinitamente).

Calvin \ Klein

Confess

Not Confess

Confess 0,0 7,-2Not Confess -2,7 5,5

Clasificamos los subjuegos de una etapa t en dos tipos Tipo I: Los subjuegos que siguen a un juego (N,N) en todas las etapas. Tipo II:: El resto de subjuegos (se ha confesado alguna vez).• En los juegos tipo II la estrategia especifica jugar C siempre. Es un equilibrio de Nash y

ningún jugador incrementa sus pagos jugando N contra C.• En los juegos tipo I los incentivos para desviarse y jugar C frente al otro jugando N

dependen del pago:• Si juega C obtiene un pago de 7, pero sus pagos futuros desaparecen y el

incremento de su pago será de 7.• Si juega N obtiene un pago de 5, pero sus pagos futuros serán también de 5 con lo

que el incremento de su pago +5+5• No tiene incentivos para desviarse si

El dilema del prisionero iterado (infinitamente).

Calvin \ Klein

Confess

Not Confess

Confess 0,0 7,-2Not Confess -2,7 5,5

Estrategia del disparador con perdón:• Jugar N en la primera etapa.• Si en las etapas anteriores ambos jugadores han jugado siempre N entonces jugar N.• Si algún jugador ha jugado C entonces jugar C en las T etapas siguientes y jugar N en la

etapa T + 1 con la estrategia en menteSi ambos jugadores juegan con esta estrategia tenemos un EPS cuyos pagos son mayores que en el disparador severo

Un ciclo de comportamiento (behavior cycle) es una sucesión de acciones que se repite.• Jugar (N,N) T1 etapas • Jugar (C,C) T2 etapas• Jugar (N,C) T3 etapas • Jugar (C,N) T4 etapasTras las T=T1+T2+T3+T4 etapas repetir el ciclo

Un ciclo de comportamiento es individualmente racional si cada jugador obtiene pagos estrictamente positivos dentro del ciclo

Teorema popular (Folk theorem)Comportamiento en equilibrio. Cualquier ciclo de comportamiento individualmente racional es factible como EPS (siempre que el factor de descuento δ es cercano a 1). Estrategia Equilibrio. Una estrategia que constituye un equilibrio es el disparador severo: comenzar con el ciclo de la conducta deseada y continuar con él. Si cualquier jugador se desvía entonces jugar (c, c) siempre después

Documents

Jesús Muñoz San Miguel Matemáticas II: Teoría de juegos no cooperativos Segunda parte