15
4. JUEGOS REPETIDOS En esta presente parte trataremos sobre juegos que se repiten más de un ves. Los juegos repetidos consisten en que una estructura de interacción estratégica se repita a lo largo del tiempo (Sanchez Cuenca, 2004) Así mismo el juego que se repite puede ser de forma de forma normal o en forma extensiva, en un lenguaje más técnico se le suele llamar “juego de referencia”. Por ejemplo podríamos considerar el que sucede si el dilema del prisionero se repite a lo largo del tiempo, es decir, si los actores en cada periodo de tiempo tienen que jugar un dilema de prisionero. El juego de referencia en cada fase en cada etapa es el mismo, pero analizado globalmente, desde la perspectiva del tiempo, el equilibrio o los equilibrios del juego repetido no tienen por qué coincidir con los equilibrios de juego de referencia considerado en único momento. En los juegos repetidos lo que se pretende es averiguar si hay equilibrios nuevos basados en estrategias condicionales que no existen en el juego de referencia. (Sanchez Cuenca, 2004) En este sentido, resulta fundamental la diferencia entre juegos repetidos un número determinados de veces y juegos repetidos indefinidamente. Cuando hay una final conocida por ambos jugadores, la repetición del juego apenas cambia, mientras si no hay una final establecida, es decir, si el juego va a seguir jugándose siempre, los equilibrios del juego repetido son muy distintos con respecto a los juegos de referencia. EJEMPLO: Dilema del prisionero

4.docx

Embed Size (px)

Citation preview

Page 1: 4.docx

4. JUEGOS REPETIDOS

En esta presente parte trataremos sobre juegos que se repiten más de un ves.

Los juegos repetidos consisten en que una estructura de interacción estratégica

se repita a lo largo del tiempo (Sanchez Cuenca, 2004)

Así mismo el juego que se repite puede ser de forma de forma normal o en forma

extensiva, en un lenguaje más técnico se le suele llamar “juego de referencia”. Por

ejemplo podríamos considerar el que sucede si el dilema del prisionero se repite a lo largo

del tiempo, es decir, si los actores en cada periodo de tiempo tienen que jugar un dilema

de prisionero. El juego de referencia en cada fase en cada etapa es el mismo, pero

analizado globalmente, desde la perspectiva del tiempo, el equilibrio o los equilibrios del

juego repetido no tienen por qué coincidir con los equilibrios de juego de referencia

considerado en único momento.

En los juegos repetidos lo que se pretende es averiguar si hay equilibrios

nuevos basados en estrategias condicionales que no existen en el juego de

referencia. (Sanchez Cuenca, 2004)

En este sentido, resulta fundamental la diferencia entre juegos repetidos un número

determinados de veces y juegos repetidos indefinidamente. Cuando hay una final conocida

por ambos jugadores, la repetición del juego apenas cambia, mientras si no hay una final

establecida, es decir, si el juego va a seguir jugándose siempre, los equilibrios del juego

repetido son muy distintos con respecto a los juegos de referencia.

EJEMPLO: Dilema del prisionero

Cuando el juego se juega una vez (C, C) es un equilibrio de Nash en estrategias

dominantes y la cooperación o colusión entre los jugadores no se puede sostener como

equilibrio. Aunque los jugadores obtendrían mayores pagos en la combinación de

estrategias (NC, NC) ambos tendrían incentivos a desviarse utilizando su estrategia

Page 2: 4.docx

dominante. En esta sección vamos a estudiar las posibilidades de cooperación entre los

jugadores cuando el juego se repite.

4.1 Juegos repetidos con horizontes finitos

Supongamos que el juego (el dilema del prisionero) se repite un número finito de veces:

T (conocido por ambos jugadores). Conocemos que si T = 1 el único equilibrio de Nash del

juego es (C, C).

Lo primero que hay que notar es que si el juego se repite durante T periodos, una

estrategia de un jugador en el juego repetido debe indicar lo que haría este jugador en

cada etapa del juego contingente con la historia pasada.

Vamos a utilizar un argumento de inducción retroactiva para mostrar que en el único

equilibrio perfecto en subjuegos de este juego repetido cada jugador (independientemente

de la historia pasada) elegirá “confesar” en cada etapa del juego. Consideremos T, t = 1, 2,

….., T, iteraciones del dilema del prisionero.

Comencemos mirando al periodo T: en esta última etapa del juego todo lo anterior (la

historia pasada del juego) resulta irrelevante (ya que no existe futuro) y sólo queda por

jugar una vez el dilema del prisionero. Por tanto, como cada jugador tiene como estrategia

dominante (cuando el juego se juega sólo una vez) “confesar”, en el último periodo cada

jugador decidirá “confesar”. La única razón para jugar “no confesar” en una etapa del juego

sería para intentar mejorar en el futuro ya que esta acción podría ser interpretada como un

signo de buena voluntad por el otro jugador consiguiendo su cooperación. Pero en la última

etapa del juego ya no hay futuro y por tanto (C, C) es inevitable.

Consideremos ahora el periodo T-1. Dado que los jugadores anticipan que en el último

periodo no van a cooperar, lo mejor que pueden hacer en el periodo T-1 es seguir su

estrategia dominante a corto plazo, es decir, “confesar”. La única razón para jugar “no

confesar” en esta etapa del juego sería para intentar mejorar en el futuro, pero en el

periodo T los jugadores elegirán (C, C). El mismo argumento se aplicaría a los periodos T-

2, T-3,….hasta el periodo 1. Por tanto, el equilibrio perfecto en subjuegos del dilema del

prisionero repetido un número finito de veces T, consiste simplemente en T repeticiones

del equilibrio de Nash a corto plazo. Por tanto, si el juego se repitiera un número finito (y

Page 3: 4.docx

conocido) de veces, en el único equilibrio perfecto en subjuegos cada jugador elegiría su

estrategia dominante a corto plazo en cada ronda del juego. Luego la cooperación entre los

jugadores no se puede sostener como equilibrio cuando el horizonte temporal es finito.

4.2 Juegos repetidos con horizontes infinitos.

Hay dos formas de interpretar un horizonte temporal infinito:

Interpretación literal: el juego se repite infinitos periodos. En este contexto, cuando

un jugador compara una estrategia con otra debería comparar el valor presente

descontado de las respectivas ganancias. Sea δ el factor de descuento, 0 < δ < 1. Si

r es el tipo de interés,

δ = 1

1 + r .

Interpretación informacional: no se conoce la duración del juego. En cada etapa

del juego existe una probabilidad 0 < δ < 1 de que el juego continúe. En este marco,

cada jugador debería comparar el pago esperado (que también se podría descontar)

de las diferentes estrategias. (Aguirre, 2009)

En este contexto, una estrategia de un jugador especificará su comportamiento en

cada periodo t como una función de la historia pasada del juego. Represente:

H t −1 = {s1τ ,s2τ } donde siτ ∈{C, NC}, la historia pasada del juego.

En primer lugar nótese que hay un equilibrio perfecto en subjuegos del juego

infinitamente repetido en el que cada jugador juega C (su estrategia dominante a corto

plazo) en cada periodo. Cada jugador tendría como estrategia “confesar en cada periodo

con independencia de la historia pasada del juego”.

Vamos a ver si además del anterior equilibrio, hay algún equilibrio perfecto en

subjuegos en el que los jugadores cooperen. Consideremos la siguiente combinación de

estrategias a largo plazo.

τ =1

t −1

Page 4: 4.docx

donde,

i =1,2.

Nótese que estas estrategias a largo plazo incorporan “amenazas implícitas de

castigo” en caso de violación del acuerdo (implícito) de cooperación. La amenaza para que

sea creíble debe ser equilibrio de Nash.

Para ver si en este contexto se puede sostener como equilibrio la cooperación, tenemos

que comprobar que los jugadores no tienen incentivos a desviarse; es decir, que la

combinación de estrategias (s1c ,s2c ) constituye un equilibrio de Nash del juego repetido.

El valor presente descontado de las ganancias futuras del jugador i de cooperar viene dado

por:

Supongamos que el jugador i se desvía y lo hace en el primer periodo del juego. Dado

que el otro jugador si sigue su estrategia le penalizará durante el resto del juego lo mejor

que puede hacer si confiesa en el primer periodo es confesar también durante el resto del

juego. Sus ganancias vendrían dadas por:

La cooperación será equilibrio de Nash si ninguno de los jugadores tiene

incentivos a desviarse; es decir, si Es inmediato comprobar que si δ ≥ 1

ninguno de los jugadores tiene incentivos a romper el acuerdo de colusión.

Vamos a comprobar a continuación como el equilibrio es perfecto en subjuegos: es decir,

que las amenazas son creíbles. Consideremos un subjuego que surge después de que una

desviación se ha producido. La estrategia de cada jugador exige “confesar” en todo periodo

futuro independientemente del comportamiento de su rival. Este par de estrategias

constituye un equilibrio de un dilema del prisionero infinitamente repetido ya que cada

jugador si no se desvía obtendría un pago de (si la desviación se ha producido en el

periodo T-1)

Page 5: 4.docx

Mientras que obtendría un pago de 0 cada periodo que se desviase de la estrategia

cooperativa.

El análisis anterior sirve como ejemplo de un principio general que ocurre en

situaciones de juegos repetidos con horizonte temporal infinito. En estos juegos es posible

sostener como equilibrio comportamientos que no son de equilibrio en el corto plazo. Esto

se produce gracias a la “amenaza implícita de castigo” de que en caso de incumplimiento

del acuerdo se “castiga” durante el resto del juego. De modo que el aumento de beneficios

(derivado de la violación del acuerdo) a corto plazo no compensa la pérdida de beneficios

durante el resto del juego.

5. MODELOS IMPORTANTES DE JUEGOS

El Dilema Del Prisionero:

Dos delincuentes son detenidos y encerrados en celdas de aislamiento de forma

que no pueden comunicarse entre ellos. El alguacil sospecha que han participado en el

robo del banco, delito cuya pena es diez años de cárcel, pero no tiene pruebas. Sólo

tiene pruebas y puede culparles de un delito menor, tenencia ilícita de armas, cuyo

castigo es de dos años de cárcel. Promete a cada uno de ellos que reducirá su

condena a la mitad si proporciona las pruebas para culpar al otro del robo del banco,

pero ellos han prometido no delatarse. Las alternativas para cada prisionero pueden

representarse en forma de matriz de pagos. La estrategia "lealtad" consiste en

permanecer en silencio y no proporcionar pruebas para acusar al compañero.

Llamaremos "traición" a la estrategia alternativa.

Los pagos a la izquierda o a la derecha de la barra indican los años de cárcel a los que

es condenado el preso X o Y respectivamente según las estrategias que hayan elegido

cada uno de ellos.

Dilema del prisioneroMatriz de Pagos(Años de cárcel)

Page 6: 4.docx

Preso Y

lealtad traición

Preso Xlealtad 2 \ 2 10 \ 1

traición 1 \ 10 5 \ 5

Para que una matriz de pagos represente un “dilema del prisionero” deben concurrir

las siguientes circunstancias:

a) Confesar uno sólo debe ser mejor para él que no confesar mutuamente.

b) No confesar mutuamente debe ser a su vez mejor que confesar ambos.

c) Cuando cada uno elige una estrategia diferente, confesar y no confesar, la ganancia

media entre estas dos estrategias no puede ser mejor que las estrategias de confesar

ambos.

Consideremos al prisionero X. Supongamos que cree que el prisionero Y respeta sus

promesas anteriores y no confiesa. Si el prisionero X confiesa, se reduciría su pena a un

año, lo que es preferible a la opción de no confesar, que acarrea un de condena (dado que

el otro prisionero no confiesa). Si por el contrario, cree que el prisionero Y va a confesar,

no importando sus promesas anteriores, confesar le da 5 años de cárcel, lo que es mejor

que cargar con todas las culpas y 10 años de cárcel al no confesar.

Por lo tanto, no importando lo que haga el prisionero Y, el prisionero X está mejor

confesando: es su estrategia dominante. Lo mismo ocurre con el prisionero Y, por lo que el

único equilibrio en estrategias dominantes es aquel en que ambos prisioneros confiesan.

Es notable que a pesar que cooperando les hubiera ido mejor, ambos confiesan y terminan

peor.

El dilema del prisionero es un juego de enorme importancia. Proporciona una

explicación para las dificultades para establecer la cooperación entre agentes económicos.

Tiene aplicaciones en pesquería, donde la falta de respeto a los compromisos de restringir

la pesca puede llevar a sobreexplotación del recurso, como ocurre actualmente en las

pesquerías en Chile. El dilema del prisionero también es relevante en la formación de

carteles (acuerdos entre firmas) para subir los precios, ya que las firmas se ven tentadas a

Page 7: 4.docx

vender más de lo acordado a los altos precios que resultan de los carteles, lo que reduce

los precios. El dilema del prisionero muestra las dificultades para establecer la

colaboración en cualquier situación en la que hacer trampa beneficia a las partes.

Modelo Halcón Paloma

En el lenguaje ordinario entendemos por "halcón" a los políticos partidarios de

estrategias más agresivas mientras que identificamos como "paloma" a los más pacifistas.

El modelo Halcón-Paloma sirve para analizar situaciones de conflicto entre estrategias

agresivas y conciliadoras. Este modelo es conocido en la literatura anglosajona como el

"hawk-dove" o el "chicken" y en español es conocido también como "gallina".

Dos vehículos se dirigen uno contra otro en la misma línea recta y a gran velocidad. El

que frene o se desvíe ha perdido. Pero si ninguno de los dos frena o se desvía...Este sería

un modelo halcón paloma

También se ha utilizado este modelo abundantemente para representar una guerra

fría entre dos superpotencias. La estrategia Halcón consiste en este caso en proceder a

una escalada armamentística y bélica. Si un jugador mantiene la estrategia Halcón y el otro

elige la estrategia Paloma, el Halcón gana y la Paloma pierde. Pero la situación peor para

ambos es cuando los dos jugadores se aferran a la estrategia Halcón. El resultado puede

modelarse con la siguiente matriz de pagos.

Modelo Halcón Paloma

Matriz de Pagos

Jugador Y

Paloma Halcón

Jugador XPaloma 2º \ 2º 3º \ 1º

Halcón 1º \ 3º 4º \ 4º

Podemos observar las sutiles pero importantes diferencias de este modelo con el

Dilema del Prisionero. En principio la matriz es muy parecida, simplemente se han trocado

las posiciones de los pagos 3º y 4º, pero la solución y el análisis son ahora muy diferentes.

Page 8: 4.docx

Aquí hay dos resultados que son equilibrios de Nash: cuando las estrategias elegidas

por cada jugador son diferentes; es decir, cuando uno elige halcón y el otro paloma. Por el

contrario, en el Dilema del Prisionero el equilibrio de Nash está en el punto en que ambos

jugadores traicionan.

Otra notable diferencia de este juego con otros es la importancia que aquí adquiere el

orden en que los jugadores eligen sus estrategias. Como tantas veces en la vida real, el

primero que juega, gana. El primero elegirá y manifestará la estrategia Halcón con lo que el

segundo en elegir se verá obligado a elegir la estrategia Paloma, la menos mala.

La Guerra De Los Sexos

El modelo de "La guerra de los sexos" es un ejemplo muy sencillo de utilización de la

teoría de juegos para analizar un problema frecuente en la vida cotidiana. Hay dos

jugadores: "ÉL" y "ELLA". Cada uno de ellos puede elegir entre dos posibles estrategias a

las que llamaremos "Fútbol" y "Discoteca".

Supongamos que el orden de preferencias de ÉL es el siguiente:

1. (Lo más preferido) EL y ELLA eligen Fútbol.

2. EL y ELLA eligen Discoteca.

3. EL elige Fútbol y ELLA elige Discoteca.

4. (Lo menos preferido) El elige Discoteca y ELLA elige Fútbol.

Supongamos que el orden de preferencias de ELLA es el siguiente:

1. (Lo más preferido) ÉL y ELLA eligen Discoteca.

2. EL y ELLA eligen Fútbol.

3. EL elige Fútbol y ELLA elige Discoteca.

4. (Lo menos preferido) Él elige Discoteca y ELLA elige Fútbol

La matriz de pagos es la siguiente, donde los pagos representan el orden de

preferencias:

Guerra de los sexos

Matriz de Pagos

Page 9: 4.docx

Ella

Fútbol Discoteca

ÉlFútbol 1º \ 2º 3º \ 4º

Discoteca 4º \ 4º 2º \ 1º

Este juego, tal como lo hemos descrito, es un juego sin repetición y sin transferencia de

utilidad. Sin repetición significa que sólo se juega una vez por lo que no es posible tomar

decisiones en función de la elección que haya hecho el otro jugador en juegos anteriores.

Sin transferencia de utilidad significa que no hay comunicación previa por lo que no es

posible ponerse de acuerdo, negociar ni acordar pagos secundarios ("Si vienes al fútbol te

pago la entrada").

El problema que se plantea es simplemente un problema de coordinación. Se trata de

coincidir en la elección. Al no haber comunicación previa, es posible que el resultado no

sea óptimo. Si cada uno de los jugadores elige su estrategia maximín el pago que recibirán

(3\3) es subóptimo. Esa solución, no es un punto de equilibrio de Nash ya que los

jugadores están tentados de cambiar su elección: cuando ELLA llegue a la discoteca y

observe que ÉL se ha ido al fútbol, sentirá el deseo de cambiar de estrategia para obtener

un pago mayor.

El modelo que hemos visto es un juego simétrico ya que jugadores o estrategias son

intercambiables sin que los resultados varíen. Podemos introducir una interesante

modificación en el juego convirtiéndolo en asimétrico a la vez que nos aproximamos más al

mundo real. Supongamos que las posiciones 2ª y 3ª en el orden de preferencias de ÉL se

invierten. EL prefiere ir solo al Fútbol más que ir con ELLA a la Discoteca. La matriz de

pagos queda como sigue:

Guerra de los sexos

Matriz de Pagos

Ella

Fútbol Discoteca

Page 10: 4.docx

ÉlFútbol 1º \ 2º 2º \ 3º

Discoteca 4º \ 4º 3º \ 1º

Si ELLA conoce la matriz de pagos, es decir, las preferencias de ÉL, el problema de

coordinación desaparece. Está muy claro que ÉL elegirá siembre la estrategia Fútbol, sea

cual sea la elección de ELLA. Sabiendo esto ELLA elegirá siempre la estrategia Fútbol

también, ya que prefiere estar con ÉL aunque sea en el Fútbol que estar sola aunque sea

en la Discoteca. La estrategia maximín de ambos jugadores coincide. El resultado,

marcado con un asterisco, es un óptimo, un punto de silla, una solución estable, un punto

de equilibrio de Nash. Obsérvese que esta solución conduce a una situación estable de

dominación social del jugador que podríamos calificar como el más egoísta.

Page 11: 4.docx