Vous êtes sur la page 1sur 95

Teora de los juegos y de las

decisiones

Guillaume Haeringer
Guillaume.Haeringer@uab.es

Curso academico: 20032004

ii

Contenido
1 Introducci
on
1.1 Para que sirven estos apuntes? .
1.2 Errores comunes . . . . . . . . . .
1.2.1 Juegos en forma normal .
1.2.2 Juegos en forma extensiva
1.3 Libros . . . . . . . . . . . . . . .

.
.
.
.
.

2
2
2
2
4
4

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

7
7
7
8
9
10
11
12
12
16
18
19
21
22
30
30
30
33
33

3 Juegos secuenciales
3.1 Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Nodos de decisiones y estrategias . . . . . . . . . . . .
3.1.2 El equilibrio de Nash . . . . . . . . . . . . . . . . . . .

37
37
38
42

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

2 Juegos Est
aticos con informaci
on completa
2.1 Elementos y definicion de un juego . . . . . . . . . . . . . .
2.2 Juegos en forma normal . . . . . . . . . . . . . . . . . . . .
2.2.1 Notaciones . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Algunas cosas importantes . . . . . . . . . . . . . . .
2.3 Estrategias estrictamente dominadas . . . . . . . . . . . . .
2.3.1 Estrategias dominadas pero no estrictamente . . . . .
2.3.2 Estrategias dominantes . . . . . . . . . . . . . . . . .
2.4 El equilibrio de Nash . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Ejemplo: competicion electoral . . . . . . . . . . . .
2.4.2 Estrategias puras/mixtas . . . . . . . . . . . . . . . .
2.4.3 Utilidad esperada . . . . . . . . . . . . . . . . . . . .
2.4.4 Calcular los equilibrios de Nash en estrategias mixtas
2.4.5 Dibujar los equilibrios de Nash . . . . . . . . . . . .
2.5 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.1 El dilema de los prisioneros . . . . . . . . . . . . . .
2.5.2 La batalla de los sexos . . . . . . . . . . . . . . . . .
2.5.3 El juego de las monedas . . . . . . . . . . . . . . . .
2.5.4 El dupolio de Cournot . . . . . . . . . . . . . . . . .

CONTENIDO
3.2
3.3
3.4
3.5

3.6
3.7

iv

La induccion hacia atras . . . . . . . . . . . . . . . . . . . . .


Ejemplo: El duopolio de Stackelberg . . . . . . . . . . . . . .
Equilibrio perfecto en subjuegos . . . . . . . . . . . . . . . . .
Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 El juego del ciempies . . . . . . . . . . . . . . . . . . .
3.5.2 Un juego con mas de un equilibrio perfecto en subjuegos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Equivalencia entre juegos en forma normal y juegos secuenciales
Informacion imperfecta . . . . . . . . . . . . . . . . . . . . . .

4 Juegos repetidos
4.1 Juegos repetidos finitamente . . . . . . . . . . . . . . . . . .
4.1.1 Ejemplo: el dilema de los prisioneros repetido 2 veces
4.1.2 Juegos con suma cero . . . . . . . . . . . . . . . . . .
4.1.3 El min-max . . . . . . . . . . . . . . . . . . . . . .
4.1.4 El max-min y los juegos repetidos . . . . . . . . . . .
4.1.5 Ejemplo: la batalla de los sexos repetido 2 veces . . .
4.1.6 El equilibrio de Nash . . . . . . . . . . . . . . . . . .
4.1.7 El equilibrio perfecto en subjuegos . . . . . . . . . .
4.2 Juegos repetidos infinitamente . . . . . . . . . . . . . . . . .
4.2.1 Descuento . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Ganancia media . . . . . . . . . . . . . . . . . . . . .
4.2.3 Ganancia factible . . . . . . . . . . . . . . . . . . . .
4.2.4 Equilibrio de Nash . . . . . . . . . . . . . . . . . . .
4.2.5 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

45
47
48
53
53
54
59
64
69
69
70
71
73
77
78
79
83
84
84
85
86
87
89

Captulo 1
Introducci
on
1.1

Para qu
e sirven estos apuntes?

Espero que estos apuntes os ayudaran para aprender y entender los elementos
de la teora de juegos que se estudiaran durante este curso. Es importante de
saber que estos apuntes no reemplazan las clases. Aqu he puesto definiciones,
teoremas y algunos ejemplos. Por cierto, es muy probable que en la clases
voy a contar mas que lo que esta en estos apuntes. Ademas, muchos de los
ejemplos que hemos visto, o que vamos a ver en la clase no estan en los
apuntes.

1.2

Errores comunes

He intentado en estos apuntes de explicar con mucho cuidado ciertos conceptos. Sin embargo, en el examen hay errores muy frecuentes. Aqu he listado
unas de ellas.

1.2.1

Juegos en forma normal

Cuando se calcula las probabilidades de un equilibrio de Nash en estrategias mixtas, si encuentras probabilidades negativas o mayor que
1, has hecho algo malo en los calculos. Un error com
un es el siguiente:
uj (a) = uj (b)
...
2q + 3 3q = 1
5
5q = 2 q = .
2

1.2 Errores comunes


El error esta en el u
ltimo paso. De 5q = 2 se tiene que deducir q = 2/5,
y no q = 5/2.
Cuando tienes que hallar los equilibrios de Nash en estrategias puras y
mixtas por un lado, y dar una representacion grafica de los equilibrios
(es decir, dibujar las funciones de mejor respuesta) teneis que tener el
mismo n
umero de equilibrios.
Por ejemplo, si en un juego ves que hay 3 equilibrios de Nash (2 en
estrategias puras y uno en estrategias mixtas) cuando haces los calculos,
en el grafico debes encontrar tres puntos en los que las funciones de
mejor respuesta se cruzan.
Otro ejemplo: si no hay equilibrio en estrategias puras y solo hay uno
en estrategias mixtas, en el grafico las funciones de mejor respuesta se
cruzan solo una vez (y no 3 veces como unos estudiantes a veces lo
hacen).
Tambien, cuando se dibujan las funciones de mejor respuesta muchos
estudiantes olvidan que si las funciones se tocan en las esquinas
los puntos de coordinadas (0, 0), (1, 0), (0, 1) y (1, 1) eso quiere
decir que se cruzan. Por ejemplo, en la Figura 2.8 en la pagina 29
las funciones se tocan y por tanto se cruzan, en las esquinas (0, 0) y
(1, 1).
El hecho de que una estrategia domina a otra estrategia es distinto
(aunque relacionado) del hecho que una estrategia es una mejor respuesta. La dominacion de una estrategia no se refiere a las estrategias
utilizadas por los demas jugadores. Pero el concepto de mejor respuesta siempre se refiere a las estrategias utilizadas por los demas
jugadores.
Un resultado deseable no es necesariamente un equilibrio. Vease por
ejemplo el dilema de los prisioneros: Hablar para los dos jugadores es
un resultado deseable pero el equilibrio es que los dos eligen Callarse.
Otro manera de ver un equilibrio de Nash. Cogemos un juego
con dos jugadores, i y j. Para que el perfil (
si , sj ) sea un equilibrio
tenemos que tener eso:
(i) Cogemos si y buscamos una (o la) mejor respuesta de j. Si no
obtenemos sj , entonces (
si , sj ) no puede ser un equilibrio de Nash.

Introducci
on

Pero el echo de obtener sj tampoco significa que tenemos un equilibrio de Nash. Para que sea un equilibrio de Nash, tenemos que
obtener eso:
(ii) Cogemos sj y buscamos una (o la) mejor respuesta de i. Si no
obtenemos sj , entonces (
si , sj ) no puede ser un equilibrio de Nash.
En el caso contrario, (
si , sj ) es un equilibrio de Nash (porque ya
hemos verificado que (i) esta cierto).

1.2.2

Juegos en forma extensiva

Una acci
on de un jugador es lo que hace en un nodo. Una estrategia
es una lista de acciones para cada nodo de decision.
Un conjunto de informaci
on puede contener 2, 3 (o mas) nodos de
decision. Si en un nodo de un conjunto de informacion un jugador elige
una accion, deber ser el caso que elige la misma accion en los otros
nodos de decision del mismo conjunto de informacion.
Cuando tienes que trabajar con un juego secuencial, hacer la lista de
los conjuntos de informacion / nodos de decision de los jugadores puede
ayudar a entender las estructura de las estrategias de los jugadores.
Por ejemplo, si un jugador tiene 4 nodos de decision, cualquier estrategia de este jugador contiene 4 elementos: cada elemento describe una
accion para cada nodo.

1.3

Libros

Aqu hay una lista de libros que pueden ayudar. Sin embargo, todo esta hecho
para que estos apuntes y una presencia regular en la clase son suficientes para
preparar el examen.
Binmore, K.G., Teora de Juegos,, Mc Graw Hill 1994.
Dixit, A., Nalebuff, B., Pensar Estrategicamente, A. Bosch ed. 1992.
Gibbons, R., Un Primer Curso de Teora de Juegos , A. Bosch ed.
1993.
Kreps, D.M., Curso de Teora Microeconomica, McGraw-Hill 1995.
Rasmusen, E., Juegos e informacion. Introduccion a la Teora de Juegos, McGraw Hill 1995.

1.3 Libros
Vega Redondo F., Economa y juegos, teora y aplicaciones, A. Bosch
ed. 1999.

Los libros de Vega Redondo y de Gibbons son los mas adaptados para
esta asignatura.

Introducci
on

Captulo 2
Juegos Est
aticos con
informaci
on completa
Un juego estatico con informacion completa se llama un juego en forma
normal. En los juegos en forma normal los jugadores eligen sus estrategias
de manera simultanea, de forma que cada jugador elige su estrategia sin saber
que estrategias han elegido los demas jugadores.
En los captulos 3 y 4 vamos a estudiar juegos en los que los jugadores
pueden elegir sus acciones sabiendo las estrategias elegidas por los demas.

2.1

Elementos y definici
on de un juego

Un juego esta definido por los elementos siguientes:


Un conjunto de jugadores N = {i, j, k . . . , n};
Para cada jugador i N un conjunto de estrategias Si ;,
Para cada perfil de estrategias, es decir, para cada coleccion posible
de estrategias de manera que especificamos una estrategia para cada
jugador, una funcion que especfica la ganancia de cada jugador.

2.2

Juegos en forma normal

En general representamos un juego en forma normal con una matriz. Por


ejemplo, podemos tener el juego siguiente:
a
b

c
3, 1
5, 4

d
100, 52
2, 3

Juegos est
aticos

En este juego tenemos dos jugadores, i y j. El conjunto de estrategias


del jugador i es {a, b} y el del jugador j es {c, d}. Es decir, el jugador i elige
entre las lineas de la matriz y el jugador j elige entre las columnas.
En los juegos en forma normal siempre supondremos que el
jugador i es el que elige entre las lineas y el jugador j el que elige
entre las columnas.
Si el jugador i elige la estrategia a y el jugador j elige la estrategia d
entonces la ganancia del jugador i es 100 y la del jugador j es 52.
En general, las ganancias de un jugador h se nota uh , y si los jugadores
utilizan el perfil s = (s1 , s2 , . . . , sn ) la ganancia del jugador h es:
uh (s) = uh (s1 , s2 , . . . , sn ) .

(2.1)

A veces queremos hacer la comparacion entre dos perfiles s = (s1 , s2 , . . . , sn )


y s0 = (s01 , s02 , . . . , s0n ) en los que las estrategias de todos los jugadores son
iguales salvo la estrategia del jugador i. Es decir, para todos los jugadores
distintos del jugador i la estrategia en el perfil s es la misma que la estrategia
en el perfil s0 , y para el jugador i su estrategia en el perfil s es distinta de su
estrategia en el perfil s0 :
j 6= i,

sj = s0j ,

si 6= s0i .
Si tenemos dos perfiles s y s0 que satisfacen estas condiciones escribimos
que s0 es el perfil obtenido con la estrategia s0i y las estrategias en el perfil s
de los jugadores distintos del jugador i:
s0 = (s0i , si ) ,

(2.2)

si = (s1 , . . . , si1 , si+1 , . . . , sn ) ,

(2.3)

donde
es decir, si es la coleccion de las estrategias de todos los jugadores salvo el
jugador i.

2.2.1

Notaciones

Cuando dibujamos un juego en forma normal, siempre se supondra que el


jugador que elige las lineas es el jugador i, y el jugador que elige las columnas
es el jugador j. Cuando escribimos las ganancias, la primera cifra es la del
jugador i, y la segunda es la del jugador j. As, si cogemos el juego siguiente:

2.2 Juegos en forma normal

a
b

c
2, 10
3, 7

d
1, 2
0, 15

El jugador elige entre a y b, Si = {a, b} y el jugador j elige entre c y d,


Sj = {c, d} . Si los jugadores juegan el perfil (b, c) la ganancia de i es 3 (y no
7) y la del jugador j es 7 (y no 3).
Ahora que tenemos una notacion, aqu hay un ejercicio para ver si eres
capaz de adivinar como se lee el juego siguiente, con 3 jugadores: i, j y k:
U
D

L
R
3, 5, 0
1, 2, 10
100, 60, 80 6, 19, 21

U
D

L
R
8, 7, 4
13, 1, 9
89, 6, 74 20, 42, 15

Los conjuntos de estrategias son: Si = {U, D}, Sj = {L, R} y Sk =


{W, E} .
Si los jugadores juegan el perfil (U, R, E) las ganancias de i, j y k son
respectivamente 13, 1 y 9. Con el perfil (D, R, W ) tenemos entonces:
ui (D, R, W ) = 6, uj (D, R, W ) = 19, uk (D, R, W ) = 21 .

2.2.2

Algunas cosas importantes

Un juego en forma normal se representa, en general, con una tabla. Eso


lo podemos hacer cada vez que los jugadores tienen un n
umero finito de
estrategias. Por ejemplo, la tabla siguiente representa un juego.
a
b

c
1, 0
3, 7

d
100, 200
0, 10

La tabla resume todo:


El conjunto de jugadores: un jugador elige la lineas (lo llamamos el
jugador i) y otro las columnas (lo llamamos el jugador j).
Para cada jugador un conjunto de estrategias, Si = {a, b} y Sj {c, d}.
Para cada perfil de estrategias, (a, c), (a, d), (b, c) o (n, d) podemos
saber cuales son las ganancias de los jugadores.
Siempre se supone que los jugadores suelen mirar a sus ganancias. Eso quiere decir que cuando i tendra que elegir su estrategia solo mirara
a sus ganancias. Es un poco como si, para i, el juego fuese:

Juegos est
aticos

10

a
b

c
1
3

d
100
0

y para el jugador j el juego fuese:


a
b

2.3

c
0
7

d
200
10

Estrategias estrictamente dominadas

Una estrategia si para un jugador i esta estrictamente dominada por otra


estrategia s0i si para cualquiera estrategia jugada por los demas jugadores,
la ganancia de i con la estrategia s0i es estrictamente mas grande que la
estrategia si :
si ui (s0i , si ) > ui (si , si ) .
(2.4)
Cogemos por ejemplo el juego siguiente:
a
b

c
3, 1
2, 4

d
10, 2
2, 1

En este juego, para el jugador i la estrategia b esta estrictamente dominada por la estrategia a. Con la estrategia a, el jugador i gana 3 o 10,
depende de la estrategia jugada por el jugador j. Pero con la estrategia b el
jugador i solo gana 2 o 2.
Para el jugador j, no hay una estrategia que domina a la otra. Si el
jugador i elige la estrategia a, el jugador prefiere la estrategia d, pero si
el jugador i elige la estrategia b la estrategia preferida del jugador j es la
estrategia c.
Con este juego, podemos decir que el jugador i nunca va a elegir la estrategia b. Entonces, es como si el juego fuera:
a

c
3, 1

d
10, 2

Lo que hemos hecho es la eliminaci


on de una estrategia estrictamente
dominada. Pero en este nuevo juego, elegir la estrategia c nunca es optimo
para el jugador j. Es decir, aparece una nueva estrategia estrictamente dominada, la estrategia d. Entonces, podemos eliminarla, lo que nos llega al juego
siguiente:

11

2.3 Estrategias estrictamente dominadas

d
10, 2

Lo que acabamos de hacer se llama la eliminaci


on reiterada de las
estrategias estrictamente dominadas.
El hecho de eliminar las estrategias estrictamente dominadas nos permite
eliminar estrategias que son improbables, es decir, nunca va a ser el caso
que los jugadores van a utilizar estas estrategias. Eso es muy practico porque
nos permite de simplificar juegos que pueden ser muy complicados.

2.3.1

Estrategias dominadas pero no estrictamente

Existe otro concepto de dominacion entre las estrategias pero mas debil. Para
un jugador, puede existir una estrategia que le da, a veces, una ganancia
estrictamente mayor que otra estrategia, pero un unos casos (es decir, con
unos perfiles de estrategias de los demas jugadores) tiene una ganancia igual.
En este caso, tenemos una relacion de dominacion entre las estrategias, pero
esta relacion no es estricta.
Definici
on 1 Para un jugador i, la estrategia si domina, pero no estrictamente, a la estrategia s0i si tenemos:
ui (si , si ) ui (s0i , si ) ,

, si Si

(2.5)

con una igualdad estricta para al menos un perfil si .


Por ejemplo, sea G el juego siguiente,
a
b
c

d
2, 1
2, 4
2, 4

e
f
10, 2
7, 2
2, 1 7, 1
2, 1 1, 3

Para el jugador i, la estrategia a domina, pero no estrictamente, a la


estrategia b. Cuando j juega e, i gana estrictamente mas con a que con
b. Pero cuando j juega d o f , i tiene la misma ganancia con a que con b.
Entre las estrategias a y b solo hay un perfil del otro jugador con el que
i gana mas. Es suficiente par obtener una relacion de dominacion entre a
y b. Tambien tenemos que la estrategia a domina a la estrategia c, pero
en este caso hay dos perfiles posibles para el jugador j con los que i tiene
una ganancia estrictamente mas mayor jugando a que jugando c. Estas dos
estrategias son e y f .
Al igual que las estrategias estrictamente dominadas, las estrategias dominadas, pero no estrictamente, se pueden eliminar de forma repetida. Sin

Juegos est
aticos

12

embargo, este proceso de eliminacion reiterada puede llevar resultados distintos seg
un el orden con el que hemos hecho la eliminacion reiterada. Si solo
eliminamos las estrategias estrictamente dominadas el orden de eliminacion
no influye sobre el resultado final.

2.3.2

Estrategias dominantes

Cuando encontramos una estrategia que domina a cualquiera otra estrategia, esta estrategia se llama estrategia dominante. Del mismo modo que
para la dominacion, hacemos la diferencia entre una estrategia estrictamente
dominante y una estrategia dominante pero no estrictamente.
Si una estrategia domina estrictamente a todas las otras estrategias, entonce esta estrategia se llama estrictamente dominante.
Pero, si la estrategia domina pero no estrictamente a unas estrategias,
entonces es una estrategia dominante pero no estrictamente.
Por ejemplo, consideramos el juego siguiente:
a
b
c

d
4, 1
2, 1
1, 0

e
f
7, 3
45, 2
7, 4 4, 1
2, 1 1, 3

Para el jugador i, la estrategia a es una estrategia dominante pero no


estrictamente. Domina estrictamente a la estrategia c pero de manera no
estricta a la estrategia b.
Para el jugador j, la estrategia e es una estrategia estrictamente dominante. Domina estrictamente a las estrategias d y f .

2.4

El equilibrio de Nash

Uno de los conceptos fundamentales en la teora de los juegos es el equilibrio


de Nash. Este concepto hace la hipotesis de que los jugadores, al decidir si
quieren cambiar de estrategia, suponen que los demas jugadores no cambian
de estrategia. Eso se llama la conjetura de Nash. Por ejemplo, supongamos
que tenemos el perfil s = (s1 , . . . , sn ) y que el jugador i quiere ver si puede
obtener una ganancia mayor jugando otra estrategia. La conjetura de Nash
consiste en el hecho de compara los perfiles (s0i , si ) y (si , si ): entre estos
dos perfiles solo cambia la estrategia del jugador i.
Definici
on 2 Un perfil s = (s1 , s2 , . . . , sn ) es un equilibrio de Nash si:
, i, , s0i 6= si ,

ui (si , si ) ui (s0i , si ) .

(2.6)

13

2.4 El equilibrio de Nash

As pues, un perfil de estrategias es un equilibrio de Nash si para cada


jugador, cualquiera otra estrategia le da una ganancia igual o menor. Dicho
de otra manera, cada jugador no puede encontrar otra estrategia que le da
una ganancia estrictamente mayor.
El concepto del equilibrio de Nash esta asociado con el concepto de mejor
respuesta. Supongamos que tenemos el perfil de estrategias s = (s1 , . . . , sn ).
Para un jugador i, su mejor respuesta cuando los demas jugadores utilizan el
perfil si es la estrategia que maximiza su ganancia. Por supuesto, podemos
tener mas de una mejor respuesta.
As pues, un perfil de estrategias es un equilibrio de Nash si la estrategia de cada jugador es una mejor respuesta contra las estrategias de los
demas jugadores. Una estrategia de un jugador es una mejor respuesta si no
existe otra estrategia para este jugador que da a este jugador una ganancia
estrictamente mas grande sin cambiar las estrategias de los otros jugadores.
Por ejemplo, en el juego siguiente:
a
b

c
d
4, 1 1, 1
6, 4 2, 1

la estrategia b es la mejor respuesta del jugador i cuando el jugador j elige la


estrategia c. Si el jugador i elige la estrategia a las estrategias c y d son ambas
mejores respuestas para el jugador j, pero si el jugador i elige la estrategia b
solo d es una mejor respuesta del jugador j.
En el juego anterior solo el perfil (a, d)) es un equilibrio de Nash. Todos los
otros perfiles no son equilibrios de Nash. Por ejemplo, si los jugadores eligen
el perfil (a, c) el jugador i no utiliza una mejor respuesta. Entonces, decimos
que el jugador i desva y utiliza la estrategia b en lugar de la estrategia a.
El perfil (b, c) tampoco es un equilibrio de Nash porque la estrategia c no
es la mejor respuesta del jugador j cuando i utiliza la estrategia b.
Una manera sencilla de buscar un equilibrio de Nash es de coger una
estrategia de un jugador. Por ejemplo, supongamos que solo tenemos dos
jugadores, y cogemos el jugador i y su estrategia si . Luego, tenemos que
buscar la o las mejores respuestas de j cuando i juega si . Sea sj la mejor
estrategia de j. Ahora que tenemos la mejor respuesta de j, sj , buscamos
la mejor respuesta de i cuando j juega la estrategia sj . Supongamos que
solo hay una mejor respuesta, si . Si tenemos si = si , entonces tenemos un
equilibrio de Nash, el perfil (si , sj ), que es lo mismo que el perfil (si , sj ) dado
que si = s: es la misma estrategia.
Si encontramos que si 6= si , entonces el perfil (si , sj ) no es un equilibrio
de Nash: si no es una mejor respuesta de i contra la estrategia sj del jugador
j.

Juegos est
aticos

14

Por ejemplo, cogemos el juego siguiente:


a
b

c
10, 8
6, 1

d
3, 5
2, 4

Primero miramos a un equilibrio de Nash:


(i) Cogemos la estrategia c.
(ii) La mejor respuesta de i es a.
(iii) Ahora, supongamos que i juega la estrategia encontrada en el apartado
(ii), a.
(iv) La mejor respuesta de j cuando i juega a es c.
(v) Verificamos si la estrategia encontrada en el apartado (iv) es la misma
que la estrategia inicial la del aparatado (i). Entonces, (a, c) es un
equilibrio de Nash. Hemos salido de c
Ahora, cogemos un perfil que no es un equilibrio de Nash:
(i) Cogemos la estrategia d.
(ii) La mejor respuesta de i es a.
(iii) Ahora, supongamos que i juega la estrategia encontrada en el apartado
(ii), a.
(iv) La mejor respuesta de j cuando i juega a es c.
(v) Podemos ver que la estrategia inicial, del apartado (i), d, es distinta de
la estrategia del apartado (iv), c. Entonces, (d, a) no es un equilibrio
de Nash.
En general, este proceso es muy practico para buscar los equilibrios de
Nash. En la lineas siguientes, la notacion
si sj
j

significa que si i juega si entonces la estrategia mejor respuesta de j es s0j , y


la notacion
si sj sk
j

significa que si i juega si entonces la estrategia mejor respuesta de j es s0j , y


si j juega sj entonces la estrategia mejor respuesta de k es sk .
Cogemos ahora el juego siguiente:

15

2.4 El equilibrio de Nash

a
b
c
Estrategia de i
a
b
c

d
3, 1
2, 4
1, 4

e
f
10, 2
7, 2
2, 1 7, 1
2, 1 1, 3

Mejor respuesta de j
e
f
d
d

Mejor respuesta de i
a
a
a
a

Tabla 2.1: Mejores respuestas cuando salimos de una estrategia de i.


Lo importante aqu es de verificar si la estrategia en la primera columna
es la misma que la estrategia en la u
ltima columna. Podemos ver que siempre
llegamos a la estrategia a. Entonces, los u
nicos candidatos para un equilibrio
de Nash es cuando a es la estrategia de i. Si salimos de a, podemos ver que
hay dos caminos para volver a la estrategia a: por e o por f (la segunda
columna). Entonces, (a, e) y (a, d) son equilibrios de Nash.
Ahora, miramos lo que pasa si salimos de una estrategia del jugador j.
La lista de las mejores respuestas y de las mejores respuestas a las mejores
respuestas esta en la tabla 2.2
Estrategia de j
d

Mejor respuesta de i
a

a
b

Mejor respuesta de j
e
f
e
f
e
f
d

Tabla 2.2: Mejores respuestas cuando salimos de una estrategia de j.


Por ejemplo, si j juega f , i tiene dos mejores respuestas, a o b. Si i
juega a, entonces la mejor respuesta de j es e o f . Entonces, ya tenemos un
equilibrio de Nash: (a, f ). Si i juega b, la mejor respuesta de j es d, lo que
es distinto de la estrategia de origen, f . Entonces, (b, f ) no es un equilibrio
de Nash.
Con las tablas 2.1 y 2.2 podemos obtener facilmente todos los equilibrios
de Nash. En este juego solo hay dos equilibrios, (a, e) y (a, f ).

Juegos est
aticos

16

Importante: En este juego, hemos podido encontrar todas los equilibrios


de Nash con solo una de las dos tablas, la tabla 2.1 o la tabla 2.2, es decir,
saliendo de las estrategias de i o de j. Sin embargo, podemos tener un juego
con el que necesitamos las dos tablas. En cualquier caso, hacer las dos tablas
permite de verificar. . . por si a caso. . .

2.4.1

Ejemplo: competici
on electoral

Consideramos dos candidatos polticos, A y B, que compiten. El objeto de


la campa
na electoral es de hacer una propuesta para una inversion en un
edificio p
ublico (una biblioteca, una piscina, etc.) Para este edificio se puede
gastar entre 0 y 1e. Tambien suponemos que hay un n
umero infinito de
votantes, y cada votante tiene un nivel de inversion preferido. Cada votante
vota para el candidato que propone un nivel de inversion mas cerca de su
nivel ideal. Por ejemplo, si el candidato A propone de invertir pA = 0, 3ey
el candidato B propone de invertir pB = 0, 8e, el votante cuyo nivel ideal es
invertir 0, 4eva a votar para el candidato B.
La distribucion de los votantes seg
un sus niveles ideales de inversion es
uniforme entre 0 y 1. Ademas, se supone que a los candidatos solo les interesa
ganar. Las ganancias para los candidatos se resumen as:
El que gana tiene una utilidad de 1,
El que pierde tiene una utilidad de 1,
Si hay empate, los dos candidatos tienen una ganancia de 0.
Por ejemplo, si A propone pA = 0, 4e y B propone 0, 7e tenemos:
Todos los votantes cuyos niveles ideales estan entre 0 y 0, 4 votan para
A, por lo cual A ya tiene al menos el 40% de los votos.
Todos los votantes cuyos niveles ideales estan entre 0, 7 y 1 votan para
B, por lo cual B ya tiene al menos el 30% de los votos (30% = (1
0, 7) 100).
Todos los votantes cuyos niveles ideales estan entre 0, 4 y 0, 55 votan
para A. Estos votantes representan el 15% de los votantes.
Todos los votantes cuyos niveles ideales estan entre 0, 55 y 0, 7 votan
para B. Estos votantes representan el 15% de los votantes.

17

2.4 El equilibrio de Nash

Entonces, A tiene el 55% = 40%+15% de los votos y B tiene el 30%+15%


de los votos. A gana la eleccion y su ganancia es 1 y B pierde y su ganancia
es 1.
El u
nico equilibrio de Nash de este juego es cuando pA = 12 y pB = 12 .
Ya podemos verificar que este perfil es un equilibrio de Nash. Con este
perfil, hay empate, por lo cual los dos candidatos tienen una ganancia de 0.
Si A desva y propone pA < 21 .
Entonces A tiene (pA + 21 (pB pA )) 100% de los votos: los votantes
entre 0 y pA votan para A, es decir el pA 100% de los votantes, y
tambien todos los votantes cuyos niveles de inversion ideales son entre
pA y PB y que son mas cerca de pA que de pB , es decir el 12 (pB pA )100
de los votantes. De forma mas compacta, A tiene el 12 (pA + pB ) 100%
de los votos. Dado que pB = 12 , y que pA < 12 , tenemos que 12 (pA +
pB ) 100 < 50%. Entonces, A pierde y tiene una ganancia igual a 1,
o sea que A no quiere desviar.
Si A desva y propone pA > 12 .
Entonces A tiene (1pA + 12 (pA pB ))100% de los votos: los votantes
entre pA y 1 votan para A, es decir el 1 pA 100% de los votantes, y
tambien todos los votantes cuyos niveles de inversion ideales son entre
pB y PA y que son mas cerca de pA que de pB , es decir el 21 (pA pB A)
100 de los votantes. De forma mas compacta, A tiene el (1 21 (pA +
pB )) 100% de los votos. Dado que pB = 21 , y que pA > 12 , tenemos
que 12 (pA + pB ) 100 > 50%, por lo cual (1 12 (pA + pB )) 100 < 50% .
Entonces, A pierde y tiene una ganancia igual a 1, o sea que A no
quiere desviar.
Podemos hacer lo mismo para el candidato B (solo hay que reemplazar
B por A y A por B) y llegamos a la misma conclusion: B no quiere desviar.
Entonces, el perfil (pA = 21 , pB = 12 ) es un equilibrio de Nash.
Ahora nos falta demostrar que no podemos encontrar un equilibrio de
Nash en el que hay un candidato que elige una propuesta que sea distinta
del 12 .
Supongamos que por ejemplo el candidato B elige un pB (que llamamos el
pB inicial), de manera que pB > 21 . Vamos a buscar la mejor respuesta de
A, y de este buscar la mejor respuesta de B y comprobar que es distinta del pB
inicial. Con un pB > 12 , la mejor respuesta de A consiste en elegir cualquiera
propuesta entre 1 pB y pB . Solo se necesita que 1 pB < pA < pB . As, A
puede ganar y obtener una ganancia de 1. Si A elige pA = 1 pB o pA = pB ,
tiene una ganancia de 0 y si elige un pA de manera que 0 < pA < 1 pB o
pB < pA entonces A pierde, por lo cual tiene una ganancia de 1.

Juegos est
aticos

18

Sea pA una mejor respuesta de A. Es facil de ver que la mejor respuesta


de B debe estar estrictamente entre 1 pA y pA (o entre pA y 1 pA seg
un
1
1
0
que pA > 2 o pA < 2 ). Entonces, obtenemos un pB , la mejor respuesta de
B a la mejor respuesta de A, que es obviamente estrictamente menor que el
pB inicial. Entonces, si tenemos un perfil de estrategias (pA , pB ) en el que
pB > 12 este perfil no puede ser un equilibrio de Nash. Podremos encontrar
un pA que es mejor respuesta de A contra pB pero pB no sera mejor respuesta
de B contra cualquier pA que podremos encontrar.
El caso cuando PB > 21 es similar, y tambien cuando pA 6= 12 . Entonces,
no existe equilibrio de Nash cuando al menos uno de los dos candidatos eligen
una propuesta que sea distinta del 0, 5e.

2.4.2

Estrategias puras/mixtas

En los juegos que hemos visto en las secciones anteriores siempre hemos
utilizado las estrategias puras de los jugadores. Las estrategias puras eran
las estrategias a, b, d, etc.
Cuando describimos los conjuntos de estrategias en un juego siempre nos
referimos a las estrategias puras.
Sin embargo, podemos tener el caso que los jugadores utilizan una mezcla de estrategias, es decir, que un jugador utiliza unas estrategias con
ciertas probabilidades. Por ejemplo, podemos decir que el jugador i juega la
estrategia a con una probabilidad 13 y la estrategia b con una probabilidad 23 .
En este caso, decimos que el jugador i utiliza una estrategia mixta.
Definici
on 3 Una estrategia mixta es una distribuci
on de probabilidades sobres una estrategias puras.
Entonces, una estrategia pura tambien es una estrategia mixta: hay una
probabilidad 1 de jugar la estrategia pura y una probabilidad 0 de jugar
cualquiera otra estrategia.
Las estrategias mixtas se deben entender as: son planes estrategicos de
un jugador antes de jugar. Jugar la estrategia a con una probabilidad 1/3
y la estrategia b con una probabilidad 2/3 no es de hacer un tercio de a
y dos tercios de b, pero quiere decir que hay una probabilidad de 1/3 que
el jugador juegue la estrategia a y una probabilidad de 2/3 que el jugador
juegue la estrategia b. Por ejemplo, por la ma
nana una persona compra a
veces un periodico, y otras veces no lo compra. Al salir de casa hay una
probabilidad que compre un periodico y una probabilidad que no compre
periodico. Decir que jugar una estrategia mixta es semejante a jugar una
mezcla de las acciones correspondientes podra decir que una persona compra

19

2.4 El equilibrio de Nash

10 paginas de un periodico, sin comprar el resto. Esta claro que eso no tiene
sentido.
Observaci
on 1 Una estrategia pura es tambien una estrategia mixta. Si un
jugador tiene por ejemplo dos estrategias puras, a y b, jugar la estrategia
a es, por definicion, jugar una estrategia pura. Pero tambien se puede ver
como una estrategia mixta:
Jugar a con una probabilidad 1,
Jugar b con una probabilidad 0.
Para no equivocarse, cada vez que hablaremos de estrategia mixta se tendr
a
que entender que es una estrategia que no es una estrategia pura.

2.4.3

Utilidad esperada

Como calcular las ganancias de los jugadores si uno utiliza una estrategia
mixta? El principio es muy simple y consiste en calcular la esperanza de la
ganancia de los jugadores.
Cogemos por ejemplo el juego siguiente:
c
d
4, 1 1, 1
2, 4 2, 1

a
b

Supongamos que el jugador i utiliza la estrategia mixta siguiente:


Jugar a con una probabilidad

1
3

Jugar b con una probabilidad

2
3

y el jugador j utiliza la estrategia c.


Entonces, el jugador i gana:
4 con una probabilidad

1
2

(con el perfil (a, c))

2 con una probabilidad

1
2

(con el perfil (b, c))

1
2

(con el perfil (a, c))

y el jugador j gana:
1 con una probabilidad
-4 con una probabilidad

1
2

(con el perfil (b, c))

Juegos est
aticos

20

Entonces, la ganancia esperada del jugador i es:


1
2
8
+2 = ,
3
3
3
y la ganancia esperada del jugador j es:
Eui = 4

(2.7)

1
2
7
4 = .
(2.8)
3
3
3
Si el jugador j juega tambien una estrategia mixta, por ejemplo c con
una probabilidad 1/4 y d con una probabilidad 3/4, entonces tenemos que
los jugadores juegan:
Euj = 1

El perfil (a, c) con una probabilidad

1
3

1
4

1
12

El perfil (b, c) con una probabilidad

2
3

1
4

2
12

El perfil (a, d) con una probabilidad

1
3

3
4

3
12

El perfil (b, d) con una probabilidad

2
3

3
4

6
12

En este caso, las ganancias esperadas de los jugadores son:


1
2
3
6
ui (a, c) + ui (b, c) + ui (a, d) + ui (b, d)
12
12
12
12
1
2
3
6
7
= 4 + 2 + (1) + (2) =
12
12
12
12
12
1
2
3
6
Euj = uj (a, c) + uj (b, c) + uj (a, d) + uj (b, d)
12
12
12
12
1
2
3
6
3
= 1 + 1 + (4) + 1 =
12
12
12
12
12
Eui =

El hecho de poder utilizar estrategias mixtas nos permite de obtener un


resultado muy importante, demonstrado por primera vez por John Nash:
Teorema 1 Si G es un juego donde el conjunto de estrategias de cada jugador contiene un n
umero finito de estrategias puras, entonces, siempre existe
al menos un equilibrio de Nash.
Tambien tenemos estos resultados:
Proposici
on 1 En un juego en forma normal con n jugadores, con los conjuntos de estrategias puras S1 , . . . , Sn , funciones de ganancias, u1 , . . . , un , si
la eliminacion reiterada de las estrategias estrictamente dominadas elimina
todas las estrategias menos el perfil s = (s1 , . . . , sn ), entonces el perfil s es
el u
nico equilibrio de Nash del juego.

21

2.4 El equilibrio de Nash

Proposici
on 2 En un juego en forma normal con n jugadores, con los conjuntos de estrategias puras S1 , . . . , Sn , funciones de ganancias, u1 , . . . , un ,
si el perfil s = (s1 , . . . , sn ) es un equilibrio de Nash, entonces sobrevive la
eliminacion reiterada de las estrategias estrictamente dominadas.

2.4.4

Calcular los equilibrios de Nash en estrategias


mixtas

Sea G un juego y s = (s1 , . . . , sn ) un perfil de estrategias que es un equilibrio de Nash en el que el jugador i juega una estrategia mixta (que no es una
estrategia pura). Sea (s1i , s2i ) el soporte de la estrategia mixta de i, si . El
soporte de una estrategia mixta es el conjunto de todas las estrategias puras
que forman parte de la estrategia pura. Por ejemplo, si i tiene tres estrategias puras, s1i , s2i y s3i , pero su estrategia mixta consiste en utilizar solo las
estrategias s1i y s2i , entonces el soporte de su estrategia mixta es (s1i , s2i ).
Sea p la probabilidad que i juegue s1i en su estrategia mixta si (la estrategia del equilibrio de Nash) y 1 p la probabilidad que i juegue s2i . Vamos
a demonstrar que en este caso, las estrategias s1i y s2i tambien son mejores
respuestas de i contra la estrategia si .
Primero demonstramos que el jugador gana lo mismo con s1i que con s2i
cuando los demas jugadores juegan si . Para facilitar las cosas supongamos
que si es un perfil de estrategias puras. Supongamos que eso es falso.
Entonces, i gana mas con una estrategia, por ejemplo s1i , que con la otra, s2i ,
es decir,
ui (s1i , si ) > ui (s2i , si ) .
(2.9)
Pero si al equilibrio de Nash i juega s1i con una probabilidad p y s2i con
una probabilidad 1 p, la ganancia de i al equilibrio de Nash es:
ui (si , si ) = pui (s1i , si ) + (1 p)ui (s2i , si ) .

(2.10)

Supongamos ahora que i juega la estrategia pura s1i . Entonces, su ganancia


se puede escribir as:
ui (s1i , si ) = pui (s1i , si ) + (1 p)ui (s1i , si ) .

(2.11)

Si calculamos la diferencia entre las ecuaciones (2.11) y (2.10) tenemos:


ui (s1i , si ) ui (si , si ) = ui (s1i , si ) + (1 p)ui (s1i , si )
ui (s1i , si ) + (1 p)ui (s2i , si )
= (1 p)ui (s1i , si ) + (1 p)ui (s2i , si )
= (1 p)(ui (s1i , si ) ui (s2i , si )) .

Juegos est
aticos

22

Por la ecuacion (2.9) podemos ver que el resultado es siempre estrictamente


positivo, por lo cual i gana estrictamente mas con la estrategia pura s1i que
con la estrategia mixta si . Entonces, el perfil s no sera un equilibrio de
Nash (i quiere desviar y jugar solo la estrategia pura s1i ). Pero sabemos que
s es un equilibrio de Nash y, por lo tanto, la hipotesis que hemos echo (i
gana mas con s1i que con s2i cuando los demas juegan si ) es falsa. Ahora,
es facil de ver que si ui (s1i , si ) = ui (s2i , si ) entonces tenemos
ui (s1i , si ) = ui (s2i , si ) = ui (si , si ) .

(2.12)

Es decir, las ganancias de i jugando la estrategia mixta o jugando s1i o jugando


s2i son iguales.
Dos estrategias (o mas) son mejores respuestas si no hay otra estrategia
que dan una ganancia estrictamente mas y si las ganancias son iguales. Si la
estrategia s1i o la estrategia s2i dan a i la misma ganancia que la estrategia
mixta del equilibrio de Nash, entonces estas estrategias son tambien mejores
respuestas.
Eso no significa que tenemos tambien un equilibrio de Nash en el que i
juega la estrategia pura s1i o la estrategia pura s2i . Eso es porque si i juega
con una de estas estrategias puras podemos tener un jugador j cuya mejor
repuesta no es sj (su estrategia en el equilibrio de Nash s), aunque i gana lo
mismo con s1i o con s2i que con la estrategia mixta.
Tambien podemos ver que cualquiera estrategia mixta de i en la que
utiliza las estrategias s1i y s2i es mejor respuesta en contra del perfil s1 . Sea
p la probabilidad que i juegue la estrategia s1i y 1 p la probabilidad que i
juegue la estrategia s2i . Entonces la ganancia esperada de i es:
Eui = pui (s1i , si ) + (1 p)ui (s2i , si )

(2.13)

Pero porque ui (s1i , si ) = ui (s2i , si ) = ui (si , si ), tenemos entonces


Eui = pui (si , si ) + (1 p)ui (si , si ) = ui (si , si ) .

2.4.5

(2.14)

Dibujar los equilibrios de Nash

Para dibujar los equilibrios de Nash utilizamos las funciones de mejor respuesta. Para eso, utilizamos dos ejes, uno que representa la mejor respuesta
de i, y otro la mejor respuesta de j. Hay que recordarse que la mejor respuesta de j (o de i) consiste en coger una estrategia de i (o de j) y buscar
cual es la mejor, o las mejores estrategias de j (o de i). Vamos a dibujar
los equilibrios de Nash solo cuando cada jugador tiene dos estrategias puras.
En la observacion 1 hemos visto que una estrategia pura es tambien una

23

2.4 El equilibrio de Nash

estrategia mixta. Entonces, todas las estrategias de i (o de j) se pueden


caracterizar mediante la p (o la q) que es la probabilidad con la que i (o j)
juegue su primera estrategia pura. Por ejemplo, p = 0 es jugar la primer
estrategia pura con una probabilidad 0 y, por tanto, significa que i juega su
segunda estrategia pura con una probabilidad 1, es decir, juega una estrategia mixta. Por ejemplo, supongamos que tenemos el juego siguiente (sin las
ganancias):
c

a
b
Si cogemos una estrategia de i, es decir un p entre 0 y 1, podemos saber
mirando a las ganancias de j cuales son sus mejores respuestas. Entonces,
dibujar la funcion de mejor respuesta de j consiste en dibujar una curva que
por cada p entre 0 y 1 nos da un q, lo cual indica la estrategia eligida por j
cuando i juega la estrategia que corresponde a este valor de p. Hacemos el
mismo para el jugador j. As pues, el objetivo es de obtener dos curvas, una
para i y una para j en el grafico de la Figura 2.1.
p
1

pi

Figura 2.1: Ejes para la representacion grafica de las mejores respuestas


Con este grafico podemos visualizar cualquier perfil de estrategias. Por
ejemplo, el punto con coordinadas (1, 1) es el perfil en el que el jugador i
juega a con una probabilidad 1 y b con una probabilidad 0. Es decir, i juega
la estrategia pura a. Del mismo modo, podemos ver que en este punto j
juega la estrategia pura c. Entonces, tenemos lo siguiente:
(0, 0) corresponde al perfil (b, d)

Juegos est
aticos

24

(1, 0) corresponde al perfil (a, d)


(0, 1) corresponde al perfil (b, c)
(1, 1) corresponde al perfil (a, c)
(x, y) con 0 < x < 1 y 0 < y < 1 es un perfil con estrategias mixtas en
el que los dos jugadores utilizan una estrategia mixta (que no es una
estrategia pura).
Estos perfiles estan en representados en la Figura 2.2.
p
1 t(b, c)

t(a, c)

(a, d)

t(b, d)

Figura 2.2: Ubicacion de distintos perfiles de estrategias


Supongamos que tenemos un juego con dos jugadores y dos estrategias
puras cada uno. Vamos a ver que podemos dibujar los equilibrios de Nash
en un espacio con dos ejes. Cogemos por ejemplo el juego siguiente:
c
d
4, 2 1, 1
3, 0 2, 5

a
b

Este juego tiene dos equilibrios de Nash en estrategias puras: (a, c) y


(b, d). Tambien tiene un equilibrio de Nash en estrategias mixtas. Sea p la
probabilidad con la que i juegue la estrategia pura a en el equilibrio de Nash
en estrategias mixtas y q la probabilidad con la que j juegue la estrategia
pura c en el equilibrio de Nash en estrategias mixtas. Tenemos
p =

5
6

q =

1
.
2

25

2.4 El equilibrio de Nash

De momento, no vamos a calcular las probabilidades p y q de este


equilibrio, donde p es la probabilidad que i juegue a y q la probabilidad
que j juegue c.
Sin embargo, ya sabemos que si el jugador j juega la estrategia mixta
entonces esta indiferente entre jugar c o d (vease la seccion 2.4.4). Entonces,
si i juega su estrategia mixta del equilibrio de Nash, jugar c, d o la estrategia
mixta del equilibrio q son mejores respuestas de j. Pero tambien cualquiera
estrategia mixta en la que juega c con una probabilidad q, y q es cualquiera
cifra entre 0 y 1 (no necesariamente igual a q ). Si si es la estrategia mixta
de i al equilibrio de Nash, entonces tenemos cuando que la ganancia esperada
de j cuando juega una estrategia mixta con cualquier q es:
Euj (si , q) = quj (si , c) + (1 q)uj (si , d).

(2.15)

Pero sabemos (vease la seccion 2.4.4) que con si tenemos


uj (si , c) = uj (si , d).

(2.16)

Euj (si , q) = quj (si , c) + (1 q)uj (si , c) = uj (si , sj ).

(2.17)

Por lo cual tenemos:

Eso quiere decir que si queremos saber cual es la mejor respuesta de j


en funcion de la estrategia de i, es decir, en funcion del p que i ha elegido,
podemos deducir que si p = p entonces cualquiera estrategia mixta de j es
una mejor respuesta. Dicho de otra manera, que j juegue c, d la estrategia
mixta con q la probabilidad de jugar c o cualquiera q entre 0 y 1 siendo la
probabilidad de jugar c, eso no cambia nada: cualquiera estrategia de j le da
la misma ganancia, porque i juega la estrategia mixta del equilibrio de Nash.
Entonces, si i juega la estrategia mixta en la que la probabilidad de jugar
a es p , cualquiera estrategia mixta o pura de j es una mejor respuesta. Si
queremos dibujar la mejor respuesta de j cuando p = p obtendramos la
linea vertical del la Figura 2.3 en la pagina siguiente.
Ahora nos falta saber que pinta tiene la mejor respuesta de j cuando
p 6= p . Para hacer eso, lo mas sencillo es de coger una estrategia pura de i.
Por ejemplo, supongamos que i juega la estrategia b. En este caso la mejor
respuesta de j es de coger la estrategia d. Entonces, lo que tenemos que
hacer es:
Localizar en el dibujo el punto de coordinadas que corresponde al perfil
(b, d). Este punto es (0, 0).
Dibujar una recta horizontal que va de (0, 0) hasta la recta vertical
que hemos dibujado antes (en la Figura 2.3 en la pagina siguiente).
Obtenemos el grafico de la Figura 2.4 en la pagina siguiente.

Juegos est
aticos

26

p
1

p 65

Figura 2.3: Mejor respuesta de j cuando p = p .

p
1

p =

5
6

Figura 2.4: Mejor respuesta de j segunda etapa

27

2.4 El equilibrio de Nash

Ahora, para completar necesitamos saber lo que pasa si p > 56 . Para ello,
cogemos la estrategia de i cuando p = 1, es decir, cuando i juega la estrategia
pura a. Si i juega a, la mejor respuesta de j es de jugar c, es decir, q = 1.
Entonces, lo que tenemos que hacer es:
Localizar en el dibujo el punto de coordinadas que corresponde al perfil
(a, c). Este punto es (1, 1).
Dibujar una recta horizontal que va de (1, 1) hasta la recta vertical
que hemos dibujado antes (en la Figura 2.3 en la pagina anterior).
Obtenemos el grafico de la Figura 2.5.
p
1

p =

5
6

Figura 2.5: Mejor respuesta de j.


Las dos lineas horizontales que acabamos de dibujar se pueden deducir del
calculo. Cuando i juega la estrategia mixta del equilibrio de Nash el jugador
j esta indiferente entre sus dos estrategias puras. Cada de sus estrategias
da una ganancia distinta seg
un la estrategia (que sea distinta de su estrategia mixta del equilibrio) elegida por i. Entonces, si i utiliza una estrategia
distinta de su estrategia mixta del equilibrio el jugador j va a preferir una
estrategia pura mas que la otra. Entonces, solo nos falta saber para que valor
de pi el jugador j prefiere la estrategia c y para que valor de pi el jugador j
prefiere la estrategia d.
El jugador j prefiere jugar c si la ganancia esperada jugando c es mayor,
estrictamente, que su ganancia esperada jugando d. Es decir, cuando:
Euj (p, c) > Euj (p, d)

2p + 0(1 p) > 1p + 5(1 p) ,

(2.18)

donde el perfil (p, c) significa que j juega la estrategia pura c y i una estrategia
mixta en la que juega a con una probabilidad p, cuyo valor tenemos que

Juegos est
aticos

28

buscar (es decir, p es distinto de 56 ). La solucion de la ecuacion (2.18) es


cuando p > 65 . Eso quiere decir que si p > 56 la mejor respuesta de j es de
jugar c, la estrategia pura que consiste en elegir q = 1. Es por ello que en
la Figura 2.5 tenemos una linea horizontal que va del punto de coordinadas
( 65 , 1) hasta el punto de coordinadas (1, 1). Del mismo modo podemos calcular
los valores de p con los que el jugador j prefiere jugar d en lugar de c o de
cualquiera estrategia mixta. Para ello tenemos que solucionar la ecuacion
siguiente:
Euj (p, c) < Euj (p, d)

2p + 0(1 p) < 1p + 5(1 p) .

(2.19)

La solucion de la ecuacion (2.19) es cuando p < 56 . Eso quiere decir que si


p < 56 la mejor respuesta de j es de jugar d, la estrategia pura que consiste
en elegir q = 0. Es por ello que en la Figura 2.5 tenemos una linea horizontal
que va del punto de coordinadas ( 56 , 0) hasta el punto de coordinadas (0, 0).
Ahora dibujamos la funcion de mejor respuesta de i. Ya sabemos que al
equilibrio de Nash en estrategias mixtas el jugador j juega la estrategia pura
c con una probabilidad 21 . Entonces, cuando q = q = 12 , el jugador i esta
indiferente entre cualquiera estrategia: todas sus estrategias le dan la misma
ganancia, por lo cual todas sus estrategias son mejores respuestas. Es decir,
cualquier valor de p es una mejor respuesta. Entonces, si q = 12 , la curva de
la mejor respuesta de i es una linea horizontal que va del punto (0, 12 ) hasta
el punto (1, 12 ). Esta linea esta representada con la linea discontinuada en la
Figura 2.6.
q
1

q =

1
2

p =

5
6

Figura 2.6: Mejor respuesta de i cuando q = 12 .


Si j juega c, es decir, si q = 1, entonces i juega a, es decir p = 1. Entonces,
podemos dibujar una recta que va del punto (1, 1) hasta la recta horizontal
que acabamos de dibujar. Obtenemos la Figura 2.7 en la pagina siguiente.

29

2.4 El equilibrio de Nash


q
1

q =

1
2

p =

5
6

Figura 2.7: Mejor respuesta de i segunda etapa.


Si j juega una estrategia que corresponde a un q < 12 , para saber que
pinta tiene la mejor respuesta de i cogemos el caso cuando q = 0, es decir
cuando j juega la estrategia pura d. En este caso la mejor respuesta de i
es de jugar b, es decir p = 0. Obtenemos as el punto de coordinadas (0, 0).
Para obtener el dibujo completo solo falta dibujar una linea vertical entre
(0, 0) y la recta horizontal que hemos dibujado en la Figura 2.6 en la pagina
anterior. Eso esta dibujado en la Figura 2.8.
q
1

q =

1
2

p =

5
6

Figura 2.8: Mejor respuesta de i.


Podemos ver que las funciones de mejor respuesta de i y de j se cruzan
tres veces. Cada vez que se cruzan tenemos un equilibrio de Nash. De estos
tres equilibrios de Nash hay dos que estan ubicados en las esquinas, los

Juegos est
aticos

30

puntos de coordinadas (0, 0) y (1, 1): son los dos equilibrios en estrategias
puras. El equilibrio con coordinadas ( 56 , 12 ) es el u
nico equilibrio de Nash en
estrategias mixtas.
As pues, dibujar las funciones de mejor respuesta nos permite comprobar
el n
umero de los equilibrios de Nash y sus naturalezas (en estrategias puras
o mixtas).

2.5

Ejemplos

En esta seccion vamos a ver ejemplos de juegos donde hay un equilibrio de


Nash en estrategias puras y juegos donde los u
nicos equilibrios de Nash son
con estrategias mixtas.

2.5.1

El dilema de los prisioneros


Hablar
2, 2
5, 0

Hablar
Callarse

Callarse
0, 5
1, 1

En este juego solo hay un equilibrio de Nash: (Callarse,Callarse). Este


perfil es el u
nico equilibrio de Nash porque es el u
nico perfil que sobrevive a
la eliminacion de las estrategias estrictamente dominadas: para cada jugador
la estrategia Hablar esta estrictamente dominada por la estrategia Callarse.
En este juego, la estrategia Callarse es siempre la mejor respuesta para
el jugador i. Entonces, sea lo que sea la estrategia elegida por j (pura o
mixta, cualquier valor de q), la mejor respuesta de i consiste en elegir p = 0.
Entonces, si dibujamos la mejor respuesta de i obtenemos la Figura 2.9 en
la pagina siguiente.
Para el jugador j tenemos lo mismos: sea lo que sea la estrategia elegida
por i (pura o mixta, cualquier valor de p), la mejor respuesta de j consiste
en elegir q = 0. Entonces, si dibujamos la mejor respuesta de j obtenemos
la Figura 2.10 en la pagina siguiente.
Por cierto, la funciones de mejor respuesta solo se cruzan una vez, lo que
es compatible con el hecho de que solo hay un equilibrio de Nash.

2.5.2

La batalla de los sexos


A
B

A
B
2, 1 0, 0
0, 0 1, 2

31

2.5 Ejemplos

q
1

Figura 2.9: Mejor respuesta de i en el dilema de los prisioneros

q
1

Figura 2.10: Mejor respuesta de i y j en el dilema de los prisioneros

Juegos est
aticos

32

En este juego hay dos equilibrios en estrategias puras: (A,A) y (B,B) y


un equilibrio en estrategias mixtas. Ahora vamos a calcular el equilibrio en
estrategias mixtas.
Sea p la probabilidad con la que el jugador i juegue la estrategia A, y
1 p la probabilidad con que el jugador i juegue la estrategia B. Entonces,
la ganancia esperada del jugador j es:
Euj (A) = 1 p + 0 (1 p) = p ,

(2.20)

Si utiliza la estrategia A, y
Euj (B) = 0 p + 2 (1 p) = 2 (1 p) ,

(2.21)

Si utiliza la estrategia B.
El jugador j utiliza una estrategia mixta entre A y B si esta indiferente
entre la estrategia A y B, es decir, si su ganancia esperada cuando juega A
es la misma que su ganancia esperada cuando juega B (vease el ejercicio 7
en las hojas de ejercicio que he dada en diciembre). Eso es el caso si pi es la
solucion de:
2
p = 2(1 p) p = .
(2.22)
3
Es decir, si i juega A con una probabilidad p = 23 el jugador j esta indiferente
entre jugar a y jugar B. Del mismo modo podemos calcular el q con el que el
jugador i esta indiferente entre jugar A y jugar B, con q siendo la probabilidad
con la que el jugador j juegue A.
La ganancia esperada del jugador i si juega A es:
Eui (A) = 2 q + 0 (1 q) = 2q ,

(2.23)

y si utiliza la estrategia B es
Eui (B) = 0 q + 1 (1 q) = 1 (1 q) ,

(2.24)

Entonces tenemos Eui (A) = Eui (B) si:


2q = 1 q

q=

1
.
3

(2.25)

Entonces, el tercero equilibrio de Nash es cuando:


El jugador i juega A con una probabilidad
2
,
3

1
3

y B con una probabilidad

El jugador j juega A con una probabilidad


1
.
3

2
3

y B con una probabilidad

33

2.5.3

2.5 Ejemplos

El juego de las monedas

Tenemos dos jugadores, i y j, y cada uno debe elegir entre Cara o Cruz. Si
los dos hacen la misma eleccion el jugador i da 1 euro al jugador j. Entonces,
la ganancia de i es 1 y la del jugador j es 1. Si los jugadores no hacen la
misma eleccion es al reves: el jugador j da un euro al jugador i. Entonces,
el juego es:

Cara
Cruz

Cara
1, 1
1, 1

Cruz
1, 1
1, 1

Es facil de ver que en este juego no hay equilibrio de Nash en estrategias


puras. El u
nico equilibrio de Nash es en estrategias puras, donde los dos
jugadores eligen Cara con una probabilidad 12 y Cruz con una probabilidad
1
.
2
En el juego de las monedas solo obtenemos un equilibrio de Nash en
estrategias mixtas. Entonces, si dibujamos las funciones de mejor respuesta
obtenemos que estas se cruzan solo una vez, en la Figura 2.11.
q
1

q =

1
2

p =

1
2

Figura 2.11: Mejores respuestas para el juego de las monedas

2.5.4

El dupolio de Cournot

Supongamos que tenemos dos empresas, i y j. Estas dos empresas producen


el mismo bien y lo venden al mismo mercado. La cantidad del bien producido
por la empresa i (resp. j) es qi (resp. qj ). Para las dos empresas, el objetivo
es de maximizar el beneficio eligiendo la cantidad que va a vender en el

Juegos est
aticos

34

mercado. El precio de venta para las empresas esta determinado por la


funcion de demanda inversa:
P =abQ,

(2.26)

donde Q = qi + qj . La empresa i (resp. j) tiene un coste marginal de


produccion constante igual a ci (resp. cj ), con ci , cj > 0.
Entonces, la funcion de beneficio de la empresa i es:
i (qi , qj ) = P qi ci qi = (a b(qi + qj ))qi ci qi

(2.27)

y la funcion de beneficio de la empresa j es:


i (qi , qj ) = P qj cj qj = (a b(qi + qj ))qj cj qj

(2.28)

El objetivo de este ejemplo es de calcular el equilibrio de Nash del juego


en el que las empresas eligen simultaneamente sus cantidades.
Al final de la seccion 2.4.5 hemos visto que tenemos un equilibrio cuando
las funciones de mejores respuestas se cruzan. Para solucionar el duopolio
de Cournot vamos entonces calcular la funciones de mejor respuesta de cada
empresa. Una vez hayamos obtenido estas funciones vamos a calcular cuales
son las cantidades con las que tenemos que las funciones de cruzan. Aqu,
supondremos que la empresa i (resp. j) puede elegir cualquiera cantidad
entre 0 y +.
Supongamos que la empresa j ha elegido de producir una cantidad qj .
Entonces, la mejor respuesta de i es la cantidad qi que maximiza i . Para
obtener esta cantidad tenemos que calcular la derivada de i respeto a qi :
a bqj ci
i (qi , qj
= 0 qi =
.
qi
2b

(2.29)

Es decir, si fi (qj ) es la mejor respuesta de i en funcion de qj tenemos que


fi (qj ) = (a bqj ci )/(2b) . Del mismo modo podemos calcular la funcion
de mejor respuesta de la empresa j en funcion de qi :
j (qi , qj
a bqi cj
= 0 qj =
.
qj
2b

(2.30)

y entonces tenemos fj (qi ) = (a bqi cj )/(2b) .


Las funciones de mejor respuesta fi y fj se cruzan cuando tenemos la
solucion del sistema siguiente:

(
q = a bqj ci
fi (qj ) = qi
i
2b
(2.31)

bq
i cj

fj (qi ) = qj
qj =
2b

35

2.5 Ejemplos
La u
nica solucion de este sistema es cuando tenemos
qi =

a + cj 2ci
3b

qj =

a + cj 2ci
.
3b

(2.32)

Entonces, el u
nico equilibrio de Nash en el duopolio de Cournot es cuando
las empresas i y j eligen las cantidades descritas en la ecuacion (2.32).
Si queremos dibujar las funciones de mejor respuestas de las empresas i
y j tenemos el dibujo de la Figura 2.12.
qj
a ci

a cj
2b

A
A
A
A
A
A
A
A
A
A
A uEquilibrio: q =
i
A
A
A
A
A
A

a ci
2b

a+cj 2ci
, qj
2b

a+ci 2cj
2b

qi
a cj

Figura 2.12: Funciones de mejor respuesta de las empresas i y j.

Juegos est
aticos

36

Captulo 3
Juegos secuenciales
En el capitulo anterior hemos visto los juegos en forma normal. En esos
juegos los jugadores juegan de manera simultanea, pero si queremos estudiar situaciones donde hay una dinamica tenemos que tener otro enfoque de
los juegos. Los juegos secuenciales y repetidos son juegos donde hay una
dinamica, es decir, hay acciones que deben estar elegidas (o jugadas) antes
de otras acciones. Por ejemplo, se puede ver el juego ir al cine como un
juego secuencial: primero pagamos el billete y luego podemos ver la pelcula
(o salir sin ver la pelcula). Las acciones ense
nar la pelcula y pagar el
billete no se realizan de manera simultanea. Primero pagamos el billete y
luego los operadores del cine nos ense
nan la pelcula.

3.1

Definici
on

Un juego secuencial es un juego donde existe un orden de juego, y cuando


todos los jugadores han jugado cada uno recibe su ganancia. Despues de
distribuir las ganancias, el juego esta acabado. Observemos que este no es
el caso para los juegos repetidos (que vamos a ver en el capitulo 4), donde
despues de haber distribuido las ganancias los jugadores vuelven a jugar el
juego.
En principio, un juego secuencial (tambien llamado un juego en forma
extensiva) se describe de la misma manera que un juego en forma normal,
es decir:
Un conjunto de jugadores;
Cada jugador tiene un conjunto de estrategias;
Para cada perfil de estrategia (= una estrategia para cada jugador) y
para cada jugador una ganancia.

Juegos secuenciales

38

Donde esta la dinamica en este tipo de juegos? A partir de esta definicion,


En que momento podemos deducir que hay un jugador que juega antes que
otro? Parece que nuestra definicion carece de unos elementos. . . Veamos un
juego secuencial que nos ayudara a completar la definicion con los conceptos
que faltan.

c
r

 
2
4

ib

HH
HHb
a

H
j
HHjr
r 
@
@ f
e
@d
@
@
@
@r
@r
r
 
1
5

 
6
12


230
1

Figura 3.1: Un juego secuencial.


Este juego se lee as: en primer lugar, juega el jugador i que puede elegir
entre las acciones a y b. Si i elige la accion a, entonces el jugador j tiene que
jugar, y pude elegir entre las acciones c y d. Si i elige la accion b en lugar de
la accion a, j tiene que elegir entre las acciones e y f . Es importante se
nalar
(y es evidente en el dibujo del juego) que j juega despu
es de i. Una vez que
cada jugador ha elegido su accion, cada jugador tiene su ganancia.
La norma en la teora de los juegos es que la primera cifra en las ganancias
es la del jugador que juega primero, la segunda cifra la del jugador que juega
segundo, etc. As, si i elige la accion a y j la accion c, la ganancia de i es 2
y la de j es 4. Las ganancias posibles de i en este juego son 2, 1, 6 y 230, y
las de j son 4, 5, 12 y 1.

3.1.1

Nodos de decisiones y estrategias

Un juego secuencial esta representado por un


arbol, que contiene nodos
y ramas. Las ramas son las acciones de los jugadores. En el ejemplo que
acabamos de ver, hay 6 ramas: a, b, c, d, e y f . Unas son del jugador i (a
y b), y otras del jugador j (c, d, e y f ). Los nodos son los puntos donde las
ramas se tocan. En este juego hay 3 nodos. En un nodo, en lugar de poner
una accion, ponemos un jugador. Eso significa que el jugador que esta en un
nodo tiene que elegir una accion de las que salen de este nodo. Por ejemplo,
en el primer nodo se encuentra el jugador i, y de este nodo salen las acciones
a y b. Por lo tanto, diremos que se trata de un nodo de decisi
on: En un
nodo de decision, un jugador tiene que tomar una decision, es decir, elegir

39

3.1 Definici
on

una accion. En este juego, i tiene solo un nodo de decision pero j tiene 2.
Dicho de otra manera, un nodo de decision es una contingencia en la que
a un jugador le corresponde actuar. Por supuesto, en cada nodo de
decision solo hay un jugador. . .
Ahora que tenemos unos terminos mas para describir un juego en forma
extensiva podemos dar una definicion mas precisa de lo que es una estrategia.
Definici
on 4 Una estrategia de un jugador es un plan de acci
on completo, es decir, especifica una acci
on factible de este jugador en cada nodo
de decisi
on en lo que al jugador le pudiera corresponder actuar.
Si volvemos al juego de antes observamos que el jugador i tiene un u
nico
nodo de decision. Por lo que una estrategia de i solo contiene un elemento,
es decir una accion. En conjunto de estrategias de i es:
Si = {a, b} .

(3.1)

El caso del jugador j es mas interesante. Este jugador tiene dos nodos de
decision, uno despues de que i ha jugado a y el otro despues que i ha jugado
b, por lo que cada estrategia de j debe contener dos acciones: una para un
nodo y otra para el otro nodo. As, una estrategia de j puede ser:
jugar c si i ha jugado a
jugar f si i ha jugado b .
Otra estrategia podra ser
jugar c si i ha jugado a
jugar e si i ha jugado b .
Con estas estrategias esta claro que j juega despues de i, y que j puede jugar
c solo si i ha jugado a. Es decir, tenemos una dinamica en la descripcion del
juego, que aparece en las estrategias de los jugadores.
Por cierto, escribir as las estrategias de j es un poco feo, por lo que
escribimos solo las acciones que j elige en cada nodo. As pues, el conjunto
de estrategias de j es:
Sj = {(c, e), (c, f ), (d, e), (d, f )} .

(3.2)

Es muy importante entender que los elementos de la ecuacion (3.2) (por


ejemplo (c, e), o (d, e)) son estrategias, pero c, o d no son estrategias, sino
acciones.
Una accion es un concepto local: es lo que hace un jugador en un
momento particular del juego; es una rama en el dibujo.

Juegos secuenciales

40

Una estrategia es una coleccion de acciones. Es un concepto global,


por que nos obliga a considerar el juego entero, o mas precisamente,
no obliga a considerar todos los nodos de decisiones donde el jugador
puede jugar.
Por cierto, una confusion es posible: en el juego que nos sirve de ejemplo,
los n
umeros de acciones de j y de i son los mismos que los n
umeros de
estrategias que tienen. Pero son conjuntos distintos para el jugador j.
Miramos el juego siguiente.
ib
H

c
r

 
2
4

a

j
r 
@
@d
@
@r
 
1
5

HH
Hb
HH j
Hr
e f @@g
@
@r
r
r

   
6
230
8
1
9
12

Figura 3.2: Un juego en forma extensiva.


En este juego, el conjunto de acciones de i es:
Ai = {a, b} .

(3.3)

Y el conjunto de acciones de j es:


Aj := {c, d, e, f, g} .

(3.4)

As, el jugador j tiene 5 acciones. El conjunto de estrategias de i es:


Si = {a, b} ,

(3.5)

Sj = {(c, e), (c, f ), (c, g), (d, e), (d, f ), (d, g)} ,

(3.6)

y el de j es:

por lo que j tiene 6 estrategias.


Veamos otro ejemplo en el que el conjunto de estrategias de i es distinto
del de su conjunto de acciones.
En este juego, i tiene 3 nodos de decisiones y por lo tanto cada estrategia
de i debe tener 3 acciones distintas. El conjunto de acciones de i es:
Ai = {a, b, l, m, p, q} ,

(3.7)

41

3.1 Definici
on

c
r

 
2
4

ib

 HH

HH
a 
Hb

HH


H

HHj
jr

Hr
HH
@

H f
e
HH
@d

HHir
@
ir
@r
 
@
@ q
p
l
1
@m
@
@
@
10
@r
@r
r
r
 
2
3

 
1
4

 
5
0

 
5
4

Figura 3.3: Un juego donde i tiene 8 estrategias.


pero su conjunto de estrategias es
Si = {(a, l, p), (a, l, q), (a, m, p), (a, m, q), (b, l, p), (b, l, q), (b, m, p), (b, m, q)} .
(3.8)
Eso nos da 8 estrategias. Para contar el n
umero de estrategias hay que
multiplicar el n
umero de acciones de cada nodo de decision del jugador i. En
cada nodo, i tiene dos acciones. Entonces, su n
umero de estrategia es 2
2 2 = 8.
La manera mas sencilla de construir el conjunto de estrategias consiste en
dibujar un arbol. En el primer nodo, pongamos las dos acciones que tiene en
el primero nodo, a y b. Una vez que ha elegido entre a y b, el jugador i tiene
que elegir una accion del segundo nodo. Es decir, tiene que elegir entre l y m.
Entonces, si ha elegido a en primer lugar, puede elegir l o m en segundo lugar.
Eso nos da (a, l) y (a, m). Pero si ha elegido b en primer lugar, podemos tener
(b, l) y (b, m). En este momento tenemos cuatro posibilidades:
(a, l), (a, m), (b, l) y (b, m) .

(3.9)

Ahora, hay que a


nadir una accion del u
ltimo nodo, p o q. Si a
nadimos p,
tenemos:
(a, l, p), (a, m, p), (b, l, p) y (b, m, p) .
(3.10)
Pero si a
nadimos q, tenemos:
(a, l, q), (a, m, q), (b, l, q) y (b, m, q) .
Si juntamos (3.10) y (3.11) tenemos (3.8) .

(3.11)

Juegos secuenciales

42
r
 (a, l, p)
p 

a
ib

r
HH

l
q HH
Hr (a, l, q)

r

Q
r
Q
 (a, m, p)
p 
mQQ
Q
Qr
H
HH
q H
Hr (a, m, q)
r
 (b, l, p)
p 

@
@
@

b@@

r
HH

l
q HH
Hr (b, l, q)
@

@r
Q
r
Q
 (b, m, p)
p 
mQQ
Q
Qr
H
HH
q H
Hr (b, m, q)

Figura 3.4: Construccion de las estrategias de i del juego de la Figura 3.3.


Por que tenemos que especificar tantas cosas en las estrategias de los
jugadores? Por que si i decide jugar a tiene que especificar lo que hace
despues de que j haya jugado e? Eso parece raro, porque j juega e cuando i
ha jugado b. Pero si i juega a, i sabe que j va a elegir entre las acciones c y
d, y nunca entre las acciones e y f . Entonces, Por que complicarnos la vida
? Hay dos razones:
Por una parte, porque es la definicion de una estrategia. . . Es decir, se
trata simplemente una definicion, y nada mas. Si quereis hablar de
otra cosa, podeis, pero no podeis llamarla una estrategia.
Por otra parte, decir que una estrategia es un plan de accion para cada
nodo de decision en el que al jugador le podra corresponder jugar es
necesario cuando queremos estudiar los equilibrios.

3.1.2

El equilibrio de Nash

El equilibrio de Nash en los juegos secuenciales tiene la misma definicion


que en los juegos en forma normal. Es decir, un perfil de estrategia s =
(s1 , s2 , . . . , si1 , si , si+1 , dots, sn ) es un equilibrio de Nash si, para cada ju-

43

3.1 Definici
on

gador i, para cada estrategia s0i 6= si , tenemos:


ui (si , si ) ui (s0i , si ) ,

(3.12)

donde si es la coleccion de las estrategias de todos los jugadores excepto el


jugador i. Es decir,
si = s(s1 , s2 , . . . , si1 , si+1 , dots, sn } .

(3.13)

Dicho de otra manera un equilibrio de Nash es una estrategia para cada


jugador en la que cada esa es una mejor respuesta contra las estrategias
elegidas por los demas. Eso significa que la estrategia de un jugador i, al
equilibrio de Nash, depende de la estrategia de los otros jugadores. Pero las
estrategias de esos jugadores dependen de la estrategia de i. . .
Cogemos por ejemplo el juego de la Figura 3.5.
ib
 HH


H

a 


HH b
H

HH
H j
H
Hr
@
@ f
e
@
@
@r
r


jr


c
r

 
2
4

@ d
@
@
@r

 
1
10

 
5
0

 
5
4

Figura 3.5:
En este juego, los conjuntos de estrategias de i y j son respectivamente
Si = {a, b},

Sj = {(c, e), (c, f ), (d, e), (d, f )} .

Entonces, tenemos 8 perfiles de estrategias posibles:


(a, (c, e))
(a, (c, f ))
(a, (d, e))
(a, (d, f ))

(b, (c, e))


(b, (c, f ))
(b, (d, e))
(b, (d, f ))

(3.14)

Juegos secuenciales

44

Supongamos que i elige la estrategia a y j elige la estrategia (c, f ). Para


ver si este perfil es un equilibrio de Nash, tenemos que ver si jugar a es una
mejor respuesta contra (c, f ) para i, y si (c, f ) es una mejor respuesta de j
cuando i juega a.
Si sabemos que i juega a, Por que necesitamos saber lo que hace j si i
juega b? La razon es muy sencilla. Par ver si el perfil (a, (c, f )) es un equilibrio
de Nash, tenemos que ver si para cada jugador no hay otra estrategia que
le de una ganancia estrictamente mas grande. La u
nica posibilidad de i si
quiere desviarse del perfil (a, (c, f ) es jugar b. Si i no desva, es decir si i elige
la estrategia a, entonces i tiene una ganancia de 2 (porque j juega c). Si i
juega b, el tiene que saber cual seria su ganancia. Pero eso no puede saberlo
si no sabe que accion (entre e y f ) ha elegido j.
Pero, trabajando con el concepto de estrategia, sabemos que j elige la
accion f . Por lo tanto, i puede ver que tiene una ganancia de 5 si juega b
en lugar de a, cuando j elige la estrategia (c, f ). Ahora esta claro que si
definimos una estrategia de j como c (en lugar de (c, e) o (c, f )), no podemos
saber si a es la mejor respuesta de i contra la estrategia de j.
Ya hemos visto que cuando j elige (c, f ), jugar b es la mejor respuesta de
i. Entonces, el perfil (a, (c, f )) no puede ser un equilibrio de Nash.
A continuacion, veamos si el perfil (b, (c, f ) es un equilibrio de Nash. Ya
sabemos que b es la mejor respuesta de i contra la estrategia (c, f ) de j.
Para ver si ese perfil es un equilibrio de Nash, solo falta verificar que para j
la estrategia (c, f ) es una (o la) mejor respuesta cuando i juega b. El jugador
j tiene 4 estrategias. Si juega (c, f ), podemos ver que tiene una ganancia de
4. Tambien tiene una ganancia de 4 si elige la estrategia (d, f ). Pero si j
juega la estrategia (c, e) o la estrategia (d, e), tiene una ganancia de 0. Por
cierto, eso es menor que 4, y entonces jugar (c, f ) es una mejor respuesta
para j. As pues, el perfil (b, (c, f )) es un equilibrio de Nash.
En el analisis que acabamos de hacer hemos utilizado (sin darnos cuenta)
el concepto de camino de ejecuci
on de un perfil de estrategia. El camino
de ejecucion de un perfil es la su-cecion de las acciones de los jugadores que
llevan a las ganancias. Siempre se da el caso de que el camino de ejecucion
sale del nodo de decision original. En nuestro ejemplo, el nodo de decision
original es el nodo donde i tiene que elegir entre a y b. Con el perfil (a, (c, f ),
el camino de ejecucion es (a, f ): i juega a, y despues j juega f . Aunque j
tiene previsto jugar c si i juega a, j no tiene que jugar la accion c (en el
sentido de actuar, de realizar una accion). La u
nica accion realizada por j
es la accion f .
En la Figura 3.6 el camino de ejecucion del perfil (a, (c, f )) esta indicado
por las lineas dobles.
Ejercicio: Buscar los otros equilibrios de Nash de este juego.

45

3.2 La inducci
on hacia atr
as

c
r

 
2
4

irb

HH
 H
HH

HH
HH
a 
Hb

HH
H

HH

H

HHj
jr
H

Hrr
H
H
@
@
@
@ d
@ f
e
@
@
@
@
@
@
@
@r
@
r
@r
 
1
10

 
5
0

 
5
4

Figura 3.6: El camino de ejecucion del perfil (b, (c, f )).

3.2

La inducci
on hacia atr
as

El problema con el equilibrio de Nash en los juegos secuenciales es que puede


llevar resultados que no son muy satisfactorios. Por supuesto, en los juegos en
forma normal tambien podemos tener equilibrios malos, pero en los juegos
secuenciales, dado el aspecto dinamico, esos equilibrios se podran evitar.
Consideramos por ejemplo el juego de la figura 3.7.
ib

 HH

HH
a 
Hb

HH


H

HHj

Hr
r
 
@
1
@ f
e
@
10
@
@r
r



5
0

 
5
4

Figura 3.7:
Este juego tiene dos equilibrios de Nash:
E1 = (a, e),

E2 = (b, f ) .

(3.15)

Juegos secuenciales

46

El perfil E1 es un equilibrio de Nash porque si j juega e, la mejor repuesta


de i es elegir la accion a. Si i elige esa accion tiene una ganancia de 1, y si
elige la accion b, obtiene una ganancia de 5 (porque j juega e si i juega b).
Si j juega e o f , el resultado no cambia (su ganancia es 10) y por lo tanto
jugar e es una mejor respuesta de j cuando i juega a.
Pero, si i juega b, jugar e es la mejor respuesta de j? Supongamos que
los jugadores acuerdan jugar el perfil E1 , pero cuando el juego empieza, i se
equivoca y juega b en lugar de a. En este caso, j tiene que actuar, y su
mejor eleccion es f , y no e. Pero si i sabe que j juega f , la mejor opcion de
i es de jugar b y no a. As, tendra una ganancia de 5 en lugar de 1 que seria
su ganancia si hubiera jugado a.
Vemos pues que el u
nico equilibrio que tiene sentido es el perfil E2 .
Para llegar a esta conclusion, hemos empezado por el fin del juego: primero
analizar el comportamiento optimo de j, y dar un paso hacia atras y analizar
el comportamiento optimo de i.
Analizar una situacion dinamica empezando por el final y acabar por la
primera etapa puede parecer raro, pero es una manera muy u
til de solucionar
una situacion dinamica.
Para entender porque es natural empezar por el final cojamos el caso
de un jugador de ajedrez. El se
nor Karpov esta jugando un partido, y se
encuentra en una situacion en la que tiene 2 posibilidades. mover su reina o
mover su torre. Por ejemplo, Karpov podra ser en el juego de la Figura 3.7
el jugador i. Cuando Karpov hace su eleccion se imagina lo que pasara si
mueve su reina o si mueve su torre. Mas precisamente, se pregunta cual seria
la mejor accion del otro jugador si mueve la reina o la torre. Una vez que
Karpov sabe cuales son los mejores movimientos del oponente despues de
haber movido el la reina o la torre, puede hacer su eleccion.
En nuestro juego, solo nos interesa lo que pasa cuando i juega b, porque
si juega a el juego esta acabado y el jugador j no juega. Aqu, el jugador se
imagina ser el jugador j, para saber lo que hara j si i elige b. En este caso,
la mejor accion de j es f . Entonces, i sabe que si juega b, el jugador j debe
elegir, racionalmente, la accion f y por lo tanto, i tendra una ganancia de
5.
En el perfil E1 , decimos que j amenaza con jugar e. Si i cree en esta
amenaza, la mejor accion de i es jugar a y no b. Es por ello que E1 es un
equilibrio de Nash. Esta amenaza tiene sentido para j puesto que en este
caso tiene una ganancia de 10 si i cree en la amenaza. Pero acabamos de ver
que la amenaza de j no es creble: si i juega b, j no va a jugar e, sino que
va a jugar f .
Hemos podido analizar el juego y ver que el u
nico perfil de estrategias
que tiene sentido es el perfil E2 . El hecho de empezar por el fin del juego,

47

3.3 Ejemplo: El duopolio de Stackelberg

de buscar los comportamientos optimos de los jugadores y subir haca el


modo inicial se conoce como la inducci
on hacia atr
as.
En la seccion siguiente vamos a ver un ejemplo de la induccion hacia
atras, a traves de un modelo economico (un poco) parecido al duopolio de
Cournot.

3.3

Ejemplo: El duopolio de Stackelberg

Supongamos que tenemos dos empresas, i y j que producen el mismo bien.


La empresa i elige la cantidad que produce, qi y la empresa j elige la cantidad
que produce, qj . La empresa i tiene un coste marginal de produccion igual
a ci y la empresa j tiene un coste marginal de produccion igual a cj , con
ci , cj > 0. Es decir, si la empresa i produce una cantidad qi su coste de
produccion total es ci qi .
La dos empresas venden el bien en el mismo mercado, lo que supone que
el precio de vente para las dos empresas es lo mismo, que denominamos por
p.
En el modelo de Stackelberg la demanda inversa1 de los consumidores es
P =abQ,

(3.16)

donde Q es la cantidad total propuesta en el mercado por las empresas i y


j, es decir, Q = qi + qj .
Entonces, el beneficio de la empresa i es:
i (qi , qj ) = P qi ci qi = (a b(qi + qj ))qi ci qi ,

(3.17)

y el beneficio de la empresa j es:


j (qi , qj ) = P qj cj qj = (a b(qi + qj ))qj cj qj ,

(3.18)

En el duopolio de Stackelberg, una de las empresas elige primera su nivel


de produccion y luego la otra empresa elige el suyo. Sea i la empresa que elige
primero. Supongamos que la empresa i ha elegido un nivel de produccion qi .
Ahora estamos entonces en la segunda etapa del juego, en la que la empresa
j elige qj . La empresa j va a elegir el qj que maximiza su beneficio. Para
saber cual es el nivel de produccion optimo para j tenemos que calcular la
derivada de j por qj . Tenemos:
j (qi , qj
=0
qj
1

abqi 2bqj cj = 0

qj =

a bqi c
. (3.19)
2b

Se llama demanda inversa porque da el precio en funcion de las cantidades compradas


por los consumidores. La demanda suele dar las cantidades en funcion del precio de venta.

Juegos secuenciales

48

Por la induccion hacia atras la empresa i sabe que si produce qi entonces


la empresa j produce el nivel qj indicado por la ecuacion (3.19). Entonces,
para la empresa i es como si su funcion de beneficio fuera la siguiente:



a bqi c
qi c i qi .
(3.20)

i (qi ) = q b qi +
2b
En este caso, la empresa i va a elegir el nivel de produccion qi que maximiza su beneficio indicado por la ecuacion (3.20). Eso nos da:

i (qi
=0
qi

a 2bqi + ci
ci = 0
2

qi =

a ci
2b

(3.21)

Con esta solucion deducimos que el nivel de produccion elegido por la


empresa j sera dado reemplazando en la solucion de la ecuacion (3.19) qi por
su valor encontrado en la ecuacion (3.21), es decir:
qj =

a + ci 2cj
.
4b

(3.22)

En este caso, los beneficios de las empresas son:


i (qi , qj ) =

a 3ci + 2cj
,
8b

j (qi , qj ) =

(a + ci 2cj )2
.
16b

(3.23)

Lo que acabamos de hacer se llama calcular un equilibrio perfecto en


subjuegos. Este concepto de equilibrio esta descrito en la seccion siguiente.

3.4

Equilibrio perfecto en subjuegos

Acabamos de ver que el principio de la induccion hacia atras es un concepto


muy adecuado para analizar los juegos secuenciales. La induccion hacia atras
es un elemento clave de un concepto de equilibrio introducido por Reinhard
Selten a principio de los a
nos Setenta, el equilibrio perfecto en subjuegos.
Antes de poder dar una definicion de este concepto de equilibrio necesitamos otras definiciones previas.
Sea G un juego secuencial y sea un nodo de decision de este juego. El
subjuego en el nodo es una parte del juego G que empieza en el nodo de
, de forma que todos los nodos de decisiones que son posteriores al nodo
forman parte del subjuego en el nodo .
Dicho de otra manera, si cogemos un nodo de decision del juego (distinto
del nodo ) este nodo forma parte del subjuego en el nodo si para cualquiera
ejecucion del juego, para llegar al nodo tenemos que pasar por el nodo .

49

3.4 Equilibrio perfecto en subjuegos


i, b
 HH

HH
a 
Hb

HH


H j,
j, 


HH
Hr
r
HH
@

H f
e
c
HH
@d

i, r
Hi,Hr
@
@r
r
 
 
@
@ q
p
l
2
1
@
@m
@
@
4
10
@r
@r
r
r

 
2
3

 
1
4

 
10
0

 
5
4

Figura 3.8: Un juego donde i tiene 8 estrategias.


Cogemos el juego de la Figura 3.8. En este juego, hemos dado nombres
a los nodos: , , , y .
Tomamos, por ejemplo, el nodo . El subjuego en este nodo debe contener
todos los nodos que son posteriores al nodo , es decir, los nodos y . El
nodo no es un nodo posterior al nodo y, por lo tanto, no esta en el
subjuego del nodo .
Si queremos un subjuego que contiene los nodos y , tenemos que coger
como nodo inicial del subjuego un nodo x tal que los nodos y son nodos
posteriores del nodo x. El u
nico nodo que satisface esta condicion es el
nodo .
Eso significa que un subjuego se puede ver como un juego por s mismo
y, por lo tanto, el juego entero (el que empieza en el nodo ) tambien es un
subjuego. As todos los subjuegos del juego de la Figura 3.8 son:
El subjuego que empieza en el nodo , representado en la figura 3.8.
El subjuego que empieza en el nodo , representado en la figura 3.9.
El subjuego que empieza en el nodo , representado en la figura 3.10.
El subjuego que empieza en el nodo , representado en la figura 3.11.
El subjuego que empieza en el nodo , representado en la figura 3.12.
Ahora que sabemos lo que es un subjuego, veamos cual es la definicion
de un equilibrio perfecto en subjuego.

Juegos secuenciales

50

j, b
c

@ d
@
@
@r

 
2
4

 
1
10

Figura 3.9: El subjuego en .

j, b
 HH
H f
HH
i,Hr
H
@ q
p
@
@
@r
r

e

i, r
l
r

 
2
3

@m
@
@r

 
1
4

 
5
0

Figura 3.10: El subjuego en .


i, b
l
r

@ m
@
@
@r

 
2
3

 
1
4

Figura 3.11: El subjuego en .

i, b
p
r

 
10
0

@ q
@
@
@r

 
5
4

Figura 3.12: El subjuego en .

 
5
4

51

3.4 Equilibrio perfecto en subjuegos

Definici
on 5 Un perfil de estrategias es un equilibrio perfecto en subjuegos de un juego secuencial G si es un equilibrio de Nash en cada subjuego de G.
Una vez que tenemos la definicion del equilibrio perfecto en subjuegos
puede parecer que esta no tiene mucha relacion con el principio de la induccion hacia atras. Recuerda que la induccion hacia atras consiste en salir
de los u
ltimos nodos del juego, buscar la mejor accion de los jugadores en esos
nodos, y dar un paso hacia atras, considerando que el juego esta solucionado
en las etapas posteriores.
Cogemos el juego de la Figura 3.8. Estudiamos este juego con el principio
de la induccion hacia atras. En el nodo , la mejor accion de i es l. Si ahora
cogemos el subjuego en el nodo (en la figura 3.11), podemos ver que el u
nico
equilibrio de Nash en este subjuego es tal que i elige la accion l. Por lo tanto,
si buscamos un equilibrio perfecto en subjuegos del juego de la Figura 3.8,
la estrategia de i debe ser tal que elige la accion l en el nodo . Del mismo
modo, la accion optima de i en el nodo es p, y p es el u
nico equilibrio de
Nash en el subjuego .
Ya hemos analizado la u
ltima etapa del juego. Podemos estudiar ahora
la pen
ultima etapa, donde j juega. Por el principio de la induccion hacia
atras, sabemos que si j juega la accion e en el nodo , el jugador i juega la
accion l. Entonces, j sabe que si elige la accion e en el nodo , su ganancia
es 3, y la de i es 2. Eso implica que para j, el juego es como si se acabara
justo despues de haber jugado e o f . Es decir, es como si el juego fuera el
juego de la Figura 3.13.
i, b
H


j, 



r
@
c
@d
@
@r
r

 
2
4


a 


 
1
10

HH
H

b
HH
H
HH
j,H

Hr
@ f
e
@
@
@r
r
 
2
3

 
10
0

Figura 3.13: Ya sabemos la acciones de i en la u


ltima etapa
Ahora tenemos que buscar la acciones optimas de j en los (nuevos) subjuegos y . El subjuego en es igual que antes, pero el subjuego en es
nuevo, dado que hemos integrado las acciones en que i juega si j juega e o f .

Juegos secuenciales

52

En el nodo , la mejor accion de j es d, y en el nodo es e; pero podemos


ver que en el subjuego , jugar d es el u
nico equilibrio de Nash.
Entonces, un equilibrio perfecto en subjuegos del juego de la Figura 3.8
debe ser tal que j juega d en y e en . Por que? En el subjuego (vease
la Figura 3.10), i juega l y p. La mejor repuesta de j contra esta estrategia es
jugar e. Si las estrategias de i y j en el juego inicial son tales que i juega l en
y p en , y j juega e en , entonces estas estrategias forman un equilibrio
de Nash en los subjuegos , y . Esas acciones son claramente las mismas
que obtenemos cuando analizamos el juego con el principio de la induccion
hacia atras.
Si damos un paso hacia atras llegamos al nodo . Par el jugador i es
como si el juego fuera el juego de la Figura 3.14.
i, b
a
r

 
1
10

@ b
@
@
@r

 
2
3

Figura 3.14: El subjuego en con la induccion hacia atras.


Eso es as porque ya sabemos que j juega d en y e en , y que i juega l
en y p en . Entonces, la mejor accion de i en es b que da una ganancia
de 2, que es mejor que una ganancia de 1 si juega a.
Con el principio de la induccion hacia atras obtenemos el perfil de estrategias siguiente:
i juega b en , l en y p en .
j juega d en y e en .
Con el equilibrio perfecto en subjuegos llegamos al mismo perfil de estrategias. Sea s un equilibrio perfecto en subjuegos, entonces, s es un perfil
de estrategias: una estrategia para i y una para j. Cada estrategia de i debe
tener 3 componentes: una accion en , una en y una en . Para j cada
estrategia debe tener 2 componentes: una accion en y una en .
Seg
un la definicion del equilibrio perfecto en subjuegos s = (si , sj ) debe
formar un equilibrio de Nash en cada subjuego. El equilibrio de Nash en el
subjuego delta es u
nico: i juega l. En el subjuego tambien hay un u
nico
equilibrio de Nash: i juega p. Dado que i juega (l, p), la u
nica mejor respuesta
de j en es jugar e. Entonces, el u
nico equilibrio de Nash en el subjuego ,
es aquel en el que i juega (l, p) y j juega e.

53

3.5 Ejemplos
Por lo tanto, si y sj deben ser tales que
si = (x, l, p)

sj = (y, e) ,

(3.24)

donde x es la accion que i juega en y y la accion elegida por j en .


En el subjuego el u
nico equilibrio de Nash es aquel en el que j juega d.
Por lo que la u
nica estrategia de j que puede formar parte de un equilibrio
perfecto en subjuegos es
sj = (d, e) ,
(3.25)
Solo nos falta una accion para tener el equilibrio perfecto en subjuegos:
la accion elegida por i en el nodo . Dado que en los otros nodos las acciones
jugadas son d, e, l y p, la mejor accion que i puede elegir es b en el nodo ,
por lo que el u
nico equilibrio perfecto en subjuegos es
si = (b, l, p)

sj = (d, e) .

(3.26)

Hemos visto que el equilibrio perfecto en subjuegos y el principio de la


induccion hacia atras nos dan el mismo resultado.

3.5

Ejemplos

En esta seccion vamos a ver dos ejemplos: el primero demuestra que el equilibrio perfecto en subjuegos puede llegar a resultados que no son satisfactorios.
El segundo es solo un ejercicio.

3.5.1

El juego del ciempi


es

El juego del ciempies se llama as porque su representacion grafica tiene (un


poco) la aparencia de este animal.
j r C i r C j r C i r C j r C
i
b C
P

 
r 6
5

 
1
0

 
0
2

 
3
1

 
2
4

 
5
3

 
4
6

Figura 3.15: El juego del ciempies.


El juego empieza en el nodo . El jugador i tiene que elegir entre parar,
P , y continuar, C. Si elige P entonces el juego se acaba y las ganancias son

Juegos secuenciales

54

de 1 para el jugador i y 0 para el jugador j. Si i elige C, entonces llegamos


al nodo y el jugador j tiene que elegir entre C y P . Si elige P tiene una
ganancia de 2 y el jugador i tiene una ganancia de 0. El juego continua as
hasta el nodo en el que, sea lo que sea la eleccion del jugador j, el juego se
acaba.
Por cierto, le perfil de estrategias en el que los jugadores siempre eligen
C parece la mejor solucion. As tienen una ganancia de 6 para el jugador
i y de 5 para el jugador j. Sin embargo, eligir siempre C no constituye un
equilibrio perfecto en subjuegos. En el nodo , el jugador j tiene que elegir
entre C y P . Si elige C tiene una ganancia de 5 y una ganancia de 6 si elige
P . Entonces, elige P cada vez que este en el nodo . En el nodo anterior, el
nodo , el jugador i sabe que si elige C va a tener una ganancia de 4, porque
en este caso el jugador j va a elegir P , mientras que si elige P y obtiene una
ganancia de 5. As pues, en el nodo el jugador i va a elegir P . Continuando
as, podemos deducir que en el nodo el jugador j va a elegir P , en el nodo
el jugador i va a elegir P , etc. En el nodo , el jugador i va a elegir P , para
obtener una ganancia de 1, que es mayor que 0, la ganancia que obtendra al
elegir C (porque si elige C llegamos en el nodo y en este nodo j elige P ).
Entonces, el u
nico equilibrio perfecto en subjuegos de este juego es:
El jugador i elige la estrategia (P, P, P )
El jugador j elige la estrategia (P, P, P )
Este perfil de estrategias permite al jugador i de obtener una ganancia de 1
y al jugador j de obtener una ganancia de 0.

3.5.2

Un juego con m
as de un equilibrio perfecto en
subjuegos

Consideramos el juego de la figura 3.16 en la pagina siguiente. Este juego


tiene dos cosas nuevas en comparacion con los otros juegos que hemos visto:
A veces este juego se juega en dos etapas (sera el caso si el jugador i
elige la opcion a y el jugador j la opcion d), y otras veces este juego se
juega en tres etapas (por ejemplo si i juega b).
El jugador i juega dos veces, una vez antes y la otra despues del jugador
j.
Busquemos el o los equilibrios perfectos en subjuegos de este juego. Para
facilitar el analisis hemos dado un nombre a cada nodo de decision (, , , , , ).

55

3.5 Ejemplos

b
 HH

HH
a 
Hb

HH


H j,
j, 


HH
Hr
r
HH
@


H f
e
c
d
HH

@

i, r
i, r

i, r
HH
@
@r


@
@
p q @@ r
l
k
1
@m
h @
@
@
@
10
@r
@r
@r
r
r
r
r

i,

     
3
4
1
5
0
1

 
2
3

 
1
4

 
5
0

   
5
1
2
3

Figura 3.16: Un juego muy complicado


Empezamos por el nodo . Aqu, el jugador i es el u
ltimo jugador que
juega. Su mejor repuesta es g. Entonces, ya sabemos que un equilibrio
perfecto en subjuegos debe ser tal que el jugador i juegue g en el nodo (si
las acciones jugadas son tales que llegamos al nodo ).
En el nodo , j debe elegir una accion.2 Si j elige d, obtiene una ganancia
de 10, y si elige c de 1 , porque en este caso (si j juega c) i va a elegir g.
Entonces, su mejor repuesta es d.
En el nodo , la mejor repuesta de i es l.
Ahora miramos al nodo . Aqu, podemos ver que i tiene dos mejores
respuestas, p y q. Ello significa que en el subjuego hay dos equilibrios de
Nash, p y q.
Nos quedan ahora los nodos y . Tenemos que mirar primero al nodo
, porque necesitamos saber lo que pasa en para analizar el subjuego .
En el nodo , la mejor repuesta de j depende de lo que hace i en .
Supongamos primero que i juega p en . Si j elige e, su ganancia es 3
(porque i elige l en el nodo ). Si j elige f , su ganancia es cero. Por lo tanto,
la mejor respuesta de j es e.
Obtenemos as un primer equilibrio de Nash en el subjuego :
E1 = (e, (l, p)) ,

(3.27)

que se lee as: j juega e y i juega: l si j ha jugado e; o p si j ha jugado f .


Supongamos ahora que i juega q en el nodo . En este caso j esta indiferente entre la accion e y la f , puesto que en los dos casos j obtiene
2

Recuerda que buscamos la acci


on j eligida por j (c o d), y no una estrategia.

Juegos secuenciales

56

una ganancia 3. As pues, tenemos dos otros equilibrios de Nash mas en el


subjuego :
E2 = (f, (l, q))
y
E3 = (e, (l, q)) .
(3.28)
A continuacion estudiaremos el u
ltimo subjuego que nos queda, , es
decir, el juego entero. Si i elige a, entonces llegamos al subjuego y como
hemos visto anteriormente en este caso j juega d, y por lo tanto, i gana 1.
Que pasa si i elige b ? Sabemos que para el nodo hay tres equilibrios
perfectos en subjuegos, E1 , E2 y E3 .
Cogemos primero el (sub)-equilibrio E1 .
En este caso llegamos a y los jugadores juegan el equilibrio E1 , y i
obtiene una ganancia de 2, que es mejor que elegir la accion a en la que solo
obtena 1. As pues, hemos obtenido nuestro primer equilibrio perfecto en
subjuegos:
E1 = (b, (g, l, p); d, e) .
(3.29)
Que podemos describir as:
i juega b, g en , l en  y p en ;
j juega d en y e en .
Observamos ahora que pasa en el equilibrio E2 , es decir, si llegamos a
y los jugadores juegan E2 . En este caso, ninguno de los jugadores quiere
desviar, y jugar b es mejor para i que jugar a. Entonces, la mejor respuesta
de i en el subjuego es de jugar b: si juega b, i tiene una ganancia de 2, y
de 1 si juega a. Obtenemos as el segundo equilibrio perfecto en subjuegos,
E2 = (b, (g, l, q); d, f ) .

(3.30)

Tambien tenemos lo mismo si los jugadores juegan E3 en : b es la mejor


respuesta para i. Este es pues el tercero equilibrio perfecto en subjuegos,
E3 = (b, (g, l, q); d, e) .

(3.31)

Podemos ver que estos tres equilibrios no dan el mismo resultado. Con
E1 , i obtiene una ganancia de 2, con E2 , de 5, y con E3 , de 2.
Puede hacer algo el jugador i para obtener el equilibrio E2 ? No. Por
que? Porque para obtener E2 , i tiene que jugar (l, q) en . Pero si hace eso,
no tiene la garanta que j jugara f . Si i juega (l, q), j tiene que elegir entre
dos equilibrios, E2 y E3 . Para j, estos dos equilibrios son iguales en terminos
de ganancias. Si j elige e en lugar de f , llegamos a E3 . En este caso, i no
puede hacer nada para influir en el comportamiento de j. Para que este fuera
el caso tendramos que cambiar las ganancias de j cuando i juega q.

57

3.5 Ejemplos

b
 HH

HH
a 
Hb

HH


H j,
j, 


HH
Hr
r
HH
@

H f
e
c
HH
@d

i, r
i, r

i, r
HH
@
@r


@
@
p q @@ r
l
k
1
@m
h @
@
@
@
10
@r
@r
@r
r
r
r
r

i,

     
3
4
1
5
0
1

 
2
3

 
1
4

     
5
5
1
2
0
4

Figura 3.17: El mismo juego que antes pero con un peque


no cambio
Cogemos ahora el mismo juego, pero cambiamos las ganancias de j cuando
i juega q (solo hacemos este cambio). Tenemos el juego de la figura 3.17.
En este nuevo juego (cuidado, es un juego distinto del anterior!), el equilibrio siguiendo el metodo de la induccion hacia atras es igual que antes en
los nodos ,  y . Sin embargo, las cosas cambian en el nodo . Puesto que
si i juega p en , la mejor respuesta de j en es e, y si i juega q en , j juega
f . Entonces, tenemos dos equilibrios en :
E10 = (e, (l, p))

E20 = (f, (l, q)) .

(3.32)

Ahora miramos al nodo . Si i juega a, tiene 1 (como antes). Que pasa si


i juega b? Como antes, en se jugara uno de los dos equilibrios de , es decir
E10 o E20 . Si se juega E10 , la ganancia de i es 2, y si se juega E20 , su ganancia es
5. En los dos casos, es mejor que si i juega a. Entonces, i juega b. Podemos
concluir que tenemos dos candidatos para el equilibrio perfecto en subjuego,
uno donde se juega E10 en , y otro donde se juega E20 . La verdad es que
estos dos son equilibrios perfectos en subjuegos, porque satisfacen los dos la
definicion de un equilibrio perfecto en subjuegos, un perfil de estrategias tal
que tenemos un equilibrio de Nash en cada subjuego. Tenemos entonces dos
equilibrios perfectos en subjuegos, E10 y E20 :
E10 = (b, g, l, p; d, e) ,
E20 = (b, g, l, q; d, f ) .

(3.33)
(3.34)

Para los dos jugadores, las ganancias en E10 (2 para i y 3 para j) son mas
peque
nas que las ganancias en E20 (5 para i y 4 para j).

Juegos secuenciales

58

As, nos parece que tenemos un contra-ejemplo a lo que creamos antes, es


decir, que el equilibrio perfecto en subjuegos permite eliminar los equilibrios
de Nash que son dominados.3
Cuando hemos visto el equilibrio perfecto en subjuegos hemos visto unos
ejemplos y hemos deducido que este concepto elimina los equilibrios de Nash
que son dominados, y hasta ahora, hemos credo que era cierto. Pero con
el u
ltimo ejemplo podemos creer que nos hemos equivocado. Eso significa
que no es porque un monton de ejemplos nos hacen pensar que una cosa es
cierta que necesariamente sea verdad. Mientras que solo un contra-ejemplo
es suficiente para demonstrar que una afirmacion es falsa.
Lo que pasa en los dos u
ltimos juegos es que los jugadores estan indiferentes entre unas estrategias. Cuando en un juego nunca hay indiferencias
entre las estrategias, entonces podemos afirmar que el equilibrio perfecto en
subjuegos elimina los equilibrios de Nash que son dominados.
Para ver eso, consideramos la estrategia de i en el equilibrio E10 , que vamos
a llamar Si (podemos hacer lo mismo en el juego de la figura 3.16):
s1i = (b, g, l, p) .

(3.35)

La estrategia que i utiliza en E10 es:


s2i = (b, g, l, q) .

(3.36)

Ahora, hacemos la lista de todas la estrategias de j:


s1j = (c, e),

s2j = (c, f ),

s3j = (d, e),

s4j = (d, f ) .

(3.37)

Para ver si hay dominacion entre s1i y s2i , tenemos que comparar las ganancias
de i con estas dos estrategias y todas las estrategias de j. Tenemos:

ui (s1i , s1j ) = 2

ui (s2i , s1j ) = 2

(3.38)

ui (s1i , s2j )
ui (s1i , s3j )
ui (s1i , s4j )

ui (s2i , s2j )
ui (s2i , s3j )
ui (s2i , s4j )

=5

(3.39)

=2

(3.40)

=5

(3.41)

=5
=2
=5

Lo repito: aqu dominaci


on no tiene exactamente el mismo sentido que la dominacion
cuando hablabamos de las estrategias dominadas. Aqu, que E20 domina a E10 significa que
todos los jugadores ganan m
as con E20 que con E10 .

3.6 Equivalencia entre juegos en forma normal y juegos


secuenciales

59

3.6

Equivalencia entre juegos en forma normal y juegos secuenciales

Si recordamos lo que hemos aprendido en los captulos 2 y 3 podemos creer


que hay dos tipos de juegos: los juegos en forma normal y los juegos en forma
secuencial, y que son cosas muy distintas. La verdad es que se puede pasar
de una forma a otra y luego volver al juego inicial. Por cierto, nos parece
que hay mas informacion en el juego secuencial que en el juego en forma
normal, dado que los juegos secuenciales nos dan una cronologa del juego de
la que carece el juego en forma normal, aunque si prestamos atencion a las
estrategias se puede evitar de perder este tipo de informacion.
Cogemos por ejemplo el juego secuencial siguiente. Tenemos dos jugadores, i y j. El jugador i juega primero y el jugador j segundo. El jugador
i elige entre las acciones a y b. Si i ha elegido a, j puede eligir entre c y d, y
si i ha elegido b, j puede eligir entre e y f .
ib
H

a


j
r 

c
r

@d
@
@r

 
2
2

 
0
0

HH
Hb
HH j
Hr
@ f
e
@
@
@r
r

 
0
0

 
1
1

Figura 3.18: El juego G1 en forma extensiva.


As pues, tenemos los espacios de estrategias siguientes:
Si = {a, b} ,
Sj = {(c, e), (c, f ), (d, e), (d, f )} .
Para cada perfil de estrategias tenemos las ganancias de los jugadores, es
decir, todo lo que necesitamos para un juego en forma normal: dos jugadores,
uno con dos estrategias y el otro con 4 estrategias.
Obtenemos el juego siguiente:

a
b

c, e c, f
2, 2 2, 2
0, 0 1, 1

d, e d, f
0, 0 0, 0
0, 0 1, 1

Juegos secuenciales

60

Supongamos que tenemos el juego en forma normal, y queremos obtener


su equivalente como juego secuencial (tambien decimos que un juego secuencial es un juego en forma extensiva). En el juego en forma normal, las
estrategias del jugador j son (c, e), (d, e, ), etc. Estas estan escritas de manera compacta. Tendramos que escribir c si i juega a y e si i juega b, etc.
Es evidente que si hubieramos escrito las estrategias de j as, seria mucho
mas facil deducir la forma extensiva. Supongamos tambien que hemos escrito en lugar de (c, e), en lugar de (c, f ), ... Entonces, tendramos para
el conjunto de estrategias de j tendramos el conjunto {, , , }, es decir,
tenemos este juego:

a
b

2, 2 2, 2 0, 0 0, 0
0, 0 1, 1 0, 0 1, 1

Como podemos deducir la forma extensiva con tan poca informacion?


Hay dos posibilidades para la forma extensiva: i juega primero o j juega
primero.
Supongamos que j juega primero. Como j tiene cuatro estrategias, j tiene
cuatro acciones. El jugador i tiene dos estrategias. En la forma extensiva,
debido a que i juega despues de j, i tiene cuatro nodos de decisiones. Entonces, la u
nica manera para que i tenga solo dos estrategias es que i tenga
cinco acciones, de modo que en tres nodos i solo tiene una accion y en el
otro nodo i tiene 2 acciones. Con lo que tenemos dos estrategias para i. Eso
significa que al menos en tres acciones (o estrategias) de j cuando i cambia
de estrategia las ganancias no cambian. Por ejemplo, sea la accion de j tal
que despues de jugar , i tiene que elegir entre dos acciones. Para las otras
acciones de j (, y ), i tiene solo una accion posible. Supongamos que
j juega . Si cambiamos la estrategia de i (a o b), eso no cambia nada al
resultado del juego. Cambiara algo si j hubiera jugado . Es lo mismo si j
juega o . Cuando j juega estas estrategias, que i juegue a o b no cambia
nada al resultado del juego.4 Pero si miramos a las ganancias en el juego
en forma normal podemos ver que no sucede lo mismo, puesto que solo hay
una estrategia de j en la que las ganancias no dependen de lo que hace i: la
estrategia . Si i juega despues de j, tendramos que encontrar al menos tres
estrategias con esta propiedad.
As pues, j juega segundo. Tenemos un arbol en el que i juega primero y
elige entre dos acciones: a y b, y en el que j tiene 4 estrategias. Eso significa
4
Para tener una idea m
as clara, os invito a dibujar el juego secuencial donde j juega
primero, j tiene que eligir entre 4 acciones, y i elige entre a y b si j ha jugado , y no
tiene elecci
on para las otras acciones de j.

61

3.6 Equivalencia entre juegos en forma normal y juegos


secuenciales

que en cada nodo (uno despues que i juega a y el otro despues que i juega b),
j tiene dos acciones. Tener 2 acciones en cada nodo es la u
nica manera que
j tenga 4 estrategias. Porque las estrategias de j se llaman , , ... tenemos
que dar nombres a las acciones. Suponemos que w, x, y, z sean estas acciones
y obtenemos el juego siguiente:

w
r

ib

HH
HHb
a

H
j
HHjr
r 
@
@
y
@x
@z
@
@
@r
@r
r

Figura 3.19: El juego G1 en forma extensiva.


Nos falta poner las ganancias. Primero, hacemos la lista de las estrategias
de j, que son:
(w, y), (w, z), (x, y), (x, z) .
(3.42)
Supongamos que i juega a. Cogemos las dos estrategias de j donde j juega
w, que son (w, y) y (w, z). Ahora, tenemos que decir a que corresponden
(w, y) y (w, z). Para ser mas exacto, tenemos que buscar, si (w, y) es ,
que es (w, z)? Es , o ? Puesto que i juega a, las ganancias de los dos
jugadores deben ser iguales en estas dos estrategias. Cual es la estrategia
de j en la que cuando i juega a obtenemos las mismas ganancias que para
? Esta claro que es . Entonces, tenemos:
= (w, y),

= (w, z) .

(3.43)

Hubieramos podido decir que (w, y) es , o o . Si hubieramos cogido ,


entonces hubieramos deducido que (w, z) es . Por otra parte, si hubieramos
escogido (o ) para (w, y), hubieramos deducido que (w, z) es (o ).
Entonces, las ganancias despues de a y w en la forma extensiva son las
ganancias con a y en la forma normal (o , es igual), es decir (2, 2). Si
repetimos el mismo ejercicio con las otras estrategias podemos encontrar as
las otras ganancias.
Hay una cosa muy importante en lo que hemos acabado de hacer, las
acciones w, x, y y z, o , ..., o c, d, ... suelen ser nombres. Es decir, si en
lugar de w escribimos o zapatos, no cambia nada. Lo que es importante
es que despues de jugar a, las ganancias posibles para los dos jugadores son 0

Juegos secuenciales

62

y 2, y despues de b son 1 y 0. Es decir, desde la forma normal que tenamos


no hubieramos podido deducir este juego:

w
r

 
1
1

ib
 HH

H b
a 
HH

j

HHjr
r
@
@
y
@x
@z
@
@
@r
r
@r
 
2
2

 
0
0

 
0
0

Figura 3.20: El juego G1 en forma extensiva.


Pero s hubieramos podido tener este juego:

w
r

 
1
1

ib
H
HH
a
Hb

HH j
j
Hr
r 
@
@
y
@x
@z
@
@
@r
@r
r
 
0
0

 
2
2

 
0
0

Figura 3.21: El juego G1 en forma extensiva.


Supongamos ahora que tenemos este juego y queremos obtener su version
extensiva.
a
b

2, 2 3, 1
0, 0 1, 1

Como hacerlo? Parece que la u


nica manera consiste en que el segundo
jugador elige entre dos acciones despues de una de las acciones del jugador
que juega primero, y una accion (o ninguna) despues de la otra accion, es
decir, tenemos un juego de esta forma:
Sea i el jugador que juega primero y j el jugador que juega segundo
[Primera hip
otesis]. Obtenemos un juego donde cada jugador tiene dos
estrategias, como dice la forma normal del juego. Supongamos que cuando
el jugador i ha jugado a, el jugador j tiene que jugar y debe elegir entre
y [Segunda hip
otesis]. Si i juega b, entonces el juego se acaba (o

63

3.6 Equivalencia entre juegos en forma normal y juegos


secuenciales
b
 HH


H




r
@
@
@
@r

HH
HH

Figura 3.22: El juego G1 en forma extensiva.


podemos imaginar, como antes, que despues de b el jugador j tiene que
jugar pero solo tiene una accion posible). Esta claro que si i juega b, las
ganancias de los dos jugadores no cambian si j cambia su estrategia. Pero
si miramos a las ganancias del juego en forma normal vemos que este no
es el caso. Entonces, tenemos que cambiar algo en nuestra construccion del
juego en forma extensiva. Es decir, una de nuestras dos hipotesis es falsa.
Supongamos que es cuando i juega b que j tiene que elegir entre dos acciones.
[Guardamos la primera hip
otesis pero cambiamos la segunda.]
Eso esta representado en el juego siguiente (Figura 3.23):
ib
H

b

j
r 
@
@
@
@r

HH
Ha
HH
H

Figura 3.23: El juego G1 en forma extensiva.


Eso significa que cuando i juega a, las ganancias de los dos jugadores no
cambian si j cambia su estrategia. Si miramos al juego en forma normal,
veemos que no es el caso, por lo que la primera hipotesis es falsa. Pero si
j es el jugador que juega primero, vamos a encontrarnos con los mismos
problemas, es decir, tendremos dos posibilidades: i elige entre a y b despues
de [caso I ], o despues de [caso II]. En los dos casos, tendremos que
deducir que las ganancias de los dos jugadores no cambian cuando fijamos la
estrategia de j en [caso I ] o en [caso II].
As pues, parece que es imposible obtener una forma extensiva de este

Juegos secuenciales

64

peque
no juego en forma normal, pero en la seccion siguiente veremos que s,
es posible. Para ello, tenemos que introducir un nuevo concepto, el de la
informacion imperfecta.

3.7

Informaci
on imperfecta

Dicho de forma sencilla, un juego en forma extensiva (es decir, un juego


secuencial) tiene informaci
on imperfecta cuando durante el desarrollo del
juego puede suceder que unos jugadores no tienen una vision muy clara del
juego: en que etapa estamos?, quien ha jugado que?, etc. Es importante
es que antes de empezar el juego los jugadores conozcan perfectamente el
juego. Eso significa (vease la definicion de un juego) que todos los jugadores
deben saber:
Quienes son los jugadores,
cuales son los conjuntos de estrategias de cada jugador
cuales son las ganancias para cada perfil de estrategia jugado por los
jugadores.
Un ejemplo clasico de informacion imperfecta esta ilustrado con el dilema
de los prisioneros. La historia secuencial del dilema de los prisioneros es la
siguiente:
1. La polica entrevista al primer prisionero, que hace su eleccion (callarse
o hablar);
2. La polica va a ver al segundo prisionero, pero sin decirle lo que ha
dicho el otro prisionero, por lo que, aunque el segundo prisionero decide
despu
es del primero, no sabe lo que ha elegido el primero.
Esta historia es claramente din
amica y, por lo tanto, se puede describir
como un juego secuencial. Sin embargo, el conocimiento que tenemos de los
juegos secuenciales no nos permite hacerlo, por lo que necesitamos introducir
un nuevo concepto: el conjunto de informaci
on.
Un conjunto de informacion es un conjunto de nodos de decisiones y esta
representado por una linea de puntos. Eso significa que cuando un jugador
esta en un nodo de decision que esta conectado a otros nodos de decisiones
(es decir, que pertenecen al mismo conjunto de informacion), este jugador no
puede saber exactamente en que nodo de decision esta.
Formalmente, un conjunto de informacion h es un conjunto de nodos de
decisiones tal que:

65

3.7 Informaci
on imperfecta
ib
 HH

H hablar
callarse
HH

f
j
g

rp p p p p p p p p p p p p p p p p p p p p p H
p H
p p r
@
@
callarse
callarse
@hablar
@hablar
@
@
r
@r
@r
r
 
1
1

 
5
0

 
0
5

 
2
2

Figura 3.24: El dilema de los prisioneros en forma extensiva.


(i) Todos los nodos de decisiones del conjunto h son nodos de decisiones
del mismo jugador;
(ii) todos los nodos de decisiones del conjunto de informacion h contienen
las mismas acciones;5
(iii) podemos tener dos nodos que no son de la misma etapa del juego en un
conjunto de informacion, pero todos los nodos de decisiones del mismo
conjunto deben tener historias distintas.
El punto (i) es evidente. Un conjunto de informacion, como su nombre
lo indica, describe una informacion. Si un conjunto de informacion contiene
un nodo de un jugador i, significa que hablamos de la informacion de i, por
lo tanto, el conjunto no puede mezclar la informacion de i con la de otro
jugador.
El punto (ii) tiene un impacto muy importante sobre las estrategias de
los jugadores. Sea i un jugador y h un conjunto de informacion de i que
contiene dos nodos, n1 y n2 , de forma que el jugador tiene que elegir entre
las acciones a y b. Si en el nodo n1 el jugador i elige la accion a, debe
hacer la misma eleccion en el nodo n2 . Eso significa que en el dilema de
los prisioneros que hemos visto al principio de esta seccion, el jugador j solo
tiene dos estrategias y no cuatro. Sus dos estrategias son callarse y hablar.
Si cogemos este mismo juego pero con informacion completa, el jugador j
tendra 4 estrategias: (callarse, callarse), (callarse, hablar), (hablar, callarse)
y (hablar, hablar), en funcion de lo que eligiera el jugador i, callarse o
hablar .
El punto (iii) es mas delicado. Este punto significa que en el juego existe
memoria perfecta.
5

Cuidado! Aqu hablamos de las acciones, no de las estrategias.

Juegos secuenciales

66

Por ejemplo, en el juego de la Figura 3.24 si el prisionero j esta en el


nodo f , sabe que esta en el nodo f o en el nodo g, pero no sabe nada mas.
Es facil ver que la forma normal de este juego es:

hablar
callarse

hablar
2, 2
5, 0

callarse
0, 5
1, 1

Y este juego es claramente el dilema de los prisioneros.


El hecho de que los nodos de informacion esten conectados tiene una
consecuencia muy importante sobre la definicion de los subjuegos. Si dos
nodos n1 y n2 estan conectados, es decir, si dos nodos pertenecen al mismo
conjunto de informacion, entonces cada subjuego que contiene en nodo n1
debe contener el nodo n2 . Eso significa que en el dilema de los prisioneros
en forma extensiva los nodos de decisiones f y g forman parte del mismo
subjuego, sea cual sea el subjuego que podamos considerar. Dicho de otra
manera, en el dilema de los prisioneros en forma extensiva, solo hay un
subjuego, el juego completo.
Si consideramos que hay dos conjuntos de informacion, es decir, si tenemos el juego de la Figura 3.25 tenemos tres subjuegos:
ib
H

HH
callarse
Hhablar

HH g
f
Hr
r 
@
@
callarse
callarse
@hablar
@hablar
@
@
@r
@r
r
r
 
1
1

 
5
0

 
0
5

 
2
2

Figura 3.25: El dilema de los prisioneros con informacion perfecta.


el subjuego en el nodo f ;
el subjuego en el nodo g;
el subjuego en el nodo de decision de i, es decir, el juego completo.
Para ver el impacto que tiene la presencia de conjuntos de informacion
cogemos el juego de la batalla de los sexos. Primero, consideramos el juego
con simultaneidad. Eso significa que cuando el segundo jugador hace su

67

3.7 Informaci
on imperfecta

Cruise
r

 
2
1

ib
 HH

H O.T.
Cruise
HH

f
j
g

rp p p p p p p p p p p p p p p p p p p p p p H
p H
p p r
@
@
Cruise
@O.T
@O.T
@
@
r
@r
@r
 
0
0

 
0
0

 
1
2

Figura 3.26: La batalla de los sexos en forma extensiva.


eleccion no sabe lo que ha decido el primero. La forma extensiva de este
juego es:
Aqu, solo tenemos un subjuego: el juego entero. Entonces, los equilibrios
perfectos en subjuegos de este juego son los equilibrios de Nash. Ya sabemos
que hay tres equilibrios de Nash en este juego, dos en estrategias puras y
uno en estrategias mixtas. Por lo tanto, hay tres equilibrios perfectos en
subjuegos. Ahora cogemos el mismo juego, pero vamos a suponer que cuando
el segundo jugador hace su eleccion sabe lo que ha decidido el primer jugador.
Este juego es:

Cruise
r

 
2
1

ib

HH
HHO.T.
Cruise

H
f
HHgr
r 
@
@
Cruise
@O.T
@O.T
@
@
@r
@r
r
 
0
0

 
0
0

 
1
2

Figura 3.27: El juego de la batalla de los sexos en forma extensiva con


informacion completa.
Es facil de encontrar el u
nico equilibrio perfecto en subjuegos de este
juego, puesto que es aquel en el que el primer jugador elige Cruise y el
segundo elige (Cruise, O.T.).

Juegos secuenciales

68

Captulo 4
Juegos repetidos
Los juegos repetidos, al igual que los juegos secuenciales, son juegos dinamicos.
En un juego repetido los jugadores repiten T veces un mismo juego G, donde
G puede ser un juego en forma normal o extensiva. El hecho de jugar una
vez el juego G se llama una etapa y, por lo tanto, un juego G repetido T
veces tiene T etapas. La mayor diferencia con los juegos secuenciales es que
en un juego repetido en T etapas los jugadores reciben despues cada etapa
la ganancia obtenida en dicha etapa, mientras que en un juego secuencial los
jugadores reciben la ganancia obtenida al final del juego.
En la teora de juegos repetidos diferenciamos entre los juegos repetidos
finitamente, T es finito, y los juegos repetidos infinitamente, T = . En
este captulo veremos los dos casos.

4.1

Juegos repetidos finitamente

Veamos el caso en el que G es un juego, y GT el juego repetido T veces


partiendo de la hipotesis de que T es finito. La teora de los juegos repetido
consiste esencialmente en considerar el juego GT como un juego por si mismo.
Entonces, tenemos que definir los conjuntos de jugadores, los conjuntos de
estrategias y las ganancias para cada perfil de estrategia.
El conjunto de jugadores en el juego GT es lo mismo que en G;
Sea Si el conjunto de estrategias del jugador i en el juego G. Entonces,
su conjunto de estrategia en GT , que llamamos SiGT es Si Si (T
veces), es decir,
SiGT = Tt=1 Si .
(4.1)
Eso significa simplemente que cada jugador tiene que elegir T veces
una estrategia en G.

Juegos repetidos

70

Si s es un perfil de estrategia en GT , es decir, s es una coleccion de T


perfiles de estrategias, una para cada etapa: s = (s1 , s2 , . . . , sT ). La
ganancia del jugador i es en GT es la suma de todas sus ganancias
obtenidas en las T etapas:
T
uG
i (s)

T
X

ui (st ) .

(4.2)

t=1

La definicion de un juego GT que acabamos de ver implica que los jugadores ven los T juegos G como juegos independientes, es decir, un jugador
puede decidir de jugar una estrategia si de G en una etapa y jugar otra
estrategia en otra etapa.

4.1.1

Ejemplo: el dilema de los prisioneros repetido 2


veces

Cogemos el dilema de los prisioneros repetido 2 veces. En la primera etapa,


los jugadores juegan este juego:

Hablar
Callarse

Hablar
2, 2
5, 0

Callarse
0, 5
1, 1

Figura 4.1: El dilema de los prisioneros


Al principio de la segunda etapa (o al final de la primera etapa) los jugadores obtienen sus ganancias y vuelven a jugar el juego de la Figura 4.1.
Supongamos que en la primera etapa los jugadores han jugado (Callarse,Callarse).
En este caso, cada jugador tiene una ganancia de 1. Supongamos ahora que
en la segunda etapa el jugador i (el que elige las lineas) juega Callarse y el
jugador j (el que elige las columnas) juega Hablar. En la segunda etapa el
jugador i obtiene una ganancia de 5 y el jugador j de 0. Entonces, la ganancia
del jugador i en el dilema de los prisioneros repetido 2 veces cuando i juega
(Callarse,Callarse) y j juega (Callarse,Hablar) es de 6, y la del jugador j es
1.
El jugador i puede elegir en el dilema de los prisioneros repetido 2 veces
entre 4 estrategias:
(H, H), (H, C), (C, H), (C, C) ,

(4.3)

donde H significa Hablar y C significa Callarse. En la ecuacion 4.3, la


primera letra es la estrategia elegida en la primera etapa, y la segunda la

71

4.1 Juegos repetidos finitamente

estrategia elegida en la segunda etapa. Del mismo modo, podemos hacer la


lista de las estrategias del jugador j en el dilema de los prisioneros repetido 2
veces y es facil de ver que sus estrategias son las mismas que las del jugador
i. Entonces, tenemos 16 perfiles de estrategias posibles.
Ya hemos calculado las ganancias de los jugadores cuando juegan el perfil
((C, C), (C, H)). Podemos calcular las ganancias con los otros 15 perfiles.
Estas ganancias estan resumidas en la Figura
H, H
H, C
C, H
C, C

H, H
4, 4
7, 2
7, 2
10, 0

H, C
2, 7
3, 3
5, 5
6, 1

C, H
2, 7
5, 5
3, 3
6, 1

C, C
0, 10
1, 6
1, 6
2, 2

Figura 4.2: El dilema de los prisioneros repetido 2 veces


Podemos buscar ahora los equilibrios de Nash en el dilema de los prisioneros repetido 2 veces. Puesto que el juego es muy grande (hay 16 perfiles), podemos primero utilizar la eliminacion reiterada de las estrategias
estrictamente dominadas, puesto que haciendo eso no podemos eliminar los
equilibrios de Nash.
Para el jugador i podemos ver que la estrategia (C, C) domina estrictamente a las estrategias (H, H), (H, C) y (C, H). Para el jugador j tambien
es el caso que la estrategia (C, C) domina estrictamente a las estrategias
(H, H), (H, C) y (C, H). As pues, el u
nico perfil de estrategias que sobrevive la eliminacion reiterada de las estrategias estrictamente dominadas es el
perfil ((C, C), (C, C). Sabemos que si despues de haber eliminado de manera reiterada las estrategias estrictamente dominadas solo queda un perfil de
estrategias, este perfil es el u
nico equilibrio de Nash del juego. Entonces,
el u
nico equilibrio de Nash del dilema de los prisioneros repetido 2 veces es
cuando los dos jugadores eligen Callarse en las dos etapas.

4.1.2

Juegos con suma cero

Los juegos con dos jugadores y con suma cero fueron los primeros juegos
analizados en la historia de los juegos. En estos juegos la ganancia de un
jugador es siempre la ganancia del otro jugador multiplicado por 1. Una
definicion exacta es la siguiente:
Definici
on 6 Un juego G = {N = i, j, Si , Sj , ui , uj } es un juego con suma
cero si para cualquier perfil de estrategia si Si , sj Sj tenemos:
ui (si , sj ) = uj (si , sj ) .

(4.4)

Juegos repetidos

72

Por ejemplo, el juego de la Figura es un juego con suma cero.

a
b

c
d
0, 0 2, 2
6, 6 5, 5

Figura 4.3: Un juego con suma cero.


Estos juegos son muy u
tiles cuando queremos analizar situaciones conflictivas entre los jugadores.
Es facil de ver que para jugador j minimizar la ganancia del jugador i
es lo mismo que maximizar su ganancia:
s i Si ,

min ui (si , sj ) = max uj (si , sj ) .

sj Sj

sj Sj

(4.5)

Por lo tanto, un perfil donde


el jugador i maximiza su ganancia;
y al mismo tiempo el jugador j minimiza la ganancia de i, ui ,
es un perfil donde
el jugador i maximiza su ganancia;
y al mismo tiempo el jugador j maximiza su ganancia uj ,
As pues, si (si , sj ) es un equilibrio de Nash de un juego con suma cero,
la ganancia del jugador i en el perfil (si , sj ) es la mejor ganancia de i cuando
j minimiza la ganancia de i:
ui (si , sj ) = max min ui (ti , tj ) .
ti Si tj Sj

(4.6)

Es decir, la estrategia si es la mejor estrategia para i entre todas las demas


estrategias ti Si , y la estrategia sj es la mejor estrategia para j entre todas
las demas estrategias tj Sj .
Pero tambien podemos escribir que si (si , sj ) es un equilibrio de Nash, la
ganancia del jugador i en el perfil (si , sj ) es la peor ganancia de i (es decir,
j minimiza la ganancia de i) cuando i maximiza su ganancia:
ui (si , sj ) = min max ui (ti , tj ) .
tj Sj ti Si

Todo eso esta resumido en la proposicion siguiente:

(4.7)

73

4.1 Juegos repetidos finitamente

Proposici
on 3 Sea G un juego con suma cero y con dos jugadores, i y j.
Si (si , sj ) es un equilibrio de Nash, entonces
ui (si , sj ) = max

min ui (ti , tj ) = min

ti (Si ) tj (Sj )

max ui (ti , tj ) .

tj (Sj ) ti (Si )

(4.8)

Aqu, (Si ) es el conjunto de las estrategias mixtas del jugador i. Tenemos que utilizar el conjunto (Si ) en lugar del conjunto Si por que el
equilibrio de Nash puede ser un equilibrio en estrategias mixtas.
Por supuesto, tenemos tambien un equivalente de la ecuacion (4.8) con el
jugador j:
uj (si , sj ) = max

min uj (ti , tj ) = min

tj (Sj ) ti (Si )

max ui (ti , tj ) .

ti (Si ) tj (Sj )

(4.9)

Lo que acabamos de hacer sin darse cuenta es el principio del max-min


(ecuacion (4.6)) y el principio del min-max (ecuacion (4.7)).

4.1.3

El min-max

El principio del max-min (o del min-max) es muy u


til para analizar los juegos
repetidos. Hemos visto que en el dilema de los prisioneros repetido dos veces
el u
nico equilibrio de Nash es cuando los dos jugadores eligen callarse en
las dos etapas. Este resultado es valido para cualquier n
umero de etapas, es
decir, si repetimos el dilema de los prisioneros T veces, el u
nico equilibrio de
Nash es cuando los jugadores eligen callarse en las T etapas.
Tenemos este resultado porque en el dilema de los prisioneros el u
nico
equilibrio de Nash las ganancias de los jugadores son las mismas que si los
jugadores juegan las estrategias min-max.
Las estrategias max-min son muy importantes en el analisis de los juegos
repetidos. En un juego con dos jugadores, i y j, decimos que la ganancia
del jugador i es del tipo min-max cuando el jugador j elige la estrategia que
minimiza la ganancia del jugador i, y el jugador j maximiza su ganancia.
Cogemos el juego siguiente:
a
b

c
2, 4
4, 1

d
0, 3
10, 2

donde el jugador i elige entre las estrategias a y b y el jugador j elige entre


las estrategias c y d.
La ganancia min-max del jugador i esta definido por:
min max ui (si , sj ) .

sj Sj si Si

(4.10)

Juegos repetidos

74

La ecuacion 4.10 se lee as: Cogemos primero una estrategia sj , y buscamos la estrategia si que maximiza la ganancia de i, ui (si , sj ). Repetimos
eso con todas las otras estrategias del jugador j. En el juego, si cogemos la
estrategia c, la estrategia que maximiza la ganancia del jugador i es b. Con
el perfil de estrategias (b, c), el jugador i tiene una ganancia de 4. Con la
estrategia d, la estrategia de i que maximiza la ganancia de i es b, que le da
una ganancia de 10.
Ahora, el jugador j tiene que elegir una estrategia, pero sin maximizar
su ganancia: va a elegir la ganancia que minimiza la ganancia de i. Si j
juega c, la mejor ganancia que i puede tener es 4, y si j juega d, la mejor
ganancia de i es 10. As pues, j va elegir la estrategia c.
La ganancia del jugador i con el principio del min-max en nuestro juego
es 4.
Hemos buscado la ganancia de i con el principio del min-max, pero podemos tambien utilizar el principio del max-min:
max min ui (si , sj ) .
si Si sj Sj

(4.11)

La u
nica diferencia es en el orden de la b
usqueda de las estrategias de los
jugadores i y j. En la ecuacion 4.11, cogemos primero una estrategia de i,
y buscamos la estrategia de j que minimiza la ganancia de i. Hacemos lo
mismo con las otras estrategias de i, y al final el jugador i elige la estrategia
i que maximiza su ganancia.
En el juego, si i juega a, la estrategia de j que minimiza la ganancia de
i es d. En este caso, i tiene una ganancia de 0. Si i juega b, la estrategia de
j que minimiza la ganancia de i es c. En este caso, i tiene una ganancia de
4. Entonces, la estrategia de i que maximiza su ganancia cuando j quiere
minimizar la ganancia de i es c.
As pues, la ganancia del jugador i con el principio del max-min es 4, que
es la misma cuando utilizamos el principio del min-max. Esta ganancia se
escribe vi .
Siempre es el caso que el valor de vi cuando utilizamos el principio del
max-min es igual que el valor vi cuando utilizamos el principio del min-max,
es decir:
max min ui (si , sj ) = vi min max ui (si , sj ) . .
si Si sj Sj

sj Sj si Si

Consideramos el dilema de los prisioneros:


hablar
callarse

hablar
2, 2
5, 0

callarse
0, 5
1, 1

(4.12)

75

4.1 Juegos repetidos finitamente

Buscamos ahora el valor vi en este juego, primero con el principio del


min-max y luego con el principio del max-min.
Con el min-max
Si j juega hablar, la estrategia que maximiza la ganancia de i es
callarse, que da a i una ganancia de 5.
Si j juega callarse, la estrategia que maximiza la ganancia de i es
callarse, que da a i una ganancia de 1.
El jugador j quiere minimizar la ganancia de i. Si juega callarse, la
mejor ganancia que i puede obtener es 1, y 5 si juega hablar. Entonces,
j elige callarse.
El valor vi = 1, y esta obtenido cuando los dos jugadores juegan
callarse.
Con el max-min
Si i juega hablar, la estrategia que minimiza la ganancia de i es callarse,
que da a i una ganancia de 0.
Si i juega callarse, la estrategia que minimiza la ganancia de i es
callarse, que da a i una ganancia de 1.
El jugador i quiere maximizar su ganancia. Si juega callarse, la peor
ganancia que puede obtener es 1, y 0 si juega hablar. Entonces, i elige
callarse.
El valor vi = 1, y esta obtenido cuando los dos jugadores juegan
callarse.
Tambien podemos buscar el valor vj , obtenido cuando i quiere minimizar
la ganancia de j y j quiere maximizar su ganancia. En este caso, es facil de
ver que obtenemos vj = 1.
En el dilema de los prisioneros, el perfil de estrategias que da el valor vi del
jugador i es lo mismo que el perfil de estrategias que da el valor vj del jugador
j, (Callarse,Callarse). Cogemos por ejemplo el juego de la Figura 4.4. En
este juego, el jugador i elige entre a y b y el jugador j elige entre c y d.
Calculo de vi : Buscamos el valor de i con el principio del max-min.1
1

Como ejercicio podeis buscar vi con el principio del min-max.

Juegos repetidos

76

a
b

c
d
0, 1 2, 0
4, 4 3, 5

Figura 4.4: Un juego donde el perfil de vi es distinto del perfil de vj .


Si i elige la estrategia a el jugador j elige la estrategia c, que minimiza la
ganancia de i. Si i elige la estrategia b el jugador j elige la estrategia d, que
minimiza la ganancia de i.
Entonces, si i elige a tiene una ganancia de 0 (por que en este caso j elige
c) y de 3 si elige b (por que en este caso j elige d). Entonces, i elige b y su
valor es vi = 3.
Calculo de vj : Buscamos el valor de j con el principio del min-max.2
Si i elige la estrategia a el jugador j elige la estrategia c, que maximiza
su ganancia. Si i elige la estrategia b el jugador j elige la estrategia d, que
maximiza su ganancia.
Entonces, si i elige a, j tiene una ganancia de 1 (por que en este caso j
elige c) y de 5 si elige b (por que en este caso j elige d). Entonces, i elige a.
Entonces, el valor de j vj = 1.
Acabamos de ver que el perfil de estrategias que llega al valor de i es (b, d)
y el perfil de estrategias que llega al valor de j es (a, c).
Sin embargo podemos tener juegos donde no tememos la igualdad entre
el max-min y el min-max. Por ejemplo cogemos el juego de la Figura 4.5.
a
b

c
d
2, 5 3, 1
2, 0 5, 3
Figura 4.5:

Es facil de ver que el valor del jugador i con el min-max es lo mismo que
con el max-min: vi = 2, y eso esta obtenido con el perfil (a, c). El valor de
j con el principio del max-min es vj = 3, y con el principio del min-max
es vj = 1. Parece entonces que tenemos un ejemplo donde no tenemos la
igualdad entre el max-min y el min-max. La razon es que no hemos hecho
un analisis correcto.
Lo que podemos hacer para analizar el max-min (o el min-max) de un
jugador es de borrar las ganancias del otro jugador. Si queremos buscar el
valor del jugador j solo miramos a las ganancias de j. As, tenemos el juego
siguiente:
2

Como ejercicio podeis buscar vj con el principio del max-min.

77

4.1 Juegos repetidos finitamente

a
b

c
5
0

d
1
3

Figura 4.6: Las ganancias de j en el juego de la Figura 4.5


Supongamos ahora que tenemos el juego con suma cero siguiente:

a
b

c
d
5, 5 1, 1
0, 0 3, 3

Figura 4.7: Un juego con suma cero relacionado con el juego de la Figura 4.5
Por cierto, si buscamos el valor de j en el juego de la Figura 4.7 debemos
que encontrar el mismo resultado que con el juego de la Figura 4.5.
Pero hemos visto en la seccion 4.1.2 que en los juegos con suma cero la
propiedad max min = min max esta muy relacionada con el equilibrio
de Nash del juego: tenemos esta igualdad cuando tenemos un equilibrio de
Nash. Si buscamos el max-min o el min-max de las ganancias de la Figura 4.6
con las estrategias puras, entonces tenemos que buscar tambien el equilibrio
de Nash del juego de la Figura 4.7 con las estrategias puras.
Pero podemos ver que en el juego de la Figura 4.7 no existe equilibrio
de Nash en estrategias puras. Entonces, es normal si encontramos que el
max-min es distinto del min-max.
Si utilizamos las estrategias mixtas entonces vamos a encontrar un equilibrio de Nash. Con la proposicion 3 en la pagina 73 podemos deducir que
la ganancia de j en el equilibrio de Nash es su valor con el principio del
min-max (y del max-min).

4.1.4

El max-min y los juegos repetidos

Ahora que hemos visto el principio del max-min podemos introducir un resultado nuevo:
Proposici
on 4 Sea G un juego en el que todos los equilibrios de Nash las
ganancias de los jugadores son identicas a las ganancias con el principio del
min-max, es decir, para cada jugador i, en todos los equilibrios de Nash la
ganancia de i es vi . Para cualquier valor T , si (s1 , . . . , sT ) es un equilibrio
del juego GT , cada perfil de estrategias st es un equilibrio de G.
Interpretaci
on de la proposici
on

Juegos repetidos

78

Cogemos un juego G en el que todos los equilibrios de Nash dan las


ganancias de los jugadores son vi . El dilema de los prisioneros satisface estas
condiciones: las ganancia de cada jugador en el equilibrio de Nash es su valor
con el principio del min-max.
Sea T un n
umero finito de periodos, y sea s un equilibrio de Nash del
juego GT , es decir, s = (s1 , s2 , . . . , sT ) en el que cada st (con t = 1, . . . , T ) es
un perfil de estrategias. La proposicion dice que en este caso cada perfil de
estrategias st es un equilibrio de Nash del juego G.
Si aplicamos la proposicion al dilema de los prisioneros repetido T veces,
obtenemos que un equilibrio del juego repetido debe estar una coleccion de
perfil de estrategias en la que cada perfil es un equilibrio del dilema de los
prisioneros. Puesto que solo hay un equilibrio en el dilema de los prisioneros,
(Callarse,Callarse), el u
nico equilibrio del dilema de los prisioneros repetido
T veces es cuando los jugadores juegan T veces el perfil (Callarse, Callarse).
Eso significa que en el dilema de los prisioneros repetido T veces, un
jugador i no puede obtener una ganancia mas alta que T vi .
En la seccion siguiente veremos que en un juego repetido T veces se puede
hallar equilibrios donde los jugadores obtienen mas que T veces su valor con
el principio del min-max.

4.1.5

Ejemplo: la batalla de los sexos repetido 2 veces

Cogemos el juego de la batalla de los sexos, representado en la Figura 4.8,


y repetimos este juego 2 veces.

O.T.
Cruise

O.T.
2, 1
0, 0

Cruise
0, 0
1, 2

Figura 4.8: La batalla de los sexos


Antes de calcular las ganancias en el juego repetido vamos a calcular las
valores de los jugadores cuando utilizamos el principio del max-min.
Si el jugador i (el que elige las lineas) juega O.T la estrategia de j que
minimiza la ganancia de i es Cruise. En este caso, i obtiene una ganancia de
0. Si el jugador i juega Cruise, la estrategia de j que minimiza la ganancia
de i es O.T.. En este caso, i obtiene una ganancia de 0. Entonces, el valor
de i con el principio del min-max es vi = 0. El valor de jugador j con el
principio del min-max es tambien vj = 0.

79

4.1 Juegos repetidos finitamente

Las ganancias de los jugadores en el juego de la batalla de los sexos


repetido 2 veces se calculan de la misma manera que con el dilema de los
prisioneros repetido 2 veces. Obtenemos entonces el juego de la Figura 4.9.

O.T., O.T.
O.T., C
C, O.T.
C, C

O.T., O.T.
4, 2
2, 1
2, 1
0, 0

O.T., C
2, 1
3, 3
0, 0
1, 2

C, O.T.
2, 1
0, 0
3, 3
1, 2

C, C
0, 0
1, 2
1, 2
2, 4

Figura 4.9: La batalla de los sexos repetido 2 veces


Si solo miramos a las estrategias puras obtenemos en este juego 4 equilibrios de Nash:
E1 = ((O, O), (O, O)), E2 = ((O, C), (O, C)),
E3 = ((C, O), (C, O)), E4 ((C, C), (C, C)) .
Las ganancias de los jugadores en estos 4 equilibrios son todas estrictamente
positivas, o sea que en cada equilibrio de Nash del juego de la batalla de los
sexos repetido 2 veces los jugadores estan seguro de obtener mas que el valor
que obtienen con el principio del min-max.

4.1.6

El equilibrio de Nash

En el dilema de los prisioneros repetido T veces hemos visto que el u


nico
equilibrio de Nash es cuando los dos jugadores eligen Callarse en cada
etapa. Hemos deducido eso con la proposicion que relaciona el valor de los
jugadores (obtenido con el principio del max-min) con las ganancias en los
equilibrios de Nash en el juego inicial.
En el juego de la batalla de los sexos repetido 2 veces hemos visto que en
cada etapa se juega un equilibrio de Nash. Entonces, queremos deducir que
en un juego G repetido T veces en todos los equilibrios de Nash de GT se
juega un equilibrio de Nash de G en cada etapa. Esta asercion no es cierta.
Sin embargo, podemos afirmar que si un perfil de estrategias es un equilibrio
de Nash de un juego GT , entonces, en la u
ltima etapa se juega un equilibrio
de Nash de G.
Sea G un juego y GT el juego G repetido T veces. Un perfil de estrategias
en GT es una colacion de perfiles de estrategias, una para cada etapa. Es
decir, si s es un perfil de estrategias de GT , tenemos:
s = (s1 , s2 , . . . , st , . . . , sT 1 , sT ) ,

(4.13)

Juegos repetidos

80

donde st es el perfil de estrategias jugado en la etapa t. Es decir, st =


(st1 , . . . , sti , . . . , stn ), donde sti es la estrategia del jugador i en la etapa t.
Entonces, un perfil s de GT es un equilibrio de Nash si para cada jugador
t, y para cada estrategia si = (
s1i , . . . , sTi ) del jugador i tenemos:
GT

T
si , si ) ,
uG
i (si , si ) ui (

(4.14)

T
donde uG
i (s) es la ganancia de i en el juego G cuando los jugadores juegan
el perfil s:
T
X
GT
ui (s) =
ui (st ) .
(4.15)

t=1

Es importante de observar que en la ecuacion (4.14) una estrategia si


puede ser muy parecida a la estrategia si : puede ser que si y si solo estan
distintas en lo que i hace en la u
ltima etapa.
Ahora podemos ver un resultado importante sobre el equilibrio de Nash
en los juego repetidos:
Proposici
on 5 Sea GT el juego G repetido T veces. Si el perfil s = (s1 , . . . , sT )
es un equilibrio de Nash del juego GT , entonces, el perfil jugado en la ultima
etapa, sT , es un equilibrio de Nash de G.
La demonstracion es muy facil. Supongamos que s = (s1 , . . . , sT ) es un
equilibrio de Nash de GT , pero que st no es un equilibrio de Nash del juego
G. Entonces, existe un jugador i y una estrategia si que da a i una ganancia
estrictamente mayor que si juega sTi cuando los demas jugadores juegan sTi :
ui (
si , sTi ) > ui (sTi , sTi )

(4.16)

La ganancia obtenidas por i en el juego GT 1 con el perfil de estrategias


(s , s2 , . . . , sT 1 ) es:
T 1
X
ui (st ) .
(4.17)
1

t=1

Ahora hacemos la suma de las ecuaciones (4.16) y (4.17):


T 1
X
t=1

ui (s ) +

ui (
si , sTi )

>

T 1
X

ui (st )ui (sTi , sTi )

(4.18)

t=1

Sea s0i una estrategia de i en GT en la que


Para todas las etapas t = 1, . . . , T 1, el jugador i juega lo mismo que
con las estrategia si .

81

4.1 Juegos repetidos finitamente


En la u
ltima etapa el jugador i juega si .

Si los demas jugadores juegan la estrategia si , el jugador obtiene en GT


cuando juega la estrategia s0i :
0
T
uG
i (si , si )

T 1
X

ui (st ) + ui (s0i , si ) .

(4.19)

t=1

Entonces, si re-escribimos las ecuacion (4.18) tenemos:


GT
0
T
uG
i (si , si ) > ui (si , si ) .

(4.20)

Eso significa que cuando los demas jugadores eligen la estrategia si la


estrategia si no es una mejor respuesta del jugador i porque obtiene mas si
elige s0i . Es decir, el perfil s no es un equilibrio de Nash de GT .
Entonces, una condicion necesaria para que un perfil de estrategias sea
un equilibrio de Nash de un juego G repetido finitamente es que el perfil de
estrategias jugado en la u
ltima etapa es un equilibrio de Nash de G.
Ahora vamos a ver que no es necesariamente el caso para las estrategias
jugadas en las etapas anteriores a la u
ltima etapa. Cogemos el juego, que
llamamos G, de la Figura 4.10.

a
b

c
d
9, 0
1, 1
0, 5 0, 5
Figura 4.10:

Un equilibrio de Nash del juego G2 puede ser:


En la primera etapa los jugadores juegan (a, c),
En la segunda etapa los jugadores juegan (a, d),
Podemos ver que (a, d) es un equilibrio de Nash de G, pero no es el caso de
(a, c).
La idea es muy simple: el jugador i hace una amenaza que consiste en
jugar b en la segunda etapa si el jugador j no ha jugado a en la primera
etapa.
La forma habitual que tenemos para representar el juego repetido es de
calcular las ganancias que los jugadores pueden tener con todas las posibilidades estrategicas. As pues, tenemos el juego siguiente:
En el equilibrio de Nash que hemos descrito antes la estrategia del jugador
i es jugar a en la primera etapa, jugar a en la segunda etapa si j ha jugado

Juegos repetidos

a, a
a, b
b, a
b, b

82
c, c
c, d
d, c
d, d
18, 0
10, 1
10, 1
2, 2
9, 5 9, 5 1, 4 1, 4
9, 5 1, 4 9, 5 1, 4
0, 10 0, 10 0, 10 0, 10

Figura 4.11: El juego de la Figura 4.10 repetido 2 veces


c en la primera etapa, y jugar c en la segunda etapa si j ha jugado d en la
primera etapa..
Por cierto, esta estrategia no esta descrita en el juego de la Figura 4.11.
El problema es que la descripcion del juego repetido 2 veces dado en la
Figura 4.11 no es una representacion exacta del juego repetido. Una representacion mas exacta y completa seria un juego secuencial. As, podremos
describir todas las estrategias posibles en el juego repetido. Las estrategias
en el juego de la Figura 4.11 suelen representar todos los caminos de ejecucion
posibles en el juego repetido. Por ejemplo, consideramos las 2 estrategias de
i siguientes:
Estrategia s1i : Jugar a en la primera etapa, y jugar b en la segunda
etapa si j ha jugado c en la primera etapa. Si j ha jugado d en la
primera etapa, jugar a.
Estrategia s2i : Jugar a en la primera etapa, y jugar b en la segunda
etapa independientemente de lo que ha jugado en la primera etapa el
jugador j.
Supongamos que el jugador j elige la estrategia siguiente: Jugar c en las
dos etapas.
Claramente, si i elige la estrategia s1i , los jugadores juegan (a, c) en la
primera etapa y (b, c) en la segunda etapa. Entonces, tenemos la casilla
(ab, cc) en la Figura 4.11. Si ahora i utiliza la estrategia s2i todava tenemos
los dos jugadores jugando (a, c) en la primera etapa y (b, c) en la segunda
etapa y, por tanto, la misma casilla que antes.
Entonces, la descripcion del juego repetido que hemos echo en la Figura 4.11
solo es la descripcion de todos los caminos de ejecucion posibles en el juego
repetido.
Una descripcion completa del juego repetido 2 veces es la de la Figura 4.12 en
la pagina siguiente.
Ahora podemos entender lo que significaba las palabras el perfil jugado
en la proposicion 5 en la pagina 80. Este perfil es el perfil de estrategias que
los jugadores utilizan en el u
ltimo sub-juegos. Supongamos por ejemplo que

83

4.1 Juegos repetidos finitamente


i

b
 PPP

PP
a
b
PP

PP

PP

j

rpHp p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p pPp P
p pr


H d
HH d
c 
c
HH

HH
HHir
HHir
ir
ir
@
@
@
@
a
a
a
a
@b
@b
@b
@b
j
j
j
j
@
@
@
rp p p p p p p p p p p @
pr p p p p p p p p p p @
p rp
p rp
pr p p p p p p p p p p @
p rp
pr p p p p p p p p p @
p@
p rp
D
A
A
D
D
D
D
D
c Ad
c Ad
D
D
 D
D
 D
D
AAr c  D d
AAr
c Dd
c Dd
c Dd
c Dd
c  D d r
r
 D
 D
 D
 D    
 D


 D

D
D
D 10

D



D
0
0  D
1

D
D
D

D
D 1


D

10 10 
4
Dr
Dr
Dr
Dr
Dr
Dr
r
r
r
r
r
r

 
18
10
0
1

9
5



9
5

 
1
1
4 4

 
9
1
5 4

9
5



1
4

 




0
0
10 10

Figura 4.12: El juego de la Figura 4.10 repetido 2 veces.


las estrategias de los jugadores i y j en el juego de la Figura 4.12 son de
manera que juegan (a, c) en la primera etapa y (a, c) en la segunda etapa. El
u
ltimo sub-juego obtenido por la realizacion de esta estrategia es el subjuego
abajo a la izquierda en la Figura 4.12. Hay muchos perfiles de estrategias
en los que los jugadores preven de jugar (a, c) en este subjuego. Pero el
perfil de estrategias en el juego repetido que se trata en la proposicion es el
perfil que lleva los jugadores en este subjuego. La proposicion dice que las
estrategias en este subjuego deben formar un equilibrio de Nash del juego G.
Por cierto, se puede tener el caso en el que las estrategias de los jugadores
en otros subjuegos no forman un equilibrio de Nash.
Una reescritura de la proposicion podra ser:
Si un perfil s = (s1 , s2 , . . . , sT ) es un equilibrio de Nash del juego repetido
GT , entonces, las estrategias jugadas por los jugadores en la u
ltima etapa
cuando utilizan el perfil s debe ser un equilibrio de Nash de G.

4.1.7

El equilibrio perfecto en subjuegos

Sea G un juego repetido T veces. Despues de cada etapa los jugadores


observan las acciones de los demas y, por lo tanto, tenemos un juego dinamico
con informacion perfecta. Es importante notar que la informacion perfecta
concierna aqu la informacion que los jugadores tienen entre las etapas, y
no la informacion dentro del juego G. Por ejemplo, si G es el dilema de

Juegos repetidos

84

los prisioneros no tenemos informacion perfecta durante una etapa.


En cualquier caso (que G sea un juego con informacion perfecta o con
informacion imperfecta) podemos ver el juego repetido GT como un juego
secuencial y, por lo tanto, estudiar el equilibrio perfecto en subjuegos de este
juego.
El estudio del equilibrio perfecto en subjuegos de un juego repetido se
hace de la misma manera que en un juego secuencial (vease la seccion 3.4 en
la pagina 48), es decir, buscamos primero los equilibrios de Nash de la u
ltima
etapa, luego de la pen
ultima etapa, . . . hasta la primer etapa. En este caso
es facil de ver que obtenemos el resultado siguiente:
Proposici
on 6 Si el juego de etapa G tiene un u
nico equilibrio de Nash, entonces, para cualquier T finito, el juego GT tiene un u
nico equilibrio perfecto
en subjuegos: en cada etapa se juega el equilibrio de Nash de G.

4.2
4.2.1

Juegos repetidos infinitamente


Descuento

Los juegos repetidos infinitamente siguen el mismo principio que los juegos
repetidos finitamente. Sin embargo, tenemos que modificar el calculo de las
ganancias. En los juegos repetidos finitamente la ganancia de un jugador es la
suma de sus ganancias en cada etapa. Si seguimos este principio no podemos
comparar las ganancias de un jugador en los juegos repetidos infinitamente.
c
2, 2
1, 3

a
b

d
1, 1
4, 5

Figura 4.13:
Supongamos que el juego de la Figura 4.13 esta repetido infinitamente y
que el jugador j siempre elige la estrategia c.
Para el jugador i jugar siempre la estrategia c parece mejor que jugar
siempre la estrategia b. Si hacemos la suma de las ganancias en cada etapa
tenemos para la estrategia a:

X
t=1

ui (a, c) = + .

(4.21)

85

4.2 Juegos repetidos infinitamente

Y si calculamos lo que i obtendra si juega siempre b:

ui (b, c) = + .

(4.22)

t=1

Obtenemos que en el juego repetido infinitamente el jugador i esta indiferente


entre la estrategia a y la estrategia b. Por cierto, es no tiene sentido.
La solucion es de considerar que hay un tipo de descuento. Decimos
entonces que los jugadores eligen sus estrategias antes que empece el juego y
actualizan las ganancias que van a obtener con un tipo de descuento . As,
ganar x en la segunda etapa es equivalente a ganar x en la primera etapa,
ganar x en la etapa 37 es equivalente a ganar 36 x en la primera etapa, etc.
Podemos ver el tipo de descuento como el resultado de un tipo de interes.
Si es el tipo de interes (por ejemplo 5%), tenemos:
1
.
1+

(4.23)

Entonces, si s = (s1 , s2 , s3 , . . . ) es un perfil de estrategia jugado en un


juego repetido infinitamente la ganancia de un jugador i es:

uG
(s)
i

t1 ui (st ) .

(4.24)

t=1

Si el jugador i gana siempre lo mismo en cada etapa, es decir, gana u =


ui (st ) = ui (st+1 ), t = 1, . . . tenemos entonces es una serie geom
etrica
de raz
on . Entonces, La ganancia del jugador i es:

uG
(s) =
i

4.2.2

u
.
1

(4.25)

Ganancia media

Sea G un juego G repetido infinitamente, y s = (s1 , s2 , s3 , . . . ) un perfil


(infinito) de estrategias. Sean u1i , u2i , u3i , . . . las ganancias del jugador i con
el perfil de estrategias s.
La ganancia media del jugador i es la ganancia que recibe el jugador
i en general . Es decir, para el jugador i ganar en cada etapa su ganancia
media es lo mismo que ganar u1i , u2i , u3i , . . . con el factor de descuento .
Sea V la ganancia que el jugador i recibe con el perfil s:
V =

X
t=1

t1 ui (st ) ,

(4.26)

Juegos repetidos

86

y sea u la ganancia media del jugador i.


Sabemos que si un jugador i gana siempre v en cada etapa, entonces su
ganancia total en el juego repetido es:

t1 u =

t=1

u
.
1

(4.27)

Entonces, ganar V o ganar u es lo mismo para el jugador. As pues, la


1
ganancia media del jugador i cuando gana V en el juego repetido es:
V (1 ) .

(4.28)

El concepto de la ganancia media resulta ser muy practico para el estudio de los juegos repetido infinitamente. Consideramos ahora un perfil de
estrategias, s , en un juego G repetido infinitamente muy complicado (por
ejemplo, en cada etapa los jugadores cambian de estrategias). Supongamos
que con el perfil el s el jugador i gana V .
Supongamos ahora que podemos encontrar un perfil s muy sencillo en el
juego G con el que el jugador i gana V (1 ). Entonces, para el jugador
i jugar el perfil de estrategias s jugar siempre el perfil s es igual. La
ganancia del jugador i con el perfil s es la misma que la ganancia con el
perfil (
s, s, s, . . . ).
Ya sabemos que si V es la ganancia de un jugador en un juego repetido
infinitamente, entonces, su ganancia media es V (1 ). Podemos tambien
hacer el camino reves: si un jugador tiene como ganancia media V (1 ),
entonces, su ganancia total sera V . Si un jugador gana en cada etapa V (1)
su ganancia total es:

X
t1 (V (1 ))
(4.29)
t=1

Es decir, tenemos la suma de una serie geometrica de razon y de primer


termino V (1 ). Entonces, el resultado de la ecuacion (4.29) es:
V (1 )

4.2.3

1
=V .
1

(4.30)

Ganancia factible

Una ganancia factible en un juego G es una ganancia para la cual podemos


encontrar un perfil de estrategia que da esta ganancia. En el juego de la
Figura 4.14 la ganancia 3 es factible para el jugador i: si los jugadores juegan
el perfil (a, c) el jugador i tiene una ganancia de 3.
Las ganancias (ui = 2, uj = 4) son tambien factibles. Para obtener estas
ganancias es suficiente que los jugadores juegan este perfil:

87

4.2 Juegos repetidos infinitamente

a
b

c
3, 2
1, 6

d
1, 1
0, 5

Figura 4.14:
El jugador j juega la estrategia c
El jugador i juega la estrategia a con una probabilidad
b con una probabilidad 21 .

1
2

y la estrategia

Pero las ganancias (ui = 2, uj = 6) no son factibles. Para que el jugador


j obtenga una ganancia de 6 los jugadores deben jugar la estrategia (b, c),
pero en este caso el jugador i tiene una ganancia de 1.
Tambien podemos hablar de ganancias factibles en un juego repetido
infinitamente. Si cogemos el juego de la figura 4.14 repetido infinitamente con

un factor de descuento = 0, 8, las ganancias total de (uG


= 5, ujG = 5)
i
son factibles.
Ganar 5 en el juego repetido infinitamente es equivalente a tener una
ganancia media de 5(1 ) = 5 (1 0, 8) = 5 0, 2 = 1. Entonces, solo
necesitamos encontrar un perfil de estrategia en el juego G con el que los jugadores ganan 1 cada uno. El perfil (a, d) cumple estos requisitos. Entonces,
el perfil de estrategia (a, d), (a, d), (a, d), (a, d), . . . permite a los jugadores

de obtener las ganancias (uG


= 5, uG
= 5), lo que significa que estas
i
j
ganancias son factibles.

4.2.4

Equilibrio de Nash

En la seccion anterior Con los juegos repetidos finitamente hemos visto que
en general las estrategias jugadas en los equilibrios de Nash de un juego GT
son muy parecidas a las estrategias jugadas en los equilibrios de Nash del
juego G.
Con los juegos repetidos infinitamente los resultados cambian mucho, y
vamos a ver que podemos tener equilibrios de Nash en un juego G repetido
infinitamente en los que los jugadores no juegan en ninguna etapa estrategias que forman un equilibrio de Nash del juego G. Por ejemplo, en el
dilema de los prisioneros el u
nico equilibrio de Nash es cuando los dos jugadores se callan. No se puede alcanzar como equilibrio de Nash el perfil
(Hablar,Hablar). Si repetimos el dilema de los prisioneros un n
umero finito
de veces, tambien hemos visto que en el u
nico equilibrio de Nash los jugadores
juegan en cada etapa el perfil (Callarse,Callarse) como en el juego repetido

Juegos repetidos

88

una vez. Si cogemos el dilema de los prisioneros repetido infinitamente vamos a ver que podemos obtener un equilibrio de Nash en el que los jugadores
juegan (Hablar,Hablar) en cada etapa. Esto es una aplicacion directa del
teorema del pueblo: :
Teorema 2 Sea G el juego G repetido infinitamente con un factor de descuento . Sean vi y vj los valores de los jugadores i y j con el principio del
max-min. Si (Ui , Uj ) es una ganancia factible en G con la que:
Ui

vi
1

Uj

vj
1

entonces, existe un equilibrio de Nash de G con el que las ganancias totales


los jugadores son (Ui , Uj ).
El principio de la demonstracion es muy sencillo. Cogemos por ejemplo
el dilema de los prisioneros de la Figura 4.15. Ya sabemos que los valores de

H
C

H
C
2, 2 0, 5
5, 0 1, 1

Figura 4.15: El dilema de los prisioneros


los jugadores con el principio del max-min son vi = 1 y vj = 1. Supongamos
ahora que el factor de descuento es = 0, 8. Eso implica que
vi
1
=
=5.
1
1 0, 8

(4.31)

Ahora, tenemos que encontrar una ganancia factible en el juego repetido


que es mas grande que 5 para cada jugador. Podemos coger por ejemplo la
estrategia que consiste en jugar en cada etapa el perfil (Hablar,Hablar). Con
esta estrategia la ganancia media es (2; 2), con lo que la ganancia total es
2
2
=
= 10.
1
0, 2

(4.32)

Eso significa que las ganancias (10; 10) son factibles en el juego repetido infinitamente: hemos encontrado un perfil de estrategias con el que la ganancia
de cada jugador es 10.
El teorema dice que es posible entonces de tener un equilibrio de Nash en
el que los jugadores ganan 10 cada uno, por ejemplo jugando (Hablar,Hablar)

89

4.2 Juegos repetidos infinitamente

en cada etapa. Para obtener un equilibrio de Nash tenemos que encontrar


una estrategia para cada jugador. Decir que los jugadores juegan (Hablar,
Hablar) suele ser la descripcion de las acciones jugadas en cada etapa.
Las estrategias que permiten de obtener que la mejor estrategia de cada
jugador es de elegir Hablar en cada etapa consiste en hacer una amenaza
Elegir Hablar si el otro jugador siempre ha jugado en las etapas anteriores la estrategia Hablar.
Si el otro jugador ha jugado en una de las etapas anteriores la accion
Callarse, jugar hasta t = la accion Callarse, es decir, jugar la accion
que minimiza la ganancia del otro jugador.
Supongamos que en la etapa t el jugador i juega Callarse en lugar de
Hablar. En esta etapa su ganancia es 5, porque el jugador j juega Hablar.
Pero en todas la etapas siguientes el jugador i va a ganar 1 porque el jugador
j contestara a la deviacion del jugador i con la estrategia que da al jugador
i su valor del max-min, es decir, el jugador j va a jugar en las etapas t +
1, t + 2, t + 3, . . . la accion Callarse. As pues, la ganancia media del jugador
en las t 1 primeras etapas es 2 (hasta la etapa t 1 los jugadores juegan
(Hablar,Hablar), pero a partir de la etapa t + 1 su ganancia media es 1. Si
hacemos su ganancia media total vamos a obtener una ganancia media muy
1
cerca de 1 y, por lo tanto, una ganancia total muy cerca de 1
= 5. Por
supuesto, la ganancia del jugador i si desva va a acercarse de 1 si i juega en
las etapas despues de la etapa t la accion que maximiza su ganancia contra
la accion del jugador j. Si i no juega esta accion entonces su ganancia media
despues de la desviacion puede ser a
un mas baja que vi , su valor con el
principio del max-min.
Entonces, el jugador i no tiene incentivo para desviar en cualquier etapa
del juego.
Es importante observar que hemos podido obtener el perfil (Hablar,Habar)
como el resultado de un equilibrio de Nash porque el juego esta repetido
infinitamente.

4.2.5

Ejemplo

Cogemos por ejemplo el juego siguiente:

a
b

c
d
2, 2 0, 3
4, 6 1, 5

Juegos repetidos

90

que repetimos un n
umero infinito de veces con un factor de descuento = 0, 8.
Podemos encontrar un equilibrio de Nash del juego repetido infinita
mente en el que los jugadores i y j ganan respectivamente uG
= 20 y
i
G
ui = 30?
Primero tenemos que calcular los valores de i y j:
El valor del jugador i con el principio del max-min es vi = 1 y corresponde
al perfil de estrategias (b, d) y el valor de j es vj = 3 y esta obtenido con el
perfil (a, d).
Entonces, tenemos
vi
1
=
=5
1
0, 2
3
vj
=
= 15
1
0, 2

Entonces, tenemos
vi
1
vj
= 30 >
1

uG
= 20 >
i

uG
j

Ahora tenemos que verificar si ganar 20 y 30 para los jugadores i y j


son ganancias factibles en el juego repetido infinitamente. Para el jugador i,
ganar 20 es equivalente a tener como ganancia media:
20 (1 ) = 20 0, 2 = 4 ,

(4.33)

y para el jugador j su ganancia media es:


30 (1 ) = 20 0, 2 = 6 ,

(4.34)

Entonces, tenemos que encontrar un perfil de estrategias en el juego G con


el que el jugador i gana 4 y el jugador j gana 6.
Podemos ver que con el perfil (b, c) los jugadores tienen estas ganancias.
Entonces podemos construir el equilibrio de Nash en el juego repetido infinitamente con el que los jugadores i y j ganan respectivamente 20 y 30:
Jugar en cada etapa el perfil (b, c),
Si durante una etapa el jugador j no juega la accion c, el jugador i
juega en todas las etapas siguientes la accion a (la accion que juega i
cuando i quiere minimizar la ganancia de j),

91

4.2 Juegos repetidos infinitamente


Si durante una etapa el jugador i no juega la accion b, el jugador j
juega en todas las etapas siguientes la accion d (la accion que juega j
cuando j quiere minimizar la ganancia de i).

Indice
Amenaza, 46
Juegos repetidos (en los), 89

Factor de descuento , 85

Batalla de los sexos


Forma extensiva, 67
Forma normal, 30

Ganancia
Esperada, 20
Factible, 86
Media, 85

Camino de ejecucion, 44

Induccion hacia atras, 45

Desviar, 13
Dilema de los prisioneros
Forma extensiva, 64
Forma normal, 30, 66
Historia, 64
Duopolio
de Cournot, 34
de Stackelberg, 47

Juego
Batalla de los sexos
Forma extensiva, 67
Forma normal, 30
Ciempies, 53
Con suma cero, 71
Dilema de los prisioneros
Forma extensiva, 64
Forma normal, 30, 66
Historia, 64
Monedas (de las), 33
Repetido finitamente
Forma extensiva, 82

Equilibrio
de Nash, 12, 13, 42
Juegos repetido finitamente (en
los), 77, 80
Juegos repetido infinitamente
(en los), 88
Perfecto en subjuegos, 48, 51
Juegos repetido finitamente (en
los), 84
Estrategia
Dominada
Estrictamente, 10
No estrictamente, 11
Dominante, 12
Mixta, 18
Soporte, 21
Pura, 18

max-min, 72
Mejor respuesta, 13
min-max, 72
Soporte
De una estrategia mixta, 21
Subjuego, 48
Teorema
de Nash, 20
del pueblo, 88

Vous aimerez peut-être aussi