Académique Documents
Professionnel Documents
Culture Documents
1 2 3
Rida Laraki , Jrme Renault , Sylvain Sorin
2010
Les auteurs remercient Miquel Oliu-Barton, Tristan Tomala, Cheng Wan ainsi que
Vianney Perchet, Guillaume Vigeral et Yannick Viossat pour leurs lectures attentives et
leurs remarques judicieuses.
Table des matires
Chapitre 1. Introduction 5
1. Interaction stratgique 5
2. Exemples 6
4. Information et rationalit 10
2. Le thorme du minmax 15
3. Stratgies optimales 17
4. Extensions 18
5. Exemples 19
6. Fictitious play 20
1. Le thorme de Sion 23
3. Convexit 27
1. Notations 31
2. Dominance 31
3. Rationalisabilit 33
4. Equilibre de Nash 34
5. Cas ni 34
6. Extensions 36
7. Le thorme de Reny 37
8. Semi-algbricit 40
9. Dveloppements et exemples 42
3
Chapitre 5. Varit des quilibres et dynamique 53
3. Equilibre et volution 57
3. Slection d'quilibre 77
1. Equilibre corrl 85
1. Exemples lmentaires 93
2. Le modle 95
Bibliographie 131
CHAPITRE 1
Introduction
1. Interaction stratgique
La thorie des jeux vise analyser des situations d'interaction stratgique o plusieurs
(actions, gnes, prix, codes, ...) qui les aectent mutuellement. Plusieurs niveaux de mo-
Il consiste identier les structures autonomes qui interagissent, appeles joueurs. Par
autonomie on entend le fait que leurs caractristiques, paramtres ou choix, appels ac-
tions sont dtermins de manires indpendantes les uns des autres. Un prol d'actions
induit un rsultat et chaque joueur possde une fonction d'valuation dnie sur l'espace
compte tous les sous-ensembles possibles, appels coalitions et une fonction d'eectivit
associe chacune d'entre elles la famille des rsultats qu'elle peut atteindre. La probl-
matique consiste alors en dduire un rsultat global pour tous les joueurs.
Il s'agit ici d'une point de vue plus normatif ou axiomatique qui partir de considra-
tions sur des normes d'quit, de pouvoir ou d'ecience propose une solution.
Passage 1.1. 1.2. : des analyses d'ordre stratgique sur le choix des actions d'une coa-
des actions et une fonction d'valuation telle que le jeu stratgique correspondant induise
la solution choisie.
pact des rgles sur le rsultat nal. L'intrt se dplace de l'examen des comportements
5
6 Chapitre 1. Introduction
2. Exemples
cardinal tel que chaque lment i I (resp. j J ) possde un ordre strict sur J I ). (resp.
Le problme est l'existence et la caractrisation des mariages stables, i.e. des bijections
0 0 0 0
de I dans J telles qu' il n'existe pas de couples (i, (i) = j), (i , (i ) = j ) avec j prfr
0 0
par i j et simultanment i prfr i par j . (Voir Exercice 1.1).
se droule entre les instants 0 et 1 et le joueur qui arrte le premier l'instant t gagne la
part [0, t] de l'ensemble, son adversaire ayant le complment. On suppose que a1(t) (resp.
a2(t)) qui dcrit l' valuation par le joueur 1 (resp. 2) de [0, t], est une fonction continue
obtenir 1/2 en dcidant d'arrter l'instant ti avec ai(ti) = 1/2 (si l'adversaire arrte
avant, tant mieux). Par contre si ti < tj , et que le joueur i le sait, il peut anticiper que
j ne va pas arrter avant tj et tenter tj . On voit apparatre ici des questions lies
l'information sur les caractristiques de l'adversaire, aux anticipations sur son comporte-
ment (rationalit) et l'inuence de la procdure sur l'issue (j souhaite que l'on partage
cun utilisant soit une voiture, soit le mtro. On suppose qu'ils ont tous la mme valuation
du trac qui se traduit par une fonction croissante v, resp. m, de [0, 1] dans lui mme,
la population prend le mtro. Si v > m le seul quilibre est t = 0, mme si le rsultat v(0)
peut tre infrieur un autre rsultat possible m(1). Si les courbes m et v se coupent,
les points d'intersection sont des quilibres qui peuvent tre stables ou instables. (Voir
Exercice 1.3).
2.4. Enchres.
Un objet est mis aux enchres et n joueurs ont des valuations vi, i = 1, ..., n, son sujet.
On peut considrer des enchres descendantes o le prix d'ore p dcroit jusqu' une
acceptation, ou montantes o les joueurs font des ores croissantes successives. Un autre
modle correspond au cas o les joueurs font des ores bi par crit et l'arbitre attribue
Exemples 7
l'objet au joueur ayant fait la plus grande ore. Si le prix payer est la plus grande ore,
les joueurs ont intrt connaitre les prfrences de leurs adversaires. Si le prix correspond
la deuxime plus grande ore, la stratgie bi = vi est dominante. (Voir Exercice 1.4).
`vote la majorit A face B , puis le vainqueur est oppos C , etc ... induit un cycle
duit des anti-virus et c ne produit rien. La production est coteuse donc b gagne face
a et c face b mais a infeste c. On est en prsence d'un cycle. Il peut exister un point
stationnaire intrieur (o les 3 bactries sont prsentes) mais son type peut tre attractif
ou rpulsif.
importante (a), faible (b) ou en extinction (c). Les joueurs ont une activit intense (I) ou
rduite (R) et le rsultat de leur activit qui dpend de l'tat de l' espce (a, b ou c) est une
quantit de pche et une probabilit sur le nouvel tat. Ceci dnit un jeu stochastique.
I R
I 100, 100 120, 60
R 60, 120 80, 80
I R
I (0.3, 0.5, 0.2) (0.5, 0.4, 0.1)
R (0.5, 0.4, 0.1) (0.6, 0.4, 0)
Par exemple si le joueur 1 pche beaucoup (I ) et le joueur 2 peu (R), l'tat le jour suivant
I R
I 50, 50 60, 30
R 30, 60 40, 40
I R
I (0, 0.5, 0.5) (0.1, 0.6, 0.3)
R (0.1, 0.6, 0.3) (0.8, 0.2, 0)
et dans l'tat c la pche est nulle et l'tat absorbant. Il y a clairement un conit entre
a 10, 0 1, 1
b 5, 5 0, 0
Si on ne tient pas compte du futur, on obtient une rptition de (a, ) mais on peut
introduire des menaces du type jouer pour toujours dans le futur pour stabiliser le
rsultat (b, ). L'utilisation du couple plan et menaces est fondamental dans l'tude des
g i(s1, , sn) est le gain du joueur i lorsque le prol s = (s1, , sn) est jou. On note
i i i j
aussi s = (s , s ) o s dnote le vecteur des stratgies s des joueurs autres que i.
Plus gnralement une forme jeu est une application F de S dans un espace de rsultats
R. Chaque joueur a un prordre total i sur R. Si celui-ci est reprsent par une fonction
i i i
d'utilit u de R dans IR la composition u F donne g qui est l'valuation par i du
rsultat. (Cela revient prendre comme ensemble de rsultats l'ensemble S des prols.)
Notations et concepts de base 9
3.2. Domination.
Pour x et y dans IRn on note :
x >> y si xi > y i, i,
x > y si xi y i, i, et x 6= y ,
x y si xi y i, i.
si est une stratgie dominante si
g i(si, .) g i(ti, .) ti S i.
si est strictement domine (resp. faiblement domine) si il existe ti avec
vers un ensemble rduit un point (en particulier si chaque joueur possde une stratgie
permet de dnir le paiement tendu qui est l'esprance par rapport la distribution
4. Information et rationalit
a 10, 0 1, 1
b 5, 5 0, 0
a domine b, puis est une meilleure rponse a, d'o le rsultat (1, 1).
En l'absence de a, le rsultat est (5, 5).
a 2, 2 1, 2
b 2, 0 0, 1
(2, 2) est limin par domination faible si on commence par le joueur 2, mais pas si on
Rsultat : Il n'y a, par contre, pas d'ambiguit pour l'limination itre via la domination
stricte.
(1, 1) est le seul paiement partien et est limin par domination faible.
respond la connaissance des paramtres du jeu : stratgies, paiements (dans ce cadre les
procdures autonomes ne dpendent pour un joueur que de ses propres stratgies et de son
On fait alors face un paradoxe circulaire : pour dnir la rationalit d'un joueur il faut
spcier son information qui inclut, entre autres, son information sur la rationalit de ses
adversaires.
Information et rationalit 11
a 3 0
b 1 1
c 0 3
La stratgie b n'est pas domine par a ou b mais est domine par la stratgie mixte 12 a+ 12 c.
de jeu rpt ou de jeu d'volution est la prise en compte, ou non, par les joueurs, des
consquences des actions prsentes sur le comportement futur des autres participants.
Rfrences
Parmi les nombreux ouvrages rcents soulignons :
Aumann R.J. and S. Hart, eds., Handbook of Game Theory I, II, III, North Holland,
Il s'agit d'une somme encyclopdique o chaque chapitre couvre un domaine prcis ; une
visite s'impose.
Laraki R., Renault J. et T. Tomala, Thorie des Jeux, X-UPS 2006, Editions de l'Ecole
Polytechnique.
Une introduction moderne et rapide aux jeux stratgiques et aux jeux rpts.
van Damme E., Stability and Perfection of Nash Equilibria, Springer, 1991.
paiement est nulle. Dans ce type d'interaction stratgique, les intrts des joueurs sont
Dnition 1.1. Un jeu somme nulle sous forme stratgique est dni par un triplet
(I, J, g) o : I (resp. J ) est l'ensemble (non vide) d'actions du joueur 1 (resp. 2), et
est g(i, j) (les valuations du rsultat induit par le choix (i, j) sont opposes pour les 2
1 2
joueurs). Avec les notations du chapitre 1 on a donc g = g = g d'o la terminologie
jeu somme nulle. Chacun des deux joueurs connat le triplet (I, J, g).
Lorsque I et J sont nis, on dit sans surprise que (I, J, g) est un jeu somme nulle
ni. On reprsente alors le jeu par une matrice, o le joueur 1 choisit la ligne i, le joueur
2 choisit la colonne j , et les lments de la matrice reprsentent le paiement g(i, j). Par
1 -1
-1 1
Rciproquement, toute matrice relle peut tre vue comme un jeu ni somme nulle,
On xe dans la suite un jeu somme nulle G = (I, J, g). Le joueur 1 maximise la fonc-
tion de paiement g , mais celle-ci dpend de deux variables i et j , et le joueur 1 ne contrle
pas i.
i I, j J, g(i, j) w.
13
14 Chapitre 2. Jeux somme nulle : le cas ni
Symtriquement, le joueur 2 garantit w R {+} dans G s'il a une action qui lui
j J, i I, g(i, j) w.
Il est clair que pour tout i dans I le joueur 1 garantit inf jJ g(i, j), et pour j dans J
le joueur 2 garantit supiI g(i, j).
Dnition 1.3.
Le maxmin de G, not v, est la quantit supiI inf jJ g(i, j) R {+}.
Le minmax de G, not v, est la quantit inf jJ supiI g(i, j) R {}.
Ainsi, le maxmin est le supremum des quantits garanties par le joueur 1, et le min-
max est l'inmum des quantits garanties par le joueur 2. Le maxmin peut tre vu comme
une borne infrieure sur son paiement. De mme, le minmax correspond l'interaction
o c'est le joueur 2 qui joue en premier, puis le joueur 1 joue en connaissant l'action de
son adversaire. (Si le joueur 1 joue en premier mais que son choix n'est pas connu par le
Le fait que la premire situation soit moins favorable au joueur 1 se traduit par le lemme
suivant :
Lemme 1.4.
v v.
Dnition 1.5. On dit que le jeu G a une valeur si v = v, et dans ce cas la valeur
(on verra plus tard que l'extension mixte du jeu a une valeur).
Lorsque le jeu a une valeur, v (= v = v), celle-ci correspond l'issue rationnelle du jeu,
au sens de l'valuation quitable par les deux joueurs du jeu. La valeur peut alors tre
Lemme 1.6.
S'il existe w qui peut tre garanti la fois par le joueur 1 et le joueur 2, alors w est unique
Dnition 1.7. Une stratgie du joueur 1 est dite maxmin -optimale si elle garantit
v . Si le jeu a une valeur, une telle stratgie est simplement dite -optimale. Les strat-
gies -optimales du joueur 2 sont dnies de faon duale. Les stratgies 0-optimales sont
dites optimales.
Exemple : G = (IN, IN, g), o g(i, j) = 1/(i + j + 1). Le jeu a une valeur qui est 0. Toutes
les stratgies du joueur 1 sont optimales, et le joueur 2 n'a aucune stratgie optimale.
Lorsque les espaces I et J sont measurables, on peut considrer les extensions mixtes
de G (cf. Chapitre 1, Section 3). Si une stratgie dans I garantit w dans G, alors la mme
stratgie garantit galement w dans toute extension mixte X, Y de G. En eet par lina-
R
rit de l'intgrale en y , g(x, y) =
J
g(x, j)dy(j) w pour tout y Y , ds que g(x, j) w
pour tout j J .
On en dduit :
Lemme 1.8.
Le saut de dualit d'une extension mixte de G est infrieur au saut de dualit initial de
G.
En particulier, si un jeu somme nulle possde une valeur, alors toute extension mixte
Dans la suite de ce chapitre, on considre principalement le cas d'un jeu somme nulle
ni.
2. Le thorme du minmax
En thorie des jeux, on autorise souvent les joueurs choisir leurs actions de manire
alatoire. Par exemple, si l'on doit jouer dans Matching Pennies, ou programmer un or-
dinateur qui va jouer ce jeu online, il est clairement intressant de choisir chaque action
avec probabilit 1/2, an de cacher l'adversaire la ligne ou la colonne que l'on va jouer.
(Une autre interprtation des actions mixtes est que la probabilit associe aux actions
d'un joueur ne reprsente que la croyance de son adversaire sur son comportement (Har-
Mathmatiquement, considrer des actions mixtes permet d'avoir des ensembles d'actions
convexes.
16 Chapitre 2. Jeux somme nulle : le cas ni
Si S est un ensemble ni de cardinal n, on note (S) l'ensemble des probabilits sur
L'extension mixte d'un jeu ni G = (I, J, g) est alors le jeu = ((I), (J), g), o la
Un lment x de (I), resp. y de (J), est appel stratgie mixte du joueur 1, resp. joueur
2, dans le jeu . Par opposition, un lment de I , resp. J , est assimil une mesure de
Le support d'une stratgie mixte x du joueur 1, not supp (x), est l'ensemble des stratgies
i
pures i telles que x > 0.
On reprsentera souvent le jeu G par la matrice A avec Aij = g(i, j) pour tout (i, j) dans
Autrement dit, l'extension mixte d'un jeu matriciel a une valeur (on dit aussi que tout
jeu somme nulle ni a une valeur en stratgies mixtes), et les joueurs y ont des stratgies
optimales.
On note val(A) A.
la valeur de la matrice
sont duaux et ont mme valeur ds qu'ils sont ralisables, i.e. ds que les ensembles
{Ax b; x 0} et {uA c; u 0} sont non vides. Ce rsultat est lui mme une cons-
quence du thorme de l'alternative pour des systmes linaires (voir par exemple, Sorin
A.
Il existe donc un triplet X , Y , w avec
X X
X 0, Y 0, X A b, AY c, Xi = Yj = w
i j
X 6= 0 implique w>0 soit en divisant par w, l'existence de (x, y ) (I) (J) avec
Une preuve plus algorithmique du thorme de Von Neumann peut tre faite en utili-
sant un algorithme d'approchabilit (voir Exercice 2.4). Par ailleurs, on peut aussi utiliser
le thorme de Loomis (Thorme 4.1) qui se ramne une rcurrence sur la dimension.
Indiquons enn que le thorme du Minmax de Von Neumann se gnralise au cas o les
paiements ne sont plus ncessairement rels mais appartiennent un corps ordonn (et
3. Stratgies optimales
On rappelle qu'un polytope est l'enveloppe convexe d'un nombre ni de points (ce qui
quivaut en dimension nie un ensemble born, intersection d'un nombre ni de demi-
espaces).
Proposition 3.1.
a) X(A) et Y (A) sont des polytopes non vides.
18 Chapitre 2. Jeux somme nulle : le cas ni
tels que :
Preuve : Les dmonstrations de a), b), et d) sont des consquences lmentaires des dni-
tions et du thorme du minmax. La proprit d) est en fait vraie pour tout jeu somme
nulle (elle correspond l'identit entre les couples de stratgies optimales et les quilibres
4. Extensions
Corollaire 4.2.
Toute matrice stochastique admet une probabilit invariante.
Notons B = A Id, o Id est la matrice identit, et plaons-nous dans le jeu dni par
2, jouer une ligne i telle que y i = minjI y j donne un paiement positif au joueur 1, donc
le joueur 2 ne peut pas se garantir une quantit strictement ngative. Par consquent la
complmentarit).
continu suivant, o ([0, 1]) est l'ensemble des probabilits borliennes sur [0, 1].
Voir l'Exercice 2.3 pour la preuve : on procde par discrtisation de plus en plus ne
du carr [0, 1] [0, 1], et on extrait une sous-suite faiblement convergente d'une suite de
L'Exercice 3.7 montre que l'hypothse f continue n'est pas superue dans l'nonc du
thorme de Ville.
5. Exemples
1 -2
Exemple 1.
-1 3
Ici v = 1/7. Le joueur 1 a une unique stratgie optimale : jouer Haut avec probabi-
lit 4/7, et Bas avec probabilit 3/7. Le joueur 2 a une unique stratgie optimale : jouer
1 2
Exemple 2.
0 x
Quel que soit x, le jeu a une valeur v = 1, et chaque joueur a une unique stratgie
optimale, qui est pure : Haut pour le joueur 1, Gauche pour le joueur 2.
a b
Exemple 3.
c d
20 Chapitre 2. Jeux somme nulle : le cas ni
Dans le cas gnral 2 actions par joueur, soit il existe un couple de stratgies opti-
males pures (et alors la valeur est un des nombres {a, b, c, d}), sinon les stratgies optimales
sont compltement mixtes et la valeur vaut :
ad bc
v=
a+dbc
6. Fictitious play
Soit A une matrice relle I J. Le processus suivant, appel ctitious play, a t in-
troduit par Brown (1951). Imaginons des joueurs jouant de faon rpte le jeu matriciel
A. A chaque tape, chacun des joueurs calcule la moyenne empirique des actions joues
par son adversaire dans le pass, et joue une meilleure rponse pure face cette moyenne.
Dnition 6.1. Une suite (in, jn)n1 valeurs dans I J est une ralisation d'un pro-
cessus de ctitious play pour la matrice A si : pour tout n 1, in+1 est une
meilleure
rponse du joueur 1 contre yn dans A, et jn+1 est une meilleure rponse du joueur 2 contre
xn dans A.
la distance entre (xn, yn) et l'ensemble des couples de stratgies optimales de A tend vers
0, quand n . Explicitement :
> 0, N, n N, x (I), y (J),
xnAy val(A) et xAyn val(A) + .
val(A).
1
Pn
De plus le paiement moyen sur la trajectoire, soit n t=1 Ait,jt, converge vers
Prenons comme variables les frquences empiriques xn et yn, donc la dynamique discrte
1
xn+1 = (in+1 + nxn)
n+1
et satisfait :
1
xn+1 xn [BR1(yn) xn]
n+1
o BR1 dnote la correspondance de meilleure rponse du joueur 1 (voir Chapitre 1, Sec-
tion 3).
Fictitious play 21
1
BR1(y(t)) x(t) .
x(t)
t
C'est une inclusion direntielle qui correspond, avec la condition similaire pour le joueur
Preuve
tons le paiement F (x, y) = xAy , et pour (x, y) dans (I) (J), posons L(y) =
maxx0(I) F (x , y) et M (x) = miny0(J) F (x, y 0).
0
Donc le saut de dualit associ au couple (x, y) est : W (x, y) = L(y) M (x) 0 et le
couple (x, y) est une paire de stratgies optimales dans A si et seulement si W (x, y) = 0.
On note w(t) = W (x(t), y(t)) l'valuation du saut de dualit sur la trajectoire, (t) =
d
L(y(t)) = (t)D1F ((t), y(t)) + y(t)D2F ((y), y(t)).
dt
Le thorme de l'enveloppe (voir par exemple, Mas Colell, Whinston and Green, 1995,
p. 964) montre que le premier terme est nul et le second terme vaut F ((t), y(t)) (par
d d
w(t) = L(y(t)) M (x(t))
dt dt
= F ((t), y(t)) F (x(t), (t))
= F (x(t), y(t)) F (x(t), y(t))
= F (x(t), (t)) F ((t), y(t))
= M (x(t)) L(y(t))
= w(t).
soit : w(t) = w(0)et. Il y a convergence de w(t) vers 0 vitesse exponentielle, et donc
convergence vers 0 vitesse 1/t dans le problme initial avant changement de temps. La
22 Chapitre 2. Jeux somme nulle : le cas ni
convergence vers 0 du saut de dualit implique par continuit la convergence de (x(t), y(t))
vers l'ensemble des stratgies optimales.
Pn
Considrons enn la somme des paiements raliss : Rn = p=1 F (ip, jp). En posant
i
Ump = m
P
k=1 F (ip, jk) on obtient
Xn i
Xn Xn1 Xn1
Rn = (Upip Up1
p
)= Upip Upip+1 = Unin + (Upip Upip+1)
p=1 p=1 p=1 p=1
Upip Upip+1 0.
i Uni
Donc lim sup Rnn lim sup maxi Unn val(A) car
n
= F (i, yn) val(A) + pour n assez
Remarquons que par compacit des ensembles de stratgies mixtes, on obtient l'exis-
tence de stratgies optimales dans le jeu matriciel (points d'accumulation des trajectoires).
cessus CFP.
Le rsultat est en fait plus fort : l'ensemble des stratgies optimales est un attracteur glo-
discrte en temps, donc du processus de ctitious play (Hofbauer and Sorin, 2006).
CHAPITRE 3
d'existence de la valeur.
1. Le thorme de Sion
Le lemme suivant, appel lemme de l'intersection, sera utile par la suite (voir Berge,
1966, p.172).
Lemme 1.1.
Soient C1,..., Cn des convexes compacts non vides d'un espace euclidien. On suppose que
n
l'union i=1Ci est convexe, et que pour tout j = 1, ..., n, l'intersection i6=j Ci est non vide.
n
Alors l'intersection totale i=1Ci est non vide.
23
24 Chapitre 3. Jeux somme nulle : cas gnral
si f est quasi-concave.
Il est clair que si E est compact et f s.c.s, alors f atteint son maximum sur E .
Dans les thormes suivants, les ensembles de stratgies S et T sont des sous-ensembles
(iii) pour tout t dans T , g(., t) est quasi-concave s.c.s. en s, et pour tout s dans S , g(s, .)
est quasi-convexe s.c.i. en t.
De plus, si S (resp. T) est compact, les suprema (resp. inma) ci-dessus sont atteints :
Preuve : Supposons par exemple S compact, et que G n'a pas de valeur. Alors il existe
un rel v tel que : supsS inf tT g(s, t) < v < inf tT supsS g(s, t). Et donc :
s S, t T, g(s, t) < v,
t T, s S, g(s, t) > v.
On se ramne au cas o S et T sont des polytopes, puis on applique le lemme de l'inter-
section.
Posons, pour tout t dans T , St = {s S, g(s, t) < v}. La famille (St)tT forme un
recouvrement ouvert du compact S , dont on peut extraire un sous-recouvrement ni :
L'enveloppe convexe T 0 = conv (T0) est compacte (homomorphe au simplexe sur T0, en
dimension nie, il n'y a qu'une topologie d'espace vectoriel topologique spar) et l' on a
encore : supsS inf tT 0 g(s, t) < v car bien sr S tT 0St et v < inf tT 0 supsS g(s, t) car
Comme plus haut, la famille (Ts0 = {t T 0, g(s, t) > v})sS , forme un recouvrement ouvert
de T 0. On peut donc aussi trouver un sous-ensemble ni S0 de S tel que :
Quitte enlever des lments S0 et T0, on peut supposer sans perte de gnralit que
(S0, T0) est minimal pour l'inclusion (dans l'ensemble des couples (A, B) o A et B sont
des sous-ensembles non vides de S et T satisfaisant l'analogue des deux dernires condi-
tions).
Pour s dans S0, notons maintenant As = {t conv (T0), g(s, t) v}. As est un sous-
ensemble convexe compact de conv (T0). On a sS0As = et pour tout s0 dans S0,
et donc g(s, t0) > v , pour tout s S0. Puisque g(., t0) est quasi-concave, on a galement :
En renforant l'hypothse de convexit sur g(s, .), on peut aaiblir les hypothses
Proposition 1.4.
Soit un jeu somme nulle G = (S, T, g) tel que :
(iii) pour tout t dans T , g(., t) est quasi-concave s.c.s., et pour tout s dans S , g(s, .) est
convexe.
Alors G a une valeur : supsS inf tT g(s, t) = inf tT supsS g(s, t), et le joueur 1 a une
stratgie optimale.
Preuve : Supposons qu'il existe un rel v vriant : supsS inf tT g(s, t) < v < inf tT supsS
g(s, t). Comme dans la preuve du thorme de Sion, il est d'abord possible de trouver un
On munit l'espace ane engendr par les lments de T0 d'une norme, et on note
int(conv (T0)) l'intrieur relatif de conv (T0). Pour tout s dans S , g(s, .) est convexe, donc
est continue sur int(conv (T0)) (une fonction convexe dnie sur un ouvert d'un espace
euclidien y est continue, voir par exemple Berge (1966), Thorme 7, p. 203).
n 1 1
Fixons t0 dans int(conv (T0)) et posons pour tout n 1 et j {1, .., J} : tj = t0 +(1 )tj
n n
n n n
et St = {s S, g(s, tj ) < v}. Pour tous j , n, par convexit de g(s, .), on a g(s, tj )
j
1
n
g(s, t0) + (1 n1 )g(s, tj ). Donc les ensembles Stnj forment un recouvrement ouvert de S .
26 Chapitre 3. Jeux somme nulle : cas gnral
On considre ici des jeux sans hypothse de convexit sur les espaces de stratgies. On
est amen convexier un ensemble X soit en prenant f (X) l'ensemble des probabilits
sur X support ni (c'est l'enveloppe convexe de X ), soit dans le cas topologique (X)
Proposition 2.1.
Soit un jeu somme nulle (S, T, g) tel que :
Preuve : Il sut de vrier que si S est compact et g(., t) s.c.s., alors (S) (muni de la
R
topologie faible ) est compact et 7 g(, t) = g(s, t)(ds) est s.c.s..
S
Par ailleurs g(, ) est bien dnie sur (S) f (T ) et est bilinaire. Donc les conditions
pose la fonction de paiements borne (et mesurable) an de pouvoir appliquer le thorme
Thorme 2.2.
Soit un jeu somme nulle G = (S, T, g) tel que :
(ii) Pour tout t dans T , g(., t) est s.c.s., et pour tout s dans S , g(s, .) est s.c.i.
Alors l'extension mixte de G a une valeur. Chaque joueur a une stratgie optimale mixte,
et pour tout > 0, chaque joueur a une stratgie -optimale support ni.
et le rsultat suit.
3. Convexit
Les rsultats du paragraphe prcdent peuvent tre galement obtenus partir d'un
Proposition 3.1.
Soit un jeu somme nulle (S, T, g) tel que :
X Z
g(x, y) = g(s, t)x(ds)yt v + x X.
t S
Donc v v +, > 0, d'o l'galit et par compacit l'existence d'une stratgie optimale
pour 2.
28 Chapitre 3. Jeux somme nulle : cas gnral
0 F ),
et pour tout f dans F le jeu (S, T, f ) a une valeur note valST (f ) ou plus simplement
val(f ).
Clairement, l'oprateur val est :
1) monotone : f g val(f ) val(g), et
On en dduit facilement :
Proposition 4.1.
L'oprateur val est non dilatant :
|val(f ) val(g)| kf gk
(avec kf gk =def supST |f (s, t) g(s, t)|).
que pour tout 0, les fonctions g et f + g sont s.c.s. en s et s.c.i. en t, et que le jeu
valS(f )T (f )(g),
o S(f ) et T (f ) sont les ensembles des stratgies optimales dans le jeu (S, T, f ).
1
sup inf g(s, t) lim sup [valST (f + g) valST (f )]
S(f ) T (f ) 0+
et le rsultat suit par une ingalit duale.
Soit G = (N, (S i)iN , (g i)iN ) un jeu sous forme stratgique. N est l'ensemble des
i
joueurs (de cardinal not N s'il n'y a pas de confusion). S , i N , est l'ensemble des stra-
i
tgies (pures) du joueur i. On suppose que S est un sous ensemble d'un espace vectoriel
i j
Q
topologique localement convexe et spar. g : S = jN S IR est la fonction de gain
du joueur i, qui est suppose borne, i N .
G est compact (resp. ni, de dimension nie) si les S i le sont pour tout i N .
G est continu si les g i le sont pour tout i N .
G est quasi-concave si les S i sont convexes et les g i sont quasi-concaves en S i pour tout
i N.
2. Dominance
On rappelle qu'une stratgie si S i est strictement domine s'il existe i (S i) tel que
i i
pour tout t S , g i( i, ti) > g i(si, ti).
i
Une stratgie s n'est jamais meilleure rponse une stratgie mixte s'il n'existe pas
stratgie corrle sans tre une meilleure rponse une stratgie mixte :
L R L R L R L R
T 8 0 M1 T 4 0 T 0 0 T 3 3
B 0 0 B 0 4 B 0 8 B 3 3
M2 M3 M4
31
32 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash
M i, i = 1, ..., 4 et les paiements sont ceux du joueur 3. M 2 est une meilleure rponse du
1 1
joueur 3 (T L)+ (BR) mais n'est meilleure rponse aucune stratgie mixte de {1, 2}.
2 2
Proposition 2.1.
si est strictement domine si est seulement si elle n'est jamais meilleure rponse une
stratgie corrle de i.
Preuve : Soit si strictement domine et i (S i) tel que pour tout ti S i,
g i( i, ti) > g i(si, ti). Par linarit, on dduit que g i( i, [i]) > g i(si, [i]) pour tout
[i] (S i) : si ne peut tre meilleure rponse une stratgie corrle.
i
Inversement, supposons que s ne soit jamais meilleure rponse une stratgie corr-
le. Considrons l'extension mixte du jeu matriciel H deux joueurs et somme nulle o
i
le joueur i a comme ensemble de stratgies pures S et joue contre l'quipe des joueurs
meilleure rponse une stratgie corrle dans G, la valeur de H est strictement positive.
i i
Toute stratgie mixte optimale du joueur i dans H dominera strictement s dans G.
Une stratgie si S i est domine s'il existe i (S i) tel que pour tout ti S i,
g i( i, ti) g i(si, ti) et il existe au moins un point ti o l'ingalit est stricte.
i
Une stratgie s n'est jamais meilleure rponse une stratgie compltement cor-
pltement corrle.
Supposons que si ne soit pas meilleure rponse une stratgie compltement corrle.
Considrons le jeu matriciel H comme dans la preuve prcdente. Le joueur i peut garan-
i
tir 0 dans H en jouant s , sa valeur est au moins 0.
Si la valeur est strictement positive, toute stratgie optimale dans H domine strictement
si dans G ce qui implique que si n'est pas meilleure rponse une stratgie corrle.
i
Supposons maintenant que la valeur est zro, impliquant par l mme que s est optimale
i
dans H . Puisque s n'est pas meilleure rponse une stratgie compltement corrle, au-
cune stratgie optimale de l'quipe i ne peut tre support plein. (Rappelons que dans
Rationalisabilit 33
tout jeu ni somme nulle, l'ensemble des stratgies optimales d'un joueur est convexe
et qu'une stratgie pure est utilise dans une stratgie optimale si et seulement si cette
stratgie est optimale contre toutes les stratgies optimales de l'opposant (Chapitre 2,
3. Rationalisabilit
Une stratgie si qui n'est jamais meilleure rponse ne peut pas tre joue par un joueur
qui maximise face un prol de stratgies de ses adversaires : on dit qu'elle n'est pas jus-
stratgies qui ne sont jamais meilleure rponse aux stratgies qui restent justiables
T i = kS i(k). i
Q
l'tape k. On obtient une suite dcroissante de limite Soit T = i T . Les
lments de T sont les stratgies rationalisables.
L BR(L).
dance BR et puisque le jeu est compact, chaque S(k) est compact. On obtient ainsi une
suite embote de compacts non vides qui converge versT compact non vide. Par ailleurs
T S(k + 1) = BR(S(k)). Donc T limk BR(S(k)) BR(T ). Enn T S(k) im-
plique BR(T ) BR(S(k)) = S(k + 1). En passant la limite on dduit que BR(T ) T .
Remarques
- La Proposition 2.1 montre le lien de cette procdure avec l'limination itre de strat-
- Il est par ailleurs instructif de prciser les hypothses sur les connaissances des joueurs
34 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash
(sur l'tat et sur le monde) pour tablir le fait qu'ils puissent se livrer cette rduction
jeux d'volution.
4. Equilibre de Nash
Un quilibre (de Nash) est un prol de stratgies sS o aucun joueur n'a intrt
dvier de manire unilatrale. Autrement dit, pour chaque joueur, s'il pense que les autres
vont suivre le prol alors il est rationnel pour lui de jouer selon le prol.
tale des jeux somme nulle). Par ailleurs l'interprtation de la notion d'quilibre de Nash
considr ici comme une condition mathmatique de cohrence qu'il s'agit de comprendre
et d'tudier.
Dnition 4.1. Un -quilibre est un prol s S tel que pour tout i, si BRi (si),
soit :
Quand BR() est rduite un singleton, c'est une fonction. Dans ce cas, tous les qui-
libres de Nash sont stricts et trouver un quilibre revient trouver un point xe d'une
fonction.
5. Cas ni
On rappelle que l'extension mixte d'un jeu ni G est le jeu o l'ensemble des stratgies
i i
du joueur i est (S ), l'ensemble des probabilits sur l'ensemble ni S . et son paiement
est
X Y
g i() = j (sj )g i(s).
s=(s1,...,sN )S j
Un quilibre mixte du jeu G est un quilibre de l'extension mixte de G.
Cas ni 35
Lemme 5.1.
est un quilibre mixte d'un jeu ni G si et seulement si pour tout i et tout si S i,
g i(si, i) < max
i i
g i(ti, i) i(si) = 0.
t S
g i( i, i) = i
(ti)g i(ti, i),
P
Preuve : Puisque tiS i est un quilibre mixte de G si et
g i( i, i) = max
i i
g i(ti, i).
t S
i i i i i i
Donc g (s , ) < maxtiS i g (t , ) implique i(si) = 0.
convexes et compacts), le thorme de Brouwer 10.4 implique qu'il existe tel que
f () = .
i i i
Un tel est un quilibre de Nash. En eet, xons un joueur i. Si tiS i(g (t , )
i i i(si)
(s ) =
1 + tiS i(g i(ti, i) g i())+
d' o i(si) = 0 et la contradiction.
Rciproquement tout quilibre est un point xe de f car toutes les quantits (g i(ti, i)
g i())+sont nulles.
+ 1 + 1 N + N
={ , ..., }
2 2 2
l'est aussi. L'application de Nash f prserve par dnition la symtrie (f (X) X ). Le
6. Extensions
Preuve : La quasi-concavit de G implique que pour tout s, BR(s) est convexe. La conti-
nuit et la compacit de G assurent que pour tout s, BR(s) est non-vide, est compact
et que le graphe de BR est ferm (l'hypothse de continuit jointe est ici cruciale). Le
Si G est un jeu compact et continu son extension mixte l'est galement (en utilisant par
prcdent.
Remarquons que si les g i sont strictement quasi-concaves pour tout i, tous les quilibres
de Nash sont stricts car dans ce cas, les ensembles BR(s) sont rduits des singletons
pour tout s.
Application : Cournot a introduit et appliqu plus d'un sicle avant Nash la notion
d'quilibre stratgique. Dans un duopole de Cournot, chaque rme, i = 1, 2, choisit de
produire une quantit qi [0, 100], sans connatre, lors de sa dcision, le montant produit
par son adversaire. La fonction de cot de la rme i s'exprime par : Ci(qi) = 10qi, et le
prix de vente p qui rsulte de la production totale q = q1 + q2 est p = 100 q. La stratgie
d'une rme consiste donc choisir son niveau de production qi, et son prot est :
convexes, il existe donc un quilibre de Nash (dit de Cournot). Il est facile de voir
Le thorme de Reny 37
45
que cet quilibre ne peut tre sur le bord : qi = 0 qj = 45 qi = 2
et
qi = 100 qj = 0 qi = 45. Donc l'quilibre est intrieur. Etant donn que la fonction
de paiement du joueur i est concave et direntiable, les conditions d'optimalit du pre-
i 90qj
mier ordre sont ncessaires et susantes. Nous dduisons donc que BR (qj ) = . Les
2
90q2 90q1
conditions d'quilibre sont alors : q1 = et q2 = . L'quilibre de Cournot-Nash
2 2
de ce jeu est donc q1 = q2 = 30.
7. Le thorme de Reny
Bertrand, les jeux de timing, les enchres, la guerre d'usure ou la course au brevet ne sont
pas des jeux continus. Reny (1999) a pu tendre le thorme d'existence et couvrir aussi
du graphe de G.
Dnition 7.2. Le jeu G est robuste (better-reply secure) si pour tout (s, g) dans
o sn'est pas un quilibre de Nash, il existe un joueur i qui peut scuriser un paiement
i
strictement plus lev que g .
Un jeu continu est ncessairement robuste mais l'inverse est faux : le jeu de Bertrand
ou l'enchre au premier prix sont robustes mais ils ne sont pas continus.
o le sup est pris sur tous les voisinages de si. g i (si, ) est s.c.i. en si. On en dduit
que s est un quilibre de Nash si il existe g tel que (s, g) et pour tout joueur i,
supsiS i g i(si, si) g i. En eet si s n'est pas un quilibre, il existe un joueur i qui peut
i i
scuriser > g , ce qui implique :
(s, t) SS, on introduit g(s, t) = g 1(s1, t1), ..., g i(si, ti), ..., g N (sN , tN )
Etant donns
et E(s) = (t, h) : g(s, t) h . Ainsi un quilibre de Nash existe ds que sS E(s)
est non vide.
Puisque chaque g i est borne, est un ensemble compact. Par ailleurs g i(si, ti) est
i
s.c.i. en t , donc g(s, t) est aussi s.c.i. en t, d'o E(s) est compact pour tout s. Il sut
donc de montrer que sF E(s) est non vide pour tout ensemble F ni ou d'une manire
Reny, 1999).
Lemme 7.4.
Soit T compact mtrique et f : T IR semicontinue infrieurement. Il existe une suite
j
si S0i , il existe une suite de fonctions gni (si, ) sur
Q
En particulier, pour tout j6=i coS0 ,
continues sur cet ensemble (mtrique convexe et compact), et telles que pour tout
si j6=i coS0j :
Q
i i i i i i
(i) gn(s , s ) g (s , s ).
i i
(ii) sn s : lim inf n gni (si, si i i i
n ) g (s , s ).
Construisons maintenant une suite de jeux Gn. L'ensemble des stratgies du joueur i
j
i
Q
dans Gn est (S0). Pour chaque jN S0 , la fonction de gain du joueur i dans
Gn est
X
fni () = gni (si, si)i(si)
siS0i
sj = j
(sj )sj coS0j .
P
o sj S0j Le jeu Gn satisfait aux hypothses du thorme de Nash-
Glicksberg, il admet donc un quilibre de Nash n (et sn associ). Pour tout i et tout si
tel que in(si) > 0 et pour tout sei S0i :
si, si) fni (n) = gni (si, si
gni (e i i i i i i
n ) g (s , sn ) g (s , sn ).
Les premires ingalit et galit sont une consquence du fait que n est un quilibre et
i i i
que la fonction de gain fn ( , ) est linaire en (et que donc tout si tq in(si) > 0
i
i
doit tre optimal pour le joueur i face n dans Gn). La deuxime ingalit rsulte de
(i) dans le lemme prcdent.
Ce rsultat permet d'obtenir une condition plus directe sur les fonctions de paiement
Dnition 7.5. Un jeu G est rciproquement-s.c.s. si pour tout (s, g) dans : si g(s) g
alors g(s) = g.
Cela est le cas si par exemple la somme des fonctions de paiement est s.c.s. ou
constante.
Preuve : Il sut de montrer que le jeu est robuste. Soit (s, g) dans et supposons que
s ne soit pas un quilibre. Reciproquement-s.c.s. implique que gi (s) > g pour au moins
Preuve : L'extension mixte vrie les hypothses du thorme de Reny car (S i) est
L'extension mixte d'un jeu continu est continue et est donc robuste. Par ailleurs, cer-
tains jeux peuvent tre robustes alors que leur extension mixte ne l'est pas, et inversement.
En passant en mixte, il devient la fois plus facile et plus dicile pour un joueur de s-
curiser un paiement. C'est plus facile car ce joueur a plus de stratgies, ce qui tend
40 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash
augmenter le paiement qu'il peut scuriser. C'est plus dicile car il doit scuriser face
Il peut s'avrer dicile de vrier que l'extension mixte d'un jeu est robuste, d'o la
Preuve : L'extension mixte satisfait aux conditions du Corollaire 7.6 car l'extension mixte
des paiements reste s.c.i. par rapport aux stratgies des autres.
8. Semi-algbricit
On se place ici dans le cadre des jeux nis. Chaque S i est un ensemble ni, de cardinal
Nm
mi. On pose m = imi. Un jeu est alors identiable un point de IR .
L R
T (a1, a2) (a3, a4)
B (a5, a6) (a7, a8)
et g IR8.
Proposition 8.1.
L'ensemble des quilibres en stratgies mixtes est dni par une famille nie d'ingalits
polynomiales larges.
et
X Y
g i() = i(si)g i(s) g i(ti, i), ti S i, i N,
s=(s1,...,sN )S i
i i
les inconnues tant les (s ).
On utilise ici l'aspect multilinaire pour comparer les paiements uniquement dans le cas
Thorme 8.2.
k
Soit V un ensemble semi-algbrique ferm de IR alors V possde un nombre ni de com-
posantes connexes.
Preuve : Pour une preuve et d'autres rsultats, consulter l'ouvrage de Benedetti et Risler
(1990).
Corollaire 8.3.
L'ensemble des quilibres en stratgies mixtes d'un jeu ni est une runion nie d'en-
L 1
T 2
B
L M R
T (1, 1) (0, 1) (1, 1)
m (1, 0) (0, 0) (1, 0)
B (1, 1) (0, 1) (2, 2)
Chaque point est limite d'un quilibre d'un jeu proche : par exemple avec >0 le jeu
42 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash
L M R
T (1, 1 ) (, 1) (1 , 1)
m (1, ) (, ) (1 + , )
B (1 , 1) (0, 1) (2, 2)
9. Dveloppements et exemples
V i = min
i
max
i
Gi(ti, ti)
S S
P1 = {x IRn; s S, G(s) = x}
et est l'ensemble des paiements possibles et individuellement rationnels
= {x P1; xi V i}.
Voici 3 exemples
L R
T (1, 1) (1, 0)
B (0, 1) (0, 0)
1
V
P1
0 1
Dveloppements et exemples 43
L R
T (1, 1) (0, 1)
B (1, 0) (0, 0)
P1
0 1
L R
T (3, 1) (0, 0)
B (0, 0) (1, 3)
3 3
V = ,
4 4 P1
0 3
44 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash
Il est facile de voir que P1 est un ensemble ferm et connexe par arcs ; simplement
9.2. Invariance.
Soit le jeu symtrique suivant :
L R
T (3, 3) (0, 0)
B (0, 0) (2, 2)
L R
T (3 + a, 3 + c) (0 + b, 0 + c)
B (0 + a, 0 + d) (2 + b, 2 + d)
gique implique que ces jeux doivent avoir le mme ensemble de solutions.
L R
T (1, 1) (0, 2)
B (2, 0) (2, 2)
L R
T (2, 4) (2, 1)
B (1, 0) (4, 2)
Le jeu 1 admet deux quilibres de Nash purs (T, L) et (B, R) et un quilibre mixte et sym-
( 52 T, 53 B), ( 52 L, 35 R) . Les jeux 2 et 3 admettent videmment les mmes quilibres
trique
de Nash.
Si une thorie dicte que la solution du jeu 1 devrait tre (T, L) car c'est dans l'intrt
commun des deux joueurs (ce qui semble raisonnable) et si cette thorie est invariante
stratgiquement elle devrait slectionner (T, L) dans le jeu 2, mais l'intrt commun des
joueurs dans ce jeu est (B, R). Si cette thorie slectionne dans le jeu 1 l'quilibre mixte
car c'est le seul qui respecte la symtrie du jeu, elle devrait faire de mme dans le jeu 3.
9.3. Prudence.
A la dirence des jeux somme nulle, la notion d'quilibre de Nash dans les jeux
L R
T (3, 1) (2, 2)
B (100, 2) (3, 3)
(B, R) avec le paiement (3, 3) est l'unique quilibre de Nash. Cependant, mme si le joueur
1 croit que le joueur 2 va jouer R, va-t-il vraiment jouer B et risquer de perdre 100 si pour
une raison ou une autre (irrationalit, stupidit, vengeance, erreur) le joueur colonne joue
L? Jouer B semble dangereux pour le joueur ligne alors que jouer T est sans risque car
au pire il obtient 2.
Plus gnralement
i
est une stratgie mixte prudente pour le joueur i si pour tout si :
L R
T (2, 0) (0, 1)
B (0, 1) (1, 0)
1 1
Le seul quilibre est donn par x= 2
et y= 3
avec un vecteur de paiement d'quilibre
( 23 , 21 ).
Une stratgie prudente x du joueur 1 consiste jouer optimal dans le jeu somme nulle :
L R
T 2 0
B 0 1
donc
1
3
x =
et garantit
2
3
au joueur 1.
De mme, une stratgie prudente y du joueur 1 consiste jouer optimal dans le jeu
somme nulle :
L R
T 0 1
B 1 0
46 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash
donc y = 1
2
et garantit
1
2
au joueur 2.
2 2
Considrons le joueur 1 : jouer x lui assure de gagner . Jouer x ne gatantit pas mais
3 3
2
c'est la stratgie d'quilibre de paiement .
3
Si le joueur 2 joue sa stratgie d'quilibre y, le joueur 1 sera indirent entre T et B et
donc n'importe quelle stratgie sera une meilleure rponse y, en particulier x. Et s'il
ne joue pas la stratgie d'quilibre, l'itration des meilleures rponses ne converge pas.
L R y y
T (2, 0) (0, 1) (1, 1/2) (2/3, 2/3)
B (0, 1) (1, 0) (1/2, 1/2) (2/3, 1/3)
x (2/3, 2/3) (2/3, 1/3) (2/3, 1/2) (2/3, 4/9)
x (1, 1/2) (1/2, 1/2) (3/4, 1/2) (2/3, 1/2)
9.5. Domination.
L'addition d'une stratgie dominante pour un joueur peut tre dfavorable ce joueur :
L R
T (10, 0) (1, 1)
B (5, 5) (0, 0)
des quilibres de Nash est donc donn par le graphe de la correspondance de meilleure
L R
T (1, 1) (0, 1)
B (0, 0) (2, 0)
Dveloppements et exemples 47
B
1
L 3
R
Cependant si le joueur 2 connait les paiements du joueur 1 (et qu'il sait que le joueur 1
L R
T (0, 1) (1, 1)
B (2, 0) (0, 0)
9.7. Self-enforcing.
Dans le jeu ci-dessous l'quilibre (T, L) est Pareto-dominant mais (B, R) est risk- domi-
nant. Par ailleurs (T, L) n'est pas self-enforcing (Aumann, 1990) : le joueur 1 a intrt
ce que le joueur 2 joue L, quels que soient ses plans pour le futur.
L R
T (7, 7) (0, 6)
B (6, 0) (5, 5)
Par contre dans la bataille des sexes ci-dessous l'quilibre (T, L) est self-enforcing pour le
joueur 1
L R
T (2, 1) (0, 0)
B (0, 0) (1, 2)
48 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash
Soit un simplexe de dimension k , donc avec k + 1 sommets nots {x0, ..., xk}(en dimen-
sion zro c'est un point, en dimension un c'est un intervalle, deux un triangle, trois une
pyramide,etc...).
Plus prcisment, c'est une collection nie de simplexes {i} qui satisfait ii = et
pour tout (i, j), i j est soit vide, soit un simplexe de la collection. Le pas d'une
Une coloration de V est une fonction qui associe chaque v dans V un entier dans
couleurs possibles.
Preuve : Par rcurrence sur k . Si k = 0, c'est trivial. Supposons le rsultat vrai pour k 1.
Imaginons que le simplexe soit une maison. Les sous-simplexes de dimension k seront les
direntes pices. Une porte est par dnition un sous-simplexe de dimension k 1 ayant
Une pice peut possder zro porte, une porte ou deux portes. En eet, supposons qu'une
pice possde k sommets colores par les couleurs 0, ..., k 1. Si le dernier sommet a la
couleur manquante k, la pice ne possde qu'une porte (et par la mme occasion elle sera
compltement colore), sinon la pice aura exactement deux portes (et il lui manquera
une couleur).
L'hypothse de rcurrence implique qu'il y a un nombre impair de portes sur la face conte-
Thormes de Brouwer et de Ky Fan 49
nant les sommets x0, ..., xk1. Montrons donc qu'il existe un nombre impair de pices avec
exactement une seule porte. La preuve est obtenue par un algorithme.
Imaginez que vous entrez dans le simplexe par une porte de l'extrieur. Si la pice o
vous entrez possde une autre porte, vous entrez via cette porte vers une autre pice, si
cette dernire possde une autre porte, vous continuez votre chemin ainsi de suite jusqu'
ce que (1) vous sortez de et ce par la face par laquelle vous etes entr (par hypothse sur
la coloration) ou (2) vous arrivez vers une pice sans autre porte de sortie. Cette dernire
impair de pices compltement colores que vous pouvez atteindre en venant de l'ext-
rieur.
Soit i une pice compltement colore et ne pouvant pas tre atteinte de l'extrieur.
Cette pice a exactement une seule porte. Vous pouvez en sortir et entrer dans une nou-
velle pice, et continuer ainsi de suite jusqu' ce que (1) vous arriviez dans une autre
pice j sans aucune porte de sortie (compltement colore) et dirente de la pice ini-
tiale ou (2) vous sortez de . Mais l'ventualit (2) implique que i peut tre atteinte de
l'extrieur (absurde). Les pices compltement colores non lies l'extrieur vont donc
par paires.
Il existe une version plus forte de ce lemme. On peut tablir que le nombre de sous-
simplexes compltement colors avec une orientation positive (i.e. la mme que ) est
exactement un de plus que ceux avec une orientation oppose. L'orientation est facile
voir en dimension 2. En suivant dans l'ordre les couleurs 0, 1 puis 2 d'un sous-simplexe,
son orientation sera +1 si on tourne dans le mme sens que celui de et elle sera 1
sinon. La somme des orientations (indices) est gale +1. La preuve est sensiblement
la mme. On montre que deux pices intrieures lies entre elles ont ncessairement des
Corollaire 10.2.
Toute fonction continue f : d'un simplexe dans lui-mme admet un point xe.
, i, j . En faisant tendre vers zro on dduit l'existence d'un point v tel que pour tout
i, f i(v) v i. Puisque v et f (v) sont dans k, f (v) = v .
Lemme 10.3.
Soit K un ensemble homomorphe un simplexe . Si f :KK est continue, alors f
admet un point xe.
Preuve : Soit un simplexe qui contient C dans son intrieur relatif. Puisque C est
x au ferm F (x) est > 0. On dnote par x l'ouvert convexe x = {y C; d(y, F (x)) <
(x)/2}. Ux = {z C; F (z) x} est un ouvert contenant x (car F est s.c.s.) donc
il contient aussi une boule ouverte B(x, s(x)) avec 0 < s(x) < (x)/3. On a donc
B(x, s(x)) x = . Les boules ouvertes B(x, s(x)/2) recouvrent C , soit B(xi, s(xi)/2)
un sous recouvrement ni. Pour r = mini s(xi)/2 et pour tout z C la boule ouverte
B(z, r) est incluse dans une boule B(xi, s(xi)). On extrait du recouvrement de C par les
boules B(z, r) un nouveau recouvrement ni {B(zk, r)} puis on considre une partition de
d(x, B(zk, r)c
l'unit subordonne : fk(x) = P . On a donc une famille nie de fonctions
c
j d(x, B(zj , r)
Thormes de Brouwer et de Ky Fan 51
P
continues fk de C dans [0, 1] avec k fk = 1 et fk = 0 en dehors de B(zk, r). Prenons
P
yk F (zk) et posons f (x) = k fk(x)yk. f induit une fonction continue de Co{yk} dans lui
mme donc a un point xe x par le thorme de Brouwer. Si fk(x) > 0 alors x B(zk, r)
par convexit f (x) xi mais x B(xi, s(xi)) et xi B(xi, s(xi)) = ce qui contredit
f (x) = x.
Il est aussi vident que le thorme de Kakutani implique celui de Brouwer. On peut
montrer (Exercice 5.1) que supposer l'existence d'un quilibre de Nash pour tout jeu ni
deux joueurs permet de prouver le thorme de Kakutani. Ainsi, il semble que toute la
dicult du thorme de Brouwer se rsume dans le cadre des jeux nis deux joueurs. On
dit PPAD-complets (Brouwer, quilibre Walrasien, Nash avec beaucoup de joueurs, etc).
La mme proprit a t montr rcemment pour les jeux nis 2 joueurs (Chen et Deng,
2006). Calculer numriquement un quilibre de Nash pour un jeu ni deux joueurs est
On considre ici la varit des quilibres obtenue en prenant les paiements comme para-
mtres. Les quations d'quilibre forment une famille nie d' ingalits plynomiales en
(g, )
Fk(g, ) 0, kK
o g RN m est le jeu et le prol de stratgies.
Soient G l'ensemble des jeux (on rappelle que le nombre des joueurs et les ensembles de
E = {(g, ); g G, quilibre de g}
que l'on tend par continuit la compactication G de G et que l'on note E.
Lemme 1.2.
= 1 est un homomorphisme de E sur G.
i
Preuve : On pose, partant de g = (g, z), avec z = {z i} et z i IRm :
X
v i = min{u; i
(zsi u)+ = 1}
sS
i
puis s = (zsi
v) i +
= g i(s, i).
i
et enn `s zsi si
Alors (g) = (g; z) = ((g, `), )
(ii) = IdG
(iii) = IdE .
Pour le premier point, vrions que (qui est un prol de stratgies, par construc-
i i i i
tion de v ) est un quilibre dans le jeu = (g, `). Si s > 0, s = zs v et alors
Pour (ii), partant de g = (g, z) nous obtenons, via , le couple ( = (g, `); ) puis par ,
Finalement pour (iii), partant d'un couple (g = (g, h); ) dans E on obtient (g, + V g())
dans G . Soit z = + V g() comme dans la construction prcedente, point (i). Mais
i i i i
puisque est un quilibre dans g (de paiement w ) on obtient : s > 0 g (s, ) = w
i i i i
et s = 0 g (s, ) w . Donc le v associ z est w , la stratgie associe est et
` = h.
Soit g un jeu et N E(g) l'ensemble de ses quilibres qui est compos d'un nombre ni
Proposition 1.3.
i) Gnriquement l'ensemble des quilibres est ni et impair.
sur les composantes) est invariant par homotopie donc gal 1 (par l'homomorphisme) :
ii) Par rcurrence, il sut de montrer que si les quilibres de g sont dans U V , o U et
V sont 2 ouverts dont les adhrences sont disjointes alors il existe un voisinage W de g
0 0
tel que tout g W a des quilibres dans U ou tout g W a des quilibres dans V .
donc un voisinage ( coupes convexes) C de (g) tel que l'intersection avec la diagonale
soit dans U V .
On procde par l'absurde, donc on suppose qu'il existe g1 proche de g dont tous les qui-
libres sont dans U et de mme pour g2 et V . Par ailleurs on peut supposer que (gi) C .
Soit une fonction continue de dans [0, 1], nulle sur U et gale 1 sur V . La corres-
convexes. Son graphe est inclus dans C donc son ensemble de points xes, non vide est
L
1
2
+ 2
T
R
0 1 R
FIG 5.1
56 Chapitre 5. Varit des quilibres et dynamique
Dnition 2.1. Un champ de Nash est une application continue (ou une correspondence
s.c.s) de G dans telle que
N E(g) = { ; (g, ) = }
Proposition 2.2.
Les deux fonctions suivantes sont des champs de Nash :
1. (Nash, 1950)
i(si) + (g i(si, i) g i())+
(g, )i(si) =
1 + ti(g i(ti, i) g i())+
2. (Gul, Pearce and Stacchetti, 1993)
h, V g()i h, V g()i, .
Par ailleurs la projection d'un point x sur un convexe C est l'unique point C (x) C
vriant :
hx C (x), y C (x)i 0, y C.
La premire ingalit, crite sous la forme
h + V g() , i 0,
exprime donc le fait que est la projection de + V g() sur , d'o le point xe de
(g, .).
= (g, )
sur le produit des simplexes et dont les point stationnaires sont N E(g).
Chaque composante de l'ensemble des points xes a un indice et la somme des indices
est 1 qui est la carristique d'Euler du simplexe (Thorme de Poincar-Hopf, voir Milnor
(1965)).
De plus l'indice d'une composante C est indpendante du champ de Nash et est gal au
Equilibre et volution 57
degr sur C de la projection de E sur G (Demichelis and Germano (2000), Govidan and
Wilson (1997)).
0 +1
T
B +1 0
0 1 R
FIG 5.2
3. Equilibre et volution
tness (le taux de reproduction) de i dans une interaction (i, j). (Le paiement du joueur
t
2 est donc B = A.)
La premire approche correspond l'tude d'une population unique et polymorphe de
Si p a un support plein, c'est un quilibre symtrique, mais par ailleurs toute stratgie
pure est stationnaire.
58 Chapitre 5. Varit des quilibres et dynamique
pt = F (pt)
o F est l'application dnie sur (I) par
i i
P P
Cette dynamique prserve le simplexe car iF (p) = pAp ip pAp = 0.
On peut aussi dnir une population stationnaire comme un point stationnaire de la
dynamique du rplicateur.
3.2. RSP.
Considrons le jeu suivant (rock, scissors, paper) :
Proposition 3.3.
L'unique quilibre de Nash est E = (1/3, 1/3, 1/3). C'est un attracteur de la dynamique
d X3 pi (a b)
t
log V (pt) = i
= (a b) 3ptApt = (3kptk2 1)
dt i=1 pt 2
Donc pour a > b, V crot tant que kptk2 1/3, ce qui implique la convergence vers E.
D'autre part E est un rpulseur pour a < b.
Equilibre et volution 59
A A
C B C B
FIG 5.3. : cas a > b; a < b
i et tous si, ti S i, ui S i :
i
pis is
t = pt [(s, pt ) (pt)].
Proposition 3.4.
Pour un jeu de potentiel, est une fonction de Lyapounov pour la dynamique du rplica-
(pit, pi is i is i i
t ) = spt (s, pt ) = spt [(s, pt ) (pt)](s, pt ).
On ajoute
i
0 = spis
t [(s, pt ) (pt)](pt)
pour obtenir :
(xit, xi is i
t ) = sxt [(s, xt ) (xt)]
2
Un exemple important correspond aux jeux de congestion, see e.g. Chapter 18 in Nisan
3.4. ESS.
La notion de stratgie volutionairement stable (Evolutionary Stable Strategy, ESS) de
Maynard Smith (1982) correspond l'tude d'une population homogne assexue qui
Dnition 3.5. p (I) est une ESS si elle est robuste face aux perturbations au sens
o, pour tout q (I), q 6= p, il existe (q) > 0 tel que 0 < (q) implique
pA((1 )p + q) > qA((1 )p + q).
(q) est la barrire associe q.
Cette ingalit se dcompose en :
pAp qAp
donc p est un quilibre symtrique, et si il y a galit
Proposition 3.6.
p est un ESS ssi une des conditions suivantes est satisfaite :
0 > 0.
Maintenant tout r 6= p dans X peut tre crit comme r = tq + (1 t)p avec t > 0 et
en eet chaque stratgie pure fait ausi bien que (1/3, 1/3, 1/3) face (1/3, 1/3, 1/3) et
donne 0 face elle-mme alors que (1/3, 1/3, 1/3) induit (a b)/3 < 0.
Proposition 3.7.
i pi
Q
p est un ESS ssi V (x) = i(x ) est localement une fonction de Lyapounov pour la
dynamique du rplicateur.
X xit X i
vt = pi = p [iAxt xtAxt]
i xit i
Pour une tude des jeux d'volution voir Hammerstein et Selten (1994), Hofbauer et
jeu : qui joue, quand, quels sont ses choix et quelle est son information sur le pass de la
partie.
Son analyse a des applications trs varies : thorie descriptive des ensembles, logique,
La faon la plus simple de visualiser ce modle est de penser un jeu de socit comme
les checs. Il s'agit d'un jeu o les joueurs jouent squentiellement suivant un ordre bien
dni. Au moment o un joueur doit jouer il sait tout ce qui s'est pass. A la n du jeu
les joueurs reoivent un paiement qui dpend de toute la suite des coups.
1.1. Description.
Un jeu sous forme extensive information parfaite G est dcrit l'aide d'un arbre orient
ni sans cycle. Il est dni par :
prdcesseur.
Droulement du jeu :
(4) Le rsultat est l'lment de R atteint par cette procdure, il correspond une
partie.
A tout noeud p est associ une histoire prcdant p (la suite des prdecesseurs itrs)
et un sous-jeu suivant p, not G[p], qui est la famille de ses successeurs successifs. Notons
que G[p] est aussi un jeu sous forme extensive information parfaite, d'origine p.
1
p 2
a b c
x y 3
2 1
Le joueur 1 commence. Il a deux actions : gauche et droite. S'il choisit l'action droite, le
noeud p est atteint o le joueur 2 a le choix entre les actions a, b, c. S'il choisit l'action a
on atteint le noeud terminal x R, etc...
rsultat r dans R.
Ainsi dans le jeu 2 ci-dessous, le joueur 1 a deux stratgies S 1 = {, } et le joueur 2
en a 3 2 = 6 : S 2 = {aA, aB, bA, bB, cA, cB}. La stratgie bA du joueur 2 signie qu'il
choisit l'action b au noeud p et l'action A au noeud q .
1
2 p q 2
a b c A B
x y zu v
FIG. 6.2 : Jeu 2 sous forme extensive information parfaite.
Jeu information parfaite 65
aA aB bA bB cA cB
x x y y z z
u v u v u v
Pour achever la dnition du jeu, il faut associer chaque lment dans R un paiement
i, i F [] Ri.
Dnition 1.2. Un jeu est dtermin si un des joueurs a une stratgie gagnante.
Un jeu en une tape (donc avec un seul joueur) est clairement dtermin : si le joueur
en question possde une option qui lui permet de gagner il la joue, sinon c'est l'autre qui
Les successeurs de l'origine dnissent des sous-jeux de longueur n donc ils sont d-
termins. Si le joueur 1 commence, il lui sut de choisir le sous jeu qui a la plus grande
valeur. Si celle-ci est +1, il gagne, sinon il perd quoi qu'il fasse. Si c'est le joueur 2 qui
commence, il lui sut de choisir le sous jeu avec la plus petite valeur. Si celle-ci est -1, il
Les noeuds prdcesseurs des noeuds terminaux correspondent des jeux en une tape et
sont donc dtermins. On remplace chacun par un noeud terminal ayant cette valeur. Le
nouveau jeu est de longueur strictement infrieure et par rcurrence il est dtermin. Par
ailleurs si un des joueurs est gagnant dans le nouveau jeu, il l'est aussi dans le jeu initial
66 Chapitre 6. Jeux sous forme extensive
Supposons que l'ensemble des rsultats R = {r1 1 r2... 1 rn} soit ordonn selon les
prfrences du joueur 1 (on identie les rsultats o le joueur 1 est indirent). Un jeu
deux joueurs est dit strictement comptitif si le joueur 2 a exactement les prfrences
Si les rsultats sont interprts comme tant les paiements du joueur 1 et si le jeu est
deux joueurs et somme nulle, la dtermination du jeu est quivalente dire que le jeu
Corollaire 1.4.
Tout jeu ni information parfaite deux joueurs et strictement comptitif est dtermin.
Preuve : Posons Rm = {r1, ..., rm} et R0 = . Soit Rk le plus petit ensemble Rm,
m = 1, ..., n que le joueur 1 peut forcer. Puisque le joueur 1 ne peut pas forcer Rk1,
le joueur 2 peut forcer son complmentaire {rk, rk+1..., rm}.
Application : le jeu d'chec est un jeu information parfaite, ni, qui admet seule-
ment trois rsultats possibles. Il est donc dtermin, ce qui implique que soit un des deux
joueurs peut, en jouant de manire optimale, tre certain de gagner, soit les deux peuvent
(en jouant bien) forcer au pire un match nul. Cependant, la complxit de ce jeu est telle
la consquence d'un processus alatoire exogne qui suit une certaine loi de probabilit
P (par exemple la rpartition des cartes entre les joueurs). Il est facile d'tendre notre
modle de base en rajoutant un nouveau joueur : le joueur 0 (qui va jouer le rle du joueur
les noeuds o le joueur hasard va intervenir et avec quelles probabilits les transitions se
1
a b
hasard
x p1
1 2
3
c d 3
2p p3 2
2
A B
y z u v
FIG. 6.3 : Jeu sous forme extensive information parfaite avec le joueur hasard
Dans le jeu ci-dessus, si le joueur 1 choisit l'action b pour son premier coup au noeud
Proposition 1.5.
Tout jeu ni information parfaite deux joueurs somme nulle et hasard admet une
Si le hasard commence, pour chaque choix alatoire possible k (avec probabilit Pk),
l'hypothse de rcurrence implique que le sous jeu a une valeur vk et les joueurs des stra-
k k
P
tgies optimales pures s , t . Le jeu de dpart a donc une valeur v = k pkvk et une
k
k
stratgie optimale s = s pour le joueur 1 et t = t pour le joueur 2.
Si le joueur 1 commence, chaque sous jeu possible k a une valeur vk et des stratgies
k k
optimales pures s , t . La valeur du jeu est maxk vk. Pour assurer v , il sut au joueur
l k
1 de commencer par jouer l avec vl = maxk vk puis de jouer suivant s . De mme, t = t
1
A B
x 2
a b
1
y
z w
FIG. 6.4. : forme normale rduite
a b
A x x
A x x
B y z
B y w
On remarque dans l'exemple prcdent que les stratgies A et A du joueur sont quiva-
lentes dans un sens trs robuste : quelque soit la stratgie du joueur 2, la distribution sur
les parties (et donc les rsultat associs) est la mme pour les deux stratgies. En eet,
ces stratgies ne dirent que sur des positions qui ne peuvent pas tre atteintes tant
donne la spcication par ailleurs de la stratgie. La forme normale rduie du jeu 4 est
donc
a b
A x x
B y z
B y w
Cependant la construction via l'induction amont permet d'avoir un nonc plus prcis.
Dnition 1.6. Un prol de stratgies est un quilibre S -parfait si pour toute position
p, la stratgie [p] induite par dans le sous jeu G[p] dnit un quilibre de Nash dans
ce sous-jeu.
Jeu information parfaite 69
Thorme 1.7.
Tout jeu ni information parfaite avec (ou sans) joueur hasard admet un quilibre S-
parfait en stratgies pures.
1
a b
2
x1
. A B
x3 x2
y3 y2
FIG. 6.5. : Induction amont.
Au noeud qu'il contrle, le joueur 2 choisit A si y3 > y2. Le joueur 1 choisit b six3 > x1
et (b, A) est alors l'unique S -quilibre. Par ailleurs ds que x1 > x2, le couple (a, B) est
un quilibre.
A B
a x1, . x1, .
b x3, y3 x2, y2
Proposition 1.8.
Gnriquement, un jeu ni information parfaite (avec ou sans le joueur hasard) admet
Preuve : Si le jeu ne contient pas de joueur hasard et tous les paiements sont deux deux
hasard ou les paiements des joueurs, aucun joueur ne sera indifrent. L'ensemble des jeux
avec plus d'un rsultat induit par un quilibre sous-jeu parfait a une probabilit nulle si
les paiements sont choisis au hasard (par exemple uniformment dans [0, 1]).
Remarque
La proposition prcdente ne s'applique pas aux quilibres de Nash :
70 Chapitre 6. Jeux sous forme extensive
- Les issues correspondantes sont gnriquement en nombre ni (Kreps et Wilson, 1982)
Dans le jeu suivant il y a deux composantes d'quilibre et deux issues stables par pertur-
a
1
a b
2
1
1
b 1
2
2 0
2 0
FIG. 6.6. : Equilibre gnrique sous forme extensive.
1 ... n ...
1
0 1 n
FIG. 6.7.
Gale et Stewart (1953) ont introduit le jeu suivant. Deux joueurs choisissent alter-
nativement un lment dans {0, 1}. (x1, x2, ...) qui peut
Cela engendre une suite innie
i
P
tre vue comme le dveloppement binaire d'un nombre x dans [0, 1] : x = i xi/2 . Etant
donn un sous-ensemble A [0, 1], le joueur 1 gagne dans le jeu GA si et seulement si le
Preuve : Supposons que A soit ouvert et que le joueur 1 n'ait pas de stratgie gagnante.
Donc pour tout choix x1 du joueur 1, il existe un choix x2 du joueur 2, tel que le joueur
1 n'ait pas de stratgie gagnante dans le sous jeu suivant x1x2. Inductivement ceci dnit
pour chaque x2n+1, un lment x2n+2 tel que le joueur 1 n'a pas de stratgie gagnante dans
le sous jeu suivant x1, ..., x2n+2. Cette procdure produit (partiellement) une stratgie
du joueur 2 qui est gagnante. Sinon, soit gagnant face donc (, ) gnre une partie
h A. A tant ouvert on a dj que le sous jeu prolongeant h2n est dans A, pour un
certain n. Ceci contredit la construction de .
Si A est ferm et que le joueur 2 n'a pas de stratgie gagnante, il existe un coup initial
x1 du joueur 1 tel que le joueur 2 n'a pas de stratgie gagnante dans le sous jeu issu de
x1. Mais par dualit, ce jeu est ouvert pour lui et la preuve prcdente implique que le
joueur 1 y a donc une stratgie gagnante, d'o le rsultat par concatnation.
(1975) qui a montr que pour tout borlien A, le jeu est dtermin.
On remarque que si on crit xA comme une proposition P (x1, x2, ...), l'existence d'une
(Q1) x1, x2, x3, x4, ........P (x1, x2, ...) est vraie
(Q2) x1, x2, x3, x4........P (x1, x2, ...) est fausse.
Dans plusieurs situations relles, un des joueurs ne sait pas au moment o il doit jouer
toute l'histoire passe du jeu. Par exemple, dans le jeu de poker, un joueur ne connat
pas les mains des adversaires. Par ailleurs la description prcdente ne permet pas de
joueur qui y joue. Ils doivent donc avoir le mme nombre de successeurs et des actions
correspondantes qui dnissent une classe d'quivalence sur les successeurs d'une position
1 2
L R a b
2 1
a b a b L R L R
2 3
x y
oui non non oui
x0 y0
La position x0 est dans le temps aprs la position x et de mme y0 aprs y, mais l'ap-
0
partenance au mme ensemble d'information impose que y et x sont atteints la mme
date.
stratgies induit une partie, donc un rsultat, et on a comme dans le cas d'information
Cependant, deux formes extensives ayant la mme forme normale peuvent avoir des
1 1
L R L R
2
2 2
l r l0 r0 ll0 lr0 rl0 rr0 ll0 lr0 rl0 rr0
a b c d a a b b c d c d
2
l r
1
L R L R
2
l0 r0 l0 r0 l0 r0 l0 r0
a a c d b b c d
FIG. 6.10. : Direntes resprsentation sous forme extensive
inadquate.
2.3. Stratgies.
L'existence d'ensembles d'information ne permet pas un joueur d'associer une position
p l'histoire qui y conduit ou le sous jeu qui en est issu. En particulier les dmonstrations
obtenues via induction amont ou aval ne s'appliquent plus. Par ailleurs il est clair qu'il
n'y a plus existence de stratgies pures optimales. On est donc amen considrer des
L'ensemble des stratgies mixtes pour le joueur i est i = (S i) : une stratgie mixte est
On pourrait imaginer une autre faon de probabiliser entre les actions plus en accord
avec l'aspect squentiel. Le joueur i choisit au hasard, chaque fois qu'il se trouve un
k
ensemble d'information Pi , parmi les actions disponibles ce moment.
Une stratgie de comportement est donc une application qui associe chaque ensemble
d'information Pik une probabilit sur les actions qui y sont possibles (la classe d'quiva-
les rsultats x et z . Utiliser des stratgies mixtes permet d'obtenir toutes les distribu-
tions sur (x, z). Une stratgie de comportement est dnie par la probabilit t de choisir
a dans l'ensemble d'information. Elle induit la distribution (t, t(1 t), (1 t)2) sur les
noeuds terminaux (x, y, z) ; en particulier (1/2, 1/4, 1/4) qu'une stratgie mixte ne peut
pas atteindre.
a x
b
a y
b
z
FIG. 6.11. : Comportementale non mixte
tgies pures : Ll, Lr, Rl, Rr. L'utilisation de stratgies mixtes permet d'obtenir toutes les
distributions sur les issues (x, y, z, w). Une stratgie de comportement est dnie par les 2
probabilits s = P (L) et t = P (l). Elle induit une distribution sur les issues qui satisfait
1
L R
1
l r l r
x yz w
FIG. 6.12. : Mixte non comportementale
l'autre.
A 0 0
a B 1
c b
1
a A
1 1
B
b 2 1
c 0 0
1
0
FIG. 6.13. : Le jeu d'Isbell
stratgies de comportement.
Dnition 2.1. Un jeu sous forme extensive est linaire pour le joueur i s'il n'existe
aucune partie qui traverse plus d'une fois un ensemble d'information du joueur i.
o le produit est pris sur la famille Ki des ensembles d'information du joueur i. On xe le
i
comportement (pur) de i et s induit une partie qui travers les ensembles d'information
La notion de mmoire parfaite signie qu'un joueur ne perd pas d'information durant
ii) le joueur ne perd pas d'information sur ce qu'il a su sur les autres ou la nature.
Dnition 2.3. Le jeu est mmoire parfaite pour le joueur i si et seulement si pour
k 0
tout couple (x, y) dans un mme ensemble d'information Pi , si x est un prdcesseur de
0
x appartenant un ensemble d'information Pik alors :
0 0 k0
- il existe y un prdcesseur de y tel que y Pi .
0
- l'action qui mne de x x est dans la mme classe d'quivalence que celle qui mne de
0
y y.
Il est facile de vrier que la mmoire parfaite implique la linarit mais le jeu 6.12
On dnit alors
m(Pi; c)
i(Pi; c) = .
m(Pi)
t un noeud
Soit terminal et t la partie correspondante. La probabilit de t sous i est
h
m(Qi) o Qi est l'ensemble d'information contenant t. Soit Qi la famille des ensembles
Corollaire 2.5.
Tout jeu ni, sous forme extensive et mmoire parfaite pour tous les joueurs, est stra-
tgiquement inchang si les joueurs sont restreints utiliser seulement leurs stratgies de
Slection d'quilibre 77
tement.
Remarque
L'espace des stratgies de comportement a en gnral une dimension beaucoup plus petite
que celui des stratgies mixtes : Si le joueur i possde n ensembles d'information avec dans
n
chacun d'eux deux actions, il a 2 stratgies pures. La dimension de l'espace des stratgies
n
mixtes est 2 1 et celle de l'espace des stratgies de comportement est seulement n.
3. Slection d'quilibre
prol de stratgies en tout noeud de l'arbre. Pour cela il faut pouvoir mettre une proba-
bilit appel croyance, sur les dirents noeuds p dans un ensemble d'information Q an
Si Q est irrigu par (au sens o atteint un noeud dans Q avec probabilit posi-
tive) la croyance peut tre dnie par la probabilit conditionnelle. Sinon on introduit un
systme de croyances . est une application qui associe chaque ensemble d'information
Q, une probabilit sur les lments de Q.
prcd par un choix de la nature d'un noeud dans Q selon la distribution (Q).
- est compatible avec dans le sens o pour tout Q irrigu par , la probabilit condi-
i i
Q
Soit l'ensemble des stratgies du joueur i et = i . Une stratgie est com-
pltement mixte si toutes les parties ont une probabilit strictement positive ( chaque
ensemble d'information, chaque joueur joue chaque action avec une probabilit stricte-
ment positive). Sur cet ensemble, not int, on n'a pas besoin de systme de croyances
car chaque ensemble d'information est atteint avec probabilit positive. Soit la cor-
ensembles d'information compatible avec . Cette application est univoque sur int. Le
(int) 6= ()
78 Chapitre 6. Jeux sous forme extensive
l
T r
a
1
B l b
2 3
r c
FIG. 6.14. : Adhrence des croyances
vers (1/2, 1/2, 0). Mais tout prol de stratgies qui irrigue a et b, irrigue ausi c.
La notion suivante demande des conditions aux limites sur les stratgies et les
croyances.
Dnition 3.2. Le prol est un quilibre squentiel si il existe n dans int convergeant
vers tel que les croyances associes n convergent vers et (, ) est un S-quilibre.
Remarques
L'exemple suivant montre qu'il n'y a pas de lien entre induction amont et optimalit pa-
rtienne. Le seul quilibre S -parfait est[(L, `); T ] et induit le paiement (1, 1) alors que
1
L R
2
1
1 T B
3 2
2
l r
0 1
3 1
FIG. 6.15. : S -parfait et Pareto
L'exemple suivant est le fameux centipde de Rosenthal (1982). Par induction amont
le seul quilibre parfait conduit le joueur 1 stopper le jeu immdiatement d'o le rsultat
Slection d'quilibre 79
(2, 1). Le paradoxe est que si l'intraction dure plus de n/2 tapes chaque joueur est sr
d'avoir au moins n.
Par ailleurs l'argument qui force 2 stopper si 1 continue repose sur un comportement
1 2 1 2 1 2 2n + 2
2n + 1
2 1 4 3 2n 2n 1
1 4 3 6 2n 1 2n + 2
FIG. 6.16. : Jeu du centipde
Dans cette optique, considrons l'approche suivante de slection d'quilibre dans un jeu
2) les joueurs font des erreurs mais les stratgies sous-optimales sont joues avec des
Dnition 3.5. Un quilibre est parfait s'il est limite d'une suite n d'quilibres n-
parfait avec n qui tend vers 0.
Pour tout int et tout > 0 on dnit le jeu perturb G( ; ) issu de G comme le jeu
sur de paiement 7 g((1 ) + ). Il admet un quilibre, qui est -parfait dans le
Cette notion limine les quilibres domins (i.e. qui contiennent dans leur support une
stratgie faiblement domine). En eet, une telle stratgie est sous-optimale dans tout
80 Chapitre 6. Jeux sous forme extensive
quilibre -parfait et est donc joue avec une probabilit qui tend vers zro quand tend
vers zro.
Dans le jeu 6.6 sous forme normale, seul l'quilibre S -parfait est parfait.
Proposition 3.7.
Dans un jeu deux joueurs les quilibres parfaits sont les quilibres non-domins. L'in-
Dnition 3.8. Un prol -propre d'un jeu sous forme normale G s'il
est un quilibre
i i i
est compltement mixte et si, pour tout joueur i et toutes stratgies pures s et t dans S ,
Les joueurs font des erreurs d'une faon rationnelle dans le sens o une stratgie si est
joue avec une probabilit beaucoup plus petite qu'une meilleure stratgie ti.
Dnition 3.9. Un prol est un quilibre propre s'il est limite de n-quilibres propres.
Clairement, tout quilibre propre est parfait et donc est non domin.
g m d
H (1, 1) (0, 0) (1, 2)
M (0, 0) (0, 0) (0, 2)
B (2, 1) (2, 0) (2, 2)
De mme m est l'unique meilleure rponse B . Donc l'quilibre (M, m) est non domin
Cependant cet quilibre n'est pas propre. En eet, B et d sont deux stratgies stricte-
(M, m), la stratgie H (resp. g ) sera inniment plus probable que la stratgie B (resp. d).
2 2
Mais, face une stratgie de la forme g + (1 )m + d, l'unique meilleure rponse
On remarque que sans les stratgies strictement domines B et d, l'unique quilibre parfait
Slection d'quilibre 81
est (H, g). Ajouter des stratgies strictement domines modie l'ensemble des quilibres
parfaits.
g d
H (2, 1) (2, 1)
M (3, 1) (0, 0)
B (0, 0) (1, 3)
en liminant B (strictement domine), l'unique quilibre parfait qui subsiste est (M, g).
Dnition 3.11. L' agent normal form associe un jeu sous forme extensive est le
jeu sous forme normale o chaque ensemble d'information Q correspond un joueur i(Q)
dont les paiement sont ceux du joueur qui joue Q.
Clairement chaque joueur joue au plus une fois dans chaque partie.
Preuve : Partant de l'agent normal form, considrons le jeu perturb o chaque joueur
est restreint jouer chacune de ses stratgies avec une probabilit au moins gale . Ce
jeu contraint est un jeu qui satisfait aux hypothses du thorme de Gliscksberg et admet
donc un quilibre de Nash (indx par ). Cet quilibre induit un O()-quilibre dans
le jeu non contraint o chaque ensemble d'information, le joueur qui joue maximise son
gain O()-prs tant donn sa croyance induite par . En prenant une sous suite
Dnition 3.13. Un quilibre parfait d'un jeu sous forme extensive est un quilibre par-
fait de l'agent normal form
Dans le jeu suivant (R`; a) est clairement ANF parfait mais non parfait.
82 Chapitre 6. Jeux sous forme extensive
1
L R
1 2
l r a b
1 0 1 0
FIG. 6.17. : parfait ANF et non NF
Dans le jeu suivant Tt est parfait sous forme normale mais pas ANF.
T 1 t 1
1 b 0
B 1
FIG. 6.18. : parfait NF et non ANF
Cependant le rsultat suivant tablit un lien important entre les deux formes.
Preuve : est une limite d'une suite d'n-quilibres propres n. Soit yn une stratgie de
probabilit positive sous yn. Soit y la limite de yn et pour chaque n, soit n le systme de
y joue une meilleure rponse face (y, (Q). Sinon il existe une action bi strictement
i i
meilleure qu'une action a joue avec probabilit positive par y Q. Cela devrait donc
tre aussi le cas face yn pour n grand. Ceci contredirait le fait que xn est n-propre car
le poids de toute stratgie pure induisant ai en Q est au plus n celui de la stratgie pure
i
identique sauf en Q o elle dicte b. .
garde vers le futur et son comportement est indpendant des choix eectues dans le pass.
Chaque joueur anticipe, pour chacune de ses positions aujourd'hui, les consquences d'un
Slection d'quilibre 83
comportement rationnel des autres joueurs et de lui mme dans la suite du jeu. Puis il
utilise ses anticipations pour faire un meilleur choix aujourd'hui. Son raisonnement est
La notion d'induction aval, introduite par Kohlberg et Mertens (1986), consiste in-
terprter les actions passes an de slectionner parmi les dirents quilibres futurs. Ceci
2
1
3, 1 0, 0
1
0, 0 1, 3
(2, 4)
FIG. 6.19.
A la premire tape le joueur 1 a le choix entre arrter (et obtenir 2) ou continuer et alors
les 2 joueurs jouent un jeu simultan du type bataille des sexes. La forme normale est
la suivante :
L R
S (2, 4) (2, 4)
T (3, 1) (0, 0)
B (0, 0) (1, 3)
(S, R) est un quilibre propre mais B est domine.
Si le joueur 1 ne joue pas S le joueur 2 devrait en dduire qu'il vise un paiement plus
grand que 2 ; mais alors le seul quilibre dans le sous jeu compatible avec cette exigence
Cependant il peut y avoir conit entre des approches intuitives de type backward et
2
1
2 1 3, 1 0, 0
0, 0 1, 3
(0, 2) (2, 4)
FIG. 6.20.
84 Chapitre 6. Jeux sous forme extensive
L'analyse prcdente du sous jeu conduit l'issue (3,1) donc le joueur 2 devrait stopper
son intrt pour le seul quilibre (B, R) du jeu simultan. Face cela le joueur joue S et
modulo le fait que l'on veut qu'elle le soit pour tout jeu ayant la mme forme normale
L R
T (2, 2) (2, 2)
B (1, 1) (0, 0)
(T, R) est domin mais correspond un quilibre strict pour un jeu dans un voisinage.
L R Z
T (2, 2) (2, 2) (0, 0)
B (1, 1) (0, 0) (0, 0)
Mertens (1989, 1991) montre alors qu'en imposant de plus des proprits la projection
de la varit des quilibres sur la base, on peut identier une composante stable qui
est non vide, connexe, invariante, admissible, satisfait induction amont et aval ainsi que
Sur ce sujet voir aussi les surveys de Hillas et Kohlberg (2002) et de van Damme (2002).
CHAPITRE 7
Ce chapitre est consacr l'quilibre corrl, qui est une extension de l'quilibre de
dynamiques.
1.1. Exemples.
Considrons la classique bataille des sexes :
3, 1 0, 0
0, 0 1, 3
Il y a 2 quilibres purs ecients et disymtriques et un quilibre mixte symtrique et
Pareto domin. L'utilisation d'une pice publique permet d'obtenir un quilibre symm-
trique et ecient : si pile l'issue est (3, 1) et (1, 3) si face. Il est clair que face un tel
contrat aucune dviation n'est protable. Ce contrat peut tre reprsent par la distribu-
1/2 0
0 1/2
Considrons maintenant le jeu de paiements :
g d
H 2, 7 6, 6
B 0, 0 7, 2
Soit un espace de signaux :(B, G, N ), muni de la probabilit uniforme (1/3, 1/3, 1/3). On
suppose que les joueurs reoivent des messages privs et que 1 connait a = {B, G} ou
H si a, B si b pour le joueur 1 ;
g si , d si pour le joueur 2.
Elles induisent sur l'espace d'actions S la matrice de corrlation :
1/3 1/3
0 1/3
85
86 Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens
Dnition 1.2. Le jeu G tendu par I, not [G, I] est le jeu sous forme extensive jou
en 2 tapes :
tape 0 : la variable alatoire est tire suivant la loi P et le signal i() est envoy au
joueur i.
Une stratgie i du joueur i dans le jeu [G, I] est une application (mesurable) de Ai
dans Si (ou une application Ai-mesurable de dans S i). Ai et S i sont donc munis de
tribu (dans le cas ni, la tribu discrte).
Dnition 1.3. Un quilibre corrl de G est un quilibre de Nash d'un jeu tendu [G, I].
Ai
i
i() Si
Q()
j () j
Sj
P
Aj
i
(i())
Q
Explicitement pour tout , Q(, ) est la probabilit produit sur S gale i
et Q() est l'esprance par rapport la probabilit sous-jacente P .
Equilibre corrl 87
Dnition 1.4. DEC(G) est l'ensemble des distributions d'quilibres corrls dans G :
sa composante.
Un quilbre corrl canonique est un quilibre de G tendu par une structure d'information
canonique et o les stratgies d'quilibre sont donnes par
DECC(G) = DEC(G)
Preuve : Soit un prol d'quilibre dans une extension [G, I] et Q = Q() la distribution
induite.
Alors Q est aussi une DECC(G). En eet on donne chaque joueur i moins d'informa-
i i i i i i
tion : son coup s au lieu du signal a tel que (a ) = s . Or s est une meilleure rponse
i
la stratgie (correle) de i conditionnelle a . Il sut alors d'utiliser la convexit de
1.5. Caractrisation.
Thorme 1.7.
Q DEC(G) s'crit :
X
si, ti S i, i = 1, ..., n [g i(si, si) g i(ti, si)]Q(si, si) 0.
siS i
si BRi(Q(.|si).
88 Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens
si est une meilleure rponse du joueur i la distribution conditionnelle si des coups des
autres joueurs.
L'approche en termes d'quilibre de Nash du jeu tendu est une approche ex-ante.
Corollaire 1.8.
L'ensemble des distributions d'quilibres corrls est l'enveloppe convexe d'un nombre ni
de points.
Preuve : Il est dni dans (S) par une famille nie d'ingalits linaires larges.
1.6. Commentaires.
On peut donner une dmonstration lmentaire d'existence d'quilibre corrl via le tho-
Il existe des distributions d'quilibres corrls en dehors de l'enveloppe convexe des dis-
0, 0 5, 4 4, 5
4, 5 0, 0 5, 4
5, 4 4, 5 0, 0
Le seul quilibre est symtrique et induit par la stratgie (1/3, 1/3, 1/3) avec paiement 3.
0 1/6 1/6
1/6 0 1/6
1/6 1/6 0
induisant le paiement 9/2.
Le joueur 1 choisit entre arrter, et le paiement est (2, 2) ou continuer et le jeu est alors
le suivant :
5, 1 0, 0
0, 0 1, 5
(3, 3) est un paiement d' quilibre si le signal public (1/2, 1/2) sur (a, b) (avec la conven-
tion (5, 1) aprs a et (1, 5) aprs b) est tir aprs le choix initial du joueur 1, mais pas si
Pour l'tude des quilibres avec des mcanismes plus gnraux voir Forges (1986, 1990).
Procdures de non regret 89
Soit {Un} une suite de vecteurs dans U = [0, 1]K . A chaque tape n, un joueur ayant
observ les ralisations prcdentes {U1, ..., Un1} et ses choix passs, choisit une compo-
k
sante kn dans K . Le rsultat correspondant est n = Un n.
donn le pass hn1 = {k1, U1, ..., kn1, Un1}, note (hn1) (K).
k`
Le regret l'tape n est donn par la matrice Sn = {Sn }k,`K dnie par :
U ` U k si k = k ,
n n n
Snk` =
0 sinon.
k` 1 Xn ` k
Sn = (Um Um ).
n m=1,km =k
Dnition 2.1. Une stratgie dnit une procdure de non regret si pour tout processus
(Cela suit facilement de l'existence d'une mesure invariante pour une matrice stochas-
tique.)
Proposition 2.2.
SoitS(., U ) la matrice de regret associe un vecteur U. Pour toute matrice A (de taille
Preuve :
X
hA, E(S(., U ))i = Ak`k(U ` U k)
k,`
et le coecient de chaque U ` est
X X
kAk` ` A`k = 0.
kK kK
90 Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens
On rappelle le thorme de Blackwell (1956), voir Exercice 3.3., appliqu ici dans le
n
cadre de l'ensemble convexe C = IR :
Thorme 2.3.
n
Soit xn une suite de variables alatoires dans IR tel que
On en dduit :
Proposition 2.4.
Il existe des procdures de non regret.
K2
Preuve : Considrons le processus des regrets gnr par dans IR
1
Sn+1 Sn = [Sn+1 Sn]
n+1
avec (hn) = (Sn+).
La condition susante d'approchabilit de l'orthant ngatif D s'crit :
Considrons un jeu G, jou de manire rpte o chaque tape les actions choisies
sont rvles. Chaque joueur i fait face l'tape n un paiement vectoriel (inconnu)
Vg i
(si
n )
i
= {g (s i
, si
n )siS i} dtermin par le comportement des autres joueurs.
Proposition 2.5.
Si chaque joueur i suit une procdure de non regret associe son paiement vectoriel,
Un(i) = {g i(si, si
n )siS i} la distance de la distribution empirique des coups DEC(G)
converge vers 0.
1
Q(s) = lim ( #{1 m nk; sm = s}),
nk nk
Jeux information incomplte (ou baysiens") 91
Il n'existe pas de telles proprits pour l'quilibre de Nash. Pour un survey rcent sur ce
On appelle parfois espaces des types, l'ensemble (ni) des signaux Ai (chaque joueur
Une stratgie i du joueur i est une application de Ai dans (S i). Le paiement corres-
On note Q la probabilit induite sur A = iAi et g(., a) l' esprance de g(., ) sur 1(a),
l'ensemble des alas se traduisant par le prol de signaux a. Alors le paiement s'crit
encore
X
() = g({ i(ai)}; a)Q(a)
a
soit pour le joueur i X
i() = Qi(ai)B i(ai)
ai
avec
X
B i(ai) = g i( i(ai), { j (aj )}j6=i; a)Q(ai|ai).
ai
Donc si est un prol d'quilibre, pour chaque joueur i et pour chaque signal ai, i(ai)
maximise le gain baysien face i :
X
g i(., { j (aj )}j6=i; (ai, ai)Q(ai|ai).
ai
3.2. Complments.
Une stratgie pure (resp. de comportement) du joueur i envoie Ai dans Si (resp. (S i)).
92 Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens
Une stratgie mixte est une distribution sur les stratgies pures ou bien une application
de Ai [0, 1] dans Si
[0, 1] est muni d'une distribution uniforme.
o
i i i
Une stratgie de distribution est un lment de (A S ) qui respecte les donnes : la
i i
marginale sur A est gale Q (Milgrom and Weber, 1985).
i i
La probabilit conditionnelle (.|a ) correspond une stratgie de comportement.
actions sont modlises l'aide d'une variable d'tat, voluant selon un processus contrl
par les joueurs. Concrtement, le jeu se droule par tapes, et chaque joueur commence
par recevoir un signal priv sur l'tat initial. Puis chaque tape, les joueurs choisissent
simultanment une action. Les actions choisies ainsi que l'tat courant dterminent : 1) les
paiements d'tape, et 2) une probabilit de transition sur le nouvel tat et les nouveaux
C'est un modle trs gnral, et lorsqu'un joueur choisit son action une certaine
joueur peut inuencer son propre paiement, 2) il peut inuencer le processus des tats
(cet aspect est essentiel dans la classe des jeux stochastiques), 3) il peut rvler ou ap-
prendre des informations sur l'tat courant (cet aspect est essentiel dans la classe des
jeux rpts information incomplte), et enn 4) il peut inuencer les connaissances des
joueurs sur le prol d'actions jou cet tape (cet aspect est essentiel dans la classe des
A l'exception de la dernire section, on se restreint ici au cas le plus simple, celui des
ment, on rpte le mme jeu de base connu de tous les joueurs, et aprs chaque tape les
ces rsultats caractrisent l'ensemble des paiements d'quilibres du jeu rpt en fonction
des donnes du jeu de base. Indiquons qu'une partie de ce chapitre repose sur le survey
1. Exemples lmentaires
On considre un jeu rpt un nombre ni T de fois, les paiements des joueurs tant
donns par la moyenne arithmtique des paiements des direntes tapes. Repoussons
93
94 Chapitre 8. Introduction aux jeux rpts
G D !
H (1, 0) (0, 0)
B (0, 0) (0, 1)
(1, 0) et (0, 1) sont des paiements d'quilibre de Nash du jeu de base. On peut alors faci-
lement construire un quilibre du jeu en deux tapes de paiement moyen (1/2, 1/2) : les
C2 D2 L2
C1 (3, 3) (0, 4) (10, 10)
D1 (4, 0) (1, 1) (10, 10)
L1 (10, 10) (10, 10) (10, 10)
L'ensemble des paiements d'quilibres du jeu de base est : E1 = {(1, 1), (10, 10)}. On
peut construire un quilibre de Nash du jeu en deux tapes de paiement (2, 2) de la faon
suivante.
(2, 2) E2.
l'on a bien dni un quilibre du jeu rpt, et donc on a :
T 1
Dans la mme veine, on peut montrer que pour tout T 1, on a :
T
(3, 3)+ T1 (1, 1)
ET . Ainsi la rptition peut-elle permettre la coopration.
C2 D2 !
C1 (3, 3) (0, 4)
D1 (4, 0) (1, 1)
On peut montrer par rcurrence que l'on a ET = {(1, 1)} pour tout T. Il n'y a pas de
coopration possible dans le dilemme du prisonnier rpt un nombre ni de fois, Sorin
(1986a).
Le modle 95
2. Le modle
On xe un jeu sous forme stratgique ni G = (N, (S i)iN , (g i)iN ), appel jeu de
i
base. N est l'ensemble des joueurs. Pour chaque joueur i de N , S est l'ensemble d'actions
i j
Q
du joueur i et g est une application du produit cartsien jN S dans IR donnant le
paiement du joueur i. On s'intresse la rptition en temps discret, un grand nombre ou
une innit de fois, du jeu de base. Cette dure est connue des joueurs. A chaque tape les
leur ensemble d'actions, puis ces actions sont observes publiquement avant de passer
parties du jeu rpt, i.e. des suites (s1, ..., st, ...) d'lments de S .
2.2. Stratgies.
Dnition 2.1. Une stratgie (de comportement) du joueur i est une application i de
i
H dans (S ).
L'interprtation est la suivante : pour tout h dans Ht, i(h) dsigne la loi sur S i qu'uti-
lise le joueur i pour choisir son action en date t + 1 si l'histoire h a t joue aux dates
1,..., t.
i i
Q
On note l'ensemble des stratgies du joueur i et = iN l'ensemble des prols de
stratgies.
Un prol induit alors naturellement par rcurrence une probabilit sur l'ensemble (d-
nombrable) des histoires H, les tirages alatoires eectus par les joueurs chaque tape
tant indpendants. Cette probabilit s'tend de faon unique, par le thorme de Kol-
mogorov, l'ensemble des parties H (qui est muni de la tribu produit sur S ).
2.3. Paiements.
Passons maintenant l'valuation des paiements dans le jeu rpt, st dsignant la variable
alatoire du prol d'actions jou en date t.
96 Chapitre 8. Introduction aux jeux rpts
Plusieurs variantes de jeu rpt sont classiquement tudies : les jeux rpts un
nombre ni de fois, les jeux escompts, et les jeux uniformes (on dit aussi jeux non es-
compts).
Dnition 2.2. Le paiement moyen d'un joueur i jusqu' une tape T 1 si le prol de
Pour T 1, le jeu rpt T fois est le jeu GT = (N, (i)iN , (Ti )iN ).
Jeux escompts G.
Dnition 2.3. Pour dans (0, 1], le jeu escompt au taux est G =
i
(N, ( )iN , (i )iN ), o pour tout prol de stratgies
:
X
i () = E (1 )t1g i(st) .
t=1
Jeux uniformes G.
On s'intresse ici directement aux aspects stratgiques de long terme. L'approche uniforme
1) > 0, est un -quilibre de Nash de tout jeu niment rpt assez long, i.e. :
T0, T T0, i N , i i, Ti ( i, i) Ti () + , et
i N
2) ((T ())iN )T converge vers un vecteur () de IR , qui s'appelle alors un paiement
d'quilibre (uniforme) de G.
Dnition 3.1. L'ensemble des paiements ralisables du jeu est conv g(S) = g((S)).
Les paiements ralisables et individuellement rationnels 97
C'est un polytope qui reprsente l'ensemble des paiements que l'on peut obtenir dans le
Attention : s'il y a au moins 3 joueurs on peut avoir min max 6= max min (voir Exercice
2.2).
IR = {u = (ui)iN , ui v i i N }.
L'ensemble des paiements ralisables et individuellement rationnels est
Etant donn un prol de stratgies i des joueurs autres que i, il est facile de
construire, en utilisant le fait que les actions sont observes aprs chaque tape, une
C2 D2 !
C1 (3, 3) (0, 4)
D1 (4, 0) (1, 1)
On a v 1 = v 2 = 1, et l'ensemble des paiements ralisables et individuellement rationnels
J2
4
E
1
0 J1
1 4
98 Chapitre 8. Introduction aux jeux rpts
Les Folk thormes s'intressent aux jeux rpts jous par des joueurs trs patients, et
donc aux jeux niment rpts ayant un grand nombre d'tapes, aux jeux escompts avec
un taux d'escompte proche de 0, et aux jeux uniformes. Ils noncent essentiellement ceci :
l'ensemble des paiements d'quilibres du jeu rpt est l'ensemble des paiements ralisables
(i.e. que l'on peut obtenir en jouant) et individuellement rationnels (i.e. tels que chaque
joueur a au moins son paiement de punition). Les versions les plus claires concernent les
jeux uniformes.
et individuellement rationnels : E = E.
de ce rsultat lmentaire. Citons R.J. Aumann en 1981 : The Folk theorem has been
generally known in the profession for at least 15 or 20 years, but has not been published ;
its authorship is obscure. Il est appel aussi le thorme du tout est possible : n'importe
Preuve : Il faut montrer que E E. Soit u E . u est ralisable, donc il existe une
1
PT i i
partie h = (s1, ..., st, ...) telle que pour tout joueur i,
T t=1 g (st) T u .
On appelle h le plan principal de la stratgie, et jouer selon h pour un joueur i en
date t signie jouer la i-me composante de st. Pour chaque couple de joueurs distincts
(i, j), xons xi,j dans (S j ) tel que (xi,j )j6=i ralise le min dans l'expression de v i. Fixons
i
maintenant un joueur i dans N , et dnissons une stratgie .
i joue en date 1 selon le plan principal, et continue de jouer selon h tant que tous les
autres joueurs le font. Si une certaine date t 1, pour la premire fois un joueur j ne
i
joue pas selon le plan principal, alors joue toutes les dates ultrieures la probabilit
xj,i (si pour la premire fois la mme date plusieurs joueurs sortent du plan principal, on
punit celui de ces joueurs qui est le plus petit, selon un ordre total sur N pralablement
i
x). Il est facile de voir que = ( )iN est un quilibre de G de paiement u.
Certains des quilibres construits via le Folk thorme peuvent tre critiqus car rien
n'assure qu'un joueur i aura intrt, le cas chant, punir un joueur j qui vient de quit-
ter le plan principal pour la premire fois. On peut alors s'intresser la notion suivante
En 1976, Aumann et Shapley, ainsi que Rubinstein, ont dmontr, avec de lgres di-
rences de formulation (voir les ditions de 1994), que ce ranement d'quilibre ne chan-
Thorme 4.2. Folk thorme parfait [Aumann et Shapley (1994), Rubinstein (1994)]
0
E = E = E.
Preuve : La preuve se rsume l aussi construire un ESJP partir d'un paiement ra-
modier la phase de punition. Si une certaine date t, les joueurs jouaient selon le plan
principal et le joueur j en sort, les joueurs j se mettent punir le joueur j jusqu' une
certaine date t, puis quoiqu'il arrive tout le monde oublie tout et revient, comme l'tape
nombre t de manire ce que le paiement moyen espr du joueur j jusqu' la date t, soit
j
infrieur v + 1/t. Une autre possibilit est de prendre simplement t = 2t.
et donc ne choisit rien ici ! Ce jeu est essentiellement un jeu somme nulle entre les
ment chaque tape, ses deux actions avec probabilit 1/2. Donc E = {(1/2, 1/2, 1/4)},
100 Chapitre 8. Introduction aux jeux rpts
alors que (1/2, 1/2, 1/2) E , et on n'a pas en gnral la convergence de E vers E. On a
On peut aussi dnir les quilibres sous-jeux parfaits de G comme des stratgies en
quilibre de Nash dans tout sous-jeu de G. Notons E0 l'ensemble (compact) des paiements
de tels quilibres.
On ne dmontre pas ici ces deux derniers thormes. Indiquons juste que les preuves uti-
lisent des punitions strictes, et dans le cas sous-jeux parfait on utilise aussi des phases
de rcompense pour, le cas chant, inciter les joueurs punir. Un exemple o on n'a pas
chaque tape quoiqu'il se soit pass auparavant, et donc E0 = {(1, 1)} pour tout .
un cot de production marginal constant c > 0. Chacune des entreprises doit choisir son
(ou en cas d'galit, parts gales aux entreprises les moins chres). On note D(p) le
demande toujours satisfaite. Chaque entreprise cherche maximiser son prot, qui vaut
(p) = D(p)(p c) si l'entreprise propose seule le plus bas prix p, et qui vaut zro si
ts tant nuls. An de tenir compte des possibilits dynamiques d'ajustement des prix,
o tout le monde joue p jusqu'au cas ventuel o quelqu'un dvie, et alors partir de ce
moment chacun joue le prix c. Le paiement d'une entreprise si tout le monde joue selon ce
prol est (p)/n, et une entreprise qui dvie de cette stratgie en jouant p une certaine
date, aura au plus partir de l : (p) + (1 )0 = (p). Donc si les joueurs sont
Extensions : exemples 101
susamment patients au sens o 1/n, on aura un ESJP o le prix observ est le prix
de collusion (ou de monopole) p.
prisonnier, on montre par rcurrence que pour tout T , ET se rduit {(1, 1)}. Donc le
bon paiement (3, 3) ne peut tre approch par des quilibres du jeu niment rpt, et
Nash dans tout sous-jeu : t {0, ..., T 1}, h Ht, [h] est un quilibre de Nash du
0
jeu restant, i.e. de GT t. On note ET l'ensemble (compact) des paiements d'ESJP de GT .
Citons deux derniers Folk thormes, dont les preuves utilisent l encore judicieusement
sens de Hausdor.
Thorme 4.6. Folk thorme parfait niment rpt (Benot et Krishna 1985,
Gossner 1995)
Supposons que pour chaque joueur i, il existe x et y dans E1 tel que xi > y i et que E est
0
d'intrieur non vide. Alors ET E.
T
5. Extensions : exemples
complte et observation parfaite, en prsentant quelques ides sur des exemples et sans
d'actions venant d'tre jou, mais reoivent des signaux dpendant de ce prol.
Considrons un exemple o avec deux joueurs o les ensembles de signaux sont donns
par U 1 = {u, v, w} et U 2 = {}. Aprs chaque tape, le joueur 1 reoit donc un signal
dans {u, v, w}, alors que le joueur 2 reoit le signal . Celui-ci peut donc tre considr
comme un joueur aveugle, qui se rappelle juste des actions qu'il a lui-mme joues. Les
paiements des joueurs dans le jeu de base et les signaux du joueur 1 sont donns par :
102 Chapitre 8. Introduction aux jeux rpts
G D !
H (0, 0), u (4/5, 1), v
B (1/5, 0), w (1, 0), w
(4/5, 1) est un paiement ralisable et IR. Cependant, on peut montrer qu' l'quilibre les
joueurs ne peuvent jouer un nombre signicatif de fois la case (H, D) : si c'tait le cas, le
joueur 1 pourrait dvier de faon protable en jouant B sans jamais craindre de punition
de son adversaire.
Formellement, on prouve ici que E = conv {(1/5, 0), (1, 0)}, et donc E est strictement
On ne sait pas en gnral caractriser E dans les jeux rpts avec signaux, mme
pour deux joueurs. Parmi les nombreux articles sur le sujet, citons notamment Lehrer
(1989, 1992), ainsi que Renault et Tomala (1998, 2004) et Gossner et Tomala (2007).
donc plusieurs tats. A chaque tape on joue celui des jeux de base qui correspond l'tat
courant : les actions joues dterminent alors les paiements mais aussi la probabilit de
L'exemple suivant est un jeu deux joueurs et somme nulle appel Big Match" et du
G D!
H 1 0
B 0 1
Les joueurs commencent l'tape 1 par jouer la matrice ci-dessus. Ils continuent ainsi
tant que le joueur 1 joue B (et le joueur 1 observe aprs chaque tape l'action joue par
le joueur 2). Par contre, si un jour le joueur 1 joue H alors le jeu s'arrte, et de deux
choses l'une : soit le joueur 2 a jou G ce jour-l, et alors le joueur 1 reoit le paiement 1
Ces deux derniers tats sont absorbants, c'est--dire que l'on y reste pour toujours partir
du moment o on y est entr (ils sont reprsents par des dans la matrice de dpart.)
Le joueur 2 peut jouer chaque tape l'action mixte 1/2 G + 1/2 D, et il est facile de
montrer que le joueur 2 garantit ainsi le paiement 1/2. On a mme
2, T, 1, T1 ( 1, 2) 1/2.
Extensions : exemples 103
Il est ici plus dicile et trs intressant d'imaginer des bonnes stratgies pour le joueur 1.
Les jeux stochastiques ont t introduits par Shapley (1953). Mertens et Neyman
(1981) ont montr en 1981 l'existence de la valeur uniforme dans tout jeu stochastique (
information complte, sans signaux). Plus rcemment, N. Vieille (2000a et 200b) a prouv
l'existence de paiements d'quilibres dans les jeux stochastiques somme non nulle et 2
joueurs, la question restant ouverte pour un plus grand nombre de joueurs. Concernant les
jeux stochastiques somme non nulle, on peut notamment citer galement Sorin (1986b),
Solan (1999) et Solan et Vieille (2001). Pour des surveys, voir Mertens (2002), Vieille
(2002).
et chacun de ces tats correspond un certain jeu de base. Un des tats est tir alatoi-
rement une fois pour toutes au dbut du jeu, et chaque tape les joueurs vont jouer le
mme jeu de base correspondant cet tat. Les connaissances qu'ont les joueurs sur l'tat
sont typiquement imparfaites : chaque joueur reoit au dbut du jeu un unique signal
dpendant de l'tat slectionn, et peut donc avoir une connaissance partielle de l'tat
Plaons-nous ici uniquement dans le cas de deux joueurs, somme nulle, et intressons-
ser aussi qu'il y a manque d'information d'un seul ct : le joueur 1 a toute l'information,
il observe parfaitement l'tat slectionn, alors que le joueur 2 n'est pas inform et ne
reoit initialement aucun signal. Supposons enn qu'il n'y a que deux tats, qui sont a
On va voir sur des exemples que le jeu inniment rpt a une valeur uniforme (note
v), et que les joueurs ont des stratgies optimales, c'est--dire que le joueur 1 peut jouer
une stratgie qui lui garantit v :
et que de mme le joueur 2 peut jouer une stratgie qui lui garantit v :
2 1
, > 0, T0, T T0, , T1 ( 1, 2) v + .
Ceci est quivalent l'existence d'un quilibre uniforme, et implique que la valeur vT du
l'action B (bas) si l'tat est b. Ainsi la valeur uniforme existe et est nulle : v = 0.
! !
1 0 0 0
Exemple 2. Ga = et Gb = .
0 0 0 1
Une stratgie nave du joueur 1 est de jouer l'tape 1 l'action H si l'tat est a, et
l'action B si l'tat est b. Cette stratgie est dite compltement rvlatrice, car en fonction
de l'action joue par le joueur 1 il est possible de dduire l'tat slectionn. Elle est op-
timale ici dans le jeu une tape, et la valeur de ce jeu est v1 = 1/2. Mais elle est trs
mauvaise quand le jeu est rpt, et ne garantit rien de plus que 0 dans le jeu inni.
A l'inverse, le joueur 1 peut toujours ne pas tenir compte de son information, et jouer
1 a 1/2 0
matrice moyenne
2
G + 21 Gb = , et peut jouer chaque tape la stratgie
0 1/2
1
optimale de cette matrice. Puisque la valeur de cette matrice vaut 1/4, on a : vT 4
pour
tout T.
Dans le jeu inni, on peut montrer qu'il est ici optimal pour le joueur 1 de jouer non
joueur 2 pourra nalement jouer l'action M (du milieu) si l'tat est a, et l'action G(auche)
si l'tat est b. Mais jouer
! une stratgie non rvlatrice revient se placer dans le jeu
1 a 2 2 0
2
G + 12 Gb = , et donc ne garantit que 0 galement.
2 2 0
Dans le jeu inni, on montre qu'il est ici optimal pour le joueur 1 de jouer la stratgie
suivante.
s dans {H, B} de la
Le joueur 1 choisit alatoirement, une fois pour toutes, un lment
Cas gnral.
De faon gnrale, on a le rsultat suivant d Aumann et Maschler (1966, voir la r-
de l'noncer ici.
Thorme 5.2.
Dans un jeu rpt somme nulle et manque d'information d'un seul ct o la probabilit
u est l'application de (K) dans IR donne par u(q) = val( k q kGk) pour toute probabi-
P
lit initale q , (valeur du jeu o pesonne n'est inform), et cav u est la plus petite fonction
concave suprieure u.
u(p)
1 1 3
0 4 2 4
1
par exemple citer : pour les jeux somme nulle, Mertens et Zamir (1971, 1977), Sorin et
106 Chapitre 8. Introduction aux jeux rpts
Zamir (1985), de Meyer (1996a et 1996b), Laraki (2001), Renault (2006), et pour les jeux
somme non nulle Sorin (1983), Hart (1985), Simon et al. (1995), Renault (2000). Pour
Travaux dirigs
1. Feuille de TD n1
femmes ont des prfrences strictes sur tous les hommes. Par exemple avec n = 3, l'homme
b peut classser en premier la femme C , puis A puis B , et la femme C peut classer l'homme
a puis c puis b.
Un mariage est un sous-ensemble de H F de cardinal n tel que tout homme est
associ exactement une femme, et toute femme exactement un homme (une bijection
de H F ).
sur
Un mariage est stable s'il n'existe pas de couple alternatif (X, y) non mari suivant
et tel que chacun prfre son partenaire dans le couple alternatif celui qu'il a avec .
Ce problme a t introduit par Gale et Shapley (1962) qui ont montr l'existence
Les femmes restent chez elles et les hommes se dplacent (on obtient un autre algorithme
Jour 1 : chaque homme courtise la femme qu'il prfre ; si une femme a plus d'une
proposition, elle garde l'homme qu'elle prfre et rejette tous les autres. Si chaque femme
Jour 2 : chaque homme rejet le premier jour courtise la femme suivante sur sa liste
de prfrences puis chaque femme compare les nouvelles propositions l'ancienne qu'elle a
dj garde (si elle en a) puis dcide de conserver celle qu'elle prfre et rejette les autres.
Jour k : chaque homme rejet le jour prcdent courtise la femme suivante sur sa
liste. Chaque femme compare les nouvelles propositions l'ancienne (si elle en a) puis
dcide de garder celle qu'elle prfre et rejette les autres. Si chaque femme a exactement
107
108 Chapitre 9. Travaux dirigs
A B C D
A B C
a (1,3) (2,3) (3,2) (4,3)
a (1,3) (2,2) (3,1)
et b (1,4) (4,1) (3,3) (2,2)
b (3,1) (1,3) (2,2)
c (2,2) (1,4) (3,4) (4,1)
c (2,2) (3,1) (1,3)
d (4,1) (2,2) (3,1) (1,4)
Le contenu de la case (a, A) signie que l'homme a classe la femme A en premire
4) Montrer qu'il n'existe pas toujours de mariage stable dans une communaut (2n
tudiants ont chacun des prfrences sur les 2n 1 autres et souhaitent cohabiter dans
5) Dnir un mariage stable et tudier son existence dans une socit polygame (soient
coles et chaque cole a une prfrence sur les tudiants) et un quota d'tudiants ne pas
dpasser.
Un arbitre se propose de couper un gteau (gal au carr [0, 1] [0, 1]) entre deux
deux joueurs arrtent en mme temps c'est le joueur 1 qui gagne la part gauche de x.
La valeur totale du gteau pour chaque joueur est gale 1. La valeur de la part gauche
de x pour le joueur 1 est f (x) et sa valeur pour le joueur 2 est g(x) o f () et g() sont
3) Si vous tes le joueur 1 (resp. 2) et que vous ne connaissez pas l'utilit de l'autre
4) L'arbitre change les rgles du jeu et dcide de parcourir l'axe des x de droite
Soit une population d'une ville avec un trs grand nombre d'individus que l'on repr-
sente par l'intervalle [0, 1]. Les individus ont le choix entre le bus et la voiture et ont les
mmes prfrences : u(B, x) (resp. u(V, x)) est l'utilit d'un usager qui prend le bus (resp.
bus. Il est naturel de supposer que l'utilit de prendre la voiture u(V, x) est continue et
avec le temps.
5) Faire de mme dans les autres cas de gures (toujours dans un cadre gnrique).
(3) s'il y a plusieurs joueurs k, le gagnant est slectionn entre eux au hasard suivant une
distribution uniforme ;
(4) le gagnant paie pour le tableau le second meilleur prix p oert (soit p = maxj6=k pj ).
Supposons que chaque joueur i possde une utilit gale 0 s'il ne gagne pas l'objet
et gale vi p s'il gagne l'objet et l'achte au prix p (o vi est interprt comme tant
2. Feuille de TD n2
Soient A et B deux matrices I J, avec B0 (tous les coecients de B sont stric-
sA v sB, et At vBt.
On n'utilisera pas ici le thorme de Von Neumann. La preuve est par rcurrence sur
|I| + |J|.
dmontr, on suppose donc dans la suite 0 < 0. Soient s0 et t0 tels que s0A 0 s0B ,
et At0 0Bt0.
B 0 de B , avec s0A0 v 0 s0B 0. Montrer que v 0 0 > 0, et obtenir une contradiction dans
0
la dnition de 0 en utilisant s0 et s .
a.4) Conclure.
c) Soit B une matrice carre > 0. Montrer qu'il existe un vecteur propre de B associ
a une valeur propre strictement positive et qui a toutes ses coordonnes strictement po-
employes par les joueurs sont indpendantes, et le paiement est donn par l'esprance de
la fonction g suivante :
Feuille de TD n 2 111
G D G D
H 1 0 H 0 0
B 0 0 B 0 1
O E
Comparer
a) Montrer que dans G le joueur 1 garantit lim supn vn ( prs pour tout > 0). En
b) Montrer que dans G chaque joueur a une stratgie optimale. (On pourra plonger
les stratgies optimales de {Gn} dans ([0, 1]) et en extraire une sous suite faiblement
convergente).
1 Xn
xn = xi .
n i=1
Soit A une matrice I J reprsentant les paiements d'un jeu deux joueurs. Supposons
quelconque de la matrice A. Etant donns x1, x2, ..., xn nous dnissons xn+1 comme suit :
+ i +
Soit xn le vecteur dont la i-me coordonne est max(xn, 0). Si xn = xn alors xn+1 est une
x+
n xn
tn+1 = (J).
a
Puisque v = 0, il existe in+1 I tel que in+1Atn+1 0. xn+1 est alors la ligne in+1 de la
matrice A.
2) Montrer que {xn} est C -une suite de Blackwell avec C = {x Rk; x 0}.
3) Conclure qu'il existe s (I) satisfaisant sAt 0, pour tout t.
Feuille de TD n 3 113
3. Feuille de TD n3
Exercice 1 : Duels
Deux joueurs une distance initiale D0, avancent l'un vers l'autre avec chacun un pisto-
let charg d'une ou plusieurs balles. La distance entre les deux l'instant t [0, 1], Dt,
diminue strictement avec le temps jusqu' atteindre 0 quand t = 1.
On supposera que le gain d'un joueur est gal +1 s'il est le seul survivant, 1 s'il
meurt seul et 0 sinon. On supposera aussi que la probabilit que le joueur i = 1, 2 tue son
adversaire en tirant une balle l'instant t est pi(t) o pi(t) est une fonction continue et
Ces deux fonctions sont connues des deux joueurs. La fonction de paiement de ce jeu
A) Les joueurs disposent chacun d'un pistolet bruyant et d'une seule balle. Ainsi, si
l'un des deux a tir, l'autre l'a entendu. Aprs le premier tir, le comportement optimal
du survivant est donc d'avancer jusqu' une distance nulle et de tuer l'adversaire.
Une stratgie pure du joueur 1 (resp. 2) est l'instant x [0, 1] (resp. y) o il va tirer
Montrer que le jeu a une valeur en stratgies pures et que la stratgie optimale du
cun des deux ne sait si l'adversaire a dj tir ou pas). On supposera p1(t) = p2(t) = t.
Maintenant une stratgie pure du joueur 1 (resp. 2) est le moment o il va tirer s'il
b) Le joueur 1 dcide de tirer suivant une stratgie mixte de support [, 1] et une den-
sit f (x)dx. Montrer qu'il existe une fonction f direntiable et > 0 qui lui garantissent
balle aussi. On suppose p1(t) = p2(t) = t. On veut montrer que le jeu a une valeur en
stratgies mixtes v = 1 2a avec a = 2 1.
assure 1 2a au joueur 1.
de rpartition suivante :
Z y
2 a
G(y) = f (x)dx + I1(y),
2+a 0 2+a
o I1(y) est la fonction de rpartition associ la masse de Dirac au point 1. Ainsi, le
2
joueur 2 utilise la mme stratgie que le joueur 1 avec probabilit et dcide de tirer
2+a
a
l'instant 1 avec probabilit
2+a
.
E) Peux t-on raisonner par rcurrence dans le cas d'un duel silencieux avec plusieurs
balles.
Montrer que le jeu n'a pas de valeur en stratgies pures et que les conditions de Sion sont
On considre une famille de jeux somme nulle Gn = (S, T, fn) telle que :
- (fn) est une suite dcroissante de fonctions uniformment bornes, s.c.s en s pour chaque
t,
- pour tout n, Gn a une valeur vn,
Feuille de TD n 3 115
- S est compact.
1) On pose f = inf n fn. Montrer que G = (S, T, f ) a pour valeur v et qu'elle est gale
2) Comparer v la valeur de G et lim vn dans les deux cas suivants d'un jeu un seul
joueur :
4. Feuille de TD n4
Soit A une matrice I J valeurs dans Rk. Ai,j Rk est le rsultat (vectoriel) si le
x
/ C, s (I) tel que z sA : hz C (x), x C (x)i 0.
Cela signie que l'hyperplan ane passant par C (x) et orthogonal [x, C (x)] spare x
de sA.
Le jeu se joue en temps discret durant un nombre inni d'tapes. Nous allons le dnir in-
ductivement. A chaque tape n, n = 1, 2, ..., aprs avoir observ l'histoire hn1 des actions
choisies dans le pass jusqu' l'tape n 1, soit hn1 = (i1, j1, ....., in1, jn1) Hn1,
n
avec Hn = (I J) et H0 = {}, le joueur 1 choisit sn (hn1) (I) et le joueur
2 tn(hn1) (J). Le couple (in, jn) I J est tir selon la distribution de pro-
(i1, j1, ....., in, jn) Hn. Ainsi, une stratgie du joueur dans le jeu rpt est de la forme
= (s1, ..., sn, ...) o sn : Hn1 (I). Une stratgie du joueur 2 est de la forme
= (t1, ..., tn, ...) o tn : Hn1 (J). Un couple (, ) dnit une distribution de pro-
N
babilit P, sur l'ensemble des parties de H= (I J) , muni de la tribu cylindrique.
Notons E, l'esprance associe. Chaque partie h = (i1, j1, ..., in, jn, ...) du jeu gnre une
k
suite x(h) = {x1 = Ai1,j1, ..., xn = Ain,jn, ...} dans R . Soit xn sa moyenne de Csaro
l'tape n :
1 Xn 1 Xn
xn(h) = Aik,jk = xk .
n k=1 n k=1
Blackwell a montr qu'il existe une stratgie du joueur 1 qui permet de gnrer une
partie h = (i1, j1, ..., in, jn, ...) telle que xn(h) s'approche de l'ensemble C et ce quelque
xn C le joueur 1 joue sn+1 (I) quelconque, sinon il joue sn+1 (I) telle que pour
Feuille de TD n 4 117
tout t (J) :
3) En dduire que
2 kAk
.E, [dn]
n
En particulier, la convergence est uniforme en .
2
P 4kAk2
4) (Extensions pour les plus motivs). Soit en = dn + k=n+1 k2
. Montrer que {en} est
une surmartingale positive dont l'esprance tend vers zro.
Exercice 2.
Soit f une application de ST dans IR, o S et T sont non vides. On note B l'ensemble
des applications de S dans T . Montrer que :
sup inf f (s, t) = inf sup f (s, (s)).
sS tT B sS
Exercice 3.
c) On rappelle que l'on a toujours sup inf f inf sup f . Que penser de l'extension
mixte de G?
118 Chapitre 9. Travaux dirigs
Montrer que sup(S) inf tT f (, t) = 1/3. En dduire que G n'a pas de valeur.
Feuille de TD n 5 119
5. Feuille de TD n5
Exercice 1. Calculs.
1.a) Calculer les quilibres de Nash en stratgies mixtes des jeux suivants :
deux joueurs :
G D !
H (6, 6) (2, 7)
B (7, 2) (0, 0)
G D !
H (2, 2) (1, 1)
B (3, 3) (4, 4)
G D !
H (1, 0) (2, 1)
B (1, 1) (0, 0)
g m d
H (1, 1) (0, 0) (8, 0)
M (0, 0) (4, 4) (0, 0)
B (0, 8) (0, 0) (6, 6)
trois joueurs :
G D ! G D !
H (1, 1, 1) (0, 0, 0) (0, 0, 0) (0, 0, 0)
B (0, 0, 0) (0, 0, 0) (0, 0, 0) (1, 1, 1)
O E
1.b) Calculer les valeurs des jeux somme nulle reprsents par les matrices suivantes.
! ! 3 1
1 2 1 1 0 0
, et .
0 3 2 0 2 4
7 2
Exercice 2.
Pn
xi 0, le prix unitaire du poisson s'tablit p = max(1 i=1 xi, 0). Chaque pcheur
vend toute sa production au prix p et cherche maximiser son revenu (le cot de produc-
tion est suppos nul).
2i
j le complexe e 3 , et g l'application de C3 dans C dnie par g(a, b, c) = a b c.
On note
1 2 2 3 2
Soit le jeu G 3 joueurs, o A = {1, j}, A = {j, j }, et A = {j , 1}. Pour (a, b, c) dans
A1 A2 A3, le paiement du joueur 1 est la partie relle de g(a, b, c), celui du joueur 2 la
partie imaginaire de g(a, b, c), et le paiement du joueur 3 est nul.
tible ?
Exercice 4.
A) Thorme de Tarski.
n
On se place dans l'espace euclidien IR , muni de l'ordre produit : x y ssi xi yi pour
n n
tout i. Un sous-ensemble S de R est un sous-treillis de R si pour tous x et y dans S , on
n
a sup{x, y} S et inf{x, y} S . On considre un sous-treillis compact non vide S de R .
A.1) Montrer que pour tout sous-ensemble non vide A de S , on a sup A S et inf A S
(considrer par exemple une partie dnombrable dense de A). En dduire que S a un plus
A.2) Soit f une application croissante de S dans S. Montrer qu'elle a un point xe.
B) Jeux surmodulaires
(ii) g i a des dirences croissantes en (si, si) : g i(si, si) g i(s0i, si) g i(si, s0i)
g i(s0i, s0i) si si s0i et si s0i.
(iii) g i est surmodulaire en si : si S i, g i(si, si) + g i(s0i, si) g i(si s0i, si) +
Feuille de TD n 5 121
Rmi.
B.2) On suppose si s0i. Montrer que t0i BRi(s0i), ti BRi(si) t.q. ti t0i.
B.3) Montrer que G possde un quilibre de Nash.
Soient deux entreprises 1 et 2 : chaque entreprise i choisit qi dans [0, Qi] et a comme
en qj .
Montrer l'existence d'un quilibre de Nash.
122 Chapitre 9. Travaux dirigs
6. Feuille de TD n6
1. On considre une classe G de jeux G 2 joueurs dnis par un espace ni d'actions
f (i, j) = kxi yj k2
et celui du joueur 2 par
g(i, j) = ij ( 1 si i = j, 0 sinon).
Montrer que le support S( ) de est inclus dans celui de , puis que S() est inclus
dans {i I; xi minimise kxi zk2} o z est la combinaison convexe des yj induite par :
X
z= j yj .
jI
On dnit inductivement les jeuxGn = G(x1, ..., xn; y1, ..., yn) dans G comme suit :
x1 est arbitraire, y1 F (x1) ; tant donn un quilibre (n, n) de Gn on introduit
xn+1 = ni=1 n(i) yi comme plus haut et yn+1 F (xn+1).
P
GN = G(x1, ..., xN ; y1, ..., yN ) et tablir que {xi, i S(N )} B(x, 2) puis que
{xi, i S(N )} B(x, 2). Conclure que xN +1 Co{ zF (z); z B(x, 2)}.
Soit G un jeu ni sous forme stratgique donn par un ensemble de joueurs N, des
i i
ensembles d'actions S , i N, et des paiements g , i N . Un prol de stratgies mixtes
i
= ( )iN est dit compltement mixte si (s ) > 0 i I, si S i.
i i
Feuille de TD n 6 123
1. Existence. Soit
]0, 1[.x dans
i |S i|
Pour chaque joueur i, on dnit = /|S i| et i( i) = { i (S i), i(si) i si
S i}, puis on pose () = iI i( i). Soit maintenant la correspondance :
Q
F : () ()
Y
7 F i()
iI
et parfait.
2. Calculer les quilibres de Nash, les quilibres parfaits et propres des jeux deux
joueurs suivants :
L R
T (1,1) (0,0)
B (0,0) (0,0)
L M R
T (1,1) (0,0) (-9,-10)
7. Feuille de TD n7
Exercice 1. GNIM
Pourn, m deux entiers strictement positifs, on dnit le jeu deux joueurs G(n, m)
2
suivant. Soit P (n, m) l'ensemble des points du plan IR coordonnes entires positives
ou nulles dont l'abcisse est infrieure ou gale n et dont l'ordonne est infrieure ou gale
m. Une pierre est place sur chacun de ces points. Le joueur 1 joue en premier. Il choisit
une pierre et enlve toutes les pierres dont les deux coordonnes sont suprieures ou gales
celles de la pierre choisie. C'est ensuite au joueur 2 de jouer selon la mme rgle. Le jeu
se poursuit en alternant les joueurs. Celui qui prend la dernire pierre (i.. (1,1)) a perdu.
On dnit de mme le jeu G(, ) en prenant tous les points coordonnes entires
positives ou nulles, et les jeux G(n, ) et G(, m).
a) Montrer que dans le jeu G(n, m), le joueur 1 a une stratgie gagnante (on ne de-
Deux joueurs jouent un jeu somme nulle. La mise est de 1 ? par joueur pour com-
mencer le jeu. Un jeu de 32 cartes est battu, et le joueur 1 tire 1 carte et la regarde. Le
joueur 2), soit de doubler sa mise. Au cas o le joueur 1 a doubl la mise, le joueur 2
dcide alors soit de se coucher (alors le joueur 1 gagne l'euro de mise initiale du joueur 2),
soit de doubler sa mise galement. Dans ce dernier cas, le joueur 1 dvoile la carte tire :
si elle est Rouge, le joueur 1 ramasse toutes les mises (donc a gagn 2 ?) ; si elle est noire,
Mettre ce jeu sous forme extensive, puis sous forme normale. Quelle est la valeur du
jeu ? Quelles sont les stratgies mixtes optimales des joueurs ? Que sont les stragies de
comportement optimales ?
Deux acheteurs potentiels participent une enchre pour dterminer celui qui va rem-
porter un bien donn. Le joueur i lui accorde une valeur vi. On a v1 > v2 > 0. Chaque
joueur i fait une enchre bi 0. Celui qui fait la plus grande ore remporte l'objet mais
Feuille de TD n 7 125
paye l'enchre de son adversaire (c'est dire le second prix bi). Quant au perdant, il ne
remporte pas l'objet mais est quand mme contraint de payer l'ore qu'il a faite (c'est en
ceci que notre enchre dire d'une enchre au second prix classique). En cas d'galit, le
(2) Existe-t-il un quilibre de Nash tel que b1 > 0 et b2 > 0, c'est dire dans lequel
(4) Si bi = 0 et bj > 0, sous quelle condition sur bj le joueur i n'a pas intert suren-
chrir.
(5) Donnez l'ensemble des quilibres de Nash. Le gagnant est-il ncessairement celui
sible. Le cot pour le vendeur c et la valeur pour l'acheteur est v . c et v sont indpendants,
tirs selon la loi uniforme sur [0, 1]. Le vendeur et l'acheteur soumettent simultanment
des ores b1 et b2. Si b1 > b2, l'change n'a pas lieu. Sinon, l'change a lieu et le prix est
x (b1 + b2)/2.
b) On suppose que l'information est complte (i.e. v et c connus des deux joueurs) et
c) On suppose que l'information est priv donc le jeu est information incomplte et
on cherche un quilibre en stratgies pures b1(c) et b2(v). Montrer que b1() et b2() sont
ncessairement croissantes.
L R
U 5,1 0,0
D 4,4 1,5
1) Calculer les quilibres de Nash (purs et mixtes) de ce jeu et les paiements d'quilibre
correspondants.
On suppose que les deux joueurs considrent avant le jeu la procdure suivante : on
tire pile ou face (vnements quiprobables) ; aprs avoir observ le rsultat, chaque
2) Montrer qu'une fois le jeu commenc, chaque joueur respecte la procdure (c'est
On a en fait considr une extension du jeu, et la situation dcrite est donc un quilibre
4) Quel est l'ensemble des paiements atteignables par ce procd (coordination sur un
On suppose maintenant que les joueurs peuvent ragir conditionnellement des si-
gnaux dirents mais corrls. Pour illustrer ce cas, on suppose qu'une variable alatoire
possde trois tats quiprobables A, B et C. Le joueur ligne ne peut distinguer les tats
Une fois le jeu commenc, rien n'oblige un joueur respecter cette procdure.
5) Vrier qu'il s'agit bien d'un quilibre de Nash du jeu tendu, c'est dire qu'une
paiement espr des joueurs ? Ce paiement appartient-il l'ensemble des paiements attei-
Exercice 6. Marchandage
Deux joueurs ngocient pour diviser 100 euros. Ils reoivent zero si aucun accord n'est
conclu. Nous allons analyser plusieurs modles de jeux de marchandage avec ores alter-
natives.
Feuille de TD n 7 127
Ecrire la forme extensive du jeu et montrer qu'il existe un unique quilibre S -parfait.
b) Maintenant le jeu en a) est jou n fois avec une alternance des ores entre les
Si le partage est accept il se fait, sinon la somme partager est divise par deux (soit
100
2
= 50 euros) et les rles sont inverss : maintenant c'est au tour du joueur 2 de faire
une proposition de partage. Le joueur 1 peut accepter ou refuser. S'il accepte, le partage
se fait sinon, la somme est encore divise par deux et les rles encore inverss. Trouver
l'quilibre sous jeu parfait pour les cas n = 2, n = 3 et n = 4. Analyser le jeu suivant la
c) (Rubinstein 1982) On suppose ici que le jeu dure inniment avec des ores alterna-
tives comme en b). Maintenant la somme partager est multiplie (aprs chaque refus)
par un facteur 0<<1 (qu'on peut interprter comme un taux d'escompte, ou comme
la probabilit que le jeu continue ou encore comme le degr d'impatience des joueurs).
Montrer que la stratgie suivante est un quilibre sous jeu parfait : le joueur qui doit
1
faire l'ore propose une fraction de la somme partager lui et ore l'autre joueur
1+
une fraction de la somme partager. L'autre joueur accepte toute ore lui donnant
1+
au moins cette proposition et refuse toute autre ore.
Dicile, pour les plus motivs : Montrer que c'est l'unique quilibre sous jeu parfait.
128 Chapitre 9. Travaux dirigs
8. Feuille de TD n8
- tape 0 : une couleur (noir ou blanc) est choisie au hasard avec probabilit (1/2, 1/2).
- tape 1 : le joueur 1 annonce une couleur et ce choix est communiqu au joueur 2.
Le paiement est 2 pour chacun des joueurs si ils annoncent la mme couleur et sinon 5
1) Dcrire le jeu sous forme extensive, puis sous forme normale et montrer qu'il possde
sait). Dcrire le nouveau jeu sous forme extensive et montrer qu'il a un quilibre unique.
3) Etudier enn la situation o le joueur 2 seul est inform puis celle o les 2 joueurs
4) Que peut -on dire de la valeur de l'information ? Quelles sont les hypothses sur la
pas par le joueur 2. Le joueur 1 doit alors envoyer un message m {A, B} au joueur 2. Le
joueur 2 devra choisir une action s {G, M, D}. Le paiement de chaque joueur dpend
les paiements d'quilibres pour chaque joueur. Quel est l'quilibre le plus favorable au
joueur 1 ?
b1 b2 b3
a1 (, ) (3, 1) (0, 2)
a2 (1, 3) (0, 0) (1, )
a3 (2, 0) (, 1) (0, 0)
ne possde pas d'quilibre de Nash mais que toute distribution de la forme
b1 b2 b3
a1 0 0
a2 0
a3 0 0 0
avec > 0 est une distribution d'quilibre corrl.
B) Soit le jeu avec un nombre inni dnombrable de joueurs {1, 2, ..., n, ...} = IN. On
suppose que tous les joueurs ont seulement deux stratgies 0 ou 1 (soit Si = {0, 1}). La
2) En utilisant le lemme de Borel Cantelli montrer qu'il n'existe pas d'quilibre de Nash
en mixte.
1
S = i Si = {0, 1}IN induit un quilibre
2
Q
3) Montrer que la distribution = 2
+ 2
sur
1
N i i
corrl, o 1 est la distribution (produit) 1 = i 1 avec : 1(si = 1) = i et 2 est
la distribution (jointe) qui tire le prol (s1 = 1, ...si = 1, si+1 = 0, ..., sn = 0, ...) avec
1 1 1
P P
probabilit
i
i+1 = i(i+1) . (Remarquer que P1( si = ) = 1, que P2( si = ) = 0
1
et que P2(si = 1) = .)
i
1 2
Soit G
un jeu stratgique 2 joueurs, dcrit par les espaces de stratgies S et S et
1 2 2
le paiement g : S = S S IR . On considre le jeu 2 joueurs et somme nulle
b) Montrer que si v0 et Q (S) est une stratgie optimale du joueur 1, alors Q est
et en dduire :
[10] Aumann R.J. and M. Maschler (1995) Repeated Games with Incomplete Information, M.I.T. Press,
1995.
[11] Aumann R.J. and L. S. Shapley (1994) Long-term competitionA game theoretic analysis, in Essays
on Game Theory, N. Megiddo (ed.), Springer-Verlag, 115.
[12] Aumann R.J. and S. Sorin (1989) Cooperation and bounded recall, Games and Economic Behavior,
1, 5-39.
[13] Baar T. and G.J. Olsder Dynamic Noncooperative Game Theory, Classics in Applied Mathematics,
23, SIAM.
[14] Benedetti R. and J.-J. Risler (1990)Real Algebraic and Semi-Algebraic Sets, Hermann.
[15] Benoit J-P. and V. Krishna (1985) Finitely repeated games, Econometrica, 53, 905922.
[16] Benoit J.-P. and V. Krishna (1987) Nash equilibria of nitely repeated games, International Journal
of Game Theory, 16, 197204.
[17] Berge C. (1966) Espaces Topologiques, Fonctions Multivoques, Dunod.
131
132 Chapitre 9. Bibliographie
[41] Fudenberg D. and J. Tirole (1991) Perfect Bayesian equilibrium and sequential equilibrium, Journal
of Economic Theory, 53, 236-260.
[42] Gale D. and L.S. Shapley (1962) College admissions and the stability of marriage, American Mathe-
matical Monthly, 69, 9-15.
[43] Gale D. and F.M. Stewart (1953) Innite games with perfect information, in Contributions to the
Theory of Games, II, Kuhn H. and A.W. Tucker (eds.), Annals of Mathematical Study, 28, Princeton
University Press, 245-266.
[44] Gilboa I. and A. Matsui (1991) Social stability and equilibrium, Econometrica, 58, 859-67.
[45] Giraud G. (2009) La thorie des jeux, Flammarion.
[46] Glicksberg I .(1952) A further generalization of the Kakutani xed point theorem, with applications
to Nash equilibrium points, Proceedings of the American Mathematical Society, 3, 170174.
[47] Gossner O. (1995) The Folk theorem for nitely repeated games with mixed strategies, International
Journal of Game Theory, 24, 95107.
[48] Gossner O. and T. Tomala (2007) Secret correlation in repeated games with imperfect monitoring.
Mathematics of Operations Research, 32, 413424.
[49] Govindan S. and R. Wilson (1997) Equivalence and invariance of the index and degree of Nash
equilibria, Games and Economic Behavior, 21, 56-61.
[50] Gurrien B. (2002) La thorie des jeux, Economica.
[51] Gul F., D. Pearce and E. Stachetti (1993) A bound on the proportion of pure strategy equilibria in
generic games, Mathematics of Operations Research, 18, 548- 552.
[52] Hammerstein P. and R. Selten (1994) Game theory and evolutionary biology, in Handbook of Game
Theory, II, Aumann R.J. and S. Hart (eds.), North Holland, 929-993.
[53] Harris C. (1998) On the rate of convergence of continuous time ctitious play, Games and Economic
Behavior, 22, 238-259.
[54] Harsanyi J. (1967-68) Games with incomplete information played by `Bayesian' players, parts I-III,
Management Science, 8, 159182, 320334, 486502.
[55] Harsanyi J.C. (1973a) Games with randomly disturbed payos : a new rationale for mixed strategy
equilibrium points, International Journal of Game Theory, 2, 1-23.
[56] Harsanyi J.C. (1973b) Oddness of the number of equilibrium points : a new proof, International
Journal of Game Theory, 2, 235-250.
[57] Hart S. (1985) Nonzero-sum two-person repeated games with incomplete information, Mathematics
of Operations Research, 10, 117-153.
[58] Hart S. (2005) Adaptive heuristics, Econometrica, 73, 1401-1430.
[59] Hart S. and D. Schmeidler (1989) Existence of correlated equilibria, Mathematics of Operations
Research, 14, 18-25.
[60] Hillas J. and E. Kohlberg (2002) Foundations of strategic equilbrium, in Handbook of Game Theory,
III, Aumann R.J. and S. Hart (eds.), North Holland, 1595-1663.
[61] Hofbauer J. and S. Sorin (2006) Best response dynamics for continuous zero-sum games, Discrete
and Continuous Dynamical Systems-series B, 6, 215-224.
134 Chapitre 9. Bibliographie
[62] Hofbauer J. and K. Sigmund (1998) Evolutionary Games and Population Dynamics, Cambridge U.P.,
1998.
[63] Kamien M., Y. Tauman and S. Zamir (1990) On the value of information in a strategic conict,
Games and Economic Behavior, 2, 129-153.
[64] Kakutani S. (1941) A generalization of Brouwer's xed point theorem, Duke Mathematical Journal,
8, 416427.
[65] Kohlberg E. and J.-F. Mertens (1986) On the strategic stability of equilibria, Econometrica, 54,
1003-37.
[66] Kreps D. and J. Sobel (1998) Signalling, in Handbook of Game Theory, II, Aumann R.J. and S. Hart
(eds.), North Holland, 849-867.
Econometrica, 50, 863-94.
[67] Kreps D. and R. Wilson (1982) Sequential equilibria,
[68] Kuhn H.W. (1953) Extensive games and the problem of information, in Contributions to the Theory
of Games, II, Annals of Mathematical Studies, 28, H.W. Kuhn and A.W. Tucker (eds.), Princeton
University Press, 193-216.
[69] Kuhn H. W. and A. W. Tucker (eds.) (1950) Contributions to the Theory of Games, I, Annals of
Mathematics Studies, 24, Princeton University Press.
[70] Kuhn H. W. and A. W. Tucker (eds.) (1953) : Contributions to the Theory of Games, II, Annals of
Mathematics Studies, 28, Princeton University Press.
[71] Laraki R., Renault J. et T. Tomala, Thorie des Jeux, X-UPS 2006, Editions de l'Ecole Polytechnique
[72] Lehrer E. (1989) Nash equilibria of n player repeated games with semi-standard information, Inter-
national Journal of Game Theory, 19, 191217.
[73] Lehrer E. (1989) Lower equilibrium payos in two-player repeated games with non-observable ac-
tions, International Journal of Game Theory, 18, 5789.
[74] Lehrer E. (1992) Correlated equilibria in two-player repeated games with non-observable actions,
Mathematics of Operations Research, 17, 175199.
[75] Lehrer E. (1992) On the equilibrium payos set of two-player repeated games with imperfect moni-
toring, International Journal of Game Theory, 20, 211226.
[76] Lemke C.E. and J.T. Howson (1964) Equilibrium points of bimatrix games, SIAM Journal, 12,
413-423.
[77] Loomis L. H. (1946) On a theorem of von Neumann, Proceeding of the National Academy of Sciences
of the U.S.A, 32, 213-215.
[78] Martin D. A. (1975) Borel determinacy,Annals of Mathematics, 102, 363-371.
[79] Mas-Colell A., M. Whinston and J. Green (1995) Microeconomic Theory, Oxford University Press.
[80] Maynard Smith J.(1981) Evolution and the Theory of Games, Cambridge University Press.
[81] Mc Lennan A. and R. Tourky (2006) From imitation games to Kakutani, preprint.
[82] Mertens J.-F. (1987) Repeated Games. Proceedings of the International Congress of Mathematicians
(Berkeley), 1986, American Mathematical Society, 1528-1577.
[83] Mertens J.-F. (1989) Stable equilibria - A reformulation, Part I, Mathematics of Operations Research,
14, 575-624.
135
[84] Mertens J.-F. (1991) Stable equilibria - A reformulation, Part II, Mathematics of Operations Re-
search, 16, 694-753.
[85] Mertens J.-F. (1992) Stochastic games, in Handbook of Game Theory, 3, Aumann R.J. and S. Hart
(eds.), North Holland, 1809-1832.
[86] Mertens J.-F. and Neyman A. (1981) Stochastic games, International Journal of Game Theory, 10,
53-66.
[87] Mertens J.-F., S. Sorin and S. Zamir (1994) Repeated Games, CORE discussion paper 9420-9422.
[88] Mertens J.-F. and S. Zamir (1971) The value of two-person zero-sum repeated games with lack of
information on both sides, International Journal of Game Theory, 1, 3964.
[89] Mertens J.-F. and S. Zamir (1977) A duality theorem on a pair of simultaneous functional equations,
Journal of Mathematical Analysis and Applications, 60, 550558.
[90] Milgrom P. and R. Weber (1985) Distributional strategies for games with incomplete information,
Mathematics of Operations Research, 10, 619-632.
[91] Mills H.D. (1956) Marginal value of matrix games and linear programs, in Linear Inequalities and
Related Systems, Kuhn H.W. and A.W. Tucker (eds.), Annals of Mathematical Studies, 38, Princeton
University Press, 183193.
[92] Milnor J.W. (1965) Topology from the Dierentiable Viewpoint, Princeton U.P.
[93] Monderer D. and L.S. Shapley (1996) Potential games, Games and Economic Behavior, 14, 124-143.
[94] Myerson R. (1978) Renements of the Nash equilibrium concept, International Journal of Game
Theory, 7, 73-80.
[95] Myerson R. (1991) Game Theory, Harvard University Press.
[96] Myerson R. (1998) Communication, correlated equilibria and incentive compatibility, in Handbook
of Game Theory, 2, Aumann R.J. and S. Hart (eds.), North Holland, 827-847.
[97] Nash J. (1950) Equilibrium points in n-person games, Proceedings of the National Academy of
Sciences, 36, 4849.
[98] Nash J. (1951) Non-cooperative games, Annals of Mathematics, 54, 286-295.
[99] Neyman A. and S. Sorin (2003) Stochastic Games and Applications, NATO Science Series, Kluwer
Academic Publishers.
[100] Nikaido H. and K. Isoda (1955) Note on non cooperative convex games, Pacic Journal of Mathe-
matics, 5, 807-815.
[101] Nisan N., Roughgarden T., Tardos E. and V. Vazirani (2007) Algorithmic Game Theory, Cambridge
University Press.
[102] Osborne M.J. and A. Rubinstein (1994) A Course in Game Theory, MIT Press.
[103] Owen G. (1995) Game Theory (3rd Edition), Academic Press.
[104] Parthasarathy T. and T.E.S. Raghavan (1971) Some Topics in Two-Person Games, American El-
sevier.
[105] Pearce D. (1984) Rationalizable strategic behavior and the problem of perfection, Econometrica,
52, 1029-50.
136 Chapitre 9. Bibliographie
[106] Renault J. (2000) 2-player repeated games with lack of information on one side and state inde-
pendent signalling, Mathematics of Operations Research, 25, 552572.
[107] Renault J. (2006) The value of Markov chain repeated games with lack of information on one side,
Mathematics of Operations Research, 2006, vol.31, 490-512.
[108] Renault J. and T. Tomala (1998) Repeated proximity games, International Journal of Game Theory,
27, 539559.
[109] Renault J. and T. Tomala (2004) Communication equilibrium payos of repeated games with im-
perfect monitoring, Games and Economic Behavior, 49, 313344.
[110] Reny P. (1999) On the existence of pure and mixed Nash equilibria in discontinuous games, Eco-
nometrica, 67, 1029-1056.
[111] Robinson J. (1951) An iterative method of solving a game, Annals of Mathematics, 54, 296-301.
[112] Rosenthal R. (1982) Games of perfect information, predatory pricing and the Chain Store paradox,
Journal of Economic Theory, 25, 92-100.
[113] Rubinstein A. (1982) Perfect equilibrium in a bargaining model, Econometrica, 50, 97-110.
[114] Rubinstein A. (1994) Equilibrium in supergames in Essay in Game Theory in Honor of M. Ma-
schler, N.Meggiddo (ed.) Springer-Verlag, 17-28. (original paper : Equilibrium in supergames, Center
for Research in Mathematical Economics and Game Theory, Research Memorandum 25.)
[115] Selten R. (1975) Re-examination of the perfectness concept for equilibrium points in extensive
games, International Journal of Game Theory, 4, 25-55.
[116] Shapley L.S. (1953) Stochastic games, Proceedings of the National Academy of Sciences of the
U.S.A., 39, 1095-1100.
[117] Simon R.S., S. Spie and H. Toruczyk (1995) The existence of equilibria in certain games, se-
paration for families of convex functions and a theorem of Borsuk-Ulam type, Israel Journal of
Mathematics, 92, 121.
[118] Sion M. (1958) On general minimax theorems, Pacic Journal of Mathematics, 8, 171176.
[119] Sion M. and P. Wolfe (1957) On a game without a value, in Contibutions to the Theory of Games,
III, Dresher M., A.W. Tucker and P. Wolfe (eds.), Annals of Mathematical Studies, 39, Princeton
University Press, 299-306.
[120] Solan E. (1999) Three-Player absorbing games, Mathematics of Operation Research, 24, 669-698.
[121] Solan E. and N. Vieille (2001) Quitting games, Mathematics of Operation Research, 26, 265-285.
[122] Sorin S. (1983) Some results on the existence of Nash equilibria for non-zero sum games with
incomplete information International Journal of Game Theory, 12, 193205.
[123] Sorin S. (1986a) On repeated games with complete information, Mathematics of Operations Re-
search, 11, 147160.
[124] Sorin S. (1986b) Asymptotic properties of a non zero-sum stochastic game, International Journal
of Game Theory, 15, 101-107.
[125] Sorin S. (1992) Repeated games with complete information, in Handbook of Game Theory, 1, R.J.
Aumann and S. Hart (eds.), North Holland, 71107.
[126] Sorin S (1999) Merging, reputation and repeated games with incomplete information, Games and
Economic Behavior, 29, 274-308.
137
[127] Sorin S. (2002) A First Course on Zero-Sum Repeated Games, Mathmatiques et Applications,
Springer.
[128] Tarski A.(1955) A lattice theoretical xed point theorem and its applications, Pacic Journal of
Mathematics, 5, 285-308.
[129] Topkis D. (1979) Equilibrium points in non zero-sum n person submodular games, SIAM Journal
of Control and Optimization, 17, 773-787.
[130] van Damme E. (1984) A relation between perfect equilibria in extensive form games and proper
equilibria in normal form games, International Journal of Game Theory, 13, 1-13.
[131] Van Damme E. (1987)Stability and Perfection of Nash Equilibria, Springer.
[132] van Damme E. (1992) Renement of Nash equilibrium, in Advances in Economic Theory (6th
Congress Econometric Society), Laond J.-J. (ed.), Cambridge U.P., 32-75.
[133] van Damme E. (1994) Evolutionary game theory, European Economic Review, 34, pp. 847-858
[134] van Damme E. (2002) Strategic equilibrium, in Handbook of Game Theory, 3, R.J. Aumann and S.
Hart (eds.), North Holland, 1521-1596.
[135] Vieille N. (2000a). Two-player stochastic games I : a reduction, Isral Journal of Mathematics, 119,
55-91.
[136] Vieille N. (2000b). Two-player stochastic games II : the case of recursive games, Isral Journal of
Mathematics, 119, 93-126.
[137] Vieille (1992) Stochastic games : recent results, in Handbook of Game Theory, 3, Aumann R.J. and
S. Hart (eds.), North Holland, 1833-1850.
[138] Ville J. (1938) Sur la thorie gnrale des jeux o intervient l'habilet des joueurs, in E. Borel,
Trait du Calcul des Probabilits et de ses Applications, Tome IV, Gauthier-Villars, 105-113.
[139] Vives X. (1990) Nash equilibrium with strategic complementarities, Journal of Mathematical Eco-
nomics, 19, 305-321.
[140] Von Neumann J. (1928) Zur Theorie der Gesellschaftsspiele, Mathematische Annalen, 100, 295320.
[141] Von Neumann J. and O. Morgenstern (1944) Games and Economic Behavior, Princeton University
Press.
[142] Weibull J. (1995) Evolutionary Game Theory, MIT Press.
[143] Weyl H. (1950) Elementary proof of a minimax theorem due to von Neumann, in Contributions to
the Theory of Games, I, H. W. Kuhn and A. W. Tucker (eds.), Annals of Mathematical Studies, 24,
Princeton University Press, 19-25.
[144] Zamir S. (1992) Repeated games of incomplete information : zero-sum, in Handbook of Game
Theory, 1, Aumann R.J. and S. Hart (eds.), North Holland, 109-154.
[145] Zermelo E. (1912) ber eine Anwendring der Mengenlehrer auf die Theorie des Schachspiels, Pro-
ceedings of the Fifth International Congress of Mathematicians (Cambridge), 1912, vol. II, 501.