Vous êtes sur la page 1sur 137

Bases mathmatiques de la thorie des jeux

1 2 3
Rida Laraki , Jrme Renault , Sylvain Sorin

2010

1. CNRS, Ecole Polytechnique, Laboratoire d'Economtrie ; rida.laraki@polytechnique.edu


2. TSE, GREMAQ, Universit Toulouse 1 ; jerome.renault@univ-tlse1.fr
3. Equipe Combinatoire & Optimisation, Universit Pierre et Marie Curie, CNRS FRE 3232 et Labo-
ratoire d'Economtrie, Ecole Polytechnique ; sorin@math.jussieu.fr.
Rsum. Le but du cours est de prsenter certains outils et rsultats fondamentaux de
la thorie des jeux. On tudiera principalement l'approche stratgique en considrant les
problmes lis l'information et la dynamique.

Les auteurs remercient Miquel Oliu-Barton, Tristan Tomala, Cheng Wan ainsi que
Vianney Perchet, Guillaume Vigeral et Yannick Viossat pour leurs lectures attentives et
leurs remarques judicieuses.
Table des matires
Chapitre 1. Introduction 5

1. Interaction stratgique 5

2. Exemples 6

3. Notations et concepts de base 8

4. Information et rationalit 10

Chapitre 2. Jeux somme nulle : le cas ni 13

1. Gnralits, valeur et stratgies optimales 13

2. Le thorme du minmax 15

3. Stratgies optimales 17

4. Extensions 18

5. Exemples 19

6. Fictitious play 20

Chapitre 3. Jeux somme nulle : cas gnral 23

1. Le thorme de Sion 23

2. Thormes de minmax en stratgies mixtes 26

3. Convexit 27

4. Oprateur valeur et jeu driv 28

Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash 31

1. Notations 31

2. Dominance 31

3. Rationalisabilit 33

4. Equilibre de Nash 34

5. Cas ni 34

6. Extensions 36

7. Le thorme de Reny 37

8. Semi-algbricit 40

9. Dveloppements et exemples 42

10. Thormes de Brouwer et de Ky Fan 48

3
Chapitre 5. Varit des quilibres et dynamique 53

1. Varit des quilibres 53

2. Champs de vecteurs et dynamique 56

3. Equilibre et volution 57

Chapitre 6. Jeux sous forme extensive 63

1. Jeu information parfaite 63

2. Jeux information imparfaite 71

3. Slection d'quilibre 77

Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens 85

1. Equilibre corrl 85

2. Procdures de non regret 89

3. Jeux information incomplte (ou baysiens") 91

Chapitre 8. Introduction aux jeux rpts 93

1. Exemples lmentaires 93

2. Le modle 95

3. Les paiements ralisables et individuellement rationnels 96

4. Les Folk thormes 98

5. Extensions : exemples 101

Chapitre 9. Travaux dirigs 107



1. Feuille de TD n 1 107

2. Feuille de TD n 2 110

3. Feuille de TD n 3 113

4. Feuille de TD n 4 116

5. Feuille de TD n 5 119

6. Feuille de TD n 6 122

7. Feuille de TD n 7 124

8. Feuille de TD n 8 128

Bibliographie 131
CHAPITRE 1

Introduction
1. Interaction stratgique

La thorie des jeux vise analyser des situations d'interaction stratgique o plusieurs

entits (agents, populations, entreprises, automates, ...) sont porteuses de caractristiques

(actions, gnes, prix, codes, ...) qui les aectent mutuellement. Plusieurs niveaux de mo-

dlisation ont t proposs. Nous les passons rapidement en vue.

1.1. Jeux stratgiques.


Ce cadre correspond l'axe qui sera privilgi dans ce cours.

Il consiste identier les structures autonomes qui interagissent, appeles joueurs. Par

autonomie on entend le fait que leurs caractristiques, paramtres ou choix, appels ac-

tions sont dtermins de manires indpendantes les uns des autres. Un prol d'actions

induit un rsultat et chaque joueur possde une fonction d'valuation dnie sur l'espace

des rsultats et valeurs relles.

1.2. Jeux coalitionnels.


Dans cette approche la donne initiale est encore un ensemble de joueurs mais sont pris en

compte tous les sous-ensembles possibles, appels coalitions et une fonction d'eectivit

associe chacune d'entre elles la famille des rsultats qu'elle peut atteindre. La probl-

matique consiste alors en dduire un rsultat global pour tous les joueurs.

Il s'agit ici d'une point de vue plus normatif  ou axiomatique qui partir de considra-

tions sur des normes d'quit, de pouvoir ou d'ecience propose une solution.

Le lien avec l'approche prcdente est double sens :

Passage 1.1. 1.2. : des analyses d'ordre stratgique sur le choix des actions d'une coa-

lition permettent de dnir une fonction caractristique (ou d'eectivit) et on applique

ensuite le programme des jeux coalitionnels.

Passage 1.2. 1.1. : programme de Nash. Partant de la fonction d'eectivit on dnit

des actions et une fonction d'valuation telle que le jeu stratgique correspondant induise

la solution choisie.

1.3. Choix social.


Il s'agit ici de l'tude, dans le cadre d'un jeu dni par un ensemble de joueurs, de l'im-

pact des rgles sur le rsultat nal. L'intrt se dplace de l'examen des comportements

5
6 Chapitre 1. Introduction

stratgiques vers l'analyse de l'inuence de la procdure sur le droulement du jeu. Les

domaines connexes sont les thories des incitations et des contrats.

2. Exemples

2.1. Mariages stables.


On considre deux familles nies I et J (hommes/femmes, employs/rmes ..) de mme

cardinal tel que chaque lment i I (resp. j J ) possde un ordre strict sur J I ). (resp.

Le problme est l'existence et la caractrisation des mariages stables, i.e. des bijections
0 0 0 0
de I dans J telles qu' il n'existe pas de couples (i, (i) = j), (i , (i ) = j ) avec j prfr
0 0
par i j et simultanment i prfr i par j . (Voir Exercice 1.1).

2.2. Problme de partage.


On reprsente par [0, 1] un ensemble sur lequel deux joueurs ont des prfrences. Le jeu

se droule entre les instants 0 et 1 et le joueur qui arrte le premier l'instant t gagne la
part [0, t] de l'ensemble, son adversaire ayant le complment. On suppose que a1(t) (resp.
a2(t)) qui dcrit l' valuation par le joueur 1 (resp. 2) de [0, t], est une fonction continue

croissante de 0 1 (1 ai(t) est alors l'valuation du complment). Chaque joueur i peut

obtenir 1/2 en dcidant d'arrter l'instant ti avec ai(ti) = 1/2 (si l'adversaire arrte
avant, tant mieux). Par contre si ti < tj , et que le joueur i le sait, il peut anticiper que

j ne va pas arrter avant tj et tenter tj . On voit apparatre ici des questions lies

l'information sur les caractristiques de l'adversaire, aux anticipations sur son comporte-

ment (rationalit) et l'inuence de la procdure sur l'issue (j souhaite que l'on partage

en allant de 1 0). (Voir Exercice 1.2).

2.3. Equilibre de transport.


On modlise par l'intervalle [0, 1] un ensemble form d'un grand nombre de joueurs, cha-

cun utilisant soit une voiture, soit le mtro. On suppose qu'ils ont tous la mme valuation

du trac qui se traduit par une fonction croissante v, resp. m, de [0, 1] dans lui mme,

v(t) tant leur utilit t de


si ils utilisent la voiture (resp. le mtro) quand une proportion

la population prend le mtro. Si v > m le seul quilibre est t = 0, mme si le rsultat v(0)

peut tre infrieur un autre rsultat possible m(1). Si les courbes m et v se coupent,

les points d'intersection sont des quilibres qui peuvent tre stables ou instables. (Voir

Exercice 1.3).

2.4. Enchres.
Un objet est mis aux enchres et n joueurs ont des valuations vi, i = 1, ..., n, son sujet.
On peut considrer des enchres descendantes o le prix d'ore p dcroit jusqu' une

acceptation, ou montantes o les joueurs font des ores croissantes successives. Un autre

modle correspond au cas o les joueurs font des ores bi par crit et l'arbitre attribue
Exemples 7

l'objet au joueur ayant fait la plus grande ore. Si le prix payer est la plus grande ore,

les joueurs ont intrt connaitre les prfrences de leurs adversaires. Si le prix correspond

la deuxime plus grande ore, la stratgie bi = vi est dominante. (Voir Exercice 1.4).

2.5. Paradoxe de Condorcet.


3 joueurs a, b, c ont des prfrences sur 3 candidats A, B, C . Si a classe A > B > C , b
classe B > C > A et c classe C > A > B , une limination binaire des candidats du type :

`vote la majorit A face B , puis le vainqueur est oppos C , etc ... induit un cycle

sur les candidats.

On modlise maintenant des situations dynamiques.

2.6. Jeu d'volution.


On considre une comptition entre 3 bactries : a produit des virus et anti-virus. b pro-

duit des anti-virus et c ne produit rien. La production est coteuse donc b gagne face

a et c face b mais a infeste c. On est en prsence d'un cycle. Il peut exister un point

stationnaire intrieur (o les 3 bactries sont prsentes) mais son type peut tre attractif

ou rpulsif.

2.7. Jeu stochastique.


On considre une situation o 2 pcheurs exploitent la mme espce qui est en quantit

importante (a), faible (b) ou en extinction (c). Les joueurs ont une activit intense (I) ou

rduite (R) et le rsultat de leur activit qui dpend de l'tat de l' espce (a, b ou c) est une
quantit de pche et une probabilit sur le nouvel tat. Ceci dnit un jeu stochastique.

Dans l'tat a la quantit de pche est

I R
I 100, 100 120, 60
R 60, 120 80, 80

et l'volution de l'tat est dni par

I R
I (0.3, 0.5, 0.2) (0.5, 0.4, 0.1)
R (0.5, 0.4, 0.1) (0.6, 0.4, 0)

Par exemple si le joueur 1 pche beaucoup (I ) et le joueur 2 peu (R), l'tat le jour suivant

sera a avec probabilit 0.5 (resp (b ; 0.4) et (c; 0.1)).


8 Chapitre 1. Introduction

Dans l'tat b les donnes sont

I R
I 50, 50 60, 30
R 30, 60 40, 40

I R
I (0, 0.5, 0.5) (0.1, 0.6, 0.3)
R (0.1, 0.6, 0.3) (0.8, 0.2, 0)

et dans l'tat c la pche est nulle et l'tat absorbant. Il y a clairement un conit entre

le gain immdiat et l'tat futur, et le comportement dpend de la dure de l'interaction.

(Voir Chapitre 9, Section 5).

2.8. Jeu rpt.


On considre une situation d'interaction rpte entre 2 joueurs o le rsultat de l'inter-

action chaque jour est donn par


a 10, 0 1, 1
b 5, 5 0, 0
Si on ne tient pas compte du futur, on obtient une rptition de (a, ) mais on peut

introduire des menaces du type jouer pour toujours dans le futur pour stabiliser le

rsultat (b, ). L'utilisation du couple plan et menaces est fondamental dans l'tude des

jeux rpts. (Voir Chapitre 9).

3. Notations et concepts de base

3.1. Jeu stratgique.


Un jeu stratgique sous forme normale G est dni par :

- un ensemble I de joueurs (de cardinal n)

- un ensemble de stratgies S i pour chaque joueur i


n i n
- une application g de S = i=1S dans IR .

g i(s1, , sn) est le gain du joueur i lorsque le prol s = (s1, , sn) est jou. On note
i i i j
aussi s = (s , s ) o s dnote le vecteur des stratgies s des joueurs autres que i.

Plus gnralement une forme jeu est une application F de S dans un espace de rsultats

R. Chaque joueur a un prordre total i sur R. Si celui-ci est reprsent par une fonction
i i i
d'utilit u de R dans IR la composition u F donne g qui est l'valuation par i du

rsultat. (Cela revient prendre comme ensemble de rsultats l'ensemble S des prols.)
Notations et concepts de base 9

3.2. Domination.
Pour x et y dans IRn on note :
x >> y si xi > y i, i,
x > y si xi y i, i, et x 6= y ,
x y si xi y i, i.
si est une stratgie dominante si

g i(si, .) g i(ti, .) ti S i.
si est strictement domine (resp. faiblement domine) si il existe ti avec

g i(si, .) << g i(ti, .)


resp.

g i(si, .) < g i(ti, .).

3.3. Elimination itre.


Le jeu est rsoluble si l'limination itre des stratgies strictement domines converge

vers un ensemble rduit un point (en particulier si chaque joueur possde une stratgie

strictement dominante), voir Example 4.1.

3.4. Meilleure rponse.


La correspondance de -meilleure rponse ( 0) est BRi de S i dans Si et dnie par :

BRi (si) = {si S i : g i(si, si) g i(ti, si) , ti S i}.


3.5. Extension mixte.
Dans le cas d'espaces de stratgies mesurables (S i, S i), G est
une extension mixte du jeu
i i i
la donne pour chaque i, d'un sous ensemble T de l'ensemble des probabilits sur (S , S ),
i
convexe et contenant S (identi aux masses de Dirac).
n i
On suppose que le thorme de Fubini s'applique l'intgrale de g sur T = i=1T . Cela

permet de dnir le paiement tendu qui est l'esprance par rapport la distribution

produit gnre par les stratgies mixtes des joueurs


Z
i
g (t) = g i(s) t1(ds1) . . . tn(dsn)
S

et correspond l'extension multilinaire de g .


QN i
Explicitement, dans le cas ni, si = i=1 (S ) dnote l'ensemble des stratgies mixtes
1 N
et si est le prol = ( , ..., ) , le paiement pour le joueur i dans l'extension

mixte du jeu est


X Y
g i() = j (sj )g i(s).
s=(s1,...,sN )S j
10 Chapitre 1. Introduction

4. Information et rationalit

4.1. Stratgie dominante et rsultat domin.


a 10, 0 1, 1
b 5, 5 0, 0

a domine b, puis est une meilleure rponse a, d'o le rsultat (1, 1).
En l'absence de a, le rsultat est (5, 5).

4.2. Ordre d'limination.


a 2, 2 1, 2
b 2, 0 0, 1

(2, 2) est limin par domination faible si on commence par le joueur 2, mais pas si on

commence par le joueur 1.

Rsultat : Il n'y a, par contre, pas d'ambiguit pour l'limination itre via la domination
stricte.

4.3. Domination et Pareto optimalit.


Dans le jeu suivant
1, 0 0, 1 1, 0
0, 1 1, 0 1, 0
0, 1 0, 1 1, 1

(1, 1) est le seul paiement partien et est limin par domination faible.

4.4. Hypothses de connaissance.


Il est fondamental de distinguer la connaissance de l'tat ou factual knowledge, qui cor-

respond la connaissance des paramtres du jeu : stratgies, paiements (dans ce cadre les

procdures autonomes ne dpendent pour un joueur que de ses propres stratgies et de son

propre paiement), et la connaissance du monde ou epistemic knowledge qui consiste en

plus en la connaissance de l'information et de la rationalit (ventuelle) des adversaires.

On fait alors face un paradoxe circulaire : pour dnir la rationalit d'un joueur il faut

spcier son information qui inclut, entre autres, son information sur la rationalit de ses

adversaires.
Information et rationalit 11

4.5. Domination et extension mixte.


La notion de domination dpend du cadre considr :

a 3 0
b 1 1
c 0 3
La stratgie b n'est pas domine par a ou b mais est domine par la stratgie mixte 12 a+ 12 c.

4.6. Dynamique et anticipation.


La dirence principale dans les situations dynamiques entre la modlisation en terme

de jeu rpt ou de jeu d'volution est la prise en compte, ou non, par les joueurs, des

consquences des actions prsentes sur le comportement futur des autres participants.

Rfrences
Parmi les nombreux ouvrages rcents soulignons :

Aumann R.J. and S. Hart, eds., Handbook of Game Theory I, II, III, North Holland,

1992, 1994, 2002.

Il s'agit d'une somme encyclopdique o chaque chapitre couvre un domaine prcis ; une

visite s'impose.

Hofbauer J. and K. Sigmund, Evolutionary Games and Population Dynamics, Cam-

bridge U.P., 1998.

LA rfrence concernant les jeux d'volution.

Laraki R., Renault J. et T. Tomala, Thorie des Jeux, X-UPS 2006, Editions de l'Ecole

Polytechnique.

Une introduction moderne et rapide aux jeux stratgiques et aux jeux rpts.

Owen G., Game Theory (3rd Edition), Academic Press, 1995.

Un ouvrage classique et d'approche aise.

Sorin S., A First Course on Zero-Sum Repeated Games, Springer, 2002.

Un panorama des jeux rpts somme nulle.

van Damme E., Stability and Perfection of Nash Equilibria, Springer, 1991.

Une approche prcise de la slection d'quilibre.


12 Chapitre 1. Introduction

Weibull J., Evolutionary Game Theory, MIT Press, 1995.

Un ouvrage agrable sur les liens conomie/volution.

Enn citons deux ouvrages de vulgarisation rcents :

G. Giraud, La thorie des jeux, Flammarion, 2009.

B. Guerrien, La thorie des jeux, Economica, 2002.


CHAPITRE 2

Jeux somme nulle : le cas ni


Les jeux somme nulle sont les jeux deux joueurs o la somme des fonctions de

paiement est nulle. Dans ce type d'interaction stratgique, les intrts des joueurs sont

opposs donc le conit est total et il n'y a pas de coopration possible.

1. Gnralits, valeur et stratgies optimales

Dnition 1.1. Un jeu somme nulle sous forme stratgique est dni par un triplet
(I, J, g) o : I (resp. J ) est l'ensemble (non vide) d'actions du joueur 1 (resp. 2), et

g : I J R est la fonction de gain du joueur 1.

L'interprtation est la suivante. Indpendamment, le joueur 1 choisit i dans I et le

joueur 2 choisit j dans J. g(i, j), et celui du joueur 2


Le paiement du joueur 1 est alors

est g(i, j) (les valuations du rsultat induit par le choix (i, j) sont opposes pour les 2
1 2
joueurs). Avec les notations du chapitre 1 on a donc g = g = g d'o la terminologie

jeu somme nulle. Chacun des deux joueurs connat le triplet (I, J, g).

Lorsque I et J sont nis, on dit sans surprise que (I, J, g) est un jeu somme nulle

ni. On reprsente alors le jeu par une matrice, o le joueur 1 choisit la ligne i, le joueur

2 choisit la colonne j , et les lments de la matrice reprsentent le paiement g(i, j). Par

exemple, le jeu suivant est appel Matching Pennies :

1 -1

-1 1

Rciproquement, toute matrice relle peut tre vue comme un jeu ni somme nulle,

aussi appel jeu matriciel.

On xe dans la suite un jeu somme nulle G = (I, J, g). Le joueur 1 maximise la fonc-
tion de paiement g , mais celle-ci dpend de deux variables i et j , et le joueur 1 ne contrle

que la variable i et pas la variable j . A l'oppos, le joueur 2 minimise g , et contrle j mais

pas i.

Dnition 1.2. Le joueur 1 garantit w R {} dans G si il possde une action qui

lui assure un paiement au moins gal w , i.e. si :

i I, j J, g(i, j) w.
13
14 Chapitre 2. Jeux somme nulle : le cas ni

Symtriquement, le joueur 2 garantit w R {+} dans G s'il a une action qui lui

assure de ne pas perdre plus que w, i.e. si

j J, i I, g(i, j) w.

Il est clair que pour tout i dans I le joueur 1 garantit inf jJ g(i, j), et pour j dans J
le joueur 2 garantit supiI g(i, j).

Dnition 1.3.
Le maxmin de G, not v, est la quantit supiI inf jJ g(i, j) R {+}.
Le minmax de G, not v, est la quantit inf jJ supiI g(i, j) R {}.

Ainsi, le maxmin est le supremum des quantits garanties par le joueur 1, et le min-

max est l'inmum des quantits garanties par le joueur 2. Le maxmin peut tre vu comme

l'valuation de l'interaction o le joueur 1 choisirait i en premier, puis le joueur 2 choi-

sirait j en connaissant i. Il s'agit de la pire situation pour le joueur 1 et donc conduit

une borne infrieure sur son paiement. De mme, le minmax correspond l'interaction

o c'est le joueur 2 qui joue en premier, puis le joueur 1 joue en connaissant l'action de

son adversaire. (Si le joueur 1 joue en premier mais que son choix n'est pas connu par le

joueur 2, il y a indpendance des choix).

Le fait que la premire situation soit moins favorable au joueur 1 se traduit par le lemme

suivant :

Lemme 1.4.
v v.

Preuve : Pour tous i dans I J , on a : g(i, j) inf j 0J g(i, j 0). En prenant le


et j dans

sup en i de chaque ct, on obtient : supiI g(i, j) v , pour tout j de J . En prenant

maintenant l'inf en j , on arrive : v v.

L'cart vv est appel le saut de dualit.

Dnition 1.5. On dit que le jeu G a une valeur si v = v, et dans ce cas la valeur

v = val(G) de G vaut par dnition v = v .

Dans l'exemple Matching Pennies, on a : v = 1 < 1 = v , et le jeu n'a pas de valeur

(on verra plus tard que l'extension mixte du jeu a une valeur).

Lorsque le jeu a une valeur, v (= v = v), celle-ci correspond l'issue rationnelle du jeu,

au sens de l'valuation quitable par les deux joueurs du jeu. La valeur peut alors tre

vue comme le prix du jeu G.


Le thorme du minmax 15

Lemme 1.6.
S'il existe w qui peut tre garanti la fois par le joueur 1 et le joueur 2, alors w est unique

et le jeu a une valeur qui vaut w.


Preuve : On a alors w v v w.

Dnition 1.7. Une stratgie du joueur 1 est dite maxmin -optimale si elle garantit
v . Si le jeu a une valeur, une telle stratgie est simplement dite -optimale. Les strat-

gies -optimales du joueur 2 sont dnies de faon duale. Les stratgies 0-optimales sont

dites optimales.

Exemple : G = (IN, IN, g), o g(i, j) = 1/(i + j + 1). Le jeu a une valeur qui est 0. Toutes
les stratgies du joueur 1 sont optimales, et le joueur 2 n'a aucune stratgie optimale.

Lorsque les espaces I et J sont measurables, on peut considrer les extensions mixtes

de G (cf. Chapitre 1, Section 3). Si une stratgie dans I garantit w dans G, alors la mme
stratgie garantit galement w dans toute extension mixte X, Y de G. En eet par lina-
R
rit de l'intgrale en y , g(x, y) =
J
g(x, j)dy(j) w pour tout y Y , ds que g(x, j) w
pour tout j J .

On en dduit :

Lemme 1.8.
Le saut de dualit d'une extension mixte de G est infrieur au saut de dualit initial de

G.
En particulier, si un jeu somme nulle possde une valeur, alors toute extension mixte

du jeu a galement la mme valeur.

Dans la suite de ce chapitre, on considre principalement le cas d'un jeu somme nulle

ni.

2. Le thorme du minmax

En thorie des jeux, on autorise souvent les joueurs choisir leurs actions de manire

alatoire. Par exemple, si l'on doit jouer dans Matching Pennies, ou programmer un or-

dinateur qui va jouer ce jeu online, il est clairement intressant de choisir chaque action

avec probabilit 1/2, an de cacher l'adversaire la ligne ou la colonne que l'on va jouer.

(Une autre interprtation des actions mixtes est que la probabilit associe aux actions

d'un joueur ne reprsente que la croyance de son adversaire sur son comportement (Har-

sanyi, 1973a) : voir le Chapitre 8).

Mathmatiquement, considrer des actions mixtes permet d'avoir des ensembles d'actions

convexes.
16 Chapitre 2. Jeux somme nulle : le cas ni

Si S est un ensemble ni de cardinal n, on note (S) l'ensemble des probabilits sur

S (ou le simplexe sur S) :


X
(S) = {x IRn; xs 0, s S; xs = 1}
s

L'extension mixte d'un jeu ni G = (I, J, g) est alors le jeu = ((I), (J), g), o la

fonction de paiement g est tendue de manire multilinaire en


X
g(x, y) = Exy g = xiy j g(i, j).
i,j

Un lment x de (I), resp. y de (J), est appel stratgie mixte du joueur 1, resp. joueur
2, dans le jeu . Par opposition, un lment de I , resp. J , est assimil une mesure de

Dirac et est appel stratgie pure du joueur 1, resp. joueur 2, dans .

Le support d'une stratgie mixte x du joueur 1, not supp (x), est l'ensemble des stratgies
i
pures i telles que x > 0.

On reprsentera souvent le jeu G par la matrice A avec Aij = g(i, j) pour tout (i, j) dans

I J . Un lment x de (I) sera alors vu comme une matrice ligne, et un lment y de


(J) comme une matrice colonne, de faon pouvoir crire le paiement comme la forme
bilinaire g(x, y) = xAy .

Thorme 2.1. (du Minmax)[Von Neumann, 1928]


Soit A une matrice relle I J. Il existe (x, y , v) dans (I) (J) R tel que :

y (J), xAy v et x (I), xAy v.

Autrement dit, l'extension mixte d'un jeu matriciel a une valeur (on dit aussi que tout

jeu somme nulle ni a une valeur en stratgies mixtes), et les joueurs y ont des stratgies

optimales.

Le rel v du thorme est unique, et correspond prcisment la valeur de la matrice A :

v = max min xAy = min max xAy.


x(I) y(J) y(J) x(I)

On note val(A) A.
la valeur de la matrice

dans R, l' oprateur val est continu,


IJ
En tant qu'application de R croissant et non

dilatant : |val(A) val(B)| kA Bk (voir Chapitre 3, Section 3).

Il existe de nombreuses preuves du thorme du minmax. Une dmonstration classique

repose sur le thorme de dualit en programmation linaire. Les deux programmes :

min < c, x > max < u, b >


(P1) Ax b (P2) uA c
x0 u0
Stratgies optimales 17

sont duaux et ont mme valeur ds qu'ils sont ralisables, i.e. ds que les ensembles

{Ax b; x 0} et {uA c; u 0} sont non vides. Ce rsultat est lui mme une cons-

quence du thorme de l'alternative pour des systmes linaires (voir par exemple, Sorin

(2002), App. A).

Preuve : On se ramne au cas o A  0.


On considre les 2 programmes duaux

min < X, c > max < b, Y >


(P1) XA b (P2) AY c
X0 Y 0
avec X IRm, Y IRn, c IRm, ci = 1, i et b IRn, bj = 1, j .
(P2) est ralisable avec Y = 0 et (P1) l'est en prenant X assez grand, par hypothse sur

A.

Il existe donc un triplet X , Y , w avec
X X
X 0, Y 0, X A b, AY c, Xi = Yj = w
i j

X 6= 0 implique w>0 soit en divisant par w, l'existence de (x, y ) (I) (J) avec

xAj 1/w, j, iAy 1/w, i.


La valeur existe et vaut 1/w, x et y sont des stratgies optimales.

Une preuve plus algorithmique du thorme de Von Neumann peut tre faite en utili-

sant un algorithme d'approchabilit (voir Exercice 2.4). Par ailleurs, on peut aussi utiliser

le thorme de Loomis (Thorme 4.1) qui se ramne une rcurrence sur la dimension.

Indiquons enn que le thorme du Minmax de Von Neumann se gnralise au cas o les

paiements ne sont plus ncessairement rels mais appartiennent un corps ordonn (et

alors la valeur est un lment du corps, Weyl, 1950).

3. Stratgies optimales

Soit un jeu matriciel dni par une matrice A dans RIJ .


On note X(A) (resp. Y (A)) le sous-ensemble de (I) (resp. (J)) form des stratgies

optimales du joueur 1 (resp. 2).

On rappelle qu'un polytope est l'enveloppe convexe d'un nombre ni de points (ce qui

quivaut en dimension nie un ensemble born, intersection d'un nombre ni de demi-

espaces).

Proposition 3.1.
a) X(A) et Y (A) sont des polytopes non vides.
18 Chapitre 2. Jeux somme nulle : le cas ni

b) Si x X(A), y Y (A), i supp (x) et j supp (y), alors iAy = v et xAj = v


(complmentarit).

c) Il existe un couple de stratgies optimales (x, y ) dans X(A) Y (A) satisfaisant

la proprit de complmentarit forte :


i
i I, x > 0 iAy = v et j J, (y j > 0 xAj = v).



d) X(A)Y (A) est l'ensemble des point-selles de A : lments (x , y ) de (I)(J)

tels que :

x A y x A y x A y (x, y) (I) (J).

Preuve : Les dmonstrations de a), b), et d) sont des consquences lmentaires des dni-
tions et du thorme du minmax. La proprit d) est en fait vraie pour tout jeu somme

nulle (elle correspond l'identit entre les couples de stratgies optimales et les quilibres

de Nash (voir le Chapitre 4) d'un jeu somme nulle).

L'assertion c) correspond la proprit de complmentarit forte en programmation

linaire et est une consquence du thorme de l'alternative.

4. Extensions

L'extension suivante du thorme de von Neumann est due Loomis.

Thorme 4.1 (Loomis, 1946).


Soient A et B deux matrices relles I J, avec B  0. Il existe (x, y, v) dans

(I) (J) R tel que :


xA v. xB et Ay v. By.

Si Bij = 1 pour tout (i, j) I J , on retrouve le thorme de Von Neumann. Rci-

proquement, on peut donner une preuve lmentaire du thorme de Loomis partir de

celui de Von Neumann : l'application : i R 7 val(A tB), est continue (strictement


dcroissante) et a pour limites + en , et en +. Il existe donc un rel v tel
que val(A vB) = 0, et il convient.

Voir l'Exercice 2.1 pour une preuve directe du thorme de Loomis.

Un exemple d'application du thorme de Von Neumann est le suivant :

Corollaire 4.2.
Toute matrice stochastique admet une probabilit invariante.

A une matrice stochastique dans RIJ : I = J , Aij 0 et jI Aij = 1.


P
Preuve : Soit

Notons B = A Id, o Id est la matrice identit, et plaons-nous dans le jeu dni par

B . Considrons tout d'abord la stratgie uniforme y du joueur 2. Elle garantit 0, donc


la valeur de B est ngative. De plus, contre n'importe quelle stratgie mixte y du joueur
Exemples 19

2, jouer une ligne i telle que y i = minjI y j donne un paiement positif au joueur 1, donc

le joueur 2 ne peut pas se garantir une quantit strictement ngative. Par consquent la

valeur de B est nulle.

Une stratgie optimale x du joueur 1 dans B vrie xA x 0, et en considrant le



produit par y on obtient l' galit sur toutes les composantes d' o x A = x (ou par

complmentarit).

Le thorme de Von Neumann permet de montrer l'existence de la valeur dans le cas

continu suivant, o ([0, 1]) est l'ensemble des probabilits borliennes sur [0, 1].

Thorme 4.3 (Ville, 1938).


Soient I = J = [0, 1], et f une fonction relle continue sur I J . L'extension mixte
((I), (J), f ) possde une valeur et chaque joueur a une stratgie optimale. De plus,
pour tout > 0, chaque joueur a une stratgie -optimale support ni.

(En particulier toute extension mixte du jeu (I, J, f ) a la mme valeur.)

Voir l'Exercice 2.3 pour la preuve : on procde par discrtisation de plus en plus ne

du carr [0, 1] [0, 1], et on extrait une sous-suite faiblement convergente d'une suite de

stratgies support ni.

L'Exercice 3.7 montre que l'hypothse f continue n'est pas superue dans l'nonc du

thorme de Ville.

5. Exemples

1 -2
Exemple 1.
-1 3

Ici v = 1/7. Le joueur 1 a une unique stratgie optimale : jouer Haut avec probabi-

lit 4/7, et Bas avec probabilit 3/7. Le joueur 2 a une unique stratgie optimale : jouer

Gauche avec probabilit 5/7, et Droite avec probabilit 2/7.

1 2
Exemple 2.
0 x

Quel que soit x, le jeu a une valeur v = 1, et chaque joueur a une unique stratgie

optimale, qui est pure : Haut pour le joueur 1, Gauche pour le joueur 2.

a b
Exemple 3.
c d
20 Chapitre 2. Jeux somme nulle : le cas ni

Dans le cas gnral 2 actions par joueur, soit il existe un couple de stratgies opti-

males pures (et alors la valeur est un des nombres {a, b, c, d}), sinon les stratgies optimales
sont compltement mixtes et la valeur vaut :

ad bc
v=
a+dbc

6. Fictitious play

Soit A une matrice relle I J. Le processus suivant, appel ctitious play, a t in-

troduit par Brown (1951). Imaginons des joueurs jouant de faon rpte le jeu matriciel

A. A chaque tape, chacun des joueurs calcule la moyenne empirique des actions joues

par son adversaire dans le pass, et joue une meilleure rponse pure face cette moyenne.

Explicitement, on part de (i1, j1) arbitraire dans I J , et chaque tape n on consi-


1
Pn 1
Pn
dre xn = t=1 it, vu comme un lment de (I), et de mme pour yn = n t=1 jt dans
n
(J).

Dnition 6.1. Une suite (in, jn)n1 valeurs dans I J est une ralisation d'un pro-

cessus de ctitious play pour la matrice A si : pour tout n 1, in+1 est une
meilleure

rponse du joueur 1 contre yn dans A, et jn+1 est une meilleure rponse du joueur 2 contre

xn dans A.

Thorme 6.2 (Robinson, 1951).


Soit (in, jn)n1 une ralisation d'un processus de ctitious play pour la matrice A. Alors

la distance entre (xn, yn) et l'ensemble des couples de stratgies optimales de A tend vers

0, quand n . Explicitement :
> 0, N, n N, x (I), y (J),
xnAy val(A) et xAyn val(A) + .
val(A).
1
Pn
De plus le paiement moyen sur la trajectoire, soit n t=1 Ait,jt, converge vers

Nous allons illustrer la preuve en passant en temps continu.

Prenons comme variables les frquences empiriques xn et yn, donc la dynamique discrte

s'crit (pour la composante du joueur 1) :

1
xn+1 = (in+1 + nxn)
n+1
et satisfait :
1
xn+1 xn [BR1(yn) xn]
n+1
o BR1 dnote la correspondance de meilleure rponse du joueur 1 (voir Chapitre 1, Sec-

tion 3).
Fictitious play 21

Le systme analogue en temps continu est alors :

1
BR1(y(t)) x(t) .

x(t)
t
C'est une inclusion direntielle qui correspond, avec la condition similaire pour le joueur

2, au processus CFP : continuous ctitious play.

Proposition 6.3 (Harris, 1998 ; Hofbauer and Sorin, 2006).


Pour le processus CFP, il y a convergence du saut de dualit vers 0 la vitesse 1/t.

Preuve

(Nous supposons l'existence d'une solution au processus CFP). On eectue le changement

de temps z(t) = x(exp(t)) qui ramne aux inclusions :


x(t) BR1(y(t)) x(t) , et y(t) BR2(x(t)) y(t) .
   

Nous obtenons la dynamique de meilleure rponse (Gilboa et Matsui, 1991). No-

tons le paiement F (x, y) = xAy , et pour (x, y) dans (I) (J), posons L(y) =
maxx0(I) F (x , y) et M (x) = miny0(J) F (x, y 0).
0

Donc le saut de dualit associ au couple (x, y) est : W (x, y) = L(y) M (x) 0 et le

couple (x, y) est une paire de stratgies optimales dans A si et seulement si W (x, y) = 0.

Soit maintenant (x(t), y(t))t0 une solution de CFP.

On note w(t) = W (x(t), y(t)) l'valuation du saut de dualit sur la trajectoire, (t) =

x(t) + x(t) BR1(y(t)) et (t) = y(t) + y(t) BR2(x(t)).


On a L(y(t)) = F ((t), y(t)), d'o

d
L(y(t)) = (t)D1F ((t), y(t)) + y(t)D2F ((y), y(t)).
dt
Le thorme de l'enveloppe (voir par exemple, Mas Colell, Whinston and Green, 1995,

p. 964) montre que le premier terme est nul et le second terme vaut F ((t), y(t)) (par

linarit de F par rapport la seconde variable). On a donc :

d d
w(t) = L(y(t)) M (x(t))
dt dt
= F ((t), y(t)) F (x(t), (t))
= F (x(t), y(t)) F (x(t), y(t))
= F (x(t), (t)) F ((t), y(t))
= M (x(t)) L(y(t))
= w(t).
soit : w(t) = w(0)et. Il y a convergence de w(t) vers 0 vitesse exponentielle, et donc

convergence vers 0 vitesse 1/t dans le problme initial avant changement de temps. La
22 Chapitre 2. Jeux somme nulle : le cas ni

convergence vers 0 du saut de dualit implique par continuit la convergence de (x(t), y(t))
vers l'ensemble des stratgies optimales.
Pn
Considrons enn la somme des paiements raliss : Rn = p=1 F (ip, jp). En posant
i
Ump = m
P
k=1 F (ip, jk) on obtient
Xn i
Xn Xn1 Xn1
Rn = (Upip Up1
p
)= Upip Upip+1 = Unin + (Upip Upip+1)
p=1 p=1 p=1 p=1

mais la proprit de ctitious play implique

Upip Upip+1 0.
i Uni
Donc lim sup Rnn lim sup maxi Unn val(A) car
n
= F (i, yn) val(A) +  pour n assez

grand par le rsultat tabli plus haut.

L'ingalit duale implique alors le rsultat.

Remarquons que par compacit des ensembles de stratgies mixtes, on obtient l'exis-

tence de stratgies optimales dans le jeu matriciel (points d'accumulation des trajectoires).

On retrouve donc le thorme du minmax, partir de l'existence d'une solution au pro-

cessus CFP.

Le rsultat est en fait plus fort : l'ensemble des stratgies optimales est un attracteur glo-

bal pour la dynamique de meilleure rponse ce qui implique la convergence de la version

discrte en temps, donc du processus de ctitious play (Hofbauer and Sorin, 2006).
CHAPITRE 3

Jeux somme nulle : cas gnral


On considre ici des jeux somme nulle gnraux. Comme dans le thorme de Von

Neumann, on appelle thorme de minmax un rsultat donnant des conditions susantes

d'existence de la valeur.

1. Le thorme de Sion

Le lemme suivant, appel lemme de l'intersection, sera utile par la suite (voir Berge,

1966, p.172).

Lemme 1.1.
Soient C1,..., Cn des convexes compacts non vides d'un espace euclidien. On suppose que
n
l'union i=1Ci est convexe, et que pour tout j = 1, ..., n, l'intersection i6=j Ci est non vide.
n
Alors l'intersection totale i=1Ci est non vide.

Preuve : C'est clair pour n = 1. Soit n 2, supposons le rsultat vrai pour n 1 et


faux pour n. Soient C1,..., Cn satisfaisant les hypothses et tels que ni=1Ci = . Alors Cn
n1
et i=1 Ci, not Dn, sont des convexes compacts non vides disjoints. Par le thorme de

Hahn-Banach on peut les sparer strictement par un hyperplan ferm H.


n
Pour i = 1, ..., n 1, on pose Ci = Ci H et C = (i=1Ci) H , qui sont donc convexes
n1 n1
et compacts. Comme Cn H = = Dn H , on a i=1 Ci = C et i=1 Ci = . Par

hypothse de rcurrence applique l'ordre n1 Ci, il existe j dans {1, ..., n 1}


aux

tel que i6=j,nCi = . Posons K = i6=j,nCi, on a Dn K et Cn K 6= . Comme K


est convexe et intersecte des ensembles spars par l'hyperplan H , K H 6= . Mais

K H = i6=j,nCi = , d'o la contradiction.

Remarque : La preuve n'utilisant que le thorme de sparation stricte de Hahn-Banach,


le rsultat est vrai dans tout espace o ce thorme s'applique (comme les espaces vecto-

riels topologiques localement convexes spars).

Avant d'noncer le thorme de minmax de Sion, on introduit les dnitions suivantes.

Dnition 1.2. Une application f : E R, o E est convexe, est quasi-concave si pour


tout rel , la section suprieure large {x E, f (x) } est convexe. f est quasi-convexe

23
24 Chapitre 3. Jeux somme nulle : cas gnral

si f est quasi-concave.

D'autre part, si E f : E R est semi-continue


est un espace topologique, une application

suprieurement (s.c.s) si pour tout rel , la section suprieure large {x E, f (x) }

est ferme. f est semi-continue infrieurement (s.c.i.) si f est s.c.s.

Il est clair que si E est compact et f s.c.s, alors f atteint son maximum sur E .

Dans les thormes suivants, les ensembles de stratgies S et T sont des sous-ensembles

de R-espaces vectoriels topologiques spars.

Thorme 1.3 (Sion, 1958).


Soit un jeu somme nulle G = (S, T, g) tel que :

(i) S et T sont convexes,


(ii) S ou T est compact,

(iii) pour tout t dans T , g(., t) est quasi-concave s.c.s. en s, et pour tout s dans S , g(s, .)
est quasi-convexe s.c.i. en t.

Alors G a une valeur :

sup inf g(s, t) = inf sup g(s, t).


sS tT tT sS

De plus, si S (resp. T) est compact, les suprema (resp. inma) ci-dessus sont atteints :

le joueur correspondant possde une stratgie optimale.

Preuve : Supposons par exemple S compact, et que G n'a pas de valeur. Alors il existe

un rel v tel que : supsS inf tT g(s, t) < v < inf tT supsS g(s, t). Et donc :
s S, t T, g(s, t) < v,
t T, s S, g(s, t) > v.
On se ramne au cas o S et T sont des polytopes, puis on applique le lemme de l'inter-

section.

Posons, pour tout t dans T , St = {s S, g(s, t) < v}. La famille (St)tT forme un
recouvrement ouvert du compact S , dont on peut extraire un sous-recouvrement ni :

S tT0St, avec T0 ni.

L'enveloppe convexe T 0 = conv (T0) est compacte (homomorphe au simplexe sur T0, en

dimension nie, il n'y a qu'une topologie d'espace vectoriel topologique spar) et l' on a

encore : supsS inf tT 0 g(s, t) < v car bien sr S tT 0St et v < inf tT 0 supsS g(s, t) car

l' inf est pris sur un ensemble plus petit.

Comme plus haut, la famille (Ts0 = {t T 0, g(s, t) > v})sS , forme un recouvrement ouvert
de T 0. On peut donc aussi trouver un sous-ensemble ni S0 de S tel que :

s conv (S0), t T0, g(s, t) < v,


t conv (T0), s S0, g(s, t) > v.
Le thorme de Sion 25

Quitte enlever des lments S0 et T0, on peut supposer sans perte de gnralit que

(S0, T0) est minimal pour l'inclusion (dans l'ensemble des couples (A, B) o A et B sont

des sous-ensembles non vides de S et T satisfaisant l'analogue des deux dernires condi-

tions).

Pour s dans S0, notons maintenant As = {t conv (T0), g(s, t) v}. As est un sous-
ensemble convexe compact de conv (T0). On a sS0As = et pour tout s0 dans S0,

sS0\{s0}As 6= par minimalit de S0. Par consquent, le lemme de l'intersection im-


plique que l'ensemble sS0As n'est pas convexe. Il existe alors t0 conv (T0)\ sS0 As,

et donc g(s, t0) > v , pour tout s S0. Puisque g(., t0) est quasi-concave, on a galement :

g(s, t0) > v , pour tout s conv (S0).


On montre de mme l'existence de s0 conv (S0) tel que g(s0, t) < v , pour tout

t conv (T0), d'o la contradiction en valuant g(s0, t0).


L'existence de stratgie optimale vient simplement du fait que si S est compact, l'ap-

plication : s 7 inf tT g(s, t) est s.c.s.

En renforant l'hypothse de convexit sur g(s, .), on peut aaiblir les hypothses

topologiques. Dans le rsultat suivant, on ne considre en fait aucune topologie sur T.

Proposition 1.4.
Soit un jeu somme nulle G = (S, T, g) tel que :

(i) S est convexe compact,


(ii) T est convexe,

(iii) pour tout t dans T , g(., t) est quasi-concave s.c.s., et pour tout s dans S , g(s, .) est

convexe.

Alors G a une valeur : supsS inf tT g(s, t) = inf tT supsS g(s, t), et le joueur 1 a une

stratgie optimale.

Preuve : Supposons qu'il existe un rel v vriant : supsS inf tT g(s, t) < v < inf tT supsS
g(s, t). Comme dans la preuve du thorme de Sion, il est d'abord possible de trouver un

ensemble ni T0 = {t1, .., tJ } T s S , t T0, g(s, t) < v .


tel que :

On munit l'espace ane engendr par les lments de T0 d'une norme, et on note

int(conv (T0)) l'intrieur relatif de conv (T0). Pour tout s dans S , g(s, .) est convexe, donc

est continue sur int(conv (T0)) (une fonction convexe dnie sur un ouvert d'un espace

euclidien y est continue, voir par exemple Berge (1966), Thorme 7, p. 203).
n 1 1
Fixons t0 dans int(conv (T0)) et posons pour tout n 1 et j {1, .., J} : tj = t0 +(1 )tj
n n
n n n
et St = {s S, g(s, tj ) < v}. Pour tous j , n, par convexit de g(s, .), on a g(s, tj )
j
1
n
g(s, t0) + (1 n1 )g(s, tj ). Donc les ensembles Stnj forment un recouvrement ouvert de S .
26 Chapitre 3. Jeux somme nulle : cas gnral

On peut donc trouver un sous-ensemble ni T1 de int(conv (T0)) tel que :

s S, t T1, g(s, t) < v,


t conv (T1), s S, g(s, t) > v.
Maintenant, puisque g(s, .) est continue sur conv (T1) pour tout s dans S et que g(., t) est
s.c.s,

max min g(s, t) < min max g(s, t).


sS tconv (T1) tconv (T1) sS
Ceci contredirait le thorme de Sion, et donc G a une valeur.
Comme prcdemment, l'application : s
7 inf tT g(s, t) tant s.c.s., le joueur 1 a une

stratgie optimale (mais pas ncessairement le joueur 2).

2. Thormes de minmax en stratgies mixtes

On considre ici des jeux sans hypothse de convexit sur les espaces de stratgies. On

est amen convexier un ensemble X soit en prenant f (X) l'ensemble des probabilits
sur X support ni (c'est l'enveloppe convexe de X ), soit dans le cas topologique (X)

l'ensemble des probabilits rgulires sur X.


On peut tout d'abord montrer le rsultat suivant l'aide de la proposition 1.4.

Proposition 2.1.
Soit un jeu somme nulle (S, T, g) tel que :

(i) S est un espace topologique compact,

(ii) Pour tout t dans T , g(., t) est s.c.s..


Alors le jeu ((S), f (T ), g) a une valeur et le joueur 1 a une stratgie optimale.

Preuve : Il sut de vrier que si S est compact et g(., t) s.c.s., alors (S) (muni de la
R
topologie faible ) est compact et 7 g(, t) = g(s, t)(ds) est s.c.s..
S
Par ailleurs g(, ) est bien dnie sur (S) f (T ) et est bilinaire. Donc les conditions

de la proposition 1.4 s'appliquent.

Le thorme suivant est le thorme de minmax classique en stratgies mixtes. On sup-

pose la fonction de paiements borne (et mesurable) an de pouvoir appliquer le thorme

de Fubini et ainsi dnir l'extension mixte du jeu.

Thorme 2.2.
Soit un jeu somme nulle G = (S, T, g) tel que :

(i) S et T sont compacts,

(ii) Pour tout t dans T , g(., t) est s.c.s., et pour tout s dans S , g(s, .) est s.c.i.

(iii) g est borne et mesurable par rapport la tribu Borlienne produit BS BT .


Convexit 27

Alors l'extension mixte de G a une valeur. Chaque joueur a une stratgie optimale mixte,

et pour tout > 0, chaque joueur a une stratgie -optimale support ni.

Preuve : On applique la proposition 2.1 respectivement aux jeux G+ = ((S), f (T ), g)


+ +
et G = (f (S), (T ), g) qui induisent des valeurs v et v avec bien sr v v .
+
Soit (resp. ) une stratgie optimale pour 1 dans G (resp. 2 dans G ). On obtient :
Z
g(s, t)(ds) v +, t T
S
Z
g(s, t) (dt) v , s S.
T
D'o en utilisant le thorme de Fubini ;
Z Z
+
v g(s, t)(ds) (dt) v
ST

et le rsultat suit.

3. Convexit

Les rsultats du paragraphe prcdent peuvent tre galement obtenus partir d'un

thorme de sparation en dimension nie.

Proposition 3.1.
Soit un jeu somme nulle (S, T, g) tel que :

(i) S est un espace mesurable et X un ensemble convexe de probabilits sur S.


(ii) T est ni

(ii) g est mesurable et borne.

Alors le jeu (X, (T ), g) a une valeur.

v = supX inf T g(x, t) et D = {a IRT : x X, g(x, t) =


R
Preuve : Soit
X
g(s, t)x(ds) =
at, t T }. On note que D est convexe et a une intersection vide avec le convexe

C = {a IRT ; at v + , t T }, pour tout > 0.


Par le thorme de sparation (en dimension nie) on en dduit l'existence d'un vecteur

b IRT , non nul et tel que


hb, di hb, ci c C, d D.
C est positivement comprhensif d'o b>0 et en normalisant on obtient y (T ) avec

X Z
g(x, y) = g(s, t)x(ds)yt v + x X.
t S

Donc v v +, > 0, d'o l'galit et par compacit l'existence d'une stratgie optimale
pour 2.
28 Chapitre 3. Jeux somme nulle : cas gnral

4. Oprateur valeur et jeu driv

Fixons ici les ensembles de stratgies S et T et considrons un ensemble F de fonctions

relles dnies sur S T , tel que :


F est un cne convexe (F est stable par addition et mutliplication par un rel positif, et

0 F ),
et pour tout f dans F le jeu (S, T, f ) a une valeur note valST (f ) ou plus simplement

val(f ).
Clairement, l'oprateur val est :
1) monotone : f g val(f ) val(g), et

2) il translate les constantes : t IR, val(f + t) = val(f ) + t.

On en dduit facilement :

Proposition 4.1.
L'oprateur val est non dilatant :

|val(f ) val(g)| kf gk
(avec kf gk =def supST |f (s, t) g(s, t)|).

La proposition suivante tend la version du cas ni, due Mills (1956).

Proposition 4.2 (Rosenberg and Sorin, 2001).


Soient S et T des compacts, f
g des fonctions relles dnies
et S T . On suppose
sur

que pour tout 0, les fonctions g et f + g sont s.c.s. en s et s.c.i. en t, et que le jeu

(S, T, f + g) a une valeur valST (f + g). Alors


1
lim+ [valST (f + g) valST (f )] existe
0
et cette limite vaut :

valS(f )T (f )(g),
o S(f ) et T (f ) sont les ensembles des stratgies optimales dans le jeu (S, T, f ).

Preuve : Les hypothses impliquent l'existence de s S(f + g) et de t T (f ). On a :

g(s, t) = [f + g](s, t) f (s, t) valST (f + g) valST (f ).


Donc :
1
inf g(s, t) [valST (f + g) valST (f )]
T (f )
et
1
[valST (f + g) valST (f )]
lim sup inf g(s, t) lim sup
0+ T (f ) 0+

Soit s un point d'accumulation de la famille s quand tend vers 0 sur une suite ralisant
Oprateur valeur et jeu driv 29

la lim sup. Puisque g est s.c.s. en s


inf g(s, t) lim sup inf g(s, t).
T (f ) 0+ T (f )

On note que s S(f ) (S est compact et f + g s.c.s. en s) d'o :

1
sup inf g(s, t) lim sup [valST (f + g) valST (f )]
S(f ) T (f ) 0+
et le rsultat suit par une ingalit duale.

Le jeu (S(f ), T (f ), g) est appel jeu driv de f dans la direction g.


CHAPITRE 4

Jeux n joueurs : rationalit et quilibre de Nash


1. Notations

Soit G = (N, (S i)iN , (g i)iN ) un jeu sous forme stratgique. N est l'ensemble des
i
joueurs (de cardinal not N s'il n'y a pas de confusion). S , i N , est l'ensemble des stra-
i
tgies (pures) du joueur i. On suppose que S est un sous ensemble d'un espace vectoriel
i j
Q
topologique localement convexe et spar. g : S = jN S IR est la fonction de gain
du joueur i, qui est suppose borne, i N .

G est compact (resp. ni, de dimension nie) si les S i le sont pour tout i N .
G est continu si les g i le sont pour tout i N .
G est quasi-concave si les S i sont convexes et les g i sont quasi-concaves en S i pour tout
i N.

2. Dominance

On considre ici un jeu ni et son extension mixte.

On rappelle qu'une stratgie si S i est strictement domine s'il existe i (S i) tel que
i i
pour tout t S , g i( i, ti) > g i(si, ti).
i
Une stratgie s n'est jamais meilleure rponse une stratgie mixte s'il n'existe pas

i j6=i(S j ), tel que si BRi( i).


Une stratgie corrle de i est un lement
[i]
(S i). (Noter que [i] n'est pas
N i [i]
un vecteur produit). Le paiement correspondant est dni dans IR par g(s , ) =
[i] i i i i
P
si (s )g(s , s ). Une stratgie s n'est jamais meilleure rponse une stratgie
corrle s'il n'existe pas
[i]
(S i), tel que si BRi([i]).
Ds qu'il y a trois joueurs ou plus, une stratgie peut tre une meilleure rponse une

stratgie corrle sans tre une meilleure rponse une stratgie mixte :

L R L R L R L R
T 8 0 M1 T 4 0 T 0 0 T 3 3
B 0 0 B 0 4 B 0 8 B 3 3

M2 M3 M4

Dans le jeu ci-dessus le joueur 1 choisit T ou B, le joueur 2 L ou R, le joueur 3

31
32 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

M i, i = 1, ..., 4 et les paiements sont ceux du joueur 3. M 2 est une meilleure rponse du
1 1
joueur 3 (T L)+ (BR) mais n'est meilleure rponse aucune stratgie mixte de {1, 2}.
2 2

Proposition 2.1.
si est strictement domine si est seulement si elle n'est jamais meilleure rponse une

stratgie corrle de i.
Preuve : Soit si strictement domine et i (S i) tel que pour tout ti S i,
g i( i, ti) > g i(si, ti). Par linarit, on dduit que g i( i, [i]) > g i(si, [i]) pour tout
[i] (S i) : si ne peut tre meilleure rponse une stratgie corrle.
i
Inversement, supposons que s ne soit jamais meilleure rponse une stratgie corr-

le. Considrons l'extension mixte du jeu matriciel H deux joueurs et somme nulle o
i
le joueur i a comme ensemble de stratgies pures S et joue contre l'quipe des joueurs

i (pris comme un joueur) ayant comme ensemble de stratgies pures S i. La fonction


i i i i i i i i i i
de paiement de i dans H est h (t , t ) = g (t , t ) g (s , t ). Puisque s n'est jamais

meilleure rponse une stratgie corrle dans G, la valeur de H est strictement positive.
i i
Toute stratgie mixte optimale du joueur i dans H dominera strictement s dans G.

Une stratgie si S i est domine s'il existe i (S i) tel que pour tout ti S i,
g i( i, ti) g i(si, ti) et il existe au moins un point ti o l'ingalit est stricte.
i
Une stratgie s n'est jamais meilleure rponse une stratgie compltement cor-

rle s'il n'existe pas


[i]
int((S i)) (i.e. telle que [i](si) > 0, si) tel que
si BRi([i]).
Proposition 2.2.
si est domine si et seulement si elle n'est jamais meilleure rponse une stratgie com-

pltement corrle.

Preuve : Si si est domine alors il existe i (S i) tel que pour tout ti S i,


g i( i, ti) g i(si, ti) avec au moins un cas o l'ingalit stricte. Par linarit, on d-
i i [i]
duit que g ( , ) > g i(si, [i]) pour tout [i] int((S i)) : si ne peut tre meilleure
rponse une stratgie compltement corrle.

Supposons que si ne soit pas meilleure rponse une stratgie compltement corrle.
Considrons le jeu matriciel H comme dans la preuve prcdente. Le joueur i peut garan-
i
tir 0 dans H en jouant s , sa valeur est au moins 0.

Si la valeur est strictement positive, toute stratgie optimale dans H domine strictement

si dans G ce qui implique que si n'est pas meilleure rponse une stratgie corrle.
i
Supposons maintenant que la valeur est zro, impliquant par l mme que s est optimale
i
dans H . Puisque s n'est pas meilleure rponse une stratgie compltement corrle, au-

cune stratgie optimale de l'quipe i ne peut tre support plein. (Rappelons que dans
Rationalisabilit 33

tout jeu ni somme nulle, l'ensemble des stratgies optimales d'un joueur est convexe

et qu'une stratgie pure est utilise dans une stratgie optimale si et seulement si cette

stratgie est optimale contre toutes les stratgies optimales de l'opposant (Chapitre 2,

Proposition 3.1. c)). Soit ti S i n'appartenant au support d'aucune stratgie optimale

de i. Il existe donc une stratgie i (optimale pour i dans H ) face laquelle ti S i


i
n'est pas une meilleure rponse. Cela signie que pour tout s S i, hi( i, si) 0 et
hi( i, ti) > 0. Donc i domine si dans G.

3. Rationalisabilit

Une stratgie si qui n'est jamais meilleure rponse ne peut pas tre joue par un joueur
qui maximise face un prol de stratgies de ses adversaires : on dit qu'elle n'est pas jus-

tiable. En particulier, une stratgie strictement domine n'est pas justiable.

Dnissons inductivement l'ensemble des stratgies justiables l'tape 1 par

S i(1) = BRi(S i) = {si; si S i, si est une meilleure rponse si}, i N


puis S i(k + 1) = BRi(S i(k)). En passant de S(k) S(k + 1), la procdure limine les

stratgies qui ne sont jamais meilleure rponse aux stratgies qui restent justiables

T i = kS i(k). i
Q
l'tape k. On obtient une suite dcroissante de limite Soit T = i T . Les
lments de T sont les stratgies rationalisables.

Proposition 3.1 (Bernheim, 1984 ; Pearce, 1984).


Soit G un jeu compact et continu. Alors T est un compact non vide, point xe de BR.
C'est le plus grand ensemble LS tel que

L BR(L).

Preuve : La continuit du jeu implique la semi-continuit suprieure de la correspon-

dance BR et puisque le jeu est compact, chaque S(k) est compact. On obtient ainsi une

suite embote de compacts non vides qui converge versT compact non vide. Par ailleurs
T S(k + 1) = BR(S(k)). Donc T limk BR(S(k)) BR(T ). Enn T S(k) im-
plique BR(T ) BR(S(k)) = S(k + 1). En passant la limite on dduit que BR(T ) T .

Soit maintenant L tel que L BR(L). Puisque L S = S(1) et L BR(L) nous

obtenons, L BR(S(1)) = S(2). Inductivement, L S(k) et L BR(L) implique

L BR(S(k)) = S(k + 1). En passant la limite nous en dduisons que L T .

Remarques
- La Proposition 2.1 montre le lien de cette procdure avec l'limination itre de strat-

gies strictement domines.

- Il est par ailleurs instructif de prciser les hypothses sur les connaissances des joueurs
34 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

(sur l'tat et sur le monde) pour tablir le fait qu'ils puissent se livrer cette rduction

des stratgies rationalisables.

- On pourra comparer aux orbites de trajectoires de meilleure rponse dans le cadre de

jeux d'volution.

4. Equilibre de Nash

Un quilibre (de Nash) est un prol de stratgies sS o aucun joueur n'a intrt

dvier de manire unilatrale. Autrement dit, pour chaque joueur, s'il pense que les autres

vont suivre le prol alors il est rationnel pour lui de jouer selon le prol.

Un jeu peut avoir plusieurs quilibres non-interchangeables ( la dirence fondamen-

tale des jeux somme nulle). Par ailleurs l'interprtation de la notion d'quilibre de Nash

a donn lieu une littrature imposante. Ce concept a eu un impact considrable en

conomie mais aussi en biologie, science politique, informatique, recherche oprationnelle,

intelligence articielle et bien d'autres domaines d'applications. L'quilibre de Nash est

considr ici comme une condition mathmatique de cohrence qu'il s'agit de comprendre

et d'tudier.

Dnition 4.1. Un -quilibre est un prol s S tel que pour tout i, si BRi (si),
soit :

g i(ti, si) g i(s) + , ti S i, i.

On note BR : S S , la correspondance de meilleure rponse globale qui s S


i i
Q
associe iN BR (s ).

Dnition 4.2. s est un quilibre (de Nash) si s BR(s).


Un quilibre est strict si {s} = BR(s).

Quand BR() est rduite un singleton, c'est une fonction. Dans ce cas, tous les qui-

libres de Nash sont stricts et trouver un quilibre revient trouver un point xe d'une

fonction.

5. Cas ni

On rappelle que l'extension mixte d'un jeu ni G est le jeu o l'ensemble des stratgies
i i
du joueur i est (S ), l'ensemble des probabilits sur l'ensemble ni S . et son paiement

est
X Y
g i() = j (sj )g i(s).
s=(s1,...,sN )S j
Un quilibre mixte du jeu G est un quilibre de l'extension mixte de G.
Cas ni 35

Lemme 5.1.
est un quilibre mixte d'un jeu ni G si et seulement si pour tout i et tout si S i,
g i(si, i) < max
i i
g i(ti, i) i(si) = 0.
t S

g i( i, i) = i
(ti)g i(ti, i),
P
Preuve : Puisque tiS i est un quilibre mixte de G si et

seulement si pour tout i,

g i( i, i) = max
i i
g i(ti, i).
t S
i i i i i i
Donc g (s , ) < maxtiS i g (t , ) implique i(si) = 0.

Le thorme fondamental est le suivant.

Thorme 5.2 (Nash, 1950).


Tout jeu G ni admet un quilibre mixte.

Preuve : Soit f l'application de Nash de vers dnie par :

i(si) + (g i(si, i) g i())+


f ()i(si) =
1 + tiS i(g i(ti, i) g i())+
avec a+ = max(a, 0). Cette application est bien dnie et valeurs dans : f ()i(si) 0
i i
P
et siS i f () (s ) = 1.
Puisque f est continue et que est convexe et compact (comme produit de N ensembles

convexes et compacts), le thorme de Brouwer 10.4 implique qu'il existe tel que

f () = .
i i i
Un tel est un quilibre de Nash. En eet, xons un joueur i. Si tiS i(g (t , )

g i())+ = 0 alors g i( i, i) maxtiS i g i(ti, i) : le joueur i joue une meilleure rponse


i i i i + i
face aux autres joueurs. Sinon, tiS i(g (t , ) g ()) > 0. Mais comme il existe s
i i i i i i
avec (s ) > 0 et g (s , ) g () on obtient :

i i i(si)
(s ) =
1 + tiS i(g i(ti, i) g i())+
d' o i(si) = 0 et la contradiction.

Rciproquement tout quilibre est un point xe de f car toutes les quantits (g i(ti, i)
g i())+sont nulles.

Le jeu G a une symtrie si : (1) j = (i), induit une


permute les joueurs et si
i j (i)
permutation de S sur S avec (2) pour tout i N et tout s S , g ((s)) = g i(s). Une
telle permutation gnre naturellement une application oprant sur : si j = (i) et

alors ()j ((si)) = i(si).

Thorme 5.3 (Nash, 1950).


36 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

Un jeu ni G de symtrie admet un quilibre mixte de symtrie ( = ()).


Preuve : Soit X le sous ensemble des prols de stratgies mixtes symtriques ( dans

telle que = ()).


X est non vide car le prol o tous les joueurs jouent uniformment est symtrique et

donc dans X. X est ferm et convexe car si et sont dans X alors,

+ 1 + 1 N + N
={ , ..., }
2 2 2
l'est aussi. L'application de Nash f prserve par dnition la symtrie (f (X) X ). Le

Thorme de Brouwer implique donc l'existence d'un quilibre symtrique.

6. Extensions

Thorme 6.1 (Nash, 1951, Glicksberg, 1952).


Si G est un jeu compact, quasi-concave et continu, alors l'ensemble des quilibres de Nash

de G est ferm et non-vide.

Si G est un jeu compact et continu son extension mixte a un quilibre.

Preuve : La quasi-concavit de G implique que pour tout s, BR(s) est convexe. La conti-
nuit et la compacit de G assurent que pour tout s, BR(s) est non-vide, est compact
et que le graphe de BR est ferm (l'hypothse de continuit jointe est ici cruciale). Le

thorme de Ky Fan (Section 10) s'applique donc la correspondance F = BR d'o :

l'ensemble des quilibres de Nash de G est ferm et non vide.

Si G est un jeu compact et continu son extension mixte l'est galement (en utilisant par

exemple le thorme de Stone-Weierstrass) et est multilinaire. On utilise alors le rsultat

prcdent.

Remarquons que si les g i sont strictement quasi-concaves pour tout i, tous les quilibres
de Nash sont stricts car dans ce cas, les ensembles BR(s) sont rduits des singletons

pour tout s.

Application : Cournot a introduit et appliqu plus d'un sicle avant Nash la notion
d'quilibre stratgique. Dans un duopole de Cournot, chaque rme, i = 1, 2, choisit de

produire une quantit qi [0, 100], sans connatre, lors de sa dcision, le montant produit

par son adversaire. La fonction de cot de la rme i s'exprime par : Ci(qi) = 10qi, et le
prix de vente p qui rsulte de la production totale q = q1 + q2 est p = 100 q. La stratgie

d'une rme consiste donc choisir son niveau de production qi, et son prot est :

g i(q 1, q 2) = p qi Ci(qi) = (90 (q1 + q2)) qi.


Ces fonctions sont continues et concaves et les espaces de stratgies sont compacts et

convexes, il existe donc un quilibre de Nash (dit de Cournot). Il est facile de voir
Le thorme de Reny 37

45
que cet quilibre ne peut tre sur le bord : qi = 0 qj = 45 qi = 2
et

qi = 100 qj = 0 qi = 45. Donc l'quilibre est intrieur. Etant donn que la fonction
de paiement du joueur i est concave et direntiable, les conditions d'optimalit du pre-
i 90qj
mier ordre sont ncessaires et susantes. Nous dduisons donc que BR (qj ) = . Les
2
90q2 90q1
conditions d'quilibre sont alors : q1 = et q2 = . L'quilibre de Cournot-Nash
2 2
de ce jeu est donc q1 = q2 = 30.

7. Le thorme de Reny

Plusieurs exemples standards en conomie comme le jeu de comptition en prix de

Bertrand, les jeux de timing, les enchres, la guerre d'usure ou la course au brevet ne sont

pas des jeux continus. Reny (1999) a pu tendre le thorme d'existence et couvrir aussi

le cas discontinu dans un cadre topologique assez gnral.

Dnition 7.1. Le joueur peut scuriser le paiement rel s


i S s'il existe si S i
tel que g i(si, sei) ei dans un ouvert U contenant si.
pour tout s

(s, g) S IRN : g = g(s) .



Le graphe de G est l'ensemble On note la fermeture

du graphe de G.

Dnition 7.2. Le jeu G est robuste (better-reply secure) si pour tout (s, g) dans
o sn'est pas un quilibre de Nash, il existe un joueur i qui peut scuriser un paiement
i
strictement plus lev que g .

Un jeu continu est ncessairement robuste mais l'inverse est faux : le jeu de Bertrand

ou l'enchre au premier prix sont robustes mais ils ne sont pas continus.

Thorme 7.3. (Reny, 1999)


Si G est un jeu compact, quasi-concave et robuste, l'ensemble des quilibres de Nash de G
est ferm et non-vide.

Preuve : Pour chaque joueur i et tout s S, on introduit :

inf g i(si, si) = lim iinf


g i(s) = sup i g i(si, si
n )
U 3si se U sn si

o le sup est pris sur tous les voisinages de si. g i (si, ) est s.c.i. en si. On en dduit
que s est un quilibre de Nash si il existe g tel que (s, g) et pour tout joueur i,

supsiS i g i(si, si) g i. En eet si s n'est pas un quilibre, il existe un joueur i qui peut
i i
scuriser > g , ce qui implique :

sup g i(si, si) i.


siS i
38 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

(s, t) SS, on introduit g(s, t) = g 1(s1, t1), ..., g i(si, ti), ..., g N (sN , tN )

Etant donns

et E(s) = (t, h) : g(s, t) h . Ainsi un quilibre de Nash existe ds que sS E(s)
est non vide.

Puisque chaque g i est borne, est un ensemble compact. Par ailleurs g i(si, ti) est
i
s.c.i. en t , donc g(s, t) est aussi s.c.i. en t, d'o E(s) est compact pour tout s. Il sut

donc de montrer que sF E(s) est non vide pour tout ensemble F ni ou d'une manire

quivalente, (s, g) tel que g(s, s) g pour tout s F .


i i i i i
Posons F = {s1, ..., sm}. Soit S0 = {s1, ..., sm} et soit coS0 l'enveloppe convexe de S0
i i i
(de dimension nie). Le polytope coS0 est compact. Par consquent, g (s , ) est s.c.i. sur
Q j
j6=i coS0 .
Nous avons besoin du lemme d'approximation suivant (pour la preuve, nous renvoyons

Reny, 1999).

Lemme 7.4.
Soit T compact mtrique et f : T IR semicontinue infrieurement. Il existe une suite

de fonctions continues fn : T IR telles que, pour tout t T :


(i) fn(t) f (t).
(ii) tn t : lim inf n fn(tn) f (t).

j
si S0i , il existe une suite de fonctions gni (si, ) sur
Q
En particulier, pour tout j6=i coS0 ,
continues sur cet ensemble (mtrique convexe et compact), et telles que pour tout

si j6=i coS0j :
Q
i i i i i i
(i) gn(s , s ) g (s , s ).
i i
(ii) sn s : lim inf n gni (si, si i i i
n ) g (s , s ).
Construisons maintenant une suite de jeux Gn. L'ensemble des stratgies du joueur i
j
i
Q 
dans Gn est (S0). Pour chaque jN S0 , la fonction de gain du joueur i dans
Gn est
X
fni () = gni (si, si)i(si)
siS0i

sj = j
(sj )sj coS0j .
P
o sj S0j Le jeu Gn satisfait aux hypothses du thorme de Nash-

Glicksberg, il admet donc un quilibre de Nash n (et sn associ). Pour tout i et tout si
tel que in(si) > 0 et pour tout sei S0i :
si, si) fni (n) = gni (si, si
gni (e i i i i i i
n ) g (s , sn ) g (s , sn ).

Les premires ingalit et galit sont une consquence du fait que n est un quilibre et
i i i
que la fonction de gain fn ( , ) est linaire en (et que donc tout si tq in(si) > 0
i

i
doit tre optimal pour le joueur i face n dans Gn). La deuxime ingalit rsulte de
(i) dans le lemme prcdent.

En intgrant par rapport n et en utilisant la quasi-concavit de g i en si, nous dduisons


Le thorme de Reny 39

que pour tout i et tout sei S0i :


si, si
gni (e i i
n ) fn (n) g (sn).

Sans perte de gnralit et utilisant la compacit, on peut supposer que sn s et que

g i(sn) g i. D'o, pour tout se F,


g i (e si, si
si, si) lim inf gni (e i
n ) g ,
n

o la premire ingalit est une consquence de (ii).

Ce rsultat permet d'obtenir une condition plus directe sur les fonctions de paiement

qui tend les conditions du thorme de Sion (1958) plusieurs joueurs.

Dnition 7.5. Un jeu G est rciproquement-s.c.s. si pour tout (s, g) dans : si g(s) g
alors g(s) = g.

Cela est le cas si par exemple la somme des fonctions de paiement est s.c.s. ou

constante.

Corollaire 7.6 (Extension de Sion).


Si G est compact, quasi-concave et rciproquement-s.c.s. et si pour tout i, et tout si g i(si, .)
i
est s.c.i. en S alors le jeu possde un quilibre de Nash.

Preuve : Il sut de montrer que le jeu est robuste. Soit (s, g) dans et supposons que

s ne soit pas un quilibre. Reciproquement-s.c.s. implique que gi (s) > g pour au moins

un joueur i ou gi (s) = g i. Dans le deuxime cas, puisque s n'est


pour tout joueur

b tel que gi sbi, si > g. Cela est vrai dans le premier


i

pas un quilibre, il existe i et s

cas aussi (prendre s bi = si). Enn, la semicontinuit infrieure de g i en si implique que


si, sei) > gi sbi, si est un ouvert. Cela implique que le joueur i peut scu-
 i 
se : gi (b
bi, si > g. Le jeu est donc robuste.

riser gi s

Pour l'extension mixte on a le rsultat suivant.

Corollaire 7.7 (Reny, 1999).


Soit G e compact avec des fonctions de paiement mesurables et bornes. Si l'extension

mixte de G est robuste alors le jeu possde un quilibre de Nash mixte..

Preuve : L'extension mixte vrie les hypothses du thorme de Reny car (S i) est

compact et la quasi-concavit des fonctions de paiements vient de la linarit.

L'extension mixte d'un jeu continu est continue et est donc robuste. Par ailleurs, cer-

tains jeux peuvent tre robustes alors que leur extension mixte ne l'est pas, et inversement.

En passant en mixte, il devient la fois plus facile et plus dicile pour un joueur de s-

curiser un paiement. C'est plus facile car ce joueur a plus de stratgies, ce qui tend
40 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

augmenter le paiement qu'il peut scuriser. C'est plus dicile car il doit scuriser face

un ensemble de perturbation plus grand, ce qui tend diminuer le paiement scuriser.

Il peut s'avrer dicile de vrier que l'extension mixte d'un jeu est robuste, d'o la

condition plus directe suivante.

Corollaire 7.8 (Extension de Sion en mixte).


Si Gest compact et sparable, si les fonctions de paiement sont mesurables et bornes
i i i i
et si pour tout i, et tout s , g (s , .) est s.c.i. en s et que l'extension mixte de G est

rciproquement-s.c.s. alors le jeu possde un quilibre de Nash mixte.

Preuve : L'extension mixte satisfait aux conditions du Corollaire 7.6 car l'extension mixte

des paiements reste s.c.i. par rapport aux stratgies des autres.

8. Semi-algbricit

On se place ici dans le cadre des jeux nis. Chaque S i est un ensemble ni, de cardinal
Nm
mi. On pose m = imi. Un jeu est alors identiable un point de IR .

Par exemple, dans le cas de 2 joueurs avec 2 stratgies chacun, on obtient :

L R
T (a1, a2) (a3, a4)
B (a5, a6) (a7, a8)
et g IR8.

Proposition 8.1.
L'ensemble des quilibres en stratgies mixtes est dni par une famille nie d'ingalits

polynomiales larges.

Preuve : est un quilibre ssi :


X
i(si) 1 = 0, i(si) 0, si S i, i N,
siS i

et
X Y
g i() = i(si)g i(s) g i(ti, i), ti S i, i N,
s=(s1,...,sN )S i
i i
les inconnues tant les (s ).

On utilise ici l'aspect multilinaire pour comparer les paiements uniquement dans le cas

de dviations pures, qui sont en nombre ni.


k
Un ensemble ferm de IR est semi-algbrique si c'est une union nie d'ensembles de

la forme {x : Pk(x) 0, k = 1, ..., r} o chaque Pk est un polynme. Les ensembles

semi-algbriques (introduits par Nash) ont beaucoup de proprits structurelles.


Semi-algbricit 41

Thorme 8.2.
k
Soit V un ensemble semi-algbrique ferm de IR alors V possde un nombre ni de com-

posantes connexes.

Preuve : Pour une preuve et d'autres rsultats, consulter l'ouvrage de Benedetti et Risler

(1990).

Corollaire 8.3.
L'ensemble des quilibres en stratgies mixtes d'un jeu ni est une runion nie d'en-

sembles connexes semi-algbriques fermes.

Pour le jeu suivant


L M R
T (2, 1) (1, 0) (1, 1)
B (2, 0) (1, 1) (0, 0)
on obtient :

L 1
T 2
B

Considrons le jeu (Kohlberg et Mertens, 1986)

L M R
T (1, 1) (0, 1) (1, 1)
m (1, 0) (0, 0) (1, 0)
B (1, 1) (0, 1) (2, 2)

Il y a une seule composante connexe d'quilibres qui est de la forme

et donc homomorphe un cercle (dans l'espace des stratgies).

Chaque point est limite d'un quilibre d'un jeu proche : par exemple avec >0 le jeu
42 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

L M R
T (1, 1 ) (, 1) (1 , 1)
m (1, ) (, ) (1 + , )
B (1 , 1) (0, 1) (2, 2)

a comme quilibre (/(1 + ), 1/(1 + ), 0); (0, 1/2, 1/2).

9. Dveloppements et exemples

9.1. Paiements possibles et point de menace.


Soit G un jeu ni. On introduit les notions suivantes :

le niveau individuellement rationnel pour le joueur i est

V i = min
i
max
i
Gi(ti, ti)
S S

et le point de menace est V.


L'ensemble des paiements possibles dans le jeu en un coup est

P1 = {x IRn; s S, G(s) = x}
et est l'ensemble des paiements possibles et individuellement rationnels

= {x P1; xi V i}.
Voici 3 exemples

L R
T (1, 1) (1, 0)
B (0, 1) (0, 0)

1
V

P1

0 1
Dveloppements et exemples 43

L R
T (1, 1) (0, 1)
B (1, 0) (0, 0)

P1

0 1

L R
T (3, 1) (0, 0)
B (0, 0) (1, 3)

3 3

V = ,
4 4 P1

0 3
44 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

Il est facile de voir que P1 est un ensemble ferm et connexe par arcs ; simplement

connexe si n = 2, mais pas pour 3 joueurs (voir Exercice 5.3).

9.2. Invariance.
Soit le jeu symtrique suivant :

L R
T (3, 3) (0, 0)
B (0, 0) (2, 2)

Soient a, b , c , d des rels quelconques. Translatons la matrice prcdente comme suit :

L R
T (3 + a, 3 + c) (0 + b, 0 + c)
B (0 + a, 0 + d) (2 + b, 2 + d)

En particulier la correspondance de meilleure rponse est inchange : l'invariance strat-

gique implique que ces jeux doivent avoir le mme ensemble de solutions.

Si a = 2, b = 0, c = 1 et d=0 nous obtenons le jeu :

L R
T (1, 1) (0, 2)
B (2, 0) (2, 2)

et si a = 1, b = 2, c = 1 et d=0 le jeu devient :

L R
T (2, 4) (2, 1)
B (1, 0) (4, 2)

Le jeu 1 admet deux quilibres de Nash purs (T, L) et (B, R) et un quilibre mixte et sym-
( 52 T, 53 B), ( 52 L, 35 R) . Les jeux 2 et 3 admettent videmment les mmes quilibres

trique

de Nash.

Si une thorie dicte que la solution du jeu 1 devrait tre (T, L) car c'est dans l'intrt

commun des deux joueurs (ce qui semble raisonnable) et si cette thorie est invariante

stratgiquement elle devrait slectionner (T, L) dans le jeu 2, mais l'intrt commun des

joueurs dans ce jeu est (B, R). Si cette thorie slectionne dans le jeu 1 l'quilibre mixte

car c'est le seul qui respecte la symtrie du jeu, elle devrait faire de mme dans le jeu 3.

Mais, ce dernier n'est pas symtrique.


Dveloppements et exemples 45

9.3. Prudence.
A la dirence des jeux somme nulle, la notion d'quilibre de Nash dans les jeux

somme non-nulle ne capture pas la notion de risque. Considrons le jeu suivant :

L R
T (3, 1) (2, 2)
B (100, 2) (3, 3)

(B, R) avec le paiement (3, 3) est l'unique quilibre de Nash. Cependant, mme si le joueur
1 croit que le joueur 2 va jouer R, va-t-il vraiment jouer B et risquer de perdre 100 si pour

une raison ou une autre (irrationalit, stupidit, vengeance, erreur) le joueur colonne joue

L? Jouer B semble dangereux pour le joueur ligne alors que jouer T est sans risque car

au pire il obtient 2.
Plus gnralement
i
est une stratgie mixte prudente pour le joueur i si pour tout si :

g i( i, si) imax i imini g i( i, ti)


(S ) t S

Soit l'exemple suivant (Aumann et Maschler, 1972) :

L R
T (2, 0) (0, 1)
B (0, 1) (1, 0)

1 1
Le seul quilibre est donn par x= 2
et y= 3
avec un vecteur de paiement d'quilibre

( 23 , 21 ).
Une stratgie prudente x du joueur 1 consiste jouer optimal dans le jeu somme nulle :
L R
T 2 0
B 0 1

donc
1
3
x =
et garantit
2
3
au joueur 1.

De mme, une stratgie prudente y du joueur 1 consiste jouer optimal dans le jeu

somme nulle :
L R
T 0 1
B 1 0
46 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

donc y = 1
2
et garantit
1
2
au joueur 2.
2 2
Considrons le joueur 1 : jouer x lui assure de gagner . Jouer x ne gatantit pas mais
3 3
2
c'est la stratgie d'quilibre de paiement .
3
Si le joueur 2 joue sa stratgie d'quilibre y, le joueur 1 sera indirent entre T et B et
donc n'importe quelle stratgie sera une meilleure rponse y, en particulier x. Et s'il
ne joue pas la stratgie d'quilibre, l'itration des meilleures rponses ne converge pas.

Rajouter comme stratgies pures ces stratgies donne le jeu suivant :

L R y y
T (2, 0) (0, 1) (1, 1/2) (2/3, 2/3)
B (0, 1) (1, 0) (1/2, 1/2) (2/3, 1/3)

x (2/3, 2/3) (2/3, 1/3) (2/3, 1/2) (2/3, 4/9)
x (1, 1/2) (1/2, 1/2) (3/4, 1/2) (2/3, 1/2)

9.4. Pareto optimalit et domination.


Dans le leu suivant :

(1, 0) (0, 1) (0, 0)


(0, 1) (1, 0) (1, 0)
(0, 0) (0, 1) (1, 1)

le seul paiement partien est un quilibre de Nash en stratgies faiblement domines.

9.5. Domination.
L'addition d'une stratgie dominante pour un joueur peut tre dfavorable ce joueur :

L R
T (10, 0) (1, 1)
B (5, 5) (0, 0)

9.6. Rationalit et information.


Dans le jeu suivant, le joueur 2 a des paiements indpendants de ses coups. L'ensemble

des quilibres de Nash est donc donn par le graphe de la correspondance de meilleure

rponse du joueur 1 et il y a une seule composante connexe :

L R
T (1, 1) (0, 1)
B (0, 0) (2, 0)
Dveloppements et exemples 47

B
1
L 3
R

Cependant si le joueur 2 connait les paiements du joueur 1 (et qu'il sait que le joueur 1

le sait), on peut penser qu'il jouera L (et R dans le jeu ci dessous).

L R
T (0, 1) (1, 1)
B (2, 0) (0, 0)

Le comportement rationnel dpend des paiements des autres joueurs ...

9.7. Self-enforcing.
Dans le jeu ci-dessous l'quilibre (T, L) est Pareto-dominant mais (B, R) est risk- domi-

nant. Par ailleurs (T, L) n'est pas self-enforcing (Aumann, 1990) : le joueur 1 a intrt

ce que le joueur 2 joue L, quels que soient ses plans pour le futur.

L R
T (7, 7) (0, 6)
B (6, 0) (5, 5)

Par contre dans la bataille des sexes ci-dessous l'quilibre (T, L) est self-enforcing pour le

joueur 1

L R
T (2, 1) (0, 0)
B (0, 0) (1, 2)
48 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

10. Thormes de Brouwer et de Ky Fan

Pour prouver le thorme de Brouwer, nous utiliserons le lemme de Sperner qui n-

cessite des notations nouvelles.

Soit un simplexe de dimension k , donc avec k + 1 sommets nots {x0, ..., xk}(en dimen-
sion zro c'est un point, en dimension un c'est un intervalle, deux un triangle, trois une

pyramide,etc...).

Une subdivision simpliciale de est une triangulation du simplexe en sous-simplexes.

Plus prcisment, c'est une collection nie de simplexes {i} qui satisfait ii = et

pour tout (i, j), i j est soit vide, soit un simplexe de la collection. Le pas d'une

subdivision est le plus large diamtre d'un sous-simplexe.

Soit V la collection des sommets de tous les sous-simplexes. Chaque point v de V


se dcompose d'une manire unique comme combinaison convexe des points extrmes xk
Pk i i
(v = i=0 (v)x )). Soit

I(v) = {i : i(v) > 0} {0, ..., k}


l'ensemble des indices ayant un poids strictement positif dans la dcomposition. co{xi :
i I(v)} est donc la face minimale de contenant v dans son intrieur relatif.

Une coloration de V est une fonction qui associe chaque v dans V un entier dans

I(v). L'interprtation est la suivante : en tout, il y a k + 1 couleurs possibles. Le sommet


xk a par dnition la couleur k . La couleur d'un point v de l'intrieur relatif d'une face F
de peut tre celle de n'importe quel sommet de F .

Un sous-simplexe est compltement color si ses sommets portent toutes les (k + 1)

couleurs possibles.

Lemme 10.1 (Sperner, 1928).


Pour toute subdivision simpliciale du simplexe, il existe un nombre impair de sous-

simplexes compltement colors.

Preuve : Par rcurrence sur k . Si k = 0, c'est trivial. Supposons le rsultat vrai pour k 1.
Imaginons que le simplexe soit une maison. Les sous-simplexes de dimension k seront les

direntes pices. Une porte est par dnition un sous-simplexe de dimension k 1 ayant

toutes les couleurs 0, ..., k 1.

Une pice peut possder zro porte, une porte ou deux portes. En eet, supposons qu'une

pice possde k sommets colores par les couleurs 0, ..., k 1. Si le dernier sommet a la

couleur manquante k, la pice ne possde qu'une porte (et par la mme occasion elle sera

compltement colore), sinon la pice aura exactement deux portes (et il lui manquera

une couleur).

L'hypothse de rcurrence implique qu'il y a un nombre impair de portes sur la face conte-
Thormes de Brouwer et de Ky Fan 49

nant les sommets x0, ..., xk1. Montrons donc qu'il existe un nombre impair de pices avec
exactement une seule porte. La preuve est obtenue par un algorithme.

Imaginez que vous entrez dans le simplexe par une porte de l'extrieur. Si la pice o

vous entrez possde une autre porte, vous entrez via cette porte vers une autre pice, si

cette dernire possde une autre porte, vous continuez votre chemin ainsi de suite jusqu'

ce que (1) vous sortez de et ce par la face par laquelle vous etes entr (par hypothse sur
la coloration) ou (2) vous arrivez vers une pice sans autre porte de sortie. Cette dernire

sera alors compltement colore.

Puisqu'il y a un nombre impair de portes extrieures (par rcurrence), il y a un nombre

impair de pices compltement colores que vous pouvez atteindre en venant de l'ext-

rieur.

Soit i une pice compltement colore et ne pouvant pas tre atteinte de l'extrieur.

Cette pice a exactement une seule porte. Vous pouvez en sortir et entrer dans une nou-

velle pice, et continuer ainsi de suite jusqu' ce que (1) vous arriviez dans une autre

pice j sans aucune porte de sortie (compltement colore) et dirente de la pice ini-

tiale ou (2) vous sortez de . Mais l'ventualit (2) implique que i peut tre atteinte de
l'extrieur (absurde). Les pices compltement colores non lies l'extrieur vont donc

par paires.

En dnitive, il y a en tout un nombre impair de pices compltement colores.

Il existe donc au moins un sous-simplexe compltement color. Notons que la preuve

est constructive et donne par la mme occasion un algorithme.

Il existe une version plus forte de ce lemme. On peut tablir que le nombre de sous-

simplexes compltement colors avec une orientation positive (i.e. la mme que ) est

exactement un de plus que ceux avec une orientation oppose. L'orientation est facile

voir en dimension 2. En suivant dans l'ordre les couleurs 0, 1 puis 2 d'un sous-simplexe,

son orientation sera +1 si on tourne dans le mme sens que celui de et elle sera 1
sinon. La somme des orientations (indices) est gale +1. La preuve est sensiblement

la mme. On montre que deux pices intrieures lies entre elles ont ncessairement des

orientations opposes et on utilise la rcurrence pour les pices relies l'extrieur.

Corollaire 10.2.
Toute fonction continue f : d'un simplexe dans lui-mme admet un point xe.

= k = {(r0, ..., rk) IRk+1; ri 0, ki=0 ri = 1} le simplexe unitaire de


P
Preuve : Soit
k
dimension k et  > 0. On considre une subdivision de de pas plus petit que . Soit

une coloration de V qui satisfait :

(v) I(v) {i : f i(v) v i}.


Pk i
P i
Le choix est possible car l'intersection est non vide sinon, 1= i=0 f (v) > iI(v) v = 1.
50 Chapitre 4. Jeux n joueurs : rationalit et quilibre de Nash

Par le lemme de Sperner, pour tout , il existe un sous-simplexe compltement color. Il


i i
existe donc k + 1 points v(i, ) avec f (v(i, )) v(i, ) pour tout i, et kv(i, ) v(j, )k

, i, j . En faisant tendre vers zro on dduit l'existence d'un point v tel que pour tout
i, f i(v) v i. Puisque v et f (v) sont dans k, f (v) = v .

Lemme 10.3.
Soit K un ensemble homomorphe un simplexe . Si f :KK est continue, alors f
admet un point xe.

Preuve : Supposons qu'il existe un homomorphisme h entre k et K : h1f h : k k


est continue. Elle admet donc un point xe, z = h1 f h(z). h(z) est donc un point
xe de f dans K.

Thorme 10.4 (Brouwer, 1912).


Soit C un convexe compact non-vide d'un espace euclidien de dimension nie k et

f : C C continue, alors f admet un point xe.

Preuve : Soit un simplexe qui contient C dans son intrieur relatif. Puisque C est

convexe, sur C est une application


la projection orthogonale de continue (et mme

Lipschitz). Soit g = f . g : C est continue, elle admet donc un point xe

(qui est ncessairement dans C ). C'est donc aussi un point xe de f .

Ce thorme a t tendu des correspondences en dimension nie par Kakutani

(1941). Une version plus gnrale est la suivante.

Thorme 10.5 (Fan, 1952).


Soit C un convexe compact non-vide d'un espace vectoriel mtrique et F une correspon-

dance de C dans C telle que :


(i) c C , F (c) est un convexe compact non-vide,

(ii) le graphe de F est ferm.

Alors, {c C : c F (c)} est ferm et non vide.

F n'a pas de point xe, la distance (x) de tout


Preuve : La preuve se fait par l'absurde. Si

x au ferm F (x) est > 0. On dnote par x l'ouvert convexe x = {y C; d(y, F (x)) <
(x)/2}. Ux = {z C; F (z) x} est un ouvert contenant x (car F est s.c.s.) donc
il contient aussi une boule ouverte B(x, s(x)) avec 0 < s(x) < (x)/3. On a donc

B(x, s(x)) x = . Les boules ouvertes B(x, s(x)/2) recouvrent C , soit B(xi, s(xi)/2)
un sous recouvrement ni. Pour r = mini s(xi)/2 et pour tout z C la boule ouverte

B(z, r) est incluse dans une boule B(xi, s(xi)). On extrait du recouvrement de C par les
boules B(z, r) un nouveau recouvrement ni {B(zk, r)} puis on considre une partition de
d(x, B(zk, r)c
l'unit subordonne : fk(x) = P . On a donc une famille nie de fonctions
c
j d(x, B(zj , r)
Thormes de Brouwer et de Ky Fan 51

P
continues fk de C dans [0, 1] avec k fk = 1 et fk = 0 en dehors de B(zk, r). Prenons
P
yk F (zk) et posons f (x) = k fk(x)yk. f induit une fonction continue de Co{yk} dans lui
mme donc a un point xe x par le thorme de Brouwer. Si fk(x) > 0 alors x B(zk, r)

donc zk B(x, r) B(xi, s(xi)) Uxi pour un certain i. Donc yk F (zk) xi et

par convexit f (x) xi mais x B(xi, s(xi)) et xi B(xi, s(xi)) = ce qui contredit

f (x) = x.

Il est aussi vident que le thorme de Kakutani implique celui de Brouwer. On peut

montrer (Exercice 5.1) que supposer l'existence d'un quilibre de Nash pour tout jeu ni

deux joueurs permet de prouver le thorme de Kakutani. Ainsi, il semble que toute la

dicult du thorme de Brouwer se rsume dans le cadre des jeux nis deux joueurs. On

a prouv que beaucoup de problmes de point xe appartiennent la classe de problmes

dit PPAD-complets (Brouwer, quilibre Walrasien, Nash avec beaucoup de joueurs, etc).

La mme proprit a t montr rcemment pour les jeux nis 2 joueurs (Chen et Deng,

2006). Calculer numriquement un quilibre de Nash pour un jeu ni deux joueurs est

donc un problme dicile.


CHAPITRE 5

Varit des quilibres et dynamique


1. Varit des quilibres

On se place encore ici dans le cadre des jeux nis. Chaque Si


est un ensemble ni, de
i i Nm
cardinal m et m = im . Un jeu g est alors identiable un point de IR .

On considre ici la varit des quilibres obtenue en prenant les paiements comme para-

mtres. Les quations d'quilibre forment une famille nie d' ingalits plynomiales en

(g, )
Fk(g, ) 0, kK
o g RN m est le jeu et le prol de stratgies.
Soient G l'ensemble des jeux (on rappelle que le nombre des joueurs et les ensembles de

stratgies pures sont xs) et E le graphe de la correspondance d'quilibre :

E = {(g, ); g G, quilibre de g}
que l'on tend par continuit la compactication G de G et que l'on note E.

Thorme 1.1 (Kohlberg et Mertens, 1986).


La projection de E sur G est homotope un homomorphisme.
i
Preuve : On dcompose un paiement g en g et h, o pour tout i, hi est un vecteur de IRm
avec

g i(si, si) = g i(si, si) + hi(si)


et
X
g i(si, si) = 0, si S i.
siS i
i
= i (S i) on introduit le vecteur V g i( i) dans IRm dont la compo-
Q
Pour tout
i i i i m
sante sur s est le paiement g (s , ) et V g() dnote le vecteur correspondant dans IR
i
(V g est le paiement vectoriel du joueur i). On pose alors, pour g = (g; h) et t [0, 1] :

t(g, ) = (g; t( + V g()) + (1 t)h)


qui est l'homotopie annonce.

On a clairement 0 = . t() = , t [0, 1].


Vrions que

On note .k la norme innie et un voisinage de est de la forme kxk M . Soit alors

k(g, )k 2R + 1, d'o kgk 2R + 1 et donc soit kgk R d'o kt(g, )k R ou


53
54 Chapitre 5. Varit des quilibres et dynamique

bien khk 2R + 1 et kgk R, ce qui implique kt( + V g()) + (1 t)hk R. En eet

kt( + V g()) + (1 t)h hk k( + V g()) hk 1 + kgk R + 1.


Il reste tablir le rsultat suivant.

Lemme 1.2.
= 1 est un homomorphisme de E sur G.
i
Preuve : On pose, partant de g = (g, z), avec z = {z i} et z i IRm :
X
v i = min{u; i
(zsi u)+ = 1}
sS
i
puis s = (zsi
v) i +
= g i(s, i).
i
et enn `s zsi si
Alors (g) = (g; z) = ((g, `), )

(i) est une application de G dans E , et satisfait

(ii) = IdG

(iii) = IdE .

Pour le premier point, vrions que (qui est un prol de stratgies, par construc-
i i i i
tion de v ) est un quilibre dans le jeu = (g, `). Si s > 0, s = zs v et alors

i(s, i) = g i(s, i) + `is = zsi si = v i. Par ailleurs, si = 0 implique zsi v i donc


i(s, i) = zsi v i. Les actions joues par le joueur i donnent le paiement v i et les autres
moins : est un quilibre de paiement vectoriel v .

Pour (ii), partant de g = (g, z) nous obtenons, via , le couple ( = (g, `); ) puis par ,

le jeu (g, + V ()). Or () = g() + `() = g() + z() g() donc + V () = z

et le jeu d'arrive est g .

Finalement pour (iii), partant d'un couple (g = (g, h); ) dans E on obtient (g, + V g())

dans G . Soit z = + V g() comme dans la construction prcedente, point (i). Mais
i i i i
puisque est un quilibre dans g (de paiement w ) on obtient : s > 0 g (s, ) = w
i i i i
et s = 0 g (s, ) w . Donc le v associ z est w , la stratgie associe est et

` = h.

Soit g un jeu et N E(g) l'ensemble de ses quilibres qui est compos d'un nombre ni

de composantes connexes Ck, k K .

Ck est essentielle si pour tout voisinage V de Ck dans , il existe un voisinage W de g


0 0
dans G tel que pour tout g W il existe N E(g ) V .

Proposition 1.3.
i) Gnriquement l'ensemble des quilibres est ni et impair.

ii) Tout jeu possde dans E une composante essentielle.

Preuve : i) Gnriquement un quilibre est isol et transverse la projection. Si il est

sortant le degr est 1 et -1 si il est rentrant. Le degr global de la projection (somme


Varit des quilibres 55

sur les composantes) est invariant par homotopie donc gal 1 (par l'homomorphisme) :

il y a p+1 quilibres de degr + 1 et p de degr -1.

ii) Par rcurrence, il sut de montrer que si les quilibres de g sont dans U V , o U et
V sont 2 ouverts dont les adhrences sont disjointes alors il existe un voisinage W de g
0 0
tel que tout g W a des quilibres dans U ou tout g W a des quilibres dans V .

Soit (g) le graphe de la correspondance de meilleure rponse en g (dans ). Il existe

donc un voisinage ( coupes convexes) C de (g) tel que l'intersection avec la diagonale

soit dans U V .

On procde par l'absurde, donc on suppose qu'il existe g1 proche de g dont tous les qui-

libres sont dans U et de mme pour g2 et V . Par ailleurs on peut supposer que (gi) C .

Soit une fonction continue de dans [0, 1], nulle sur U et gale 1 sur V . La corres-

pondance dnie par T () = ()(g1)() + (1 ())(g2)() est s.c.s. et valeurs

convexes. Son graphe est inclus dans C donc son ensemble de points xes, non vide est

dans U V . Considrons un tel = T (). Si U , () = 0 et est un point xe de

(g2) donc dans V . On obtient de mme une contradiction si V .

Dans le jeu suivant, paramtr par


L R
T (, 0 (, 0)
M (1, 1) (1, 1)
B (1, 1) (1, 1)
la correspondance d'quilibre est donne par :

L
1
2
+ 2

T
R

0 1 R
FIG 5.1
56 Chapitre 5. Varit des quilibres et dynamique

2. Champs de vecteurs et dynamique

Dnition 2.1. Un champ de Nash est une application continue (ou une correspondence
s.c.s) de G dans telle que

N E(g) = { ; (g, ) = }

Si on ne demande pas de rgularit en g on pourrait, pour chaque jeu, slectionner un

quilibre et dnir (g, ) = sur le complmentaire de N E(g).

Proposition 2.2.
Les deux fonctions suivantes sont des champs de Nash :

1. (Nash, 1950)
i(si) + (g i(si, i) g i())+
(g, )i(si) =
1 + ti(g i(ti, i) g i())+
2. (Gul, Pearce and Stacchetti, 1993)

Soit P l'oprateur de projection sur le convexe , produit des simplexes i. On dnit

(g, ) = P({ i + V g i( i)}).

Preuve : Pour le point 1, voir Chapitre 4, preuve du Thorme 5.2.

Pour le point 2, observons que est un quilibre de g si et seulement si :

h, V g()i h, V g()i, .
Par ailleurs la projection d'un point x sur un convexe C est l'unique point C (x) C
vriant :

hx C (x), y C (x)i 0, y C.
La premire ingalit, crite sous la forme

h + V g() , i 0,
exprime donc le fait que est la projection de + V g() sur , d'o le point xe de

(g, .).

Chaque champ de Nash induit pour chaque jeu g un systme dynamique

= (g, )
sur le produit des simplexes et dont les point stationnaires sont N E(g).
Chaque composante de l'ensemble des points xes a un indice et la somme des indices

est 1 qui est la carristique d'Euler du simplexe (Thorme de Poincar-Hopf, voir Milnor

(1965)).

De plus l'indice d'une composante C est indpendante du champ de Nash et est gal au
Equilibre et volution 57

degr sur C de la projection de E sur G (Demichelis and Germano (2000), Govidan and

Wilson (1997)).

Pour le jeu suivant, paramtr par t


L R
T (t, t) (0, 0)
B (0, 0) (1 t, 1 t)

on obtient pour la varit et les dynamiques la stituation suivante :

0 +1
T

B +1 0

0 1 R
FIG 5.2

3. Equilibre et volution

3.1. Dynamique du rplicateur.


On considre un jeu symtrique 2 joueurs spci par une matrice A (II ). Aij est la

tness (le taux de reproduction) de i dans une interaction (i, j). (Le paiement du joueur
t
2 est donc B = A.)
La premire approche correspond l'tude d'une population unique et polymorphe de

composition p jouant en stratgies pures, une proportion pi tant de type i.

Dnition 3.1. Une population p (I) est stationnaire si

pi > 0 iAp = pAp


donc tous les types prsents ont le mme taux de reproduction et la composition de la

population reste identique aprs l'interaction.

Si p a un support plein, c'est un quilibre symtrique, mais par ailleurs toute stratgie
pure est stationnaire.
58 Chapitre 5. Varit des quilibres et dynamique

Dnition 3.2. La dynamique du rplicateur (RD) est dinie par :

pt = F (pt)
o F est l'application dnie sur (I) par

F i(p) = pi(iAp pAp).

i i
P P
Cette dynamique prserve le simplexe car iF (p) = pAp ip pAp = 0.
On peut aussi dnir une population stationnaire comme un point stationnaire de la

dynamique du rplicateur.

3.2. RSP.
Considrons le jeu suivant (rock, scissors, paper) :

(0, 0) (a, b) (b, a)


(b, a) (0, 0) (a, b)
(a, b) (b, a) (0, 0)

o a et b sont deux paramtres > 0.

Proposition 3.3.
L'unique quilibre de Nash est E = (1/3, 1/3, 1/3). C'est un attracteur de la dynamique

du rplicateur pour a>b et un rpulseur si a < b.

Preuve : Calculons la tness moyenne pour p dans le simplexe (I) :

pAp = (a b)(p1p2 + p2p3 + p1p3)


(a b)
= (1 kpk2).
2
Soit V (p) = 3i=1pi, qui est maximal
1 1 2 3
en E . Puisque pt = pt (apt bpt ptApt), on obtient

d X3 pi (a b)
t
log V (pt) = i
= (a b) 3ptApt = (3kptk2 1)
dt i=1 pt 2
Donc pour a > b, V crot tant que kptk2 1/3, ce qui implique la convergence vers E.
D'autre part E est un rpulseur pour a < b.
Equilibre et volution 59

A A

C B C B
FIG 5.3. : cas a > b; a < b

3.3. Jeux de potentiel.


Le cas de jeu de partenaires (A = tA = B )
est un cas particulier de jeu de potentiel
n
(Monderer et Shapley, 1996) : il existe une fonction de S dans IR telle que pour tout

i et tous si, ti S i, ui S i :

Gi(si, ui) Gi(ti, ui) = (si, ui) (ti, ui).


En particulier la dynamique du rplicateur peut tre exprime directement l'aide .
Explicitement, pour le joueur i et chacune de ses stratgies s :

i
pis is
t = pt [(s, pt ) (pt)].

Proposition 3.4.
Pour un jeu de potentiel, est une fonction de Lyapounov pour la dynamique du rplica-

teur et les populations stationnaires.

Preuve : Soit ft = (pt). Donc ft = i(pit, pi


t ) par linarit, mais on a :

(pit, pi is i is i i
t ) = spt (s, pt ) = spt [(s, pt ) (pt)](s, pt ).

On ajoute
i
0 = spis
t [(s, pt ) (pt)](pt)

pour obtenir :

(xit, xi is i
t ) = sxt [(s, xt ) (xt)]
2

et le minorant est 0 pris sur les points stationnaires de (RD).

Un exemple important correspond aux jeux de congestion, see e.g. Chapter 18 in Nisan

& alii (2007) .


60 Chapitre 5. Varit des quilibres et dynamique

3.4. ESS.
La notion de stratgie volutionairement stable (Evolutionary Stable Strategy, ESS) de

Maynard Smith (1982) correspond l'tude d'une population homogne assexue qui

posssde un type mixte p et l'on tudie sa stabilit locale.

Dnition 3.5. p (I) est une ESS si elle est robuste face aux perturbations au sens

o, pour tout q (I), q 6= p, il existe (q) > 0 tel que 0 < (q) implique
pA((1 )p + q) > qA((1 )p + q).
(q) est la barrire associe q.
Cette ingalit se dcompose en :

pAp qAp
donc p est un quilibre symtrique, et si il y a galit

pAq > qAq.


Un exemple classique d'ESS est un quilibre strict.

Proposition 3.6.
p est un ESS ssi une des conditions suivantes est satisfaite :

1) Il existe 0 (independant de q) tel que

pA((1 )p + q) > qA((1 )p + q)


pour tout (0, 0) et toutq (I), q 6= p,
2) il existe un voisinage V (p) tel que
pAq > qAq, q V (p), q6=p.
Preuve : Considrons la partie du bord X du simplexe X = (I) qui fait face p,
i i
Xp = {q; q X avec q = 0 et p > 0 pour un indice (au moins) i}. Cela forme un
ensemble compact disjoint de p sur lequel la barrire (q) est borne infrieurement par

0 > 0.
Maintenant tout r 6= p dans X peut tre crit comme r = tq + (1 t)p avec t > 0 et

q Xp d'o (1 )p + r = (1 0)p + 0q avec 0 et donc ds que 0 :


pA((1 0)p + 0q) > qA((1 0)p + 0q).
On a aussi en multipliant par 0 et en additionnant (1 0)pA((1 0)p + 0q)
pA((1 0)p + 0q) > ((1 0)p + 0q)A((1 0)p + 0q)
qui implique :

pA((1 )p + r) > rA((1 )p + r).


Equilibre et volution 61

Ceci termine le point 1.

On vient de voir que sur Xp, pour 0 :

pA((1 )p + q) > qA((1 )p + q)


donc on obtient pour (0, 0) :

pA((1 )p + q) > ((1 )p + q)A((1 )p + q).


Il reste remarquer que quand q varie dans Xp et (0, 0) l'ensemble ((1 )p + q)
dcrit un voisinage point V (p) \ {p}.
0
Rciproquement, partant de q 6= p, p = (1 )p + q sera dans V (p) \ {p} pour > 0
0 0 0 0
assez petit, et alors pAp > p Ap = [(1 )p + q]Ap d'o l'on dduit :

pAp0 > qAp0.

a > b et il n'y a pas d'ESS pour a < b :


Dans le jeu RSP le seul quilibre est ESS ssi

en eet chaque stratgie pure fait ausi bien que (1/3, 1/3, 1/3) face (1/3, 1/3, 1/3) et

donne 0 face elle-mme alors que (1/3, 1/3, 1/3) induit (a b)/3 < 0.

Proposition 3.7.
i pi
Q
p est un ESS ssi V (x) = i(x ) est localement une fonction de Lyapounov pour la

dynamique du rplicateur.

Preuve : V a un maximum unique dans (I) pris en p : en eet l'ingalit de Jensen

applique au log donne


X X
pi log(xi/pi) log xi = 0.
i i

Soit vt = log V (xt). Alors, dans un voisinage de p, on a

X xit X i
vt = pi = p [iAxt xtAxt]
i xit i

= pAxt xtAxt > 0.

Pour une tude des jeux d'volution voir Hammerstein et Selten (1994), Hofbauer et

Sigmund (1998), van Damme (1994), Weibull (1995).


CHAPITRE 6

Jeux sous forme extensive


Un jeu sous forme extensive dcrit de manire prcise les rgles du droulement du

jeu : qui joue, quand, quels sont ses choix et quelle est son information sur le pass de la

partie.

1. Jeu information parfaite

Un jeu information parfaite correspond au cadre le plus naturel et le plus simple.

Son analyse a des applications trs varies : thorie descriptive des ensembles, logique,

informatique, conomie ...

La faon la plus simple de visualiser ce modle est de penser un jeu de socit comme

les checs. Il s'agit d'un jeu o les joueurs jouent squentiellement suivant un ordre bien

dni. Au moment o un joueur doit jouer il sait tout ce qui s'est pass. A la n du jeu

les joueurs reoivent un paiement qui dpend de toute la suite des coups.

1.1. Description.
Un jeu sous forme extensive information parfaite G est dcrit l'aide d'un arbre orient
ni sans cycle. Il est dni par :

(1) Un ensemble de noeuds T


(2) Une origine T
(3) Une application prdcesseur de T \ {} dans T
(4) Des noeuds terminaux R = T \ Im() ou rsultats

(5) Des positions P = T \ R = Im()


(6) Une partition {Pi, i N } de P.
On note S(p) = 1(p) les successeurs de p : c'est l'ensemble des noeuds dont p est le

prdcesseur.

Droulement du jeu :

(1) Soit i le joueur dans N tel que Pi .


(2) Le joueur i commence le jeu. Il choisit un successeur p1 de .
(3) Inductivement, soit jN tel que pt Pj . Le joueur j joue au noeud pt (tape

t). Il choisit un successeur de pt, pt+1 S(pt).


63
64 Chapitre 6. Jeux sous forme extensive

(4) Le rsultat est l'lment de R atteint par cette procdure, il correspond une

partie.

(5) Chaque rsultat induit un paiement pour chaque joueur.

A tout noeud p est associ une histoire prcdant p (la suite des prdecesseurs itrs)

et un sous-jeu suivant p, not G[p], qui est la famille de ses successeurs successifs. Notons

que G[p] est aussi un jeu sous forme extensive information parfaite, d'origine p.
1

p 2

a b c
x y 3

2 1

FIG. 6.1 : Jeu sous forme extensive information parfaite.

Le joueur 1 commence. Il a deux actions : gauche et droite. S'il choisit l'action droite, le

noeud p est atteint o le joueur 2 a le choix entre les actions a, b, c. S'il choisit l'action a
on atteint le noeud terminal x R, etc...

1.2. Stratgie et forme normale.


Une stratgie i du joueur i est dnie sur Pi et associe toute position p Pi un suc-
cesseur. Un prol de stratgies = ( , ..., N ) induit inductivement une partie, donc un
1

rsultat r dans R.
Ainsi dans le jeu 2 ci-dessous, le joueur 1 a deux stratgies S 1 = {, } et le joueur 2
en a 3 2 = 6 : S 2 = {aA, aB, bA, bB, cA, cB}. La stratgie bA du joueur 2 signie qu'il
choisit l'action b au noeud p et l'action A au noeud q .

1

2 p q 2

a b c A B
x y zu v
FIG. 6.2 : Jeu 2 sous forme extensive information parfaite.
Jeu information parfaite 65

Dnition 1.1. L'application F qui associe chaque prol de stratgies un rsultat

dans R est appele la rduction sous forme normale ou stratgique.

La forme normale du jeu 2 est

aA aB bA bB cA cB
x x y y z z
u v u v u v

Pour achever la dnition du jeu, il faut associer chaque lment dans R un paiement

pour chaque joueur.

1.3. Jeux dtermins.


Un jeu deux joueurs et information parfaite est simple s'il existe une partition (R1, R2)
de R tel que si le rsultat est dans Ri le joueur i gagne et l'autre joueur perd.

Le joueur i a une stratgie gagnante s'il peut forcer un rsultat dans Ri :

i, i F [] Ri.

Dnition 1.2. Un jeu est dtermin si un des joueurs a une stratgie gagnante.

Thorme 1.3 (Zermelo, 1912).


Tout jeu ni deux joueurs et information parfaite simple est dtermin.

Preuve : La dmonstration procde par induction sur la longueur n de l'arbre. Adoptons

la convention qu'un jeu determin a la valeur +1 si le joueur 1 a une stratgie gagnante

et 1 si le joueur 2 a une stratgie gagnante.

Un jeu en une tape (donc avec un seul joueur) est clairement dtermin : si le joueur

en question possde une option qui lui permet de gagner il la joue, sinon c'est l'autre qui

gagne sans rien faire.

Preuve 1 : Induction aval (forward)

Les successeurs de l'origine dnissent des sous-jeux de longueur n donc ils sont d-

termins. Si le joueur 1 commence, il lui sut de choisir le sous jeu qui a la plus grande

valeur. Si celle-ci est +1, il gagne, sinon il perd quoi qu'il fasse. Si c'est le joueur 2 qui

commence, il lui sut de choisir le sous jeu avec la plus petite valeur. Si celle-ci est -1, il

gagne sinon il perd quoi qu'il fasse.

Preuve 2 : Induction amont (backward)

Les noeuds prdcesseurs des noeuds terminaux correspondent des jeux en une tape et

sont donc dtermins. On remplace chacun par un noeud terminal ayant cette valeur. Le

nouveau jeu est de longueur strictement infrieure et par rcurrence il est dtermin. Par

ailleurs si un des joueurs est gagnant dans le nouveau jeu, il l'est aussi dans le jeu initial
66 Chapitre 6. Jeux sous forme extensive

(par concatnation de stratgies gagnantes).

Supposons que l'ensemble des rsultats R = {r1 1 r2... 1 rn} soit ordonn selon les

prfrences du joueur 1 (on identie les rsultats o le joueur 1 est indirent). Un jeu

deux joueurs est dit strictement comptitif si le joueur 2 a exactement les prfrences

inverses sur R : r1 2 r2... 2 rn.


Le jeu est determin s'il existe k tel que le joueur 1 peut forcer l'ensemble {r1, r2, , .., rk}
et le joueur 2 peut forcer {rk, rk+1, , .., rn}.

Si les rsultats sont interprts comme tant les paiements du joueur 1 et si le jeu est

deux joueurs et somme nulle, la dtermination du jeu est quivalente dire que le jeu

a une valeur (qui serait donc rk).

Corollaire 1.4.
Tout jeu ni information parfaite deux joueurs et strictement comptitif est dtermin.

Preuve : Posons Rm = {r1, ..., rm} et R0 = . Soit Rk le plus petit ensemble Rm,
m = 1, ..., n que le joueur 1 peut forcer. Puisque le joueur 1 ne peut pas forcer Rk1,
le joueur 2 peut forcer son complmentaire {rk, rk+1..., rm}.

Application : le jeu d'chec est un jeu information parfaite, ni, qui admet seule-
ment trois rsultats possibles. Il est donc dtermin, ce qui implique que soit un des deux

joueurs peut, en jouant de manire optimale, tre certain de gagner, soit les deux peuvent

(en jouant bien) forcer au pire un match nul. Cependant, la complxit de ce jeu est telle

qu'on ne sait pas quel joueur a un avantage ou pas.

1.4. Le joueur hasard.


Dans plusieurs situations (comme le bridge ou le poker), certaines transitions peuvent tre

la consquence d'un processus alatoire exogne qui suit une certaine loi de probabilit

P (par exemple la rpartition des cartes entre les joueurs). Il est facile d'tendre notre

modle de base en rajoutant un nouveau joueur : le joueur 0 (qui va jouer le rle du joueur

hasard ou de la nature). On doit simplement spcier en plus dans la description du jeu

les noeuds o le joueur hasard va intervenir et avec quelles probabilits les transitions se

font vers les successeurs immdiats.


Jeu information parfaite 67

1
a b
hasard
x p1
1 2
3
c d 3
2p p3 2
2

A B
y z u v
FIG. 6.3 : Jeu sous forme extensive information parfaite avec le joueur hasard

Dans le jeu ci-dessus, si le joueur 1 choisit l'action b pour son premier coup au noeud

origine alors, le hasard (chance) choisit l'action suivante (c ou d) suivant la distribution


1 2 1
de probabilit ( , ). Ainsi, avec probabilit le jeu arrive au noeud p2 o c'est encore au
3 3 3
2
tour du joueur 1 de jouer et avec probabilit le jeu arrive au noeud p3 o c'est au joueur
3
1 2
2 de jouer. Le couple de stratgies (bA, ) induit la distribution y + v sur les rsultats.
3 3

Proposition 1.5.
Tout jeu ni information parfaite deux joueurs somme nulle et hasard admet une

valeur en stratgies pures.

Preuve : Faisons la preuve par induction aval.

Si le hasard commence, pour chaque choix alatoire possible k (avec probabilit Pk),
l'hypothse de rcurrence implique que le sous jeu a une valeur vk et les joueurs des stra-
k k
 P
tgies optimales pures s , t . Le jeu de dpart a donc une valeur v = k pkvk et une
k
 k

stratgie optimale s = s pour le joueur 1 et t = t pour le joueur 2.

Si le joueur 1 commence, chaque sous jeu possible k a une valeur vk et des stratgies
k k

optimales pures s , t . La valeur du jeu est maxk vk. Pour assurer v , il sut au joueur
l k

1 de commencer par jouer l avec vl = maxk vk puis de jouer suivant s . De mme, t = t

est une stratgie optimale du joueur 2.

Si le joueur 2 commence, la valeur est mink vk et le rsultat est dual.

1.5. La forme normale rduite.


Dans le jeu suivant , le joueur 1 contrle deux noeuds o il a chacun deux actions : il a

donc 4 stratgies : S 1 = {A, A, B, B} et le joueur 2 joue seulement un noeud et a


2
donc deux stratgies : S = {a, b}.
68 Chapitre 6. Jeux sous forme extensive

1
A B
x 2
a b
1
y

z w
FIG. 6.4. : forme normale rduite

La forme normale est reprsente sur l'espace des rsultats par :

a b
A x x
A x x
B y z
B y w
On remarque dans l'exemple prcdent que les stratgies A et A du joueur sont quiva-

lentes dans un sens trs robuste : quelque soit la stratgie du joueur 2, la distribution sur

les parties (et donc les rsultat associs) est la mme pour les deux stratgies. En eet,

ces stratgies ne dirent que sur des positions qui ne peuvent pas tre atteintes tant

donne la spcication par ailleurs de la stratgie. La forme normale rduie du jeu 4 est

donc

a b
A x x
B y z
B y w

En gnral, deux stratgies si et ti du joueur i sont quivalentes si pour tout si S i,


g i(si, si) = g i(ti, si). Dans la rduction du jeu, les stratgies quivalentes sont identies.

1.6. Equilibre et quilibre S parfait.


Les rsultats et preuves prcdents s'tendent facilement aux jeux N joueurs.

Cependant la construction via l'induction amont permet d'avoir un nonc plus prcis.

Dnition 1.6. Un prol de stratgies est un quilibre S -parfait si pour toute position

p, la stratgie [p] induite par dans le sous jeu G[p] dnit un quilibre de Nash dans

ce sous-jeu.
Jeu information parfaite 69

Thorme 1.7.
Tout jeu ni information parfaite avec (ou sans) joueur hasard admet un quilibre S-
parfait en stratgies pures.

Preuve : On applique la mthode d'induction amont.

Application : rsolvons le jeu 5 ci-dessous par induction amont :

1
a b
  2
x1
. A B
  
x3 x2
y3 y2
FIG. 6.5. : Induction amont.

Au noeud qu'il contrle, le joueur 2 choisit A si y3 > y2. Le joueur 1 choisit b six3 > x1
et (b, A) est alors l'unique S -quilibre. Par ailleurs ds que x1 > x2, le couple (a, B) est
un quilibre.

La forme normale est :

A B
a x1, . x1, .
b x3, y3 x2, y2

Proposition 1.8.
Gnriquement, un jeu ni information parfaite (avec ou sans le joueur hasard) admet

un unique rsultat induit par un quilibre sous-jeu-parfait pur.

Preuve : Si le jeu ne contient pas de joueur hasard et tous les paiements sont deux deux

dirents, un joueur n'est jamais indirent lors de l'induction amont. Donc il y a un

seule histoire S -parfaite.


Si le jeu contient le joueur hasard, en perturbant s'il le faut les probabilits du joueur

hasard ou les paiements des joueurs, aucun joueur ne sera indifrent. L'ensemble des jeux

avec plus d'un rsultat induit par un quilibre sous-jeu parfait a une probabilit nulle si

les paiements sont choisis au hasard (par exemple uniformment dans [0, 1]).
Remarque
La proposition prcdente ne s'applique pas aux quilibres de Nash :
70 Chapitre 6. Jeux sous forme extensive

- Ils ne sont pas gneriquement en nombre ni.

- Les issues correspondantes sont gnriquement en nombre ni (Kreps et Wilson, 1982)

mais pas necssairement impair.

Dans le jeu suivant il y a deux composantes d'quilibre et deux issues stables par pertur-

bation de paiements sous la forme extensive.

a
1
a b
  2
1
1
b 1
   2

2 0
2 0
FIG. 6.6. : Equilibre gnrique sous forme extensive.

1.7. Jeux innis.


L'hypothse de nitude dans le thorme de Zermelo est essentielle et porte la fois sur

les ensembles de choix et la dure du jeu.

Le jeu suivant un joueur n'a pas d'quilibre :

1 ... n ...
1
0 1 n

FIG. 6.7.

Gale et Stewart (1953) ont introduit le jeu suivant. Deux joueurs choisissent alter-

nativement un lment dans {0, 1}. (x1, x2, ...) qui peut
Cela engendre une suite innie
i
P
tre vue comme le dveloppement binaire d'un nombre x dans [0, 1] : x = i xi/2 . Etant
donn un sous-ensemble A [0, 1], le joueur 1 gagne dans le jeu GA si et seulement si le

rsultat est dans A.

Thorme 1.9. (Gale et Stewart, 1953)


Si A est ouvert ou ferm, le jeu GA est dtermin.

Il existe des ensembles A pour lesquels le jeu GA n'est pas dtermin.


Jeux information imparfaite 71

Preuve : Supposons que A soit ouvert et que le joueur 1 n'ait pas de stratgie gagnante.

Donc pour tout choix x1 du joueur 1, il existe un choix x2 du joueur 2, tel que le joueur

1 n'ait pas de stratgie gagnante dans le sous jeu suivant x1x2. Inductivement ceci dnit

pour chaque x2n+1, un lment x2n+2 tel que le joueur 1 n'a pas de stratgie gagnante dans
le sous jeu suivant x1, ..., x2n+2. Cette procdure produit (partiellement) une stratgie

du joueur 2 qui est gagnante. Sinon, soit gagnant face donc (, ) gnre une partie

h A. A tant ouvert on a dj que le sous jeu prolongeant h2n est dans A, pour un
certain n. Ceci contredit la construction de .

Si A est ferm et que le joueur 2 n'a pas de stratgie gagnante, il existe un coup initial

x1 du joueur 1 tel que le joueur 2 n'a pas de stratgie gagnante dans le sous jeu issu de
x1. Mais par dualit, ce jeu est ouvert pour lui et la preuve prcdente implique que le
joueur 1 y a donc une stratgie gagnante, d'o le rsultat par concatnation.

Ce rsultat d'existence a t amlior par plusieurs auteurs et notamment Martin

(1975) qui a montr que pour tout borlien A, le jeu est dtermin.

Le jeu de Gale et Stewart a des applications fondamentales en thorie descriptive des

ensembles, logique et informatique thorique.

On remarque que si on crit xA comme une proposition P (x1, x2, ...), l'existence d'une

stratgie gagnante pour le joueur 1 devient :

(Q1) x1, x2, x3, x4, ........P (x1, x2, ...) est vraie

et que la dtermination du jeu dit que N ON (Q1) implique

(Q2) x1, x2, x3, x4........P (x1, x2, ...) est fausse.

2. Jeux information imparfaite

Dans plusieurs situations relles, un des joueurs ne sait pas au moment o il doit jouer

toute l'histoire passe du jeu. Par exemple, dans le jeu de poker, un joueur ne connat

pas les mains des adversaires. Par ailleurs la description prcdente ne permet pas de

reprsenter les jeux simultans.

2.1. Ensembles d'information.


L'information du joueur i est reprsente par une partition de Pi en ensembles d'infor-
k
mation Pi . Les noeuds d'un mme ensemble d'information sont indistinguables pour le

joueur qui y joue. Ils doivent donc avoir le mme nombre de successeurs et des actions

correspondantes qui dnissent une classe d'quivalence sur les successeurs d'une position

dans un ensemble d'information.

Voici deux reprsentations de Matching Pennies :


72 Chapitre 6. Jeux sous forme extensive

1 2
L R a b
2 1

a b a b L R L R

FIG. 6.8. : Deux reprsentation de Matching Pennies

La reprsentation par un arbre est parfois trompeuse. On ne peut plus dsormais

associer un temps chaque ensemble d'information, l'aide d'une horloge publique.

Dans le jeu suivant le joueur 1 tlphone au joueur J2 puis au joueur J3 en cas de

rponse ngative ou inversement mais n'indique pas ce choix son interlocuteur.

2 3
x y
oui non non oui

x0 y0

oui non oui non

FIG. 6.9. : Absence d'horloge publique

La position x0 est dans le temps aprs la position x et de mme y0 aprs y, mais l'ap-
0
partenance au mme ensemble d'information impose que y et x sont atteints la mme

date.

2.2. Rduction sous forme normale.


Un stratgie pure pour le joueur i est une application qui associe chaque ensemble d'in-
k
formation Pi du joueur i une classe d'quivalence de successeurs q S(Pik). Un prol de

stratgies induit une partie, donc un rsultat, et on a comme dans le cas d'information

parfaite une rduction sous forme normale.

Cependant, deux formes extensives ayant la mme forme normale peuvent avoir des

histoires fondamentalement direntes comme le montrent les trois jeux suivants.


Jeux information imparfaite 73

1 1
L R L R
2
2 2
l r l0 r0 ll0 lr0 rl0 rr0 ll0 lr0 rl0 rr0
a b c d a a b b c d c d
2
l r
1
L R L R
2
l0 r0 l0 r0 l0 r0 l0 r0
a a c d b b c d
FIG. 6.10. : Direntes resprsentation sous forme extensive

La reprsentation sous forme normale est

``0 `r0 r`0 rr0


L a a b b
R c d c d
Par ailleurs nous allons voir dans la section suivante que cette rduction est parfois

inadquate.

2.3. Stratgies.
L'existence d'ensembles d'information ne permet pas un joueur d'associer une position

p l'histoire qui y conduit ou le sous jeu qui en est issu. En particulier les dmonstrations

obtenues via induction amont ou aval ne s'appliquent plus. Par ailleurs il est clair qu'il

n'y a plus existence de stratgies pures optimales. On est donc amen considrer des

classes plus larges.

Pour chaque joueur i, soit Si l'ensemble de ses stratgies pures.

L'ensemble des stratgies mixtes pour le joueur i est i = (S i) : une stratgie mixte est

un choix alatoire d'une stratgie pure.

On pourrait imaginer une autre faon de probabiliser entre les actions plus en accord

avec l'aspect squentiel. Le joueur i choisit au hasard, chaque fois qu'il se trouve un
k
ensemble d'information Pi , parmi les actions disponibles ce moment.

Une stratgie de comportement est donc une application qui associe chaque ensemble

d'information Pik une probabilit sur les actions qui y sont possibles (la classe d'quiva-

lence des successeurs). Soit Ci cet ensemble.


74 Chapitre 6. Jeux sous forme extensive

Enn une stratgie gnrale est un choix alatoire de stratgie de comportement et on


i i
pose G = (C ).
Dans le jeu suivant un joueur, il y a deux stratgies pures a et b qui induisent

les rsultats x et z . Utiliser des stratgies mixtes permet d'obtenir toutes les distribu-

tions sur (x, z). Une stratgie de comportement est dnie par la probabilit t de choisir
a dans l'ensemble d'information. Elle induit la distribution (t, t(1 t), (1 t)2) sur les
noeuds terminaux (x, y, z) ; en particulier (1/2, 1/4, 1/4) qu'une stratgie mixte ne peut

pas atteindre.

a x
b
a y
b

z
FIG. 6.11. : Comportementale non mixte

Dans l'exemple suivant le joueur contrle deux ensembles d'information et a 4 stra-

tgies pures : Ll, Lr, Rl, Rr. L'utilisation de stratgies mixtes permet d'obtenir toutes les
distributions sur les issues (x, y, z, w). Une stratgie de comportement est dnie par les 2

probabilits s = P (L) et t = P (l). Elle induit une distribution sur les issues qui satisfait

P (x)P (w) = P (y)P (z).

1
L R
1

l r l r
x yz w
FIG. 6.12. : Mixte non comportementale

Donc en gnral aucun des ensembles de stratgies mixtes ou de comportement ne contient

l'autre.

En particulier, dans le jeu suivant (Isbell, 1957)


Jeux information imparfaite 75

A 0 0

a B 1
c b
1
a A
1 1
B
b 2 1
c 0 0
1
0
FIG. 6.13. : Le jeu d'Isbell

les stratgies pures garantissent au plus 0 au joueur 1,

les stratgies de comportement garantissent au plus 25/64,


les stratgies mixtes garantissent au plus 1/2,
la stratgie gnrale (1/2, 1/2) sur (3/4, 0, 1/4; 0, 1) et (0, 3/4, 1/4; 1, 0) garantit 9/16.

2.4. Mmoire parfaite.


On introduit ici des conditions sur le jeu qui permettent de comparer stratgies mixtes et

stratgies de comportement.

Dnition 2.1. Un jeu sous forme extensive est linaire pour le joueur i s'il n'existe

aucune partie qui traverse plus d'une fois un ensemble d'information du joueur i.

Noter que les jeux 6.11 et 6.13 ne sont pas linaires.

Thorme 2.2 (Isbell, 1957).


i
Si le jeu est linaire pour le joueur i, pour toute stratgie de comportement il existe
i i
une stratgie mixte telle que pour tout prol des autres joueurs, les distributions
i i i i
induites P( , ) et P( , ) coincident sur les noeuds terminaux R.

Preuve : Pour toute stratgie pure si on pose


Y
i(si) = i[Pik, si(Pik)]
kKi

o le produit est pris sur la famille Ki des ensembles d'information du joueur i. On xe le
i
comportement (pur) de i et s induit une partie qui travers les ensembles d'information

Pik, k Ki0 Ki. La probabilit de cette partie sous i est


Y
i[Pik, si(Pik)]
kKi0
76 Chapitre 6. Jeux sous forme extensive

i i(si); si(Pik) = si(Pik), k Ki0}.


P
et sous : { Ces deux quantits coincident car un
0
ensemble apparait au plus une fois dans Ki .

La notion de mmoire parfaite signie qu'un joueur ne perd pas d'information durant

le droulement du jeu. Celle-ci peut tre dcompose en deux proprits :

i) le joueur ne perd pas d'information le concernant : il se rappelle de tout ce qu'il a fait

ou non dans le pass.

ii) le joueur ne perd pas d'information sur ce qu'il a su sur les autres ou la nature.

Dnition 2.3. Le jeu est mmoire parfaite pour le joueur i si et seulement si pour
k 0
tout couple (x, y) dans un mme ensemble d'information Pi , si x est un prdcesseur de
0
x appartenant un ensemble d'information Pik alors :
0 0 k0
- il existe y un prdcesseur de y tel que y Pi .
0
- l'action qui mne de x x est dans la mme classe d'quivalence que celle qui mne de
0
y y.
Il est facile de vrier que la mmoire parfaite implique la linarit mais le jeu 6.12

est linaire sans mmoire parfaite.

Thorme 2.4 (Kuhn, 1953).


i
Si le jeu est mmoire parfaite, pour tout joueur i et toute stratgie mixte il existe
i i
une stratgie de comportement telle que pour tout prol des autres joueurs, les
i i i i
distributions induites P( , ) et P( , ) coincident sur R.

P un ensemble d'information et si une stratgie pure de i. On pose


Preuve : Soient
P i i i
m(Pi) = { si (s ); Psi,i(Pi) > 0} et m(Pi; c) = { si i(si); Psi,i(Pi) > 0, si(Pi) = c}.
P

On dnit alors
m(Pi; c)
i(Pi; c) = .
m(Pi)
t un noeud
Soit terminal et t la partie correspondante. La probabilit de t sous i est
h
m(Qi) o Qi est l'ensemble d'information contenant t. Soit Qi la famille des ensembles

d'information de i traverss le long de t. La mmoire parfaite implique que le passage


h+1 h i h h i h+1
dans Qi spcie le choix c d'o : (Qi , c ) = (Qi ). Donc la probabilit value
i
avec qui est
Y
i(Qhi, ch)
induit un produit tlscopique qui se rduit m(Qi)

Corollaire 2.5.
Tout jeu ni, sous forme extensive et mmoire parfaite pour tous les joueurs, est stra-

tgiquement inchang si les joueurs sont restreints utiliser seulement leurs stratgies de
Slection d'quilibre 77

comportement. En particulier, le jeu admet un quilibre de Nash en stratgie de compor-

tement.

Remarque
L'espace des stratgies de comportement a en gnral une dimension beaucoup plus petite

que celui des stratgies mixtes : Si le joueur i possde n ensembles d'information avec dans
n
chacun d'eux deux actions, il a 2 stratgies pures. La dimension de l'espace des stratgies
n
mixtes est 2 1 et celle de l'espace des stratgies de comportement est seulement n.

3. Slection d'quilibre

Nous considrons dsormais seulement des jeux mmoire parfaite.

3.1. Forme extensive.


On veut tendre au cas de jeux information imparfaite le critre de rationalit d'un

prol de stratgies en tout noeud de l'arbre. Pour cela il faut pouvoir mettre une proba-

bilit appel croyance, sur les dirents noeuds p dans un ensemble d'information Q an

de comparer les paiements induits par les dirents choix.

Si Q est irrigu par (au sens o atteint un noeud dans Q avec probabilit posi-

tive) la croyance peut tre dnie par la probabilit conditionnelle. Sinon on introduit un

systme de croyances . est une application qui associe chaque ensemble d'information
Q, une probabilit sur les lments de Q.

Dnition 3.1. Le couple (, ) est un S -quilibre si :


- est une meilleure rponse (, ) dans le jeu partir de l'ensemble d'information Q,

prcd par un choix de la nature d'un noeud dans Q selon la distribution (Q).

- est compatible avec dans le sens o pour tout Q irrigu par , la probabilit condi-

tionnelle induite par sur Q est (Q).

La dnition prcedente dpend de l'ensemble des croyances permis. Sans conditions

supplmentaires on obtient les quilibres Bayesiens parfaits (Fudenberg et Tirole, 1991).

i i
Q
Soit l'ensemble des stratgies du joueur i et = i . Une stratgie est com-
pltement mixte si toutes les parties ont une probabilit strictement positive ( chaque

ensemble d'information, chaque joueur joue chaque action avec une probabilit stricte-

ment positive). Sur cet ensemble, not int, on n'a pas besoin de systme de croyances

car chaque ensemble d'information est atteint avec probabilit positive. Soit la cor-

respondance associant un prol de comportement , la famille des croyances sur les

ensembles d'information compatible avec . Cette application est univoque sur int. Le

jeu suivant montre que :

(int) 6= ()
78 Chapitre 6. Jeux sous forme extensive

l
T r
a
1
B l b
2 3
r c
FIG. 6.14. : Adhrence des croyances

En eet si 1 (1 , ) et 2 joue (1 , ) la probabilit sur les noeuds (a, b, c) de


joue
2
l'ensemble d'information de 3 est ((1 ), (1 ), ) et la croyance induite converge

vers (1/2, 1/2, 0). Mais tout prol de stratgies qui irrigue a et b, irrigue ausi c.

La notion suivante demande des conditions aux limites sur les stratgies et les

croyances.

Dnition 3.2. Le prol est un quilibre squentiel si il existe n dans int convergeant
vers tel que les croyances associes n convergent vers et (, ) est un S-quilibre.

Thorme 3.3 (Kreps et Wilson, 1982).


L'ensemble des quilibres squentiels est non vide.

Preuve : Voir sous-section 3.3.

Remarques
L'exemple suivant montre qu'il n'y a pas de lien entre induction amont et optimalit pa-

rtienne. Le seul quilibre S -parfait est[(L, `); T ] et induit le paiement (1, 1) alors que

[(R, r); B] est un quilibre de paiement (2, 2).

1
L R
2
1
1 T B
3 2
2
l r
0 1
3 1
FIG. 6.15. : S -parfait et Pareto

L'exemple suivant est le fameux centipde de Rosenthal (1982). Par induction amont

le seul quilibre parfait conduit le joueur 1 stopper le jeu immdiatement d'o le rsultat
Slection d'quilibre 79

(2, 1). Le paradoxe est que si l'intraction dure plus de n/2 tapes chaque joueur est sr
d'avoir au moins n.

Par ailleurs l'argument qui force 2 stopper si 1 continue repose sur un comportement

rationnel hypothtique du joueur 1 dans le futur...

Pour une approche non ambigue, voir Aumann (1995, 1998).

1 2 1 2 1 2 2n + 2
2n + 1

2 1 4 3 2n 2n 1
1 4 3 6 2n 1 2n + 2
FIG. 6.16. : Jeu du centipde

3.2. Forme normale.


Les conditions qui correspondent S -parfait dans un jeu sous forme normale imposent

l'limination des stratgies faiblement domines.

Dans cette optique, considrons l'approche suivante de slection d'quilibre dans un jeu

ni G sous forme normale.

Dnition 3.4. Soit > 0.


est un quilibre -parfait s'il est compltement
Un prol
i i
mixte et si pour tout joueur i et toute stratgie pure s du joueur i, si s n'est pas une
i i
meilleure rponse alors (s ) .

L'interprtation est que :

1) toutes les actions sont possibles

2) les joueurs font des erreurs mais les stratgies sous-optimales sont joues avec des

probabilits trs petites.

Dnition 3.5. Un quilibre est parfait s'il est limite d'une suite n d'quilibres n-
parfait avec n qui tend vers 0.

Selten (1975) a introduit cette notion et en a montr l'existence.

Pour tout int et tout > 0 on dnit le jeu perturb G( ; ) issu de G comme le jeu
sur de paiement 7 g((1 ) + ). Il admet un quilibre, qui est -parfait dans le

jeu non-perturb, voir Exercice 6.2.

Thorme 3.6 (Selten, 1975).


Tout jeu ni possde un quilibre parfait.

Cette notion limine les quilibres domins (i.e. qui contiennent dans leur support une

stratgie faiblement domine). En eet, une telle stratgie est sous-optimale dans tout
80 Chapitre 6. Jeux sous forme extensive

quilibre -parfait et est donc joue avec une probabilit qui tend vers zro quand tend

vers zro.

Dans le jeu 6.6 sous forme normale, seul l'quilibre S -parfait est parfait.

Proposition 3.7.
Dans un jeu deux joueurs les quilibres parfaits sont les quilibres non-domins. L'in-

clusion est stricte pour plus de deux joueurs.

Myerson (1978) a introduit un ranement des quilibres parfaits.

Dnition 3.8. Un prol -propre d'un jeu sous forme normale G s'il
est un quilibre
i i i
est compltement mixte et si, pour tout joueur i et toutes stratgies pures s et t dans S ,

g i(ti, i) > g i(si, i) implique i (si) i (ti).

Les joueurs font des erreurs d'une faon rationnelle dans le sens o une stratgie si est
joue avec une probabilit beaucoup plus petite qu'une meilleure stratgie ti.

Dnition 3.9. Un prol est un quilibre propre s'il est limite de n-quilibres propres.

Thorme 3.10 (Myerson, 1978).


Tout jeu ni possde un quilibre propre.

Preuve : voir Exercice 6.2.

Clairement, tout quilibre propre est parfait et donc est non domin.

L'inverse est faux. Dans l'exemple suivant :

g m d
H (1, 1) (0, 0) (1, 2)
M (0, 0) (0, 0) (0, 2)
B (2, 1) (2, 0) (2, 2)

l'quilibre(H, g) est strict donc propre et parfait.


Par ailleurs M est l'unique meilleure rponse d donc M n'est pas faiblement domine.

De mme m est l'unique meilleure rponse B . Donc l'quilibre (M, m) est non domin

et par consquent parfait.

Cependant cet quilibre n'est pas propre. En eet, B et d sont deux stratgies stricte-

ment domines, par H et g -propre approchant


respectivement. Donc pour tout quilibre

(M, m), la stratgie H (resp. g ) sera inniment plus probable que la stratgie B (resp. d).
2 2
Mais, face une stratgie de la forme g + (1 )m + d, l'unique meilleure rponse

du joueur 1 est de jouer H (et non M ).

On remarque que sans les stratgies strictement domines B et d, l'unique quilibre parfait
Slection d'quilibre 81

est (H, g). Ajouter des stratgies strictement domines modie l'ensemble des quilibres

parfaits.

Le mme phnomne a lieu avec les quilibres propres.

g d
H (2, 1) (2, 1)
M (3, 1) (0, 0)
B (0, 0) (1, 3)

L'quilibre (H, d) est propre. En eet, H d. En perturbant


est l'unique meilleure rponse

d, H reste l'unique meilleure rponse. Si on perturbe H de la sorte : (12)H+2M +B ,


l'unique meilleure rponse du joueur 2 est de jouer d. Donc (H, d) est propre. Cependant,

en liminant B (strictement domine), l'unique quilibre parfait qui subsiste est (M, g).

3.3. Liens forme extensive/forme normale.

Dnition 3.11. L' agent normal form associe un jeu sous forme extensive est le
jeu sous forme normale o chaque ensemble d'information Q correspond un joueur i(Q)
dont les paiement sont ceux du joueur qui joue Q.

Clairement chaque joueur joue au plus une fois dans chaque partie.

Thorme 3.12 (Kreps et Wilson, 1982).


L'ensemble des quilibres squentiels est non vide.

Preuve : Partant de l'agent normal form, considrons le jeu perturb o chaque joueur

est restreint jouer chacune de ses stratgies avec une probabilit au moins gale . Ce

jeu contraint est un jeu qui satisfait aux hypothses du thorme de Gliscksberg et admet

donc un quilibre de Nash (indx par ). Cet quilibre induit un O()-quilibre dans

le jeu non contraint o chaque ensemble d'information, le joueur qui joue maximise son

gain O()-prs tant donn sa croyance induite par . En prenant une sous suite

convergente on obtient un quilibre squentiel.

Dnition 3.13. Un quilibre parfait d'un jeu sous forme extensive est un quilibre par-
fait de l'agent normal form

La compatibilit avec la perfection dans les deux reprsentations est impossible :

Dans le jeu suivant (R`; a) est clairement ANF parfait mais non parfait.
82 Chapitre 6. Jeux sous forme extensive

1
L R
1 2

l r a b
1 0 1 0
FIG. 6.17. : parfait ANF et non NF

Dans le jeu suivant Tt est parfait sous forme normale mais pas ANF.

T 1 t 1
1 b 0
B 1
FIG. 6.18. : parfait NF et non ANF

Cependant le rsultat suivant tablit un lien important entre les deux formes.

Thorme 3.14 (van Damme, 1984, Kohlberg et Mertens 1986).


Un quilibre propre d'un jeu sous forme normale G induit un quilibre squentiel dans

tout jeu sous forme extensive ayant la forme normale G.

Preuve : est une limite d'une suite d'n-quilibres propres n. Soit yn une stratgie de

comportement compltement mixte quivalente n. Tout ensemble d'information a une

probabilit positive sous yn. Soit y la limite de yn et pour chaque n, soit n le systme de

croyances associ yn. Soit Q un ensemble d'information du joueur i et montrons qu'il

y joue une meilleure rponse face (y, (Q). Sinon il existe une action bi strictement
i i
meilleure qu'une action a joue avec probabilit positive par y Q. Cela devrait donc
tre aussi le cas face yn pour n grand. Ceci contredirait le fait que xn est n-propre car

le poids de toute stratgie pure induisant ai en Q est au plus n celui de la stratgie pure
i
identique sauf en Q o elle dicte b. .

Ce rsultat est remarquable en ce qu'il montre que l'induction amont (proprit de la

forme extensive) peut tre dtecte par un ranement de la forme normale.

3.4. Induction aval et introduction la stabilit.


Dans la dnition du concept d'quilibre S -parfait (induction amont), chaque joueur re-

garde vers le futur et son comportement est indpendant des choix eectues dans le pass.

Chaque joueur anticipe, pour chacune de ses positions aujourd'hui, les consquences d'un
Slection d'quilibre 83

comportement rationnel des autres joueurs et de lui mme dans la suite du jeu. Puis il

utilise ses anticipations pour faire un meilleur choix aujourd'hui. Son raisonnement est

eectu indpendamment de l'histoire passe.

La notion d'induction aval, introduite par Kohlberg et Mertens (1986), consiste in-

terprter les actions passes an de slectionner parmi les dirents quilibres futurs. Ceci

peut s'avrer parfois trs puissant.

Le jeu suivant se droule en deux tapes.

2
1
3, 1 0, 0
1
0, 0 1, 3

(2, 4)
FIG. 6.19.

A la premire tape le joueur 1 a le choix entre arrter (et obtenir 2) ou continuer et alors
les 2 joueurs jouent un jeu simultan du type bataille des sexes. La forme normale est

la suivante :
L R
S (2, 4) (2, 4)
T (3, 1) (0, 0)
B (0, 0) (1, 3)
(S, R) est un quilibre propre mais B est domine.

Si le joueur 1 ne joue pas S le joueur 2 devrait en dduire qu'il vise un paiement plus

grand que 2 ; mais alors le seul quilibre dans le sous jeu compatible avec cette exigence

est (T, L) induisant (3,1), ce qui justie alors la dviation du joueur 1.

Cependant il peut y avoir conit entre des approches intuitives de type backward et

forward induction comme dans le jeu suivant :

2
1
2 1 3, 1 0, 0

0, 0 1, 3

(0, 2) (2, 4)
FIG. 6.20.
84 Chapitre 6. Jeux sous forme extensive

L'analyse prcdente du sous jeu conduit l'issue (3,1) donc le joueur 2 devrait stopper

immdiatement. Par ailleurs, sinon il continue, il laisse un paiement de 2 et indique ainsi

son intrt pour le seul quilibre (B, R) du jeu simultan. Face cela le joueur joue S et

alors le joueur 2 obtient 4 ce qui justie alors sa dviation.

Kohlberg et Mertens (1986) considrent un ensemble minimal C d'quilibres de Nash

tel que tout jeu perturb admet un quilibre proche de C.


Si la perturbation porte sur les paiements on obtient une composante essentielle minimale,

modulo le fait que l'on veut qu'elle le soit pour tout jeu ayant la mme forme normale

rduite. Cependant ce concept impose de conserver des quilibres non admissibles :

L R
T (2, 2) (2, 2)
B (1, 1) (0, 0)

(T, R) est domin mais correspond un quilibre strict pour un jeu dans un voisinage.

Un autre concept de voisinage consiste considrer un sous ensemble convexe com-

pact () de l'ensemble des stratgies mixtes dont le complmentaire soit un -voisinage


de la frontire et l'ensemble des quilibres du jeu contraint correspondant puis sa limite

suprieure. L encore on perd l'admissibilit :

L R Z
T (2, 2) (2, 2) (0, 0)
B (1, 1) (0, 0) (0, 0)

R devient admissible si elle est moins perturbe vers Z que T .


Une approche alternative est pour tout (, int) de considrer le jeu perturb au

sens de Selten et le voisinage qu'il engendre.

Mertens (1989, 1991) montre alors qu'en imposant de plus des proprits la projection

de la varit des quilibres sur la base, on peut identier une composante stable qui

est non vide, connexe, invariante, admissible, satisfait induction amont et aval ainsi que

d'autres proprits importantes.

Sur ce sujet voir aussi les surveys de Hillas et Kohlberg (2002) et de van Damme (2002).
CHAPITRE 7

Equilibres corrls, apprentissage, quilibres baysiens


1. Equilibre corrl

Ce chapitre est consacr l'quilibre corrl, qui est une extension de l'quilibre de

Nash, due Aumann (1974), et qui a de bonnes proprits stratgiques, gomtriques et

dynamiques.

1.1. Exemples.
Considrons la classique bataille des sexes :

3, 1 0, 0
0, 0 1, 3
Il y a 2 quilibres purs ecients et disymtriques et un quilibre mixte symtrique et

Pareto domin. L'utilisation d'une pice publique permet d'obtenir un quilibre symm-

trique et ecient : si pile l'issue est (3, 1) et (1, 3) si face. Il est clair que face un tel

contrat aucune dviation n'est protable. Ce contrat peut tre reprsent par la distribu-

tion suivante sur les prols d'actions :

1/2 0
0 1/2
Considrons maintenant le jeu de paiements :
g d

H 2, 7 6, 6
B 0, 0 7, 2
Soit un espace de signaux :(B, G, N ), muni de la probabilit uniforme (1/3, 1/3, 1/3). On
suppose que les joueurs reoivent des messages privs et que 1 connait a = {B, G} ou

b = {N } et 2 connait = {B} ou = {G, N }


Considrons les stratgies :

H si a, B si b pour le joueur 1 ;
g si , d si pour le joueur 2.
Elles induisent sur l'espace d'actions S la matrice de corrlation :

1/3 1/3
0 1/3
85
86 Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens

et aucune dviation n'est protable.

1.2. Structure d'information et jeu tendu.

Dnition 1.1. Une structure d'information I est la donne :

- d'un ensemble d'alas reprsent par un espace de probabilit (, A, P )


i i
- d'une famille d'applications mesurables de (, A) dans A (ensemble de signaux du
i
joueur i) (ou d'une sous -algbre A ; dans le cas ni une partition de ).

Soit G dni par g : S = iS i IRn un jeu stratgique.

Dnition 1.2. Le jeu G tendu par I, not [G, I] est le jeu sous forme extensive jou

en 2 tapes :

tape 0 : la variable alatoire est tire suivant la loi P et le signal i() est envoy au

joueur i.

tape 1 : les joueurs jouent dans le jeu G.

Une stratgie i du joueur i dans le jeu [G, I] est une application (mesurable) de Ai
dans Si (ou une application Ai-mesurable de dans S i). Ai et S i sont donc munis de
tribu (dans le cas ni, la tribu discrte).

Un prol de telles stratgies est appel une stratgie corrle.

1.3. Equilibre corrl.

Dnition 1.3. Un quilibre corrl de G est un quilibre de Nash d'un jeu tendu [G, I].

Un prol de stratgies dans [G, I] transporte la probabilit P sur en une proba-

bilit Q() sur S : ala signal action.

Ai

i
i() Si
Q()
j () j
Sj
P
Aj

i
(i())
Q
Explicitement pour tout , Q(, ) est la probabilit produit sur S gale i
et Q() est l'esprance par rapport la probabilit sous-jacente P .
Equilibre corrl 87

Dnition 1.4. DEC(G) est l'ensemble des distributions d'quilibres corrls dans G :

DEC(G) = I,{Q(); quilibre dans [G, I]}

Noter que DEC(G) est un ensemble convexe : il sut de considrer la combinaison

convexe des structures d'information.

1.4. Corrls canoniques.

Dnition 1.5. Une structure d'information canonique pour G correspond au cas :


i i i i
= S ; : S S , (s) = s .
P est une probabilit sur le produit des espaces d'actions et chaque joueur est inform de

sa composante.

Un quilbre corrl canonique est un quilibre de G tendu par une structure d'information
canonique et o les stratgies d'quilibre sont donnes par

i() = i(s) = i(si) = si


chaque joueur suit son signal".

La distribution d'quilibre corrl canonique (DECC ) associe est videmment P.

Thorme 1.6 (Aumann, 1974).

DECC(G) = DEC(G)

Preuve : Soit un prol d'quilibre dans une extension [G, I] et Q = Q() la distribution
induite.

Alors Q est aussi une DECC(G). En eet on donne chaque joueur i moins d'informa-
i i i i i i
tion : son coup s au lieu du signal a tel que (a ) = s . Or s est une meilleure rponse
i
la stratgie (correle) de i conditionnelle a . Il sut alors d'utiliser la convexit de

BRi sur (S i).

1.5. Caractrisation.

Thorme 1.7.
Q DEC(G) s'crit :
X
si, ti S i, i = 1, ..., n [g i(si, si) g i(ti, si)]Q(si, si) 0.
siS i

Preuve : On peut supposer Q DECC(G). Si si est annonce (i.e. sa marginale


i
i i i
S i, Q(.|si),
P
Q (s ) = si Q(s , s ) > 0) on introduit la distribution conditionnelle sur

et la condition d'quilibre s'crit

si BRi(Q(.|si).
88 Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens

si est une meilleure rponse du joueur i la distribution conditionnelle si des coups des
autres joueurs.

L'approche en termes d'quilibre de Nash du jeu tendu est une approche ex-ante.

La caractrisation prcdente correspond un critre ex-post.

Corollaire 1.8.
L'ensemble des distributions d'quilibres corrls est l'enveloppe convexe d'un nombre ni

de points.

Preuve : Il est dni dans (S) par une famille nie d'ingalits linaires larges.

1.6. Commentaires.
On peut donner une dmonstration lmentaire d'existence d'quilibre corrl via le tho-

rme du minmax, voir Hart and Schmeidler (1989) et Exercice 8.4.

Il existe des distributions d'quilibres corrls en dehors de l'enveloppe convexe des dis-

tributions d'quilibre de Nash. En eet, considrons le jeu

0, 0 5, 4 4, 5
4, 5 0, 0 5, 4
5, 4 4, 5 0, 0
Le seul quilibre est symtrique et induit par la stratgie (1/3, 1/3, 1/3) avec paiement 3.

Mais une distribution d'quilibre corrl est :

0 1/6 1/6
1/6 0 1/6
1/6 1/6 0
induisant le paiement 9/2.

Considrons les quilibres corrls dans un jeu sous forme extensive.

Le joueur 1 choisit entre arrter, et le paiement est (2, 2) ou continuer et le jeu est alors

le suivant :
5, 1 0, 0
0, 0 1, 5
(3, 3) est un paiement d' quilibre si le signal public (1/2, 1/2) sur (a, b) (avec la conven-
tion (5, 1) aprs a et (1, 5) aprs b) est tir aprs le choix initial du joueur 1, mais pas si

il est connu avant, car alors le joueur 1 dvie si le signal est a.

Pour l'tude des quilibres avec des mcanismes plus gnraux voir Forges (1986, 1990).
Procdures de non regret 89

2. Procdures de non regret

Soit {Un} une suite de vecteurs dans U = [0, 1]K . A chaque tape n, un joueur ayant
observ les ralisations prcdentes {U1, ..., Un1} et ses choix passs, choisit une compo-
k
sante kn dans K . Le rsultat correspondant est n = Un n.

Une stratgie dans ce problme de prdiction spcie l'tape n, la loi de kn tant

donn le pass hn1 = {k1, U1, ..., kn1, Un1}, note (hn1) (K).
k`
Le regret l'tape n est donn par la matrice Sn = {Sn }k,`K dnie par :

U ` U k si k = k ,
n n n
Snk` =
0 sinon.

Le regret moyen est alors la matrice donne par :

k` 1 Xn ` k
Sn = (Um Um ).
n m=1,km =k

La composante k` compare le paiement moyen du joueur sur les tapes o il a jou k au

paiement qu'il aurait eu si il avait jou ` toutes ces tapes.

Dnition 2.1. Une stratgie dnit une procdure de non regret si pour tout processus

{Um} et tout couple k, ` :


k`
[S n ]+ 0 quand n + p.s.

Etant donn A, une matrice K K coecients 0, il existe une mesure invariante

(K) i.e. vriant :


X X
kAk` = ` A`k ` K.
kK kK

(Cela suit facilement de l'existence d'une mesure invariante pour une matrice stochas-

tique.)

Proposition 2.2.
SoitS(., U ) la matrice de regret associe un vecteur U. Pour toute matrice A (de taille

K K ) et toute mesure invariante pour A


hA, E(S(., U ))i = 0, U U.

Preuve :
X
hA, E(S(., U ))i = Ak`k(U ` U k)
k,`
et le coecient de chaque U ` est
X X
kAk` ` A`k = 0.
kK kK
90 Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens

On rappelle le thorme de Blackwell (1956), voir Exercice 3.3., appliqu ici dans le
n
cadre de l'ensemble convexe C = IR :

Thorme 2.3.
n
Soit xn une suite de variables alatoires dans IR tel que

hxn D(xn), yn+1 D(xn)i 0.


o yn+1 = E(xn+1|x1, ..., xn) est l'esprance conditionnelle de xn+1 tant donn le pass, et

C dnote la projection sur C. Alors la distance de xn C tend vers 0 presque srement.

On en dduit :

Proposition 2.4.
Il existe des procdures de non regret.

K2
Preuve : Considrons le processus des regrets gnr par dans IR

1
Sn+1 Sn = [Sn+1 Sn]
n+1
avec (hn) = (Sn+).
La condition susante d'approchabilit de l'orthant ngatif D s'crit :

hSn D(Sn), E(Sn+1|S1, ..., Sn) D(Sn)i 0.


Ici on a D(x) = x orthogonal x+ = x D(x) d'o la condition :

hSn+, EP (S(., Un+1))i 0


qui est vrie pour P = (hn) = (Sn+), d'aprs la Proposition prcdente, avec A = Sn+.

Considrons un jeu G, jou de manire rpte o chaque tape les actions choisies

sont rvles. Chaque joueur i fait face l'tape n un paiement vectoriel (inconnu)

Vg i
(si
n )
i
= {g (s i
, si
n )siS i} dtermin par le comportement des autres joueurs.

Proposition 2.5.
Si chaque joueur i suit une procdure de non regret associe son paiement vectoriel,

Un(i) = {g i(si, si
n )siS i} la distance de la distribution empirique des coups DEC(G)
converge vers 0.

Preuve : Il sut de remarquer que si Q est un point d'accumulation de la suite des

rpartitions empiriques d'actions

1
Q(s) = lim ( #{1 m nk; sm = s}),
nk nk
Jeux information incomplte (ou baysiens") 91

la condition de non regret (S k`)+ 0 s'crit, par linarit du paiement :


X
[g i(k, si) g i(`, si)]Q(k, si) 0
siS i

qui est la dnition de l'quilibre corrl.

En particulier ce rsultat implique l'existence de DEC et fournit une procdure (com-

pose de composantes unilatrales) convergeant vers cet ensemble.

Il n'existe pas de telles proprits pour l'quilibre de Nash. Pour un survey rcent sur ce

sujet, voir Hart (2005).

3. Jeux information incomplte (ou baysiens")

3.1. Stratgies, paiements et quilibre.


Comme dans la Section 1 prcdente on a une structure d'information I = (, A, P ), mais
i
le jeu lui -mme = G(.) dpend de (on peut galement permettre S de dpendre
i
de mais de manire A -mesurable).

On appelle parfois espaces des types, l'ensemble (ni) des signaux Ai (chaque joueur

connat son type).

Une stratgie i du joueur i est une application de Ai dans (S i). Le paiement corres-

pondant un prol est donn par


Z
() = g({ i(i())}iI ; )P (d)

On note Q la probabilit induite sur A = iAi et g(., a) l' esprance de g(., ) sur 1(a),
l'ensemble des alas se traduisant par le prol de signaux a. Alors le paiement s'crit

encore
X
() = g({ i(ai)}; a)Q(a)
a
soit pour le joueur i X
i() = Qi(ai)B i(ai)
ai
avec
X
B i(ai) = g i( i(ai), { j (aj )}j6=i; a)Q(ai|ai).
ai
Donc si est un prol d'quilibre, pour chaque joueur i et pour chaque signal ai, i(ai)
maximise le gain baysien face i :
X
g i(., { j (aj )}j6=i; (ai, ai)Q(ai|ai).
ai

La premire maximisation (dans ) est ex-ante, la seconde ex-post.

3.2. Complments.
Une stratgie pure (resp. de comportement) du joueur i envoie Ai dans Si (resp. (S i)).
92 Chapitre 7. Equilibres corrls, apprentissage, quilibres baysiens

Une stratgie mixte est une distribution sur les stratgies pures ou bien une application

de Ai [0, 1] dans Si
[0, 1] est muni d'une distribution uniforme.
o
i i i
Une stratgie de distribution est un lment de (A S ) qui respecte les donnes : la
i i
marginale sur A est gale Q (Milgrom and Weber, 1985).
i i
La probabilit conditionnelle (.|a ) correspond une stratgie de comportement.

Application : Phnomnes de rputation. Ce domaine correspond l'tude des si-


tuations o un joueur utilise stratgiquement l'incertitude de son adversaire sur son type,

voir, par exemple, Sorin (1999).


CHAPITRE 8

Introduction aux jeux rpts


Les jeux rpts reprsentent les interactions dynamiques en temps discret. Ces inter-

actions sont modlises l'aide d'une variable d'tat, voluant selon un processus contrl

par les joueurs. Concrtement, le jeu se droule par tapes, et chaque joueur commence

par recevoir un signal priv sur l'tat initial. Puis chaque tape, les joueurs choisissent

simultanment une action. Les actions choisies ainsi que l'tat courant dterminent : 1) les

paiements d'tape, et 2) une probabilit de transition sur le nouvel tat et les nouveaux

signaux reus par les joueurs.

C'est un modle trs gnral, et lorsqu'un joueur choisit son action une certaine

tape, de nombreux aspects stratgiques peuvent tre simultanment prsents : 1) le

joueur peut inuencer son propre paiement, 2) il peut inuencer le processus des tats

(cet aspect est essentiel dans la classe des jeux stochastiques), 3) il peut rvler ou ap-

prendre des informations sur l'tat courant (cet aspect est essentiel dans la classe des

jeux rpts information incomplte), et enn 4) il peut inuencer les connaissances des

joueurs sur le prol d'actions jou cet tape (cet aspect est essentiel dans la classe des

jeux rpts observation imparfaite, ou avec signaux).

A l'exception de la dernire section, on se restreint ici au cas le plus simple, celui des

jeux rpts non stochastiques information complte et observation parfaite : simple-

ment, on rpte le mme jeu de base connu de tous les joueurs, et aprs chaque tape les

actions joues sont observes. On va prsenter un certain nombre de Folk thormes :

ces rsultats caractrisent l'ensemble des paiements d'quilibres du jeu rpt en fonction

des donnes du jeu de base. Indiquons qu'une partie de ce chapitre repose sur le survey

de Forges, Renault, Sorin et Vieille (2006).

1. Exemples lmentaires

On considre un jeu rpt un nombre ni T de fois, les paiements des joueurs tant

donns par la moyenne arithmtique des paiements des direntes tapes. Repoussons

la section suivante les dnitions formelles, et notons ds maintenant ET l'ensemble des

paiements d'quilibres de Nash en stratgies mixtes du jeu rpt T fois.

93
94 Chapitre 8. Introduction aux jeux rpts

Exemple 1. Le jeu de base est :

G D !
H (1, 0) (0, 0)
B (0, 0) (0, 1)
(1, 0) et (0, 1) sont des paiements d'quilibre de Nash du jeu de base. On peut alors faci-

lement construire un quilibre du jeu en deux tapes de paiement moyen (1/2, 1/2) : les

deux joueurs jouent (H, G) l'tape 1, et (B, D) l'tape 2.


D' o (1/2, 1/2) E2. La rptition permet de convexier les paiements.

Exemple 2. Le jeu de base est :

C2 D2 L2
C1 (3, 3) (0, 4) (10, 10)
D1 (4, 0) (1, 1) (10, 10)


L1 (10, 10) (10, 10) (10, 10)
L'ensemble des paiements d'quilibres du jeu de base est : E1 = {(1, 1), (10, 10)}. On
peut construire un quilibre de Nash du jeu en deux tapes de paiement (2, 2) de la faon

suivante.

A la premire tape, le joueur 1 joue C1 et le joueur 2 joue C 2. A la seconde tape, le


1 2
joueur 1 joue D si le joueur 2 a jou C en date 1, et il joue l'action L1 (que l'on peut ici

interprter comme une punition) sinon. Symtriquement, l'tape 2 le joueur 2 joue D2


si le joueur 1 a jou C1 en date 1, et il joue L2 (punition) sinon. Il est facile de voir que

(2, 2) E2.
l'on a bien dni un quilibre du jeu rpt, et donc on a :
T 1
Dans la mme veine, on peut montrer que pour tout T 1, on a :
T
(3, 3)+ T1 (1, 1)
ET . Ainsi la rptition peut-elle permettre la coopration.

Exemple 3. Le jeu de base est le clbre dilemme du prisonnier".

C2 D2 !
C1 (3, 3) (0, 4)
D1 (4, 0) (1, 1)
On peut montrer par rcurrence que l'on a ET = {(1, 1)} pour tout T. Il n'y a pas de

coopration possible dans le dilemme du prisonnier rpt un nombre ni de fois, Sorin

(1986a).
Le modle 95

2. Le modle

On xe un jeu sous forme stratgique ni G = (N, (S i)iN , (g i)iN ), appel jeu de
i
base. N est l'ensemble des joueurs. Pour chaque joueur i de N , S est l'ensemble d'actions
i j
Q
du joueur i et g est une application du produit cartsien jN S dans IR donnant le
paiement du joueur i. On s'intresse la rptition en temps discret, un grand nombre ou

une innit de fois, du jeu de base. Cette dure est connue des joueurs. A chaque tape les

joueurs choisissent, ventuellement alatoirement, simultanment chacun une action dans

leur ensemble d'actions, puis ces actions sont observes publiquement avant de passer

S i l'ensemble des prols d'actions,


Q
l'tape suivante. On note classiquement S = iN
g = (g i)iN la fonction de paiement vectoriel et (S), resp. (S i), est l'ensemble des
probabilits sur S, resp. sur S i.

2.1. Histoires et parties.


On dnit l'ensemble des histoires de longueur t comme l'ensemble Ht des t-uplets
(s1, ..., st) d'lments de S , H0 tant le singleton {}.
HT = {(s1, ..., sT ), t st S} = S T .
L'ensemble de toutes les histoires est H = t0Ht, et H = S dsigne l'ensemble des

parties du jeu rpt, i.e. des suites (s1, ..., st, ...) d'lments de S .

2.2. Stratgies.

Dnition 2.1. Une stratgie (de comportement) du joueur i est une application i de
i
H dans (S ).

L'interprtation est la suivante : pour tout h dans Ht, i(h) dsigne la loi sur S i qu'uti-
lise le joueur i pour choisir son action en date t + 1 si l'histoire h a t joue aux dates

1,..., t.
i i
Q
On note l'ensemble des stratgies du joueur i et = iN l'ensemble des prols de

stratgies.

Un prol induit alors naturellement par rcurrence une probabilit sur l'ensemble (d-

nombrable) des histoires H, les tirages alatoires eectus par les joueurs chaque tape

tant indpendants. Cette probabilit s'tend de faon unique, par le thorme de Kol-

mogorov, l'ensemble des parties H (qui est muni de la tribu produit sur S ).

2.3. Paiements.
Passons maintenant l'valuation des paiements dans le jeu rpt, st dsignant la variable
alatoire du prol d'actions jou en date t.
96 Chapitre 8. Introduction aux jeux rpts

Plusieurs variantes de jeu rpt sont classiquement tudies : les jeux rpts un

nombre ni de fois, les jeux escompts, et les jeux uniformes (on dit aussi jeux non es-

compts).

Jeux niment rpts GT .

Dnition 2.2. Le paiement moyen d'un joueur i jusqu' une tape T 1 si le prol de

stratgies est jou est :


 
1 XT i
Ti () = E g (st) .
T t=1

Pour T 1, le jeu rpt T fois est le jeu GT = (N, (i)iN , (Ti )iN ).

Jeux escompts G.

Dnition 2.3. Pour dans (0, 1], le jeu escompt au taux est G =
i
(N, ( )iN , (i )iN ), o pour tout prol de stratgies
:
 X 
i () = E (1 )t1g i(st) .
t=1

Dans cette version, gagner un paiement de 1 aujourd'hui est quivalent recevoir

le paiement 1 demain. Par ailleurs, remarquons que prendre T =1 dans la dnition ??


ou =1 dans la dnition 2.3 revient considrer le jeu en un coup 'G.

Jeux uniformes G.
On s'intresse ici directement aux aspects stratgiques de long terme. L'approche uniforme

consiste dnir la notion d'quilibre de la faon suivante :

Dnition 2.4. Un prol de stratgies est un quilibre uniforme de G si :

1) > 0, est un -quilibre de Nash de tout jeu niment rpt assez long, i.e. :
T0, T T0, i N , i i, Ti ( i, i) Ti () + , et
i N
2) ((T ())iN )T converge vers un vecteur () de IR , qui s'appelle alors un paiement

d'quilibre (uniforme) de G.

E l'ensemble des paiements d'quilibres de G, et ET (resp. E) l'ensemble


On note

des paiements d'quilibres de Nash de GT (resp. G). On peut appliquer le thorme de

Nash-Glicksberg GT et G : ET et E sont compacts et non vides. On montre facilement

que E est galement compact, et on a : E1 ET E, et E1 E E.

3. Les paiements ralisables et individuellement rationnels

Dnition 3.1. L'ensemble des paiements ralisables du jeu est conv g(S) = g((S)).
Les paiements ralisables et individuellement rationnels 97

Comparer Chapitre 4, Section 9.

C'est un polytope qui reprsente l'ensemble des paiements que l'on peut obtenir dans le

jeu rpt. Par convexit et compacit, il contient E, et donc ET et E.

Dnition 3.2. Pour chaque joueur i de N, on dnit le niveau de punition du joueur i


comme :

vi = min j max g i(xi, xi).


xi xi(S i)
Q
j6=i (S )

Attention : s'il y a au moins 3 joueurs on peut avoir min max 6= max min (voir Exercice
2.2).

Dnition 3.3. L'ensemble des paiements individuellement rationnels est :

IR = {u = (ui)iN , ui v i i N }.
L'ensemble des paiements ralisables et individuellement rationnels est

E = (conv g(S)) IR.

Etant donn un prol de stratgies i des joueurs autres que i, il est facile de

construire, en utilisant le fait que les actions sont observes aprs chaque tape, une

stratgie i du joueur i telle que : T , Ti ( i, i) v i. On en dduit que E, ET et E


sont inclus dans E.

Illustrons les dnitions prcdentes sur le dilemme du prisonnier.

C2 D2 !
C1 (3, 3) (0, 4)
D1 (4, 0) (1, 1)
On a v 1 = v 2 = 1, et l'ensemble des paiements ralisables et individuellement rationnels

est reprsent ci-dessous :

J2

4
E
1

0 J1
1 4
98 Chapitre 8. Introduction aux jeux rpts

4. Les Folk thormes

Les Folk thormes s'intressent aux jeux rpts jous par des joueurs trs patients, et

donc aux jeux niment rpts ayant un grand nombre d'tapes, aux jeux escompts avec

un taux d'escompte proche de 0, et aux jeux uniformes. Ils noncent essentiellement ceci :

l'ensemble des paiements d'quilibres du jeu rpt est l'ensemble des paiements ralisables

(i.e. que l'on peut obtenir en jouant) et individuellement rationnels (i.e. tels que chaque

joueur a au moins son paiement de punition). Les versions les plus claires concernent les

jeux uniformes.

4.1. Les Folk thormes pour G.

Thorme 4.1. Le Folk thorme


L'ensemble des paiements d'quilibres de G est l'ensemble des paiements ralisables

et individuellement rationnels : E = E.

Le nom signie thorme de la communaut, car il est dicile d'tablir la paternit

de ce rsultat lmentaire. Citons R.J. Aumann en 1981 : The Folk theorem  has been

generally known in the profession for at least 15 or 20 years, but has not been published ;

its authorship is obscure. Il est appel aussi le thorme du tout est possible : n'importe

quel paiement raisonnable peut s'obtenir l'quilibre.

Preuve : Il faut montrer que E E. Soit u E . u est ralisable, donc il existe une
1
PT i i
partie h = (s1, ..., st, ...) telle que pour tout joueur i,
T t=1 g (st) T u .
On appelle h le plan principal de la stratgie, et jouer selon h pour un joueur i en

date t signie jouer la i-me composante de st. Pour chaque couple de joueurs distincts

(i, j), xons xi,j dans (S j ) tel que (xi,j )j6=i ralise le min dans l'expression de v i. Fixons
i
maintenant un joueur i dans N , et dnissons une stratgie .

i joue en date 1 selon le plan principal, et continue de jouer selon h tant que tous les
autres joueurs le font. Si une certaine date t 1, pour la premire fois un joueur j ne
i
joue pas selon le plan principal, alors joue toutes les dates ultrieures la probabilit

xj,i (si pour la premire fois la mme date plusieurs joueurs sortent du plan principal, on
punit celui de ces joueurs qui est le plus petit, selon un ordre total sur N pralablement
i
x). Il est facile de voir que = ( )iN est un quilibre de G de paiement u.

Certains des quilibres construits via le Folk thorme peuvent tre critiqus car rien

n'assure qu'un joueur i aura intrt, le cas chant, punir un joueur j qui vient de quit-

ter le plan principal pour la premire fois. On peut alors s'intresser la notion suivante

d'quilibre sous-jeux parfait (ESJP).

Etant donns une histoire h de H et un prol de stratgies , on dnit la stratgie


Les Folk thormes 99

de continuation [h] comme le prol de stratgies = ( i)iN , o : i N, h0 H ,


i(h0) = i(hh0), o hh0 est l'histoire h suivie de h0.
Un ESJP de G est alors par dnition un prol de stratgies dans tel que pour toute
0
histoire h dans H , [h] est un quilibre de G ; et on note E l'ensemble des paiements
0
de ces quilibres. On a : E E = E .

En 1976, Aumann et Shapley, ainsi que Rubinstein, ont dmontr, avec de lgres di-

rences de formulation (voir les ditions de 1994), que ce ranement d'quilibre ne chan-

geait en fait absolument rien ici.

Thorme 4.2. Folk thorme parfait [Aumann et Shapley (1994), Rubinstein (1994)]

0
E = E = E.

Preuve : La preuve se rsume l aussi construire un ESJP partir d'un paiement ra-

lisable et individuellement rationnel. Par rapport la preuve du Folk thorme, il faut

modier la phase de punition. Si une certaine date t, les joueurs jouaient selon le plan

principal et le joueur j en sort, les joueurs j se mettent punir le joueur j jusqu' une

certaine date t, puis quoiqu'il arrive tout le monde oublie tout et revient, comme l'tape

1, au dbut du chemin principal. Une possibilit est de calculer, la n de l'tape t, le

nombre t de manire ce que le paiement moyen espr du joueur j jusqu' la date t, soit
j
infrieur v + 1/t. Une autre possibilit est de prendre simplement t = 2t.

4.2. Les Folk thormes escompts.


Passons maintenant aux paiements d'quilibres escompts et reprenons l'exemple du di-

lemme du prisonnier avec un taux d'escompte (0, 1].


i
Determinons si (3, 3) E. Jouer D pour la premire fois peut augmenter une tape
le paiement du joueur i de 1, pour perdre ensuite chaque tape au moins 2. On aura
P t
donc un quilibre de paiement (3, 3) dans G si : 1 2 t=1(1 ) = 2(1 )/, soit
si les joueurs sont susamment patients au sens o 2/3.

En gnral, on a toujours E E = E , et la question se pose de la convergence de

E vers E . Cette convergence s'entend au sens de la distance de Hausdor entre compacts


N
de IR , donne par d(A, B) = max{supaA inf bB d(a, b), supbB inf aA d(a, b)}.

Le contre-exemple suivant trois joueurs est d Forges, Mertens et Neyman (1986) :


!
(1, 0, 0) (0, 1, 0)
.
(0, 1, 0) (1, 0, 1)
Le joueur 1 choisit la ligne, le joueur 2 choisit la colonne et le joueur 3 n'a qu'une stratgie

et donc ne choisit rien ici ! Ce jeu est essentiellement un jeu  somme nulle entre les

joueurs 1 et 2, et dans tout quilibre de G chacun de ces joueurs choisit, indpendam-

ment chaque tape, ses deux actions avec probabilit 1/2. Donc E = {(1/2, 1/2, 1/4)},
100 Chapitre 8. Introduction aux jeux rpts

alors que (1/2, 1/2, 1/2) E , et on n'a pas en gnral la convergence de E vers E. On a

toutefois le rsultat suivant.

Thorme 4.3. Folk thorme escompt (Sorin, 1986)


Supposons qu'il y ait 2 joueurs, ou qu'il existe u = (ui)iN dans E tel que pour tout i,
ui > v i. Alors E E.
0

On peut aussi dnir les quilibres sous-jeux parfaits de G comme des stratgies en

quilibre de Nash dans tout sous-jeu de G. Notons E0 l'ensemble (compact) des paiements
de tels quilibres.

Thorme 4.4. Folk thorme parfait escompt(Fudenberg Maskin, 1986, 1991)


Si E a un intrieur non vide, alors E0 E.
0

On ne dmontre pas ici ces deux derniers thormes. Indiquons juste que les preuves uti-

lisent des punitions strictes, et dans le cas sous-jeux parfait on utilise aussi des phases

de rcompense pour, le cas chant, inciter les joueurs punir. Un exemple o on n'a pas

la convergence de E0 vers E est le jeu deux joueurs :


!
(1, 0) (1, 1)
.
(0, 0) (0, 0)
Dans tout quilibre sous-jeux parfait escompt, le joueur 1 doit choisir la ligne du haut

chaque tape quoiqu'il se soit pass auparavant, et donc E0 = {(1, 1)} pour tout .

Donnons maintenant un exemple conomique d'quilibre sous-jeux parfait escompt.

Considrons un oligopole compos de n rmes identiques, produisant un seul bien avec

un cot de production marginal constant c > 0. Chacune des entreprises doit choisir son

prix de vente, et les consommateurs achtent uniquement l'entreprise meilleur march

(ou en cas d'galit, parts gales aux entreprises les moins chres). On note D(p) le

nombre de consommateurs prts acheter une unit du bien au prix p, et on suppose la

demande toujours satisfaite. Chaque entreprise cherche maximiser son prot, qui vaut

(p) = D(p)(p c) si l'entreprise propose seule le plus bas prix p, et qui vaut zro si

l'entreprise ne vend rien. Supposons que admette un maximum en un prix p > c.


Si on joue le jeu une fois, le seul prix d'quilibre sera gal au cot marginal c, les pro-

ts tant nuls. An de tenir compte des possibilits dynamiques d'ajustement des prix,

considrons le jeu rpt avec un taux d'escompte . Examinons le prol de stratgies

o tout le monde joue p jusqu'au cas ventuel o quelqu'un dvie, et alors partir de ce

moment chacun joue le prix c. Le paiement d'une entreprise si tout le monde joue selon ce
prol est (p)/n, et une entreprise qui dvie de cette stratgie en jouant p une certaine

date, aura au plus partir de l : (p) + (1 )0 = (p). Donc si les joueurs sont
Extensions : exemples 101

susamment patients au sens o 1/n, on aura un ESJP o le prix observ est le prix
de collusion (ou de monopole) p.

4.3. Les Folk thormes niment rpts.


Concluons cette partie avec les quilibres des jeux niment rpts. Dans le dilemme du

prisonnier, on montre par rcurrence que pour tout T , ET se rduit {(1, 1)}. Donc le

bon paiement (3, 3) ne peut tre approch par des quilibres du jeu niment rpt, et

on n'a pas la convergence de ET E.vers

L encore, on dnit les ESJP de GT comme des prols de stratgies en quilibre de

Nash dans tout sous-jeu : t {0, ..., T 1}, h Ht, [h] est un quilibre de Nash du
0
jeu restant, i.e. de GT t. On note ET l'ensemble (compact) des paiements d'ESJP de GT .

Citons deux derniers Folk thormes, dont les preuves utilisent l encore judicieusement

plan principal, phases de punitions et phases de rcompense. Les convergences sont au

sens de Hausdor.

Thorme 4.5. Folk thorme niment rpt (Benot et Krishna, 1987)


Supposons que pour chaque joueur i il existe x dans E1 tel que xi > v i .
Alors ET E.
T

Thorme 4.6. Folk thorme parfait niment rpt (Benot et Krishna 1985,
Gossner 1995)

Supposons que pour chaque joueur i, il existe x et y dans E1 tel que xi > y i et que E est
0
d'intrieur non vide. Alors ET E.
T

5. Extensions : exemples

On va dpasser ici le modle standard de jeu rpt non stochastique information

complte et observation parfaite, en prsentant quelques ides sur des exemples et sans

dvelopper les techniques.

5.1. Un exemple de jeu rpt avec signaux.


Dans les jeux rpts avec signaux, les joueurs n'observent pas aprs chaque tape le prol

d'actions venant d'tre jou, mais reoivent des signaux dpendant de ce prol.

Considrons un exemple o avec deux joueurs o les ensembles de signaux sont donns

par U 1 = {u, v, w} et U 2 = {}. Aprs chaque tape, le joueur 1 reoit donc un signal

dans {u, v, w}, alors que le joueur 2 reoit le signal . Celui-ci peut donc tre considr

comme un joueur aveugle, qui se rappelle juste des actions qu'il a lui-mme joues. Les

paiements des joueurs dans le jeu de base et les signaux du joueur 1 sont donns par :
102 Chapitre 8. Introduction aux jeux rpts

G D !
H (0, 0), u (4/5, 1), v
B (1/5, 0), w (1, 0), w
(4/5, 1) est un paiement ralisable et IR. Cependant, on peut montrer qu' l'quilibre les

joueurs ne peuvent jouer un nombre signicatif de fois la case (H, D) : si c'tait le cas, le

joueur 1 pourrait dvier de faon protable en jouant B sans jamais craindre de punition

de son adversaire.

Formellement, on prouve ici que E = conv {(1/5, 0), (1, 0)}, et donc E est strictement

inclus dans l'ensemble des paiements ralisables et individuellement rationnels.

On ne sait pas en gnral caractriser E dans les jeux rpts avec signaux, mme

pour deux joueurs. Parmi les nombreux articles sur le sujet, citons notamment Lehrer

(1989, 1992), ainsi que Renault et Tomala (1998, 2004) et Gossner et Tomala (2007).

5.2. Un exemple de jeu stochastique.


L'aspect jeu stochastique n'apparat que lorsqu'il y a plusieurs jeux de base possibles, et

donc plusieurs tats. A chaque tape on joue celui des jeux de base qui correspond l'tat

courant : les actions joues dterminent alors les paiements mais aussi la probabilit de

transition vers l'tat suivant.

L'exemple suivant est un jeu deux joueurs et somme nulle appel Big Match" et du

Blackwell et Ferguson (1968). Il est reprsent par la matrice suivante.

G D!
H 1 0
B 0 1
Les joueurs commencent l'tape 1 par jouer la matrice ci-dessus. Ils continuent ainsi

tant que le joueur 1 joue B (et le joueur 1 observe aprs chaque tape l'action joue par

le joueur 2). Par contre, si un jour le joueur 1 joue H alors le jeu s'arrte, et de deux

choses l'une : soit le joueur 2 a jou G ce jour-l, et alors le joueur 1 reoit le paiement 1

chaque tape ultrieure, sinon le joueur 2 a jou D ce jour-l et alors le joueur 1 a un

paiement nul chaque tape ultrieure.

Formellement, il y a trois tats ici : l'tat de dpart, l'tat o le joueur 1 reoit le

paiement de 1 quoiqu'il arrive, et l'tat o le joueur 1 a un paiement nul quoiqu'il arrive.

Ces deux derniers tats sont absorbants, c'est--dire que l'on y reste pour toujours partir

du moment o on y est entr (ils sont reprsents par des dans la matrice de dpart.)
Le joueur 2 peut jouer chaque tape l'action mixte 1/2 G + 1/2 D, et il est facile de
montrer que le joueur 2 garantit ainsi le paiement 1/2. On a mme

2, T, 1, T1 ( 1, 2) 1/2.
Extensions : exemples 103

Il est ici plus dicile et trs intressant d'imaginer des bonnes stratgies pour le joueur 1.

Thorme 5.1. (Blackwell et Ferguson, 1968)


Le Big Match a une valeur uniforme et cette valeur vaut 1/2, ce qui signie :
1 2 1 1 2
le joueur 1 garantit 1/2, i.e. > 0, , T0, T T0, , T ( , ) 1/2 ,
2 1 1 1 2
et le joueur 2 garantit 1/2, i.e. > 0, , T0, T T0, , T ( , ) 1/2 + .

Les jeux stochastiques ont t introduits par Shapley (1953). Mertens et Neyman

(1981) ont montr en 1981 l'existence de la valeur uniforme dans tout jeu stochastique (

information complte, sans signaux). Plus rcemment, N. Vieille (2000a et 200b) a prouv

l'existence de paiements d'quilibres dans les jeux stochastiques somme non nulle et 2

joueurs, la question restant ouverte pour un plus grand nombre de joueurs. Concernant les

jeux stochastiques somme non nulle, on peut notamment citer galement Sorin (1986b),

Solan (1999) et Solan et Vieille (2001). Pour des surveys, voir Mertens (2002), Vieille

(2002).

5.3. Des exemples de jeux rpts information incomplte.


Dans un jeu rpt information incomplte, il y a galement plusieurs tats possibles,

et chacun de ces tats correspond un certain jeu de base. Un des tats est tir alatoi-

rement une fois pour toutes au dbut du jeu, et chaque tape les joueurs vont jouer le

mme jeu de base correspondant cet tat. Les connaissances qu'ont les joueurs sur l'tat

sont typiquement imparfaites : chaque joueur reoit au dbut du jeu un unique signal

dpendant de l'tat slectionn, et peut donc avoir une connaissance partielle de l'tat

ainsi que des connaisances des autres sur l'tat.

Plaons-nous ici uniquement dans le cas de deux joueurs, somme nulle, et intressons-

nous la notion de valeur uniforme, comme dans la sous-section prcdente. On va suppo-

ser aussi qu'il y a manque d'information d'un seul ct : le joueur 1 a toute l'information,

il observe parfaitement l'tat slectionn, alors que le joueur 2 n'est pas inform et ne

reoit initialement aucun signal. Supposons enn qu'il n'y a que deux tats, qui sont a

priori quiprobables. On a donc le scnario suivant : initialement, un tat k {a, b} est


tir selon p = (1/2, 1/2), et annonc au joueur 1 seulement. Le joueur 2 sait que k a t
k
tir selon p, mais ne sait rien d'autre sur k . Puis les joueurs rptent le jeu G indni-
a b
ment, en observant aprs chaque tape les actions choisies. Les matrices G et G sont

parfaitement connues des deux joueurs.

On va voir sur des exemples que le jeu inniment rpt a une valeur uniforme (note

v), et que les joueurs ont des stratgies optimales, c'est--dire que le joueur 1 peut jouer
une stratgie qui lui garantit v :

1, > 0, T0, T T0, 2, T1 ( 1, 2) v ,


104 Chapitre 8. Introduction aux jeux rpts

et que de mme le joueur 2 peut jouer une stratgie qui lui garantit v :
2 1
, > 0, T0, T T0, , T1 ( 1, 2) v + .
Ceci est quivalent l'existence d'un quilibre uniforme, et implique que la valeur vT du

jeu en T tapes converge vers v lorsque T tend vers +.


! !
0 0 1 0
Exemple 1. Ga = et Gb = .
0 1 0 0
Facile. Le joueur 1 n'a qu' jouer, chaque tape, l'action H (haut) si l'tat est a et

l'action B (bas) si l'tat est b. Ainsi la valeur uniforme existe et est nulle : v = 0.
! !
1 0 0 0
Exemple 2. Ga = et Gb = .
0 0 0 1
Une stratgie nave du joueur 1 est de jouer l'tape 1 l'action H si l'tat est a, et

l'action B si l'tat est b. Cette stratgie est dite compltement rvlatrice, car en fonction

de l'action joue par le joueur 1 il est possible de dduire l'tat slectionn. Elle est op-

timale ici dans le jeu une tape, et la valeur de ce jeu est v1 = 1/2. Mais elle est trs

mauvaise quand le jeu est rpt, et ne garantit rien de plus que 0 dans le jeu inni.

A l'inverse, le joueur 1 peut toujours ne pas tenir compte de son information, et jouer

une stratgie non rvlatrice, i.e. jouer indpendamment


! de l'tat. Il considre alors la

1 a 1/2 0
matrice moyenne
2
G + 21 Gb = , et peut jouer chaque tape la stratgie
0 1/2
1
optimale de cette matrice. Puisque la valeur de cette matrice vaut 1/4, on a : vT 4
pour

tout T.
Dans le jeu inni, on peut montrer qu'il est ici optimal pour le joueur 1 de jouer non

rvlateur. La valeur uniforme existe et vaut 1/4.


! !
4 0 2 0 4 2
Exemple 3. Ga = et Gb = .
4 0 2 0 4 2
Jouer une stratgie compltement rvlatrice ne garantit que 0 pour le joueur 1, car le

joueur 2 pourra nalement jouer l'action M (du milieu) si l'tat est a, et l'action G(auche)
si l'tat est b. Mais jouer
! une stratgie non rvlatrice revient se placer dans le jeu
1 a 2 2 0
2
G + 12 Gb = , et donc ne garantit que 0 galement.
2 2 0
Dans le jeu inni, on montre qu'il est ici optimal pour le joueur 1 de jouer la stratgie

suivante.

s dans {H, B} de la
Le joueur 1 choisit alatoirement, une fois pour toutes, un lment

faon suivante : si k = a, alors s = H avec probabilit 3/4, et donc s = B avec probabilit


Extensions : exemples 105

1/4 ; et si k = b, s = H avec probabilit 1/4, et s = B avec probabilit 3/4. Ensuite


alors

le joueur 1 joue l'action s chaque tape, indpendamment des coups du joueur 2.

Les probabilits conditionnelles vrient : P (k = a|s = H) = 3/4, et P (k = a|s =

B) = 1/4. Donc la n de l'tape 1, le joueur 2 ayant observ le premier coup du joueur


1 1
1 aura appris quelque chose sur l'tat de la nature : sa croyance sera passe de a + b
2 2
3 1 1 3
4
a + 4 b ou 4 a + 4 b. Mais il ne connat toujours pas l'tat avec probabilit 1 : on parle
de rvlation partielle d'information.

On peut prouver qu'ici v = 1 (voir la gure suivante).

Cas gnral.
De faon gnrale, on a le rsultat suivant d Aumann et Maschler (1966, voir la r-

dition de 1995) et valable pour un ensemble ni quelconque d'tats K. Contentons-nous

de l'noncer ici.

Thorme 5.2.
Dans un jeu rpt somme nulle et manque d'information d'un seul ct o la probabilit

initiale est p, cav u(p), o :


la valeur uniforme existe et vaut

u est l'application de (K) dans IR donne par u(q) = val( k q kGk) pour toute probabi-
P

lit initale q , (valeur du jeu o pesonne n'est inform), et cav u est la plus petite fonction

concave suprieure u.

u(p)

1 1 3
0 4 2 4
1

(u est en noir et cav u en gris. La gure correspond l'exemple 3 : cav u(1/2) =


1/2 u(1/4) + 1/2 u(3/4) = 1.)

Le rsultat d'Aumann et Maschler a ouvert une vaste ligne de recherche, et on peut

par exemple citer : pour les jeux somme nulle, Mertens et Zamir (1971, 1977), Sorin et
106 Chapitre 8. Introduction aux jeux rpts

Zamir (1985), de Meyer (1996a et 1996b), Laraki (2001), Renault (2006), et pour les jeux

somme non nulle Sorin (1983), Hart (1985), Simon et al. (1995), Renault (2000). Pour

des surveys, voir Forges (1992), Zamir (1992).


CHAPITRE 9

Travaux dirigs
1. Feuille de TD n1

Exercice 1 : Mariages stables

On considre un ensemble H de n hommes (nots a, b, c) et un ensemble F de n femmes


(notes A, B, C, ..). Les hommes ont des prfrences strictes sur toutes les femmes et les

femmes ont des prfrences strictes sur tous les hommes. Par exemple avec n = 3, l'homme
b peut classser en premier la femme C , puis A puis B , et la femme C peut classer l'homme
a puis c puis b.
Un mariage est un sous-ensemble de H F de cardinal n tel que tout homme est

associ exactement une femme, et toute femme exactement un homme (une bijection

de H F ).
sur

Un mariage est stable s'il n'existe pas de couple alternatif (X, y) non mari suivant
et tel que chacun prfre son partenaire dans le couple alternatif celui qu'il a avec .
Ce problme a t introduit par Gale et Shapley (1962) qui ont montr l'existence

d'un mariage stable grce l'algorithme suivant :

Les femmes restent chez elles et les hommes se dplacent (on obtient un autre algorithme

en supposant que ce sont les femmes qui se dplacent).

Jour 1 : chaque homme courtise la femme qu'il prfre ; si une femme a plus d'une
proposition, elle garde l'homme qu'elle prfre et rejette tous les autres. Si chaque femme

a exactement une proposition l'algorithme s'arrte. Sinon :

Jour 2 : chaque homme rejet le premier jour courtise la femme suivante sur sa liste
de prfrences puis chaque femme compare les nouvelles propositions l'ancienne qu'elle a

dj garde (si elle en a) puis dcide de conserver celle qu'elle prfre et rejette les autres.

Si chaque femme a exactement une proposition l'algorithme s'arrte. Sinon ;

Jour k : chaque homme rejet le jour prcdent courtise la femme suivante sur sa
liste. Chaque femme compare les nouvelles propositions l'ancienne (si elle en a) puis

dcide de garder celle qu'elle prfre et rejette les autres. Si chaque femme a exactement

un homme l'algorithme s'arrte. Sinon on continue...

1) Montrer que l'algorithme est bien dni et qu'il s'arrte ncessairement en un

107
108 Chapitre 9. Travaux dirigs

nombre de jours infrieur n2.


2) Trouver tous les mariages stables des tableaux de prfrences suivants :

A B C D
A B C
a (1,3) (2,3) (3,2) (4,3)
a (1,3) (2,2) (3,1)
et b (1,4) (4,1) (3,3) (2,2)
b (3,1) (1,3) (2,2)
c (2,2) (1,4) (3,4) (4,1)
c (2,2) (3,1) (1,3)
d (4,1) (2,2) (3,1) (1,4)
Le contenu de la case (a, A) signie que l'homme a classe la femme A en premire

position et que la femme A classe l'homme a en troisime position.

3) Montrer que le rsultat de l'algorithme est toujours un mariage stable.

4) Montrer qu'il n'existe pas toujours de mariage stable dans une communaut (2n

tudiants ont chacun des prfrences sur les 2n 1 autres et souhaitent cohabiter dans

des chambres de deux personnes).

5) Dnir un mariage stable et tudier son existence dans une socit polygame (soient

n polytechniciens et m coles d'application ; chaque tudiant a des prfrences sur les

coles et chaque cole a une prfrence sur les tudiants) et un quota d'tudiants ne pas

dpasser.

Exercice 2 : Procdure de partage

Un arbitre se propose de couper un gteau (gal au carr [0, 1] [0, 1]) entre deux

joueurs de la manire suivante. Il dplace son couteau de faon continue de gauche

droite (de 0 vers 1) sur l'axe des x. x [0, 1] gagne


Le premier joueur qui arrte le jeu

la part se trouvant gauche de x et l'autre gagne la part se trouvant droite de x. Si les

deux joueurs arrtent en mme temps c'est le joueur 1 qui gagne la part gauche de x.

La valeur totale du gteau pour chaque joueur est gale 1. La valeur de la part gauche

de x pour le joueur 1 est f (x) et sa valeur pour le joueur 2 est g(x) o f () et g() sont

deux fonctions continues et strictement croissantes dont le graphe va de (0,0) (1,1).

1) Montrer que chaque joueur peut se garantir au moins 1/2.


2) Si vous tes le joueur 1 (resp. 2) et que vous connaissez l'utilit de l'autre joueur,

que faites vous ?

3) Si vous tes le joueur 1 (resp. 2) et que vous ne connaissez pas l'utilit de l'autre

joueur, que faites vous ? (il n'y a pas de rponse juste).

4) L'arbitre change les rgles du jeu et dcide de parcourir l'axe des x de droite

gauche. Les joueurs sont-ils indirents ce changement ?

Exercice 3 : Bus ou voiture ?



Feuille de TD n 1 109

Soit une population d'une ville avec un trs grand nombre d'individus que l'on repr-

sente par l'intervalle [0, 1]. Les individus ont le choix entre le bus et la voiture et ont les
mmes prfrences : u(B, x) (resp. u(V, x)) est l'utilit d'un usager qui prend le bus (resp.

la voiture) dans un environnement o x est le pourcentage des personnes qui prennent le

bus. Il est naturel de supposer que l'utilit de prendre la voiture u(V, x) est continue et

strictement croissante avec x (plus x est grand, moins il y a de trac et plus il y a de

places de stationnement). u(B, x) peut tre une fonction continue quelconque.

On part d'une distribution initiale x0 ]0, 1[ et on suppose que xt, la distribution de

la socit l'instant t [0, +[, volue suivant la dynamique du rplicateur :

xt = [u(B, xt) v(xt)]xt.


avec v(xt) = xtu(B, xt) + (1 xt)u(V, xt).
Etudions les points stationnaires de cette dynamique en fonction des prfrences.

1) Que se passe-t-il si u(V, x) > u(B, x) x ?


2) Construire un exemple numrique o l'utilit sociale, v(xt), diminue strictement

avec le temps.

3) Que se passe-t-il si u(V, x) = 2 + 3x et u(B, x) = 3 ?


4) Supposer que u(B, 0) > U (V, 0) et que u(B, 1) < U (V, 1). Montrer que gnrique-

ment, le nombre de points stationnaires de la dynamique est impair (gal 2m + 1), et

que parmi eux m+1 sont des attracteurs locaux.

5) Faire de mme dans les autres cas de gures (toujours dans un cadre gnrique).

Exercice 4 : Enchre la Vickrey

Un tableau est vendu aux enchres suivant la procdure suivante :

(1) chaque joueur j soumet sous enveloppe une ore pj ;


(2) le joueur k qui soumet la plus grande ore (pk = maxj pj ) gagne l'objet ;

(3) s'il y a plusieurs joueurs k, le gagnant est slectionn entre eux au hasard suivant une

distribution uniforme ;

(4) le gagnant paie pour le tableau le second meilleur prix p oert (soit p = maxj6=k pj ).
Supposons que chaque joueur i possde une utilit gale 0 s'il ne gagne pas l'objet

et gale vi p s'il gagne l'objet et l'achte au prix p (o vi est interprt comme tant

le prix maximal auquel le joueur i est prt acheter l'objet).

Montrer que proposer pi = vi est une stratgie dominante pour chaque i.


110 Chapitre 9. Travaux dirigs

2. Feuille de TD n2

Exercice 1. Thorme de Loomis

Soient A et B deux matrices I J, avec B0 (tous les coecients de B sont stric-

tement positifs). On va montrer qu'il existe un unique v R, et des lments s (I),


t (J) tels que :

sA v sB, et At vBt.
On n'utilisera pas ici le thorme de Von Neumann. La preuve est par rcurrence sur

|I| + |J|.

a) SoientA et B dans RIJ , o |I| + |J| 3. On dnit 0 = sup{ R, s


(I), sA sB}, et 0 = inf{ R, t (J), At Bt}.
a.1) Montrer que le sup et l'inf sont atteints, et que 0 0. Si 0 = 0, le rsultat est

dmontr, on suppose donc dans la suite 0 < 0. Soient s0 et t0 tels que s0A 0 s0B ,

et At0 0Bt0.

a.2) Montrer qu'on ne peut avoir s0A 0 s0B = 0 et At0 0Bt0 = 0.


0
a.3) Soit alors j J tel que s0Aj > 0 s0Bj = 0 et J = J \{j}. En utilisant l'hypothse
0 0 0 0
de rcurrence, on dnit v R et s (I) associs aux sous-matrices I J A de A et

B 0 de B , avec s0A0 v 0 s0B 0. Montrer que v 0 0 > 0, et obtenir une contradiction dans
0
la dnition de 0 en utilisant s0 et s .

a.4) Conclure.

b) Dduire le thorme du minmax de Von Neumann du thorme de Loomis.

c) Soit B une matrice carre > 0. Montrer qu'il existe un vecteur propre de B associ

a une valeur propre strictement positive et qui a toutes ses coordonnes strictement po-

sitives. (Perron- Frobenius).

Exercice 2. Minmax 3 joueurs

On considre le jeu 3 joueurs o le joueur 1 choisit une probabilit x ({H, B}),


le joueur 2 choisit y ({G, D}) et le joueur 3 choisit z ({O, E}). Les probabilits

employes par les joueurs sont indpendantes, et le paiement est donn par l'esprance de

la fonction g suivante :

Feuille de TD n 2 111

G D G D
H 1 0 H 0 0
B 0 0 B 0 1

O E
Comparer

max min g(x, y, z) et min max g(x, y, z).


(x,y) z z (x,y)

Exercice 3. Thorme de Ville

Soient X = Y = [0, 1] munis de leur tribu Borlienne, et f une application continue


de X Y dans IR. On considre le jeu somme nulle G o le joueur 1 choisit dans

(X), le joueur 2 choisit dans (Y ), et le paiement du joueur 1 est :


Z
f (, ) = f (x, y) d(x) d (y).
XY

Pour chaque n 1, on dnit le jeu matriciel Gn o : le joueur 1 choisit une action


dans Xn = { 2in , i
{0, ..., 2n}}, le joueur 2 choisit une action dans Yn = Xn, le paiement
i j
du joueur 1 tant donn par Gn(i, j) = f ( n , n ). On note vn la valeur (en stratgies
2 2
mixtes) de Gn.

a) Montrer que dans G le joueur 1 garantit lim supn vn ( prs pour tout > 0). En

dduire que G a une valeur.

b) Montrer que dans G chaque joueur a une stratgie optimale. (On pourra plonger

les stratgies optimales de {Gn} dans ([0, 1]) et en extraire une sous suite faiblement

convergente).

Exercice 4. Approchabilit dterministe et minmax

Soient C un convexe ferm de Rk (muni de la norme Euclidienne) et {xn} une suite


k
borne de R .
k
Pour tout x dans R , C (x) dnote le point de C le plus proche de x et xn dnote la

moyenne de Csaro l'tape n de la suite {xn} :

1 Xn
xn = xi .
n i=1

1) Approchabilit de Blackwell en dterministe (Blackwell, 1956) :


112 Chapitre 9. Travaux dirigs

Montrer que si {xn} est une C -suite de Blackwell, i.e. satisfait

hxn+1 C (xn), xn C (xn)i 0, n


alors dn = d(xn, C) converge vers 0.

2) Consquence : le thorme du minmax.

Soit A une matrice I J reprsentant les paiements d'un jeu deux joueurs. Supposons

que le joueur 2 ne peut pas garantir moins que 0 :

v = min max iAt = 0


t(I iI

et montrons que le joueur 1 peut alors garantir 0, i. e. v 0.


k
Pour cela dnissons une suite xn R par rcurrence. Le premier terme x1 est une ligne

quelconque de la matrice A. Etant donns x1, x2, ..., xn nous dnissons xn+1 comme suit :
+ i +
Soit xn le vecteur dont la i-me coordonne est max(xn, 0). Si xn = xn alors xn+1 est une

ligne quelconque de la matrice. Sinon, soit a>0 tel que

x+
n xn
tn+1 = (J).
a
Puisque v = 0, il existe in+1 I tel que in+1Atn+1 0. xn+1 est alors la ligne in+1 de la

matrice A.
2) Montrer que {xn} est C -une suite de Blackwell avec C = {x Rk; x 0}.
3) Conclure qu'il existe s (I) satisfaisant sAt 0, pour tout t.

Feuille de TD n 3 113

3. Feuille de TD n3

Exercice 1 : Duels

On suit Dresher (1961).

Deux joueurs une distance initiale D0, avancent l'un vers l'autre avec chacun un pisto-

let charg d'une ou plusieurs balles. La distance entre les deux l'instant t [0, 1], Dt,
diminue strictement avec le temps jusqu' atteindre 0 quand t = 1.
On supposera que le gain d'un joueur est gal +1 s'il est le seul survivant, 1 s'il

meurt seul et 0 sinon. On supposera aussi que la probabilit que le joueur i = 1, 2 tue son
adversaire en tirant une balle l'instant t est pi(t) o pi(t) est une fonction continue et

strictement croissante avec pi(0) = 0 et pi(1) = 1.

Ces deux fonctions sont connues des deux joueurs. La fonction de paiement de ce jeu

somme-nulle est l'esprance du gain du joueur 1 (qui maximise).

A) Les joueurs disposent chacun d'un pistolet bruyant et d'une seule balle. Ainsi, si

l'un des deux a tir, l'autre l'a entendu. Aprs le premier tir, le comportement optimal

du survivant est donc d'avancer jusqu' une distance nulle et de tuer l'adversaire.

Une stratgie pure du joueur 1 (resp. 2) est l'instant x [0, 1] (resp. y) o il va tirer

s'il est encore en vie et si l'autre n'a pas encore tir.

Montrer que le jeu a une valeur en stratgies pures et que la stratgie optimale du

joueur i est de tirer l'instant t0 o pi(t0) + pj (t0) = 1.

B) Les joueurs disposent de plusieurs balles (m pour le joueur 1 et n pour le joueur

2) et de pistolets bruyants. On supposera quep1(t) = p2(t) = t.


mn
Montrer par rcurrence sur m + n que la valeur du jeu est et qu'il est optimal
m+n
pour le joueur qui a un nombre de balles gale au max(m, n) de tirer pour la premire
1
fois t0 = .
m+n
C) Les joueurs disposent d'une balle chacun et de pistolets silencieux (de sorte qu'au-

cun des deux ne sait si l'adversaire a dj tir ou pas). On supposera p1(t) = p2(t) = t.
Maintenant une stratgie pure du joueur 1 (resp. 2) est le moment o il va tirer s'il

est encore en vie et sera encore not x [0, 1] (resp. y ).

a) Montrer que le jeu n'a pas de valeur en stratgies pures.

b) Le joueur 1 dcide de tirer suivant une stratgie mixte de support [, 1] et une den-
sit f (x)dx. Montrer qu'il existe une fonction f direntiable et > 0 qui lui garantissent

un gain paiement positif ou nul. Conclure.


114 Chapitre 9. Travaux dirigs

D) Le joueur 1 a un pistolet silencieux et une balle, l'autre un pistolet bruyant et une

balle aussi. On suppose p1(t) = p2(t) = t. On veut montrer que le jeu a une valeur en

stratgies mixtes v = 1 2a avec a = 2 1.

a) Montrer que la stratgie mixte de densit :



0 si 0 x < a



f (x) = 2a
si a x 1
(x2 + 2x 1)3/2

assure 1 2a au joueur 1.

b) Montrer que le joueur 2 s'assure le mme paiement en mixant suivant la fonction

de rpartition suivante :
Z y
2 a
G(y) = f (x)dx + I1(y),
2+a 0 2+a
o I1(y) est la fonction de rpartition associ la masse de Dirac au point 1. Ainsi, le
2
joueur 2 utilise la mme stratgie que le joueur 1 avec probabilit et dcide de tirer
2+a
a
l'instant 1 avec probabilit
2+a
.

E) Peux t-on raisonner par rcurrence dans le cas d'un duel silencieux avec plusieurs

balles.

Exercice 2 : un contre-exemple (Sion, 1958)

Soit S = T = [0, 1] et f S T {0, 1} dnie


l'application de comme suit :

1
si t = 0 s < 21
f (s, t) = 1 si t = 1 s 12

0 sinon

Montrer que le jeu n'a pas de valeur en stratgies pures et que les conditions de Sion sont

satisfaites partout sauf en t = 1.


Ce jeu admet-il une valeur en stratgies mixtes ?

Exercice 3 : Famille monotone

On considre une famille de jeux somme nulle Gn = (S, T, fn) telle que :

- (fn) est une suite dcroissante de fonctions uniformment bornes, s.c.s en s pour chaque
t,
- pour tout n, Gn a une valeur vn,

Feuille de TD n 3 115

- S est compact.

1) On pose f = inf n fn. Montrer que G = (S, T, f ) a pour valeur v et qu'elle est gale

inf n vn, et que dans G le joueur 1 a une stratgie optimale.

2) Comparer v la valeur de G et lim vn dans les deux cas suivants d'un jeu un seul

joueur :

(1) S = [0, +[, fn(s) = 1{sn}


2
(2) S = [0, 1], fn est continue et linaire par morceaux (trois morceaux) : fn(0) = fn( ) =
n
fn(1) = 0 et fn( n1 ) = 1.
116 Chapitre 9. Travaux dirigs

4. Feuille de TD n4

Exercice 1 : Approchabilit de Blackwell

Soit A une matrice I J valeurs dans Rk. Ai,j Rk est le rsultat (vectoriel) si le

joueur 1 jouei et le joueur 2 joue j .


Pour s (I), sA dnote l'ensemble dans Rk des rsultats compatibles en esprance

quand le joueur 1 joue s :

sA = {z Rk : t (J) tel que z = sAt}


X X
= { siAi,j tj , t (J)} = Conv { siAi,j , j J}
iI,jJ iI

Soit C un convexe ferm de Rk (muni de la norme Euclidienne). Pour tout x dans Rk ,


C (x) dnote le point de C le plus proche de x, i.e. la projection de x sur C .
On suppose que l'ensemble C est un B-ensemble pour le joueur 1, i.e. satisfait

x
/ C, s (I) tel que z sA : hz C (x), x C (x)i 0.
Cela signie que l'hyperplan ane passant par C (x) et orthogonal [x, C (x)] spare x
de sA.
Le jeu se joue en temps discret durant un nombre inni d'tapes. Nous allons le dnir in-

ductivement. A chaque tape n, n = 1, 2, ..., aprs avoir observ l'histoire hn1 des actions
choisies dans le pass jusqu' l'tape n 1, soit hn1 = (i1, j1, ....., in1, jn1) Hn1,
n
avec Hn = (I J) et H0 = {}, le joueur 1 choisit sn (hn1) (I) et le joueur

2 tn(hn1) (J). Le couple (in, jn) I J est tir selon la distribution de pro-

babilit produit sn(hn1) tn(hn1). On passe l'tape n + 1 avec une histoire hn =

(i1, j1, ....., in, jn) Hn. Ainsi, une stratgie du joueur dans le jeu rpt est de la forme
= (s1, ..., sn, ...) o sn : Hn1 (I). Une stratgie du joueur 2 est de la forme
= (t1, ..., tn, ...) o tn : Hn1 (J). Un couple (, ) dnit une distribution de pro-
N
babilit P, sur l'ensemble des parties de H= (I J) , muni de la tribu cylindrique.

Notons E, l'esprance associe. Chaque partie h = (i1, j1, ..., in, jn, ...) du jeu gnre une
k
suite x(h) = {x1 = Ai1,j1, ..., xn = Ain,jn, ...} dans R . Soit xn sa moyenne de Csaro

l'tape n :
1 Xn 1 Xn
xn(h) = Aik,jk = xk .
n k=1 n k=1
Blackwell a montr qu'il existe une stratgie du joueur 1 qui permet de gnrer une

partie h = (i1, j1, ..., in, jn, ...) telle que xn(h) s'approche de l'ensemble C et ce quelque

soit la stratgie du joueur 2 : dn = kxn C (xn)k 0, P, -presque srement.

La stratgie de Blackwell est dnie inductivement comme suit. A l'tape n + 1, si

xn C le joueur 1 joue sn+1 (I) quelconque, sinon il joue sn+1 (I) telle que pour

Feuille de TD n 4 117

tout t (J) :

hsn+1At C (xn), xn C (xn)i 0.


(On utilise ici le fait que C est un B-ensemble.)
1) Montrer que :
 2
1 2 n
E, d2n+1 |hn d2n.
   
2 E, kxn+1 C (xn)k |hn +
(n + 1) n+1
E, kxn+1 C (xn)k2 |hn 4 kAk2 avec kAk = maxi,j,k Aki,j .
 
2) Montrer que

3) En dduire que
2 kAk
.E, [dn]
n
En particulier, la convergence est uniforme en .
2
P 4kAk2
4) (Extensions pour les plus motivs). Soit en = dn + k=n+1 k2
. Montrer que {en} est
une surmartingale positive dont l'esprance tend vers zro.

En dduire que P, [dn 0] = 1.

Exercice 2.

Soit f une application de ST dans IR, o S et T sont non vides. On note B l'ensemble
des applications de S dans T . Montrer que :
sup inf f (s, t) = inf sup f (s, (s)).
sS tT B sS

Exercice 3.

Soit S = T = [0, 1]. On considre le jeu G = (S, T, f ), o :




0 si s = t




f (s, t) = s12 si s > t





1
t2
si s < t
R
a) Montrer que pour tout t dans T , f (s, t) ds = 1.
s

b) En dduire que : sup(S) inf tT f (, t) > inf (T ) supsS f (s, ), o f (, t) =


R R
s
f (s, t) d(s) et f (s, ) = t f (s, t) d (t).

c) On rappelle que l'on a toujours sup inf f inf sup f . Que penser de l'extension

mixte de G?
118 Chapitre 9. Travaux dirigs

Exercice 4. Sion et Wolfe, 1957.

Soient S = T = [0, 1] f dnie


munis de leur tribu Borlienne, et sur ST par :

1
si s < t < s + 1/2,
f (s, t) = 0 si t = s ou t = s + 1/2,

1 sinon.
On considre l'extension mixte G o le joueur 1 choisit dans (S), le joueur 2 choisit

dans (T ), et le paiement du joueur 1 est


Z
f (, ) = f (s, t) d(s) d (t).
s,t

Montrer que sup(S) inf tT f (, t) = 1/3. En dduire que G n'a pas de valeur.

Feuille de TD n 5 119

5. Feuille de TD n5

Exercice 1. Calculs.

1.a) Calculer les quilibres de Nash en stratgies mixtes des jeux suivants :

deux joueurs :

G D !
H (6, 6) (2, 7)
B (7, 2) (0, 0)

G D !
H (2, 2) (1, 1)
B (3, 3) (4, 4)

G D !
H (1, 0) (2, 1)
B (1, 1) (0, 0)

g m d
H (1, 1) (0, 0) (8, 0)
M (0, 0) (4, 4) (0, 0)

B (0, 8) (0, 0) (6, 6)
trois joueurs :

G D ! G D !
H (1, 1, 1) (0, 0, 0) (0, 0, 0) (0, 0, 0)
B (0, 0, 0) (0, 0, 0) (0, 0, 0) (1, 1, 1)
O E
1.b) Calculer les valeurs des jeux somme nulle reprsents par les matrices suivantes.


! ! 3 1
1 2 1 1 0 0
, et .

0 3 2 0 2 4
7 2

Exercice 2.

Un groupe de n pcheurs exploite un lac. Si chaque pcheur i prend une quantit


120 Chapitre 9. Travaux dirigs

Pn
xi 0, le prix unitaire du poisson s'tablit p = max(1 i=1 xi, 0). Chaque pcheur
vend toute sa production au prix p et cherche maximiser son revenu (le cot de produc-
tion est suppos nul).

1) Ecrire le jeu sous forme stratgique associ.

2) Calculer les quilibres de Nash et le revenu total chaque quilibre.

3) Etudier le cas du monopole (n = 1) et comparer.

Exercice 3. Paiements ralisables.

2i
j le complexe e 3 , et g l'application de C3 dans C dnie par g(a, b, c) = a b c.
On note
1 2 2 3 2
Soit le jeu G 3 joueurs, o A = {1, j}, A = {j, j }, et A = {j , 1}. Pour (a, b, c) dans

A1 A2 A3, le paiement du joueur 1 est la partie relle de g(a, b, c), celui du joueur 2 la
partie imaginaire de g(a, b, c), et le paiement du joueur 3 est nul.

a) Dterminer l'extension mixte de G.

b) L'ensemble des paiements ralisables en stratgies mixtes est-il convexe ? contrac-

tible ?

Exercice 4.

A) Thorme de Tarski.
n
On se place dans l'espace euclidien IR , muni de l'ordre produit : x y ssi xi yi pour
n n
tout i. Un sous-ensemble S de R est un sous-treillis de R si pour tous x et y dans S , on
n
a sup{x, y} S et inf{x, y} S . On considre un sous-treillis compact non vide S de R .

A.1) Montrer que pour tout sous-ensemble non vide A de S , on a sup A S et inf A S

(considrer par exemple une partie dnombrable dense de A). En dduire que S a un plus

grand et un plus petit lment.

A.2) Soit f une application croissante de S dans S. Montrer qu'elle a un point xe.

B) Jeux surmodulaires

On considre un jeu sous forme stratgique G o pour tout joueur i N l'ensemble de


i mi i i
stratgies S est compact non vide de R , et la fonction de paiement g est s.c.s en s
i
s xe. On suppose de plus le jeu G surmodulaire, c'est--dire :

(i) Pour tout i, S est un sous-treillis de Rmi .


i

(ii) g i a des dirences croissantes en (si, si) : g i(si, si) g i(s0i, si) g i(si, s0i)
g i(s0i, s0i) si si s0i et si s0i.
(iii) g i est surmodulaire en si : si S i, g i(si, si) + g i(s0i, si) g i(si s0i, si) +

Feuille de TD n 5 121

g i(si s0i, si).


B.1) Montrer que pour tout i et si, BRi(si) est un sous-treillis compact non vide de

Rmi.
B.2) On suppose si s0i. Montrer que t0i BRi(s0i), ti BRi(si) t.q. ti t0i.
B.3) Montrer que G possde un quilibre de Nash.

C) Exemple : duopole de Cournot.

Soient deux entreprises 1 et 2 : chaque entreprise i choisit qi dans [0, Qi] et a comme

paiement gi(qi, qj ) = qiPi(qi + qj ) Ci(qi), o la fonction de demande inverse Pi et le cot


1
de production Ci sont de classe C , et le revenu marginal Pi + qiPi/qi est dcroissant

en qj .
Montrer l'existence d'un quilibre de Nash.
122 Chapitre 9. Travaux dirigs

6. Feuille de TD n6

Exercice 1. Thorme de Kakutani via l'existence d'quilibres de Nash 2


joueurs (McLennan et Tourki, 2006)

1. On considre une classe G de jeux G 2 joueurs dnis par un espace ni d'actions

I et 2 familles de points (xi)iI , (yi)iI dans RK . Le paiement du joueur 1 si (i, j) I I


est jou, est donn par

f (i, j) = kxi yj k2
et celui du joueur 2 par

g(i, j) = ij ( 1 si i = j, 0 sinon).

G est donc un jeu bimatriciel et possde un quilibre not (, ).

Montrer que le support S( ) de est inclus dans celui de , puis que S() est inclus
dans {i I; xi minimise kxi zk2} o z est la combinaison convexe des yj induite par :
X
z= j yj .
jI

2. Soient C un convexe compact non vide de RK , et F une correspondance s.c.s.

valeurs convexes compactes non vides de C dans lui mme.

On dnit inductivement les jeuxGn = G(x1, ..., xn; y1, ..., yn) dans G comme suit :
x1 est arbitraire, y1 F (x1) ; tant donn un quilibre (n, n) de Gn on introduit
xn+1 = ni=1 n(i) yi comme plus haut et yn+1 F (xn+1).
P

2.1 Soit x un point d'accumulation de la suite {xn}. Soit > 0 et N tels



que xN +1 et xm B(x , ) pour un m N . Considrer un quilibre (N , N ) de

GN = G(x1, ..., xN ; y1, ..., yN ) et tablir que {xi, i S(N )} B(x, 2) puis que
{xi, i S(N )} B(x, 2). Conclure que xN +1 Co{ zF (z); z B(x, 2)}.

2.2 En dduire l'existence d'un point xe pour F.

Exercice 2. Equilibres parfaits et propres

Soit G un jeu ni sous forme stratgique donn par un ensemble de joueurs N, des
i i
ensembles d'actions S , i N, et des paiements g , i N . Un prol de stratgies mixtes
i
= ( )iN est dit compltement mixte si (s ) > 0 i I, si S i.
i i

Feuille de TD n 6 123

Dnition : Soit > 0.


i
= ( )iN est un quilibre -parfait si est compltement mixte et si :
i N , si S i, (g i(si, i) < maxtiS i g i(ti, i)) = ( i(si) ).
= ( i)iN est un quilibre -propre si est compltement mixte et si :
i N , si S i, ti T i, (g i(si, i) < g i(ti, i)) = ( i(si) i(ti)).
est un quilibre parfait (resp. propre) s'il existe une suite (t, t)tIN telle que :
t, t est un quilibre t-parfait (resp. t-propre), t t 0 et t t .

1. Existence. Soit
]0, 1[.x dans
i |S i|
Pour chaque joueur i, on dnit = /|S i| et i( i) = { i (S i), i(si) i si
S i}, puis on pose () = iI i( i). Soit maintenant la correspondance :
Q

F : () ()
Y
7 F i()
iI

o pour i dans I et dans ,


F i() = { i i( i), si, ti, (g i(si, i) < g i(ti, i)) = i(si) i(ti)}
1.a) Montrer que F est valeurs non vides.

1.b) Appliquer le thorme de Kakutani et conclure sur l'existence d'quilibre propre

et parfait.

2. Calculer les quilibres de Nash, les quilibres parfaits et propres des jeux deux

joueurs suivants :

L R
T (1,1) (0,0)

B (0,0) (0,0)

L M R
T (1,1) (0,0) (-9,-10)

M (0,0) (0,0) (-7,-10)

B (-10,-9) (-10,-7) (-10,-10)


124 Chapitre 9. Travaux dirigs

7. Feuille de TD n7

Exercice 1. GNIM

Pourn, m deux entiers strictement positifs, on dnit le jeu deux joueurs G(n, m)
2
suivant. Soit P (n, m) l'ensemble des points du plan IR coordonnes entires positives

ou nulles dont l'abcisse est infrieure ou gale n et dont l'ordonne est infrieure ou gale

m. Une pierre est place sur chacun de ces points. Le joueur 1 joue en premier. Il choisit

une pierre et enlve toutes les pierres dont les deux coordonnes sont suprieures ou gales

celles de la pierre choisie. C'est ensuite au joueur 2 de jouer selon la mme rgle. Le jeu

se poursuit en alternant les joueurs. Celui qui prend la dernire pierre (i.. (1,1)) a perdu.

On dnit de mme le jeu G(, ) en prenant tous les points coordonnes entires
positives ou nulles, et les jeux G(n, ) et G(, m).

a) Montrer que dans le jeu G(n, m), le joueur 1 a une stratgie gagnante (on ne de-

mande pas de la trouver).

b) Trouver une stratgie gagnante pour G(n, n).


c) Etudier le jeu quand n (et/ou m) est inni (commencer par le cas n = 2 et m = ).

Exercice 2. Poker simpli

Deux joueurs jouent un jeu somme nulle. La mise est de 1 ? par joueur pour com-

mencer le jeu. Un jeu de 32 cartes est battu, et le joueur 1 tire 1 carte et la regarde. Le

joueur 2 ne voit pas la carte.

Le joueur 1 dcide alors soit de se coucher (abandon, et il donne alors sa mise au

joueur 2), soit de doubler sa mise. Au cas o le joueur 1 a doubl la mise, le joueur 2

dcide alors soit de se coucher (alors le joueur 1 gagne l'euro de mise initiale du joueur 2),

soit de doubler sa mise galement. Dans ce dernier cas, le joueur 1 dvoile la carte tire :

si elle est Rouge, le joueur 1 ramasse toutes les mises (donc a gagn 2 ?) ; si elle est noire,

le joueur 2 ramasse les mises (donc a gagn 2 ?).

Mettre ce jeu sous forme extensive, puis sous forme normale. Quelle est la valeur du

jeu ? Quelles sont les stratgies mixtes optimales des joueurs ? Que sont les stragies de

comportement optimales ?

Exercice 3. Une drle d'enchre

Deux acheteurs potentiels participent une enchre pour dterminer celui qui va rem-

porter un bien donn. Le joueur i lui accorde une valeur vi. On a v1 > v2 > 0. Chaque

joueur i fait une enchre bi 0. Celui qui fait la plus grande ore remporte l'objet mais

Feuille de TD n 7 125

paye l'enchre de son adversaire (c'est dire le second prix bi). Quant au perdant, il ne

remporte pas l'objet mais est quand mme contraint de payer l'ore qu'il a faite (c'est en

ceci que notre enchre dire d'une enchre au second prix classique). En cas d'galit, le

joueur 1 est dsign comme le gagnant et les mmes rgles s'appliquent.

(1) Formulez le problme sous forme d'un jeu stratgique.

(2) Existe-t-il un quilibre de Nash tel que b1 > 0 et b2 > 0, c'est dire dans lequel

les deux joueurs font une enchre strictement positive ?

(3) b1 = b 2 = 0 est-il un quilibre de Nash ?

(4) Si bi = 0 et bj > 0, sous quelle condition sur bj le joueur i n'a pas intert suren-

chrir.

(5) Donnez l'ensemble des quilibres de Nash. Le gagnant est-il ncessairement celui

qui a la plus grande valuation a priori de l'objet ? Combien paye le gagnant

pour obtenir l'objet ?

Exercice 4. Double enchre

Un vendeur (joueur 1) et un acheteur (joueur 2) ngocient la vente d'un bien indivi-

sible. Le cot pour le vendeur c et la valeur pour l'acheteur est v . c et v sont indpendants,
tirs selon la loi uniforme sur [0, 1]. Le vendeur et l'acheteur soumettent simultanment

des ores b1 et b2. Si b1 > b2, l'change n'a pas lieu. Sinon, l'change a lieu et le prix est

x (b1 + b2)/2.

a) Calculer les paiements des deux joueurs.

b) On suppose que l'information est complte (i.e. v et c connus des deux joueurs) et

que v > c. Montrer qu'il existe un continuum d'quilibres en stratgies pures.

c) On suppose que l'information est priv donc le jeu est information incomplte et

on cherche un quilibre en stratgies pures b1(c) et b2(v). Montrer que b1() et b2() sont

ncessairement croissantes.

d) En supposant les bi() strictement croissantes et C 1, donner le couple d'quations

direntielles caractrisant les quilibres. Chercher un couple de solutions anes. A quelle

condition y a t-il change ?

Exercice 5. Corrlation sur un signal

On considre le jeu suivant :


126 Chapitre 9. Travaux dirigs

L R

U 5,1 0,0

D 4,4 1,5

1) Calculer les quilibres de Nash (purs et mixtes) de ce jeu et les paiements d'quilibre

correspondants.

On suppose que les deux joueurs considrent avant le jeu la procdure suivante : on

tire pile ou face (vnements quiprobables) ; aprs avoir observ le rsultat, chaque

joueur joue comme suit :

Si le rsultat est PILE : 1 joue U et 2 joue L


Si le rsultat est FACE 1 joue D 2 joue R.
Toutefois, une fois le jeu commenc, rien n'oblige un joueur respecter cette procdure.

2) Montrer qu'une fois le jeu commenc, chaque joueur respecte la procdure (c'est

dire qu'aucun des joueurs n'a de deviation protable).

On a en fait considr une extension du jeu, et la situation dcrite est donc un quilibre

de Nash du nouveau jeu.

3) Quel est le paiement de ce nouvel quilibre ?

4) Quel est l'ensemble des paiements atteignables par ce procd (coordination sur un

signal public) lorsque la loi du signal alatoire varie ?

On suppose maintenant que les joueurs peuvent ragir conditionnellement des si-

gnaux dirents mais corrls. Pour illustrer ce cas, on suppose qu'une variable alatoire

possde trois tats quiprobables A, B et C. Le joueur ligne ne peut distinguer les tats

B et C, et le joueur colonne ne peut distinguer les tats A et B. Les joueurs s'accordent

sur la procdure suivante :

Joueur 1 : si A, jouer U, si {B,C} jouer D


Joueur 2 : si { A,B } jouer L, si C jouer R.

Une fois le jeu commenc, rien n'oblige un joueur respecter cette procdure.

5) Vrier qu'il s'agit bien d'un quilibre de Nash du jeu tendu, c'est dire qu'une

fois le jeu commenc, les joueurs respectent la procdure.

6) Calculer la probabilit d'occurrence de chaque issue du jeu initial. Quel est le

paiement espr des joueurs ? Ce paiement appartient-il l'ensemble des paiements attei-

gnables par le procd introduit initialement (question 4) ?

Exercice 6. Marchandage

Deux joueurs ngocient pour diviser 100 euros. Ils reoivent zero si aucun accord n'est

conclu. Nous allons analyser plusieurs modles de jeux de marchandage avec ores alter-

natives.

Feuille de TD n 7 127

a) (Jeu de l'ultimatum) Le joueur 1 commence par proposer un partage (soit 100 x


pour lui et x pour l'autre joueur), avec x 0. L'autre joueur peut accepter et dans ce cas
le partage se fait ou refuser (et dans ce cas ils reoivent chacun zero).

Ecrire la forme extensive du jeu et montrer qu'il existe un unique quilibre S -parfait.
b) Maintenant le jeu en a) est jou n fois avec une alternance des ores entre les

joueurs. Le joueur 1 commence par proposer un partage. Le joueur 2 accepte ou refuse.

Si le partage est accept il se fait, sinon la somme partager est divise par deux (soit
100
2
= 50 euros) et les rles sont inverss : maintenant c'est au tour du joueur 2 de faire

une proposition de partage. Le joueur 1 peut accepter ou refuser. S'il accepte, le partage

se fait sinon, la somme est encore divise par deux et les rles encore inverss. Trouver

l'quilibre sous jeu parfait pour les cas n = 2, n = 3 et n = 4. Analyser le jeu suivant la

parit de n. Que se passe-t-il quand n tend vers l'inni.

c) (Rubinstein 1982) On suppose ici que le jeu dure inniment avec des ores alterna-

tives comme en b). Maintenant la somme partager est multiplie (aprs chaque refus)

par un facteur 0<<1 (qu'on peut interprter comme un taux d'escompte, ou comme

la probabilit que le jeu continue ou encore comme le degr d'impatience des joueurs).

Montrer que la stratgie suivante est un quilibre sous jeu parfait : le joueur qui doit
1
faire l'ore propose une fraction de la somme partager lui et ore l'autre joueur
1+

une fraction de la somme partager. L'autre joueur accepte toute ore lui donnant
1+
au moins cette proposition et refuse toute autre ore.

Dicile, pour les plus motivs : Montrer que c'est l'unique quilibre sous jeu parfait.
128 Chapitre 9. Travaux dirigs

8. Feuille de TD n8

Exercice 1. Valeur de l'information [Kamien, Taumann et Zamir, 1990]

On considre le jeu 2 joueurs suivant :

- tape 0 : une couleur (noir ou blanc) est choisie au hasard avec probabilit (1/2, 1/2).
- tape 1 : le joueur 1 annonce une couleur et ce choix est communiqu au joueur 2.

- tape 2 : le joueur 2 annonce une couleur.

Le paiement est 2 pour chacun des joueurs si ils annoncent la mme couleur et sinon 5

pour celui qui annonce la couleur tire initialement et 0 pour l'autre.

1) Dcrire le jeu sous forme extensive, puis sous forme normale et montrer qu'il possde

un unique quilibre, de paiement (5/2, 5/2).


2) On suppose dsormais que le joueur 1 est inform du tirage initial (et que le joueur 2 le

sait). Dcrire le nouveau jeu sous forme extensive et montrer qu'il a un quilibre unique.

3) Etudier enn la situation o le joueur 2 seul est inform puis celle o les 2 joueurs

connaisent le tirage initial.

4) Que peut -on dire de la valeur de l'information ? Quelles sont les hypothses sur la

connaissance des agents pour qu'ils puissent la calculer ?

Exercice 2. Transmission stratgique d'information

On considre une interaction deux joueurs dans laquelle un tat de la nature k = 1, 2


est choisi au hasard de manire quiprobable. Cet tat est observ par le joueur 1 mais

pas par le joueur 2. Le joueur 1 doit alors envoyer un message m {A, B} au joueur 2. Le
joueur 2 devra choisir une action s {G, M, D}. Le paiement de chaque joueur dpend

uniquement de k et s. Les couples de paiements sont les suivants :

Etat k = 1 : G (0,6) ; M (2,5) ; D (0,0).


Etat k = 2 : G (0,0) ; M (2,5) ; D (2,12).
1) Ecrire la forme extensive de ce jeu en prcisant les espaces de stratgies.

2) Dterminer les quilibres de Nash en stratgies pures de ce jeu. On distinguera notam-

ment suivant le nombre (1 ou 2) de messages dirents envoys par le joueur 1. Calculer

les paiements d'quilibres pour chaque joueur. Quel est l'quilibre le plus favorable au

joueur 1 ?

3) Montrer que le couple de stratgies suivant est un quilibre.

Joueur 1 : jouer A si k = 1 et (A avec proba 1/2 ; B avec proba 1/2) si k = 2;


Joueur 2 : jouer M si A et D si B .
Calculer le paiement de cet quilibre. Le joueur 1 a t-il intret rveler son information

(compltement, pas du tout, partiellement) ?



Feuille de TD n 8 129

Exercice 3. Equilibre corrl versus Nash

A) Montrer que le jeu suivant

b1 b2 b3
a1 (, ) (3, 1) (0, 2)
a2 (1, 3) (0, 0) (1, )
a3 (2, 0) (, 1) (0, 0)
ne possde pas d'quilibre de Nash mais que toute distribution de la forme

b1 b2 b3
a1 0 0
a2 0
a3 0 0 0
avec > 0 est une distribution d'quilibre corrl.

B) Soit le jeu avec un nombre inni dnombrable de joueurs {1, 2, ..., n, ...} = IN. On
suppose que tous les joueurs ont seulement deux stratgies 0 ou 1 (soit Si = {0, 1}). La

fonction de paiement du joueur i est :



P
s ,
i si j sj <
gi(s) =
si, sinon.

1) Montrer qu'il n'existe pas d'quilibre de Nash en stratgies pures.

2) En utilisant le lemme de Borel Cantelli montrer qu'il n'existe pas d'quilibre de Nash

en mixte.

1
S = i Si = {0, 1}IN induit un quilibre
2
Q
3) Montrer que la distribution = 2
+ 2
sur
1
N i i
corrl, o 1 est la distribution (produit) 1 = i 1 avec : 1(si = 1) = i et 2 est
la distribution (jointe) qui tire le prol (s1 = 1, ...si = 1, si+1 = 0, ..., sn = 0, ...) avec
1 1 1
P P
probabilit
i
i+1 = i(i+1) . (Remarquer que P1( si = ) = 1, que P2( si = ) = 0
1
et que P2(si = 1) = .)
i

Exercice 4 : Corrl via minmax (Hart et Schmeidler, 1989)

1 2
Soit G
un jeu stratgique 2 joueurs, dcrit par les espaces de stratgies S et S et
1 2 2
le paiement g : S = S S IR . On considre le jeu 2 joueurs et somme nulle

o les espaces de stratgies sont S et L = (S 1)2 (S 2)2 et le paiement avec :

(s; ti, ui) = (g i(ti, si) g i(ui, si))1{ti=si}


a) Vrier que le jeu a une valeur v et des stratgies optimales.
130 Chapitre 9. Travaux dirigs

b) Montrer que si v0 et Q (S) est une stratgie optimale du joueur 1, alors Q est

une distribution d'quilibre corrl dans .


c) Soit (L). On dnit une probabilit de transition sur S 1, 1 par :

1(t1; u1) = (t1, u1), si t1 6= u1


X
1(t1; t1) = 1 1 1
(t1, u1).
6 t
u =
1 1 1
Soit une probabilit sur S invariante par :
X
1(t1) = 1(u1)(u1; t1).
u1

On dnit 2 et 2 de la mme manire et l'on pose = 1 2. Montrer que le paiement


(; ) se dcompose en termes de la forme
X X
1
1(t1) (t1; u1)(g 1(t1, .) g 1(u1, .))
t u1

et en dduire :

(L), (S) satisfaisant : (, ) 0.


d) Etablir alors l'existence d'quilibres corrls dans G.
e) Etendre la dmonstration aux jeux n joueurs.
Bibliographie
[1] Aumann R.J. (1964) Mixed and behaviour strategies in innite extensive games, in Advances in
Game Theory, Dresher M., L.S. Shapley and A.W. Tucker (eds.), Annals of Mathematics Study, 52,
Princeton University Press, 627650.
[2] Aumann R.J. (1974) Subjectivity and correlation in randomized strategies, Journal of Mathematical
Economics, 1, 67-96.
Economic Decision Making : Games,
[3] Aumann R.J. (1990) Nash equilibria are not self-enforcing, in
Econometrics and Optimisation (Essays in Honor of Jacques Dreze), Gabszewicz J.- J., J.-F. Ri-
chard, and L. Wolsey (eds.), Elsevier Science Publishers, Amsterdam, 201-206.
[4] Aumann R.J. (1995) Backward induction and common knowledge of rationality, Games and Econo-
mic Behavior, 8, 6-19.
[5] Aumann R.J. (1998) On the centipede game, Games and Economic Behavior, 23, 97-105.
[6] Aumann R. J. and S. Hart (eds.) (1992) Handbook of Game Theory, Vol. 1, North-Holland, Amster-
dam.
[7] Aumann R. J. and S. Hart (eds.) (1994) Handbook of Game Theory, Vol. 2, North-Holland, Amster-
dam.
[8] Aumann R. J. and S. Hart (eds.) (2002) Handbook of Game Theory, Vol. 3, North-Holland, Amster-
dam.
[9] Aumann R.J. and M. Maschler (1972) Some thoughts on the minmax principle, Management Science,
18, 53-63.

[10] Aumann R.J. and M. Maschler (1995) Repeated Games with Incomplete Information, M.I.T. Press,
1995.
[11] Aumann R.J. and L. S. Shapley (1994) Long-term competitionA game theoretic analysis, in Essays
on Game Theory, N. Megiddo (ed.), Springer-Verlag, 115.
[12] Aumann R.J. and S. Sorin (1989) Cooperation and bounded recall, Games and Economic Behavior,
1, 5-39.

[13] Baar T. and G.J. Olsder Dynamic Noncooperative Game Theory, Classics in Applied Mathematics,
23, SIAM.

[14] Benedetti R. and J.-J. Risler (1990)Real Algebraic and Semi-Algebraic Sets, Hermann.
[15] Benoit J-P. and V. Krishna (1985) Finitely repeated games, Econometrica, 53, 905922.
[16] Benoit J.-P. and V. Krishna (1987) Nash equilibria of nitely repeated games, International Journal
of Game Theory, 16, 197204.
[17] Berge C. (1966) Espaces Topologiques, Fonctions Multivoques, Dunod.
131
132 Chapitre 9. Bibliographie

[18] Bernheim D. (1984) Rationalizable strategic behavior,Econometrica, 52, 1007-28.


[19] Blackwell D. (1956) An analog of the minmax theorem for vector payos. Pacic Journal of Mathe-
matics, 6, 18.
[20] Blackwell D. and T. Ferguson (1968) The Big Match, Annals of Mathematical Statistics, 33, 882-886.
[21] Border K. C. (1999) Fixed Point Theorems with Applications to Economics and Game Theory, Cam-
bridge University Press.
[22] Brouwer L. E. J. (1910) Uber Abbildung von Mannigfaltikeiten. Mathematische Annalen, 71, 97-115.
[23] Brown G.W. (1951) Iterative solutions of games by ctitious play, in Activity Analysis of Production
and Allocation, T.C. Koopmans (ed.), Wiley, 374-376.
[24] Cesa-Bianchi N. and G. Lugosi (2006) Prediction, Learning and Games, Cambridge University Press.
[25] Chen X. and X. Deng (2006) Settling the Complexity of Two-Player Nash Equilibrium, FOCS,
261-272.
[26] Demichelis S. and F. Germano (2000) On the indices of zeros of Nash elds, Journal of Economic
Theory, 92, 192-217.
[27] Demichelis S. and F. Germano (2002) On knots and dynamics in games, Games and Economic
Behavior, 41, 46-60.
[28] Demichelis S. and K. Ritzberger (2003) From evolutionary to strategic stability, Journal of Economic
Theory, 113, 51-75.
[29] Dresher M. (1961) Games of Strategy, Prentice-Hall.
[30] Dresher M., L.S. Shapley and A. W. Tucker (eds.) (1964) Advances in Game Theory, Annals of
Mathematical Studies, 52, Princeton U.P.
[31] Dresher M., A. W. Tucker and P. Wofe (eds.) (1957) Contributions to the Theory of Games, III,
Annals of Mathematics Studies, 39, Princeton University Press.
[32] Fan K. (1952) Fixed-points and minmax theorems in locally convex topological linear spaces, Pro-
ceedings of the National Academy of Sciences of the U.S.A, 38, 121-126.
[33] Fan K. (1953) Minimax Theorems, Proceedings of the National Academy of Sciences of the U.S.A,
39, 42-47.

[34] Forges F. (1986) An approach to communication equilibria, Econometrica, 54, 1375-1385.


[35] Forges F. (1990) Universal mechanisms, Econometrica, 58, 1341-1364.
[36] Forges F. (1992) Repeated games of incomplete information : non-zero sum, in Handbook of Game
Theory, I, Aumann R.J. and S. Hart (eds.), Elsevier Science Publishers, 155-177.
[37] Forges F., J.-F. Mertens and A. Neyman (1986) A counterexample to the Folk theorem with dis-
counting, Economic Letters, 20, 7.
[38] Forges F., J. Renault, S. Sorin and N. Vieille (2006) Thorie des jeux : le prix Nobel pour les travaux
de R.J. Aumann, MATAPLI, Bulletin de liaison de la SMAI, 79, 4770.
[39] Fudenberg D. and E. Maskin (1986) The Folk theorem in repeated games with discounting or with
incomplete information, Econometrica, 54, 533554.
[40] Fudenberg D. and E. Maskin (1991) On the dispensability of public randomization in discounted
repeated games, Journal of Economic Theory, 53, 428-438.
133

[41] Fudenberg D. and J. Tirole (1991) Perfect Bayesian equilibrium and sequential equilibrium, Journal
of Economic Theory, 53, 236-260.
[42] Gale D. and L.S. Shapley (1962) College admissions and the stability of marriage, American Mathe-
matical Monthly, 69, 9-15.
[43] Gale D. and F.M. Stewart (1953) Innite games with perfect information, in Contributions to the
Theory of Games, II, Kuhn H. and A.W. Tucker (eds.), Annals of Mathematical Study, 28, Princeton
University Press, 245-266.
[44] Gilboa I. and A. Matsui (1991) Social stability and equilibrium, Econometrica, 58, 859-67.
[45] Giraud G. (2009) La thorie des jeux, Flammarion.
[46] Glicksberg I .(1952) A further generalization of the Kakutani xed point theorem, with applications
to Nash equilibrium points, Proceedings of the American Mathematical Society, 3, 170174.
[47] Gossner O. (1995) The Folk theorem for nitely repeated games with mixed strategies, International
Journal of Game Theory, 24, 95107.
[48] Gossner O. and T. Tomala (2007) Secret correlation in repeated games with imperfect monitoring.
Mathematics of Operations Research, 32, 413424.
[49] Govindan S. and R. Wilson (1997) Equivalence and invariance of the index and degree of Nash
equilibria, Games and Economic Behavior, 21, 56-61.
[50] Gurrien B. (2002) La thorie des jeux, Economica.
[51] Gul F., D. Pearce and E. Stachetti (1993) A bound on the proportion of pure strategy equilibria in
generic games, Mathematics of Operations Research, 18, 548- 552.
[52] Hammerstein P. and R. Selten (1994) Game theory and evolutionary biology, in Handbook of Game
Theory, II, Aumann R.J. and S. Hart (eds.), North Holland, 929-993.
[53] Harris C. (1998) On the rate of convergence of continuous time ctitious play, Games and Economic
Behavior, 22, 238-259.
[54] Harsanyi J. (1967-68) Games with incomplete information played by `Bayesian' players, parts I-III,
Management Science, 8, 159182, 320334, 486502.
[55] Harsanyi J.C. (1973a) Games with randomly disturbed payos : a new rationale for mixed strategy
equilibrium points, International Journal of Game Theory, 2, 1-23.
[56] Harsanyi J.C. (1973b) Oddness of the number of equilibrium points : a new proof, International
Journal of Game Theory, 2, 235-250.
[57] Hart S. (1985) Nonzero-sum two-person repeated games with incomplete information, Mathematics
of Operations Research, 10, 117-153.
[58] Hart S. (2005) Adaptive heuristics, Econometrica, 73, 1401-1430.
[59] Hart S. and D. Schmeidler (1989) Existence of correlated equilibria, Mathematics of Operations
Research, 14, 18-25.
[60] Hillas J. and E. Kohlberg (2002) Foundations of strategic equilbrium, in Handbook of Game Theory,
III, Aumann R.J. and S. Hart (eds.), North Holland, 1595-1663.
[61] Hofbauer J. and S. Sorin (2006) Best response dynamics for continuous zero-sum games, Discrete
and Continuous Dynamical Systems-series B, 6, 215-224.
134 Chapitre 9. Bibliographie

[62] Hofbauer J. and K. Sigmund (1998) Evolutionary Games and Population Dynamics, Cambridge U.P.,
1998.
[63] Kamien M., Y. Tauman and S. Zamir (1990) On the value of information in a strategic conict,
Games and Economic Behavior, 2, 129-153.
[64] Kakutani S. (1941) A generalization of Brouwer's xed point theorem, Duke Mathematical Journal,
8, 416427.

[65] Kohlberg E. and J.-F. Mertens (1986) On the strategic stability of equilibria, Econometrica, 54,

1003-37.
[66] Kreps D. and J. Sobel (1998) Signalling, in Handbook of Game Theory, II, Aumann R.J. and S. Hart
(eds.), North Holland, 849-867.
Econometrica, 50, 863-94.
[67] Kreps D. and R. Wilson (1982) Sequential equilibria,
[68] Kuhn H.W. (1953) Extensive games and the problem of information, in Contributions to the Theory
of Games, II, Annals of Mathematical Studies, 28, H.W. Kuhn and A.W. Tucker (eds.), Princeton
University Press, 193-216.
[69] Kuhn H. W. and A. W. Tucker (eds.) (1950) Contributions to the Theory of Games, I, Annals of
Mathematics Studies, 24, Princeton University Press.
[70] Kuhn H. W. and A. W. Tucker (eds.) (1953) : Contributions to the Theory of Games, II, Annals of
Mathematics Studies, 28, Princeton University Press.
[71] Laraki R., Renault J. et T. Tomala, Thorie des Jeux, X-UPS 2006, Editions de l'Ecole Polytechnique
[72] Lehrer E. (1989) Nash equilibria of n player repeated games with semi-standard information, Inter-
national Journal of Game Theory, 19, 191217.
[73] Lehrer E. (1989) Lower equilibrium payos in two-player repeated games with non-observable ac-
tions, International Journal of Game Theory, 18, 5789.
[74] Lehrer E. (1992) Correlated equilibria in two-player repeated games with non-observable actions,
Mathematics of Operations Research, 17, 175199.
[75] Lehrer E. (1992) On the equilibrium payos set of two-player repeated games with imperfect moni-
toring, International Journal of Game Theory, 20, 211226.
[76] Lemke C.E. and J.T. Howson (1964) Equilibrium points of bimatrix games, SIAM Journal, 12,

413-423.
[77] Loomis L. H. (1946) On a theorem of von Neumann, Proceeding of the National Academy of Sciences
of the U.S.A, 32, 213-215.
[78] Martin D. A. (1975) Borel determinacy,Annals of Mathematics, 102, 363-371.
[79] Mas-Colell A., M. Whinston and J. Green (1995) Microeconomic Theory, Oxford University Press.
[80] Maynard Smith J.(1981) Evolution and the Theory of Games, Cambridge University Press.
[81] Mc Lennan A. and R. Tourky (2006) From imitation games to Kakutani, preprint.
[82] Mertens J.-F. (1987) Repeated Games. Proceedings of the International Congress of Mathematicians
(Berkeley), 1986, American Mathematical Society, 1528-1577.
[83] Mertens J.-F. (1989) Stable equilibria - A reformulation, Part I, Mathematics of Operations Research,
14, 575-624.
135

[84] Mertens J.-F. (1991) Stable equilibria - A reformulation, Part II, Mathematics of Operations Re-
search, 16, 694-753.
[85] Mertens J.-F. (1992) Stochastic games, in Handbook of Game Theory, 3, Aumann R.J. and S. Hart
(eds.), North Holland, 1809-1832.
[86] Mertens J.-F. and Neyman A. (1981) Stochastic games, International Journal of Game Theory, 10,
53-66.
[87] Mertens J.-F., S. Sorin and S. Zamir (1994) Repeated Games, CORE discussion paper 9420-9422.
[88] Mertens J.-F. and S. Zamir (1971) The value of two-person zero-sum repeated games with lack of
information on both sides, International Journal of Game Theory, 1, 3964.
[89] Mertens J.-F. and S. Zamir (1977) A duality theorem on a pair of simultaneous functional equations,
Journal of Mathematical Analysis and Applications, 60, 550558.
[90] Milgrom P. and R. Weber (1985) Distributional strategies for games with incomplete information,
Mathematics of Operations Research, 10, 619-632.
[91] Mills H.D. (1956) Marginal value of matrix games and linear programs, in Linear Inequalities and
Related Systems, Kuhn H.W. and A.W. Tucker (eds.), Annals of Mathematical Studies, 38, Princeton
University Press, 183193.
[92] Milnor J.W. (1965) Topology from the Dierentiable Viewpoint, Princeton U.P.
[93] Monderer D. and L.S. Shapley (1996) Potential games, Games and Economic Behavior, 14, 124-143.
[94] Myerson R. (1978) Renements of the Nash equilibrium concept, International Journal of Game
Theory, 7, 73-80.
[95] Myerson R. (1991) Game Theory, Harvard University Press.
[96] Myerson R. (1998) Communication, correlated equilibria and incentive compatibility, in Handbook
of Game Theory, 2, Aumann R.J. and S. Hart (eds.), North Holland, 827-847.
[97] Nash J. (1950) Equilibrium points in n-person games, Proceedings of the National Academy of
Sciences, 36, 4849.
[98] Nash J. (1951) Non-cooperative games, Annals of Mathematics, 54, 286-295.
[99] Neyman A. and S. Sorin (2003) Stochastic Games and Applications, NATO Science Series, Kluwer
Academic Publishers.
[100] Nikaido H. and K. Isoda (1955) Note on non cooperative convex games, Pacic Journal of Mathe-
matics, 5, 807-815.
[101] Nisan N., Roughgarden T., Tardos E. and V. Vazirani (2007) Algorithmic Game Theory, Cambridge
University Press.
[102] Osborne M.J. and A. Rubinstein (1994) A Course in Game Theory, MIT Press.
[103] Owen G. (1995) Game Theory (3rd Edition), Academic Press.
[104] Parthasarathy T. and T.E.S. Raghavan (1971) Some Topics in Two-Person Games, American El-
sevier.
[105] Pearce D. (1984) Rationalizable strategic behavior and the problem of perfection, Econometrica,
52, 1029-50.
136 Chapitre 9. Bibliographie

[106] Renault J. (2000) 2-player repeated games with lack of information on one side and state inde-
pendent signalling, Mathematics of Operations Research, 25, 552572.
[107] Renault J. (2006) The value of Markov chain repeated games with lack of information on one side,
Mathematics of Operations Research, 2006, vol.31, 490-512.
[108] Renault J. and T. Tomala (1998) Repeated proximity games, International Journal of Game Theory,
27, 539559.

[109] Renault J. and T. Tomala (2004) Communication equilibrium payos of repeated games with im-
perfect monitoring, Games and Economic Behavior, 49, 313344.
[110] Reny P. (1999) On the existence of pure and mixed Nash equilibria in discontinuous games, Eco-
nometrica, 67, 1029-1056.
[111] Robinson J. (1951) An iterative method of solving a game, Annals of Mathematics, 54, 296-301.
[112] Rosenthal R. (1982) Games of perfect information, predatory pricing and the Chain Store paradox,
Journal of Economic Theory, 25, 92-100.
[113] Rubinstein A. (1982) Perfect equilibrium in a bargaining model, Econometrica, 50, 97-110.
[114] Rubinstein A. (1994) Equilibrium in supergames in Essay in Game Theory in Honor of M. Ma-
schler, N.Meggiddo (ed.) Springer-Verlag, 17-28. (original paper : Equilibrium in supergames, Center
for Research in Mathematical Economics and Game Theory, Research Memorandum 25.)
[115] Selten R. (1975) Re-examination of the perfectness concept for equilibrium points in extensive
games, International Journal of Game Theory, 4, 25-55.
[116] Shapley L.S. (1953) Stochastic games, Proceedings of the National Academy of Sciences of the
U.S.A., 39, 1095-1100.
[117] Simon R.S., S. Spie and H. Toruczyk (1995) The existence of equilibria in certain games, se-
paration for families of convex functions and a theorem of Borsuk-Ulam type, Israel Journal of
Mathematics, 92, 121.
[118] Sion M. (1958) On general minimax theorems, Pacic Journal of Mathematics, 8, 171176.
[119] Sion M. and P. Wolfe (1957) On a game without a value, in Contibutions to the Theory of Games,
III, Dresher M., A.W. Tucker and P. Wolfe (eds.), Annals of Mathematical Studies, 39, Princeton
University Press, 299-306.
[120] Solan E. (1999) Three-Player absorbing games, Mathematics of Operation Research, 24, 669-698.
[121] Solan E. and N. Vieille (2001) Quitting games, Mathematics of Operation Research, 26, 265-285.
[122] Sorin S. (1983) Some results on the existence of Nash equilibria for non-zero sum games with
incomplete information International Journal of Game Theory, 12, 193205.
[123] Sorin S. (1986a) On repeated games with complete information, Mathematics of Operations Re-
search, 11, 147160.
[124] Sorin S. (1986b) Asymptotic properties of a non zero-sum stochastic game, International Journal
of Game Theory, 15, 101-107.
[125] Sorin S. (1992) Repeated games with complete information, in Handbook of Game Theory, 1, R.J.
Aumann and S. Hart (eds.), North Holland, 71107.
[126] Sorin S (1999) Merging, reputation and repeated games with incomplete information, Games and
Economic Behavior, 29, 274-308.
137

[127] Sorin S. (2002) A First Course on Zero-Sum Repeated Games, Mathmatiques et Applications,
Springer.
[128] Tarski A.(1955) A lattice theoretical xed point theorem and its applications, Pacic Journal of
Mathematics, 5, 285-308.
[129] Topkis D. (1979) Equilibrium points in non zero-sum n person submodular games, SIAM Journal
of Control and Optimization, 17, 773-787.
[130] van Damme E. (1984) A relation between perfect equilibria in extensive form games and proper
equilibria in normal form games, International Journal of Game Theory, 13, 1-13.
[131] Van Damme E. (1987)Stability and Perfection of Nash Equilibria, Springer.
[132] van Damme E. (1992) Renement of Nash equilibrium, in Advances in Economic Theory (6th
Congress Econometric Society), Laond J.-J. (ed.), Cambridge U.P., 32-75.
[133] van Damme E. (1994) Evolutionary game theory, European Economic Review, 34, pp. 847-858
[134] van Damme E. (2002) Strategic equilibrium, in Handbook of Game Theory, 3, R.J. Aumann and S.
Hart (eds.), North Holland, 1521-1596.
[135] Vieille N. (2000a). Two-player stochastic games I : a reduction, Isral Journal of Mathematics, 119,
55-91.
[136] Vieille N. (2000b). Two-player stochastic games II : the case of recursive games, Isral Journal of
Mathematics, 119, 93-126.
[137] Vieille (1992) Stochastic games : recent results, in Handbook of Game Theory, 3, Aumann R.J. and
S. Hart (eds.), North Holland, 1833-1850.
[138] Ville J. (1938) Sur la thorie gnrale des jeux o intervient l'habilet des joueurs, in E. Borel,
Trait du Calcul des Probabilits et de ses Applications, Tome IV, Gauthier-Villars, 105-113.
[139] Vives X. (1990) Nash equilibrium with strategic complementarities, Journal of Mathematical Eco-
nomics, 19, 305-321.
[140] Von Neumann J. (1928) Zur Theorie der Gesellschaftsspiele, Mathematische Annalen, 100, 295320.
[141] Von Neumann J. and O. Morgenstern (1944) Games and Economic Behavior, Princeton University
Press.
[142] Weibull J. (1995) Evolutionary Game Theory, MIT Press.
[143] Weyl H. (1950) Elementary proof of a minimax theorem due to von Neumann, in Contributions to
the Theory of Games, I, H. W. Kuhn and A. W. Tucker (eds.), Annals of Mathematical Studies, 24,
Princeton University Press, 19-25.
[144] Zamir S. (1992) Repeated games of incomplete information : zero-sum, in Handbook of Game
Theory, 1, Aumann R.J. and S. Hart (eds.), North Holland, 109-154.
[145] Zermelo E. (1912) ber eine Anwendring der Mengenlehrer auf die Theorie des Schachspiels, Pro-
ceedings of the Fifth International Congress of Mathematicians (Cambridge), 1912, vol. II, 501.

Vous aimerez peut-être aussi