Vous êtes sur la page 1sur 45

Microéconomie

Maîtrise d’Economie Appliquée


Introduction à la Théorie des Jeux
Françoise Forges et François Marini
2008-2009

“La pensée doit partir de l’irréductible”, Fernando Pessoa, Fragments d’un Voyage
Immobile

Dans ce cours comme dans beaucoup d’autres, nous étudierons des modèles.
Un modèle ne nous aidera pas à comprendre un phénomène si ses hypothèses sont
trop éloignées de la réalité. Mais en même temps, le pouvoir explicatif d’un modèle
réside dans sa simplicité. Ses hypothèses doivent saisir ce qui est essentiel dans
une situation, pas les détails super‡us. Si vous recherchez sur une carte la route
la plus courte pour aller de Venise à Florence, vous travaillerez vraisemblablement
sous l’hypothèse que la terre est plate. Prendre en compte le relief est inessentiel et
complique beaucoup le problème. Les modèles de théorie des jeux font abstraction de
nombreux détails mais permettent une description concise et précise de l’interaction
d’agents rationnels.

1
1 Eléments de base des jeux non coopératifs

1.1 Description d’un jeu


Un jeu est une représentation formelle d’une situation dans laquelle un certain
nombre d’individus rationnels doivent prendre des décisions qui les a¤ectent mutuel-
lement. Ces individus sont soumis à une interdépendance stratégique, c’est-à-dire
que le sort de chaque joueur ne dépend pas seulement de ses propres actions, mais
également des actions des autres joueurs. Dès lors, les actions que choisit un individu
dépendent de ses anticipations sur les actions des autres. La théorie des jeux, que
l’on désigne parfois sous le nom de “théorie de la décision interactive”, se distingue
donc de la théorie de la décision individuelle.

Exemple : Dix personnes vont au restaurant. Chacune d’elles paie le prix du menu
qu’elle commande. C’est un problème qui relève de la théorie de la décision indivi-
duelle. Si, avant d’entrer au restaurant, les dix personnes se mettent d’accord pour
partager à égalité le coût des dix menus, c’est un problème de théorie des jeux.

Pour décrire une situation d’interaction stratégique, nous devons connaître quatre
éléments :
(1) les joueurs
(1’) le rôle du hasard (ou “nature”)
(2) les règles du jeu, i.e., ) qui joue quand ? ) quelle information ont les joueurs
lorsqu’ils jouent ? ) que peuvent faire les joueurs lorsque c’est leur tour de jouer ?
(3) les résultats, i.e., pour chaque ensemble possible d’actions des joueurs et de
la nature, quel est le résultat du jeu ?
(4) les utilités, i.e., quelles sont les préférences des joueurs sur les résultats pos-
sibles ?

Exemple : le jeu du pénalty version A


Joueurs : Deux joueurs notés 1 et 2
Règles du jeu : Chaque joueur choisit “pile”ou “face”(ou “gauche”ou “droite”),
les deux joueurs font leurs choix simultanément
Résultats : Si les deux choix sont identiques, le joueur 1 verse 1 euro au joueur
2, sinon le joueur 2 verse 1 euro au joueur 1
Le joueur 2 désire donc choisir la même action que le joueur 1, tandis que le
joueur 1 désire choisir une action opposée à celle du joueur 2. Le jeu du pénalty est
une situation de pur con‡it car ce qui est gagné par l’un est perdu par l’autre. De
tels jeux sont appelés jeux à somme nulle.
Le jeu du pénalty pourrait représenter la situation économique suivante. Deux
entreprises doivent choisir la caractéristique d’un nouveau produit. Une entreprise
est présente sur le marché depuis longtemps, alors que l’autre vient d’entrer sur
le marché. La taille du marché est …xe. L’entreprise établie préfère que le produit
du nouveau concurrent ait une caractéristique di¤érente de celle de son produit,
alors que le nouveau concurrent préfère que la caractéristique soit la même. Le jeu

2
du pénalty pourrait également modéliser une relation entre deux personnes dans
laquelle l’une veut être comme l’autre, et l’autre ne veut pas.

La théorie des jeux ne se limite pas à l’étude de l’intéraction stratégique dans les
situations de con‡it pur ou partiel. Considérons la situation suivante.

Le jeu du rendez-vous
Joueurs : Deux joueurs 1 et 2
Règles du jeu : Les deux joueurs sont séparés et ne peuvent pas communiquer.
Ils doivent se rencontrer à Paris mais ont oublié si le rendez-vous est à la Tour Ei¤el
ou à Notre Dame. Chacun doit décider où aller (chacun ne peut faire qu’un choix)
Résultats : S’ils se rencontrent, ils déjeunent ensemble, sinon ils déjeunent seuls
Utilités : S’ils mangent ensemble, chacun a une utilité de 1, sinon chacun a une
utilité de 0

Alors que les intérêts des deux joueurs étaient complètement opposés dans le
jeu du pénalty, ils sont complètement alignés dans cet exemple. Les joueurs sont
confrontés à un problème de coordination. L’utilité de chaque joueur dépend de
ce que l’autre joueur fait, et l’action optimale de chaque joueur dépend de son
anticipation sur l’action de l’autre joueur.

1.2 La représentation d’un jeu sous forme extensive


Si nous connaissons les quatre éléments cités plus haut, alors nous pouvons ré-
présenter un jeu sous forme extensive, i.e., sous forme d’un “arbre”.

Exemple : le jeu du pénalty version B


Cette version est la même que la version A sauf que les deux joueurs font leurs
choix séquentiellement plutôt que simultanément. Le joueur 1 choisit en premier. Le
joueur 2 observe le choix du joueur 1 et joue en second.

Face Pile

2 2

Face Pile Face Pile

(-1;+1) (+1;-1) (+1;-1) (-1;+1)


Figure 1

3
La forme extensive de ce jeu est représentée sur la …gure 1. Chaque action est
représentée par une “branche”. Chaque branche est issue d’un “nœud”, géré par un
(et un seul) joueur. Un arbre commence en un nœud appelé “nœud initial” et se
caractérise par la propriété suivante : tout nœud est relié au nœud initial par un seul
chemin (formé de branches et de nœuds). Des utilités sont associées à chaque nœud
terminal de l’arbre. Le jeu du pénalty version B est à information parfaite car au
moment de jouer, le joueur 2 est informé de l’action qui a été choisie précédemment
par son rival.

Le concept d’ensemble d’information permet de formaliser l’information impar-


faite. Formellement, un ensemble d’information est un sous-ensemble des nœuds de
décision d’un joueur. Les ensembles d’information d’un joueur forment une partition
des nœuds gérés par ce joueur. L’interprétation est qu’un joueur ne peut distinguer
les nœuds d’un même ensemble d’information. Les actions disponibles en chaque
nœud d’un même ensemble d’information sont donc identiques.

Exemple : le jeu du pénalty version C


Même version que B sauf que le joueur 1 cache de la main la pièce qu’il pose sur
la table. Ainsi, le joueur 2 ne peut pas observer le choix du joueur 1. C’est un jeu à
information imparfaite. La forme extensive est représentée sur la …gure 2. Le joueur
1 a un ensemble d’information contenant seulement le nœud initial, le joueur 2 a un
ensemble d’information contenant deux nœuds.

Face Pile

2
Face Pile Face Pile

(-1;+1) (+1;-1) (+1;-1) (-1;+1)


Figure 2

Dé…nition : un jeu est à information parfaite si chaque ensemble d’information est


un singleton. Sinon, le jeu est à information imparfaite.

4
Dans les jeux précédents, nous avons supposé que les joueurs ont une mémoire
parfaite, i.e., qu’un joueur n’oublie pas ce qu’il connaissait dans le passé. La …gure
3 donne un exemple dans lequel cette condition n’est pas véri…ée.

G D

2 2
g d g d

1 1

G D G D
( 2 )
g d g d

Figure 3
Ici, le joueur 2 a oublié un choix du joueur 1 qu’il connaissait précédemment.
En T=3, il a oublié si le joueur 1 avait joué G ou D en T=0, alors qu’il le savait en
T=1.
Tous les jeux que nous considérerons dans la suite satisferont à la condition de
mémoire parfaite.

Le concept d’ensemble d’information permet notamment de formaliser un jeu


dans lequel les joueurs jouent simultanément.

Exemple : le jeu du pénalty standard (version A)


Les deux joueurs choisissent simultanément pile ou face. Ce jeu se représente
par la même forme extensive que la version C. En e¤et, si les deux joueurs jouent
simultanément, aucun n’est informé du choix de l’autre joueur.

Jusqu’à présent, nous avons considéré des jeux dans lesquels le résultat est une
fonction déterministe des actions des joueurs. Cependant, dans beaucoup de jeux

5
la chance intervient. Le hasard peut être formalisé dans une forme extensive en
incluant des mouvements aléatoires de la nature.

Exemple : le jeu du pénalty version D


Avant de jouer au jeu du pénalty version B, les deux joueurs lancent une pièce
de monnaie pour savoir qui joue en premier. La forme extensive est celle de la …gure
4. La nature se représente comme un joueur supplémentaire (“joueur 0”) qui choisit
entre ses deux actions avec une probabilité 1/2.

Nature

1/2 1/2
1 2
F P F P
2 2 1 1
F P F PF P F P
-1 +1 +1 -1 +1 -1 -1 +1
+1 -1 -1 +1 -1 +1 +1 -1

Figure 4

1.3 Les stratégies et la représentation sous forme normale


d’un jeu
Un concept central de la théorie des jeux est celui de stratégie d’un joueur. Une
stratégie est un plan contingent complet, une règle de décision qui spéci…e le choix
du joueur dans toutes les circonstances dans lesquelles il pourrait avoir à choisir une
action. En d’autres termes, la stratégie d’un joueur est une plani…cation du choix
de ses actions à chacun de ses ensembles d’information.
Spéci…er une stratégie, c’est comme écrire un livre d’instructions avant de jouer,
qui permette de déléguer ses choix. Un représentant pourrait agir au nom d’un
joueur, en toutes circonstances, en consultant le livre.

Exemples :

6
Le jeu du pénalty version B :
Le joueur 1 n’a qu’un seul ensemble d’information. Il a deux stratégies possibles,
F et P. Le joueur 2 a deux actions possibles (F et P) et deux ensembles d’information,
il a donc quatre stratégies possibles :
1 : jouer F si 1 joue F, jouer F si 1 joue P
2 : jouer F si 1 joue F, jouer P si 1 joue P
3 : jouer P si 1 joue F, jouer F si 1 joue P
4 : jouer P si 1 joue F, jouer P si 1 joue P

Le jeu du pénalty version A ou C :


Le joueur 1 a les mêmes stratégies. Le joueur 2 a toujours deux actions possibles
(F et P), mais il n’a qu’un ensemble d’information, il n’a donc que deux stratégies
F et P.

Dans un jeu où le hasard n’intervient pas, chaque pro…l de stratégies des joueurs
s = (s1 ; s2 ; :::; sn ) conduit à un (et un seul) résultat du jeu (i.e., un nœud terminal).
Nous pouvons donc déduire les utilités des joueurs associées à n’importe quel pro…l
de stratégies (s1 ; s2 ; :::; sn ). Nous pouvons ainsi spéci…er directement un jeu en termes
des stratégies possibles et de leurs utilités correspondantes. Cette seconde façon de
représenter un jeu est la forme normale ou stratégique. C’est une version condensée
de la forme extensive.

Dé…nition : un jeu sous forme normale consiste en un ensemble de joueurs f1; :::; ng,
un ensemble de stratégies Si pour chaque joueur i (i = 1; :::; n) et une fonction
d’utilité ui : S1 ::: Sn ! R pour chaque joueur i (i = 1; :::; n).

Exemple : forme normale du jeu du pénalty version B

Joueur 2
1 2 3 4
Joueur 1 F 1; +1 1; +1 +1; 1 +1; 1
P +1; 1 1; +1 +1; 1 1; +1

Exemple : forme normale du jeu du pénalty version A ou C

Joueur 2
F P
Joueur 1 F 1; +1 +1; 1
P +1; 1 1; +1
La procédure précédente permet d’associer, à toute forme extensive, une seule
représentation sous forme normale. Cependant, la même forme normale peut corres-
pondre à plusieurs formes extensives di¤érentes. Par exemple, la forme normale du
jeu du pénalty version B représente également la forme extensive de la …gure 5.

7
2

a b c d

g d g d g d g d

joueur 1 -1 +1-1 -1 +1 +1 +1 -1
joueur 2 +1 -1 +1 +1-1 -1 -1 +1
Figure 5

Dans un jeu où le hasard intervient, chaque pro…l de stratégies des joueurs s =


(s1 ; s2 ; :::; sn ) induit une distribution de probabilités sur les nœuds terminaux et
donc sur les utilités des joueurs. Nous supposerons tout au long de ce cours que les
préférences des joueurs sur les loteries sont représentées par des fonctions d’utilité de
von Neumann et Morgenstern et nous évaluerons donc l’utilité d’une distribution de
probabilités par l’utilité attendue correspondante. Nous pourrons ainsi associer, de
façon univoque, une forme normale à tout jeu en forme extensive, y compris quand
il y a des choix de la nature.

Exemple : forme normale du jeu du pénalty version D


Chaque joueur a 3 ensembles d’informations et 2 actions possibles en chacun
d’eux, donc 23 stratégies. La stratégie FPF du joueur 1 signi…e qu’il choisit F si la
nature le désigne comme le premier à jouer, P, s’il joue en second et le joueur 2 a
joué F et F, s’il joue en second et le joueur 2 a joué P. De même, la stratégie PFP
du joueur 2 signi…e qu’il choisit P s’il joue en second et le joueur 1 a joué F, F, s’il
joue en second et le joueur 1 a joué P, et P, s’il joue le premier (on parcourt les
ensembles d’information de gauche à droite). Supposons que le joueur 1 choisisse
FPF et le joueur 2, PFP. Si le joueur 1 commence (ce qui arrive avec probabilité
1/2), la suite d’actions est F (joueur 1) et P (joueur 2) : le paiement est (+1,-1) ; si
le joueur 2 commence (ce qui arrive aussi avec probabilité 1/2), la suite d’actions est
P (joueur 2) et F (joueur 1) : le paiement est (-1,+1). Le paiement attendu est donc
1
2
(+1; 1) + 12 ( 1; +1) = (0; 0). On peut appliquer le même procédé pour calculer
les 8 8 paiements de la forme normale. Cette représentation, assez fastidieuse, n’est
pas vraiment nécessaire à la résolution du jeu du pénalty version D, comme nous le
verrons dans la section 3.1.

Exemple : poker simpli…é

8
On choisit au hasard une carte et on la donne au joueur 1, qui en découvre la
couleur. La carte est noire avec probabilité 1/2, rouge avec la même probabilité. Le
joueur 1 choisit de “passer”(action P1 ) ou “miser”(action M1 ) ; s’il passe, il donne
1 euro au joueur 2, et le jeu se termine ; s’il mise, le joueur 2 (qui ne connaît pas
la couleur de la carte, mais a observé que le joueur a misé) choisit à son tour de
“passer”(action P2 ) ou “miser”(action M2 ) ; s’il passe, il donne 1 euro au joueur 1,
et le jeu se termine ; s’il mise, le joueur 1 doit montrer sa carte ; il donne 3 euros au
joueur 2 si la carte est noire, tandis que le joueur 2 donne 3 euros au joueur 1 si la
carte est rouge.
Une stratégie du joueur 1 est un couple indiquant l’action à choisir suivant que
la carte est noire ou rouge ; le joueur 1 a donc 4 stratégies. Le joueur 2 n’a qu’un seul
ensemble d’information (contenant 2 nœuds), et 2 actions. Il a donc 2 stratégies. La
forme normale est la suivante :

Joueur 2
P2 M2
P1 P 1 1; +1 1; +1
Joueur 1 P1 M 1 0; 0 +1; 1
M 1 P1 0; 0 2; +2
M1 M1 +1; 1 0; 0

2 Les jeux dans lesquels les joueurs jouent simul-


tanément (jeux statiques)

2.1 Stratégies dominantes et dominées


Considérons le dilemme du prisonnier suivant (chaque joueur cherche à minimiser
le temps qu’il passe en prison, ou, ce qui revient au même, à maximiser la valeur
négative de ce temps)1

Joueur 2
N 0 avoue pas Avoue
Joueur 1 N 0 avoue pas 2; 2 10; 1
Avoue 1; 10 5; 5
La solution de ce jeu sera (Avoue ; Avoue) car avouer maximise l’utilité de chaque
joueur, quelle que soit la stratégie de l’autre joueur : “Avouer” est une stratégie
strictement dominante.
Le dilemme du prisonnier est un exemple simple dans lequel des comportements
individuels rationnels ne conduisent pas à une situation sociale optimale. Ceci pro-
vient du fait qu’en cherchant à maximiser son utilité, chaque prisonnier impose une
externalité négative à l’autre prisonnier car en déviant de “Ne pas avouer”, un joueur
réduit son temps d’emprisonnement d’1 an mais augmente celui de l’autre de 8 ans.
1
Le “dilemme du prisonnier”a du sens dans le système américain, où un témoignage peut valoir
une remise de peine.

9
Ce problème peut-il être résolu par un engagement préalable des joueurs à co-
opérer ? Oui, si la promesse de coopérer est crédible, non, sinon. Dans le dilemme
du prisonnier tel qu’il est décrit ci-dessus, la promesse n’est pas crédible.
Le jeu du dilemme du prisonnier peut rendre compte du problème de la surex-
ploitation des ressources naturelles. Considérons par exemple deux pêcheurs sur une
petite rivière. Chacun a intérêt à pêcher le plus de poissons possible, mais ce com-
portement réduit le stock de poissons qui ne peuvent plus se reproduire à un taux
su¢ sant. Si un pêcheur restreint sa pêche, l’autre peut augmenter la sienne sans
que cela réduise le stock. Chaque pêcheur sait que l’autre a intérêt à faire cela, et
donc aucun n’a intérêt à se restreindre unilatéralement. Le jeu sous forme normale
représentant cette situation pourrait être le suivant :

P e^cheur 2
Se restreint Exploite
P e^cheur 1 Se restreint 2; 2 0; 3
Exploite 3; 0 1; 1
Des stratégies strictement dominantes existent rarement. Cependant, l’idée de
dominance peut être utilisée pour éliminer certaines stratégies. En particulier, un
joueur ne jouera pas de stratégies strictement dominées.

Dé…nition : une stratégie si est strictement (resp., faiblement) dominante pour le


joueur i si, quoi que fassent les autres joueurs, si lui procure une utilité supérieure
(resp., supérieure ou égale) à toute autre stratégie. Une stratégie si est strictement
(resp., faiblement) dominée pour le joueur i s’il existe une stratégie s0i qui, quoi que
fassent les autres joueurs, lui procure une utilité supérieure (resp., supérieure ou
égale) à celle de si .

Exemples :

Joueur 2
G D
H 1; 1 1; 1
Joueur 1 M 1; 1 1; 1
B 2; 5 3; 2
Il n’y a pas de stratégie strictement dominante, mais pour le joueur 1, la stratégie
B est strictement dominée par H (ou par M).

Joueur 2
G D
H 5; 1 4; 0
Jouer 1 M 6; 0 3; 1
B 6; 4 4; 4
Pour le joueur 1, les stratégies H et M sont faiblement dominées par la stratégie
B, qui est donc faiblement dominante.

10
Contrairement à une stratégie strictement dominée, une stratégie faiblement do-
minée ne peut pas être exclue à partir du principe de rationalité. Par exemple, dans
le jeu ci-dessus, le joueur 1 pourrait rationnellement jouer M s’il était certain que le
joueur 2 joue G. Cependant, si le joueur 1 pense qu’il y a une probabilité positive
que le joueur 2 joue D, alors M n’est pas un choix rationnel. Plus généralement, les
stratégies faiblement dominées peuvent être éliminées si les joueurs pensent qu’il y
a une probabilité positive que n’importe laquelle des stratégies des autres joueurs
sera jouée.

Considérons la variante suivante du dilemme du prisonnier :

Joueur 2
N 0 avoue pas Avoue
Joueur 1 N 0 avoue pas 0; 2 10; 1
Avoue 1; 10 5; 5
Si 2 avoue, 1 a intérêt à avouer, mais si 2 n’avoue pas, 1 a intérêt à ne pas avouer.
Donc aucune stratégie de 1 n’est strictement dominée. Cependant, si l’on pousse la
logique de l’élimination des stratégies strictement dominées plus loin, nous pouvons
prédire qu’il n’y a qu’une seule solution dans ce jeu. Pour 2, ne pas avouer est
strictement dominée. 1 peut donc anticiper que 2 va avouer, d’où la stratégie opti-
male de 1 est d’avouer. C’est sa stratégie strictement dominante lorsque la stratégie
strictement dominée de 2 a été éliminée. D’où l’unique solution du jeu est (Avoue ;
Avoue).
Remarquons que l’élimination itérative des stratégies strictement dominées re-
pose sur l’hypothèse de connaissance commune des utilités et de la rationalité des
joueurs. L’élimination des stratégies strictement dominées nécessite seulement que
chaque joueur soit rationnel, alors que l’élimination itérative des stratégies stricte-
ment dominées que nous venons d’e¤ectuer nécessite non seulement que le joueur 2
soit rationnel, mais également que le joueur 1 sache que le joueur 2 est rationnel.
L’élimination des stratégies strictement dominées peut se poursuivre après plus
d’une itération parce qu’après chaque itération, des stratégies qui n’étaient pas do-
minées peuvent le devenir. Cependant, chaque itération supplémentaire nécessite
que la connaissance des joueurs de la rationalité de chaque autre joueur soit d’un
rang supérieur. Par exemple pour deux itérations, un joueur doit savoir non seule-
ment que les autres joueurs sont rationnels, mais également qu’ils savent qu’il est
rationnel.
Une caractéristique du processus itératif d’élimination des stratégies strictement
dominées est que l’ordre d’élimination n’a¤ecte pas l’ensemble des stratégies qui
restent à la …n. C’est-à-dire que si à n’importe quel rang plusieurs stratégies d’un
seul joueur ou de joueurs di¤érents sont strictement dominées, alors nous pouvons les
éliminer toutes en même temps ou dans n’importe quel ordre sans changer l’ensemble
des stratégies qui restera à la …n.
L’élimination itérative des stratégies faiblement dominées peut dépendre de l’ordre
d’élimination. Par exemple, reconsidérons le jeu suivant :

11
Joueur 2
G D
H 5; 1 4; 0
Joueur 1 M 6; 0 3; 1
B 6; 4 4; 4
Si nous commençons par éliminer H, ensuite nous éliminons G, puis nous élimi-
nons M et ((B ;D) est notre prévision. Si au contraire nous commençons par éliminer
M, ensuite nous éliminons D, puis H, d’où (B ;G) est notre prévision.

Remarque : jusqu’ici, nous n’avons considéré que des stratégies déterministes, ou


“pures”(i.e., des éléments de Si , i = 1; :::n). On peut, plus généralement considérer
des stratégies “mixtes”, i.e., des distributions de probabilités sur Si (voir section
2.2.2). Il est possible qu’une stratégie pure soit dominée uniquement par une stratégie
mixte.
Exemple :

Joueur 2
G D
H 10; 1 0; 4
Joueur 1 M 4; 2 4; 3
B 0; 5 10; 2
La stratégie mixte (0,5H ;0,5B) domine strictement la stratégie pure M car elle
procure une utilité attendue de 5, quoi que fasse le joueur 2.

u
L
H

10

(0,5H+0,5B)

4 .
B
M

u
4 5 10 R
Figure 6

12
Une stratégie mixte qui donne une probabilité positive à une stratégie pure do-
minée est elle-même dominée. Cependant, même une stratégie mixte qui ne donne
aucune probabilité à une stratégie pure strictement dominée peut être strictement
dominée. Dans l’exemple précédent, si pour le joueur 1 les utilités de M sont 6,
H et B ne sont pas dominées par M, cependant la stratégie mixte (0,5H ;0,5B) est
strictement dominée par M.

2.2 L’équilibre de Nash

2.2.1 L’équilibre de Nash en stratégies pures


Un équilibre de Nash est un pro…l de stratégies tel qu’aucun joueur ne puisse
accroître son utilité en changeant de stratégie lorsqu’il prend comme une donnée
les stratégies des autres joueurs. Ou en d’autres termes, aucun joueur n’a intérêt à
dévier unilatéralement.

Exemple :

Joueur 2
G M D
H 5; 3 0; 4 3; 5
Joueur 1 M 4; 0 5; 5 4; 0
B 3; 5 0; 4 5; 3
(M ;M) est un équilibre de Nash.

Exemples : La chasse au cerf et la bataille des sexes


Nous avons vu dans le dilemme du prisonnier qu’il est di¢ cile pour les individus
de coopérer. Cet exemple montre qu’il est également di¢ cile de se coordonner.
Le problème de la chasse au cerf, posé par Jean-Jacques Rousseau dans “Le
Discours sur l’Origine de l’Inégalité parmi les Hommes”, allie les problèmes de co-
opération et de coordination.
Deux chasseurs e¤ectuent une battue pour chasser le cerf. Si chacun reste à son
poste, ils sont sûrs d’attraper un cerf, ce qui procure à chacun une utilité de 10. Si
un lièvre passe à côté d’un chasseur et que celui-ci coure après le lièvre, il l’attrape,
ce qui lui procure une utilité de 2. Mais l’autre chasseur perd le cerf et se retrouve
avec une utilité de 0. La forme normale est la suivante :

Chasseur 2
Cerf Lievre
Chasseur 1 Cerf 10; 10 0; 2
Lievre 2; 0 2; 2
Ce jeu possède deux équilibres de Nash : (Cerf ;Cerf) et (Lièvre ; Lièvre). Contrai-
rement au dilemme du prisonnier, la coopération est un équilibre de Nash. Mais il
y a un deuxième équilibre de Nash dans lequel les individus ne coopèrent pas.

13
Ce jeu pourrait représenter une situation de course aux armements par deux
pays. Un pays préfère que les deux pays se réfrènent plutôt que de s’armer seul car
les dépenses militaires réduisent les budgets sociaux. Dans la forme stratégique, il
su¢ t de remplacer “Cerf”par “Se réfréner”et “Lièvre”par “S’armer”.
La “bataille des sexes” pose un problème de pure coordination. Un mari et sa
femme préfèrent passer la soirée ensemble plutôt que séparément. La femme préfère
le théâtre et le mari la boxe. La forme normale de ce jeu est la suivante :

F emme
Boxe T he^atre
M ari Boxe 10; 5 4; 4
T he^
atre 0; 0 5; 10
Ce jeu pose un problème de coordination car il possède deux équilibres de Nash
qui sont (Boxe ;Boxe) et (Théâtre ;Théâtre). Sur quel équilibre les joueurs vont-ils
se coordonner ?
Dans la chasse au cerf, un des deux équilibres est optimal au sens de Pareto.
On peut espérer que les joueurs se coordonnent sur l’équilibre Pareto-optimal s’ils
peuvent communiquer avant de jouer. Dans certains cas, la structure du jeu fournit
un point focal.

Exemples :
Deux soldats sont parachutés en territoire ennemi pour saboter un pont. Au
cours du saut en parachute, ils sont séparés de façon inattendue. Les deux soldats
doivent absolument être ensemble pour réaliser leur mission. Chacun doit choisir un
point de rendez-vous sur sa carte. L’utilité de chacun est de 1 s’ils choisissent le
même point de rendez-vous et 0 sinon. Leur objectif est identique. C’est donc un
jeu de coordination. Ce jeu possède une multiplicité d’équilibres de Nash. En e¤et,
chaque point de la carte est un équilibre de Nash. Cependant, se retrouver au pont
est un point focal. Il y a quelque chose dans la structure du jeu qui nous permet de
prévoir que les deux soldats se retrouveront au pont.
Les sondages qui précèdent une élection fournissent à chaque électeur des in-
formations sur les intentions des autres électeurs, les conduisant à sélectionner un
équilibre de Nash parmi une mutiplicité.

Parfois, il n’y a rien dans la structure du jeu qui permette de sélectionner un


équilibre plutôt qu’un autre. C’est par exemple le cas dans le jeu suivant :

Joueur 2
Gauche Droite
Joueur 1 Haut 0; 0 1; 1
Bas 1; 1 0; 0
Exemple économique : Beaucoup de gens pensaient que les ordinateurs d’ Apple
dominaient ceux d’IBM, et que le format Beta pour l’enregistrement video était
meilleur que VHS. Dans les deux cas, les utilisateurs avaient intérêt à adopter la

14
même technologie, et l’une était meilleure que l’autre. Dans les deux cas, l’état
stationnaire qui a émergé a conduit à l’adoption de la technologie inférieure.
Dans les sociétés, il existe des conventions permettant de sélectionner un équilibre
de Nash parmi plusieurs. Par exemple, suivant les pays, tous les conducteurs roulent
soit à droite, soit à gauche. Chacun des comportements correspond à un équilibre
de Nash. Rouler à droite est une convention.

2.2.2 L’équilibre de Nash en stratégies mixtes


Une stratégie mixte est une distribution de probabilités sur des stratégies pures
(i.e., pour le joueur i, sur Si ). Une stratégie pure si 2 Si est donc une stratégie
mixte correspondant à une distribution de probabilités dégénérée, i.e., qui donne
une probabilité 1 à si et 0 à toute s0i 6= si .
Un joueur de football qui tirerait les pénaltys toujours du même côté, un joueur
de tennis qui servirait toujours du même côté, ne se comporteraient pas de façon
très intelligente car leurs adversaires anticiperaient leurs actions et pourraient les
contrecarrer facilement. Dans de telles situations, il est essentiel de se comporter
comme si le hasard déterminait l’action. Cette intuition est con…rmée par l’analyse
du jeu du pénalty version standard (A) : ce jeu n’a pas d’équilibre de Nash en
stratégies pures. En d’autres termes, il peut être crucial de jouer des stratégies
mixtes. Ces stratégies sont particulièrement importantes dans les jeux dans lesquels
les intérêts des joueurs sont opposés, i.e., les jeux à somme nulle. Le comportement
des sportifs con…rme la théorie de façon empirique.
Considérons le jeu du pénalty :

Joueur 2
proba y proba 1 y
P ile F ace
Joueur 1 proba x P ile 1; 1 1; 1
proba 1 x F ace 1; 1 1; 1
L’utilité attendue du joueur 1 s’il joue Pile avec la probabilité x et Face avec
la probabilité 1-x lorsque le joueur 2 joue Pile avec la probabilité y et Face avec la
probabilité 1-y est :

u(x; y) = xy + x(1 y)( 1) + (1 x)( y) + (1 x)(1 y)


= xy x + xy y + xy + 1 y x + xy = 4xy 2x 2y + 1

L’utilité attendue du joueur 2 est : u(x; y) = 4xy + 2y + 2x 1.


Cherchons les conditions pour que les stratégies mixtes (x,1-x) et (y,1-y), 0<x<1,
0<y<1 forment un équilibre de Nash. La stratégie (x,1-x) doit être telle que le joueur
1 n’ait pas intérêt à en dévier quand il tient pour acquis le fait que 2 joue (y,1-y).
Choisir la stratégie pure Pile, i.e., (1,0), donne au joueur 1 une utilité attendue de
u(1; y) = y + (1 y)( 1) = 2y 1, tandis que choisir la stratégie pure Face, i.e.,
(0,1), lui donne une utilité attendue de u(0; y) = y( 1) + (1 y) = 1 2y. On véri…e
évidemment que u(x; y) = xu(1; y) + (1 x)u(0; y). Si, étant donné y, Pile assure au
joueur 1 une utilité attendue supérieure à Face, le joueur 1 ne jouera pas Pile avec

15
probabilité x, mais Pile à coup sûr ! De même, il choisira Face à coup sûr si, étant
donné y, Face lui donne une utilité supérieure à Pile. Donc, pour que le joueur 1 ne
dévie pas unilatéralement du pro…l [(x,1-x),(y,1-y)], il faut que la stratégie (y,1-y) du
joueur 2 rende le joueur 1 indi¤érent entre Pile et Face, i.e., 2y-1=1-2y, ou y=1/2.
Cette condition su¢ t : si le joueur 2 joue la stratégie ( 12 ; 12 ), toutes les stratégies
mixtes du joueur 1 lui donnent l’utilité attendue 21 ! En procédant de la même façon
pour le joueur 2, on trouve un et un seul équilibre mixte : x=y= 12 , qui consiste donc,
pour chaque joueur, à choisir entre Pile et Face en lançant une pièce de monnaie.
Nous avons obtenu les stratégies mixtes d’équilibre d’une façon qui peut paraître
a priori étrange puisque nous avons obtenu la stratégie mixte du joueur 2 à partir des
conditions d’équilibre du joueur 1 et inversement. Pour mieux comprendre pourquoi
il en est ainsi, nous pouvons raisonner en termes de correspondances de réaction.
Soit S1 l’ensemble des stratégies pures du joueur 1 et S2 l’ensemble des stratégies
pures du joueur 2. On note R1 et R2 les correspondances de réaction. Rappelons que
R2 : S1 ! S2 est une fonction si, pour tout s1 dans S1 , R2 (s1 ) est un élément de
S2 , alors que c’est une correspondance si R2 (s1 ) n’est pas un élément de S2 , mais
un sous-ensemble de S2 . Pour rendre compte des meilleures réponses d’un joueur
aux stratégies de l’autre, on doit utiliser des correspondances et non simplement des
fonctions de réaction.

x
Fonction: les
intersections
entre le graphe
de l'application et
les verticales
sont des
singletons
…gure 7

16
y

x
correspondance:
les intersections
avec les
verticales ne sont
pas toujours des
singletons
Figure 8

On a vu que si le joueur 2 joue la stratégie mixte y, l’utilité attendue du joueur


1 lorsqu’il joue Pile est y -(1-y) =2y - 1, et son utilité attendue s’il joue Face est -y
+ (1-y) = 1 - 2y.
Sa meilleure réponse est Pile si 2y - 1> 1 - 2y =) y>1/2.
Sa meilleure réponse est Face si 1 - 2y > 2y - 1 =) y < 1/2.
Si y = 1/2, le joueur 1 est indi¤érent entre ses deux stratégies pures. Dans ce
cas, n’importe quelle stratégie est une meilleure réponse.
La correspondance de réaction du joueur 1 est donc R1 : [0; 1] ! [0; 1]
8
< 0 si 0 y 1=2
R1 (y) = [0; 1] si y=1/2
:
1 si 1/2 < y 1

La représentation graphique est donnée dans la …gure 9

17
y

1/2

x
1

Figure 9

Si le joueur 1 joue la stratégie mixte x, l’utilité attendue du joueur 2 lorsqu’il


joue Pile est -x + (1-x) = 1 - 2x, et son utilité attendue lorsqu’il joue face est x
- (1- x) = 2x - 1. Sa meilleure réponse est Pile si 1 - 2x > 2x - 1, i.e., x<1/2. Sa
meilleure réponse est Face si 2x - 1 > 1 - 2x, ie x > 1/2. Si x = 1/2, le joueur 2
est indi¤érent entre ses deux stratégies pures, ce qui implique que n’importe quelle
stratégie est sa meilleure réponse. La correspondance de réaction du joueur 2 est
donc R2 : [0; 1] ! [0; 1]

8
< 0 si 1/2 < x 1
R2 (x) = [0; 1] si x=1/2
:
1 si 0 x < 1=2

La représentation graphique est donnée dans la …gure 10

18
y

1/2
Figure 10

Dans ce jeu, il n’y a qu’un seul équilibre de Nash qui est en stratégies mixtes (x
= 1/2 ; y = 1/2). Il est représenté sur la …gure 11.

1/2

équilibre de
Nash

x
1/2 1
Figure 11

Nous sommes maintenant en mesure de résoudre le poker simpli…é introduit


dans la section 1.3. Les stratégies P1 P1 et M1 P1 sont strictement dominées pour le

19
joueur 1 : il doit miser si la carte est rouge. Après élimination de P1 P1 et M1 P1 ,
le jeu est semblable au jeu du pénalty et a un seul équilibre de Nash, où chaque
joueur choisit chacune de ses stratégies avec probabilité 1/2. En d’autres termes, la
stratégie d’équilibre du joueur 1 consiste à miser à coup sûr si la carte est rouge
(c’est-à-dire, bonne), et à miser avec une chance sur deux si la carte est noire (c’est-
à-dire, mauvaise). Le joueur 1 blu¤e donc avec une chance sur deux.
Les exemples précédents se généralisent : une meilleure réponse mixte a la forme
d’une distribution de probabilités sur des meilleures réponses pures. Dans un équi-
libre de Nash, les joueurs j6=i choisissent leurs stratégies mixtes de manière à rendre
le joueur i indi¤érent entre les stratégies pures si 2 Si qui ont probabilité positive
à l’équilibre. On peut démontrer que tout jeu en forme stratégique dans lequel les
ensembles de stratégies pures Si sont …nis possède (au moins) un équilibre de Nash
en stratégies mixtes.
On peut interpréter une stratégie mixte du joueur i comme une croyances des
autres joueurs sur Si , correspondant aux anticipations de ces joueurs. L’équilibre de
Nash impose des conditions de cohérence très fortes sur les croyances. En particulier,
dès qu’il y a au moins trois joueurs, les croyances de deux joueurs sur un troisième
doivent être les mêmes.

2.3 L’équilibre bayésien


Jusqu’à présent, nous avons supposé que tous les joueurs connaissent les règles
du jeu auquel ils jouent. Les règles du jeu décrivent les joueurs et l’intervention
éventuelle du hasard, les actions dont dispose chaque joueur à chaque période, l’in-
formation de chaque joueur à chaque période et les utilités des joueurs. Les règles
du jeu sont représentées par une forme extensive, qui est une connaissance commune
des joueurs. Le jeu est à information complète lorsque tous les joueurs en connaissent
les règles, il est à information incomplète sinon.
L’information complète est une hypothèse forte. Par exemple, il est peu probable
qu’une entreprise connaisse la fonction de coût de ses concurrents. Une …rme qui
négocie avec un syndicat ne connaît pas la désutilité des membres du syndicat pour
une grève longue. Le modèle qui suit permet d’analyser des situations dans lesquelles
les joueurs ont une information incomplète.
Dans un jeu bayésien, la nature joue en premier. Elle choisit la caractéristique
ou le type de chaque joueur. Chaque joueur est informé de son propre type mais
non des types des autres joueurs. On note ti le type du joueur i, ti 2 Ti , où Ti est
l’ensemble des types possibles. Il est connaissance commune que les types sont tirés
suivant une distribution de probabilités p(t1 ; :::ti ; :::; tn ). On note Si l’ensemble des
choix disponibles pour le joueur i, quel que soit son type. La fonction d’utilité ui du
joueur i est dé…nie sur S1 ::: Sn T1 ::: Tn .2
2
Dès lors que la distribution de probabilités p(t1 ; :::; tn ) est commune à tous les joueurs, le
jeu bayésien peut se représenter comme un jeu en forme extensive particulier. En synthétisant
l’information privée par la notion de type et en supposant que les croyances sur les types sont issues
d’une même distribution de probabilités a priori, on ramène les jeux à information incomplète à
des jeux à information imparfaite.

20
Dé…nition : Un équilibre bayésien est un pro…l de stratégies contingentes aux types
fsi (ti )gni=1 tel que chaque joueur maximise son utilité attendue contingente à son
type en prenant les stratégies contingentes des autres joueurs comme données :
si = si (ti ) maximise
X
pi (t i jti )ui (s1 (t1 ); :::; si ; :::; sn (tn ); t1 ; :::; ti ; :::tn )
t i

où t i = (t1 ; :::; ti 1 ; ti+1 ; :::; tn ).

On suppose que chaque type ti du joueur i a une probabilité (marginale) positive,


de sorte que les probabilités conditionnelles pi (t i jti ) sont bien dé…nies.3
Nous considérons l’exemple suivant. Les joueurs 1 (la femme) et 2 (le mari)
peuvent aller écouter du Bach ou du Stravinsky. Ils peuvent sortir ensemble ou
séparément. La femme n’est pas sûre que son mari veuille sortir avec elle. Le mari
sait s’il préfère sortir avec sa femme ou s’il préfère l’éviter. La femme pense qu’il
y a une chance sur deux que son mari préfère l’éviter. Peut-être la femme a-t-elle
formulé cette croyance à partir de son expérience passée. Formellement, la femme
pense qu’avec probabilité 1/2, elle joue au jeu de gauche, et avec probabilité 1/2,
elle joue au jeu de droite.

proba 12 proba 12
M ari F idele M ari Inf idele
B S B S
F emme F idele B 2; 1 0; 0 B 2; 0 0; 2
S 0; 0 1; 2 S 0; 1 1; 0
On peut dire que le mari peut être de deux types : le type Fidèle et le type In…dèle.
La femme ne connaît pas le type du mari. Donc, pour agir rationnellement, elle doit
former une croyance sur les actions de chaque type. Etant donné ces croyances
et sa croyance sur le type (i.e., la probabilité de chaque type), elle peut calculer
l’utilité attendue de chacune de ses actions. Si par exemple elle pense que le mari
…dèle choisira B et le mari in…dèle S, alors elle pense que B lui rapportera 2 avec la
probabilité 1/2 et 0 avec la probabilité 1/2, d’où son utilité attendue est 12 2+ 12 0 =
1; et S lui donnera une utilité attendue de 12 0 + 12 1 = 12 : Nous pouvons calculer
de la même façon l’utilité attendue de la femme pour chaque pro…l d’actions du mari
en fonction de son type. Le résultat est donné dans le tableau ci-dessous. Chaque
colonne correspond à une paire d’actions pour les deux types du mari, le membre
de gauche correspondant au type …dèle, et celui de droite au type in…dèle.

(B; B) (B; S) (S; B) (S; S)


F emme F idele (T ype y1 ) B 2 1 1 0
S 0 1=2 1=2 1
3
Un équilibre bayésien est en fait un équilibre de Nash d’un jeu bayésien. On utilise aussi la
terminologie “équilibre de Nash-Bayes”. On réserve à ce concept de solution une étude spéci…que,
vu son importance pour les applications économiques.

21
Un équilibre de Nash en stratégies pures est un triplet d’actions, une pour la
femme et une pour chaque type du mari, tel que l’action de la femme est optimale
compte tenu des actions des deux types du mari, et l’action de chaque type du mari
est optimale compte tenu de l’action de la femme.
Les deux types du mari sont analysés comme deux joueurs di¤érents, et le jeu est
analysé comme un jeu à trois joueurs dans lequel l’utilité attendue de la femme en
fonction des actions des deux autres joueurs est donnée dans le tableau, et l’utilité
attendue de chaque type de mari est indépendante de l’action de l’autre type, elle
dépend uniquement de l’action de la femme.
(B,(B,S)) est un équilibre de Nash de ce jeu. Etant donné (B,S), B est une
meilleure réponse. Etant donné que la femme joue B, B est une meilleure réponse
du type …dèle et S, une meilleure réponse du type in…dèle4 .
Considérons à présent le cas où la femme peut également être in…dèle. Supposons
que la femme pense que le mari est …dèle avec probabilité 1/2 et in…dèle avec pro-
babilité 1/2. Le mari pense que la femme est …dèle avec probabilité 2/3 et in…dèle
avec probabilité 1/3. Chaque joueur connaît son type, mais non celui de l’autre.
Il y a quatre états de la nature. Appelons ces états ¤ (femme …dèle, mari …dèle),
… (femme …dèle, mari in…dèle), if (femme in…dèle, mari …dèle), ii (femme in…dèle,
mari in…dèle).
Comme la femme ne connaît pas le type du mari, elle ne peut pas distinguer
l’état ¤ de l’état …, ni if de ii. Sa structure d’information est {{¤,…}{if,ii}}}. De
même, le mari ne peut pas distinguer l’état ¤ de l’état if, ni … de ii. Sa structure
d’information est {{¤,if}{…,ii}}.
On peut imaginer que chaque élément de la structure d’information d’un joueur
est associé à un signal. La femme reçoit le signal y1 dans les états ¤ et …, et un signal
di¤érent n1 dans les états if et ii. De même, le mari reçoit le signal y2 dans les états
¤ et if et un signal di¤érent n2 dans les états if et ii. Après avoir reçu le signal y1 , la
femme est de type y1 ; et après avoir reçu le signal n1 ; elle est de type n1 . De même,
le mari peut être de type y2 ou n2 . Le jeu bayésien est le suivant :

M ari F idele proba 12 M ari Inf idele proba 12


B S B S
2
F emme F idele proba 3
B 2; 1 0; 0 B 2; 0 0; 2
S 0; 0 1; 2 S 0; 1 1; 0
B S B S
F emme Inf idele proba 13 B 0; 1 2; 0 B 0; 0 2; 2
S 1; 0 0; 2 S 1; 1 0; 0

Chaque joueur dé…nit sa stratégie avant d’être informé de son type, i.e., plani…e
son action en fonction de son type. Un équilibre bayésien est un quadruplet d’actions,
une pour chacun des types de chaque joueur, tels que l’action de chaque type de
joueur soit une meilleure réponse aux actions des types de l’autre joueur, étant donné
la croyance sur l’état de la nature conditionnelle au signal.
4
Le jeu a également deux équilibres mixtes.

22
Considérons une femme de type y1 . Sa croyance sur les états ¤ et … est (1/2 ;1/2).
Ses utilités attendues pour les quatre paires d’actions du mari sont données par le
tableau précédent que nous rappelons ici :

(B; B) (B; S) (S; B) (S; S)


F emme f idele (T ype y1 ) B 2 1 1 0
S 0 1=2 1=2 1
où par exemple (S,B) signi…e S pour un mari de type y2 , et B pour un mari de type
n2 : De même, les utilités attendues d’une femme de type n1 sont données par :

(B; B) (B; S) (S; B) (S; S)


F emme Inf idele (T ype n1 ) B 0 1 1 2
S 1 1=2 1=2 0
Les utilités attendues d’un mari de type y2 sont données par :

(B; B) (B; S) (S; B) (S; S)


M ari f idele (T ype y2 ) B 1 2=3 1=3 0
S 0 2=3 4=3 2
et celles d’un mari de type n2 :

(B; B) (B; S) (S; B) (S; S)


M ari Inf idele (T ype n2 ) B 0 1=3 2=3 1
S 2 4=3 2=3 0
Pour déterminer les équilibres bayésiens, nous pouvons établir les tableaux de meilleures
réponses des deux joueurs

M ari
(B; B) (B; S) (S; B) (S; S)
M eilleure reponse de la F emme (B; S) (B; B) (B; B) (S; B)

F emme
(B; B) (B; S) (S; B) (S; S)
M eilleure reponse (B; S) (S; B)
(B; S) (S; B)
du M ari ou (S; S) ou (S; S)

Nous en déduisons que ((B; B); (B; S)) et ((S; B); (S; S)) sont des équilibres
bayésiens. En e¤et, d’après les deux tableaux ci-dessus, pour la femme, (B; B) est
une meilleure réponse à (B; S) et pour le mari (B; S) est une meilleure réponse à
(B; B). De même, pour la femme (S; B) est une meilleure réponse à (S; S) et pour
le mari, (S; S) est une meilleure réponse à (S; B).

Application économique : le duopole de Cournot en information incomplète

23
On considère deux …rmes 1 et 2. La fonction de demande inverse est P = a (q1 +
q2 ): Les fonctions de coût sont C1 = c1 q1 et C2 = c2 q2 où c1 et c2 sont des constantes.
Le pro…t de la …rme 1 est 1 = aq1 (q1 + q2 )q1 c1 q1 = q1 (a c1 q1 q2 ) = q1 ( 1
q1 q2 ): De même, le pro…t de la …rme 2 est 2 = q2 ( 2 q1 q2 ): Il est connaissance
commune que pour la …rme 1, 1 = 1: La …rme 2 a une information privée sur son
coût unitaire. Les croyances de la …rme 1 sont 2 = 3=4 avec la probabilité 1/2,
2 = 5=4 avec la probabilité 1/2. La …rme 2 peut donc être de deux types, c’est-à-
dire du type coût faible ( 2 = 5=4) ou du type coût élevé ( 2 = 3=4): Les deux …rmes
choisissent leurs outputs simultanément. Nous recherchons un équilibre en stratégies
pures de ce jeu. On note q2L l’output de la …rme 2 lorsque 2 = 5=4 et q2H l’output
de la …rme 2 lorsque 2 = 3=4: La …rme 2 résout :
M ax q2 ( 2 q1 q2 ) =) q2 = 2 2 q1 d’où q2L = 58 q21 et q2H = 38 q21 : La …rme 1
résout :
2 q2H q2L
M ax 21 q1 (1 q1 q2H ) + 12 q1 (1 q1 q2L ) =) q1 = 4
L’équilibre bayésien est donc : q1 = 1=3; q2L = 11=24; q2H = 5=24:

3 Les jeux dynamiques

3.1 Rationalité séquentielle, induction à rebours et perfec-


tion en sous-jeu
Dans un équilibre de Nash, les joueurs prennent les stratégies de leurs opposants
comme une donnée et par conséquent ne considèrent pas la possibilité de les in‡uen-
cer. Dans les jeux dans lesquels un joueur choisit ses actions après avoir observé celles
de ses opposants, i.e., dans les jeux dynamiques à information parfaite, cette conjec-
ture est naïve et conduit à des équilibres de Nash discutables. Dans cette section,
nous introduisons un ra¢ nement de l’équilibre de Nash pour les jeux dynamiques
qui exclut les équilibres de Nash “non raisonnables”.
Considérons le jeu de la …gure 12

24
1

G D

2 2

g d g d

2 2 1 3
0 -1 0 1
Figure 12

La forme normale de ce jeu est :

Joueur 2
(g; g) (g; d) (d; g) (d; d)
Joueur 1 G 2; 0 2; 0 2; 1 2; 1
D 1; 0 3; 1 1; 0 3; 1
Le joueur 1 a un ensemble d’information et deux actions possibles à cet ensemble,
il a donc deux stratégies. Le joueur 2 a deux ensembles d’information et deux actions
possibles en chacun de ces ensembles, il a donc quatre stratégies possibles. Par
exemple, (d; g) signi…e qu’il joue d s’il est à son ensemble d’information de gauche
et g s’il est à son ensemble d’information de droite.
Considérons l’équilibre de Nash (G; (g; g)). Le joueur 1 ne joue pas D car le
joueur 2 menace de jouer g dans ce cas. Mais supposons que le joueur 1 joue D.
Alors le joueur 2 est devant le fait accompli, et il a intérêt à jouer d: La menace du
joueur 2 n’est pas crédible car il n’a pas intérêt à l’éxécuter s’il est mis devant le fait
accompli. Par conséquent, le joueur 1 anticipe que s’il joue D, le joueur 2 ne mettra
pas sa menace à éxécution. Il va donc jouer D. (D; (g; d)) est un équilibre de Nash
parfait, contrairement à (G; (g; g)).
Un équilibre de Nash est parfait s’il exclut les menaces non crédibles. En d’autres
termes, les stratégies d’un équilibre de Nash parfait forment un équilibre de Nash
dans chaque sous-jeu.

Dé…nition :
Un sous-jeu d’un jeu sous forme extensive est un sous-ensemble du jeu qui a les
propriétés d’un arbre de jeu, c’est-à-dire :

25
1. Il commence avec un nœud initial (i.e., un ensemble d’information qui est un
singleton), contient tous les nœuds (en particulier, terminaux) qui sont des succes-
seurs de ce nœud, et contient seulement ces noeuds.
2. Il contient entièrement ses ensembles d’information (il n’y a pas d’ensemble
d’information “coupé”).
Remarque : d’après cette dé…nition, l’ensemble du jeu est un sous-jeu.

Exemple : sur la …gure 13, aucune des parties du jeu entourées ne constitue un sous-
jeu. Il y a deux sous-jeux : le jeu tout entier, et le jeu commençant à l’ensemble
d’information du joueur 2.

Figure 13

Pour obtenir le ou les équilibres de Nash parfaits d’un jeu en forme extensive …ni,
il su¢ t de raisonner récursivement. On commence par chercher le ou les équilibres de
Nash à la dernière période (disons T) pour chaque sous-jeu à cette période. Lorsque
ceci est résolu, chaque sous-jeu commençant à l’avant-dernière période est ramené
d’un jeu à deux périodes à un jeu à une période. Ensuite, une fois que le jeu est résolu
en T-1, chaque sous-jeu commençant en T-2 est ramené d’un jeu à trois périodes à
un jeu à une période, etc... Cet algorithme (dû à Kuhn) est similaire à celui qu’on
utilise en théorie de la décision individuelle (programmation dynamique). Dans notre
exemple, nous obtenons la …gure 14.

26
1

G D

2 3
0 1
Figure 14

Remarques : l’équilibre parfait est applicable dans tout jeu en forme extensive, mais
l’intérêt de ce concept est limité par le fait que beaucoup de jeux ont peu de sous-jeux
(voir section 3.3). On peut démontrer que tout jeu en forme extensive …ni possède
un équilibre parfait en stratégies mixtes. L’équilibre parfait est très utile dans les
jeux à information parfaite, puisque dans ces jeux, un sous-jeu démarre en chaque
nœud. En appliquant l’algorithme de Kuhn, on montre que tout jeu à information
parfaite possède un équilibre de Nash en stratégies pures.

Application économique :
On considère une situation de duopole. La fonction de demande inverse est p(q) =
12 q: Dans l’équilibre de Cournot, les deux …rmes déterminent simultanément leurs
productions (jeu statique). La …rme 1 maximise son pro…t 1 = [12 (q1 +q2 )]q1 ; d’où
q1 = 6 (1=2)q2 . La …rme 2 maximise 2 = [12 (q1 + q2 )]q2 ; d’où q2 = 6 (1=2)q1 :
On obtient l’équilibre de Cournot en résolvant ce système de deux équations à deux
inconnues, d’où q1 = q2 = 4 et 1 = 2 = 16:
Supposons à présent que la …rme 1 soit “leader de Stackelberg”: dans un premier
temps, la …rme 1 choisit q1 ; dans un second temps, la …rme 2 observe q1 et choisit
q2 . C’est un jeu dynamique à information parfaite. Pour en trouver la solution, on
raisonne à rebours en commençant par résoudre le programme de la …rme 2. Elle
maximise 2 = [12 (q1 + q2 )]q2 ; d’où q2 = 6 (1=2)q1 : On “remonte”ensuite le jeu
en résolvant le programme de la …rme 1. Celle-ci intègre la fonction de réaction de
la …rme 2 dans sa fonction de pro…t. Elle maximise 1 = [12 (6 (1=2)q1 + q1 )]q1 ;
d’où q1 = 6 et donc q2 = 3; 1 = 18; 2 = 9:
Il existe également, lorsque la …rme 1 est “leader”, un deuxième équilibre de Nash
qui est l’équilibre de Cournot q1 = q2 = 4: Ces stratégies sont bien un équilibre de
Nash lorsque la …rme 1 est leader car étant donné que q2 = 4; la …rme 1 maximise
son pro…t en …xant q1 = 4; et étant donné que q1 = 4; la …rme 2 maximise son pro…t
en …xant q2 = 4
Mais l’équilibre de Cournot lorsque la …rme 1 est leader n’est pas un équilibre
de Nash parfait car il repose sur une menace non crédible de la …rme 2 qui consiste
à …xer q2 = 4 quel que soit le choix de la …rme 1. Cette menace n’est pas crédible
car si la …rme 1 met la …rme 2 devant le fait accompli q1 = 6; la …rme 2 aura intérêt

27
à …xer q2 = 3 et non pas q2 = 4: Seul l’équilibre de Stackelberg est un équilibre de
Nash parfait.

3.2 Les Jeux Répétés


Supposons qu’un jeu puisse être décomposé en un nombre de périodes t=1,2,...,
T (où T est …ni ou in…ni), et qu’à chaque période t, les joueurs choisissent simultané-
ment leurs actions en connaissant toutes les actions qui ont été choisies par tous les
joueurs de la période 1 à la période t-1. Vu la simultanéité des décisions à l’intérieur
d’une période, ces jeux sont à information presque parfaite. Les jeux répétés, dans
lesquels un jeu d’une période à décisions simultanées est répété T fois, appartiennent
à cette catégorie. A la période t, les joueurs connaissent toutes les décisions qui ont
été prises auparavant.

Exemple : le dilemme du prisonnier répété


Considérons le dilemme du prisonnier suivant :

Joueur 2
D C
Joueur 1 D 2; 2 +3; 3
C 3; +3 2; 2
L’utilité de chaque joueur est égale à la somme actualisée de ses utilités futures
sur son horizon temporel T. Le facteur d’escompte, noté , 0 < < 1, mesure l’impa-
tience des joueurs.5 Supposons d’abord que le jeu soit répété pendant un nombre …ni
de périodes T. Pour déterminer les équilibres de Nash parfaits, on raisonne récursi-
vement. A la période T, les stratégies doivent constituer un équilibre de Nash quelle
que soit l’histoire du jeu. Cela implique que les deux joueurs avouent (i.e., jouent
D). A la période T-1, la situation est identique, puisque la période T est entièrement
déterminée, indépendamment du passé. Donc les joueurs avouent également, et ainsi
de suite. Ceci illustre le résultat général suivant : si un jeu en une étape (ou “jeu
constituant”) a un équilibre de Nash unique, alors le jeu obtenu en répétant T fois
le jeu constituant possède un seul équilibre de Nash parfait, qui consiste simplement
en la répétition de cet équilibre de Nash à chaque étape, indépendamment du passé.6
Ce résultat n’est plus véri…é si T=+1: Jouer les stratégies “avouer” à chaque
période quelle que soit l’histoire du jeu est encore un équilibre de Nash parfait
pour su¢ samment grand. Mais il existe d’autres équilibres parfaits. Considérons
5
On peut aussi concevoir 1 comme la probabilité que le jeu s’arrête en t s’il s’est poursuivi
t 1 P
1
jusqu’en t-1. (1 ) est alors la probabilité que le jeu s’arrête à l’étape t : (1 ) t 1 = 1.
t=1
P
1
t 1
On peut évaluer la suite d’utilités (ut )t=1;2;::: par l’utilité attendue (1 ) ut . Dans la suite
t=1
P
1
t 1
du cours, on considère l’utilité actualisée, c’est-à-dire l’expression proportionnelle ut .
t=1
6
Remarque : si le jeu constituant a plusieurs équilibres de Nash, le jeu répété T fois a de
nombreux équilibres parfaits, dont certains ne consistent pas simplement à jouer un équilibre du
jeu constituant à chaque étape.

28
par exemple les stratégies suivantes, appelées stratégies de déclic ou de punition. A
chaque période t, un joueur coopère (c’est-à-dire, n’avoue pas) si et seulement si les
deux joueurs ont toujours coopéré entre les périodes 1 et t-1. A la période 1, les
deux joueurs coopèrent. Ces stratégies constituent-elles un équilibre de Nash ? Si les
deux joueurs ne cessent jamais de coopérer, l’utilité de chacun est :

2 3 2
2(1 + + + + :::) =
1
Si à la période t un individu cesse de coopérer, son utilité est :

2 3 2
3 2( + + + :::) = 3
1
Il est rationnel de coopérer si :
2 2 1
3 ()
1 1 5
Les stratégies de déclic forment donc un équilibre de Nash dès que 1=5.
On verra ci-dessous que cet équilibre est parfait. L’interprétation de ce résultat est
la suivante. Lorsque le jeu est répété, la coopération devient possible car il se peut
qu’en ne coopérant pas, les joueurs aient moins à gagner à court terme qu’à perdre à
long terme. C’est le cas si les joueurs sont su¢ samment patients, c’est-à-dire quand
est su¢ samment proche de 1.
A présent, considérons une stratégie plus générale que la stratégie de déclic,
dans laquelle un joueur qui choisit D est puni pendant k périodes. La stratégie de
déclic correspond à k = +1. Si le joueur 1 adopte cette stratégie, le joueur 2 a-t-il
intérêt à faire de même ? Si le joueur 2 peut augmenter son utilité en déviant de
la coopération, il peut le faire dès t=1. Lorsque le joueur 2 choisit D en t = 1, le
joueur 1 le punit en choisissant D pendant k périodes, quoi que fasse le joueur 2
durant ces k périodes. Il est donc rationnel pour le joueur 2 de choisir D durant ces
k périodes. En t = k + 2, le joueur 1 revient à C quel qu’ait été le choix du joueur 2
en t = k + 1. Le joueur 2 se retrouve donc dans la même situation qu’en t = 1. Donc
il a intérêt à dévier en t = 1 si cela augmente son utilité escomptée durant ces k +
1 périodes. Si le joueur 2 ne dévie pas de la coopération, son utilité escomptée est :
k+1
2 k 2(1 )
2+2 +2 + ::: + 2 =
1
S’il dévie, son utilité escomptée est :
k
2 k 2 (1 )
3 2 2 ::: 2 =3
1
Le joueur 2 n’a pas intérêt à dévier si :
k+1 k
2(1 ) 2 (1 )
3
1 1
ou encore :

29
k+1
4 +5 1 0
Pour k =+1, k+1 = 0 puisque 0 < < 1. On retrouve donc bien en passant
à la limite que les stratégies de déclic sont un équilibre de Nash si 1=5, mais
l’expression donne aussi une borne sur pour k<1 : par exemple, si k=1, 1=4.
Considérons à présent la stratégie de donnant-donnant. Elle consiste à coopérer à
la première période, puis à jouer ce que l’autre joueur a joué à la période précédente.
Supposons que le joueur 1 joue cette stratégie mais que le joueur 2 en dévie, en
choisissant D en t = 1. Le joueur 1 choisit alors D en t = 2. Ensuite, il choisira D
tant que le joueur 2 jouera D. Le joueur 1 reviendra à C à la période t si le joueur
2 est revenu à C à la période t - 1. Après sa déviation, le joueur 2 a deux options.
Il peut revenir à C, auquel cas à la période suivante il se retrouvera dans la même
situation qu’à la première période. Il peut aussi continuer indé…niment à jouer D. S’il
alterne entre C et D, son pro…l d’utilités est (+3; 3; +3; 3; :::). L’utilité escomptée
est 3 3 +3 2 3 3 +::: = 1+3 . S’il dévie une fois puis joue indé…niment D, son pro…l
d’utilités est (+3; 2; 2; :::). L’utilité escomptée est 3 2 2 2 ::: = 3 12 . Le
pro…l d’utilités de la stratégie donnant-donnant est (2 ; 2 ; 2 ...). L’utilité escomptée
est 2 + 2 + 2 2 + ::: = 1 2 . Le pro…l de stratégies donnant-donnant est un équilibre
de Nash si 1 2 1+
3
et 1 2 3 12 c’est-à-dire si 1=5.
Les équilibres de Nash que nous avons décrits reposent sur des menaces de pu-
nition. Mais ces menaces sont-elles crédibles ? En d’autres termes, ces équilibres de
Nash sont-ils parfaits ? La dé…nition d’équilibre de Nash parfait vue à la section 3.1
s’applique aux jeux in…niment répétés. De nouveaux sous-jeux, semblables au jeu
initial (c’est-à-dire, in…niment répétés, escomptés) commencent à chaque étape t.
Un équilibre de Nash est parfait s’il induit un équilibre de Nash à partir de l’étape
t, quelle qu’ait été l’histoire avant l’étape t (i.e., y compris après les histoires du jeu
qui ne se produisent pas si les joueurs ne dévient pas de leurs stratégies).
L’équilibre de Nash dans lequel chaque joueur joue D à chaque étape, quelle que
soit l’histoire du jeu, est donc parfait, puisque jouer un équilibre de Nash à chaque
étape d’un jeu répété constitue un équilibre de Nash de ce jeu répété (ce dernier
résultat est tout à fait général).
Les stratégies de déclic constituent, elles aussi, un équilibre de Nash parfait. On
distingue deux types de sous-jeux à l’étape t : ceux qui font suite à une histoire dans
laquelle les joueurs ont choisi (C,C) à chaque étape 1,...,t-1, et les autres. Dans les
premiers, les stratégies de déclic prévoient de jouer exactement comme dans le jeu
commençant en t=1 ; on a véri…é ci-dessus que ces stratégies forment un équilibre
de Nash. Dans les seconds, les stratégies de déclic reviennent à jouer (D,D) à chaque
étape t, t+1,...On a également véri…é que ces stratégies forment un équilibre de
Nash. Notons que ce raisonnement dépend crucialement du fait que les punitions
coïncident avec un équilibre de Nash du jeu constituant.
Venons-en aux stratégies donnant-donnant. Le comportement dans un sous-jeu
d’un joueur qui joue la stratégie donnant-donnant dépend du dernier résultat de
l’histoire du jeu qui peut être (C,C), (C,D), (D,C) ou (D,D). On a déjà véri…é
que les stratégies donnant-donnant forment un équilibre de Nash d’un sous-jeu qui

30
suit (C,C) si 1=5. Le raisonnement est identique à celui qui montre qu’elles
constituent un équilibre de Nash de l’ensemble du jeu.
Supposons que dans un sous-jeu qui suit (C,D), le joueur 2 joue donnant-donnant.
Si le joueur 1 joue donnant-donnant, alors les résultats sont (D,C) et (C,D) en
alternance. L’utilité escomptée du joueur 1 dans ce sous-jeu est 3 3 + 3 2 3 3 +
3 4 ::: = 1+3 . Si le joueur 1 dévie de donnant-donnant à la première période du
sous-jeu en jouant C puis revient à donnant-donnant dans la suite du sous-jeu, le
résultat est (C,C) à chaque période du sous-jeu. L’utilité escomptée du joueur 1 est
alors 1 2 . Donnant-donnant est une meilleure réponse du joueur 1 dans le sous-jeu
si 1+3 1
2
, c’est-à-dire si 1
5
. Comme les conditions d’équilibre conduisent à
supposer su¢ samment grand, nous en concluons que pour les facteurs d’escompte
qui nous intéressent, les stratégies donnant-donnant forment un équilibre de Nash
qui n’est pas parfait.
Remarque : On peut poursuivre le raisonnement précédent pour établir que les
stratégies donnant-donnant sont un équilibre de Nash parfait si est exactement
égal à 1/5. Dans un sous-jeu suivant (D,C), si les joueurs jouent donnant-donnant
les résultats sont (C,D) et (D,C) en alternance. Cela procure au joueur 1 une utilité
escomptée de : 3 + 3 3 2 ::: = 1+3 . Si le joueur 1 dévie en jouant D à la
première période puis revient à donnant-donnant, le résultat est (D,D) à chaque
période, ce qui donne au joueur 1 une utilité escomptée de 1 2 . Donnant-donnant
est une meilleure réponse si 1+3 1
2
, ou 1=5. En…n, dans un sous-jeu qui
suit (D,D), le résultat est (D,D) indé…niment si les deux joueurs jouent donnant-
donnant, ce qui procure une utilité escomptée de 1 2 . Si le joueur 1 dévie en jouant
C à la première période du sous-jeu puis revient à donnant-donnant, les résultats
sont (C,D) et (D,C) en alternance, ce qui procure au joueur 1 une utilité escomptée
de 3 + 3 3 2 + 3 3 ::: = 1+3 . Donnant-donnant est une meilleure réponse pour
le joueur 1 si 1 2 1+
3
, ou 1
5
.
Les exemples précédents illustrent que les équilibres parfaits d’un jeu in…niment
répété sont d’une toute autre nature que les équilibres d’un jeu en une seule étape.
Nous avons montré qu’un comportement coopératif est concevable dans un équilibre
parfait du dilemme du prisonnier in…niment répété. Ce type de résultat se généralise
doublement, non seulement à une grande classe de jeux, mais aussi à de nombreux
comportements dans ces jeux. Plus précisément, un raisonnement semblable à celui
qui montre que les stratégies de déclic forment un équilibre parfait du dilemme du
prisonnier in…niment répété avec un facteur d’escompte su¢ samment grand permet
d’établir le résultat suivant : soit un jeu J à n joueurs et (e1 ; :::; en ) un pro…l d’uti-
lités correspondant à un équilibre de Nash de J ; soit (u1 ; :::; un ) un pro…l d’utilités
réalisables dans J (c’est-à-dire associé à un pro…l de stratégies pures dans J, ou plus
généralement, à une distribution de probabilités sur des pro…ls de stratégies pures
dans J). Si ui > ei pour chaque joueur i, il existe un équilibre parfait de la répétition
in…nie de J avec un facteur d’escompte su¢ samment grand qui donne le paiement
1
1
ui au joueur i, i=1,...,n (c’est-à-dire l’utilité actualisée correspondant à la suite
d’utilités (ui ; ui ; :::ui :::) : ui + ui + 2 ui + ::: = 1 1 ui ). Un jeu in…niment répété dont
les joueurs sont assez patients a donc en général un nombre considérable d’équi-

31
libres7 , qui ne correspondent pas tous à des comportements qu’on pourrait quali…er
de “coopératifs” : les pro…ls d’utilités (u1 ; :::; un ) de l’énoncé ci-dessus ne sont pas
tous Pareto-optimaux (dans l’ensemble des pro…ls d’utilité réalisables dans J) !

Application : l’analyse économique de la con…ance


La con…ance rend possible la réalisation de transactions mutuellement avanta-
geuses qui ne pourraient pas avoir lieu sans cette con…ance. Nous illustrons cette
a¢ rmation par le jeu dynamique suivant.
Le joueur 1 joue en premier et décide d’accorder ou non sa con…ance au joueur
2. Si 1 n’accorde pas sa con…ance à 2, il n’y a pas d’échange entre les deux joueurs
et l’utilité de chacun est nulle. Si 1 fait con…ance à 2, 2 peut honorer ou ne pas
honorer la con…ance de 1. Si 1 fait con…ance à 2 et que 2 honore la con…ance de 1,
ils coopèrent et chacun a une utilité de 2. Cependant, si 2 adopte un comportement
opportuniste, il trahit la con…ance de 1, ce qui lui procure une utilité de 3. Le joueur
1 subit alors une désutilité égale à -1 (désillusion ...). En e¤et, accorder sa con…ance
est une action risquée qui peut apporter à celui qui l’accorde des désagréments
plus importants que ceux qui résultent de l’absence totale de coopération. La forme
extensive de ce jeu est donnée dans la …gure 15 :

Joueur 1

N'accorde
pas sa Accorde sa
confiance confiance

Joueur 2
(0;0)
N'honore pas Honore

(-1;3) (2;2)
Figure 15

La forme normale de ce jeu est :


7
Sans compter qu’en considérant des comportements plus sophistiqués que les stratégies de
déclic, on peut encore accroître l’ensemble des équilibres parfaits !

32
Joueur 2
Honore N 0 honore pas
Joueur 1 Accorde sa conf iance 2; 2 1; 3
N 0 accorde pas sa conf iance 0; 0 0; 0

Dans l’équilibre de Nash parfait de ce jeu, le joueur 1 ne fait pas con…ance au


joueur 2. L’échange n’a pas lieu alors qu’il est mutuellement avantageux.
Ce problème peut être résolu si 2 peut promettre de façon crédible à 1 qu’il ne
trahira pas sa con…ance. Il peut signer un contrat exécutable par un tiers qui lui
impose une pénalité de 2 s’il trahit.
Dans l’exemple précédent, les deux individus se rencontrent pour la première
fois. Il n’est donc pas étonnant que 1 ne fasse pas con…ance à 2. En revanche,
s’ils se rencontrent régulièrement, le jeu est répété. 2 n’a pas intérêt à trahir s’il a
plus à perdre à long terme qu’à gagner à court terme. Considérons les stratégies de
punition suivantes. Le joueur 1 dit au joueur 2 : “Je vous fais con…ance à la première
période. A chaque fois que vous honorez ma con…ance, je vous la renouvelle à la
période suivante. Si à une période vous trahissez ma con…ance, je ne vous ferai plus
jamais con…ance”. Le joueur 2 dit au joueur 1 : “J’honorerai la con…ance que vous
m’accordez si à toutes les périodes précédentes où vous m’avez fait con…ance, je l’ai
honorée. Sinon, je ne respecterai pas la con…ance qui m’est accordée”. En d’autres
termes, le joueur i (1 ou 2) fait con…ance tant que l’autre joueur j en fait de même.
Mais si à une période le joueur j trahit, il est puni pour toute la suite du jeu.
Si les joueurs sont su¢ samment patients, la coopération est un équilibre de Nash.
1
C’est le cas si 3
(le joueur 1 ne peut avoir intérêt à dévier car 2 est son utilité la
plus élevée dans le jeu constituant ; la condition d’équilibre du joueur 2 est 1 2 3).
On montre que cet équilibre est parfait en appliquant le même raisonnement que
pour les stratégies de déclic dans le dilemme du prisonnier.
Dans ce jeu répété, il existe d’autres équilibres de Nash. Pour su¢ samment
grand, les stratégies suivantes constituent un équilibre de Nash. Pour le joueur 2 :
“J’honore la con…ance une fois sur deux tant que le joueur 1 me fait con…ance. Si
à une période du jeu le joueur 1 ne me fait plus con…ance, je n’honorerai plus sa
con…ance dans toute la suite du jeu”. Pour le joueur 1 : “Je fais con…ance si le
joueur 2 honore ma con…ance une fois sur deux. Je ne fais plus con…ance si le joueur
2 dévie de sa stratégie”. Avec ces stratégies, le joueur 1 obtient pour toujours 2
en alternance avec -1, ou s’il dévie, au mieux 2 une fois et 0 par la suite. Si 1 fait
con…ance à 2, son utilité escomptée est :
2 + ( 1) + 2 2 + ( 1) 3 + 2 4 + ::: = 1 2 2 1 2 : Sinon, son utilité est au mieux
de 2 une fois puis 0 indé…niment. La meilleure réponse de 1 à la stratégie de 2 est
de faire con…ance si : 1 2 2 1 2 2 =) 1
2
. (La condition d’équilibre du joueur
2+3 1
2 est 1 2 3, évidemment satisfaite dès que 2
).

33
3.3 L’équilibre bayésien parfait
On s’est convaincu, dans la section 3.1, de la nécessité de ra¢ ner l’équilibre de
Nash, et des limites de l’équilibre parfait, qui n’est utile que lorsque le jeu étudié a
une structure de sous-jeux. L’équilibre bayésien parfait, encore appelé équilibre sé-
quentiel faible, étend l’idée de rationalité séquentielle à tout jeu en forme extensive.8
Considérons le jeu suivant réprésenté sous formes normale et extensive (…gure
16)

1 R 1
3

L M

L' R' L' R'

2 0 0 0
1 0 2 1
Figure 16

Joueur 2
0 0
L R
L 2; 1 0; 0
Joueur 1 M 0; 2 0; 1
R 1; 3 1; 3
Dans ce jeu, en utilisant la forme normale, on constate qu’il existe deux équilibres
de Nash qui sont (L,L’) et (R,R’). En se reportant à la forme extensive, on peut
déterminer les équilibres parfaits. Or dans celle-ci, le seul sous-jeu est l’ensemble du
jeu. Donc ces deux équilibres sont parfaits. Cependant, l’équilibre (R,R’) repose sur
une menace non crédible, car aux deux nœuds de son ensemble d’information, le
joueur 2 préfère strictement L’à R’. Donc le joueur 1 ne devrait pas être conduit à
jouer R sous la menace du joueur 2. Cet exemple montre que le concept d’équilibre
8
Attention à la terminologie ! Le concept étudié dans cette section se base sur la détermination
de croyances (d’où le terme “bayésien”) et ra¢ ne l’équilibre de Nash (d’où l’adjectif “parfait”)
mais il ne s’agit pas d’un équilibre “bayésien” (au sens de la section 2.3) qui serait “parfait” (au
sens de la section 3.1).

34
de Nash parfait en sous-jeu n’est pas su¢ sant pour exclure les menaces non crédibles.
Pour exclure l’équilibre (R,R’), il faut imposer des conditions supplémentaires.

Condition 1 : Chaque joueur doit avoir, en chacun de ses ensembles d’information,


une croyance sur le nœud de l’ensemble d’information qui a été atteint. Formelle-
ment, les croyances consistent en une distribution de probabilités sur les nœuds dans
l’ensemble d’information. En particulier, en un ensemble d’information qui est un
singleton, la croyance du joueur est une probabilité égale à 1.

Condition 2 : Les stratégies doivent être séquentiellement rationnelles, étant donné


les croyances des joueurs. Plus précisément, en chaque ensemble d’information, la
stratégie à suivre du joueur ayant la main (qui détermine en particulier l’action de
ce joueur en cet ensemble d’information) doit être optimale étant donné la croyance
du joueur en cet ensemble d’information et les stratégies à suivre des autres joueurs,
où une stratégie à suivre est un plan d’action contingent complet couvrant chaque
événement qui peut se produire après que l’ensemble d’information considéré a été
atteint.

Dans le jeu de la …gure 17, la croyance du joueur 2 lorsqu’il a la main est la


distribution de probabilités p et 1-p attachées aux deux nœuds.

1 R 1
3

L M

p 2 1-p

L' R' L' R'

2 0 0 0
1 0 2 1
Figure 17

L’utilité attendue du joueur 2, étant donné sa croyance, est p.0+(1-p).1=1-p s’il


joue R’ et p.1+(1-p)2=2-p s’il joue L’. Comme 2-p>1-p pour tout p, la condition
2 implique que le joueur 2 ne joue pas R’. Ainsi, les conditions 1 et 2 su¢ sent à
éliminer l’équilibre (R ;R’).
Les conditions 1 et 2 requièrent que les joueurs aient des croyances et agissent de
façon optimale étant donné ces croyances, mais non que ces croyances soient ration-
nelles. Pour imposer des conditions supplémentaires sur les croyances, on distingue

35
les ensembles d’information qui sont sur le sentier d’équilibre de ceux qui sont hors
du sentier d’équilibre.

Dé…nition : Fixons un équilibre dans un jeu sous forme extensive donné ; un ensemble
d’information est sur le sentier d’équilibre s’il est atteint avec probabilité positive
lorsque le jeu est joué selon les stratégies d’équilibre, et hors du sentier d’équilibre
si, avec probabilité 1, il n’est pas atteint.

Condition 3 : Aux ensembles d’information sur le sentier d’équilibre, les croyances


sont déterminées par les stratégies d’équilibre des joueurs, suivant la règle de Bayes.

Rappel : la règle de Bayes


Considérons la …gure 18

A
B

A B
Figure 18

Nous avons P (A\B) = P (A)P (BjA) = P (B)P (AjB) =) P (AjB) = P (A)P (BjA)
P (B)
.
La dernière identité est la règle de Bayes. P (AjB) est la probabilité de A condition-
nelle à la réalisation de B; et P (BjA) est dé…nie de façon identique. P (A \ B) est
la probabilité que les deux événements A et B se produisent simultanément.
On peut également illustrer la règle de Bayes par le modèle d’urnes suivant
(…gure 19). Considérons 2 urnes, U1 composée de 3 boules vertes et 7 boules rouges,
et U2 composée de 6 boules vertes et 4 boules rouges. La nature choisit une urne
en lançant une pièce de monnaie. Un individu ne sait pas quelle urne a été choisie,
mais a la possibilité de tirer une boule de l’urne. Il acquiert ainsi une information
supplémentaire.

36
R
0,7
U1

1/2 0,3
V

R
1/2 0,4

U2
0,6
V
Figure 19

Nous pouvons calculer les probabilités suivantes :


0;7 7
P (U1 jR) = 0;7+0;4 = 11 > 12 . On retrouve bien la règle de Bayes car : P (U1 ) =
1 1 1 P (U1 )P (RjU1 )
2
; P (RjU1 ) = 0; 7; P (R) = 2
0; 7 + 2
0; 4 d’où P (U1 jR) = P (R)
=
0;5 0;7 7
(0;5 0;7)+(0;5 0;4)
= 11
Fin du rappel

Dans l’équilibre de Nash parfait (L ;L’), la croyance du joueur 2 doit être p=1,
car étant donné la stratégie d’équilibre du joueur 1 qui est L, le joueur 2 sait quel
nœud de l’ensemble d’information a été atteint. Supposons que le joueur 1 applique
une stratégie mixte, suivant laquelle il joue L avec probabilité q1 , M avec probabilité
q2 ; et R avec probabilité 1 q1 q2 , alors d’après la condition 3, la croyance du
joueur 2 serait p = q1q+q
1
2
:

Condition 4 : Aux ensembles d’information hors du sentier d’équilibre, les croyances


sont déterminées par la règle de Bayes et les stratégies d’équilibre lorsque c’est
possible.

Dé…nition : Un équilibre bayésien parfait est un pro…l de stratégies satisfaisant les


conditions 1 à 4.

Exemple :

37
1 A 2
0
0
D

2
L R

p 3 1-p

L' R' L' R'

1 3 0 0
2 3 1 1
2 3 2 1
Figure 20

Dans la …gure 20, il existe un sous-jeu qui commence à l’ensemble d’information


du joueur 2. Dans ce sous-jeu, il existe un équilibre de Nash unique (L ;R’). La
représentation sous forme normale de ce sous-jeu est :

Joueur 3
0 0
L R
Joueur 2 L 2; 2 3; 3
R 1; 2 1; 1
Donc l’équilibre de Nash parfait unique de l’ensemble du jeu est (D,L,R’). Ces
stratégies et la croyance p=1 satisfont aux conditions 1 à 3. Elle satisfont également
de façon triviale à la condition 4 puisqu’il n’y a pas d’ensemble d’information hors
du sentier d’équilibre. Elles constituent donc un équilibre bayésien parfait.
A présent, considérons les stratégies (A,L,L’) avec la croyance p=0. Ces stratégies
sont un équilibre de Nash car aucun joueur n’a intérêt à dévier unilatéralement.
Etant donné que les joueurs 2 et 3 jouent respectivement L et L’, le joueur 1 a
intérêt à jouer A. Etant donné que le joueur 1 ne donne pas la main au joueur 2,
les joueurs 2 et 3 ne peuvent pas augmenter leur utilité attendue en changeant de
stratégie. En outre, ces stratégies et la croyance p=0 satisfont aux conditions 1 à 3.
Etant donné que le joueur 3 pense que p=0, il est optimal pour lui de jouer L’. Etant
donné que 3 joue L’, 2 a intérêt à jouer L. Etant donné les stratégies à suivre des
joueurs 2 et 3, 1 a intérêt à jouer A. Pourtant, cet équilibre n’est pas parfait, ce qui
prouve que les conditions 1 à 3 ne sont pas su¢ santes pour garantir la perfection en
sous-jeu. Le problème est que la croyance p=0 est incompatible avec la stratégie L

38
de 2. Les conditions 1 à 3 n’imposent aucune restriction sur les croyances du joueur
3 car son ensemble d’information n’est pas atteint, il est hors du sentier d’équilibre.
Cependant, la condition 4 oblige le joueur 3 a avoir une croyance déterminée par la
stratégie du joueur 2 : si la stratégie de 2 est L la croyance de 3 doit être p=1 ; si
la stratégie de 2 est R la croyance de 3 doit être p=0. Mais si la croyance de 3 est
p=1, alors d’après la condition 2 la stratégie de 3 doit être R’.
Poursuivons avec le jeu de la …gure 21

1 A

2 A'

L R

p 3 1-p

L' R' L' R'

Figure 21

Dans ce jeu, si la stratégie de 2 est A’, alors la condition 4 n’impose aucune res-
triction sur la croyance de 3. Mais si 2 joue L avec probabilité q1 , R avec probabilité
q2 et A’avec la probabilité 1 q1 q2 , en supposant q1 + q2 > 0; alors la condition
4 impose que la croyance de 3 est p = q1q+q 1
2
:

Application économique : le signal sur le marché du travail


Les jeux de signal sont des jeux dynamiques à information incomplète parti-
culièrement importants en économie. Un jeu de signal comporte deux joueurs, un
émetteur et un récepteur. Le jeu dynamique est le suivant. En t = 1; la nature tire un
type ti pour l’émetteur, selon une distribution de probabilités p(ti ) sur un ensemble
de types possibles T = ft1 ; :::::; tI g. En t = 2; l’émetteur observe ti et choisit un
message mi parmi un ensemble de messages possibles M = fm1 ; :::::; mJ g: En t = 3;
le récepteur observe mj (mais pas ti ) et choisit une action ak parmi un ensemble
d’actions possibles A = fa1 ; :::::; aK g: En t = 4; les utilités sont UE (ti ; mj ; ak ) et
UR (ti ; mj ; ak ):
Une stratégie pure pour l’émetteur est une fonction m(ti ) qui spéci…e quel mes-
sage sera choisi pour chaque type. Une stratégie pure pour le récepteur est une
fonction a(mj ) spéci…ant quelle action sera choisie pour chaque message que l’émet-
teur pourrait envoyer.

39
L’équilibre bayésien parfait d’un jeu de signale doit satisfaire les conditions sui-
vantes.

Condition 1 : Après avoir observé un message mj dans M , le récepteur doit avoir


une croyance sur les types qui pourraient avoir envoyés mj : Notons cette croyance
parPla distribution de probabilités p(ti jmj ); où p(ti jmj ) 0 pour chaque ti dans T;
et p(ti jmj ) = 1:
ti 2T

Condition 2R : Pour chaque mj dans M , l’action du récepteur a (mj ) doit maximiser


son utilité attendue étant donné la croyance p(ti jmj ) sur les types qui pourraient
avoir envoyés mj : C’est-à-dire que a (mj ) maximise
X
p(ti jmj )UR (ti ; mj ; ak )
ti 2T

Condition 2E : Pour chaque ti dans T; l’émetteur du message m (ti ) maximise son


utilité attendue étant donné la stratégie a (mj ) du récepteur. En d’autres termes,
m (ti ) résout max UE (ti ; mj ; a (mj )):
mj 2M

Condition 3 : Pour chaque mj dans M; s’il existe ti dans T tel que m (ti ) = mj ;
alors la croyance du récepteur à l’ensemble d’information correspondant à mj est
donnée par la stratégie de l’émetteur via la règle de Bayes : p(ti jmj ) = Pp(tp(t
i)
i)

ti 2Tj

Tj est l’ensemble des types qui envoient mj :

Dé…nition : Un équilibre bayésien parfait en stratégies pures dans un jeu de signal


consiste en une paire de stratégies m (ti ) et a (mj ) et une croyance p(ti jmj ) qui
satisfont les conditions 1,2R,2E, et 3.

Un problème de signal se pose par exemple lorsque des biens de qualités di¤é-
rentes s’échangent sur un marché et qu’il y a une asymétrie d’information sur la
qualité. L’acheteur contrôle l’action, i.e., la décision d’acheter ou de ne pas ache-
ter. Le vendeur contrôle l’information. L’acheteur a intérêt à deviner l’information
du vendeur en observant les signaux qu’il envoie. Le vendeur pourrait être incité
à tromper l’acheteur sur la qualité du produit. Il y a signal lorsque les vendeurs
d’un produit ou d’un service de haute qualité tentent de transmettre cette informa-
tion aux acheteurs. Le signal est e¤ectif lorsque les vendeurs de produits de haute
qualité s’engagent dans une activité qui ne serait pas rationnelle pour les vendeurs
d’un produit de faible qualité. Une activité est un signal potentiel si les vendeurs de
produits de haute qualité peuvent s’y engager avec un coût marginal plus faible que
les vendeurs de produits de faible qualité. Nous allons étudier ici un autre exemple
classique, le signal sur le marché du travail d’après le modèle de Spence (1973).
L’idée que nous allons modéliser est la suivante. Sur le marché du travail, les
employeurs sélectionnent les candidats à l’embauche en liant leurs o¤res de salaires
au niveau d’instruction. Leurs o¤res de salaires augmentent avec ce niveau. On

40
pourrait penser a priori que ce comportement des employeurs re‡ète une croyance
selon laquelle un individu est d’autant plus productif, et donc mérite un salaire
d’autant plus élevé, que son niveau d’instruction est élevé. L’explication de Spence
est di¤érente : l’échelle des salaires est destinée à encourager les individus à révéler
leurs capacités innées. Si l’échelle des salaires est …xée de sorte que les travailleurs
les plus capables fassent des études longues et les moins capables des études courtes,
l’information est révélée de façon endogène par un mécanisme d’auto-sélection.
Plus précisément, sur beaucoup de marchés du travail, les employeurs ne peuvent
connaître avec certitude la productivité des individus qu’ils embauchent. Les em-
ployeurs ne découvrent souvent les capacités réelles des travailleurs qu’après que
ceux-ci ont occupé leur emploi pendant un laps de temps su¢ samment long, com-
prenant parfois une formation spéci…que. Il y a une asymétrie d’information entre
l’employeur et l’employé potentiel sur les aptitudes de ce dernier. L’hypothèse de
base est que les individus ont des capacités di¤érentes, qui sont innées. Certains
sont plus intelligents que d’autres, certains sont plus orientés vers les a¤aires que
d’autres etc. Les candidats à un emploi connaissent leurs capacités et utilisent des
signaux pour en informer les employeurs d’une façon crédible. L’éducation n’est donc
pas considérée comme un moyen d’améliorer la productivité du travail, mais plutôt
comme un moyen d’auto-sélection qui révèlera des capacités innées.
Commençons par étudier un modèle simple sans signal. Un employeur doit re-
cruter un salarié. Il y a deux types de candidats. Le groupe 1 a une productivité
marginale de 1 et le groupe 2 a une productivité marginale de 2. Si ces valeurs
étaient connues, l’employeur paierait à chaque personne un salaire égal à sa produc-
tivité marginale9 . Mais comme il y a une asymétrie d’information sur ces valeurs,
l’employeur est incapable de distinguer entre les deux groupes d’individus et paiera
à chaque individu le même salaire égal à la productivité marginale attendue.
L’employeur connaît par son expérience passée la proportion d’individus dans
la population qui ont une productivité marginale de 1 et la proportion de ceux qui
ont une productivité marginale de 2. On note q la proportion d’individus ayant une
productivité marginale égale à 1 et 1-q la proportion d’individus ayant une produc-
tivité marginale égale à 2. Le salaire d’équilibre est donc le même pour tous et est
donné par w = q1 + (1 q)2 = 2 q: Les moins capables obtiennent un salaire supé-
rieur à leur productivité marginale (w >1) et les plus capables un salaire inférieur
à leur productivité marginale. Les plus capables ont donc intérêt à convaincre les
employeurs qu’ils méritent plus.
Etudions à présent un modèle avec signal. Supposons que pour les plus capables,
les coûts d’éducation soient plus faibles que pour les moins capables. Les coûts
d’éducation sont les pertes de rémunérations, le temps passé à étudier, les coûts
psychiques, etc. Ce sont des coûts de signal.
Comme il y a une corrélation négative entre les coûts d’éducation d’un individu
et ses capacités, le niveau d’éducation est susceptible de signaler à l’employeur si un
individu est du groupe 1 ou du groupe 2.
9
On suppose que les salaires sont concurrentiels, par exemple que les employeurs sont en concur-
rence parfaite, ou qu’ils se font une concurrence “à la Bertrand”.

41
P roportion dans 0
Groupe P roductivite marginale Co^
ut d education
la population
1 1 q y
2 2 1 q y=2

Les coûts d’éducation sont plus faibles pour les plus capables, i.e. pour ceux
dont la productivité marginale est la plus forte. Face à cette situation, l’employeur
associe une productivité marginale attendue à chaque niveau d’éducation et o¤re
un salaire correspondant. En d’autres termes, l’employeur o¤re une grille de salaires
notée w(y). Si par exemple, l’employeur croit qu’il existe un niveau d’éducation y
tel que la productivité marginale d’un individu pour lequel y < y soit égale à 1 avec
certitude, alors l’employeur o¤rira la grille de salaires suivante : w = 1 si y < y; et
w = 2 si y y:

w(y)

y
y
Figure 22

Le problème qui se pose est de savoir comment les candidats vont réagir à cette
grille de salaires.
Chaque individu va déterminer son niveau d’éducation optimal en maximisant
la di¤érence entre le salaire qu’il percevra et son coût d’éducation. Un candidat qui
choisira un niveau d’éducation y tel que y < y choisira forcément y = 0 puisque
choisir un y tel que 0 < y < y augmente le coût d’éducation sans augmenter le
salaire. Un individu qui choisira un niveau d’éducation y tel que y y choisira y
puisque choisir y > y augmenterait le coût d’éducation sans augmenter le salaire.
Chaque candidat choisira donc soit y = 0, soit y = y.
Le choix optimal pour un individu du groupe 1, i.e., un individu pour lequel la
fonction de coût d’éducation est c1 (y) = y, est y = 0 car 1 = w1 > w2 y = 2 y:

42
c(y) , w(y)

c (y)=y
1

2
2-y

y
y
Figure 23

Le choix optimal pour un candidat du groupe 2, i.e. pour lequel c2 (y) = y=2 est
y = y car w2 y=2 = 2 y=2 > 1 = w1 :

c(y) , w(y)

c (y)=y/2
2 2
w -y/2
2
1

y
y
Figure 24

Les individus du groupe 1 sélectionnent y = 0, ceux du groupe 2 sélectionnent


y = y. Ainsi, les croyances a priori de l’employeur (selon lesquelles un candidat
pour lequel y < y a une productivité marginale de 1, et un candidat pour lequel
y y a une productivité marginale de 2) se trouvent con…rmées a posteriori par
les caractéristiques de l’équilibre sur le marché du travail. Nous sommes donc en
présence d’un équilibre de signal. On dit également que cet équilibre est séparant :
le signal qu’est le niveau d’éducation sépare les deux groupes de candidats puisque
ceux-ci sont rationnellement amenés à révéler leur véritable productivité marginale
par l’intermédiaire de leur choix du niveau d’éducation.

43
L’existence d’un équilibre séparant requiert d’une part que le groupe 1 sélectionne
y = 0, ce qui est le cas si 1 > 2 y ; d’autre part, que le groupe 2 sélectionne y = y,
ce qui est le cas si 1 < y < 2. Comme n’importe quel y compris dans cet intervalle
est un équilibre, il existe une in…nité d’équilibres séparants.
Il peut exister d’autres équilibres avec des propriétés di¤érentes. Supposons par
exemple que les croyances a priori de l’employeur soient les suivantes. Un candidat
pour lequel y < y est un individu du groupe 1 avec probabilité q et un individu du
groupe 2 avec la probabilité 1 - q. Un candidat pour lequel y y est un individu
du groupe 2 avec probabilité 1. Comme précédemment, chaque candidat sélectionne
y = 0 ou y = y. Pour y = 0, le salaire est 1q + 2 (1-q) = 2-q alors que pour y = y
le salaire est égal à 2. Un individu du groupe 1 sélectionne y = 0 si 2 - q > 2 - y,
ou encore y > q. Un individu du groupe 2 sélectionne y = 0 si 2 - q > 2 - y=2, ou
encore y > 2q. Il s’ensuit donc que si y > 2q, les deux groupes sélectionnent y =
0. Comme toute la population choisit y = 0, et qu’une proportion q est du groupe
1 et une proportion 1 - q du groupe 2, les croyances initiales de l’employeur sont
con…rmées. Nous sommes donc dans une situation d’équilibre. Mais cet équilibre
n’est pas séparant car les deux groupes choisissent le même niveau d’éducation. Il
s’agit d’un équilibre mélangeant.
Il peut également exister un équilibre dans lequel chacun …xe y = y. Cet équilibre
correspond aux croyances suivantes de l’employeur :
- un candidat pour lequel y < y appartient au groupe 1 avec probabilité 1
- un candidat pour lequel y y appartient au groupe 1 avec probabilité q et au
groupe 2 avec probabilité 1-q.
Pour y = 0, le salaire est 1, et pour y = y le salaire est donné par 1q + (1 q)2 =
2 q. Un individu du groupe 1 sélectionne y = y si 2 q y > 1, ou encore
y < 1 q: Un individu du groupe 2 sélectionne y = y si 2 q y=2 > 1, ou
encore y < 2(1 q). Les deux groupes sélectionnent y = y si y < (1 q), et donc
les croyances de l’employeur sont con…rmées. C’est un équilibre mélangeant. Les
équilibres mélangeants ne sont pas des équilibres de signal.
Le modèle de Spence propose une explication cohérente du fait que les individus
qui font les études les plus longues touchent les salaires les plus élevés. Mais la théorie
du capital humain propose également une explication : le capital humain augmente
la productivité du travail. Certains aspects du rendement des études semblent plus
compatibles avec le modèle de Spence qu’avec la théorie du capital humain. Le
rendement d’un troisième cycle est di¢ cilement explicable par l’augmentation de la
productivité rendue possible par cette seule année d’étude. L’explication par le signal
est plus plausible. De même, la théorie du capital humain suggère que le contenu
des programmes est important. Or, dans la pratique, il arrive que ce contenu ait peu
d’importance, comme dans le modèle de Spence.
Le signal permet de rendre compte de beaucoup de phénomènes dans la vie des
a¤aires. C’est ainsi que les banques signalent leur solidité par la taille des immeubles
qui les abritent, ou que les entreprises signalent leur con…ance dans la qualité de leurs
produits en donnant des garanties.

44
4 Bibliographie
Baird Douglas, Robert Gertner, Randal Picker (1995) : Game Theory and the
Law, Harvard University Press.
Bierman Scott, Luis Fernandez (1993) : Game Theory with Economic Applica-
tions, Addison-Wesley Publishing Company.
Binmore Ken (1992) : Fun and Games, D.C Heath and Company.
Dixit Avinash, Susan Skeath (1999) : Games of Strategy, W.W.Norton & Com-
pany.
Friedman James : Game Theory with Applications to Economics, Oxford Uni-
versity Press.
Fudenberg Drew, Jean Tirole (1991) : Game Theory, The MIT Press.
Gibbons Robert (1992) : Game Theory for Applied Economists, Princeton Uni-
versity Press.
Kreps David (1990) : A Course in Microeconomic Theory, Princeton University
Press.
Mas-Colell Andreu, Michael Whinston, Jerry Green (1995) : Microeconomic
Theory, Oxford University Press.
Myerson Roger (1991) : Game Theory, Harvard University Press.
Osborne Martin, Ariel Rubinstein (1994) : A Course in Game Theory, The MIT
Press.
Rasmusen Eric (1996) : Games and Information, Blackwell.
Stiglitz Joseph (2000) : The Contributions of the Economics of Information to
Twentieth Century Economics, The Quarterly Journal of Economics, vol CXV, n 4;
1441-1477.
Stiglitz Joseph (2002) : Information and the Change in the Paradigm in Econo-
mics, American Economic Review, June, 460-500.

45

Vous aimerez peut-être aussi