Vous êtes sur la page 1sur 14

UPMC - LI 352 IIEE - Cours 8 -

c J.-D. Kant 2014

Université Pierre et Marie Curie


Licence Informatique 2013-2014
Cours LI 352 - Industrie Informatique et son Environnement Économique
Responsable : Jean-Daniel Kant (Jean-Daniel.Kant@lip6.fr)

COURS 8 :
INTRODUCTION A LA THEORIE DES JEUX

1 Jeux

Le comportement des oligopoles montrent la forte interdépendance entre les firmes. Quand la
marché est contrôlé par un petit nombre d’entreprises, chaque firme analyse les comportements
des autres et peaufine sa stratégie en partie en fonction de celles des autres. Ainsi, ces com-
portements interdépendants peuvent apparaı̂tre comme des jeux, où chaque firme jouerait un
coup, puis recevrait la réponse d’une autre en riposte, etc. C’est pourquoi la théorie des jeux est
souvent utilisée en économie pour modéliser les comportements oligopolistiques. Elle est aussi
utilisée dans d’autres domaines de l’économie industrielle, en économie du travail, des échanges
internationaux, etc. Elle est cependant plus normative que descriptive, car rien ne prouve que les
acteurs raisonnent exactement comme la théorie des jeux le prescrit. C’est plus une abstraction
de comportement, une vision stylisée qu’un véritable modèle.
La théorie des jeux étudie des situations (les jeux ) où des agents (les joueurs) ont à choisir
des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies
jouées par l’ensemble des joueurs. Une stratégie peut se réduire à une décision élémentaire, mais
peut aussi consister en un plan d’action complexe, comme nous le verrons plus loin. Un jeu
est non-coopératif lorsque les joueurs choisissent leurs stratégies à l’insu les uns des autres. La
théorie des jeux coopératifs étudie au contraire les avantages que peuvent tirer les joueurs de la
possibilité de former entre eux des coalitions.

2 Jeux non-coopératifs

2.1 Jeux sous forme normale

Un jeu est présenté sous forme normale (on dit encore sous forme stratégique) lorsqu’il est
défini par la donnée :
• d’un ensemble de joueurs N = {1, .., i, .., n} ;
• pour chaque joueur i, d’un ensemble de stratégies Ai = {ai1 , .., ail , .., aimi } ;
• et d’une fonction(vectorielle)
Nn de paiement :
u = (u , ..u , ..u ) : i=1 A −→ Rn
1 i n i

1
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

a = (a1 , ..ai , ..an ) 7−→ u(a) = (u1 (a), .., ui (a), .., un (a)),
où ui (a) = ui (a1 , .., ai , .., an ) est le paiement du joueur i (ce peut être aussi bien un gain
monétaire qu’un niveau d’utilité) lorsque les joueurs jouent le profil de stratégies a, c-à-
d, lorsque le joueur i joue la stratégie ai et les autres joueurs jouent les stratégies aj ,
j ∈ N \{i}.
Notations : Il sera commode de noter −i l’ensemble N \{i}, d’où a−i = (a1 , .., ai−1 , ai+1 , ..an
N ), a =
i −i −i 1 i−1 i+1 n i −i −i
(a , a ), u (a) = (u (a), .., u (a), u (a), .., u (a)), u(a) = (u (a), u (a)), A = j6=i Aj ,
A = Ai × A−i , etc.
Cette définition peut être étendue à un nombre infini de joueurs ou de stratégies.
Dans le cas de deux joueurs (n = 2), on peut représenter un tel jeu à l’aide de la matrice
du jeu, dont les lignes et colonnes sont respectivement identifiées aux stratégies de chacun des
joueurs et l’élément de ligne a1 et colonne a2 est le couple (u1 (a1 , a2 ), u2 (a1 , a2 )).

Ainsi le jeu est décrit par la matrice U de terme Uij = ui (aj ).


N.B. Dans un jeu sous forme normale on suppose toujours que les deux joueurs
connaissent la matrice U du jeu.
Exemples

La bataille du couple

Kevin et Kevina doivent aller au spectacle ce soir et acheter leur billet à l’avance, chacun
séparément ; ils n’ont pas la possibilité de communiquer ; ils n’aiment l’une que les chanteuses
américaines décolorées, l’autre que le football ; enfin, leur soirée à tous deux sera gâchée s’ils ne
sont pas ensemble.

Kevina \ Kevin concert f oot


concert 2, 1 −1, −1
f oot −1, −1 1, 2

Peut-on dire ce que doivent faire, prédire ce que vont faire, Kevin et Kevina ? S’ils sont
rationnels, chacun a intérêt à choisir sa préférence, car il vaut mieux gagner 2 ou perdre -1, que
gagner 1 ou perdre -1. Mais dans ce cas, ils vont perdre à coup sûr. Il vaudrait mieux jouer
(concert,concert) ou (foot,foot). Mais cela ne donnera des gains que s’ils jouent le même. La
bataille du couple est difficile à résoudre !

Le dilemme du prisonnier

P ris. I \ P ris. II nier avouer


nier 3, 3 10, 1
avouer 1, 10 6, 6

Ce jeu tire son nom de l’interprétation suivante : deux criminels présumés sont interrogés
séparément par la police ; s’ils nient tous les deux ils seront condamnés à une faible peine (3
ans) et s’ils avouent tous les deux ils seront condamnés à une peine plus forte (6 ans) ; si l’un

2
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

des deux avoue tandis que l’autre nie, le premier n’aura qu’une peine de principe (1 an) alors
que le second aura la peine maximale (10 ans). La matrice ci-dessus représente donc des pertes
(gains négatifs).
Que vont faire, que doivent faire, les deux prisonniers ? Quel que soit l’action de l’autre,
chacun a intérêt à avouer, car au pire ils gagnent 4 ans et au mieux 9 ans par rapport à la peine
maximale. Cependant si on change maintenant la matrice des gains :

P ris. I \ P ris. II nier avouer


nier 3, 3 10, 30
avouer 30, 10 30, 30

Il vaut alors mieux nier, vu qu’avouer entraı̂ne la peine maximale à chaque fois.

2.2 Analyse d’un jeu sous forme normale

2.2.1 Considérations de dominance

Dominances

• La stratégie ai du joueur i domine faiblement sa stratégie bi lorsque :


ui (ai , a−i ) ≥ ui (bi , a−i ), ∀a−i ∈ A−i ;
(quelque soient les stratégies a−i des autres joueurs, la stratégie ai est meilleure ou égale
que bi .)
• elle la domine si elle la domine faiblement et que, de plus :
∃c−i ∈ A−i t.q. ui (ai , c−i ) > ui (bi , c−i ) ;
(il y a au moins un cas, i.e. une réponse des autres joueurs, pour lequel ai est meilleure
que bi )
• enfin, elle la domine strictement lorsque : ui (ai , a−i ) > ui (bi , a−i ), ∀a−i ∈ A−i .
(quelque soient les stratégies a−i des autres joueurs, la stratégie ai est meilleure que bi .)

La stratégie ai est dite faiblement dominante (resp. dominante, resp. strictement dominante)
si elle domine faiblement (resp. domine, resp. domine strictement) tous les bi ∈ Ai \{ai }.

Equilibre en stratégies strictement dominantes


On peut penser qu’un joueur rationnel ne choisira jamais une stratégie s’il dispose d’une
autre stratégie lui assurant un gain supérieur quel que soit le comportement des autres joueurs.
Si chaque joueur a une stratégie strictement dominante, il doit donc la jouer et le jeu est résolu.
On dit alors qu’il existe un équilibre en stratégies strictement dominantes.
C’est le cas pour (avouer, avouer) dans le premier dilemme du prisonnier ci-dessus. Remar-
quons que les joueurs obtiendraient tous deux plus qu’à cet équilibre en jouant (nier, nier) ;
il n’est donc pas efficace du point de vue de la rationalité collective, qui se caractérise par
l’optimalité au sens de Pareto.

3
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

Optimum de Pareto
Une suite de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un optimum de Pareto lorsqu’ aucun des
joueurs ne peut obtenir un paiement plus élevé sans que le paiement d’un des autres diminue :
 i i −i
u (a , a ) ≥ ui (ai∗ , a−i
  i i −i i i −i

∗ ), ∀i =⇒ u (a , a ) = u (a∗ , a∗ ), ∀i .

L’optimum de Pareto exprime bien l’idée que collectivement on ne peut pas améliorer la
situation. Souvent il fournit une solution plus efficace que quand chaque joueur raisonne indivi-
duellement.

Equilibre itératif en stratégies strictement dominantes


Quand il n’en existe pas, le jeu peut souvent être simplifié par un processus itératif où
chaque joueur, tablant sur la rationalité de ses adversaires, écarte les stratégies apparues comme
dominées à cette étape de son raisonnement.

Exemple

Matrice du jeu :

G C D
H (2, 5) (4, 8) (1, 3)
M (1, 4) (2, 5) (3, 6)
B (3, 7) (5, 8) (2, 9)

Il n’existe pas d’équilibre en stratégies strictement dominantes car aucune ligne ne donne
strictement plus, composante par composante, que toutes les autres lignes (il n’existe d’ailleurs
pas non plus de colonne dominant strictement toutes les autres colonnes). Dans la recherche
d’un équilibre itéré en stratégies strictement dominantes, on élimine successivement :
C D
H (4, 8) (1, 3)
G strictement dominé par C → ; H strictement dominé par B
M (2, 5) (3, 6)
B (5, 8) (2, 9)
C D D
→ M (2, 5) (3, 6) ; C strictement dominé par D → M (3, 6) ;
B (5, 8) (2, 9) B (2, 9)

D
B strictement dominé par M → . (M, D) est l’équilibre itéré en stratégies
M (3, 6)
strictement dominées cherché.

4
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

Equilibre et équilibre itératif en stratégies dominantes


On peut penser qu’un joueur rationnel ne devrait jamais jouer non plus une stratégie s’il en
existe une autre assurant un gain supérieur ou égal quoi qu’il arrive et strictement supérieur pour
certaines stratégies des autres joueurs. Ici encore si chaque joueur a une stratégie dominante (il
ne peut en avoir plus d’une), il doit la jouer. On dit alors qu’il existe un équilibre en stratégies
dominantes.
En revanche, le concept d’équilibre itératif en stratégies dominantes pose des problèmes.
En effet, contrairement au cas de la dominance stricte, selon l’ordre d’élimination de stratégies
dominées adopté, on peut aboutir à des résultats différents.

2.2.2 Equilibre de NASH

Lorsque, comme dans la bataille du couple, il n’existe pas d’équilibre, même itératif, en
stratégies strictement dominantes, il faut examiner l’intérêt présenté pour les joueurs par des
stratégies aux propriétés plus faibles :

Meilleure réponse
La stratégie ai∗ du joueur i est une meilleure réponse à des stratégies données b−i ∈ A−i des
autres joueurs lorsque : ui (ai∗ , b−i ) ≥ ui (ai , b−i ), ∀ai ∈ Ai .

Equilibre de NASH
Un profil de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un équilibre de Nash lorsque chacune de ses
composantes constitue une meilleure réponse aux autres :
ui (ai∗ , a∗−i ) ≥ ui (ai , a−i i i
∗ ), ∀a ∈ A , ∀i = 1, .., n.

Un équilibre de Nash est donc un profil de stratégies (c’est-à-dire la donnée d’une stratégie
d’équilibre pour chaque joueur) dans laquelle chaque stratégie est une meilleure réponse à toute
autre stratégie jouée.
Un équilibre de Nash a la propriété de stabilité suivante : si, pour une raison quelconque,
un des joueurs pense que tous ses adversaires vont jouer leurs stratégies d’équilibre, alors il
n’a aucune incitation à jouer lui-même autre chose que sa stratégie d’équilibre. Par exemple, les
joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un équilibre ; une trahison reste
toujours possible ; cependant chacun a intérêt à respecter cet accord si les autres le respectent
aussi.

La multiplicité des équilibres de Nash peut poser des problèmes. Dans la bataille du couple,
il y a deux équilibres de Nash (concert, concert) et (f oot, f oot) ; sans entente préalable, Kevina
peut vouloir jouer l’un et Kevin l’autre, avec pour résultat les paiements (−1, −1) ; les jeux où
se rencontre cette difficulté sont appelés jeux de coordination.

Enfin, un équilibre de Nash n’est pas forcément souhaitable. Dans le premier dilemme du
prisonnier ci-dessus (avouer, avouer) étant un équilibre en stratégies (strictement) dominantes
est aussi équilibre de Nash ; comme nous l’avons remarqué, (nier, nier) est strictement meilleur
pour chacun des deux joueurs ; un équilibre de Nash n’est donc pas en général Pareto-optimal.

5
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

On voit facilement qu’un équilibre itératif en stratégies strictement dominées et même en


stratégies dominées est nécessairement un équilibre de Nash. L’inverse n’est pas vrai et le
processus itératif d’élimination de stratégies dominées peut écarter un équilibre de Nash attractif
comme dans l’exemple suivant. Exemple

J. I \ J. II G D
H 10, 0 5, 2
B 10, 11 2, 0

Si le joueur II pense que le joueur I éliminera la stratégie B, dominée (mais pas strictement)
par H, il jouera D et l’issue du jeu sera (5, 2) ; (H, D) est bien un équilibre de Nash, mais un
deuxième équilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a été éliminé !
L’étude d’un jeu sous sa forme extensive, qui contient en général plus d’information sur le
jeu, permettra d’identifier les équilibres de Nash qui sont crédibles, c-à-d susceptibles d’être
joués par des joueurs rationnels.

3 Jeux sous forme extensive

Certaines situations où les agents prennent des décisions à tour de rôle peuvent être décrites
commodément à l’aide d’un arbre de jeu (en fait, une arborescence) :

3.1 Exemple : attaque publicitaire

Deux entreprises E 1 et E 2 sont en duopole sur un produit et font des bénéfices respectifs
(1, 5) ; E 1 peut ou non lancer une campagne publicitaire (coûteuse) pour agrandir sa part de
marché, ce qui réussira si E 2 ne réagit pas et les amènera alors à (2, 3) ; en revanche, si E 2 réagit
en lançant sa propre campagne, les bénéfices deviendront (0, 2). L’arbre que l’on associe à ce jeu
est le suivant :

Figure 1 – arbre du jeu

6
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

Chacun des joueurs a deux stratégies, pub et statu quo, mais celles de E 2 n’ont d’influence
sur le déroulement et l’issue du jeu que si E 1 a choisi la stratégie pub.

Le jeu a pour forme normale :

E1 \ E2 pub statu quo


pub 0, 2 2, 3
statu quo 1, 5 1, 5

Il y a deux équilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme
extensive nous assure que le second ne sera pas joué : si E 1 choisit pub, E 2 jouera statu quo qui
lui rapporte alors à coup sûr plus que pub ; le prévoyant, E 1 doit préférer pub à statu quo. (On
peut arriver à la même conclusion sur la forme normale en raisonnant que E 2 ne jouera pas
pub, dominée par statu quo, mais cette dominance n’étant pas stricte, la conclusion resterait
douteuse).

3.2 Information

Le jeu de l’exemple ci-dessus est un jeu à information parfaite, c.-à-d. qu’à l’instant de
prendre une décision les joueurs connaissent toutes les décisions passées (les leurs et celles des
autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mêmes informations.
On parlera au contraire, de jeu à information imparfaite lorsque certains des joueurs ne savent
pas toujours exactement à quel sommet de l’arbre de décision ils se trouvent (par exemple quand
l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires).
L’information (imparfaite) est symétrique lorsque chaque joueur en sait au moins autant
que les autres au moment où il joue ; elle est dite asymétrique sinon.
L’information est dite incomplète lorsque certains joueurs ne savent pas exactement quels
sont les paiements de la matrice de jeu (ils ne savent pas à quel jeu ils jouent).
Le jeu de l’Attaque publicitaire est un jeu à information parfaite. Les jeux d’échec, de dames
et de Go aussi. Si dans l’un de ces jeux on fait précéder la partie d’un coup de la nature - tirage
à P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le
jeu complété reste à information parfaite.
Le poker, dans toutes ses variantes, est un jeu en environnement incertain (la répartition
des cartes est aléatoire) à information imparfaite. Voyons un exemple avec environnement certain.
Dans le Bonneteau, le Manipulateur place une bille sous l’une de 3 coupes renversées :
la G(auche), celle du C(entre) ou la D(roite) ; le Gogo mise m e , choisit une des coupes
(g(auche),c(entre) ou d(roite)) et gagne M e s’il a désigné celle qui cache la bille. Sur l’arbre
de décision (Fig. 2) on a indiqué l’ensemble d’information du Gogo au moment de jouer ( ellipse
en pointillés) : il ne sait pas où se trouve la bille, donc est incapable de distinguer les 3 sommets
où il peut avoir à jouer.
Le dilemme du prisonnier Dans ce jeu, les deux joueurs jouent simultanément ; on peut
pourtant le représenter sous forme extensive en plaçant dans l’arbre du jeu l’action de l’un avant
celle de l’autre ; ce dernier ne connaissant pas le choix de l’autre ne sait où il se trouve dans
l’arbre : c’est un jeu à information imparfaite.

7
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

Figure 2 – arbre du jeu du Bonneteau

3.3 Stratégies

3.3.1 Stratégies pures

Une stratégie du joueur i (que nous appellerons plus tard stratégie pure quand nous intro-
duirons les stratégies mixtes) est une règle sélectionnant une action parmi les actions réalisables
en chacun des sommets de décision qui lui sont associés. Dans les jeux à information imparfaite,
un joueur ne sachant pas distinguer deux sommets appartenant au même ensemble d’informa-
tion, une stratégie doit vérifier la condition suivante : sélectionner la même action à tous les
sommets d’un même ensemble d’information. N.B. Cette condition n’apporte aucune restric-
tion dans les jeux à information parfaite puisque tous les ensembles d’information y sont des
singletons.
Un profil de stratégies est une suite a = (a1 , .., ai , ..an ), c-à-d consiste en la donnée d’une
stratégie ai pour chaque joueur i.
Dans un jeu en environnement certain, un profil de stratégies a détermine complètement
le déroulement du jeu ; il sélectionne un chemin de la racine vers l’une des feuilles f , que l’on
appelle la trajectoire du jeu. Les paiements sont alors eux-même déterminés et valent : U (a) =
(U 1 (a), .., U i (a), .., U n (a)) = u(f ) = (u1 (f ), .., ui (f ), .., un (f )).
Dans un jeu en environnement incertain, le déroulement du jeu dépend conjointement des
stratégies des joueurs et des événement réalisés ; la trajectoire est alors aléatoire ; à profil de

8
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

stratégies a donné, chaque feuille f est atteinte avec une probabilité P (f ) (déterminée par la
loi de probabilité des divers événements) ; a donne donc au joueur i une espérance d’utilité
i i
P
U (a) = f P (f ) u (f ). La donnée d’un jeu sous forme extensive permet donc d’obtenir sa
forme normale.
On a le résultat suivant :
Theorem 3.1 (Kuhn). Tout jeu fini à n personnes, sous forme extensive, à information parfaite
a une solution qui est un équilibre de Nash en stratégies pures.

3.4 Stratégies mixtes

Une stratégie mixte en théorie des jeux est une stratégie où le joueur choisit au hasard le
coup qu’il joue parmi les coups possibles. Cela revient à attribuer une certaine distribution de
probabilité sur l’ensemble des stratégies pures du jeu. Dans certains jeux, seules les stratégies
mixtes sont optimales.
Exemple : McDonald’s vs. Quick
Prenons l’exemple de l’affrontement entre les 2 géants du fast food, McDonald’s et Quick, et
modélisons le avec la matrice de jeu suivante :

M D \ QK prix bas (LP) publicité forte (HA)


prix bas (LP) 60, 35 55, 45
publicité forte (HA) 55, 50 60, 40

Ce jeu n’admet pas d’équilibre de Nash en stratégie pure. Par exemple si M D = LP, QK =
HA, alors M D va essayer HA mais du coup QK, à partir de (HA, HA), préfère jouer LP . En
(HA, LP ), M D préfère LP et alors QK joue HA : nous voilà revenus à la case départ.
En stratégie mixte, on introduit les probabilités pLM que Mc Do joue prix bas et pLQK que
Quick joue prix bas. Pour Mc Do, il faut maximiser le profit espéré :

EM D = pLM (60.pLQK + 55.(1 − pLQK )) + (1 − pLM )(55.pLQK + 60.(1 − pLQK ))


= 10.pLM .pLQK − 5.pLM − 5.pLQK + 60

Pour maximiser il faut :


∂EM D ∂EM D
= = 0 ⇒ pLM = pLQK = 0, 5
∂pLM ∂pLQK

Pour Quick, il faut maximiser le profit espéré :

EQK = pLQK (35.pLM + 50.(1 − pLM )) + (1 − pLQK )(45.pLM + 40.(1 − pLM ))


= −20.pLM .pLQK + 10.pLQK + 5.pLM + 60

Pour maximiser il faut :


∂EQK ∂EQK
= = 0 ⇒ pLQK = 0, 5 ; pLM = 0, 25
∂pLM ∂pQK

9
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

La stratégie optimale pour les 2 entreprises est donc de jouer chaque stratégie avec une
probabilité de 50%.
Ce jeu mixte n’est pas représentable sous forme extensive, car, chaque joueur y ayant une
infinité de stratégies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc à raisonner
sur l’arbre du jeu initial, de même que, sous forme normale, on continue à utiliser la matrice du
jeu initial.
Nash a démontré que :
Theorem 3.2 (Nash). Tout jeu fini à n personnes sous forme normale a un équilibre [de Nash]
en stratégies mixtes.

4 Jeux répétés

4.1 Introduction

Reprenons l’exemple du dilemme du prisonnier (ici on représente des gains positifs) :

P ris. I \ P ris. II nier avouer


nier 1, 1 −1, 2
avouer 2, −1 0, 0

L’analyse de ce jeu nous a conduit à une conclusion peu satisfaisante : Si les joueurs sont
rationnels, chacun doit éliminer la stratégie nier qui est strictement dominée ; la solution du jeu
est donc (avouer, avouer) ; c’est nécessairement un équilibre de Nash et c’est en fait le seul. Or
cette solution est dominée au sens de Pareto par le profil (nier, nier), plus avantageux pour
chacun des joueurs. Il y a donc conflit entre la rationalité individuelle et la rationalité collective.
Quand pourrait-on observer de la coopération de la part des joueurs ? Une hypothèse possible
est que dans la réalité les agents n’ont pas affaire à une situation de jeu isolée, mais à une
succession de jeux, sinon identiques du moins de structures semblables, et que la stratégie choisie
dans l’un d’eux n’est qu’une composante de leur stratégie globale dans le super-jeu constitué de
l’ensemble de leurs jeux. Nous allons examiner cette hypothèse.

4.2 Etude du dilemme du prisonnier répété

4.2.1 Comportement rationnel dans le dilemme du prisonnier répété un nombre


fini de fois

N.B. On écrira A et N pour les stratégies avouer et nier du jeu élémentaire.


Deux joueurs jouent le super-jeu consistant à jouer T fois au dilemme du prisonnier, à des
dates t = 1, 2, · · · , t, · · · , T . Les gains des différentes parties s’additionnent pour constituer les
paiements du super-jeu. Ce super-jeu est un jeu fini à information imparfaite (comme d’ailleurs
le jeu élémentaire) puisqu’à chaque date t les deux joueurs jouent à l’insu l’un de l’autre.
A la date t, chaque joueur sait ce que son adversaire et lui-même ont joué aux (t − 1)
premières parties et il peut en faire dépendre son action à cette date. Une stratégie S de l’un des

10
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

joueurs dans le super-jeu est donc caractérisable par une suite S = (S 1 , · · · , S t , · · · , S T ) dont
les composantes, toutes à valeurs dans {A, N }, sont déterminées récursivement par la donnée
de S 1 et de fonctions φt , t = 2, · · · , T , par S t = φt (S 1 , R1 , · · · , S t−1 , Rt−1 ) où R1 , · · · , Rt−1
sont les actions de l’autre joueur qu’il aura déjà observées à t. Il y a donc un très grand nombre
de stratégies (pures) possibles pour chacun des joueurs.
Montrons qu’une stratégie optimale pour chacun des joueurs est d’avouer à chaque étape,
stratégie que nous noterons Arep . A la date T , quel qu’ait été le déroulement du jeu jusque là
et le total des gains de chacun, il reste à jouer un jeu élémentaire ayant sous forme normale la
matrice de gains totaux finaux

P ris. I \ P ris. II nier avouer


nier mI + 1, mII + 1 mI − 1, mII + 2
avouer mI + 2, mII − 1 mI , mII

où les sommes mI et mII dépendent du sommet atteint après (T − 1) étapes. Quelles que
soient ces sommes, jouer A est strictement dominant pour chacun des deux joueurs : tous deux
prévoient donc que l’autre jouera A à T . Mais alors, à (T − 1), au moment de jouer dans le jeu
élémentaire à cette date, chacun doit seulement comparer les paiements dans le sous-jeu formé
de deux jeux élémentaires les sous-stratégies A suivi de A et N suivi de A ; la matrice des gains
finaux étant du type précédent (avec pour mI et mII les sommes acquises après T −2 étapes), les
deux joueurs prévoient que l’autre jouera A à (T − 1) comme à T . Par récurrence, on montrerait
que tous les deux doivent jouer Arep . Le couple (Arep , Arep ) est clairement Pareto-dominé par
de nombreuses autres couples de stratégies du super-jeu, comme par exemple (Nrep , Nrep ). On
reste donc devant la même incohérence entre rationalité individuelle et collective que dans le jeu
élémentaire !

4.2.2 Introduction de présupposés de comportement dans le dilemme du prisonnier


répété un nombre fini de fois

Un joueur peut être rationnel et pourtant avoir un comportement coopératif, s’il prend en
compte d’autres éléments que la simple description du jeu, par exemple s’il a des idées a priori
sur le comportement l’autre joueur. Nous prendrons l’exemple suivant : on appelle Tit for Tat
(”oeil pour oeil, dent pour dent”) la stratégie suivante : Jouer N (nier) à t = 1, puis , à tout
t > 1, jouer ce que l’autre a joué à (t − 1).
Supposons que le joueur I pense que son adversaire peut avec une probabilité  jouer la
stratégie Tit for Tat au lieu de la stratégie rationnelle non-coopérative Arep . Si I joue lui-même
Arep , avec probabilité , II jouant Tit for Tat, I gagnera 2 la première fois puis plus rien et avec
probabilité (1 − ), II jouant Arep , les paiements (de I comme de II) seront toujours nuls ; d’où
un gain espéré égal à 2.
Si maintenant I joue lui-même Tit for Tat, avec probabilité , II jouant lui-même Tit for
Tat avec probabilité , I réalisera T fois un gain de 1. Avec probabilité (1 − ), II jouant Arep ,
et donc I perdra 1 à t = 1, puis tous les paiements seront nuls. D’où un gain espéré égal à
.T + (1 − )(−1) =  (T + 1) − 1.

11
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

Tit for Tat est donc préférable pour lui à la stratégie ”rationnelle” Arep dès que
1
 (T + 1) − 1 > 2 ⇔  > T −1 . Cela dit, Tit for Tat n’est pourtant pas sa stratégie optimale
car, par exemple, il a toujours intérêt à jouer A à la dernière période).

4.2.3 Comportement dans le dilemme du prisonnier répété une infinité de fois

On peut aussi penser qu’il y a un effet d’horizon dans le jeu répété un nombre fini de fois,
dû au fait que l’on sait que tout s’arrête à la date T ; un tel effet est irréaliste, puisque dans le
monde réel il y a presque toujours de l’incertitude sur la date de fin des relations marchandes
ou autres des agents. Pour se débarrasser de l’horizon, on peut étudier le super-jeu ∞ formé par
le jeu simple répété une infinité de fois. Pour que le paiement global ne risque pas de devenir
infini, on introduit un taux d’escompte (= taux d’actualisation ou taux d’intérêt) ρ > 0, d’où
1
un facteur d’escompte δ = 1+ρ < 1. Le paiement global est alors la somme actualisée, à t = 1
par exemple, des paiements gt à t : G = ∞ t−1 g .
P
t=1 δ t

On montre alors qu’une coopération parfaite, les deux joueurs jouant constammentN (nier),
peut apparaitre ; elle pourrait être induite par le choix par chacun de la stratégie coopérative
à déclenchement Σ : Jouer N tant que l’autre le joue aussi ; jouer A à tout jamais dès que
l’autre a joué une fois A. Le résultat précis est le suivant : Le couple de stratégies coopératives à
déclenchement (Σ, Σ) constitue un équilibre de Nash parfait du jeu répété une infinité de fois,
à condition que δ soit suffisamment proche de 1.
Démonstration : (Σ, Σ) assure à chacun des deux joueurs un gain de 1 à chaque date t.
Supposons que le joueur II pense que I joue la stratégie Σ mais choisit lui-même une stratégie
différente de Σ, qui le fait jouer A pour la première fois à une date t0 , lui donnant un gain de 2 ;
il sait que I jouera alors A à toutes les dates suivantes t > t0 et que quoiqu’il fasse lui-même, il
n’aura plus que des paiements ≤ 0, d’où une somme de ses gains à partir de t0 (actualisée à t0 )
G0 ≤ 2 à comparer avec celle que lui assurerait Σ, G = 1 + δ + · · · + δ t + · · · = 1−δ
1
; il n’a donc
1 1
aucun intérêt à devier de Σ si 1−δ ≥ 2, c-à-d si δ ≥ 2 .
Ce résultat pourrait être considéré comme une validation normative de la coopération dans
le dilemme du prisonnier s’il existe pas d’autres équilibres parfaits dans le super-jeu ∞ ; mal-
heureusement, il en existe de nombreux autres.

Simulation du Tit-for-Tat 1

Robert Axelrod, dans son ouvrage “The Evolution of Cooperation” (1984), cherche à répondre
à la question suivante : ”Under what conditions will cooperation emerge in a world of egoists
without central authority ?” Pour tester la stabilité de cet équilibre, R. Axelrod demande à des
collègues, qui ont étudié le dilemme du prisonnier dans leurs différentes disciplines (psychologie,
biologie, économie, physique, mathématique, science politique, sociologie etc.), de proposer un
programme, qu’ils estiment susceptible de remporter le plus de points, pour jouer à un jeu du di-
lemme du prisonnier répété 200 fois. Chaque programme contient la stratégie d’un joueur. Le jeu
s’apparente à un tournoi dans lequel chaque stratégie est confrontée à tous les autres, à lui-même
et à un programme aléatoire jouant au hasard. Le programme vainqueur est celui totalisant le
plus de points. Le premier tournoi impliquant 14 programmes donna le programme  gagnant-
gagnant  ou  Tit for Tat  d’Anatol Rapoport vainqueur. R. Axelrod décide de renouveler
1. D’après Wikipedia, http ://fr.wikipedia.org/wiki/Théorie des jeux en relations internationales.

12
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

l’expérience avec 62 programmes et de nouveau le programme gagnant-gagnant d’A.Rapoport


l’emporte. Or la stratégie  gagnant-gagnant  ou  Tit for Tat  d’A. Rapoport n’emporte
aucun match du tournoi ! R. Axelrod (1984) (1) en déduit, que  [le dilemme du prisonnier]
est simplement une formulation abstraite de quelques situations très courantes et intéressantes
dans lesquelles ce qui est le meilleur pour une personne individuellement conduit à une situation
d’échec mutuel tandis que chacune pourrait mieux s’en tirer avec une coopération mutuelle .
L’interprétation de ces résultats qui impliquent la supériorité du comportement coopératif dans
un environnement de dilemmes du prisonnier répétés a été sujette à de nombreuses discussions.
Selon Eber (2004), les résultats d’Axelrod montrent que, dans un monde de conflits permanents,
il serait  optimal  de se comporter de la façon suivante :  être a priori coopératif avec les
autres (jouer [la stratégie de coopération (C)] lors du premier dilemme du prisonnier auquel on
se trouve confronté), punir son partenaire lorsqu’il n’a pas coopéré (jouer [la stratégie de non-
coopération (D)] chaque fois que le joueur à jouer D au tour précédent) pardonner et revenir à
la coopération lorsque le partenaire se remet à coopérer (jouer C à chaque fois qu’il a joué C le
coup précédent) . Cette philosophie politique, certes plaisante, est très débattue. Les conclu-
sions auxquelles Axelrod aboutit sont en particulier liées à la simplification du modèle comparé
à la situation réelle analysée. Référence : Milgrom P. R. (1984), “Book review : Axelrod’s ”The
Evolution of Cooperation” The Evolution of Cooperation. R. Axelrod” Review author[s] : Paul
R. Milgrom, The RAND Journal of Economics, Vol. 15, No. 2. (Summer, 1984), pp. 305-309.

5 Applications

Les champs d’application de la Théorie des Jeux sont très variés par exemples :
• Défense, Relations Internationales
– la crise des missiles de Cuba en octobre 1962 :
On peut la représenter par le jeu suivant :
Kennedy \ Kroutchev retrait maintenir
blocus naval Compromis (3, 3) V ictoire U RSS (2, 4)
raid aérien V ictoire U S (4, 2) Guerre N ucléaire (−3, −3)
A priori, personne ne veut la pire situation, mais il s’agit de ne pas perdre la face. Cela
s’apparente à ce que les américains ont appelé le game of chicken, un jeu très à la mode
dans les années 1950 (voir le film La fureur de vivre). Deux automobilistes roulent en
sens inverse dans une rue étroite, le perdant qualifié de  poule mouillée  est celui
qui donne un coup de volant pour éviter son concurrent. Ce jeu représente bien des
situations de crise dans le domaine des relations internationales.

Analyse par Steven Brams 2 :


Needless to say, the strategy choices, probable outcomes, and associated payoffs
shown in Figure 1 provide only a skeletal picture of the crisis as it developed over
a period of thirteen days. Both sides considered more than the two alternatives
listed, as well as several variations on each. The Soviets, for example, demanded
withdrawal of American missiles from Turkey as a quid pro quo for withdrawal
of their own missiles from Cuba, a demand publicly ignored by the United States.
2. http ://plus.maths.org/content/game-theory-and-cuban-missile-crisis

13
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014

Nevertheless, most observers of this crisis believe that the two superpowers were
on a collision course, which is actually the title of one book describing this
nuclear confrontation. They also agree that neither side was eager to take any
irreversible step, such as one of the drivers in Chicken might do by defiantly
ripping off the steering wheel in full view of the other driver, thereby foreclosing
the option of swerving.
Although in one sense the United States ”won” by getting the Soviets to wi-
thdraw their missiles, Premier Nikita Khrushchev of the Soviet Union at the
same time extracted from President Kennedy a promise not to invade Cuba,
which seems to indicate that the eventual outcome was a compromise of sorts.
But this is not game theory’s prediction for Chicken, because the strategies as-
sociated with compromise do not constitute a Nash equilibrium.
– les politiques de constitution de convois de bateaux en temps de guerre ;
– la façon de gérer un coup de surprise politique (Nasser à Suez, de Gaulle au Québec,
Eltsine lors du putsch, annonces électorales...) ou marketing ;
– la lutte contre le terrorisme.
• Sociologie et génétique : des chercheurs ont utilisé la stratégie des jeux pour mieux com-
prendre l’évolution du comportement des espèces face à la modification de leur environne-
ment
• Marketing et stratégie entreprise
• Economie ; notamment les travaux de Jean Tirole en économie industrielle
Les résultats peuvent être appliqués à des divertissements (comme le jeu télévisé  Friend
or Foe  3 sur une chaı̂ne câblée spécialisée aux États-Unis, Game Show Network).

Le Professeur Thomas Schelling, ”prix Nobel d’économie” 2005, s’est spécialisé dans l’expli-
cation des diverses stratégies utilisées (à utiliser) dans les conflits internationaux, tels la guerre
froide et la guerre nucléaire (dissuasion..)
Albert W. Tucker a par exemple diffusé de nombreuses interprétations du dilemme du pri-
sonnier dans la vie courante. Des biologistes ont utilisé la théorie des jeux pour comprendre
et prévoir les résultats de l’évolution, en particulier la notion d’équilibre évolutivement stable
introduit par John Maynard Smith dans son essais La théorie des jeux et l’évolution de la lutte
(Game Theory and the Evolution of Fighting). Voir aussi son livre Evolution and the Theory of
Games.
Dans le domaine de la science politique appliquée à l’environnement, on peut citer la tragédie
des communs 4 .
Il faut noter cependant des critiques fortes adressées aux partisans de la théorie
des jeux, parmi lesquels on peut citer celle de Bernard Guerrien objectant que les visions très
abstraites de la théorie des jeux ont du mal à représenter adéquatement le réel, qu’on ne sait pas
s’il y a des équilibres de Nash dans la Nature, ni si cette notion même d’équilibre de Nash est
la prédiction issue de la théories des jeux, le résultat du comportement rationnel des joueurs ou
la solution du jeu (Cf. B. Guerrien, Can we espect anything from Game Theory, in E. Fullbrook
(ed.), A Guide to What’s wrong with Economics, Anthem Press, 2004,pp. 198-208. Le débat est
loin d’être clos.

3. http ://en.wikipedia.org/wiki/Friend or Foe%3F


4. G. Hardin, The tragedy of the Commons, Science, 1968

14

Vous aimerez peut-être aussi