Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
COURS 8 :
INTRODUCTION A LA THEORIE DES JEUX
1 Jeux
Le comportement des oligopoles montrent la forte interdépendance entre les firmes. Quand la
marché est contrôlé par un petit nombre d’entreprises, chaque firme analyse les comportements
des autres et peaufine sa stratégie en partie en fonction de celles des autres. Ainsi, ces com-
portements interdépendants peuvent apparaı̂tre comme des jeux, où chaque firme jouerait un
coup, puis recevrait la réponse d’une autre en riposte, etc. C’est pourquoi la théorie des jeux est
souvent utilisée en économie pour modéliser les comportements oligopolistiques. Elle est aussi
utilisée dans d’autres domaines de l’économie industrielle, en économie du travail, des échanges
internationaux, etc. Elle est cependant plus normative que descriptive, car rien ne prouve que les
acteurs raisonnent exactement comme la théorie des jeux le prescrit. C’est plus une abstraction
de comportement, une vision stylisée qu’un véritable modèle.
La théorie des jeux étudie des situations (les jeux ) où des agents (les joueurs) ont à choisir
des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies
jouées par l’ensemble des joueurs. Une stratégie peut se réduire à une décision élémentaire, mais
peut aussi consister en un plan d’action complexe, comme nous le verrons plus loin. Un jeu
est non-coopératif lorsque les joueurs choisissent leurs stratégies à l’insu les uns des autres. La
théorie des jeux coopératifs étudie au contraire les avantages que peuvent tirer les joueurs de la
possibilité de former entre eux des coalitions.
2 Jeux non-coopératifs
Un jeu est présenté sous forme normale (on dit encore sous forme stratégique) lorsqu’il est
défini par la donnée :
• d’un ensemble de joueurs N = {1, .., i, .., n} ;
• pour chaque joueur i, d’un ensemble de stratégies Ai = {ai1 , .., ail , .., aimi } ;
• et d’une fonction(vectorielle)
Nn de paiement :
u = (u , ..u , ..u ) : i=1 A −→ Rn
1 i n i
1
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
a = (a1 , ..ai , ..an ) 7−→ u(a) = (u1 (a), .., ui (a), .., un (a)),
où ui (a) = ui (a1 , .., ai , .., an ) est le paiement du joueur i (ce peut être aussi bien un gain
monétaire qu’un niveau d’utilité) lorsque les joueurs jouent le profil de stratégies a, c-à-
d, lorsque le joueur i joue la stratégie ai et les autres joueurs jouent les stratégies aj ,
j ∈ N \{i}.
Notations : Il sera commode de noter −i l’ensemble N \{i}, d’où a−i = (a1 , .., ai−1 , ai+1 , ..an
N ), a =
i −i −i 1 i−1 i+1 n i −i −i
(a , a ), u (a) = (u (a), .., u (a), u (a), .., u (a)), u(a) = (u (a), u (a)), A = j6=i Aj ,
A = Ai × A−i , etc.
Cette définition peut être étendue à un nombre infini de joueurs ou de stratégies.
Dans le cas de deux joueurs (n = 2), on peut représenter un tel jeu à l’aide de la matrice
du jeu, dont les lignes et colonnes sont respectivement identifiées aux stratégies de chacun des
joueurs et l’élément de ligne a1 et colonne a2 est le couple (u1 (a1 , a2 ), u2 (a1 , a2 )).
La bataille du couple
Kevin et Kevina doivent aller au spectacle ce soir et acheter leur billet à l’avance, chacun
séparément ; ils n’ont pas la possibilité de communiquer ; ils n’aiment l’une que les chanteuses
américaines décolorées, l’autre que le football ; enfin, leur soirée à tous deux sera gâchée s’ils ne
sont pas ensemble.
Peut-on dire ce que doivent faire, prédire ce que vont faire, Kevin et Kevina ? S’ils sont
rationnels, chacun a intérêt à choisir sa préférence, car il vaut mieux gagner 2 ou perdre -1, que
gagner 1 ou perdre -1. Mais dans ce cas, ils vont perdre à coup sûr. Il vaudrait mieux jouer
(concert,concert) ou (foot,foot). Mais cela ne donnera des gains que s’ils jouent le même. La
bataille du couple est difficile à résoudre !
Le dilemme du prisonnier
Ce jeu tire son nom de l’interprétation suivante : deux criminels présumés sont interrogés
séparément par la police ; s’ils nient tous les deux ils seront condamnés à une faible peine (3
ans) et s’ils avouent tous les deux ils seront condamnés à une peine plus forte (6 ans) ; si l’un
2
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
des deux avoue tandis que l’autre nie, le premier n’aura qu’une peine de principe (1 an) alors
que le second aura la peine maximale (10 ans). La matrice ci-dessus représente donc des pertes
(gains négatifs).
Que vont faire, que doivent faire, les deux prisonniers ? Quel que soit l’action de l’autre,
chacun a intérêt à avouer, car au pire ils gagnent 4 ans et au mieux 9 ans par rapport à la peine
maximale. Cependant si on change maintenant la matrice des gains :
Il vaut alors mieux nier, vu qu’avouer entraı̂ne la peine maximale à chaque fois.
Dominances
La stratégie ai est dite faiblement dominante (resp. dominante, resp. strictement dominante)
si elle domine faiblement (resp. domine, resp. domine strictement) tous les bi ∈ Ai \{ai }.
3
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
Optimum de Pareto
Une suite de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un optimum de Pareto lorsqu’ aucun des
joueurs ne peut obtenir un paiement plus élevé sans que le paiement d’un des autres diminue :
i i −i
u (a , a ) ≥ ui (ai∗ , a−i
i i −i i i −i
∗ ), ∀i =⇒ u (a , a ) = u (a∗ , a∗ ), ∀i .
L’optimum de Pareto exprime bien l’idée que collectivement on ne peut pas améliorer la
situation. Souvent il fournit une solution plus efficace que quand chaque joueur raisonne indivi-
duellement.
Exemple
Matrice du jeu :
G C D
H (2, 5) (4, 8) (1, 3)
M (1, 4) (2, 5) (3, 6)
B (3, 7) (5, 8) (2, 9)
Il n’existe pas d’équilibre en stratégies strictement dominantes car aucune ligne ne donne
strictement plus, composante par composante, que toutes les autres lignes (il n’existe d’ailleurs
pas non plus de colonne dominant strictement toutes les autres colonnes). Dans la recherche
d’un équilibre itéré en stratégies strictement dominantes, on élimine successivement :
C D
H (4, 8) (1, 3)
G strictement dominé par C → ; H strictement dominé par B
M (2, 5) (3, 6)
B (5, 8) (2, 9)
C D D
→ M (2, 5) (3, 6) ; C strictement dominé par D → M (3, 6) ;
B (5, 8) (2, 9) B (2, 9)
D
B strictement dominé par M → . (M, D) est l’équilibre itéré en stratégies
M (3, 6)
strictement dominées cherché.
4
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
Lorsque, comme dans la bataille du couple, il n’existe pas d’équilibre, même itératif, en
stratégies strictement dominantes, il faut examiner l’intérêt présenté pour les joueurs par des
stratégies aux propriétés plus faibles :
Meilleure réponse
La stratégie ai∗ du joueur i est une meilleure réponse à des stratégies données b−i ∈ A−i des
autres joueurs lorsque : ui (ai∗ , b−i ) ≥ ui (ai , b−i ), ∀ai ∈ Ai .
Equilibre de NASH
Un profil de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un équilibre de Nash lorsque chacune de ses
composantes constitue une meilleure réponse aux autres :
ui (ai∗ , a∗−i ) ≥ ui (ai , a−i i i
∗ ), ∀a ∈ A , ∀i = 1, .., n.
Un équilibre de Nash est donc un profil de stratégies (c’est-à-dire la donnée d’une stratégie
d’équilibre pour chaque joueur) dans laquelle chaque stratégie est une meilleure réponse à toute
autre stratégie jouée.
Un équilibre de Nash a la propriété de stabilité suivante : si, pour une raison quelconque,
un des joueurs pense que tous ses adversaires vont jouer leurs stratégies d’équilibre, alors il
n’a aucune incitation à jouer lui-même autre chose que sa stratégie d’équilibre. Par exemple, les
joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un équilibre ; une trahison reste
toujours possible ; cependant chacun a intérêt à respecter cet accord si les autres le respectent
aussi.
La multiplicité des équilibres de Nash peut poser des problèmes. Dans la bataille du couple,
il y a deux équilibres de Nash (concert, concert) et (f oot, f oot) ; sans entente préalable, Kevina
peut vouloir jouer l’un et Kevin l’autre, avec pour résultat les paiements (−1, −1) ; les jeux où
se rencontre cette difficulté sont appelés jeux de coordination.
Enfin, un équilibre de Nash n’est pas forcément souhaitable. Dans le premier dilemme du
prisonnier ci-dessus (avouer, avouer) étant un équilibre en stratégies (strictement) dominantes
est aussi équilibre de Nash ; comme nous l’avons remarqué, (nier, nier) est strictement meilleur
pour chacun des deux joueurs ; un équilibre de Nash n’est donc pas en général Pareto-optimal.
5
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
J. I \ J. II G D
H 10, 0 5, 2
B 10, 11 2, 0
Si le joueur II pense que le joueur I éliminera la stratégie B, dominée (mais pas strictement)
par H, il jouera D et l’issue du jeu sera (5, 2) ; (H, D) est bien un équilibre de Nash, mais un
deuxième équilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a été éliminé !
L’étude d’un jeu sous sa forme extensive, qui contient en général plus d’information sur le
jeu, permettra d’identifier les équilibres de Nash qui sont crédibles, c-à-d susceptibles d’être
joués par des joueurs rationnels.
Certaines situations où les agents prennent des décisions à tour de rôle peuvent être décrites
commodément à l’aide d’un arbre de jeu (en fait, une arborescence) :
Deux entreprises E 1 et E 2 sont en duopole sur un produit et font des bénéfices respectifs
(1, 5) ; E 1 peut ou non lancer une campagne publicitaire (coûteuse) pour agrandir sa part de
marché, ce qui réussira si E 2 ne réagit pas et les amènera alors à (2, 3) ; en revanche, si E 2 réagit
en lançant sa propre campagne, les bénéfices deviendront (0, 2). L’arbre que l’on associe à ce jeu
est le suivant :
6
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
Chacun des joueurs a deux stratégies, pub et statu quo, mais celles de E 2 n’ont d’influence
sur le déroulement et l’issue du jeu que si E 1 a choisi la stratégie pub.
Il y a deux équilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme
extensive nous assure que le second ne sera pas joué : si E 1 choisit pub, E 2 jouera statu quo qui
lui rapporte alors à coup sûr plus que pub ; le prévoyant, E 1 doit préférer pub à statu quo. (On
peut arriver à la même conclusion sur la forme normale en raisonnant que E 2 ne jouera pas
pub, dominée par statu quo, mais cette dominance n’étant pas stricte, la conclusion resterait
douteuse).
3.2 Information
Le jeu de l’exemple ci-dessus est un jeu à information parfaite, c.-à-d. qu’à l’instant de
prendre une décision les joueurs connaissent toutes les décisions passées (les leurs et celles des
autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mêmes informations.
On parlera au contraire, de jeu à information imparfaite lorsque certains des joueurs ne savent
pas toujours exactement à quel sommet de l’arbre de décision ils se trouvent (par exemple quand
l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires).
L’information (imparfaite) est symétrique lorsque chaque joueur en sait au moins autant
que les autres au moment où il joue ; elle est dite asymétrique sinon.
L’information est dite incomplète lorsque certains joueurs ne savent pas exactement quels
sont les paiements de la matrice de jeu (ils ne savent pas à quel jeu ils jouent).
Le jeu de l’Attaque publicitaire est un jeu à information parfaite. Les jeux d’échec, de dames
et de Go aussi. Si dans l’un de ces jeux on fait précéder la partie d’un coup de la nature - tirage
à P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le
jeu complété reste à information parfaite.
Le poker, dans toutes ses variantes, est un jeu en environnement incertain (la répartition
des cartes est aléatoire) à information imparfaite. Voyons un exemple avec environnement certain.
Dans le Bonneteau, le Manipulateur place une bille sous l’une de 3 coupes renversées :
la G(auche), celle du C(entre) ou la D(roite) ; le Gogo mise m e , choisit une des coupes
(g(auche),c(entre) ou d(roite)) et gagne M e s’il a désigné celle qui cache la bille. Sur l’arbre
de décision (Fig. 2) on a indiqué l’ensemble d’information du Gogo au moment de jouer ( ellipse
en pointillés) : il ne sait pas où se trouve la bille, donc est incapable de distinguer les 3 sommets
où il peut avoir à jouer.
Le dilemme du prisonnier Dans ce jeu, les deux joueurs jouent simultanément ; on peut
pourtant le représenter sous forme extensive en plaçant dans l’arbre du jeu l’action de l’un avant
celle de l’autre ; ce dernier ne connaissant pas le choix de l’autre ne sait où il se trouve dans
l’arbre : c’est un jeu à information imparfaite.
7
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
3.3 Stratégies
Une stratégie du joueur i (que nous appellerons plus tard stratégie pure quand nous intro-
duirons les stratégies mixtes) est une règle sélectionnant une action parmi les actions réalisables
en chacun des sommets de décision qui lui sont associés. Dans les jeux à information imparfaite,
un joueur ne sachant pas distinguer deux sommets appartenant au même ensemble d’informa-
tion, une stratégie doit vérifier la condition suivante : sélectionner la même action à tous les
sommets d’un même ensemble d’information. N.B. Cette condition n’apporte aucune restric-
tion dans les jeux à information parfaite puisque tous les ensembles d’information y sont des
singletons.
Un profil de stratégies est une suite a = (a1 , .., ai , ..an ), c-à-d consiste en la donnée d’une
stratégie ai pour chaque joueur i.
Dans un jeu en environnement certain, un profil de stratégies a détermine complètement
le déroulement du jeu ; il sélectionne un chemin de la racine vers l’une des feuilles f , que l’on
appelle la trajectoire du jeu. Les paiements sont alors eux-même déterminés et valent : U (a) =
(U 1 (a), .., U i (a), .., U n (a)) = u(f ) = (u1 (f ), .., ui (f ), .., un (f )).
Dans un jeu en environnement incertain, le déroulement du jeu dépend conjointement des
stratégies des joueurs et des événement réalisés ; la trajectoire est alors aléatoire ; à profil de
8
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
stratégies a donné, chaque feuille f est atteinte avec une probabilité P (f ) (déterminée par la
loi de probabilité des divers événements) ; a donne donc au joueur i une espérance d’utilité
i i
P
U (a) = f P (f ) u (f ). La donnée d’un jeu sous forme extensive permet donc d’obtenir sa
forme normale.
On a le résultat suivant :
Theorem 3.1 (Kuhn). Tout jeu fini à n personnes, sous forme extensive, à information parfaite
a une solution qui est un équilibre de Nash en stratégies pures.
Une stratégie mixte en théorie des jeux est une stratégie où le joueur choisit au hasard le
coup qu’il joue parmi les coups possibles. Cela revient à attribuer une certaine distribution de
probabilité sur l’ensemble des stratégies pures du jeu. Dans certains jeux, seules les stratégies
mixtes sont optimales.
Exemple : McDonald’s vs. Quick
Prenons l’exemple de l’affrontement entre les 2 géants du fast food, McDonald’s et Quick, et
modélisons le avec la matrice de jeu suivante :
Ce jeu n’admet pas d’équilibre de Nash en stratégie pure. Par exemple si M D = LP, QK =
HA, alors M D va essayer HA mais du coup QK, à partir de (HA, HA), préfère jouer LP . En
(HA, LP ), M D préfère LP et alors QK joue HA : nous voilà revenus à la case départ.
En stratégie mixte, on introduit les probabilités pLM que Mc Do joue prix bas et pLQK que
Quick joue prix bas. Pour Mc Do, il faut maximiser le profit espéré :
9
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
La stratégie optimale pour les 2 entreprises est donc de jouer chaque stratégie avec une
probabilité de 50%.
Ce jeu mixte n’est pas représentable sous forme extensive, car, chaque joueur y ayant une
infinité de stratégies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc à raisonner
sur l’arbre du jeu initial, de même que, sous forme normale, on continue à utiliser la matrice du
jeu initial.
Nash a démontré que :
Theorem 3.2 (Nash). Tout jeu fini à n personnes sous forme normale a un équilibre [de Nash]
en stratégies mixtes.
4 Jeux répétés
4.1 Introduction
L’analyse de ce jeu nous a conduit à une conclusion peu satisfaisante : Si les joueurs sont
rationnels, chacun doit éliminer la stratégie nier qui est strictement dominée ; la solution du jeu
est donc (avouer, avouer) ; c’est nécessairement un équilibre de Nash et c’est en fait le seul. Or
cette solution est dominée au sens de Pareto par le profil (nier, nier), plus avantageux pour
chacun des joueurs. Il y a donc conflit entre la rationalité individuelle et la rationalité collective.
Quand pourrait-on observer de la coopération de la part des joueurs ? Une hypothèse possible
est que dans la réalité les agents n’ont pas affaire à une situation de jeu isolée, mais à une
succession de jeux, sinon identiques du moins de structures semblables, et que la stratégie choisie
dans l’un d’eux n’est qu’une composante de leur stratégie globale dans le super-jeu constitué de
l’ensemble de leurs jeux. Nous allons examiner cette hypothèse.
10
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
joueurs dans le super-jeu est donc caractérisable par une suite S = (S 1 , · · · , S t , · · · , S T ) dont
les composantes, toutes à valeurs dans {A, N }, sont déterminées récursivement par la donnée
de S 1 et de fonctions φt , t = 2, · · · , T , par S t = φt (S 1 , R1 , · · · , S t−1 , Rt−1 ) où R1 , · · · , Rt−1
sont les actions de l’autre joueur qu’il aura déjà observées à t. Il y a donc un très grand nombre
de stratégies (pures) possibles pour chacun des joueurs.
Montrons qu’une stratégie optimale pour chacun des joueurs est d’avouer à chaque étape,
stratégie que nous noterons Arep . A la date T , quel qu’ait été le déroulement du jeu jusque là
et le total des gains de chacun, il reste à jouer un jeu élémentaire ayant sous forme normale la
matrice de gains totaux finaux
où les sommes mI et mII dépendent du sommet atteint après (T − 1) étapes. Quelles que
soient ces sommes, jouer A est strictement dominant pour chacun des deux joueurs : tous deux
prévoient donc que l’autre jouera A à T . Mais alors, à (T − 1), au moment de jouer dans le jeu
élémentaire à cette date, chacun doit seulement comparer les paiements dans le sous-jeu formé
de deux jeux élémentaires les sous-stratégies A suivi de A et N suivi de A ; la matrice des gains
finaux étant du type précédent (avec pour mI et mII les sommes acquises après T −2 étapes), les
deux joueurs prévoient que l’autre jouera A à (T − 1) comme à T . Par récurrence, on montrerait
que tous les deux doivent jouer Arep . Le couple (Arep , Arep ) est clairement Pareto-dominé par
de nombreuses autres couples de stratégies du super-jeu, comme par exemple (Nrep , Nrep ). On
reste donc devant la même incohérence entre rationalité individuelle et collective que dans le jeu
élémentaire !
Un joueur peut être rationnel et pourtant avoir un comportement coopératif, s’il prend en
compte d’autres éléments que la simple description du jeu, par exemple s’il a des idées a priori
sur le comportement l’autre joueur. Nous prendrons l’exemple suivant : on appelle Tit for Tat
(”oeil pour oeil, dent pour dent”) la stratégie suivante : Jouer N (nier) à t = 1, puis , à tout
t > 1, jouer ce que l’autre a joué à (t − 1).
Supposons que le joueur I pense que son adversaire peut avec une probabilité jouer la
stratégie Tit for Tat au lieu de la stratégie rationnelle non-coopérative Arep . Si I joue lui-même
Arep , avec probabilité , II jouant Tit for Tat, I gagnera 2 la première fois puis plus rien et avec
probabilité (1 − ), II jouant Arep , les paiements (de I comme de II) seront toujours nuls ; d’où
un gain espéré égal à 2.
Si maintenant I joue lui-même Tit for Tat, avec probabilité , II jouant lui-même Tit for
Tat avec probabilité , I réalisera T fois un gain de 1. Avec probabilité (1 − ), II jouant Arep ,
et donc I perdra 1 à t = 1, puis tous les paiements seront nuls. D’où un gain espéré égal à
.T + (1 − )(−1) = (T + 1) − 1.
11
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
Tit for Tat est donc préférable pour lui à la stratégie ”rationnelle” Arep dès que
1
(T + 1) − 1 > 2 ⇔ > T −1 . Cela dit, Tit for Tat n’est pourtant pas sa stratégie optimale
car, par exemple, il a toujours intérêt à jouer A à la dernière période).
On peut aussi penser qu’il y a un effet d’horizon dans le jeu répété un nombre fini de fois,
dû au fait que l’on sait que tout s’arrête à la date T ; un tel effet est irréaliste, puisque dans le
monde réel il y a presque toujours de l’incertitude sur la date de fin des relations marchandes
ou autres des agents. Pour se débarrasser de l’horizon, on peut étudier le super-jeu ∞ formé par
le jeu simple répété une infinité de fois. Pour que le paiement global ne risque pas de devenir
infini, on introduit un taux d’escompte (= taux d’actualisation ou taux d’intérêt) ρ > 0, d’où
1
un facteur d’escompte δ = 1+ρ < 1. Le paiement global est alors la somme actualisée, à t = 1
par exemple, des paiements gt à t : G = ∞ t−1 g .
P
t=1 δ t
On montre alors qu’une coopération parfaite, les deux joueurs jouant constammentN (nier),
peut apparaitre ; elle pourrait être induite par le choix par chacun de la stratégie coopérative
à déclenchement Σ : Jouer N tant que l’autre le joue aussi ; jouer A à tout jamais dès que
l’autre a joué une fois A. Le résultat précis est le suivant : Le couple de stratégies coopératives à
déclenchement (Σ, Σ) constitue un équilibre de Nash parfait du jeu répété une infinité de fois,
à condition que δ soit suffisamment proche de 1.
Démonstration : (Σ, Σ) assure à chacun des deux joueurs un gain de 1 à chaque date t.
Supposons que le joueur II pense que I joue la stratégie Σ mais choisit lui-même une stratégie
différente de Σ, qui le fait jouer A pour la première fois à une date t0 , lui donnant un gain de 2 ;
il sait que I jouera alors A à toutes les dates suivantes t > t0 et que quoiqu’il fasse lui-même, il
n’aura plus que des paiements ≤ 0, d’où une somme de ses gains à partir de t0 (actualisée à t0 )
G0 ≤ 2 à comparer avec celle que lui assurerait Σ, G = 1 + δ + · · · + δ t + · · · = 1−δ
1
; il n’a donc
1 1
aucun intérêt à devier de Σ si 1−δ ≥ 2, c-à-d si δ ≥ 2 .
Ce résultat pourrait être considéré comme une validation normative de la coopération dans
le dilemme du prisonnier s’il existe pas d’autres équilibres parfaits dans le super-jeu ∞ ; mal-
heureusement, il en existe de nombreux autres.
Simulation du Tit-for-Tat 1
Robert Axelrod, dans son ouvrage “The Evolution of Cooperation” (1984), cherche à répondre
à la question suivante : ”Under what conditions will cooperation emerge in a world of egoists
without central authority ?” Pour tester la stabilité de cet équilibre, R. Axelrod demande à des
collègues, qui ont étudié le dilemme du prisonnier dans leurs différentes disciplines (psychologie,
biologie, économie, physique, mathématique, science politique, sociologie etc.), de proposer un
programme, qu’ils estiment susceptible de remporter le plus de points, pour jouer à un jeu du di-
lemme du prisonnier répété 200 fois. Chaque programme contient la stratégie d’un joueur. Le jeu
s’apparente à un tournoi dans lequel chaque stratégie est confrontée à tous les autres, à lui-même
et à un programme aléatoire jouant au hasard. Le programme vainqueur est celui totalisant le
plus de points. Le premier tournoi impliquant 14 programmes donna le programme gagnant-
gagnant ou Tit for Tat d’Anatol Rapoport vainqueur. R. Axelrod décide de renouveler
1. D’après Wikipedia, http ://fr.wikipedia.org/wiki/Théorie des jeux en relations internationales.
12
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
5 Applications
Les champs d’application de la Théorie des Jeux sont très variés par exemples :
• Défense, Relations Internationales
– la crise des missiles de Cuba en octobre 1962 :
On peut la représenter par le jeu suivant :
Kennedy \ Kroutchev retrait maintenir
blocus naval Compromis (3, 3) V ictoire U RSS (2, 4)
raid aérien V ictoire U S (4, 2) Guerre N ucléaire (−3, −3)
A priori, personne ne veut la pire situation, mais il s’agit de ne pas perdre la face. Cela
s’apparente à ce que les américains ont appelé le game of chicken, un jeu très à la mode
dans les années 1950 (voir le film La fureur de vivre). Deux automobilistes roulent en
sens inverse dans une rue étroite, le perdant qualifié de poule mouillée est celui
qui donne un coup de volant pour éviter son concurrent. Ce jeu représente bien des
situations de crise dans le domaine des relations internationales.
13
UPMC - LI 352 IIEE - Cours 8 -
c J.-D. Kant 2014
Nevertheless, most observers of this crisis believe that the two superpowers were
on a collision course, which is actually the title of one book describing this
nuclear confrontation. They also agree that neither side was eager to take any
irreversible step, such as one of the drivers in Chicken might do by defiantly
ripping off the steering wheel in full view of the other driver, thereby foreclosing
the option of swerving.
Although in one sense the United States ”won” by getting the Soviets to wi-
thdraw their missiles, Premier Nikita Khrushchev of the Soviet Union at the
same time extracted from President Kennedy a promise not to invade Cuba,
which seems to indicate that the eventual outcome was a compromise of sorts.
But this is not game theory’s prediction for Chicken, because the strategies as-
sociated with compromise do not constitute a Nash equilibrium.
– les politiques de constitution de convois de bateaux en temps de guerre ;
– la façon de gérer un coup de surprise politique (Nasser à Suez, de Gaulle au Québec,
Eltsine lors du putsch, annonces électorales...) ou marketing ;
– la lutte contre le terrorisme.
• Sociologie et génétique : des chercheurs ont utilisé la stratégie des jeux pour mieux com-
prendre l’évolution du comportement des espèces face à la modification de leur environne-
ment
• Marketing et stratégie entreprise
• Economie ; notamment les travaux de Jean Tirole en économie industrielle
Les résultats peuvent être appliqués à des divertissements (comme le jeu télévisé Friend
or Foe 3 sur une chaı̂ne câblée spécialisée aux États-Unis, Game Show Network).
Le Professeur Thomas Schelling, ”prix Nobel d’économie” 2005, s’est spécialisé dans l’expli-
cation des diverses stratégies utilisées (à utiliser) dans les conflits internationaux, tels la guerre
froide et la guerre nucléaire (dissuasion..)
Albert W. Tucker a par exemple diffusé de nombreuses interprétations du dilemme du pri-
sonnier dans la vie courante. Des biologistes ont utilisé la théorie des jeux pour comprendre
et prévoir les résultats de l’évolution, en particulier la notion d’équilibre évolutivement stable
introduit par John Maynard Smith dans son essais La théorie des jeux et l’évolution de la lutte
(Game Theory and the Evolution of Fighting). Voir aussi son livre Evolution and the Theory of
Games.
Dans le domaine de la science politique appliquée à l’environnement, on peut citer la tragédie
des communs 4 .
Il faut noter cependant des critiques fortes adressées aux partisans de la théorie
des jeux, parmi lesquels on peut citer celle de Bernard Guerrien objectant que les visions très
abstraites de la théorie des jeux ont du mal à représenter adéquatement le réel, qu’on ne sait pas
s’il y a des équilibres de Nash dans la Nature, ni si cette notion même d’équilibre de Nash est
la prédiction issue de la théories des jeux, le résultat du comportement rationnel des joueurs ou
la solution du jeu (Cf. B. Guerrien, Can we espect anything from Game Theory, in E. Fullbrook
(ed.), A Guide to What’s wrong with Economics, Anthem Press, 2004,pp. 198-208. Le débat est
loin d’être clos.
14