Vous êtes sur la page 1sur 7

Dilemme du prisonnier

Le dilemme du prisonnier est un exemple célèbre de la théorie des jeux. Dans ce jeu, comme dans
bien d'autres, il est fait l'hypothèse que chaque joueur ici appelé " prisonnier " essaye de maximiser
ses bénéfices sans tenter d'en faire autant avec ceux de l'autre joueur.

Principe
La forme habituelle de ce dilemme est celle de deux prisonniers retenus dans des cellules séparées
et qui ne peuvent communiquer.

 si un seul des deux avoue, celui-ci est certain d'obtenir une remise de peine alors que le
second obtient la peine maximale (10 ans) ;
 si les deux avouent, ils seront condamnés à une peine plus légère (5 ans) ;
 si aucun n'avoue, la peine sera minimale (6 mois), faute d'éléments au dossier.

Ce problème modélise bien les questions de politique tarifaire : le concurrent qui baisse ses prix
gagne des parts de marché et peut ainsi augmenter ses ventes et accroître éventuellement son
bénéfice... mais si son concurrent principal en fait autant, les deux peuvent y perdre.

L'équilibre de Nash pour ce type de jeu ne conduit pas à un optimum de Pareto (c'est-à-dire un état
dans lequel on ne peut pas améliorer le bien-être d’un individu sans détériorer celui d’un autre). À
l'équilibre, chacun des prisonniers choisit de faire défaut même s'ils gagnaient à coopérer.
Malheureusement pour les prisonniers, chacun est incité à tricher après avoir fait la promesse de
coopérer. C'est le cœur du dilemme.

Ceci est cependant sensiblement différent d'une situation de marché libre ou les deux agents
économiques "prisonniers" peuvent coopérer pour atteindre un optimum de Pareto (parce que
l'optimum vu par les producteurs ne va pas toujours dans l'intérêt du consommateur, les lois
antitrust de tous les pays interdisent, officiellement du moins, les ententes entre producteurs
concurrents).

Dans un jeu du dilemme du prisonnier répété, chaque joueur a l'opportunité de " punir " l'autre
joueur pour sa précédente non-coopération. La coopération peut donc survenir dans cette
configuration. L'incitation à tricher est inférieure à la menace de punition, ce qui introduit la
possibilité de coopérer.

Le dilemme du prisonnier est utilisé par les économistes, les mathématiciens, les psychologues, les
biologistes et les spécialistes de science politique. Le paradigme correspondant est également
mentionné en philosophie et dans le domaine des sciences cognitives.

Dilemme du prisonnier classique


Formulation

La première expérience du dilemme du prisonnier a été réalisée en 1950 par Melvin Dresher et
Merill Flood, qui travaillaient alors pour la RAND Corporation. Par la suite, Albert W. Tucker la
présenta sous la forme d'une histoire:
Deux suspects sont arrêtés par la police. Mais les agents n'ont pas assez de preuves pour les
inculper, donc ils les interrogent séparément en leur faisant la même offre. " Si tu dénonces
ton complice et qu'il ne te dénonce pas, tu seras remis en liberté et l'autre écopera de 10 ans
de prison. Si tu le dénonces et lui aussi, vous écoperez tous les deux de 5 ans de prison. Si
personne ne se dénonce, vous aurez tous deux 6 mois de prison. "

On résume souvent les utilités de chacun dans ce tableau:

1\2 Se tait Dénonce


Se tait (-1/2;-1/2) (-10;0)
Dénonce (0;-10) (-5;-5)

Chacun des prisonniers réfléchit de son côté en considérant les deux cas possibles de réaction de
son complice.

 " Dans le cas où il me dénoncerait :


o Si je me tais, je ferai 10 ans de prison ;
o Mais si je le dénonce, je ne ferai que 5 ans. "
 " Dans le cas où il ne me dénoncerait pas :
o Si je me tais, je ferai 6 mois de prison ;
o Mais si je le dénonce, je serai libre. "

" Quel que soit son choix, j'ai donc intérêt à le dénoncer. "

Si chacun des complices fait ce raisonnement, les deux vont probablement choisir de se dénoncer
mutuellement, ce choix étant le plus empreint de rationalité. Conformément à l'énoncé, ils
écoperont dès lors de 5 ans de prison chacun. Or, s'ils étaient tous deux restés silencieux, ils
n'auraient écopé que de 6 mois chacun. Ainsi, lorsque chacun poursuit son intérêt individuel, le
résultat obtenu n'est pas optimal au sens de Vilfredo Pareto.

Ce jeu est à somme non nulle, c'est-à-dire que la somme des gains pour les participants n'est pas
toujours la même : il soulève une question de coopération.

Pour qu'il y ait dilemme, la tentation T (je le dénonce, il se tait) doit payer plus que la coopération R
(on se tait tous les deux) , qui doit rapporter plus que la punition pour égoïsme P (je le dénonce, il
me dénonce), qui doit être plus valorisante que la duperie S (je me tais, il me dénonce). Ceci est
formalisé par :

T > R > P > S (ici : 0 > -0,5 > -5 > -10)

Pour qu'une collaboration puisse naître dans un dilemme répété (ou itératif) (voir plus bas), 2 coups
de coopération R doit être plus valorisant que l'alternat Tentation / Dupe. Ce qui fait la condition 2R
> T+S [ici : 2*-0,5 > 0 + (-10)].

Exemples d'application

Le dilemme du prisonnier fournit un cadre général pour penser les situations où deux ou plusieurs
acteurs ont un intérêt à coopérer, mais un intérêt encore plus fort à ne pas le faire si l'autre le fait, et
aucun moyen de contraindre l'autre. Certains domaines comme l'écologie ou l'économie utilisent
intégralement la nature mathématique du problème en donnant un sens concret aux paramètres, par
exemple celui de paiements. D'autres ne retiennent que le cadre conceptuel pour catégoriser des
situations où les paiements sont peu quantifiables.

Les exemples suivants permettront de mieux cerner la diversité des applications possibles et la
grande généralité du cadre du dilemme du prisonnier.

Économie

Un exemple canonique est le cas de deux entreprises qui n'ont pas le droit de s'entendre sur une
politique commerciale commune (ce que la loi antitrust états-unienne interdit) et qui se demandent
s'il leur faut procéder ou non à une baisse de prix pour conquérir des parts de marché aux dépens de
leur concurrent. Il va de soi que si tous deux baissent leur prix, ils seront tous deux perdants par
rapport au statu quo, sauf bien sûr si le marché présente l'élasticité exceptionnelle pouvant
caractériser le secteur informatique, par exemple.

Le dilemme du prisonnier est donné, à tort, comme exemple que la concurrence conduit à des
situations socialement déplorables. En effet, si l'on fait intervenir un troisième joueur (la société), il
est possible d'imaginer qu'elle préfère l'absence de coopération des criminels entre eux, ou l'absence
de collusion entre les entreprises. Surtout, les baisses de prix résultant de la concurrence, que la
théorie des jeux aborde avec réalisme, profite à l'ensemble des consommateurs en leur permettant
d'obtenir la même satisfaction à moindre prix, et donc d'utiliser la différence pour consommer
ailleurs, et favoriser le dynamisme général. Le bien-être général a augmenté même si du point de
vue subjectif et incomplet du seul producteur, on eut pu croire que la concurrence amenait à une
baisse de la satisfaction des acteurs concernés. En d'autres termes, le résultat du jeu peut être jugé
comme socialement préférable. En fait, la structure du dilemme du prisonnier isole un mode
d'interaction entre joueurs, permet d'en tirer des conséquences directes pour eux sans préjudice
d'autres conséquences à préciser au cas par cas.

Écologie

La théorie des jeux, et le dilemme du prisonnier en particulier, sont fréquemment utilisés en


écologie pour modéliser l'évolution des comportements entre individus d'une même espèce vers des
stratégies évolutivement stables. L'apparition et le maintien des comportements de coopération par
exemple, se prêtent à ce type d'analyse. Richard Dawkins en a fait l'un des points centraux de sa
théorie du gène égoïste, puisque l'optimisation de la survie peut passer par un comportement
apparemment altruiste.

Politique internationale

Soit deux pays A et B. Les pays A et B peuvent choisir de maintenir ou non une armée. Si tous deux
ont une armée, la guerre est impossible, car trop coûteuse. Les dépenses militaires sont alors une
perte nette pour les deux pays. Si un seul a une armée, il peut évidemment conquérir sans coup férir
l'autre, ce qui est pire. Enfin, si aucun n'a d'armée, la paix règne et les pays n'ont pas de dépenses
militaires. La situation de coopération permettant à chacun de ne pas avoir d'armée est évidemment
préférable à la situation où les deux pays entretiennent une armée, mais elle est instable : chacun des
deux pays a une forte incitation à se doter unilatéralement d'une armée pour envahir l'autre.

Sociologie et anthropologie

Les sciences humaines ont également adopté le cadre conceptuel du dilemme du prisonnier pour
parler de situations bloquées dans un état défavorable par la difficulté à coordonner les actions des
différents agents ou à vérifier (et éventuellement punir) les déviances égoïstes. Ce cadre a ainsi été
utilisé par les sociologues pour expliquer la lenteur de l'adoption des semences à haut rendement
dans le monde agricole français dans les années 1960. L'ensemble des agriculteurs auraient eu
intérêt à adopter ces variétés, mais la pression sociale s'exerçant sur ceux qui tentaient l'expérience
dissuadait de nombreux agriculteurs.

Psychologie

Le dilemme du prisonnier se rencontre fréquemment dans les relations de couple. Prenons ainsi
l'exemple d'un couple marié en état de conflit, chacun des partenaires ayant eu une aventure extra-
conjugale à l'insu de l'autre. Chacun des deux voudrait pouvoir avouer sa faute et se réconcilier
(coopération). Cependant, chacun des deux craint le mépris de l'autre s'il est le seul à avoir fauté, et
préfère l'état de conflit.

Limites des applications

 Les protagonistes du dilemme dans sa forme classique n'ont le choix qu'entre deux
attitudes : coopérer ou ne pas coopérer. Cette dichotomie est manifestement très artificielle.
En réalité, tous les degrés existent entre ces deux termes, rendant l'application de ce
dilemme beaucoup plus délicate. Cependant cette forme a un but pédagogique et la structure
éclaire des versions plus complexes ou plus réalistes (la concurrence à la Cournot par
exemple).
 Il s'agit d'un modèle à deux protagonistes restant isolés jusqu'à l'annonce des résultats de la
transaction. Dans la vie réelle, trois individus ou plus peuvent interagir ce qui complexifie
notablement le choix entre la coopération et la non-coopération. Cependant les phénomènes
de passager clandestin (le free-riding des anglophones) dont l'existence ne fait pas de doute
montrent eux-aussi la force de l'exemple.

Le dilemme répété
Dans son livre The Evolution of Cooperation (L'évolution de la coopération, 1984), Robert Axelrod
étudie une extension classique de ce dilemme : le jeu se répète, et les participants gardent en
mémoire les précédentes rencontres. Cette version du jeu est également appelée dilemme itératif du
prisonnier. Il donne une autre illustration à partir d'une situation équivalente : deux personnes
échangent des sacs, censés contenir respectivement de l'argent et un bien. Chacun a un intérêt
immédiat à passer un sac vide, mais il est plus avantageux pour les deux que la transaction ait lieu.

Quand on répète ce jeu durablement dans une population, les joueurs qui adoptent une stratégie
intéressée y perdent au long terme, alors que les joueurs apparemment plus désintéressés voient leur
" altruisme " finalement récompensé. Axelrod y a vu une explication de l'apparition d'un
comportement altruiste dans un contexte d'évolution darwinienne par sélection naturelle.

La meilleure stratégie dans un contexte déterministe " œil pour œil " (" Tit for Tat ", une autre
traduction courante étant " donnant-donnant ") a été conçue par Anatol Rapoport pour un concours
informatisé. Son exceptionnelle simplicité a eu raison des autres propositions. Elle consiste à
coopérer au premier coup, puis à reproduire à chaque fois le comportement de l'adversaire du coup
précédent. Une variante, " œil pour œil avec pardon ", s'est révélée un peu plus efficace : en cas de
défection de l'adversaire, on coopère parfois (de 1 à 5 %) au coup suivant. Cela permet d'éviter de
rester bloqué dans un cycle négatif. Le meilleur réglage dépend des autres participants. En
particulier, " œil pour œil avec pardon " est plus efficace si la communication est brouillée, c'est-à-
dire s'il arrive qu'un autre participant interprète à tort un coup.
Pour le dilemme du prisonnier, il n'existe pas de stratégie toujours optimale. Si, par exemple, toute
la population fait systématiquement défaut sauf un individu qui respecte " œil pour œil ", alors ce
dernier a un désavantage au premier coup. Face à une unanimité de défaut, la meilleure stratégie est
de toujours trahir aussi. S'il y a une part de traîtres systématiques et d'"œil pour œil", la stratégie
optimale dépend de la proportion et de la durée du jeu. En faisant disparaître les individus qui
n'obtiennent pas de bons totaux et en faisant se dupliquer ceux qui mènent, on peut étudier des
dynamiques intéressantes. La répartition finale dépend de la population initiale.

Si le nombre N d'itérations est fini et connu, l'équilibre de Nash est de systématiquement faire
défaut, comme pour N=1. Cela se montre simplement par récurrence :

 au dernier coup, sans sanction possible de la part de l'adversaire, on a intérêt à trahir ;


 ce faisant, à l'avant-dernier coup, comme on anticipe que l'adversaire trahira quoiqu'il arrive
au coup suivant, il vaut mieux trahir aussi ;
 on poursuit le raisonnement jusqu'à refuser de coopérer à tous les coups.

Pour que la coopération reste intéressante, le futur doit donc rester incertain pour tous les
participants -- une solution possible est de tirer un N aléatoire.

La situation est aussi étonnante si l'on joue indéfiniment au dilemme du prisonnier, le score étant la
moyenne des scores obtenus (calculée de manière appropriée).

Le dilemme du prisonnier est la base de certaines théories de la coopération humaine et de la


confiance. Si l'on assimile les situations de transactions qui réclament de la confiance à un dilemme
du prisonnier, un comportement de coopération dans une population peut être modélisé comme un
jeu entre plusieurs joueurs, répété - d'où la fascination de nombreux universitaires depuis
longtemps : en 1975, Grofman et Pool estimaient déjà à plus de 2000 les articles scientifiques sur le
sujet.

Ces travaux fournissent une base modélisable, quantitative, pour l'étude scientifique des lois
morales.

Axelrod donne dans son ouvrage Comment réussir dans un monde égoïste un exemple de stratégie
œil pour œil dans le cadre du dilemme du prisonnier itératif : durant la guerre des tranchées, les
combattants des deux camps, et ce, contre l'avis du commandement, appliquaient le principe vivre et
laisser-vivre. Les protagonistes ne déclenchaient ainsi jamais en premier les hostilités mais
répliquaient fortement à toute agression.

Variantes
Il existe des variantes de ce jeu qui, en modifiant légèrement les gains aboutissent à des conclusions
très différentes :

Le jeu de la Poule-mouillée

La poule-mouillée est un autre jeu à somme non-nulle, où la coopération est récompensée. Ce jeu
est similaire au dilemme du prisonnier en ce qu'il est avantageux de trahir lorsque l'autre coopère.
Mais il en diffère en ce qu'il est avantageux de coopérer même si l'autre trahit : la défection double
est la pire des solutions -- donc un équilibre instable -- alors que dans le dilemme du prisonnier il
est toujours avantageux de trahir, ce qui rendait l'équilibre de double défection stable. La double
coopération est dans les deux jeux un équilibre instable.
Une matrice de gains ressemble à :

 si les deux coopèrent, ils reçoivent +5 ;


 si l'un coopère alors que l'autre se défausse, alors le premier obtient +1 et l'autre +10 ;
 si les deux font défaut, ils touchent -20.

1\2 Coopère Trahit


Coopère (+5;+5) (+1;+10)
Trahit (+10;+1) (-20;-20)

L'appellation " Poule-mouillée " est tirée du " jeu " automobile :

 Deux voitures se lancent l'une vers l'autre, prêtes à se rentrer dedans. Chaque joueur peut
dévier et éviter la catastrophe (coopération) ou garder le cap au risque de la collision
(défection).

Il est avantageux d'apparaitre comme un "dur" qui ne renoncera pas et d'intimider l'adversaire... tant
qu'on parvient à rester en jeu.

On trouve des exemples concrets dans beaucoup de situations quotidiennes : l'entretien de la maison
commune à un couple, par exemple, ou l'entretien d'un système d'irrigation entre deux fermiers.
Chacun peut l'entretenir seul, mais ils en profitent tous les deux autant. Si l'un d'entre eux n'assure
pas sa part d'entretien, l'autre a toujours intérêt à le faire à sa place, pour continuer à arroser. Par
conséquent, si l'un parvient à établir une réputation d'indélicat dominant -- c'est-à-dire si l'habitude
est prise que ce soit toujours l'autre qui s'occupe de l'entretien -- il sera susceptible de maintenir
cette situation.

Cet exemple peut également s'appliquer en politique internationale, dans la situation où deux États
entretiennent un différend qui est susceptible de déboucher sur une guerre. Passer pour une poule
mouillée est une garantie d'être ultérieurement confronté à nouveau à la même situation (comme la
France et la Grande-Bretagne le constatèrent avant 1939), mais maintenir une réputation suppose
une dépense (entretien militaire) et des risques (guerre toujours possible).

Le jeu de l'assurance

Un jeu de l'assurance a la même structure qu'un dilemme du prisonnier, à ceci près que les
récompenses en cas de coopération mutuelle sont plus importantes que si le partenaire fait défaut.
Une matrice de gain ressemblera à :

 si les deux coopèrent, chacun reçoit +10 ;


 si l'un coopère et que l'autre fait défaut, le premier n'a que +1 et l'autre +5 ;
 si les deux font défaut, ils en tirent +3 chacun.

1\2 Coopère Trahit


Coopère (+10;+10) (+1;+5)
Trahit (+5;+1) (+3;+3)
Le jeu de l'assurance peut aboutir à un équilibre très stable, puisque l'équilibre le plus profitable est
stable au sens de Nash : aucun n'a intérêt à dévier. Il est néanmoins possible qu'un joueur dévie par
erreur, la confiance ou l'habitude sont alors remises en cause.

Ami ou ennemi

"Ami ou ennemi" (" Friend or Foe ") est un jeu actuellement diffusé sur une chaîne câblée aux
États-Unis (Game Show Network). C'est un exemple de dilemme du prisonnier testé sur des
particuliers dans un cadre artificiel. Sur le plateau, trois paires de participants s'affrontent. Quand
une paire est éliminée, ses deux membres se répartissent leurs gains selon un dilemme du
prisonnier. Si les deux coopèrent (" Friend "), ils partagent équitablement la somme accumulée au
cours du jeu. Si aucun ne coopère (" Foe "), ils se quittent sans rien. S'il l'un coopère et que l'autre
fait défaut, le premier part les mains vides et l'autre remporte le tout. La situation est un peu
différente de la matrice canonique plus haut : le gain est le même pour qui voit sa confiance trahie
ou qui emporte l'autre dans sa perte. Si un joueur sait que l'autre le trahira, sa réponse lui est
indifférente. L'équilibre non coopératif est donc neutre, alors qu'il est stable dans le cas habituel. La
matrice à considérer est donc :

 si les deux coopèrent, chacun obtient 50% ;


 si les deux font défaut, ils en tirent 0% ;
 si l'un coopère et que l'autre le trahit, le premier reçoit 0% et l'autre 100%.

Joueur 1; Joueur 2 Coopère Trahit


Coopère (50%;50%) (0%;100%)
Trahit (100%;0%) (0%;0%)

Ce jeu serait très utile pour qui souhaiterait analyser le dilemme du prisonnier sur un cas réel.
Comme on ne peut participer qu'une fois au jeu, toutes les considérations concernant les jeux
répétés ne sont pas applicables, la stratégie " Œil pour Œil " n'intervient pas... cependant, on ne sait
pas ce qui se passe après l'émission.

Source: Wikipédia
http://www.techno-science.net/?onglet=glossaire&definition=6490

Vous aimerez peut-être aussi