Vous êtes sur la page 1sur 11

Thorie des Jeux: Modlisation Mathmatique ET Applications

Histoire
L'analyse du duopole d'Antoine Augustin Cournot ( un mathmaticien franais qui
s'est intress notamment la formalisation des thories conomiques. Il est ainsi un des premiers avoir formul un modle de l'offre et de la demande) , publie en

1838 dans ses Recherches sur les principes mathmatiques de la thorie des richesses peut tre considre comme la premire formulation, dans un cadre particulier, de la notion d'quilibre de Nash. Dans son ouvrage de 1938, Applications aux Jeux de Hasard, mile Borel (1871 1956, un mathmaticien, professeur la Facult des sciences de Paris, spcialiste de la thorie des fonctions et des probabilits, membre de l'Acadmie des sciences)

dveloppe un thorme du minimax pour les jeux somme nulle deux joueurs, c'est--dire les jeux dans lesquels ce que gagne l'un est perdu par l'autre. La thorie des jeux devient un champ de recherche part entire avec la publication de la Thorie des jeux et du comportement conomique (Theory of Games and Economic Behavior) par John von Neumann et Oskar Morgenstern en 1944. Cet ouvrage fondateur dtaille la mthode de rsolution des jeux somme nulle. Vers 1950, John Nash dveloppe la notion d'quilibre de Nash qui gnralise les travaux de Cournot1. En 1994, John Nash, Reinhard Selten et John Harsanyi reoivent le prix Nobel pour leurs travaux sur la thorie des jeux. Ce choix tmoigne de l'importance prise par la thorie des jeux dans l'analyse conomique. En 2005, les thoriciens des jeux Thomas Schelling et Robert Aumann reoivent le meme prix.

Typologie des jeux :


La thorie des jeux classifie les jeux en catgories en fonction de leurs approches de rsolution. Les catgories les plus ordinaires sont :

Jeux coopratifs et jeux non coopratifs :


Dans les jeux coopratifs, on tudie la formation de coalitions entre les joueurs afin dobtenir un meilleur rsultat pour ses membres.

Jeux simultans et jeux squentiels :


Dans un jeu simultan, les joueurs dcident en mme temps de leur stratgie. Au contraire, dans un jeu squentiel, on peut spcifier l'ordre des dcisions . Un simple exemple de jeu simultan est le jeu pierre-feuille-ciseaux . Le jeu d'checs est un jeux sequentiel.

Jeux finis:
On dit qu'un jeu est fini lorsque l'ensemble des stratgies de chacun des joueurs est fini. Le dilemme du prisonnier est un jeu fini car chacun des joueurs n'a que deux stratgies possibles. En revanche, le jeu du duopole de Cournot n'est pas un jeu fini, car chaque entreprise choisit la quantit de bien qu'elle produit dans l'ensemble des rels positifs.

Jeux somme nulle et jeux somme non nulle


On appelle jeu somme nulle ou jeu strictement comptitifs, les jeux deux joueurs dans lesquels l'intrt de l'un des deux joueurs est strictement oppos l'intrt de l'autre joueur. Si les prfrences des joueurs sont reprsentes par une fonction de gain ou une fonction d'utilit, alors la somme des deux fonctions est toujours gale 07. La thorie des jeux somme nulle a t essentiellement dveloppe par Morgenstern et von Neumann Les checs ou le poker sont des jeux somme nulle car les gains de lun sont trs exactement les pertes de lautre. Le jeu pierre-feuille-ciseaux est un autre exemple de jeu somme nulle. Le dilemme du prisonnier n'est pas un jeu somme nulle (dans certains cas, les deux joueurs peuvent perdre).

Jeux rpts
La rptition dun jeu, avec connaissance des rsultats intermdiaires, change souvent fondamentalement son droulement (les meilleurs coups et la conclusion). Par exemple, il peut tre utile de prendre ponctuellement le risque de perdre pour

voir , tester les autres joueurs, et mettre en place des stratgies de communication par les coups jous ( dfaut dautre moyen de communication). Il se dveloppe galement des phnomnes de rputation qui vont influencer les choix stratgiques des autres joueurs. Dans le dilemme du prisonnier, le fait de savoir quon va jouer plusieurs fois avec un dur qui navoue jamais mais se venge cruellement, ou avec un lche qui avoue toujours, change radicalement la stratgie optimale. Enfin, curieusement, le fait que le nombre total de parties soit connu lavance ou non peut avoir des effets importants sur le rsultat, lignorance du nombre de coups rapprochant du jeu avec un nombre infini de coup, alors que sa connaissance rapproche au contraire du jeu un seul coup (et ce, aussi grand que soit le nombre de coups !)

Information
On dit qu'un jeu est information complte si chaque joueur connat lors de la prise de dcision : ses possibilits d'action les possibilits d'action des autres joueurs les gains rsultants de ces actions les motivations des autres joueurs Les jeux en information incomplte sont des situations o l'une des conditions n'est pas vrifie. Ce peut tre parce qu'une des motivations d'un acteur est cache (domaine important pour l'application de la thorie des jeux l'conomie). Ces jeux sont aussi appels jeux baysiens. On parle de jeu information parfaite dans le cas de jeu sous forme extensive, o chaque joueur a une connaissance parfaite de toute l'histoire du jeu. Un jeu information incomplte est aussi information imparfaite. Les jeux information complte peuvent tre information imparfaite soit du fait de la simultanit des choix des joueurs, soit lorsque des vnements alatoires sont cachs certains joueurs. John Harsanyi a prsent une mthode permettant de transformer des jeux information incomplte en jeux information complte mais imparfaite : au dbut du jeu, la Nature effectue un choix de rgles parmi les possibles, et les joueurs n'ont qu'une connaissance partielle de ce choix. Cette transformation introduit une subtilit dans la classification des jeux o le hasard intervient, sparant ceux o le hasard intervient uniquement avant le premier choix (assimilables un jeu information incomplte sans hasard), de ceux o le hasard intervient (aussi) aprs un choix d'un joueur9.

Mmoire
On distingue aussi les jeux mmoire parfaite et mmoire imparfaite. Les jeux mmoire parfaite sont des situations o chaque joueur peut se rappeler tout moment de la suite de coups qui ont t jous prcdemment, au besoin en notant au fur et mesure les coups jous. Les jeux mmoire imparfaite supposent une amnsie de la part des joueurs. Les jeux de guerre sont des exemples de jeux mmoire imparfaite si les commandements de zones oprationnelles ne parviennent pas communiquer entre eux ou avec l'tat-Major et donc n'ont pas trace des mouvements dj effectus par les troupes amies lorsqu'elles doivent dcider de leurs propres mouvements

Matrice des gains


Dans un jeu deux joueurs avec un ensemble fini de stratgies pour chacun des deux joueurs il est courant de reprsenter le jeu sous sa forme normale l'aide d'une matrice des gains ou matrice des paiements. Il s'agit d'un tableau double-entre qui numre sur chaque ct les stratgies possibles des joueurs respectifs. Dans la case la croise de deux stratgies, on note le couple de gains des deux joueurs. Si le jeu est somme nulle et deux joueurs, alors on peut ne noter que les gains du premier joueur : ceux du second sont directement opposs.

Forme extensive
Dans tous les jeux, les dcisions peuvent tre reprsentes par un arbre, dont chaque nud est associ au joueur qui dcide. Chaque option constitue une branche. Les gains de tous sont associs aux terminaisons ou feuilles de l'arbre. Un joueur na toutefois pas besoin de savoir comment il est parvenu un nud : seul compte l'tat prsent du jeu, et les positions recherches dans le futur. Lorsque certains mouvements ne sont autoriss quaprs un vnement donn, cet vnement nest quun des lments matrialiser dans ltat prsent du jeu et n'a pas besoin de faire partie d'un historique. Une forme extensive de jeu est un arbre de dcision dcrivant les actions possibles des joueurs chaque tape du jeu, la squence de tours de jeu des joueurs, ainsi que l'information dont ils disposent chaque tape pour prendre leur dcision. Cette information est reprsente sous forme d'ensembles d'information qui forment une partition des nuds de l'arbre, chaque classe de la partition contenant les nuds non distinguables par le joueur une tape du jeu. Si ces classes sont des singletons, cest--dire que chacune est constitue d'un seul nud de l'arbre du jeu, le jeu est dit information parfaite, ce qui signifie que chaque joueur sait tout moment o il se situe dans l'arbre du jeu. Dans le cas contraire, le jeu est dit information imparfaite14. L'information imparfaite est reprsente sous la forme d'un joueur non rationnel : la Nature , joueur qui prend alatoirement certaines dcisions telle ou telle tape du jeu, orientant la suite du jeu vers un certain sousarbre de l'arbre du jeu.

Exemple de jeu sous forme extensive

Dilemme du prisonnier:
Le dilemme du prisonnier, nonc en 1950 par Albert W. Tucker , caractrise en thorie des jeux une situation o deux joueurs auraient intrt cooprer, mais o de fortes incitations peuvent convaincre un joueur rationnel de trahir l'autre lorsque le jeu n'est jou qu'une fois. Pourtant si les deux joueurs trahissent, tous deux sont perdants. Le dilemme du prisonnier est souvent voqu dans des domaines comme l'conomie, la biologie, la politique internationale, la psychologie et mme l'mergence de rgles morales dans des communauts. Il a donn naissance des jeux d'conomie exprimentale testant la rationalit conomique des joueurs et leur capacit identifier l'quilibre de Nash d'un jeu.

Principe
Deux prisonniers sont interrogs sparment par un officier de justice. Arrts pour un petit dlit pour lequel ils risquent une anne de prison, ils sont galement souponns d'tre les auteurs d'un dlit bien plus important pour lequel ils risquent dix ans de prison. Les policiers n'ont cependant aucune preuve quant ' ce deuxime dlit. . on offre chacun des prisonniers les choix suivants:

si un des deux prisonniers dnonce l'autre, il est remis en libert alors que le second obtient la peine maximale (10 ans) ; si les deux se dnoncent entre eux, ils seront condamns une peine plus lgre (5 ans) ; si les deux refusent de dnoncer, la peine sera minimale (6 mois), faute d'lments au dossier. Ce problme modlise bien les questions de politique tarifaire : le concurrent qui baisse ses prix gagne des parts de march et peut ainsi augmenter ses ventes et accrotre ventuellement son bnfice mais si son concurrent principal en fait autant, les deux peuvent y perdre. Ce jeu ne conduit pas spontanment un tat o on ne pourrait amliorer le bientre dun joueur sans dtriorer celui dun autre (c'est--dire un optimum de Pareto; voir aussi quilibre de Nash). l'quilibre, chacun des prisonniers choisira probablement de faire dfaut alors qu'ils gagneraient cooprer : chacun est fortement incit tricher, ce qui constitue le cur du dilemme. Si le jeu tait rpt, chaque joueur pourrait user de reprsailles envers l'autre joueur pour son absence de coopration, ou mme simplement minimiser sa perte maximale en trahissant les fois suivantes. L'incitation tricher devient alors infrieure la menace de punition, ce qui introduit la possibilit de cooprer : la fin

ne justifie plus les moyens. Le dilemme du prisonnier est utilis en conomie, tudi en mathmatiques, utile parfois aux psychologues, biologistes des cosystmes et spcialistes de science politique. Le paradigme correspondant est galement mentionn en philosophie et dans le domaine des sciences cognitives.

Dilemme du prisonnier classique


Formulation
La premire exprience du dilemme du prisonnier a t ralise en 1950 par Melvin Dresher et Merill Flood, qui travaillaient alors pour la RAND Corporation. Par la suite, Albert W. Tucker la prsenta sous la forme d'une histoire : Deux suspects sont arrts par la police. Mais les agents n'ont pas assez de preuves pour les inculper, donc ils les interrogent sparment en leur faisant la mme offre. Si tu dnonces ton complice et qu'il ne te dnonce pas, tu seras remis en libert et l'autre copera de 10 ans de prison. Si tu le dnonces et lui aussi, vous coperez tous les deux de 5 ans de prison. Si personne ne se dnonce, vous aurez tous deux 6 mois de prison. On rsume souvent les utilits de chacun dans ce tableau :
1\2 Se tait Dnonce Se tait (-1/2;-1/2) (0;-10) Dnonce (-10;0) (-5;-5)

Chacun des prisonniers rflchit de son ct en considrant les deux cas possibles de raction de son complice. Dans le cas o il me dnoncerait : Si je me tais, je ferai 10 ans de prison ; Mais si je le dnonce, je ne ferai que 5 ans. Si je me tais, je ferai 6 mois de prison ; Mais si je le dnonce, je serai libre.

Dans le cas o il ne me dnoncerait pas :

Quel que soit son choix, j'ai donc intrt le dnoncer. Si chacun des complices fait ce raisonnement, les deux vont probablement choisir de se dnoncer mutuellement, ce choix tant le plus empreint de rationalit. Conformment l'nonc, ils coperont ds lors de 5 ans de prison chacun. Or, s'ils taient tous deux rests silencieux, ils n'auraient cop que de 6 mois chacun. Ainsi, lorsque chacun poursuit son intrt individuel, le rsultat obtenu n'est pas optimal au sens de Vilfredo Pareto.

Ce jeu est somme non nulle, c'est--dire que la somme des gains pour les participants n'est pas toujours la mme : il soulve une question de coopration. Pour qu'il y ait dilemme, la tentation T (je le dnonce, il se tait) doit payer plus que la coopration C (on se tait tous les deux), qui doit rapporter plus que la punition pour gosme P (je le dnonce, il me dnonce), qui doit tre plus valorisante que la duperie D (je me tais, il me dnonce). Ceci est formalis par : T > C > P > D (ici : 0 > -0,5 > -5 > -10) Pour qu'une collaboration puisse natre dans un dilemme rpt (ou itratif) (voir plus bas), 2 coups de coopration C doit tre plus valorisant que l'alternat Tentation / Dupe. Ce qui fait la condition 2C > T+D [ici : 2*-0,5 > 0 + (-10)].

Exemples de situations relles :


Le dilemme du prisonnier fournit un cadre gnral pour penser les situations o deux ou plusieurs acteurs ont un intrt cooprer, mais un intrt encore plus fort ne pas le faire si l'autre le fait, et aucun moyen de contraindre l'autre. Les exemples suivants permettront de mieux cerner la diversit des applications possibles et la grande gnralit du cadre du dilemme du prisonnier.

conomie
Un exemple canonique est le cas de deux entreprises qui n'ont pas le droit de s'entendre sur une politique commerciale commune et qui se demandent s'il leur faut procder ou non une baisse de prix pour conqurir des parts de march aux dpens de leur concurrent. Si toutes deux baissent leur prix, elles seront gnralement toutes deux perdantes . Le dilemme du prisonnier est souvent donn comme exemple argumentatif pour soutenir que la libre concurrence ne conduit pas forcment au rsultat optimal , ni mme maximisant la somme des gains de tous les joueurs.

Politique internationale:
Soit deux pays A et B. Les pays A et B peuvent choisir de maintenir ou non une arme. Si tous deux ont une arme (de force peu prs quivalente), la guerre est moins "tentante", car trs coteuse (situation de la guerre froide). Les dpenses militaires sont alors une perte nette pour les deux pays. Si un seul a une arme, il peut videmment conqurir sans coup frir l'autre, ce qui est pire. Enfin, si aucun n'a d'arme, la paix rgne et les pays n'ont pas de dpenses militaires. La situation de coopration permettant chacun de ne pas avoir d'arme est videmment prfrable la situation o les deux pays entretiennent une arme, mais elle est instable : chacun des deux pays a une forte incitation se doter unilatralement d'une arme pour envahir l'autre4.

Psychologie:
Le dilemme du prisonnier se rencontre frquemment dans les relations de couple. Prenons ainsi l'exemple d'un couple mari en tat de conflit, chacun des partenaires ayant eu une aventure extra-conjugale l'insu de l'autre. Chacun des deux voudrait pouvoir avouer sa faute et se rconcilier (coopration). Cependant, chacun des deux craint le mpris de l'autre s'il est le seul avoir faut, et prfre l'tat de conflit.

Cas de rsolution du dilemme:


Dans un trs grand nombre de situations relles, les espces vivantes qui en sont capables mettent au point des processus de socialisation permettant de rsoudre le dilemme du prisonnier, c'est--dire de rendre stable la stratgie cooprative, qui est optimale. Il y a deux faons d'obtenir ce rsultat : La premire possibilit est la mise en place d'une mmorisation des protagonistes et de leurs comportements, afin de se situer dans le cas du dilemme rpt (qui n'est plus un dilemme). La seconde solution est d'tablir un code de conduite au sein de la socit, associ des sanctions pour les contrevenants. De cette faon, la trahison, si elle est plus lourdement sanctionne que ce qu'elle rapporte, devient moins avantageuse que la coopration. L'espce humaine a dvelopp une facult trs importante mettre en uvre ces deux systmes de rsolution du dilemme du prisonnier, par ses capacits de mmoire et de sympathie, et par un systme judiciaire rpressif trs sophistiqu. Ainsi, la dmocratie constitue l'un des moyens les plus avancs qu'a mis au point l'espce humaine pour rsoudre le dilemme du prisonnier grande chelle. Dans la vie courante, le paradoxe est gnralement lev en utilisant la notion de rputation qui permet de prendre une dcision en valuant a priori les risques de cooprer avec quelqu'un. Chacun a intrt entretenir cette bonne rputation pour que les autres acceptent de cooprer avec lui.

Limites des applications:


Les protagonistes du dilemme dans sa forme classique n'ont le choix qu'entre deux attitudes : cooprer ou ne pas cooprer. Cette dichotomie est manifestement trs artificielle. En ralit, tous les degrs existent entre ces deux termes, rendant l'application de ce dilemme beaucoup plus dlicate. Cependant cette forme a un but pdagogique et la structure claire des versions plus complexes ou plus ralistes (la concurrence la Cournot par exemple). Il s'agit d'un modle deux protagonistes restant isols jusqu' l'annonce des rsultats de la transaction. Dans la vie relle, trois individus ou plus peuvent interagir ce qui complexifie notablement le choix entre la coopration et la noncoopration. Cependant les phnomnes de passager clandestin (le free-riding des anglophones) dont l'existence ne fait pas de doute montrent eux aussi la force de l'exemple.