1.1. Modlisation d un jeu sous forme stratgique 1.2. Stratgies pures et stratgies mixtes 1.3. Stratgies domines et quilibre en stratgies dominantes 1.4. Elimination itrative des stratgies domines 1.5. Stratgies rationalisables 1.6. Critre de prudence, paiement MaxiMin et jeux somme nulle 1.7 Equilibre de Nash
1 M.BEAUD-UM1-LAMETA
Soit un jeu sous forme stratgique deux joueurs et deux stratgies par joueur: (i) Lensemble des joueurs est N={1,2}. (ii) Lensemble des actions possibles est A1={H,B} pour le joueur 1, et A2={G,D} pour le joueur 2. Ainsi, il existe quatre issues possibles: A={(H,G),(H,D),(B,G),(B,D)}. (iii) Les fonctions de paiement des agents: u1(a1 ,a2) et u2(a2 ,a1), o a1 A1 et a2 A2. Il est commode de rsumer les jeux sous forme stratgique deux joueurs par une matrice, appele matrice des paiements:
G Joueur 2 D
H Joueur 1 B
u1(H,G) ; u2(G,H)
u1(H,D) ; u2(D,H)
u1(B,G) ; u2(G,B)
u1(B,D) ; u2(D,B)
M.BEAUD-UM1-LAMETA
Soit un jeu sous forme stratgique trois joueurs et deux stratgies par joueur (23=8 issues possibles): (H,D,N), (B,G,N), (B,D,N), (H,G,S), (H,D,S), (B,G,S), (B,D,S)}.
G H Joueur 1 B N Joueur 3 S H Joueur 1 B G Joueur 2 D Joueur 2 D
u1(H,G,N);u2(G,H,N);u3(N,H,G) u1(B,G,N);u2(G,B,N);u3(N,B,G)
u1(H,D,N);u2(D,H,N);u3(N,H,D) u1(B,D,N);u2(D,B,N);u3(N,B,D)
u1(H,G,S);u2(G,H,S);u3(S,H,G) u1(B,G,S);u2(G,B,S);u3(S,B,G)
u1(H,D,S);u2(D,H,S);u3(S,H,D) u1(B,D,S);u2(D,B,S);u3(S,B,D)
Le joueur 1 joue en lignes (H ou B), le joueur 2 joue en colonnes (G ou D) et le joueur 3 joue en matrices (N ou S).
4 M.BEAUD-UM1-LAMETA
Le dilemme des prisonniers est un jeu statique (car il se droule en une tape) information complte (chaque prisonnier connat les stratgies possibles de lautre et les peines encourues dans les quatre scnarios possibles), mais imparfaite (car chaque prisonnier na pas connaissance de la dcision de lautre au moment o il prend la sienne). Forme stratgique du dilemme des prisonniers: (i) Il existe deux joueurs: J=2 et N={1,2}. (ii) Chaque joueur dispose de deux actions possibles: Se taire (action T) ou dnoncer lautre (action D):
M.BEAUD-UM1-LAMETA
T Prisonnier 1 D
u1(T,T) ; u2(T,T)
u1(T,D) ; u2(D,T)
u1(D,T) ; u2(T,D)
u1(D,D) ; u2(D,D)
Soit:
T
Prisonnier 2
T Prisonnier 1 D
4 ; 4 5 ; 0
0 ; 5 1 ; 1
M.BEAUD-UM1-LAMETA
REMARQUES. On peut se reprsenter les jeux statiques ( information complte mais imparfaite) de la manire suivante: Les joueurs connaissent la forme stratgique du jeu. Ils sont isols et ne peuvent pas, sauf si les rgles du jeu le prcisent, communiquer entre eux (ni avant, ni pendant le jeu). Chaque joueur est face un pupitre sur lequel apparaissent des boutons. Chaque bouton engage une des actions possibles. Chaque joueur doit appuyer sur un des boutons. Deux hypothses importantes sont faites lorsque lon tudie un jeu en statique: Chaque joueur dispose dune information imparfaite car, au moment de prendre sa dcision, il ne connait pas les dcisions prises par les autres joueurs. Le jeu nest jou quune fois avec les mmes joueurs. La rptition dun jeu entre mmes joueurs nimplique pas ncessairement la rptition de lquilibre du jeu statique.
8 M.BEAUD-UM1-LAMETA
u1(P,P) ; u2(P,P)
u1(P,F) ; u2(F,P)
u1(F,P) ; u2(P,F)
u1(F,F) ; u2(F,F)
Soit:
p2 P p1 P
Joueur 2
(1-p2) F
1 ; -1
-1 ; 1
Joueur 1 (1-p1) F
-1 ; 1
1 ; -1
11
M.BEAUD-UM1-LAMETA
Stratgies mixtes dans le jeu pile ou face: j =(j(P), j(F))=(j(P), 1- j(P)) = (1-j(F), j(F)) o: j(P)+j(F)=1 et j=1,2. Pour simplifier, on pose: j =(pj ,1- pj). Les paiements associs une issue sont: Uj(j ,-j)= pj.uj(P, -j)+ (1-pj).uj(F, -j) = pj[p-j .uj(P,P)+(1-p-j)uj(P,F)]+(1-pj)[p-j .uj(F,P)+(1-p-j).uj(F,F)] Soit: U1(1,2) = p1[p2.1+(1-p2)(-1)]+(1-p1)[p2 (-1)+(1-p2)1] = p1(2.p2-1)+(1-p1)[1-2.p2] = 4. p1.p2-2. p1-2.p2+ 1. U2(2,1) = p2[p1(-1)+(1-p1)1]+(1-p2)[p1 .1+(1-p1).(-1)] = p2(1-2.p1)+(1-p2)[2.p1 -1) = -4. p2.p1 + 2.p1 +2.p2 -1 = -U1(1,2).
12 M.BEAUD-UM1-LAMETA
Dans les jeux statiques, qui par dfinition ne sont jous quune fois, on peut sinterroger sur la mise en uvre concrte dune stratgie mixte (non dgnre). Si effectivement le jeu nest jou quune fois, une stratgie mixte peut tre mise en uvre en construisant une urne contenant des tickets. On fixe la proportion de tickets spcifiant chaque action aj gale j(aj). Il sagit alors de tirer un ticket dans lurne et jouer laction inscrite. Dans le jeu pile ou face, un joueur j peut mettre en uvre la stratgie mixte j =( , ) en lanant une pice de monnaie quilibre. De plus, si un joueur joue plusieurs reprises un mme jeu statique, mais fait face, chaque coup, des joueurs diffrents ou inconnus, on peut se contenter dtudier le jeu statique et tendre les rsultats au jeu rpt (car il ny a pas dinteractions stratgiques entre les coups). Dans ce contexte, une stratgie mixte de ce joueur sinterprte comme la frquence avec laquelle il joue chacune des stratgies pures dont il dispose.
13 M.BEAUD-UM1-LAMETA
Par ailleurs, on peut interprter une stratgie mixte dun joueur comme la croyance des autres joueurs sur la stratgie quil adopte. Par exemple, dans le jeu de pile ou face, si le joueur 1 pense que le joueur 2 joue P une fois sur quatre (ou quil a une chance sur quatre de se trouver face un adversaire jouant toujours P), cela revient pour lui considrer quil joue contre un joueur adoptant la stratgie mixte 2 =(1/4 ,3/4). Il reste cependant problmatique de considrer une stratgie mixte dun joueur comme un objet de choix. En effet, si un joueur j anticipe que les autres joueurs vont adopter la stratgie -j , il peut calculer son paiement Uj(aj , -j) pour chacune des stratgies pures aj Aj dont il dispose. o De l, pourquoi le joueur j ne choisirait-il pas simplement la stratgie pure qui procure le paiement le plus fort? o Pourquoi mixer cette stratgie pure avec dautres procurant un paiement plus faible?
14 M.BEAUD-UM1-LAMETA
En effet, quelles que soient les stratgies des autres joueurs, une stratgie mixte dun joueur ne peut donner un paiement strictement meilleur quune stratgie pure. o Par exemple, dans le jeu pile ou face, si le joueur 1 pense que le joueur 2 joue 2 =(1/4 ,3/4), il sait quil obtiendra un paiement espr U1(1,2)= - p1. o Le paiement maximum de est obtenu en jouant la stratgie pure F (tandis que la stratgie pure P donne - ). o Toute stratgie mixte attribuant une probabilit strictement positive laction P donnerait un paiement strictement plus faible que .
THEOREME. Quelles que soient ses croyances sur les stratgies des autres joueurs, un joueur rationnel ne peut choisir une stratgie mixte (non dgnre) que lorsquil est indiffrent entre cette stratgie mixte et toutes les stratgies pures auxquelles la stratgie mixte attribue une probabilit strictement positive.
15 M.BEAUD-UM1-LAMETA
Dans le jeu pile ou face, si le joueur 1 pense que le joueur 2 joue la stratgie mixte 2 =( , ), il sait quil obtiendra un paiement espr U1(1,2)= 0 quel que soit 1. Dans ce cas particulier, le joueur 1 est indiffrent entre toutes les stratgies mixtes (dgnres ou non) dont il dispose. Cependant, comment justifier lemploi dune stratgie mixte pouvant tre complexe mettre en uvre, plutt quune simple stratgie pure, puisque le paiement est le mme? Nous verrons (section 2.6) que lutilisation de la stratgie mixte ( , ) peut tre justifie dans le jeu pile ou face, car elle permet chaque joueur de sassurer le paiement MaxiMin (gal 0). Nous verrons galement (section 2.7) que la combinaison de stratgies mixtes 1 = 2 =( , ), est le seul quilibre de Nash du jeu pile ou face.
16
M.BEAUD-UM1-LAMETA
DEFINITIONS. Pour un joueur j, la stratgie aj est strictement (resp. faiblement) domine lorsquelle est domine par au moins une stratgie mixte j telle que : uj(aj ,a-j) < (resp. ) Uj(j ,a-j) pour tout a-j A-j (resp. avec au moins une ingalit stricte) On dit galement que j domine strictement (resp. faiblement) aj.
17 M.BEAUD-UM1-LAMETA
DEFINITIONS. (suite) Lorsque, pour un joueur, une stratgie domine strictement (resp. faiblement) toutes les autres, on parle de stratgie strictement (resp. faiblement) dominante. Lorsque tous les joueurs adoptent une stratgie strictement (resp. faiblement) dominante, la combinaison de ces stratgies forme un Equilibre en Stratgies Strictement (resp. Faiblement) Dominantes, que lon notera ESSD (resp. ESFD).
REMARQUES. aj strictement domine => aj faiblement domine (rciproque fausse). aj strictement dominante => aj faiblement dominante (rciproque fausse). Un joueur peut avoir au plus une stratgie strictement dominante. Ainsi, lorsquun jeu admet un ESSD, il est unique. a* est un ESSD => a* est un ESFD.
18 M.BEAUD-UM1-LAMETA
Dans le jeu du dilemme des prisonniers, pour chaque joueur, la stratgie T est strictement domine par D :
Prisonnier 2 T D
T Prisonnier 1 D
4 ; 4
0 ; 5
ESSD
5 ; 0
1 ; 1
En effet, T procure un paiement toujours strictement plus faible que D (4<5 et 0<1). D est une stratgie strictement dominante pour chaque prisonnier. LESSD est donc {D;D} .
19 M.BEAUD-UM1-LAMETA
Le jeu du dilemme des prisonniers admet donc un ESSD dans lequel les prisonniers se dnoncent mutuellement (et cest lunique quilibre envisageable). Alors que cet quilibre repose sur lhypothse de rationalit des joueurs, on constate quil ne correspond pas une issue efficace au sens de Pareto. Cest dailleurs la seule des quatre issues possibles qui ne soit pas un optimum de Pareto. DEFINITIONS. Une issue a est Pareto-domine par lissue a*, si : uj(a* ) uj(a) pour tout j N (avec une ingalit stricte pour au moins un j). Une issue est un optimum de Pareto si elle nest Pareto-domine par aucune autre issue. Une issue est Pareto-dominante si toutes les autres issues sont Paretodomines par elle.
20 M.BEAUD-UM1-LAMETA
Puisque lissue {D;D} est strictement Pareto-domine par lissue {T;T}, chaque joueur devrait tre daccord pour cooprer en jouant T (puisque tous les joueurs seraient gagnants). Alors quil peut sembler, au premier abord, irrationnel daboutir lissue {D;D}, cest prcisment lhypothse de rationalit des joueurs qui implique quils jouent D. Le jeu du dilemme des prisonniers illustre ainsi le fait que des comportements individuels rationnels peuvent aller lencontre de lintrt collectif. On parle de dilemme car dun ct, chaque joueur trouverait sont intrt dans une coopration coordonne et simultane, mais dun autre ct, dvier unilatralement de cette dernire est profitable (ce qui induit des comportements de type passager clandestin).
21 M.BEAUD-UM1-LAMETA
On considre deux individus pouvant contribuer (action C) ou non (action N) lachat dun bien non-excludable (pour les deux). Pour chaque joueur, contribuer cote c>0 et rapporte g>0 tous les joueurs.
22
M.BEAUD-UM1-LAMETA
C Joueur 1 N
2g-c ; 2g-c
g-c ; g
g ; g-c
0;0
g<c
23
M.BEAUD-UM1-LAMETA
24
M.BEAUD-UM1-LAMETA
Acheter 10 units de bien priv et 0 units de bien collectif est une stratgie strictement dominante pour chaque joueur. Soit cj le montant investi par un joueur j dans le bien collectif. Soit C= c1 + c2 ++ c100 le montant total investi par les joueurs dans le bien collectif et C-j = C - cj le montant total investi par les autres joueurs que j. Le paiement du joueur j est: C+5(10 - cj)= C-j+50 - 4.cj. Quelle que soit la contribution des autres, il est clair que cj=0 donne un paiement strictement plus fort que toutes les autres stratgies dont dispose le joueur j (c..d. cj=1,2,,10). A lESSD personne ne contribue et chacun obtient 50 Euros.
25
M.BEAUD-UM1-LAMETA
A loptimum social utilitariste (o la somme des paiements est maximise), chaque joueur investit uniquement dans le bien collectif et chaque joueur obtient 1000 Euros. La somme des paiements scrit : C+5(10 c1)+ C+5(10 c2)+ C+5(10 c100) = 100C +5000 -5C = 95C+5000. Il est clair que C=1000 (soit cj=10) maximise ce paiement. Les comportements rationnels (individuels maximisateurs) conduisent une allocation des ressources nettement sous-optimale.
26
M.BEAUD-UM1-LAMETA
(ii) Chaque joueur dispose de deux stratgies possibles: soit il se restreint dans ses captures (stratgie R), soit il exploite la ressource au maximum (action E). Quatre issues sont possibles: (R;R), (R;E), (E;R) et (E;E). (iii) Le paiement dun joueur est donn par quantit de truites quil prlve: (2;2), (0;3), (3;0) et (1;1).
27 M.BEAUD-UM1-LAMETA
R Pcheur 1
2;2
0 ; 3
ESSD
3 ;0
1; 1
La situation est la mme que celle dcrite par le dilemme des prisonniers. Lissue du jeu est inefficace et la ressource commune est surexploite.
28
M.BEAUD-UM1-LAMETA
En fait, il y a dilemme des prisonniers chaque fois que lon est en prsence dune matrice des paiements de la forme suivante :
Joueur 2 G D
H Joueur 1
x;x
z;w
ESSD
w;z
y;y
Avec w>x>y>z, chaque joueur dispose dune stratgie strictement dominante (B et D car w>x et y>z) et lESSD {B;D} est strictement Pareto-domin par {H;G} (car x>y).
29
M.BEAUD-UM1-LAMETA
Beaucoup de problmes conomiques prsentent une forme stratgique similaire celle du dilemme des prisonniers: Course larmement nuclaire: o Chacun a intrt disposer dune capacit nuclaire plus forte que les autres afin de paratre plus fort. Au final, chacun dispose dune capacit nuclaire extrmement leve (donc coteuse) mais inutile (car seule la capacit relative compte). Lgalit des forces ne peut constituer un quilibre dans ce jeu, encore moins un niveau de capacit nuclaire bas. Rduction des missions de gaz effets de serre: o Les pays ont collectivement intrt rduire les missions, mais chacun prfre profiter des bienfaits des rductions des autres sans augmenter ses cots en rduisant les siennes. Coordination des plans de relance: o Les pays auraient intrt mettre en uvre un plan coordonn mais chacun souhaite profiter des effets bnfiques des plans des autres sans creuser son propre endettement.
30 M.BEAUD-UM1-LAMETA
Joueur 2
3;3;3
1;1;0
2 ; 5 ; -1
1;5;0
1;1;7
0;0;1
0;9;0
-1 ; 3 ; 1
Un joueur rationnel ne jouera jamais une stratgie strictement domine. Comme, dans ce cas particulier, le joueur na pas tenir compte des stratgies des autres, les hypothses de connaissance commune de la rationalit et dintelligence des joueurs sont inutiles pour prdire quil ne jouera pas une stratgie strictement domine. Si un jeu admet un ESSD et si les joueurs sont rationnels, on peut considrer que lESSD est lunique prdiction envisageable de lissue du jeu (cest galement un tat stable et cest le seul du jeu). Par contre, lhypothse de rationalit ninterdit pas que les joueurs jouent une stratgie qui est seulement faiblement domine. En effet, une stratgie faiblement domine peut tre une stratgie aussi rationnelle que la stratgie qui la domine faiblement face certaines combinaisons de stratgies des autres joueurs (car une stratgie faiblement domine est quivalente la stratgie qui la domine faiblement face au moins une combinaison possible des stratgies des autres joueurs, sinon elle serait strictement domine). Prcisons ce point.
32 M.BEAUD-UM1-LAMETA
DEFINITION. Pour un joueur j, la stratgie aj* est une meilleure rponse une combinaison de stratgies mixtes des autres joueurs -j ssi: Uj(aj* , -j) Uj(aj , -j) pour tout aj Aj et aj aj* . REMARQUES. Pour un joueur, une stratgie strictement domine nest une meilleure rponse aucune combinaison de stratgies des autres joueurs. Une stratgie strictement dominante est lunique meilleure rponse chaque combinaison possible de stratgies des autres joueurs. Une stratgie faiblement domine (et non strictement domine) peut tre une meilleure rponse face certaines combinaisons de stratgie des autres joueurs. Une stratgie faiblement dominante est une meilleure rponse chaque combinaison possible de stratgies des autres joueurs. Si un joueur dispose de plusieurs stratgies faiblement dominantes, elles sont ncessairement quivalentes en terme de paiements.
33 M.BEAUD-UM1-LAMETA
10 ; 10 0 ; 0 10 ; 0
3 ; 0 2 ; -1
0 ; 10 -1 ; 1 0 ; 0
ESFD
Joueur 1
M B
8 ; -1
Ce jeu nadmet pas dESSD. {B;D} est lunique ESFD du jeu. Mais notez galement que M et C sont strictement domines. DEFINITION. Aprs limination itrative des stratgies strictement domines dun jeu dans sa forme initiale, on obtient un jeu plus simple, appel jeu rduit. Le jeu rduit est parfaitement quivalent au jeu initial sous lhypothse de connaissance commune de la rationalit des joueurs.
34 M.BEAUD-UM1-LAMETA
Si la rationalit est connaissance commune, chaque joueur considre, en fait, le jeu rduit suivant:
G H Joueur 1 B Joueur 2 D
10 ; 10 10 ; 0
0 ; 10 0;0
Dans le jeu rduit toutes les stratgies sont quivalentes en terme de paiements. Pour le joueur 1 (resp. 2), H et B (resp. G et D) donnent le mme paiement face chacune des stratgies possibles du joueur 2 (resp. 1). Ainsi, toutes les issues du jeu rduit sont des tats stables du jeu (chacune correspond une combinaison de meilleures rponses) et peuvent tout fait tre joues par des joueurs rationnels.
35 M.BEAUD-UM1-LAMETA
Par contre, les paiements associs aux issues sont trs diffrents du point de vue de lefficacit. LESFD du jeu non rduit{B;D} est Pareto-domine par toutes les autres issues dans le jeu rduit. {H;G} est Pareto-dominante (toutes les autres issues sont Pareto-domines par elle). Contrairement au jeu du dilemme des prisonniers, lapparition dune issue Pareto-domine nest pas lunique prdiction possible du jeu. En fait, lissue {H;G}, car Pareto-dominante, est lissue la plus probable du jeu. On peut en effet penser que sils sont intelligents, les joueurs vont jouer {H;G}. Plutt que dessayer de sen convaincre en expliquant pourquoi cette issue sera joue, on peut se demander pourquoi des individus qui comprennent tout ce que lon vient dire sur ce jeu ne joueraient pas H et G ? Une bonne raison de ne pas jouer B et D est quelles condamnent lapparition de lissue Pareto-dominante.
36 M.BEAUD-UM1-LAMETA
Mme si les joueurs ne sont pas intelligents, la rptition de ce jeu ou la consultation dun expert devrait leur permettre dapprendre, et ils devraient finir par se coordonner sur {H,G}. On peut galement penser que, sils communiquent avant le jeu, les joueurs peuvent sentendre pour jouer {H,G}. Au moment de jouer, la rationalit ne les incitera pas dvier de lentente tacite car ils nont rien y gagner. Ce jeu est donc trs diffrent de celui du dilemme des prisonniers o lentente tacite nest pas un tat stable. Compte tenu de ces arguments, lESFD du jeu initial, i.e. {B;D}, ne peut tre considr comme une bonne prdiction de lissue du jeu. Dune manire gnrale, lESFD est un concept de solution manier avec prcaution.
37
M.BEAUD-UM1-LAMETA
Comme lESSD, lEEISSD est un concept de solution robuste dans le sens ou il correspond lunique prdiction de lissue du jeu. Il peut ne pas exister mais, sil existe, il est unique et cest le seul tat stable du jeu.
Toutefois, le concept dEEISSD na de sens que si lon suppose la connaissance commune de la rationalit. En effet, lorsque lon rsout un jeu par limination itrative des stratgies strictement domines, on suppose implicitement que les joueurs en font de mme. Alors, pour quun joueur puisse liminer une stratgie strictement domine du jeu rduit, il doit considrer que les autres joueurs sont rationnels et liminent galement les stratgies strictement domines. Lexemple suivant illustre une mise en uvre fructueuse (conduisant un quilibre) du processus dlimination itrative des stratgies strictement domines.
39 M.BEAUD-UM1-LAMETA
3 ; 1
EEISSD EEISSD
8 ; 0 2 ; 2 3 ; 1
1
2 ; 6 3 ; 0 4 ; 1
3
Joueur 1
M B
4 ; 3 3 ; 2
Le joueur 1 ne possde pas de stratgie strictement ou faiblement dominante. Ce jeu nadmet donc pas dESSD ou dESFD. Toutefois la stratgie C du joueur 2 est strictement domine par sa stratgie G (car 1>0, 3>2 et 2>1). Si le joueur 2 est rationnel, il ne jouera jamais C (Elimination 1).
40
M.BEAUD-UM1-LAMETA
Si le joueur 1 sait que le joueur 2 est rationnel, il considre le jeu rduit suivant:
Joueur 2
G H D
3 ; 1 4 ; 3 3 ; 2
2 ; 6 3 ; 0 4 ; 1
Joueur 1
M B
Le joueur 1 possde maintenant une stratgie strictement domine qui ne ltait pas dans le jeu initial. H est strictement domine par M (car 4>3 et 3>2). Si le joueur 1 est rationnel, il ne jouera jamais H (Elimination 2).
41
M.BEAUD-UM1-LAMETA
Si le joueur 2 sait que le joueur 1 est rationnel et sait que le joueur 1 sait que le joueur 2 est rationnel, il considre le jeu rduit suivant :
Joueur 2 G D
M Joueur 1 B
4;3 3;2
3;0 4;1
Le joueur 2 possde maintenant une stratgie strictement domine. D est strictement domine par G (car 3>0 et 2>1). Si le joueur 2 est rationnel, il ne jouera jamais D (Elimination 3).
42
M.BEAUD-UM1-LAMETA
Si le joueur 1 sait que le joueur 2 est rationnel, sait que le joueur 2 sait que le joueur 1 est rationnel et sait que le joueur 1 sait que le joueur 2 est rationnel, il considre le jeu rduit suivant:
Joueur 2 G
M Joueur 1 B
4 ; 3
3 ; 2
Le joueur 1 possde maintenant une stratgie strictement domine. B est strictement domine par M (car 4>3). Si le joueur 1 est rationnel, il ne jouera jamais B (Elimination 4). Lissue ainsi obtenue est{M;G}. Cest un EEISSD.
M.BEAUD-UM1-LAMETA
43
1 ; 0 2 ; 1
EEISSD
6 ; 4 2 ; 8 2 ; 2
2
5 ; 10 3 ; 0 7 ; 0
4
3 1
Joueur 1 M
B
6 ; 5
M est strictement domine par la stratgie mixte 1=(1(H), 1(M), 1(B)) =(, 0, ) car: 2 < .1 + 0.2 +.6 = 3,5 et 2 < .6 + 0.2 + .2 =4 et 3 < .5 + 0.3 +.7 = 6) (Elimination 1).
44 M.BEAUD-UM1-LAMETA
M est en fait strictement domine par toutes les stratgies mixtes 1=(p1, 0, 1-p1) telles que: 2<1.p1+6.(1-p1) et 2<6.p1+2.(1-p1) et 3<5.p1+7.(1-p1). Soit: p1<4/5 et 0<p1 et 0<p1<4/5. p1<4/3 Il est clair que B ne peut tre strictement domine. On peut montrer que cest galement le cas de H. Il sagit de trouver au moins une stratgie mixte 1=(0, p1, 1-p1) telle que: 1<2.p1+6.(1-p1) et 6<2.p1+2.(1-p1) et 5<3.p1+7.(1-p1). Impossible. C est strictement domine par la stratgie mixte 2= (2(G), 2(C), 2(D)) =(, 0, ) (4<.0+0.4+.10=5 et 2<.5+0.2+.0 =2,5) (Elimination 2). C est strictement domine par toutes les stratgies mixtes 2=(p2, 0, 1-p2) telles que: 4<0.p2+10.(1-p2) et 2<5.p2+0.(1-p2). Soit: p2<3/5 et 2/5<p2 2/5<p2<3/5. H est strictement domine par B (1<6 et 5<7), puis D est strictement domine par G (0<5) (Eliminations 3 et 4).
45
M.BEAUD-UM1-LAMETA
Comme nous lavons vu prcdemment, il est parfois difficile de justifier lutilisation dune stratgie mixte par un joueur c..d. comme un objet de choix. On peut alors sinterroger sur la pertinence de lEEISSD comme concept de solution lorsque lon limine des stratgies strictement domines uniquement par une ou des stratgies mixtes. Le thorme suivant tablit quil nest en fait pas ncessaire de considrer les stratgies mixtes pour pouvoir procder llimination itrative des stratgies strictement domines. THEOREME. Lorsque les ensembles des stratgies des joueurs sont finis, une stratgie pure aj nest une meilleure rponse aucune croyance du joueur j sur les stratgies des autres joueurs si et seulement si elle est strictement domine. Dans lExemple 7., largument permettant dliminer M est quelle nest une meilleure rponse aucune croyance du joueur 1 sur la stratgie du joueur 2.
46 M.BEAUD-UM1-LAMETA
0 ; 5 9 ; 0 10 ; 3
2 ; 5 2 ; 4 2 ; 8
8 ; 5 3 ; 6 3 ; 3
Joueur 1
M B
Aucun joueur ne dispose dune stratgie strictement domine. Toutefois, M est faiblement domine par B, et G est faiblement domine par C et D. Nous allons voir que selon lordre dans lequel les stratgies faiblement domines sont limines conduit identifier des issues diffrentes.
47
M.BEAUD-UM1-LAMETA
Scnario 1: limination de M, puis D (faiblement domine par C), puis H (faiblement domine par B), et enfin G (strictement domine par C). Lissue est{B,C}.
Joueur 2
G C D
3H 1 Joueur 1 M
B
0 ; 5 9; 0 10 ; 3
4
2;5 2 ; 4 2 ; 8
8 ; 5 3 ; 6 3 ; 3
2
Scnario 2: limination de G, puis B (faiblement domine par H), puis C (faiblement domine par D), et enfin M (strictement domine par H). Lissue est{H,D}.
Joueur 2
G H C D
0 ; 5 9; 0 10 ; 3
1
2;5 2 ; 4 2 ; 8
3
8 ; 5 3 ; 6 3 ; 3
4 2
Joueur 1 M
B
48 M.BEAUD-UM1-LAMETA
Scnario 3: limination de M, puis G et D (faiblement domines par C). Les issues sont{H,C} et {B,C}.
Joueur 2
G H C D
0 ; 5 9; 0 10 ; 3
2
2;5 2 ; 4 2 ; 8
8 ; 5 3 ; 6 3 ; 3
3
1 Joueur 1 M
B
Llimination itrative des stratgies faiblement domines nest gnralement pas une mthode satisfaisante pour rsoudre un jeu. Elle reste toutefois pertinente dans certain contextes.
49
M.BEAUD-UM1-LAMETA
DEFINITION.
Une stratgie aj du joueur j est rationalisable si elle est une meilleure rponse au moins une croyance du joueur j sur les stratgies des autres joueurs, et cette croyance doit spcifier des stratgies rationalisables aux autres joueurs. THEOREME. (vident) Si une stratgie aj du joueur j est strictement domine, elle nest pas rationalisable.
50 M.BEAUD-UM1-LAMETA
H M1
2;0 4 ; -2 -3 ; 5 2 ; -2
0;1 -1 ; 3 -1 ; 3 -1 ; -2
2;0 -3 ; 5 4 ; -2 -1 ; -2
-5 ; -2 -4 ; -2 -3 ; -2 -5 ; 8
Joueur 1
M2
Les meilleures rponses des joueurs sont identifies en soulignant les paiements dans la matrice. Par exemple, M1 est une meilleure rponse du joueur 1 G car: 42 (en jouant H) et 4-3 (en jouant M2) et 42 (en jouant B). De mme C2 est une meilleure rponse du joueur 2 M1 car: 5-2 (en jouant G) et 53 (en jouant C1) et 5-2 (en jouant D).
51 M.BEAUD-UM1-LAMETA
Pour le joueur 1, il est rationnel de jouer H sil pense que le joueur 2 va jouer C1. Croyance dordre 1. Le joueur 1 pense que le joueur 2 va jouer C1.
Le joueur 1 sait quil est rationnel pour le joueur 2 de jouer C1 si le joueur 2 pense que le joueur 1 va jouer H. Le joueur 1 joue H car Croyance dordre 2. Le joueur 1 pense que le joueur 2 pense que le joueur 1 va jouer H.
H est rationalisable (ncessairement C1 lest galement). Pour le joueur 2, il est rationnel de jouer C1 sil pense que le joueur 1 va jouer H. Croyance dordre 1. Le joueur 2 pense que le joueur 1 va jouer H.
Le joueur 2 sait quil est rationnel pour le joueur 1 de jouer H si le joueur 1 pense que le joueur 2 va jouer C1. Le joueur 2 joue C1 car Croyance dordre 2. Le joueur 2 pense que le joueur 1 pense que le joueur 2 va jouer C1.
52
M.BEAUD-UM1-LAMETA
Pour le joueur 1, il est rationnel de jouer M1 sil pense que le joueur 2 va jouer G. Croyance dordre 1. Le joueur 1 pense que le joueur 2 va jouer G.
Le joueur 1 sait quil est rationnel pour le joueur 2 de jouer G si le joueur 2 pense que le joueur 1 va jouer M2. Croyance dordre 2. Le joueur 1 pense que le joueur 2 pense que le joueur 1 va jouer M2. Pour le joueur 1, il est rationnel de jouer M2 sil pense que le joueur 2 va jouer C2. Le joueur 2 sait cela. Le joueur 1 sait que le joueur 2 le sait. Croyance dordre 3 : Le joueur 1 pense que le joueur 2 pense que le joueur 1 pense que le joueur 2 va jouer C2. o Finalement, pour le joueur 2, il est rationnel de jouer C2 sil pense que le joueur 1 va jouer M1. Croyance dordre 4: Le joueur 1 pense que le joueur 2 pense que le joueur 1 pense que le joueur 2 pense que le joueur 1 va jouer M1. M1, M2, G et C2 sont rationalisables.
o
53
M.BEAUD-UM1-LAMETA
Pour le joueur 1, il nest jamais rationnel de jouer B quelle que soit sa croyance sur le choix du joueur 2. En effet, B est strictement domine, notamment par la stratgie mixte: 1=(1(H),1(M1),1(M2),1(B))=(, , 0, 0) car: 2<.2+.4+0.(3)+0.2=3 et -1<.0+.(-1)+0.(-1)+0.(- 1)=- et -1<.2+.(3)+0.4+0.(-1)=- et -5<.(-5)+.(-4)+0.(-3)+0.(-5)=-9/2. B nest pas rationalisable. Pour le joueur 2, il est rationnel de jouer D uniquement sil pense que le joueur 1 va jouer B. Mais B nest pas rationalisable pour le joueur 1. Or B nest pas rationalisable. D nest pas rationalisable. Les stratgies rationalisables sont donc: H, M1, M2, G, C1 et C2. On peut remarquer que ce sont prcisment les stratgies qui survivent llimination itrative des stratgies strictement domines (aprs avoir limin B, D est strictement domine par C1). Ce nest pas un hasard. Le thorme suivant tablit que cest toujours le cas dans les jeux deux joueurs.
54
M.BEAUD-UM1-LAMETA
THEOREME. Pearce (1984) Dans les jeux deux joueurs, lensemble des stratgies rationalisables des joueurs se confond avec lensemble des stratgies qui rsistent llimination itratives des stratgies strictement domines. Dans les jeux plus de deux joueurs, les stratgies qui ne survivent pas llimination itrative des stratgies strictement domines ne sont pas rationalisables (comme dans les jeux deux joueurs), mais la rciproque est fausse. Ainsi, lensemble des stratgies rationalisables est inclus dans lensemble des stratgies qui survivent llimination itrative des stratgies strictement domines. Si lon affaiblit la notion de stratgie rationalisable, en supposant que les stratgies des joueurs peuvent tre corrles (et non plus indpendantes), le thorme sapplique aux jeux plus de deux joueurs. Lexemple suivant illustre ce point.
55
M.BEAUD-UM1-LAMETA
Exemple 10. Stratgies rationalisables et limination itrative des stratgies strictement domines dans un jeu plus de deux joueurs
G H Joueur 1 B Joueur 2 D G H B N2 N1 Joueur 3 S1 S2 H B Joueur 2 D
2;2;2 0;0;0
G Joueur 2
0;0;0 0;0;0
D
1;1;1 0;0;0
G Joueur 2
0;0;0 1;1;1
D
H Joueur 1 B
0;0;0 2;2;2
2;2;2 0;0;0
0;0;0 0;0;0
0;0;0 2;2;2
Aucun joueur ne possde de stratgie strictement domine. Les paiements associs aux meilleures rponses du joueur 3 ont t souligns.
56 M.BEAUD-UM1-LAMETA
Pour le joueur 3, la stratgie N2 nest une meilleure rponse aucune combinaison de stratgies indpendantes des autres joueurs -3 =(1, 2). N2 nest pas rationalisable.
Preuve. Les stratgies mixtes des joueurs 1 et 2 scrivent: 1=(1(H),1(B))=(p1,1- p1) et 2=(2(G),2(D))=(p2,1- p2). Face elles, les paiements du joueur 3 sont: U3(N1,1,2 )=2.p1. p2 , U3(N2,1,2 )=1.p1. p2+1.(1- p1)(1- p2) , U3(S1,1,2)=2.p1.(1- p2)+2.(1- p1).p2 et U3(S2,1,2)=2.(1- p1)(1- p2). N2 est une meilleure rponse -3, si et seulement si : (i) U3(N2,1,2 )U3(N1,1,2 ) et (ii) U3(N2,1,2)U3(S1,1,2 ) et (iii) U3(N2,1,2)U3(S2,1,2 ). Soit : (i) 1 p1+ p2 et (ii) 1 3.p1+3.p2-6.p1. p2 et (iii) p1+p2 1. (i) et (iii) impliquent 1= p1+ p2 . Avec (ii), il vient: (iiii) 0 1 - 3.p1+3. (p1) =f(p1). f est en forme de U, dc. sur[0;] puis crois. sur[;1] et admet un min f()= . (iiii) nest vrifie pour aucune valeur de p1 [0;1]. CQFD.
57 M.BEAUD-UM1-LAMETA
N2 nest pas rationalisable mais survit llimination itrative des stratgies strictement domines.
Preuve. Il est clair que les joueurs 1 et 2 nont aucune stratgie strictement domine. De plus, N1, S1 et S2 ne peuvent tre strictement domines. N2 est strictement domine sil existe au moins une stratgie mixte: 3=(3(N1),3(N2)=0,3(S1),3(S2))=(p3,0, q3,1-p3 -q3), telle que : (i) U3(N2,H,G)<U3(3,H,G), (ii) U3(N2,H,D)<U3(3,H,D) (iii) U3(N2,B,G)<U3(3,B,G), (iiii) U3(N2,B,D)<U3(3,B,D). Soit: (i) 1<U3(3,H,G)=p3.U3(N1,H,G)+q3.U3(S1,H,G)+(1-p3-q3).U3(S2,H,G)=2.p3 (ii) 0<U3(3,H,D)=p3.U3(N1,H,D)+q3.U3(S1,H,D)+(1-p3-q3).U3(S2,H,D)= 2.q3 (iii) 0<U3(3,B,G)=p3.U3(N1,B,G)+q3.U3(S1,B,G)+(1-p3-q3).U3(S2,B,G)= 2.q3 (iiii) 1<U3(3,B,D)=p3.U3(N1,B,D)+q3.U3(S1,B,D)+(1-p3-q3).U3(S2,B,D)=2.(1-p3-q3). Enfin, (i) implique p3 >, tandis que (ii) et (iii) sont identiques et impliquent q3>0. Ces deux conditions impliquent p3+q3 > et (iiii) implique p3+q3< . Impossible. CQFD.
58 M.BEAUD-UM1-LAMETA
Supposons maintenant que le joueur 3 considre que les stratgies des autres joueurs ne sont plus indpendantes mais corrles. Ainsi, il attribue des probabilits (dont la somme est gale 1) aux diffrentes combinaisons possibles de stratgies des autres joueurs. Tout ce passe alors comme si le joueur 3 faisait face un unique joueur jouant la stratgie mixte: -3=(-3(HG), -3(HD), -3(BG), -3(BD))=(x, y, z, 1-x-y-z). Le jeu est ainsi ramen un jeu deux joueurs. Le thorme sapplique et N2 est rationalisable pour le joueur 3.
Preuve. Face -3 , les paiements du joueur 3 sont: U3(N1, -3 )=2.x, U3(N2, -3 )=1.x+1.(1-x-y-z)=1-y-z , U3(S1, -3 )=2.y+2.z et U3(S2, -3 )=2.(1-x-y-z). N2 est une meilleure rponse -3 , si et seulement si : (i) U3(N2, -3 )U3(N1, -3) et (ii) U3(N2, -3 )U3(S1, -3) et (iii) U3(N2, -3)U3(S2, -3). Soit : (i) 1 2.x+y+z et (ii) y+z et (iii) 2x+y+z1. (i) et (iii) impliquent 2.x+y+z-1=0. Avec (ii), il vient x .
59 M.BEAUD-UM1-LAMETA
Preuve. (suite). Par exemple, -3*=(, 0, 0, ) vrifie toutes les contraintes. N2 est donc une meilleure rponse du joueur 3 -3* . Croyance dordre 1. Le joueur 3 pense que les autres joueurs vont jouer -3* . HG et BD sont des meilleures rponses N2 (elles donnent chacune un paiement de 1). Toute stratgie mixte corrle (x, 0, 0, 1-x) des joueurs 1 et 2 est ainsi une meilleure ponse N2. Donc, -3* est une meilleure rponse N2. Croyance dordre 2. Le joueur 3 pense que les autres joueurs pensent que le joueur 3 va jouer N2 . N2 et -3* sont rationalisables. N2 est rationalisable. Bien entendu, N2 survit lEISSD car la corrlation des stratgies des joueurs 1 et 2 naffecte pas la preuve dj dveloppe pour le dmontrer. CQFD.
60
M.BEAUD-UM1-LAMETA
8 ; 10 7;6
-100 ; 9 6;5
On pose: 1=(1(H),1(B))=(p1,1- p1) et 2=(2(G),2(D))=(p2,1- p2). Pour le joueur 1: U1(1,a2*)=Mina2 {G,D}{U1(1,a2)= p1.u1(H,a2)+(1-p1).u1(B,a2)} =Min{G,D}{U1(1,G)=7+p1 ; U1(1,D)=6-106.p1 }=U1(1 ,D)
U1(1,a2*)=U1(1,D)= 6-106.p1 (car pour tout p1 [0,1], 6-106.p1<
7+p1).
joue D). Ce paiement est maximum lorsque p1 =0. Sa stratgie prudente est donc 1* =(0,1), c..d. la stratgie pure B. Son paiement MaxiMin est s1 = U1(B,D) = 6.
62
M.BEAUD-UM1-LAMETA
Pour le joueur 2: U2(2 ,a1*)=Mina1{H,B}{U2(2 ,a1)= p2.u2(G,a1)+(1-p2).u2(D,a1)} = Min{H,B}{U2(2 ,H)= 9+p2 ; U2(2 ,B)=5+p2}=U2(2 ,B).
U2(p2 ,a1*)=U2(p2 ,B)=5+p2 (car pour tout p2 [0,1], 5+p2< 9+p2). Le joueur 2 sait quil obtiendra au pire 5+p2 (lorsque le joueur 1 joue
B). Ce paiement est maximum lorsque p2 =1. Sa stratgie prudente est donc 2* =(1,0), c..d. la stratgie pure G. Son paiement MaxiMin est s2 = U2(G,B) = 6.
On peut galement calculer le paiement MiniMax. DEFINITION. Le paiement MiniMax (ou paiement de punition) vj dun joueur j est le plus petit paiement auquel le joueur j peut tre contraint sil se dfend de manire optimal (en jouant une meilleure rponse aux stratgies des autres joueurs) : vj = Min-j A-j {Maxaj Aj {Uj (aj ,-j)}}.
63 M.BEAUD-UM1-LAMETA
Pour le joueur 1: Maxa1 {H,B} {U1 (a1 ,2)=p2.u1(a1 ,G)+(1-p2).u1(a1 ,D)} Max{H,B} {U1(H ,2)=108.p2 -100 ; U1(B ,2)=p2+6} = U1(H,2)=108.p2 -100>748/107 si p2 >106/107 U1(B ,2)=p2 +6<748/107 si p2 <106/107; et les deux si p2 = 106/107. Ce paiement est minimum lorsque p2 = 0 (le joueur 2 joue D). Le paiement MiniMax du joueur 1 est v1 = U1(B ,D)= 6. Pour le joueur 2: Maxa2 {G,D} {U2 (a2 ,1)=p1.u2(a2 ,H)+(1-p1).u2(a2 ,B)} =Max{G,D} {U2 (G ,1)=4.p1+6 ; U2 (D ,1)=4.p1+5} = U2 (G ,1)=4.p1+6 Ce paiement est minimum lorsque p1 = 0 (le joueur 1 joue B). Le paiement MiniMax du joueur 2 est v2 = U2 (G ,B)= 6.
64 M.BEAUD-UM1-LAMETA
On peut se demander pourquoi considrer les stratgies mixtes puisque, dans lExemple 10., on obtient des stratgies prudentes qui sont des stratgies pures. On aurait, en effet, pu dterminer les stratgies prudentes des joueurs plus simplement. Dans le pire des cas, le joueur 1 obtient -100 en jouant H, et 6 en jouant B. Sa stratgie prudente est B. Le joueur 2 obtient au pire 6 en jouant G, et 5 en jouant D. Sa stratgie prudente est G. o On retrouve les paiements MaxiMin s1= s2= 6. De mme pour les paiements MiniMax. Le joueur 1, obtient au mieux 8 face G et 6 face D. Le joueur 2, obtient au mieux 10 face H et 6 face B. Le plus petit de ces paiements est 6 pour les deux joueurs. o On retrouve les paiements MiniMax v1= v2= 6.
65 M.BEAUD-UM1-LAMETA
Lorsque lon cherche les stratgies prudentes dun joueur, on peut vrifier rapidement sil lon doit ou non considrer des stratgies mixtes. Il sagit alors de dterminer si, lorsque tous les autres joueurs adoptent des stratgies pures, le paiement MaxiMin du joueur est gal son paiement MiniMax. Si tel est le cas, on peut ignorer les stratgies mixtes car la stratgie prudente du joueur est ncessairement une stratgie pure (comme dans lExemple 10.). o Dun point de vue mathmatique, il sagit de dterminer si la fonction de paiement dun joueur admet un point selle. Dans la matrice des paiements dun jeu deux joueurs o seuls les paiements du joueur 1 apparaissent, il existe un point selle si un lment de cette matrice est la fois le plus petit lment dune ligne et le plus grand lment dune colonne. Lorsque, en stratgies pures, sj vj , alors sj nest pas le paiement de scurit du joueur j et vj nest pas son paiement de punition. On doit alors considrer les stratgies mixtes. Lexemple suivant illustre ce point.
66
M.BEAUD-UM1-LAMETA
Joueur 1
M B
En stratgies pures, les paiements MaxiMin et MiniMax du joueur 1 sont gaux: v1=s1=4. La stratgie prudente du joueur 1 est donc simplement B. En stratgies pures, le paiement MiniMax du joueur 2 est v2=3, son paiement MaxiMin est s2=2. La stratgie prudente du joueur 2 nest donc pas D. On doit alors considrer la possibilit pour le joueur 2 dadopter une stratgie mixte.
67 M.BEAUD-UM1-LAMETA
On peut remarquer que C est strictement domine par D. On peut lliminer. Soit 2=(2(G), 2(D))=(1- p2 , p2) une stratgie mixte du joueur 2. On peut calculer le paiement espr associ cette stratgie mixte face chacune des stratgies du joueur 1: U2(2 ,H) = 1+2.p2 , U2(2 ,M)=6-4.p2 et U2(2, B)=4.p2. On peut les reprsenter graphiquement, dans le repre: (p2 ; U2(2 ,a1)). Pour chaque stratgie mixte dont il dispose, c..d. chaque valeur de p2 , le joueur 2 envisage la pire rponse possible du joueur 1. On marque en gras les segments de droite les plus bas (o le paiement espr est le plus faible). Enfin, il choisit sa stratgie prudente de manire maximiser ce paiement minimum. Graphiquement, lorsque p2 =5/6. Son paiement de scurit est s2=v2=8/3=2,666 Sa stratgie prudente est 2=(1/6, 5/6).
68 M.BEAUD-UM1-LAMETA
Illustration graphique:
U2(2 ,a1) 6
3 2
69
M.BEAUD-UM1-LAMETA
On peut alors se demander sil est vraiment rationnel de jouer une stratgie prudente? Dans lExemple 11., la stratgie prudente du joueur 1 est B. Il sagit intuitivement dviter -100. Le joueur 1 ne peut obtenir -100 que si le joueur 2 joue la stratgie D . Or D est strictement domine. Pourquoi le joueur 1 ferait-il lhypothse que le joueur 2 va rigoureusement chercher minimiser son paiement? o Cette hypothse est ici particulirement paranode car le joueur 1 suppose que le joueur 2 est prt jouer une stratgie strictement domine pour minimiser son paiement (celui du joueur 1). o En fait, lorsquun joueur dtermine sa stratgie prudente, il ne considre aucunement les paiements des autres joueurs. Cest ce qui limite significativement la pertinence des stratgies prudentes. De plus, si les joueurs ont la possibilit de communiquer avant de jouer le jeu, ils vont sans ambigit sentendre pour atteindre lissue {H,G}, car cest lissue Pareto-dominante (contrairement au jeu du dilemme du prisonnier lentente tacite sur lissue Pareto-dominante est stable).
70 M.BEAUD-UM1-LAMETA
Ainsi, lutilisation des stratgies prudentes ne constitue pas une rgle gnrale pour la prise de dcisions en univers risqu. Lorsquun joueur dtermine sa stratgie prudente, il ne considre pas que ses adversaires jouent au hasard. Bien au contraire, il considre que ces derniers cherchent minimiser son paiement.
Dans lExemple 12., la stratgie prudente du joueur 2 est 2=(, ). Si le joueur 2 considre que le joueur 1 joue au hasard, il lui attribuera la stratgie mixte : 1=(1(H),1(M), 1(B)) =(, , ). Face cette stratgie: G, C et D, donnent respectivement: 7/3, 5/3 et 3. La meilleure rponse est D. La stratgie prudente donne seulement: 26/9<3. Adopter une stratgie prudente ne signifie donc pas considrer que ladversaire joue au hasard, mais plutt quil est capable de jouer contre vous mme ses dpens.
71 M.BEAUD-UM1-LAMETA
Dans certains jeux, les jeux deux joueurs et somme nulle, les stratgies prudentes des joueurs sont toujours rationnelles (sil est connaissance commune que les joueurs sont rationnels). En effet, si chaque joueur est rationnel, il va maximiser son paiement. Dans un jeu somme nulle, cela est quivalent minimiser le paiement de lautre. De plus le paiement MaxiMin dun joueur est ncessairement gal, au signe prs, au paiement MiniMax de lautre joueur: v1= s2 et v2= -s1. DEFINITION. Lorsque, s1 = v1 = -s2 = -v2 = V on dit que V est la valeur du jeu. THEOREME. Von Neumann (1928) Tout jeu fini deux joueurs et somme nulle une valeur.
72
M.BEAUD-UM1-LAMETA
P Joueur 1 F
1 -1
-1 1
Lorsque lon tudie un jeu deux joueurs et somme nulle, on fait gnralement apparatre uniquement les paiements du joueur 1. Cette matrice nadmet pas de point selle. En stratgies pures, v1=-1 et s1=1. Considrons les stratgies mixtes. Soit 1=(1(P), 1(F))=(p1 ,1- p1) une stratgie mixte du joueur 1. On peut calculer le paiement espr associ cette stratgie mixte face chacune des stratgies du joueur 2: U1(1 ,P) = 2.p1 -1 et U1(1 ,F)=1- 2.p1. Pour chaque joueur, la stratgie mixte j = (, ) est une stratgie prudente. La valeur de ce jeu est V=0.
73 M.BEAUD-UM1-LAMETA
Illustration graphique:
U1(1 ,a2) 1 U1(1 ,F)=1- 2.p1
s1=v1=0
-1
0 F
1/2
p1
1 P
74
M.BEAUD-UM1-LAMETA
REMARQUES. Une issue qui est un EN possde des proprits importantes: Elle est telle quaucun joueur ne regrette son choix lorsquil dcouvre celui des autres joueurs. Si un joueur prdit que les autres joueurs vont jouer un EN, il ne peut faire mieux que de le jouer galement. Lorsquune issue qui nest pas un EN merge, cela signifie quau moins un des joueurs sest tromp dans le sens o ses croyances concernant le choix des autres se rvlent fausses. Ainsi, il regrette son choix (ou plutt sa croyance) lorsquil dcouvre le choix des autres. LEN fait donc intervenir les croyances des joueurs concernant le choix des autres (les issues probables du jeu). Les joueurs forment des croyances et agissent rationnellement compte tenu de celles-ci. LEN est alors un ensemble de croyances et de stratgies dans lequel les croyances des joueurs sont compatibles avec leurs stratgies.
76 M.BEAUD-UM1-LAMETA
THEOREME. Si un jeu admet un EEISSD, cest ncessairement un EN et cest le seul quilibre de Nash du jeu (de mme pour un ESSD), car lensemble des EN est contenu dans lensemble des stratgies qui rsistent llimination itrative des stratgies strictement domines. (Lensemble des EN est galement contenu dans lensemble des issues rationalisables). LEN et lEEISSD sont pourtant des concepts trs diffrents. Un EEISSD est dduit de lhypothse de connaissance commune de la rationalit. On dtermine comment le jeu doit tre jou par des joueurs rationnels. Par contre, un EN est simplement un tat stable du jeu. On dtermine comment le jeu peut tre jou par des joueurs rationnels. On doit linterprter comme une condition minimale que tout concept de solution doit vrifier pour que lon puisse linterprter comme une prdiction de lissue dun jeu (ou comme une prescription aux joueurs).
77 M.BEAUD-UM1-LAMETA
En effet, imaginons une thorie qui prdirait (ou prescrirait) un quilibre qui ne soit pas un EN. o Au moins un joueur constate que la thorie lui prescrit une action qui nest pas optimale compte tenu de celles prescrites aux autres. Donc il ne la jouera pas. Donc la thorie ne dcrit pas son comportement. Les autres joueurs le savent. Ils ne suivent pas non plus la thorie. La thorie se dtruit dellemme. Toutefois, ce nest que lorsque quun jeu admet un unique EN que lon peut linterprter comme la prdiction de lissue du jeu. o Sinon, dautres arguments doivent tre avancs pour slectionner un EN en particulier.
Cependant, lunicit de lEN est lexception plutt que la rgle, et les jeux admettent typiquement plusieurs EN. La question de la slection entre les diffrents EN dun jeu est une question fondamentale et parfois difficile de la thorie des jeux. Les exemples suivants illustrent ce point.
78 M.BEAUD-UM1-LAMETA
2;2 0;0
0;0
EN
1;1
Ce jeu dcrit une situation dans laquelle les joueurs ont intrt se coordonner (faire le mme choix) et prfrent tous deux se coordonner sur A plutt que B. Il admet deux EN en stratgies pures: {A,A} et {B,B}. De plus, il admet un EN en stratgies mixtes. Voyons comment le trouver.
79 M.BEAUD-UM1-LAMETA
On commence par dterminer les meilleures rponses de chaque joueurs aux stratgies de lautre joueur. o Soit j=(j(A), j(B))=(pj ,1- pj) une stratgie mixte du joueur j. Les paiement esprs du joueur j, face une stratgie quelconque -j=(p-j ,1- p-j) du joueur -j, sont: Uj(A , -j)=2. p-j et Uj(B , -j)=1-p-j . De l, il vient: MRj(-j) = (1 , 0) si p-j > = (pj ,1- pj) si p-j = = (0 , 1) si p-j < . A lEN, on a: j* = MRj(-j*) et -j* = MR-j(j*) pour tout j. o En combinant ce deux relations, il vient: j* =MRj(MR-j(j*))=f(j*). o Formellement, dterminer un EN revient donc dterminer un point fixe de f.
80
M.BEAUD-UM1-LAMETA
Pour trouver tous les EN (en stratgies pures et en stratgies mixtes) du jeu, on peut raisonner comme suit: o Si p-j > , la meilleure rponse du joueur j est A, soit pj=1. Or face A, la meilleure rponse du joueur -j est A, soit p-j=1. Parmi toutes les stratgies mixtes telles que p-j > , seule la stratgie mixte dgnre p-j=1 est une meilleure rponse A : A=MRj(MR-j(A) ) et {A,A} est un EN. Si p-j < , la meilleure rponse du joueur j est B, soit pj=0. Or face B, la meilleure rponse du joueur -j est B, soit p-j=0. Parmi toutes les stratgies mixtes telles que p-j < , seule la stratgie mixte dgnre p-j=1 est une meilleure rponse B : B=MRj(MR-j(B) et {B,B} est un EN. Si p-j = , soit -j =(, ), toute stratgie mixte j= (pj ,1- pj) est une meilleure rponse du joueur j. Or p-j = est une meilleure rponse du joueur -j uniquement face j*= (, ) : (, )=MRj(MR-j(, )) et {j* ,-j* }={(, ),(, )} est un EN.
81
M.BEAUD-UM1-LAMETA
Illustration graphique:
p1 A 1 {A, A} 1* =MR1(2)
82
M.BEAUD-UM1-LAMETA
Nous avons vu prcdemment que pour quun joueur rationnel adopte une stratgie mixte, il doit ncessairement tre indiffrent entre cette stratgie mixte et toutes les stratgies pures auxquelles elle attribue une probabilit strictement positive. o o Cette proprit permet de trouver aisment les EN en stratgies mixtes. Si * est un EN en stratgies mixtes, on a ncessairement: Uj(*) = Uj(aj , -j*) pour tout j N, o aj est une des stratgies pures auxquelles j* attribue une probabilit strictement positive. Dans lExemple 12., si * est un EN en stratgies mixtes, on a ncessairement pour chaque joueur j : Uj(A , -j*)= 2. p-j* =1-p-j*= Uj(B , -j) p-j*= , Uj(*)= et * ={( , ), ( , )}.
83
M.BEAUD-UM1-LAMETA
Soulignons quen plaant un joueur en situation dindiffrence, on obtient une condition sur les stratgies mixtes des autres joueurs. Il en dcoule que, contrairement ce que lon pourrait croire, lEN en stratgies mixtes * ={( , ), ( , )}, la probabilit de jouer B est plus forte que celle de jouer A. o o Or, les deux joueurs prfrent se coordonner sur A. Lexplication est que si lun des joueurs jouait A avec une probabilit plus forte, lautre ne serait plus indiffrent. Il prfrerait en effet jouer A.
Si toutes choses gales par ailleurs, on augmente les gains associs lissue {A, A} (par exemple en les levant au carr), le phnomne saccentue (lEN en stratgies mixtes devient * ={(1/5, 4/5),(1/5 ,4/5)}.
84
M.BEAUD-UM1-LAMETA
Parmi les trois EN du jeu de coordination,{A,A} est lissue la plus probable car cest lissue Pareto dominante. o On peut invoquer, comme dans lExemple 5., la possibilit dune communication pralable entre les joueurs qui permettrait une entente tacite stable sur {A,A}, la rptition du jeu, la consultation dun expert, ou encore lintelligence des joueurs. LEN en stratgies mixtes semble ici peu pertinent. o Remarquons toutefois que la stratgie mixte ( , ) est ici une stratgie prudente pour chaque joueur (le paiement de scurit est ). Dans ce cas particulier, si chaque joueur adopte sa stratgie prudente, un EN est form. En consquence, les stratgies prudentes sont ici parfaitement rationnelles. Toutefois, leur emploi est peu vraisemblable.
85
M.BEAUD-UM1-LAMETA
A Joueur 1 B
2;1 0;0
0;0
EN
1;2
Ce jeu admet trois EN, deux EN en stratgies pures, {A,A} et {B,B}, et un EN en stratgies mixtes, * ={(, ),( , )}. Contrairement lexemple prcdent, il est ici difficile de slectionner un de ces trois EN, car le critre de Pareto est ici inoprant.
86 M.BEAUD-UM1-LAMETA
Dans la bataille des sexes, chaque joueur a intrt se coordonner avec lautre, mais le joueur 1 souhaite atteindre {A,A}, tandis que le joueur 2 souhaite atteindre {B,B} et ces deux issues sont des EN. Si les deux joueurs jouent la bataille des sexes pour la premire fois, il est difficile de prdire lissue du jeu. o Sans plus dinformations sur le jeu, il nest pas possible de prdire lequel des EN sera jou.
Dans ce cas, la slection dun quilibre en particulier ne peut sexpliquer que par des lments extrieurs au jeu stratgique. Ces lments relvent de la culture et de lexprience des joueurs, des normes ou conventions sociales quils ont intgres. Par exemple, le nom des stratgies peut avoir un effet focal. Si lon demande deux joueurs dannoncer un horaire exact, avec la promesse dtre rcompenss si leurs annoncent concident, lannonce 12h00 est plus focale que lannonce 10h42 .
87 M.BEAUD-UM1-LAMETA
On peut galement considrer lEN en stratgies mixtes * ={(,),(,)}. Cet EN dcrit un tat stable du jeu, dans lequel les croyances de chaque joueur sont cohrentes avec les stratgies adoptes par les autres joueurs et la stratgie adopte par chaque joueur est rationnelle compte tenu de ses croyances. o Contrairement lExemple 12., il ne correspond pas la combinaison de stratgies prudentes des joueurs (ici, les stratgies prudentes des joueurs 1 et 2 sont respectivement (,) et (,)). A lEN en stratgies mixtes, le comportement des joueurs est intuitivement satisfaisant, le joueur 1 joue plus souvent A que B car il prfre lissue {A,A}. De mme le joueur 2 joue plus souvent B que A car il prfre lissue {B,B}. o On peut remarquer que si les joueurs adoptent les stratgies mixtes dEN, les issues {A,A}et{B,B} apparaissent chacune avec une probabilit de 2/9. Les joueurs ont plus dune chance sur deux dobtenir 0 (5 chances sur 9). Lissue la plus probable est {A,B}.
88
M.BEAUD-UM1-LAMETA
Rouler Droite
1;1 0;0
0;0
EN
1;1
Ce jeu admet trois EN, deux EN en stratgies pures, {G,G} et {D,D}, et un EN en stratgies mixtes, * ={(, ),( , )}o toutes les issues sont quiprobables avec un paiement espr de . Les joueurs peuvent rsoudre se problme de coordination en adoptant une convention. Cet exemple illustre le fait que les conventions peuvent sensiblement contribuer lefficacit conomiques en permettant aux agents de se coordonner.
89 M.BEAUD-UM1-LAMETA
Mme lorsque lon peut appliquer le critre de Pareto et slectionner un des EN (lorsquil en existe plusieurs), il est parfois difficile daffirmer que lEN Pareto-dominant sera jou. Lexemple suivant, propos par Harsanyi et Selten (1988), illustre ce point.
9;9 8;0
0;8
EN
7;7
Ce jeu admet deux EN en stratgies pures, {A,A} et {B,B}, et un EN en stratgies mixtes, * ={(7/8, 1/8 ),(7/8, 1/8 )}. {A,A} est lissue Pareto dominante.
90 M.BEAUD-UM1-LAMETA
L quilibre {A,A} est-il vraiment la prdiction la plus raisonnable de lissue du jeu? Pour les deux joueurs, lquilibre {A,A} est attractif car il garantit le paiement maximal pour chacun. Cest lissue Pareto dominante. Si une communication pralable au jeu est possible, une entente tacite sur lissue {A,A} est stable (puisque cest un EN). Toutefois, B est une stratgie prudente pour chaque joueur (elle garantit un paiement de 7 quelle que soit la stratgie de lautre). Contrairement au jeu de lExemple 10., la combinaison des stratgies prudentes des joueurs forme un EN. Il est donc tout fait rationnel de jouer B. Le risque joue ici contre le critre de Pareto. Si un joueur pense quil y a plus dune chance sur huit pour que lautre joue B, alors il est rationnel de jouer B.
91 M.BEAUD-UM1-LAMETA
Chaque joueur pourrait galement remarquer son adversaire toujours intrt ce quil joue A. Mme aprs avoir conclu une entente tacite sur lissue {A,A}, chaque joueur peut penser que lautre veut simplement lamener jouer A, quelle que soit la stratgie quil a rellement lintention de jouer. En effet, comme face un joueur qui joue A, on obtient un paiement trs proche, 9 ou 8, en jouant respectivement A ou B, lerreur nest pas couteuse. Par contre cest trs coteux pour celui qui joue A et obtient 0. De plus si un joueur nest pas certain des paiements de son adversaire, et pense que les vritables paiements sont 8 et 9, en jouant respectivement A ou B, il peut trs bien se dire que lautre sengage jouer A alors quil va jouer B.
92
M.BEAUD-UM1-LAMETA
Joueur 1
M B
Ce jeu admet un unique EN en stratgies pures {M,C}, et deux EN en stratgies mixtes, {(,,),(,,)} et {(,0, ), (,0, )}. Lorsquun jeu admet un unique EN en stratgies pures, on peut se demander sil est vraiment ncessaire de considrer les stratgies mixtes. On peut considrer quil est plus focal.
93 M.BEAUD-UM1-LAMETA
Lorsque les joueurs disposent de plus de deux actions possibles, les jeux peuvent admettre plusieurs EN en stratgies mixtes. La tche est donc un peu plus lourde. Voici une manire de les trouver. On commence par chercher sil existe un EN en stratgies mixtes dans lequel chaque joueur attribue une probabilit strictement positive toutes ses stratgies pures: 1=(p1,q1,1-p1-q1) et 2=(p2,q2,1-p2-q2). si * est un EN en stratgies mixtes: o Le joueur 1 est indiffrent entre H, M et B si et seulement si: U1(H,2*)= U1(M,2*)= U1(B,2*) 3.p2=q2=3(1-p2-q2) => 2* =(,, ). o Le joueur 2 est indiffrent entre G, C et D si et seulement si: U2(G,1*)= U2(C,1*)=U2(D,1*) 3(1-p1-q1)= q1=3.p1=> 1* =(,, ).
94 M.BEAUD-UM1-LAMETA
Puis on cherche sil existe un EN en stratgies mixtes dans lequel le joueur 1 ne joue jamais B: 1=(p1,1-p1,0), avec 0<p1<1. o Si tel est le cas, le joueur 2 ne jouera jamais une stratgie mixte qui attribue une probabilit strictement positive toutes ses stratgies pures, car il ne peut tre indiffrent entre ses stratgies pures: 3(1-p1-q1)= q1=3.p1 nest jamais vrifie. Il sagit alors de trouver 1=(p1,1-p1,0) tel que le joueur 2 est indiffrent entre:
G~C : U2(G,1*)=U2(C,1*) => 0= 1-p1 => p1 =1 => impossible.
ou
G~D : U2(G,1*)=U2(D,1*) => 0=3.p1 => p1 =0 => impossible.
ou
C~D : U2(C,1*)=U2(D,1*) => 1- p1=3.p1 => 1*=(,,0).
Enfin, on cherche 2=(0,q2 ,1-q2), avec 0<q2<1 tel que : U1(H,2*)=U1(M,2*) => q2=0 => impossible.
95 M.BEAUD-UM1-LAMETA
Puis on cherche sil existe un EN en stratgies mixtes dans lequel le joueur 1 ne joue jamais M: 1=(p1,0,1-p1), avec 0<p1<1. o
Il sagit alors de trouver 1=(p1,0,1-p1) tel que le joueur 2 est indiffrent entre :
G~C : U2(G,1*)=U2(C,1*) => 3(1-p1)= 0 => p1 =1 => impossible. G ~D : U2(G,1*)=U2(D,1*) => 3(1-p1)=3.p1 => p1 = => 1*=(,0, ). C~D : U2(C,1*)=U2(D,1*) => 0 =3.p1 => p1 =0 impossible.
Enfin, on cherche 2=(p2 ,0,1-p2) tel que le joueur 1 est indiffrent entre H et B:
U1(H,2)=U1(B,2) => 3.p2=3(1-p2)=> p2 =
=> 2*=(,0, ).
96 M.BEAUD-UM1-LAMETA
On a montr que le joueur 1 (resp. 2) est indiffrent entre H et B (resp. G et D) lorsque 1*=(,0, ) et 2*=(,0, ). Mais les stratgies M et C ne sont jamais joues.Il reste montrer que 1* (resp. 2*) est une meilleure rponse 2* (resp. 1*). Face 2*, H, B et 1* donnent 3/2, tandis que M donne 0. 1* est une meilleure rponse 2*.
97
M.BEAUD-UM1-LAMETA
Finalement, on cherche sil existe un EN en stratgies mixtes dans lequel le joueur 1 ne joue jamais H: 1=(0,q1,1-q1), avec 0<p1<1. o Il sagit alors de trouver 1=(0,q1,1-q1). tel que : U2(G,1*)=U2(C,1*) => 3(1-q1)= q1 => q1 = => 1*=(0,, ) ou U2(G,1*)=U2(D,1*) => 3(1-q1)=0 => q1 =1 ou U2(C,1*)=U2(D,1*) => q1=0 . Enfin, on cherche 2=(p2 ,1-p2,0) ), avec 0<p2<1 tel que : U1(M,2)= U1(B,2) => 1-p2=0 => p2 =1 => impossible.
98 M.BEAUD-UM1-LAMETA
0 ; 0 ; 10 -5 ; -5 ; 0
-5 ; -5 ; 0 1 ; 1 ; -5
-2 ; -2 ; 0 -5 ; -5 ; 0
-5 ; -5 ; 0
EN
-1 ; -1 ; 5
99
M.BEAUD-UM1-LAMETA
Ce jeu admet deux EN en stratgies pures :{H,G,N} et {B,D,S}. Or {H,G,N} Pareto domine{B,D,S}. On pourrait donc penser quune communication pralable entre les joueurs leur permettrait datteindre {H,G,N}. Comme cest un EN, dvier unilatralement ne peut tre profitable. Toutefois, si le joueur 3 sengage jouer N, les joueurs 1 et 2 ont intrt sentendre et pour jouer B et D. Cette entente entre les joueurs 1 et 2 est stable puisque cest toujours une combinaison de meilleures rponses (quel que soit le choix du joueur 3). Sachant cela, le joueur 3 peut prfrer jouer S.
100
M.BEAUD-UM1-LAMETA
Nous venons de voir que les jeux admettent gnralement plusieurs EN. On peut galement se demander si un jeu admet toujours au moins un EN. Certain jeu nadmettent pas dEN en stratgies pures. Toutefois, le thorme suivant garantit lexistence dau moins un EN en stratgies mixtes. THEOREME. Nash (1951) Tout jeu fini admet au moins un EN en stratgies mixtes. Par exemple le jeu pile ou face (Exemple 2.) nadmet pas dEN en stratgies pures. Lunique EN du jeu est : * ={1* ,2*}= {( , ),( , )}.
101 M.BEAUD-UM1-LAMETA
Forme stratgique:
A T Agent NT Principal NA
W-C ; R-W-I 0 ; -I
W-C ; R-W W ; -W
Avec: W>C>0 et W>I>0, ce jeu nadmet pas dEN en stratgies pures. Le thorme de Nash nous garantit toutefois quil existe un EN en stratgies mixtes: Soit 1=(1(T), 1(NT))=(p1,1- p1) une stratgie mixte de lagent et 2=(2(A), 2(NA))=(p2,1- p2) une stratgie mixte du principal. Les paiement esprs de lAgent, face une stratgie quelconque 2 du principal, sont: U1(T, 2)=W-C et U1(NT, 2)= (1- p2)W. Les paiement esprs du principal, face une stratgie quelconque 1 de lAgent, sont: U2(A, 1)=p1(R-W)-I et U2(NA, 1)= p1.R-W.
103 M.BEAUD-UM1-LAMETA
De l, il vient: 1* =MR1(2) = (1 , 0) si p2 > C/W = (p2 ,1- p2) si p2 = C/W = (0 , 1) si p2 < C/W 2* =MR2(1) = (1 , 0) si p1 < (W-I)/W = (p2 ,1- p2) si p1 = (W-I)/W = (0 , 1) si p1 > (W-I)/W On peut utiliser le fait que si * est un EN en stratgies mixtes, on a ncessairement: U1(T , 2*)= W-C = (1- p2*)W =U1(NT , 2*) U2(A , 1*)= p1*(R-W)-I = p1*.R-W =U2(NA , 1*) p2*= C/W et p1*= (W-I)/W. * ={(1-I/W , I/W), (C/W , 1-C/W)}.
104 M.BEAUD-UM1-LAMETA
Illustration graphique:
p2 A 1 2*= MR2(1)
105
M.BEAUD-UM1-LAMETA
Ce jeu dagence dcrit une situation dans laquelle le principal toujours intrt ce que lagent travail. Mais lagent a intrt travailler uniquement sil est audit. Le principal doit donc inciter lagent travailler en lauditant. Toutefois, auditer cote cher et na quune vertu incitative. Considrons lexemple suivant: R=20, W=6, I=4 et C=2, la matrice des paiements est :
A T Agent NT Principal NA
4 ; 10 0 ; -4
4 ; 14 6 ; -6
Lanalyse prcdente a montr que lunique EN du jeu est * ={(,), (,)}. Les paiements esprs sont: U1(* )= 4 et U2(* )= .
106 M.BEAUD-UM1-LAMETA
Comme cet EN est unique, cest la seule prdiction possible de lissue du jeu. LEN est particulirement focal pour des joueurs intelligents (qui savent, au moins intuitivement, que ce jeu nadmet quun unique EN dans lequel les stratgies sont mixtes). Dans cet exemple, aucune autre issue ne peut tre soutenue, puisquaucune autre issue nest un EN. En effet, si un cours de thorie des jeux soutenait lissue {T,NA}. A la place de lagent, un tudiant ayant suivi le cours ne jouerait pas T, mais la meilleure rponse NA, c..d. NT. Sachant cela, il ne jouerait pas NA (mais A) la place du principal. La thorie se dtruit delle mme. Comme tout EN est une combinaison de meilleures rponses, si chaque joueur pense que les autres jouent cet quilibre, il ne peut faire strictement mieux que de jouer galement cet quilibre.
107
M.BEAUD-UM1-LAMETA
Deux entreprises se font concurrence en sur un march. La demande (inverse) est linaire p(q)=12-q, et les cots de production de chaque entreprise sont supposs identiques et normaliss zro: c(q)=0 Dans le duopole de Cournot, la variable stratgique du jeu est le niveau de production. Chaque entreprise dtermine sa production comme une meilleure rponse la production de lautre (fonctions de raction).
Equilibre de Cournot-Nash
12 MR1(q2)=6-[1/2]q2
6 4 EN 0 4 6 12 q1 MR2(q1)=6-[1/2]q1
0 ; 0 8 ; 12 9 ; 18
12 ; 8 16 ; 16 15 ; 20
EN
18 ; 9 20 ; 15 18 ; 18
q1
4 3