Maths Decision L 3 J Renault

Universite Toulouse 1 Capitole Toulouse School of Economics
L3 MASS 2012. cours J. Renault, TD F. Gensbittel

Mathematiques de la Decision
1
Table des matières
1 Theorie de la decision & representation des preferences 2
1.1 Alternatives, preferences et utilites . . . . . . . . . . . . . . . 2
1.2 Representation ordinale des preferences . . . . . . . . . . . . . 4
1.3 Representation cardinale des preferences et utilites von Neumann-
Morgenstern . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Un peu daggregation des preferences : le theorème dArrow . 6
2 Maximisation de fonctions dutilite 8
2.1 Preliminaires, rappels . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Distance à un ferme et projection sur un convexe ferme . . . . 10
2.3 Un peu doptimisation dynamique . . . . . . . . . . . . . . . . 11
3 Jeux à somme nulle 13
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Valeur et strategies optimales . . . . . . . . . . . . . . . . . . 15
3.3 Le theorème du minmax de von Neumann . . . . . . . . . . . 18
3.4 Jeux sous forme extensive . . . . . . . . . . . . . . . . . . . . 22
3.5 Jeux à information parfaite et theorème de Zermelo . . . . . . 27
3.6 Jeux stochastiques et equation de Shapley-Bellman. . . . . . . 28
4 Travaux Diriges 32
4.1 Exercices chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . . 32
(Plan indicatif)
1. Version : 16 janvier 2012
2 Maths de la Decision 2012 J. Renault
1 Theorie de la decision & representation des
preferences
Do` u viennent les fonctions dutilite ? Pourquoi maximise-ton souvent
lesperance dutilite ?
1.1 Alternatives, preferences et utilites
Rappels : Une relation binaire _ sur un ensemble A est denie par un en-
semble R inclus dans A A. Pour tous a et b dans A, on note a _ b si et
seulement si (a, b) R. Lensemble R sappelle le graphe de la relation _.
On dit que la relation binaire est :
reexive si : a A, a _ a.
symetrique si : a, b A, (a _ b) (b _ a).
antisymetrique si : a, b A, (a _ b et b _ a) = a = b.
asymetrique si : a, b A, a _ b = non (b _ a).
transitive si : a, b, c A, (a _ b et b _ c) = a _ c.
totale (ou complète) si : a, b A, a _ b ou b _ a.
Denition 1.1. Soit A un ensemble non vide appele ensemble dalternatives.
Une relation de preference sur A est une relation binaire _ sur A qui est
transitive et totale. On dit alors que T = (A, _) est un problème de decision.
Interpretation : On (quelquun, un agent, un joueur, un preneur de decision...)
doit choisir un element dans A. La relation _ represente les preferences de
cet agent. Si a et b sont 2 alternatives, on aime au moins autant a que b si
et seulement si a _ b.
Remarques : 1) On dit aussi que _ est une relation de preference ration-
nelle sur A. 2) pour tout a de A, on a la propriete : a _ a. Donc la relation _
est necessairement reexive. 3) On appelle preordre une relation binaire re-
exive et transitive. Une relation de preference est donc un preordre complet.
Exemples densembles d alternatives : A peut etre ni, [0, 1], IN (choix dune
date par exemple), IR
+
, IR
n
+
(panier de biens)... On peut aussi avoir A =
[0, 1]
= (a
1
, a
2
, ..., a
n
, ...), n a
n
[0, 1]. Un element a = (a
n
)
n1
est une
suite qui peut sinterpreter comme un ux de revenus : on va recevoir a
1
en
date 1, a
2
en date 2,..., a
n
en date n etc...
J.Renault Maths de la Decision 2012 3
Denition 1.2. Soit T = (A, _) un problème de decision. On denit egalement
les relations binaires ~ et sur A par : pour a et b dans A,
a ~ b non(b _ a),
a b (a _ b et b _ a).
On dit que ~ est la relation stricte associee à _, et que est la relation
dindierence associee à _.
Lemme 1.3.
1) La relation est une relation dequivalence sur A.
2) La relation ~ est transitive et asymetrique.
3) Pour tous a et b dans A, une et une seule des 3 proprietes suivantes
est veriee : soit (a ~ b), soit (b ~ a), soit a b.
4) Pour tous a, b, c dans A, on a :
Si a ~ b, alors a _ b et a ,= b.
Si a ~ b et b c, alors a ~ c.
Si a b et b ~ c, alors a ~ c.
Preuve :
Denition 1.4. Soit u une application de A dans IR. On dit que u est une
fonction dutilite qui represente _ si :
a A, b A, (a _ b) (u(a) u(b)) .
On dit aussi que u represente le problème T = (A, _).
Exemple : A = a, b, c, d, avec a _ a, b _ b, c _ c, d _ d, a _ c, a _ d,
b _ a, b _ c, b _ d, c _ a, c _ d. Plusieurs fonctions dutilite peuvent
representer les memes preferences.
Le lemme suivant montre le lien entre choisir une alternative selon _ et
maximiser une fonction dutilite representant _.
Lemme 1.5. Soient u une fonction dutilite representant le problème T =
(A, _), et a dans A. On a lequivalence entre :
(b A, a _ b) (u(a) = max
bA
u(b)).
Preuve :...
Remarque : une relation binaire qui ne serait pas transitive, ou pas totale,
ne pourrait pas etre representee par une fonction dutilite.
1.2 Representation ordinale des preferences
Si u est une fonction dutilite qui represente _ et que f : IR IR
est strictement croissante, alors f u est aussi une fonction dutilite qui
represente _. On a la reciproque suivante : quand on connait une fonction
dutilite representant T, on les connait toutes.
Lemme 1.6. Soient u et v deux fonctions dutilite representant le meme
problème T = (A, _). Alors il existe f : u(A) IR strictement croissante
telle que v = f u.
Preuve :
Ainsi, en general une relation de preference ne permet pas de mesurer lin-
tensite des alternatives, mais juste de comparer les alternatives entre elles.
Si a _ b et b _ c, on sait juste que a est preferee ` a b qui est preferee à c,
mais on ne sait pas si lecart entre a et b est plus ou moins important que
lecart entre b et c.
Est-il toujours possible de representer des preferences par une fonction
dutilite ?
Proposition 1.7. Un problème de decision T = (A, _), o` u A est ni ou
denombrable, peut etre represente par une fonction dutilite.
Preuve :
Contre-exemple : lordre lexicographique sur [0, 1]
2
...
On peut caracteriser les problèmes de decision pouvant etre representes
par une fonction dutilite.
Proposition 1.8. Un problème de decision T = (A, _) peut etre represente
par une fonction dutilite si et seulement si il existe un ensemble ni ou
denombrable B inclus dans A veriant : pour tous a
1
, a
2
dans A tels que
a
2
~ a
1
, il existe b dans B tel que a
2
_ b _ a
1
.
Preuve : H.P. (voir par exemple An introductory course on Mathematical
Game theory. J. Gonzalez-Diaz, I. Garcia-Jurado et M. Gloria Fiestras-
Janeiro. American Mathematical Society 2010. )
1.3 Representation cardinale des preferences et uti-
lites von Neumann-Morgenstern
Rappel : sous-ensemble convexe dun espace Euclidien, application ane.
Denition 1.9. Un problème de decision T = (X, _) est dit convexe si X
est un sous-ensemble convexe dun espace Euclidien. On dit alors que :
- les preferences sont independantes si pour tous x, y, z dans X et pour
tout t dans (0, 1], on a :
x _ y tx + (1 t)z _ ty + (1 t)z.
- les preferences sont continues si pour tous x, y, z dans X tels que
x ~ y ~ z il existe t (0, 1) tel que y tx + (1 t)z.
Remarque : on sest restreint ici à des convexes dans des espaces Euclidiens
mais cette denition peut bien s ur se generaliser ` a des ensembles convexes
X plus generaux.
Theorème 1.10. Soit T = (X, _) un problème de decision convexe à prefe-
rences independantes et continues. Alors on peut representer T par une fonc-
tion dutilite u : X IR ane.
De plus, si v est une autre fonction dutilite ane representant T, alors
v est une transformation ane strictement croissante de u, cest-à-dire quil
existe des reels > 0 et IR tels que pour tout x de X, v(x) = u(x) +.
Preuve : ...
On va maintenant appliquer ce resultat au cas o` u X est lensemble des
probabilites sur un ensemble ni.
Notation 1.11. Soit A un ensemble ni non vide. Une probabilite sur A
(muni de la tribu discrète) est notee x = (x(a))
aA
, avec x(a) 0 pour
chaque a de A et
aA
x(a) = 1. Etant donne x dans (A), x(a) est la
probabilite de a sous x , i.e. la probabilite que la lotterie x choisisse lelement
a. Lensemble des probabilites sur A est note (A) et vu comme un sous-
ensemble de IR
A
:
(A) = x = (x(a))
aA
IR
A
, a A x(a) 0 et
aA
x(a) = 1.
Comme A est ni, IR
A
est un espace Euclidien et (A) est un sous-ensemble
convexe compact de IR
A
. Cest un polytope, au sens de lenveloppe convexe
dun nombre ni de points, et meme un simplexe, cest-à-dire lenveloppe
convexe dun nombre ni de points anement independants.
Corollaire 1.12. Soient A un ensemble ni, et T = ((A), _) un problème
de decision convexe à preferences independantes et continues. Alors il existe
une application u : A IR qui represente _ au sens o` u : pour tous x et y
dans (A),
x _ y
aA
x(a)u(a)
aA
y(a)u(a).
On dit que u est une fonction dutilite von Neumann-Morgenstern representant
les preferences. De plus, si v est une autre fonction dutilite von Neumann-
Morgenstern representant T, alors v est une transformation ane stricte-
ment croissante de u, cest-à-dire quil existe des reels > 0 et IR tels
que pour tout a de A, v(a) = u(a) +.
Preuve : ...
Interpretation : avec une fonction dutilite vNM, on evalue les lotteries sur
A en fonction de leur esperance dutilite.
Exemple : choix entre (1 Million dEuros s ur) et (2 ME avec proba 1/2).
Lutilite nest pas forcement (et meme pas souvent) largent. St Petersbourg.
Paradoxe dAllais, Ellsberg...
1.4 Un peu daggregation des preferences : le theorème
dArrow
Soient un ensemble ni dalternatives A et une population N = 1, ..., n,
o` u chaque individu i de N a une preference _
i
sur A. On sinteresse ici à la
question suivante : comment est-il souhaitable daggreger ces preferences en
une seule preference _ representant la population?
On va supposer que les preferences individuelles sont non seulement des
relations binaires totales et transitives, mais aussi antisymetriques : ce sont
des ordres totaux, ou encore ordres lineaires.
Denition 1.13. Une relation de preference sur A est lineaire si elle est
antisymetrique. On note L lensemble des preferences lineaires sur A. Une
application de L
N
dans L sappelle une fonction de choix social.
Puisque A est ni, lensemble L lest egalement.
Denition 1.14. On denit les axiomes suivants pour une fonction de choix
social L.
Unanimite. Pour tout prol de preference s = (_
1
,,...,_
n
) dans L
N
,
pour tous a, b dans A : si pour tout i de N a _
i
b , alors aL(s)b.
Independance vis-à-vis des alternatives non pertinentes. Pour tous pro-
ls de preference s = (_
1
,...,_
n
) et s
= (_
1
,,...,_
n
) dans L
N
, pour tous a,
b dans A : si pour tout i de N on a (a _
i
b a _
i
b), alors (aL(s)b
aL(s
)b).
Dictatoriale. Il existe i dans N tel que pour tout prol de preferences
s = (_
1
,,...,_
n
), on a L(s) =_
i
.
Quelles sont les proprietes souhaitables pour L? Assurement les 2 pre-
miers axiomes, mais pas le troisième.
Theorème 1.15. Theorème dimpossibilite dArrow. Sil y a au moins 3
alternatives, toute fonction de choix social qui verie les axiomes dunanimite
et dindependance vis-à-vis des alternatives non pertinentes, est dictatoriale.
Preuve :....
2 Maximisation de fonctions dutilite
On sinteresse ` a des problèmes de maximisation :
sup
xX
u(x),
o` u u est une fonction (dutilite) de X dans IR. Nous allons nous interesser ici
` a certains aspects de ces problèmes, tandis que dautres aspects importants
(comme par exemple les conditions Karush-Kuhn-Tucker), sont traites dans
les cours doptimisation.
2.1 Preliminaires, rappels
Notation 2.1.
Argmax
X
u = x X, y X u(x) u(y).
Un element de Argmax
X
u sappelle un maximum de u sur X (on dit aussi
maximum global de u sur X). Une autre facon decrire que u a un maximum
sur X est decrire Argmax
X
u ,= .
Rem : maximiser u revient à minimiser u, donc il est facile de passer
dun resultat de maximisation à un resultat de minimisation.
Rappels : Espace metrique, fonctions continues, espace metrique complet, es-
pace metrique compact. Espace Euclidien : toutes les normes sont equivalentes,
les sous-ensembles compacts sont les fermes bornes. Espaces vectoriel normes,
Espaces de Hilbert.
Proposition 2.2. (Rappel) Si X est metrique compact et que u : X IR
est continue, alors u est bornee et atteint ses bornes : il existe x
dans X
tel que u(x
) = maxu(x), x X et il existe y
dans X tel que u(y
) =
minu(x), x X.
On va demontrer un resultat legèrement plus fort.
Denition 2.3. Soit X un espace metrique, et f une application de X dans
IR. On dit que lapplication f est semi-continue superieurement (s.c.s) si
pour tout > 0, lensemble x X, f(x) est ferme dans X. On dit que
lapplication f est semi-continue inferieurement (s.c.i) si pour tout > 0,
lensemble x X, f(x) est ferme dans X.
Lemme 2.4. Soit f une application dun espace metrique dans IR. f est
continue si et seulement si f est à la fois s.c.s et s.c.i.
Preuve : ...
Proposition 2.5. Si X est metrique compact et que u : X IR est semi-
continue superieurement, alors u est majoree et a un maximum sur X : il
existe x
dans X tel que u(x
) = maxu(x), x X.
Preuve : ...
Denition 2.6. Soit X un sous-ensemble convexe dun espace vectoriel reel,
et f une application de X dans IR.
1) f est ane si :
x X, y X, [0, 1], f(x + (1 )y) = f(x) + (1 )f(y).
2) f est concave si :
x X, y X, [0, 1], f(x + (1 )y) f(x) + (1 )f(y).
3) f est convexe si :
x X, y X, [0, 1], f(x + (1 )y) f(x) + (1 )f(y).
4) f est quasi-concave si :
x X, y X, [0, 1], f(x + (1 )y) minf(x), f(y).
5) f est quasi-convexe si :
x X, y X, [0, 1], f(x + (1 )y) maxf(x), f(y).
Lemme 2.7. Soit f une application dun ensemble convexe X dans IR.
1) f est ane si et seulement si f est à la fois convexe et concave.
2) f est concave si et seulement si son hypographe est convexe, i.e. ssi
(x, t) X IR, t f(x) est convexe.
3) f est quasi-concave si et seulement si pour tout reel , lensemble
x X, f(x) est convexe.
4) Si f est quasi-concave alors Argmax
X
f est convexe.
Preuve : ...
Lemme 2.8. Soit X convexe dun e.v.n., et f une application de X dans
IR. On dit que x
X est un maximum local de f sur X sil existe R > 0 tel

que f(x
) f(x) pour tout x de B(x
, R) X. Si f est concave et si x
est
un maximum local de f sur X, alors x
est un maximum global de f sur X.

Preuve : ...
Theorème 2.9. Rappel. Theorème de point xe pour les contractions (Pi-
card, Banach) : (X, d) metrique complet non vide, T : X X Lispchit-
zienne de rapport c [0, 1). Alors T a un unique point xe x
et pour tout
x
0
dans X, la suite (x
n
)
n
= (T
n
(x
0
))
n
CV vers x
à vitesse geometrique :
d(x
n
, x
) c
n
d(x
0
, x
) pour tout n 0.
2.2 Distance à un ferme et projection sur un convexe
ferme
On sinteresse maintenant ` a un problème doptimisation particulier :
- X est un ferme non vide dun espace Euclidien IR
n
,
- z est un point particulier de E (point ideal), et
- u(x) = |x z| pour tout x de X.
Maximiser u sur X revient ` a trouver le (les) points de X les plus près de z.
Proposition 2.10. Soit X un ferme non vide de IR
n
, |.| une norme sur IR
n
et z un point de IR
n
. Il existe un point de X le plus proche de z, cest-à-dire
quil existe x
dans X tel que |x
z| |x z| pour tout x de X.
Preuve : ...
Remarques : 1) x
nest pas forcement unique, 2) x
peut dependre de la
norme choisie. 3) Vrai aussi en remplacant |x z| par d(x, z) o` u d est une
distance sur IR
n
compatible avec la distance euclidienne.
Dans le theorème suivant, X est maintenant de plus suppose convexe, et
|x z| =
_
n
i=1
[x
i
z
i
[
2
est la norme euclidienne. On note < x, y > ou
x.y le produit scalaire
n
i=1
x
i
y
i
.
Theorème 2.11. Soit X un convexe ferme non vide de IR
n
, et z un point
de IR
n
. Il existe un unique point x
de X le plus proche de z pour la norme

Euclidienne. De plus, x
est caracterise par :

x
X, et : x X, < z x
, x x
> 0.
On dit que x
est le projete de z sur X.

Preuve : ...
Corollaire 2.12. Separation dun convexe ferme et dun point en dimension
nie. Soit X un convexe ferme non vide de IR
n
, et z un point de IR
n
X. Il
existe une forme lineaire f sur IR
n
telle que :
max
xX
f(x) < f(z).
Preuve : Posons f(x) =< zx
, x > pour tout x de IR

n
. Alors f est lineaire,
et pour tout x de X :
(z x
).x (z x
).x
< (z x
).z
2.3 Un peu doptimisation dynamique
Soit (X, d) un espace metrique compact, et E = X
= (x
t
)
t1
, t x
t

X lensemble des suites ` a valeurs dans X. On denit :
x = (x
t
)
t1
E, y = (y
t
)
t1
E, d
(x, y) =
t=1
1
2
t
d(x
t
, y
t
).
Theorème 2.13. (E, d
) est un espace metrique compact. Etant donnes x
,
x
1
, x
2
,..., x
n
,... dans E, on a lequivalence :
x
n
n
x
dans (E, d
) t 1, [x
n
t
x
t
[
n
0.
Preuve : ...
Soit maintenant G un sous-ensemble compact de XX. Lidee est de voir
X comme un ensemble detats possibles dun système ou dune economie, et
si letat ` a une date t est un element x de X alors on peut choisir comme etat
de date t + 1 tout element y de X tel que (x, y) G. On suppose que pour
tout x de X, il existe y dans X tel que (x, y) G.
Denition 2.14. Une partie detat initial u
1
est une suite x = (x
1
, ..., x
t
, ..., )
dans E telle que (x
t
, x
t+1
) G pour tout t 1. On dit aussi que x est une
politique issue de x
1
. Lensemble des parties detat initial x
1
se note (x
1
),
cest un sous-ensemble de E.
Theorème 2.15. Soit X metrique compact non vide et G un sous-ensemble
compact de XX tel que : x X, y X t.q. (x, y) G. Soit u : X IR
continue et (0, 1] un taux descompte. Alors ((x
1
), d
) est un espace
metrique compact, et pour tout etat initial x
1
le problème :
max
x(x
1
)
t=1
(1 )
t1
u(x
t
)
a un maximum, cest-à-dire quil existe une politique x
issue de x
1
t.q. :
x (x
1
),
t=1
(1 )
t1
u(x
t
)
t=1
(1 )
t1
u(x
t
).
Preuve : ...
3 Jeux à somme nulle
3.1 Introduction
Un jeu à somme nulle est un jeu ` a 2 joueurs (souvent appeles joueur 1 et
joueur 2) telle que la somme des paiements vaut zero : toute somme recue
par le joueur 1 est payee par le joueur 2. Ces jeux representent les interac-
tions strategiques entre 2 joueurs ayant des interets complètement opposes
(le conit est total, il ny a pas de cooperation possible). Dans ce cours on
ne sinteressera pas aux autres types de jeux (jeux ` a somme non nulle).
Considerons par exemple le jeu :
G D
H
B
_
(5, 5) (1, 1)
(2, 2) (1, 1)
_
.
Linterpretation est la suivante. Simultanement, le joueur 1 choisit une ligne
de la matrice et le joueur 2 choisit une colonne de la matrice. Ces choix
determinent une case de la matrice et donc un vecteur (x, y) : le joueur 1
recoit alors x et le joueur 2 recoit y. Le but de chaque joueur est de maximiser
la somme quil recoit. Cette description est connue des 2 joueurs.
Nous allons nous interesser aux questions suivantes. Comment peut-on
denir ce que veut dire bien jouer (ou jouer de facon rationnelle) ? Existe
til toujours des facons de jouer rationnelles ? Peut-on denir un prix pour le
jeu, au sens de la somme equitable que le joueur 1 devrait payer au joueur 2
pour avoir le droit de jouer ?
Un autre exemple est le suivant, appele Matching Pennies :
G D
H
B
_
(1, 1) (1, 1)
(1, 1) (1, 1)
_
.
Imaginez que vous deviez ecrire un programme informatique qui joue (en
tant que joueur 1) ` a ce jeu, et que ce programme est destine à etre dispo-
nible en ligne sur internet o` u tout le monde peut venir jouer, eventuellement
plusieurs fois, pour des paiements de 1 euro. Comment ecririez-vous un tel
programme ?
Meme question pour le jeu :
G D
H
B
_
(2, 2) (1, 1)
(1, 1) (1, 1)
_
Denition 3.1. Un jeu à somme nulle G est donne par 2 ensembles non
vides I et J et une application g : I J IR.
On note G = (I, J, g), lensemble I sappelle lensemble dactions (ou de
strategies) du joueur 1, lensemble J sappelle lensemble dactions (ou de
strategies) du joueur 2 et g sappelle la fonction de paiement du joueur 1.
Linterpretation est la suivante : simultanement, le joueur 1 choisit i dans
I et le joueur 2 choisit j dans J. Puis le joueur 1 recoit la somme g(i, j) et le
joueur 2 recoit la somme g(i, j) (cest-` a-dire que le joueur 2 paye la somme
g(i, j) au joueur 1). Le but de chaque joueur est de maximiser la somme
quil recoit. Le jeu G et cette description sont connues des 2 joueurs. Dans
la denition 3.1, on dit aussi que G est une jeu ` a somme nulle sous forme
normale ou encore sous forme strategique (simultane en un coup), nous
verrons plus tard des cas de jeux ` a somme nulle sous forme extensive (o` u il
y aura une dynamique explicite dans linteraction).
Remarque : le jeu na pas vraiment besoin detre simultane, ce qui est im-
portant cest que le joueur 1 (resp. joueur 2) ne connaisse pas laction de son
adversaire au moment de choisir la sienne.
Denition 3.2. Quand I = 1, ..., n et J = 1, ..., p sont des ensembles
nis, on dit que le jeu à somme nulle G est ni, ou encore que G est un
jeu matriciel. Un tel jeu peut se representer simplement par la matrice A =
(a
i,j
)
n,p
dans IR
np
avec a
i,j
= g(i, j) pour tous i et j.
Par exemple, Matching Pennies peut se representer par la matrice :
_
1 1
1 1
_
.
Reciproquement, toute matrice reelle peut se voir comme un jeu à somme
nulle.
3.2 Valeur et strategies optimales
On xe ici un jeu ` a somme nulle G = (I, J, g). Que veut dire bien jouer
dans G? Dun cote, le joueur 1 veut maximiser g(i, j), mais il contr ole la
variable i et pas j. De lautre c ote, le joueur 2 veut minimiser g(i, j), mais il
contr ole j et pas i. On utilise dans la suite la notation IR = IR+, .
Denition 3.3. Soit x dans IR. Le joueur 1 garantit x sil peut jouer de
facon à sassurer que son paiement sera au moins egal à x, cest-à-dire sil
existe i dans I tel que : j J, g(i, j) x.
Le joueur 1 garantit toujours , et ne garantit jamais +. Soit i
dans I. Si le joueur 1 joue laction i, il est s ur de gagner, quoi que fasse le
joueur 2, au moins inf
jJ
g(i, j) IR (Rappel : inf
jJ
g(i, j) IR si
g(i, j), j J est minore, et inf
jJ
g(i, j) = sinon). Donc le joueur 1
garantit inf
jJ
g(i, j).
Denition 3.4. On denit la valeur inferieure du jeu G comme :
= sup
iI
inf
jJ
g(i, j) IR.
Par exemple dans Matching Pennies, on a = 1. En general, si < +
alors pour tout > 0, le joueur 1 peut garantir . Si = + la vie est
belle pour le joueur 1, car pour tout reel x il peut jouer de facon à gagner au
moins x. A linverse si = , alors inf
jJ
g(i, j) = pour chaque i de
I, et le joueur 1 ne garantit rien dautre que .
Remarque (autre interpretation) : on utilise aussi les jeux ` a somme nulle
pour representer des situations o` u il y a un seul joueur contre la nature.
Le joueur doit choisir i dans I, mais ne connait pas letat de la nature j et
veut maximiser son paiement dans le pire cas (joueur prudent). Il va donc
maximiser inf
j
g(i, j), et la valeur de ce problème doptimisation est .
On denit de meme les notions duales pour le joueur 2.
Denition 3.5. Soit x dans IR. Le joueur 2 garantit x sil peut jouer de
facon à sassurer quil ne paiera pas plus que x au joueur 1, cest-à-dire sil
existe j dans J tel que : i I, g(i, j) x. Et on denit la valeur superieure
du jeu comme :
= inf
jJ
sup
iI
g(i, j) IR.
Le joueur 2 peut toujours garantir +, et jamais . En jouant une
action j dans J, il est s ur quil ne paiera pas plus au joueur 1 que sup
iI
g(i, j)
(son propre paiement sera au moins sup
iI
g(i, j)), et donc le joueur 2
garantit sup
iI
g(i, j). Si > , alors pour tout > 0 le joueur 2 garantit
+ . Dans Matching Pennies, on a = 1. Dans le jeu
_
1 1
2 0
_
, on a
= 0.
Lemme 3.6.
.
Preuve : Pour tous i dans I et j dans J, on a : g(i, j) inf
j
J
g(i, j
). En
prenant le sup en i de chaque cote, on obtient que pour tout j de J, on a :
sup
iI
g(i, j) . En prenant maintenant linf en j, on arrive ` a : .
Remarque 3.7. Dans cette remarque, et dans cette remarque uniquement,
on considère des modications du timing du jeu. Considerons une première
variante o` u : le joueur 1 commence par choisir i dans I, puis i est annonce
au joueur 2 qui choisit ensuite j dans J puis nalement paye g(i, j) au joueur
1. Il semble naturel de penser que lissue rationnelle de ce nouveau jeu est
. Considerons maintenant une seconde variante o` u cest le joueur 2 qui joue
en premier : il commence par choisir j dans J, puis j est annonce au joueur
1 qui choisit ensuite i dans I et recoit le paiement g(i, j). Lissue rationnelle
de la seconde variante correspond naturellement à .
Le lemme 3.6 arme que le joueur 1 prefère la seconde variante, et que
le joueur 2 prefère la première variante. Dans un jeu à somme nulle il est
desavantageux de jouer en premier, ce qui est assez intuitif.
On revient dans la suite à linterpretation o` u le jeu est joue simultanement.
On denit maintenant les principaux concepts de solutions pour les jeux
` a somme nulle.
Denition 3.8. Le jeu à somme nulle G = (I, J, g) a une valeur si = ,
i.e. si :
sup
iI
inf
jJ
g(i, j) = inf
jJ
sup
iI
g(i, j).
Dans ce cas = sappelle la valeur du jeu G, notee souvent v = = .
Si G a une valeur v, v correspond à lissue rationnelle du jeu, au sens de
la somme equitable que le joueur 1 devrait payer au joueur 2 pour avoir le
droit de jouer une fois au jeu G. La valeur v peut donc etre vue comme un
prix pour le jeu G. Si v IR, on a :
> 0, i I, j J, g(i, j) v ,
> 0, j J, i I, g(i, j) v +.
Denition 3.9. On suppose que G a une valeur v. Soit 0.
Une action i dans I veriant : j J, g(i, j) v sappelle une
strategie -optimale du joueur 1 dans G.
Une action j dans J veriant : i I, g(i, j) v + sappelle une
strategie -optimale du joueur 2 dans G.
(lorsque = 0, on dit plus simplement optimale au lieu de 0-optimale.)
Fait : Quand G a une valeur alors pour tout > 0 chaque joueur a une
strategie -optimale.
Example 3.10. Soit G = (IN, IN, g), o` u g(i, j) = 1/(j + 1) pour tout (i, j)
dans IN IN. Le paiement ne depend ici que de laction du joueur 2. On a
= 0 = , donc le jeu a une valeur qui est 0. Toutes les strategies du joueur
1 sont optimales, et le joueur 2 na pas de strategie optimale.
Remarque : il nest pas exclu que le jeu ait une valeur v = +ou v = .
Dans ces cas o` u [v[ = , un des joueurs na pas de strategie optimale, et
toutes les strategies de lautre joueur le sont. Quand G est ni, alors g est
bornee et on ne peut pas avoir [v[ = +.
Notation 3.11. On note O
1
(resp. O
2
) lensemble des strategies optimales
du joueur 1 (resp. joueur 2) dans G. Si G na pas de valeur, aucun des joueurs
na de strategie optimale et O
1
= O
2
= .
O
1
I et O
2
J. Si G a une valeur et que les joueurs ont des strategies
optimales, on considère souvent que bien jouer dans G signie jouer une
strategie optimale.
Denition 3.12. Soit (i, j) dans I J. (i, j) est un point-selle (ou equilibre)
de G si et seulement si :
i
I, j
J, g(i
, j) g(i, j) g(i, j
).
Proposition 3.13.
1) Soit (i, j) dans I J. (i, j) est un couple de strategies optimales si et
seulement si cest un point-selle de g.
(i O
1
et j O
2
) (i
I, j
J, g(i
, j) g(i, j) g(i, j
)) .
2) Soit v dans IR. (Le jeu G a une valeur qui est v, et chaque joueur a
une strategie optimale) si et seulement si :
(i I, j J, g(i, j) v) et (j J, i I, g(i, j) v).
3) Si G a une valeur v et que (i, j) est un couple de strategies optimales
dans G, alors g(i, j) = v.
Insistons sur le fait quil peut y avoir plusieurs strategies optimales, mais
la valeur, quand elle existe, est unique.
Preuve de la proposition 3.13 : ...
3.3 Le theorème du minmax de von Neumann
Dans Matching Pennies (ou le Penalty), = 1 < 1 = . Cela dit, il
peut sembler logique pour le joueur 1 de choisir sa ligne aleatoirement selon
la probabilite uniforme (1/2 pour H, 1/2 pour B) et pour le joueur 2 de
choisir sa colonne aleatoirement selon la probabilite uniforme (1/2 pour G,
1/2 pour D).
_
1 1
1 1
_
.
On va maintenant generaliser cette idee, en autorisant les joueurs à choisir
leurs actions aleatoirement selon des lotteries independantes. On considère
alors que chaque joueur veut maximiser lesperance de ses paiements (voir le
corollaire 1.12 pour une justication partielle).
Denition 3.14. Soit G = (I, J, g) un jeu ni, o` u I = 1, ..., n et J =
1, ..., p. Lextension mixte de G est le jeu à somme nulle

G = ((I), (J), g)
o` u :
(x, y) (I) (J), g(x, y) = IE
xy
(g) =
n
i=1
p
j=1
x
i
y
j
g(i, j).
Un element de (I) sappelle une strategie mixte du joueur 1 dans G, un
element de (J) sappelle une strategie mixte du joueur 2 dans G. Si

G a
une valeur, on dit que G a une valeur en strategies mixtes. Si x (resp. y)
est une strategie optimale du joueur 1 (resp. joueur 2) dans

G, on dit que
x (resp. y) est une strategie mixte optimale du J1 (resp. J2) dans G (on dit
aussi que x, resp. y, est une strategie mixte optimale dans

G).
Rappelons que
(I) = x = (x(i))
iI
IR
I
+
,
iI
x(i) = 1 et
(J) = y = (y(j))
jJ
IR
J
+
,
jJ
y(j) = 1.
Un element i de I est assimile à la strategie mixte
i
(mesure de Dirac sur
i), et est maintenant appele strategie pure du joueur 1. De meme un element
j de J est assimile à la strategie mixte
j
et appele strategie pure du joueur
2. Une strategie pure est donc un cas particulier de strategie mixte. g est
lextension ane de g sur (I) (J), rapidement on oublie le tilde et on
note g(x, y) =
n
i=1
p
j=1
x
i
y
j
g(i, j).
Lemme 3.15. Si G a une valeur (en strategies pures), alors G a une valeur
en strategies mixtes et cest la meme. Si i I est une strategie optimale du
joueur 1 dans G, alors i est egalement une strategie optimale du joueur 1
dans

G. De meme si j J est une strategie optimale du joueur 2 dans G,
alors j est egalement une strategie optimale du joueur 2 dans

G.
Preuve : ...
Quand il ny a pas de valeur en strategie pure, on peut obtenir une valeur
(et donc un prix) en passant aux strategies mixtes.
Theorème 3.16. Theorème du Minmax de von Neumann
Soit G = (I, J, g) un jeu à somme nulle ni. Alors lextension mixte de G
a une valeur, et les deux joueurs y ont des strategies optimales. Autrement
dit, G a une valeur en strategies mixtes, et les deux joueurs ont des strategies
optimales mixtes. On a :
min
y(J)
max
x(I)
g(x, y) = max
x(I)
min
y(J)
g(x, y).
On peut aussi donner une version matricielle du theorème du minmax, o` u
les vecteurs de (I) et (J) sont vus comme des matrices lignes. Le produit
matriciel xA
t
y est alors egal au paiement espere
n
i=1
p
j=1
x
i
y
j
a
i,j
.
Version matricielle du theorème du minmax : Soit A = (a
i,j
)
n,p
une
matrice reelle ` a n lignes et p colonnes. Alors :
min
y(J)
max
x(I)
xA
t
y = max
x(I)
min
y(J)
xA
t
y.
Ce nombre se note val(A) et sappelle la valeur de la matrice A.
Preuve du theorème 3.16 : Nous allons utiliser la separation dun convexe
ferme et dun point en dimension nie (voir le corollaire 2.12). ...
Lapplication (A val(A)) est continue de IR
np
dans IR mais on peut
montrer quelle nest pas dierentiable.
On peut caracteriser les strategies optimales mixtes.
Proposition 3.17. 1) Soit G = (I, J, g) un jeu matriciel de valeur v. Une
strategie mixte x = (x(i))
iI
du joueur 1 est une strategie optimale de ce
joueur si et seulement si : j J, g(x, j) v. Une strategie mixte y =
(y(j))
jJ
du joueur 2 est une strategie optimale de ce joueur si et seulement
si : i I, g(i, y) v.
2) Un prol de strategies mixtes (x, y) dans (I) (J) est un couple
de strategies mixtes optimales si et seulement si :
_
i I t.q. x(i) > 0, g(i, y) = max
i
I
g(i
, y)
_
et
_
j J t.q. y(j) > 0, g(x, j) = min
j
J
g(x, j
)
_
.
En particulier, si (x, y) est un couple de strategies optimales et que i et i
sont des strategies pures du joueur 1 jouees avec probabilite > 0 sous x, on
doit avoir lequation : g(i, y) = g(i
, y).
Preuve de la proposition 3.17 :...
Une autre interpretation des strategies optimales mixtes. Soit G =
(I, J, g) un jeu matriciel, o` u I = 1, ..., n et J = 1, ..., p. Supposons que
chaque ligne i corresponde ` a un actif de prix 1 aujourdhui. Letat du monde
demain est inconnu, chaque element de J represente une possibilite. Si letat
demain est j, alors lactif i rapportera la somme g(i, j). Un agent veut inves-
tir M > 0 euros en se constituant aujourdhui un portefeuille x = (x(i))
iI
dans (I), o` u pour tout i x(i) represente la proportion dactif i dans le por-
tefeuille. Si letat du monde demain est j, le portefeuille x rapportera donc
i
x(i)Mg(i, j). Dire que x est une strategie optimale dans G revient à dire
quen choisissant x lagent maximise son revenu dans le pire cas.
Mentionnons sans demonstration que lon peut generaliser le theorème du
minmax à des espaces plus generaux que des ensembles de probabilites sur
des ensembles nis.
Theorème 3.18. Theorème de Sion Soit G = (S, T, g) un jeu à somme
nulle tel que :
1) S est un sous-ensemble convexe et compact dun e.v.n,
2) T est un sous-ensemble convexe dun e.v.n, et
3) pour tout dans IR, s
dans S et t
dans T, les ensembles s

S, g(s, t
) et t T, g(s
, t) sont convexes et fermes.

Alors le jeu G a une valeur : sup
sS
inf
tT
g(s, t) = inf
tT
sup
sS
g(s, t).
De plus, le joueur 1 a une strategie optimale.
Preuve : H.P.
Si on suppose non plus S mais T compact, on a la meme conclusion en
remplacant le joueur 1 a une strategie optimale par le joueur 2 a une
strategie optimale.
Pour conclure cette partie voici un exemple de jeu ` a somme nulle sans
valeur, et introduire des strategies mixtes ny changerait rien.
Example 3.19. Soit G = (I, J, g) avec I = J = IN, et pour tout couple
(i, j) dans I J :
g(i, j) =
_
_
_
1 si i > j
0 si i = j
1 si i < j
On a = 1 et = 1, donc le jeu na pas de valeur. Chaque joueur
doit choisir un entier et celui qui a pris lentier le plus grand gagne. On peut
considerer que bien jouer na pas de sens ici.
3.4 Jeux sous forme extensive
On sinteresse maintenant aux jeux à somme nulle en plusieurs etapes.
Commencons par un exemple elementaire.
@
@
@
@
@
@
J
J
J
J
J
J
J
J
J
J
J
J
J2
J1
J2
2 1 3 0
G D
g
2
d
2
g
1
d
1
x
0
x
1
x
2
x
3
x
4
x
5
x
6
c
c c
Le jeu commence en x
0
, cest au joueur 1 de jouer et il doit choisir entre
G et D.
Supposons que le joueur 1 choisisse G. Alors le jeu va en x
1
, cest au
joueur 2 de jouer, il sait que le jeu est en x
1
et doit choisir entre g
1
et d
1
.
Sil choisit g
1
, le jeu sarrete et le paiement est 2 pour le joueur 1 (et donc -2
pour le joueur 2). Si le joueur 2 choisit d
1
, le jeu sarrete et le joueur 1 gagne
-1 (donc le joueur 2 re coit 1).
Supposons maintenant que le joueur 1 choisisse D en x
0
. Similairement,
le jeu va en x
2
, le joueur 2 sait cela et doit choisir entre g
2
et d
2
. Après le
choix du joueur 2, le jeu sarrete et le joueur 1 gagne le paiement atteint au
bas de larbre.
Ce jeu est un exemple de jeu sous forme extensive, et meme plus precisement
du cas simple de jeu ` a information parfaite : il peut y avoir plusieurs etapes,
mais il ny a pas de choix simultane et ` a chaque fois quun joueur joue il sait
exactement tout ce qui sest passe auparavant. On peut formellement lui as-
socier un jeu sous forme normale de la facon suivante. Le joueur 1 a 2 actions,
I = G, D, le joueur 2 a 4 actions, J = (g
1
, g
2
), (g
1
, d
2
), (d
1
, g
2
), (d
1
, d
2
).
(g
1
, g
2
) (g
1
, d
2
) (d
1
, g
2
) (d
1
, d
2
)
G
D
_
2 2 1 1
3 0 3 0
_
Et la valeur de ce jeu est bien entendu -1.
Il y a dautres cas de gures. Un jeu simultane comme Matching Pennies
peut se representer sous forme extensive (dessin). Un autre exemple est :
H
H
H
H
H
H
H
H
H
H
H
H
H
J
J
J
J
J
J
J
J
J
J
J
J
J1
J2
0 2 1 5
1
r
x
1
x
2
L M R
a a b b
c
c c
Il y a aussi des cas o` u les joueurs ont des informations dierentes. Imagi-
nons par exemple quil y ait 2 jeux matriciels possibles : le jeu G
a
donne par
_
1 1
2 3
_
, et le jeu G
b
donne par
_
0 2
2 0
_
. Simultanement, le joueur 1
doit choisir une ligne et le joueur 2 une colonne, mais imaginons que le joueur
1 connaisse la matrice de paiements entre G
a
et G
b
alors que le joueur 2 ne
sait pas et estime que les 2 matrices sont equiprobables. Comment jouer ?
Cette interaction peut se mettre sous forme extensive ` a laide de lintroduc-
tion dun joueur 0 très special appele Nature, qui na pas de paiement et
a une strategie xee.
En general, dans un jeu sous forme extensive on peut trouver les 3 aspects
suivants : - dynamique : il peut y avoir plusieurs etapes, - simultaneite de
certaines decisions (comme dans les jeux sous forme normale), - les joueurs
peuvent avoir une information incomplète (introduction du joueur Nature).
Il est temps de donner une denition formelle.
Denition 3.20. Un jeu à somme nulle sous forme extensive ni est deni
par les elements 1) à 6) suivants :
1) Un arbre : / = (X, r, ), o` u :
X est un ensemble ni appele ensemble des noeuds de larbre. Un noeud
represente une des positions possibles du jeu.
r X est un noeud particulier, cest là que le jeu commence.
est une application de Xr dans X appelee application predecesseur.
Pour tout noeud x de X, (x) sappelle le predecesseur de x. On impose
que lon puisse remonter à la racine en partant de nimporte quel noeud, i.e.
on suppose que pour tout noeud x, il existe m 0 tel que
m
(x) = r (o` u
m
(x) =
def
((.....(x)))), avec itere m fois).
Pour tout noeud x, on pose
1
(x) = y X, (y) = x, appele len-
semble des successeurs du noeud x. On denit aussi lensemble des noeuds
terminaux T = x X,
1
(x) = . Quand le jeu atteint un noeud de T, la
partie sarrete.
2) Qui joue quand ? On a une partition (X
0
, X
1
, X
2
) de lensemble des
noeuds non terminaux XT. X
1
(resp. X
2
, resp. X
0
) est lensemble des
noeuds o` u cest au joueur 1 (resp. joueur 2, resp. joueur nature) de jouer.
On suppose X
1
et X
2
non vides, et pour chaque noeud de XT, on notera
i(x) 0, 1, 2 le joueur qui joue en x. Dans un jeu o` u la nature nintervient
pas, on a simplement X
0
= .
3) Qui sait quoi ? Pour representer linformation du joueur 1, on a une
partition U
1
de X
1
. De meme, on se donne une partition U
2
de X
2
. Un
element u de U
1
(resp. de U
2
) sappelle un ensemble dinformation du joueur
1 (resp. joueur 2). En ce qui concerne le joueur nature, on suppose que pour
tout x de X
0
, le singleton x est un ensemble dinformation de la nature.
Autrement dit, U
0
= x, x X
0
est la partition discrète (U
0
= si la
nature nintervient pas). On note U = U
0
U
1
U
2
lensemble de tous les
ensembles dinformation du jeu.
Interpretation : quand le jeu est dans lensemble dinformation u de U
1
,
cest au joueur 1 de jouer. Il sait juste que le jeu est à un noeud de u, mais
ne sait pas dans quel noeud de u il se trouve. Idem pour le joueur 2.
4) Actions et transitions : Pour chaque ensemble dinformation u dans
U, on a un ensemble dactions A
u
et une application
u
de u A
u
dans
xu
1
(x) telle que : pour tout noeud x de u, lapplication (a
u
(x, a))
est une bijection de A
u
dans
1
(x).
A
u
sappelle lensemble des actions disponibles en u, et
u
est lapplication
de transition en u.
Interpretation : supposons que le jeu soit à un noeud x qui appartient à
lensemble dinformation u du joueur i 1, 2. Cest au joueur i de jouer,
il ne connait pas x mais sait que le jeu est en u. Il doit choisir une action a
dans A
u
, puis le jeu va en
u
(x, a).
5) Strategie de la nature : la nature a une strategie xee. Pour chaque
noeud x dans X
0
, la nature choisit a dans A
{x}
selon une probabilite donnee
0
{x}
. On note
0
= (
0
{x}
)
xX
0 la strategie xee de la nature.
6) Paiements des joueurs 1 et 2 : pour chaque noeud terminal x, on a un
paiement (x) representant le paiement du joueur 1 si le jeu se termine en
x. Le paiement du joueur 2 est alors (x), et la nature na pas de paiement.
Formellement, on a donc une fonction : T IR.
=
_
/, (X
0
, X
1
, X
2
), (U
1
, U
2
), (A
u
,
u
)
uU
,
0
,
_
est un jeu à somme
nulle sous forme extensive. Ceci conclut la denition 3.20.
Reprenons en detail le deroulement du jeu .
Le jeu commence en r XT.
Supposons que le jeu soit ` a un noeud x de XT. Il existe un joueur i
dans 1, 2, 0 et un seul ensemble dinformation u de ce joueur contenant x.
2 cas sont alors possibles :
1) Si i 1, 2, cest au joueur i de jouer. Il sait que le jeu est ` a un noeud
de u, mais ne sait pas lequel. Il choisit alors une action a dans A
u
, et le jeu
va en
u
(x, a), qui est un des successeurs de x.
2) Si i = 0, cest la nature qui joue en x. Une action a dans A
u
est tiree
selon la probabilite donnee
0
{x}
, et le jeu va en
u
(x, a).
Dans les 2 cas, si le nouveau noeud
u
(x, a) est dans XT, le jeu continue.
Sinon,
u
(x, a) est un noeud terminal : la partie sarrete et le joueur 1 (resp.
joueur 2) gagne (
u
(x, a)) (resp. -(
u
(x, a))).
On va maintenant denir le jeu sous forme normale associe à .
Denition 3.21. Une partie de est une suite nie = (x
0
, ..., x
l
) avec
l 1, x
0
= r, x
l
T, et x
k
= (x
k+1
) pour tout k de 0, ..., l 1. On note
lensemble de toutes les parties possibles du jeu .
Denition 3.22. Une strategie pure du joueur i 1, 2 specie laction
choisie par ce joueur à chacun de ses ensembles dinformations. Cest un
element s
i
= (s
i
u
)
uU
i , avec s
i
u
A
u
pour tout u de U
i
. Lensemble des
strategies pures du joueur i est note
S
i
=
uU
i
A
u
.
Dans un jeu o` u la nature nintervient pas, un prol de strategies pures
s = (s
1
, s
2
) induit une unique partie et donc un unique noeud terminal.
Lorsque la nature intervient, s induit naturellement une probabilite P
s
sur
lensemble des parties . Formellement, pour toute partie = (x
0
, ..., x
l
), la
probabilite P
s
() se denit de la facon suivante.
Pour tout k in 0, ..., l 1 on note i
k
le joueur qui joue en x
k
, on note
u
k
U
i
k
lensemble dinformation du joueur i
k
qui contient x
k
, et a
k

A
u
k
lunique action telle que
u
k
(x
k
, a
k
) = x
k+1
. On denit tout dabord
la probabilite que le joueur i
k
joue a
k
en u
k
par : si i
k
1, 2, on pose
i
k
u
k
(a
k
) = 1 si s
i
k
u
k
= a
k
(i.e. si le joueur i
k
joue a
k
en u
k
) et
i
k
u
k
(a
k
) = 0
sinon. Si i
k
= 0, la probabilite que la nature joue a
k
en u
k
est simplement
notee
i
k
u
k
(a
k
) [0, 1]. La probabilite de si s est joue est alors denie comme
le produit :
P
s
() =
i
0
u
0
(a
0
)
i
1
u
1
(a
1
)...
i
l1
u
l1
(a
l1
).
Lemme 3.23.
P
s
() = 1, et donc P
s
est une probabilite sur .
Denition 3.24. Le paiement espere du joueur 1 quand le joueur 1 joue s
1
et le joueur 2 joue s
2
est :
g(s
1
, s
2
) = IE
Ps
() =
=(x
1
,...,x
l
)
P
s
() (x
l
).
Le jeu sous forme strategique associe à est le jeu à somme nulle G =
(S
1
, S
2
, g).
Si v est la valeur de G, on dira que cest la valeur de , de meme une
strategie optimale dun joueur dans G sera dite aussi optimale dans .
Theorème 3.25. Tout jeu sous forme extensive ni a une valeur en strategies
mixtes, et les 2 joueurs ont des strategies optimales mixtes.
Preuve :...
Exemple : un poker simplie, exercice 4.27.
3.5 Jeux à information parfaite et theorème de Zer-
melo
Les jeux à information parfaite sont un cas simple des jeux sous forme
extensive. Dans ces jeux il ny a pas de choix simultane, et ` a chaque fois
quun joueur joue il sait exactement tout ce qui sest passe auparavant.
Denition 3.26. Un jeu sous forme extensive est un jeu à information
parfaite si la nature nintervient pas : X
0
= , et de plus chaque ensemble
dinformation est un singleton : i 1, 2, x X
i
, x U
i
.
Theorème 3.27. Theorème de Zermelo. Tout jeu à information parfaite ni
a une valeur en strategies pures.
La preuve, par recurrence sur le nombre de noeuds du jeu, est importante
car elle fournit un algorithme pour calculer la valeur. On parle de Backwards
induction (ou dinduction vers lamont).
Preuve :...
Corollaire 3.28. Au jeu dechecs, une et une seule de ces 3 armations est
vraie.
A) Les blancs ont une strategie qui gagne quoi que fasse les noirs.
B) Les noirs ont une strategie qui gagne quoi que fasse les blancs.
C) Chacun des joueurs a une strategie qui lui garantit au moins la partie
nulle quoi que fasse son adversaire.
Personne ne sait laquelle de A, B ou C est vraie.
Preuve du corrolaire :...
3.6 Jeux stochastiques et equation de Shapley-Bellman.
On considère ici une classe particulière de jeux sous forme extensive ayant
une structure Markovienne : les jeux stochastiques. A chaque date, les joueurs
vont jouer un certain jeu matriciel. Les actions jouees en date t determinent
le paiement courant mais egalement le jeu matriciel qui sera joue à letape
suivante t + 1.
Denition 3.29. Un jeu stochastique est donne par des ensembles nis
non vides K (etats), I (actions du J1), J (actions du J2), un etat initial k
1
dans K, une fonction de paiement g : K I J [0, 1], et une transition
q : K I J (K). On note = (K, I, J, k
1
, g, q).
Le deroulement du jeu est le suivant :
- Letat initial est k
1
, connu des deux joueurs. A letape 1, J1 et J2
choisissent simultanement i
1
I et j
1
J. Puis le J1 gagne g(k
1
, i
1
, j
1
) et
le J2 gagne g(k
1
, i
1
, j
1
), les actions i
1
et j
1
sont annoncees, et on passe à
letape 2.
- A letape t, letat k
t
est tire selon la probabilite q(k
t1
, i
t1
, j
t1
), et an-
nonce aux deux joueurs. J1 et J2 choisissent simultanement i
t
I et j
t
J.
Puis le J1 gagne g(k
t
, i
t
, j
t
) et le J2 gagne g(k
t
, i
t
, j
t
), les actions i
t
et j
t
sont annoncees, et on passe ` a letape t + 1.
Notation, vocabulaire. On note q(k
[k, i, j) la probabilite que letat de

date t + 1 soit k
si letat de date t est k et que i et j sont jouees en date t.

Un etat k est dit absorbant si q(k[k, i, j) = 1 pour tout (i, j) dans I J
(quand on atteint k, on y reste pour toujours). Un jeu stochastique est
dit absorbant sil a un seul etat non absorbant. Une partie est une suite
(k
1
, i
1
, j
1
, k
2
, i
2
, j
2
, ...., k
t
, i
t
, j
t
, ...) à valeurs dans K I J.
Exemple 1 :
G D
H
B
_
0 1
_
Il y a un seul etat non absorbant, cest letat initial. Les actions du joueur
1 sont H et B, celles du joueur 2 sont G et D. Si ` a la première etape le prol
dactions choisi est (H, G), alors le paiement detape est 0 et on passe ` a letape
suivante sans changer detat. Si à la première etape le prol dactions choisi
est (H, D) ou (B, G) alors on atteint un etat absorbant et ` a chaque etape le
joueur 1 gagnera le paiement 1. Si ` a la première etape le prol dactions choisi
est (B, D) alors on atteint un etat absorbant et ` a chaque etape le joueur 1
gagnera le paiement 0.
Exemple 2 : Le Big Match
_
1
0 1
_
Exemple 3 : 1 seul joueur : Chane de Markov contr olee (ou Processus de
Decision Markovien, MDP)
Exemple 4 : exercice 4.35.
On denit maintenant directement les strategies aleatoires dans . Ces
strategies sappellent des strategies de comportement.
Denition 3.30. Une strategie (de comportement) du joueur 1 est une suite
= (
t
)
t1
, avec
t
: (K I J)
t1
K (I). De meme, une strategie
du joueur 2 est une suite = (
t
)
t1
, avec
t
: (KI J)
t1
K (J).
On note et T les ensembles de strategies respectifs des joueurs.
Dans la denition ci-dessus,
t
correspond ` a la strategie de date t du
joueur 1, et laction i
1
jouee par celui-ci en date t peut etre aleatoire et
dependre de letat courant k
t
ainsi que des actions et etats passes k
1
, i
1
,
j
1
,...., k
t1
, i
t1
, j
t1
.
Il est bien connu que tirer ` a Pile ou Face independamment à chaque
etape induit une probabilite sur les suites de Pile et Face (ex : Loi des Grands
Nombres). De la meme fa con un couple de strategies induit ici une probabilite
sur lensemble des parties.
Lemme 3.31. Un couple de strategies (, ) induit naturellement une pro-
babilite P
k
1
,,
sur lensemble des parties = (KI J)
, muni de la tribu
produit.
Preuve :...
Une strategie = (
t
)
t1
du joueur 1 est dite pure si pour tout t,
t
prend ses valeurs dans I. est dite stationnaire sil existe f : K (I)
telle que joue ` a chaque date f(k), o` u k est letat courant. On denit les
memes notions pour le J2.
Remarque (dicile) : Une strategie mixte dun joueur est une distribution
de probabilites sur lensemble des strategies pures de ce joueur, muni de la
tribu produit. Par le theorème de Kuhn (Aumann 1962), on peut montrer
une equivalence entre les strategies mixtes et les strategies de comportement.
Plus precisement, pour toute strategie de comportement du J1 il existe une
strategie mixte
du meme joueur telle que, pour toute strategie pure du

joueur 2, (, ) et (
, ) induisent les memes probabilites sur les parties. Et

vice-versa en echangeant mixtes et de comportement. Idem en remplacant
joueur 1 par joueur 2.
Dans un jeu stochastique, les joueurs re coivent un paiement à chaque
date. Il y a plusieurs fa cons devaluer les ux de paiements, nous allons voir
2 cas. On commence par le cas o` u les joueurs veulent maximiser la moyenne
de leurs paiements detape entre la date 1 et une date n nie, commune et
connue des 2 joueurs.
Denition 3.32. Pour n 1, on denit le jeu en n etapes
n
(k
1
) comme
le jeu à somme nulle sous forme normale o` u : est lensemble de strategies
du joueur 1, T est lensemble de strategies du joueur 2, et la fonction de
paiement est donnee par :
(, ) T ,
k
1
n
(, ) = IE
k
1
,,
_
1
n
n
t=1
g(k
t
, i
t
, j
t
)
_
.
Theorème 3.33. Pour tout n 1 et tout etat initial k le jeu
n
(k) a
une valeur, notee v
n
(k). On peut calculer v
n
par lequation de recurrence de
Shapley-Bellman : v
1
(k) = val
(I)(J)
g(k, x, y) et pour tout n 1,
(n + 1)v
n+1
(k) = val
(I)(J)
_
g(k, x, y) +
K
q(k
[k, x, y) n v
n
(k
)
_
.
Preuve :...
Passons maintenant au second cas : les joueurs maximisent leur paiement
escompte au meme taux .
Denition 3.34. Pour (0, 1], on denit le jeu escompte
(k
1
) comme
le jeu à somme nulle sous forme normale o` u : est lensemble de strategies
du joueur 1, T est lensemble de strategies du joueur 2, et la fonction de
paiement est donnee par :
(, ) T ,
k
1
(, ) = IE
k
1
,,
_
t=1
(1 )
t1
g(k
t
, i
t
, j
t
)
_
.
Theorème 3.35. Pour tout (0, 1] et tout etat initial k le jeu
(k) a une
valeur, notee v
(k). Le vecteur (v
(k))
kK
est caracterise par les equations
de Shapley-Bellman, cest lunique solution du système :
k K, v
(k) = val
(I)(J)
_
g(k, x, y) + (1 )
K
q(k
[k, x, y) v
(k
)
_
.
Et dans
(k), les joueurs ont des strategies optimales stationnaires independantes

de letat initial.
Preuve :...
Remarques :
Bewley et Kohlberg (1976) ont montre que pour tout etat initial k, les
suites (v
n
(k))
n
et v
(k))
convergeaient, respectivement quand n et

0, vers la meme limite.
Si on modie le jeu en supposant que les joueurs nobservent pas les
actions de leur adversaire mais observent toujours letat courant, cela ne
change rien pour v
n
et v
. Ces valeurs existent toujours et ne changent pas,

elles verient les memes equations de Shapley-Bellman.
Si on modie le jeu en supposant que les joueurs nobservent plus letat
courant mais observent uniquement à la n de chaque etape laction jouee
par leur adversaire, on peut montrer que les valeurs v
n
(k) et v
(k) des jeux en

n etapes et des jeux escomptes au taux existent bien, mais elle ne verient
plus forcement les memes equations. Et on ne sait pas si elles convergent.
32 Maths de la Decision 2012 F. Gensbittel & J. Renault
4 Travaux Diriges
4.1 Exercices chapitre 1
Exercice 4.1. Soit u une fonction dutilite representant le problème de
decision T = (A, _). Montrer que pour tous a et b dans A :
a ~ b u(a) > u(b).
a b u(a) = u(b).
Exercice 4.2. _ est-elle une relation de preference sur A? Si oui et quand
cest possible, donner une fonction dutilite representant _.
1) A = IR
+
IR
+
, et pour tous x = (x
1
, x
2
) et y = (y
1
, y
2
) dans A :
x _ y x
1
x
2
3
y
1
y
2
3
.
2) A = x IR, x > 0, et pour tous x = (x
1
, x
2
) et y = (y
1
, y
2
) dans A :
x _ y x
2
1
y
2
x
1
y
1
y
2
y
1
x
1
+x
2
x
1
+x
2
y
2
y
2
2
+x
1
y
2
0
3) A = IR IR, et pour tous x = (x
1
, x
2
) et y = (y
1
, y
2
) dans A :
x _ y ( (x
1
y
1
et x
1
y
2
) ou (x
2
y
1
et x
2
y
2
) )
4) A = IR
3
, et pour tous x = (x
1
, x
2
, x
3
) et y = (y
1
, y
2
, y
3
) dans A on a
x _ y si et seulement si : il existe des ensembles I et J dindices inclus dans
1, 2, 3 ayant 2 elements chacun et tels que minx
i
, i I maxy
j
, j J.
Exercice 4.3. On se donne un ensemble à 3 elements S = s
1
, s
2
, s
3
, et les
probabilites P =
1
3
s
1
+
1
3
s
2
+
1
3
s
3
et Q =
1
4
s
1
+
1
2
s
2
+
1
4
s
3
sur S. On denit
la relation de preference suivante sur A = IR
S
(ensemble des applications de
S dans IR) : f, g A,
f _ g minIE
P
(f), IE
Q
(f) minIE
P
(g), IE
Q
(g).
Donner une fonction dutilite representant _. Comparer selon _les elements
f, g, h de A denis par : f(s
1
) = 2, f(s
2
) = 1, f(s
3
) = 3, g(s
1
) = 5, g(s
2
) = 0,
g(s
3
) = 2, h(s
1
) = h(s
2
) = h(s
3
) = 1.8.
F. Gensbittel & J. Renault Maths de la Decision 2012 33
Exercice 4.4. On suppose ici que A = [0, 1]
= (a
1
, ..., a
n
, ...), n a
n

[0, 1] est lensemble des suites de reels dans [0, 1]. Dans chaque cas, _ est-
elle une relation de preference sur A? Si oui et quand cest possible, donner
une fonction dutilite representant _.
1) (0, 1] est un paramètre xe, et pour tous a = (a
n
)
n1
et b = (b
n
)
n1
dans A :
a _ b
n1
(1 )
n1
a
n

n1
(1 )
n1
b
n
.
2) N est un paramètre xe, et pour tous a = (a
n
)
n1
et b = (b
n
)
n1
dans
A :
a _ b
N
n=1
a
n

N
n=1
b
n
.
3) Pour tous a = (a
n
)
n1
et b = (b
n
)
n1
dans A :
a _ b liminf
n
a
n
liminf
n
b
n
4) Pour tous a = (a
n
)
n1
et b = (b
n
)
n1
dans A :
a _ b limsup
n
a
n
liminf
n
b
n
5) Pour tous a = (a
n
)
n1
et b = (b
n
)
n1
dans A :
a _ b liminf
n
(a
n
b
n
) 0
6) Pour tous a = (a
n
)
n1
et b = (b
n
)
n1
dans A :
a _ b limsup
n
(a
n
b
n
) 0
Exercice 4.5. Soit A = x IR, x > 0, et _ la relation de preference sur
A donnee par :
x IR, y IR, x _ y x < y.
Soient u et v les applications de A dans IR denies par : x IR, u(x) = x
et v(x) = 1/x. Montrer que u et v representent _. Peut-on trouver une
application strictement croissante f : IR IR telle que v = f u?
Exercice 4.6. On considère une relation de preference _ sur A = IR
n
+
qui
verie la propriete de continuite suivante : pour tout a dans A, les ensembles
b A, b ~ a et b A, a ~ b sont des ouverts de A (cest-` a-dire linter-
section dun ouvert de IR
n
et de A). Montrer que _ peut se representer par
une fonction dutilite u : A IR.
Exercice 4.7. On tire au sort independamment 2 nombres x et y selon la
mesure uniforme sur [0, 1]. Dans chacun des cas a), b), c) suivants, un agent
maximisateur desperance dutilite prefère til (ex-ante, cest-` a-dire avant de
connatre x et y) plutot recevoir un montant de minx, y ou
1
2
maxx, y ?
a) lutilite de lagent est donnee par u(z) = z pour tout montant z
b) lutilite de lagent est donnee par u(z) =

z pour tout montant z
c) lutilite de lagent est donnee par u(z) = z
2
pour tout montant z.
Exercice 4.8. Une lotterie rapporte la somme de 2
n
euros avec probabilite
1/(2
n
), pour tout entier n 1. Un joueur de richesse initiale nulle a une
fonction dutilite donnee par le logarithme (en base 2) du montant monetaire
u(x) = log
2
(x) = ln(x)/ln(2) pour tout x > 0. Le joueur, qui veut maximiser
son utilite esperee, prefère-til quon lui ore un billet de lotterie ou la somme
de 4 euros ?
Exercice 4.9. Soit (E, d) un espace metrique compact, et F un sous-ensemble
de E. Montrer que (F, d) est metrique compact si et seulement si F est ferme
dans E.
Exercice 4.10. Soit (E, d) un espace metrique compact.
a) Montrer que d est bornee.
b) Montrer que pour tout > 0 on peut recouvrir E par un nombre ni
de boules de rayon .
c) Montrer que E est complet.
d) Monter que E est separable, cest-` a-dire quil existe une partie D de
E qui soit ` a la fois denombrable et dense dans E.
Exercice 4.11. Soit X = IR
n
lorthant negatif de IR
n
. Calculer pour tout
z = (z
1
, ..., z
n
) de IR
n
le projete de z sur X.
Exercice 4.12. Soit X = x IR
n
, |x| 1 la boule unite de IR
n
pour la
norme Euclidienne. Calculer, pour tout z de IR
n
Exercice 4.13. Soit X = (x, y) IR
2
, x > 0, y > 0, xy 1. Montrer que
X est convexe ferme et calculer, pour tout z de IR
2
Exercice 4.14. On se place dans IR
2
muni de la norme |(x
1
, x
2
)| = [x
1
[ +
[x
2
[. On note X la boule unite fermee pour cette norme, et z = (1, 1) IR
2
.
a) Calculer la distance d(z, X) cest-à-dire inf
xX
|x z|.
b) Calculer x X, |xz[ = d(z, X). Pourrait-on denir le projete de
z sur X pour cette norme ?
Exercice 4.15. Soit A et B deux convexes disjoints non vides de IR
n
tels
que A est compact et B est ferme.
1) On denit :
A B = a b, a A, b B.
Montrer que A B est convexe ferme.
2) Montrer quil existe une forme lineaire f sur IR
n
telle que :
sup
aA
f(x) < inf
bB
f(x).
Exercice 4.16. Soit A = (x, 0), x IR et B = (x, y) IR
2
, x > 0, y >
0, xy 1. Montrer que A et B sont convexes fermes disjoints. Peut-on
trouver une forme lineaire f sur IR
n
telle que sup
aA
f(x) < inf
bB
f(x) ?et
telle que sup
aA
f(x) inf
bB
f(x) ?
Exercice 4.17. Demontrer le theorème 2.9 de point xe pour les contrac-
tions.
Exercice 4.18. Aux Jeux Olympiques, vous faites partie dun jury de 7
personnes qui doit attribuer une note unique x dans [0, 20] ` a une patineuse
donnee. On note N = 1, ..., 7 lensemble des membres du jury, chaque
membre i de N est caracterise par une valuation v
i
[0, 20], et pense que
la patineuse merite la note v
i
. Plus precisement, lutilite du membre i si la
patineuse recolte la note x est donnee par : 20 [v
i
x[. Vous etes le jury
1 et votre valuation est v
1
= 12, mais vous ne connaissez pas forcement les
valuations des autres membres du jury.
1) Lattribution de la note se fait de la facon suivante : simultanement,
chaque membre i dans N donne une note x
i
dans [0, 20]. La patineuse recoit
alors la moyenne des notes donnees par les membres du jury. Quelle note
avez-vous interet ` a mettre si vous savez que x
2
= x
3
= x
4
= 13 et x
5
= x
6
=
x
7
= 14 ? Meme question si x
2
= x
3
= x
4
= 13 et x
5
= x
6
= x
7
= 16 ? et si
x
2
= x
3
= x
4
= 17 et x
5
= x
6
= x
7
= 16 ?
2) On modie maintenant le procede dattribution des notes : simul-
tanement, chaque membre i dans N donne une note x
i
dans [0, 20], mais
maintenant la patineuse recoit la mediane de x
1
, x
2
, x
3
, cest-à-dire lunique
note x x
1
, x
2
, x
3
telle que chacun des ensembles i N, x
i
x et
i N, x
i
x ait au moins 2 elements. Montrer que quelles que soient
les notes x
2
et x
3
des autres membres du jury, donner la note x
1
= 12 est
optimal pour vous.
Exercice 4.19. Soit lensemble des probabilites sur [0, 1], muni de la
tribu Borelienne. Etant donne u dans , on peut denir pour toute fonction
f continue de [0, 1] dans IR lesperance de f sous u, notee u(f) :
u(f) =
_
x[0,1]
f(x)du(x).
On note E lensemble des applications continues de [0, 1] dans IR et E
1
len-
semble des applications 1-Lipschizienne de [0, 1] dans IR. On admettra que
si u et v dans verient u(f) = v(f) pour tout f de E
1
, alors u = v.
1) Montrer que u(f) est bien denie.
2) On pose, pour u et v dans :
d(u, v) = sup[u(f) v(f)[, f E.
Montrer que d est une distance sur . Soit pour tout n 1, u
n
=
1/n
la mesure de Dirac au point 1/n. La suite (u
n
)
n1
converge telle pour la
distance d ? Peut-on extraire une sous-suite convergente de (u
n
)
n1
? (E, d)
est-il un espace metrique compact ?
3) On pose, pour u et v dans :
d
1
(u, v) = sup[u(f) v(f)[, f E
1
.
Montrer que d
1
est une distance sur . Soit pour tout n 1, u
n
=
1/n
la mesure de Dirac au point 1/n. La suite (u
n
)
n1
converge-telle pour la
distance d ?
Exercice 4.20. Calculer la valeur et les strategies optimales mixtes des jeux
matriciels suivants :
_
1 2
0 3
_
,
_
3 2
5 0
_
,
_
1 1
2 0
_
, et
_
a b
c d
_
(o` u a, b, c, d sont des paramètres reels).
Exercice 4.21. Calculer la valeur et les strategies optimales mixtes du jeu
matriciel :
_
_
_
_
3 1
0 0
2 4
7 2
_
_
_
_
Exercice 4.22. Soient A =
_
1 0
0 0
_
et B =
_
0 0
0 1
_
. Calculer, pour tout
reel p, la valeur de la matrice pA + (1 p)B.
Exercice 4.23. Soient A =
_
4 0 2
4 0 2
_
et B =
_
0 4 2
0 4 2
_
. Calculer,
pour tout p dans [0, 1], la valeur de la matrice pA + (1 p)B.
Exercice 4.24. Soient A et B deux matrices reelles de meme dimension.
Dans chaque cas, prouver larmation ou donner un contre-exemple.
1) Pour tout reel , val(A) = val(A).
2) Pour tout reel 0, val(A) = val(A).
3) val(A +B) = val(A) + val(B).
4) val(A +B) val(A) + val(B).
Exercice 4.25. Soit A = (a
i,j
)
n,n
IR
nn
une matrice stochastique : a
i,j
0
et
J
a
i,j
= 1 pour tous i et j.
1) On pose B = A Id. Montrer que val(B) = 0.
2) Montrer quil existe une mesure invariante pour A, cest à-dire un
vecteur ligne x (1, ..., n) tel que xA = x.
Exercice 4.26. On considère le jeu ` a somme nulle G = (I, J, g) tel que
I = J = IN et pour tout (i, j) dans I J, g(i, j) = 1 si i = j et g(i, j) = 1
si i ,= j.
1) Calculer les valeurs inferieures et superieures et . Le jeu G a til
une valeur ?
2) On denit naturellement lextension mixte de G comme le jeu

G =
((I), (J), g) o` u pour tout couple (x, y) de probabilites sur IN,
g(x, y) = IE
xy
(g) =
i=0
j=0
x
i
y
j
g(i, j).
Montrer que G a une valeur en strategies mixtes. Les joueurs ont-ils des
strategies optimales mixtes ?
Exercice 4.27. Un Poker simplie
2 joueurs jouent au jeu suivant. Ils commencent par miser chacun 1 euro,
cest-` a-dire quils mettent chacun 1 euro au centre de la table.
Puis un jeu de 52 cartes est battu uniformement, une des cartes est
tiree et observee uniquement par le joueur 1
Le joueur 1 peut alors quitter le jeu (il a alors perdu leuro quil a mise),
ou bien rester dans le jeu en rajoutant un euro supplementaire au centre de
la table.
Si le joueur 1 na pas quitte le jeu, le joueur 2 a le choix entre se cou-
cher (cest-` a-dire quitter le jeu, le jeu est alors ni et au nal le joueur 1
aura gagne un euro) ou bien rester dans le jeu en rajoutant egalement 1 euro
supplementaire au centre de la table. Dans ce dernier cas, la carte selectionnee
est montree aux 2 joueurs : si elle est rouge, le joueur 1 gagne et empoche
largent qui est au milieu de la table (il aura alors gagne 2 euros), si la carte
est noire cest le joueur 2 qui gagne et empoche largent situe au centre de la
table.
1) Modeliser cette situation par un jeu ` a somme nulle sous forme exten-
sive.
2) Determiner la forme normale associee. Y-a til une valeur en strategies
pures ?
3) Calculer la valeur du jeu en strategies mixtes et les strategies optimales
mixtes. En tant que joueur 1, combien etes-vous pret ` a payer pour participer ?
Avec quelle frequence le joueur 1 doit-il bluer ? Avec quel frequence le joueur
2 doit-il rester dans le jeu et aller voir la carte du joueur 1 ?
Exercice 4.28. On dispose de 3 roulettes independantes A, B et C. La
roulette A selectionne 1, 6 ou 8 avec probabilite 1/3 pour chaque numero, de
meme la roulette B tire 3, 5 ou 7 avec probabilites egales, et la roulette C
choisit 2, 4 ou 9 avec probabilites egales. On considère le jeu à somme nulle
suivant : le joueur 1 commence par choisir une des 3 roulettes, puis le joueur
2 observe le choix du joueur 1 et doit choisir une des 2 roulettes restantes. On
fait alors rouler les roulettes, et le joueur qui tire le plus grand numero recoit
un euro de son adversaire. On suppose que les joueurs veulent maximiser leur
esperance de gain.
En tant que joueur 1, combien etes-vous pret ` a payer pour participer ` a
ce jeu ?
Rem : lien avec le paradoxe de Condorcet ?
Exercice 4.29. Soit G le jeu ` a somme nulle suivant :
@
@
@
@
@
@
@
@
@
@
@
@
J1
J2
0 3
2
T B
L R
c
c
Que doit faire le joueur 1 ? Quelle est la valeur du jeu? Quelles sont les
strategies optimales mixtes des joueurs ?
Exercice 4.30. Quelle est la valeur du jeu ` a somme nulle suivant ? Quelle
sont les strategies optimales pures des joueurs ?
P1 P2 P1 P2 P1 P2 P1 P2
r1 r2 r3 r4 r5 r6 r7 r8
d1 d2 d3 d4 d5 d6 d7 d8
1 3 5 2 2 3 5 0
1 c c c c c c c c
Exercice 4.31. Chomp! ou le mange-savon de David Gale
Etant donnes 2 entiers strictement positifs n et m, on pose P(n, m) =
0, ..., n 0, ..., m et on denit le jeu ` a somme nulle G(n, m) suivant, o` u
les joueurs jouent à tour de r ole. Au debut du jeu, une pierre est placee sur
chaque point de la grille P(n, m). Le joueur 1 commence et choisit une pierre.
Il enlève cette pierre ainsi que toutes les pierres ayant labscisse et lordonnee
au moins egales ` a celles de la pierre choisie. Puis cest au joueur 2 de jouer
similairement : il choisit une des pierres restantes, enlève cette pierre ainsi
que toutes les pierres ayant labscisse et lordonnee au moins egales à celles
de la pierre quil vient de choisir. Etc... Le jeu continue et le joueur qui prend
la dernière pierre (qui est forcement (0, 0)) a perdu.
1- Montrer que le joueur 1 a une strategie gagnante dans G(n, m) (on ne
demande pas de la trouver)
2- Trouver une strategie gagnante du joueur 1 dans G(n, n).
3- On denit de facon similaire le jeu G(, ) en placant une pierre ` a
chaque point de IR
2
+
. Quelle est la valeur de G(, ) ?
Exercice 4.32. Calculer la valeur du jeu suivant.
@
@
@
@
@
@
J
J
J
J
J
J
J
J
J
J
J
J
J1
J2
J1
r
x
1
x
2
x
3
0 2 9 7
1
a b
E
D
L L R R
b
b
b b

Exercice 4.33. Calculer la valeur du jeu suivant.
@
@
@
@
@
@
A
A
A
A
A
A
@
@
@
@
@
@
A
A
A
A
A
A
B
B
B
B
B
B
A
A
A
A
A
A
J
J
J
J
J
J
J1
J2
J1 J1
r
x
1
x
2
x
3
x
4
x
5
x
6
0
2 3 1/2 1 5 2 2 0
b b a a
E
W D
R L R L R
c
c c
Exercice 4.34. On considère le jeu stochastique ` a somme nulle suivant :

L R
T
B
_
0
3
3 1
_
Il y a un seul etat non absorbant, cest letat initial. Les actions du joueur
1 sont T et B, celles du joueur 2 sont L et R. Si ` a la première etape le prol
dactions choisi est (T, R) ou (B, L), alors le paiement detape du joueur 1
est 3 et on passe ` a letape suivante sans changer detat. Si à la première
etape le prol dactions choisi est (T, L) (resp. (B, R)), alors on atteint un
etat absorbant et ` a chaque etape le joueur 1 gagnera le paiement 0 (resp. 1).
On note v
n
la valeur du jeu moyen en n etapes, o` u letat initial est letat non
absorbant.
1.a) Calculer v
1
. Pour tout entier positif n, calculer v
n+1
en fonction de
v
n
.
1.b) Montrer (v
n
)
n
converge quand n tend vers + et calculer sa limite.
Exercice 4.35. Calculer, pour tout taux descompte dans (0, 1] et tout etat
initial, la valeur du jeu stochastique suivant. Donner des strategies optimales
stationnaires.
_
0 (k
1
) 1 (k
1
)
1 (k
1
) 2 (k
2
)
__
0 (k
2
) 1 (1/2k
2
+ 1/2k
3
)
0 (1/2k
3
+ 1/2k
1
) 0
__
0 (k
3
) 0 (k
3
)
2(k
2
) 1
_
k
1
k
2
k
3
Les actions du joueur 1 sont H et B, celles du joueur 2 sont G et D, et
les transitions sont entre parenthèses. Par exemple, si letat est k
2
et que les
joueurs jouent (H, D) alors le paiement courant est 1 ; et avec probabilite 1/2
le jeu reste en k
2
et avec probabilite 1/2 le jeu va en k
3
.

Maths Decision L 3 J Renault

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Maths Decision L 3 J Renault

Transféré par

Droits d'auteur :

Formats disponibles

Universite Toulouse 1 Capitole Toulouse School of Economics

L3 MASS 2012. cours J. Renault, TD F. Gensbittel

dans X tel que u(y

dans X tel que u(x

X est un maximum local de f sur X sil existe R > 0 tel

) f(x) pour tout x de B(x

est un maximum global de f sur X.

dans X tel que |x

nest pas forcement unique, 2) x

de X le plus proche de z pour la norme

est caracterise par :

est le projete de z sur X.

, x > pour tout x de IR

) est un espace metrique compact. Etant donnes x

dans T, les ensembles s

, t) sont convexes et fermes.

[k, i, j) la probabilite que letat de

si letat de date t est k et que i et j sont jouees en date t.

du meme joueur telle que, pour toute strategie pure du

, ) induisent les memes probabilites sur les parties. Et

(k), les joueurs ont des strategies optimales stationnaires independantes

convergeaient, respectivement quand n et

. Ces valeurs existent toujours et ne changent pas,

(k) des jeux en

F. Gensbittel & J. Renault Maths de la Decision 2012 41

Exercice 4.34. On consid`ere le jeu stochastique ` a somme nulle suivant :

Vous aimerez peut-être aussi