Vous êtes sur la page 1sur 30

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumine

Visitez www.DeepL.com/pro pour en savoir plus.

présenté par CORE


Voir les métadonnées, les citations et les articles similaires fourni par Elsevier - Editeur Connecteur
sur core.ac.uk

Processus stochastiques et leurs applications 92 (2001) 163-180


www.elsevier.com/locate/spa

Généralités sur le jeu audacieux en rouge et noir


Marcus Pendergrassa , Kyle Siegrist b;∗
a
Time Domain, Inc, Huntsville, AL, USA
bDépartement de mathématiques, Université de l'Alabama à Huntsville, Huntsville, AL 35899, USA

Reçu le 29 février 2000 ; reçu sous forme révisée le 1er août 2000 ; accepté le 9 août 2000

Résumé
La stratégie du jeu audacieux dans le jeu du rouge et du noir conduit à un certain nombre de
propriétés mathématiques intéressantes : la fortune du joueur suit une carte déterministe, avant la
transition qui met fin au jeu ; la stratégie audacieuse peut être "remise à l'échelle" pour produire de
nouvelles stratégies avec la même probabilité de gain ; la probabilité de gain est une fonction
continue de la fortune initiale, et dans le cas équitable, elle est égale à la fortune initiale. Nous
considérons plusieurs chaînes de Markov dans des contextes plus généraux et étudions dans quelle
mesure les propriétés sont préservées. En particulier, nous étudions deux chaînes de Markov à "k
joueurs"
modèles. ⃝c 2001 Elsevier Science B.V. Tous droits réservés.

MSC : 60K10 ; 60J05


Mots clés : Rouge et noir ; Jeu audacieux ; Chaîne de Markov ; Temps de frappe

1. Introduction

Rappelons que dans le jeu du rouge et du noir (Dubins et Savage, 1965 ; Maitra et
Sudderth, 1996), le joueur commence avec une fortune initiale x (normalisée pour se
situer dans [0 ; 1]), puis parie sur une séquence d'essais de Bernoulli, à enjeux égaux,
jusqu'à ce qu'il atteigne s a cible (1) ou qu'il soit ruiné (0). Un résultat célèbre est que
dans le cas subfair, une stratégie optimale est le jeu audacieux, dans lequel à chaque
essai, le joueur mise toute sa fortune ou juste ce qui est nécessaire pour atteindre la cible,
selon ce qui est le plus petit.
Outre l'optimalité, la stratégie audacieuse présente un certain nombre de propriétés intéressantes :
(1) Avant la fin du jeu, le processus de fortune est déterministe et suit la carte.
x '→ 2x mod 1.
(2) La stratégie audacieuse peut être "redimensionnée", sur des sous-intervalles binaires de [0 ; 1], ce
qui donne
de nouvelles stratégies avec la même fonction de probabilité de gain.
(3) La probabilité de gain est une fonction continue de la fortune initiale.
(4) Dans le cas équitable, la probabilité de gain est la même que la fortune initiale du
joueur. L'objectif de ce document est d'étudier les chaînes de Markov dans un cadre plus
général qui préserve certaines de ces propriétés. Dans la section 3, nous étudions une
classe générale de chaînes de Markov partiellement équitables.

∗ Auteur correspondant. Fax : +1-256-890-6173.

Adresses électroniques : m a r c u s . p e n d e r g r a s s @ t i m e d o m a i n . c o m (M. Pendergrass),


siegrist@math.uah.edu
(K. Siegrist).

0304-4149/01/$ - see front matter ⃝c 2001 Elsevier Science B.V. Tous droits réservés.
PII : S 0 3 0 4 - 4 1 4 9 ( 0 0 ) 0 0 0 6 9 - 7
164 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180

chaînes déterministes - chaînes qui suivent une carte déterministe avant d'entrer dans un
ensemble d'états D. Nous obtenons des résultats pour la distribution du temps et du lieu
de frappe dans D. Les chaînes étudiées dans le reste du document appartiennent toutes à
cette classe générale.
Dans la section 4, nous étudions une chaîne sur l'espace des séquences {0, 1 , . . . , k - 1}∞ .
Lorsque k =2
et les séquences sont interprétées comme les coordonnées binaires de la fortune du joueur, le
correspond à un jeu audacieux standard en rouge et noir. Avec D comme ensemble de
séquences constantes, nous montrons que la chaîne possède la propriété de remise à
l'échelle pour tout k, et nous obtenons des résultats comparant le temps de frappe attendu
à D pour les chaînes remises à l'échelle. Les comparaisons de la valeur attendue sont
nouvelles même pour k =2. Malheureusement, sauf pour k =2, les chaînes sur l'espace des
séquences ne semblent pas avoir une interprétation naturelle des jeux de hasard.
Cependant, pour nous, le rouge et le noir est également intéressant en raison de ses
propriétés mathématiques et, en particulier, de ses liens avec les systèmes dynamiques.
Dans ce contexte, le modèle de l'espace des séquences est le foyer mathématique naturel
de la propriété de remise à l'échelle.
Dans la section 5, nous étudions les chaînes de Markov qui généralisent naturellement
le jeu audacieux avec k joueurs. Fondamentalement, les joueurs actifs parient sur des
essais multinomiaux, chacun misant la fortune minimale, le gagnant emportant la mise
totale. Lorsqu'un joueur est ruiné, il a b a n d o n n e . Là encore, lorsque k = 2, la
chaîne correspond à un jeu audacieux en rouge et noir standard. Pour k général, nous
montrons que la probabilité qu'un joueur donné soit le gagnant final est une fonction
continue de l'état initial et, dans le cas équitable, est égale à sa fortune initiale. Le résultat
de la continuité est particulièrement intéressant pour deux raisons. Premièrement, les
probabilités qu'un joueur survive aux éliminations intermédiaires sont des fonctions
discontinues de l'état initial. Deuxièmement, le résultat de continuité ne dépend pas de la
façon dont les proba- bilités de gain des essais sont réattribuées lorsqu'un joueur
abandonne. D'autre part, sauf lorsque k = 2, la propriété de remise à l'échelle ne semble
pas se vérifier, du moins d'une manière qui préserve la structure de base du modèle.
Le fait que nos deux modèles "k-dimensionnels" ne s'accordent que lorsque k = 2
suggère que le jeu audacieux standard en rouge et noir est très spécial.

2. Préliminaires

Soit S un espace mesurable et σ une carte mesurable de S dans lui-même. Pour n =


0, 1 , . . . , on désigne par σn la n-composition de σ avec elle-même (σ0 est la carte d'identité).
Supposons que D ⊆ S soit mesurable. Le rang de x par rapport à D et σ est la première
fois que l'orbite de x entre dans l'ensemble D :
r(x) = inf {n¿0 : σn (x) ∈ D}.
En général, la carte σ et l'ensemble D ressortent clairement du contexte et sont donc
supprimés dans la notation.

Lemma 1. Si r est la fonction de rang de D par rapport à σ , alors r satisfait à la


propriété de décalage suivante par rapport à σ :
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 165
r(x)¿k ⇒ r(σk (x)) = r(x) - k.
Inversement, si r : S → {0, 1,...} ∪ {∞} satisfait la propriété de décalage par rapport à σ,
alors r
est la fonction de rang de D = {x ∈ S : r(x)= 0}.
166 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180

Dans de nombreux cas d'intérêt, l'ensemble D est


fermé sous σ : x ∈ D ⇒ σ(x) ∈ D.
En l' occurrence,
r(x)6k ⇔ σk (x) ∈ D.
Supposons ensuite que p : S → R. Nous définissons les puissances de p par rapport
à σ et D comme suit :
p n (x)= p(x)p(σ(x)) - - - p(σn−1 (x))1(n¡ r(x)).
(La notation 1(B) désigne la fonction indicatrice d'un événement B.) Comme d'habitude,
un produit sur un ensemble d'indices vide est interprété comme 1. Comme pour le rang,
les puissances dépendent de l a carte σ et de l'ensemble D, mais cette dépendance est
généralement supprimée dans la notation.

Lemma 2. Les puissances de p satisfont la loi d'exposant suivante par rapport à


σ : pk (x)pn (σk (x)) = pn+k (x) pour x ∈ Set n, k = 0, 1,.... .
Inversement, si f : S × {0, 1,...}→ R satisfait à la loi des exposants par rapport à σ, alors
f(x, k)= pk (x) pour x ∈ S, k ∈ {0, 1,...},
où p(x)= f(x, 1) pour x ∈ S et D = {x ∈ S : f(x, 0)= 0}.

3. Chaînes partiellement déterministes

Comme dans la dernière section, supposons que σ : S → S et D ⊆ S sont mesurables. Soit X =


{Xn : n = 0, 1,...} est une chaîne de Markov avec un espace d'états S et une fonction de
transition P. Nous supposons que P(x, -) a un support discret Sx pour chaque x ∈ S.
Comme d'habitude, nous écrivons Px et Ex pour la probabilité et la valeur attendue,
respectivement, conditionnées par X0 = x. De même, en tant que
De manière habituelle, nous adjoignons un état "mort" 𝜕 à S et définissons X∞ = 𝜕. Une fonction
mesurable
f : S → R est automatiquement étendue à S ∪ {𝜕} par f(𝜕)= 0.
Soit τ le temps de réponse de X à D :
τ = inf {n¿0 : Xn ∈ D}.
A partir de la théorie générale, rappelons ce qui suit.

Lemma 3. Pour A ⊂ D, x '→ Px (Xτ ∈ A) est la plus petite fonction non négative sur S
satisfaisant
�1(x ∈ A) si x ∈ D,
Σ
Px (Xτ ∈ A)= P(x, y)P (X ∈ A) si x ∈ S - D. (1)
, y τ
y∈Sx

Nous sommes également intéressés par le temps d'arrêt suivant :


T = inf {n¿0 : Xn /= σn (X0 ) ou σn (X0 ) ∈ D},
la première fois que le système dynamique entre dans D ou que l'état de la chaîne diffère
M. Pendergrass,
de celui du système K. Siegrist / Stochastic
dynamique. Processes andconjointe
La distribution their Applications
de (T,92XT(2001) 163-180
) peut être exprimée167
comme suit
168 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180

simplement en termes de puissances de p : S → [0, 1] définies par p(x)= P(x, σ(x)).


La preuve est simple.

Théorème 4. Pour x ∈ S, A ⊆ S,

Px (T = 0, XT ∈ A)= [1 - p0 (x)]1(x ∈ A),

Px (T = n, XT ∈ A)= pn−1 (x)P(σn−1 (x), A) - pn (x)1(σn (x) ∈ A), n¿1.

Corollaire 5. Pour x ∈ S,

Px (T ¿ n)= pn (x), n = 0, 1,... .

Px (T = ∞) = pn (x).
lim
n→∞


Σ
Ex (T )= pn (x).
n=0

Corollaire 6. Le temps d'arrêt T a la propriété suivante d'être sans mémoire par rapport à
σ : Pour x ∈ S et n, m = 0, 1,...,
Px (T ¿ n + m)= Px (T ¿ n)Pσ n (x)(T ¿ m).

Notons que si p est constant sur l'orbite de

x p(σn (x)) = ax pour n = 0, 1,.... ,

alors, étant donné X0 = x, T a la distribution géométrique avec le paramètre ax , tronquée à


r(x) si r(x) ¡ ∞. En revanche, si
p(σn (x))6ax ¡ 1 pour n = 0, 1,... ,

alors la distribution de T étant donné X0 = x est stochastiquement plus petite que la


distribution géométrique avec le paramètre ax . En particulier, Ex (T ) ¡ ∞ et Px (T
¡ ∞)= 1.

Définition 7. Nous dirons que la chaîne X suit σ avant d'atteindre D si

n ¡ τ ⇒ Xn = σn (X0 ).

Ainsi, avant l'entrée dans D, la chaîne évolue de manière déterministe, selon la carte
σ. Dans ce c a s , T et τ sont en accord.

Lemma 8. Si X suit σ avant d'atteindre D, alors τ = T .

Ainsi, le théorème 4 et ses corollaires sont valables (avec T remplacé par τ).
Comme XT ∈ D si T ¡ ∞, la distribution de XT a une forme simple, que nous donnons
en termes de valeur attendue.
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 169

Corollaire 9. Supposons que X suive σ avant d'atteindre D et que g : D → R soit


méa- surable. En supposant que la valeur attendue existe,
,
g(x) si x ∈ D,
,� ∞
E [g(X )] =
x T ,, pn (x)P g(σn (x)) si x ∈ S - D,
D
Σ n=0
Σ
où PD g(y)= z∈D P(y, z)g(z).

Plusieurs faits méritent d'être notés. Tout d'abord, seules les valeurs de σ sur S -D sont
pertinentes dans la définition 7. Trivialement, toute chaîne suit σ avant d'atteindre S, pour
tout σ. À l'autre extrême, une chaîne qui suit σ avant d'atteindre ∅ est purement
déterministe, à l'exception de l'état initial. Un cas particulier important est celui où D est
fermé par rapport à X :

Xn ∈ D ⇒ Xn+1 ∈ D.
En fait, dans de nombreux cas intéressants, il existe une chaîne d'ensembles,

Dk ⊆ Dk−1 ⊆ - - - ⊆ D0 = S,

telle que pour i = 1 , . . . , k, Di est fermée sous X et σ, et la chaîne restreinte à Di−1


suit σ avant d'atteindre Di .

4. Le modèle de l'espace séquentiel

Dans cette section, nous étudierons les chaînes de Markov sur un espace de séquences
qui généralisent les stratégies audacieuses standard et les stratégies audacieuses
redimensionnées en rouge et en noir, lorsque les fortunes sont exprimées en coordonnées
binaires.
Soit K = {0, 1 , . . . , k - 1} où k¿2 est un entier et soit S = K∞ . Nous donnons à K le nom de
la topologie discrète, S la topologie du produit correspondant et la σ-algèbre de Borel. En général,
nous appellerons les séquences (finies ou infinies) des chaînes de caractères :

x = x x12 . . . .
Si x est une séquence finie et y une séquence, xy désigne la concaténation de x avec
y. Si a ∈ K, a∗ ∈ S désigne la suite constante aaa...............Soit D = {a∗ : a ∈ K }.
Les coordonnées de x ∈ S peuvent être interprétées comme les coordonnées de base k pour un
nombre
dans [0, 1], tel que défini par la carte

Σ
x '→ i . (2)
ki
x i=1
La carte est onto, mais pas one-to-one bien sûr. Plus précisément, si xj <k - 1 alors
les séquences

x1 . . . x xj−1j (k - 1)∗ , x1 . . . xj−1 (xj + 1)0∗


correspondent au même nombre dans [0, 1]. Enfin, notons que i∗ correspond à i/(k -
1) et que, par conséquent, les éléments de D divisent [0, 1] en k - 1 sous-intervalles
170 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180
de même longueur 1/(k - 1).
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 171

Pour j = 1, 2 , . . . , définissez σj , ρj : S → S par


σ j (x)= x1 - - - x xj−1j+1 - - - , (3)

ρ j (x)= x1 - - - x xjj−1∗ . (4)


Ainsi, σj supprime la coordonnée j et ρj réplique la coordonnée j. Nous abrégerons σ1 et
ρ1 par σ et ρ, respectivement.
Soit r la fonction de rang de D par rapport à σ. Dans ce cas
r(x) = inf {j : xj+1 = xj+2 = -- -}.
Sous l'application (2), les séquences de rang fini s'appliquent aux rationnels de base
k, nombres de la forme m/[(k - 1)kn ] pour certains n et certains 06m6(k - 1)kn .
Notons que
σ j (x)= x ⇔ ρ j (x)= x ⇔ σ j (x)= ρj (x) ⇔ r(x) < j.
Soit pi ∈ [0, 1] pour i ∈ K . La chaîne de premier ordre est définie comme la chaîne de Markov sur
S avec des probabilités de transition
P(x, σ(x)) = px 1 , P(x, ρ(x))=1 - px 1 .
La chaîne suit σ avant d'atteindre D, et les résultats de la section 3 s'appliquent. Ainsi, si T
représente le temps d'accès à D, puis
Px (T ¿ n)= px 1 - - - p nx si r(x) ¿ n.

Σ
r(x)-1
G(x)= Ex (T )= px 1 - - - p x n .
n=0

Soit V (x, a ∗ )= Px (XT = a∗ ) pour x ∈ S et a∗ ∈ D. Alors


V (x, a ∗ )= (1 - pa )1{x1 = a} + p ∗
1 x V (σ(x), a ), (5)
Σ

V (x, ∗a ) = - - - px n (1 - pa )1{xn+1 = a}. (6)
1
n=0
px
Si k = 2, la chaîne sur S peut être considérée comme une chaîne sur [0, 1], via la carte
définie par (2), si et seulement si la condition de cohérence suivante est respectée :
p1 = 1 - p0 . (7)
Dans ce cas, la chaîne correspond au jeu audacieux en rouge et noir classique (Dubins et
Savage, 1965 ; Maitra et Sudderth, 1996). L'état x ∈ [0, 1] est la fortune du joueur. La
mise lorsque la fortune est x est β(x) = min{x, 1 - x}. Les probabilités de transition sont
P(x, 2x)= p0 , P(x, 0 ) = 1 - p0 si 06x61 , 2

P(x, 2x - 1 ) = 1 - p0 , P(x, 1) = p0 si1 6x61.


2

Même dans c e c a s , le plus étudié, les expressions de la probabilité d e gain et de la


durée attendue du jeu données ci-dessus sont plus simples que c e l l e s habituellement
données dans la littérature (voir Billingsley, 1986 par exemple). Une expression
essentiellement équivalente pour la probabilité de gain (dans le cas standard k = 2) est
donnée dans Wilkins Jr (1972).
172 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180

Si k = 3, la chaîne sur S peut être considérée comme une chaîne sur [0, 1], via la carte
(2), si et seulement si les conditions de cohérence suivantes sont remplies :
p0 = 0, p1 = 1, p2 = 0.
La chaîne résultante est déterministe, et donc triviale. Si k ¿ 3, la chaîne sur S ne
correspond jamais à une chaîne sur [0, 1], quelle que soit la définition des pi .
Néanmoins, comme nous le montrerons plus loin, la formulation de l'espace des
séquences est une généralisation naturelle en raison de la propriété de remise à l'échelle.
La chaîne d'ordre j est définie comme la chaîne de Markov avec des probabilités de transition
Pj
comme suit :
Pj (x, σj (x)) = px j , Pj (x, ρ j (x))=1 - px j si r(x)¿j,

Pj (x, σi (x)) = px i , Pj (x, ρ i (x))=1 - px i si r(x)= i, 0 <i < j,

Pj (x, x ) = 1 si r(x)= 0.
Notez que si i<j, la chaîne d'ordre i et la chaîne d'ordre j ont les mêmes
probabilités de transition et se comportent donc de la même manière, en commençant
par un état de rang i ou inférieur.
En fin de compte, la chaîne d'ordre j est absorbée dans un état a∗ ∈ D. L'ingrédient clé pour le
développement d'une chaîne d'ordre j est le suivant
L'un des résultats les plus importants de cette section est la propriété de cohérence suivante en cas de
décalage.
La preuve découle directement des définitions.

Lemma 10. Soit X la chaîne d'ordre j et T le temps de réponse de X à D = {x ∈ S


: r(x)= 0}. Soit Y la chaîne d'ordre j + 1 et U le temps d'accès de Y à D1 = {x ∈ S
: r(x)61}. Alors {σ(Yn ) : 06n6U }, étant donné Y0 = x,
est équivalent à {Xn : 06n6T }, étant donné X0 = σ(x).

Pour la chaîne d'ordre j X, laissons


G j (x)= Ex (T ), x ∈ S,

Vj (x, a ∗ )= Px (XT = a∗ ), x ∈ S, a∗ ∈ D,
où T est le temps d'impact de X sur D. L'équation fonctionnelle générale (1) devient dans
ce cas
Vj (x, a ∗ )= pjx Vj (σj (x), a ∗ )+ (1 - pj x )Vj (ρj (x), a∗ ). (8)
D'autre part, nous avons également

Lemma 11. Pour j = 1, 2,. .. ,


Vj+1 (x, a ∗ )= px 1 Vj (σ(x), a ∗ )+ (1 - pa )1(x1 = a), x ∈ S, a∗ ∈ D.

Preuve. Soit X la chaîne d'ordre j + 1, et comme dans le lemme 10, soit U le


temps de passage de X à D1 = {x ∈ S : r(x)61}. Soit x ∈ S, a∗ ∈ D et supposons
d'abord que x1 /= a. Pour aller de x à a∗ , la chaîne doit aller de x à x a1∗ et ensuite
en une étape à
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 173
a∗ . Par le lemme 10,
Vj+1 (x, a ∗ )= Px (XU = x a1∗ )P(x a1∗ , a ∗ )= Vj (σ(x), a∗ )px 1 .
174 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180

Supposons maintenant que x1 = a. Pour passer de x à a∗ , la chaîne doit d'abord passer à


un état de l a forme ab∗ (b peut ou non être égal à a) et ensuite, si b /= a, passer en une
étape à a∗ . Encore une fois, par le lemme 10,

Vj+1 (x, a ∗ )= (1 - Vj (σ(x), a∗ ))(1 - p a )+ Vj (σ(x), a )∗


= p Vaj (σ(x), a ∗ )+ (1 - pa ).

Théorème 12. Vj = V pour j = 1, 2 , . . . .

Preuve. Par définition, V1 = V . Supposons que Vi = V pour i<j. Soit x ∈ S et a∗ ∈


D. Si r(x)= i < j alors par définition et par hypothèse d'induction,
Vj (x, a ∗ )= Vi (x, a ∗ )= V (x, a∗ ).
Si r(x)¿j, alors par le lemme 11 et (5),
Vj (x, a ∗ )= p1 x Vj−1 (σ(x), a ∗ )+ (1 - pa )1{x1 = a}
= px 1V (σ(x), a ∗ )+ (1 - pa )1{x1 = a} = V (x, a∗ ).
Si k =2 et que la condition de cohérence (7) est remplie, alors la chaîne d'ordre j
correspond à une chaîne sur [0, 1] par l'intermédiaire de la carte (2). En outre, ces
chaînes d'ordre supérieur correspondent aux stratégies audacieuses "échelonnées" en
rouge et en noir (voir Dubins et Savage, 1965). Plus précisément, les fonctions de
pari sont définies récursivement comme suit :
β 1 (x)= β(x) = min{x, 1 - x}, (9)
et pour j = 2, 3,...,
,
, βj−1 (2x)/2 si 0 <x <1 ,
� 2
β j (x)= 1/2 si x =1 , (10)
2
,
,
βj−1 (2x - 1) si 2<x < 1.
1

Le théorème 12 généralise donc le résultat bien connu en rouge et noir standard selon
lequel les stratégies échelonnées conduisent à la même fonction de probabilité de gain
que la stratégie audacieuse.
Soit J : S - D → {1, 2,...} qui satisfait J (x)6r(x). Pour x ∈ S - D, définissons
σJ (x)= σJ(x) (x),

ρJ (x)= ρJ(x) (x),

pJ (x)= px J (x) .
Pour être complet, définissons σJ (x)= ρJ (x)= x pour x ∈ D.
La chaîne de Markov associée à J est définie comme suit :
PJ (x, x ) = 1 si r(x)= 0,

PJ (x, σJ (x)) = pJ (x), PJ (x, ρJ (x))=1 - pJ (x) si r(x) ¿ 0.


Note that for fixed j, the order j chain is simply the chain associated with the
function
r(x) si r(x) < j,
J (x)=
j si r(x)¿j.
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 175

La chaîne associée à J est finalement absorbée dans un état de D. Ainsi, avec notre
notation habituelle, laissons T représenter le temps d'accès à D, GJ la fonction de valeur
attendue pour T, et VJ le noyau d'accès pour T .

Théorème 13. Si pi < 1 pour chaque i, alors V = VJ .

Preuve. Soit X la chaîne associée à J et soit T le temps de réponse de


X à D. À chaque pas de temps, la probabilité d'entrer dans un état de rang fini est au
moins 1 - max{pi : i = 0 , . . . , k - 1} ¿ 0.
Une fois que la chaîne entre dans un état de rang n, elle atteint D en n étapes ou moins. Ainsi, pour
tout x ∈ S,
Px (T < ∞)= 1.
Soit a∗ ∈ D. Trivialement,
VJ (b∗ , a ∗ )= V (b∗ , a ∗ )= 1(b, a) pour b∗ ∈ D.
Pour x ∈ S - D, l'équation fonctionnelle (1) devient
VJ (x, a ∗ )= pJ (x)VJ (σJ (x), a ∗ )+ (1 - pJ (x))VJ (ρJ (x), a∗ ).
Mais aussi d'après (8) et le théorème 12, nous avons pour x ∈ S - D
V (x, a ∗ )= pJ (x)V (σJ (x), a ∗ )+ (1 - pJ (x))V (ρJ (x), a∗ ).
Par conséquent, d'après le lemme 3, nous avons VJ = V .

Lorsque k = 2 et que la condition de cohérence (7) est remplie, la chaîne associée à J


peut également être considérée comme une chaîne sur [0, 1] par l'intermédiaire de la
carte (2). La fonction de pari correspondante est
0 si x ∈ D, βJ(x)
βJ(x)=
(x) si x ∈ S - D,
où βj est donné dans (9) et (10). Ainsi, le théorème 13 généralise le résultat bien connu
dans le cas du rouge et du noir standard qui stipule que la stratégie avec la fonction de
pari βJ donne la même fonction de probabilité de gain que la stratégie audacieuse. De
plus, dans le cas subfair, ces stratégies, pour toutes les fonctions J , définissent toutes les
stratégies optimales déterministes stationnaires (voir Dubins et Savage, 1965).
Le noyau V a quelques propriétés intéressantes. Remarquons d'abord, d'après
(6), que V (x, a∗ ) est continu en tant que fonction de x, et si xn /= a pour tout n,
alors V (x, a∗ ) = 0. Considérons le cas uniforme où pi = 1/k pour i = 0, 1 , . . . , k -
1. Alors (6) devient

Σ k - 11 x = a .
V (x, a ∗ )= kn {n }
n=1
Notons que si x, y ∈ S et xn = a si et seulement si yn = a, alors V (x, a ∗ )= V (y, a∗ ). De même,
V (x, a∗ ) ∈ [0, 1] correspond à la suite v(x, a∗ ) ∈ S donnée par
vn (x, a ∗ )= (k - 1)1(xn = a).
En particulier, v(x, 1 ∗ )= x uniquement lorsque k = 2.
Nous allons maintenant nous intéresser au temps de frappe prévu pour D.
176 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180

Lemma 14. Pour j = 1, 2,. .. ,

Gj+1 (x)= Gj (σ(x))+ [1 - V (σ(x), x∗ 1)].

Preuve. Soit X la chaîne d'ordre j + 1, T le temps de réponse de X à D et U le


temps de réponse de X à D1 = {x ∈ S : r(x)61}. Étant donné X0 = x,
T = U + [1 - 1(XU = x∗1 )].
D'où

Ex (T ) = Ex (U ) + [1 - Px (XU =1 x∗ )].
Mais d'après le lemme 10
Ex (U ) = Gj (σ(x))
et
Px (XU = x ∗ )= V (σ(x), x∗ ).
1 1

Corollaire 15. Pour j = 1, 2,...


j-1
Σ
G j (x)= G(σj (x)) + W (σn (x)), x ∈ S,
n=0

où W (x)=1 - V (σ(x), x∗ ) 1pour x ∈ S.

Théorème 16. Si r(x) < ∞, alors Gj (x)= Gr(x) (x) pour j¿r(x). Si r(x)=∞ alors Gj (x) ↑
∞ comme j → ∞.

Preuve. Remarquons d'abord, d'après le corollaire 15, que

Gj+1 (x) - G j (x)= G(σj+1 (x)) - G(σj (x)) + W (σj (x)). (11)
Si r(x)6j alors σj (x) ∈ D et σj+1 (x) ∈ D donc
G(σj+1 (x)) = G(σj (x)) = W (σj (x))= 0,
et donc Gj+1 (x)= Gj (x). Supposons donc que r(x)= ∞. Dans ce cas
G(σ j (x))=1+ px j+1 G(σj+1 (x)),
de sorte que la substitution dans (11)
donne

Gj+1 (x) - G j (x)= G(σj+1 (x))(1 - px j+1 ) - [1 - W (σj (x))].


Ainsi, pour montrer que Gj+1 (x)¿Gj (x), il suffit de montrer que

G(σj+1 (x))(1 - px j+1 ))¿1 - W (σj (x)). (12)


Mais pour montrer (12), il suffit de montrer que

V (z, a∗ )6(1 - pa ))G(z) (13)


M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 177

pour tout z avec r(z)= ∞ et tout a ∈ {0 , . . . , k - 1}. Rappelons que


r(z)-1
Σ pz1
V (z, a )= ∗ - - - pnz P(σn (z), a∗ ),
n=0
r(z)-1
Σ
G(z)= pz 1 - - - p z n .
n=0

But since r(z)= ∞,


1- pa si zn+1 = a,
P(σn (z), a ∗ )= (14)
0 si zn+1 /= a
et donc (12) tient. Enfin, pour montrer que Gj (x) → ∞ comme j → ∞, il suffit par
le Corollaire 15 de montrer que W (σn (x)) est borné au dessus de 0 pour une infinité
de n. A son tour, il suffit de montrer
n que V (σn (x), x∗ ) est borné au dessous de 1
pour une infinité de n. Ceci est
trivialement vrai puisque r(x)= ∞ et pi ∈ (0, 1) pour i ∈ {0 , . . . , k - 1}.

Lorsque k = 2 et que la condition de cohérence (7) est remplie, Gj (x) est le temps
de jeu attendu en rouge et noir avec la fonction de pari βj définie dans (9) et (10).
Même dans ce cas, le théorème 16 est nouveau, à notre connaissance. Le théorème
montre que dans le cas subfair, à partir d'une fortune irrationnelle binaire x, il existe
des stratégies optimales avec un temps de jeu attendu arbitrairement grand. Pour
d'autres résultats concernant le temps de jeu dans les jeux liés au rouge et au noir,
voir Klugman, 1977 ; Kulldorff, 1993 et Ross, 1974.

5. Le processus audacieux à k joueurs

Ensuite, nous considérons une formulation naturelle du jeu audacieux avec k joueurs
dans un espace d'état général ; un cas spécial correspond au jeu audacieux en rouge et
noir avec k joueurs. Nous prouverons un résultat général de continuité pour la valeur
attendue d'une fonction de l'état final. Un cas particulier donnera la continuité, en tant
que fonction de l'état initial, de la probabilité de gain d'un joueur pour le jeu audacieux en
rouge et noir à k joueurs. En nous spécialisant davantage dans le cas équitable, nous
montrerons que la probabilité de gain d'un joueur est égale à sa fortune initiale
(normalisée).
Soit S un espace topologique, et que {Si : 06i6k - 1} soit un espace fermé, ne se
chevauchant pas, et que {S : 06i6k - 1} soit un espace fermé, ne se chevauchant pas.
couverture topologique de S. Cela signifie que
[
k-1
S= Si , (15a)
i=0

Si = int Si , (15b)

i /= j ⇒ int Si ∩ int Sj = ∅. (15c)


Soit D ⊂ S un sous-ensemble fermé, propre et non vide de S, et supposons qu'il existe
les cartes de joueurs σi : S → S, 06i6k - 1 satisfaisant
178 M. Pendergrass,
σi est continueK.sur
Siegrist
S, / Stochastic Processes and their Applications 92 (2001) 163-180 (16a)
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 179

σ i (x)= x pour tout x ∈ D, (16b)


σi (x) ∈ Dif et seulement si x /∈ int Si . (16c)
Nous considérerons des chaînes de Markov X sur S dont les probabilités de transition P
satisfont
P(x, σi (x)) = pi pour x ∈ S - D,
où pi > 0 pour i = 0 , . . . , k -1 et p0 + - - - + pk−1 =1. Les points x ∈ S sont considérés
comme codant les "fortunes" des "joueurs", et les cartes des joueurs σi (x) donnent le
nouvel état
du processus lorsque l'état actuel est x et que le joueur i gagne l'essai suivant. Le
comportement de X sur D lui-même n'a pas été spécifié ici. En effet, D est destiné à
modéliser les états dans lesquels au moins un des joueurs a abandonné le jeu, et dans ces
régions, nous voulons laisser ouverte la possibilité qu'un ensemble différent de cartes de
joueurs
pourrait prendre le relais. Les ensembles D ∩ Si doivent être considérés comme ayant
la même structure que S, mais adaptés à k - 1 joueurs plutôt qu'à k. Ainsi, une chaîne
à k joueurs X peut être entièrement spécifiée par "découpage" (voir Ikeda et al.,
1966), chaque pièce correspondant à l'ensemble des joueurs de la chaîne.
nombre de joueurs encore actifs dans le jeu.
Soit σ : S → S toute fonction satisfaisant σ(x) ∈ {σi (x) : x ∈ Si }. Alors par (15c),
σ(x)= σi (x) et p(x)= pi si x ∈ int Si . Par (16c) la chaîne audacieuse à k joueurs X suit
σ avant d'atteindre D. Il est facile de montrer que la fonction de rang r est la même
pour toutes les fonctions de rang.
fonctions σ satisfaisant σ(x) ∈ {σi (x) : x ∈ Si }.
Le jeu audacieux en rouge et noir standard s'inscrit dans ce cadre : soit S = [0, 1], D =
{0, 1}, S0 = [0,1 ], S1 = [1 , 1], et que x ∈ S soit la fortune du joueur audacieux (joueur 0),
2 2
1 - x ∈ S la fortune de la maison (joueur 1). Les cartes des joueurs sont
(
2x si x ∈ S0 ,
σ0(x)=
1 si x ∈ S1 ,
(
0 si x ∈ S0 ,
σ1(x)=
2x - 1 si x ∈ S1
et nous pouvons prendre σ(x)= 2x mod 1, par exemple.
D'une manière plus générale, on désigne par S = S(k) le simplexe à (k - 1) dimensions.
)
( Σ
k-1
xi = 1 .
S = x = (x 0 ,..., xk−1 ) : xi ∈ [0,
i=0
1],
Un point x ∈ S est un vecteur de fortune, représentant les fortunes de k joueurs,
étiquetés 0, 1 , . . . , k - 1 ; xi est la fortune du joueur i. La fortune totale est donc
normalisée à 1. Soit D l'ensemble des états x ∈ S dans lesquels au moins un des
joueurs est ruiné :
k-1
[
D= {x ∈ S : xi = 0}.
i=0

Notez que D n'est que la frontière de S. Chacun des k ensembles de l'union


comprenant D est isomorphe au simplexe S(k−1) , et constitue l'espace d'état d'un jeu
180 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180
audacieux à (k - 1) joueurs.
Soit Si l'ensemble des états dans lesquels le joueur i a la fortune minimale. Les ensembles
Si , i = 0 , . . . , k - 1 sont fermées et ne se croisent qu'à leurs limites, qui représentent
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 181

Fig. 1. L'espace d'état S(3) pour l'audace à trois joueurs.

les états dans lesquels deux joueurs ou plus ont tous deux la fortune minimale. Les Si 's
forment en fait une couverture topologique fermée et sans chevauchement de S. Les
cartes de joueurs σi sont définies sur S par
(
xi + (k - 1)β(x) si j = i,
σij (x) =
xj - β(x) si j /=
i,
où β(x) est la mise de chaque joueur, définie par

β(x) = min{xi : 06i6k - 1}, x ∈ S - D.

En se référant à la figure 1, la carte des joueurs σi dans un jeu à trois joueurs étire le
triangle Si linéairement sur l'espace d'état complet S, tandis que les points en dehors de Si
sont forcés à la frontière D. Le gagnant de chaque essai collecte les paris de tous les
autres joueurs. Notez que chaque joueur mise un montant égal à la fortune du joueur
minimum. Le modèle peut donc être considéré comme k joueurs audacieux qui jouent un
"jeu amical", dans lequel le joueur ayant la fortune minimale contrôle les mises. Les
cartes de joueurs σi sont continues sur
S. Soit σ toute carte satisfaisant σ(x) ∈ {σi (x) : x ∈ Si }. Encore une fois, cela force σ(x)=
σi (x) si x ∈ int Si . Nous sommes maintenant dans le cadre défini ci-dessus, et en
particulier, le jeu à k joueurs.
La chaîne audacieuse X suit σ avant d'atteindre D. Lorsqu'un ou plusieurs joueurs ayant la
fortune minimale perdent un essai, ces joueurs a b a n d o n n e n t et la chaîne entre en D,
en procédant à partir de ce point avec des cartes de joueurs et des probabilités différentes,
correspondant au nouveau nombre de joueurs. Nous appellerons ce modèle le modèle de
base à k joueurs.
Le cas équitable, dans lequel chaque joueur a la même probabilité de gagner un essai à
chaque étape du jeu, est particulièrement intéressant. Pour x ∈ S, n o t o n s N (x) les
joueurs actifs, et n(x) le nombre de joueurs actifs :

N (x)= {i : xi > 0}, n (x)= |N (x)|.

Alors p i (x)= 1/n(x) pour tout x ∈ S. Le jeu continue jusqu'à ce qu'un joueur ait tout
l'argent. Ainsi, A = {ei : 06i6k - 1} sont les états terminaux, où les ei sont les
vecteurs unitaires standard dans Rk . Soit TA le temps d'accès à A. La probabilité que
le joueur i remporte le
est Px (XT A = ei ). La substitution directe montre que la correspondance x '→ xi satisfait
(1) du Lemma 3, et donc
182 M.
Px Pendergrass,
(XT A = e K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180
i )= xi , (17)
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 183

généralisant un résultat de base dans les jeux de hasard standard rouge et noir.
(L'équation (17) découle également du théorème de l'échantillonnage optionnel, puisque
le processus de fortune du joueur i est une martingale dans le cas équitable).
Soit TD le temps d'accès à D. Le corollaire 5 implique que pour x ∈ S - D
1 1 1
E x [T D ]= 1 + 1 - 6 1 + ,
kr(x)
k-1 k-1
de
sorte k-1

que
Σ
Ex [TA ]6k + (18)
1 i

i=2

pour tout x ∈ S. La détermination exacte de Ex [TA ] semble être difficile en raison du


changement de rang du vecteur de fortune lorsque les joueurs abandonnent le jeu.
Revenons au cadre général. Dn ={x ∈ S : r(x)6n} désigne les points de rang n ou
moins dans S. Les ensembles Dn sont imbriqués : Dn ⊆ Dn+1 . Le lemme suivant relie
la structure des ensembles de partitionnement Si à l'ensemble D1 :

Lemma 17.
[
k-1
D1 = @Si .
i=0

Preuve. Si x ∈ D1 , alors σ(x) ∈ D, ce qui implique que σi (x) ∈ D pour tout i avec x ∈
Si . Par (16c), cela implique que x ∈ @Si . D'autre part, si x ∈ @Si pour certains i,
alors x /∈ int Sj pour tous les j. Ainsi, σj (x) ∈ D pour tous les j, et donc σ(x) ∈ D.
L'union de tous les Dn est l'ensemble DF des points de rang fini, et le complément de
DF dans S est l'ensemble D∞ des points de rang infini. Notons que par le lemme 17, les
points de rang infini ont des orbites sous σ qui restent toujours dans les intérieurs du
partitionnement
définit Si .

Définition 18. L'itinéraire de x ∈ S est la se- quence (éventuellement vide, finie ou


infinie) s(x)=(sn (x) : n = 0, 1 , . . . , r(x) - 2) où sn (x)= i si et seulement si σn (x) ∈ int
Si .

Le domaine de sn est donc S - Dn+1 . Les points dans D1 ont des itinéraires vides, les points dans S - D ont
des itinéraires vides, les points dans S - D ont des itinéraires vides.
Dn , n¿1 ont des itinéraires finis, et les points de D∞ ont des itinéraires infinis.
Le lemme suivant est nécessaire pour prouver le résultat de continuité. Les preuves sont directes.
en avant.

Lemma 19. (1) σn est continu sur S - Dn .


(2) Soit x ∈ D. Pour chaque voisinage U de x et chaque c¿1, il existe un voisinage
V de x tel que σi n σi n-1 . . . σi 1 (y) ∈ U pour tout y ∈ V, tout n = 0, 1 , . . . , c, et toutes
les sélections d'indices in , i n − 1 ,..., i1 .
184 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180
Rappelons qu'une fonction g : S → R est continue par rapport à E ⊆ Y si g|E est
continue au sens ordinaire par rapport à la topologie du sous-espace sur E. Nous pouvons
maintenant affirmer que
le théorème principal de cette section.
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 185

Théorème 20. Supposons que g : D → R est borné et continu sur D dans la topologie
du sous-espace. Soit TD le temps d'accès à D. Alors la cartographie f : x '→ Ex [g(XT
D )] de S vers R est une extension continue de g.

Preuve. Notons que f(x) = g(x) si x ∈ D, donc f est un prolongement de g.


Naturellement, f est continue relativement à D. Nous devons montrer que f est
continue sur tout S. Pour cela,
nous devrons considérer séparément les cas de rang infini et de rang fini.
D'après le corollaire 9, rappelons que

Σ
f(x)= pn (x) a(σn (x)), (19)
n=0

où a = PD g. Pour voir la continuité de f sur D∞ , notons que pour tout x ∈ D∞ nous avons
n
|pn (x)a(σn (x))|6 p a .
La série en (19) converge donc uniformément sur D∞ . Par conséquent, f sera
continue sur D∞ si aσn et pσn le sont. Tout d'abord, nous affirmons que a et p sont
S
effectivement continus sur leurs domaines entiers S - D1 . C'est clair pour i=0 p, puisque
S - D1 =k−1 int Si , et p(x) = pi pour x ∈ int Si . Pour a, notons que i /= s0 (x) implique
σi (x) ∈ D. Puisque f est
continue par rapport à D, pour tout ε> 0 il existe un ensemble ouvert Vi contenant σi (x)
tel que |f(σi (x)-f(y)| <ε pour tout y ∈ Vi ∩D. Or σi est continue en x, donc il
existe un voisinage Ui de x avec σi (x′ ) ∈ Vi pour tout x′ ∈ Ui . Puisque x ∈ S -D1
⇒ x ∈ int Ss 0 (x),
on peut supposer que Ui ⊆ int Ss 0 (x). Ainsi, puisque i /= s0 (x), on a
x′ ∈ Ui ⇒ σi (x′ ) ∈ Vi ∩ D ⇒ |f(σi (x)) - f(σi (x′ ))| < ε.
Soit U = k-1 Ui . Alors U est un voisinage de x, et
i=/s0 (x)
T
x′ ∈ U ⇒ |f(σi (x)) - f(σi (x′ ))| <ε
pour tout i /= s0 (x). De ceci |a(x)-a(x′ )| <ε découle facilement, prouvant que a est
continue sur S - D1 . Ainsi a ◦ σn et p ◦ σn sont continues sur D∞ pour tout n par le
Lemma 19, et la convergence uniforme mentionnée ci-dessus implique maintenant
que f est continue sur D∞ .
Ensuite, nous affirmons que f est continue sur (plutôt que simplement relative
à) D. Pour le voir, prenons x ∈ D et ε> 0. Choisissons c¿1 tel que
c
p f < ε/4. (20)
Puisque f est continue par rapport à D, il existe un voisinage N1 de x tel que y ∈ N1 ∩D
implique que |f(x)-f(y)| < (1-�p )ε/2. Par la partie 2 du Lemma 19, il existe un
voisinage N2 de x tel que σi n σi n-1 . . . σi 1 (y) ∈ N1 pour tout y ∈ N2 , tout n = 0,
1 , . . , c, et toutes les sélections d'indices in , i n − 1 ,..., i1 . Nous montrerons que
|f(x) - f(y)| <ε pour tout y ∈ N2 .
Notons d'abord que, pour tout n, si r(y)¿n + 1, alors
Σ
n-1
f(y)= pn (y)f(σn (y)) + a(σt (y))pt (y)
t=0
= ps0
ps1
186 M. Pendergrass, K. Siegrist / Stochastic Processes
n and their Applications 92 (2001) 163-180
- - - ps n-1 1 ... ps - t-1 a(
1 Σ σt
0
f(σ
n (y)) + ps (y
t ))
ps =
0
,
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 187

où, pour faciliter la notation, nous avons écrit st = s t (y)= s0 (σt (y)). Écriture
n-1
Σ
ƒ(x)= ps 0 ps 1 . . . ps n-1 ƒ(x)+ ps 0 ps 1 . . . ps t-1 (1 - ps t ) ƒ(x)
t=0

nous constatons que si r(y)¿n + 1 alors


|ƒ(x) - ƒ(y)| 6 ps p0s . .1. ps n-1 |ƒ(x) - ƒ(σn (y))|
n-1
Σ
+ ps0 ps1 . . . ps
t-1 |a(σ (y)) - (1 - ps t)ƒ(x)|. (21)
t

t=0

Notons que pour t = 0, 1 , . . . , n - 1 nous avons


Σ
a(σt (y)) = pi ƒ(σi (σt (y))).
i=/st

Si y ∈ N2 , nous avons σi (σt (y)) ∈ N1 ∩ D pour tout t6c - 1 et tout i /= st , ce qui


implique que |ƒ(x) - ƒ(σi (σt (y)))| < (1 -� p ) ε/2. En multipliant par pi et en
additionnant sur i /=
st , on obtient
|a(σt (y)) - (1 - ps t)ƒ(x)| < (1 - ps )(1
t -� p ) ε/2 (22)
pour tout t6c - 1.
Soit y ∈ N2 , avec r(y)= n + 1. Si n + 16c alors en utilisant (21) et (22) on a
|ƒ(x) - ƒ(y)| 6 ps p0s . .1. ps |ƒ(x) - ƒ(σn (y))|
n-1

Σn-1

+ (1 -� p ) ε/2 ps 0 ps 1 . . . ps t-1 (1 - ps t )
t=0

= ps 0ps 1. . . ps n-1 |ƒ(x) - ƒ(σn (y)) |


+ (1 -� p ) ε/2 (1 - ps 0 ps 1 . . . ps n-1 ). (23)
Puisque maintenant r(σn (y)) = 1, et puisque y ∈ N2 et n + 16c, on a σi (σn (y)) ∈
N1 ∩ D pour tout i. Par conséquent, en rappelant la propriété de définition de N1 ,
k-1
Σ
p | ƒ(x) - ƒ(σ (y))| 6 pi |ƒ(x) - ƒ(σi (σn (y))) |
n
i=0

< (1 -� p ) ε/2. (24)


En combinant cela avec (23), on obtient |ƒ(x) - ƒ(y)| <ε lorsque y ∈ N2 , r(y)6c.
D'autre p a r t , si r(y)¿c + 1, nous pouvons encore utiliser (21) pour écrire
|ƒ(x) - ƒ(y)| 6 ps p0s . .1. ps c-1 |ƒ(x) - ƒ(σc (y))|
Σc-1
+ |a(σt (y)) - (1 - ps )ƒ(x)| ps ps . . . ps . (25)
t 0 1 t-1
t=0

Par conséquent, si y ∈ N2 , r(y)¿c +


1, nous avons c-1
Σ
c
| ƒ(x) - ƒ(y)| < 2 p ƒ + (1 -� p ) pt < ε/2+ ε/2= ε,
(ε/2)
t=0

où nous avons utilisé (20) et (22) (notez que t6c - 1 dans (25)). Par conséquent, ƒ est
continue sur D = D0 .
188 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180

Pour compléter la preuve, il suffit de montrer que si ƒ est continue sur Dn , alors ƒ
est continue sur Dn+1 . Soit x ∈ Dn+1 - Dn et ε> 0. Alors σi (x) ∈ Dn pour tout i.
Puisque ƒ est continue sur Dn , pour tout i il existe un voisinage Vi de σi (x) tel que
y ∈ Vi impliqueƒ(σi (x)) - ƒ(y)| <ε. Puisque σi est continue, il existe pour chaque
T i
un voisinage Ui de x tel que y ∈ Ui implique que σi (y) ∈ Vi . Soit U =k−1 i=0 i .
U
Alors U est un voisinage de x, et y ∈ U implique σi (y) ∈ Vi pour tout i, ce qui
implique à son tour que |ƒ(σi (x)) - ƒ(σi (y))| <ε pour tout i. Il s'ensuit facilement
que |ƒ(x) - ƒ(y)| <ε.

Dans le cas d'un jeu audacieux à deux joueurs standard, notons V0 (x) la probabilité de victoire du
joueur zéro à partir de
x ∈ [0, 1] : V0 (x)=Px (XT D =1), où D ={0, 1} et Xn est la fortune du joueur zéro à l'instant
n. Par la propriété de Markov forte, V0 (x)= Ex [g(XT D )], où g : D → R est défini par g(x)
= x, x ∈ D. En appliquant le théorème 20, nous retrouvons le résultat standard selon
lequel les probabilités de gain dans les jeux audacieux à deux joueurs sont des fonctions
continues des fortunes initiales.
Considérons maintenant un jeu à trois joueurs. À partir de x ∈ int S(3) , le jeu se
poursuit, régi par des essais multinomiaux, jusqu'à ce qu'un joueur soit éliminé. A ce
moment, les joueurs restants
se poursuivent dans un jeu à deux joueurs, régi par des épreuves binomiales.
i Soit V(3) (x)
la probabilité que le joueur i gagne le jeu à partir de x ∈ S . Par la propriété de Markov
(3)

forte
V(3) (x)= Ex [g(XT )],
i D

où g(y) est la probabilité du joueur i de gagner dans le jeu à deux joueurs à partir de y
∈ D. Mais les probabilités de gain à deux joueurs varient continuellement avec la
fortune initiale, et il s'ensuit que g est continu par rapport à D. Par conséquent,
i par le
Théorème 20, V(3) est continu.
sur S(3) . Un argument d'induction évident établit le théorème suivant.

Théorème 21. Dans le jeu de base à k joueurs, les probabilités de gain des joueurs sont
des fonctions continues des fortunes initiales.

Le théorème 21 est plus surprenant qu'il n'y paraît à première vue. Si nous laissons Ui
(x)=1(xi /= 0), il est simple de montrer que

x '→ Ex [Ui (XT D )],


la probabilité que le joueur i survive à la première élimination, est discontinue. En outre,
la continuité de V(k)i ne dépend pas de la manière dont les probabilités de victoire à l'essai
sont réattribuées après l'abandon d'un joueur.
Lorsque k > 2, le processus audacieux de base à k joueurs ne possède pas la propriété
de remise à l'échelle, du moins d'une manière qui préserve la structure du processus. Par
exemple, si k = 3, il est facile de voir qu'il n'existe pas de fonction de pari β sur le
simplexe S3 avec les propriétés suivantes : le processus suit σ avant d'atteindre D1 , et à
partir de Si , le processus reste dans Si jusqu'à ce qu'il atteigne bSi . Une autre approche
possible du redimensionnement consisterait à prendre les cartes de joueurs données σj , et
à générer de nouvelles cartes de joueurs par la formule suivante
σˆj = σi −1 σj σi sur int Si .
M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180 189
Si nous commençons par le processus audacieux de base à trois joueurs, il est facile de
montrer que cette procédure produit un nouveau processus dont le noyau de frappe sur D
ou sur A est différent.
190 M. Pendergrass, K. Siegrist / Stochastic Processes and their Applications 92 (2001) 163-180

Remerciements

Nous remercions l'arbitre pour plusieurs suggestions utiles et pour une référence
supplémentaire.

Références

Billingsley, P., 1986. Probability and Measure, 2e édition. Wiley, New York.
Dubins, L.E., Savage, L.J., 1965. Inequalities for Stochastic Processes : How to Gamble If You Must. Dover
Publications, New York.
Ikeda, N., Nagasawa, M., Watanabe, S., 1966. A construction of Markov processes by piecing out. Proc.
Japon. Acad. Ser. A, Math. Sci. 42, 370-375.
Klugman, S., 1977. Discounted and rapid subfair red-and-black. Ann. Statist. 5, 734-745.
Kulldorff, M., 1993. Optimal control of favorable games with a time limit. SIAM J. Control Optim. 31, 52-69.
Maitra, A.P., Sudderth, W.D., 1996. Discrete Gambling and Stochastic Games. Springer, New York. Ross,
S.N., 1974. Dynamic programming and gambling models. Adv. Appl. Probab. 6, 593-606.
Wilkins Jr, J.E., 1972. The bold strategy in presence of house limit. Proc. Amer. Math. Soc. 12, 567-570.

Vous aimerez peut-être aussi