Vous êtes sur la page 1sur 57

W N

M
North-Western European Journal of Mathematics
E J

Cours Simulation Stochastique


Nicolas Wicker

Avant-propos
Ce polycopié est une version de travail d’un polycopié à destination du master
de mathématiques et finance de Lille 1. Il n’a aucun prétention à l’originalité mais re-
groupe des résultats disséminés dans plusieurs ouvrages dont les plus notables sont
Aldous (1983), Benaïm et El Karoui (2004), Comets et Meyre (2015), Nummelin
(1984), Levin, Peres et Wilmer (2008) et Meyn et Tweedie (2009).

1 Introduction
f (x)
R R
Motivation : intégration numérique : par exemple Rd
f (x)dx = R2 g(x)
g(x)dx
avec g(x) une densité de probabilité. Ainsi,
Z n
f (x) p.s. 1 X f (xi )
f (x)dx = E ←
R2 g(x) n→+∞ n g(xi )
i=1
Simulation de systèmes dynamiques stochastique. Simulation de variables aléatoires
pour les statistiques bayésiennes. Optimisation d’une fonction complexe, ex : f (x) à
f (x)
minimiser, on simule c exp{− T } avec T facteur de température et c constante de
normalisation.

1.1 Génération de nombres pseudo-aléatoires


Avant toutes choses, un générateur de nombres uniformes entre dans [0, 1] est
néccessaire. Un générateur usuel est le générateur congruentiel :
xn = axn−1 + b mod L
avec typiquement a = 27 , L = 231 − 1 et b = 0.
Un générateur proche, un poil plus sophistiqué mais plus performant est le
générateur congruentiel inverse qui réalise :
−1
xn = axn−1 + b mod p
ici L est remplacé par p pour travailler sur le corps fini Fp . L’inverse est obtenu de la
manière suivante : xx−1 = 1 mod p, soit xx−1 − qp = 1. Comme x ∧ p = 1, on trouve
x−1 et q par l’algorithme étendu d’Euclide donné par :

1
Cours Simulation Stochastique N. Wicker

Require: Étant donnés a > b


Ensure: Donne s et t tels que sa + tb = pgcd(a, b)
(s0 , t0 , r0 ) ← (1, 0, a)
(s1 , t1 , r1 ) ← (0, 1, b)
while r2 , 1 do
q ← r0 /r1
s2 ← s0 − qs1
t2 ← t0 − qt1
(s0 , t0 , r0 ) ← (s1 , t1 , r1 )
(s1 , t1 , r1 ) ← (s2 , t2 , r2 )
end while
return s et t

1.2 Méthode d’inversion de la fonction de répartition


Cette méthode est simple et efficace mais ne s’applique pas toujours, elle est
basée sur l’utilisation de la fonction de répartition : F(x) = P (X 6 x). On définit
l’inverse généralisée F −1 (u) = inf{t, F(t) > u}. On utilise la propriété suivante :
F −1 (u) 6 x ⇔ u 6 F(x) de telle sorte que : P (F −1 (U ) 6 x) = P (U 6 F(x)) avec U
uniforme sur [0, 1). Ainsi, P (F −1 (U ) 6 x) = F(x). F −1 (U ) a la même fonction de
répartition que X.
Proposition 1 – F −1 (u) 6 x ⇔ u 6 F(x)

Preuve. (⇐)

u 6 F(x)
⇒ F −1 (u) 6 F −1 (F(x)) 6 x car F −1 donne l’inf de t tel que F(t) > F(x) et F(x) > F(x)
⇒ F −1 (u) 6 x

(⇒)

F −1 (u) 6 x
⇒ F(F −1 (u)) 6 F(x)
⇒ F(inf{t|F(t) > u} 6 F(x) par continuité à droite de la fonction de répartition
⇒ u 6 F(x) 

Application à la loi exponentielle : Soit X { E(λ), f (x) = λe−λx . Sa fonction de


répartition est donnée par
Zx
F(x) = λe−λu du = [−e−λu ]x0 = 1 − e−λx
0

2
1. Introduction

Algorithme : on génère U de manière uniforme sur ]0, 1[, nous donne :

U = 1 − e−λ
⇒ e−λx = 1 − U
− λx = ln(1 − U )
− ln(1 − U )
⇒x=
λ
− ln U
où x = λ car U et 1 − U ont même loi.

1
Application à la loi de Cauchy : Sa densité est donnée par f (x) = π(1+x2 )
.
Z x
du Arctan(u) x Arctan(x) 1
F(x) = 2)
=[ ]−∞ = +
−∞ π(1 + u π π 2
Arctan(x) 1
⇒U = +
π 2
1
⇒ x = tan[π(u − )]
2
(mettre une figure)

application à la loi de Weibull : Sa fonction de survie est donnée par G(x) =


a x−b a
1 − F(x) = e−x , plus généralement elle s’écrit : e−( c ) .
a
u = 1 − G(x) = 1 − e−x
a
⇒ e−x = 1 − u
⇒ −xa = ln(1 − u)
1 1/a
⇒ x = ln( )
1−U

ou bien x = (− ln u)1/a .

1.3 Algorithme de Box-Muller


On considère une loi de Gauss X { N (0, I2 ). Sa densité est donnée par f (x, y) =
x2 +y 2
1 −
2π e
2 . On fait le changement de variables suivant : x = r cos θ, y = r sin θ, r ∈ R+
et θ ∈ [0, 2π[. Le jacobien est donné par :

cos θ −r sin θ = r
sin θ r cos θ

3
Cours Simulation Stochastique N. Wicker

2
r − r2
La densité devient 2π e . On effectue un nouveau changement de variables r 2 = R,
R
la densité suivant R est alors : 12 e− 2 , R suit une loi exponentielle de paramètre
√ √
1/2,
√ ainsi R est généré par −2 ln U , r = −2 ln U , x = −2 ln U cos(2πV ) et y =
−2 ln U sin(2πV ) avec U et V lois uniformes sur ]0, 1[.
Simulation de gaussienne N (0, Σ). On la simule à partir de X { N (0, I). On
utilise pour cela la décomposition de Cholesky de Σ en LL0 , possible si Σ > 0. On
prend alors Y = LX. En effet, E(Y Y 0 ) = E(LXX 0 L0 ) = LL0 = Σ.
Cholesky s’obtient sur une matrice M en observant successivement :

— M11 = L211 ainsi L11 = M11 .

— ∀k ∈ 2, . . . , n, Mk1 = Lk1 L11 et donc Lk1 = Mk1 / M11
q
— ∀k ∈ 2, . . . , n, Mkk = ki=1 L2ki et donc Lkk = Mkk − i=1
P Pk−1 2
Lki
Mjk − k−1
P
i=1 Lji Lki
Pk
— ∀k ∈ 2, . . . , n et j > k on a i=1 Lji Lki ainsi Ljk = Lkk .

1.4 Copules
Une copule est une fonction C : [0, 1]p → [0, 1] permettant d’introduire une
dépendance entre p variables univariées. Il en existe beaucoup, une copule fréquente
est la copule gaussienne donnée par :
C(u1 , . . . , up ) = φR (φ−1 (u1 ), . . . , φ−1 (up ))
avec R indiquant une matrice de corrélation.
Comment simuler une loi définie par une copule ? Soit une loi quelconqu de
lois de répartition marginales F1 (x1 ), . . . , Fp (xp ). Sa fonction de répartition est alors
donnée par :
F(x1 , . . . , xp ) = C(F1 (x1 ), . . . , Fp (xp ))
pour simuler une telle loi, on simule des uniformes U1 , . . . , Up de copule C et on
récupère : F1−1 (U1 ), . . . , Fp−1 (Up ). Pourquoi cela fonctionne-t-il ?

P (F1−1 (U1 ) 6 x1 , . . . , Fp−1 (Up ) 6 xp ) = P (U1 6 F1 (x1 ), . . . , Up 6 Fp (xp ))


= C(FU (F1 (x1 )), . . . , FU (Fp (xp )))
= C(F1 (x1 ), . . . , Fp (xp ))

Comment y arriver ?
On simule Y = (Y1 , . . . , Yp ) de copule C et on prend φ1 (Y1 ), . . . , φp (Yp ) où φ1 , . . . , φp
sont les fonctions de répartition marginales de Y . Ainsi,

(Cont. page suiv.) P (φ(Y1 ) 6 u1 , . . . , φ(Yp ) 6 up ) = P (Y1 6 φ−1 (u1 ), . . . , φ−1 (up ))

4
1. Introduction

= C(φ(φ−1 (u1 )), . . . , φ(φ−1 (up )))


= C(u1 , . . . , up )
= C(FU (u1 ), . . . , FU (up ))

1.5 Méthode du rejet


Simulation d’une loi conditionnelle
On s’intéresse à P (Z ∈ B|A), Z v.a. et A un évènement. Pour cela, on simule une
suite (Zn , An ), les couples (Zn , An ) sont indépendants. avec An = A ou Ā. On note
τ = inf{t|At = A}. Alors
+∞
X
P (Zτ ∈ B) = P (A1 = Ā, . . . , At−1 = Ā, At = A, Zt ∈ B)
t=1
+∞
X
= P (Ā)t−1 P (At = A, Zt ∈ B)
t=1
+∞
X
= (1 − P (A))t−1 P (Zt ∈ B|At = A)P (A)
t=1
1
= 1. P (A)P (Z ∈ B|A)
1 − (1 − P (A))
= P (Z ∈ B|A)

Simulation d’une loi non-conditionnelle

Objectif : on veut simuler une variable aléatoire de densité f (x) et dont F −1 est
difficile à calculer car l’algorithme du rejet implique un certain nombre de rejets
et donc de calculs « inutiles ». Pour cela, on utilise une variable aléatoire Y facile à
simuler de densité g(x) telle que cg(x) > f (x) avec c ∈ R+ . Si U est une loi uniforme
f (x)
sur [0, 1], c > g(x) . On note A = {CU g(x) < f (x)}. (figure)

P (Yτ ) = P (Y ∈ B|A) par l’algorithme du rejet pour une loi conditionnelle


P (Y ∈ B, A)
=
P (A)
Z Z
1
= g(x)1[0,1] dudx
P (A) B Cug(x)<f (x)
Z
1 f (x)
(Cont. page suiv.) = g(x)dx
P (A) B cg(x)

5
Cours Simulation Stochastique N. Wicker

P (X ∈ B)
= (1)
CP (A)
En particulier, si B = R2 , P (Y ∈ Rd |A) = 1 = cP 1(A) , ainsi cP (A) = 1 et P (Y ∈ B|A) =
P (X ∈ B).
On remarque au passage que P (A) = 1c , P (A) est la probabilité d’acceptation,
il faut donc que c soit le plus petit possible. Si on considère maintenant une loi
géométrique de paramètre p = P (A), alors c = p1 = P (A) 1
est son espérance, soit ici le
nombre moyen d’itérations avant qu’un nombre soit produit.

xa−1 −x
Application à la loi gamma : Soit X { Γ (a) de densité f (x) = Γ (a)
e avec a ∈]0, 1[.
a a a
Soit Y { W (a), G(x) = 1 − F(x) = e−x ,
F(x) = 1 − e−x ,
donc g(x) = axa−1 e−x . Quel
coefficient c faut-il prendre ? On considère pour cela la fraction :
f (x) xa−1 e−x
=
g(x) Γ (x)axa−1 e−xa
a
e−x+x
=
Γ (a)a
1 1
Soit h(x) = −x + xa ainsi h(x)0 = −1 + axa−1 = 0 et xa−1 = a et x∗ = ( 1a ) a−1 . La dérivée
seconde h00 (x∗ ) = a(a − 1) < 0 car a ∈]0, 1[. Ainsi,
1 a
1 1
f (x) e−( a ) a−1 +( a ) a−1
6 =c
g(x) Γ (a)a
Pour simuler une loi Γ (n + a), on simule X1 { E(1), . . . , Xn { E(n), Y { Γ (a) et on
effectue X1 + · · · + Xn + Y .

2 Réduction de la variance
2.1 Variables de contrôle
On veut estimer E(X) alors que l’on arrive à calculer de manière explicite E(h(x)).
On écrit alors X = X − Y + Y . On a ainsi une première estimation de E(X) donnée
par :
n
1X
e1 = Xi
n
i=1

de variance V ar(e1 ) = V ar X
n . Une seconde estimation, faisant usage d’une variable
de contrôle Y est donnée par :
n
1X
e2 = Xi − aYi + aE(Y )
n
i=1

6
2. Réduction de la variance

où on a toute latitude de choisir a ∈ R au mieux. La variance de e2 est donnée par :


1
V ar(e2 ) = V ar(X − aY )
n
1
 
= V ar X + a2 V ar Y − 2a Cov(X, Y )
n
Si bien qu’on peut déterminer a de la manière suivante,

∂ V ar e2 1
 
= 2a V ar Y − 2 Cov(X, Y ) = 0
∂a n
Cov(X, Y )
⇒a=
V ar Y
Et obtenir comme variance,

1 Cov(X, Y )2 Cov(X, Y )2
 
V ar e2 = V ar X + −2
n V ar Y V ar Y
1
 
= V ar X 1 − Cor(X, Y )2
n
si bien que l’on voit que l’on peut toujours en théorie réduire la variance pour peu
que Y ne soit pas indépendante de X.
Exemple 1 – X { U (0, 1), estimation de E(exp(X)) à l’aide de la variable de contrôle
1 + X.

2.2 Variables antithétiques


Un petit lemme est nécessaire d’abord.
Lemme 1 – Si Y est une variable aléatoire réelle, f une fonction décroissante et g une
fonction croissante, on a alors : C = Cov(f (Y ), g(Y )) 6 0.

Preuve. Soit
 Y et Y 0 deux variablesaléatoires indépendantes de même loi. On a
alors : E (f (Y ) − f (Y 0 ))(g(Y ) − g(Y 0 )) 6 0. Par ailleurs,
 
E (f (Y ) − f (Y 0 ))(g(Y ) − g(Y 0 )) =
       
E f (Y )g(Y ) + E f (Y 0 )g(Y 0 ) − E f (Y )g(Y 0 ) − E f (Y 0 )g(Y ) =
     
2E f (Y )g(Y ) − 2E f (Y ) E g(Y ) =
 
2 Cov f (Y ), g(Y )
 
si bien que Cov f (Y ), g(Y ) 6 0. Ce qui conclut la preuve. 

7
Cours Simulation Stochastique N. Wicker

En particulier, si f est monotone et φ décroissante on a :

Cov(f (Y ), f (φ(Y )))

Cela peut être exploité si φ(Y ) suit la même loi que Y comme par exemple pour
— loi uniforme Y sur [0, 1] alors φ(Y ) = 1 − Y suit la même loi.
— loi de Gauss Y alors φ(Y ) suit la même loi.
Supposons maintenant que l’on veuille estimer E(f (Y )), l’estimateur classique
est :
n
1X
e1 = f (Yi )
n
i=1

Le nouvel estimateur est :


n
1 X f (Yi ) + f (φ(Yi ))
e2 =
n 2
i=1

1
alors V ar e2 = 2n (V ar f (Y ) + Cov(f (Y ), f (φ(Y )))) ainsi :

V ar e1 2 V ar f (Y )
= >2
V ar e2 V ar f (Y ) + Cov(f (Y ), f (φ(Y )))
 
1
Exemple 2 – E 1+X avec X { U (0, 1). On peut prendre Y = 2 − X.

2.3 Echantillonnage préférentiel


R
I = f (x)g(x)dx avec f (x) une densité à laquelle on va préférer f ∗ (x). Ainsi :
R f (x)g(x)
I= f ∗ (x)
f ∗ (x)dx.
 
Exemple 3 – E [X − 3]+ avec X { N (0, 1). On peut prendre Y { N (3, 1).

2.4 Stratification
On suppose que l’on a plusieurs strates S1 , . . . , Sk dans lesquelles on va échan-
tillonner suivant des proportions à définir. D’une manière générale, on veut estimer
X au moyen de :
k nj
X 1 X
e2 = pj Xij
nj
j=1 i=1

8
3. Chaînes de Markov à temps discret

où nj représente le nombre de points échantillonnés dans Sj . Ainsi :

k p2
j
X
V ar(e2 ) = V ar(Xj )
nj
j=1
k
1X
= pj V ar(Xj ) en supposant nj = npj
n
j=1
k
1X
= pj V ar(X|Z ∈ Sj )P (Z ∈ Sj )
n
j=1
E(V ar(X|Z))
=
n
or E(V ar(X|Z)) 6 V ar(X).

Exemple 4 – On veut calculer E(exp(X)) avec X { U (−1, 1). On peut utiliser comme
strates (−1, 0) et (0, 1).

3 Chaînes de Markov à temps discret


3.1 Introduction aux chaînes de Markov
Dans la suite, on considèrera X = (Xn )n>1 une suite de variables aléatoires avec
Xn : (Ω, F) → (En ,Tn ). On note Q que X est mesurable sur T la tribu engendrée par
les cylindres C = A1 × · · · × Ak × i>k+1 Ei , avec Aj ∈ Tj . En effet, pour un cylindre B,
on a X −1 (B) = ∩ki=1 Xi−1 (Ai ) ∈ F as Xi−1 (Aj ) ∈ Fj for all j.

Définition 1 – Une chaîne de Markov de matrice de transition P est une suite


variables aléatoires (Xn ) définie sur un espace probabilisé (Ω,T, P ) à valeurs dans E
telle que P (Xn+1 = xn+1 |Xn = xn , . . . , X1 = x1 ) = P (xn , xn+1 ).

3.2 Chaînes de Markov à nombre d’états fini


On considère une chaîne de Markov sur Ω avec |Ω| fini.
La matrice de transition P indique en position (i, j) par Pij la probabilité d’aller
de l’état i à l’état j.

Remarque 1 – La valeur propre de M 1 est maximale. En est, d’après le théo-


rème P 1 page suivante chaque valeur propre est comprise dans un des disques
D(Pii , j,i |Pij |). Ainsi, comme la somme d’une ligne est égale à 1, en valeur absolue
on ne peut excéder 1.

9
Cours Simulation Stochastique N. Wicker

Théorème 1 – P Toute valeur propre d’une matrice M complexe est comprise dans un des
disques D(Mii , j,i |Mij |).(Gershgorin)

Preuve. Soit un vecteur propre v pour la valeur propre λ. Définissons m = argmaxi |vi |.
Ainsi,
X X
λvm = Mmj vj = Mii vm + Mmj vj
j j,m
X
⇒ (λ − Mmm )vm = Mmj vj
j,m
X X
⇒ |λ − Mmm ||vm | = | vj | 6 |Mmj ||vj |
j,m j,m
X vj X
⇒ |λ − Mmm | 6 |Mmj | 6 |Mmj | 
|vm |
j,m j,m

Lemme 2 – Il existe toujours au moins une loi stationnaire.

Preuve. On commence par remarquer que P a toujours 1 comme valeur propre


associée au vecteur propre 1, ainsi 1 est également valeur propre de P 0 car P et P 0
ont même polynôme caractéristique.
Il faut prouver maintenant qu’il existe un vecteur propre non-négatif associée à
la plus grande valeur propre de A = P 0 ne contenant que des valeurs non-négatives.
Soit u vecteur propre de A, montrons que prendre la valeur absolue de ses
éléments ne change pas sa qualité de vecteur propre, considérons ainsi le vecteur v
tel que vi = |ui |. On a :
X X
Aij vj − λvi = Aij |uj | − λ|ui |
j j
X
>| Aij uj | − λ|ui |
j

> λ|ui | − λ|ui | = 0 (2)

Supposons par l’absurde que ∃i, (Av − λv)i > 0. Si on somme suivant i, on obtient :
XX  XX 
Aij vj − λvi = Pji vj − λvi = 0
i j i j
P
On en déduit que ∀i, j Aij vj − λvi = 0, v est donc bien vecteur propre pour la
valeur propre 1. 

En utilisant le théorème de Brouwer, on aurait pu conclure immédiatement.

10
3. Chaînes de Markov à temps discret

Remarque 2 – Attention, il peut y avoir plusieurs lois stationnaires pour une chaîne
de Markov. Considérons par exemple :
!
1 0
P=
0 1

ici, (1, 0) et (0, 1) sont des lois stationnaires et il en existe une infinité (à vous de les
trouver).

Remarque 3 – Attention, d’une manière générale les valeurs propres de P peuvent


être imaginaires. Considérons par exemple :
 1 1

 2 2 0 
P =  0
 1 1 
 1 2 2 
1 

2 0 2

En effet, si on calcule le polynôme caractéristique on obtient :


1 1

2 −λ 2 0  1 3 1
3 3 1
0 1
2 −λ 1
2
= − λ + = −λ3 + λ2 − λ +
1 1 2 8 2 4 4
0 −λ

2 2

On obtient : −λ3 + 32 λ2 − 34 λ+ 14 = (λ−1)(−λ2 + λ2 − 41 ). Or, le discriminant de −λ2 + λ2 − 41


est ∆ = − 34 < 0 impliquant donc l’existence de deux valeurs propres imaginaires.

Remarque 4 – Attention, d’une manière générale P peut ne pas être diagonalisable.


Considérons par exemple :
 1 1

 2 2 0 
P =  0
 1 1 
2 2  
0 0 1

1
En effet, si on considère la valeur propre 2 de multiplicité algébrique 2, on a par
contre :

 0 12 0 
 
1
P − I3 =  0 0 12 
 
2
0 0 12
 

qui est de rang 2, de telle sorte que dim(E 1 ) = 1.


2

Lemme 3 – Si une chaîne de Markov est réversible pour la loi π alors π est une loi
stationnaire.

11
Cours Simulation Stochastique N. Wicker

Preuve. On a l’égalité π(x)q(x, y) = π(y)q(y, x). Si on somme suivant x, on obtient :


X X
π(x)q(x, y) = π(y)q(y, x)
x x
X
π(x)q(x, y) = π(y) 
x

Lemme 4 – L’irréductibilité implique l’unicité de la loi stationnaire.

Preuve. Soit une chaîne irréductible, ainsi ∀i, j ∃n tel que Pijn > 0. Par l’absurde,
supposons l’existence de u un vecteur propre de P non collinéaire
P à 1npour la valeur
propre 1. Soit m = argmaxi |ui |, on a par définition : um = ni=1 Pmj uj . On a par
conséquent :

X
n
|um | = Pmj uj

j
X
n
6 Pmj |uj |
j
X
n n n
6 Pmm |um | + Pmj |uj | en s’arrangeant pour que Pmj > 0 et |uj | < |um |
j,m
X
n n
< Pmm |um | + Pmj |um | car par construction |uj | < |um |
j,m

< |um |

Nous aboutissons ainsi à une contradiction et pouvons conclure. 

Une fois que nous avons déterminer s’il y a une ou plusieurs lois stationnaires,
nous voulons savoir s’il y a convergence vers cette loi stationnaire. En effet, l’exis-
tence d’un point fixe dans un système dynamique n’implique par pour autant la
convergence du système vers ce point fixe.
Le théorème suivant fournit un critère simple de convergence mais pour cela
nous avons besoin de la notion d’apériodicité.
Définition 2 – Un état x est apériodique si le pgcd de Nx = {n|P n (x, x) > 0} est égal
à 1. Une chaîne de Markov est apériodique si tous ses états sont apériodiques.

Théorème 2 – Si une chaîne de Markov dans un espace à nombre d’états fini est irré-
ductible et apériodique alors elle converge vers son unique loi stationnaire.
n
Preuve. Soit Ni = {n|Pi,i > 0}. Par Bezout, ∃a1 , . . . , ak ∈ Z et n1 , . . . , nk ∈ Ni tels que
Pk + −
i=1 ai ni = 1. Notons A et A l’ensemble des coefficients positifs et négatifs

12
3. Chaînes de Markov à temps discret

P P
respectivement.
P On a ainsi ai ∈A+ ai ni = − ai ∈A− ai ni + 1. On obtient ainsi mi =
− ai ∈A− ai ni ∈ Ni avec mi + 1 ∈ Ni également.
Soit ∀n > m2i , si on divise n de manière euclidienne par mi , on obtient : n = qmi +r
avec r < mi et q > mi . Ainsi, n = qmi + r(mi+1 − mi ) = mi (q − r) + rmi+1 or mi (q − r) est
un multiple positif de mi et rmi+1 de mi+1 . Ainsi, n ∈ Ni et plus généralement si
nous prenons n > m = maxi m2i , alors n ∈ ∩i Ni .
n−nij nij nij
Soit n > maxij nij + m, alors Pijn > Pii Pij , ce produit est positif car Pij > 0 par
n−nij
définition et n − nij > m donc Pii > 0.
On vient de montrer que pour n suffisamment grand la matrice de transition
P n n’a que des entrées positives. Le théorème de Frobenius nous dit alors qu’il y a
une valeur propre maximale (au sens de la valeur absolue) unique. En utilisant la
décomposition de Jordan, on a alors :

1 0 ... 0
 
 
 .. .. 
n

0 B2 . .

 −1
P = Q   Q

.. .. .. 

 . . . 0 
0 0
 
... Bk

. . . 0 
λi 1 0
 

 .. .  .. ..
0
 . ..  . .
avec Bi =   . Le nombre de blocs pour une valeur propre

.. . .
. . . . . . . . 1 
 

0 . . . . . . 0 λi
 
correspond à sa multiplicité géométrique alors que la somme des tailles des blocs
donne sa multiplicité algébrique. Ainsi, si on met P n à la puissance on obtient la
convergence vers :

1 0 ... 0
 
 
 .. .. 

0 0 . .

 −1
Q   Q

.. .. ..

 . . . 0 

0 0 0
 
... 

Remarque 5 – A propos de Bni , pour voir qu’il y a convergence vers la matrice nulle,
on écrit :
  n
 0 1 0 0 


 . .
. . . . . 0 
 
n
  ..
Bi = λi Ili + 
 

  0 . . . 0 1 
 
0 ... ... 0

13
Cours Simulation Stochastique N. Wicker

 k
 0 1 0 0 
n !  .. .. ..

X n n−k 

. . . 0 

= λi Ili  (Cont. page suiv.)
k  0 ... 0 1 
k=0 
0 ... ... 0

 k
 0 1 0 0 
li −1 !  .. .. ..

X n n−k 

. . . 0 

= λi Ili  (3)
k  0 ... 0 1 
k=0 
0 ... ... 0

La convergence vers 0 est alors immédiate.

Vitesse de convergence
Nous ne détaillons ici que quelques méthodes de base.
Théorème 3 – Si une chaîne de Markov à d états est irréductible, apériodique et rever-
sible on a alors :
p
n π(j)
∀i, j |Pij − π(j)| 6 p max(|λ2 |n , |λd |n )
π(i)
où λ1 = 1 > λ2 > . . . > . . . λd
p
Preuve. Soit D, Dij = δij π(i), alors la matrice DP D −1 est symétrique donc diago-
nalisable dans une base orthornormée. Par ailleurs, si v est un vecteur propre pour
P et la valeur propre λ, Dv est un vecteur propre pour DP D −1 pour la même valeur
propre. On a la symétrie car :

p p −1
(DP D −1 )ij = π(i)Pij π(j)
p −1 p −1
= π(i) π(i)Pij π(j)
p −1 p −1
= π(i) π(j)Pji π(j) par réversibilité de la chaîne
=(DP D −1 )ji
On peut donc écrire :
X
DP D −1 = λk vk vk0
k=1

et par orthonormalité de la base : DP n D −1 = k=1 λnk vk vk0 . ainsi :


P

p p
n π(j) X π(j)
Pij = p v1 (i)v1 (j) + p λnk vk (i)vk (j)
π(i) k>1 π(i)

14
3. Chaînes de Markov à temps discret
p p
π(j) p p X π(j)
=p π(i) π(j) + p λnk vk (i)vk (j) (Cont. page suiv.)
π(i) k>1 π(i)
p
X π(j)
=π(j) + p λnk vk (i)vk (j)
k>1 π(i)

Par conséquent,
p sX sX
π(j)
|Pijn − π(j)| 6 p λ2n
k vk (i)
2 vk (i)2 par Cauchy-Schwarz
π(i) k>1 k>1
p
π(j)
6p max(|λ2 |n , |λd |n ) 
π(i)

On définit un produit scalaire sur les fonctions réelles définies sur l’espace
d’états fini M :
X
hf , gi := π(x)f (x)g(x)
x∈M
2
On
P note aussi πf = hf , 1i, V arπ (f ) = Eπ − πf = hf − πf , f − πf iπ et P f (x) =
f
y P (x, y)f (y) ce qui nous permet de définir les formes de Dirichlet et inégalités de
Poincaré comme suit.
Définition 3 – On appelle forme de Dirichlet l’expression :
(f , f ) = h(I − P )f , f iπ
Définition 4 – Une inégalité de Poincaré est inégalité de la forme suivante :
V arπ (f ) 6 C(f , f )

Théorème 4 – Si P est réversible, la seconde valeur propre de P , λ2 est bornée par :


(f , f )
1 − λ2 = min
f ⊥π 1,f ,0 V ar f

Preuve. Ainsi, on a ∀i, j hfi , fj iπ = δij avec f1 , . . . , fn vecteurs propres de P tels que
Df1 , . . . , Dfn soient des vecteurs propres orthonormés de DP D −1 . Ainsi, si hf , f1 iπ =
0, on a : f = di=2 ai fi et par conséquent :
P

d
X d
X
h(I − P )f , f iπ = a2i (1 − λi ) >(1 − λ2 ) a2n
i=2 i=2
>(1 − λ2 ) V ar f

15
Cours Simulation Stochastique N. Wicker

Ainsi, on a l’inégalité suivante pour tout f orthogonal à f1 :


(f , f )
1 − λ2 6
V ar f 
avec égalité pour f = f2 , d’où la conclusion.

Remarque 6 –
X1 X1 1
π(x)π(y)|f (x) − f (y)|2 = π(x)π(y)f (x)2 + π(x)π(y)f (y)2 − π(x)π(y)f (x)f (y)
x,y
2 x,y
2 2

= E(f (X)2 ) − (E f (X))2


1
Lemme 5 – Si une chaîne de Markov vérifie pour tout x, P (x, x) > 2 alors |λ2 | > |λd |.
Preuve. Soit un vecteur propre f associé à la valeur propre λ et m = argmaxi |vi |.
Alors, on a par définition :
X
λvm = Pmj vj
j
X
⇒ vm (λ − Pmm ) = Pmj vj
j,m
X |vj |
⇒ |λ − Pmm | = Pmj
|vm |
j,m
X
⇒ |λ − Pmm | 6 Pmj
j,m

⇒ |λ − Pmm | 6 1 − Pmm
⇒ |λ| − Pmm > 1 − Pmm
⇒ |λ| > 2Pmm − 1
⇒ |λ| > 0
Ainsi, si toutes les valeurs propres sont positives, on a bien : λ2 > λd . 
L’implication de ce lemme est que pour une chaîne de Markov paresseuse, seule la
seconde valeur propre compte pour l’estimation de la vitesse de convergence. On
peut en particulier tirer alors profit de théorème 4 page précédente.
Théorème 5 – Pour une chaîne de Markov apériodique, irréductible et réversible on a
l’inégalité suivante :
 
 X 
V arπ f 6 sup Q(e)−1 |γ(x, y)|π(x)π(y) (f , f )
 
e  
x,y:e∈γ(x,y)

16
3. Chaînes de Markov à temps discret

Preuve. Commençons à observer que pour deux états x et y, on a :


2
X X
|f (y) − f (x)|2 = df(e) 6 |γ(x, y)| df(e)2

e∈γ(x,y) e∈γ(x,y)

avec df(e) = f (e+ ) − f (e− ) où e représente l’arête e− , e+ . Ainsi,


X1 1X X
π(x)π(y)|f (y) − f (x)|2 6 |γ(x, y)| df(e)2 π(x)π(y)
x,y
2 2 x,y
e∈γ(x,y)
1X X
6 |γ(x, y)|π(x)π(y) Q(e)−1 df(e)2 Q(e)
2 x,y e∈γ(x,y)
1X X
6 |γ(x, y)|Q(e)−1 π(x)π(y)df(e)2 Q(e)
2 e x,y:e∈γ(x,y)
 
1  X  X
6 sup Q(e)−1 |γ(x, y)|π(x)π(y) df(e)2 Q(e)
 
2 e  
e
x,y:e∈γ(x,y)

Or,

(f , f ) =h(I − P )f , f iπ
 
X  X 
= π(x) f (x) − P (x, y)f (y) f (x)
 
 
x y
XX
= π(x)P (x, y) (f (x) − f (y)) f (x)
x y
1 XX
= π(x)P (x, y) (f (x) − f (y))2 par réversibilité
2 x y
X
= df (e)2 Q(e)
e

ainsi :
 
X1  X 
π(x)π(y)|f (y) − f (x)|2 6 sup Q(e)−1 |γ(x, y)|π(x)π(y) (f , f )
 
x,y
2 e  
x,y:e∈γ(x,y)

soit :
 
 X 
V ar f 6 sup Q(e)−1 |γ(x, y)|π(x)π(y) (f , f )
 
e  
x,y:e∈γ(x,y) 

17
Cours Simulation Stochastique N. Wicker

Exemple 5 – L’urne d’Ehrenfest. L’espace d’états est donné par M = {0, 1}N avec les
1
transitions suivantes : P (x, y) = 2N pour x , y et P (x, x) = 12 sinon, où lorqu’il y a
un changement une particule est choisie de manière uniforme et change d’urne.
On construit un ensemble de chemins Γ entre tous les couples (x, y) en modifiant
itérativement x1 , puis x2 et ainsi de suite jusqu’à xN . La loi stationnaire est donnée
par π(x) = 21N , en effet on a P reversible :
1 1
π(x)P (x, y) = = π(y)P (y, x).
2N 2N
La longueur d’un chemin est bornée par |γ(x, y)| 6 N . Enfin, si on considère une
arête e = (e− , e+ ) ∈ γ(x, y), il y a un seul indice i tel que ei− , ei+ donc ∀j < i, yj = ej− et
∀j > i, xj = ej+ . On a ainsi, pour une arête 2N −1 couples (x, y) possibles. Comme on
peut choisir yj pour j > i et xj quelconques pour j < i et conserver la même arête e,
on en déduit grâce au théorème 5 p. 16 :
π(e− )π(e+ )
V ar f 6(f , f ) N 2N −1
π(e− )P (e− , e+ )
1
6(f , f ) N 2N N 2N −1
2
6(f , f )N 2

Ainsi, λ2 6 1 − N12 .

Exemple 6 – Un petit graphe presque biparti. On considère une marche aléatoire


sur un graphe presque biparti avec deux partitions V1 = {1, 2} et V2 = {3, . . . , N }. Pour
tout x, P (x, x) = 12 , pour x ∈ V1 et y ∈ V2 , P (x, y) = 2(N1−2) et pour x ∈ V2 et y ∈ V1 ,
P (x, y) = 41 . Le graphe est représenté sur la figure 1
On a ainsi :
1 1 1
. . . 2(N1−1) 
 
 2 2(N −1) 2(N −1)
1 1 1
. . . 2(N1−1) 
 

 2(N −1) 2 2(N −1)
1 1 1

P =  0 0
 
4 4 2 
 .. .. .. 

 . . . 0


1 1 1
4 4 0 2
1
La loi stationnaire est donnée par : π = 4N −6 (N − 1, N − 1, 2, . . . , 2)0 . Détaillons les
différents chemins :
— entre 1 et 2 : 132, de même pour 2 et 1 : 231
— entre 1 et i > 2 : 1i, de même pour 2 et i > 2 : 2i
— entre i > 2 et 1 : i1, de même pour i > 2 et 2 : i2
— entre i , j > 2 : i1j

18
3. Chaînes de Markov à temps discret

3
4
1

Figure 1 – Graphe presque biparti 2 contre N − 2 sommets.

On distingue les arêtes (1, 3), (3, 1) et (1, 2). Pour (1, 3), on a :
1 X
C13 6 π(x)π(y)|γ(x, y)|
π(1)P13
γ(x,y)3(1,3)
4N − 6 N −1 2×2
 
6 2(N − 1) 2 + (N − 3)2
N −1 (4N − 6)2 (4N − 6)(4N − 6)
∼5

Pour (3, 1), on a :


1 X
C31 6 π(x)π(y)|γ(x, y)|
π(1)P12
γ(x,y)3(1,2)
4N − 6 2 N −1 2 2
 
6 4 1 + 2(N − 3)
2 4N − 6 4N − 6 4N − 6 4N − 6
∼5

Pour (1, 2), on a :


N −1 N
C12 = 2(N − 1) ∼
4N − 6 2
N
On conclut donc que C ∼ 2.

19
Cours Simulation Stochastique N. Wicker

Exemple 7 – Mélange de N = 52 cartes. On considère le processus suivant où une


carte est prise au hasard parmi n et placée ensuite au sommet du mélange de cartes.
On appelle cela en anglais random-to-top shuffling. Ensuite, on rend réversible et
paresseux ce processus en considérant également l’opération contraire où la carte
du dessus prend une place aléatoire dans la pile de cartes. On considère le chemin
suivant entre deux sommets (x1 , . . . , xN ) et (y1 , . . . , yN ) :

 x1   yN  y1 
     

 x   x12   y 
 2  
→  → · · · →  2 
  
 . . .   ...  . . . 

   
xN x1N yN

Si on considère une arête sur un tel chemin et que l’on a déjà placé correctement
N
 
i cartes parmi les N cartes alors on a : (N − i − 1)! possibilités, en sommant
i
suivant i ∈ 0, . . . , N − 1 on obtient :
N −1
1 1 1 X N
 
C6 N (N − i − 1)!
1/(2N )1/N ! N ! N ! i
i=0
N −1
N2 X (N − i − 1)!N !
6
N! (N − i)!i!
i=0
N −1
X 1
6N 2
N −i
i=0
2
6N (1 + ln N )

V (x)
Exemple 8 – Loi de Gibbs. Soit une loi de Gibbs donnée par πT (x) = Z1 exp{− T }
T
P V (y)
avec V : M → R, d = |M| et ZT = y∈M exp{− T }. On fait l’hypothèse que si x , y
alors V (x) , V (y) et que infx∈M V (x) = 0, on note Vmin = {x|V (x) = 0} et N (x) les
voisins d’un état x. On définit l’élévation d’un chemin comme Elev(γ) = supi V (xi ),
avec γ = (x1 , . . . , xk ). On définit aussi la hauteur de communication comme : C(V ) =
supx∈M infy∈Vmin (Elev(γ(x, y)) − V (x)) . On choisit parmi les chemins existants entre
deux points x et y un de ceux qui minimisent Elev(Γ ). On a :

Q(e) =π(e− )P (e− , e+ )


 
1 1  |N (e− )| 1 1
   
− − +

= exp − V (e ) − +
exp (V (e ) − V (e )) ∧ 1
T |N (e )| |N (e )|

T ZT
1 1 1 1 1 1
   
= exp − V (e+ ) ∧ exp − V (e− )
T ZT |N (e+ )| T ZT |N (e− )|

20
3. Chaînes de Markov à temps discret

sup(V (e− ),V (e+ ))


Ainsi, Q(e)−1 6 dZt exp{ T } et donc :
X
V ar f 6(f , f ) sup Q(e)−1 π(x)π(y)|γ(x, y)|
e
γ(x,y):e∈γ(x,y)

d2 sup(V (e− ), V (e+ )) 1


  X  
6(f , f ) sup exp exp − (V (x) + V (y))
ZT e T T
γ(x,y):e∈γ(x,y)

d2 Elev(γ(x, y)) 1
X  
6(f , f ) sup exp{ } exp − (V (x) + V (y))
ZT e T T
γ(x,y):e∈γ(x,y)

d4 Elev(γ(x, y)) 1
 
6(f , f ) sup exp − (V (x) + V (y))
ZT x,y T T
n o
Or, ∀y0 ∈ Vmin on a : Elev(γ(x, y)) 6 max Elev(γ(x, y0 )), Elev(γ(y, y0 )) en considérant
un chemin qui irait d’abord de x en y0 , puis de y0 en y car par construction γ(x, y)
est d’élévation minimale. D’où :

Elev(γ(x, y)) − V (x) − V (y) 6C(V )

Ainsi,

1
    
V ar f 6(f , f )d 4 exp sup Elev γ(x, y) − V (x) , Elev γ(x, y) − V (y)
T x,y∈M
1
 
6(f , f )d 4 exp C(V )
T
On constate ainsi que plus la température est élevée meilleure sera la borne, mais
attention pour une température trop grande les valeurs propres ne sont plus toutes
positives.

Voyons un cas particulier dérivé de celui que l’on vient de voir, à savoir le recuit
simulé. L’idée du recuit simulé est de faire varier en plus la température pour affiner
la recherche du minimum local.

Exemple 9 – Plusieurs schémas de recuit existent, ici nous nous intéresserons au


cas où la température décroît par paliers, avec T (n) = 1k pour nk−1 < n 6 nk , nk =
bexp{kC}c et C > C(V ).
Commençons par remarquer que lorsque T → 0, alors la probabilité P (x, y) = N1
x
si y est voisin de x et V (x) > V (y). Si on ordonne les points par ordre décroissant,
on obtient une matrice triangulaire supérieure dont toutes les valeurs propres sont
positives, ainsi pour T suffisamment petit on obtient une matrice P positive de telle
sorte que la borne sur λ2 finit par dominer.

21
Cours Simulation Stochastique N. Wicker

L’autre observation que l’on peut faire est la suivante.

π(x) V (y) − V (x)


 
= exp (Cont. page suiv.)
π(y) T
1
⇒ π(y) = P  
V (y)−V (x)
x exp T

1V (y)
Ainsi, quand T → 0, π(y) = |Vmin | .
min
En utilisant le résultat précédent entre deux temps nk−1 et nk , on obtient :
1

1 n onk −nk−1
P (Xnk ∈ A|Xnk−1 =x ) − π1/k (A) 6 p 1 − 4 exp −kC(V )
π1/k (x) d
1 n −n
 o
exp − k 4 k−1 exp −kC(V )
n
6p
π1/k (x) d

Or,

nk − nk−1 =bexp{kC}c − bexp{(k − 1)C}c


> exp{kC} − exp{(k − 1)C} − 1
 
> exp{kC} 1 − exp{−C} − exp{kC}
>α exp{kC} pour un α > 0

Et,
 
π1/k (x)−1 6 d exp kVmax

Ainsi,
√ 
α n o k 
P (Xnk ∈ A|Xnk−1 =x ) − π1/k (A) 6 d exp − 4 exp k(C − C(V )) + Vmax
d 2
En intégrant suivant x, on obtient :
√ 
α n o k 
P (Xnk ∈ A) − π1/k (A) 6 d exp − 4 exp k(C − C(V )) + Vmax
d 2
1V (y)
En faisant tendre k vers +∞, le membre de droite tend vers 0 et π1/k (y) → |Vmin |
min
d’après l’observation ci-dessus. On a ainsi dans ce cas particulier la démonstration
de la convergence de l’algorithme du recuit simulé.

Le lemme suivant est une alternative pour la recherche de la vitesse de conver-


gence :

22
3. Chaînes de Markov à temps discret

Lemme 6 – kP t (x, .)−π(.)kTV 6 maxy P (X t , Y t ) où X t , Y t réalisent un couplage de lois


marginales P t (x, .) et P t (y, .) de même loi stationnaire π.
Preuve.

kP t (x, .) − π(.)kTV = max P t (x, A) − π(A)


A
X
= max π(z)(P t (x, A) − P t (z, A))
A
z∈M
6 max max P t (x, A) − P t (z, A)
A z∈M
6 maxkP (x, .) − P t (y, .)kTV
t
y∈M

Soit w un
P couplage de variables
P aléatoires X et Y de lois µ et ν ce qui signifie
que µ(x) = y∈M w(x, y) et ν(y) = x∈M w(x, y). On a alors :

P (X , Y ) =1 − P (X = Y )
X
=1 − w(z, z)
z∈M
X X
> µ(z) − µ(z) ∧ ν(z)
z z
X
> µ(z) − ν(z)
z:µ(z)>ν(z)

>kµ − νkTV

On a ainsi, kP t (x, .) − π(.)kTV 6 P (X t , Y t ) 

Exemple 10 – Urne d’Ehrenfest. La transition aléatoire est donnée par le choix d’un
élément parmi N que l’on place à −1 ou 1. On applique la même transition à deux
chaînes, celles-ci réalisant alors un couplage. On a alors :

P (X t , Y t ) =P (T > t)
6P (T > t)
E(T )
6 par Markov
t
nH(n)
6
t
(4)

En effet, il faut attendre d’avoir collecter les N objets et on a ainsi :

E(T ) =E(T1 ) + · · · + E(TN )

23
Cours Simulation Stochastique N. Wicker

n n
=1 + + ··· +
n−1 1
1 n−1
 
=n 1 + + · · · + (Cont. page suiv.)
2 n
=nH(n)
où Ti est le temps qu’il faut attendre pour collecter le i e objet.
La vitesse de convergence est donc de l’ordre de n ln n.
Exemple 11 (Graphe presque biparti) – On suppose que x et y sont à gauche,
 2
P (Xx = Yy ) > 4  n−1  2 ∼ 18 . Si x et y sont à droite : P (Xx1 = Yy1 ) > 21 14 2 = 14 . Si
1
2 2
 n−2  1

1 n−2 1 1
x est à gauche et y à droite : P (Xx2 = Yy2 ) > 2 n−1 2 2 ∼ 18 . Ainsi, dans tous les cas la
vitesse de convergence est une constante.
S’il n’y a pas convergence, on a malgré tout un théorème sympathique qui nous
dit que la loi stationnaire d’une chaîne de Markov irréductible représente le nombre
de passage moyen par chaque état. Le théorème suivant nous donne
Théorème 6 – Soit une chaîne de Markov irréductible de loi stationnaire π, on a alors
presque sûrement :
n
1X
lim 1{Xk =x} = π(x)
n→∞ n
k=1

Preuve. Soit Tx0 = 0, Tx1 le temps de premier retour en x et ainsi de suite avec
Txi+1 = inf{k > Txi |Xxk = x} ∈ N. Soit (Ik )k > 1 une suite de variables iid distribuées
comme Tx1 . On a alors par la loi des grands nombres :
Txn I + · · · + In
lim = lim 1 = E(Tx1 )
n→∞ n n→ n
∀n, ∃i tel que Txi 6 n < Txi+1 d’où :
n
1X i i i
1Xxk =x = ∈] i+1 , i ]
n n Tx Tx
k=1

ainsi, par passage à la limite, on obtient :


n
1X 1
lim 1Xxk =x =
n→∞ n
k=1
E(Tx1 )
On a donc,
n
1X 1
lim 1X k =x = (5)
n→∞ n
k=1
E(Tx1 )

24
3. Chaînes de Markov à temps discret

pour X 0 = x, montrons que cette égalité reste vrai pour X 0 , x. Il faut montre que
X k rencontre x en un temps fini T , on considère alors la chaîne de Markov décalée
(Xn+T )n > 0. En effet,
n T T +n
1 X 1 X 1 X
lim 1Xk =x = lim 1Xk =x + 1Xk =x
n→∞ n + T n→∞ n + T n+T
k=1 k=1 k=T +1
1
=
E(Tx1 )
Montrons maintenant que T est fini presque sûrement pour tout point de départ
y, on s’intéresse donc à
Ty,x = inf{n > 0|Xyn = x}
or α = infy∈M P (Ty,x < ∞) > 0 par irréductibilité de la chaîne. Ainsi,
X
P (Ty,x = ∞) = P (Ty,x = ∞|X0 = y, X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈(M\x)n

P (X0 = y, X1 = x1 , . . . , Xn = xn )
X
= P (Txn ,x = ∞)P (X0 = y, X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈(M\x)n
X
= (1 − P (Txn ,x < ∞))P (X0 = y, X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈(M\x)n
X
6(1 − α) P (X0 = y, X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈(M\x)n

6(1 − α)P (Ty,x > n)

Par passage à la limite, on obtient :


1 − α 6 (1 − α)2
par conséquent, α = 1.
En prenant l’espérance de l’équation 5, on obtient :
n
1X 1
lim P (Xk = x) = 1
n→∞ n E(T x)
k=1

par application du théorème de convergence dominée pour n’importe quel X0 , ainsi


on a également :
n
1XX 1
lim π(y)P k (y, x) =
n→∞ n
k=1 y∈M
E(Tx1 )

25
Cours Simulation Stochastique N. Wicker

ainsi :
1
π(x) =
E(Tx1 )
ce qui permet de conclure. 

3.3 Chaînes de Markov à nombre d’états dénombrable


Utilisation des fonctions génératrices
On introduit les deux outils suivants :
 
— U (x, t) = k>1 P (Tx = k) = E t Tx 1Tx <∞
P

— G(x, t) = k>0 P k (x, x)t k


P

1
Proposition 2 – G(x, t) = 1−U (x,t)

Preuve. On a :
X X
1Xxk =x t k =1 + 1Xxk =x t k
k>0 k>1
k
X
=1 + 1Txk <∞ t Tx
k>1

En passant à l’espérance, on obtient :

X k
X Y 
P k (x, x)t k =1 + E 1Ti <∞ t Ti avec Ti de même loi que T1
k>0 k>1 i=1
X
=1 + U (x, t)k
k>1
U (x, t)
=1 +
1 − U (x, t)
1
= 
1 − U (x, t)

Ainsi, on obtient en particulier que P (Tx < ∞) = U (x, 1) de telle


P sorte que la chaîne
de Markov est récurrente si et seulement si G(x, 1) = ∞, soit k>0 P k (x, x) = ∞. Nous
en donnons maintenant une autre preuve, ne faisant pas intervenir les fonctions
génératrices.

Proposition 3 – Une chaîne de Markov est récurrente ssi k P (x, x)k = ∞.


P

26
3. Chaînes de Markov à temps discret

Preuve. Si x est transient alors α = P (Tx1 < ∞) < 1, ainsi :


X
E(Nx ) = P (Nx > k)
k=0
X
= αk
k=0
1
= < ∞ comme α < 1
1−α
Or, Nx = k 1Xk =x et donc E(Nx ) = k P (x, x)k qui converge si α < 1 par le calcul
P P
précédent ce qui permet de conclure. 
On peut définir toutes les fonctions génératrice dont on peut avoir besoin, en
particulier on peut également définir U (x, y, t) et G(x, y, t) si les points d’arrivée et
de départ sont différents.
Appliquons maintenant cela à la marche aléatoire canonique sur Z où Xt+1 =
Xt + 1 avec probabilité p et Xt+1 = Xt − 1 avec probabilité q = 1 − p. Sans perte de
généralité, on suppose que X0 = 0 par homogénéité de la chaîne le long de Z :
X 
U (x, t) = P (Tx = k|X1 = 1)P (X1 = 1) + P (Tx = k|X1 = −1)P (X1 = −1) t k
k>1
X
= P (T10 = k|X1 = 1)pt k−1 t + P (T−10 = k|X1 = −1)qt k−1 t
k>2
=ptU−1 (t) + qtU1 (t) où Ua (t) désigne Ux,x+a,t
Maintenant, calculons U1 (t) :
X
U1 (t) = P (T01 = k)t k
k>1
X
= P (T01 = k|X1 = 1)pt k + P (T01 = k|X1 = −1)qt k
k>1
=pt + qtU2 (t)
Puis U2 (t) :
 
U2 (t) =E 1T02 <∞ t T02
 2
=E 1T01 <∞ t T01

=U1 (t)2
Alors,
U1 (t) = pt + qtU1 (t)2 (Cont. page suiv.)

27
Cours Simulation Stochastique N. Wicker

⇒ qtU1 (t) = pqt 2 + q2 t 2 U1 (t)2


⇒ y 2 − y + pqt 2 = 0 avec y(t) = qtU1 (t)

1− 1−4pqt 2
On en déduit, comme y(0) = 0 que y = 2 . Comme cette expression est
p
symétrique en p et q, on obtient : U (x, t) = 1 − 1 − 4pqt 2 , puis :

1
G1 (t) =
1 − U1
1
=p
1 − 4pq

Par conséquent, la chaîne est récurrente pour p = q = 21 . Par ailleurs, on a :


X
U10 (t) = kP (Tx = k)k−1
k>1
X
= kP (Tx = k)
k>1

4pq
Ainsi, comme E(Tx ) > U10 (1) = √ = ∞ pour p = q = 1/2, la chaîne est alors
1−4pq
récurrente nulle.

Etude de la convergence
Proposition 4 – Les états d’une chaîne de Markov irréductible sont tous de même nature.

Preuve. Pour tout x et n, ∃n1 et n2 tels que :

P n+n1 +n2 (x, x) > P n1 (x, x)P n (x, y)P n2 (y, y)


> P n (x, x) avec  > 0

Ainsi, n P n (x, x) >  n P n (y, y), la divergence du membre de droite impliquant


P P
celle du membre de gauche, la récurrence de y implique celle de x et inversement
par symétrie. 

Proposition 5 – Les deux propriétés suivantes sont vérifiées par une chaîne de Markov
irréductible
(A1 ) limn→+∞ n1 nk=1 1Xk =x = 1 1
P
E(Tx )
(A2 ) Les propriétés suivantes sont équivalentes :
(i) il existe une unique loi stationnaire π
1
(ii) ∀x, π(x) =
E(Tx1 )

28
3. Chaînes de Markov à temps discret

(iii) tous les états sont récurrents positifs


(iv) un état est récurrent positif

Preuve. Prouvons d’abord 17. Si x est transient alors, P (Tx = ∞) = α > 0, ainsi
E(Tx1 ) = ∞ et 1 1 = 0. Soit Nxx le nombre de visites de x en partant de x, P (Nxx =
E(Tx )
k) = (1−α)k−1 α →k→∞ = 0. Ainsi, limn→∞ n1 nk=1 1Xk =X = 0. Si x est récurrent, P (Tx <
P
∞) = 1 et donc :
n n
1X 1 1 X
lim 1Xk =x = lim + 1Xyk =x
n→∞ n n→∞ n n
k=1 k=Tyx
n−Txy
n − Tyx 1 X
= lim 1Xyk =x
n→∞ n n − Tyx
k=1
i
= avec Txi 6 n − Tyx < Txi+1
n − Tyx
1
=
E(Tx1 )

Prouvons maintenant (A2 ). Pour (i) ⇒ (ii), on utilise simplement le résultat :


n
1X 1
lim 1Xk =x =
n→∞ n
k=1
E(Tx1 )
n
1X 1
⇒ lim P (Xyk = x) = 1
en prenant l’espérance par convergence dominée
n→∞ n E(T x)
k=1
n +∞
1 XX 1
⇒ lim π(y)P (Xyk = x) =
n→∞ n
k=1 k=1
E(Tx1 )
1
⇒ π(x) =
E(Tx1 )
1
Pour (ii) ⇒ (iii), comme π(x) = , l’espérance est forcément fini pour tout x et
E(Tx1 )
donc la chaîne est récurrente. (iii) ⇒ (iv) est évident.
PTxi+1
Il faut maintenant montrer que l’on a (iv) ⇒ (i). Soit Yi = 1Xk =x , on a
k=Txi
alors :
Txn  Tx1 
1X X 
E(Yi ) = lim 1Xk =y = E 1Xk =y 
n→+∞ n
k=0 k=1

29
Cours Simulation Stochastique N. Wicker

or
xTn x Tn
1X Tn 1 X E(Tx1 )
1Xk =y = x n 1Xk =y → lim
n n Tx n→+∞ E(Ty1
k=0 k=0

1
ainsi, π(y) = définit une probabilité. Il faut montrer qu’elle est stationnaire :
E(Ty1 )

n
X X 1X
π(y)P (y, x) = lim 1Xk =y P (y, x)
n→+∞ n
y∈M y∈M k=1
n
X 1X
= lim P (Xk = y)P (y, x)
n→+∞ n
y∈M k=1
n
1X
6 lim P (Xk+1 = x) = π(x)
n→+∞ n
k=1
P
Ainsi, pour tout x, y π(y)P (y, x) 6 π(x) et comme
n n
1 X k 1X k+1 1 n+1 1

P (X x = x) − P (X x = x) = P (X x = x) − P (Xx = x)
n n n

k=1 k=1
2
6 → 0
n n→+∞
P
on a bien : y∈M π(y)P (y, x) = π(x). 

Proposition 6 – Si Φ est irréductible, apériodique et récurrente positive alors la chaîne


produit Xn ⊗ Yn est également irréductible, apériodique et récurrente positive.

Preuve. L’irréductibilité et l’apériodicité sont évidentes. La récurrence positive se


montre simplement en utilisant le proposition 5 p. 28 et le fait que π ⊗ π est une loi
invariante pour la chaîne produit. 

Théorème 7 (ergodicité) – Si Φ est irréductible, apériodique et récurrente positive


alors limn→+∞ P (Xn = x) = π(x)

Preuve. Soit Zn = (Xn , Yn ) une chaîne produit Xn et Yn de même noyau de Markov


avec T le premier temps où Xn = Yn , on a alors :

P (Xn = x) =P (Xn = x, T > n) + P (Xn = x, T 6 n)


=P (Xn = x, T > n) + P (Yn = x, T 6 n)
6P (T > n) + P (Yn = x)

30
3. Chaînes de Markov à temps discret

Par conséquent, P (Xn = x) − P (Yn = x) 6 P (T > n), par symétrie on obtient égale-
ment P (Yn = x) − P (Xn = x) 6 P (T > n) et donc |P (Xn = x) − P (Yn = x)| 6 P (T > n).
Comme Zn est récurrente positive, par récurrence positive de Xn , P (T = ∞) = 0 donc
limn→+∞ P (T > n) = 0. Si on prend maintenant Y0 de loi π par invariance on obtient
que Yn est également de loi π ce qui permet de conclure. 

3.4 Chaînes de Markov à nombre d’états non dénombrable


Commençons par quelques définitions de récurrence permettant de voir que
même celle-ci revêt une réalité plus riche lorsque l’on passe au cas général.
Définition 5 – Un état x est dit récurrent si P (τx < +∞) = 1 où τx est le temps de
premier retour.
Définition 6 – Un ensemble d’états A est dit récurrent si pour tout x ∈ A, Ex (ηA ) =
∞ où ηA indique le nombre de passage en A. Parfois, on trouve aussi la définition
suivante : un ensemble d’états A est dit récurrent si pour tout x ∈ A, P (τA < +∞) = 1.
Les deux définitions ne sont pas équivalentes en général, elles sont équivalentes sur
un espace dénombrable d’états si A est un atome 1 .

Définition 7 – Un ensemble d’états α est dit être un atome s’il existe un mesure µ
telle que ∀x ∈ α, P (x, A) = µ(A).

Définition 8 – Un ensemble d’états A est dit Harris-récurrent si P (ηA = +∞) = 1.

Avec ces deux dernières définitions, on comprend que la Harris-récurrence est


une notion plus forte car le nombre de passages est infini de manière presque sûre
et non pas simplement en moyenne.
L’exemple suivant illustre bien cela. On considère la chaîne de Markov sur N
décrite par les probabilités de transition suivante : P (1, 1) = 1 et ∀x > 1, P (x, x + 1) =
1 − 1/x2 et P (x, 1) = 1/x2 . Soit A = {1, 2}, A est récurrent mais pas Harris récurrent.
Q 
En effet, P2 (τA = ∞) = t>2 1 − t12 > 0 mais on a bien E(ηA ) = +∞) car s’il y a retour
dans l’état 1 la chaîne y demeure indéfiniment.
Définition 9 – Pour un ensemble d’état dénombrables, une chaîne est dite récur-
rente si chaque état est récurrent.

Définition 10 – Une chaîne est dite Harris récurrente si elle est ψ-irréductible et si
tout A ∈ B+ (X) est Harris récurrent.

Remarque 7 – Une chaîne φ-irréductible est toujours ψ-irréductible. Nous ne défi-


nissons pas ici la ψ-irréductibilité, il faut simplement la voir comme une mesure
maximum sur les φ possibles.
1. Meyn et Tweedie, 2009, Markov Chains and Stochastic Stability.

31
Cours Simulation Stochastique N. Wicker

Théorème 8 – La marche aléatoire sur Zd est récurrente pour d ∈ {1, 2} et transiente


pour d > 2.

Preuve. Considérons d’abord le cas d = 1 et sans perte de généralité lePcas où l’on


part de l’état 0. On peut décrire la marché aléatoire par la somme Sn = ni=0 Xi avec
Xi ∈ {−1, 1}. On a alors :
!
2n
n
P (S2n = 0) = 2n
2
(2n)!
=
n!n!22n

4πn (2n)2n
∼√ 2 2n 2n
en utilisant la formule de Stirling
2πn n 2
1
∼√
πn

Ainsi, +∞
P
n=0 P (S2n = 0) = +∞ ce qui permet de conclure à la récurrence.
De manière semblable pour d = 2, on a :

1 X (2n)!
P (S2n = 0) =
42n k!k!(n − k)!(n − k)!
k=0
(2n)! X n n
  
=
42n (n!)2 k k
k=0
2
1 2n

= 2n
4 n
1

πn
Maintenant pour d = 3, on a :

1 X (2n)!
P (S2n = 0) =
62n i!j!k!(n − i)!(n − j)!(n − k)!
i,j,k
i+j+k=n
!
(2n)! 1 X n!
6 j k 3 n! i!j!k!
62n n3 ]! i,j,k
i+j+k=n
(2n)! 3n
6 j k 3 n!
62n n3 !

32
3. Chaînes de Markov à temps discret

2π2n3n
2n
2n

∼  n/3 √ 3  n √
e n
62n 3e 2πn/3 ne 2πn

2 1
∼ q 3 3/2
2π n
3
P+∞
Ainsi, n=0 P (S2n = 0) < +∞ donc le retour ne peut se produire une infinité de fois.

Définition 11 – Une chaîne de Markov est φ-irréductible si Φ est une mesure


positive telle que pour tout x ∈ Ω et A ∈ Ω avec Φ(A) > 0 alors ∃n = n(x, A) tel que
P n (x, A) > 0.

Définition 12 – La période d’une chaîne de Markov sur (Ω,T) est le plus grand
nombre D ∈ N tel qu’il existe des ensembles disjoints χ1 , . . . , χD ∈ T avec π loi
stationnaire vérifiant π(χi ) > 0 et pour i ∈ 1, . . . , D − 1 P (x, χi+1 ) = 1, ∀x ∈ χi et
P (x, χ1 ) = 1, ∀x ∈ χD . Si D = 1 on dit que la chaîne est apériodique.

Le but de cette section est d’arriver à la démonstration du théorème 10 donnant


une condition d’ergodicité sur une chaîne de Markov dans le cas général. Pour
prouver la convergence, on utilisera l’inégalité de couplage suivante :
Lemme 7 – kL(Xn ) − L(Yn )k 6 P (Xn , Yn )

Preuve.

P (Xn ∈ A) − P (Yn ∈ A) = P (Xn ∈ A, Xn = Yn ) + P (Xn ∈ A, Xn , Yn ) − P (Yn ∈ A, Xn , Yn ) − P (Yn

= P (X ∈ A, X , Y ) − P (Y ∈ A, X , Y )
n n n n n n
6P (Xn , Yn ) 

Définition 13 – Un ensemble C de l’espace d’état (Ω,T) est dit small s’il existe
n ∈ N et  > 0 tels que ∀x ∈ C P n (x, A) > Q(A) où Q est une probabilité et A ∈ T.

Lemme 8 – Soit une chaîne de Markov sur l’espace X avec loi stationnaire π. Supposons
que pour A ∈ X, on ait Px (τA < ∞) > 0 pour tout x ∈ X. Alors pour π presque tout x ∈ X,
Px (τA < ∞) = 1.

Preuve. Prouvons cela par contradiction et supposons qu’il existe m ∈ N et B ⊆ X tel


1
que π(B) > 0 et Px (τA < ∞) 6 1− m pour tout x ∈ B. Par ailleurs, comme Px (τA < ∞) > 0
pour tout x ∈ X, ∃n0 ∈ B, δ0 > 0 et B0 ⊆ B tels que P n0 (x, A) > δ0 et π(B0 ) > 0 pour
tout x ∈ B0 . Soit, ηB0 = #{k > 1|Xn0 k ∈ B0 }, on a P (τA = ∞, ηB0 = r) 6 (1 − δ0 )r . En
particulier, P (τA = ∞, ηB0 = ∞) = 0. Ainsi, pour tout x ∈ B0 , on a :

Px (τA = ∞, ηB < ∞) =1 − Px (τA = ∞, ηB = ∞) − Px (τA < ∞) (Cont. page suiv.)

33
Cours Simulation Stochastique N. Wicker

 1 1
>1 − 0 − 1 − =
m m
Maintenant, on sait qu’il existe l ∈ N, δ > 0 et B00 ⊆ B0 tels que :
 
Px τA = ∞, sup{k > 1|Xn0 k ∈ B0 } < l > δ, x ∈ B00

Ainsi, on posant n = n0 l on garantit que pour tout x ∈ B00 , on a Px (τA = ∞, Xkn <
B0 , ∀k > 1) > δ. On va maintenant montrer que π(Ac ) peut être aussi grand que
possible, en effet :
Z
π(Ac ) = π(dy)P jn (y, Ac )
X
Z
= π(dy)P jn (y, Ac )
X
Z  j−1  
[ 00 0 0 c
> π(dy)Py  Xin ∈ B , X(i+1)n < B , . . . , X(j−1)n < B , Xjn ∈ A 

X i=0
j−1 Z
X  
= π(dy)Py Xin ∈ B00 , X(i+1)n < B0 , . . . , X(j−1)n < B0 , Xjn ∈ Ac
i=0 X
j−1 Z
X  
= π(dy)Py X0 ∈ B00 , Xn < B0 , . . . , X(j−i−1)n < B0 , X(j−i)n ∈ Ac
i=0 X

en utilisant la propriété de Markov (6)

On en déduit que :
j−1
X h i
π(Ac ) > π(B00 )δ = jπ(B00 )δ
i=0

On aboutit ainsi à une contradiction, ce qui conclut la preuve. 

Lemme 9 – Soit une chaîne apériodique Φ, si C ⊆ X estR un ensemble small avec


P k0 (x, .) > Q(.) pour tout x ∈ C et si on pose S = {n > 1| Q(dx)P n (x, C) > 0} alors
∃n∗ ∈ N tel que S ⊇ {n∗ , n∗ + 1, n∗ + 2, . . .}

Preuve. Soit T = S + k0 , T représente le temps où il est possible, si on a démarré au


temps 0 avec la distribution Q(.) d’être dans l’ensemble C. On constante aussi que
T est additive, en ce sens que ∀n, m ∈ T , n + m ∈ T .
Par ailleurs, on a pgcd(T ) = 1.R En effet, si on avait pgcd(T ) = d > 1, alors pour
1 6 i 6 d avec Xi = {x ∈ X|∃l ∈ N, Q(dx)P ld+i (x, C) > 0} on aurait X = X1 ∪ · · · ∪Xd
qui forme une partition par rapport à laquelle la chaîne de Markov est périodique
de période d. Ce qui contredit l’hypothèse d’apériodicité de la chaîne de Markov.

34
3. Chaînes de Markov à temps discret

Ainsi, pgcd(T ) = 1 et T est additive. Par un résultat standard de théorie des


nombres 2 , on a l’existence de n0 ∈ N tel que T ⊇ {n0 , n0 + 1, n0 + 2, . . .}. On peut alors
conclure en posant n∗ = n0 − k0 . 

Théorème 9 – Toute chaîne de Markov φ-irréductible contient un ensemble small C ⊂


X avec φ(C) > 0.

Preuve. La preuve peut être trouvée dans Meyn et Tweedie (2009, Theorem 5.2.2)
et dans Jain et Jamison (1967). 

Théorème 10 – Si P (x, dy) est la probabilité de transition d’une chaîne de Markov


apériodique, φ-irréductible sur un espace général X avec une loi stationnaire π. Alors,
π-p.s. pour x ∈ X, on a :

lim kP n (x, .) − π(.)k = 0


n→∞

Preuve. La preuve retranscrit ce qui peut être lu dans Rosenthal (2002), elle utilise
les lemmes 9, 8. Elle est schématisée par la figure 2.

k0
nx
x
couplage Q
C
avec probabilité
y ny epsilon
n*

utilisation de la pi-stationnarité

Figure 2 – Schéma simplificateur de la preuve

On utilise la construction éclatée (split chain) 3 suivante : étant donnée (Xn , Yn ),

2. Billingsley, 1995, Probability and Measure, voir p. 541.

35
Cours Simulation Stochastique N. Wicker

1. si (Xn , Yn ) < C × C, alors on choisit indépendamment Xn+1 ∼ P (Xn , .) et Yn+1 ∼


P (Yn , .). On remplace n par n + 1.
2. si (Xn , Yn ) ∈ C × C, alors
(a) avec probabilité , on choisit Xn+k0 = Yn+k0 ∼ Q(.)

1
(b) avec probabilité 1−, on choisit indépendamment Xn+k0 ∼ 1− P k0 (Xn , .)−
  
1
Q(.) et Yn+k0 ∼ 1− P k0 (Yn , .) − Q(.) Sous les conditions 2a et 2b, on
remplit les trous entre les temps n et n + k0 conditionnellement à Xn
et Xn+k0 pour {Xk }n<k<n+k0 et conditionnellement à Yn et Yn+k0 pour
{Xk }n<k<n+k0 . On remplace n par n + k0 .
D’après le théorème 9, il y a un ensemble small C ⊂ X vérifiant φ(C) > 0 tel que
P k0 (x, .) > Q(.) pour tout x ∈ C.
On choisit (X0 , Y0 ) = (x, y) pour x, y ∈ X et on définit {Xn }n et {Yn }n d’après la
construction split ci-dessus. Comme φ(C) > 0, on a Px (τC < ∞) > 0 et Py (τC < ∞) > 0
par irréductibilité de la chaîne. Alors, il existe nx et ny tels que P nx (x, C) > 0 et
P ny (y, C) > 0. Soit n∗ défini comme dans le lemme 9. Ainsi, avec P k0 (x, .) > Q(.) pour
tout x ∈ C, on obtient que P nx +k0 +n (x, C) > 0 à chaque fois que n > n∗ . De même,
P ny +k0 +n (y, C) > 0 pour tout n > n∗ .
Soit l > max(nx , ny ) + k0 + n∗ , on a comme la loi jointe fonctionne comme deux
lois indépendantes jusqu’à l’entrée en C × C :

P(x,y) (τC×C < ∞) > P l (x, C)P l (y, C) > 0.


On a ainsi, P(x,y) (τC×C < ∞) > 0 pour tout (x, y) ∈ X × X.

Soit, G ⊆ X × X l’ensemble des couples (x, y) pour lesquels P(x,y) (Xn , Yn ) ∈ C ×

Ci.s. = 1. On va montrer que l’on a :

(π × π)(G) = 1 (7)

En appliquant le lemme 8, comme le temps de retour en C × C est positif pour tout


(x, y), on a une probabilité 1 de retour en C ×C pour (π×π)-presque tout (x, y) ∈ C ×C.
Lorsque la chaîne rejoint C × C, elle y retourne indéfiniment avec probabilité 1 ce
qui prouve l’ équation (7). C’est ici que l’hypothèse de π-stationnarité joue son rôle
et rend cette preuve plus courtes que toutes celles existants par ailleurs dans la
littérature.
Maintenant, à chaque fois que (Xn , Yn ) ∈ C × C (en excluant les temps à moins
de k0 pas d’une précédente visite de C × C), d’après la partie 2a de la construction
splitée, il y a une probabilité  > 0 que les deux chaînes se couplent k0 itérations plus
tard(on aurait donc comme temps de couplage T∗ = n + k0 . Par conséquent, comme
C × C est visité infiniment souvent, on a :
lim P(x,y) (T∗ > n) = 0, (x, y) ∈ G.
n→∞

36
3. Chaînes de Markov à temps discret

L’inégalité de couplage nous donne :

kP n (x, .) − P n (y, .)k 6 P(x,y) (Xn , Yn ) 6 P(x,y) (T∗ > n).

pour presque tout couple (x, y). Soit pour x ∈ X, Gx = {y ∈ X|(x, y) ∈ G} et Ḡ = {x ∈


X|π(Gx ) = 1}. Ainsi, on a pour tout x ∈ Ḡ :
Z Z
lim kP (x, .) − πk = lim π(dy)P (x, .) − π(dy)P n (y, .)
n n
n→∞ n→∞
Z
6 lim π(dy)kP n (x, .) − P n (y, .)k
n→∞
Z
6 lim π(dy)P(x,y) (T∗ > n) = 0
n→∞

où on a pour tout x ∈ Ḡ, que limn→∞ P(x,y) (T∗ > n) = 0 pour π-presque tout y ∈ X.
Finalement, on montre que π(Ḡ) = 1, en effet si on avait π(Ḡ) < 1, on aurait :
Z Z h i
(π × π)(Gc ) = π(dx)π(Gxc ) = π(dx) 1 − π(Gx ) > 0
X Ḡc

ce qui contredit 7. Ainsi, π(Ḡ) = 1 ce qui conclut la preuve. 

Exemple 12 – Simulation de la loi cible :

kx−µk2 5 1
− kx−p

Y
f (x) ∝ e 2σ 2 e ik

i=1

à l’aide de l’algorithme de Metropolis-Hastings. On prend comme loi de proposition


q(xt , x∗ ) la loi N (xt , σ 2 I2 ). La chaîne est φ-irréductible, il suffit de prendre pour cela
la mesure de Lebesgue φ et de constater que pour A tel que φ(A) > 0 on a une
probabilité positive d’aller en A en une étape. Pour l’apériodicité, quel que soit le
découpage en ensembles disjoints, il sera toujours possible de rester dans le même
ensemble avec une probabilité non nulle. On a donc convergence f -presque partout
d’après le théorème 10 p. 35.

Si la chaîne de Markov est Harris-récurrente, alors on peut remplacer pour


π-presque tout x ∈ X par pour tout x ∈ X 4 . La Harris récurrence peut nous être
facilement garantie par le résultat suivant :

3. Athreya, Doss et Sethuraman, 1992, « A proof of convergence of the Markov chain simulation
method » ;
Nummelin, 1984, General irreducible Markov chains and non-negative operators ;
Meyn et Tweedie, 2009, Markov Chains and Stochastic Stability.
4. Tierney, 1994, « Markov chains for exploering posterior distributions ».

37
Cours Simulation Stochastique N. Wicker

Théorème 11 – Si P est un noyau de Métropolis π-irréductible alors P est Harris récur-


rente 5 .

Une preuve directe est également disponible dans Athreya, Doss et Sethuraman
(1992).

3.5 Chaînes de Markov à temps continu et espace dénombrable


(intro)
On considère une chaîne de markov (Xt )t∈R+ à valeur dans M et de matrice de
transition au temps t, P t notée également P (t) suivant les cas.

Proposition 7 – Equation de Chapman-Kolmogorov : P (t + t 0 ) = P (t)P (t 0 ).

Preuve. On considère la partition de l’espace Ω sur lequel est définie la chaîne :


Ω = ∪k∈M {Xt = k} et on obtient :
X
Pij (t + t 0 ) = P (Xt+t 0 = j|X0 = i, Xt = k)P (Xt = k|X0 = i)
k∈M
X
= P (Xt+t 0 = j|Xt = k)P (Xt = k|X0 = i)
k∈M
X
= Pik (t)Pkj (t 0 ) 
k∈M

Un outil commode pour manipuler ces chaînes et le générateur infinitésimal


défini ci-dessous, il permet en effet de caractériser complètement la chaîne de
Markov.

Définition 14 – On appelle générateur infinitésimal la limite suivante :


P (t) − I
A = lim = P 0 (0)
t→0 t
L’équation de Chapman-Kolmogorov nous dit en effet que P (t + h) = P (h)P (t),
si on dérive par rapport à h on obtient alors P 0 (t + h) = P 0 (h)P (t) ce qui donne en
faisant tendre h vers 0 :

P 0 (t) = AP (t)

qui se résoud en :

P (t) = eAt car P (0) = I

Ainsi, il suffit de calculer l’exponentielle de At pour trouver P (t).

5. Tierney, 1994, « Markov chains for exploering posterior distributions ».

38
3. Chaînes de Markov à temps discret
! !
−1 1 2 −2
Exemple 13 – Soit A = , ainsi : (At)2 = t 2 et d’une manière
1 −1 −2 2
!
k k k 2k−1 −2k−1
générale : (At) = t (−1) ainsi :
−2k−1 2k−1

1 X t k (−1)k 2k
!
At 1 −1
e =I +
2 k! −1 1
k=1
!
1  −2t  1 −1
=I + e − 1
2 −1 1
!
1 1 + e−2t 1 − e−2t
=
2 1 − e−2t 1 + e−2t
On va maintenant montrer que le générateur infinitésimal s’interprète facile-
ment en considérant, avec comme point de départ X0 = x, d’une part P (T1 > t) et
d’autre part P (T1 < t, Z1 = y) où T1 indique le premier saut et Z1 le premier état
atteint après x. On introduit une discrétisation de [0, t] avec des pas de taille h. On re-
marque pour commencer que {T1 > t} ⊂ {X0 = Xh = · · · = Xnh } ⊂ {T1 > t}∪{T2 −T1 < h},
le dernier ensemble exprime la possibilité de ne pas observer un saut car il se pro-
duirait à une échelle de temps trop petite. Ainsi, on obtient :
P (T1 > t) = lim P (X0 = Xh = · · · = Xnh )
h→0,nh=t
n
= lim Px,x
h→0,nh=t
 
or ln Px,x (h) = Px,x (h) − 1 + o |Px,x (h) − 1| , ainsi :
 
Px,x (h) = exp{Px,x (h) − 1 + o |Px,x (h) − 1| }
= exp{Ax,x h + o(h)}
On en déduit que :
P (T > t) = lim exp{Ax,x nh + no(h)}
h→0,nh=t
Ax,x t
=e
On peut alors interpréter tous les termes diagonaux du générateur comme les
opposés des temps moyens de rester dans les états correspondants, temps qui
suivent tous une loi exponentielle.
De même, on observe que {T < t, Z1 = y} ⊂ ∪nm=1 {X0 = Xh = · · · = X(m−1)h , Xmh =
y} ⊂ {T < t, Z1 = y} ∪ T2 − t1 < h de telle sorte que :
n
X
m−1
P (T < t, Z1 = y) = lim Px,x (h)Pxy (h) (Cont. page suiv.)
h→0,nh=t
m=1

39
Cours Simulation Stochastique N. Wicker

n (h)
1 − Px,x
= lim Pxy (h)
h→0,nh=t 1 − Px,x (h)

1 − eAx,x nh+o(h)
= lim Px,y (h)
h→0,nh=t −hAx,x + o(h)
  Ax,y
= 1 − e−Ax,x t
−Ax,x

On voit maintenant, que les termes non diagonaux sont proportionnels aux proba-
bilités de choix du prochain état, après saut.
Exemple 14 (Processus de Poisson) – Soit

 −λ λ
 


 −λ λ 

−λ λ
 
A = 
 
. .


 .. .. 


. . . . 

. .

En notant U la sur-diagonale ne contenant que des 1, on a : A = −λI + λU , ainsi :

P (t) =eAt
=e−λtI+λtU
=e−λtI eλtU par commutativité de I et U

X (tU )k
=e−λt I
k!
k=0

t j−i
de telle sorte que Pij (t) = e−λt (j−i)! où l’on retrouve la loi de Poisson. On retrouve
ce processus lorsque l’on compte des évènements se produisant à des intervalles
de temps qui suivent une loi exponentielle, ce qu’expriment justement les termes
diagonaux comme on vient de le voir dans le paragraphe précédent.

4 Méthode de Monte-Carlo et statistiques bayésiennes


4.1 Introduction
L’idée de base : P (x|θ) la loi sur x de paramètre θ avec un a priori sur P (θ)
souvent noté π(θ). exemples :
1)les longueurs de pétales d’iris données en cm, θ { N(3, 1)
2)estimation d’une population N à partir de capture-recapture. P (N ) = 1[1,Nmax ] N1
avec Nmax = 1000.

40
4. Méthode de Monte-Carlo et statistiques bayésiennes

On utilise la formule de Bayes pour maximiser :


P (x|θ)P (θ)
P (θ|x) =
P (x)
On dit que l’on estime θ par maximum a posteriori. Il est important ici de remarquer
que quel que soit θ, P (x) est une constante et donc on écrira couramment P (θ|x) ∝
P (x|θ)P (θ). Soit on maximise directement P (θ|x) ce qui en général est ardu, soit on
simule θ d’après P (θ|x) ce qui constitue la pratique courante.

4.2 Lois conjuguées


Définition : la loi de θ est conjuguée à celle de P (x|θ) si la loi de P (θ|x) est de
même type (même loi mais avec éventuellement des paramètres différents).
Exemple 15 – la! loi bêta Be(α, β) est conjuguée à la loi binomiale B(n, p). Prenons,
n Γ (α+β)
P (x|n, p) = px (1 − p)n−x et P (p) = Γ (α)Γ (β) pα−1 (1 − p)β . Alors,
x
!
n Γ (α + β) x+α−1
P (p|x) ∝ p (1 − p)n+β−x−1
x Γ (α)Γ (β)
∝ px+α−1 (1 − p)n+β−x−1

On a donc que P (p|x) { Be(x + α, n − x + β).

Exemple 16 – la loi Γ (k, θ) est conjuguée à la loi de Poisson P (λ). Prenons P (x|λ) =
x k−1 −λ/θ
e−λ λx! et P (λ|k, θ) = λΓ (k) e θ k . Ainsi,

λx λk−1 e−λ/θ
p(λ|x) ∝ e−λ
x! Γ (k) θ k
∝ e−λ λx+k−1 e−λ/θ
∝ e−λ(1+1/θ) λx+k−1

donc P (λ|x) { Γ (x + k, (1 + θ1 )−1 ).

Exemple 17 – la loi de Gauss N(m, s2 ) est conjuguée à la loi de Gauss N(µ, σ 2 ) pour
(x−µ)2 (µ−m)2

le paramètre µ. Prenons, P (x|µ, σ 2) = √ 1 e− 2σ 2 et P (µ|m, s2 ) = √1 e 2s2 . Ainsi,
2πσ 2πs

(x−µ)2 (µ−m)2

P (µ|x) ∝ e 2σ 2 e 2s2
h i
− 21 µ2 ( 1 + 1 )−2µ( x + m )
∝e σ 2 s2 σ 2 s2

41
Cours Simulation Stochastique N. Wicker

On introduit T = ( σ12 + s12 )−1/2 , ainsi

µ2 2T 2 x
−1/2[ − 2 ( 2 + m2 )µ]
P (µ|x) ∝ e T2 T σ s

x + m )T 2 2
 
− 1 µ−(
∝e 2T 2 σ 2 s2

donc P (µ|x) { N(T 2 ( σx2 + sm2 ), T 2 ).

Exemple 18 – la loi inverse-gamma IG(k, θ) est conjuguée à la loi de Gauss pour le


(x−µ)2 2
− θ k eθ/σ
paramètre σ 2 . Prenons P (x|µ, σ 2 ) = √1 e 2σ 2 et P (σ 2 ) = . Ainsi,
2πσ Γ (k)σ 2(k+1)

2
(x−µ)2
2 1 − θ k e−θ/σ
P (σ |x) ∝ √ e 2σ 2
2πσ Γ (k)σ 2(k+1)
− θ
2
1 − (x−µ) e σ 2
∝ e 2σ 2 2(k+1)
σ σ
(x−µ)2
 
1 1

σ2 2 +θ (σ 2 )k+1/2+1
∝e

(x−µ)2
donc P (σ 2 |x) { IG(k + 12 , 2 + θ)

4.3 Métropolis-Hastings
Principe : on veut simuler une loi π(θ) (dans notre cas, la loi P (θ|x)), loi cible
avec une chaîne de Markov.
Initialisation : θ 0 ← valeur quelconque Etape 1 : on propose θ ∗ suivant une loi
π(θ ∗ )q(θ ∗ ,θ t−1 )
de proposition q(θ t−1 , θ ∗ ). Etape 2 : θ t ← θ ∗ avec la probabilité π(θ t−1 q(θ t−1 ,θ ∗ )
∧ 1,
π(θ ∗ )
parfois on a simplement ∧ 1. Etape 3 : retour en 1 sauf si nombre d’itérations
π(θ t−1 )
suffisant.
Pour que cela fonctionne, il faut que la chaîne de Markov soit irréductible et
apériodique dans le cas d’un nombre d’états finis.

Proposition 8 – π(θ) est bien la loi stationnaire.

Preuve. Cela se démontre en exhibant la réversibilité de la chaîne, on a en effet :

π(θ t )q(θ t , θ t−1


!
t−1 t−1 t t−1 t−1 t
π(θ )P (θ , θ ) = π(θ q(θ , θ ) ∧1
π(θ t−1 q(θ t−1 , θ t
= π(θ t )q(θ t , θ t−1 ) ∧ π(θ t−1 )q(θ t−1 , θ t )
= π(θ t )P (θ t , θ t−1 ) 

42
4. Méthode de Monte-Carlo et statistiques bayésiennes

En pratique, il est important de connaître la vitesse de convergence, pour avoir


une bonne vitesse de convergence, il faut bien choisir q(θ t , θ ∗ ). On peut avoir
Métropolis indépendant, simulation de manière globale, sinon c’est une simulation
locale.
kxk2 Q 1
− kx−µ
k
Exemple 19 – f (x) ∝ e− 2 i=1 e
i k , x, µ , . . . , µ ∈ R2 , les µ définissent des zones
1 k i
t−1 ∗ t−1
interdites. q(x , x ) { N (x , sI2 ).

Exemple 20 – capture-recapture. On cherche à connaître un effectif total N . On


effectue deux captures et on note x1 et x2 les effectifs de ces deux captures et x+
le nombre d’invidus capturés au moins une fois (x!∗ > x1 + x2 ). Notre modèle est le
N x
suivant : P (N ) = 1[1,Nmax ] (N ) N 1 , P (xi |pi ) = pi i (1 − pi )N −xi et pi { Be(α, β).
max xi
On considère n1 : nombre d’individus capturés uniquement au temps 1, n2 au temps
2 et n12 les individus capturés aux temps 1 et 2. On a le modèle multinomial :

P (n1 , n2 , n12 |N , p1 , p2 ) = () [p1 (1 − p2 )]n1 [p2 (1 − p1 )]n2 (p1 p2 )n12 [(1 − p1 )(1 − p2 )]N −n1 −n2 −n12
n +n
N! n1 +n12 p2 2 12
= p (1 − p1 )N −n1 −n12 (1 − p2 )N −n2 −n12
n1 !n2 !n12 !(N − x+ )! 1

Ainsi,
2
(N − 1)! Y xi Γ (α + β) α−1
P (N |x) ∝ pi (1 − pi )N −xi 1[1,Nmax ] (N ) p (1 − pi )β−1
+
(N − x )! Γ (α)Γ (β) i
i=1

Comment estime-t-on N ? On simule P (N |x) et on sélectionne le maximum de


{Nt , t ∈ 0, tmax }.

Exemple 21 – estimation des paramètres de la loi de Weibull avec G(x) = 1 − F(x) =


a a
e−bx et f (x|a, b) = abxa−1 e−bx . On veut estimer a et b en prenant comme loi a priori
E(1) pour a et Γ (k, θ) pour b. La loi a posteriori pour un échantillon x1 , . . . , xn est
alors :
n Pn a
Y
n n
P (a, b|x) ∝ a b xia e−b i=1 xi e−a bk−1 e−b/θ
i=1
∗ /at−1 −b∗ /bt−1
e−a e
Comme loi de proposition, on peut prendre : q(θ t−1 , θ ∗ ) = at−1 bt−1
. La proba-
bilité d’acceptation prend une forme innommable :
∗ ∗ Pn a∗ ∗ b∗ at−1 bt−1
a∗ b∗ ( ni=1 xi )a e−b i=1 xi e−a (b∗ )k−1 e− θ at−1 bt−1 e− a∗ e− b∗
Q
bt−1
∗ ∗ ∧1
t−1 n xat−1 − a − b
P
at−1 bt−1 ( ni=1 xi )a e−b e−a (bt−1 )k−1 e− θ
t−1 t−1
a∗ b∗ e at−1 e bt−1
Q
i=1 i

Cela sera revu dans l’échantillonnage par tranche.

43
Cours Simulation Stochastique N. Wicker

4.4 Méthode de Gibbs


−E/T avec E =
P Origine :2 simulation des champs de Gibbs où P (S1 , . . . Sn ) ∝ e
i∼j (Si − Sj ) kij avec i ∼ j si Si et Sj sont voisins.
Idée : simuler Si en les traitant un par un.
Gibbs bivarié pour simuler P (α, β).

Initialisation : α 0 et β 0 quelconques.
Etape 1 : simulation de α t suivant P (α|β t−1 ).
Etape 2 : simulation de β t suivant P (β|α t )
Etape 3 : retour en 1 sauf si nombre d’itérations suffisant.

Cela fonctionne car la chaîne de Markov est réversible, en effet :

π(α t−1 , β t−1 )P (α t |β t−1 )P (β t |α t ) = P (α t−1 , β t−1 , α t , β t )


= π(α t , β t )P (α t−1 |β t )P (β t−1 , α t−1 )

Gibbs multivarié : La chaîne de Markov ainsi obtenue est bien réversible. En

Initialisation : α10 , . . . , αk0 .


Etape 1 : α1t généré suivant P (α1 |α2t−1 , . . . , αkt−1 ).
Etape 2 : α2t généré suivant P (α2 |α1t , α3t−1 , . . . , αkt−1 )
..
.
t−1
Etape k : αkt généré suivant P (αk |α1t , . . . , αk−1 )
Etape k + 1 : retour en 1 sauf si nombre d’itérations suffisant.

effet,

P (α1t−1 , . . . , αkt−1 , α1t , . . . , αkt ) =P (α1t−1 , . . . , αkt−1 )P (α1t |α2t−1 , . . . , αkt−1 )P (α2t | . . . ) . . .
t
P (αkt |α1t , . . . , αk−1 )
=P (α1t , . . . , αkt )P (α1t−1 |α2t , . . . , αkt )P (α2t−1 | . . . ) . . .
t−1
P (αkt−1 |α1t−1 , . . . , αk−1 )

Application à la régression linéaire : On considère le modèle y = bx +  avec


 { N(0, σ 2 ), σ 2 { IG(k, θ) et b { N(β, α 2 ).
(y −bx )2
− i i
Soit un échantillon x1 , . . . , xn , y1 , . . . , yn , f (y|x, σ 2, b) = ni=1 √ 1 e 2σ 2 et
Q
2πσ

θ
(b−β)2
2 − θ k e− σ 2
g(σ , b|y, x) ∝ f (y|x, σ 2, b)e 2α 2 (Cont. page suiv.)
Γ (k)(σ 2 )k+1

44
4. Méthode de Monte-Carlo et statistiques bayésiennes

Pn (yi −bxi )2 (b−β)2 θ


− −

i=1 2σ 2 e 2α2 e σ 2
∝e 2σ 2
(σ 2)k+1/2+1
2
− 1 (θ+Pn (yi −xi ) )
(b−β)2 σ2 i=1 2
− e
∝e 2α 2
(σ 2 )k+1/2+1
Pn t−1 x )2
i=1 (yi −b
On simule donc σ 2 suivant la loi IG(k + 1/2, θ + 2
i
). De même,
− 12 [b2 ( 12 + i=1 xi2 )−2b(β− ni=1 yi xi )]
Pn P
g(σ 2 , b|y, x) ∝ e α
xi yi
x2
Pn
2b(β+ n
P
− 12 ( 1 + i=1 i )(b2 − i=1 σ 2 )
α2 2 1 x2
Pn
σ +
∝e α2 i=1 i

!2
β+ n xi yi /σ 2
P
− b− i=1
2
1/α +
Pn 2
x /σ 2
e i=1 i
∝ Pn −1
2

1 i=1 xi
2 α2
+ σ2
Pn t )2
 Pn 2
−1
β+ i=1 xi yi /(σ i=1 xi
Ainsi, bt est simulé suivant : N( Pn 2 , 1
α2
+ t
(σ ) 2 ).
1 + i=1 xi
α2 σ2

4.5 Echantillonnage par tranche


On a une loi π(θ) que l’on n’arrive pas à simuler directement mais que l’on peut
écrire
Yn n Z w̃i (θ)
Y
π(θ) = w̃i (θ) = 1dwi
i=1 i=1 0

On s’intéresse à la densité :
n
Y
h(θ, w1 , . . . , wn ) = 1θ∈D 1[0,w̃i (θ)] (wi )
i=1
On applique maintenant l’algorithme de Gibbs multivarié car la densité marginale
en θ est π(θ) par construction.
a
Application à la loi de Weibull On considère Ga,b (x) = e−bx = 1−F(x). Soit f (x) =
a bk−1 − θb
abxa−1 e−bx avec comme lois a priori π(a) = e−a et π(b) = Γ (k)θ k
e . On dispose d’un
a
a b ( i=1 xi )a−1 ( ni=1 e−bxi ). La
n n Qn Q
échantillon x1 , . . . , xn de vraisemblance : f (x|a, b) =
loi a posteriori est alors :
n n a −a k−1 b
n n
Y
a
Y e−bxi e b e− θ
g(a, b|x) ∝ a b ( xi ) (Cont. page suiv.)

i=1 i=1
Γ (k)θ k

45
Cours Simulation Stochastique N. Wicker

Initialisation : θ 0 .
Etape 1 : w1t simulé suivant U (0+ , w̃1 (θ t−1 ))
..
.
Etape n : wnt simulé suivant U (0+ , w̃n (θ t−1 ))
Etape n + 1 : θ t simulé suivant UA avec A = {θ ∈ D, ∀i wit 6 wi (θ)}

n
1 Pn a
Y
∝ an ( xi )a bn+k−1 e−b( θ + i=1 xi ) e−a
i=1
Pn at−1
On peut ainsi simuler bt suivant Γ (n + k, θ1 + i=1 xi ). On simule at en utilisant
l’échantillonnage par tranche :
Qn −bxa
Z e−a Z
i=1 xi
n Z
Y e i
n
g(a, b|x) ∝ a dw−1 dw0 dwi
0 0 i=1 0

On considère la densité :
n
Y
n
h(a, w0 , w1 , . . . , wn ) ∝ 1a∈]0,+∞[ a 1w ∈[0,e−a−−1 ] 1w0 ∈[0,Q xi ] 1 −bxa
i]
−1 wi ∈[0,e
i=1

Initialisation : a0 .
t t−1
Etape −1 : w−1 simulé suivant U (0, e−a )
t−1
Etape 0 : w0t simulé suivant U (0, ˜( ni=1 xi )a )
Q
at−1
Etape 1 : w1t simulé suivant U (0, e−bx1 )
..
.
at−1
Etape n : wnt simulé suivant U (0, e−bxn )
Etape n + 1 : at simulé suivant la loi puissance PA (n) loi puissance de para-
mètre navec A = {θ ∈ D, ∀i wit 6 wi (θ)} avec A = {a > 0, tel que w−1
t
6 e−a , w0t 6
Qn a t −bxia
( i=1 ) et ∀iwi 6 e }.

Qn ln wt a
Au sujet de A : ln w0t 6 a ln i=1 xi , soit a > Pn 0 et ∀i, wit 6 e−xi soit ln wit 6
i=1 ln xi
ln(− ln wit /b) ln(− ln wit /b)
−bxia et donc ln xi > a ainsi a+ > a > a− avec a+ = min { ln xi } et a− =
i∈{1,...,}
ln wt
Pn 0 . La loi puissance se simule par anamorphose :
i=1 ln xi

a+
u n+1 a+
Z
1
Fa (x) = u n du = [ ]a − = [(a+ )n+1 − (a− )n+1 ]
a− n+1 n+1

46
4. Méthode de Monte-Carlo et statistiques bayésiennes

alors
x
(n + 1)u n
Z
F(x) = du
a− (a+ )n+1 − (a− )n+1
xn+1 − (a− )n+1
= =U (8)
(a+ )n+1 − (a− )n+1
n o 1
avec U loi uniforme sur (0, 1). Ainsi, x = U [(a+ )n+1 − (a− )n+1 ] + (a− )n+1 n+1 .
Vue synthétique : Gibbs bivarié avec un échantillonnage de bt puis un échan-
tillonnage par tranche de at .

x2
Application à la gaussienne tronquée Soit f (x) ∝ e− 2 1[ a, b](x) gaussienne N(0, 1)
tronquée à [a, b]. On réécrit la densité :
2
− x2
Z e
1[ a, b](x) dw1
0

et on simule suivant :
x2
1[ a, b](x)1[ 0, e− 2 ](w1 )

Initialisation : x0 .
(xt−1 )2
Etape 1 : w1t simulé suivant U (0, e− 2
x2
Etape 2 : xt généré suivant UA avec A = {x ∈ [a, b]|w1 6 e− 2 }

x2 √
Concernant A, √ w1 6 e − 2 √
soit 2 ln w1 6 −x2 ⇒ x2 6 2 ln w1 . Donc |x| 6 −2 ln w1 ,
ainsi A = [a, b] ∩ [− −2 ln w1 , −2 ln w1 ].

Γ (α+β) α−1
Application à la loi bêta B(α, β) Soit f (x) ∝ Γ (α)Γ (β)
x (1 − x)β−1 . On réécrit la
densité comme :
Z xα−1 Z (1−x)β−1
1[0,1] (x) dw1 dw2
0 0

et on simule suivant :
1[0,1] (x)1[0,xα−1 ] (w1 )1[0,(1−x)β−1 ] (w2 )

Pour obtenir A, on observe que 0 6 xt , w1t 6 x(α−1) et w2t 6 (1 − x)(β−1) , ainsi


xt > (w1t )1/(α−1) et xt 6 1 − (w2t )1/(β−1) . Ainsi, A = [max{0, (w1t )1/(α−1) }, 1 − (w2t )1/(β−1) ].

47
Cours Simulation Stochastique N. Wicker

Initialisation : x0 .
Etape 1 : w1t simulé suivant U [0, xα−1 ]
Etape 2 : w2t simulé suivant U [0, (1 − x)β−1 ]
Etape 3 : xt généré suivant UA avec A à déterminer

Application à la régression logistique avec le modèle probit Dans le modèle


Rx u2
probit on a : P (y = 1) = φ(xi0 b) avec φ(x) = −∞ √1 e− 2 du. On a un échantillon

y1 , . . . , yn ∈ {0, 1}, x1 , . . . , xn ∈ Rp . La vraisemblance est donnée par :

n
Y
f (y|b, x) = [φ(xi0 b)]yi [1 − φ(xi0 b)]1−yi
i=1

On introduit l’a priori suivant sur b :

kbk2
π(b) ∝ e− 2 avec b { N(0, Ip )

La loi a posteriori est :

2 n Y
n
− kbk
Y
g(b|y, x) ∝ e 2 [φ(xi0 b)]yi [1 − φ(xi0 b)]1−yi
i=1 i=1
n Z xi0 b
y i Z +∞
1−yi
2 w2 w2
− kbk
Y i i
 −   − 
∝e 2  e 2   e 2  dwi
xi0 b
  
i=1 −∞

On applique l’échantillonnage par tranche :

Initialisation : b0 .
Etape 1 : w1t simulé suivant une N(0, 1) tronquée à ]−∞, x10 ] si y1 = 1 et à [x10 b, +∞[
si y1 = 0
.
Etape .. :
Etape n : wnt simulé suivant une N(0, 1) tronquée à ]−∞, xn0 ] si yn = 1 et à [xn0 b, +∞[
si yn = 0
Etape n + 1 : bt simulé suivant N(0, Ip ) tronquée sur A = {x ∈ RP tq ∀i ∈
1, . . . , n, wi 6 xi0 b si yi = 1xi0 b 6 wi si yi = 0}

On simule bt avec un échantillonnage de Gibbs multivarié, sur b = (b1 , . . . , bp ) en


simulant à chaque fois une gaussienne univariée tronquée.

48
4. Méthode de Monte-Carlo et statistiques bayésiennes

Application à la régression logistique avec le modèle logit On utilise ici ψ(x0 b) =


0
ex b
0 alors
1+ex b
n
Y
f (y|x, b) = [ψ(xi0 b)]yi [1 − ψ(xi0 b)]1−yi
i=1
2
− kbk
π(b) ∝ e 2 . Ainsi,
n
kbk2 Y
g(b|x, y) ∝ e− 2 [ψ(xi0 b)]yi [1 − ψ(xi0 b)]1−yi
i=1
2 n Z ψ(xi0 b) Z 1−ψ(xi0 b)
− kbk
Y
∝∝ e 2 [ dwi ]yi [ dwi ]1−yi
i=1 0 0

On a la densité en b, w1 , . . . , wn suivante :
n
kbk2 Y
h(b, w1 , . . . , wn ) ∝ e− 2 [1[0,ψ(xi0 b)(wi )] ]yi [1[0,1−ψ(xi0 b)(wi )] ]1−yi
i=1

Initialisation : b0 .
Etape 1 : w1t simulé suivant U [0, ψ(x10 b)] si y1 = 1 et w1t simulé suivant U [0, 1 −
ψ(x10 b)] si y1 = 0.
.
Etape .. :
Etape n : wnt simulé suivant U [0, ψ(xn0 b)] si yn = 1 et wnt simulé suivant U [0, 1 −
ψ(xn0 b)] si yn = 0.
Etape n + 1 : bt simulé suivant N(0, Ip ) tronquée sur A = {b ∈ RP tq ∀i ∈
1, . . . , n, wit 6 ψ(xi0 b) si yi = 1wit 6 1 − ψ(xi0 b) si yi = 0}

x0 b) 0
or wi 6 ψ(xi0 b) = e
i
x0 b
, donc wi 6 exi b (1 − wit ) et
1+e i

1
wi 6 1 − ψ(xi0 b) = 0
1 + exi b
xi0 b
⇒ wit + wi te 6 1
1 − wit
!
0
xi b 6 ln
wit

On simule à nouveau b comme b = (b1 , . . . , bp ) à l’aide de gaussiennes univariées


tronquées par un échantillonnage de Gibbs multivarié.

49
Cours Simulation Stochastique N. Wicker

4.6 Échantillonnage exact


Soit un couplage global de tous les états de Ω espace d’états fini, i.e. f : Ω ×
[0, 1] → Ω avec r pris uniformément sur [0, 1] tel que f (Xt , r) converge vers une
t
distribution stationnaire π. Soit, Ft12 (x) = ft2 ◦ ft2 −1 ◦ · · · ◦ ft1 +1 (x). Remarquons que si
t t
|Ft12 (Ω)| = 1 alors |Ft12−1 (Ω)| = 1.
0
lim F(X−t (x)) = lim F(X0t (x)) = π
t→+∞ t→+∞

0 0 (Ω) = Z ce qui conclut la preuve.


Ainsi, si F−M (Ω) est un état unique Z alors, F−∞

Application au modèle d’Ising On considère des états dans Ω = {−1, 1}V où V


sont les sommets d’un graphe G(V , E). La probabilité d’un état est donnée par :
P
u∼v X(u)X(v)
P (X) ∝ e T avec T facteur de température

Ce modèle est issu de la physique mais est utilisé en finance pour simuler le
comportement d’agents financiers.
La chaîne de Markov est monotone par rapport à la relation d’ordre donnée par
X > Y ssi ∀v ∈ V , X(v) > Y (v). Il y a monotonie ici pour une chaîne de Métropolis
donnée par
 P ∗ ∗
u∼v X (u)X (v)
q(X t )

 ∗ avec une probabilité Pe T

 X t (u)X t (v) ∧1
Xt+1 ←  X
 u∼v
 e T q(X ∗)

 X t sinon

En effet,
P ∗ ∗
u∼v X (u)X (v)
e T 1 X
t t = exp{ (s − Xt (v)) Xt (u)}
T
P
u∼v X (u)X (v)
e T u∼v

Soit Xt > Yt , si s = 1 et Xt (v) = 0 et Yt (v) = 0Palors la transition se fait


P avec une
1P 1
probabilité
P exp{ T X
u∼v t (u)} pour X et exp{ T Y
u∼v t (u)} pour Y . Or, u∼v Xt (u) >
Y
u∼v t (u), donc si Y change, X aussi.

5 Application aux équations différentielles stochastiques


5.1 Schéma d’Euler
On considère l’équation différentielle stochastique suivante :

dXt = b(Xt )dt + σ (Xt )dBt

50
5. Application aux équations différentielles stochastiques

alors, on réalise l’approximation : Xh ≈ X0 + hb(X0 ) + σ (X0 )(Bh − B0 ) et de manière


générale :
X̃tk+1 = X̃tk + hb(X̃tk ) + σ (X̃tk )(Btk+1 − Btk )
Théorème 12 – Pour b et σ Lipschitzienne, h = T /n, pour tout q ∈ R on a :
E( sup |X̃kh − Xkh |2q ) 6 Chq
k,kh<T

On aura besoin plus loin de la formule de Black-Scholes :


Proposition 9 – Avec le modèle dSt = St (rdt + σt BT ) alors le prix d’un put est donné
par :
d1 − σ T
E((K − St )+ ) = Kφ(d1 ) − S0 eT r φ( √ )
T
1

K
  2
avec d1 = σ ln S0 − σt r − σ2 .

Preuve. On pose yt = ln St , ainsi par la formule d’Itô on a :


ZT
1 T 2
Z
yT = y0 + rds + σ dBS − σ ds
0 2 0
 
2
T r− σ2 +σ BT
⇒ ST = S0 e

Calculons maintenant le prix du put, pour intégrer il faut faire attention au change-
ment de signe de : K − ST or

K − ST > 0
 
2
T r− σ2 +σ BT
⇔ K − S0 e >0
σ2
!!
1 K T
BT 6 ln − r− = d1 (9)
σ S0 σ 2
Ainsi,

d1

2
 x2
e− 2T
Z
T r− σ2 +σ x
E((K − ST )+ ) = (K − S0 e )√ dx
−∞ 2πT
2
2 Z d1 − (x−σ T )
 
√ T r− σ2 e 2 2
=Kφ(d1 / T ) − S0 e √ eσ T /2 dx
−∞ 2πT
√ d1 − σ T
Tr
=Kφ(d1 / T ) − S0 e φ( √ ) 
T

51
Cours Simulation Stochastique N. Wicker

5.2 Simulation du brownien fractionnaire


Le brownien fractionnaire de coefficient α est un processus gaussien de cova-
riance :
1 2α 2α
cov(Bs , Bt ) = (t + s − |t − s|2α )
2
pour α = 0.5 on retrouve le mouvement brownien, pour α > 0.5 on augmente la
régularité et pour α < 0.5 on la diminue. Propriété de longue mémoire :
X
|E(Bαi+1 − Bαi )Bα1 | = +∞ si α > 0.5,
i=1

Propriété de Hölder sur une période [0, T ] :



∃C tel que ∀s, t|Bαt − Bαs | 6 C|s − t|α pour tout α ∗ < α

5.3 Réduction de la variance pour option asiatique


On considère le modèle de Black-Scholes : dSt = St (rdt + σ dBt ). On veut évaluer
un call asiatique de prix d’exercice K sur une période T , son coût est donné par :

1 T
Z !
E S du − K
T 0 u +
 
2
r− σ2 t+σ Bt
avec
 comme vu précédemment,
 St = S0 e . Alors, on constate que Z =
1 T
R
exp{ T 0 ln St dt} − K peut être simulé facilement et a aussi une espérance qui se
+
calcule facilement. On peut donc utiliser Z comme variable de contrôle.
RT
Lemme 10 – 0 Bu du { N (0, T 3 /3)
RT
Preuve. Pour tout ω ∈ FT filtration naturelle du mouvement brownien, 0 Bu (ω)du
est définie par continuité de Bu (ω). Ainsi, on peut calculer l’intégrale de Rieman
par :
ZT n
X T
Bu (ω)du = lim B iT (ω)
0 n→+∞ n n
i=1
Pn RT
T
Ainsi, converge presque sûrement vers 0 Bu du et par conséquent égale-
i=1 n B iT
n
ment en loi. Or la loi de ni=1 Tn B iT est la même que celle de :
P
n

n
X T
(n + 1 − i)Ui où les U1 , . . . , Un sont des gaussiennes indépendantes centrées de variance T /n
n
i=1

52
5. Application aux équations différentielles stochastiques

Ainsi, le membre de droite est une gaussienne de variance :


n n
X T3 T3 X 2
3
(n + 1 − i)2 = i
n n3
i=1 i=1
T 3 n(n + 1)(2n + 1)
= 3
n 6
RT
T3
Ainsi, V ar( 0
Wu du) = 3 . 

Ainsi,
T
σ2
( Z )!
1
Z = exp ln S0 + (r − )t + σ Bt dt
T 0 2 +
 T σ

2
= S0 e(r−σ /2) 2 + T u − K (10)
+

avec u { N (0, T 3 /3) d’après le lemme 10.


Calculons l’espérance :
Z ∞
1 u2
T σ

2
E(Z) = S0 e(r−σ /2) 2 e T u − K √ √ exp{− 3 }du
−∞ + 2π T 3 /3 2T /3
2 T σ  
soit w tel que pour u > w on a : S0 e(r−σ /2) 2 e T u −K > 0. On a w = ln(K/S0 ) − (r − σ 2 /2) T2 Tσ .
Ainsi,
Z ∞
1 u2
T σ

2
E(Z) = S0 e(r−σ /2) 2 e T u − K √ √ exp{− 3 }du
w 2π T 3 /3 2T /3
Z +∞ 3 2 1
2 T 1 σ T
−(u− T 3 ) 2T
p
= S0 e(r−σ /2) 2 √ √ e 2T 3 /3 e σ 6 − Kφ(w/ T 3 /3)
w 2π T 3 /3
2 T 2 T
p p
=S0 e(r−σ /2) 2 eσ 6 (1 − φ((w − σ T 2 /3)/ T 3 /3)) − K(1 − φ(w/ T 3 /3))

5.4 Options sur panier


i
Le cours des actions est donné par STi = xi erT +σi BT et le panier par :
p
X
X= ai STi avec a1 , . . . , ap ∈ R
i=1
Pp i 1 Pd Pp i
On approche X = i=1 ai xi erT +σi W BT par Y = me m i=1 ai xi (rT + i=1 σi BT ) avec m =
Pp
i=1 ai xi . On sait calculer E((K −X)+ ) par analogie avec Black-Scholes car l’exposant

53
Cours Simulation Stochastique N. Wicker

est une gaussienne. Donc si on pose Z = (K − Y )+ , on peut simuler (K − X)+ − Z et on


estime E((K − X)+ ) par :
n
1X
(K − Xi )+ − (K − Yi )+ + E((K − Y )+ )
n
i=1

5.5 Utilisation du conditionnement


On sait que E(Z) = E(E(Z|Y )) avec V ar E(Z|Y ) 6 V ar Z, en effet par la formule de
la variance totale on a : V ar Y = V ar(E(Z|Y )) + E(V ar(Z|Y )). Il existe des situations
où la volatilité est elle-même stochastique, considérons par exemple un cas simplifié
du modèle de Heston :

dSt = St (rdt + σt B1t )


(

dσt = a(θ − σt2 )dt + bσt dB2t


RT RT
2
σ dBt 1
ST est donné par ST = S0 erT − 0 σt /2dt+
q R
0 t Comme il y a indépendance entre σt
RT
1 T 2
et Bt , on a : 0 σt dBt égal en loi à T 0 σt drB1T Ainsi, si on veut calculer le put
1 1

E((K − ST )+ ) on peut d’abord le simuler en conditionnant par rapport à σ et donc


pour une trajectoire de la volatilité fixée on a :
 
2
r− σ2 T +σ BT
E((K − S0 e )+ )

1 T
R
avec σ 2 = T 0 σt2 dt.

5.6 Utilisation des équations aux dérivées partielles


Ici, on remplace l’approche Monte-Carlo par une approche déterministe, évi-
demment la réciproque est possible.
On considère le générateur infinitésimal At (elliptique) d’une équation différen-
tielle stochastique : dXt = b(t, Xt )dt + σ (t, Xt )dBt . Alors u(t, x) solution de :
∂u(t,x)
(
∂t
+ At u(t, x) = 0
u(T , x) = f (x)∀x

vérifie : u(t, x) = E[f (XTt,x )] avec Xt,x le processus valant x en t. On applique cela à
Black-Scholes : dSt = St (rdt + σ dBt ) Pour satisfaire à la condition d’ellipticité, on
effectue le changement de variable Yt = ln St et on obtient ainsi :

σ2
dYt = (r − )dt + σ dBt
2

54
5. Application aux équations différentielles stochastiques

ainsi,
σ 2 ∂2 σ2 ∂
A= 2
+ (r − )
2 ∂x 2 ∂x
on ajoute la contrainte au bord (de type Neumann) :
∂u(t, x) ∂u(t, x)
(a) = (b) = 0
∂x ∂x
si on se restreint à x ∈ [a, b]. On discrétise maintenant en espace puis en temps. On
prend comme pas h. On note par uh la forme discrétisée de u(t, x) avec uhi = u(t, a+ih)
avec i ∈ 0, N + 1 avec f (x) au temps T discrétisé en fh = (fhi )i∈1,...,N L’opérateur A se
discrétise en :
i+1 i−1
σ 2 i+1 i i−1 σ 2 uh − uh
Ah = (u
2 h
− 2u h + u h ) + (r − )
2 2h
"2h 2 2 2
" 2
σ2
# #
σ 1 σ i+1 σ i σ 1
= + (r − ) u h − u + − (r − ) uhi−1
2h2 2h 2 h2 h 2h2 2h 2

Ainsi Ah se réécrit :

 α + β γ 0 ... 0
 

 .. .. 
 α β γ . .
 

 
Ah =  0
 . .. .. .. 
 . . 0 

 . .. 
 . .
 . α β γ


0 ... 0 α β +γ
 

où considère d’après les conditions de Neumann que fh0 = fh1 et fhN = fhN +1 et
σ 2 1 σ 2 σ 2 σ2 1 σ2
α = 2h 2 − 2h (r − 2 ), β = − h2 et γ = 2h2
+ 2h (r − 2 ). On obtient ainsi le système
discrétisé en espace suivant :
( du (t)
h
dt + Ah uh (t) = 0
uh (T ) = fh
M
On discrétise maintenant en temps avec M pas de taille k : On a ainsi uh,k = fh et
n+1 n
uh,k − uh,k n n+1
+ θAh uh,k + (1 − θ)Ah uh,k =0
k
n+1 n
⇒ (k(1 − θ)Ah + I) uh,k = (I − kθAh ) uh,k
n
On doit donc résoudre à chaque étape le système T uh,k = B en partant du temps
n+1
T avec B = (k(1 − θ)Ah + I) uh,k et T = (I − kθAh ). On triangularise ensuite T et on
n
obtient T 0 uh,k = B0 .

55
Cours Simulation Stochastique N. Wicker

Références
Aldous, A. (1983). Random walks on finite groups and rapidly mixing Markov chains.
Springer-Verlag, New York, p. 243-297 (cf. p. 1).
Athreya, K., H. Doss et J. Sethuraman (1992). « A proof of convergence of the
Markov chain simulation method ». In : Technical Report 868, Dept. Statistics,
Florida State Univ. (Cf. p. 37, 38).
Benaïm, M. et N. El Karoui (2004). Promenade aléatoire. Les éditions de l’École
polytechnique (cf. p. 1).
Billingsley, P. (1995). Probability and Measure. 3rd Edition, Wiley et Sons, New York
(cf. p. 35).
Comets, F. et T. Meyre (2015). Calcul stochastique et modèles de diffusions. Dunod
(cf. p. 1).
Jain, N. et B. Jamison (1967). « Contributions to Doeblin’s theory of Markov pro-
cesses ». Z. Wahrsch. Verw. Geb. 8, p. 19-40 (cf. p. 35).
Levin, D., Y. Peres et E. Wilmer (2008). Markov chains and mixing times. American
mathematical society (cf. p. 1).
Meyn, S. et R. Tweedie (2009). Markov Chains and Stochastic Stability. Cambridge :
Cambridge University Press (cf. p. 1, 31, 35, 37).
Nummelin, E. (1984). General irreducible Markov chains and non-negative operators.
Cambridge University Press (cf. p. 1, 37).
Rosenthal, J. (2002). « A review of asymptotic convergence for general state space
Markov chains ». Far East Journal of Theoretical Statistics 5, p. 37-50 (cf. p. 35).
Tierney, L. (1994). « Markov chains for exploering posterior distributions ». Annals
of Statistics 22, p. 1701-1762 (cf. p. 37, 38).

56
Table des matières

Table des matières


Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Génération de nombres pseudo-aléatoires . . . . . . . . . . 1
1.2 Méthode d’inversion de la fonction de répartition . . . . . . 2
1.3 Algorithme de Box-Muller . . . . . . . . . . . . . . . . . . . 3
1.4 Copules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Méthode du rejet . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Réduction de la variance . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1 Variables de contrôle . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Variables antithétiques . . . . . . . . . . . . . . . . . . . . . 7
2.3 Echantillonnage préférentiel . . . . . . . . . . . . . . . . . . 8
2.4 Stratification . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Chaînes de Markov à temps discret . . . . . . . . . . . . . . . . . . 9
3.1 Introduction aux chaînes de Markov . . . . . . . . . . . . . 9
3.2 Chaînes de Markov à nombre d’états fini . . . . . . . . . . . 9
3.3 Chaînes de Markov à nombre d’états dénombrable . . . . . 26
3.4 Chaînes de Markov à nombre d’états non dénombrable . . 31
3.5 Chaînes de Markov à temps continu et espace dénombrable
(intro) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 Méthode de Monte-Carlo et statistiques bayésiennes . . . . . . . . 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Lois conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Métropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . 42
4.4 Méthode de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5 Echantillonnage par tranche . . . . . . . . . . . . . . . . . . 45
4.6 Échantillonnage exact . . . . . . . . . . . . . . . . . . . . . 50
5 Application aux équations différentielles stochastiques . . . . . . . 50
5.1 Schéma d’Euler . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2 Simulation du brownien fractionnaire . . . . . . . . . . . . 52
5.3 Réduction de la variance pour option asiatique . . . . . . . 52
5.4 Options sur panier . . . . . . . . . . . . . . . . . . . . . . . 53
5.5 Utilisation du conditionnement . . . . . . . . . . . . . . . . 54
5.6 Utilisation des équations aux dérivées partielles . . . . . . 54
Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Table des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

Vous aimerez peut-être aussi