Académique Documents
Professionnel Documents
Culture Documents
M
North-Western European Journal of Mathematics
E J
Avant-propos
Ce polycopié est une version de travail d’un polycopié à destination du master
de mathématiques et finance de Lille 1. Il n’a aucun prétention à l’originalité mais re-
groupe des résultats disséminés dans plusieurs ouvrages dont les plus notables sont
Aldous (1983), Benaïm et El Karoui (2004), Comets et Meyre (2015), Nummelin
(1984), Levin, Peres et Wilmer (2008) et Meyn et Tweedie (2009).
1 Introduction
f (x)
R R
Motivation : intégration numérique : par exemple Rd
f (x)dx = R2 g(x)
g(x)dx
avec g(x) une densité de probabilité. Ainsi,
Z n
f (x) p.s. 1 X f (xi )
f (x)dx = E ←
R2 g(x) n→+∞ n g(xi )
i=1
Simulation de systèmes dynamiques stochastique. Simulation de variables aléatoires
pour les statistiques bayésiennes. Optimisation d’une fonction complexe, ex : f (x) à
f (x)
minimiser, on simule c exp{− T } avec T facteur de température et c constante de
normalisation.
1
Cours Simulation Stochastique N. Wicker
Preuve. (⇐)
u 6 F(x)
⇒ F −1 (u) 6 F −1 (F(x)) 6 x car F −1 donne l’inf de t tel que F(t) > F(x) et F(x) > F(x)
⇒ F −1 (u) 6 x
(⇒)
F −1 (u) 6 x
⇒ F(F −1 (u)) 6 F(x)
⇒ F(inf{t|F(t) > u} 6 F(x) par continuité à droite de la fonction de répartition
⇒ u 6 F(x)
2
1. Introduction
U = 1 − e−λ
⇒ e−λx = 1 − U
− λx = ln(1 − U )
− ln(1 − U )
⇒x=
λ
− ln U
où x = λ car U et 1 − U ont même loi.
1
Application à la loi de Cauchy : Sa densité est donnée par f (x) = π(1+x2 )
.
Z x
du Arctan(u) x Arctan(x) 1
F(x) = 2)
=[ ]−∞ = +
−∞ π(1 + u π π 2
Arctan(x) 1
⇒U = +
π 2
1
⇒ x = tan[π(u − )]
2
(mettre une figure)
ou bien x = (− ln u)1/a .
3
Cours Simulation Stochastique N. Wicker
2
r − r2
La densité devient 2π e . On effectue un nouveau changement de variables r 2 = R,
R
la densité suivant R est alors : 12 e− 2 , R suit une loi exponentielle de paramètre
√ √
1/2,
√ ainsi R est généré par −2 ln U , r = −2 ln U , x = −2 ln U cos(2πV ) et y =
−2 ln U sin(2πV ) avec U et V lois uniformes sur ]0, 1[.
Simulation de gaussienne N (0, Σ). On la simule à partir de X { N (0, I). On
utilise pour cela la décomposition de Cholesky de Σ en LL0 , possible si Σ > 0. On
prend alors Y = LX. En effet, E(Y Y 0 ) = E(LXX 0 L0 ) = LL0 = Σ.
Cholesky s’obtient sur une matrice M en observant successivement :
√
— M11 = L211 ainsi L11 = M11 .
√
— ∀k ∈ 2, . . . , n, Mk1 = Lk1 L11 et donc Lk1 = Mk1 / M11
q
— ∀k ∈ 2, . . . , n, Mkk = ki=1 L2ki et donc Lkk = Mkk − i=1
P Pk−1 2
Lki
Mjk − k−1
P
i=1 Lji Lki
Pk
— ∀k ∈ 2, . . . , n et j > k on a i=1 Lji Lki ainsi Ljk = Lkk .
1.4 Copules
Une copule est une fonction C : [0, 1]p → [0, 1] permettant d’introduire une
dépendance entre p variables univariées. Il en existe beaucoup, une copule fréquente
est la copule gaussienne donnée par :
C(u1 , . . . , up ) = φR (φ−1 (u1 ), . . . , φ−1 (up ))
avec R indiquant une matrice de corrélation.
Comment simuler une loi définie par une copule ? Soit une loi quelconqu de
lois de répartition marginales F1 (x1 ), . . . , Fp (xp ). Sa fonction de répartition est alors
donnée par :
F(x1 , . . . , xp ) = C(F1 (x1 ), . . . , Fp (xp ))
pour simuler une telle loi, on simule des uniformes U1 , . . . , Up de copule C et on
récupère : F1−1 (U1 ), . . . , Fp−1 (Up ). Pourquoi cela fonctionne-t-il ?
Comment y arriver ?
On simule Y = (Y1 , . . . , Yp ) de copule C et on prend φ1 (Y1 ), . . . , φp (Yp ) où φ1 , . . . , φp
sont les fonctions de répartition marginales de Y . Ainsi,
(Cont. page suiv.) P (φ(Y1 ) 6 u1 , . . . , φ(Yp ) 6 up ) = P (Y1 6 φ−1 (u1 ), . . . , φ−1 (up ))
4
1. Introduction
Objectif : on veut simuler une variable aléatoire de densité f (x) et dont F −1 est
difficile à calculer car l’algorithme du rejet implique un certain nombre de rejets
et donc de calculs « inutiles ». Pour cela, on utilise une variable aléatoire Y facile à
simuler de densité g(x) telle que cg(x) > f (x) avec c ∈ R+ . Si U est une loi uniforme
f (x)
sur [0, 1], c > g(x) . On note A = {CU g(x) < f (x)}. (figure)
5
Cours Simulation Stochastique N. Wicker
P (X ∈ B)
= (1)
CP (A)
En particulier, si B = R2 , P (Y ∈ Rd |A) = 1 = cP 1(A) , ainsi cP (A) = 1 et P (Y ∈ B|A) =
P (X ∈ B).
On remarque au passage que P (A) = 1c , P (A) est la probabilité d’acceptation,
il faut donc que c soit le plus petit possible. Si on considère maintenant une loi
géométrique de paramètre p = P (A), alors c = p1 = P (A) 1
est son espérance, soit ici le
nombre moyen d’itérations avant qu’un nombre soit produit.
xa−1 −x
Application à la loi gamma : Soit X { Γ (a) de densité f (x) = Γ (a)
e avec a ∈]0, 1[.
a a a
Soit Y { W (a), G(x) = 1 − F(x) = e−x ,
F(x) = 1 − e−x ,
donc g(x) = axa−1 e−x . Quel
coefficient c faut-il prendre ? On considère pour cela la fraction :
f (x) xa−1 e−x
=
g(x) Γ (x)axa−1 e−xa
a
e−x+x
=
Γ (a)a
1 1
Soit h(x) = −x + xa ainsi h(x)0 = −1 + axa−1 = 0 et xa−1 = a et x∗ = ( 1a ) a−1 . La dérivée
seconde h00 (x∗ ) = a(a − 1) < 0 car a ∈]0, 1[. Ainsi,
1 a
1 1
f (x) e−( a ) a−1 +( a ) a−1
6 =c
g(x) Γ (a)a
Pour simuler une loi Γ (n + a), on simule X1 { E(1), . . . , Xn { E(n), Y { Γ (a) et on
effectue X1 + · · · + Xn + Y .
2 Réduction de la variance
2.1 Variables de contrôle
On veut estimer E(X) alors que l’on arrive à calculer de manière explicite E(h(x)).
On écrit alors X = X − Y + Y . On a ainsi une première estimation de E(X) donnée
par :
n
1X
e1 = Xi
n
i=1
de variance V ar(e1 ) = V ar X
n . Une seconde estimation, faisant usage d’une variable
de contrôle Y est donnée par :
n
1X
e2 = Xi − aYi + aE(Y )
n
i=1
6
2. Réduction de la variance
∂ V ar e2 1
= 2a V ar Y − 2 Cov(X, Y ) = 0
∂a n
Cov(X, Y )
⇒a=
V ar Y
Et obtenir comme variance,
1 Cov(X, Y )2 Cov(X, Y )2
V ar e2 = V ar X + −2
n V ar Y V ar Y
1
= V ar X 1 − Cor(X, Y )2
n
si bien que l’on voit que l’on peut toujours en théorie réduire la variance pour peu
que Y ne soit pas indépendante de X.
Exemple 1 – X { U (0, 1), estimation de E(exp(X)) à l’aide de la variable de contrôle
1 + X.
Preuve. Soit
Y et Y 0 deux variablesaléatoires indépendantes de même loi. On a
alors : E (f (Y ) − f (Y 0 ))(g(Y ) − g(Y 0 )) 6 0. Par ailleurs,
E (f (Y ) − f (Y 0 ))(g(Y ) − g(Y 0 )) =
E f (Y )g(Y ) + E f (Y 0 )g(Y 0 ) − E f (Y )g(Y 0 ) − E f (Y 0 )g(Y ) =
2E f (Y )g(Y ) − 2E f (Y ) E g(Y ) =
2 Cov f (Y ), g(Y )
si bien que Cov f (Y ), g(Y ) 6 0. Ce qui conclut la preuve.
7
Cours Simulation Stochastique N. Wicker
Cela peut être exploité si φ(Y ) suit la même loi que Y comme par exemple pour
— loi uniforme Y sur [0, 1] alors φ(Y ) = 1 − Y suit la même loi.
— loi de Gauss Y alors φ(Y ) suit la même loi.
Supposons maintenant que l’on veuille estimer E(f (Y )), l’estimateur classique
est :
n
1X
e1 = f (Yi )
n
i=1
1
alors V ar e2 = 2n (V ar f (Y ) + Cov(f (Y ), f (φ(Y )))) ainsi :
V ar e1 2 V ar f (Y )
= >2
V ar e2 V ar f (Y ) + Cov(f (Y ), f (φ(Y )))
1
Exemple 2 – E 1+X avec X { U (0, 1). On peut prendre Y = 2 − X.
2.4 Stratification
On suppose que l’on a plusieurs strates S1 , . . . , Sk dans lesquelles on va échan-
tillonner suivant des proportions à définir. D’une manière générale, on veut estimer
X au moyen de :
k nj
X 1 X
e2 = pj Xij
nj
j=1 i=1
8
3. Chaînes de Markov à temps discret
k p2
j
X
V ar(e2 ) = V ar(Xj )
nj
j=1
k
1X
= pj V ar(Xj ) en supposant nj = npj
n
j=1
k
1X
= pj V ar(X|Z ∈ Sj )P (Z ∈ Sj )
n
j=1
E(V ar(X|Z))
=
n
or E(V ar(X|Z)) 6 V ar(X).
Exemple 4 – On veut calculer E(exp(X)) avec X { U (−1, 1). On peut utiliser comme
strates (−1, 0) et (0, 1).
9
Cours Simulation Stochastique N. Wicker
Théorème 1 – P Toute valeur propre d’une matrice M complexe est comprise dans un des
disques D(Mii , j,i |Mij |).(Gershgorin)
Preuve. Soit un vecteur propre v pour la valeur propre λ. Définissons m = argmaxi |vi |.
Ainsi,
X X
λvm = Mmj vj = Mii vm + Mmj vj
j j,m
X
⇒ (λ − Mmm )vm = Mmj vj
j,m
X X
⇒ |λ − Mmm ||vm | = | vj | 6 |Mmj ||vj |
j,m j,m
X vj X
⇒ |λ − Mmm | 6 |Mmj | 6 |Mmj |
|vm |
j,m j,m
Supposons par l’absurde que ∃i, (Av − λv)i > 0. Si on somme suivant i, on obtient :
XX XX
Aij vj − λvi = Pji vj − λvi = 0
i j i j
P
On en déduit que ∀i, j Aij vj − λvi = 0, v est donc bien vecteur propre pour la
valeur propre 1.
10
3. Chaînes de Markov à temps discret
Remarque 2 – Attention, il peut y avoir plusieurs lois stationnaires pour une chaîne
de Markov. Considérons par exemple :
!
1 0
P=
0 1
ici, (1, 0) et (0, 1) sont des lois stationnaires et il en existe une infinité (à vous de les
trouver).
1
En effet, si on considère la valeur propre 2 de multiplicité algébrique 2, on a par
contre :
0 12 0
1
P − I3 = 0 0 12
2
0 0 12
Lemme 3 – Si une chaîne de Markov est réversible pour la loi π alors π est une loi
stationnaire.
11
Cours Simulation Stochastique N. Wicker
Preuve. Soit une chaîne irréductible, ainsi ∀i, j ∃n tel que Pijn > 0. Par l’absurde,
supposons l’existence de u un vecteur propre de P non collinéaire
P à 1npour la valeur
propre 1. Soit m = argmaxi |ui |, on a par définition : um = ni=1 Pmj uj . On a par
conséquent :
X
n
|um | = Pmj uj
j
X
n
6 Pmj |uj |
j
X
n n n
6 Pmm |um | + Pmj |uj | en s’arrangeant pour que Pmj > 0 et |uj | < |um |
j,m
X
n n
< Pmm |um | + Pmj |um | car par construction |uj | < |um |
j,m
< |um |
Une fois que nous avons déterminer s’il y a une ou plusieurs lois stationnaires,
nous voulons savoir s’il y a convergence vers cette loi stationnaire. En effet, l’exis-
tence d’un point fixe dans un système dynamique n’implique par pour autant la
convergence du système vers ce point fixe.
Le théorème suivant fournit un critère simple de convergence mais pour cela
nous avons besoin de la notion d’apériodicité.
Définition 2 – Un état x est apériodique si le pgcd de Nx = {n|P n (x, x) > 0} est égal
à 1. Une chaîne de Markov est apériodique si tous ses états sont apériodiques.
Théorème 2 – Si une chaîne de Markov dans un espace à nombre d’états fini est irré-
ductible et apériodique alors elle converge vers son unique loi stationnaire.
n
Preuve. Soit Ni = {n|Pi,i > 0}. Par Bezout, ∃a1 , . . . , ak ∈ Z et n1 , . . . , nk ∈ Ni tels que
Pk + −
i=1 ai ni = 1. Notons A et A l’ensemble des coefficients positifs et négatifs
12
3. Chaînes de Markov à temps discret
P P
respectivement.
P On a ainsi ai ∈A+ ai ni = − ai ∈A− ai ni + 1. On obtient ainsi mi =
− ai ∈A− ai ni ∈ Ni avec mi + 1 ∈ Ni également.
Soit ∀n > m2i , si on divise n de manière euclidienne par mi , on obtient : n = qmi +r
avec r < mi et q > mi . Ainsi, n = qmi + r(mi+1 − mi ) = mi (q − r) + rmi+1 or mi (q − r) est
un multiple positif de mi et rmi+1 de mi+1 . Ainsi, n ∈ Ni et plus généralement si
nous prenons n > m = maxi m2i , alors n ∈ ∩i Ni .
n−nij nij nij
Soit n > maxij nij + m, alors Pijn > Pii Pij , ce produit est positif car Pij > 0 par
n−nij
définition et n − nij > m donc Pii > 0.
On vient de montrer que pour n suffisamment grand la matrice de transition
P n n’a que des entrées positives. Le théorème de Frobenius nous dit alors qu’il y a
une valeur propre maximale (au sens de la valeur absolue) unique. En utilisant la
décomposition de Jordan, on a alors :
1 0 ... 0
.. ..
n
0 B2 . .
−1
P = Q Q
.. .. ..
. . . 0
0 0
... Bk
. . . 0
λi 1 0
.. . .. ..
0
. .. . .
avec Bi = . Le nombre de blocs pour une valeur propre
.. . .
. . . . . . . . 1
0 . . . . . . 0 λi
correspond à sa multiplicité géométrique alors que la somme des tailles des blocs
donne sa multiplicité algébrique. Ainsi, si on met P n à la puissance on obtient la
convergence vers :
1 0 ... 0
.. ..
0 0 . .
−1
Q Q
.. .. ..
. . . 0
0 0 0
...
Remarque 5 – A propos de Bni , pour voir qu’il y a convergence vers la matrice nulle,
on écrit :
n
0 1 0 0
. .
. . . . . 0
n
..
Bi = λi Ili +
0 . . . 0 1
0 ... ... 0
13
Cours Simulation Stochastique N. Wicker
k
0 1 0 0
n ! .. .. ..
X n n−k
. . . 0
= λi Ili (Cont. page suiv.)
k 0 ... 0 1
k=0
0 ... ... 0
k
0 1 0 0
li −1 ! .. .. ..
X n n−k
. . . 0
= λi Ili (3)
k 0 ... 0 1
k=0
0 ... ... 0
Vitesse de convergence
Nous ne détaillons ici que quelques méthodes de base.
Théorème 3 – Si une chaîne de Markov à d états est irréductible, apériodique et rever-
sible on a alors :
p
n π(j)
∀i, j |Pij − π(j)| 6 p max(|λ2 |n , |λd |n )
π(i)
où λ1 = 1 > λ2 > . . . > . . . λd
p
Preuve. Soit D, Dij = δij π(i), alors la matrice DP D −1 est symétrique donc diago-
nalisable dans une base orthornormée. Par ailleurs, si v est un vecteur propre pour
P et la valeur propre λ, Dv est un vecteur propre pour DP D −1 pour la même valeur
propre. On a la symétrie car :
p p −1
(DP D −1 )ij = π(i)Pij π(j)
p −1 p −1
= π(i) π(i)Pij π(j)
p −1 p −1
= π(i) π(j)Pji π(j) par réversibilité de la chaîne
=(DP D −1 )ji
On peut donc écrire :
X
DP D −1 = λk vk vk0
k=1
p p
n π(j) X π(j)
Pij = p v1 (i)v1 (j) + p λnk vk (i)vk (j)
π(i) k>1 π(i)
14
3. Chaînes de Markov à temps discret
p p
π(j) p p X π(j)
=p π(i) π(j) + p λnk vk (i)vk (j) (Cont. page suiv.)
π(i) k>1 π(i)
p
X π(j)
=π(j) + p λnk vk (i)vk (j)
k>1 π(i)
Par conséquent,
p sX sX
π(j)
|Pijn − π(j)| 6 p λ2n
k vk (i)
2 vk (i)2 par Cauchy-Schwarz
π(i) k>1 k>1
p
π(j)
6p max(|λ2 |n , |λd |n )
π(i)
On définit un produit scalaire sur les fonctions réelles définies sur l’espace
d’états fini M :
X
hf , gi := π(x)f (x)g(x)
x∈M
2
On
P note aussi πf = hf , 1i, V arπ (f ) = Eπ − πf = hf − πf , f − πf iπ et P f (x) =
f
y P (x, y)f (y) ce qui nous permet de définir les formes de Dirichlet et inégalités de
Poincaré comme suit.
Définition 3 – On appelle forme de Dirichlet l’expression :
(f , f ) = h(I − P )f , f iπ
Définition 4 – Une inégalité de Poincaré est inégalité de la forme suivante :
V arπ (f ) 6 C(f , f )
Preuve. Ainsi, on a ∀i, j hfi , fj iπ = δij avec f1 , . . . , fn vecteurs propres de P tels que
Df1 , . . . , Dfn soient des vecteurs propres orthonormés de DP D −1 . Ainsi, si hf , f1 iπ =
0, on a : f = di=2 ai fi et par conséquent :
P
d
X d
X
h(I − P )f , f iπ = a2i (1 − λi ) >(1 − λ2 ) a2n
i=2 i=2
>(1 − λ2 ) V ar f
15
Cours Simulation Stochastique N. Wicker
Remarque 6 –
X1 X1 1
π(x)π(y)|f (x) − f (y)|2 = π(x)π(y)f (x)2 + π(x)π(y)f (y)2 − π(x)π(y)f (x)f (y)
x,y
2 x,y
2 2
⇒ |λ − Pmm | 6 1 − Pmm
⇒ |λ| − Pmm > 1 − Pmm
⇒ |λ| > 2Pmm − 1
⇒ |λ| > 0
Ainsi, si toutes les valeurs propres sont positives, on a bien : λ2 > λd .
L’implication de ce lemme est que pour une chaîne de Markov paresseuse, seule la
seconde valeur propre compte pour l’estimation de la vitesse de convergence. On
peut en particulier tirer alors profit de théorème 4 page précédente.
Théorème 5 – Pour une chaîne de Markov apériodique, irréductible et réversible on a
l’inégalité suivante :
X
V arπ f 6 sup Q(e)−1 |γ(x, y)|π(x)π(y) (f , f )
e
x,y:e∈γ(x,y)
16
3. Chaînes de Markov à temps discret
Or,
(f , f ) =h(I − P )f , f iπ
X X
= π(x) f (x) − P (x, y)f (y) f (x)
x y
XX
= π(x)P (x, y) (f (x) − f (y)) f (x)
x y
1 XX
= π(x)P (x, y) (f (x) − f (y))2 par réversibilité
2 x y
X
= df (e)2 Q(e)
e
ainsi :
X1 X
π(x)π(y)|f (y) − f (x)|2 6 sup Q(e)−1 |γ(x, y)|π(x)π(y) (f , f )
x,y
2 e
x,y:e∈γ(x,y)
soit :
X
V ar f 6 sup Q(e)−1 |γ(x, y)|π(x)π(y) (f , f )
e
x,y:e∈γ(x,y)
17
Cours Simulation Stochastique N. Wicker
Exemple 5 – L’urne d’Ehrenfest. L’espace d’états est donné par M = {0, 1}N avec les
1
transitions suivantes : P (x, y) = 2N pour x , y et P (x, x) = 12 sinon, où lorqu’il y a
un changement une particule est choisie de manière uniforme et change d’urne.
On construit un ensemble de chemins Γ entre tous les couples (x, y) en modifiant
itérativement x1 , puis x2 et ainsi de suite jusqu’à xN . La loi stationnaire est donnée
par π(x) = 21N , en effet on a P reversible :
1 1
π(x)P (x, y) = = π(y)P (y, x).
2N 2N
La longueur d’un chemin est bornée par |γ(x, y)| 6 N . Enfin, si on considère une
arête e = (e− , e+ ) ∈ γ(x, y), il y a un seul indice i tel que ei− , ei+ donc ∀j < i, yj = ej− et
∀j > i, xj = ej+ . On a ainsi, pour une arête 2N −1 couples (x, y) possibles. Comme on
peut choisir yj pour j > i et xj quelconques pour j < i et conserver la même arête e,
on en déduit grâce au théorème 5 p. 16 :
π(e− )π(e+ )
V ar f 6(f , f ) N 2N −1
π(e− )P (e− , e+ )
1
6(f , f ) N 2N N 2N −1
2
6(f , f )N 2
Ainsi, λ2 6 1 − N12 .
18
3. Chaînes de Markov à temps discret
3
4
1
On distingue les arêtes (1, 3), (3, 1) et (1, 2). Pour (1, 3), on a :
1 X
C13 6 π(x)π(y)|γ(x, y)|
π(1)P13
γ(x,y)3(1,3)
4N − 6 N −1 2×2
6 2(N − 1) 2 + (N − 3)2
N −1 (4N − 6)2 (4N − 6)(4N − 6)
∼5
19
Cours Simulation Stochastique N. Wicker
x1 yN y1
x x12 y
2
→ → · · · → 2
. . . ... . . .
xN x1N yN
Si on considère une arête sur un tel chemin et que l’on a déjà placé correctement
N
i cartes parmi les N cartes alors on a : (N − i − 1)! possibilités, en sommant
i
suivant i ∈ 0, . . . , N − 1 on obtient :
N −1
1 1 1 X N
C6 N (N − i − 1)!
1/(2N )1/N ! N ! N ! i
i=0
N −1
N2 X (N − i − 1)!N !
6
N! (N − i)!i!
i=0
N −1
X 1
6N 2
N −i
i=0
2
6N (1 + ln N )
V (x)
Exemple 8 – Loi de Gibbs. Soit une loi de Gibbs donnée par πT (x) = Z1 exp{− T }
T
P V (y)
avec V : M → R, d = |M| et ZT = y∈M exp{− T }. On fait l’hypothèse que si x , y
alors V (x) , V (y) et que infx∈M V (x) = 0, on note Vmin = {x|V (x) = 0} et N (x) les
voisins d’un état x. On définit l’élévation d’un chemin comme Elev(γ) = supi V (xi ),
avec γ = (x1 , . . . , xk ). On définit aussi la hauteur de communication comme : C(V ) =
supx∈M infy∈Vmin (Elev(γ(x, y)) − V (x)) . On choisit parmi les chemins existants entre
deux points x et y un de ceux qui minimisent Elev(Γ ). On a :
20
3. Chaînes de Markov à temps discret
d2 Elev(γ(x, y)) 1
X
6(f , f ) sup exp{ } exp − (V (x) + V (y))
ZT e T T
γ(x,y):e∈γ(x,y)
d4 Elev(γ(x, y)) 1
6(f , f ) sup exp − (V (x) + V (y))
ZT x,y T T
n o
Or, ∀y0 ∈ Vmin on a : Elev(γ(x, y)) 6 max Elev(γ(x, y0 )), Elev(γ(y, y0 )) en considérant
un chemin qui irait d’abord de x en y0 , puis de y0 en y car par construction γ(x, y)
est d’élévation minimale. D’où :
Ainsi,
1
V ar f 6(f , f )d 4 exp sup Elev γ(x, y) − V (x) , Elev γ(x, y) − V (y)
T x,y∈M
1
6(f , f )d 4 exp C(V )
T
On constate ainsi que plus la température est élevée meilleure sera la borne, mais
attention pour une température trop grande les valeurs propres ne sont plus toutes
positives.
Voyons un cas particulier dérivé de celui que l’on vient de voir, à savoir le recuit
simulé. L’idée du recuit simulé est de faire varier en plus la température pour affiner
la recherche du minimum local.
21
Cours Simulation Stochastique N. Wicker
1V (y)
Ainsi, quand T → 0, π(y) = |Vmin | .
min
En utilisant le résultat précédent entre deux temps nk−1 et nk , on obtient :
1
1 n onk −nk−1
P (Xnk ∈ A|Xnk−1 =x ) − π1/k (A) 6 p 1 − 4 exp −kC(V )
π1/k (x) d
1 n −n
o
exp − k 4 k−1 exp −kC(V )
n
6p
π1/k (x) d
Or,
Et,
π1/k (x)−1 6 d exp kVmax
Ainsi,
√
α n o k
P (Xnk ∈ A|Xnk−1 =x ) − π1/k (A) 6 d exp − 4 exp k(C − C(V )) + Vmax
d 2
En intégrant suivant x, on obtient :
√
α n o k
P (Xnk ∈ A) − π1/k (A) 6 d exp − 4 exp k(C − C(V )) + Vmax
d 2
1V (y)
En faisant tendre k vers +∞, le membre de droite tend vers 0 et π1/k (y) → |Vmin |
min
d’après l’observation ci-dessus. On a ainsi dans ce cas particulier la démonstration
de la convergence de l’algorithme du recuit simulé.
22
3. Chaînes de Markov à temps discret
Soit w un
P couplage de variables
P aléatoires X et Y de lois µ et ν ce qui signifie
que µ(x) = y∈M w(x, y) et ν(y) = x∈M w(x, y). On a alors :
P (X , Y ) =1 − P (X = Y )
X
=1 − w(z, z)
z∈M
X X
> µ(z) − µ(z) ∧ ν(z)
z z
X
> µ(z) − ν(z)
z:µ(z)>ν(z)
>kµ − νkTV
Exemple 10 – Urne d’Ehrenfest. La transition aléatoire est donnée par le choix d’un
élément parmi N que l’on place à −1 ou 1. On applique la même transition à deux
chaînes, celles-ci réalisant alors un couplage. On a alors :
P (X t , Y t ) =P (T > t)
6P (T > t)
E(T )
6 par Markov
t
nH(n)
6
t
(4)
23
Cours Simulation Stochastique N. Wicker
n n
=1 + + ··· +
n−1 1
1 n−1
=n 1 + + · · · + (Cont. page suiv.)
2 n
=nH(n)
où Ti est le temps qu’il faut attendre pour collecter le i e objet.
La vitesse de convergence est donc de l’ordre de n ln n.
Exemple 11 (Graphe presque biparti) – On suppose que x et y sont à gauche,
2
P (Xx = Yy ) > 4 n−1 2 ∼ 18 . Si x et y sont à droite : P (Xx1 = Yy1 ) > 21 14 2 = 14 . Si
1
2 2
n−2 1
1 n−2 1 1
x est à gauche et y à droite : P (Xx2 = Yy2 ) > 2 n−1 2 2 ∼ 18 . Ainsi, dans tous les cas la
vitesse de convergence est une constante.
S’il n’y a pas convergence, on a malgré tout un théorème sympathique qui nous
dit que la loi stationnaire d’une chaîne de Markov irréductible représente le nombre
de passage moyen par chaque état. Le théorème suivant nous donne
Théorème 6 – Soit une chaîne de Markov irréductible de loi stationnaire π, on a alors
presque sûrement :
n
1X
lim 1{Xk =x} = π(x)
n→∞ n
k=1
Preuve. Soit Tx0 = 0, Tx1 le temps de premier retour en x et ainsi de suite avec
Txi+1 = inf{k > Txi |Xxk = x} ∈ N. Soit (Ik )k > 1 une suite de variables iid distribuées
comme Tx1 . On a alors par la loi des grands nombres :
Txn I + · · · + In
lim = lim 1 = E(Tx1 )
n→∞ n n→ n
∀n, ∃i tel que Txi 6 n < Txi+1 d’où :
n
1X i i i
1Xxk =x = ∈] i+1 , i ]
n n Tx Tx
k=1
24
3. Chaînes de Markov à temps discret
pour X 0 = x, montrons que cette égalité reste vrai pour X 0 , x. Il faut montre que
X k rencontre x en un temps fini T , on considère alors la chaîne de Markov décalée
(Xn+T )n > 0. En effet,
n T T +n
1 X 1 X 1 X
lim 1Xk =x = lim 1Xk =x + 1Xk =x
n→∞ n + T n→∞ n + T n+T
k=1 k=1 k=T +1
1
=
E(Tx1 )
Montrons maintenant que T est fini presque sûrement pour tout point de départ
y, on s’intéresse donc à
Ty,x = inf{n > 0|Xyn = x}
or α = infy∈M P (Ty,x < ∞) > 0 par irréductibilité de la chaîne. Ainsi,
X
P (Ty,x = ∞) = P (Ty,x = ∞|X0 = y, X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈(M\x)n
P (X0 = y, X1 = x1 , . . . , Xn = xn )
X
= P (Txn ,x = ∞)P (X0 = y, X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈(M\x)n
X
= (1 − P (Txn ,x < ∞))P (X0 = y, X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈(M\x)n
X
6(1 − α) P (X0 = y, X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈(M\x)n
25
Cours Simulation Stochastique N. Wicker
ainsi :
1
π(x) =
E(Tx1 )
ce qui permet de conclure.
1
Proposition 2 – G(x, t) = 1−U (x,t)
Preuve. On a :
X X
1Xxk =x t k =1 + 1Xxk =x t k
k>0 k>1
k
X
=1 + 1Txk <∞ t Tx
k>1
X k
X Y
P k (x, x)t k =1 + E 1Ti <∞ t Ti avec Ti de même loi que T1
k>0 k>1 i=1
X
=1 + U (x, t)k
k>1
U (x, t)
=1 +
1 − U (x, t)
1
=
1 − U (x, t)
26
3. Chaînes de Markov à temps discret
=U1 (t)2
Alors,
U1 (t) = pt + qtU1 (t)2 (Cont. page suiv.)
27
Cours Simulation Stochastique N. Wicker
1
G1 (t) =
1 − U1
1
=p
1 − 4pq
4pq
Ainsi, comme E(Tx ) > U10 (1) = √ = ∞ pour p = q = 1/2, la chaîne est alors
1−4pq
récurrente nulle.
Etude de la convergence
Proposition 4 – Les états d’une chaîne de Markov irréductible sont tous de même nature.
Proposition 5 – Les deux propriétés suivantes sont vérifiées par une chaîne de Markov
irréductible
(A1 ) limn→+∞ n1 nk=1 1Xk =x = 1 1
P
E(Tx )
(A2 ) Les propriétés suivantes sont équivalentes :
(i) il existe une unique loi stationnaire π
1
(ii) ∀x, π(x) =
E(Tx1 )
28
3. Chaînes de Markov à temps discret
Preuve. Prouvons d’abord 17. Si x est transient alors, P (Tx = ∞) = α > 0, ainsi
E(Tx1 ) = ∞ et 1 1 = 0. Soit Nxx le nombre de visites de x en partant de x, P (Nxx =
E(Tx )
k) = (1−α)k−1 α →k→∞ = 0. Ainsi, limn→∞ n1 nk=1 1Xk =X = 0. Si x est récurrent, P (Tx <
P
∞) = 1 et donc :
n n
1X 1 1 X
lim 1Xk =x = lim + 1Xyk =x
n→∞ n n→∞ n n
k=1 k=Tyx
n−Txy
n − Tyx 1 X
= lim 1Xyk =x
n→∞ n n − Tyx
k=1
i
= avec Txi 6 n − Tyx < Txi+1
n − Tyx
1
=
E(Tx1 )
29
Cours Simulation Stochastique N. Wicker
or
xTn x Tn
1X Tn 1 X E(Tx1 )
1Xk =y = x n 1Xk =y → lim
n n Tx n→+∞ E(Ty1
k=0 k=0
1
ainsi, π(y) = définit une probabilité. Il faut montrer qu’elle est stationnaire :
E(Ty1 )
n
X X 1X
π(y)P (y, x) = lim 1Xk =y P (y, x)
n→+∞ n
y∈M y∈M k=1
n
X 1X
= lim P (Xk = y)P (y, x)
n→+∞ n
y∈M k=1
n
1X
6 lim P (Xk+1 = x) = π(x)
n→+∞ n
k=1
P
Ainsi, pour tout x, y π(y)P (y, x) 6 π(x) et comme
n n
1 X k 1X k+1 1 n+1 1
P (X x = x) − P (X x = x) = P (X x = x) − P (Xx = x)
n n n
k=1 k=1
2
6 → 0
n n→+∞
P
on a bien : y∈M π(y)P (y, x) = π(x).
30
3. Chaînes de Markov à temps discret
Par conséquent, P (Xn = x) − P (Yn = x) 6 P (T > n), par symétrie on obtient égale-
ment P (Yn = x) − P (Xn = x) 6 P (T > n) et donc |P (Xn = x) − P (Yn = x)| 6 P (T > n).
Comme Zn est récurrente positive, par récurrence positive de Xn , P (T = ∞) = 0 donc
limn→+∞ P (T > n) = 0. Si on prend maintenant Y0 de loi π par invariance on obtient
que Yn est également de loi π ce qui permet de conclure.
Définition 7 – Un ensemble d’états α est dit être un atome s’il existe un mesure µ
telle que ∀x ∈ α, P (x, A) = µ(A).
Définition 10 – Une chaîne est dite Harris récurrente si elle est ψ-irréductible et si
tout A ∈ B+ (X) est Harris récurrent.
31
Cours Simulation Stochastique N. Wicker
Ainsi, +∞
P
n=0 P (S2n = 0) = +∞ ce qui permet de conclure à la récurrence.
De manière semblable pour d = 2, on a :
1 X (2n)!
P (S2n = 0) =
42n k!k!(n − k)!(n − k)!
k=0
(2n)! X n n
=
42n (n!)2 k k
k=0
2
1 2n
= 2n
4 n
1
∼
πn
Maintenant pour d = 3, on a :
1 X (2n)!
P (S2n = 0) =
62n i!j!k!(n − i)!(n − j)!(n − k)!
i,j,k
i+j+k=n
!
(2n)! 1 X n!
6 j k 3 n! i!j!k!
62n n3 ]! i,j,k
i+j+k=n
(2n)! 3n
6 j k 3 n!
62n n3 !
32
3. Chaînes de Markov à temps discret
√
2π2n3n
2n
2n
∼ n/3 √ 3 n √
e n
62n 3e 2πn/3 ne 2πn
√
2 1
∼ q 3 3/2
2π n
3
P+∞
Ainsi, n=0 P (S2n = 0) < +∞ donc le retour ne peut se produire une infinité de fois.
Définition 12 – La période d’une chaîne de Markov sur (Ω,T) est le plus grand
nombre D ∈ N tel qu’il existe des ensembles disjoints χ1 , . . . , χD ∈ T avec π loi
stationnaire vérifiant π(χi ) > 0 et pour i ∈ 1, . . . , D − 1 P (x, χi+1 ) = 1, ∀x ∈ χi et
P (x, χ1 ) = 1, ∀x ∈ χD . Si D = 1 on dit que la chaîne est apériodique.
Preuve.
P (Xn ∈ A) − P (Yn ∈ A) =P (Xn ∈ A, Xn = Yn ) + P (Xn ∈ A, Xn , Yn ) − P (Yn ∈ A, Xn , Yn ) − P (Yn
=P (X ∈ A, X , Y ) − P (Y ∈ A, X , Y )
n n n n n n
6P (Xn , Yn )
Définition 13 – Un ensemble C de l’espace d’état (Ω,T) est dit small s’il existe
n ∈ N et > 0 tels que ∀x ∈ C P n (x, A) > Q(A) où Q est une probabilité et A ∈ T.
Lemme 8 – Soit une chaîne de Markov sur l’espace X avec loi stationnaire π. Supposons
que pour A ∈ X, on ait Px (τA < ∞) > 0 pour tout x ∈ X. Alors pour π presque tout x ∈ X,
Px (τA < ∞) = 1.
33
Cours Simulation Stochastique N. Wicker
1 1
>1 − 0 − 1 − =
m m
Maintenant, on sait qu’il existe l ∈ N, δ > 0 et B00 ⊆ B0 tels que :
Px τA = ∞, sup{k > 1|Xn0 k ∈ B0 } < l > δ, x ∈ B00
Ainsi, on posant n = n0 l on garantit que pour tout x ∈ B00 , on a Px (τA = ∞, Xkn <
B0 , ∀k > 1) > δ. On va maintenant montrer que π(Ac ) peut être aussi grand que
possible, en effet :
Z
π(Ac ) = π(dy)P jn (y, Ac )
X
Z
= π(dy)P jn (y, Ac )
X
Z j−1
[ 00 0 0 c
> π(dy)Py Xin ∈ B , X(i+1)n < B , . . . , X(j−1)n < B , Xjn ∈ A
X i=0
j−1 Z
X
= π(dy)Py Xin ∈ B00 , X(i+1)n < B0 , . . . , X(j−1)n < B0 , Xjn ∈ Ac
i=0 X
j−1 Z
X
= π(dy)Py X0 ∈ B00 , Xn < B0 , . . . , X(j−i−1)n < B0 , X(j−i)n ∈ Ac
i=0 X
On en déduit que :
j−1
X h i
π(Ac ) > π(B00 )δ = jπ(B00 )δ
i=0
34
3. Chaînes de Markov à temps discret
Preuve. La preuve peut être trouvée dans Meyn et Tweedie (2009, Theorem 5.2.2)
et dans Jain et Jamison (1967).
Preuve. La preuve retranscrit ce qui peut être lu dans Rosenthal (2002), elle utilise
les lemmes 9, 8. Elle est schématisée par la figure 2.
k0
nx
x
couplage Q
C
avec probabilité
y ny epsilon
n*
utilisation de la pi-stationnarité
35
Cours Simulation Stochastique N. Wicker
(π × π)(G) = 1 (7)
36
3. Chaînes de Markov à temps discret
où on a pour tout x ∈ Ḡ, que limn→∞ P(x,y) (T∗ > n) = 0 pour π-presque tout y ∈ X.
Finalement, on montre que π(Ḡ) = 1, en effet si on avait π(Ḡ) < 1, on aurait :
Z Z h i
(π × π)(Gc ) = π(dx)π(Gxc ) = π(dx) 1 − π(Gx ) > 0
X Ḡc
kx−µk2 5 1
− kx−p
−
Y
f (x) ∝ e 2σ 2 e ik
i=1
3. Athreya, Doss et Sethuraman, 1992, « A proof of convergence of the Markov chain simulation
method » ;
Nummelin, 1984, General irreducible Markov chains and non-negative operators ;
Meyn et Tweedie, 2009, Markov Chains and Stochastic Stability.
4. Tierney, 1994, « Markov chains for exploering posterior distributions ».
37
Cours Simulation Stochastique N. Wicker
Une preuve directe est également disponible dans Athreya, Doss et Sethuraman
(1992).
P 0 (t) = AP (t)
qui se résoud en :
38
3. Chaînes de Markov à temps discret
! !
−1 1 2 −2
Exemple 13 – Soit A = , ainsi : (At)2 = t 2 et d’une manière
1 −1 −2 2
!
k k k 2k−1 −2k−1
générale : (At) = t (−1) ainsi :
−2k−1 2k−1
∞
1 X t k (−1)k 2k
!
At 1 −1
e =I +
2 k! −1 1
k=1
!
1 −2t 1 −1
=I + e − 1
2 −1 1
!
1 1 + e−2t 1 − e−2t
=
2 1 − e−2t 1 + e−2t
On va maintenant montrer que le générateur infinitésimal s’interprète facile-
ment en considérant, avec comme point de départ X0 = x, d’une part P (T1 > t) et
d’autre part P (T1 < t, Z1 = y) où T1 indique le premier saut et Z1 le premier état
atteint après x. On introduit une discrétisation de [0, t] avec des pas de taille h. On re-
marque pour commencer que {T1 > t} ⊂ {X0 = Xh = · · · = Xnh } ⊂ {T1 > t}∪{T2 −T1 < h},
le dernier ensemble exprime la possibilité de ne pas observer un saut car il se pro-
duirait à une échelle de temps trop petite. Ainsi, on obtient :
P (T1 > t) = lim P (X0 = Xh = · · · = Xnh )
h→0,nh=t
n
= lim Px,x
h→0,nh=t
or ln Px,x (h) = Px,x (h) − 1 + o |Px,x (h) − 1| , ainsi :
Px,x (h) = exp{Px,x (h) − 1 + o |Px,x (h) − 1| }
= exp{Ax,x h + o(h)}
On en déduit que :
P (T > t) = lim exp{Ax,x nh + no(h)}
h→0,nh=t
Ax,x t
=e
On peut alors interpréter tous les termes diagonaux du générateur comme les
opposés des temps moyens de rester dans les états correspondants, temps qui
suivent tous une loi exponentielle.
De même, on observe que {T < t, Z1 = y} ⊂ ∪nm=1 {X0 = Xh = · · · = X(m−1)h , Xmh =
y} ⊂ {T < t, Z1 = y} ∪ T2 − t1 < h de telle sorte que :
n
X
m−1
P (T < t, Z1 = y) = lim Px,x (h)Pxy (h) (Cont. page suiv.)
h→0,nh=t
m=1
39
Cours Simulation Stochastique N. Wicker
n (h)
1 − Px,x
= lim Pxy (h)
h→0,nh=t 1 − Px,x (h)
1 − eAx,x nh+o(h)
= lim Px,y (h)
h→0,nh=t −hAx,x + o(h)
Ax,y
= 1 − e−Ax,x t
−Ax,x
On voit maintenant, que les termes non diagonaux sont proportionnels aux proba-
bilités de choix du prochain état, après saut.
Exemple 14 (Processus de Poisson) – Soit
−λ λ
−λ λ
−λ λ
A =
. .
.. ..
. . . .
. .
P (t) =eAt
=e−λtI+λtU
=e−λtI eλtU par commutativité de I et U
∞
X (tU )k
=e−λt I
k!
k=0
t j−i
de telle sorte que Pij (t) = e−λt (j−i)! où l’on retrouve la loi de Poisson. On retrouve
ce processus lorsque l’on compte des évènements se produisant à des intervalles
de temps qui suivent une loi exponentielle, ce qu’expriment justement les termes
diagonaux comme on vient de le voir dans le paragraphe précédent.
40
4. Méthode de Monte-Carlo et statistiques bayésiennes
Exemple 16 – la loi Γ (k, θ) est conjuguée à la loi de Poisson P (λ). Prenons P (x|λ) =
x k−1 −λ/θ
e−λ λx! et P (λ|k, θ) = λΓ (k) e θ k . Ainsi,
λx λk−1 e−λ/θ
p(λ|x) ∝ e−λ
x! Γ (k) θ k
∝ e−λ λx+k−1 e−λ/θ
∝ e−λ(1+1/θ) λx+k−1
Exemple 17 – la loi de Gauss N(m, s2 ) est conjuguée à la loi de Gauss N(µ, σ 2 ) pour
(x−µ)2 (µ−m)2
−
le paramètre µ. Prenons, P (x|µ, σ 2) = √ 1 e− 2σ 2 et P (µ|m, s2 ) = √1 e 2s2 . Ainsi,
2πσ 2πs
(x−µ)2 (µ−m)2
−
P (µ|x) ∝ e 2σ 2 e 2s2
h i
− 21 µ2 ( 1 + 1 )−2µ( x + m )
∝e σ 2 s2 σ 2 s2
41
Cours Simulation Stochastique N. Wicker
µ2 2T 2 x
−1/2[ − 2 ( 2 + m2 )µ]
P (µ|x) ∝ e T2 T σ s
x + m )T 2 2
− 1 µ−(
∝e 2T 2 σ 2 s2
2
(x−µ)2
2 1 − θ k e−θ/σ
P (σ |x) ∝ √ e 2σ 2
2πσ Γ (k)σ 2(k+1)
− θ
2
1 − (x−µ) e σ 2
∝ e 2σ 2 2(k+1)
σ σ
(x−µ)2
1 1
−
σ2 2 +θ (σ 2 )k+1/2+1
∝e
(x−µ)2
donc P (σ 2 |x) { IG(k + 12 , 2 + θ)
4.3 Métropolis-Hastings
Principe : on veut simuler une loi π(θ) (dans notre cas, la loi P (θ|x)), loi cible
avec une chaîne de Markov.
Initialisation : θ 0 ← valeur quelconque Etape 1 : on propose θ ∗ suivant une loi
π(θ ∗ )q(θ ∗ ,θ t−1 )
de proposition q(θ t−1 , θ ∗ ). Etape 2 : θ t ← θ ∗ avec la probabilité π(θ t−1 q(θ t−1 ,θ ∗ )
∧ 1,
π(θ ∗ )
parfois on a simplement ∧ 1. Etape 3 : retour en 1 sauf si nombre d’itérations
π(θ t−1 )
suffisant.
Pour que cela fonctionne, il faut que la chaîne de Markov soit irréductible et
apériodique dans le cas d’un nombre d’états finis.
42
4. Méthode de Monte-Carlo et statistiques bayésiennes
P (n1 , n2 , n12 |N , p1 , p2 ) = () [p1 (1 − p2 )]n1 [p2 (1 − p1 )]n2 (p1 p2 )n12 [(1 − p1 )(1 − p2 )]N −n1 −n2 −n12
n +n
N! n1 +n12 p2 2 12
= p (1 − p1 )N −n1 −n12 (1 − p2 )N −n2 −n12
n1 !n2 !n12 !(N − x+ )! 1
Ainsi,
2
(N − 1)! Y xi Γ (α + β) α−1
P (N |x) ∝ pi (1 − pi )N −xi 1[1,Nmax ] (N ) p (1 − pi )β−1
+
(N − x )! Γ (α)Γ (β) i
i=1
43
Cours Simulation Stochastique N. Wicker
Initialisation : α 0 et β 0 quelconques.
Etape 1 : simulation de α t suivant P (α|β t−1 ).
Etape 2 : simulation de β t suivant P (β|α t )
Etape 3 : retour en 1 sauf si nombre d’itérations suffisant.
effet,
P (α1t−1 , . . . , αkt−1 , α1t , . . . , αkt ) =P (α1t−1 , . . . , αkt−1 )P (α1t |α2t−1 , . . . , αkt−1 )P (α2t | . . . ) . . .
t
P (αkt |α1t , . . . , αk−1 )
=P (α1t , . . . , αkt )P (α1t−1 |α2t , . . . , αkt )P (α2t−1 | . . . ) . . .
t−1
P (αkt−1 |α1t−1 , . . . , αk−1 )
θ
(b−β)2
2 − θ k e− σ 2
g(σ , b|y, x) ∝ f (y|x, σ 2, b)e 2α 2 (Cont. page suiv.)
Γ (k)(σ 2 )k+1
44
4. Méthode de Monte-Carlo et statistiques bayésiennes
!2
β+ n xi yi /σ 2
P
− b− i=1
2
1/α +
Pn 2
x /σ 2
e i=1 i
∝ Pn −1
2
1 i=1 xi
2 α2
+ σ2
Pn t )2
Pn 2
−1
β+ i=1 xi yi /(σ i=1 xi
Ainsi, bt est simulé suivant : N( Pn 2 , 1
α2
+ t
(σ ) 2 ).
1 + i=1 xi
α2 σ2
On s’intéresse à la densité :
n
Y
h(θ, w1 , . . . , wn ) = 1θ∈D 1[0,w̃i (θ)] (wi )
i=1
On applique maintenant l’algorithme de Gibbs multivarié car la densité marginale
en θ est π(θ) par construction.
a
Application à la loi de Weibull On considère Ga,b (x) = e−bx = 1−F(x). Soit f (x) =
a bk−1 − θb
abxa−1 e−bx avec comme lois a priori π(a) = e−a et π(b) = Γ (k)θ k
e . On dispose d’un
a
a b ( i=1 xi )a−1 ( ni=1 e−bxi ). La
n n Qn Q
échantillon x1 , . . . , xn de vraisemblance : f (x|a, b) =
loi a posteriori est alors :
n n a −a k−1 b
n n
Y
a
Y e−bxi e b e− θ
g(a, b|x) ∝ a b ( xi ) (Cont. page suiv.)
i=1 i=1
Γ (k)θ k
45
Cours Simulation Stochastique N. Wicker
Initialisation : θ 0 .
Etape 1 : w1t simulé suivant U (0+ , w̃1 (θ t−1 ))
..
.
Etape n : wnt simulé suivant U (0+ , w̃n (θ t−1 ))
Etape n + 1 : θ t simulé suivant UA avec A = {θ ∈ D, ∀i wit 6 wi (θ)}
n
1 Pn a
Y
∝ an ( xi )a bn+k−1 e−b( θ + i=1 xi ) e−a
i=1
Pn at−1
On peut ainsi simuler bt suivant Γ (n + k, θ1 + i=1 xi ). On simule at en utilisant
l’échantillonnage par tranche :
Qn −bxa
Z e−a Z
i=1 xi
n Z
Y e i
n
g(a, b|x) ∝ a dw−1 dw0 dwi
0 0 i=1 0
On considère la densité :
n
Y
n
h(a, w0 , w1 , . . . , wn ) ∝ 1a∈]0,+∞[ a 1w ∈[0,e−a−−1 ] 1w0 ∈[0,Q xi ] 1 −bxa
i]
−1 wi ∈[0,e
i=1
Initialisation : a0 .
t t−1
Etape −1 : w−1 simulé suivant U (0, e−a )
t−1
Etape 0 : w0t simulé suivant U (0, ˜( ni=1 xi )a )
Q
at−1
Etape 1 : w1t simulé suivant U (0, e−bx1 )
..
.
at−1
Etape n : wnt simulé suivant U (0, e−bxn )
Etape n + 1 : at simulé suivant la loi puissance PA (n) loi puissance de para-
mètre navec A = {θ ∈ D, ∀i wit 6 wi (θ)} avec A = {a > 0, tel que w−1
t
6 e−a , w0t 6
Qn a t −bxia
( i=1 ) et ∀iwi 6 e }.
Qn ln wt a
Au sujet de A : ln w0t 6 a ln i=1 xi , soit a > Pn 0 et ∀i, wit 6 e−xi soit ln wit 6
i=1 ln xi
ln(− ln wit /b) ln(− ln wit /b)
−bxia et donc ln xi > a ainsi a+ > a > a− avec a+ = min { ln xi } et a− =
i∈{1,...,}
ln wt
Pn 0 . La loi puissance se simule par anamorphose :
i=1 ln xi
a+
u n+1 a+
Z
1
Fa (x) = u n du = [ ]a − = [(a+ )n+1 − (a− )n+1 ]
a− n+1 n+1
46
4. Méthode de Monte-Carlo et statistiques bayésiennes
alors
x
(n + 1)u n
Z
F(x) = du
a− (a+ )n+1 − (a− )n+1
xn+1 − (a− )n+1
= =U (8)
(a+ )n+1 − (a− )n+1
n o 1
avec U loi uniforme sur (0, 1). Ainsi, x = U [(a+ )n+1 − (a− )n+1 ] + (a− )n+1 n+1 .
Vue synthétique : Gibbs bivarié avec un échantillonnage de bt puis un échan-
tillonnage par tranche de at .
x2
Application à la gaussienne tronquée Soit f (x) ∝ e− 2 1[ a, b](x) gaussienne N(0, 1)
tronquée à [a, b]. On réécrit la densité :
2
− x2
Z e
1[ a, b](x) dw1
0
et on simule suivant :
x2
1[ a, b](x)1[ 0, e− 2 ](w1 )
Initialisation : x0 .
(xt−1 )2
Etape 1 : w1t simulé suivant U (0, e− 2
x2
Etape 2 : xt généré suivant UA avec A = {x ∈ [a, b]|w1 6 e− 2 }
x2 √
Concernant A, √ w1 6 e − 2 √
soit 2 ln w1 6 −x2 ⇒ x2 6 2 ln w1 . Donc |x| 6 −2 ln w1 ,
ainsi A = [a, b] ∩ [− −2 ln w1 , −2 ln w1 ].
Γ (α+β) α−1
Application à la loi bêta B(α, β) Soit f (x) ∝ Γ (α)Γ (β)
x (1 − x)β−1 . On réécrit la
densité comme :
Z xα−1 Z (1−x)β−1
1[0,1] (x) dw1 dw2
0 0
et on simule suivant :
1[0,1] (x)1[0,xα−1 ] (w1 )1[0,(1−x)β−1 ] (w2 )
47
Cours Simulation Stochastique N. Wicker
Initialisation : x0 .
Etape 1 : w1t simulé suivant U [0, xα−1 ]
Etape 2 : w2t simulé suivant U [0, (1 − x)β−1 ]
Etape 3 : xt généré suivant UA avec A à déterminer
n
Y
f (y|b, x) = [φ(xi0 b)]yi [1 − φ(xi0 b)]1−yi
i=1
kbk2
π(b) ∝ e− 2 avec b { N(0, Ip )
2 n Y
n
− kbk
Y
g(b|y, x) ∝ e 2 [φ(xi0 b)]yi [1 − φ(xi0 b)]1−yi
i=1 i=1
n Z xi0 b
y i Z +∞
1−yi
2 w2 w2
− kbk
Y i i
− −
∝e 2 e 2 e 2 dwi
xi0 b
i=1 −∞
Initialisation : b0 .
Etape 1 : w1t simulé suivant une N(0, 1) tronquée à ]−∞, x10 ] si y1 = 1 et à [x10 b, +∞[
si y1 = 0
.
Etape .. :
Etape n : wnt simulé suivant une N(0, 1) tronquée à ]−∞, xn0 ] si yn = 1 et à [xn0 b, +∞[
si yn = 0
Etape n + 1 : bt simulé suivant N(0, Ip ) tronquée sur A = {x ∈ RP tq ∀i ∈
1, . . . , n, wi 6 xi0 b si yi = 1xi0 b 6 wi si yi = 0}
48
4. Méthode de Monte-Carlo et statistiques bayésiennes
On a la densité en b, w1 , . . . , wn suivante :
n
kbk2 Y
h(b, w1 , . . . , wn ) ∝ e− 2 [1[0,ψ(xi0 b)(wi )] ]yi [1[0,1−ψ(xi0 b)(wi )] ]1−yi
i=1
Initialisation : b0 .
Etape 1 : w1t simulé suivant U [0, ψ(x10 b)] si y1 = 1 et w1t simulé suivant U [0, 1 −
ψ(x10 b)] si y1 = 0.
.
Etape .. :
Etape n : wnt simulé suivant U [0, ψ(xn0 b)] si yn = 1 et wnt simulé suivant U [0, 1 −
ψ(xn0 b)] si yn = 0.
Etape n + 1 : bt simulé suivant N(0, Ip ) tronquée sur A = {b ∈ RP tq ∀i ∈
1, . . . , n, wit 6 ψ(xi0 b) si yi = 1wit 6 1 − ψ(xi0 b) si yi = 0}
x0 b) 0
or wi 6 ψ(xi0 b) = e
i
x0 b
, donc wi 6 exi b (1 − wit ) et
1+e i
1
wi 6 1 − ψ(xi0 b) = 0
1 + exi b
xi0 b
⇒ wit + wi te 6 1
1 − wit
!
0
xi b 6 ln
wit
49
Cours Simulation Stochastique N. Wicker
Ce modèle est issu de la physique mais est utilisé en finance pour simuler le
comportement d’agents financiers.
La chaîne de Markov est monotone par rapport à la relation d’ordre donnée par
X > Y ssi ∀v ∈ V , X(v) > Y (v). Il y a monotonie ici pour une chaîne de Métropolis
donnée par
P ∗ ∗
u∼v X (u)X (v)
q(X t )
∗ avec une probabilité Pe T
X t (u)X t (v) ∧1
Xt+1 ← X
u∼v
e T q(X ∗)
X t sinon
En effet,
P ∗ ∗
u∼v X (u)X (v)
e T 1 X
t t = exp{ (s − Xt (v)) Xt (u)}
T
P
u∼v X (u)X (v)
e T u∼v
50
5. Application aux équations différentielles stochastiques
Calculons maintenant le prix du put, pour intégrer il faut faire attention au change-
ment de signe de : K − ST or
K − ST > 0
2
T r− σ2 +σ BT
⇔ K − S0 e >0
σ2
!!
1 K T
BT 6 ln − r− = d1 (9)
σ S0 σ 2
Ainsi,
d1
2
x2
e− 2T
Z
T r− σ2 +σ x
E((K − ST )+ ) = (K − S0 e )√ dx
−∞ 2πT
2
2 Z d1 − (x−σ T )
√ T r− σ2 e 2 2
=Kφ(d1 / T ) − S0 e √ eσ T /2 dx
−∞ 2πT
√ d1 − σ T
Tr
=Kφ(d1 / T ) − S0 e φ( √ )
T
51
Cours Simulation Stochastique N. Wicker
1 T
Z !
E S du − K
T 0 u +
2
r− σ2 t+σ Bt
avec
comme vu précédemment,
St = S0 e . Alors, on constate que Z =
1 T
R
exp{ T 0 ln St dt} − K peut être simulé facilement et a aussi une espérance qui se
+
calcule facilement. On peut donc utiliser Z comme variable de contrôle.
RT
Lemme 10 – 0 Bu du { N (0, T 3 /3)
RT
Preuve. Pour tout ω ∈ FT filtration naturelle du mouvement brownien, 0 Bu (ω)du
est définie par continuité de Bu (ω). Ainsi, on peut calculer l’intégrale de Rieman
par :
ZT n
X T
Bu (ω)du = lim B iT (ω)
0 n→+∞ n n
i=1
Pn RT
T
Ainsi, converge presque sûrement vers 0 Bu du et par conséquent égale-
i=1 n B iT
n
ment en loi. Or la loi de ni=1 Tn B iT est la même que celle de :
P
n
n
X T
(n + 1 − i)Ui où les U1 , . . . , Un sont des gaussiennes indépendantes centrées de variance T /n
n
i=1
52
5. Application aux équations différentielles stochastiques
Ainsi,
T
σ2
( Z )!
1
Z = exp ln S0 + (r − )t + σ Bt dt
T 0 2 +
T σ
2
= S0 e(r−σ /2) 2 + T u − K (10)
+
53
Cours Simulation Stochastique N. Wicker
1 T
R
avec σ 2 = T 0 σt2 dt.
vérifie : u(t, x) = E[f (XTt,x )] avec Xt,x le processus valant x en t. On applique cela à
Black-Scholes : dSt = St (rdt + σ dBt ) Pour satisfaire à la condition d’ellipticité, on
effectue le changement de variable Yt = ln St et on obtient ainsi :
σ2
dYt = (r − )dt + σ dBt
2
54
5. Application aux équations différentielles stochastiques
ainsi,
σ 2 ∂2 σ2 ∂
A= 2
+ (r − )
2 ∂x 2 ∂x
on ajoute la contrainte au bord (de type Neumann) :
∂u(t, x) ∂u(t, x)
(a) = (b) = 0
∂x ∂x
si on se restreint à x ∈ [a, b]. On discrétise maintenant en espace puis en temps. On
prend comme pas h. On note par uh la forme discrétisée de u(t, x) avec uhi = u(t, a+ih)
avec i ∈ 0, N + 1 avec f (x) au temps T discrétisé en fh = (fhi )i∈1,...,N L’opérateur A se
discrétise en :
i+1 i−1
σ 2 i+1 i i−1 σ 2 uh − uh
Ah = (u
2 h
− 2u h + u h ) + (r − )
2 2h
"2h 2 2 2
" 2
σ2
# #
σ 1 σ i+1 σ i σ 1
= + (r − ) u h − u + − (r − ) uhi−1
2h2 2h 2 h2 h 2h2 2h 2
Ainsi Ah se réécrit :
α + β γ 0 ... 0
.. ..
α β γ . .
Ah = 0
. .. .. ..
. . 0
. ..
. .
. α β γ
0 ... 0 α β +γ
où considère d’après les conditions de Neumann que fh0 = fh1 et fhN = fhN +1 et
σ 2 1 σ 2 σ 2 σ2 1 σ2
α = 2h 2 − 2h (r − 2 ), β = − h2 et γ = 2h2
+ 2h (r − 2 ). On obtient ainsi le système
discrétisé en espace suivant :
( du (t)
h
dt + Ah uh (t) = 0
uh (T ) = fh
M
On discrétise maintenant en temps avec M pas de taille k : On a ainsi uh,k = fh et
n+1 n
uh,k − uh,k n n+1
+ θAh uh,k + (1 − θ)Ah uh,k =0
k
n+1 n
⇒ (k(1 − θ)Ah + I) uh,k = (I − kθAh ) uh,k
n
On doit donc résoudre à chaque étape le système T uh,k = B en partant du temps
n+1
T avec B = (k(1 − θ)Ah + I) uh,k et T = (I − kθAh ). On triangularise ensuite T et on
n
obtient T 0 uh,k = B0 .
55
Cours Simulation Stochastique N. Wicker
Références
Aldous, A. (1983). Random walks on finite groups and rapidly mixing Markov chains.
Springer-Verlag, New York, p. 243-297 (cf. p. 1).
Athreya, K., H. Doss et J. Sethuraman (1992). « A proof of convergence of the
Markov chain simulation method ». In : Technical Report 868, Dept. Statistics,
Florida State Univ. (Cf. p. 37, 38).
Benaïm, M. et N. El Karoui (2004). Promenade aléatoire. Les éditions de l’École
polytechnique (cf. p. 1).
Billingsley, P. (1995). Probability and Measure. 3rd Edition, Wiley et Sons, New York
(cf. p. 35).
Comets, F. et T. Meyre (2015). Calcul stochastique et modèles de diffusions. Dunod
(cf. p. 1).
Jain, N. et B. Jamison (1967). « Contributions to Doeblin’s theory of Markov pro-
cesses ». Z. Wahrsch. Verw. Geb. 8, p. 19-40 (cf. p. 35).
Levin, D., Y. Peres et E. Wilmer (2008). Markov chains and mixing times. American
mathematical society (cf. p. 1).
Meyn, S. et R. Tweedie (2009). Markov Chains and Stochastic Stability. Cambridge :
Cambridge University Press (cf. p. 1, 31, 35, 37).
Nummelin, E. (1984). General irreducible Markov chains and non-negative operators.
Cambridge University Press (cf. p. 1, 37).
Rosenthal, J. (2002). « A review of asymptotic convergence for general state space
Markov chains ». Far East Journal of Theoretical Statistics 5, p. 37-50 (cf. p. 35).
Tierney, L. (1994). « Markov chains for exploering posterior distributions ». Annals
of Statistics 22, p. 1701-1762 (cf. p. 37, 38).
56
Table des matières