Département MIDO
Master 1
2019–2020
Table des matières
1 Introduction 2
1.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Validité et comportement de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Convergence de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Vitesse de convergence et estimation de l’erreur Monte Carlo . . . . . . . . . . . 3
1.2.3 Monte Carlo v.s. Méthodes déterministes . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Références utiles 32
1
1 Introduction
Supposons que l’on souhaite connaître la valeur d’une certaine quantité δ. La première étape de la
méthode consiste à écrire le problème sous la forme d’une espérance. Soient une variable aléatoire
X = (X 1 , . . . , X d ) de loi ν sur Rd (on abrègera cela par X ∼ ν) et une fonction h : Rd → R. Le problème
traité par les méthodes de Monte Carlo est l’estimation de
Z
δ = Eν [h(X)] = h(x)ν(dx). (1.1)
Rd
La solution standard à ce problème est de simuler une suite (Xn )n≥1 = (X 1,n , . . . , X d ,n )n≥1 de va-
riables aléatoires indépendantes identiquement distribuées (i.i.d.) suivant la loi ν, puis d’estimer
l’espérance Eν [h(X)] par la moyenne empirique, i.e.,
1 Xn
hn = h (Xk ) (1.2)
n k=1
Remarque. Lorsqu’il n’y a pas d’ambiguïté sur la loi de X, on omettra ν dans les notations.
1
Z
δ = (b − a)d h(x 1 , . . . , x d ) dx 1 . . . dx d .
Rd (b − a)d
2
J. S TOEHR Méthodes de Monte Carlo
δ = (b − a)d E [h(X)].
fonction borélienne, alors on peut écrire, sous les hypothèses d’existence de δ, δ = E g (X)
£ ¤
et l’estimer.
Soit (Xn )n≥1 une suite de variables aléatoires réelles i.i.d. de loi ν telle que h(X1 ) soit ν-
intégrable. Alors, pour tout ε > 0,
h¯ ¯ i h¯ ¯ i
P ¯h n − E [h(X1 )]¯ ≤ ε −→ 1 (loi faible), P ¯h n − E [h(X1 )]¯ −→ 0 = 1 (loi forte).
¯ ¯ ¯ ¯
n→+∞ n→+∞
La loi des grands nombres renseigne donc de deux façons sur l’erreur que l’on commet en estimant
δ par la moyenne empirique h n . Selon la version faible, il y a une probabilité nulle de commettre
une erreur plus grande que ε, tandis que la version forte dit qu’une fois que l’erreur d’estimation
est inférieure à ε, alors cette erreur ne peut que décroître.
La loi des grands nombres n’apporte en revanche pas d’informations pratiques sur l’erreur com-
mise. Ainsi, elle ne permet pas de choisir une taille d’échantillon n qui assure que la méthode pro-
duira une erreur aussi petite que l’on souhaite, ni de dire si pour un échantillon X1 , . . . , Xn de taille
n fixée, l’erreur sera arbitrairement petite ou non.
·n o2 ¸ σ2
E h n − E [h(X)] = =, où σ2 = Var[h(X)]. (1.3)
n
On peut d’ores et déjà remarquer que cette vitesse de convergence ne permet pas d’estimer δ avec
une relativement grande précision, chaque chiffre significatif supplémentaire, nécessitant un coût
3
J. S TOEHR Méthodes de Monte Carlo
Lorsque la variance de h(X) est finie, le théorème Central-Limite permet d’établir que h n − Eν [h(X)]
suit asymptotiquement une loi normale.
Soit (Xn )n≥1 une suite de variables aléatoires réelles i.i.d. de loi ν telle que h(X1 )2 soit ν-
intégrable. Alors
p ³ ´ L ·r
n ³ ´ ¸
n h n − E [h(X1 )] −→ N 0 , σ2 ∀z ∈ R, P E −→ Φ(z),
¡ ¢
⇔ h n − [h(X1 )] ≤z
n→+∞ σ2 n→+∞
L’erreur commise par la méthode de Monte Carlo est aléatoire. Elle ne peut être bornée mais elle
peut être quantifiée via un intervalle de confiance. Sous les hypothèse du théorème central limite,
pour tout q réel,
·r Z q µ 2¶
n ¯¯
¸
¯ 1 −t
P ¯h n − E [h(X)]¯ ≤ q −→ p exp dt = 2Φ(q) − 1.
¯
σ2 n→+∞ −q 2π 2
Remarque. Le niveau de confiance usuel est 1 − α = 0.95. Alors q 1−α/2 = Φ−1 (0.975) ≈ 1.96.
1 Xn 1 Xn
b 2n =
1. σ (Yk − Y n )2 = Y 2 − (Y n )2 .
n k=1 n k=1 k
1 X n 1 X n n
b 2n−1 =
2. σ (Yk − Y n )2 = Yk2 − (Y n )2 .
n − 1 k=1 n − 1 k=1 n −1
1 Xn
b 22n =
3. σ (Y2k−1 − Y2k )2 .
2n k=1
4
J. S TOEHR Méthodes de Monte Carlo
Soient (Yn )n≥1 et (Zn )n≥1 deux suites de variables aléatoires. S’il existe une variable aléatoire
Y telle que (Yn )n≥1 converge en loi vers Y , et une constante c telle que (Zn )n≥1 converge en
L
probabilité vers c, alors (Yn , Zn )n≥1 converge en loi vers (Y , c). En particulier, Zn Yn −→ cY .
n→+∞
On en déduit que la convergence en loi du théorème 1.2 est préservée lorsque la variance est rem-
placée par un estimateur asymptotique sans biais.
Lemme 1.1
Par exemple, si la fonction h est de classe C 2 sur [0 , 1], on obtient par la méthode des tra-
pèzes une erreur en O (n −2 ). Autrement dit, pour que l’on obtienne par la méthode de Monte
calcul la même précision que la méthode des trapèzes avec n points, il faudra de l’ordre de
n 4 tirages. Pour des fonctions davantage régulières, la différence est encore plus marquée. Si
la fonction est de classe C 4 sur [0 , 1], la méthode de Simpson fournit une erreur en O (n −4 ),
ce qui équivaudrait à n 8 tirages pour la méthode de Monte Carlo !
5
J. S TOEHR Méthodes de Monte Carlo
grand.
2. On peut également approcher δ à l’aide sommes de Riemann
n
1 X n µ
k1 kd
¶
δ = lim
X
... h ,..., .
n→+∞ n d n n
k 1 =1 k d =1
Le coût de la méthode est T = n d pour une précision en T −1/d , alors que la méthode
de Monte Carlo (sous les hypothèses du Théorème central limite) aura une précision de
T −1/2 . Les méthodes de Monte Carlo sont donc avantageuse à partir de d = 3.
En résumé, si les méthodes déterministes sont efficaces pour les problèmes réguliers de très pe-
tites dimensions, les méthodes de Monte Carlo les surpassent et sont très compétitives pour les
problèmes non-réguliers en grande dimension.
1.3 Conclusion
Les méthodes de Monte Carlo nécessitent uniquement de savoir formuler le problème sous la
forme d’une espérance par rapport à une loi ν. Le choix de ν est guidée par le fait que l’on sache
simuler suivant cette mesure (c.f., Chapitre 2) mais également par le fait que l’on puisse contrôler la
variance de la méthode. En effet, l’équation (1.3) montre que les deux seuls facteurs influant sur les
performances de la méthode son n et σ2 (ou σ b 2n ). On peut donc réduire l’erreur en augmentant n
au prix d’un coup de simulation (temps de calcul) plus important ou en réduisant σ2 . Par exemple,
si l’on reformule le problème par rapport à une mesure η telle que
¤ 1
δ = Eν [h(X)] = Eη g (Y) et Varη g (Y) = Varν [h(X)], avec g une fonction mesurable de Rd ,
£ ¤ £
2
l’estimateur basée sur η présentera la même précision que l’estimateur basée sur ν mais en utilisant
deux fois moins de tirages (c.f., Chapitre 3).
6
2 Simulation de variables aléatoires
La simulation de variables aléatoires suivant une loi ν est la pierre angulaire des méthodes de Monte
Carlo au sens large. La loi uniforme joue un rôle central aussi bien dans la simulations de lois
usuelles que de lois plus complexes. Si des générateurs sont généralement disponibles pour les
lois usuelles, il est important de comprendre le rôle de ces processus de génération qui permettent
dans certains cas de réduire la variance des méthodes de Monte Carlo. Ce chapitre présentera les
principes généraux de la méthode d’inversion et de la méthode du rejet, ainsi que quelques cas
particuliers utiles.
Un générateur de nombres pseudo-aléatoire est un algorithme qui, à partir d’une valeur ini-
tiale u 0 , appelée graine (seed), et une transformation D, produit une suite (u n )n≥1 = {D n (u o )}
dans [0, 1]. Pour tout n, les valeurs u 1 , . . . , u n reproduisent le comportement d’un échantillon
i.i.d. de loi uniforme vis à vis des tests usuels.
Soit X une variable aléatoire réelle de fonction de répartition F . On appelle inverse généra-
lisé (ou fonction quantile) de F , noté F ← , la fonction définie pour tout u ∈ [0 , 1] par
7
J. S TOEHR Méthodes de Monte Carlo
F F F
1 1 1
u
u
u
(a) (b) (c)
0 x 0 x 0 x
F ← (u) F ← (u) F ← (u)
F IGURE 2.1 – Lecture graphique de F ← (u), i.e., quantile de la loi d’ordre u. (a) L’équation F (x) = u a une
unique solution. (b) L’équation F (x) = u n’a pas de solutions. (c) L’équation F (x) = u a une
infinité de solutions.
Remarque. L’inverse généralisé ne correspond à l’inverse (au sens bijection) que lorsque F est
continue et strictement croissante.
Par construction, l’inverse généralisé est une fonction croissante : pour 0 ≤ u ≤ v ≤ 1, F étant crois-
sante, on a
L’inverse généralisé est donc en particulier mesurable et sa composition avec une variable aléatoire
aléatoire demeure donc une variable aléatoire.
Soit X une variable aléatoire réelle de fonction de répartition F et U ∼ U ([0 , 1]). Alors F ← (U )
est une variable aléatoire suivant la loi de X .
k
p k = P [X = x k ],
X
s 0 = 0 et s k = pk .
i =1
Alors pour U ∼ U ([0 , 1]), la variable aléatoire Z définie ci-dessous suit la même loi que X
x si u ∈ [0 , s 1 ],
1
Z=
x si u ∈ ]s k−1 , s k ], k ≥ 2.
k
En pratique, il suffit donc de trouver, pour une réalisation u suivant la loi U ([0 , 1]), l’unique
indice k tel que s k−1 < u ≤ s k . Ceci est facile à mettre en œuvre lorsque Ω est fini mais peut
être plus complexe lorsque Ω est infini dénombrable (e.g., loi de Poisson).
8
J. S TOEHR Méthodes de Monte Carlo
F est bijective (la bijection réciproque et l’inverse généralise coïncident) et pour tout u ∈
[0 , 1],
−1
F ← (u) = ln(1 − u).
λ
Ainsi pour U ∼ U ([0 , 1]), F ← (U ) = −λ−1 ln(1 − U ) ∼ −λ−1 ln(U ) ∼ E (λ), car 1 − U et U ont
même loi sur [0 , 1].
La loi de Weibull est utilisée dans différents domaines (ingénierie, théorie des extrêmes, as-
surances, hydrologie,...). On dit qu’une variable aléatoire X suit une loi de Weibull de para-
mètre λ, k ∈ R∗+ lorsque sa fonction de répartition est donnée, pour tout réel x ≥ 0, par
n o
F (x) = 1 − exp − (x/λ)k .
Ainsi pour U ∼ U ([0 , 1]), λ{− ln(U )} /k suit une loi de Weibull de paramètre λ, k ∈ R∗+ .
1
9
J. S TOEHR Méthodes de Monte Carlo
Lemme 2.2
La somme de n variables aléatoires i.i.d. de Bernoulli de paramètre p suit une loi B(n, p).
Pour générer des variables de Bernoulli, on peut utiliser la méthode de la fonction inverse (c.f.,
Exemple 2.1). Soient U1 , . . . ,Un des variables aléatoires i.i.d. suivant la loi U ([0 , 1]). Alors 1{Ui ≤p } ,
i = 1, . . . , n, suit une loi de Bernoulli de paramètre p et
n
1{Ui ≤p } ∼ B(n, p).
X
i =1
Ce type d’approche est également utilisé pour simuler la loi de Poisson de paramètre λ à partir de
la somme de variables aléatoires i.i.d. suivant la loi exponentielle de même paramètre λ.
T = sup n ∈ N∗ : X 1 + . . . + X n ≤ 1 , X i ∼ E (λ), i = 1, . . . , n.
© ª
Là encore, la méthode de la fonction inverse est utilisée pour simuler suivant la loi exponentielle
(c.f., Exemple 2.2).
Version cartésienne. Soient U1 et U2 des variables i.i.d. de loi U ([0 , 1]). Alors les variables
X 1 et X 2 définies par
p p
X1 = −2 ln(U1 ) cos(2πU2 ) et X 2 = −2 ln(U1 ) sin(2πU2 ),
10
J. S TOEHR Méthodes de Monte Carlo
Bien que populaire, cette transformation n’est pas la façon la plus rapide d’obtenir des réalisations
de N (0 , 1). Elle est en effet moins performante que l’inversion numérique de la fonction de répar-
tition.
trice de covariance Σ est diagonale, il suffit de générer d variables X i indépendantes de loi normale.
En revanche lorsque la matrice de covariance n’est pas diagonale cette méthode n’est pas envisa-
geable et on utilise le résultat suivant.
Proposition 2.2
X = µ + LZ, µ ∈ Rd ,
Remarques. 1. Z peut être simulé en utilisant l’algorithme de Box-Muller (les composantes sont
i.i.d. suivant N (0 , 1)).
2. La fonction chol de R permet d’obtenir la décomposition de Cholesky d’une ma-
trice symétrique définie-positive.
3. La décomposition de Cholesky s’applique uniquement si la matrice est symé-
trique définie positive. Si la loi est dégénérée, la matrice de covariance est sim-
plement semi-définie positive. La matrice L est alors obtenue par décomposition
spectrale, i.e., on diagonalise Σ dans une base orthogonale : Σ = QDQ T , puis on
pose L = OD 1/2 .
on a
(Ã ! Ã !)
µ1 σ21 ρσ1 σ2
X = (X 1 , X 2 ) ∼ N , . (2.1)
µ2 ρσ1 σ2 σ22
11
J. S TOEHR Méthodes de Monte Carlo
Définition 2.3
Un processus stochastique W = (Wt )t ∈R+ est un mouvement brownien standard si, et seule-
ment si,
(1) W est issu de 0, i.e., W0 = 0 p.s.,
(2) W est à trajectoires continues,
(3) W est à accroissements indépendants, i.e., pour toutes séquences 0 = t 0 < t 1 < . . . < t n ,
¡ ¢
les variables Wt1 − W t 2 , . . . ,Wtn − W t n−1 sont indépendantes,
(4) W est à accroissements stationnaires,i.e., pour tous s < t la valeur de Wt −Ws ne dépend
que de la valeur de t − s et Wt − Ws ∼ N (0 , t − s).
La propriété centrale dans la simulation du mouvement brownien est celle des accroissements in-
dépendants et stationnaires. Un algorithme simple consiste donc à simuler l’incrément sachant le
présent.
Soit (t n )n∈N une suite de R+ et (Zn )n∈N une suite de variables i.i.d. de loi N (0 , 1). On définit
le processus W = (Wt )t ∈R+ par
p
W0 = 0 et Wtn+1 = Wtn + t n+1 − t n Zn .
Alors W est une réalisation de trajectoires du mouvement brownien aux instants (t n )n∈N .
En finance, un exemple classique d’utilisation du mouvement brownien (Wt )t ∈R+ est le cal-
cul de la valeur d’une option avec le modèle de Black-Scholes, i.e., le processus (S t )t ∈R+ défini
par
r − σ2 r le taux d’intérêt sans risque,
µ ¶
S t = S 0 exp t + σWt , avec
2 σ la volatilité du prix de l’option.
12
J. S TOEHR Méthodes de Monte Carlo
u ∼ U 0 , M g (y)
¡£ ¤¢
M g (y)
Zone d’acceptation Mg
y∼g f
Soient (Un )n≥1 une suite de variables i.i.d. de loi U ([0 , 1]) et (Yn )n≥1 = (Y1,n , . . . , Yd ,n )n≥1 une
suite de variables i.i.d. de loi de densité g telles que ces deux suites soient indépendantes.
Alors, pour T défini par
f (Yn )
T := inf {n ≥ 1 : Un ≤ α (Yn )} , où α (Yn ) := ,
M g (Yn )
et U | Y = y ∼ U 0 , M g (y) ,
¡£ ¤¢
Y∼g
Remarques. 1. α(Yn ) est bien défini pour presque tout ω, car P Yn ∈ {x : g (x) = 0} = 0.
£ ¤
2. T est presque sûrement fini et l’algorithme ne peut donc pas tourner indéfini-
ment. En effet, du fait de l’indépendance, pour tout n ∈ N∗ ,
1 n
µ ¶
P [T = +∞] ≤ 1 − −→ 0.
M n→+∞
4. Ce résultat est valable pour une densité f par rapport à une mesure ν quelconque.
Pour une variable aléatoire discrète sur une ensemble fini ou dénombrable, ν est
la mesure de comptage.
13
J. S TOEHR Méthodes de Monte Carlo
Une conséquence de la proposition 2.4 est que la probabilité d’acceptation est exactement 1/M .
Autrement dit, T suit une loi géométrique de paramètre 1/M et le nombre d’essais moyen jus-
qu’à ce qu’une variable soit acceptée est M . Ce résultat permet de comparer différentes méthodes
d’acceptation-rejet basées sur des densités instrumentales g 1 , . . . , g k au travers de leurs bornes res-
pectives M 1 , . . . , M k . Ainsi une façon d’optimiser la méthode est de trouver la plus petite borne M
possible, bien que cette technique ait certaines limitations.
2.5 Conclusion
De fait, la plupart des langages comme R ou Python proposent des générateurs aléatoires pour les
lois de probabilité usuelles. Certains des résultats vu dans ce chapitre peuvent donc paraître anec-
dotiques. Ils permettent néanmoins de réfléchir aux processus de génération utilisés et à leur utili-
sation dans des contextes où des générateurs ne sont pas disponibles. Par ailleurs ce chapitre ne fait
pas un état de l’art exhaustif des méthodes existantes. Certaines ont été omises comme le rapport
d’uniformes et les méthodes de Monte Carlo par chaînes de Markov (MCMC) qui nécessitent des
notions du cours de processus discrets.
14
3 Méthodes de réduction de la variance
Dans ce chapitre, on se concentre sur le problème d’estimation de δ = Eν [h(X)] avec h une fonction
mesurable telle que :
On a vu au Chapitre 1, que la méthode de Monte Carlo classique présente une erreur de l’ordre
p
de σ/ n. On peut diminuer l’erreur en augmentant n, au prix d’un coût de calcul plus important,
ou en diminuant σ2 . Ce chapitre décrit les méthodes dites de réduction de variance, ayant pour
but de construire un estimateur sans biais δbn de variance inférieure à la méthode de Monte Carlo
classique, i.e., un estimateur tel que
h i
E δbn = δ et Var δbn < Var h n .
£ ¤ £ ¤
Critères de comparaison
Le point central de ce chapitre sera donc la comparaison en terme de variance entre un estima-
teur sans biais δbn et h n . Lorsque l’estimateur s’écrit δbn = n −1 nk=1 Yk , avec (Yn )n≥1 une suite de
P
variables aléatoires réelles i.i.d. de carré intégrable, cela revient, de façon équivalente, à vérifier si
Limiter la comparaison des méthodes à la simple comparaison des variances σ2 et σ21 n’est néan-
moins pas nécessairement judicieux si la méthode alternative n’est pas de complexité comparable
(e.g. coût de calcul et utilisation de la mémoire plus important) à la méthode classique.
C σ2
R(h n , δbn ) = .
C 1 σ21
15
J. S TOEHR Méthodes de Monte Carlo
Autrement dit, pour obtenir une erreur quadratique moyenne donnée, le calcul de h n prend R(h n , δbn )
fois le temps de calcul de δbn . Ainsi, une méthode de réduction de variance est d’autant plus efficace
que R(h n , δbn ) est grand devant 1.
Il n’est pas toujours facile de quantifier l’effet du rapport des coûts C /C 1 , celui-ci pouvant dépendre
du langage, de la façon de programmer les méthodes, des algorithmes de simulation utilisés, ...
Dans le cours, on se concentrera sur la comparaison des variances. Ce point sera abordé dans les
séances de travaux pratiques.
La méthode repose sur l’idée que pour calculer δ, au lieu d’échantillonner suivant ν, il est plus inté-
ressant d’échantillonner suivant une loi dont les réalisations seront dans D avec forte probabilité,
puis de pondérer cet échantillon pour corriger le changement de loi d’échantillonnage.
On souhaite calculer δ = P [X > 4.5] pour X ∼ N (0 , 1). Étant donnée (X n )n≥1 une suite de
n = 10000 variables aléatoires i.i.d. suivant la loi N (0 , 1), on a
1X n
hn = 1{X i >4.5} = 0.
n i =1
La simulation « naïve » s’avère très inefficace car il s’agit d’un événement rare. La solution est
de forcer la réalisation de cet événement. Soit Z ∼ τE (4.5, 1) une variable aléatoire suivant la
loi exponentielle de paramètre 1 et translatée de 4.5, i.e. de densité donnée pour tout réel z
par
e z−4.5
g (z) = R +∞ 1{z≥4.5} .
−x
4.5 e dx
On peut écrire
+∞ +∞ φ(x)
Z Z
P [X > 4.5] = φ(x)dx = g (x)dx.
4.5 4.5 g (x)
Ainsi, pour une suite (Zn )n≥1 de n = 10000 variables aléatoires i.i.d. suivant la loi de Z , on a
l’estimation
1 Xn φ(Z )
k
δbn = 1{Zk >4.5} = 3.36 10−6 .
n k=1 g (Zk )
16
J. S TOEHR Méthodes de Monte Carlo
Soit g une densité telle que supp( f ) = x ∈ Rd : f (x) > 0 ⊂ supp(g ) = x ∈ Rd : g (x) > 0 .
© ª © ª
h(Z) f (Z)
· ¸
E f [h(X)] = Eg . (3.1)
g (Z)
Étant donnée (Zn )n≥1 une suite de variables aléatoires i.i.d. suivant la densité g , on définit
l’estimateur d’échantillonnage préférentiel par
1 Xn f (Z ) 1 Xn
k
δbn (g ) = h(Zk ) = w k h(Zk ).
n k=1 g (Zk ) n k=1
Remarque. Le coût de calcul de δbn (g ) peut être différent de celui de l’estimateur classique : le coût
de simulation suivant g pouvant être différent du coup de simulation suivant f . Cela
influe donc sur le rapport C /C 1 de la fonction R(h n , δbn (g )).
Biais de l’estimateur. Sous l’hypothèse supp( f ) ⊂ supp(g ), on obtient directement que l’estima-
teur est sans biais en utilisant l’équation (3.1).
¡ ¢
Convergence de l’estimateur. Les variables aléatoires (Yn )n≥1 = h(Zn ) f (Zn )/g (Zn ) n≥1 sont i.i.d.
et d’espérance finie sous g . La loi forte des grands nombre donne
Variance de l’estimateur. Les variables aléatoires (Zn )n≥1 étant i.i.d. suivant la densité g , la va-
riance de l’estimateur s’écrit
½ · 2
h (Z) f 2 (Z) {h(x) f (x) − δg (x)}2
¸ ¾
¤ 1 1
Z
2
Varg δn (g ) = Eg δ
£
b − = dx. (3.3)
n g 2 (Z) n D g (x)
1 X n © ª2
b 21 (g ) =
σ w k h(Zk ) − δbn (g ) .
n − 1 k=1
17
J. S TOEHR Méthodes de Monte Carlo
Eg h 2 (X) f 2 (X)/g 2 (X) est petite (borne supérieure pour la variance). Mais elle illustre également
£ ¤
est finie. Ainsi les densités instrumentales g telles que f /g n’est pas borné (i.e., g a des queues
de distribution plus légères que celles de f ) sont à proscrire. Dans ce cas, les poids d’importance
f (Zk )/g (Zk ), k = 1, . . . , n, sont très variables et seuls certains termes dans la définition de δbn (g ) ont
un poids significatif. Autrement dit, la méthode d’estimation est instable : δbn (g ) varie brusque-
ment d’une itération à l’autre. Lorsque Var f [h(X)] < +∞, une condition suffisante pour garantir
que δbn (g ) soit de variance finie est de choisir une densité g telle que f /g soit bornée.
La seconde égalité dans (3.3) indique qu’en prenant g proportionnel à h f on obtient un estimateur
de variance presque nulle, voire nulle si la fonction h est de signe constant. Plus précisément, la loi
instrumentale optimale en terme de variance est donnée par le résultat suivant.
Proposition 3.1
|h(z)| f (z)
g ? (z) = R , z ∈ Rd .
supp( f ) |h(x)| f (x)dx
Ce résultat n’a qu’un intérêt limité en pratique. Lorsque h > 0, la densité instrumentale optimale est
g ? = h f /E f [h(X)] et Varg ? δbn (g ? ) = 0. Néanmoins, cela requiert de connaître δ = E f [h(X)] qui est
£ ¤
justement la quantité d’intérêt. La proposition 3.1 fournit en revanche une stratégie pour choisir g :
un candidat pertinent est tel que |h| f /g soit quasi constant et de variance finie.
Estimateur auto-normalisé
Il est possible que les densités f et/ou g ne soient connues qu’à une constante de normalisation
près, i.e., f = c f f˜ et g = c g g̃ . Dans ce cas, on travaille avec une version de l’estimateur dite auto-
normalisée.
Définition 3.2
Sous les même hypothèses que la définition 3.1 et étant donnée (Zn )n≥1 une suite de va-
riables aléatoires i.i.d. suivant g , l’estimateur auto-normalisée est défini par
Pn
w̃ h(Zk )
k=1 k f˜(Zk )
δbn (g̃ ) = Pn , avec w̃ k = , k = 1, . . . , n, (3.4)
w̃ ˜ k)
g (Z
k=1 k
Pn
w h(Zk )
k=1 k
= Pn . (3.5)
w
k=1 k
Proposition 3.2
18
J. S TOEHR Méthodes de Monte Carlo
Exemple 3.2
Supposons que l’on souhaite estimer δ = E f [h(X) +C ] avec C une constante. Soit (Zn )n≥1
une suite de variables aléatoires i.i.d. suivant g . Alors
1 Xn 1 Xn C Xn 1 Xn
w(Zk ) {h(Zk ) +C } = w k h(Zk ) + w k 6= C + w k h(Zk ).
n k=1 n k=1 n k=1 n k=1
19
J. S TOEHR Méthodes de Monte Carlo
(e.g., symétrie ou rotation). Autrement dit, on suppose qu’il existe une transformation mesurable
A : Rd → Rd telle que A(X) ∼ ν.
Exemple 3.3
1 Xn h(X ) + h ◦ A(X )
k k
δbn = (3.6)
n k=1 2
où (Xn )n≥1 est une suite de variables aléatoires i.i.d. suivant la loi de X.
Convergence de l’estimateur. La loi forte des grands nombres pour les suites de variables aléa-
toires i.i.d. (h(Xn ))n∈N et (h ◦ A(Xn ))n∈N (et le théorème de continuité) donne
n
1 X p.s.
h(Xk ) −→ E [h(X)]
n k=1 n→+∞ p.s.
n p.s.
⇒ δbn −→ E [h(X)].
1 n→+∞
h ◦ A(Xk ) −→ E [h ◦ A(X)] = E [h(X)]
X
n k=1 n→+∞
Intervalle de confiance. Les variables aléatoires (Yn )n≥1 = (0.5 {h(Xn ) + h ◦ A(Xn )})n≥1 sont i.i.d. et
de variance finie (h étant de carré intégrable par rapport à ν). Le théorème centrale limite donne
p ¡ ¢ L
n δbn − E [h(X)] −→ N 0 , σ21 , avec σ21 = Var[0.5{h(X) + h ◦ A(X)}].
¡ ¢
n→+∞
où q 1−α/2 est le quantile d’ordre 1 − α/2 de la loi normale centrée réduite. Dans la pratique, on peut
estimer la variance σ21 via la variance empirique
1 X n ¡ ¢2
b 21 =
σ 0.5 {h(Xk ) + h ◦ A(Xk )} − δbn .
n − 1 k=1
20
J. S TOEHR Méthodes de Monte Carlo
Performances de l’estimateur
Les variables (Xn )n≥1 étant i.i.d. suivant ν, ajouté au fait que X et A(X) sont de même loi, on a
1
Var δbn = (Var[h(X)] + Var[h ◦ A(X)] + 2Cov[h(X), h ◦ A(X)])
£ ¤
4n
1 1 1
= Var[h(X)] + Cov[h(X), h ◦ A(X)] = Var[h(X)](1 + ρ),
2n 2n 2n
Cette expression de la variance justifie a posteriori pourquoi dans la définition de l’estimateur (3.6),
on prend le second échantillon identiquement distribué selon la loi de X, mais pas indépendant de
(Xn )n≥1 . Si l’on n’utilise pas la suite (Xn )n≥1 pour construire la suite de réalisations correspondant
à la variable antithétique A(X), mais une suite de variables aléatoires i.i.d. X̃n n≥1 , alors ρ = 0. La
¡ ¢
méthode n’est rien d’autre que la méthode de Monte Carlo classique pour un échantillon de taille
2n.
Le cas favorable pour la méthode de la variable antithétique est celui de la corrélation négative.
Dans le cas particulier où ρ = 1, on peut même constater que la méthode devient exacte.
Proposition 3.3
£ ¤ 1 h i
Cov[h(X), h ◦ A(X)] < 0 =⇒ Var δbn < Var h n .
2
Suivant que le coût d’estimation soit dominé par le coût de simulation suivant ν ou par le coût
d’évaluation de h, on peut comparer l’efficacité relative de δbn à h n ou h 2n :
C 2
R(h n , δbn ) = R(h 2n , δbn ) = , avec − 1 ≤ ρ ≤ 1.
C1 1 + ρ
• Si le coût d’estimation est dominé par le coût de simulation suivant ν, alors C 1 = C et le gain
R(h n , δbn ) ≥ 1. Pour un budget fixé, on fait donc au moins aussi bien que la méthode classique. Si
de plus ρ < 0, la méthode de la variable antithétique est au moins deux fois plus efficace que la
méthode classique.
• Si le coût d’estimation est dominé par le coût d’évaluation de h ou si le coût de simulation suivant
ν et d’évaluation de h sont équivalents, alors C 1 = 2C et R(h n , δbn ) ≥ 0.5. Autrement dit, lorsque
ρ = 1, la méthode de la variable antithétique double la variance de la méthode classique pour un
même nombre d’évaluation de h (ou de façon équivalente δbn atteint la même variance que h n en
deux fois plus de temps). En revanche, lorsque ρ < 0, δbn fait au moins aussi bien que la méthode
classique même si celle-ci utilisait deux fois plus de simulation.
21
J. S TOEHR Méthodes de Monte Carlo
Il est possible de vérifier théoriquement, sous certaines conditions, que la covariance associée à la
méthode est négative.
Proposition 3.4
Proposition 3.5
Une application directe de la proposition 3.4 est lorsque A est une transformation de Rd
décroissante en chacune de ces coordonnées laissant la loi ν invariante et h : Rd → R est
monotone en chacune de ses coordonnées. Alors Cov[h(X ), h ◦ A(X )] ≤ 0, avec égalité uni-
quement si h est presque sûrement constante.
δ = E exp(−r T ) (S T − K ) + ,
£ ¤
K ≥ 0.
Le résultat sur la monotonie a une utilité théorique pour justifier la réduction de la variance, mais il
ne garantit pas nécessairement un gain significatif (e.g., si ρ < 0 mais proche de 0) dans la pratique.
La condition est uniquement suffisante. On peut donc a contrario obtenir une corrélation négative
pour une fonction h qui n’est pas monotone. En pratique, il peut donc, dans certains cas, étudier
22
J. S TOEHR Méthodes de Monte Carlo
Soit h 0 : Rd → R telle que son espérance, notée m, soit facilement calculable et Var[h 0 (X)] <
+∞. Pour tout réel b positif, étant donné (Xn )n≥1 une suite de variables aléatoires i.i.d. sui-
vant la loi ν, on définit l’estimateur
1 Xn
δbn (b) = [h(Xk ) − b{h 0 (Xk ) − m}]. (3.7)
n k=1
Convergence de l’estimateur. La loi forte des grands nombres pour les suites de variables aléa-
toires i.i.d. (h(Xn ))n≥1 et (h 0 (Xn ))n≥1 , donne
n
1 X p.s.
h(Xk ) −→ E [h(X)]
n k=1 n→+∞ p.s.
n p.s.
⇒ δbn (b) −→ E [h(X)], pour tout réel b.
1 X n→+∞
h 0 (Xk ) − m −→ 0
n k=1 n→+∞
Intervalle de confiance. Les variables aléatoires (Yn )n≥1 = (h(Xn ) − b{h 0 (Xn ) − m})n≥1 sont i.i.d. et
de variance finie, notée σ21 (b). Le théorème centrale limite donne alors, pour tout réel b,
p ¡ ¢ L
n δbn (b) − E [h(X)] −→ N 0 , σ2 (b) .
¡ ¢
n→+∞
σ1 (b) b σ1 (b)
· ¸
IC1−α = δn − q 1−α/2 p , δn + q 1−α/2 p
b
n n
· q q ¸
= δn − q 1−α/2 Var δn (b) , δn + q 1−α/2 Var δn (b) ,
£ ¤ £ ¤
b b b b
où q 1−α/2 est le quantile d’ordre 1− α/2 de la loi normale centrée réduite. Dans la pratique, on estime
la variance σ21 (b) via la variance empirique associée aux réalisations de la variable aléatoire Y :
1 X n © ª2
b 21 (b) =
σ h(Xk ) − b(h 0 (Xk ) − m) − δbn (b) .
n − 1 k=1
23
J. S TOEHR Méthodes de Monte Carlo
Performances de l’estimateur
Les variables aléatoires (Yn )n≥1 étant i.i.d., on obtient que la variance de l’estimateur (3.7) est, pour
tout réel b,
¤ 1 1©
Var δbn (b) = σ2 (b) = Var[h(X)] + b 2 Var[h 0 (X)] − 2bCov[h(X), h 0 (X)].
£ ª
n n
h i 1©
= Var h n + b 2 Var[h 0 (X)] − 2bCov[h(X), h 0 (X)] .
ª
n
Proposition 3.6
L’estimateur δbn (b) est de variance plus faible que l’estimateur classique h n si, et seulement
si, on choisit b et h 0 telles que
¤ Cov[h(X), h 0 (X)]
b ? = arg min Var δbn (b) =
£
. (3.8)
b∈R Var[h 0 (X)]
et
h i¡ Cov[h(X), h 0 (X)]
Var δbn (b ? ) = Var h n 1 − ρ (h(X), h 0 (X))2 , ρ (h(X), h 0 (X)) = p
£ ¤ ¢
.
Var[h(X)]Var[h 0 (X)]
Démonstration. La variance de l’estimateur δbn (b) étant une fonction quadratique et convexe en b,
elle admet un unique minimum b ? donné par (3.8). ♣
C 1
R(h n , δbn (b)) = .
C +C (h 0 ) 1 − ρ 2
La variable de contrôle est plus efficace que la méthode classique lorsque R(h n , δbn (b)) > 1, autre-
24
J. S TOEHR Méthodes de Monte Carlo
Ainsi, lorsque C = C (h 0 ), la méthode est plus efficace pour |ρ| > 0.71.
Soit X une variable aléatoire réelle de densité f symétrique par rapport à µ (e.g., X ∼
N µ , σ2 ). On souhaite calculer la probabilité d’obtenir une réalisation au delà de µ,
¡ ¢
Z +∞
P [X ≥ a] = f (x)dx, a > µ,
a
On a
On en déduit que l’estimateur δbn (b) est plus efficace que l’estimateur h n lorsque
Cov[h(X ), h 0 (X )] P [X > a]
0<b<2 =2 £ ¤ = 4P [X > a].
Var[h 0 (X )] P X ≥µ
P` ³ ´
k=1
(h (X
0 k ) − m) h(Xk ) − h `
b? =
b . (3.9)
` P` 2
k=1
(h 0 (Xk ) − m)
¡ ?¢
On utilise ensuite les n − ` termes restants (n − ` grand) pour calculer δbn−` b b? et
b . Dans ce cas b
¡ ?¢ ` `
les variables (h 0 (Xn ) − m)n>` sont indépendantes et l’estimateur δbn−` b
b est sans biais.
`
Une autre stratégie possible est d’utiliser l’ensemble de l’échantillon de taille n pour estimer b ?
¡ ?¢ ¡ ?¢
(i.e., on prend ` = n dans (3.9)) et δbn b
b . Néanmoins dans ce cas, l’estimateur δbn b
n
b n’hérite
n
¡ ?¢ ¡ ?¢
pas de toutes les propriétés de δn b . En particulier, δn b n est biaisé mais de variance asymp-
b b b
totique Var δbn b ? . Les propriétés d’optimalités sont alors vérifiées pour de grands échantillons.
£ ¡ ¢¤
25
J. S TOEHR Méthodes de Monte Carlo
1 Xn
δbn (b) = h(Xk )− < b, Zk − E [Zk ] > .
n k=1
Tout comme dans le cas unidimensionnel, l’estimateur δbn (b) est sans biais et on peut écrire
h i 1¡
Var δbn (b) = Var h n − 2b T Σh(X),Z − b T ΣZ b ,
£ ¤ ¢
n
On obtient donc que l’estimateur de variance minimale est plus efficace que l’estimateur h n .
K
δ = Eν [h(X)] = P [Z ∈ D k ]E [h(X) | Z ∈ D k ].
X
k=1
Ces conditions sont naturelles et permettent simplement d’assurer que l’on a un estimateur Monte
Carlo de E [h(X) | Z ∈ D k ] et donc de E [h(X)]. En pratique, elles servent de guide à la construction de
la partition.
Remarque. Les résultats sont écrits en toute généralité pour une variable aléatoire Z. Ils sont en
particulier vrais pour Z = X et on pourra considérer que c’est le cas en première lecture.
26
J. S TOEHR Méthodes de Monte Carlo
méthode lorsque l’on sait évaluer F et F ← ou lorsque la partition est définie à l’aide de
quantiles (e.g., loi normale).
2. Soit X une variable aléatoire de Rd de densité f . On considère Z = X. Alors, pour k ∈
{1, . . . , K },
f (x)
f k (x) = 1{x∈D k } , x ∈ Rd ,
P [X ∈ D k ]
K P [Z ∈ D ] Xnk ³ ´
k
δbn (n 1 , . . . , n K ) = h Xi(k) .
X
k=1 nk i =1
On appelle :
• variable de stratification : la variable aléatoire Z ;
• strates : les éléments D k de la partition ;
• allocation : le choix des nombre de tirages n 1 , . . . , n K que l’on fait pour les lois condition-
nelles L (X | Z ∈ D k ), k = 1, . . . , K , sous la contrainte que le nombre total de simulation est
n = n1 + . . . + nK .
Cet estimateur nécessite de choisir des strates, une variable de stratification et de se donner une
allocation ; tant de paramètres qui peuvent rendre l’implémentation d’un tel estimateur délicate.
27
J. S TOEHR Méthodes de Monte Carlo
L’estimateur est donc sans biais si pour tout k ∈ {1, . . . , K }, n k > 0, i.e. pour chaque strate, on prends
au moins un tirage suivant la loi conditionnelle.
Convergence de l’estimateur. Pour k ³∈ {1, ´. . . , K }, tel que n k > 0, la loi forte des grands nombres
appliquée aux variables aléatoires i.i.d. X(k)
n donne
n∈N
nk ´ p.s. p.s. K
1 X ³
h X(k) −→ µk . δbn (n 1 , . . . , n K ) −→ p k µk 1{nk >0} .
X
i
⇒
n k i =1 n k →+∞ n→+∞
k=1
L’estimateur converge donc vers E [h(X)] si pour tout k ∈ {1, . . . , K }, n k > 0. On supposera cette hypo-
thèse désormais satisfaite.
p ¡ ¢ L K p2
k
n δbn (n 1 , . . . , n K ) − E [h(X)] −→ N 0 , σ2 (q 1 , . . . , q K ) , où σ2 (q 1 , . . . , q K ) = σ2k .
¡ ¢ X
n→+∞
k=1 qk
σ(q 1 , . . . , q K ) b σ(q 1 , . . . , q K )
· ¸
IC1−α = δn − q 1−α/2
b p , δn + q 1−α/2 p ,
n n
où q 1−α/2 est le quantile d’ordre 1− α/2 de la loi normale centrée réduite. Dans la pratique, on estime
la variance σ2 (q 1 , . .³. , q K ´) via les variances intra-strate empiriques associées aux réalisations des
variables aléatoires X(k) n dans chacune des strates D k , k = 1, . . . , K :
n∈N
K p2 ´ 2
( )
nk nk
k 1 X ³
(k)
´ 1 X ³
(k)
b 2n (q 1 , . . . , q K ) =
σ
X
h Xi − h Xj .
k=1 q k n k − 1 i =1 n k j =1
Il s’agit d’un estimateur convergent de σ(q 1 , . . . , q K ) et donc l’intervalle de confiance reste valide en
remplaçant σ(q 1 , . . . , q K ) par son estimation (théorème de Slutsky).
Performances de l’estimateur
Les variables étant indépendantes (entre les strates et à l’intérieur des strates) et identiquement
distribuées à l’intérieur d’une strate, on a
K p2 1
k 2
Var δbn (n 1 , . . . , n K ) = σk = σ2 (q 1 , . . . , q K ).
£ ¤ X
k=1 n k n
28
J. S TOEHR Méthodes de Monte Carlo
K
q 1? , . . . , q K? = σ2 (q 1 , . . . , q K ),
¡ ¢ X
arg min tel que q k = 1.
(q 1 ,...,q K )∈]0,1[K k=1
(i) L’estimateur de variance minimal, δbn (n 1? , . . . , n K? ), est obtenu pour l’allocation optimale
définie pour k = 1, . . . , K par
p k σk
q k? = PK .
i =1 p i σi
On a alors
à !2
¤ 1 X K
? ?
Var δbn (q 1 , . . . , q K ) = p k σk .
£
n k=1
(ii) Sous l’hypothèse d’allocation optimale, l’estimateur stratifié δbn (q 1? , . . . , q K? ) est plus effi-
cace que l’estimateur de Monte Carlo classique, i.e.
h i
Var δbn (q 1? , . . . , q K? ) ≤ Var h n .
£ ¤
Démonstration.
(i) Il s’agit d’un problème d’optimisation sous contraintes. On applique la méthode des méthodes
des multiplicateurs de Lagrange, i.e. on cherche les points critiques de
à !
n
2
L(λ, q 1 , . . . , q K ) = σ (q 1 , . . . , q K ) + λ
X
qk − 1 .
k=1
On résout
∂L
p 2 σ2
= λ − qk 2 k = 0, k ∈ {1, . . . , K } 1
q k = p p k σk , k ∈ {1, . . . , K }
∂q k
λ
k
=⇒ K
∂L X K X
qk = 1
∂λ = qk − 1 = 0
k=1 k=1
p
En combinant les égalités précédentes, on déduit λ = Kk=1 p k σk . Par suite on obtient un
P
unique point critique qui est un minimum global (la fonction (q 1 , . . . , q K ) 7→ σ2 (q 1 , . . . , q K ) étant
convexe) défini pour k ∈ {1, . . . , K } par
p k σk
q k? = PK .
i =1 p i σi
29
J. S TOEHR Méthodes de Monte Carlo
PK
Comme k=1
p k = 1, l’inégalité de convexité donne
à !2 à !2
K K K K
p k µ2k p k µk p k σ2k p k σk
X X X X
− ≥ 0 et ≥ .
k=1 k=1 k=1 k=1
Remarque. Pour obtenir (i), on peut également utiliser l’inégalité de convexité (ou de Jensen) :
!2 !2
K p2 ¶2 Ã Ã
K p k σk K p k σk K
µ
2 k
σ (q 1 , . . . , q K ) = σ2k p k σk
X X X X
= qk ≥ qk = .
k=1 qk k=1 qk k=1 qk k=1
La borne inférieur est indépendante de l’allocation et elle est atteinte pour une allo-
cation (q 1 , . . . , q K , proportionnelle à (p 1 σ1 , . . . , p K σK ). Sous la contrainte Kk=1 q k = 1,
P
on retrouve (q 1? , . . . , q K? ).
Le choix de l’allocation optimale dépend néanmoins des variances intra-strate σk et peut donc être
incalculable en pratique. Une solution est de remplacer la variance σk par un estimateur conver-
geant évalué sur un premier jeu de simulations indépendant du jeu de simulations utilisé pour
calculer l’estimateur stratifié. Il existe également des méthodes plus sophistiquées et performantes
basées sur des techniques itératives.
Une alternative est de choisir une allocation tel que l’estimateur stratifié est de variance plus faible
que l’estimateur de Monte Carlo classique sans être de variance minimale.
Cette allocation permet toujours de construire un estimateur stratifié de variance plus faible que
l’estimateur de Monte Carlo classique h n .
30
J. S TOEHR Méthodes de Monte Carlo
Proposition 3.8
¤ 1 X K h i
Var δbn (p 1 , . . . , p K ) = p k σ2k ≤ Var h n .
£
n k=1
Pour le calcul d’une option d’achat (c.f. Exemple 3.4), on a vu qu’on est amené à calculer
I = E [h(X )] avec X ∼ N (0 , 1). Il est possible de calculer un estimateur stratifié de I en
prenant Z = X pour variable de stratification et D k = ]d k , d k + 1], k = 1, l d ot s, K . La méthode
consiste à
(i) choisir une stratification d 1 , . . . , d K et une allocation n 1 , . . . , n K ;
³ ´
(ii) à simuler, pour chaque strate k ∈ {1, . . . , K }, une suite X n(k) de variables aléatoires
n≥1
i.i.d. suivant la loi conditionnelle X | X ∈ ]d k , d k + 1] ;
(iii) calculer δbn (n 1 , . . . , n K ), i.e., la somme pondérée des moyennes,
K nk
1 X ³ ´
δbn (n 1 , . . . , n K ) = {Φ(d k+1 ) − Φ(d k )} h X i(k) .
X
k=1 n k i =1
³ ´
Pour l’étape (ii), on peut simuler une suite Un(k) de variables aléatoires i.i.d. suivant la
n≥1
loi U ([0 , 1]) et poser pour tout i ≥ 1,
h i
X i(k) = Φ−1 Φ(d k ) +Ui(k) {Φ(d k+1 ) − Φ(d k )} .
Cela ne fonctionne néanmoins que pour des événement X ∈ ]d k , d k + 1] où l’on connait pré-
cisément Φ(d k+1 ) et Φ(d k ). Dans le cas contraire, il est préférable de procéder par rejet.
Conclusion. Bien que l’on puisse toujours définir un estimateur stratifié de variance plus faible
que celle de l’estimateur classique (allocation proportionnelle), il existe plusieurs difficultés en pra-
tique. Notamment le choix de strates et d’une variable de stratification pour lesquelles on connaît
explicitement P [Z ∈ D k ]. Le choix des strates n’est pas sans conséquence sur la réduction de va-
31
J. S TOEHR Méthodes de Monte Carlo
riance (des techniques adaptatives efficaces existent pour choisir) mais également sur le coût de
calcul de l’estimateur : le temps de simulation pouvant dépendre de la strate considérée. Dans ce
cas, il peut être intéressant d’en tenir compte dans l’allocation optimale ou dans la comparaison
avec d’autres estimateurs.
32
Références utiles
C. P. Robert and G. Casella. Monte Carlo Statistical Methods. Springer Texts in Statistics. Springer-
Verlag New York, 2 edition, 2004. doi : 10.1007/978-1-4757-4145-2.
33