Méthodes de réduction de
variance
où Vt désigne la valeur du portefeuille simulant. Cette relation est vraie dès que h est
une fonction de L2 (P̃) positive et FT -mesurable.
Par suite, évaluer le prix d’un produit dérivé consiste à calculer une espérance i.e.
une intégrale (ou une somme discrète). Quand cela ne peut pas être fait de façon
exacte - par exemple parce que l’intégrande (le terme général de la somme) a une
expression complexe et/ou la dimension de l’espace d’intégration (de sommation) est
trop grande - , les méthodes de Monte Carlo fournissent une alternative : le principe
de ces méthodes est d’approcher une espérance par une somme discrète calculée à
partir de n simulations Z1 , · · · ,Zn . La justification repose sur l’existence d’une loi
des grands nombres pour cette famille de v.a. (Zn ,n ≥ 0)
n
1! p.s.
f (Zk ) −→ Ẽ[f (Z)] , n→∞,
n
k=1
pour la probabilité P̃, convergence qui est vraie sous certaines conditions portant sur
la dépendance des v.a. {Zn ,n ≥ 0} sous la loi P̃, et sur l’intégrabilité des moments de
{f (Zn ),n ≥ 0}.
Dans la plupart des applications considérées, f (Z) sera la fonction de paiement
actualisée. Dans certains cas, la simulation de v.a. de même loi que f (Z) est trop
complexe : par exemple,
" dans $le cas des options asiatiques, la fonction de paiement
#T
est de la forme f ST , 0 Ss ds où (St ,t ≥ 0) désigne le prix du sous-jacent risqué. A
#T
défaut de savoir calculer l’intégrale 0 Ss ds ou simuler de façon exacte des trajectoires
92 Méthodes de réduction de variance
#T
du processus (St ,t ≥ 0) sur [0,T ], on va approcher le calcul de l’intégrale 0 St dt
par une somme discrète nécessitant le calcul du sous-jacent à différents instants de
discrétisation tk ∈ [0,T ]. En conséquence, le calcul de l’espérance de la fonction de
paiement fait intervenir deux types d’erreur d’approximation
– une erreur de discrétisation.
– une erreur de Monte Carlo.
Dans ce chapitre, nous ne nous intéressons qu’à ce second type d’erreurs.
Même si cela n’est pas explicitement précisé, dès que nous écrirons E[Y ], Var(Y ),
Cov[X,Y ], · · · pour des v.a. X,Y , nous supposons que ces quantités existent et sont
finies.
5.1 Introduction
Soit (Un ,n ≥ 0) une suite de v.a. indépendantes définies sur un espace de proba-
bilité (Ω,A,P), de même loi que U .
A1 U admet un moment d’ordre 1. Notons µ l’espérance de U .
A2 U possède un moment d’ordre 2. Notons σ 2 la variance de U .
On pose
n
!
def −1
µ̂n = n Uk .
k=1
Sous A1, E[µ̂n ] = µ : µ̂n est donc un estimateur sans biais de l’espérance µ. De
plus, sous A2, Var(µ̂n ) = σ 2 /n.
pour la probabilité P. Cela signifie qu’il existe un ensemble mesurable A ∈ A tel que
P(A) = 1 et pour tout ω ∈ A,
n
1!
lim Uk (ω) = µ.
n n
k=1
%
En pratique, la quantité n−1 nk=1 uk calculée à partir d’une réalisation (u1 , · · · ,un )
du vecteur aléatoire (U1 , · · · ,Un ) sera considérée comme une approximation de la
quantité µ d’autant meilleure que n est grand.
93
où Φ désigne ici la fonction de répartition d’une loi N (0,1). Remarquons que cela
signifie que pour tout $ > 0,
& n n
' ( !
! σ ! σ 1
−1 −1
P n Uk − $ √ ≤ µ ≤ n Uk + $ √ ∼ 2√ exp(−0.5x2 ) dx
n n 2π 0
k=1 k=1
∼ 2Φ($) − 1 . (5.1)
Cette relation permet de trouver des intervalles de confiance à 1 − α% pour µ en
prenant pour $, la valeur du quantile d’une loi N (0,1) d’ordre 1 − α/2 (par exemple,
pour un intervalle de confiance à 95%, le quantile est 1.96).
√
De plus, la taille de l’intervalle de confiance est 2$σ/ n. En conséquence, pour
améliorer d’un
% facteur 10 la précision de l’approximation de µ par la somme de Monte
Carlo n−1 nk=1 Uk , on peut soit (a) augmenter le nombre de simulations d’un facteur
100, soit (b) diminuer la variance d’un facteur 100. L’objectif de ce chapitre est de
présenter des méthodes de réduction de variance.
Très souvent, la variance σ 2 n’est pas connue. Elle peut être estimée par
n
def 1 !
s2n = (Uk − µ̂n )2 .
n−1
k=1
Comme les v.a. (Uk ,k ≥ 0) sont indépendantes et de même loi, on peut montrer que
p.s.
s2n −→ σ 2 quand n → +∞. s2n est donc un estimateur fortement consistant de σ 2 . Le
lemme de Slutsky 1 justifie le résultat suivant
√
n D
(µ̂n (b) − E[U ]) −→ N (0,1) .
sn (b)
Un intervalle de confiance à 1 − α% pour E[U ] est donné par
) *
sn (b) sn (b)
µ̂n (b) − √ z1−α/2 ; µ̂n (b) + √ z1−α/2 . (5.2)
n n
1. Si {Xn ,n ≥ 0} converge en loi vers X et {Yn ,n ≥ 0} converge en loi vers une constante alors
pour toute fonction continue, f (Xn ,Yn ) converge en loi vers f (X,c).
94 Méthodes de réduction de variance
2. les v.a. (Xk ,k ≥ 0) ont même espérance E[X] connue et même variance
Var[X] > 0.
3. les v.a. (Yk ,k ≥ 0) ont même loi que Y .
Observons que sous ces hypothèses, les v.a. (Xk ,k ≥ 0) sont indépendantes et
les v.a. (Yk ,k ≥ 0) sont indépendantes; mais rien n’est dit sur la dépendance des
v.a. (X,Y ). Si les v.a. (X,Y ) sont corrélées alors X porte une information sur Y : le
principe de la méthode des % variables de contrôle est de tirer de l’information de la
−1 n
façon dont l’estimateur n k=1 Xk approche E[X] (ce que l’on peut parfaitement
contrôler puisque E[X] est connue), pour améliorer l’estimation
% de E[Y ] et proposer
un estimateur plus efficace que l’estimateur classique n−1 nk=1 Yk . Nous reviendrons
sur cette interprétation de la méthode dans la section 5.2.4.
Variance de l’estimateur
La variance de µ̂n (b) est donnée par
n
1 ! 1- .
Var[µ̂n (b)] = 2
Var [Yk − b (Xk − E[X])] = Var[Y ] + b2 Var[X] − 2bCov[X,Y ]
n n
k=1
b
= Var[Ȳn ] + (bVar[X] − 2Cov[X,Y ])
n
1
= Var[Ȳn ] + (Var[bX] − 2Cov[bX,Y ]) ,
n
où nous avons utilisé l’indépendance des couples ((Xk ,Yk ),k ≥ 0) et le fait qu’ils aient
même loi. Par suite, l’estimateur µ̂n (b) est de variance plus faible que l’estimateur clas-
sique Ȳn si et seulement si on choisit b et la loi de X tels que (Var[bX] − 2Cov[bX,Y ]) <
0.
96 Méthodes de réduction de variance
Intervalles de confiance
• Nous considérons tout d’abord l’intervalle de confiance (IC) pour E[Y ] obtenu
à l’aide de l’estimateur µ̂n (b), donné par (5.3). Par définition, c’est une somme de
v.a. indépendantes, de même loi que la v.a. Y − b(X − E[X]) donc en particulier,
d’espérance E[Y ] et de variance
def
σ 2 (b) = Var[Y ] + b2 Var[X] − 2bCov[X,Y ] .
97
Conclusion
On peut donc tirer profit de la simulation d’autres variables aléatoires et notam-
ment de l’erreur connue X̄n − E[X], pour améliorer l’estimateur µ̂n en réduisant sa
variance. La variance est d’autant plus réduite que ρ2X,Y est proche de 1 i.e. que les
variables (X,Y ) sont corrélées, et cette amélioration ne dépend pas du signe de la
corrélation.
La réduction de variance étant liée à la corrélation des v.a. (X,Y ), et la corrélation
mesurant la dépendance linéaire entre deux variables : la méthode par variables de
contrôle présentée ici tire profit de la dépendance linéaire des v.a. X et Y .
def
Var[µ̂n (b$ )] = (1 − R2 ) Var[Ȳn ] , R2 = Var[Y ]−1 Σ$X,Y Σ−1
X ΣX,Y .
99
En termes de géométrie induite par le produit scalaire Cov sur l’espace des v.a. de
carré intégrable, on dit que b$ (X − E[X]) est le projeté de Y − E[Y ] sur X − E[X] et
le résidu $ est la partie de Y − E[Y ] “orthogonale” à X − E[X] (orthogonale signifiant
ici décorrélée). Plus faible est cette composante et meilleure est l’approximation :
Var[b$ X](= ρ2X,Y Var[Y ]) est la part de la variance de Var[Y ] expliquée par b$ X;
plus faible est la variance du résidu $ et meilleure est la réduction de variance par
la variable de contrôle X. Le cas extrême est celui où Y est une fonction affine de
X : dans ce cas, $ = 0; néanmoins, ce cas est sans intérêt puisque comme E[X] est
connue, E[Y ] le serait aussi.
On peut interpréter l’estimateur µ̂n (b̂n ) de la façon suivante : étant donné le nuage
de points de coordonnées ((Xk ,Yk ),k ≤ n), quelle est la meilleure régression linéaire
au sens moindres carrés? - .
La réponse est la droite de régression d’équation y = Ȳn − b̂n X̄n − x . Cette
droite passe par le point de coordonnées (X̄n ,Ȳn ) - le centre du nuage - et par le point
de coordonnées (E[X],µ̂n (b̂n )). Si X̄n < E[X] i.e. l’espérance de E[X] est sous-estimée,
et si les couples (Xk ,Yk ) sont positivement corrélés, on aura alors µ̂n (b̂n ) > Ȳn (cf.
l’équation de la droite) : autrement dit, l’estimateur par variable de contrôle corrige
à la hausse Ȳn .
En quelque sorte, comme la corrélation est positive, si X̄n sous-estime E[X] il
en sera de même pour Ȳn vis-à-vis de E[Y ], d’où la correction “à la hausse” de
l’estimateur usuel. Cette correction est d’autant plus forte que la pente de la droite
de régression est forte (cf. figure 5.1).
100 Méthodes de réduction de variance
10
6
Estim.
corrigé
4
mean(y)
mean(x) E[X]
−2
−4
−10 −5 0 5 10 15 20
Fig. 5.1 – Couples positivement corrélés et X̄n < E[X]. On a µ̂n (b̂n ) > Ȳn .
5.2.5 Exemples
L’intérêt de cette méthode est liée à la possibilité d’exhiber une v.a. d’espérance connue
et corrélée avec la variable d’intérêt. Nous donnons ci-après quelques exemples d’ap-
plication en finance pour le calcul du prix d’options. Dans toutes les simulations qui
suivent, nous avons calculé b̂n à partir des n1 premières simulations (n1 ∼ 20% n)
et Ȳn et X̄n à l’aide des (n − n1 ) simulations restantes. L’estimateur µ̂n (b̂n ) est donc
sans biais.
+ Exemple d’application
def
On souhaite estimer I = E[(W1 + W2 )5/4 ] où les v.a. W1 ,W2 sont des v.a.
√
indépendantes qui suivent une loi de Weibull de densité 3/2 x exp(−x3/2 ) R+ (x).
1. Si U est une v.a. uniforme sur [0,1], montrer que W = (− ln U )2/3 a même loi
que W1 .
2. En déduire une méthode d’estimation de I par une méthode de Monte Carlo
utilisant un générateur de nombre uniforme sur [0,1]. Préciser comment estimer
l’erreur d’estimation.
3. Proposer une estimation de I basée sur la méthode des variables de contrôle,
avec X = U1 U2 comme variable de contrôle: expliquer la mise en oeuvre et
préciser la valeur E[X] (on ne cherchera à démontrer que l’introduction de cette
variable de contrôle permet effectivement de réduire la variance; ce résultat peut
être établi par exemple en utilisant l’exercice 63).
4. Comparaison numérique de la précision des estimations obtenues par les deux
méthodes: sur la figure 5.2[haut], on trace 5000 réalisations du couple (X,Y ) (X
101
dont l’espérance est x − exp(−rT )K. Le call I dans une option européenne se calcule
explicitement à partir de la formule de Black-Scholes. Nous allons illustrer la méthode
des variables de contrôle dans cet exemple:
1. Proposer un algorithme pour le calcul de l’estimateur par variable de contrôle.
2. Comparer la précision de l’estimation à celle obtenue par la méthode de Monte
Carlo.
3. Commenter la corrélation entre Y et X, en fonction du prix d’exercice K
(strike): lorsque K est grand, comment exploiter la parité call-put pour améliorer
l’efficacité de la méthode des variables de contrôle?
Sur la figure 5.3[haut], on représente en fonction du nombre de termes dans la
somme de Monte Carlo, l’estimation de la quantité d’intérêt I par la méthode de
Monte Carlo classique (en rouge) et par la méthode des variables de contrôle (VC) (en
bleu). Dans cet exemple, la vraie valeur de I est connue (I = 6.43) et est représentée
en vert. On trace aussi les intervalles de confiance à 95% pour les deux méthodes.
Dans cet exemple,
10
6
Y
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
X
Monte Carlo
Control Variate
2.2
2.15
2.1
2.05
0 0.5 1 1.5 2 2.5 3 3.5 4
Number of iterations x 10
4
Fig.
2 5.2 – Exemple d’application : [haut] corrélation entre X et Y ; on estime
1 − ρ2X,Y ∼ 0.55. [bas] Estimation de I et IC à 95%.
103
6.9
6.8
6.7
6.6
6.5
6.4
6.3
6.2
0 0.5 1 1.5 2 2.5 3 3.5
Number of iterations 4
x 10
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20 30 40 50 60 70 80
La méthode CV réduit la std d’un facteur 4. On observe (courbes non montrées ici)
que lorsque K = 65 le gain en variance n’est plus que de 1.23. Lorsque K = 35,
il est de l’ordre d’un facteur 1440. Intuitivement, si K est faible (l’option est dans
la monnaie) (ST − K)+ = ST − K avec une forte probabilité d’où la corrélation
importante entre le payoff (actualisé) et la variable de contrôle X ∝ ST . Sur la
figure 5.3[bas] on représente l’évolution de cette corrélation en fonction de K. Lorque
l’option est hors la monnaie, il sera plus judicieux d’approcher la valeur de call en
(a) approchant la valeur du put par la méthode des variables de contrôle et en (b) en
déduisant un estimateur du call en utilisant la relation de parité call-put.
Toutes les variables (exp(−rt)St − S0 ,t ≤ T ) sont des variables de contrôle pos-
sibles. On pourrait donc aussi utiliser d variables de contrôle, exp(−rti )Sti − S0 , en
des instants 0 < t1 < · · · < td ≤ T .
(i)
Sur la figure 5.4, nous traçons les nuages de points ((Yk ,Xk ),k ≤ n), pour i = 1,2,3,
pour visualier la corrélation entre les v.a. Y et X (i) . La forme du nuage illustre la
très forte corrélation entre Y et la variable de contrôle X (3) .
Les valeurs des paramètres du modèle dans cet exemple sont
r = 0.05 T = 0.25; σ = 0.3; S0 = 50; K = 45; M = 15 .
105
50 50 50
45 45 45
40 40 40
35 35 35
30 30 30
25 25 25
Y
20 20 20
15 15 15
10 10 10
5 5 5
0 0 0
20 40 60 80 100 0 20 40 60 0 20 40 60
(1) (2) (3)
X X X
5.2.6 Extensions
+ Cas non linéaire
Jusqu’ici nous avons considéré le cas d’un estimateur de la forme h(X̄n ,Y¯n ) pour
une fonction h linéaire. On peut considérer des fonctions h plus générales, vérifiant
h(E[X],y) = y de sorte que la différence entre Ȳn et l’estimateur contrôlé h(X̄n ,Ȳn )
dépende de l’écart X̄n − E[X]. La construction de ces estimateurs exploite aussi le
signe de la corrélation entre X et Y : si les variables sont positivement corrélées et
que X̄ < E[X], on voudra que h(X̄n ,Ȳn ) > Ȳn . Les estimateurs suivants vérifient ces
règles :
h(x,y) = y x/E[X] h(x,y) = y exp(x − E[X])
ou h(x,y) = yE[X]/x si X et Y sont positivement corrélées et xy/E[X] sinon.
Néanmoins, on peut montrer que asymptotiquement, quand n → ∞, le cas non-
linéaire avec une fonction h régulière est équivalente à un estimateur de type linéaire.
En effet, si h est continûment différentiable, on a la TCL suivant (en remarquant que
h(E[X],E[Y ]) = E[Y ])
√ - . D
n h(X̄n ,Ȳn ) − E[Y ] −→ N (0,σh2 ) ,
avec
def
σh2 = (∂y h(E[X],E[Y ]))2 Var[Y ]
+ 2∂x h(E[X],E[Y ]) Cov[X,Y ] + (∂x h(E[X],E[Y ]))2 Var[X] ,
ce qui est la variance asymptotique de l’estimateur µ̂n (b), pour b = −∂x h(E[X],E[Y ]).
106 Méthodes de réduction de variance
+ Monte-Carlo pondéré
Lorsque b̂n est calculé à partir des n tirages, observons que
n
1! - .
b̂n (Xk − E[X]) = b̂n X̄n − E[X]
n
k=1
- . n - . n
X̄n − E[X] ! X̄n − E[X] !
= %n 2
(Xj −E[X])(Yj −Ȳn ) = %n 2
(Xj −E[X])Yj
j=1 (Xj − E[X]) j=1 j=1 (Xj − E[X]) j=1
de sorte que
n
7 - . 8
! 1 X̄n − E[X] (Xk − E[X])
µ̂n (b̂n ) = − %n 2
Yk .
k=1
n j=1 (Xj − E[X])
Ainsi, l’estimateur µ̂n (b̂n ) est lu comme une somme pondérée des variables Yk , de
poids ωk ne dépendant pas des variables (Yk ,k ≥ 0) (et pouvant être négatifs). On
peut tirer avantage de cette représentation lorsque l’on utilise le même jeu de variables
de contrôle (Xk ,k ≥ 0) pour améliorer l’estimation de plusieurs quantités.
107
5.3.1 Introduction
Considérons l’exemple suivant: on souhaite estimer P(X > 2) où X est une loi de
1
Cauchy de densité sur R donnée par f (x) = π(1+x 2 ) . En remarquant que l’on a
( +∞ 9( +∞ ( 2 :
1 1 1 1
2
dx = dx + dx
2 π(1 + x ) 2 2 π(1 + x2 ) 2
−∞ π(1 + x )
( ( 1/2
1 1 2 2 y −2
= − 2
dx = 2 dy
2 2 0 π(1 + x ) 0 2π(1 + y −2 )
on a différentes façons de calculer cette quantité (qui vaut 0.15): on peut utiliser des
méthodes de Monte Carlo usuelles, en relisant P(X > 2) comme l’espérance d’une
fonction φ(X) sous une loi particulière :
%
– {Xk ,k ≤ n} v.a. i.i.d. de Cauchy, et on pose µ̂n = n−1 nk=1 Xk >2 . La variance
de cet estimateur est 0.127/n.
%
– {Xk ,k ≤ n} v.a. i.i.d. de Cauchy, et on pose µ̂n = 0.5 n−1 nk=1 |Xk |>2 . La
variance de cet estimateur est 0.052/n.
%
– {Xk ,k ≤ n} v.a. uniformes sur [0,2], et on pose µ̂n = 0.5 − n−1 nk=1 2/(π(1 +
Xk2 )). La variance de cet estimateur est 0.0285/n.
%
– {Xk ,k ≤ n} v.a. uniformes sur [0,1/2], et on pose µ̂n = n−1 nk=1 1/(2π(1 +
Xk2 )). La variance de cet estimateur est 0.9510e − 04/n.
Toutes ces approches sont basées sur des estimateurs sans biais et efficaces de la
quantité d’intérêt P(X > 2). Néanmoins, ils n’ont pas tous la même variance et de ce
fait, certains estimateurs sont préférables à d’autres. La méthode d’échantillonnage
d’importance consiste à trouver une loi g (et donc une fonction φ̃) telle que
+ ,
Ef [φ(Z)] = Eg φ̃(Z)
n
! n
!
def f (Zk )
n−1 φ(Yk ) , µ̂n (g) = n−1 φ(Zk ) ,
g(Zk )
k=1 k=1
où (Yk ,k ≥ 0) sont des v.a. i.i.d. de densité f ; et (Zk ,k ≥ 0) sont des v.a. i.i.d. de
densité g.
• Biais et consistance
) *
f (Z)
Eg [µ̂n (g)] = Eg φ(Z) = Ef [φ(Z)] ,
g(Z)
• Estimateur optimal Il est possible d’exhiber une densité g telle que la variance
de l’estimateur µ̂n (g) est minimale. L’inégalité de Jensen entraine en effet
) * 9 ) *:
f 2 (Z) f (Z) 1/2
2
Eg φ (Z) 2 ≥ Eg |φ|(Z) = (Ef [|φ|(Z)])1/2
g (Z) g(Z)
et le minorant est indépendant de g. De plus, on a égalitéssi
def |φ|(z) f (z) |φ|(z) f (z)
g$ (z) = # =
|φ|(z)f (z)dz Ef [|φ|(Z)]
i.e. en prenant g = g$ , la variance de l’estimateur µ̂n (g) atteint sa borne inférieure.
Lorsque φ > 0,
φf
g$ = ,
Ef [φ(Z)]
et Varg! [µ̂n (g$ )] = 0 !! en fait, ce résultat n’a pas d’intérêt pratique puisqu’il nécessite
la connaissance de la quantité recherchée Ef [φ(Z)]. Néanmoins, cette discussion donne
une heuristique pour construire g : chercher une densité “proche” de g$ (i.e. qui est
grande là où |φ|f est grande; et faible là où |φ|f est faible) i.e. une densité g telle que
|φ|f /g soit proche d’une constante.
110 Méthodes de réduction de variance
et les v.a. {Zk ,k ≥ 0} sont i.i.d. de densité g. Quand n → +∞, cet estimateur converge
p.s. vers Ef [φ(Z)].
L’application de la delta-méthode 3 permet de montrer que
√ D
n (µ̃n (g) − Ef [φ(Z)]) −→ N (0,σ̃ 2 (g))
où + ,
σ̃ 2 (g) = Ef (φ(Z) − Ef [φ(Z)])2 ω(Z)
Pour n grand, la variance de µ̃n (g) est donc ≈ σ̃ 2 (g)/n; la variance asymptotique
σ̃ 2 (g) peut être estimée par l’estimateur
%n
def n k=1 {φ(Z ) − µ̃n (g)}2 ω 2 (Zk )
s2n (g) = %nk
{ k=1 ω(Zk )}2
p.s.
(observer que s2n (g) −→ σ̃ 2 (g)).
5.3.4 Exemples
La difficulté majeure dans la mise en oeuvre de cette méthode est de trouver le
changement de loi (i.e. la densité instrumentale g) adequate.
Dans tout ce qui suit, la loi instrumentale g est choisie dans une famille de densités
dépendant d’un paramètre θ, et vérifiant A4; P = {gθ ,θ ∈ Θ}. Idéalement, on voudrait
trouver θ tel que gθ soit solution de
) * (
2 f (Z) f 2 (z)
argmingθ ∈P Ef φ (Z) = argmingθ ∈P φ2 (z) dz .
gθ (Z) Supp(f φ) gθ (z)
+ Exemple d’application
On souhaite calculer par la méthode d’échantillonnage d’importance
( +∞
xα−1 exp(−x) dx ; a > 0,α > 1 .
a
√ D
3. Supposons que n(Xn − µ) −→ N (0,Σ). Soit f une fonction à valeur dans R, C 1 dans un
√ D
voisinage de µ et telle que ∇f (µ) '= 0. Alors n(f (Xn ) − f (µ)) −→ N (0,[∇f (µ)]! Σ ∇f (µ))
111
Une première idée consiste à relire ce problème comme le calcul de Ef [φ(Z)] avec
φ(z) = z α−1 z>a f (z) = R+ exp(−z)
(i.e. loi exponentielle de paramètre 1). Sur la figure 5.5[gauche] on trace l’allure de
la densité f , de z 0→ z α−1 pour α = 3 et de g$ ∝ f φ à une constante multiplicative
près. On voit que l’estimateur de Monte Carlo usuel sera d’autant moins efficace que
a est grand puisque dans ce cas, très peu de tirages de v.a. de densité f dépasseront
le seuil a. On trace sur la figure 5.5[droite] gθ pour différentes de valeur de θ, lorsque
a = 5.
0.9
θ =0.3
θ=0.4
0.8
θ = 0.7
9
θ = 0.9
densite f fonction φ(z) f(z)
8 fonction zα−1 0.7
g* (ctte mult pres)
7 0.6
6
0.5
5
0.4
4
3 0.3
2
0.2
1
0.1
0
0 0.5 1 1.5 2 2.5 3
0
4 5 6 7 8 9 10 11 12 13 14
Un calcul direct montre que pour que le majorant soit fini, il faut prendre θ ∈ [0,1],
et dans ce cas, on a
f (z) exp(−a)
min sup = min
θ∈[0,1] z>a gθ (z) θ∈[0,1] θ
et la valeur optimale est donc θ$ = 1. Autrement dit gθ est la densité f dont on a
translaté le support: on peut vérifier que si X ∼ E(1) alors X + a ∼ g1 (ce qui donne
aussi un algorithme pour simuler des v.a. i.i.d. de densité g1 ).
112 Méthodes de réduction de variance
f (z)
argmingθ ∈P sup φ(z) .
z∈Supp(f φ) gθ (z)
On a
" $
argminθ>0 max θ −1 xα−1 exp(−x) exp(θ(x − a))
x>a
" $
= argmin0<θ<1 max θ −1 xα−1 exp(−x) exp(θ(x − a)) ;
x>a
observe que le µ̂n (gθ! ) a une variance plus faible que µ̂n (g1 ) (d’un facteur 64); la
seconde approche, qui tient compte de la fonction φ pour déterminer le meilleur
changement de loi est donc préférable. L’avantage de la première approche, est de
proposer un changement de loi indépendant de la fonction d’intérêt (dans les cas
où on veut écrire une seule procédure d’échantillonnage d’importance pour traiter
plusieurs
/ problèmes, on préfèrera la première approche). Pour comparaison, l’écart
type n Var[µ̂M C
n ] est de 3.28.
0.5
0.4
0.4
0.35
0.3
0.3
0.2
0.25
0.1 0.2
0
4 5 6 7 8 9 10 11 12 13 14 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Number of terms in the MC sum 5
x 10
def
Dans cet exemple, I1 comme la variance I2 = Var[exp(−rT )φ(Z)] sont calculables
explicitement par la formule de Black-Scholes. Dans les applications numériques, on
114 Méthodes de réduction de variance
0.18
0.16
0.14
0.12
0.1
IS, majorant 1
IS, majorant 2
0.08
0.06
0.04
0.02
0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Number of terms in the MC sum
Fig.
/ 5.7 – Exemple d’application, section 5.4.6. Evolution de l’estimation de
nVar(µ̂n (gθ )), en fonction de n, pour θ = 1 (majorant 1, trait plein) et θ = θ$
(majorant 2, trait pointillé)
.
prend
Sur la figure 5.8, on montre l’évolution de I1 en√fonction de K/λ, lorsque K/λ > 1;
ainsi que l’évolution du coefficient de variation I2 /I1 . Lorsque K/λ >> 1 l’option
est “hors la monnaie” son prix est faible. Le coefficient de variation dégénère lui
aussi quand K/λ augmente. La méthode de Monte Carlo classique n’est donc pas du
tout indiquée : par définition, φ(Z) est non nul avec la probabilité
" √ $
P Z ≥ [σ T ]−1 log(K/λ) .
Intuitivement, si K/λ >> 1, alors très peu de réalisations des v.a. (Zk ,k ≥ 0)
dépasseront ce seuil. En introduisant le drift θ, la quantité φ(Z + θ) sera non nulle
avec la probabilité " $
√
P Z ≥ [σ T ]−1 log(K/λ) − θ ;
√
et dans le cas θ = [σ T ]−1 log(K/λ), cette probabilité vaut 1/2 : autrement
√ dit, on
force les réalisations de (Z + θ) à être souvent au dessus du seuil [σ T ]−1 log(K/λ)
en introduisant une translation z −→ z + θ. Ainsi, la variance de l’échantillonneur
préférentiel devrait être plus faible; on peut montrer rigoureusement (cf. Exercice 55)
que c’est effectivement le cas.
115
Esperance 4
0
0.5 1 1.5 2 2.5 3
ratio K/λ
800
Coefficient de variation
600
400
200
0
0.5 1 1.5 2 2.5 3
ratio K/λ
Fig. 5.8 – Section 5.3.4: changement de loi cas gaussien. [haut] √ Evolution de I1 en
fonction du ratio K/λ. [bas] Evolution du coefficient de variation I2 /I1 en fonction
du ratio K/λ. λ est fixé et on fait varier le strike dans l’intervalle [0.9λ,3λ].
Exemple
Notations
Soient U,V des v.a. à valeur resp. Rd et Rl définies sur un espace de probabi-
lité (Ω,A,P). On définit pour tout borélien A de Rl tel que P(V ∈ A) > 0, la loi
conditionnelle
def P(U ∈ B,V ∈ A)
P(U ∈ B|V ∈ A) = .
P(V ∈ A)
def E [U V ∈A ]
E [U |V ∈ A] = ,
P(V ∈ A)
et
0 2 1 9 :
def 2
0 1 2 E U V ∈A E [U V ∈A ] 2
Var [U |V ∈ A] = E U |V ∈ A −(E [U |V ∈ A]) = − .
P(V ∈ A) P(V ∈ A)
118 Méthodes de réduction de variance
I
!
E [φ(Z)] = P(X ∈ Ai ) E[φ(Z)|X ∈ Ai ] .
i=1
Lorsque les probabilités {P(X ∈ Ai ),i ∈ {1, · · · ,I}} sont connues, que les espérances
E[φ(Z)|X ∈ Ai ] ne sont pas connues mais que l’on sait obtenir des réalisations de v.a.
de loi P(Z ∈ ·|X ∈ Ai ), un estimateur de E[φ(Z)] est donné par
I
! ni
1 ! (i)
P(X ∈ Ai ) φ(Zk )
ni
i=1 k=1
(i)
où les v.a. (Zk ,k ≤ ni ) sont i.i.d. de loi P(Z ∈ ·|X ∈ Ai ).
La mise en oeuvre de cette méthode nécessite
– de se donner un nombre I de strates et le strates : une partition (Ai ,i ∈ {1, · · · ,I})
de X,
– de choisir une v.a. X telle que P(X ∈ Ai ) soit calculable explicitement et telle
que l’on sache simuler des v.a. i.i.d. de loi P(Z ∈ ·|X ∈ Ai ).
– de choisir l’allocation i.e.le nombre de simulations ni que l’on fait sous la loi
P(Z ∈ ·|X ∈ Ai ), sous la contrainte que le nombre total de simulations est n
Dans la suite, nous nous donnons les strates (Ai ,i ∈ {1, · · · ,I}) et la v.a. de
stratification X vérifiant les propriétés ci-dessus. En revanche, nous allons envisager
plusieurs politiques d’allocation et comparer leur efficacité (en terme de réduction de
variance de l’estimateur associé).
Allocation
Définir une politique d’allocation, c’est se donner n1 , · · · ,nI tels que n1 +· · ·+nI =
n où ni est le nombre de tirages que l’on fait sous %Ila loi P(Z ∈ ·|X ∈ Ai ). C’est
équivalent à définir q1 , · · · ,qI tels que qi ≥ 0 et i=1 qi = 1, qui représentent la
proportion de tirages que l’on affecte à la strate i.
Plus précisément, on pose
i
! i−1
!
n1 = *nq1 + pour i > 1: ni = *n qj + − *n qj +
j=1 j=1
On suppose ci-après que toutes les v.a. sont définies sur le même espace de pro-
babilité, et
A5 φ(Z) possède un moment d’ordre 2 (donc variance finie).
A6 P(X ∈ Ai ) est calculable explicitement et est strictement positif pour tout
élément Ai de la partition de X.
I
! ni
def 1 ! (i) def
µ̂n (q1:I ) = pi φ(Zk ) , où pi = P (X ∈ Ai ) .
ni
i=1 k=1
+ Biais
+ %ni ,
(i)
Pour tout i tel que ni > 0, E n−1 i k=1 φ(Zk ) = µi et par convention, quand
ni = 0, cette quantité vaut 0 (aucun tirage). Par suite,
!
E [µ̂n (qi:I )] = p i µi .
i∈{1,··· ,I},ni >0
L’estimateur est donc sans biais si ni > 0 pour tout i ∈ {1, · · · ,I}. En pratique,
on fait un minimum
% d’allocation
% dans chacune des strates (on prend donc ni =
max{nmin ; *n ij=1 qj + − *n i−1j=1 j +}).
q
+ Consistance
Pour i tel que ni > 0, par la loi des grands nombres pour des v.a. indépendantes,
lorsque n → +∞,
ni + , p.s.
1 ! (i)
E φ(Zk ) −→ E[φ(Z)|X ∈ Ai ] ,
ni
k=1
p.s. %
et donc µ̂n (q1:I ) −→ i∈{1,··· ,I},ni >0 pi E[φ(Z)|X ∈ Ai ].
120 Méthodes de réduction de variance
+ Variance
• Comme les tirages sont indépendants, on a (on suppose ni > 0 pour tout i;
sinon, restreindre l’ensemble d’indices de sommation)
I
! p2 i
Var [µ̂n (qi:I )] = Var [φ(Z)|X ∈ Ai ]
ni
i=1
I
! p2 I
! 9 :
1 1 1
= i
Var [φ(Z)|X ∈ Ai ] + p2i − Var [φ(Z)|X ∈ Ai ] .
n qi ni nqi
i=1 i=1
Puisque |nqi − ni | ≤ 1, on voit que le second terme est O(1/n2 ) tandis que le premier
terme est O(1/n). Dans la suite, on écrira simplement
I I
1 ! p2i 1 ! p2i 2
Var [µ̂n (qi:I )] = Var [φ(Z)|X ∈ Ai ] = σ , (5.7)
n qi n qi i
i=1 i=1
%
D’autre part, nVar[µ̂n (p1:I )] = Ii=1 pi σi2 . Donc en notant µM
n
C l’estimateur de Monte
où l’on a utilisé Jensen pour établir l’inégalité. La borne inférieure est indépendante
de l’allocation q1:I et elle est atteinte avec l’allocation donnée par
def p i σi
qi$ = %I .
j=1 pj σj
En pratique, la variance intra-strate σi2 n’est pas connue. Dans ce cas, on approche
l’allocation optimale en remplaçant la variance σi2 par un estimateur consistant calculé
à partir d’un premier jeu de simulations. Des méthodes plus sophistiquées (et plus
performantes) sont basées sur des techniques adaptatives.
+ Temps de simulation
Nous avons vu que
$
Var[µ̂n (q1:I )] ≤ Var[µ̂n (p1:I )] < Var[µM C
n ].
Nous avons défini l’allocation optimale comme celle qui minimise la variance de l’es-
timateur : le critère ne tient donc pas compte d’un éventuel coût de simulation qui
dépendrait de la strate considérée. Pour tenir compte de cet aspect, appelons τi le
temps d’obtention d’une réalisation d’une v.a. de loi P(Z ∈ ·|X ∈ Ai ) (τi est supposé
déterministe; sinon, le raisonnement reste valable en remplaçant τi par son espérance).
La simulation de ni variables dans la strate Ai coûte ni τi ∼ nqi τi unités de temps.
"% $−1
I
Donc en s unités de temps, on a simulé n = s q τ
i=1 i i variables. Par suite, on
s’intéresse à la limite (en loi) de la v.a.
I 7 I 8
J I ni
J ! ! pi !
Kn q i τi
(i)
φ(Zk ) − E[φ(Z)]
ni
i=1 i=1 k=1
& I '1/2 I
& ni
'
! ! pi √ 1 ! (i)
= q i τi √ nqi Yk − µi .
qi ni
i=1 i=1 k=1
En appliquant le TCL pour des variables i.i.d., en utilisant le fait que la somme
de gaussiennes indépendantes est une gaussienne, et puisque "% nqi ∼ $ni", %
la limite en$
I I p2i 2
loi de cette v.a. est une gaussienne centrée et de variance i=1 q i τ i i=1 qi i .
σ
La minimisation
% de cette variance par rapport aux variables (qi ,i ≤ I), sous les
contraintes Ii=1 qi = 1 et qi ≥ 0, conduit à
√
τi −1 pi σi
qi$ = %I √ −1 .
j=1 τj p j σj
L’allocation optimale est donc légèrement différente que celle que l’on a trouvé précédemment
et inclut le temps de calcul.
I ni
& '
√ √ ! 1 ! (i)
n (µ̂n (q1:I ) − E[φ(Z)]) = n pi φ(Zk ) − µi
ni
i=1 k=1
& ' I L :& ! '
I
! pi √ 1 !
n i
(i)
! 9√ ni 1 i
n
(i)
= √ ni φ(Zk ) − µi + pi n− φ(Zk ) − µi .
qi ni qi ni
i=1 k=1 i=1 k=1
123
Or & '
ni
√ 1 ! (i) D - .
ni φ(Zk ) − µi −→ N 0,σi2
ni
k=1
" % $
(i)
et les blocs n1i nk=1
i
φ(Zk ),i ∈ {1, · · · ,I} sont indépendants. Par suite, le premier
terme converge en loi vers & I '
! p2
i 2
N 0, σ .
qi i
i=1
Quant au second terme, il tend p.s. vers 0. Donc
& I
'
√ D
! p2
n (µ̂n (q1:I ) − E[φ(Z)]) −→ N 0, i
σi2 .
qi
i=1
5.4.5 Post-Stratification
La méthode de post-stratification permet de reproduire (asymptotiquement) la
réduction de variance de la méthode de stratification à allocation proportionnelle,
lorsqu’il est difficile de simuler sous la loi conditionnelle de Z sachant {X ∈ Ai }. On
suppose en revanche que l’on sait obtenir des réalisations des couples ((Xk ,Zk ),k ≥ 0)
i.i.d. de même loi que le couple (X,Z).
Définition de l’estimateur
On pose pour tout i ∈ {1, · · · ,I},
n
! n
!
def def
Ni = Xk ∈Ai , Si = φ(Zk ) Xk ∈Ai ,
k=1 k=1
124 Méthodes de réduction de variance
resp. le nombre de v.a. qui tombent dans la strate i et la somme des v.a. Zk telles
que la variable de stratification Xk tombe dans la strate i. On définit
I
!
def Si
µ̂ps
n = pi ,
Ni
i=1
Interprétation
Avec les notations introduites, l’estimateur usuel de Monte Carlo vérifie
n I I
1! 1! ! Ni Si
µ̂M
n
C
= φ(Zk ) = Si =
n n n Ni
k=1 i=1 i=1
L’estimateur usuel affecte le même poids (1/n) à toutes les réalisations φ(Zk ),
tandis que l’estimateur post-stratifié affecte le poids pi /Ni aux réalisations φ(Zk )
telles que la variable de stratification associée Xk tombe dans la classe i : si pi < Ni /n
(càd npi < Ni , la strate i est sur-représentée), les variables ont moins de poids tandis
que si pi > Ni /n (càd npi > Ni , la strate i est sous-représentée), les variables sont
sur-pondérées.
Variance asymptotique
p.s.
Quand n → +∞, la loi des grands nombres entraine : Ni /n −→ pi = P(X ∈ Ai )
p.s.
et Si /n −→ E[φ(Z) X∈Ai ]. Donc
I
!
p.s.
µ̂ps
n −→ pi P(X ∈ Ai )−1 E[φ(Z) X∈Ai ] = E[φ(Z)] ,
i=1
et µ̂ps
n est un estimateur consistant de E[φ(Z)].
En appliquant la delta-méthode, on peut montrer la convergence suivante
9 :
√ S1 S2 Sd D
n − µ1 , − µ2 , · · · , − µd −→ Nd (0,Σ) ,
N1 N2 Nd
où
σi2
Σi,i = ,
pi
et pour i 3= j,
0 1
Σi,j ∝ Cov φ(Z) X∈Ai ,φ(Z) X∈Aj =0.
Par suite,
√ D - 2.
n (µ̂ps
n − E[φ(Z)]) −→ N 0,σps ,
125
avec
I
! I
!
2
σps = p2i Σi,i = pi σi2 .
i=1 i=1
La variance asymptotique σps 2 est donc égale à celle de l’estimateur stratifié avec
5.4.6 Exemples
+ Simulation de v.a. par stratification
• de v.a. de loi N (0,σ 2 ) Pour simuler une v.a. X à valeur dans X, on peut
simuler des réalisations sous la loi conditionnelle X|X ∈ Ai et leur affecter un poids
égal à pi = P(X ∈ Ai ) (pour tout i ∈ {1, · · · ,I}. On applique cette technique pour
obtenir des réalisations d’une v.a. de loi N (0,σ 2 ); on considère I strates équiprobables
de sorte que pi = 1/I, et que tous les tirages sont affectés du même poids.
Pour mettre en oeuvre la méthode, il faut déterminer des lois de la forme P(X ∈
·|X ∈ [ai ,bi ]) . On a
exp(−0.5σ −2 x2 )
# bi [ai ,bi ] (x) .
−2 t2 ) dt
ai exp(−0.5σ
Il est possible d’obtenir des réalisations de v.a. ayant cette loi par transformation de
v.a. uniformes (cf. Exercice 59)).
Sur la figure 5.9, on visualise la position de I = 20 strates équiprobables lorsque
2
σ = 2. Sur la figure 5.10, on compare la méthode de stratification (à droite) à
la technique d’échantillonnage classique (à gauche). On prend σ 2 = 2, I = 100,
n = 500 et on alloue les tirages dans les strates selon l’allocation proportionnelle. Les
histogrammes utilisent 25 subdivisions.
On voit que l’histogramme obtenu en faisant de la simulation par strate est
meilleur que celui obtenu en tirant des v.a. de loi N (0,σ 2 ). Par suite l’estimation
de E[Y ] par l’estimateur stratifié sera plus efficace que celui donné par l’estimateur
de Monte Carlo classique.
126 Méthodes de réduction de variance
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5 −4 −3 −2 −1 0 1 2 3 4 5
Fig. 5.9 – Section 5.4.6. Densité d’une gaussienne N (0,2) et 20 strates équiprobables.
60 60
50 50
40 40
30 30
20 20
10 10
0 0
−5 0 5 −5 0 5
9 :
T − ti ti − ti−1 (T − ti )(ti − ti−1 )
N Wti−1 + WT , .
T − ti−1 T − ti−1 T − ti−1
1.5
0.5
−0.5
−1
−1.5
−2
0 10 20 30 40 50 60
Fig. 5.11 – Section 5.4.6. Trajectoires d’un brownien par la méthode de stratification
terminale : 10 strates (marquées en trait discontinu) et 2 trajectoires par strates.
128 Méthodes de réduction de variance
(et on peut établir par Jensen que cette quantité est strictement inférieure à (5.12) -
rappelons que (5.12) a été obtenu pour l’allocation proportionnelle, alors que dans le
cas présent, on a pris la “meilleure” allocation χ$ ).
En pratique χ$ n’est pas calculable explicitement; mais on montre que la variance
asympotique (quand I → +∞) de l’estimateur stratifié à allocation optimale q $ est
(5.13). En quelque sorte, ce résultat nous dit que quand I est grand, la variance de
l’estimateur stratifié à allocation optimale q $ est une approximation de (5.13). La
direction optimale µ$ est définie comme la direction qui minimise (5.13): malheu-
reusement elle n’est pas calculable en pratique. Pour trouver µs tar, on peut donc
chercher la direction µ qui minimise la variance de l’estimateur stratifié à allocation
optimale q $ .
Cette résolution, là encore non explicite, peut néanmoins être approchée en met-
tant en oeuvre un algorithme stochastique itératif qui a pour but (cf. l’article de
Etoré et al. (2008) pour plus de détails)
– d’estimer l’allocation optimale
– de trouver la direction optimale µ$
en même temps, puisque l’allocation optimale dépend de la direction de stratification,
et que réciproquement, pour déterminer la direction de stratification optimale il faut
disposer de l’allocation optimale.
130 Méthodes de réduction de variance
6.056
0.45
6.055
0.4
6.054
0.35
6.053
0.3
6.052
0 10 20 30 40 50 60 70 80 90 100
0.25 Number of iterations
0.2 0.2
0.15
0.15
0.1
0.1
0.05
0.05 0
0 −0.05
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Number of iterations Number of iterations
– est d’un facteur 5 000 par la méthode de stratification adaptative proposée par
Etoré et al. combinée avec de l’échantillonnage d’importance.
– est d’un facteur 500 par la méthode de stratification proposée par Glasserman
et al. (qui, par définition, est toujours combinée avec de l’échantillonnage d’im-
portance).
Attention, par définition des méthodes, Glasserman et al. considèrent un estimateur
stratifié à allocation proportionnelle, tandis que Etoré et al. considèrent un estimateur
stratifié à allocation optimale.
132 Méthodes de réduction de variance
Certes ces 2n termes ne sont plus indépendants, mais cette approche définit néanmoins
un estimateur de variance plus faible que le premier.
où
– (Zk ,k ≥ 0) est une suite de v.a. i.i.d. à valeurs Rd de même loi que Z
– L désigne une transformation de Rd dans Rd telle que L(Z) a même loi que Z.
Intuitivement, si φ(Zk ) est très éloigné de E[φ(Z)] entrainant une grande ’variabilité’,
on préférera utiliser 0.5{φ(Zk ) + φ ◦ L(Zk )} si cette moyenne est plus proche de
E[φ(Z)]. Autrement dit, µ̂n sera d’autant plus intéressant que φ(Zk ) et φ ◦ L(Zk ) “se
compensent” i.e. sont négativement corrélés.
On suppose ci-après que toutes les v.a. sont définies sur le même espace de pro-
babilité, et
A7 φ : Rd → R mesurable telle que Var[φ(Z)] < +∞.
A8 L une transformation (mesurable) de Rd dans Rd telle que L(Z) a même loi
que Z, et L ◦ L = Id.
Par exemple
– si Z est une v.a. gaussienne centrée réduite, L peut être toute transformation
orthogonale (et en particulier L(z) = −z convient).
– Si Z est une v.a. uniforme sur [0,1], L(z) = 1 − z vérifie les conditions.
133
+ Estimateur consistant
Par la loi des grands nombres pour des v.a. i.i.d. on a
!n !n
p.s. p.s.
n−1 φ(Zk ) −→ E[φ(Z)] n−1 φ ◦ (Zk ) −→ E[φ ◦ L(Z)] = E[φ(Z)]
k=1 k=1
p.s.
de sorte que µ̂n −→ E[φ(Z)].
+ Variance
• Variance de l’estimateur. En utilisant l’indépendance des v.a. (Zk ,k ≥ 0) et le
fait que Z et L(Z) ont même loi, il vient
1
Var [µ̂n ] = Var [φ(Z) + φ ◦ L(Z)]
4n
1
= {Var [φ(Z)] + Var [φ ◦ L(Z)] + 2Cov(φ(Z),φ ◦ L(Z))}
4n
1
= {Var [φ(Z)] + Cov(φ(Z),φ ◦ L(Z))} .
2n
• Variance minimale. Puisque Var[φ(Z)] = Var[φ ◦ L(Z)], on a
Var[φ(Z)] - .
Var [µ̂n ] = 1 + ρφ(Z),φ◦L(Z) .
2n
Elle est donc minimale (et égale à zéro) ssi
φ ◦ L(Z) − E[φ(Z)] = −(φ(Z) − E[φ(Z)])
ce qui n’a bien sûr aucun intérêt en pratique, puisque cela équivaut à 0.5{φ(Z) + φ ◦
L(Z)} = E[φ(Z)].
En revanche, cette discussion montre que la méthode est d’autant plus efficace
que la transformation L est telle que φ ◦ L(z) est une fonction presque affine de φ(z)
de pente négative (la proximité se mesurant ici par la corrélation de φ(Z) et φ ◦ L(Z)
proche de −1).
134 Méthodes de réduction de variance
+ Décomposition de la variance
Toute fonction φ peut se décomposer en une partie “L-symétrique” φ0 et une
partie “L-anti-symétrique” φ1 données par
def φ(z) + φ ◦ L(z) def φ(z) − φ ◦ L(z)
φ0 (z) = , φ1 (z) = .
2 2
• Ces deux composantes sont orthogonales (i.e. décorrélées). En effet, puisque
E[φ1 (Z)] = 0,
Cov [φ0 (Z),φ1 (Z)] = E [(φ0 (Z) − E[φ0 (Z)]) (φ1 (Z) − E[φ1 (Z)])]
= E [(φ0 (Z) − E[φ0 (Z)]) φ1 (Z)]
= E [φ0 (Z) φ1 (Z)] − E[φ0 (Z)] E[φ1 (Z)]
1 0 1
= E [φ0 (Z) φ1 (Z)] = E φ2 (Z) − φ2 (L(Z)) = 0 ,
4
où l’on a utilisé l’identité en loi de Z et L(Z) dans la dernière égalité.
• Cette orthogonalité implique la décomposition de variance suivante
Var[φ(Z)] = Var[φ0 (Z)] + Var[φ1 (Z)] .
En observant que Var[Ȳn ] = n−1 Var[φ(Z)] et Var[µ̂n ] = n−1 Var[φ0 (Z)], on peut donc
écrire que
Var[Ȳn ] = Var[µ̂n ] + Var[φ1 (Z)] ,
et affirmer que
1. la variance de µ̂n est toujours inférieure à celle de l’estimateur usuel Ȳn .
2. si les transformations (φ,L) sont telles que φ = φ1 (càd φ(z) = −φ ◦ L(z)), alors
la variance de l’estimateur µ̂n est nulle. Si on est dans ce cadre, on a E[φ(Z)] = 0
et donc il n’est pas utile de recourir aux méthodes de Monte Carlo · · · .
3. si les transformations (φ,L) sont telles que φ1 = 0 (i.e. φ = φ0 ) alors la méthode
des variables antithétiques n’apporte rien en terme de réduction de variance.
135
def /
σVA = 0.5 Var [φ(Z) + φ ◦ L(Z)] .
5.5.5 Généralisation
Nous avons jusqu’ici supposé que L◦L = Id. Si il existe un indice p tel que Lp = Id
où Lp désigne le p-ième itéré de L, alors on peut définir un nouvel estimateur par
n
def 1 !- .
µ̂(p)
n = φ(Z) + φ ◦ L(Z) + · · · + φ ◦ Lp−1 (Z) .
pn
k=1
(p)
• on préférera l’estimateur µ̂n à l’estimateur usuel Ȳn dès lors que
+ , 0 1
p Var µ̂(p)
n < Var Ȳn ,
où le facteur multiplicatif p est introduit pour tenir compte du coût de calcul
(on suppose implicitement que le coût de calcul des transformations Lk z ne
dépend pas de k).
136 Méthodes de réduction de variance
5.5.6 Exemples
+ Trouver une transformation L vérifiant (5.14), cas Z ∈ R
• Règle. Si Z est une v.a. réelle, (5.14) est vraie dès que les deux conditions
suivantes sont vérifiées
1. z 0→ φ(z) est une fonction croissante,
2. et z 0→ φ ◦ L(z) est une fonction décroissante.
(cf. Exercice 63) Un autre jeu de conditions suffisantes est obtenu en supposant φ
décroissante et φ ◦ L croissante.
Autrement dit, on demande à φ d’être monotone et à L de transformer la mono-
tonie. Les transformations L(z) = −z ou L(z) = 1 − z transforment la monotonie.
• Exemple. On se place dans un modèle de Black-Scholes : le prix de l’actif
sous-jacent est donné par
- .
St = S0 exp {r − 0.5σ 2 }t + σWt ,
def
où (Wt ,t ≥ 0) est un brownien standard. On
√ cherche à calculer I = exp(−rT )E [(ST − K)+ ].
En remarquant que WT a même loi que T Z où Z ∼ N (0,1), cette quantité s’écrit
E[φ(Z)] où la fonction φ est donnée par
" " √ $ $
φ(z) = exp(−rT ) S0 exp {r − 0.5σ 2 }T + σ T z − K .
+
Alors z 0→ φ(z) est croissante. Comme la loi de Z est symétrique, on peut prendre
L(z) = −z et on vérifie bien que φ ◦ L est décroissante. Ainsi,
60
6.5
6.4
50
6.3
6.2
40 6.1
6
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2
30 4
x 10
8
20
6
10
4
0 2
0 5 10 15 20 25 30 35 40 45 50 50 100 150 200 250 300 350 400 450 500
On suppose de plus que φ(Z1 , · · · ,Zd ) et φ̃(Z1 , · · · ,Zd ) ont même loi. Alors [cf.
exercice 63] + ,
Cov φ(Z1 , · · · ,Zd ) ,φ̃(Z1 , · · · ,Zd ) ≤ 0 . (5.15)
5.6 Exercices
Exercice 51 (Méthode de Kemna et Vorst pour l’étude des options asiatiques). On
considère le payoff dans une option asiatique de la forme
) 9 ( T :*
def −1
I = E φ T Ss ds
0
On définit une suite de v.a. (Zk ,k ≥ 0) et un estimateur µ̂n par les relations
n
!
def def −1
Zk = Yk − bk−1 (Xk − E[X]) , µ̂n = n Zk .
k=1
p.s.
Nous allons montrer que µ̂n −→ E[Y ].
k
! k
!
def def def Ck
Ck = (Xj − X̄k )(Yj − Ȳk ) , Vk = (Xj − X̄k )2 , bk = .
Vk
j=1 j=1
(a) Montrer que (Ck ,Vk ,Ȳk ,X̄k ) se calculent de façon récursive à l’aide de
(Ck−1 ,Vk−1 ,Ȳk−1 ,X̄k−1 ) et du couple aléatoire (Xk ,Yk ).
p.s.
(b) Montrer que bk −→ b$ . On admettra que la convergence a lieu aussi dans
L2 en imposant quelques conditions de moment supplémentaires sur la v.a.
X.
si bien que cet algorithme itératif permet de définir un estimateur qui, asympotique-
ment, se comporte comme l’estimateur optimal (i.e. celui de variance minimale). La
démonstration de ce TCL repose sur un TCL pour les martingales qui demande un
peu plus de conditions que le TCL pour des v.a. indépendantes.
6. Soit (an ,n ≥ 0) une suite de réels et (bn ,n ≥ 0) une suite de réels positifs, croissante, telle que
lim+∞ bn = +∞. Alors
! n
!
X −1 −1
X
ak bk < +∞ =⇒ bn ak → 0 .
k k=1
140 Méthodes de réduction de variance
Exercice 53 (Variable de contrôle pour une option sur un portefeuille d’actifs). Soient
(1) (L)
L actifs corrélés (X· , · · · ,X· ) tels que à t = T ,
" √ $
(l)
XT = xl exp (r − 0.5σl2 )T + σl T Zl
%L
où αl ≥ 0 et l=1 αl = 1.
(c) En déduire que si u est solution d’une EDP avec condition terminale en
t = T (EDP et conditions que l’on explicitera), on peut écrire
( T ( t
Y = u(0,S0 ) + exp(− r(Su )du) A(t,St ) dWt ,
0 0
de sorte que
1
gθ (x) = √ d
exp(−0.56x − θ62 ) .
2π
Pour simplifier les notations, on écrit Eθ pour Egθ et E pour E0 .
def - .
σ 2 (θ) = Var[φ(Z + θ) exp −0.5θ $ θ − θ $ Z ] .
3. Montrer que
0 1
σ 2 (θ) = E φ2 (Z) exp(−θ $ Z + 0.5θ $ θ) − (E[φ(Z)])2 ,
0 1
= E φ2 (Z) exp(−0.5Z $ Z) exp(0.56Z − θ62 ) − (E[φ(Z)])2 .
En déduire que lim|θ|→+∞ σ 2 (θ) = +∞, et que θ 0→ σ 2 (θ) est une fonction
strictement convexe.
142 Méthodes de réduction de variance
En utilisant les résultats précédents, montrer que θ 0→ σ 2 (θ) est une appli-
cation décroissante sur ] − ∞,σ −1 log(K/λ)]. En déduire un estimateur par
échantillonnage d’importance de variance strictement inférieure à celle de l’es-
timateur de Monte Carlo usuel.
1. Montrer que I s’exprime sous la forme E[φ(Z)] pour une fonction φ que l’on
explicitera et pour Z ∼ NM (0,Id). Dans la suite, pour traduire la dépendance
en Z de la v.a. Stk , on écrira Stk (Z).
2. Soit D = {z,φ(z) > 0}. Expliciter l’équation : θ = ∇[ln φ](θ) pour θ ∈ D.
3. En déduire que la solution θ$ de cette équation est solution de
L
T S̄T (θ)
θ1 = σ ,
M S̄T (θ) − K
et pour tout 2 ≤ k ≤ M
L
T Stk−1 (θ)
θk = θk−1 − σ .
M M (S̄T (θ) − K)
Exercice 57. Soit Z une variable aléatoire réelle, gaussienne centrée réduite. Soit un
réel m. " $
2
1. (a) On pose Lm = exp −mZ − m2 , montrer que E[Lm φ(Z + m)] = E[φ(Z)]
pour toute fonction φ telle que E[|φ(Z)|] < ∞.
(b) Soit X (m) une autre variable aléatoire, intégrable telle que E[X (m)
0 (m)φ(Z1 +
m)] = E[φ(Z)] pour toute fonction φ bornée. Montrer que E X |Z =
Lm .
(c) Dans une méthode de simulation quelle représentation de E[φ(Z)] vaut-il
mieux utiliser E[X (m) φ(Z + m)] ou E[Lm φ(Z + m)]?
2. φ est une fonction bornée et mesurable.
(a) Montrer que la variance de Lm φ(Z +m), notée σ 2 (m), se met sous la forme
) 2
*
−mZ+ m2 2
E e φ (Z) − E[φ(Z)]2 .
(a) Montrer que pour toute fonction φ mesurable telle que E[φ2 (Z)] < ∞,
(
E[l(Z) φ(Z)] = φ(x)p(x)dx,
R
Pour calculer cette probabilité, nous allons implémenter une technique d’échantillonnage
préférentiel et, pour déterminer le changement de loi, utiliser la fonction génératrice
des cumulants. 7 Les v.a. (Xk ,k ≥ 1) sont indépendantes et de même loi; notons fX
leur densité. On définit une famille de densités (gθ ,θ ∈ DX ) sur R, par la relation
Les v.a. ((τk ,Zk ),k ≥ 0) sont définies sur un espace mesurable (Ω,A) que l’on munit
d’une famille de lois (Pθ ,θ ∈ DX ) telles que sous Pθ , les v.a. (Xk ,k ≥ 0) sont i.i.d. de
loi gθ . Noter que 0 ∈ DX et que g0 = fX de sorte que P0 sera noté simplement P. Eθ
désigne l’espérance associée à la probabilité Pθ . Soit (Fn ,n ≥ 1) la filtration naturelle
def
du processus (Xk ,k ≥ 1) : Fn = σ(Xk ,k ≤ n).
def
et est définie pour tout θ ∈ DY = {µ ∈ R : ψY (µ) existe}. De plus, la fonction génératice des
cumulants caractérise la loi d’une v.a. : si ψY1 = ψY2 alors Y1 et Y2 ont même loi.
145
(b) Vérifier que σx est un temps d’arrêt pour la filtration Fn et montrer que
+ Pσx ,
P(σx < +∞) = Eθ e−θ k=1 Xk +σx ψX (θ) σx <+∞ .
(c) Montrer que Eθ [X1 ] = ψX $ (θ); en déduire que si θ est tel que ψ $ (θ) > 0,
X
alors Pθ (σx < +∞) = 1.
(d) Déduire de ce qui précède que si ψX$ (θ) > 0, alors
+ P σx ,
P(σx < +∞) = Eθ e−θ k=1 Xk +σx ψX (θ) . (5.19)
3. (Choix du drift θ)
(a) Montrer que θ 0→ ψX (θ) est convexe sur DX . En déduire que si ψX $ (0) < 0
alors
i. il existe un unique θ̌ > 0 (que l’on ne cherchera pas à déterminer) tel
que ψX $ (θ) > 0 sur ]θ̌,β[ et ψ $ (θ) < 0 sur ] − λ/p; θ̌[.
X
ii. il existe un unique θ$ ∈]θ̌,β[ tel que ψX (θ$ ) = 0.
(b) En utilisant les résultats de Asmussen, S. (1998) [Applied Probability and
Queues, Wiley, Chichester, England], on montre que la variance des esti-
mateurs de la forme (5.19) est minorée et que cette borne inférieure est
atteinte en prenant θ = θ$ .
Exercice 59 (Simulation sous la loi conditionnelle P(X ∈ ·|X ∈ Ai )). Soit X une v.a.
réelle de fonction de répartition F . Notons F −1 son inverse généralisée.
1. Soit U une v.a. uniforme sur [0,1] et deux réels ai ,bi tels que F (ai ) < F (bi ).
Montrer que la v.a. définie par
Exercice 60 (Simulation sous des lois conditionnelles par acceptation-rejet, cas gaus-
sien). Soit Z ∼ N (0,1).
1. Etant donnés deux réels −∞ < ai < bi < +∞. Proposer une procédure
d’acceptation-rejet basée sur la densité instrumentale uniforme pour simuler
une v.a. de loi P(Z ∈ ·|Z ∈]ai ,bi ]). Préciser la règle d’acceptation.
2. Soit un réel a > 0.
(a) Proposer une procédure d’acceptation-rejet basée sur la densité instrumen-
tale g(x) = x exp(−0.5x2 ) x>0 pour simuler une v.a. de loi P(Z ∈ ·|Z ∈
]a, + ∞[). Préciser la règle d’acceptation.
√
(b) Montrer que si X ∼ E(0.5) alors X a pour densité g.
(c) Quel choix de densité instrumentale g vous semble plus astucieux ? indi-
quez comment obtenir des réalisations de cette nouvelle loi à partir de
réalisations de v.a. de loi E(0.5).
1. On suppose que d = 1.
" $
(a) Quel est le signe de (φ(x) − φ(y)) φ̃(x) − φ̃(y) ?
+ ,
(b) En déduire que Cov φ(Z1 ) φ̃(Z1 ) ≤ 0.
2. On suppose que (5.20) est établie pour d − 1 : pour toute fonction f,f˜ :
Rd−1 → R mesurables et resp. croissantes et décroissantes en chacune de leurs
coordonnées, et telles que f (Z1 , · · · ,Zd−1 ) et f˜(Z1 , · · · ,Zd−1 ) ont même loi et
E[f 2 (Z1 , · · · ,Zd−1 )] < +∞ on a
+ ,
Cov f (Z1 , · · · ,Zd−1 ) ,f˜(Z1 , · · · ,Zd−1 ) ≤ 0 .
1. Montrer que
9 :
max S0−1 St = exp σ max [Wt + σ −1 2
{r − 0.5σ }t] .
t∈[0,T ] t∈[0,T ]
et observer que Wτy = y. En utilisant la prop. de Markov fort et le fait que la loi de Ws est la
loi de −Ws , montrer que l’on a les égalités
` ´
P max[0,t] Ws ≥ y,Wt ≤ x = P (τy ≤ t,Wt ≤ x) = P (τy ≤ t,Wt ≥ 2y − x)
Z +∞
1
= P (Wt ≥ 2y − x) = √ exp(−0.5t−1 u2 )du .
2y−x 2πt
Puis conclure.
149
- .
(b) ce qui entraine que la loi conditionnelle P max[0,t] Ws ∈ ·|Wt = x est la
loi de " / $
0.5 x + x2 − 2t ln U
6.1 Introduction
6.1.1 Echantillonnage d’importance adaptatif
Soit Z ∼ Nd (0,Id) et une application φ : Rd → R mesurable telle que Var[φ(Z)] <
+∞. La formule de Cameron-Martin donne, pour tout θ ∈ Rd , (cf. Exercice 55)
0 - .1
E[φ(Z)] = E φ(Z + θ) exp −0.56θ62 − θ $ Z . (6.1)
Cette égalité suggère d’estimer E[φ(Z)] par un échantillonneur de Monte Carlo usuel
appliqué à l’écriture de droite dans (6.1); ce qui revient à considérer un estimateur
d’importance en faisant le changement de loi g0 −→ gθ où gθ désigne la densité d’une
loi Nd (θ,Id). Quel choix de θ conduit à l’estimateur de variance minimale?
On montre (cf. Exercice 55) que la variance de cet estimateur est égale à - à une
constante additive près indépendante de θ - à la quantité v(θ)
0 1
v(θ) = E φ2 (Z) exp(−θ $ Z + 0.56θ62 ) (6.2)
0 2 1
= E φ (Z) exp(−0.56Z62 ) exp(0.56Z − θ62 ) . (6.3)
θ 0→ v(θ) est donc convexe et lim|θ|→+∞ v = +∞. Sous certaines conditions d’intégrabilité
de φ, elle est de classe C 1 et possède donc un unique minimum (global) caractérisé
par l’unique solution de l’équation ∇v(θ) = 0 ce qui est équivalent à résoudre en θ
(cf. Exercice 55)
0 1
E exp(0.56θ62 ) (θ − Z) exp(−θ $ Z) φ2 (Z) = 0
ou encore 0 1
E exp(6θ62 ) φ2 (Z − θ) (2θ − Z) = 0 .
La résolution de cette équation n’est, en général, pas explicite.
152 Méthodes de Monte Carlo adaptatives
où {γn ,n ≥ 0} est une suite de pas déterministe positive. Mais en général, ni v ni ∇v
ne sont calculables. L’idée consiste donc à approcher les quantités inconnues par une
méthode de Monte Carlo. Puisque −∇v(θ) est de la forme E[H(θ,Z)], on pourrait
proposer l’algorithme itératif suivant: à l’itération n,
1. Simuler Mn v.a. i.i.d. de même loi que Z et définir
Mn
P 1 !
−∇v(θn ) = H(θn ,Zj ) ,
Mn
j=1
2. Etape de gradient
Mn
1 !
θn+1 = θn + γn+1 H(θn ,Zj ) .
Mn
j=1
négligeable: un premier jeu de conditions est donc relatif au contrôle de cette per-
turbation. La trajectoire déterministe tn+1 = tn + γn+1 h(tn ) peut être relue comme
une discrétisation de l’Equation Différentielle Ordinaire (EDO) θ̇ = h(θ); après N
itérations on a en effet
!N !N !N
γn+j
tn+N = tn + γn+j %N h(tn+j ) ≈ tn + γn+j h(tn ) .
j=1 j=1 k=1 γn+k j=1
Si V est minorée alors la suite {V (θs ),s ≥ 0} est décroissante, minorée donc conver-
gente; si l’ensemble {θ,V (θ) ≤ V (x)} est borné, alors la suite {θs ,s ≥ 0} est bornée;
enfin, moyennant des conditions sur les ensembles de niveau de V et sur l’ensemble
des points fixes {θ,∇V (θ) · h(θ) = 0}, la suite {θs ,s ≥ 0} est convergente. Le troisième
jeu de conditions pour l’étude de la convergence de la suite stochastique (6.4) est donc
relatif à l’existence d’une fonction de Lyapunov possédant de ’bonnes’ propriétés.
" % $
la suite (αn ) est donc aussi minorée. Elle est donc convergente. Puisque exp − k≥1 ak ≤
αn ≤ 1, on a bien α∞ ∈]0,1].
• On pose
n−1
! ∞
!
Vn$ = αn−1 Vn , b$n = αn bn , Wn$ = αn Wn Sn = Vn$ + Wk$ + b$k .
k=1 k=n
Montrons que {Sn ,n ≥ 0} converge p.s. vers une v.a. positive S∞ telle que E[S∞ ] <
+∞. Par définition de Sn et en utilisant (6.5)
n
! ∞
!
E [ Sn+1 | Fn ] ≤ αn E [ Vn+1 | Fn ] + Wk$ + b$k
k=1 k=n+1
n−1
! ∞
!
≤ αn−1 Vn + Wk$ + b$k ≤ Sn .
k=1 k=n
p.s.
Par conséquent, {Sn ,n ≥ 0} est une surmartingale positive et par conséquent Sn −→
S∞ avec
n
!
E[S∞ ] ≤ E[S0 ] = E[V0 ] + b$k .
k=1
%n $
%∞ %∞
Comme k=1 bk = k=1 αk bk ≤ k=1 bk < ∞, cette dernière inégalité montre que
E[S∞ ] < ∞ et donc que la%v.a. S∞ est finie presque-sûrement. %
• Résultat 1. La suite ( nk=1 Wk$ )n est croissante et, comme pour tout n, nk=1 Wk$ ≤
Sn , nous avons donc, P-p.s.
n
!
lim Wk$ ≤ lim sup Sn = S∞ < ∞
n→∞ n
k=1
%
série nk=1 Wk$ converge P-p.s. Puisque limn αn = α∞ > 0, ceci implique
Par suite la %
que la série nk=1 Wk converge, car pour tout n ≤ m,
m
! m
! m
!
Wk ≤ α−1
m αk Wk = α−1
m Wk$ .
k=n k=n k=n
%n
• Résultat
% 2. Comme la convergence de%la∞série k=1 bk implique la convergence
de la série% nk=1 b$k , %
nous avons limn→∞ k=n b$k = 0 et par conséquent, la suite
Vn$ = Sn − n−1 $ ∞ $ −1 $
k=1 Wk − k=n bk converge P-p.s.. Comme Vn = αn−1 Vn et que limn αn =
α∞ > 0, la suite (Vn ) converge aussi P-p.s. vers une variable finie P-p.s., ce qui établit
l’assertion 2.
• Résultat 3. Finalement, en utilisant l’inégalité αn−1 Vn = Vn$ ≤ Sn nous obtenons
E[Vn ] ≤ α−1 −1
n−1 E[Sn ] ≤ α∞ E[S0 ] .
Démonstration. Dans la suite, C est une constante dont la valeur peut prendre
différentes valeurs. On pose Fn = σ(θ0 , . . . ,θn ), pour tout n ≥ 1. En utilisant la
formule de Taylor-Lagrange, on obtient
• On va tout d’abord démontrer que, pour tout n, E|V (θn+1 )| < ∞. Nous avons en
effet, en utilisant l’inégalité de Cauchy-Schwarz
- .1/2 - .1/2
EV (θn+1 ) ≤ EV (θn ) + γn+1 E|∇V (θn )|2 E|H(θn ,Xn+1 )|2
2
+ γn+1 [∇V ]Lip E|H(θn ,Xn+1 )|2
2
≤ EV (θn ) + Cγn+1 (1 + EV (θn )) + Cγn+1 (1 + EV (θn )) .
Comme par hypothèse EV (θ0 ) < ∞, nous en déduisons par récurrence que, pour tout
n, EV (θn ) < ∞.
• Résultats 1, 3 et 4. Nous avons donc, en calculant l’espérance conditionnelle
dans (6.6)
2
0 R 1
E [ V (θn+1 ) | Fn ] ≤ V (θn ) + γn+1 ∇V (θn ) · h(θn ) + Cγn+1 [∇V ]Lip E |H(θn ,Xn+1 )|2 R Fn
2 2
≤ (1 + Cγn+1 )V (θn ) + γn+1 ∇V (θn ) · h(θn ) + Cγn+1
156 Méthodes de Monte Carlo adaptatives
%
4. n γn = +∞.
p.s.
Alors, θn −→ θ∗ .
Il existe donc un point θ∞ (ω) ∈ Θ∞ (ω) tel que ∇V (θ∞ (ω)) · h(θ∞ (ω)) = 0 et
comme l’ensemble des solutions de l’équation ∇V (θ) · h(θ) = 0 est réduit au point
θ∗ , nous avons donc θ∞ (ω) = θ∗ . Comme (V (θn (ω))) converge, ceci implique que
limn→∞ V (θn (ω)) = V (θ∗ ) et donc pour tous les points d’accumulation θ ∈ Θ∞ (ω),
V (θ) = V (θ∗ ). Comme l’ensemble {θ,V (θ) = V (θ∗ )} est égal à {θ∗ }, l’ensemble des
points d’accumulation est réduit à θ∗ .
1. Rappelons qu’un ensemble X est bien enchaı̂né si pour tout point x,y de X, et tout a > 0, il
existe une suite de points x0 ,x1 , . . . ,xn de X avec x0 = x, . . . ,xn = y, et |xk − xk+1 | ≤ a. ”Etre bien
enchaı̂né” est donc une variation d’être connexe. Si un espace est connexe, il est bien enchaı̂né. La
réciproque est vraie si l’espace est compact.
158 Méthodes de Monte Carlo adaptatives
Par suite, puisque θ 0→ h(θ) et θ 0→ ∇V (θ) sont continues, tous les points d’accumu-
lation θ ∈ Θ∞ (ω) vérifient ∇V (θ) · h(θ) = 0.
Il existe donc un point θ∞ (ω) ∈ Θ∞ (ω) tel que ∇V (θ∞ (ω)) · h(θ∞ (ω)) = 0 et
une sous-suite (θφ(n) (ω)) telle que limn→∞ θφ(n) (ω) = θ∞ (ω). Comme (V (θn (ω)))
converge, ceci implique que limn→∞ V (θn (ω)) = V (θ∞ (ω)) = v∞ (ω). Donc, pour
tous les points d’accumulation θ ∈ Θ∞ (ω), V (θ) = v∞ (ω).
L’ensemble des points d’accumulation est donc localement fini. Puisqu’il est aussi
bien enchaı̂né, il est donc réduit à un point θ$ (ω), qui vérifie ∇V (θ) · h(θ) = 0. Ce
qui conclut la démonstration.
6.3 Applications
6.3.1 Algorithme de Robbins-Monro
On veut calculer E[φ(Z)] où φ : Rd → R, mesurable; on suppose que Var[φ(Z)] <
+∞. On pose
def def
h(θ) = E[φ(Z)] − θ = E [H(θ,Z)] avec H(θ,z) = φ(z) − θ ,
Il est facile de voir que le triplet (h,H,V ) vérifie les hypothèses de la Proposition 66
et du Théorème 67. En particulier, on a
et
{θ,V (θ) = V (θ$ )} = {θ,V (θ) = 0} = {θ$ } .
On peut donc énoncer le corollaire suivant
Corollaire 69. Soit φ une application mesurable telle que Var[φ(Z)] < ∞. Etant
donnée :
– une v.a θ0 telle que E[6θ0 62 ] < +∞,
– une famille {Zn ,n ≥ 0} de v.a. i.i.d. de même loi que Z, et indépendantes de
θ0 ,
% %
– {γn ,n ≥ 0} une suite positive déterministe telle que n γn = +∞ et n γn2 <
+∞,
la suite {θn ,n ≥ 0} définie par
Dans le cas particulier γn = 1/n, ce corollaire n’est rien d’autre que la loi des
grands nombres pour des v.a. i.i.d.: on a en effet
1 1
θn = (1 − γn )θn−1 + γn φ(Zn ) = (1 − )θn−1 + φ(Zn )
n n
ce qui est équivalent à
n
1!
θn = φ(Zk ) .
n
k=1
Par suite, {θn ,n ≥ 0} a la même limite que la moyenne empirique, qui, par la loi des
grands nombres pour des v.a. i.i.d., converge p.s. vers E[φ(Z)].
∇V (θ) = −E [H(θ,Z)] .
+ Cas général
V est une fonction de Lyapunov naturelle pour h puisque
+ Cas convexe
Lorsque V est strictement convexe, on peut trouver une autre fonction de Lyapu-
nov pour le champ h = −∇V qui, par construction, vérifie les conditions A10(1,2) et
dont les ensembles de niveau sont compacts. On a en effet le résultat suivant
Lemme 70. Soit G : Rd → R une fonction convexe, continûment différentiable.
Alors
{∇G(θ) − ∇G(θ $ )} · {θ − θ $ } ≥ 0 ;
on a inégalité stricte pour tout θ 3= θ $ dès que G est strictement convexe.
Démonstration. Soit g : [0,1] → R définie par g(s) = G(θ + s(θ $ − θ)) − G(θ). Alors
g est convexe (resp. strictement convexe) puisque G est convexe (resp. strictement
160 Méthodes de Monte Carlo adaptatives
h(θ) · {θ − θ$ } ≤ 0
def
de sorte que la fonction Ṽ = 0.56θ − θ$ 62 est une fonction de Lyapunov pour h. De
plus, Ṽ vérifie A10(1,2), lim+∞ Ṽ = +∞, {θ,∇Ṽ (θ) · h(θ) = 0} = {θ$ } et {θ,Ṽ (θ) =
Ṽ (θ$ )} = {θ$ }. Par suite, dès lors que
0 1
– E |H(θ,Z)|2 ≤ C{1 + 6θ62 }
– {Zn ,n ≥ 0} est une famille de v.a. i.i.d. de même loi que Z, et indépendantes
de θ0 ,
%
– {γ
%n ,n2 ≥ 0} est une suite positive déterministe telle que n γn = +∞ et
n γn < +∞,
la suite {θn ,n ≥ 0} définie par θn+1 = θn + γn+1 H(θn ,Zn+1 ) converge p.s. vers θ$ .
La fonction v(θ) définie par (6.2) est strictement convexe; on peut donc appliquer
les résultats du paragraphe 6.3.2 et prendre pour
0 fonction
1 de Lyapunov V (θ) =
0.56θ − θ$ 62 . Malheureusement, la condition E |H(θ,Z)|2 ≤ C{1 + 6θ62 } n’est pas
vérifiée. On a en effet
0 1 S T
E |H(θ,Z)|2 ≥ exp(6θ62 ) $2 θ $ θ − 2|θ|/$ exp(−2|θ|/$) P(φ2 (Z) ≥ $,|Z| ≤ 1/$) > 0 .
def /
Ha (θ,z) = − exp(−6θ62 ) exp(−a 1 + 6θ62 ) exp(6θ62 ) φ2 (z − θ) (2θ − z)
/
= − exp(−a 1 + 6θ62 ) φ2 (z − θ) (2θ − z) ,
de sorte que
def / 0 1
ha (θ) = E [Ha (θ,Z)] = − exp(−a 1 + 6θ62 ) E φ2 (Z − θ) (2θ − Z) ;
Il est aisé de vérifier que le triplet (ha ; Ha ; V = 0.56θ − θ$ 62 ) vérifie les autres condi-
tions de la Proposition 66 et du Théorème 67; et que le seul point vérifiant les condi-
tions : “∇V (θ) · ha (θ) = 0” et “V (θ) = 0” est le point θ$ .
Par suite, la suite définie par (6.8) converge p.s. vers θ$ dès lors que les simulations
{Zn ,n ≥ 0}, le point initial θ0 et les pas {γn ,n ≥ 0} vérifient les conditions A11 et
A12.
162 Méthodes de Monte Carlo adaptatives
où les v.a. {Zk ,k ≥ 0} sont indépendantes de θ$ . Néanmoins, cet algorithme est très
coûteux en simulations: les simulations effectuées dans la première étape pour le calcul
de θ$ ne sont pas utilisées dans la suite de l’algorithme.
Une alternative est donc de combiner approximation stochastique et méthode
de Monte Carlo dans la même procédure itérative. On obtient alors un algorithme
d’échantillonnage d’importance adaptatif dans lequel le paramètre d’implémentation
(ici, la valeur du drift θ) est appris au fur et à mesure de déroulement de l’algorithme.
Une itération de cette procédure adaptative consiste à
1. simuler Zn+1 .
2. mettre à jour l’estimation de θ$ : θn+1 = θn + γn+1 Ha (θn ,Zn+1 ).
3. mettre à jour l’estimation de la quantité d’intérêt :
9 :
1 1
In+1 = 1 − In + φ(Zn+1 + θn ) exp(−0.56θn 62 − θn$ Zn+1 ) .
n+1 n+1
On a alors
n
1!
In = φ(Zk + θk−1 ) exp(−0.56θk−1 62 − θk−1
$
Zk ) .
n
k=1
L’étude des propriétés asymptotiques de cet estimateur repose sur des théorèmes
limite pour des martingales et non plus sur des théorèmes limite pour les v.a. i.i.d.
(cf. Exercice 71).
+ Application numérique
On souhaite évaluer la prime d’option
" √ $
def
I(K) = E [φ(Z)] φ(Z) = exp(−rT ) S0 exp((r − 0.5σ 2 )T + σ T Z) − K
+
lorsque
S0 = 50 , r = 0.1 , T =1, σ = 0.1 .
Lorsque K est grand, l’option est en dehors de la monnaie et la méthode de Monte
Carlo usuelle est peu efficace: on montre sur la figure 6.1 l’évolution du coefficient
163
25
12
10 20
8 15
6
10
4
5
2
0
0 20 25 30 35 40 45 50 55 60 65 70
20 25 30 35 40 45 50 55 60 65 70 Strike K
Strike K
/
Fig. 6.1 – [gauche] Evolution du coefficient de variation Var[φ(Z)]/E[φ(Z)] en
fonction du strike K. [droite] Evolution de la prime en fonction du strike.
6.4 Exercices
Exercice 71. Soit une fonction φ : Rd → R bornée et Z un vecteur un vecteur aléatoire
à valeur Rd . On veut calculer E[φ(Z)].
164 Méthodes de Monte Carlo adaptatives
0.602 2
0.6 1.5
0.598 1
0.596 0.5
0.594 0
0 200 400 600 800 1000 1200 1400 1600 1800 2000 0 200 400 600 800 1000 1200 1400 1600 1800 2000
x 1000 tirages Nombre de tirages
ISoptimal et IS adaptatif
1.6 0.625
IS optimal
IS adaptatif
1.5 0.62
1.4 0.615
1.3 0.61
1.2 0.605
1.1 0.6
1 0.595
0.9 0.59
0.8 0.585
0 1 2 3 4 5 6 7 0 2 4 6 8 10 12 14 16
4
x 10 Nombre d’iterations x 10
4
Fig. 6.3 – [gauche] Trajectoire de la suite {θn ,n ≥ 0}; [droite] Comparaison des
estimateurs de I(60) par échantillonnage d’importance avec drift optimal (θ = 1.54)
et par échantillonnage d’importance adaptatif.
165
Montrer que (Mn ,n ≥ 0) est une martingale de carré intégrable par rapport
à la filtration Fn .
(c) Calculer le crochet < M >n de la martingale en fonction de σ 2 .
p.s.
(d) On suppose dans toute la suite, que Θn −→ θ $ , θ $ nombre réel, et que
θ 0→ σ 2 (θ) est continue. Montrer que
p.s.
n−1 < M >n −→ σ 2 (θ $ ) .
En déduire que si σ 2 (θ $ ) > 0, on a
n
! p.s.
n−1 ψ(Θk−1 ,Zk ) −→ E[φ(Z)] .
k=1
(e) On suppose dorénavant qu’il existe a > 1 tel que pour tout θ, E[ψ 2a (θ,Z)] <
∞ et que θ 0→ E[ψ 2a (θ,Z)] est continue. Montrer que
& n
'
√ ! D
−1
n n {ψ(Θk−1 ,Zk ) − E[φ(Z)]} −→ N (0,σ 2 (θ $ )) .
k=1
– Montrer que
+ ,
E |ψ(Θk−1 ,Zk ) − E[φ(Z)]|2a |Fk−1 ≤ CE[ψ 2a (θ,Z)]|θ=Θk−1 .
– Conclure.
(f) On peut montrer (en introduisant une martingale adéquate, et en raison-
nant comme au dessus) que si a ≥ 2,
n
& n
'2
! ! p.s.
−1 2 −1
n ψ (Θk−1 ,Zk ) − n ψ(Θk−1 ,Zk ) −→ σ 2 (θ $ ) .
k=1 k=1
1. (a) Montrer que la dérivée du prix par rapport à la volatilité σ (appelée Vega)
est égale à
$
/ ln(S0 /K) + (r + 0.5σ 2 )T
CBS (σ) = x T /2π exp(−0.5d21 ) d1 = √
σ T
(b) En déduire que σ 0→ CBS (σ) est strictement croissante.
2. On note )9 : *
−rT σ2 √
PBS (σ) = E Ke − x exp(− T + σ T Z)
2 +
le prix du put au strike K.
(a) Etablir la parité entre le prix du call et le prix du put, à savoir:
+- . ,
3. La fonction CBS est donc continue et strictement croissante de R+ dans x − Ke −rT ;x .
+- . , +
Par conséquent, il s’agit d’une bijection et pour tout P Market ∈ x − Ke−rT + ; x
il existe une unique volatilité implicite σ ∗ ∈ R+ telle que CBS (σ ∗ ) = P Market .
- .
(a) Montrer que si P Market = x − Ke−rT + , alors σ ∗ = 0. On suppose donc
- .
par la suite que P Market > x − Ke−rT + .
(b) Dans le but de pouvoir appliquer l’algorithme de Robbins-Monro, on in-
troduit la fonction H définie par :
)9 : *
σ2 √
H(σ,z) = ϕ(σ) x exp(− + T + σ+ T Z) − Ke−rT −P Market
2 +
2
σ+
− T
où ϕ(σ) = (1 + |σ|)e 2 . On pose alors :
7
ϕ(σ) [CBS+(σ) − CBS (σ ∗ )] , σ>0
h(σ) = E [H(σ,Z)] = - −rT
. Market
(1 + |σ|) x − Ke +
−P σ≤0
– Montrer que
0 1
E H(σ,Z)2 ≤ C(1 + |σ|2 ) .
6.5 Bibliographie
Algorithmes stochastiques