0% ont trouvé ce document utile (0 vote)

456 vues78 pages

Methodes Reduction Variance

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

456 vues78 pages

Methodes Reduction Variance

Transféré par

jujumdr

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 5

Méthodes de réduction de
variance

Sous certaines conditions, la valeur de produits dérivés s’écrit comme l’espérance

d’une variable aléatoire (v.a.), sous une probabilité dite de risque neutre. Par exemple,
si h désigne la fonction de paiement d’une option d’échéance T portant sur un actif
risqué alors dans le modèle de Black-Scholes,

Vt = Ẽ [exp(−r(T − t)) h|Ft ]

où Vt désigne la valeur du portefeuille simulant. Cette relation est vraie dès que h est
une fonction de L2 (P̃) positive et FT -mesurable.
Par suite, évaluer le prix d’un produit dérivé consiste à calculer une espérance i.e.
une intégrale (ou une somme discrète). Quand cela ne peut pas être fait de façon
exacte - par exemple parce que l’intégrande (le terme général de la somme) a une
expression complexe et/ou la dimension de l’espace d’intégration (de sommation) est
trop grande - , les méthodes de Monte Carlo fournissent une alternative : le principe
de ces méthodes est d’approcher une espérance par une somme discrète calculée à
partir de n simulations Z1 , · · · ,Zn . La justification repose sur l’existence d’une loi
des grands nombres pour cette famille de v.a. (Zn ,n ≥ 0)
n
1! p.s.
f (Zk ) −→ Ẽ[f (Z)] , n→∞,
n
k=1

pour la probabilité P̃, convergence qui est vraie sous certaines conditions portant sur
la dépendance des v.a. {Zn ,n ≥ 0} sous la loi P̃, et sur l’intégrabilité des moments de
{f (Zn ),n ≥ 0}.
Dans la plupart des applications considérées, f (Z) sera la fonction de paiement
actualisée. Dans certains cas, la simulation de v.a. de même loi que f (Z) est trop
complexe : par exemple,
" dans $le cas des options asiatiques, la fonction de paiement
#T
est de la forme f ST , 0 Ss ds où (St ,t ≥ 0) désigne le prix du sous-jacent risqué. A
#T
défaut de savoir calculer l’intégrale 0 Ss ds ou simuler de façon exacte des trajectoires
92 Méthodes de réduction de variance

#T
du processus (St ,t ≥ 0) sur [0,T ], on va approcher le calcul de l’intégrale 0 St dt
par une somme discrète nécessitant le calcul du sous-jacent à différents instants de
discrétisation tk ∈ [0,T ]. En conséquence, le calcul de l’espérance de la fonction de
paiement fait intervenir deux types d’erreur d’approximation
– une erreur de discrétisation.
– une erreur de Monte Carlo.
Dans ce chapitre, nous ne nous intéressons qu’à ce second type d’erreurs.
Même si cela n’est pas explicitement précisé, dès que nous écrirons E[Y ], Var(Y ),
Cov[X,Y ], · · · pour des v.a. X,Y , nous supposons que ces quantités existent et sont
finies.

5.1 Introduction
Soit (Un ,n ≥ 0) une suite de v.a. indépendantes définies sur un espace de proba-
bilité (Ω,A,P), de même loi que U .
A1 U admet un moment d’ordre 1. Notons µ l’espérance de U .
A2 U possède un moment d’ordre 2. Notons σ 2 la variance de U .
On pose
n
!
def −1
µ̂n = n Uk .
k=1

Sous A1, E[µ̂n ] = µ : µ̂n est donc un estimateur sans biais de l’espérance µ. De
plus, sous A2, Var(µ̂n ) = σ 2 /n.

5.1.1 Loi des grands nombres

Le théorème qui justifie l’intérêt des méthodes de Monte Carlo comme méthodes
numériques de calcul d’intégrale est la Loi (forte) des Grands Nombres. Sous l’hy-
pothèse A1
n
1! p.s.
Uk −→ µ , n → +∞ ,
n
k=1

pour la probabilité P. Cela signifie qu’il existe un ensemble mesurable A ∈ A tel que
P(A) = 1 et pour tout ω ∈ A,
n
1!
lim Uk (ω) = µ.
n n
k=1

%
En pratique, la quantité n−1 nk=1 uk calculée à partir d’une réalisation (u1 , · · · ,un )
du vecteur aléatoire (U1 , · · · ,Un ) sera considérée comme une approximation de la
quantité µ d’autant meilleure que n est grand.
93

5.1.2 Contrôle de l’erreur d’approximation / Théorème Central Li-

mite
%n
Le contrôle de l’erreur d’approximation de µ par l’estimateur n−1 k=1 Uk repose
sur le Théorème Central Limite.
√ & n
!
'
n −1 D
n Uk − µ −→ N (0,1) , n → +∞ ,
σ
k=1
D
où −→ désigne la convergence en loi. Cela signifie que pour n grand, on peut faire
l’approximation suivante : ∀ − ∞ ≤ a < b ≤ +∞,
& √ & n
' ' ( b
n ! 1
−1
P a≤ n Uk − µ ≤ b ∼ √ exp(−0.5x2 ) dx = Φ(b) − Φ(a) ,
σ 2π a
k=1

où Φ désigne ici la fonction de répartition d’une loi N (0,1). Remarquons que cela
signifie que pour tout $ > 0,
& n n
' ( !
! σ ! σ 1
−1 −1
P n Uk − $ √ ≤ µ ≤ n Uk + $ √ ∼ 2√ exp(−0.5x2 ) dx
n n 2π 0
k=1 k=1
∼ 2Φ($) − 1 . (5.1)
Cette relation permet de trouver des intervalles de confiance à 1 − α% pour µ en
prenant pour $, la valeur du quantile d’une loi N (0,1) d’ordre 1 − α/2 (par exemple,
pour un intervalle de confiance à 95%, le quantile est 1.96).
√
De plus, la taille de l’intervalle de confiance est 2$σ/ n. En conséquence, pour
améliorer d’un
% facteur 10 la précision de l’approximation de µ par la somme de Monte
Carlo n−1 nk=1 Uk , on peut soit (a) augmenter le nombre de simulations d’un facteur
100, soit (b) diminuer la variance d’un facteur 100. L’objectif de ce chapitre est de
présenter des méthodes de réduction de variance.
Très souvent, la variance σ 2 n’est pas connue. Elle peut être estimée par
n
def 1 !
s2n = (Uk − µ̂n )2 .
n−1
k=1

Comme les v.a. (Uk ,k ≥ 0) sont indépendantes et de même loi, on peut montrer que
p.s.
s2n −→ σ 2 quand n → +∞. s2n est donc un estimateur fortement consistant de σ 2 . Le
lemme de Slutsky 1 justifie le résultat suivant
√
n D
(µ̂n (b) − E[U ]) −→ N (0,1) .
sn (b)
Un intervalle de confiance à 1 − α% pour E[U ] est donné par
) *
sn (b) sn (b)
µ̂n (b) − √ z1−α/2 ; µ̂n (b) + √ z1−α/2 . (5.2)
n n
1. Si {Xn ,n ≥ 0} converge en loi vers X et {Yn ,n ≥ 0} converge en loi vers une constante alors
pour toute fonction continue, f (Xn ,Yn ) converge en loi vers f (X,c).
94 Méthodes de réduction de variance

Réduction de variance et coût de calcul

Supposons que l’on souhaite estimer le paramètre µ et que l’on dispose pour cela
(i)
de deux estimateurs µ̂n , i = 1,2, non biaisés et de variances respectives n−1 σi2 ,
(1)
i = 1,2 telles que σ12 < σ22 . Alors l’estimateur µ̂n est plus précis que l’estimateur
(2) (1)
µ̂n . Néanmoins, si le calcul de µ̂n est plus coûteux en temps de calcul, il faut tenir
compte de ce coût de ce calcul dans la comparaison des estimateurs.
(i) % (i) (i)
Supposons que µ̂n = n−1 nk=1 Yk , pour des v.a. (Yk ,k ≥ 0) indépendantes
et de même loi que Y (i) , i = 1,2. Supposons de plus que le temps de simulation
d’une variable de même loi que Y (i) est une quantité déterministe τ (i) . En t unités de
temps, on peut simuler *t/τ (i) + v.a. de même loi que Y (i) et la variance des estimateurs
associés est donc
+ , τ (i)
(i)
Var µ̂"t/τ (i) # ∼ σ2 .
t i
En conséquence, le critère de comparaison des estimateurs basé sur le produit τ (i) σi2
est plus adéquat que le critère basé sur la variance seule, puisqu’il permet de tenir
compte aussi du coût de calcul de chacun des estimateurs.
Dans la suite nous présentons des méthodes de réduction de variance et sommes
donc amenés à comparer l’estimateur “usuel” à un estimateur moins intuitif.
Dans la méthode Variables de Contrôle, Y (2) est de la forme Y (1) + U et l’on
considère implicitement que le coût de calcul de U est négligeable devant celui de
Y (1) de sorte que la comparaison des deux estimateurs se limite à la comparaison
de leurs variances.
Dans la méthode Variables Antithétiques, Y (1) et Y (2) sont resp. de la forme
φ(Z) et 0.5{φ(Z) + φ(T Z)} où T désigne une transformation. Dans ce cas, on
considère que le coût de calcul de φ(T Z) est du même ordre que celui de φ(Z)
et on en tient donc compte dans la comparaison des estimateurs.
Dans les méthodes Stratification et Echantillonnage préférentiel, on compare
les estimateurs à l’estimateur de Monte Carlo en ne tenant compte que de la
variance.

5.2 Méthode des variables de contrôle

5.2.1 Introduction
Le principe de cette méthode est d’exploiter l’erreur d’estimation de quantités
connues, pour améliorer l’erreur d’estimation de quantités inconnues.
On souhaite calculer l’espérance E[Y ] d’une v.a.réelle Y de variance finie notée
Var[Y ].
On suppose que l’on dispose de couples de v.a. ((Xk ,Yk ),k ≥ 0), tels que
1. ces couples sont indépendants et ont même loi que le couple (X,Y ) (donc en
particulier, les v.a. {Xk ,k ≥ 0} ont même loi que X et les v.a. {Yk ,k ≥ 0} ont
même loi que Y ).
95

2. les v.a. (Xk ,k ≥ 0) ont même espérance E[X] connue et même variance
Var[X] > 0.
3. les v.a. (Yk ,k ≥ 0) ont même loi que Y .

Observons que sous ces hypothèses, les v.a. (Xk ,k ≥ 0) sont indépendantes et
les v.a. (Yk ,k ≥ 0) sont indépendantes; mais rien n’est dit sur la dépendance des
v.a. (X,Y ). Si les v.a. (X,Y ) sont corrélées alors X porte une information sur Y : le
principe de la méthode des % variables de contrôle est de tirer de l’information de la
−1 n
façon dont l’estimateur n k=1 Xk approche E[X] (ce que l’on peut parfaitement
contrôler puisque E[X] est connue), pour améliorer l’estimation
% de E[Y ] et proposer
un estimateur plus efficace que l’estimateur classique n−1 nk=1 Yk . Nous reviendrons
sur cette interprétation de la méthode dans la section 5.2.4.

5.2.2 Cas unidimensionnel

Pour tout réel b, on définit l’estimateur
n
def 1! - .
µ̂n (b) = {Yk − b (Xk − E[X])} = Ȳn − b X̄n − E[X] , (5.3)
n
k=1
avec
n
! n
!
def def
X̄n = n−1 Xk , Ȳn = n−1 Yk .
k=1 k=1

Biais et consistance de l’estimateur

µ̂n (b) est un estimateur sans biais de E[Y ].
En appliquant la loi des grands nombres, il est facile de vérifier que pour tout
b ∈ R, µ̂n (b) converge p.s. vers E[Y ] quand n → +∞. µ̂n (b) est donc un estimateur
fortement consistant de E[Y ].

Variance de l’estimateur
La variance de µ̂n (b) est donnée par
n
1 ! 1- .
Var[µ̂n (b)] = 2
Var [Yk − b (Xk − E[X])] = Var[Y ] + b2 Var[X] − 2bCov[X,Y ]
n n
k=1
b
= Var[Ȳn ] + (bVar[X] − 2Cov[X,Y ])
n
1
= Var[Ȳn ] + (Var[bX] − 2Cov[bX,Y ]) ,
n
où nous avons utilisé l’indépendance des couples ((Xk ,Yk ),k ≥ 0) et le fait qu’ils aient
même loi. Par suite, l’estimateur µ̂n (b) est de variance plus faible que l’estimateur clas-
sique Ȳn si et seulement si on choisit b et la loi de X tels que (Var[bX] − 2Cov[bX,Y ]) <
0.
96 Méthodes de réduction de variance

Choix optimal du coefficient b

• La variance de l’estimateur µ̂n (b) est une fonction quadratique et convexe de b :
il existe donc un minimum unique obtenu en b = b$ , donné par (il suffit de résoudre
l’équation ∂b Var[µ̂n (b)] = 0)
Cov[X,Y ]
b$ = . (5.4)
Var[X]
Dans ce cas, dans la famille des estimateurs de la forme (µ̂n (b),b ∈ R), celui de
variance minimale est µ̂n (b$ ) et sa variance est donnée par
- . def Cov[X,Y ]
Var[µ̂n (b$ )] = Var[Ȳn ] 1 − ρ2X,Y , ρX,Y = / . (5.5)
Var[X]Var[Y ]
Ainsi la variance de ce nouvel estimateur est inférieure à celle de l’estimateur usuel
Ȳn : par exemple, elle est réduite d’un facteur 2 pour |ρX,Y | = 0.7 et d’un facteur 10
pour |ρX,Y | = 0.95.
• En pratique, dans les situations non triviales, l’estimateur µ̂n (b$ ) n’est pas
utilisable : en effet, si E[Y ] n’est pas calculable, c’est aussi très certainement le cas de
Cov[X,Y ]. Différentes stratégies sont utilisées
– Une première solution consiste à utiliser l’estimateur µ̂n (b̂n ) où b̂n est donné
par %n - .
k=1 (Xk − E[X]) Yk − Ȳn
b̂n = %n 2 , (5.6)
k=1 (Xk − E[X])
(i.e. la covariance et la variance sont remplacées par la covariance et la va-
riance empiriques). Néanmoins, l’estimateur µ̂n (b̂n ) n’hérite+pas de toutes les
- .,
propriétés de µ̂n (b$ ); par exemple, il a un biais égal à −E b̂n X̄n − E[X] .
Nous verrons ci-après que la variance asymptotique (dans le TCL) de µ̂n (b̂n )
est néanmoins Var[µ̂n (b$ )].
– Une seconde solution consiste à estimer b̂n par la formule (5.6) calculée à partir
de n1 couples (Xk ,Yk ), puis d’utiliser les n − n1 simulations restantes pour
calculer Ȳn et X̄n ; dans ce cas, b̂n et X̄n − E[X] sont indépendants et donc
l’estimateur µ̂n (b̂n ) est sans biais.
– Une troisième solution consiste à mettre à jour l’estimation de b̂n , au fur et à
mesure que les réalisations des couples ((Xk ,Yk ),k ≥ 0) sont disponibles. [cf.
Exercice 52].

Intervalles de confiance
• Nous considérons tout d’abord l’intervalle de confiance (IC) pour E[Y ] obtenu
à l’aide de l’estimateur µ̂n (b), donné par (5.3). Par définition, c’est une somme de
v.a. indépendantes, de même loi que la v.a. Y − b(X − E[X]) donc en particulier,
d’espérance E[Y ] et de variance
def
σ 2 (b) = Var[Y ] + b2 Var[X] − 2bCov[X,Y ] .
97

Le TCL pour des variables i.i.d. de carré intégrable entraine

√
n D
(µ̂n (b) − E[Y ]) −→ N (0,1) ,
σ(b)

et un intervalle de confiance à (1 − δ)% pour E[Y ] est donné par

) *
σ(b) σ(b)
µ̂n (b) − √ z1−δ/2 ; µ̂n (b) + √ z1−δ/2 ,
n n

où zα désigne le quantile d’ordre α de la loi gaussienne centrée réduite.

• Lorsque σ 2 (b) n’est pas connu (ce qui est le cas en pratique), il peut être estimé
par la variance empirique
n
def 1 !
s2n (b) = {Yk − b(Xk − E[X]) − µ̂n (b)}2 .
n−1
k=1

On peut, en appliquant le résultat discuté Section 5.1.2, obtenir des IC à un niveau

donné et basés sur les quantiles de la loi gaussienne centrée réduite (cf. Eq (5.2)).
• Les résultats précédents ne s’appliquent pas (directement) pour le calcul d’IC à
l’aide de l’estimateur µ̂n (b̂n ), lorsque b̂n est calculé par (5.6) à l’aide des mêmes v.a.
{Xk ,Yk ,k ≥ 0} utilisées pour le calcul de l’estimateur µ̂n , puisque cette fois, les v.a.
{Yk − b̂n (Xk − E[X]),k ≥ 0} ne sont pas indépendantes. On écrit:
√ " $ √ " $ √
n µ̂n (b̂n ) − E[Y ] = n µ̂n (b̂n ) − µ̂n (b$ ) + n (µ̂n (b$ ) − E[Y ])
√ " $- . √
= n b̂n − b$ X̄n − E[X] + n (µ̂n (b$ ) − E[Y ]) .

En multipliant le numérateur et le dénominateur par n dans (5.6), et en appliquant

la loi des grands nombres : on voit que le numérateur converge p.s. vers Cov[X,Y ]
et le dénominateur vers Var[X]. Par suite,. b̂n converge p.s. (et donc en loi) vers b$ .
√ -
Par application du TCL, n X̄n − E[X] converge en loi vers une v.a. gaussienne
centrée de variance Var[X]. Par suite, le théorème de Slutsky entraine
√ " $
D
n µ̂n (b̂n ) − E[Y ] −→ 0 + N (0,σ 2 (b$ )) .

En d’autres termes, l’estimateur µ̂n (b̂n ) se comporte asymptotiquement comme l’es-

timateur optimal µ̂n (b$ ).
En utilisant encore Slutsky, on peut montrer que
√ " $
D
n[sn (b̂n )]−1 µ̂n (b̂n ) − E[Y ] −→ N (0,1) .

dont on déduit des IC pour l’estimation de E[Y ] par µ̂n (b̂n ).

Ces discussions montrent qu’en utilisant l’estimateur µ̂n (b̂n ), on hérite asympto-
tiquement des propriétés d’optimalité de l’estimateur µ̂n (b$ ). Cela est vraie pour de
98 Méthodes de réduction de variance

grands échantillons (n → ∞), mais dans le cas de petits échantillons, l’utilisation

du coefficient estimé (et donc aléatoire) b̂n au lieu d’un coefficient déterministe, peut
être préjudiciable.
Pour des petits échantillons, l’obtention d’IC nécessite des hypothèses supplémentaires
sur la loi : par exemple, si on suppose que (X,Y ) suit une loi gaussienne multi-
variée, on peut construire des IC exacts faisant intervenir les quantiles de la loi de
Student et on dispose d’une expression explicite de la variance de l’estimateur µ̂n (b̂n ).
Néanmoins, dans les applications que nous considérons, l’hypothèse de gaussianité du
couple (X,Y ) est peu crédible.

Conclusion
On peut donc tirer profit de la simulation d’autres variables aléatoires et notam-
ment de l’erreur connue X̄n − E[X], pour améliorer l’estimateur µ̂n en réduisant sa
variance. La variance est d’autant plus réduite que ρ2X,Y est proche de 1 i.e. que les
variables (X,Y ) sont corrélées, et cette amélioration ne dépend pas du signe de la
corrélation.
La réduction de variance étant liée à la corrélation des v.a. (X,Y ), et la corrélation
mesurant la dépendance linéaire entre deux variables : la méthode par variables de
contrôle présentée ici tire profit de la dépendance linéaire des v.a. X et Y .

5.2.3 Cas multi-dimensionnel

La technique peut se généraliser au cas de plusieurs variables de contrôle X (i) ,
(1) (d)
1 ≤ i ≤ d. On note Xk = (Xk , · · · ,Xk ) - vecteur colonne par convention - et on
suppose
1. les couples ((Xk ,Yk ),k ≥ 0) sont i.i.d. et de matrice de dispersion
) *
ΣX ΣX,Y
.
Σ$X,Y Σ$Y

ΣX (resp. ΣY ) est la matrice de dispersion d × d de Xk supposée inversible,

(resp. la matrice de dispersion 1 × 1 de Yk ), et ΣX,Y est une matrice d × 1 dont
la i-ième composante est donnée par Cov[X (i) ,Y ].
2. l’espérance E[X] ∈ Rd des vecteurs aléatoires (Xk ,k ≥ 0) est connue.
Pour tout vecteur b ∈ Rd , on définit l’estimateur
def - .
µ̂n (b) = Ȳn − b$ X̄n − E[X] (∈ R) .

En raisonnant comme dans le cas mono-dimensionnel, on montre que

nVar[µ̂n (b)] = Var[Y ] − 2b$ ΣX,Y + b$ ΣX b ,

et cette quantité est minimale pour b$ = Σ−1

X ΣX,Y . Dans ce cas,

def
Var[µ̂n (b$ )] = (1 − R2 ) Var[Ȳn ] , R2 = Var[Y ]−1 Σ$X,Y Σ−1
X ΣX,Y .
99

Lorsque le vecteur optimal b$ n’est pas calculable explicitement, on peut le substi-

tuer par b̂n obtenu en remplaçant les matrices de dispersion exactes par les matrices
de dispersion empiriques SX et SX,Y .

5.2.4 L’approche par Régression Linéaire

Pour simplifier les notations, la discussion est faite dans le cas uni-dimensionnel,
mais elle reste valable dans le cas multi-dimensionnel.

Si l’on cherche à régresser linéairement Y sur X au sens des moindres carrés, la

solution est la droite d’équation y = E[Y ] + b$ (x − E[X]), où b$ est donné par (5.4).
En écrivant
Y = E[Y ] + b$ (X − E[X]) + $ ,
on définit un résidu $ centré et décorrélé de X. En effet, E[$] = 0 et

Cov [$,X] = Cov[Y,X] − b$ Var[X] = 0 .

En termes de géométrie induite par le produit scalaire Cov sur l’espace des v.a. de
carré intégrable, on dit que b$ (X − E[X]) est le projeté de Y − E[Y ] sur X − E[X] et
le résidu $ est la partie de Y − E[Y ] “orthogonale” à X − E[X] (orthogonale signifiant
ici décorrélée). Plus faible est cette composante et meilleure est l’approximation :

Var[Y ] = Var[b$ X] + Var[$] = Var[b$ X] + Var [Y − b$ X] ,

= (b$ )2 Var[X] + Var [Y − b$ X] = ρ2X,Y Var[Y ] + Var [$] .

Var[b$ X](= ρ2X,Y Var[Y ]) est la part de la variance de Var[Y ] expliquée par b$ X;
plus faible est la variance du résidu $ et meilleure est la réduction de variance par
la variable de contrôle X. Le cas extrême est celui où Y est une fonction affine de
X : dans ce cas, $ = 0; néanmoins, ce cas est sans intérêt puisque comme E[X] est
connue, E[Y ] le serait aussi.

On peut interpréter l’estimateur µ̂n (b̂n ) de la façon suivante : étant donné le nuage
de points de coordonnées ((Xk ,Yk ),k ≤ n), quelle est la meilleure régression linéaire
au sens moindres carrés? - .
La réponse est la droite de régression d’équation y = Ȳn − b̂n X̄n − x . Cette
droite passe par le point de coordonnées (X̄n ,Ȳn ) - le centre du nuage - et par le point
de coordonnées (E[X],µ̂n (b̂n )). Si X̄n < E[X] i.e. l’espérance de E[X] est sous-estimée,
et si les couples (Xk ,Yk ) sont positivement corrélés, on aura alors µ̂n (b̂n ) > Ȳn (cf.
l’équation de la droite) : autrement dit, l’estimateur par variable de contrôle corrige
à la hausse Ȳn .
En quelque sorte, comme la corrélation est positive, si X̄n sous-estime E[X] il
en sera de même pour Ȳn vis-à-vis de E[Y ], d’où la correction “à la hausse” de
l’estimateur usuel. Cette correction est d’autant plus forte que la pente de la droite
de régression est forte (cf. figure 5.1).
100 Méthodes de réduction de variance

6
Estim.
corrigé

4
mean(y)

mean(x) E[X]
−2

−4
−10 −5 0 5 10 15 20

Fig. 5.1 – Couples positivement corrélés et X̄n < E[X]. On a µ̂n (b̂n ) > Ȳn .

5.2.5 Exemples
L’intérêt de cette méthode est liée à la possibilité d’exhiber une v.a. d’espérance connue
et corrélée avec la variable d’intérêt. Nous donnons ci-après quelques exemples d’ap-
plication en finance pour le calcul du prix d’options. Dans toutes les simulations qui
suivent, nous avons calculé b̂n à partir des n1 premières simulations (n1 ∼ 20% n)
et Ȳn et X̄n à l’aide des (n − n1 ) simulations restantes. L’estimateur µ̂n (b̂n ) est donc
sans biais.

+ Exemple d’application
def
On souhaite estimer I = E[(W1 + W2 )5/4 ] où les v.a. W1 ,W2 sont des v.a.
√
indépendantes qui suivent une loi de Weibull de densité 3/2 x exp(−x3/2 ) R+ (x).
1. Si U est une v.a. uniforme sur [0,1], montrer que W = (− ln U )2/3 a même loi
que W1 .
2. En déduire une méthode d’estimation de I par une méthode de Monte Carlo
utilisant un générateur de nombre uniforme sur [0,1]. Préciser comment estimer
l’erreur d’estimation.
3. Proposer une estimation de I basée sur la méthode des variables de contrôle,
avec X = U1 U2 comme variable de contrôle: expliquer la mise en oeuvre et
préciser la valeur E[X] (on ne cherchera à démontrer que l’introduction de cette
variable de contrôle permet effectivement de réduire la variance; ce résultat peut
être établi par exemple en utilisant l’exercice 63).
4. Comparaison numérique de la précision des estimations obtenues par les deux
méthodes: sur la figure 5.2[haut], on trace 5000 réalisations du couple (X,Y ) (X
101

en abscisse et Y en ordonnée). Le nuage de points montre une corrélation entre

ces deux variables. Sur la figure 5.2[bas], on compare la méthode de Monte Carlo
à celle des variables de contrôle (VC). On trace l’estimation obtenue par Monte
Carlo (en rouge) et celle obtenue par VC (en bleue), en fonction du nombre
de termes dans la somme de Monte Carlo. On trace aussi les IC à 95%. On
peut observer une réduction de variance : la méthode VC améliore la précision
d’estimation d’un facteur 2.

+ Parité call-put. Application au calcul d’options européennes

En remarquant que (x − K)+ − (K − x)+ = x − K, on a pour tout constante K
et v.a. S, 0 1
E (S − K)+ − (K − S)+ = E [S] − K .
def
Dès lors que E[S] est connue, la v.a. X = S − K = Call − Put est un candidat
pour définir une variable de contrôle. Comme la variable de contrôle est définie à une
constante près (on retranche son espérance pour définir l’estimateur) et à un facteur
près (rôle du coefficient b), on peut aussi prendre X = S ou · · · .
Par exemple, dans une option européenne, pour calculer
def
I = E[exp(−rT )(ST − K)+ ]

lorsque le prix du sous-jacent (St ,t ≥ 0) suit un brownien géométrique issu de S0 = x,

on peut prendre pour variable de contrôle
def
X = exp(−rT ) (ST − K) ,

dont l’espérance est x − exp(−rT )K. Le call I dans une option européenne se calcule
explicitement à partir de la formule de Black-Scholes. Nous allons illustrer la méthode
des variables de contrôle dans cet exemple:
1. Proposer un algorithme pour le calcul de l’estimateur par variable de contrôle.
2. Comparer la précision de l’estimation à celle obtenue par la méthode de Monte
Carlo.
3. Commenter la corrélation entre Y et X, en fonction du prix d’exercice K
(strike): lorsque K est grand, comment exploiter la parité call-put pour améliorer
l’efficacité de la méthode des variables de contrôle?
Sur la figure 5.3[haut], on représente en fonction du nombre de termes dans la
somme de Monte Carlo, l’estimation de la quantité d’intérêt I par la méthode de
Monte Carlo classique (en rouge) et par la méthode des variables de contrôle (VC) (en
bleu). Dans cet exemple, la vraie valeur de I est connue (I = 6.43) et est représentée
en vert. On trace aussi les intervalles de confiance à 95% pour les deux méthodes.
Dans cet exemple,

r = 0.05 T = 0.25; σ = 0.3; S0 = 50; K = 45 .

102 Méthodes de réduction de variance

correlation between X and Y

6
Y

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
X

Estimation and Confidence Interval − First 10 000 iterations omitted

Monte Carlo
Control Variate

2.2

2.15

2.1

2.05
0 0.5 1 1.5 2 2.5 3 3.5 4
Number of iterations x 10
4

Fig.
2 5.2 – Exemple d’application : [haut] corrélation entre X et Y ; on estime
1 − ρ2X,Y ∼ 0.55. [bas] Estimation de I et IC à 95%.
103

Estimation and Confidence Interval

7.2
True value
Monte Carlo
7.1 Control Variate

6.9

6.8

6.7

6.6

6.5

6.4

6.3

6.2
0 0.5 1 1.5 2 2.5 3 3.5
Number of iterations 4
x 10

Correlation between X and Y, as a function of K

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1
20 30 40 50 60 70 80

Fig. 5.3 – Parité Call-Put et modèle de Black-Scholes : [haut] Estimation et IC à

95%. [bas] ρ2X,Y en fonction du strike K.
104 Méthodes de réduction de variance

La méthode CV réduit la std d’un facteur 4. On observe (courbes non montrées ici)
que lorsque K = 65 le gain en variance n’est plus que de 1.23. Lorsque K = 35,
il est de l’ordre d’un facteur 1440. Intuitivement, si K est faible (l’option est dans
la monnaie) (ST − K)+ = ST − K avec une forte probabilité d’où la corrélation
importante entre le payoff (actualisé) et la variable de contrôle X ∝ ST . Sur la
figure 5.3[bas] on représente l’évolution de cette corrélation en fonction de K. Lorque
l’option est hors la monnaie, il sera plus judicieux d’approcher la valeur de call en
(a) approchant la valeur du put par la méthode des variables de contrôle et en (b) en
déduisant un estimateur du call en utilisant la relation de parité call-put.
Toutes les variables (exp(−rt)St − S0 ,t ≤ T ) sont des variables de contrôle pos-
sibles. On pourrait donc aussi utiliser d variables de contrôle, exp(−rti )Sti − S0 , en
des instants 0 < t1 < · · · < td ≤ T .

+ Variable de contrôle pour une option asiatique

On envisage trois variables de contrôle pour le calcul de la quantité
& '+ 
M
!
def
I = exp(−rT )  M −1 Stk − K 
k=1

où tk = kT /M est une discrétisation régulière de [0,T ] et {St ,t ≥ 0} suit un brownien

géométrique - .
St = S0 exp (r − 0.5σ 2 )t + σWt .
On propose pour variable de contrôle : tout d’abord, le sous-jacent actualisé
X (1) = exp(−rT )ST − S0 ;
puis un call européen (dont l’espérance est explicite par la formule de Black-Scholes)
0 1
X (2) = exp(−rT ) (ST − K)+ − E exp(−rT ) (ST − K)+
et enfin, la discrétisation de la moyenne géométrique (dont l’espérance est là encore
explicite : cf. exercice 51 la méthode proposée par Kemna et Vorst (1990))
& & M
' '+
!
X (3) = exp(−rT ) exp M −1 ln Stk −K
k=1
 & & ' '+ 
M
!
− E exp(−rT ) exp M −1 ln Stk −K  .
k=1

(i)
Sur la figure 5.4, nous traçons les nuages de points ((Yk ,Xk ),k ≤ n), pour i = 1,2,3,
pour visualier la corrélation entre les v.a. Y et X (i) . La forme du nuage illustre la
très forte corrélation entre Y et la variable de contrôle X (3) .
Les valeurs des paramètres du modèle dans cet exemple sont
r = 0.05 T = 0.25; σ = 0.3; S0 = 50; K = 45; M = 15 .
105

50 50 50

45 45 45

40 40 40

35 35 35

30 30 30

25 25 25
Y

20 20 20

15 15 15

10 10 10

5 5 5

0 0 0
20 40 60 80 100 0 20 40 60 0 20 40 60
(1) (2) (3)
X X X

Fig. 5.4 – Exemple 5.2.5.

5.2.6 Extensions
+ Cas non linéaire
Jusqu’ici nous avons considéré le cas d’un estimateur de la forme h(X̄n ,Y¯n ) pour
une fonction h linéaire. On peut considérer des fonctions h plus générales, vérifiant
h(E[X],y) = y de sorte que la différence entre Ȳn et l’estimateur contrôlé h(X̄n ,Ȳn )
dépende de l’écart X̄n − E[X]. La construction de ces estimateurs exploite aussi le
signe de la corrélation entre X et Y : si les variables sont positivement corrélées et
que X̄ < E[X], on voudra que h(X̄n ,Ȳn ) > Ȳn . Les estimateurs suivants vérifient ces
règles :
h(x,y) = y x/E[X] h(x,y) = y exp(x − E[X])
ou h(x,y) = yE[X]/x si X et Y sont positivement corrélées et xy/E[X] sinon.
Néanmoins, on peut montrer que asymptotiquement, quand n → ∞, le cas non-
linéaire avec une fonction h régulière est équivalente à un estimateur de type linéaire.
En effet, si h est continûment différentiable, on a la TCL suivant (en remarquant que
h(E[X],E[Y ]) = E[Y ])
√ - . D
n h(X̄n ,Ȳn ) − E[Y ] −→ N (0,σh2 ) ,

avec

def
σh2 = (∂y h(E[X],E[Y ]))2 Var[Y ]
+ 2∂x h(E[X],E[Y ]) Cov[X,Y ] + (∂x h(E[X],E[Y ]))2 Var[X] ,

ce qui est la variance asymptotique de l’estimateur µ̂n (b), pour b = −∂x h(E[X],E[Y ]).
106 Méthodes de réduction de variance

+ Monte-Carlo pondéré
Lorsque b̂n est calculé à partir des n tirages, observons que
n
1! - .
b̂n (Xk − E[X]) = b̂n X̄n − E[X]
n
k=1
- . n - . n
X̄n − E[X] ! X̄n − E[X] !
= %n 2
(Xj −E[X])(Yj −Ȳn ) = %n 2
(Xj −E[X])Yj
j=1 (Xj − E[X]) j=1 j=1 (Xj − E[X]) j=1

de sorte que
n
7 - . 8
! 1 X̄n − E[X] (Xk − E[X])
µ̂n (b̂n ) = − %n 2
Yk .
k=1
n j=1 (Xj − E[X])

Ainsi, l’estimateur µ̂n (b̂n ) est lu comme une somme pondérée des variables Yk , de
poids ωk ne dépendant pas des variables (Yk ,k ≥ 0) (et pouvant être négatifs). On
peut tirer avantage de cette représentation lorsque l’on utilise le même jeu de variables
de contrôle (Xk ,k ≥ 0) pour améliorer l’estimation de plusieurs quantités.
107

5.3 Echantillonnage préférentiel (Importance sampling)

Dans ce qui suit, on suppose pour simplifier l’exposé que toutes les densités sont
par rapport à la mesure de Lebesgue sur R ou Rd . Soit (Ω,A) un espace mesurable.
On munit cet espace d’une famille de probabilités Pg , g désignant une densité, telles
que sous Pg les v.a. notées (Zn ,n ≥ 0) sont i.i.d. et de même loi de densité g. Eg
désigne l’espérance sous Pg .

5.3.1 Introduction
Considérons l’exemple suivant: on souhaite estimer P(X > 2) où X est une loi de
1
Cauchy de densité sur R donnée par f (x) = π(1+x 2 ) . En remarquant que l’on a

( +∞ 9( +∞ ( 2 :
1 1 1 1
2
dx = dx + dx
2 π(1 + x ) 2 2 π(1 + x2 ) 2
−∞ π(1 + x )
( ( 1/2
1 1 2 2 y −2
= − 2
dx = 2 dy
2 2 0 π(1 + x ) 0 2π(1 + y −2 )

on a différentes façons de calculer cette quantité (qui vaut 0.15): on peut utiliser des
méthodes de Monte Carlo usuelles, en relisant P(X > 2) comme l’espérance d’une
fonction φ(X) sous une loi particulière :
%
– {Xk ,k ≤ n} v.a. i.i.d. de Cauchy, et on pose µ̂n = n−1 nk=1 Xk >2 . La variance
de cet estimateur est 0.127/n.
%
– {Xk ,k ≤ n} v.a. i.i.d. de Cauchy, et on pose µ̂n = 0.5 n−1 nk=1 |Xk |>2 . La
variance de cet estimateur est 0.052/n.
%
– {Xk ,k ≤ n} v.a. uniformes sur [0,2], et on pose µ̂n = 0.5 − n−1 nk=1 2/(π(1 +
Xk2 )). La variance de cet estimateur est 0.0285/n.
%
– {Xk ,k ≤ n} v.a. uniformes sur [0,1/2], et on pose µ̂n = n−1 nk=1 1/(2π(1 +
Xk2 )). La variance de cet estimateur est 0.9510e − 04/n.
Toutes ces approches sont basées sur des estimateurs sans biais et efficaces de la
quantité d’intérêt P(X > 2). Néanmoins, ils n’ont pas tous la même variance et de ce
fait, certains estimateurs sont préférables à d’autres. La méthode d’échantillonnage
d’importance consiste à trouver une loi g (et donc une fonction φ̃) telle que
+ ,
Ef [φ(Z)] = Eg φ̃(Z)

de sorte que la variance de l’estimateur de Monte Carlo appliquée à la quantité de

droite soit de variance plus faible que celui de l’estimateur de Monte Carlo appliqué
au problème initial (terme de gauche). Etant donné g, l’expression de φ̃ se déduit
de f,g,φ; la difficulté pour appliquer cette méthode est donc de trouver le “meilleur”
changement de loi i.e. la densité g.
108 Méthodes de réduction de variance

La méthode dite d’échantillonnage d’importance est basée sur la remarque sui-

vante : pour toute densité g sur Rd telle que Supp(f φ) ⊆ Supp(g) 2
( ( ) *
φ(z) f (z) φ(Z) f (Z)
Ef [φ(Z)] = φ(z)f (z)dz = g(z)dz = Eg .
Rd g(z) g(Z)

On peut donc introduire deux estimateurs de Monte Carlo de la quantité Ef [φ(Z)]

n
! n
!
def f (Zk )
n−1 φ(Yk ) , µ̂n (g) = n−1 φ(Zk ) ,
g(Zk )
k=1 k=1

où (Yk ,k ≥ 0) sont des v.a. i.i.d. de densité f ; et (Zk ,k ≥ 0) sont des v.a. i.i.d. de
densité g.

Dans toute la suite, on suppose

A3 φ : Rd → R est mesurable et Varf [φ(Z)] < +∞.
A4 la densité instrumentale g est telle que Supp(f φ) ⊆ Supp(g).

5.3.2 Estimateur : définition, propriétés

L’estimateur d’échantillonnage préférentiel est défini par
n
def 1 ! f (Zk )
µ̂n (g) = φ(Zk )
n g(Zk )
k=1

où les v.a. {Zk ,k ≥ 0} sont i.i.d. de densité g.

L’intérêt de cette méthode réside dans la possibilité d’exhiber un changement de
loi (au lieu de simuler des v.a. de densité f , on va simuler des v.a. de densité g) qui
permet de réduire la variance de l’estimateur de Monte Carlo usuel.
Le ratio f (z)/g(z) introduit pour compenser ce changement de loi, est appelé
poids (ou ratio) d’importance.

• Biais et consistance
) *
f (Z)
Eg [µ̂n (g)] = Eg φ(Z) = Ef [φ(Z)] ,
g(Z)

de sorte que l’estimateur est sans biais.

Les v.a. {φ(Zk )f (Zk )/g(Zk ),k ≥ 0} étant i.i.d. et d’espérance finie sous Pg , la
LGN entraine que l’estimateur µ̂n (g) est fortement consistant.

2. Supp(g) = {x ∈ Rd ,g(x) > 0}

109

• Variance La variance de l’estimateur est donnée par

7 ; 9 : < 9 ) *: 8
−1 2 f (Z) 2 f (Z) 2
Varg [µ̂n (g)] = n Eg φ (Z) − Eg φ(Z)
g(Z) g(Z)
= ) * > = ) * >
1 2 f 2 (Z) 2 1 2 f (Z) 2
= Eg φ (Z) 2 − (Ef [φ(Z)]) = Ef φ (Z) − (Ef [φ(Z)]) .
n g (Z) n g(Z)
L’estimateur d’échantillonage préférentiel µ̂n (g) est préférable à l’estimateur de
Monte Carlo classique ssi Varg [µ̂n (g)] < n−1 Varf [φ(Z)], i.e. ssi
) = >*
2 f (Z)
Ef φ (Z) −1 <0.
g(Z)
La variance de l’estimateur µ̂n (g) est finie dès lors que
) * (
2 f (Z) f 2 (z)
Ef φ (Z) = φ2 (z) < +∞
g(Z) g(z)
Par suite, les lois instrumentales g qui ont des queues plus légères que f (entrainant
que le ratio f /g n’est pas borné) ne sont pas recommandées. En pratique, lorsque
ce ratio n’est pas borné, les poids {f (Zi )/g(Zi ),i ≥ 0} sont très variables ce qui
fait que dans l’expression de µ̂n (g), quelques points seulement sont significatifs. En
conséquence, la valeur de l’estimateur peut changer brutalement en rajoutant un point
(passage de µ̂n (g) à µ̂n+1 (g)). Pour ces raisons de stabilité, on cherche g dans une
famille de densités qui ont des queues plus lourdes que f (i.e. sous Pg , la probabilité
de prendre des grandes valeurs+ est plus forte
, que sous Pf ). Une condition suffisante
pour garantir l’existence de Ef φ2 (Z) fg(Z)
(Z)
lorsque Varf [φ(Z)] < +∞ est que le ratio
f /g soit borné.

• Estimateur optimal Il est possible d’exhiber une densité g telle que la variance
de l’estimateur µ̂n (g) est minimale. L’inégalité de Jensen entraine en effet
) * 9 ) *:
f 2 (Z) f (Z) 1/2
2
Eg φ (Z) 2 ≥ Eg |φ|(Z) = (Ef [|φ|(Z)])1/2
g (Z) g(Z)
et le minorant est indépendant de g. De plus, on a égalitéssi
def |φ|(z) f (z) |φ|(z) f (z)
g$ (z) = # =
|φ|(z)f (z)dz Ef [|φ|(Z)]
i.e. en prenant g = g$ , la variance de l’estimateur µ̂n (g) atteint sa borne inférieure.
Lorsque φ > 0,
φf
g$ = ,
Ef [φ(Z)]
et Varg! [µ̂n (g$ )] = 0 !! en fait, ce résultat n’a pas d’intérêt pratique puisqu’il nécessite
la connaissance de la quantité recherchée Ef [φ(Z)]. Néanmoins, cette discussion donne
une heuristique pour construire g : chercher une densité “proche” de g$ (i.e. qui est
grande là où |φ|f est grande; et faible là où |φ|f est faible) i.e. une densité g telle que
|φ|f /g soit proche d’une constante.
110 Méthodes de réduction de variance

5.3.3 Estimateur auto-normalisé

Pour être plus robuste aux grandes valeurs du ratio f /g, ou dans les cas où la den-
sité f n’est connue qu’à une constante près, on peut / on doit substituer l’estimateur
µ̂n (g) par l’estimateur
n
!
def ω(Z ) def f (Zk )
µ̃n (g) = %n k φ(Zk ) où ω(Zk ) =
k=1 l=1 ω(Zl ) g(Zk )

et les v.a. {Zk ,k ≥ 0} sont i.i.d. de densité g. Quand n → +∞, cet estimateur converge
p.s. vers Ef [φ(Z)].
L’application de la delta-méthode 3 permet de montrer que
√ D
n (µ̃n (g) − Ef [φ(Z)]) −→ N (0,σ̃ 2 (g))

où + ,
σ̃ 2 (g) = Ef (φ(Z) − Ef [φ(Z)])2 ω(Z)

Pour n grand, la variance de µ̃n (g) est donc ≈ σ̃ 2 (g)/n; la variance asymptotique
σ̃ 2 (g) peut être estimée par l’estimateur
%n
def n k=1 {φ(Z ) − µ̃n (g)}2 ω 2 (Zk )
s2n (g) = %nk
{ k=1 ω(Zk )}2
p.s.
(observer que s2n (g) −→ σ̃ 2 (g)).

5.3.4 Exemples
La difficulté majeure dans la mise en oeuvre de cette méthode est de trouver le
changement de loi (i.e. la densité instrumentale g) adequate.
Dans tout ce qui suit, la loi instrumentale g est choisie dans une famille de densités
dépendant d’un paramètre θ, et vérifiant A4; P = {gθ ,θ ∈ Θ}. Idéalement, on voudrait
trouver θ tel que gθ soit solution de
) * (
2 f (Z) f 2 (z)
argmingθ ∈P Ef φ (Z) = argmingθ ∈P φ2 (z) dz .
gθ (Z) Supp(f φ) gθ (z)

+ Exemple d’application
On souhaite calculer par la méthode d’échantillonnage d’importance
( +∞
xα−1 exp(−x) dx ; a > 0,α > 1 .
a
√ D
3. Supposons que n(Xn − µ) −→ N (0,Σ). Soit f une fonction à valeur dans R, C 1 dans un
√ D
voisinage de µ et telle que ∇f (µ) '= 0. Alors n(f (Xn ) − f (µ)) −→ N (0,[∇f (µ)]! Σ ∇f (µ))
111

Une première idée consiste à relire ce problème comme le calcul de Ef [φ(Z)] avec
φ(z) = z α−1 z>a f (z) = R+ exp(−z)
(i.e. loi exponentielle de paramètre 1). Sur la figure 5.5[gauche] on trace l’allure de
la densité f , de z 0→ z α−1 pour α = 3 et de g$ ∝ f φ à une constante multiplicative
près. On voit que l’estimateur de Monte Carlo usuel sera d’autant moins efficace que
a est grand puisque dans ce cas, très peu de tirages de v.a. de densité f dépasseront
le seuil a. On trace sur la figure 5.5[droite] gθ pour différentes de valeur de θ, lorsque
a = 5.
0.9
θ =0.3
θ=0.4
0.8
θ = 0.7
9
θ = 0.9
densite f fonction φ(z) f(z)
8 fonction zα−1 0.7
g* (ctte mult pres)
7 0.6

6
0.5
5
0.4
4

3 0.3

2
0.2

1
0.1
0
0 0.5 1 1.5 2 2.5 3
0
4 5 6 7 8 9 10 11 12 13 14

Fig. 5.5 – Exemple d’application 5.3.4.

On choisit gθ dans la famille des densités de la forme

gθ (x) = θ exp(−θ(x − a)) x>a ,
comme étant la / une des densités qui minimise un majorant de la variance i.e. qui
minimise Ef [φ2 (Z) f (Z)/gθ (Z)].

• Majorant 1 On a la majoration suivante

( & ' (
2 f 2 (z) f (z)
φ (z) dz ≤ sup φ2 (z) f (z) dz
Supp(f φ) gθ (z) z∈Supp(f φ) gθ (z) Supp(f φ)
& '
f (z) - .
≤ sup Varf [φ(Z)] + {Ef [φ(Z)]}2 .
z∈Supp(f φ) gθ (z)

Un calcul direct montre que pour que le majorant soit fini, il faut prendre θ ∈ [0,1],
et dans ce cas, on a
f (z) exp(−a)
min sup = min
θ∈[0,1] z>a gθ (z) θ∈[0,1] θ
et la valeur optimale est donc θ$ = 1. Autrement dit gθ est la densité f dont on a
translaté le support: on peut vérifier que si X ∼ E(1) alors X + a ∼ g1 (ce qui donne
aussi un algorithme pour simuler des v.a. i.i.d. de densité g1 ).
112 Méthodes de réduction de variance

• Majorant 2 On a la majoration suivante

( & ' (
f 2 (z) f (z)
φ2 (z) dz ≤ sup φ(z) φ(z) f (z) dz
Supp(f φ) gθ (z) z∈Supp(f φ) gθ (z) Supp(f φ)
& '
f (z)
≤ sup φ(z) Ef [φ(Z)] .
z∈Supp(f φ) gθ (z)

On peut donc choisir θ tel que gθ soit solution de

f (z)
argmingθ ∈P sup φ(z) .
z∈Supp(f φ) gθ (z)

On a
" $
argminθ>0 max θ −1 xα−1 exp(−x) exp(θ(x − a))
x>a
" $
= argmin0<θ<1 max θ −1 xα−1 exp(−x) exp(θ(x − a)) ;
x>a

en effet, si θ ≥ 1, le terme de droite vaut +∞. Cela revient à résoudre

α−1
x= , aθ 2 − θ(a − α) − 1 = 0 ;
1−θ
la solution (x$ ,θ$ ) est donnée par
/
(a − α) + (a − α)2 + 4a 1
θ$ = , x$ = a + .
2a θ$
Lorsque a = 5 et α = 3 on trouve θ$ = 0.69.
On représente sur la figure 5.6[gauche] x 0→ θ −1 xα−1 exp(−x) exp(θ(x − a)) pour
x > a et différentes valeurs de θ. On voit que parmi les valeurs de θ considérées, la
valeur minimale (en θ) des maxima (en x) est atteinte pour θ = 0.7.

• Résultats numériques On %nprendα−2a = 5 et α = 3. On compare l’estimateur

de Monte Carlo µ̂M n
C = n−1
k=1 kZ Zk >a lorsque (Zk ,k ≥ 0) sont des v.a.

#i.i.d. de loi exponentielle de paramètre 1; et l’estimateur µ̂n (gθ! ) pour le calcul de

α−1 exp(−x)dx. Les résultats sont sur la figure 5.6[droite]. On y représente
x>a x
l’évolution de l’estimation en fonction du nombre de termes dans la somme de Monte
Carlo, ainsi que les intervalles de confiance à 95%. La réduction de variance est
conséquente : à l’échelle du graphe, les IC pour la méthode échantillonnage d’impor-
tance ne sont pas visibles. Par exemple, la variance est réduite d’un facteur ∼ 37 400
(donc l’écart-type d’un facteur ∼ 193) [lorsque estimée à partir/de 50 000 simulations].
Sur la figure 5.7, on compare l’estimation de l’écart-type n Var[µ̂n (gθ )] lorsque
θ ∈ {1,θ$ } ce qui correspond à l’estimateur d’échantillonnage d’importance appliqué
avec les deux densités ’optimales’ telles que définies par les majorants 1 et 2. On
113

observe que le µ̂n (gθ! ) a une variance plus faible que µ̂n (g1 ) (d’un facteur 64); la
seconde approche, qui tient compte de la fonction φ pour déterminer le meilleur
changement de loi est donc préférable. L’avantage de la première approche, est de
proposer un changement de loi indépendant de la fonction d’intérêt (dans les cas
où on veut écrire une seule procédure d’échantillonnage d’importance pour traiter
plusieurs
/ problèmes, on préfèrera la première approche). Pour comparaison, l’écart
type n Var[µ̂M C
n ] est de 3.28.

Ratio phi f /g for different densities g

0.7
Estimation and Confidence intervals (first 5000 iterations omitted)
θ =0.3 0.5
θ=0.4 Monte Carlo
0.6 θ = 0.7 Importance Sampling
θ = 0.9 0.45

0.5
0.4

0.4
0.35

0.3
0.3

0.2
0.25

0.1 0.2

0
4 5 6 7 8 9 10 11 12 13 14 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Number of terms in the MC sum 5
x 10

Fig. 5.6 – Exemple d’application, section 5.4.6. [gauche] x 0→

θ −1 xα−1 exp(−x) exp(θ(x − a)) pour x > a et différentes valeurs de θ; [droite]
Evolution des estimateurs µ̂M n
C (rouge, trait plein) et µ̂ (g ) (bleu, pointillés) en
n θ!
fonction de n; et évolution de l’intervalle de confiance à 95%.

+ Changement de loi optimal lorsque f = Nd (0,Id)

• Règle 1 On considère le changement de loi donné par gθ où gθ désigne la
densité d’une v.a. Nd (θ,Id). On montre (cf. Exercice 55) que pour une grande famille
de fonctions φ, la variance de l’estimateur d’éhantillonnage d’importance Var[µ̂n (gθ )]
est une fonction strictement convexe de θ et qu’elle possède un minimum unique θ$
solution de l’équation
0 1
E (θ $ − Z) exp(−θ $ $ Z) φ2 (Z) = 0 .
Cette équation n’a en général pas de solutions explicites : on peut néanmoins implémenter
des procédures itératives pour résoudre cette équation (cf. chapitre 6). Nous illustrons
dans un exemple simple comment exploiter ce résultat pour construire un estimateur
d’échantillonnage d’importance pour le calcul du prix d’une option européenne.
def
On souhaite calculer I1 = E[exp(−rT )φ(Z)] où
+ " √ $ ,
φ(Z) = S0 exp (r − 0.5σ 2 )T + σ T Z − K
+

def
Dans cet exemple, I1 comme la variance I2 = Var[exp(−rT )φ(Z)] sont calculables
explicitement par la formule de Black-Scholes. Dans les applications numériques, on
114 Méthodes de réduction de variance

0.18

0.16

0.14

0.12

0.1
IS, majorant 1
IS, majorant 2
0.08

0.06

0.04

0.02

0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Number of terms in the MC sum

Fig.
/ 5.7 – Exemple d’application, section 5.4.6. Evolution de l’estimation de
nVar(µ̂n (gθ )), en fonction de n, pour θ = 1 (majorant 1, trait plein) et θ = θ$
(majorant 2, trait pointillé)
.

prend

T =1 S0 = 40 σ = 0.25 r = 0.05 λ = S0 exp((r − 0.5σ 2 )T ) .

Sur la figure 5.8, on montre l’évolution de I1 en√fonction de K/λ, lorsque K/λ > 1;
ainsi que l’évolution du coefficient de variation I2 /I1 . Lorsque K/λ >> 1 l’option
est “hors la monnaie” son prix est faible. Le coefficient de variation dégénère lui
aussi quand K/λ augmente. La méthode de Monte Carlo classique n’est donc pas du
tout indiquée : par définition, φ(Z) est non nul avec la probabilité
" √ $
P Z ≥ [σ T ]−1 log(K/λ) .

Intuitivement, si K/λ >> 1, alors très peu de réalisations des v.a. (Zk ,k ≥ 0)
dépasseront ce seuil. En introduisant le drift θ, la quantité φ(Z + θ) sera non nulle
avec la probabilité " $
√
P Z ≥ [σ T ]−1 log(K/λ) − θ ;
√
et dans le cas θ = [σ T ]−1 log(K/λ), cette probabilité vaut 1/2 : autrement
√ dit, on
force les réalisations de (Z + θ) à être souvent au dessus du seuil [σ T ]−1 log(K/λ)
en introduisant une translation z −→ z + θ. Ainsi, la variance de l’échantillonneur
préférentiel devrait être plus faible; on peut montrer rigoureusement (cf. Exercice 55)
que c’est effectivement le cas.
115

Esperance 4

0
0.5 1 1.5 2 2.5 3
ratio K/λ

800
Coefficient de variation

600

400

200

0
0.5 1 1.5 2 2.5 3
ratio K/λ

Fig. 5.8 – Section 5.3.4: changement de loi cas gaussien. [haut] √ Evolution de I1 en
fonction du ratio K/λ. [bas] Evolution du coefficient de variation I2 /I1 en fonction
du ratio K/λ. λ est fixé et on fait varier le strike dans l’intervalle [0.9λ,3λ].

Par exemple, lorsque K = 150 (donc K/λ = 3.68), la formule de Black-Scholes

donne I1 = 6.26e − 07 et I2 = 4.57e − 04. L’estimateur classique de Monte Carlo
retourne la valeur 0 (aucun tirage de Z n’a dépassé le √ seuil σ −1 log(K/λ)). L’es-
timateur d’importance sampling appliqué avec θ = [σ T ]−1 log(K/λ) retourne la
valeur 6.27e − 07 (calculé avec 106 tirages) et un intervalle de confiance à 95% de
[6.21e − 07 ; 6.33e − 07].
• Règle 2 (technique de linéarisation) Supposons φ ≥ 0 et φ > 0 sur un
domaine D. On définit sur Rd la fonction F par : F (z) = ln φ(z) ave la convention
F = −∞ si z ∈ / D. On suppose de plus que F est C 1 . On a (cf. Exercice 55)
0 1
E [φ(Z)] = E φ(Z + θ) exp(−0.5θ $ θ − θ $ Z)

pour tout θ ∈ Rd . En utilisant le développement à l’ordre 1 de z 0→ F (z) au voisinage

de θ, on écrit
0 - .1
E[φ(Z)] = E[exp(F (Z))] = E exp(F (Z + θ)) exp −0.5θ $ θ − θ $ Z
0 - .1
1 E exp(F (θ) + Z $ ∇F (θ)) exp −0.5θ $ θ − θ $ Z

de sorte que si l’on prend θ solution de ∇F (θ) = θ, l’expression de droite ne dépend

plus de Z. La variance de la v.a. est donc nulle. Cela explique la règle suivante pour
déterminer le drift θ$

θ$ solution de {θ ∈ D,θ = ∇F (θ)} .

• Règle 3: Alignement des modes Le changement de loi optimal, lorsque φ ≥ 0

est g$ ∝ φf . Il n’y a pas de raisons que g$ soit de la forme N (θ,Id); néanmoins, on peut
116 Méthodes de réduction de variance

chercher le drift θ tel que le mode 4 de g$ et celui de gθ = N (θ,Id) coı̈ncident. On peut

montrer que lorsque f est la densité d’une v.a. Nd (0,Id) et que z 0→ exp(F (z)−1/2z $ z)
a un unique mode, cette approche revient à choisir le drift

θ$ solution de {θ ∈ D,θ = ∇F (θ)} .

+ Changement de loi général

Pour une densité f sur R, et tout θ tel que l’intégrale suivante existe, on définit
la fonction génératrice des cumulants (logarithme de la fonction génératrice des mo-
ments) : (
def
ψ(θ) = log exp(θx)f (x)dx = log Ef [exp(θX)] .
R
Notons D l’ensemble de définition de ψ. Pour tout θ ∈ D, on définit
( x
def
Fθ (x) = exp (θy − ψ(θ)) f (y)dy.
−∞

1. Montrer que Fθ définit une fonction de répartition sur R et préciser sa densité.

2. Donner l’expression de ψ dans le cas où f est la densité d’une v.a. N (0,1).
Commenter.
3. Soit Z un vecteur aléatoire à valeur Rd , dont les d composantes sont indépendantes
de même loi, de densité f . Expliciter la valeur du ratio d’importance.
Cette approche par la fonction génératrice des cumulants généralise ce que l’on a fait
pour le cas gaussien (considérer des changements de loi de la forme gθ (x) = Nd (θ,Id))
et peut être appliquée pour trouver un changement de loi adequat lorsque Z n’est
pas une loi gaussienne (cf. Exercice 58).

4. i.e. le point en lesquel la densité atteint son maximum

117

5.4 Echantillonnage par strate

5.4.1 Introduction
Soient des v.a. X,Z non indépendantes, définies sur un espace de probabilité
(Ω,A,P). L’objectif est de calculer E[φ(Z)] où φ est une application mesurable. X est
une v.a. “instrumentale” que l’on appellera ci-après “variable de stratification”.

Exemple

Supposons que l’on veuille calculer

 & ' 
d
def 1!
I = E exp(−rT ) Stk − K  ,
d
k=1 +

où (St ,t ≥ 0) est un brownien géométrique St = S0 exp((r − 0.5σ 2 )t + σWt) et (tk ,k ∈

{1, · · · ,d}) est une subdivision de l’intervalle de temps [0,T ] : tk = kT /d. Alors I =
E[φ(Z)] où Z est un vecteur gaussien Nd (0,Id) et φ est donnée par
   
S !d / k
! 
0
exp (r − 0.5σ 2 )kT d−1 + σ T /d Zj  − K .
d 
k=1 j=1
+

Dans ce cas, on prend souvent pour variable de stratification X = µ$ Z où µ ∈ Rd est

un vecteur normalisé µ$ µ = 1 (cf. section 5.4.6).

Notations

Soient U,V des v.a. à valeur resp. Rd et Rl définies sur un espace de probabi-
lité (Ω,A,P). On définit pour tout borélien A de Rl tel que P(V ∈ A) > 0, la loi
conditionnelle
def P(U ∈ B,V ∈ A)
P(U ∈ B|V ∈ A) = .
P(V ∈ A)

Pour A fixé, B 0→ P(U ∈ B|V ∈ A) est une probabilité sur Rd . L’espérance et la

variance sous cette loi sont donc définies par

def E [U V ∈A ]
E [U |V ∈ A] = ,
P(V ∈ A)

et
0 2 1 9 :
def 2
0 1 2 E U V ∈A E [U V ∈A ] 2
Var [U |V ∈ A] = E U |V ∈ A −(E [U |V ∈ A]) = − .
P(V ∈ A) P(V ∈ A)
118 Méthodes de réduction de variance

Principe de la méthode de stratification

La méthode de stratification repose sur la relation suivante : pour toute partition
(Ai ,i ∈ {1, · · · ,I}) de l’espace X des valeurs prises par X, on a

I
!
E [φ(Z)] = P(X ∈ Ai ) E[φ(Z)|X ∈ Ai ] .
i=1

Lorsque les probabilités {P(X ∈ Ai ),i ∈ {1, · · · ,I}} sont connues, que les espérances
E[φ(Z)|X ∈ Ai ] ne sont pas connues mais que l’on sait obtenir des réalisations de v.a.
de loi P(Z ∈ ·|X ∈ Ai ), un estimateur de E[φ(Z)] est donné par

I
! ni
1 ! (i)
P(X ∈ Ai ) φ(Zk )
ni
i=1 k=1

(i)
où les v.a. (Zk ,k ≤ ni ) sont i.i.d. de loi P(Z ∈ ·|X ∈ Ai ).
La mise en oeuvre de cette méthode nécessite
– de se donner un nombre I de strates et le strates : une partition (Ai ,i ∈ {1, · · · ,I})
de X,
– de choisir une v.a. X telle que P(X ∈ Ai ) soit calculable explicitement et telle
que l’on sache simuler des v.a. i.i.d. de loi P(Z ∈ ·|X ∈ Ai ).
– de choisir l’allocation i.e.le nombre de simulations ni que l’on fait sous la loi
P(Z ∈ ·|X ∈ Ai ), sous la contrainte que le nombre total de simulations est n
Dans la suite, nous nous donnons les strates (Ai ,i ∈ {1, · · · ,I}) et la v.a. de
stratification X vérifiant les propriétés ci-dessus. En revanche, nous allons envisager
plusieurs politiques d’allocation et comparer leur efficacité (en terme de réduction de
variance de l’estimateur associé).

Allocation
Définir une politique d’allocation, c’est se donner n1 , · · · ,nI tels que n1 +· · ·+nI =
n où ni est le nombre de tirages que l’on fait sous %Ila loi P(Z ∈ ·|X ∈ Ai ). C’est
équivalent à définir q1 , · · · ,qI tels que qi ≥ 0 et i=1 qi = 1, qui représentent la
proportion de tirages que l’on affecte à la strate i.
Plus précisément, on pose
i
! i−1
!
n1 = *nq1 + pour i > 1: ni = *n qj + − *n qj +
j=1 j=1

*·+ désigne la partie entière inférieure. On a bien n1 + · · · + nI = n. De plus, puisque

x−1 ≤ *x+ ≤ x, on a nqi −1 ≤ ni ≤ nqi +1. Donc |ni −nqi | ≤ 1 ou encore |ni /n−qi | ≤
(1/n): cela entraine ni /n ∼ qi quand n grand, confirmant ainsi l’interprétation de qi
en termes de proportion de tirages relatifs à la strate Ai .
119

On suppose ci-après que toutes les v.a. sont définies sur le même espace de pro-
babilité, et
A5 φ(Z) possède un moment d’ordre 2 (donc variance finie).
A6 P(X ∈ Ai ) est calculable explicitement et est strictement positif pour tout
élément Ai de la partition de X.

5.4.2 Définition de l’estimateur stratifié

(i)
Soient (Zk ,k ≥ 0,i ∈ {1, · · · ,I}) des v.a. indépendantes telle que pour tout
(i)
i ∈ {1, · · · ,I}, les v.a. (Zk ,k ≥ 0) ont même loi P(Z ∈ ·|X ∈ Ai ).
Soit une allocation (qi ,i ∈ {1, · · · ,I}). On définit l’estimateur

I
! ni
def 1 ! (i) def
µ̂n (q1:I ) = pi φ(Zk ) , où pi = P (X ∈ Ai ) .
ni
i=1 k=1

5.4.3 Biais et Variance de l’estimateur

def def
On pose µi = E[φ(Z)|X ∈ Ai ] et σi2 = Var[φ(Z)|X ∈ Ai ]; et Ȳn désigne l’estima-
teur de Monte Carlo usuel.

+ Biais
+ %ni ,
(i)
Pour tout i tel que ni > 0, E n−1 i k=1 φ(Zk ) = µi et par convention, quand
ni = 0, cette quantité vaut 0 (aucun tirage). Par suite,
!
E [µ̂n (qi:I )] = p i µi .
i∈{1,··· ,I},ni >0

L’estimateur est donc sans biais si ni > 0 pour tout i ∈ {1, · · · ,I}. En pratique,
on fait un minimum
% d’allocation
% dans chacune des strates (on prend donc ni =
max{nmin ; *n ij=1 qj + − *n i−1j=1 j +}).
q

+ Consistance

Pour i tel que ni > 0, par la loi des grands nombres pour des v.a. indépendantes,
lorsque n → +∞,
ni + , p.s.
1 ! (i)
E φ(Zk ) −→ E[φ(Z)|X ∈ Ai ] ,
ni
k=1

p.s. %
et donc µ̂n (q1:I ) −→ i∈{1,··· ,I},ni >0 pi E[φ(Z)|X ∈ Ai ].
120 Méthodes de réduction de variance

+ Variance
• Comme les tirages sont indépendants, on a (on suppose ni > 0 pour tout i;
sinon, restreindre l’ensemble d’indices de sommation)

I
! p2 i
Var [µ̂n (qi:I )] = Var [φ(Z)|X ∈ Ai ]
ni
i=1
I
! p2 I
! 9 :
1 1 1
= i
Var [φ(Z)|X ∈ Ai ] + p2i − Var [φ(Z)|X ∈ Ai ] .
n qi ni nqi
i=1 i=1

Puisque |nqi − ni | ≤ 1, on voit que le second terme est O(1/n2 ) tandis que le premier
terme est O(1/n). Dans la suite, on écrira simplement
I I
1 ! p2i 1 ! p2i 2
Var [µ̂n (qi:I )] = Var [φ(Z)|X ∈ Ai ] = σ , (5.7)
n qi n qi i
i=1 i=1

i.e. on négligera l’erreur d’arrondi (entre nqi et ni ).

• Allocation proportionnelle. Lorsque qi = pi i.e. quand l’allocation est propor-
tionnelle au poids de la strate i (pi = P(X ∈ Ai )), l’allocation est dite proportionnelle.
Dans ce cas, la variance devient
I
1 !
Var [µ̂n (pi:I )] = pi σi2 .
n
i=1

Or, d’une part,

Var[φ(Z)] = E[φ2 (Z)] − E[φ(Z)]2

I
& I
'2
! 0 1 !
2
= P(X ∈ Ai )E φ (Z)|X ∈ Ai − P(X ∈ Ai )E [φ(Z)|X ∈ Ai ]
i=1 i=1
I
& I
'2
! !
= pi {σi2 + µ2i } − p i µi . (5.8)
i=1 i=1

%
D’autre part, nVar[µ̂n (p1:I )] = Ii=1 pi σi2 . Donc en notant µM
n
C l’estimateur de Monte

Carlo usuel construit à partir de n v.a. i.i.d. de même loi que Z,

& I '2  2
! I
! I
! I
!
nVar[µ̂n (p1:I )]−nVar[µM C
n ]= p i µi − pi µ2i = − pi µi − p j µj  ≤ 0 .
i=1 i=1 i=1 j=1
(5.9)
Ainsi, l’estimateur stratifié avec allocation proportionnelle, est de variance plus faible
que l’estimateur de Monte Carlo usuel µM C
n . En conséquence, on peut toujours
121

construire un estimateur stratifié de variance plus faible que l’estimateur de Monte

Carlo classique.
• Allocation optimale. La variance de µ̂n (q1:I ) dépend de la politique d’allocation
q1:I . On peut donc chercher l’allocation optimale i.e. l’allocation qui rend minimale
la variance. On a
I I
& I '2 & I '2
! p2i 2 ! p2i 2 ! pi !
n Var[µ̂n (q1:I )] = σ = σ qi ≥ σi q i = p i σi ,
qi i qi2 i qi
i=1 i=1 i=1 i=1

où l’on a utilisé Jensen pour établir l’inégalité. La borne inférieure est indépendante
de l’allocation q1:I et elle est atteinte avec l’allocation donnée par
def p i σi
qi$ = %I .
j=1 pj σj

Pour cette allocation, la variance est minimale et vaut

& I
'2
1 !
$
Var[µ̂n (q1:I )] = p i σi .
n
i=1

En pratique, la variance intra-strate σi2 n’est pas connue. Dans ce cas, on approche
l’allocation optimale en remplaçant la variance σi2 par un estimateur consistant calculé
à partir d’un premier jeu de simulations. Des méthodes plus sophistiquées (et plus
performantes) sont basées sur des techniques adaptatives.

+ Interprétation de l’estimateur à allocation proportionnelle

De la relation (5.9) on déduit
 2
I
! I
! I
!
nVar[µM C
n ]= pi σi2 + p i  µi − p j µj  (5.10)
i=1 i=1 j=1

On reconnaı̂t dans le premier terme de (5.10), nVar(µ̂n (p1:I )) et ce terme représente

une variance intra-strate; dans le second terme, on reconnaı̂t une variance inter-strate.
Ainsi
Var(µM C
n ) = Var(µ̂n (p1:I )) + n
−1
(variance inter-strate) .
Par conséquent, l’estimateur stratifié à allocation proportionnelle élimine la variabi-
lité inter-strate et ne conserve que la variabilité intra-strates. L’estimateur stratifié
par allocation proportionnelle réduit d’autant plus la variance que Var(µ̂n (p1:I )) est
faible i.e. les variances intra-classes sont faibles; et par conséquent, d’autant plus que
%I " %I $2
i=1 pi µi − j=1 pj µj est fort i.e. la variabilité entre les moyennes des classes
est forte. Cette lecture donne des indications sur la façon de choisir les strates : il faut
choisir les strates de façon à ce que au sein de la strate i, la variabilité de la quantité
d’intérêt soit faible.
122 Méthodes de réduction de variance

+ Temps de simulation
Nous avons vu que
$
Var[µ̂n (q1:I )] ≤ Var[µ̂n (p1:I )] < Var[µM C
n ].

Nous avons défini l’allocation optimale comme celle qui minimise la variance de l’es-
timateur : le critère ne tient donc pas compte d’un éventuel coût de simulation qui
dépendrait de la strate considérée. Pour tenir compte de cet aspect, appelons τi le
temps d’obtention d’une réalisation d’une v.a. de loi P(Z ∈ ·|X ∈ Ai ) (τi est supposé
déterministe; sinon, le raisonnement reste valable en remplaçant τi par son espérance).
La simulation de ni variables dans la strate Ai coûte ni τi ∼ nqi τi unités de temps.
"% $−1
I
Donc en s unités de temps, on a simulé n = s q τ
i=1 i i variables. Par suite, on
s’intéresse à la limite (en loi) de la v.a.
I 7 I 8
J I ni
J ! ! pi !
Kn q i τi
(i)
φ(Zk ) − E[φ(Z)]
ni
i=1 i=1 k=1
& I '1/2 I
& ni
'
! ! pi √ 1 ! (i)
= q i τi √ nqi Yk − µi .
qi ni
i=1 i=1 k=1

En appliquant le TCL pour des variables i.i.d., en utilisant le fait que la somme
de gaussiennes indépendantes est une gaussienne, et puisque "% nqi ∼ $ni", %
la limite en$
I I p2i 2
loi de cette v.a. est une gaussienne centrée et de variance i=1 q i τ i i=1 qi i .
σ
La minimisation
% de cette variance par rapport aux variables (qi ,i ≤ I), sous les
contraintes Ii=1 qi = 1 et qi ≥ 0, conduit à
√
τi −1 pi σi
qi$ = %I √ −1 .
j=1 τj p j σj

L’allocation optimale est donc légèrement différente que celle que l’on a trouvé précédemment
et inclut le temps de calcul.

5.4.4 Intervalles de Confiance

• On a la décomposition

I ni
& '
√ √ ! 1 ! (i)
n (µ̂n (q1:I ) − E[φ(Z)]) = n pi φ(Zk ) − µi
ni
i=1 k=1
& ' I L :& ! '
I
! pi √ 1 !
n i
(i)
! 9√ ni 1 i
n
(i)
= √ ni φ(Zk ) − µi + pi n− φ(Zk ) − µi .
qi ni qi ni
i=1 k=1 i=1 k=1
123

Or & '
ni
√ 1 ! (i) D - .
ni φ(Zk ) − µi −→ N 0,σi2
ni
k=1
" % $
(i)
et les blocs n1i nk=1
i
φ(Zk ),i ∈ {1, · · · ,I} sont indépendants. Par suite, le premier
terme converge en loi vers & I '
! p2
i 2
N 0, σ .
qi i
i=1
Quant au second terme, il tend p.s. vers 0. Donc
& I
'
√ D
! p2
n (µ̂n (q1:I ) − E[φ(Z)]) −→ N 0, i
σi2 .
qi
i=1

D’où un IC à (1 − δ)% pour E[φ(Z)] est donné par

) *
σ(q1:I ) σ(q1:I )
µ̂n (q1:I ) − √ z1−δ/2 ; µ̂n (q1:I ) + √ z1−δ/2 , (5.11)
n n
où z1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi gaussienne centrée réduite, et
def % p2
où l’on a posé σ 2 (q1:I ) = Ii=1 qii σi2 .
• Lorsque les variances intra-strates σi2 sont inconnues, on peut estimer σ 2 (q1:I )
par exemple de la façon suivante: on estime chaque variance intra-strate et on obtient
 & '2 
! I
p 2  1
ni
! 1
ni
! 
def (i) (i)
s2n (q1:I ) = i
φ(Zk ) − φ(Zl ) ,
qi  ni − 1 ni 
i=1 k=1 l=1

Il s’agit d’un estimateur consistant de σ 2 (q1:I ) et le théorème de Slutsky montre que

l’IC (5.11) reste valable en remplaçant la variance exacte σ 2 (q1:I ) par son estimation
s2n (q1:I ).

5.4.5 Post-Stratification
La méthode de post-stratification permet de reproduire (asymptotiquement) la
réduction de variance de la méthode de stratification à allocation proportionnelle,
lorsqu’il est difficile de simuler sous la loi conditionnelle de Z sachant {X ∈ Ai }. On
suppose en revanche que l’on sait obtenir des réalisations des couples ((Xk ,Zk ),k ≥ 0)
i.i.d. de même loi que le couple (X,Z).

Définition de l’estimateur
On pose pour tout i ∈ {1, · · · ,I},
n
! n
!
def def
Ni = Xk ∈Ai , Si = φ(Zk ) Xk ∈Ai ,
k=1 k=1
124 Méthodes de réduction de variance

resp. le nombre de v.a. qui tombent dans la strate i et la somme des v.a. Zk telles
que la variable de stratification Xk tombe dans la strate i. On définit
I
!
def Si
µ̂ps
n = pi ,
Ni
i=1

avec la convention Si /Ni = 0 quand Ni = 0.

Interprétation
Avec les notations introduites, l’estimateur usuel de Monte Carlo vérifie
n I I
1! 1! ! Ni Si
µ̂M
n
C
= φ(Zk ) = Si =
n n n Ni
k=1 i=1 i=1

L’estimateur usuel affecte le même poids (1/n) à toutes les réalisations φ(Zk ),
tandis que l’estimateur post-stratifié affecte le poids pi /Ni aux réalisations φ(Zk )
telles que la variable de stratification associée Xk tombe dans la classe i : si pi < Ni /n
(càd npi < Ni , la strate i est sur-représentée), les variables ont moins de poids tandis
que si pi > Ni /n (càd npi > Ni , la strate i est sous-représentée), les variables sont
sur-pondérées.

Variance asymptotique
p.s.
Quand n → +∞, la loi des grands nombres entraine : Ni /n −→ pi = P(X ∈ Ai )
p.s.
et Si /n −→ E[φ(Z) X∈Ai ]. Donc

I
!
p.s.
µ̂ps
n −→ pi P(X ∈ Ai )−1 E[φ(Z) X∈Ai ] = E[φ(Z)] ,
i=1

et µ̂ps
n est un estimateur consistant de E[φ(Z)].
En appliquant la delta-méthode, on peut montrer la convergence suivante
9 :
√ S1 S2 Sd D
n − µ1 , − µ2 , · · · , − µd −→ Nd (0,Σ) ,
N1 N2 Nd

où
σi2
Σi,i = ,
pi
et pour i 3= j,
0 1
Σi,j ∝ Cov φ(Z) X∈Ai ,φ(Z) X∈Aj =0.
Par suite,
√ D - 2.
n (µ̂ps
n − E[φ(Z)]) −→ N 0,σps ,
125

avec
I
! I
!
2
σps = p2i Σi,i = pi σi2 .
i=1 i=1

La variance asymptotique σps 2 est donc égale à celle de l’estimateur stratifié avec

allocation proportionnelle σs2 (p1:I ). En ce sens, l’estimateur post-stratifié hérite de la

même efficacité que l’estimateur stratifié : ce résultat est asymptotique (donc pour n
grand).
En pratique, il n’est pas facile de déterminer à partir de quelle valeur de n, on peut
considérer que les deux estimateurs sont comparables en termes de réduction de va-
riance induite : cela dépend du nombre de strates, de leurs poids, · · · . En pratique, on
préfèrera l’échantillonnage par strate et on utilisera la méthode de post-stratification
lorsque simuler sous la loi conditionnelle de Z sachant {X ∈ Ai } n’est pas simple.

5.4.6 Exemples
+ Simulation de v.a. par stratification
• de v.a. de loi N (0,σ 2 ) Pour simuler une v.a. X à valeur dans X, on peut
simuler des réalisations sous la loi conditionnelle X|X ∈ Ai et leur affecter un poids
égal à pi = P(X ∈ Ai ) (pour tout i ∈ {1, · · · ,I}. On applique cette technique pour
obtenir des réalisations d’une v.a. de loi N (0,σ 2 ); on considère I strates équiprobables
de sorte que pi = 1/I, et que tous les tirages sont affectés du même poids.
Pour mettre en oeuvre la méthode, il faut déterminer des lois de la forme P(X ∈
·|X ∈ [ai ,bi ]) . On a

P(X ∈ B ∩ [ai ,bi ])

P(X ∈ B|X ∈ [ai ,bi ]) = .
P(X ∈ [ai ,bi ])

Ainsi cette loi possède une densité égale à

exp(−0.5σ −2 x2 )
# bi [ai ,bi ] (x) .
−2 t2 ) dt
ai exp(−0.5σ

Il est possible d’obtenir des réalisations de v.a. ayant cette loi par transformation de
v.a. uniformes (cf. Exercice 59)).
Sur la figure 5.9, on visualise la position de I = 20 strates équiprobables lorsque
2
σ = 2. Sur la figure 5.10, on compare la méthode de stratification (à droite) à
la technique d’échantillonnage classique (à gauche). On prend σ 2 = 2, I = 100,
n = 500 et on alloue les tirages dans les strates selon l’allocation proportionnelle. Les
histogrammes utilisent 25 subdivisions.
On voit que l’histogramme obtenu en faisant de la simulation par strate est
meilleur que celui obtenu en tirant des v.a. de loi N (0,σ 2 ). Par suite l’estimation
de E[Y ] par l’estimateur stratifié sera plus efficace que celui donné par l’estimateur
de Monte Carlo classique.
126 Méthodes de réduction de variance

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Fig. 5.9 – Section 5.4.6. Densité d’une gaussienne N (0,2) et 20 strates équiprobables.

60 60

50 50

40 40

30 30

20 20

10 10

0 0
−5 0 5 −5 0 5

Fig. 5.10 – Section 5.4.6. Tirages de v.a. gaussiennes, par la méthode

d’échantillonnage indépendant classique (gauche) et la méthode de stratification avec
allocation proportionnelle (droite).
127

• Simulation d’un brownien par stratification terminale Nous allons simu-

ler des trajectoires d’un brownien standard sur [0,T ], par la méthode de stratification
à allocation proportionnelle. Nous prenons pour variable de stratification, la valeur
terminale du brownien WT . Il s’agit d’une v.a. gaussienne N (0,T ).
On considère une subdivision régulière de [0,T ] en d intervalles, définis par les points
t0 = 0 < t1 < · · · < td = T et on simule (Wti ,i ≤ d − 1) par la méthode de pont
brownien : on rappelle que conditionnellement à (Wti−1 ,WT ), la loi de Wti est

9 :
T − ti ti − ti−1 (T − ti )(ti − ti−1 )
N Wti−1 + WT , .
T − ti−1 T − ti−1 T − ti−1

Sur la figure 5.11, on trace n = 20 trajectoires de brownien simulées par la

méthode de stratification. On considère I = 10 strates équiprobables; on choisit
l’allocation proportionnelle de sorte que pi = 1/I. On prend T = 1 et on considère
une subdivision régulière d = 50 (donc ti = i/d).
Cette méthode de simulation permet de réduire la variance d’estimateurs de quan-
tités dépendant de la valeur terminale du brownien simulé. Plus généralement, cette
technique de simulation par stratification terminale est indiquée pour simuler des
trajectoires de processus plus complexes que le brownien, et est recommandée pour
réduire la variance des procédures de Monte Carlo pour le pricing d’options dépendant
notamment des valeurs terminales de processus (introduits pour la modélisation du
prix des sous-jacents par exemple).

1.5

0.5

−0.5

−1

−1.5

−2
0 10 20 30 40 50 60

Fig. 5.11 – Section 5.4.6. Trajectoires d’un brownien par la méthode de stratification
terminale : 10 strates (marquées en trait discontinu) et 2 trajectoires par strates.
128 Méthodes de réduction de variance

+ Choix de la direction de stratification dans le cas gaussien multidimen-

sionnel
Dans de nombreuses applications, on souhaite calculer I = E[φ(Z)] où Z ∼
Nd (0,Id). Dans ce cas, on peut mettre en oeuvre un estimateur stratifié en prenant
pour variable de stratification X = µ$ Z pour un vecteur µ ∈ Rd tel que µ$ µ = 1. On
a alors X ∼ N (0,1). Il est facile de simuler des v.a. sous la loi conditionnelle P(X ∈
·|µ$ X ∈ [ai ,bi ]) à partir de générateurs de v.a. N (0,1) et U([0,1]) (cf. Exercice 61).
Le choix de la direction de stratification µ n’est pas sans importance sur la
réduction de variance de l’estimateur stratifié par rapport à une méthode de Monte
Carlo standard. Nous présentons ci-après deux résultats discutant du choix optimal
de la direction µ.
• Méthode de Glasserman et al. (1999) Glasserman, Heidelberger et Shaha-
buddin (1999) montrent que quand le nombre de strates I tend vers +∞ la variance
de l’estimateur stratifié à allocation proportionnelle tend vers
( &( =( >2 '
1
√ exp(−0.5x2 ) φ2 (z)fx (z) dz − φ(z)fx (z) dz dx , (5.12)
2π R R d Rd

où fx (z) est la densité de Nd (x µ; Id − µµ$ ) i.e. la densité de la loi conditionnelle

P(Z ∈ ·|µ$ Z = x). Cette variance limite est une fonction de µ et on peut définir la
direction optimale de stratification comme la direction µ qui minimise cette variance
limite.
Résoudre ce critère pour toute fonction φ n’est pas possible. Dans le cas où φ(z) =
exp(0.5z $ Az) pour une matrice A symétrique dont la plus grande valeur propre est
strictement inférieure à 1/2 (condition nécessaire pour que φ(Z) possède un moment
d’ordre 2), Glasserman, Heidelberger et Shahabuddin montrent que cette variance
(5.12) est minimale en µ égal
9 :2
$ λj
vj ,
! j ∈ argmaxj∈{1,··· ,d} ,
1 − λj
où (λi ,i ≤ d) sont les valeurs propres de la matrice A associées aux vecteurs propres
(vi ,i ≤ d).
Ils proposent d’étendre ce calcul valable pour des fonctions φ très spécifiques,
à des fonctions φ plus générales, de la façon suivante. En utilisant la technique de
linéarisation à l’ordre 2 (cf. section 5.3.4), on a
0 1
E [φ(Z)] ≈ exp(−0.5θ $ θ) E exp(F (θ) + Z $ ∇F (θ) + 0.5Z $ ∇2 F (θ)Z − θ $ Z) .

Ainsi, il est préconisé

– de combiner échantillonnage d’importance et stratification.
– d’appliquer l’échantillonnage d’importance avec θ solution de {θ : φ(θ) > 0,θ =
∇F (θ)}
– d’appliquer la stratification avec µ donné par le critère ci-dessus en prenant
A = ∇2 F (θ$ ).
129

• Méthode de Etoré et al. (2009) Choisir une partition de R en I inter-

valles consécutifs, revient à choisir une densité g et à définir les strates Ai comme les
quantiles d’ordre k/I de cette# loi. Choisir une politique d’allocation revient à choisir
une densité χ telle que qi = Ai χ(x)dx. En conséquence, la variance de l’estimateur
stratifié est une fonction de I,g,χ et µ.
Lorsque le nombre de strates tend vers +∞, Etoré-Fort-Jourdain-Moulines ont
montré que n Var[µ̂n (g,χ,I,µ)] converge vers
( &( =( >2 '
1 exp(−x2 )
φ2 (z)fx (z) dz − φ(z)fx (z) dz dx ,
2π R χ(x) Rd Rd

où fx désigne la densité de la densité de la loi conditionnelle P(Z ∈ ·|µ$ Z = x).

Une première remarque est que cette quantité est indépendante de g i.e. de la façon
dont les strates sont définies. La seconde remarque est que cette quantité peut être
minimisée en χ (à µ fixé) et qu’en ce sens, l’allocation (dite) optimale est donnée par
M =( >2
(
$ 2
χ ∝ exp(−0.5x ) φ2 (z)f x (z) dz − φ(z)fx (z) dz .
Rd Rd

Pour ce choix de l’allocation, la variance devient

M =( >2
( (
1 2 2
√ exp(−0.5x ) φ (z)fx (z) dz − φ(z)fx (z) dz dx , (5.13)
2π R Rd Rd

(et on peut établir par Jensen que cette quantité est strictement inférieure à (5.12) -
rappelons que (5.12) a été obtenu pour l’allocation proportionnelle, alors que dans le
cas présent, on a pris la “meilleure” allocation χ$ ).
En pratique χ$ n’est pas calculable explicitement; mais on montre que la variance
asympotique (quand I → +∞) de l’estimateur stratifié à allocation optimale q $ est
(5.13). En quelque sorte, ce résultat nous dit que quand I est grand, la variance de
l’estimateur stratifié à allocation optimale q $ est une approximation de (5.13). La
direction optimale µ$ est définie comme la direction qui minimise (5.13): malheu-
reusement elle n’est pas calculable en pratique. Pour trouver µs tar, on peut donc
chercher la direction µ qui minimise la variance de l’estimateur stratifié à allocation
optimale q $ .
Cette résolution, là encore non explicite, peut néanmoins être approchée en met-
tant en oeuvre un algorithme stochastique itératif qui a pour but (cf. l’article de
Etoré et al. (2008) pour plus de détails)
– d’estimer l’allocation optimale
– de trouver la direction optimale µ$
en même temps, puisque l’allocation optimale dépend de la direction de stratification,
et que réciproquement, pour déterminer la direction de stratification optimale il faut
disposer de l’allocation optimale.
130 Méthodes de réduction de variance

• Application au calcul du prix d’options On souhaite calculer la prime

asiatique &
d
' 
1 !
I = exp(−rT ) E  Stk − K 
d
k=1 +
où tk = kT /d et le sous-jacent {St ,t ≥ 0} suit le modèle de BS
St = S0 exp((r − 0.5σ 2 )t + σWt ) .
Dans les applications numériques, on prend
S0 = 50 r = 0.05 T =1 d = 16 σ = 0.1 K = 45
Sur la figure 5.12[gauche], on trace l’évolution de l’estimation de la direction optimale
µ en fonction du nombre d’itérations de l’algorithme; on a initialisé cet algorithme
itératif en µ(0) ∝ (1, · · · ,1). A droite-haut, on trace l’évolution de I et l’évolution de la
variance de l’estimateur stratifié en fonction du nombre d’itérations. La valeur limite
de cette variance est 0.016. Au fur et à mesure des itérations, l’algorithme envisage des
directions de stratification µ(t) ; on reporte sur la figure 5.12[droite, bas] l’estimation
de la variance de l’estimateur de stratification calculé en prenant µ = µ(t) . On voit
que cette variance diminue au fur et à mesure des itérations: les directions successives
sont en effet construites par un algorithme de gradient stochastique, afin de converger
vers la direction qui minimise la variance de l’estimateur stratifié associé.

6.056

0.45
6.055

0.4
6.054

0.35
6.053

0.3
6.052
0 10 20 30 40 50 60 70 80 90 100
0.25 Number of iterations

0.2 0.2

0.15
0.15

0.1
0.1
0.05

0.05 0

0 −0.05
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Number of iterations Number of iterations

Fig. 5.12 – Section 5.4.6.[gauche] Directions de stratification successives t 0→ µ(t) .

µ(0)
√ est propotionnel à (1, · · · ,1) de sorte que les d courbes partent du même point
1/ d. Par convention, la première composante de µ(t) est positive. [droite, haut]
estimations successsives de la quantité d’intérêt. [droite, bas] valeurs successives de
la variance; la valeur limite est 0.0016.

La réduction de variance par rapport à la méthode de Monte Carlo classique

– est d’un facteur 2 500 par la méthode de stratification adaptative proposée par
Etoré et al.
131

– est d’un facteur 5 000 par la méthode de stratification adaptative proposée par
Etoré et al. combinée avec de l’échantillonnage d’importance.
– est d’un facteur 500 par la méthode de stratification proposée par Glasserman
et al. (qui, par définition, est toujours combinée avec de l’échantillonnage d’im-
portance).
Attention, par définition des méthodes, Glasserman et al. considèrent un estimateur
stratifié à allocation proportionnelle, tandis que Etoré et al. considèrent un estimateur
stratifié à allocation optimale.
132 Méthodes de réduction de variance

5.5 Méthode des variables antithétiques

5.5.1 Introduction
Nous avons vu beaucoup d’exemples où l’on souhaite approcher par une méthode
de Monte Carlo une quantité de la forme E [φ(Z)] avec Z ∼ Nd (0,Id) (cf. l’exemple
d’introduction de la section 5.4). L’estimation d’une telle quantité par une méthode
de Monte Carlo nécessite la simulation de v.a. (Zk ,k ≥ 0) i.i.d. de loi Nd (0,Id). Or,
Zk et −Zk ayant même loi; donc, on peut à partir des v.a. (Zk ,k ≥ 0) construire une
somme de Monte-Carlo avec 2n termes :
n
!
−1
(2n) {Ξ(Zk ) + Ξ(−Zk )} .
k=1

Certes ces 2n termes ne sont plus indépendants, mais cette approche définit néanmoins
un estimateur de variance plus faible que le premier.

Principe de la méthode des variables antithétiques

On désire estimer E[φ(Z)]. Considérons deux estimateurs de E[φ(Z)] de la forme

n
! n
!
def −1 def −1
Ȳn = n φ(Zk ) , µ̂n = (2n) {φ(Zk ) + φ(L(Zk ))} ,
k=1 k=1

où
– (Zk ,k ≥ 0) est une suite de v.a. i.i.d. à valeurs Rd de même loi que Z
– L désigne une transformation de Rd dans Rd telle que L(Z) a même loi que Z.
Intuitivement, si φ(Zk ) est très éloigné de E[φ(Z)] entrainant une grande ’variabilité’,
on préférera utiliser 0.5{φ(Zk ) + φ ◦ L(Zk )} si cette moyenne est plus proche de
E[φ(Z)]. Autrement dit, µ̂n sera d’autant plus intéressant que φ(Zk ) et φ ◦ L(Zk ) “se
compensent” i.e. sont négativement corrélés.

On suppose ci-après que toutes les v.a. sont définies sur le même espace de pro-
babilité, et
A7 φ : Rd → R mesurable telle que Var[φ(Z)] < +∞.
A8 L une transformation (mesurable) de Rd dans Rd telle que L(Z) a même loi
que Z, et L ◦ L = Id.
Par exemple
– si Z est une v.a. gaussienne centrée réduite, L peut être toute transformation
orthogonale (et en particulier L(z) = −z convient).
– Si Z est une v.a. uniforme sur [0,1], L(z) = 1 − z vérifie les conditions.
133

5.5.2 Définition de l’estimateur

Soit (Zk ,k ≥ 0), des v.a. i.i.d. de même loi que Z. On définit l’estimateur
n
!
def −1
µ̂n = (2n) {φ(Zk ) + φ(L(Zk ))} .
k=1

5.5.3 Biais et variance de l’estimateur

+ Biais
Comme Z et L(Z) ont même loi, E[φ(Z)] = E[φ ◦ L(Z)]. Par suite
E [µ̂n ] = E[φ(Z)]
et l’estimateur est sans biais.

+ Estimateur consistant
Par la loi des grands nombres pour des v.a. i.i.d. on a
!n !n
p.s. p.s.
n−1 φ(Zk ) −→ E[φ(Z)] n−1 φ ◦ (Zk ) −→ E[φ ◦ L(Z)] = E[φ(Z)]
k=1 k=1
p.s.
de sorte que µ̂n −→ E[φ(Z)].

+ Variance
• Variance de l’estimateur. En utilisant l’indépendance des v.a. (Zk ,k ≥ 0) et le
fait que Z et L(Z) ont même loi, il vient
1
Var [µ̂n ] = Var [φ(Z) + φ ◦ L(Z)]
4n
1
= {Var [φ(Z)] + Var [φ ◦ L(Z)] + 2Cov(φ(Z),φ ◦ L(Z))}
4n
1
= {Var [φ(Z)] + Cov(φ(Z),φ ◦ L(Z))} .
2n
• Variance minimale. Puisque Var[φ(Z)] = Var[φ ◦ L(Z)], on a
Var[φ(Z)] - .
Var [µ̂n ] = 1 + ρφ(Z),φ◦L(Z) .
2n
Elle est donc minimale (et égale à zéro) ssi
φ ◦ L(Z) − E[φ(Z)] = −(φ(Z) − E[φ(Z)])
ce qui n’a bien sûr aucun intérêt en pratique, puisque cela équivaut à 0.5{φ(Z) + φ ◦
L(Z)} = E[φ(Z)].
En revanche, cette discussion montre que la méthode est d’autant plus efficace
que la transformation L est telle que φ ◦ L(z) est une fonction presque affine de φ(z)
de pente négative (la proximité se mesurant ici par la corrélation de φ(Z) et φ ◦ L(Z)
proche de −1).
134 Méthodes de réduction de variance

+ Comparaison avec l’estimateur de Monte Carlo classique

Pour cette méthode %de réduction de variance, il est d’usage de considérer que le
−1 n
temps de calcul% de n k=1 φ ◦ L(Zk ) est du même ordre que celui nécessaire au
−1 n
calcul de n k=1 φ(Zk ).
En conséquence, on préfereral’estimateur par variable antithétique à l’estimateur
de Monte Carlo classique (de variance n−1 Var[φ(Z)]) lorsque (cf. Section 5.1.2)
2 Var [µ̂n ] < n−1 Var[φ(Z)] ;
i.e.
Cov(φ(Z),φ ◦ L(Z)) < 0 . (5.14)
Nous donnerons dans l’exercice 63 des conditions suffisantes sur le couple (φ,L)
garantissant cette condition.

+ Décomposition de la variance
Toute fonction φ peut se décomposer en une partie “L-symétrique” φ0 et une
partie “L-anti-symétrique” φ1 données par
def φ(z) + φ ◦ L(z) def φ(z) − φ ◦ L(z)
φ0 (z) = , φ1 (z) = .
2 2
• Ces deux composantes sont orthogonales (i.e. décorrélées). En effet, puisque
E[φ1 (Z)] = 0,

Cov [φ0 (Z),φ1 (Z)] = E [(φ0 (Z) − E[φ0 (Z)]) (φ1 (Z) − E[φ1 (Z)])]
= E [(φ0 (Z) − E[φ0 (Z)]) φ1 (Z)]
= E [φ0 (Z) φ1 (Z)] − E[φ0 (Z)] E[φ1 (Z)]
1 0 1
= E [φ0 (Z) φ1 (Z)] = E φ2 (Z) − φ2 (L(Z)) = 0 ,
4
où l’on a utilisé l’identité en loi de Z et L(Z) dans la dernière égalité.
• Cette orthogonalité implique la décomposition de variance suivante
Var[φ(Z)] = Var[φ0 (Z)] + Var[φ1 (Z)] .
En observant que Var[Ȳn ] = n−1 Var[φ(Z)] et Var[µ̂n ] = n−1 Var[φ0 (Z)], on peut donc
écrire que
Var[Ȳn ] = Var[µ̂n ] + Var[φ1 (Z)] ,
et affirmer que
1. la variance de µ̂n est toujours inférieure à celle de l’estimateur usuel Ȳn .
2. si les transformations (φ,L) sont telles que φ = φ1 (càd φ(z) = −φ ◦ L(z)), alors
la variance de l’estimateur µ̂n est nulle. Si on est dans ce cadre, on a E[φ(Z)] = 0
et donc il n’est pas utile de recourir aux méthodes de Monte Carlo · · · .
3. si les transformations (φ,L) sont telles que φ1 = 0 (i.e. φ = φ0 ) alors la méthode
des variables antithétiques n’apporte rien en terme de réduction de variance.
135

5.5.4 Intervalles de confiance

Les variables (0.5{φ(Zk ) + φ ◦ L(Zk )},k ≥ 0) sont i.i.d. et de variance finie. Le
TCL pour de telles variables affirme que
& n
'
√ 1 ! D
n {φ(Zk ) + φ ◦ L(Zk )} − E[φ(Z)] −→ N (0,Var {φ(Z) + φ ◦ L(Z)} /4)
2n
k=1

On en déduit alors un intervalle de confiance à (1 − α)% pour la quantité d’intérêt

E[φ(Z)] donné par
) *
σVA σVA
µ̂n − zα/2 √ ; µ̂n + zα/2 √ ,
n n
où zα/2 désigne le quantile d’ordre 1 − α/2 d’une gaussienne centrée réduite et

def /
σVA = 0.5 Var [φ(Z) + φ ◦ L(Z)] .

2 n’est pas connue, on peut l’approcher par l’estimateur empirique

Si la variance σVA
usuel. Dans ce cas, l’application du théorème de Slutsky montre que l’intervalle de
confiance ci-dessus reste valable, en remplaçant σVA par son estimateur.

5.5.5 Généralisation
Nous avons jusqu’ici supposé que L◦L = Id. Si il existe un indice p tel que Lp = Id
où Lp désigne le p-ième itéré de L, alors on peut définir un nouvel estimateur par
n
def 1 !- .
µ̂(p)
n = φ(Z) + φ ◦ L(Z) + · · · + φ ◦ Lp−1 (Z) .
pn
k=1

Les discussions précédentes peuvent s’étendre aisément. En particulier,

(p)
• on peut montrer que Var[µ̂n ] ≤ Var[Ȳn ] en décomposant φ en une composante
symétrique et une composante anti-symétrique “orthogonales” :
p−1
def1! def
φ0 (z) = φ◦Lk (z) , φ1 (z) = φ(z)−φ0 (z) , Cov[φ0 (Z),φ1 (Z)] = 0 .
p
k=0

(p)
• on préférera l’estimateur µ̂n à l’estimateur usuel Ȳn dès lors que
+ , 0 1
p Var µ̂(p)
n < Var Ȳn ,

où le facteur multiplicatif p est introduit pour tenir compte du coût de calcul
(on suppose implicitement que le coût de calcul des transformations Lk z ne
dépend pas de k).
136 Méthodes de réduction de variance

5.5.6 Exemples
+ Trouver une transformation L vérifiant (5.14), cas Z ∈ R
• Règle. Si Z est une v.a. réelle, (5.14) est vraie dès que les deux conditions
suivantes sont vérifiées
1. z 0→ φ(z) est une fonction croissante,
2. et z 0→ φ ◦ L(z) est une fonction décroissante.
(cf. Exercice 63) Un autre jeu de conditions suffisantes est obtenu en supposant φ
décroissante et φ ◦ L croissante.
Autrement dit, on demande à φ d’être monotone et à L de transformer la mono-
tonie. Les transformations L(z) = −z ou L(z) = 1 − z transforment la monotonie.
• Exemple. On se place dans un modèle de Black-Scholes : le prix de l’actif
sous-jacent est donné par
- .
St = S0 exp {r − 0.5σ 2 }t + σWt ,
def
où (Wt ,t ≥ 0) est un brownien standard. On
√ cherche à calculer I = exp(−rT )E [(ST − K)+ ].
En remarquant que WT a même loi que T Z où Z ∼ N (0,1), cette quantité s’écrit
E[φ(Z)] où la fonction φ est donnée par
" " √ $ $
φ(z) = exp(−rT ) S0 exp {r − 0.5σ 2 }T + σ T z − K .
+

Alors z 0→ φ(z) est croissante. Comme la loi de Z est symétrique, on peut prendre
L(z) = −z et on vérifie bien que φ ◦ L est décroissante. Ainsi,

Cov [φ(Z) ,φ ◦ L(Z)] < 0 .

Application On calcule le prix d’un call, lorsque r = 0.05, σ = 0.3, T = 0.25,

S0 = 50 et K = 45. La valeur exacte est 6.43. Sur la figure 5.13[gauche], on visualise
les points de coordonnées (φ(Z),φ(−Z)) lorsque Z ∼ N (0,1). A droite (haut), on
montre l’évolution des estimateurs de Monte Carlo usuel Ȳ2n , et de l’estimateur par
variables antithétiques µ̂n en/fonction de n; on montre aussi (bas), l’évolution de
l’estimation des écarts-types Var(φ(Z)) et σVA .

+ Trouver une transformation L vérifiant (5.14), cas Z ∈ Rd

• Règle. Soient
1. (Zk ,k ≤ d) des v.a.r. indépendantes.
2. φ,φ̃ : Rd → R, mesurables et resp. croissante et décroissante en chacune de leurs
coordonnées. 5
5. φ : Rd → R est croissante en chacune de ses coordonnées ssi pour tout i ∈ {1, · · · ,d},
x1 , · · · ,xi−1 ,xi+1 , · · · ,xd et t,u, on a
(t − u) {φ(x1 , · · · ,xi−1 ,t,xi+1 , · · · ,xd ) − φ(x1 , · · · ,xi−1 ,u,xi+1 , · · · ,xd )} ≥ 0 .
137

6.5
6.4
50
6.3
6.2
40 6.1
6
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2
30 4
x 10
8
20
6

10
4

0 2
0 5 10 15 20 25 30 35 40 45 50 50 100 150 200 250 300 350 400 450 500

Fig. 5.13 – Section 5.5.6. [gauche] Points de coordonnées (φ(Z),φ ◦ L(Z)).

[droite,haut] Estimation de I par l’estimateur de Monte Carlo Ȳ2n (en rouge, trait
plein) et par l’estimateur par Variable antithétique µ̂n (en bleu, points), en fonction
de n. La vraie valeur (I = 6.43)/est indiquée (noir, pointillés). [droite, bas] Evolution
de l’estimation des écart-types Var[φ(Z)] et σVA en fonction du nombre de points
n.

On suppose de plus que φ(Z1 , · · · ,Zd ) et φ̃(Z1 , · · · ,Zd ) ont même loi. Alors [cf.
exercice 63] + ,
Cov φ(Z1 , · · · ,Zd ) ,φ̃(Z1 , · · · ,Zd ) ≤ 0 . (5.15)

En particulier, si L : Rd → Rd est une transformation mesurable telle que

1. L(Z1 , · · · ,Zd ) et (Z1 , · · · ,Zd ) ont même loi,
2. et z 0→ φ(L(z)) est décroissante en chacune de ses coordonnées,
alors la condition (5.14) est vérifiée.
• Exemple. Prix d’une option européenne asiatique. On cherche à estimer
& ' 
d
!
def 1
I = exp(−rT )E  Stk − K  ,
d
k=1 +

où (St ,t ≥ 0) est un brownien géométrique et t0 = 0 < t1 < · · · < td = T .

On a (cf. l’exemple d’introduction section 5.4) I = E[φ(Z)] où Z ∼ Nd (0,Id). On
peut vérifier que φ est une fonction croissante en chacune de ses coordonnées. Donc
on peut appliquer la méthode des variables antithétiques en considérant par exemple
la transformation L(z) = −z.
138 Méthodes de réduction de variance

5.6 Exercices
Exercice 51 (Méthode de Kemna et Vorst pour l’étude des options asiatiques). On
considère le payoff dans une option asiatique de la forme
) 9 ( T :*
def −1
I = E φ T Ss ds
0

où (St ,t ≥ 0) suit un modèle de Black-Scholes

- .
St = S0 exp (r − 0.5σ 2 )t + σWt ,

et φ est une fonction mesurable, croissante, φ ≥ 0.

1. (a) Montrer que
9 ( T : ( T
def 2 −1 −1
XT = S0 exp 0.5(r − 0.5σ )T + T σ Ws ds ≤T Ss ds .
0 0
(5.16)
(b) En déduire que E[φ(XT )] ≤ I.
2. (a) Montrer que
( T ( T
Ws ds = (T − s)dWs .
0 0
#T
(b) En déduire l’espérance et la variance de 0 Ws ds.
(c) Montrer que E[exp(−rT )(XT − K)+ ] peut se calculer à l’aide de la formule
de Black-Scholes (on précisera les paramètres).
3. En pratique, pour # T calculer par simulation une option asiatique, on doit discrétiser
−1
l’intégrale T 0 Ss ds en temps aux instants t1 , · · · ,tM (l’objectif de ce cha-
pitre n’est pas de discuter de la discrétisation optimale):
(a) Que devient l’expression de la prime en tenant compte de cette approxi-
mation?
(b) En adaptant le raisonnement ci-dessus, proposez une variable de contrôle
dans le cas où φ est un call φ(x) = exp(−rT )(x − K)+ .
(c) Indiquez le calcul d’un estimateur par variable de contrôle pour le calcul
de cette prime: on précisera sa mise en oeuvre à partir d’un générateur de
v.a. gaussiennes N (0,1) ainsi que le calcul d’un intervalle de confiance à
95%.
Exercice 52 (Calcul itératif du coefficient b$ dans l’estimateur par variables de contrôle).
Soit ((Xk ,Yk ),k ≥ 0) une suite de couples aléatoires indépendants et de même loi que
(X,Y ). On note Fk la tribu engendrée par le passé du processus ((Xk ,Yk ),k ≥ 0):
def
Fk = σ(Xl ,Yl ,l ≤ k).
Soit {bk ,k ≥ 0} une suite de v.a. réelles adaptée i.e. bk ∈ Fk . On suppose que
def Cov(X,Y )
bk −→k→+∞ b$ = p.s. et dans L2 .
Var(X)
139

On définit une suite de v.a. (Zk ,k ≥ 0) et un estimateur µ̂n par les relations
n
!
def def −1
Zk = Yk − bk−1 (Xk − E[X]) , µ̂n = n Zk .
k=1

p.s.
Nous allons montrer que µ̂n −→ E[Y ].

1. Montrer que E[Zk |Fk−1 ] = E[Y ].

2. Montrer que Var[Zk ] = E[h(bk−1 )] où
def
h(b) = b2 Var[X] − 2bCov(X,Y ) + Var[Y ] ;

puis que limk→+∞ Var[Zk ] = h(b$ ).

def %
3. On pose Nn = nk=1 k−1 (Zk − E[Y ]).
(a) Montrer que (Nn ,n ≥ 1) est une Fn -martingale de carré intégrable.
(b) Montrer que (Nn ,n ≥ 1) converge p.s. et dans L2 vers une v.a. dans L2 .
4. Conclure en utilisant le lemme de Kronecker. 6 .
def % def %
5. Exemple : on pose X̄k = k1 kj=1 Xj , Ȳk = k1 kj=1 Yj ,

k
! k
!
def def def Ck
Ck = (Xj − X̄k )(Yj − Ȳk ) , Vk = (Xj − X̄k )2 , bk = .
Vk
j=1 j=1

(a) Montrer que (Ck ,Vk ,Ȳk ,X̄k ) se calculent de façon récursive à l’aide de
(Ck−1 ,Vk−1 ,Ȳk−1 ,X̄k−1 ) et du couple aléatoire (Xk ,Yk ).
p.s.
(b) Montrer que bk −→ b$ . On admettra que la convergence a lieu aussi dans
L2 en imposant quelques conditions de moment supplémentaires sur la v.a.
X.

En appliquant un TCL pour les martingales, et en imposant quelques conditions de

moments pour les v.a. X et Y , on peut montrer que
√ D
n (µ̂n − E[Y ]) −→ N (0,h(b$ )) ,

si bien que cet algorithme itératif permet de définir un estimateur qui, asympotique-
ment, se comporte comme l’estimateur optimal (i.e. celui de variance minimale). La
démonstration de ce TCL repose sur un TCL pour les martingales qui demande un
peu plus de conditions que le TCL pour des v.a. indépendantes.
6. Soit (an ,n ≥ 0) une suite de réels et (bn ,n ≥ 0) une suite de réels positifs, croissante, telle que
lim+∞ bn = +∞. Alors
! n
!
X −1 −1
X
ak bk < +∞ =⇒ bn ak → 0 .
k k=1
140 Méthodes de réduction de variance

Exercice 53 (Variable de contrôle pour une option sur un portefeuille d’actifs). Soient
(1) (L)
L actifs corrélés (X· , · · · ,X· ) tels que à t = T ,
" √ $
(l)
XT = xl exp (r − 0.5σl2 )T + σl T Zl

avec (Z1 , · · · ,ZL ) ∼ NL (0,Σ); la matrice de variance-covariance Σ n’est pas nécessairement

diagonale et l’on a Σkk = 1 pour tout k ∈ {1, · · · ,L}.
On considère le calcul de prime suivant
 & L ' 
! (l)
E exp(−rT ) αl XT − K 
l=1 +

%L
où αl ≥ 0 et l=1 αl = 1.

1. En procédant comme dans l’exercice 51, proposer méthode par variable de

contrôle pour le calcul d’une approximation de I: montrer que l’espérance de
la variable de contrôle se calcule à l’aide de la formule de Black-Scholes pour
des valeurs du taux, de la volatilité, du prix initial que l’on précisera.
2. Préciser comment vous mettriez en oeuvre le calcul de cet estimateur à partir
d’un générateur de v.a. N1 (0,1) (la matrice Σ est supposée connue); ainsi que
le calcul d’un intervalle de confiance à 95%.

Exercice 54 (Variable de contrôle optimale). On souhaite calculer une quantité de la

forme E[Y ] où Y est une v.a. positive de carré intégrable et FT -mesurable. (Ft ,t ≥ 0)
désigne la filtration d’un mouvement brownien (Wt ,t ≥ 0) à valeurs dans R.
1. Montrer, à l’aide du théorème de représentation des martingales du mouvement
brownien, qu’il existe une variable de contrôle X qui réduit parfaitement la
variance i.e. la variance de Y − X est nulle.
2. On suppose de plus que Y est de la forme
( T ( T ( t
Y = exp(− r(Su )du) φ(ST ) − exp(− r(Su )du) ψ(St )dt ,
0 0 0

avec r : R → R une fonction bornée, φ,ψ : R → R sont des fonctions à croissance

sous-linéaire, et (St ,t ≥ 0) vérifie l’équation

dSt = b(St )dt + σ(St )dWt ,

pour des fonctions b,σ lispshitziennes de R → R.

(a) S0 est une quantité déterministe. Montrer que Y est une v.a. de carré
intégrable.
(b) Soit u : R+ × R une fonction de classe 1,2
# t C . Ecrire l’équation différentielle
stochastique satisfaite par exp(− 0 r(Su )du) u(t,St ).
141

(c) En déduire que si u est solution d’une EDP avec condition terminale en
t = T (EDP et conditions que l’on explicitera), on peut écrire
( T ( t
Y = u(0,S0 ) + exp(− r(Su )du) A(t,St ) dWt ,
0 0

pour une fonction A que l’on explicitera en fonction des dérivées de u et

des quantités (b,σ,φ,ψ,r).
(d) Si de plus les dérivées de u par rapport à la variable x sont bornées, déduire
de ce qui précède l’expression de la v.a. de contrôle optimale X en fonction
des quantités (b,σ,φ,ψ,r).
En pratique, la solution de l’EDP n’est pas explicite · · · de sorte que la variable de
contrôle optimale n’est pas calculable.

Exercice 55 (Changement de loi lorsque Z ∼ Nd (0,Id)). On considère la famille de

lois
P = {densités gaussiennes Nd (θ,Id), θ ∈ Rd } ,

de sorte que
1
gθ (x) = √ d
exp(−0.56x − θ62 ) .
2π
Pour simplifier les notations, on écrit Eθ pour Egθ et E pour E0 .

1. (Formule de Cameron-Martin) Montrer que pour tout θ ∈ Rd ,

0 - .1
E[φ(Z)] = E φ(Z + θ) exp −0.5θ $ θ − θ $ Z . (5.17)

2. En déduire une méthode de Monte Carlo par échantillonnage d’importance pour

calculer E[φ(Z)]: on précisera comment calculer cet estimateur à partir d’un
générateur de nombre N (0,1) et comment calculer un intervalle de confiance.
0 1
Dans la suite, on suppose que φ est telle que E φ2 (Z)|Z| exp(|Z||θ|) < +∞
pour tout θ et on pose

def - .
σ 2 (θ) = Var[φ(Z + θ) exp −0.5θ $ θ − θ $ Z ] .

3. Montrer que
0 1
σ 2 (θ) = E φ2 (Z) exp(−θ $ Z + 0.5θ $ θ) − (E[φ(Z)])2 ,
0 1
= E φ2 (Z) exp(−0.5Z $ Z) exp(0.56Z − θ62 ) − (E[φ(Z)])2 .

En déduire que lim|θ|→+∞ σ 2 (θ) = +∞, et que θ 0→ σ 2 (θ) est une fonction
strictement convexe.
142 Méthodes de réduction de variance

4. En déduire que θ 0→ σ 2 (θ) atteint son minimum en un point θ $ tel que

0 1
E (θ $ − Z) exp(−θ $ $ Z) φ2 (Z) = 0 . (5.18)

Vérifier que l’on a aussi

0 1 0 1
E (θ $ − Z) exp(−θ $ $ Z) φ2 (Z) = E exp(θ $ θ) φ2 (Z − θ) (2θ − Z)

5. Application au calcul d’un Call européen dans un modèle de Black-Scholes: Soit

Z ∼ N (0,1), λ,K,σ des réels positifs tels que λ < K. On considère l’évaluation
du prix
0 1 def
exp(−rT )E (λ exp{σZ} − K)+ φ(Z) = (λ exp{σZ} − K)+ .

En utilisant les résultats précédents, montrer que θ 0→ σ 2 (θ) est une appli-
cation décroissante sur ] − ∞,σ −1 log(K/λ)]. En déduire un estimateur par
échantillonnage d’importance de variance strictement inférieure à celle de l’es-
timateur de Monte Carlo usuel.

Exercice 56 (Changement de loi pour le calcul d’une option asiatique). On considère

le calcul de la prime +
def - . ,
I = E exp(−rT ) S̄T − K + ,
%
où S̄T = M −1 Mk=1 Stk et tk = kT /M . (St ,t ≥ 0) désigne le prix du sous-jacent dans
un modèle de Black-Scholes:

St = S0 exp((r − 0.5σ 2 )t + σWt )

1. Montrer que I s’exprime sous la forme E[φ(Z)] pour une fonction φ que l’on
explicitera et pour Z ∼ NM (0,Id). Dans la suite, pour traduire la dépendance
en Z de la v.a. Stk , on écrira Stk (Z).
2. Soit D = {z,φ(z) > 0}. Expliciter l’équation : θ = ∇[ln φ](θ) pour θ ∈ D.
3. En déduire que la solution θ$ de cette équation est solution de
L
T S̄T (θ)
θ1 = σ ,
M S̄T (θ) − K

et pour tout 2 ≤ k ≤ M
L
T Stk−1 (θ)
θk = θk−1 − σ .
M M (S̄T (θ) − K)

4. Proposer un estimateur d’éhantillonnage d’importance basé sur un changement

de loi gaussien gθ = Nd (θ,Id).
143

Exercice 57. Soit Z une variable aléatoire réelle, gaussienne centrée réduite. Soit un
réel m. " $
2
1. (a) On pose Lm = exp −mZ − m2 , montrer que E[Lm φ(Z + m)] = E[φ(Z)]
pour toute fonction φ telle que E[|φ(Z)|] < ∞.
(b) Soit X (m) une autre variable aléatoire, intégrable telle que E[X (m)
0 (m)φ(Z1 +
m)] = E[φ(Z)] pour toute fonction φ bornée. Montrer que E X |Z =
Lm .
(c) Dans une méthode de simulation quelle représentation de E[φ(Z)] vaut-il
mieux utiliser E[X (m) φ(Z + m)] ou E[Lm φ(Z + m)]?
2. φ est une fonction bornée et mesurable.
(a) Montrer que la variance de Lm φ(Z +m), notée σ 2 (m), se met sous la forme
) 2
*
−mZ+ m2 2
E e φ (Z) − E[φ(Z)]2 .

(b) En déduire que m 0→ σ 2 (m) admet un unique minimum m$ , solution d’une

équation de la forme E[G(m) ] = 0 pour une v.a. G(m) que l’on précisera.
(c) Donner la valeur de m$ lorsque φ(x) = x. Commenter.
3. Soit 0 < α < 1 et m1 et m2 , deux réels. On pose :
m21 m22
l(z) = α em1 z− 2 + (1 − α) em2 z− 2 .

(a) Montrer que pour toute fonction φ mesurable telle que E[φ2 (Z)] < ∞,
(
E[l(Z) φ(Z)] = φ(x)p(x)dx,
R

p étant une densité que l’on précisera.

(b) Proposer une technique de simulation selon la loi de densité p.
(c) On suppose que U est une variable aléatoire suivant la loi précédente p.
Montrer que pour toute fonction φ mesurable telle que E[φ2 (Z)] < ∞,
) * ) * ) 2 *
φ(U ) φ(U ) φ (Z)
E = E[φ(Z)], Var =E − E[φ(Z)]2 .
l(U ) l(U ) l(Z)

(d) On s’intéresse au cas α = 1/2, m1 = −m2 = m et φ(x) = x. Montrer que :

) * ; 2
<
U em /2 Z 2
Var =E .
l(U ) cosh(mZ)

On note v(m) cette variance comme fonction de m.

– Vérifier que v $ (0) = 0 et v $$ (0) < 0.
– Comment choisir m pour réduire la variance lors d’un calcul de E(Z)?
144 Méthodes de réduction de variance

Exercice 58 (Changement de loi par la méthode “Tilted density”). Soient {Zk ,k ≥ 0}

et {τk ,k ≥ 0} des v.a. i.i.d. de loi resp. Gamma de paramètre (α,β) et exponentielles
de paramètre λ. On rappelle que les densités sont resp. données par
βα
f (x) = xα−1 exp(−βx) x>0 f (x) = λ exp(−λx) x>0 .
Γ(α)
def
Soit p > 0. On pose Xk = Zk − pτk , et on cherche
n
!
def
P(σx < ∞), où σx = inf{n ≥ 1, Xk > x} ,
k=1

avec la convention inf ∅ = +∞ (x ≥ 0).

Pour calculer cette probabilité, nous allons implémenter une technique d’échantillonnage
préférentiel et, pour déterminer le changement de loi, utiliser la fonction génératrice
des cumulants. 7 Les v.a. (Xk ,k ≥ 1) sont indépendantes et de même loi; notons fX
leur densité. On définit une famille de densités (gθ ,θ ∈ DX ) sur R, par la relation

def exp(θx) fX (x)

gθ (x) = .
exp(ψX (θ))

Les v.a. ((τk ,Zk ),k ≥ 0) sont définies sur un espace mesurable (Ω,A) que l’on munit
d’une famille de lois (Pθ ,θ ∈ DX ) telles que sous Pθ , les v.a. (Xk ,k ≥ 0) sont i.i.d. de
loi gθ . Noter que 0 ∈ DX et que g0 = fX de sorte que P0 sera noté simplement P. Eθ
désigne l’espérance associée à la probabilité Pθ . Soit (Fn ,n ≥ 1) la filtration naturelle
def
du processus (Xk ,k ≥ 1) : Fn = σ(Xk ,k ≤ n).

1. (Simulation sous la loi gθ , pour θ ∈ DX .)

(a) Montrer que si Y1 et Y2 sont indépendantes alors ψY1 +Y2 = ψY1 + ψY2 sur
DψY1 ∩ DψY2 .
(b) Montrer que ψZ et ψ−pτ sont données par

ψZ (θ) = −α ln(1 − β −1 θ) , DZ =] − ∞,β[ ,

ψ−pτ (θ) = − ln(1 + pλ−1 θ) , Dτ =] − λ/p; +∞[ .

(c) En déduire l’expression de ψX et son domaine de définition DX , en fonction

de α,β,λ,p.
7. On rappelle que pour une v.a. réelle Y de densite fY par rapport à la mesure de Lebesgue, la
fonction génératrice des cumulants est donnée par
Z
def
ψY (θ) = ln exp(θx) fY (x) dx = ln E [exp(θY )] ,
R

def
et est définie pour tout θ ∈ DY = {µ ∈ R : ψY (µ) existe}. De plus, la fonction génératice des
cumulants caractérise la loi d’une v.a. : si ψY1 = ψY2 alors Y1 et Y2 ont même loi.
145

(d) Montrer que la fonction génératrice des cumulants associée à la densité gθ

est donnée par ψX (θ + µ) − ψX (θ), pour tout µ tel que θ + µ ∈ DX .
(e) Soit θ ∈ DX . Déduire des questions précédentes que si Z (θ) est une v.a. de
loi Ga(α,β − θ), τ (θ) est une v.a. de loi E(λ + θp) et que Z (θ) et τ (θ) sont
indépendantes alors Z (θ) − pτ (θ) est une v.a. de densité gθ .
2. (Changement de loi) Soit θ ∈ DX .
(a) Montrer que pour tout A ∈ Fn ,
+ Pn ,
P (A) = Eθ e−θ k=1 Xk +n ψX (θ) A .

(b) Vérifier que σx est un temps d’arrêt pour la filtration Fn et montrer que
+ Pσx ,
P(σx < +∞) = Eθ e−θ k=1 Xk +σx ψX (θ) σx <+∞ .

(c) Montrer que Eθ [X1 ] = ψX $ (θ); en déduire que si θ est tel que ψ $ (θ) > 0,
X
alors Pθ (σx < +∞) = 1.
(d) Déduire de ce qui précède que si ψX$ (θ) > 0, alors

+ P σx ,
P(σx < +∞) = Eθ e−θ k=1 Xk +σx ψX (θ) . (5.19)

3. (Choix du drift θ)
(a) Montrer que θ 0→ ψX (θ) est convexe sur DX . En déduire que si ψX $ (0) < 0

alors
i. il existe un unique θ̌ > 0 (que l’on ne cherchera pas à déterminer) tel
que ψX $ (θ) > 0 sur ]θ̌,β[ et ψ $ (θ) < 0 sur ] − λ/p; θ̌[.
X
ii. il existe un unique θ$ ∈]θ̌,β[ tel que ψX (θ$ ) = 0.
(b) En utilisant les résultats de Asmussen, S. (1998) [Applied Probability and
Queues, Wiley, Chichester, England], on montre que la variance des esti-
mateurs de la forme (5.19) est minorée et que cette borne inférieure est
atteinte en prenant θ = θ$ .

Exercice 59 (Simulation sous la loi conditionnelle P(X ∈ ·|X ∈ Ai )). Soit X une v.a.
réelle de fonction de répartition F . Notons F −1 son inverse généralisée.
1. Soit U une v.a. uniforme sur [0,1] et deux réels ai ,bi tels que F (ai ) < F (bi ).
Montrer que la v.a. définie par

F −1 (F (ai ) + U (F (bi ) − F (ai )))

est distribuée selon la loi P(X ∈ ·|X ∈]ai ,bi ]).

2. En déduire une procédure de calcul de l’estimateur stratifié pour une approxi-
mation de E[φ(Z)], où Z est une v.a. réelle dont on peut évaluer la fonction de
réparition F et la fonction de répartition inverse F −1 .
146 Méthodes de réduction de variance

Exercice 60 (Simulation sous des lois conditionnelles par acceptation-rejet, cas gaus-
sien). Soit Z ∼ N (0,1).
1. Etant donnés deux réels −∞ < ai < bi < +∞. Proposer une procédure
d’acceptation-rejet basée sur la densité instrumentale uniforme pour simuler
une v.a. de loi P(Z ∈ ·|Z ∈]ai ,bi ]). Préciser la règle d’acceptation.
2. Soit un réel a > 0.
(a) Proposer une procédure d’acceptation-rejet basée sur la densité instrumen-
tale g(x) = x exp(−0.5x2 ) x>0 pour simuler une v.a. de loi P(Z ∈ ·|Z ∈
]a, + ∞[). Préciser la règle d’acceptation.
√
(b) Montrer que si X ∼ E(0.5) alors X a pour densité g.
(c) Quel choix de densité instrumentale g vous semble plus astucieux ? indi-
quez comment obtenir des réalisations de cette nouvelle loi à partir de
réalisations de v.a. de loi E(0.5).

Exercice 61 (Simulation de lois conditionnelles, cas gaussien multi-dimensionnel).

L’objectif de cet exercice est d’indiquer comment obtenir des réalisations sous la loi
P(Z ∈ ·|µ$ Z ∈]ai ,bi ]) lorsque Z ∼ Nd (0,Id) et µ ∈ Rd est un vecteur (déterministe)
vérifiant µ$ µ = 1. Soit B une matrice d × (d − 1) telle que [µ B] soit une matrice
orthogonale.
1. Soit g une fonction mesurable bornée. Montrer que
#
0 $
1 g (y1 µ + By2:d ) 1Ai (y1 ) exp (−0.5y $ y) dy
E g(Z)|µ Z ∈ Ai = √ d−1 # .
2π $
Ai (y1 ) exp(−0.5y1 y1 ) dy1

2. En déduire que la loi P(Z ∈ ·|µ$ Z ∈ Ai ) est la loi de T1 µ + BT2:d où

– T1 a pour loi P(W ∈ ·|W ∈ Ai ) et W ∼ N (0,1).
– T2:d est distribué selon Nd−1 (0,Id).
– T1 et T2:d sont indépendantes.
3. En remarquant que BB $ = Id − µµ$ montrer que si W ∼ Nd (0,Id) alors (Id −
µµ$ )W ∼ BT2:d .
4. En utilisant l’exercice 59, décrire une procédure de simulation sous la loi P(Z ∈
·|µ$ Z ∈]ai ,bi ]).

Exercice 62 (Estimateur stratifié et prime d’options asiatiques). On souhaite estimer

E[Y ] avec
& d '
def 1!
Y = exp(−rT ) Stk − K ,
d
k=1 +

où (St ,t ≥ 0) est un brownien géométrique

- .
St = s0 exp (r − 0.5σ 2 )t + σWt ,
147

et t0 = 0 < t1 < · · · < td = T . Pour ce faire, on combine l’approche de l’échantillonnage

préférentiel (formule de Cameron-Martin, cf. exercice 55) et la méthode de stratifica-
tion.
1. Montrer que Y = φ(Z) où Z ∼ Nd (0,Id). On explicitera la fonction φ.
2. Choix du drift θ:
def
(a) Expliciter l’équation ∇F (t) = t où l’on a posé F = (ln φ) φ>0 . Proposer
une procédure de résolution de cette équation au point fixe.
(b) Montrer que
& & d
' '
def 1!
Y ≥ Ỹ = exp(−rT ) exp Stk −K ,
d
k=1 +

et que Ỹ s’écrit sous la forme φ̃(Z) où Z ∼ Nd (0,Id). Expliciter l’équation

def
∇F̃ (t) = t où l’on a posé F̃ = (ln φ̃) φ̃>0 .
3. Quel choix proposez-vous pour la direction de stratification µ?

Exercice 63. Soient (Zk ,k ≤ d) des v.a.r. indépendantes; et φ,φ̃ : Rd → R, mesurables

et resp. croissante et décroissante en chacune de leurs coordonnées. On suppose que
φ(Z1 , · · · ,Zd ) et φ̃(Z1 , · · · ,Zd ) ont même loi, et que E[φ2 (Z1 , · · · ,Zd )] < +∞. Nous
allons montrer par récurrence sur d que
+ ,
Cov φ(Z1 , · · · ,Zd ) ,φ̃(Z1 , · · · ,Zd ) ≤ 0 . (5.20)

1. On suppose que d = 1.
" $
(a) Quel est le signe de (φ(x) − φ(y)) φ̃(x) − φ̃(y) ?
+ ,
(b) En déduire que Cov φ(Z1 ) φ̃(Z1 ) ≤ 0.

2. On suppose que (5.20) est établie pour d − 1 : pour toute fonction f,f˜ :
Rd−1 → R mesurables et resp. croissantes et décroissantes en chacune de leurs
coordonnées, et telles que f (Z1 , · · · ,Zd−1 ) et f˜(Z1 , · · · ,Zd−1 ) ont même loi et
E[f 2 (Z1 , · · · ,Zd−1 )] < +∞ on a
+ ,
Cov f (Z1 , · · · ,Zd−1 ) ,f˜(Z1 , · · · ,Zd−1 ) ≤ 0 .

Soient φ,φ̃ : Rd → R, mesurables et resp. croissante et décroissante en chacune

de leurs coordonnées et telles que φ(Z1 , · · · ,Zd ) et φ̃(Z1 , · · · ,Zd ) ont même loi
et E[φ2 (Z1 , · · · ,Zd )] < +∞.
+ ,
def def
(a) On pose Λ(x) = E [φ(Z1 , · · · ,Zd−1 ,x)] et Λ̃(x) = E φ̃(Z1 , · · · ,Zd−1 ,x) .
Montrer que x 0→ Λ(x) est croissante et que x 0→ Λ̃(x) est décroissante.
148 Méthodes de réduction de variance

(b) Montrer que

+ ,
Cov φ(Z1 , · · · ,Zd ) ,φ̃(Z1 , · · · ,Zd )
( N + , O
= E φ(Z1 , · · · ,Zd−1 ,x) φ̃(Z1 , · · · ,Zd−1 ,x) − Λ(x)Λ̃(x) PZd (dx) ,

où PZd (dx) désigne la loi de Zd .

Exercice 64. Soit un brownien géométrique (St ,t ≥ 0):

St = S0 exp({r − 0.5σ 2 }t + σWt ).

1. Montrer que
9 :
max S0−1 St = exp σ max [Wt + σ −1 2
{r − 0.5σ }t] .
t∈[0,T ] t∈[0,T ]

2. Montrer que maxt∈[0,T ] S0−1 St a même loi que

"σ / $
def
exp {WT + αT + (WT + αT )2 − 2T ln U } , α = σ −1 {r − 0.5σ 2 } ,
2
où U est une v.a. uniforme sur [0,1] indépendante de WT . On rappelle que 8

(a) pour tout x,y,

=
- . 1, y ≤ max(0,x) ,
P max[0,t] Ws ≥ y|Wt = x =
exp(−2y(y − x)/t) , sinon .

8. Pour démontrer ces propriétés, on peut

(a) Dans le cas y ≤ max(0,x) , la preuve est simple puisque sur l’évènement {Wt = x} on a

max[0,t] (Ws ) ≥ max (Wt ,W0 ) = max (x,0) .

(b) Dans l’autre cas, on peut introduire le temps d’arrêt

def
τy = inf{t ≥ 0,Wt ≥ y}

et observer que Wτy = y. En utilisant la prop. de Markov fort et le fait que la loi de Ws est la
loi de −Ws , montrer que l’on a les égalités
` ´
P max[0,t] Ws ≥ y,Wt ≤ x = P (τy ≤ t,Wt ≤ x) = P (τy ≤ t,Wt ≥ 2y − x)
Z +∞
1
= P (Wt ≥ 2y − x) = √ exp(−0.5t−1 u2 )du .
2y−x 2πt
Puis conclure.
149

- .
(b) ce qui entraine que la loi conditionnelle P max[0,t] Ws ∈ ·|Wt = x est la
loi de " / $
0.5 x + x2 − 2t ln U

où U est une v.a. uniforme sur [0,1].

3. En déduire une méthode de Monte Carlo par variables antithétiques, pour le

calcul
- du prix. d’une option européenne sur maximum, -de fonction.de payoff
f max[0,T ] St , lorsque f est monotone et telle que E[f 2 max[0,T ] St ] < +∞.
4. Pour mettre en oeuvre une méthode de stratification, quelle variable de strati-
fication proposeriez-vous? Argumentez votre choix.
150 Méthodes de réduction de variance
Chapitre 6

Méthodes de Monte Carlo

adaptatives

6.1 Introduction
6.1.1 Echantillonnage d’importance adaptatif
Soit Z ∼ Nd (0,Id) et une application φ : Rd → R mesurable telle que Var[φ(Z)] <
+∞. La formule de Cameron-Martin donne, pour tout θ ∈ Rd , (cf. Exercice 55)
0 - .1
E[φ(Z)] = E φ(Z + θ) exp −0.56θ62 − θ $ Z . (6.1)

Cette égalité suggère d’estimer E[φ(Z)] par un échantillonneur de Monte Carlo usuel
appliqué à l’écriture de droite dans (6.1); ce qui revient à considérer un estimateur
d’importance en faisant le changement de loi g0 −→ gθ où gθ désigne la densité d’une
loi Nd (θ,Id). Quel choix de θ conduit à l’estimateur de variance minimale?
On montre (cf. Exercice 55) que la variance de cet estimateur est égale à - à une
constante additive près indépendante de θ - à la quantité v(θ)
0 1
v(θ) = E φ2 (Z) exp(−θ $ Z + 0.56θ62 ) (6.2)
0 2 1
= E φ (Z) exp(−0.56Z62 ) exp(0.56Z − θ62 ) . (6.3)

θ 0→ v(θ) est donc convexe et lim|θ|→+∞ v = +∞. Sous certaines conditions d’intégrabilité
de φ, elle est de classe C 1 et possède donc un unique minimum (global) caractérisé
par l’unique solution de l’équation ∇v(θ) = 0 ce qui est équivalent à résoudre en θ
(cf. Exercice 55)
0 1
E exp(0.56θ62 ) (θ − Z) exp(−θ $ Z) φ2 (Z) = 0

ou encore 0 1
E exp(6θ62 ) φ2 (Z − θ) (2θ − Z) = 0 .
La résolution de cette équation n’est, en général, pas explicite.
152 Méthodes de Monte Carlo adaptatives

Dans le cas d = 1: si v pouvait être évaluée explicitement en tout θ ∈ R, on

pourrait rechercher son minimum par un algorithme de dichotomie (v est unimodale).
Dans le cas général (d ≥ 1): si le gradient ∇v(θ) pouvait être évalué explicitement
pour tout θ ∈ Rd , on pourrait mettre en oeuvre un algorithme de gradient

θn+1 = θn − γn+1 ∇v(θn )

où {γn ,n ≥ 0} est une suite de pas déterministe positive. Mais en général, ni v ni ∇v
ne sont calculables. L’idée consiste donc à approcher les quantités inconnues par une
méthode de Monte Carlo. Puisque −∇v(θ) est de la forme E[H(θ,Z)], on pourrait
proposer l’algorithme itératif suivant: à l’itération n,
1. Simuler Mn v.a. i.i.d. de même loi que Z et définir
Mn
P 1 !
−∇v(θn ) = H(θn ,Zj ) ,
Mn
j=1

2. Etape de gradient
Mn
1 !
θn+1 = θn + γn+1 H(θn ,Zj ) .
Mn
j=1

Cet algorithme est néanmoins très coûteux en terme de simulations: n itérations

de l’algorithme demandent M1 + · · · + Mn tirages. Nous proposons donc l’algorithme
suivant
θn+1 = θn + γn+1 H(θn ,Zn ) , (6.4)
qui se comprend comme une discrétisation couplée avec une approximation stochas-
tique de la trajectoire de l’Equation Différentielle Ordinaire (EDO) θ̇ = h(θ) où
def
h(θ) = E[H(θ,Z)] .

Cet algorithme ne nécessite qu’un seul tirage par itération.

6.1.2 Approximation stochastique

Etant donnés: H : Rd × Rl → Rd et h : Rd → Rd telles que h(θ) = E[H(θ,Z)];
une suite de pas {γn ,n ≥ 0} déterministe, positive. L’objectif de la section 6.2 est
de montrer que sous certaines conditions, la suite {θn ,n ≥ 0} définie par (6.4) est
stable (i.e. presque-sûrement bornée), et converge. La dernière étape est d’identifier
les points limite.
Les conditions proposées sont de trois types. En écrivant

θn+1 = θn + γn+1 h(θn ) + γn+1 {H(θn ,Zn ) − h(θn )} ,

on écrit que la suite {θn ,n ≥ 0} est une perturbation de l’algorithme déterministe

tn+1 = tn + γn+1 h(tn ) dès lors que la perturbation γn+1 {H(θn ,Zn ) − h(θn )} est
153

négligeable: un premier jeu de conditions est donc relatif au contrôle de cette per-
turbation. La trajectoire déterministe tn+1 = tn + γn+1 h(tn ) peut être relue comme
une discrétisation de l’Equation Différentielle Ordinaire (EDO) θ̇ = h(θ); après N
itérations on a en effet
   
!N !N !N
γn+j
tn+N = tn +  γn+j  %N h(tn+j ) ≈ tn +  γn+j  h(tn ) .
j=1 j=1 k=1 γn+k j=1

Pour que le comportement asymptotique de cette discrétisation soit effectivement

%l’EDO, il faut des conditions sur la suite de pas {γn ,n ≥ 0} (par
guidé par celui de
exemple, il faut j γj = +∞). Le comportement asymptotique de l’EDO peut être
facilement étudié dès lors que le système possède une fonction de Lyapunov: i.e. il
existe une fonction V : Rd → R+ de classe C 1 telle que ∇V (θ) · h(θ) ≤ 0. En d’autres
termes, la trajectoire déterministe {θs ,s ≥ 0} issue de x et solution de θ̇ = h(θ)
descend le potentiel V :
( u
V (θs+u ) = V (θs ) + ∇V (θs+r ) · h(θs+r ) dr ≤ V (θs ) .
0

Si V est minorée alors la suite {V (θs ),s ≥ 0} est décroissante, minorée donc conver-
gente; si l’ensemble {θ,V (θ) ≤ V (x)} est borné, alors la suite {θs ,s ≥ 0} est bornée;
enfin, moyennant des conditions sur les ensembles de niveau de V et sur l’ensemble
des points fixes {θ,∇V (θ) · h(θ) = 0}, la suite {θs ,s ≥ 0} est convergente. Le troisième
jeu de conditions pour l’étude de la convergence de la suite stochastique (6.4) est donc
relatif à l’existence d’une fonction de Lyapunov possédant de ’bonnes’ propriétés.

6.2 Convergence des algorithmes stochastiques

6.2.1 Résultat préliminaire : Lemme de Robbins-Siegmund
Lemme 65 (Lemme de Robbins-Siegmund simplifié). Soit {Vn ,n ≥ 0} et {Wn ,n ≥ 0}
% positifs%et {an ,n ≥ 0} et {bn ,n ≥ 0} des suites déterministes
des processus adaptés
positives telles que n an + n bn < ∞. On suppose de plus que E[V0 ] < ∞ et
E [ Vn+1 | Fn ] ≤ (1 + an ) Vn − Wn + bn , P − p.s. (6.5)
Alors,
%
1. Wn < +∞ P-p.s.
p.s.
2. Vn −→ V∞ et E[V∞ ] < +∞
3. supn≥1 E[Vn ] < ∞.
Q
Démonstration. • On pose αn = nk=1 (1 + ak )−1 ; α0 = 1. Montrons que la suite
(αn ) converge vers α∞ ∈]0,1]. Par définition, {αn ,n ≥ 0} est une suite décroissante.
Remarquons de plus que puisuqe 1 + x ≤ exp(x) on a
n
! !
ln αn ≥ − ak ≥ − ak ;
k=1 k≥1
154 Méthodes de Monte Carlo adaptatives

" % $
la suite (αn ) est donc aussi minorée. Elle est donc convergente. Puisque exp − k≥1 ak ≤
αn ≤ 1, on a bien α∞ ∈]0,1].
• On pose
n−1
! ∞
!
Vn$ = αn−1 Vn , b$n = αn bn , Wn$ = αn Wn Sn = Vn$ + Wk$ + b$k .
k=1 k=n

Montrons que {Sn ,n ≥ 0} converge p.s. vers une v.a. positive S∞ telle que E[S∞ ] <
+∞. Par définition de Sn et en utilisant (6.5)
n
! ∞
!
E [ Sn+1 | Fn ] ≤ αn E [ Vn+1 | Fn ] + Wk$ + b$k
k=1 k=n+1
n−1
! ∞
!
≤ αn−1 Vn + Wk$ + b$k ≤ Sn .
k=1 k=n

p.s.
Par conséquent, {Sn ,n ≥ 0} est une surmartingale positive et par conséquent Sn −→
S∞ avec
n
!
E[S∞ ] ≤ E[S0 ] = E[V0 ] + b$k .
k=1
%n $
%∞ %∞
Comme k=1 bk = k=1 αk bk ≤ k=1 bk < ∞, cette dernière inégalité montre que
E[S∞ ] < ∞ et donc que la%v.a. S∞ est finie presque-sûrement. %
• Résultat 1. La suite ( nk=1 Wk$ )n est croissante et, comme pour tout n, nk=1 Wk$ ≤
Sn , nous avons donc, P-p.s.
n
!
lim Wk$ ≤ lim sup Sn = S∞ < ∞
n→∞ n
k=1
%
série nk=1 Wk$ converge P-p.s. Puisque limn αn = α∞ > 0, ceci implique
Par suite la %
que la série nk=1 Wk converge, car pour tout n ≤ m,
m
! m
! m
!
Wk ≤ α−1
m αk Wk = α−1
m Wk$ .
k=n k=n k=n
%n
• Résultat
% 2. Comme la convergence de%la∞série k=1 bk implique la convergence
de la série% nk=1 b$k , %
nous avons limn→∞ k=n b$k = 0 et par conséquent, la suite
Vn$ = Sn − n−1 $ ∞ $ −1 $
k=1 Wk − k=n bk converge P-p.s.. Comme Vn = αn−1 Vn et que limn αn =
α∞ > 0, la suite (Vn ) converge aussi P-p.s. vers une variable finie P-p.s., ce qui établit
l’assertion 2.
• Résultat 3. Finalement, en utilisant l’inégalité αn−1 Vn = Vn$ ≤ Sn nous obtenons

E[Vn ] ≤ α−1 −1
n−1 E[Sn ] ≤ α∞ E[S0 ] .

Ceci établit donc l’affirmation 3.

155

6.2.2 Convergence de {V (θn ),n ≥ 0}

Supposons
A9 Il existe une fonction h : Rd → Rd et H : Rd × Rq → Rd tel que, pour tout
θ ∈ Θ, E|H(θ,X)| < +∞ et E[H(θ,X)] = h(θ).
A10 Il existe une fonction V : Rd → R+ continûment différentiable telle que
1. ∇V est Lipshitzienne et |∇V |2 ≤ C(1 + V ),
2. ∇V · h ≤ 0,
0 1
3. E |H(θ,X)|2 ≤ C(1 + V (θ)) .
% 2
A11 la suite {γn ,n ≥ 0} est une suite de pas déterministe, positive telle que n γn+1 <
+∞.
A12 soit θ0 tel que E[V (θ0 )] < +∞; et {Xn ,n ≥ 0} des v.a. i.i.d. de même loi que
X et indépendante de θ0 .
Proposition 66. Supposons (A9) à (A12). Alors,
1. {V (θn )}n≥0 est bornée dans L1 (P)
p.s.
2. θn+1 − θn −→ 0
p.s.
3. V (θn ) −→ V∞ et E[V∞ ] < +∞.
%
4. 0 ≤ − n≥1 γn+1 ∇V (θn ) · h(θn ) < +∞ P-p.s.

Démonstration. Dans la suite, C est une constante dont la valeur peut prendre
différentes valeurs. On pose Fn = σ(θ0 , . . . ,θn ), pour tout n ≥ 1. En utilisant la
formule de Taylor-Lagrange, on obtient

V (θn+1 ) = V (θn + γn+1 H(θn ,Xn+1 ))

= V (θn ) + γn+1 ∇V (θn ) · H(θn ,Xn+1 )
2
≤ V (θn ) + γn+1 ∇V (θn ) · H(θn ,Xn+1 ) + γn+1 [∇V ]Lip |H(θn ,Xn+1 )|2 . (6.6)

Comme par hypothèse EV (θ0 ) < ∞, nous en déduisons par récurrence que, pour tout
n, EV (θn ) < ∞.
• Résultats 1, 3 et 4. Nous avons donc, en calculant l’espérance conditionnelle
dans (6.6)
2
0 R 1
E [ V (θn+1 ) | Fn ] ≤ V (θn ) + γn+1 ∇V (θn ) · h(θn ) + Cγn+1 [∇V ]Lip E |H(θn ,Xn+1 )|2 R Fn
2 2
≤ (1 + Cγn+1 )V (θn ) + γn+1 ∇V (θn ) · h(θn ) + Cγn+1
156 Méthodes de Monte Carlo adaptatives

Nous pouvons appliquer le Lemme de Robbins-Siegmund

% avec Vn = V (θn ), an = bn =
2
Cγn+1 et Wn = −γn+1 ∇V (θn ) · h(θn ). Comme n γn2 < ∞, nous obtenons donc les
conclusions 1, 3 et 4.
• Résultat 2. En écrivant, θn+1 −θn = γn+1 H(θn ,Xn+1 ) et en utilisant supn E[V (θn )] <
∞, nous obtenons donc:
;∞ < ∞
! !
2
E |θn+1 − θn | = E|θn+1 − θn |2
n=0 n=0
∞
! !
2
≤ γn+1 E|H(θn ,Xn+1 )|2 ≤ C 2
γn+1 (1 + EV (θn )) < ∞ ,
n=0 n

Par suite, θn+1 − θn converge dans L2 . On a aussi pour tout δ > 0

9 : !
lim P sup |θm+1 − θm | ≥ δ ≤ δ−2 lim E|θm+1 − θm |2 = 0
n m≥n n
m≥n

ce qui établit la converge p.s.

Quelques remarques:
– Les hypothèses sur la fonction de Lyapunov V entrainent que celle-ci est au
plus à croissance quadratique : il existe C tel que
- .
V (θ) ≤ C 1 + 6θ62 .

– On peut relâcher la condition A12 et la condition A10(3) en supposant que pour

tout n
0 1
E [H(θn ,Xn+1 )|Fn ] = h(θn ) E |H(θn ,Xn+1 )|2 |Fn ≤ C{1 + V (θn )} .

Les v.a. {Xn ,n ≥ 0} ne sont donc pas nécessairement i.i.d.

– On a établi que la suite {V (θn ),n ≥ 0} converge p.s. : cela entraine l’existence
d’un ensemble Ω0 tel que P(Ω0 ) = 1 et pour tout ω ∈ Ω0 , {θn (ω),n ≥ 0}
converge vers un ensemble de niveau de V (dépendant de ω). Les ensembles de
niveau ne sont pas nécessairement bornés: on ne peut donc pas déduire de la
Proposition 66 que la suite {θn (ω),n ≥ 0} est bornée. Elle le sera si par exemple,
lim|θ|→+∞ V = +∞, puisque dans ce cas, les ensembles de niveau {θ,V (θ) ≤ M }
sont des compacts.

6.2.3 Convergence de la suite {θn ,n ≥ 0}

Théorème 67. Supposons (A9-12). Supposons de plus que:
1. h est continue,
2. lim|θ|→∞ V (θ) = +∞,
3. L’équation ∇V (θ)·h(θ) = 0 admet une solution unique θ∗ et {θ,V (θ) = V (θ∗ )} =
{θ∗ }.
157

%
4. n γn = +∞.
p.s.
Alors, θn −→ θ∗ .

Démonstration. En application de la Proposition 66, il existe un événement Ω0 ⊆ Ω

%1 et pour tout ω ∈ Ω0 : (a) lim supn V (θn (ω)) < ∞, et (b) la série à
tel que, P(Ω0 ) =
termes positifs n≥1 γn+1 ∇V (θn (ω)) · h(θn (ω)) < +∞ est convergente.
Comme lim|θ|→∞ V (θ) = ∞, ceci implique que, pour tout ω ∈ Ω0 , la suite
(θn (ω))n≥0 est bornée. Donc l’ensemble Θ∞ (ω) des points d’accumulation de la suite
(θn (ω)) est non vide. %
% La convergence de la série n≥1 γn+1 ∇V (θn (ω)) · h(θn (ω)) < ∞ et la condition
n≥0 γn = ∞, impliquent que

lim inf ∇V (θn (ω)) · h(θn (ω)) = 0 , P − p.s. .

Il existe donc un point θ∞ (ω) ∈ Θ∞ (ω) tel que ∇V (θ∞ (ω)) · h(θ∞ (ω)) = 0 et
comme l’ensemble des solutions de l’équation ∇V (θ) · h(θ) = 0 est réduit au point
θ∗ , nous avons donc θ∞ (ω) = θ∗ . Comme (V (θn (ω))) converge, ceci implique que
limn→∞ V (θn (ω)) = V (θ∗ ) et donc pour tous les points d’accumulation θ ∈ Θ∞ (ω),
V (θ) = V (θ∗ ). Comme l’ensemble {θ,V (θ) = V (θ∗ )} est égal à {θ∗ }, l’ensemble des
points d’accumulation est réduit à θ∗ .

Théorème 68. Supposons (A9-12). Supposons de plus que:

– La fonction θ 0→ h(θ) est continue,
– lim|θ|→∞ V (θ) = +∞,
– Pour tout v ∈ V (Rd ), l’ensemble {V = v} ∩ {∇V · h = 0} est localement fini.
Alors, la suite {θn ,n ≥ 0} converge p.s. vers un point de l’ensemble {θ,∇V (θ) · h(θ) =
0}.

Démonstration. En application de la Proposition 66, il existe un événement Ω0 ⊆ Ω

tel que, P(Ω0 ) = 1 et pour tout ω ∈ Ω0 , (a) lim % supn V (θn (ω)) < ∞, (b) |θn (ω) −
θn−1 (ω)| → 0 et (c) la série à termes positifs − n≥1 γn+1 ∇V (θn (ω)) · h(θn (ω)) < ∞
est convergente.
Comme lim|θ|→∞ V (θ) = ∞, ceci implique que, pour tout ω ∈ Ω0 , la suite
(θn (ω))n≥0 est bornée; de plus, limn |θn (ω) − θn−1 (ω)| = 0 et donc que l’ensemble
Θ∞ (ω) des points d’accumulation de la suite (θn (ω)) est un ensemble compact bien
enchaı̂né et donc connexe 1 . %
% La convergence de la série − n≥1 γn+1 ∇V (θn (ω)) · h(θn (ω)) < ∞ et la condition
n≥0 γn = ∞, impliquent que

lim inf ∇V (θn (ω)) · h(θn (ω)) = 0 , P − p.s.

1. Rappelons qu’un ensemble X est bien enchaı̂né si pour tout point x,y de X, et tout a > 0, il
existe une suite de points x0 ,x1 , . . . ,xn de X avec x0 = x, . . . ,xn = y, et |xk − xk+1 | ≤ a. ”Etre bien
enchaı̂né” est donc une variation d’être connexe. Si un espace est connexe, il est bien enchaı̂né. La
réciproque est vraie si l’espace est compact.
158 Méthodes de Monte Carlo adaptatives

Par suite, puisque θ 0→ h(θ) et θ 0→ ∇V (θ) sont continues, tous les points d’accumu-
lation θ ∈ Θ∞ (ω) vérifient ∇V (θ) · h(θ) = 0.
Il existe donc un point θ∞ (ω) ∈ Θ∞ (ω) tel que ∇V (θ∞ (ω)) · h(θ∞ (ω)) = 0 et
une sous-suite (θφ(n) (ω)) telle que limn→∞ θφ(n) (ω) = θ∞ (ω). Comme (V (θn (ω)))
converge, ceci implique que limn→∞ V (θn (ω)) = V (θ∞ (ω)) = v∞ (ω). Donc, pour
tous les points d’accumulation θ ∈ Θ∞ (ω), V (θ) = v∞ (ω).
L’ensemble des points d’accumulation est donc localement fini. Puisqu’il est aussi
bien enchaı̂né, il est donc réduit à un point θ$ (ω), qui vérifie ∇V (θ) · h(θ) = 0. Ce
qui conclut la démonstration.

6.3 Applications
6.3.1 Algorithme de Robbins-Monro
On veut calculer E[φ(Z)] où φ : Rd → R, mesurable; on suppose que Var[φ(Z)] <
+∞. On pose
def def
h(θ) = E[φ(Z)] − θ = E [H(θ,Z)] avec H(θ,z) = φ(z) − θ ,

L’unique solution θ$ de l’équation h(θ) = 0 est θ$ = E[φ(Z)] de sorte que calculer

E[φ(Z)] revient à rechercher le zéro de la fonction h.
Ce problème possède une fonction de Lyapunov naturelle donnée par V (θ) =
0.56θ − θ$ 62 . On a en effet ∇V (θ) = θ − θ$ de sorte que

∇V (θ) · h(θ) = {θ − θ$ } · {E[φ(Z)] − θ} = −6θ − θ$ 62 ≤ 0 .

Il est facile de voir que le triplet (h,H,V ) vérifie les hypothèses de la Proposition 66
et du Théorème 67. En particulier, on a

{θ,∇V (θ) · h(θ) = 0} = {θ$ }

et
{θ,V (θ) = V (θ$ )} = {θ,V (θ) = 0} = {θ$ } .
On peut donc énoncer le corollaire suivant
Corollaire 69. Soit φ une application mesurable telle que Var[φ(Z)] < ∞. Etant
donnée :
– une v.a θ0 telle que E[6θ0 62 ] < +∞,
– une famille {Zn ,n ≥ 0} de v.a. i.i.d. de même loi que Z, et indépendantes de
θ0 ,
% %
– {γn ,n ≥ 0} une suite positive déterministe telle que n γn = +∞ et n γn2 <
+∞,
la suite {θn ,n ≥ 0} définie par

θn = θn−1 + γn (φ(Zn ) − θn−1 ) , n≥1,

converge p.s. vers E[φ(Z)].

159

Dans le cas particulier γn = 1/n, ce corollaire n’est rien d’autre que la loi des
grands nombres pour des v.a. i.i.d.: on a en effet
1 1
θn = (1 − γn )θn−1 + γn φ(Zn ) = (1 − )θn−1 + φ(Zn )
n n
ce qui est équivalent à
n
1!
θn = φ(Zk ) .
n
k=1

Par suite, {θn ,n ≥ 0} a la même limite que la moyenne empirique, qui, par la loi des
grands nombres pour des v.a. i.i.d., converge p.s. vers E[φ(Z)].

6.3.2 Algorithme de gradient stochastique

Soit V : Rd → R+ continûment différentiable telle que {θ,∇V (θ) = 0} = {θ$ }.
On suppose de plus qu’il existe H telle que

∇V (θ) = −E [H(θ,Z)] .

On veut déterminer θ$ . On pose

h(θ) = −∇V (θ) = E [H(θ,Z)] .

+ Cas général
V est une fonction de Lyapunov naturelle pour h puisque

∇V (θ) · h(θ) = −6∇V (θ)62 ≤ 0 .

Si le triplet (h,H,V ), la suite de pas {γn ,n ≥ 0} et la famille de v.a. {Zn ,n ≥ 0}

vérifient les hypothèses de la Proposition 66 et du Théorème 67 ou 68 alors la suite
{θn ,n ≥ 0} définie par θn+1 = θn + γn+1 H(θn ,Zn+1 ) converge p.s. vers θ$ .

+ Cas convexe
Lorsque V est strictement convexe, on peut trouver une autre fonction de Lyapu-
nov pour le champ h = −∇V qui, par construction, vérifie les conditions A10(1,2) et
dont les ensembles de niveau sont compacts. On a en effet le résultat suivant
Lemme 70. Soit G : Rd → R une fonction convexe, continûment différentiable.
Alors
{∇G(θ) − ∇G(θ $ )} · {θ − θ $ } ≥ 0 ;
on a inégalité stricte pour tout θ 3= θ $ dès que G est strictement convexe.

Démonstration. Soit g : [0,1] → R définie par g(s) = G(θ + s(θ $ − θ)) − G(θ). Alors
g est convexe (resp. strictement convexe) puisque G est convexe (resp. strictement
160 Méthodes de Monte Carlo adaptatives

convexe); et de classe C 1 . Donc s 0→ g$ (s) est croissante (resp. strictement croissante)

et g$ (1) ≥ g$ (0) (resp. g$ (1) > g$ (0)). On obtient le résultat en remarquant que

g$ (s) = ∇G(θ + s(θ $ − θ)) · (θ $ − θ) .

En appliquant le Lemme 70 avec G = V et θ $ = θ$ , on a

h(θ) · {θ − θ$ } ≤ 0

def
de sorte que la fonction Ṽ = 0.56θ − θ$ 62 est une fonction de Lyapunov pour h. De
plus, Ṽ vérifie A10(1,2), lim+∞ Ṽ = +∞, {θ,∇Ṽ (θ) · h(θ) = 0} = {θ$ } et {θ,Ṽ (θ) =
Ṽ (θ$ )} = {θ$ }. Par suite, dès lors que
0 1
– E |H(θ,Z)|2 ≤ C{1 + 6θ62 }
– {Zn ,n ≥ 0} est une famille de v.a. i.i.d. de même loi que Z, et indépendantes
de θ0 ,
%
– {γ
%n ,n2 ≥ 0} est une suite positive déterministe telle que n γn = +∞ et
n γn < +∞,
la suite {θn ,n ≥ 0} définie par θn+1 = θn + γn+1 H(θn ,Zn+1 ) converge p.s. vers θ$ .

6.3.3 Echantillonnage d’importance adaptatif (suite)

On applique les résultats de la section 6.2 à l’exemple présenté en section 6.1.1.
On cherche à déterminer θ$ unique solution de l’équation ∇v(θ) = 0 où v est une
fonction continûment différentiable, et telle que ∇v(θ) = −E[H(θ,Z)] avec

H(θ,Z) = exp(0.56θ62 ) (θ − Z) exp(−θ $ Z)φ2 (Z) .

+ Fonction de Lyapunov (I)

D’après la discussion ci-dessus, une fonction de Lyapunov naturelle est V = v
où v est définie par (6.2). Malheureusement, V ne vérifie pas les conditions A10(a,b)
puisque quand |θ| → ∞, la croissance de V est plus que quadratique. En effet, comme
Var(φ(Z)) < +∞, il existe $ > 0 tel que P(φ2 (Z) ≥ $,|Z| ≤ 1/$) > 0. Par suite,

v(θ) ≥ exp(0.56θ62 ) $ exp(−|θ|/$) P(φ2 (Z) ≥ $,|Z| ≤ 1/$) > 0 .

Ainsi, la fonction v ne vérifie pas les conditions de la Proposition 66.

+ Fonction de Lyapunov (II)

Dans la suite, on suppose qu’il existe C,a > 0 tels que

0 ≤ φ(z) ≤ C exp(a|z|/2) . (6.7)

161

La fonction v(θ) définie par (6.2) est strictement convexe; on peut donc appliquer
les résultats du paragraphe 6.3.2 et prendre pour
0 fonction
1 de Lyapunov V (θ) =
0.56θ − θ$ 62 . Malheureusement, la condition E |H(θ,Z)|2 ≤ C{1 + 6θ62 } n’est pas
vérifiée. On a en effet
0 1 S T
E |H(θ,Z)|2 ≥ exp(6θ62 ) $2 θ $ θ − 2|θ|/$ exp(−2|θ|/$) P(φ2 (Z) ≥ $,|Z| ≤ 1/$) > 0 .

Ainsi le triplet (h,H,V ) ne vérifie pas les conditions de la Proposition 66.

+ Fonction de Lyapunov (III)

Néanmoins, il est facile de vérifier que le comportement asymptotique de la suite
{θn ,n ≥ 0} définie par θn+1 = θn + γn+1 H(θn ,Zn+1 ) est le même que celui de la suite
définie par θ̃n+1 = θ̃n + γn+1 ψ(θ̃n ) H(θ̃n ,Zn+1 ) où ψ(θ) est une fonction strictement
positive et bornée.
Plus généralement, h étant donnée, il n’y a pas unicité de la fonction H telle que
E[H(θ,Z)] = h(θ) ni de la fonction de Lyapunov associée. On peut donc construire
différents triplets (h,H,V ) permettant d’établir la convergence vers θ$ .
On choisit

def /
Ha (θ,z) = − exp(−6θ62 ) exp(−a 1 + 6θ62 ) exp(6θ62 ) φ2 (z − θ) (2θ − z)
/
= − exp(−a 1 + 6θ62 ) φ2 (z − θ) (2θ − z) ,

de sorte que

def / 0 1
ha (θ) = E [Ha (θ,Z)] = − exp(−a 1 + 6θ62 ) E φ2 (Z − θ) (2θ − Z) ;

et on considère la suite définie par

θn+1 = θn + γn+1 Ha (θn ,Zn+1 ) . (6.8)

De plus, en utilisant (6.7)

0 1 / 0 1
E |Ha (θ,Z)|2 ≤ C exp(−2a 1 + 6θ62 ) E exp(2a6Z − θ6) 62θ − Z62
/ 0 1
≤ C exp(−2a 1 + 6θ62 ) exp(2a6θ6) E exp(2a6Z6){6θ62 + 6Z62 }
≤ C {1 + 6θ62 } .

Il est aisé de vérifier que le triplet (ha ; Ha ; V = 0.56θ − θ$ 62 ) vérifie les autres condi-
tions de la Proposition 66 et du Théorème 67; et que le seul point vérifiant les condi-
tions : “∇V (θ) · ha (θ) = 0” et “V (θ) = 0” est le point θ$ .
Par suite, la suite définie par (6.8) converge p.s. vers θ$ dès lors que les simulations
{Zn ,n ≥ 0}, le point initial θ0 et les pas {γn ,n ≥ 0} vérifient les conditions A11 et
A12.
162 Méthodes de Monte Carlo adaptatives

+ Echantillonnage d’importance adaptatif

Pour exploiter ce résultat de convergence, on peut implémenter l’algorithme sui-
vant:
1. Estimer θ$ , le point qui minimise v(θ), en mettant en oeuvre l’algorithme (6.8)
jusqu’à convergence.
2. Estimer la quantité d’intérêt E[φ(Z)] par une méthode de Monte Carlo
n
!
n−1 φ(Zk + θ$ ) exp(−0.56θ$ 62 − θ$$ Zk ) ,
k=1

où les v.a. {Zk ,k ≥ 0} sont indépendantes de θ$ . Néanmoins, cet algorithme est très
coûteux en simulations: les simulations effectuées dans la première étape pour le calcul
de θ$ ne sont pas utilisées dans la suite de l’algorithme.
Une alternative est donc de combiner approximation stochastique et méthode
de Monte Carlo dans la même procédure itérative. On obtient alors un algorithme
d’échantillonnage d’importance adaptatif dans lequel le paramètre d’implémentation
(ici, la valeur du drift θ) est appris au fur et à mesure de déroulement de l’algorithme.
Une itération de cette procédure adaptative consiste à
1. simuler Zn+1 .
2. mettre à jour l’estimation de θ$ : θn+1 = θn + γn+1 Ha (θn ,Zn+1 ).
3. mettre à jour l’estimation de la quantité d’intérêt :
9 :
1 1
In+1 = 1 − In + φ(Zn+1 + θn ) exp(−0.56θn 62 − θn$ Zn+1 ) .
n+1 n+1

On a alors
n
1!
In = φ(Zk + θk−1 ) exp(−0.56θk−1 62 − θk−1
$
Zk ) .
n
k=1

L’étude des propriétés asymptotiques de cet estimateur repose sur des théorèmes
limite pour des martingales et non plus sur des théorèmes limite pour les v.a. i.i.d.
(cf. Exercice 71).

+ Application numérique
On souhaite évaluer la prime d’option
" √ $
def
I(K) = E [φ(Z)] φ(Z) = exp(−rT ) S0 exp((r − 0.5σ 2 )T + σ T Z) − K
+

lorsque
S0 = 50 , r = 0.1 , T =1, σ = 0.1 .
Lorsque K est grand, l’option est en dehors de la monnaie et la méthode de Monte
Carlo usuelle est peu efficace: on montre sur la figure 6.1 l’évolution du coefficient
163

Evolution de la prime europeenne

35
Coefficient de variation
16
30
14

25
12

10 20

8 15

6
10

4
5
2

0
0 20 25 30 35 40 45 50 55 60 65 70
20 25 30 35 40 45 50 55 60 65 70 Strike K
Strike K

/
Fig. 6.1 – [gauche] Evolution du coefficient de variation Var[φ(Z)]/E[φ(Z)] en
fonction du strike K. [droite] Evolution de la prime en fonction du strike.

de variation en fonction du strike K; ainsi que l’évolution de K 0→ I(K). Dans cet

exemple simple, I(K) et le coefficient de variation sont calculables de façon exacte
en utilisant la formule de Black-Scholes.
Dans la suite, on prend K = 60. On trace sur la figure 6.2[gauche] l’évolution
de l’estimateur de Monte Carlo usuel µ̂n en fonction du nombre n de termes dans la
somme de Monte Carlo.
On met en oeuvre l’algorithme (6.8) en prenant
√ 1
a = 2σ T γn = min{ ,0.001}
(100 + n)0.8
et /
θ0 = (log(K/S0 ) − (r − 0.5σ 2 )T )/(σ (T )) .
On montre sur la figure 6.3 une trajectoire de la suite {θn ,n ≥ 0}; la valeur limite
est θ$ = 1.54. Sur la figure 6.2[gauche] on montre l’évolution en fonction du nombre
de termes dans la somme de Monte Carlo, de l’estimateur d’échantillonnage d’impor-
tance µ̂is
n (cf. Equation (6.1)) avec θ = θ$ . Sur
/la figure 6.2[droite], on trace l’évolution
du rapport des écart-types des estimateurs Var[µ̂is n ]/Var[µ̂n ].
Enfin, on met en oeuvre l’algorithme d’échantillonnage d’importance adaptatif,
dans lequel intégration (somme de Monte Carlo) et estimation (du paramètre optimal
θ) se font simultanément. Sur la figure 6.3[droite] on montre l’évolution en fonction du
nombre de termes dans la somme de Monte Carlo de l’estimateur d’échantillonnage
d’importance adaptatif.
Dans cet exemple, la méthode adaptative permet de réduire la variance de l’esti-
mateur de Monte Carlo classique d’un facteur 4.

6.4 Exercices
Exercice 71. Soit une fonction φ : Rd → R bornée et Z un vecteur un vecteur aléatoire
à valeur Rd . On veut calculer E[φ(Z)].
164 Méthodes de Monte Carlo adaptatives

Estimation de la prime Rapport des ecarts−type (IS / MC)

0.606 3
Monte Carlo
Vraie Valeur
0.604 IS avec drift optimal 2.5

0.602 2

0.6 1.5

0.598 1

0.596 0.5

0.594 0
0 200 400 600 800 1000 1200 1400 1600 1800 2000 0 200 400 600 800 1000 1200 1400 1600 1800 2000
x 1000 tirages Nombre de tirages

Fig. 6.2 – [gauche] Evolution de l’estimation de I(60) en fonction du nombre de

termes dans la somme de Monte Carlo, par l’estimateur de Monte Carlo classique
(trait plein) et l’estimateur d’échantillonnage d’importance en θ = 1.54 (dash-dot).
Pour comparaison, la vraie valeur (dash). [droite] Evolution du rapport des écarts-type
des estimateurs.

ISoptimal et IS adaptatif
1.6 0.625
IS optimal
IS adaptatif
1.5 0.62

1.4 0.615

1.3 0.61

1.2 0.605

1.1 0.6

1 0.595

0.9 0.59

0.8 0.585
0 1 2 3 4 5 6 7 0 2 4 6 8 10 12 14 16
4
x 10 Nombre d’iterations x 10
4

Fig. 6.3 – [gauche] Trajectoire de la suite {θn ,n ≥ 0}; [droite] Comparaison des
estimateurs de I(60) par échantillonnage d’importance avec drift optimal (θ = 1.54)
et par échantillonnage d’importance adaptatif.
165

1. On suppose qu’il existe une famille de fonction ψ(θ,·) : Rd × Rd → R telle que

pour tout θ ∈ Rd ,
E[φ(Z)] = E[ψ(θ,Z)] E[ψ 2 (θ,Z)] < ∞ . (6.9)
def
On note σ 2 (θ) = Var[ψ(θ,Z)].
(a) Dans cette question, Z ∼ Nd (0,Id). Proposer une fonction ψ qui vérifie les
conditions (6.9).
(b) Soit (Zn ,n ≥ 0) une famille de v.a. i.i.d. de même loi que Z. On note Fn
la filtration associée. Soit (Θn ,n ≥ 0) une famille de v.a. adaptées à la
def
filtration Fn et telles que E[σ 2 (Θn )] < ∞. On pose M0 = 0 et
n
!
def
Mn = {ψ(Θk−1 ,Zk ) − E[φ(Z)]} .
k=1

Montrer que (Mn ,n ≥ 0) est une martingale de carré intégrable par rapport
à la filtration Fn .
(c) Calculer le crochet < M >n de la martingale en fonction de σ 2 .
p.s.
(d) On suppose dans toute la suite, que Θn −→ θ $ , θ $ nombre réel, et que
θ 0→ σ 2 (θ) est continue. Montrer que
p.s.
n−1 < M >n −→ σ 2 (θ $ ) .
En déduire que si σ 2 (θ $ ) > 0, on a
n
! p.s.
n−1 ψ(Θk−1 ,Zk ) −→ E[φ(Z)] .
k=1

(e) On suppose dorénavant qu’il existe a > 1 tel que pour tout θ, E[ψ 2a (θ,Z)] <
∞ et que θ 0→ E[ψ 2a (θ,Z)] est continue. Montrer que
& n
'
√ ! D
−1
n n {ψ(Θk−1 ,Zk ) − E[φ(Z)]} −→ N (0,σ 2 (θ $ )) .
k=1

Pour ce faire, on pourra

pour une constante c que l’on explicitera en fonction de $,a.

166 Méthodes de Monte Carlo adaptatives

– Montrer que
+ ,
E |ψ(Θk−1 ,Zk ) − E[φ(Z)]|2a |Fk−1 ≤ CE[ψ 2a (θ,Z)]|θ=Θk−1 .

– Conclure.
(f) On peut montrer (en introduisant une martingale adéquate, et en raison-
nant comme au dessus) que si a ≥ 2,
n
& n
'2
! ! p.s.
−1 2 −1
n ψ (Θk−1 ,Zk ) − n ψ(Θk−1 ,Zk ) −→ σ 2 (θ $ ) .
k=1 k=1

(g) On suppose que θ $ minimise σ 2 (θ).

– Proposer une méthode de simulation permettant de calculer E[φ(Z)].
– Indiquer comment on peut estimer l’erreur d’estimation et construire
un intervalle de confiance.
2. On se place dans le cas où ψ(θ,z) = exp(−θ $ z−0.5θ $ θ) φ(Z+θ), et Z ∼ Nd (0,Id).
Proposer un algorithme de type Robbins-Monro permettant de résoudre (5.18).
3. Déduire de ces études, une méthode de simulation adaptative permettant de
calculer E[φ(Z)].
Exercice 72 (Extraction de la volatilité implicite dans le modèle de Black-Scholes).
Le spot x, le taux r, le strike K et la maturité T étant fixés, le prix d’un Call dans
le modèle de Black-Scholes ne dépend que de la volatilité σ par la relation :
)9 : *
σ2 √ −rT
CBS (σ) = E x exp(− T + σ T Z) − Ke
2 +

1. (a) Montrer que la dérivée du prix par rapport à la volatilité σ (appelée Vega)
est égale à

$
/ ln(S0 /K) + (r + 0.5σ 2 )T
CBS (σ) = x T /2π exp(−0.5d21 ) d1 = √
σ T
(b) En déduire que σ 0→ CBS (σ) est strictement croissante.
2. On note )9 : *
−rT σ2 √
PBS (σ) = E Ke − x exp(− T + σ T Z)
2 +
le prix du put au strike K.
(a) Etablir la parité entre le prix du call et le prix du put, à savoir:

CBS (σ) − PBS (σ) = x − Ke−rT

(b) En déduire que

- .
lim PBS (σ) = Ke−rT − x + lim PBS (σ) = Ke−rT
σ→0 σ→+∞
167

(c) En déduire que

- .
lim CBS (σ) = x − Ke−rT + lim CBS (σ) = x .
σ→0 σ→+∞

+- . ,
3. La fonction CBS est donc continue et strictement croissante de R+ dans x − Ke −rT ;x .
+- . , +
Par conséquent, il s’agit d’une bijection et pour tout P Market ∈ x − Ke−rT + ; x
il existe une unique volatilité implicite σ ∗ ∈ R+ telle que CBS (σ ∗ ) = P Market .
- .
(a) Montrer que si P Market = x − Ke−rT + , alors σ ∗ = 0. On suppose donc
- .
par la suite que P Market > x − Ke−rT + .
(b) Dans le but de pouvoir appliquer l’algorithme de Robbins-Monro, on in-
troduit la fonction H définie par :
)9 : *
σ2 √
H(σ,z) = ϕ(σ) x exp(− + T + σ+ T Z) − Ke−rT −P Market
2 +

2
σ+
− T
où ϕ(σ) = (1 + |σ|)e 2 . On pose alors :
7
ϕ(σ) [CBS+(σ) − CBS (σ ∗ )] , σ>0
h(σ) = E [H(σ,Z)] = - −rT
. Market
(1 + |σ|) x − Ke +
−P σ≤0

– Montrer que la recherche de volatilité implicite est donc équivalente à

la recherche de 0 de h.
– Montrer que
∀σ 3= σ ∗ ,h(σ)(σ − σ ∗ ) > 0

– Montrer que
0 1
E H(σ,Z)2 ≤ C(1 + |σ|2 ) .

– Etablir les propriétés d’un algorithme d’approximation stochastique

pour le calcul de la volatilité implicite.

6.5 Bibliographie
Algorithmes stochastiques

– A. Benveniste, M. Métivier, P. Priouret. Adaptive algorithms and stochastic

approximations, Springer-Verlag, 1990.
– M. Duflo. Méthodes récursives aléaoires, Masson, 1990.
– H. J. Kushner, G. Yin. Stochastic Approximation and Recursive Algorithms and
Applications, Springer, 2003.
168 Méthodes de Monte Carlo adaptatives

Echantillonnage d’importance adaptatif

– B. Arouna. Adaptive Monte Carlo method, a variance reduction technique, Monte
Carlo Methods Appl, 10(1):1-24, 2004.
– B. Jourdain, J. Lelong. Robust adaptive importance sampling for normal random
vectors, Annals of Applied Probablity, 2009.
– V. Lemaire, G. Pagès. Unconstrained Recursive Importance Sampling, 2008.

Méthodes de réduction de variance adaptatives

– S. M. T. Ehrlichman, S. G. Henderson. Adaptive control variates for pricing
multi-dimensional American options, Journal of Computational Finance.2006.
11 (1).
– P. Etoré, G. Fort, B. Jourdain, E. Moulines. Adaptive stratification, 2009.
– P. Etoré, B. Jourdain. Adaptive optimal allocation in stratified sampling me-
thods. Methodol. Comput. Appl. Probab. 2009.
– S. G. Henderson, B. Simon. Adaptive simulation using perfect control variates,
Journal of Applied Probability 41, 859-876, 2004.
– S. Kim, S.G. Henderson. Adaptive control variates for finite-horizon simulation,
Math. Oper. Res., 32(3):508-527, 2007.

Vous aimerez peut-être aussi

Introduction aux chaînes de Markov
Pas encore d'évaluation
Introduction aux chaînes de Markov
26 pages
Annales Correction PDF
Pas encore d'évaluation
Annales Correction PDF
42 pages
La Décision Dans L'incertain
100% (1)
La Décision Dans L'incertain
98 pages
Methodes Quantitatives Exercices
Pas encore d'évaluation
Methodes Quantitatives Exercices
6 pages
Corrigé SérieTD1
Pas encore d'évaluation
Corrigé SérieTD1
7 pages
Exercices Théorie Des Jeux
Pas encore d'évaluation
Exercices Théorie Des Jeux
5 pages
Optimisation financière : méthodes et applications
100% (1)
Optimisation financière : méthodes et applications
49 pages
Corrigé TD Econométrie L3 Gestion
Pas encore d'évaluation
Corrigé TD Econométrie L3 Gestion
12 pages
Mathf 207 Seance 5 Corr
Pas encore d'évaluation
Mathf 207 Seance 5 Corr
9 pages
Corrigé T.D.4 Statistiques Inférentielles
0% (1)
Corrigé T.D.4 Statistiques Inférentielles
4 pages
Modélisation des Taux d'Intérêt
100% (1)
Modélisation des Taux d'Intérêt
19 pages
TD1 1
100% (1)
TD1 1
3 pages
Cours Survie
Pas encore d'évaluation
Cours Survie
59 pages
MQ Exercices
Pas encore d'évaluation
MQ Exercices
5 pages
Processus stochastiques et temps d'arrêt
Pas encore d'évaluation
Processus stochastiques et temps d'arrêt
16 pages
4-Series Chronologiques-Tests de Racine Unitaire
Pas encore d'évaluation
4-Series Chronologiques-Tests de Racine Unitaire
25 pages
Exercices de Recherche Opérationnelle EPFL
Pas encore d'évaluation
Exercices de Recherche Opérationnelle EPFL
2 pages
Méthodes de ré-échantillonnage en stats
Pas encore d'évaluation
Méthodes de ré-échantillonnage en stats
148 pages
Actuariat - Casa - Séance 1
Pas encore d'évaluation
Actuariat - Casa - Séance 1
26 pages
Économétrie : Modèles Linéaires et Tests
Pas encore d'évaluation
Économétrie : Modèles Linéaires et Tests
8 pages
Travaux Dirigés de Probabilités
100% (1)
Travaux Dirigés de Probabilités
1 page
CORRECTION EXAMEN D'ECONOMETRIE 1e SESSION UMECI 20 05 2025
Pas encore d'évaluation
CORRECTION EXAMEN D'ECONOMETRIE 1e SESSION UMECI 20 05 2025
7 pages
Estimateur de Kaplan-Meier et Variance
Pas encore d'évaluation
Estimateur de Kaplan-Meier et Variance
8 pages
Série 2 - Corrigé
Pas encore d'évaluation
Série 2 - Corrigé
5 pages
Regression Logistique Theorie Et Applications
Pas encore d'évaluation
Regression Logistique Theorie Et Applications
89 pages
Cours Langage R en Actuariat
100% (1)
Cours Langage R en Actuariat
52 pages
Modèle de Régression Économétrique 2021
Pas encore d'évaluation
Modèle de Régression Économétrique 2021
2 pages
Cours sur l'Optimisation Dynamique
Pas encore d'évaluation
Cours sur l'Optimisation Dynamique
91 pages
Microéconomie : Décisions sous incertitude
Pas encore d'évaluation
Microéconomie : Décisions sous incertitude
8 pages
Rappels de Mathématiques en Physique
Pas encore d'évaluation
Rappels de Mathématiques en Physique
31 pages
Exercices d'économétrie et MCO
100% (1)
Exercices d'économétrie et MCO
3 pages
Exercices sur les variables aléatoires
Pas encore d'évaluation
Exercices sur les variables aléatoires
2 pages
Théorie de la crédibilité actuarielle
Pas encore d'évaluation
Théorie de la crédibilité actuarielle
96 pages
Cours Extremes
Pas encore d'évaluation
Cours Extremes
40 pages
Économie de la décision : Exercices corrigés
Pas encore d'évaluation
Économie de la décision : Exercices corrigés
11 pages
Estimation des réserves en assurance auto
Pas encore d'évaluation
Estimation des réserves en assurance auto
15 pages
CC1L3 2007 Correction
Pas encore d'évaluation
CC1L3 2007 Correction
4 pages
Method Probabilistes Pour Des Modeles Financiers PDF
Pas encore d'évaluation
Method Probabilistes Pour Des Modeles Financiers PDF
50 pages
Calculs Numériques Et Finance Quantitative Mesc1
Pas encore d'évaluation
Calculs Numériques Et Finance Quantitative Mesc1
58 pages
Analyse de régression et statistiques descriptives
100% (1)
Analyse de régression et statistiques descriptives
4 pages
Processus VAR en Séries Temporelles
Pas encore d'évaluation
Processus VAR en Séries Temporelles
80 pages
Modèle de Régression Linéaire Multiple
Pas encore d'évaluation
Modèle de Régression Linéaire Multiple
30 pages
Modèles Arch Multivariés
100% (1)
Modèles Arch Multivariés
19 pages
Cours D'économétrie 2 Seco4
Pas encore d'évaluation
Cours D'économétrie 2 Seco4
52 pages
Exercices sur les processus ARMA et VAR
100% (1)
Exercices sur les processus ARMA et VAR
2 pages
Chapitre 3 MICRO
100% (1)
Chapitre 3 MICRO
12 pages
Diagonalisation
Pas encore d'évaluation
Diagonalisation
22 pages
Régression Linéaire Multiple
Pas encore d'évaluation
Régression Linéaire Multiple
22 pages
Introduction aux séries temporelles R
Pas encore d'évaluation
Introduction aux séries temporelles R
285 pages
Examen d'économétrie - Université de Toliara
100% (1)
Examen d'économétrie - Université de Toliara
2 pages
Statistiques Avancées pour Étudiants
Pas encore d'évaluation
Statistiques Avancées pour Étudiants
2 pages
Effet des Dépenses Ménagères sur l'Alimentation
100% (1)
Effet des Dépenses Ménagères sur l'Alimentation
17 pages
Économie de l'incertain et risque
Pas encore d'évaluation
Économie de l'incertain et risque
75 pages
Le Critère de Markowitz
Pas encore d'évaluation
Le Critère de Markowitz
5 pages
Chapitre 5. La Théorie de L'assurance
Pas encore d'évaluation
Chapitre 5. La Théorie de L'assurance
34 pages
Guyader
Pas encore d'évaluation
Guyader
182 pages
Estimation Ponctuelle Et Par Intervalle
Pas encore d'évaluation
Estimation Ponctuelle Et Par Intervalle
23 pages
Méthodes numériques en finance et simulation
Pas encore d'évaluation
Méthodes numériques en finance et simulation
36 pages
Cours Monte Carlo
Pas encore d'évaluation
Cours Monte Carlo
30 pages
Statistique Inferentielle L 2
Pas encore d'évaluation
Statistique Inferentielle L 2
55 pages
1-Chapitre II - Fonctions Génératrice Et Caractéristique
Pas encore d'évaluation
1-Chapitre II - Fonctions Génératrice Et Caractéristique
60 pages
Capture D'écran . 2025-02-05 À 09.09.15
Pas encore d'évaluation
Capture D'écran . 2025-02-05 À 09.09.15
38 pages
Probabilités : Exercices et Solutions
Pas encore d'évaluation
Probabilités : Exercices et Solutions
4 pages
Exercice de Mathématiques Complexes 2023-2024
Pas encore d'évaluation
Exercice de Mathématiques Complexes 2023-2024
1 page
S6 D5 Verbes - Dre
Pas encore d'évaluation
S6 D5 Verbes - Dre
3 pages
Projection Orthogonale
100% (3)
Projection Orthogonale
3 pages
Méthode des éléments finis en mécanique des fluides
Pas encore d'évaluation
Méthode des éléments finis en mécanique des fluides
20 pages
Calcul Litteral-1
Pas encore d'évaluation
Calcul Litteral-1
2 pages
Bride Hydraulique
Pas encore d'évaluation
Bride Hydraulique
6 pages
Presentation de Thèse
Pas encore d'évaluation
Presentation de Thèse
72 pages
Activités Maths Ludiques 6ème 5ème
Pas encore d'évaluation
Activités Maths Ludiques 6ème 5ème
368 pages
Examens d'admission 2024 : Mathématiques 1C
Pas encore d'évaluation
Examens d'admission 2024 : Mathématiques 1C
13 pages
Programme Maths Seconde STHR 2024-2025
Pas encore d'évaluation
Programme Maths Seconde STHR 2024-2025
55 pages
Modèles de Volatilité Réalisée À Paramètres Variables Dans Le Temps
Pas encore d'évaluation
Modèles de Volatilité Réalisée À Paramètres Variables Dans Le Temps
29 pages
Devoir Statistiques Descriptives ISET Jendouba
Pas encore d'évaluation
Devoir Statistiques Descriptives ISET Jendouba
2 pages
Term - Exp Equations Polynomiales Correction Des Exercices
Pas encore d'évaluation
Term - Exp Equations Polynomiales Correction Des Exercices
6 pages
Cours Python
100% (1)
Cours Python
81 pages
Résolution d'équations et inéquations
Pas encore d'évaluation
Résolution d'équations et inéquations
5 pages
Devoir de Mathématiques 3ème - Trimestre 2
Pas encore d'évaluation
Devoir de Mathématiques 3ème - Trimestre 2
2 pages
NotesDeCoursSec1 201920 PM-1
Pas encore d'évaluation
NotesDeCoursSec1 201920 PM-1
176 pages
Analyse Fonctionnelle 1 Par Bellal
Pas encore d'évaluation
Analyse Fonctionnelle 1 Par Bellal
36 pages
Interaction Magnétique des Solénoïdes
Pas encore d'évaluation
Interaction Magnétique des Solénoïdes
8 pages
Cours 1 Algo
Pas encore d'évaluation
Cours 1 Algo
50 pages
Chimie Verte Groupe 6
Pas encore d'évaluation
Chimie Verte Groupe 6
7 pages
Géométrie Dans L'espace
Pas encore d'évaluation
Géométrie Dans L'espace
9 pages
Evaluation Diagnostique Maths Deuxieme Bac Lettres Et Sciences Humaines Word 2
Pas encore d'évaluation
Evaluation Diagnostique Maths Deuxieme Bac Lettres Et Sciences Humaines Word 2
3 pages
Continuité et Théorèmes Clés
Pas encore d'évaluation
Continuité et Théorèmes Clés
11 pages
Généralités sur les communications numériques
Pas encore d'évaluation
Généralités sur les communications numériques
6 pages
Horaire des cours en Mathématiques et Informatique
Pas encore d'évaluation
Horaire des cours en Mathématiques et Informatique
7 pages
Le Verbe2
Pas encore d'évaluation
Le Verbe2
1 page