Vous êtes sur la page 1sur 78

Chapitre 5

Méthodes de réduction de
variance

Sous certaines conditions, la valeur de produits dérivés s’écrit comme l’espérance


d’une variable aléatoire (v.a.), sous une probabilité dite de risque neutre. Par exemple,
si h désigne la fonction de paiement d’une option d’échéance T portant sur un actif
risqué alors dans le modèle de Black-Scholes,

Vt = Ẽ [exp(−r(T − t)) h|Ft ]

où Vt désigne la valeur du portefeuille simulant. Cette relation est vraie dès que h est
une fonction de L2 (P̃) positive et FT -mesurable.
Par suite, évaluer le prix d’un produit dérivé consiste à calculer une espérance i.e.
une intégrale (ou une somme discrète). Quand cela ne peut pas être fait de façon
exacte - par exemple parce que l’intégrande (le terme général de la somme) a une
expression complexe et/ou la dimension de l’espace d’intégration (de sommation) est
trop grande - , les méthodes de Monte Carlo fournissent une alternative : le principe
de ces méthodes est d’approcher une espérance par une somme discrète calculée à
partir de n simulations Z1 , · · · ,Zn . La justification repose sur l’existence d’une loi
des grands nombres pour cette famille de v.a. (Zn ,n ≥ 0)
n
1! p.s.
f (Zk ) −→ Ẽ[f (Z)] , n→∞,
n
k=1

pour la probabilité P̃, convergence qui est vraie sous certaines conditions portant sur
la dépendance des v.a. {Zn ,n ≥ 0} sous la loi P̃, et sur l’intégrabilité des moments de
{f (Zn ),n ≥ 0}.
Dans la plupart des applications considérées, f (Z) sera la fonction de paiement
actualisée. Dans certains cas, la simulation de v.a. de même loi que f (Z) est trop
complexe : par exemple,
" dans $le cas des options asiatiques, la fonction de paiement
#T
est de la forme f ST , 0 Ss ds où (St ,t ≥ 0) désigne le prix du sous-jacent risqué. A
#T
défaut de savoir calculer l’intégrale 0 Ss ds ou simuler de façon exacte des trajectoires
92 Méthodes de réduction de variance

#T
du processus (St ,t ≥ 0) sur [0,T ], on va approcher le calcul de l’intégrale 0 St dt
par une somme discrète nécessitant le calcul du sous-jacent à différents instants de
discrétisation tk ∈ [0,T ]. En conséquence, le calcul de l’espérance de la fonction de
paiement fait intervenir deux types d’erreur d’approximation
– une erreur de discrétisation.
– une erreur de Monte Carlo.
Dans ce chapitre, nous ne nous intéressons qu’à ce second type d’erreurs.
Même si cela n’est pas explicitement précisé, dès que nous écrirons E[Y ], Var(Y ),
Cov[X,Y ], · · · pour des v.a. X,Y , nous supposons que ces quantités existent et sont
finies.

5.1 Introduction
Soit (Un ,n ≥ 0) une suite de v.a. indépendantes définies sur un espace de proba-
bilité (Ω,A,P), de même loi que U .
A1 U admet un moment d’ordre 1. Notons µ l’espérance de U .
A2 U possède un moment d’ordre 2. Notons σ 2 la variance de U .
On pose
n
!
def −1
µ̂n = n Uk .
k=1

Sous A1, E[µ̂n ] = µ : µ̂n est donc un estimateur sans biais de l’espérance µ. De
plus, sous A2, Var(µ̂n ) = σ 2 /n.

5.1.1 Loi des grands nombres


Le théorème qui justifie l’intérêt des méthodes de Monte Carlo comme méthodes
numériques de calcul d’intégrale est la Loi (forte) des Grands Nombres. Sous l’hy-
pothèse A1
n
1! p.s.
Uk −→ µ , n → +∞ ,
n
k=1

pour la probabilité P. Cela signifie qu’il existe un ensemble mesurable A ∈ A tel que
P(A) = 1 et pour tout ω ∈ A,
n
1!
lim Uk (ω) = µ.
n n
k=1

%
En pratique, la quantité n−1 nk=1 uk calculée à partir d’une réalisation (u1 , · · · ,un )
du vecteur aléatoire (U1 , · · · ,Un ) sera considérée comme une approximation de la
quantité µ d’autant meilleure que n est grand.
93

5.1.2 Contrôle de l’erreur d’approximation / Théorème Central Li-


mite
%n
Le contrôle de l’erreur d’approximation de µ par l’estimateur n−1 k=1 Uk repose
sur le Théorème Central Limite.
√ & n
!
'
n −1 D
n Uk − µ −→ N (0,1) , n → +∞ ,
σ
k=1
D
où −→ désigne la convergence en loi. Cela signifie que pour n grand, on peut faire
l’approximation suivante : ∀ − ∞ ≤ a < b ≤ +∞,
& √ & n
' ' ( b
n ! 1
−1
P a≤ n Uk − µ ≤ b ∼ √ exp(−0.5x2 ) dx = Φ(b) − Φ(a) ,
σ 2π a
k=1

où Φ désigne ici la fonction de répartition d’une loi N (0,1). Remarquons que cela
signifie que pour tout $ > 0,
& n n
' ( !
! σ ! σ 1
−1 −1
P n Uk − $ √ ≤ µ ≤ n Uk + $ √ ∼ 2√ exp(−0.5x2 ) dx
n n 2π 0
k=1 k=1
∼ 2Φ($) − 1 . (5.1)
Cette relation permet de trouver des intervalles de confiance à 1 − α% pour µ en
prenant pour $, la valeur du quantile d’une loi N (0,1) d’ordre 1 − α/2 (par exemple,
pour un intervalle de confiance à 95%, le quantile est 1.96).

De plus, la taille de l’intervalle de confiance est 2$σ/ n. En conséquence, pour
améliorer d’un
% facteur 10 la précision de l’approximation de µ par la somme de Monte
Carlo n−1 nk=1 Uk , on peut soit (a) augmenter le nombre de simulations d’un facteur
100, soit (b) diminuer la variance d’un facteur 100. L’objectif de ce chapitre est de
présenter des méthodes de réduction de variance.
Très souvent, la variance σ 2 n’est pas connue. Elle peut être estimée par
n
def 1 !
s2n = (Uk − µ̂n )2 .
n−1
k=1

Comme les v.a. (Uk ,k ≥ 0) sont indépendantes et de même loi, on peut montrer que
p.s.
s2n −→ σ 2 quand n → +∞. s2n est donc un estimateur fortement consistant de σ 2 . Le
lemme de Slutsky 1 justifie le résultat suivant

n D
(µ̂n (b) − E[U ]) −→ N (0,1) .
sn (b)
Un intervalle de confiance à 1 − α% pour E[U ] est donné par
) *
sn (b) sn (b)
µ̂n (b) − √ z1−α/2 ; µ̂n (b) + √ z1−α/2 . (5.2)
n n
1. Si {Xn ,n ≥ 0} converge en loi vers X et {Yn ,n ≥ 0} converge en loi vers une constante alors
pour toute fonction continue, f (Xn ,Yn ) converge en loi vers f (X,c).
94 Méthodes de réduction de variance

Réduction de variance et coût de calcul


Supposons que l’on souhaite estimer le paramètre µ et que l’on dispose pour cela
(i)
de deux estimateurs µ̂n , i = 1,2, non biaisés et de variances respectives n−1 σi2 ,
(1)
i = 1,2 telles que σ12 < σ22 . Alors l’estimateur µ̂n est plus précis que l’estimateur
(2) (1)
µ̂n . Néanmoins, si le calcul de µ̂n est plus coûteux en temps de calcul, il faut tenir
compte de ce coût de ce calcul dans la comparaison des estimateurs.
(i) % (i) (i)
Supposons que µ̂n = n−1 nk=1 Yk , pour des v.a. (Yk ,k ≥ 0) indépendantes
et de même loi que Y (i) , i = 1,2. Supposons de plus que le temps de simulation
d’une variable de même loi que Y (i) est une quantité déterministe τ (i) . En t unités de
temps, on peut simuler *t/τ (i) + v.a. de même loi que Y (i) et la variance des estimateurs
associés est donc
+ , τ (i)
(i)
Var µ̂"t/τ (i) # ∼ σ2 .
t i
En conséquence, le critère de comparaison des estimateurs basé sur le produit τ (i) σi2
est plus adéquat que le critère basé sur la variance seule, puisqu’il permet de tenir
compte aussi du coût de calcul de chacun des estimateurs.
Dans la suite nous présentons des méthodes de réduction de variance et sommes
donc amenés à comparer l’estimateur “usuel” à un estimateur moins intuitif.
Dans la méthode Variables de Contrôle, Y (2) est de la forme Y (1) + U et l’on
considère implicitement que le coût de calcul de U est négligeable devant celui de
Y (1) de sorte que la comparaison des deux estimateurs se limite à la comparaison
de leurs variances.
Dans la méthode Variables Antithétiques, Y (1) et Y (2) sont resp. de la forme
φ(Z) et 0.5{φ(Z) + φ(T Z)} où T désigne une transformation. Dans ce cas, on
considère que le coût de calcul de φ(T Z) est du même ordre que celui de φ(Z)
et on en tient donc compte dans la comparaison des estimateurs.
Dans les méthodes Stratification et Echantillonnage préférentiel, on compare
les estimateurs à l’estimateur de Monte Carlo en ne tenant compte que de la
variance.

5.2 Méthode des variables de contrôle


5.2.1 Introduction
Le principe de cette méthode est d’exploiter l’erreur d’estimation de quantités
connues, pour améliorer l’erreur d’estimation de quantités inconnues.
On souhaite calculer l’espérance E[Y ] d’une v.a.réelle Y de variance finie notée
Var[Y ].
On suppose que l’on dispose de couples de v.a. ((Xk ,Yk ),k ≥ 0), tels que
1. ces couples sont indépendants et ont même loi que le couple (X,Y ) (donc en
particulier, les v.a. {Xk ,k ≥ 0} ont même loi que X et les v.a. {Yk ,k ≥ 0} ont
même loi que Y ).
95

2. les v.a. (Xk ,k ≥ 0) ont même espérance E[X] connue et même variance
Var[X] > 0.
3. les v.a. (Yk ,k ≥ 0) ont même loi que Y .

Observons que sous ces hypothèses, les v.a. (Xk ,k ≥ 0) sont indépendantes et
les v.a. (Yk ,k ≥ 0) sont indépendantes; mais rien n’est dit sur la dépendance des
v.a. (X,Y ). Si les v.a. (X,Y ) sont corrélées alors X porte une information sur Y : le
principe de la méthode des % variables de contrôle est de tirer de l’information de la
−1 n
façon dont l’estimateur n k=1 Xk approche E[X] (ce que l’on peut parfaitement
contrôler puisque E[X] est connue), pour améliorer l’estimation
% de E[Y ] et proposer
un estimateur plus efficace que l’estimateur classique n−1 nk=1 Yk . Nous reviendrons
sur cette interprétation de la méthode dans la section 5.2.4.

5.2.2 Cas unidimensionnel


Pour tout réel b, on définit l’estimateur
n
def 1! - .
µ̂n (b) = {Yk − b (Xk − E[X])} = Ȳn − b X̄n − E[X] , (5.3)
n
k=1
avec
n
! n
!
def def
X̄n = n−1 Xk , Ȳn = n−1 Yk .
k=1 k=1

Biais et consistance de l’estimateur


µ̂n (b) est un estimateur sans biais de E[Y ].
En appliquant la loi des grands nombres, il est facile de vérifier que pour tout
b ∈ R, µ̂n (b) converge p.s. vers E[Y ] quand n → +∞. µ̂n (b) est donc un estimateur
fortement consistant de E[Y ].

Variance de l’estimateur
La variance de µ̂n (b) est donnée par
n
1 ! 1- .
Var[µ̂n (b)] = 2
Var [Yk − b (Xk − E[X])] = Var[Y ] + b2 Var[X] − 2bCov[X,Y ]
n n
k=1
b
= Var[Ȳn ] + (bVar[X] − 2Cov[X,Y ])
n
1
= Var[Ȳn ] + (Var[bX] − 2Cov[bX,Y ]) ,
n
où nous avons utilisé l’indépendance des couples ((Xk ,Yk ),k ≥ 0) et le fait qu’ils aient
même loi. Par suite, l’estimateur µ̂n (b) est de variance plus faible que l’estimateur clas-
sique Ȳn si et seulement si on choisit b et la loi de X tels que (Var[bX] − 2Cov[bX,Y ]) <
0.
96 Méthodes de réduction de variance

Choix optimal du coefficient b


• La variance de l’estimateur µ̂n (b) est une fonction quadratique et convexe de b :
il existe donc un minimum unique obtenu en b = b$ , donné par (il suffit de résoudre
l’équation ∂b Var[µ̂n (b)] = 0)
Cov[X,Y ]
b$ = . (5.4)
Var[X]
Dans ce cas, dans la famille des estimateurs de la forme (µ̂n (b),b ∈ R), celui de
variance minimale est µ̂n (b$ ) et sa variance est donnée par
- . def Cov[X,Y ]
Var[µ̂n (b$ )] = Var[Ȳn ] 1 − ρ2X,Y , ρX,Y = / . (5.5)
Var[X]Var[Y ]
Ainsi la variance de ce nouvel estimateur est inférieure à celle de l’estimateur usuel
Ȳn : par exemple, elle est réduite d’un facteur 2 pour |ρX,Y | = 0.7 et d’un facteur 10
pour |ρX,Y | = 0.95.
• En pratique, dans les situations non triviales, l’estimateur µ̂n (b$ ) n’est pas
utilisable : en effet, si E[Y ] n’est pas calculable, c’est aussi très certainement le cas de
Cov[X,Y ]. Différentes stratégies sont utilisées
– Une première solution consiste à utiliser l’estimateur µ̂n (b̂n ) où b̂n est donné
par %n - .
k=1 (Xk − E[X]) Yk − Ȳn
b̂n = %n 2 , (5.6)
k=1 (Xk − E[X])
(i.e. la covariance et la variance sont remplacées par la covariance et la va-
riance empiriques). Néanmoins, l’estimateur µ̂n (b̂n ) n’hérite+pas de toutes les
- .,
propriétés de µ̂n (b$ ); par exemple, il a un biais égal à −E b̂n X̄n − E[X] .
Nous verrons ci-après que la variance asymptotique (dans le TCL) de µ̂n (b̂n )
est néanmoins Var[µ̂n (b$ )].
– Une seconde solution consiste à estimer b̂n par la formule (5.6) calculée à partir
de n1 couples (Xk ,Yk ), puis d’utiliser les n − n1 simulations restantes pour
calculer Ȳn et X̄n ; dans ce cas, b̂n et X̄n − E[X] sont indépendants et donc
l’estimateur µ̂n (b̂n ) est sans biais.
– Une troisième solution consiste à mettre à jour l’estimation de b̂n , au fur et à
mesure que les réalisations des couples ((Xk ,Yk ),k ≥ 0) sont disponibles. [cf.
Exercice 52].

Intervalles de confiance
• Nous considérons tout d’abord l’intervalle de confiance (IC) pour E[Y ] obtenu
à l’aide de l’estimateur µ̂n (b), donné par (5.3). Par définition, c’est une somme de
v.a. indépendantes, de même loi que la v.a. Y − b(X − E[X]) donc en particulier,
d’espérance E[Y ] et de variance
def
σ 2 (b) = Var[Y ] + b2 Var[X] − 2bCov[X,Y ] .
97

Le TCL pour des variables i.i.d. de carré intégrable entraine



n D
(µ̂n (b) − E[Y ]) −→ N (0,1) ,
σ(b)

et un intervalle de confiance à (1 − δ)% pour E[Y ] est donné par


) *
σ(b) σ(b)
µ̂n (b) − √ z1−δ/2 ; µ̂n (b) + √ z1−δ/2 ,
n n

où zα désigne le quantile d’ordre α de la loi gaussienne centrée réduite.


• Lorsque σ 2 (b) n’est pas connu (ce qui est le cas en pratique), il peut être estimé
par la variance empirique
n
def 1 !
s2n (b) = {Yk − b(Xk − E[X]) − µ̂n (b)}2 .
n−1
k=1

On peut, en appliquant le résultat discuté Section 5.1.2, obtenir des IC à un niveau


donné et basés sur les quantiles de la loi gaussienne centrée réduite (cf. Eq (5.2)).
• Les résultats précédents ne s’appliquent pas (directement) pour le calcul d’IC à
l’aide de l’estimateur µ̂n (b̂n ), lorsque b̂n est calculé par (5.6) à l’aide des mêmes v.a.
{Xk ,Yk ,k ≥ 0} utilisées pour le calcul de l’estimateur µ̂n , puisque cette fois, les v.a.
{Yk − b̂n (Xk − E[X]),k ≥ 0} ne sont pas indépendantes. On écrit:
√ " $ √ " $ √
n µ̂n (b̂n ) − E[Y ] = n µ̂n (b̂n ) − µ̂n (b$ ) + n (µ̂n (b$ ) − E[Y ])
√ " $- . √
= n b̂n − b$ X̄n − E[X] + n (µ̂n (b$ ) − E[Y ]) .

En multipliant le numérateur et le dénominateur par n dans (5.6), et en appliquant


la loi des grands nombres : on voit que le numérateur converge p.s. vers Cov[X,Y ]
et le dénominateur vers Var[X]. Par suite,. b̂n converge p.s. (et donc en loi) vers b$ .
√ -
Par application du TCL, n X̄n − E[X] converge en loi vers une v.a. gaussienne
centrée de variance Var[X]. Par suite, le théorème de Slutsky entraine
√ " $
D
n µ̂n (b̂n ) − E[Y ] −→ 0 + N (0,σ 2 (b$ )) .

En d’autres termes, l’estimateur µ̂n (b̂n ) se comporte asymptotiquement comme l’es-


timateur optimal µ̂n (b$ ).
En utilisant encore Slutsky, on peut montrer que
√ " $
D
n[sn (b̂n )]−1 µ̂n (b̂n ) − E[Y ] −→ N (0,1) .

dont on déduit des IC pour l’estimation de E[Y ] par µ̂n (b̂n ).


Ces discussions montrent qu’en utilisant l’estimateur µ̂n (b̂n ), on hérite asympto-
tiquement des propriétés d’optimalité de l’estimateur µ̂n (b$ ). Cela est vraie pour de
98 Méthodes de réduction de variance

grands échantillons (n → ∞), mais dans le cas de petits échantillons, l’utilisation


du coefficient estimé (et donc aléatoire) b̂n au lieu d’un coefficient déterministe, peut
être préjudiciable.
Pour des petits échantillons, l’obtention d’IC nécessite des hypothèses supplémentaires
sur la loi : par exemple, si on suppose que (X,Y ) suit une loi gaussienne multi-
variée, on peut construire des IC exacts faisant intervenir les quantiles de la loi de
Student et on dispose d’une expression explicite de la variance de l’estimateur µ̂n (b̂n ).
Néanmoins, dans les applications que nous considérons, l’hypothèse de gaussianité du
couple (X,Y ) est peu crédible.

Conclusion
On peut donc tirer profit de la simulation d’autres variables aléatoires et notam-
ment de l’erreur connue X̄n − E[X], pour améliorer l’estimateur µ̂n en réduisant sa
variance. La variance est d’autant plus réduite que ρ2X,Y est proche de 1 i.e. que les
variables (X,Y ) sont corrélées, et cette amélioration ne dépend pas du signe de la
corrélation.
La réduction de variance étant liée à la corrélation des v.a. (X,Y ), et la corrélation
mesurant la dépendance linéaire entre deux variables : la méthode par variables de
contrôle présentée ici tire profit de la dépendance linéaire des v.a. X et Y .

5.2.3 Cas multi-dimensionnel


La technique peut se généraliser au cas de plusieurs variables de contrôle X (i) ,
(1) (d)
1 ≤ i ≤ d. On note Xk = (Xk , · · · ,Xk ) - vecteur colonne par convention - et on
suppose
1. les couples ((Xk ,Yk ),k ≥ 0) sont i.i.d. et de matrice de dispersion
) *
ΣX ΣX,Y
.
Σ$X,Y Σ$Y

ΣX (resp. ΣY ) est la matrice de dispersion d × d de Xk supposée inversible,


(resp. la matrice de dispersion 1 × 1 de Yk ), et ΣX,Y est une matrice d × 1 dont
la i-ième composante est donnée par Cov[X (i) ,Y ].
2. l’espérance E[X] ∈ Rd des vecteurs aléatoires (Xk ,k ≥ 0) est connue.
Pour tout vecteur b ∈ Rd , on définit l’estimateur
def - .
µ̂n (b) = Ȳn − b$ X̄n − E[X] (∈ R) .

En raisonnant comme dans le cas mono-dimensionnel, on montre que

nVar[µ̂n (b)] = Var[Y ] − 2b$ ΣX,Y + b$ ΣX b ,

et cette quantité est minimale pour b$ = Σ−1


X ΣX,Y . Dans ce cas,

def
Var[µ̂n (b$ )] = (1 − R2 ) Var[Ȳn ] , R2 = Var[Y ]−1 Σ$X,Y Σ−1
X ΣX,Y .
99

Lorsque le vecteur optimal b$ n’est pas calculable explicitement, on peut le substi-


tuer par b̂n obtenu en remplaçant les matrices de dispersion exactes par les matrices
de dispersion empiriques SX et SX,Y .

5.2.4 L’approche par Régression Linéaire


Pour simplifier les notations, la discussion est faite dans le cas uni-dimensionnel,
mais elle reste valable dans le cas multi-dimensionnel.

Si l’on cherche à régresser linéairement Y sur X au sens des moindres carrés, la


solution est la droite d’équation y = E[Y ] + b$ (x − E[X]), où b$ est donné par (5.4).
En écrivant
Y = E[Y ] + b$ (X − E[X]) + $ ,
on définit un résidu $ centré et décorrélé de X. En effet, E[$] = 0 et

Cov [$,X] = Cov[Y,X] − b$ Var[X] = 0 .

En termes de géométrie induite par le produit scalaire Cov sur l’espace des v.a. de
carré intégrable, on dit que b$ (X − E[X]) est le projeté de Y − E[Y ] sur X − E[X] et
le résidu $ est la partie de Y − E[Y ] “orthogonale” à X − E[X] (orthogonale signifiant
ici décorrélée). Plus faible est cette composante et meilleure est l’approximation :

Var[Y ] = Var[b$ X] + Var[$] = Var[b$ X] + Var [Y − b$ X] ,


= (b$ )2 Var[X] + Var [Y − b$ X] = ρ2X,Y Var[Y ] + Var [$] .

Var[b$ X](= ρ2X,Y Var[Y ]) est la part de la variance de Var[Y ] expliquée par b$ X;
plus faible est la variance du résidu $ et meilleure est la réduction de variance par
la variable de contrôle X. Le cas extrême est celui où Y est une fonction affine de
X : dans ce cas, $ = 0; néanmoins, ce cas est sans intérêt puisque comme E[X] est
connue, E[Y ] le serait aussi.

On peut interpréter l’estimateur µ̂n (b̂n ) de la façon suivante : étant donné le nuage
de points de coordonnées ((Xk ,Yk ),k ≤ n), quelle est la meilleure régression linéaire
au sens moindres carrés? - .
La réponse est la droite de régression d’équation y = Ȳn − b̂n X̄n − x . Cette
droite passe par le point de coordonnées (X̄n ,Ȳn ) - le centre du nuage - et par le point
de coordonnées (E[X],µ̂n (b̂n )). Si X̄n < E[X] i.e. l’espérance de E[X] est sous-estimée,
et si les couples (Xk ,Yk ) sont positivement corrélés, on aura alors µ̂n (b̂n ) > Ȳn (cf.
l’équation de la droite) : autrement dit, l’estimateur par variable de contrôle corrige
à la hausse Ȳn .
En quelque sorte, comme la corrélation est positive, si X̄n sous-estime E[X] il
en sera de même pour Ȳn vis-à-vis de E[Y ], d’où la correction “à la hausse” de
l’estimateur usuel. Cette correction est d’autant plus forte que la pente de la droite
de régression est forte (cf. figure 5.1).
100 Méthodes de réduction de variance

10

6
Estim.
corrigé

4
mean(y)

mean(x) E[X]
−2

−4
−10 −5 0 5 10 15 20

Fig. 5.1 – Couples positivement corrélés et X̄n < E[X]. On a µ̂n (b̂n ) > Ȳn .

5.2.5 Exemples
L’intérêt de cette méthode est liée à la possibilité d’exhiber une v.a. d’espérance connue
et corrélée avec la variable d’intérêt. Nous donnons ci-après quelques exemples d’ap-
plication en finance pour le calcul du prix d’options. Dans toutes les simulations qui
suivent, nous avons calculé b̂n à partir des n1 premières simulations (n1 ∼ 20% n)
et Ȳn et X̄n à l’aide des (n − n1 ) simulations restantes. L’estimateur µ̂n (b̂n ) est donc
sans biais.

+ Exemple d’application
def
On souhaite estimer I = E[(W1 + W2 )5/4 ] où les v.a. W1 ,W2 sont des v.a.

indépendantes qui suivent une loi de Weibull de densité 3/2 x exp(−x3/2 ) R+ (x).
1. Si U est une v.a. uniforme sur [0,1], montrer que W = (− ln U )2/3 a même loi
que W1 .
2. En déduire une méthode d’estimation de I par une méthode de Monte Carlo
utilisant un générateur de nombre uniforme sur [0,1]. Préciser comment estimer
l’erreur d’estimation.
3. Proposer une estimation de I basée sur la méthode des variables de contrôle,
avec X = U1 U2 comme variable de contrôle: expliquer la mise en oeuvre et
préciser la valeur E[X] (on ne cherchera à démontrer que l’introduction de cette
variable de contrôle permet effectivement de réduire la variance; ce résultat peut
être établi par exemple en utilisant l’exercice 63).
4. Comparaison numérique de la précision des estimations obtenues par les deux
méthodes: sur la figure 5.2[haut], on trace 5000 réalisations du couple (X,Y ) (X
101

en abscisse et Y en ordonnée). Le nuage de points montre une corrélation entre


ces deux variables. Sur la figure 5.2[bas], on compare la méthode de Monte Carlo
à celle des variables de contrôle (VC). On trace l’estimation obtenue par Monte
Carlo (en rouge) et celle obtenue par VC (en bleue), en fonction du nombre
de termes dans la somme de Monte Carlo. On trace aussi les IC à 95%. On
peut observer une réduction de variance : la méthode VC améliore la précision
d’estimation d’un facteur 2.

+ Parité call-put. Application au calcul d’options européennes


En remarquant que (x − K)+ − (K − x)+ = x − K, on a pour tout constante K
et v.a. S, 0 1
E (S − K)+ − (K − S)+ = E [S] − K .
def
Dès lors que E[S] est connue, la v.a. X = S − K = Call − Put est un candidat
pour définir une variable de contrôle. Comme la variable de contrôle est définie à une
constante près (on retranche son espérance pour définir l’estimateur) et à un facteur
près (rôle du coefficient b), on peut aussi prendre X = S ou · · · .
Par exemple, dans une option européenne, pour calculer
def
I = E[exp(−rT )(ST − K)+ ]

lorsque le prix du sous-jacent (St ,t ≥ 0) suit un brownien géométrique issu de S0 = x,


on peut prendre pour variable de contrôle
def
X = exp(−rT ) (ST − K) ,

dont l’espérance est x − exp(−rT )K. Le call I dans une option européenne se calcule
explicitement à partir de la formule de Black-Scholes. Nous allons illustrer la méthode
des variables de contrôle dans cet exemple:
1. Proposer un algorithme pour le calcul de l’estimateur par variable de contrôle.
2. Comparer la précision de l’estimation à celle obtenue par la méthode de Monte
Carlo.
3. Commenter la corrélation entre Y et X, en fonction du prix d’exercice K
(strike): lorsque K est grand, comment exploiter la parité call-put pour améliorer
l’efficacité de la méthode des variables de contrôle?
Sur la figure 5.3[haut], on représente en fonction du nombre de termes dans la
somme de Monte Carlo, l’estimation de la quantité d’intérêt I par la méthode de
Monte Carlo classique (en rouge) et par la méthode des variables de contrôle (VC) (en
bleu). Dans cet exemple, la vraie valeur de I est connue (I = 6.43) et est représentée
en vert. On trace aussi les intervalles de confiance à 95% pour les deux méthodes.
Dans cet exemple,

r = 0.05 T = 0.25; σ = 0.3; S0 = 50; K = 45 .


102 Méthodes de réduction de variance

correlation between X and Y


12

10

6
Y

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
X

Estimation and Confidence Interval − First 10 000 iterations omitted

Monte Carlo
Control Variate

2.2

2.15

2.1

2.05
0 0.5 1 1.5 2 2.5 3 3.5 4
Number of iterations x 10
4

Fig.
2 5.2 – Exemple d’application : [haut] corrélation entre X et Y ; on estime
1 − ρ2X,Y ∼ 0.55. [bas] Estimation de I et IC à 95%.
103

Estimation and Confidence Interval


7.2
True value
Monte Carlo
7.1 Control Variate

6.9

6.8

6.7

6.6

6.5

6.4

6.3

6.2
0 0.5 1 1.5 2 2.5 3 3.5
Number of iterations 4
x 10

Correlation between X and Y, as a function of K


1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1
20 30 40 50 60 70 80

Fig. 5.3 – Parité Call-Put et modèle de Black-Scholes : [haut] Estimation et IC à


95%. [bas] ρ2X,Y en fonction du strike K.
104 Méthodes de réduction de variance

La méthode CV réduit la std d’un facteur 4. On observe (courbes non montrées ici)
que lorsque K = 65 le gain en variance n’est plus que de 1.23. Lorsque K = 35,
il est de l’ordre d’un facteur 1440. Intuitivement, si K est faible (l’option est dans
la monnaie) (ST − K)+ = ST − K avec une forte probabilité d’où la corrélation
importante entre le payoff (actualisé) et la variable de contrôle X ∝ ST . Sur la
figure 5.3[bas] on représente l’évolution de cette corrélation en fonction de K. Lorque
l’option est hors la monnaie, il sera plus judicieux d’approcher la valeur de call en
(a) approchant la valeur du put par la méthode des variables de contrôle et en (b) en
déduisant un estimateur du call en utilisant la relation de parité call-put.
Toutes les variables (exp(−rt)St − S0 ,t ≤ T ) sont des variables de contrôle pos-
sibles. On pourrait donc aussi utiliser d variables de contrôle, exp(−rti )Sti − S0 , en
des instants 0 < t1 < · · · < td ≤ T .

+ Variable de contrôle pour une option asiatique


On envisage trois variables de contrôle pour le calcul de la quantité
& '+ 
M
!
def
I = exp(−rT )  M −1 Stk − K 
k=1

où tk = kT /M est une discrétisation régulière de [0,T ] et {St ,t ≥ 0} suit un brownien


géométrique - .
St = S0 exp (r − 0.5σ 2 )t + σWt .
On propose pour variable de contrôle : tout d’abord, le sous-jacent actualisé
X (1) = exp(−rT )ST − S0 ;
puis un call européen (dont l’espérance est explicite par la formule de Black-Scholes)
0 1
X (2) = exp(−rT ) (ST − K)+ − E exp(−rT ) (ST − K)+
et enfin, la discrétisation de la moyenne géométrique (dont l’espérance est là encore
explicite : cf. exercice 51 la méthode proposée par Kemna et Vorst (1990))
& & M
' '+
!
X (3) = exp(−rT ) exp M −1 ln Stk −K
k=1
 & & ' '+ 
M
!
− E exp(−rT ) exp M −1 ln Stk −K  .
k=1

(i)
Sur la figure 5.4, nous traçons les nuages de points ((Yk ,Xk ),k ≤ n), pour i = 1,2,3,
pour visualier la corrélation entre les v.a. Y et X (i) . La forme du nuage illustre la
très forte corrélation entre Y et la variable de contrôle X (3) .
Les valeurs des paramètres du modèle dans cet exemple sont
r = 0.05 T = 0.25; σ = 0.3; S0 = 50; K = 45; M = 15 .
105

50 50 50

45 45 45

40 40 40

35 35 35

30 30 30

25 25 25
Y

20 20 20

15 15 15

10 10 10

5 5 5

0 0 0
20 40 60 80 100 0 20 40 60 0 20 40 60
(1) (2) (3)
X X X

Fig. 5.4 – Exemple 5.2.5.

5.2.6 Extensions
+ Cas non linéaire
Jusqu’ici nous avons considéré le cas d’un estimateur de la forme h(X̄n ,Y¯n ) pour
une fonction h linéaire. On peut considérer des fonctions h plus générales, vérifiant
h(E[X],y) = y de sorte que la différence entre Ȳn et l’estimateur contrôlé h(X̄n ,Ȳn )
dépende de l’écart X̄n − E[X]. La construction de ces estimateurs exploite aussi le
signe de la corrélation entre X et Y : si les variables sont positivement corrélées et
que X̄ < E[X], on voudra que h(X̄n ,Ȳn ) > Ȳn . Les estimateurs suivants vérifient ces
règles :
h(x,y) = y x/E[X] h(x,y) = y exp(x − E[X])
ou h(x,y) = yE[X]/x si X et Y sont positivement corrélées et xy/E[X] sinon.
Néanmoins, on peut montrer que asymptotiquement, quand n → ∞, le cas non-
linéaire avec une fonction h régulière est équivalente à un estimateur de type linéaire.
En effet, si h est continûment différentiable, on a la TCL suivant (en remarquant que
h(E[X],E[Y ]) = E[Y ])
√ - . D
n h(X̄n ,Ȳn ) − E[Y ] −→ N (0,σh2 ) ,

avec

def
σh2 = (∂y h(E[X],E[Y ]))2 Var[Y ]
+ 2∂x h(E[X],E[Y ]) Cov[X,Y ] + (∂x h(E[X],E[Y ]))2 Var[X] ,

ce qui est la variance asymptotique de l’estimateur µ̂n (b), pour b = −∂x h(E[X],E[Y ]).
106 Méthodes de réduction de variance

+ Monte-Carlo pondéré
Lorsque b̂n est calculé à partir des n tirages, observons que
n
1! - .
b̂n (Xk − E[X]) = b̂n X̄n − E[X]
n
k=1
- . n - . n
X̄n − E[X] ! X̄n − E[X] !
= %n 2
(Xj −E[X])(Yj −Ȳn ) = %n 2
(Xj −E[X])Yj
j=1 (Xj − E[X]) j=1 j=1 (Xj − E[X]) j=1

de sorte que
n
7 - . 8
! 1 X̄n − E[X] (Xk − E[X])
µ̂n (b̂n ) = − %n 2
Yk .
k=1
n j=1 (Xj − E[X])

Ainsi, l’estimateur µ̂n (b̂n ) est lu comme une somme pondérée des variables Yk , de
poids ωk ne dépendant pas des variables (Yk ,k ≥ 0) (et pouvant être négatifs). On
peut tirer avantage de cette représentation lorsque l’on utilise le même jeu de variables
de contrôle (Xk ,k ≥ 0) pour améliorer l’estimation de plusieurs quantités.
107

5.3 Echantillonnage préférentiel (Importance sampling)


Dans ce qui suit, on suppose pour simplifier l’exposé que toutes les densités sont
par rapport à la mesure de Lebesgue sur R ou Rd . Soit (Ω,A) un espace mesurable.
On munit cet espace d’une famille de probabilités Pg , g désignant une densité, telles
que sous Pg les v.a. notées (Zn ,n ≥ 0) sont i.i.d. et de même loi de densité g. Eg
désigne l’espérance sous Pg .

5.3.1 Introduction
Considérons l’exemple suivant: on souhaite estimer P(X > 2) où X est une loi de
1
Cauchy de densité sur R donnée par f (x) = π(1+x 2 ) . En remarquant que l’on a

( +∞ 9( +∞ ( 2 :
1 1 1 1
2
dx = dx + dx
2 π(1 + x ) 2 2 π(1 + x2 ) 2
−∞ π(1 + x )
( ( 1/2
1 1 2 2 y −2
= − 2
dx = 2 dy
2 2 0 π(1 + x ) 0 2π(1 + y −2 )

on a différentes façons de calculer cette quantité (qui vaut 0.15): on peut utiliser des
méthodes de Monte Carlo usuelles, en relisant P(X > 2) comme l’espérance d’une
fonction φ(X) sous une loi particulière :
%
– {Xk ,k ≤ n} v.a. i.i.d. de Cauchy, et on pose µ̂n = n−1 nk=1 Xk >2 . La variance
de cet estimateur est 0.127/n.
%
– {Xk ,k ≤ n} v.a. i.i.d. de Cauchy, et on pose µ̂n = 0.5 n−1 nk=1 |Xk |>2 . La
variance de cet estimateur est 0.052/n.
%
– {Xk ,k ≤ n} v.a. uniformes sur [0,2], et on pose µ̂n = 0.5 − n−1 nk=1 2/(π(1 +
Xk2 )). La variance de cet estimateur est 0.0285/n.
%
– {Xk ,k ≤ n} v.a. uniformes sur [0,1/2], et on pose µ̂n = n−1 nk=1 1/(2π(1 +
Xk2 )). La variance de cet estimateur est 0.9510e − 04/n.
Toutes ces approches sont basées sur des estimateurs sans biais et efficaces de la
quantité d’intérêt P(X > 2). Néanmoins, ils n’ont pas tous la même variance et de ce
fait, certains estimateurs sont préférables à d’autres. La méthode d’échantillonnage
d’importance consiste à trouver une loi g (et donc une fonction φ̃) telle que
+ ,
Ef [φ(Z)] = Eg φ̃(Z)

de sorte que la variance de l’estimateur de Monte Carlo appliquée à la quantité de


droite soit de variance plus faible que celui de l’estimateur de Monte Carlo appliqué
au problème initial (terme de gauche). Etant donné g, l’expression de φ̃ se déduit
de f,g,φ; la difficulté pour appliquer cette méthode est donc de trouver le “meilleur”
changement de loi i.e. la densité g.
108 Méthodes de réduction de variance

La méthode dite d’échantillonnage d’importance est basée sur la remarque sui-


vante : pour toute densité g sur Rd telle que Supp(f φ) ⊆ Supp(g) 2
( ( ) *
φ(z) f (z) φ(Z) f (Z)
Ef [φ(Z)] = φ(z)f (z)dz = g(z)dz = Eg .
Rd g(z) g(Z)

On peut donc introduire deux estimateurs de Monte Carlo de la quantité Ef [φ(Z)]

n
! n
!
def f (Zk )
n−1 φ(Yk ) , µ̂n (g) = n−1 φ(Zk ) ,
g(Zk )
k=1 k=1

où (Yk ,k ≥ 0) sont des v.a. i.i.d. de densité f ; et (Zk ,k ≥ 0) sont des v.a. i.i.d. de
densité g.

Dans toute la suite, on suppose


A3 φ : Rd → R est mesurable et Varf [φ(Z)] < +∞.
A4 la densité instrumentale g est telle que Supp(f φ) ⊆ Supp(g).

5.3.2 Estimateur : définition, propriétés


L’estimateur d’échantillonnage préférentiel est défini par
n
def 1 ! f (Zk )
µ̂n (g) = φ(Zk )
n g(Zk )
k=1

où les v.a. {Zk ,k ≥ 0} sont i.i.d. de densité g.


L’intérêt de cette méthode réside dans la possibilité d’exhiber un changement de
loi (au lieu de simuler des v.a. de densité f , on va simuler des v.a. de densité g) qui
permet de réduire la variance de l’estimateur de Monte Carlo usuel.
Le ratio f (z)/g(z) introduit pour compenser ce changement de loi, est appelé
poids (ou ratio) d’importance.

• Biais et consistance
) *
f (Z)
Eg [µ̂n (g)] = Eg φ(Z) = Ef [φ(Z)] ,
g(Z)

de sorte que l’estimateur est sans biais.


Les v.a. {φ(Zk )f (Zk )/g(Zk ),k ≥ 0} étant i.i.d. et d’espérance finie sous Pg , la
LGN entraine que l’estimateur µ̂n (g) est fortement consistant.

2. Supp(g) = {x ∈ Rd ,g(x) > 0}


109

• Variance La variance de l’estimateur est donnée par


7 ; 9 : < 9 ) *: 8
−1 2 f (Z) 2 f (Z) 2
Varg [µ̂n (g)] = n Eg φ (Z) − Eg φ(Z)
g(Z) g(Z)
= ) * > = ) * >
1 2 f 2 (Z) 2 1 2 f (Z) 2
= Eg φ (Z) 2 − (Ef [φ(Z)]) = Ef φ (Z) − (Ef [φ(Z)]) .
n g (Z) n g(Z)
L’estimateur d’échantillonage préférentiel µ̂n (g) est préférable à l’estimateur de
Monte Carlo classique ssi Varg [µ̂n (g)] < n−1 Varf [φ(Z)], i.e. ssi
) = >*
2 f (Z)
Ef φ (Z) −1 <0.
g(Z)
La variance de l’estimateur µ̂n (g) est finie dès lors que
) * (
2 f (Z) f 2 (z)
Ef φ (Z) = φ2 (z) < +∞
g(Z) g(z)
Par suite, les lois instrumentales g qui ont des queues plus légères que f (entrainant
que le ratio f /g n’est pas borné) ne sont pas recommandées. En pratique, lorsque
ce ratio n’est pas borné, les poids {f (Zi )/g(Zi ),i ≥ 0} sont très variables ce qui
fait que dans l’expression de µ̂n (g), quelques points seulement sont significatifs. En
conséquence, la valeur de l’estimateur peut changer brutalement en rajoutant un point
(passage de µ̂n (g) à µ̂n+1 (g)). Pour ces raisons de stabilité, on cherche g dans une
famille de densités qui ont des queues plus lourdes que f (i.e. sous Pg , la probabilité
de prendre des grandes valeurs+ est plus forte
, que sous Pf ). Une condition suffisante
pour garantir l’existence de Ef φ2 (Z) fg(Z)
(Z)
lorsque Varf [φ(Z)] < +∞ est que le ratio
f /g soit borné.

• Estimateur optimal Il est possible d’exhiber une densité g telle que la variance
de l’estimateur µ̂n (g) est minimale. L’inégalité de Jensen entraine en effet
) * 9 ) *:
f 2 (Z) f (Z) 1/2
2
Eg φ (Z) 2 ≥ Eg |φ|(Z) = (Ef [|φ|(Z)])1/2
g (Z) g(Z)
et le minorant est indépendant de g. De plus, on a égalitéssi
def |φ|(z) f (z) |φ|(z) f (z)
g$ (z) = # =
|φ|(z)f (z)dz Ef [|φ|(Z)]
i.e. en prenant g = g$ , la variance de l’estimateur µ̂n (g) atteint sa borne inférieure.
Lorsque φ > 0,
φf
g$ = ,
Ef [φ(Z)]
et Varg! [µ̂n (g$ )] = 0 !! en fait, ce résultat n’a pas d’intérêt pratique puisqu’il nécessite
la connaissance de la quantité recherchée Ef [φ(Z)]. Néanmoins, cette discussion donne
une heuristique pour construire g : chercher une densité “proche” de g$ (i.e. qui est
grande là où |φ|f est grande; et faible là où |φ|f est faible) i.e. une densité g telle que
|φ|f /g soit proche d’une constante.
110 Méthodes de réduction de variance

5.3.3 Estimateur auto-normalisé


Pour être plus robuste aux grandes valeurs du ratio f /g, ou dans les cas où la den-
sité f n’est connue qu’à une constante près, on peut / on doit substituer l’estimateur
µ̂n (g) par l’estimateur
n
!
def ω(Z ) def f (Zk )
µ̃n (g) = %n k φ(Zk ) où ω(Zk ) =
k=1 l=1 ω(Zl ) g(Zk )

et les v.a. {Zk ,k ≥ 0} sont i.i.d. de densité g. Quand n → +∞, cet estimateur converge
p.s. vers Ef [φ(Z)].
L’application de la delta-méthode 3 permet de montrer que
√ D
n (µ̃n (g) − Ef [φ(Z)]) −→ N (0,σ̃ 2 (g))

où + ,
σ̃ 2 (g) = Ef (φ(Z) − Ef [φ(Z)])2 ω(Z)

Pour n grand, la variance de µ̃n (g) est donc ≈ σ̃ 2 (g)/n; la variance asymptotique
σ̃ 2 (g) peut être estimée par l’estimateur
%n
def n k=1 {φ(Z ) − µ̃n (g)}2 ω 2 (Zk )
s2n (g) = %nk
{ k=1 ω(Zk )}2
p.s.
(observer que s2n (g) −→ σ̃ 2 (g)).

5.3.4 Exemples
La difficulté majeure dans la mise en oeuvre de cette méthode est de trouver le
changement de loi (i.e. la densité instrumentale g) adequate.
Dans tout ce qui suit, la loi instrumentale g est choisie dans une famille de densités
dépendant d’un paramètre θ, et vérifiant A4; P = {gθ ,θ ∈ Θ}. Idéalement, on voudrait
trouver θ tel que gθ soit solution de
) * (
2 f (Z) f 2 (z)
argmingθ ∈P Ef φ (Z) = argmingθ ∈P φ2 (z) dz .
gθ (Z) Supp(f φ) gθ (z)

+ Exemple d’application
On souhaite calculer par la méthode d’échantillonnage d’importance
( +∞
xα−1 exp(−x) dx ; a > 0,α > 1 .
a
√ D
3. Supposons que n(Xn − µ) −→ N (0,Σ). Soit f une fonction à valeur dans R, C 1 dans un
√ D
voisinage de µ et telle que ∇f (µ) '= 0. Alors n(f (Xn ) − f (µ)) −→ N (0,[∇f (µ)]! Σ ∇f (µ))
111

Une première idée consiste à relire ce problème comme le calcul de Ef [φ(Z)] avec
φ(z) = z α−1 z>a f (z) = R+ exp(−z)
(i.e. loi exponentielle de paramètre 1). Sur la figure 5.5[gauche] on trace l’allure de
la densité f , de z 0→ z α−1 pour α = 3 et de g$ ∝ f φ à une constante multiplicative
près. On voit que l’estimateur de Monte Carlo usuel sera d’autant moins efficace que
a est grand puisque dans ce cas, très peu de tirages de v.a. de densité f dépasseront
le seuil a. On trace sur la figure 5.5[droite] gθ pour différentes de valeur de θ, lorsque
a = 5.
0.9
θ =0.3
θ=0.4
0.8
θ = 0.7
9
θ = 0.9
densite f fonction φ(z) f(z)
8 fonction zα−1 0.7
g* (ctte mult pres)
7 0.6

6
0.5
5
0.4
4

3 0.3

2
0.2

1
0.1
0
0 0.5 1 1.5 2 2.5 3
0
4 5 6 7 8 9 10 11 12 13 14

Fig. 5.5 – Exemple d’application 5.3.4.

On choisit gθ dans la famille des densités de la forme


gθ (x) = θ exp(−θ(x − a)) x>a ,
comme étant la / une des densités qui minimise un majorant de la variance i.e. qui
minimise Ef [φ2 (Z) f (Z)/gθ (Z)].

• Majorant 1 On a la majoration suivante


( & ' (
2 f 2 (z) f (z)
φ (z) dz ≤ sup φ2 (z) f (z) dz
Supp(f φ) gθ (z) z∈Supp(f φ) gθ (z) Supp(f φ)
& '
f (z) - .
≤ sup Varf [φ(Z)] + {Ef [φ(Z)]}2 .
z∈Supp(f φ) gθ (z)

Un calcul direct montre que pour que le majorant soit fini, il faut prendre θ ∈ [0,1],
et dans ce cas, on a
f (z) exp(−a)
min sup = min
θ∈[0,1] z>a gθ (z) θ∈[0,1] θ
et la valeur optimale est donc θ$ = 1. Autrement dit gθ est la densité f dont on a
translaté le support: on peut vérifier que si X ∼ E(1) alors X + a ∼ g1 (ce qui donne
aussi un algorithme pour simuler des v.a. i.i.d. de densité g1 ).
112 Méthodes de réduction de variance

• Majorant 2 On a la majoration suivante


( & ' (
f 2 (z) f (z)
φ2 (z) dz ≤ sup φ(z) φ(z) f (z) dz
Supp(f φ) gθ (z) z∈Supp(f φ) gθ (z) Supp(f φ)
& '
f (z)
≤ sup φ(z) Ef [φ(Z)] .
z∈Supp(f φ) gθ (z)

On peut donc choisir θ tel que gθ soit solution de

f (z)
argmingθ ∈P sup φ(z) .
z∈Supp(f φ) gθ (z)

On a
" $
argminθ>0 max θ −1 xα−1 exp(−x) exp(θ(x − a))
x>a
" $
= argmin0<θ<1 max θ −1 xα−1 exp(−x) exp(θ(x − a)) ;
x>a

en effet, si θ ≥ 1, le terme de droite vaut +∞. Cela revient à résoudre


α−1
x= , aθ 2 − θ(a − α) − 1 = 0 ;
1−θ
la solution (x$ ,θ$ ) est donnée par
/
(a − α) + (a − α)2 + 4a 1
θ$ = , x$ = a + .
2a θ$
Lorsque a = 5 et α = 3 on trouve θ$ = 0.69.
On représente sur la figure 5.6[gauche] x 0→ θ −1 xα−1 exp(−x) exp(θ(x − a)) pour
x > a et différentes valeurs de θ. On voit que parmi les valeurs de θ considérées, la
valeur minimale (en θ) des maxima (en x) est atteinte pour θ = 0.7.

• Résultats numériques On %nprendα−2a = 5 et α = 3. On compare l’estimateur


de Monte Carlo µ̂M n
C = n−1
k=1 kZ Zk >a lorsque (Zk ,k ≥ 0) sont des v.a.

#i.i.d. de loi exponentielle de paramètre 1; et l’estimateur µ̂n (gθ! ) pour le calcul de


α−1 exp(−x)dx. Les résultats sont sur la figure 5.6[droite]. On y représente
x>a x
l’évolution de l’estimation en fonction du nombre de termes dans la somme de Monte
Carlo, ainsi que les intervalles de confiance à 95%. La réduction de variance est
conséquente : à l’échelle du graphe, les IC pour la méthode échantillonnage d’impor-
tance ne sont pas visibles. Par exemple, la variance est réduite d’un facteur ∼ 37 400
(donc l’écart-type d’un facteur ∼ 193) [lorsque estimée à partir/de 50 000 simulations].
Sur la figure 5.7, on compare l’estimation de l’écart-type n Var[µ̂n (gθ )] lorsque
θ ∈ {1,θ$ } ce qui correspond à l’estimateur d’échantillonnage d’importance appliqué
avec les deux densités ’optimales’ telles que définies par les majorants 1 et 2. On
113

observe que le µ̂n (gθ! ) a une variance plus faible que µ̂n (g1 ) (d’un facteur 64); la
seconde approche, qui tient compte de la fonction φ pour déterminer le meilleur
changement de loi est donc préférable. L’avantage de la première approche, est de
proposer un changement de loi indépendant de la fonction d’intérêt (dans les cas
où on veut écrire une seule procédure d’échantillonnage d’importance pour traiter
plusieurs
/ problèmes, on préfèrera la première approche). Pour comparaison, l’écart
type n Var[µ̂M C
n ] est de 3.28.

Ratio phi f /g for different densities g


0.7
Estimation and Confidence intervals (first 5000 iterations omitted)
θ =0.3 0.5
θ=0.4 Monte Carlo
0.6 θ = 0.7 Importance Sampling
θ = 0.9 0.45

0.5
0.4

0.4
0.35

0.3
0.3

0.2
0.25

0.1 0.2

0
4 5 6 7 8 9 10 11 12 13 14 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Number of terms in the MC sum 5
x 10

Fig. 5.6 – Exemple d’application, section 5.4.6. [gauche] x 0→


θ −1 xα−1 exp(−x) exp(θ(x − a)) pour x > a et différentes valeurs de θ; [droite]
Evolution des estimateurs µ̂M n
C (rouge, trait plein) et µ̂ (g ) (bleu, pointillés) en
n θ!
fonction de n; et évolution de l’intervalle de confiance à 95%.

+ Changement de loi optimal lorsque f = Nd (0,Id)


• Règle 1 On considère le changement de loi donné par gθ où gθ désigne la
densité d’une v.a. Nd (θ,Id). On montre (cf. Exercice 55) que pour une grande famille
de fonctions φ, la variance de l’estimateur d’éhantillonnage d’importance Var[µ̂n (gθ )]
est une fonction strictement convexe de θ et qu’elle possède un minimum unique θ$
solution de l’équation
0 1
E (θ $ − Z) exp(−θ $ $ Z) φ2 (Z) = 0 .
Cette équation n’a en général pas de solutions explicites : on peut néanmoins implémenter
des procédures itératives pour résoudre cette équation (cf. chapitre 6). Nous illustrons
dans un exemple simple comment exploiter ce résultat pour construire un estimateur
d’échantillonnage d’importance pour le calcul du prix d’une option européenne.
def
On souhaite calculer I1 = E[exp(−rT )φ(Z)] où
+ " √ $ ,
φ(Z) = S0 exp (r − 0.5σ 2 )T + σ T Z − K
+

def
Dans cet exemple, I1 comme la variance I2 = Var[exp(−rT )φ(Z)] sont calculables
explicitement par la formule de Black-Scholes. Dans les applications numériques, on
114 Méthodes de réduction de variance

0.18

0.16

0.14

0.12

0.1
IS, majorant 1
IS, majorant 2
0.08

0.06

0.04

0.02

0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Number of terms in the MC sum

Fig.
/ 5.7 – Exemple d’application, section 5.4.6. Evolution de l’estimation de
nVar(µ̂n (gθ )), en fonction de n, pour θ = 1 (majorant 1, trait plein) et θ = θ$
(majorant 2, trait pointillé)
.

prend

T =1 S0 = 40 σ = 0.25 r = 0.05 λ = S0 exp((r − 0.5σ 2 )T ) .

Sur la figure 5.8, on montre l’évolution de I1 en√fonction de K/λ, lorsque K/λ > 1;
ainsi que l’évolution du coefficient de variation I2 /I1 . Lorsque K/λ >> 1 l’option
est “hors la monnaie” son prix est faible. Le coefficient de variation dégénère lui
aussi quand K/λ augmente. La méthode de Monte Carlo classique n’est donc pas du
tout indiquée : par définition, φ(Z) est non nul avec la probabilité
" √ $
P Z ≥ [σ T ]−1 log(K/λ) .

Intuitivement, si K/λ >> 1, alors très peu de réalisations des v.a. (Zk ,k ≥ 0)
dépasseront ce seuil. En introduisant le drift θ, la quantité φ(Z + θ) sera non nulle
avec la probabilité " $

P Z ≥ [σ T ]−1 log(K/λ) − θ ;

et dans le cas θ = [σ T ]−1 log(K/λ), cette probabilité vaut 1/2 : autrement
√ dit, on
force les réalisations de (Z + θ) à être souvent au dessus du seuil [σ T ]−1 log(K/λ)
en introduisant une translation z −→ z + θ. Ainsi, la variance de l’échantillonneur
préférentiel devrait être plus faible; on peut montrer rigoureusement (cf. Exercice 55)
que c’est effectivement le cas.
115

Esperance 4

0
0.5 1 1.5 2 2.5 3
ratio K/λ

800
Coefficient de variation

600

400

200

0
0.5 1 1.5 2 2.5 3
ratio K/λ

Fig. 5.8 – Section 5.3.4: changement de loi cas gaussien. [haut] √ Evolution de I1 en
fonction du ratio K/λ. [bas] Evolution du coefficient de variation I2 /I1 en fonction
du ratio K/λ. λ est fixé et on fait varier le strike dans l’intervalle [0.9λ,3λ].

Par exemple, lorsque K = 150 (donc K/λ = 3.68), la formule de Black-Scholes


donne I1 = 6.26e − 07 et I2 = 4.57e − 04. L’estimateur classique de Monte Carlo
retourne la valeur 0 (aucun tirage de Z n’a dépassé le √ seuil σ −1 log(K/λ)). L’es-
timateur d’importance sampling appliqué avec θ = [σ T ]−1 log(K/λ) retourne la
valeur 6.27e − 07 (calculé avec 106 tirages) et un intervalle de confiance à 95% de
[6.21e − 07 ; 6.33e − 07].
• Règle 2 (technique de linéarisation) Supposons φ ≥ 0 et φ > 0 sur un
domaine D. On définit sur Rd la fonction F par : F (z) = ln φ(z) ave la convention
F = −∞ si z ∈ / D. On suppose de plus que F est C 1 . On a (cf. Exercice 55)
0 1
E [φ(Z)] = E φ(Z + θ) exp(−0.5θ $ θ − θ $ Z)

pour tout θ ∈ Rd . En utilisant le développement à l’ordre 1 de z 0→ F (z) au voisinage


de θ, on écrit
0 - .1
E[φ(Z)] = E[exp(F (Z))] = E exp(F (Z + θ)) exp −0.5θ $ θ − θ $ Z
0 - .1
1 E exp(F (θ) + Z $ ∇F (θ)) exp −0.5θ $ θ − θ $ Z

de sorte que si l’on prend θ solution de ∇F (θ) = θ, l’expression de droite ne dépend


plus de Z. La variance de la v.a. est donc nulle. Cela explique la règle suivante pour
déterminer le drift θ$

θ$ solution de {θ ∈ D,θ = ∇F (θ)} .

• Règle 3: Alignement des modes Le changement de loi optimal, lorsque φ ≥ 0


est g$ ∝ φf . Il n’y a pas de raisons que g$ soit de la forme N (θ,Id); néanmoins, on peut
116 Méthodes de réduction de variance

chercher le drift θ tel que le mode 4 de g$ et celui de gθ = N (θ,Id) coı̈ncident. On peut


montrer que lorsque f est la densité d’une v.a. Nd (0,Id) et que z 0→ exp(F (z)−1/2z $ z)
a un unique mode, cette approche revient à choisir le drift

θ$ solution de {θ ∈ D,θ = ∇F (θ)} .

+ Changement de loi général


Pour une densité f sur R, et tout θ tel que l’intégrale suivante existe, on définit
la fonction génératrice des cumulants (logarithme de la fonction génératrice des mo-
ments) : (
def
ψ(θ) = log exp(θx)f (x)dx = log Ef [exp(θX)] .
R
Notons D l’ensemble de définition de ψ. Pour tout θ ∈ D, on définit
( x
def
Fθ (x) = exp (θy − ψ(θ)) f (y)dy.
−∞

1. Montrer que Fθ définit une fonction de répartition sur R et préciser sa densité.


2. Donner l’expression de ψ dans le cas où f est la densité d’une v.a. N (0,1).
Commenter.
3. Soit Z un vecteur aléatoire à valeur Rd , dont les d composantes sont indépendantes
de même loi, de densité f . Expliciter la valeur du ratio d’importance.
Cette approche par la fonction génératrice des cumulants généralise ce que l’on a fait
pour le cas gaussien (considérer des changements de loi de la forme gθ (x) = Nd (θ,Id))
et peut être appliquée pour trouver un changement de loi adequat lorsque Z n’est
pas une loi gaussienne (cf. Exercice 58).

4. i.e. le point en lesquel la densité atteint son maximum


117

5.4 Echantillonnage par strate


5.4.1 Introduction
Soient des v.a. X,Z non indépendantes, définies sur un espace de probabilité
(Ω,A,P). L’objectif est de calculer E[φ(Z)] où φ est une application mesurable. X est
une v.a. “instrumentale” que l’on appellera ci-après “variable de stratification”.

Exemple

Supposons que l’on veuille calculer


 & ' 
d
def 1!
I = E exp(−rT ) Stk − K  ,
d
k=1 +

où (St ,t ≥ 0) est un brownien géométrique St = S0 exp((r − 0.5σ 2 )t + σWt) et (tk ,k ∈


{1, · · · ,d}) est une subdivision de l’intervalle de temps [0,T ] : tk = kT /d. Alors I =
E[φ(Z)] où Z est un vecteur gaussien Nd (0,Id) et φ est donnée par
   
S !d / k
! 
0
exp (r − 0.5σ 2 )kT d−1 + σ T /d Zj  − K .
d 
k=1 j=1
+

Dans ce cas, on prend souvent pour variable de stratification X = µ$ Z où µ ∈ Rd est


un vecteur normalisé µ$ µ = 1 (cf. section 5.4.6).

Notations

Soient U,V des v.a. à valeur resp. Rd et Rl définies sur un espace de probabi-
lité (Ω,A,P). On définit pour tout borélien A de Rl tel que P(V ∈ A) > 0, la loi
conditionnelle
def P(U ∈ B,V ∈ A)
P(U ∈ B|V ∈ A) = .
P(V ∈ A)

Pour A fixé, B 0→ P(U ∈ B|V ∈ A) est une probabilité sur Rd . L’espérance et la


variance sous cette loi sont donc définies par

def E [U V ∈A ]
E [U |V ∈ A] = ,
P(V ∈ A)

et
0 2 1 9 :
def 2
0 1 2 E U V ∈A E [U V ∈A ] 2
Var [U |V ∈ A] = E U |V ∈ A −(E [U |V ∈ A]) = − .
P(V ∈ A) P(V ∈ A)
118 Méthodes de réduction de variance

Principe de la méthode de stratification


La méthode de stratification repose sur la relation suivante : pour toute partition
(Ai ,i ∈ {1, · · · ,I}) de l’espace X des valeurs prises par X, on a

I
!
E [φ(Z)] = P(X ∈ Ai ) E[φ(Z)|X ∈ Ai ] .
i=1

Lorsque les probabilités {P(X ∈ Ai ),i ∈ {1, · · · ,I}} sont connues, que les espérances
E[φ(Z)|X ∈ Ai ] ne sont pas connues mais que l’on sait obtenir des réalisations de v.a.
de loi P(Z ∈ ·|X ∈ Ai ), un estimateur de E[φ(Z)] est donné par

I
! ni
1 ! (i)
P(X ∈ Ai ) φ(Zk )
ni
i=1 k=1

(i)
où les v.a. (Zk ,k ≤ ni ) sont i.i.d. de loi P(Z ∈ ·|X ∈ Ai ).
La mise en oeuvre de cette méthode nécessite
– de se donner un nombre I de strates et le strates : une partition (Ai ,i ∈ {1, · · · ,I})
de X,
– de choisir une v.a. X telle que P(X ∈ Ai ) soit calculable explicitement et telle
que l’on sache simuler des v.a. i.i.d. de loi P(Z ∈ ·|X ∈ Ai ).
– de choisir l’allocation i.e.le nombre de simulations ni que l’on fait sous la loi
P(Z ∈ ·|X ∈ Ai ), sous la contrainte que le nombre total de simulations est n
Dans la suite, nous nous donnons les strates (Ai ,i ∈ {1, · · · ,I}) et la v.a. de
stratification X vérifiant les propriétés ci-dessus. En revanche, nous allons envisager
plusieurs politiques d’allocation et comparer leur efficacité (en terme de réduction de
variance de l’estimateur associé).

Allocation
Définir une politique d’allocation, c’est se donner n1 , · · · ,nI tels que n1 +· · ·+nI =
n où ni est le nombre de tirages que l’on fait sous %Ila loi P(Z ∈ ·|X ∈ Ai ). C’est
équivalent à définir q1 , · · · ,qI tels que qi ≥ 0 et i=1 qi = 1, qui représentent la
proportion de tirages que l’on affecte à la strate i.
Plus précisément, on pose
i
! i−1
!
n1 = *nq1 + pour i > 1: ni = *n qj + − *n qj +
j=1 j=1

*·+ désigne la partie entière inférieure. On a bien n1 + · · · + nI = n. De plus, puisque


x−1 ≤ *x+ ≤ x, on a nqi −1 ≤ ni ≤ nqi +1. Donc |ni −nqi | ≤ 1 ou encore |ni /n−qi | ≤
(1/n): cela entraine ni /n ∼ qi quand n grand, confirmant ainsi l’interprétation de qi
en termes de proportion de tirages relatifs à la strate Ai .
119

On suppose ci-après que toutes les v.a. sont définies sur le même espace de pro-
babilité, et
A5 φ(Z) possède un moment d’ordre 2 (donc variance finie).
A6 P(X ∈ Ai ) est calculable explicitement et est strictement positif pour tout
élément Ai de la partition de X.

5.4.2 Définition de l’estimateur stratifié


(i)
Soient (Zk ,k ≥ 0,i ∈ {1, · · · ,I}) des v.a. indépendantes telle que pour tout
(i)
i ∈ {1, · · · ,I}, les v.a. (Zk ,k ≥ 0) ont même loi P(Z ∈ ·|X ∈ Ai ).
Soit une allocation (qi ,i ∈ {1, · · · ,I}). On définit l’estimateur

I
! ni
def 1 ! (i) def
µ̂n (q1:I ) = pi φ(Zk ) , où pi = P (X ∈ Ai ) .
ni
i=1 k=1

5.4.3 Biais et Variance de l’estimateur


def def
On pose µi = E[φ(Z)|X ∈ Ai ] et σi2 = Var[φ(Z)|X ∈ Ai ]; et Ȳn désigne l’estima-
teur de Monte Carlo usuel.

+ Biais
+ %ni ,
(i)
Pour tout i tel que ni > 0, E n−1 i k=1 φ(Zk ) = µi et par convention, quand
ni = 0, cette quantité vaut 0 (aucun tirage). Par suite,
!
E [µ̂n (qi:I )] = p i µi .
i∈{1,··· ,I},ni >0

L’estimateur est donc sans biais si ni > 0 pour tout i ∈ {1, · · · ,I}. En pratique,
on fait un minimum
% d’allocation
% dans chacune des strates (on prend donc ni =
max{nmin ; *n ij=1 qj + − *n i−1j=1 j +}).
q

+ Consistance

Pour i tel que ni > 0, par la loi des grands nombres pour des v.a. indépendantes,
lorsque n → +∞,
ni + , p.s.
1 ! (i)
E φ(Zk ) −→ E[φ(Z)|X ∈ Ai ] ,
ni
k=1

p.s. %
et donc µ̂n (q1:I ) −→ i∈{1,··· ,I},ni >0 pi E[φ(Z)|X ∈ Ai ].
120 Méthodes de réduction de variance

+ Variance
• Comme les tirages sont indépendants, on a (on suppose ni > 0 pour tout i;
sinon, restreindre l’ensemble d’indices de sommation)

I
! p2 i
Var [µ̂n (qi:I )] = Var [φ(Z)|X ∈ Ai ]
ni
i=1
I
! p2 I
! 9 :
1 1 1
= i
Var [φ(Z)|X ∈ Ai ] + p2i − Var [φ(Z)|X ∈ Ai ] .
n qi ni nqi
i=1 i=1

Puisque |nqi − ni | ≤ 1, on voit que le second terme est O(1/n2 ) tandis que le premier
terme est O(1/n). Dans la suite, on écrira simplement
I I
1 ! p2i 1 ! p2i 2
Var [µ̂n (qi:I )] = Var [φ(Z)|X ∈ Ai ] = σ , (5.7)
n qi n qi i
i=1 i=1

i.e. on négligera l’erreur d’arrondi (entre nqi et ni ).


• Allocation proportionnelle. Lorsque qi = pi i.e. quand l’allocation est propor-
tionnelle au poids de la strate i (pi = P(X ∈ Ai )), l’allocation est dite proportionnelle.
Dans ce cas, la variance devient
I
1 !
Var [µ̂n (pi:I )] = pi σi2 .
n
i=1

Or, d’une part,

Var[φ(Z)] = E[φ2 (Z)] − E[φ(Z)]2


I
& I
'2
! 0 1 !
2
= P(X ∈ Ai )E φ (Z)|X ∈ Ai − P(X ∈ Ai )E [φ(Z)|X ∈ Ai ]
i=1 i=1
I
& I
'2
! !
= pi {σi2 + µ2i } − p i µi . (5.8)
i=1 i=1

%
D’autre part, nVar[µ̂n (p1:I )] = Ii=1 pi σi2 . Donc en notant µM
n
C l’estimateur de Monte

Carlo usuel construit à partir de n v.a. i.i.d. de même loi que Z,


& I '2  2
! I
! I
! I
!
nVar[µ̂n (p1:I )]−nVar[µM C
n ]= p i µi − pi µ2i = − pi µi − p j µj  ≤ 0 .
i=1 i=1 i=1 j=1
(5.9)
Ainsi, l’estimateur stratifié avec allocation proportionnelle, est de variance plus faible
que l’estimateur de Monte Carlo usuel µM C
n . En conséquence, on peut toujours
121

construire un estimateur stratifié de variance plus faible que l’estimateur de Monte


Carlo classique.
• Allocation optimale. La variance de µ̂n (q1:I ) dépend de la politique d’allocation
q1:I . On peut donc chercher l’allocation optimale i.e. l’allocation qui rend minimale
la variance. On a
I I
& I '2 & I '2
! p2i 2 ! p2i 2 ! pi !
n Var[µ̂n (q1:I )] = σ = σ qi ≥ σi q i = p i σi ,
qi i qi2 i qi
i=1 i=1 i=1 i=1

où l’on a utilisé Jensen pour établir l’inégalité. La borne inférieure est indépendante
de l’allocation q1:I et elle est atteinte avec l’allocation donnée par
def p i σi
qi$ = %I .
j=1 pj σj

Pour cette allocation, la variance est minimale et vaut


& I
'2
1 !
$
Var[µ̂n (q1:I )] = p i σi .
n
i=1

En pratique, la variance intra-strate σi2 n’est pas connue. Dans ce cas, on approche
l’allocation optimale en remplaçant la variance σi2 par un estimateur consistant calculé
à partir d’un premier jeu de simulations. Des méthodes plus sophistiquées (et plus
performantes) sont basées sur des techniques adaptatives.

+ Interprétation de l’estimateur à allocation proportionnelle


De la relation (5.9) on déduit
 2
I
! I
! I
!
nVar[µM C
n ]= pi σi2 + p i  µi − p j µj  (5.10)
i=1 i=1 j=1

On reconnaı̂t dans le premier terme de (5.10), nVar(µ̂n (p1:I )) et ce terme représente


une variance intra-strate; dans le second terme, on reconnaı̂t une variance inter-strate.
Ainsi
Var(µM C
n ) = Var(µ̂n (p1:I )) + n
−1
(variance inter-strate) .
Par conséquent, l’estimateur stratifié à allocation proportionnelle élimine la variabi-
lité inter-strate et ne conserve que la variabilité intra-strates. L’estimateur stratifié
par allocation proportionnelle réduit d’autant plus la variance que Var(µ̂n (p1:I )) est
faible i.e. les variances intra-classes sont faibles; et par conséquent, d’autant plus que
%I " %I $2
i=1 pi µi − j=1 pj µj est fort i.e. la variabilité entre les moyennes des classes
est forte. Cette lecture donne des indications sur la façon de choisir les strates : il faut
choisir les strates de façon à ce que au sein de la strate i, la variabilité de la quantité
d’intérêt soit faible.
122 Méthodes de réduction de variance

+ Temps de simulation
Nous avons vu que
$
Var[µ̂n (q1:I )] ≤ Var[µ̂n (p1:I )] < Var[µM C
n ].

Nous avons défini l’allocation optimale comme celle qui minimise la variance de l’es-
timateur : le critère ne tient donc pas compte d’un éventuel coût de simulation qui
dépendrait de la strate considérée. Pour tenir compte de cet aspect, appelons τi le
temps d’obtention d’une réalisation d’une v.a. de loi P(Z ∈ ·|X ∈ Ai ) (τi est supposé
déterministe; sinon, le raisonnement reste valable en remplaçant τi par son espérance).
La simulation de ni variables dans la strate Ai coûte ni τi ∼ nqi τi unités de temps.
"% $−1
I
Donc en s unités de temps, on a simulé n = s q τ
i=1 i i variables. Par suite, on
s’intéresse à la limite (en loi) de la v.a.
I 7 I 8
J I ni
J ! ! pi !
Kn q i τi
(i)
φ(Zk ) − E[φ(Z)]
ni
i=1 i=1 k=1
& I '1/2 I
& ni
'
! ! pi √ 1 ! (i)
= q i τi √ nqi Yk − µi .
qi ni
i=1 i=1 k=1

En appliquant le TCL pour des variables i.i.d., en utilisant le fait que la somme
de gaussiennes indépendantes est une gaussienne, et puisque "% nqi ∼ $ni", %
la limite en$
I I p2i 2
loi de cette v.a. est une gaussienne centrée et de variance i=1 q i τ i i=1 qi i .
σ
La minimisation
% de cette variance par rapport aux variables (qi ,i ≤ I), sous les
contraintes Ii=1 qi = 1 et qi ≥ 0, conduit à

τi −1 pi σi
qi$ = %I √ −1 .
j=1 τj p j σj

L’allocation optimale est donc légèrement différente que celle que l’on a trouvé précédemment
et inclut le temps de calcul.

5.4.4 Intervalles de Confiance


• On a la décomposition

I ni
& '
√ √ ! 1 ! (i)
n (µ̂n (q1:I ) − E[φ(Z)]) = n pi φ(Zk ) − µi
ni
i=1 k=1
& ' I L :& ! '
I
! pi √ 1 !
n i
(i)
! 9√ ni 1 i
n
(i)
= √ ni φ(Zk ) − µi + pi n− φ(Zk ) − µi .
qi ni qi ni
i=1 k=1 i=1 k=1
123

Or & '
ni
√ 1 ! (i) D - .
ni φ(Zk ) − µi −→ N 0,σi2
ni
k=1
" % $
(i)
et les blocs n1i nk=1
i
φ(Zk ),i ∈ {1, · · · ,I} sont indépendants. Par suite, le premier
terme converge en loi vers & I '
! p2
i 2
N 0, σ .
qi i
i=1
Quant au second terme, il tend p.s. vers 0. Donc
& I
'
√ D
! p2
n (µ̂n (q1:I ) − E[φ(Z)]) −→ N 0, i
σi2 .
qi
i=1

D’où un IC à (1 − δ)% pour E[φ(Z)] est donné par


) *
σ(q1:I ) σ(q1:I )
µ̂n (q1:I ) − √ z1−δ/2 ; µ̂n (q1:I ) + √ z1−δ/2 , (5.11)
n n
où z1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi gaussienne centrée réduite, et
def % p2
où l’on a posé σ 2 (q1:I ) = Ii=1 qii σi2 .
• Lorsque les variances intra-strates σi2 sont inconnues, on peut estimer σ 2 (q1:I )
par exemple de la façon suivante: on estime chaque variance intra-strate et on obtient
 & '2 
! I
p 2  1
ni
! 1
ni
! 
def (i) (i)
s2n (q1:I ) = i
φ(Zk ) − φ(Zl ) ,
qi  ni − 1 ni 
i=1 k=1 l=1

Il s’agit d’un estimateur consistant de σ 2 (q1:I ) et le théorème de Slutsky montre que


l’IC (5.11) reste valable en remplaçant la variance exacte σ 2 (q1:I ) par son estimation
s2n (q1:I ).

5.4.5 Post-Stratification
La méthode de post-stratification permet de reproduire (asymptotiquement) la
réduction de variance de la méthode de stratification à allocation proportionnelle,
lorsqu’il est difficile de simuler sous la loi conditionnelle de Z sachant {X ∈ Ai }. On
suppose en revanche que l’on sait obtenir des réalisations des couples ((Xk ,Zk ),k ≥ 0)
i.i.d. de même loi que le couple (X,Z).

Définition de l’estimateur
On pose pour tout i ∈ {1, · · · ,I},
n
! n
!
def def
Ni = Xk ∈Ai , Si = φ(Zk ) Xk ∈Ai ,
k=1 k=1
124 Méthodes de réduction de variance

resp. le nombre de v.a. qui tombent dans la strate i et la somme des v.a. Zk telles
que la variable de stratification Xk tombe dans la strate i. On définit
I
!
def Si
µ̂ps
n = pi ,
Ni
i=1

avec la convention Si /Ni = 0 quand Ni = 0.

Interprétation
Avec les notations introduites, l’estimateur usuel de Monte Carlo vérifie
n I I
1! 1! ! Ni Si
µ̂M
n
C
= φ(Zk ) = Si =
n n n Ni
k=1 i=1 i=1

L’estimateur usuel affecte le même poids (1/n) à toutes les réalisations φ(Zk ),
tandis que l’estimateur post-stratifié affecte le poids pi /Ni aux réalisations φ(Zk )
telles que la variable de stratification associée Xk tombe dans la classe i : si pi < Ni /n
(càd npi < Ni , la strate i est sur-représentée), les variables ont moins de poids tandis
que si pi > Ni /n (càd npi > Ni , la strate i est sous-représentée), les variables sont
sur-pondérées.

Variance asymptotique
p.s.
Quand n → +∞, la loi des grands nombres entraine : Ni /n −→ pi = P(X ∈ Ai )
p.s.
et Si /n −→ E[φ(Z) X∈Ai ]. Donc

I
!
p.s.
µ̂ps
n −→ pi P(X ∈ Ai )−1 E[φ(Z) X∈Ai ] = E[φ(Z)] ,
i=1

et µ̂ps
n est un estimateur consistant de E[φ(Z)].
En appliquant la delta-méthode, on peut montrer la convergence suivante
9 :
√ S1 S2 Sd D
n − µ1 , − µ2 , · · · , − µd −→ Nd (0,Σ) ,
N1 N2 Nd

où
σi2
Σi,i = ,
pi
et pour i 3= j,
0 1
Σi,j ∝ Cov φ(Z) X∈Ai ,φ(Z) X∈Aj =0.
Par suite,
√ D - 2.
n (µ̂ps
n − E[φ(Z)]) −→ N 0,σps ,
125

avec
I
! I
!
2
σps = p2i Σi,i = pi σi2 .
i=1 i=1

La variance asymptotique σps 2 est donc égale à celle de l’estimateur stratifié avec

allocation proportionnelle σs2 (p1:I ). En ce sens, l’estimateur post-stratifié hérite de la


même efficacité que l’estimateur stratifié : ce résultat est asymptotique (donc pour n
grand).
En pratique, il n’est pas facile de déterminer à partir de quelle valeur de n, on peut
considérer que les deux estimateurs sont comparables en termes de réduction de va-
riance induite : cela dépend du nombre de strates, de leurs poids, · · · . En pratique, on
préfèrera l’échantillonnage par strate et on utilisera la méthode de post-stratification
lorsque simuler sous la loi conditionnelle de Z sachant {X ∈ Ai } n’est pas simple.

5.4.6 Exemples
+ Simulation de v.a. par stratification
• de v.a. de loi N (0,σ 2 ) Pour simuler une v.a. X à valeur dans X, on peut
simuler des réalisations sous la loi conditionnelle X|X ∈ Ai et leur affecter un poids
égal à pi = P(X ∈ Ai ) (pour tout i ∈ {1, · · · ,I}. On applique cette technique pour
obtenir des réalisations d’une v.a. de loi N (0,σ 2 ); on considère I strates équiprobables
de sorte que pi = 1/I, et que tous les tirages sont affectés du même poids.
Pour mettre en oeuvre la méthode, il faut déterminer des lois de la forme P(X ∈
·|X ∈ [ai ,bi ]) . On a

P(X ∈ B ∩ [ai ,bi ])


P(X ∈ B|X ∈ [ai ,bi ]) = .
P(X ∈ [ai ,bi ])

Ainsi cette loi possède une densité égale à

exp(−0.5σ −2 x2 )
# bi [ai ,bi ] (x) .
−2 t2 ) dt
ai exp(−0.5σ

Il est possible d’obtenir des réalisations de v.a. ayant cette loi par transformation de
v.a. uniformes (cf. Exercice 59)).
Sur la figure 5.9, on visualise la position de I = 20 strates équiprobables lorsque
2
σ = 2. Sur la figure 5.10, on compare la méthode de stratification (à droite) à
la technique d’échantillonnage classique (à gauche). On prend σ 2 = 2, I = 100,
n = 500 et on alloue les tirages dans les strates selon l’allocation proportionnelle. Les
histogrammes utilisent 25 subdivisions.
On voit que l’histogramme obtenu en faisant de la simulation par strate est
meilleur que celui obtenu en tirant des v.a. de loi N (0,σ 2 ). Par suite l’estimation
de E[Y ] par l’estimateur stratifié sera plus efficace que celui donné par l’estimateur
de Monte Carlo classique.
126 Méthodes de réduction de variance

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Fig. 5.9 – Section 5.4.6. Densité d’une gaussienne N (0,2) et 20 strates équiprobables.

60 60

50 50

40 40

30 30

20 20

10 10

0 0
−5 0 5 −5 0 5

Fig. 5.10 – Section 5.4.6. Tirages de v.a. gaussiennes, par la méthode


d’échantillonnage indépendant classique (gauche) et la méthode de stratification avec
allocation proportionnelle (droite).
127

• Simulation d’un brownien par stratification terminale Nous allons simu-


ler des trajectoires d’un brownien standard sur [0,T ], par la méthode de stratification
à allocation proportionnelle. Nous prenons pour variable de stratification, la valeur
terminale du brownien WT . Il s’agit d’une v.a. gaussienne N (0,T ).
On considère une subdivision régulière de [0,T ] en d intervalles, définis par les points
t0 = 0 < t1 < · · · < td = T et on simule (Wti ,i ≤ d − 1) par la méthode de pont
brownien : on rappelle que conditionnellement à (Wti−1 ,WT ), la loi de Wti est

9 :
T − ti ti − ti−1 (T − ti )(ti − ti−1 )
N Wti−1 + WT , .
T − ti−1 T − ti−1 T − ti−1

Sur la figure 5.11, on trace n = 20 trajectoires de brownien simulées par la


méthode de stratification. On considère I = 10 strates équiprobables; on choisit
l’allocation proportionnelle de sorte que pi = 1/I. On prend T = 1 et on considère
une subdivision régulière d = 50 (donc ti = i/d).
Cette méthode de simulation permet de réduire la variance d’estimateurs de quan-
tités dépendant de la valeur terminale du brownien simulé. Plus généralement, cette
technique de simulation par stratification terminale est indiquée pour simuler des
trajectoires de processus plus complexes que le brownien, et est recommandée pour
réduire la variance des procédures de Monte Carlo pour le pricing d’options dépendant
notamment des valeurs terminales de processus (introduits pour la modélisation du
prix des sous-jacents par exemple).

1.5

0.5

−0.5

−1

−1.5

−2
0 10 20 30 40 50 60

Fig. 5.11 – Section 5.4.6. Trajectoires d’un brownien par la méthode de stratification
terminale : 10 strates (marquées en trait discontinu) et 2 trajectoires par strates.
128 Méthodes de réduction de variance

+ Choix de la direction de stratification dans le cas gaussien multidimen-


sionnel
Dans de nombreuses applications, on souhaite calculer I = E[φ(Z)] où Z ∼
Nd (0,Id). Dans ce cas, on peut mettre en oeuvre un estimateur stratifié en prenant
pour variable de stratification X = µ$ Z pour un vecteur µ ∈ Rd tel que µ$ µ = 1. On
a alors X ∼ N (0,1). Il est facile de simuler des v.a. sous la loi conditionnelle P(X ∈
·|µ$ X ∈ [ai ,bi ]) à partir de générateurs de v.a. N (0,1) et U([0,1]) (cf. Exercice 61).
Le choix de la direction de stratification µ n’est pas sans importance sur la
réduction de variance de l’estimateur stratifié par rapport à une méthode de Monte
Carlo standard. Nous présentons ci-après deux résultats discutant du choix optimal
de la direction µ.
• Méthode de Glasserman et al. (1999) Glasserman, Heidelberger et Shaha-
buddin (1999) montrent que quand le nombre de strates I tend vers +∞ la variance
de l’estimateur stratifié à allocation proportionnelle tend vers
( &( =( >2 '
1
√ exp(−0.5x2 ) φ2 (z)fx (z) dz − φ(z)fx (z) dz dx , (5.12)
2π R R d Rd

où fx (z) est la densité de Nd (x µ; Id − µµ$ ) i.e. la densité de la loi conditionnelle


P(Z ∈ ·|µ$ Z = x). Cette variance limite est une fonction de µ et on peut définir la
direction optimale de stratification comme la direction µ qui minimise cette variance
limite.
Résoudre ce critère pour toute fonction φ n’est pas possible. Dans le cas où φ(z) =
exp(0.5z $ Az) pour une matrice A symétrique dont la plus grande valeur propre est
strictement inférieure à 1/2 (condition nécessaire pour que φ(Z) possède un moment
d’ordre 2), Glasserman, Heidelberger et Shahabuddin montrent que cette variance
(5.12) est minimale en µ égal
9 :2
$ λj
vj ,
! j ∈ argmaxj∈{1,··· ,d} ,
1 − λj
où (λi ,i ≤ d) sont les valeurs propres de la matrice A associées aux vecteurs propres
(vi ,i ≤ d).
Ils proposent d’étendre ce calcul valable pour des fonctions φ très spécifiques,
à des fonctions φ plus générales, de la façon suivante. En utilisant la technique de
linéarisation à l’ordre 2 (cf. section 5.3.4), on a
0 1
E [φ(Z)] ≈ exp(−0.5θ $ θ) E exp(F (θ) + Z $ ∇F (θ) + 0.5Z $ ∇2 F (θ)Z − θ $ Z) .

Ainsi, il est préconisé


– de combiner échantillonnage d’importance et stratification.
– d’appliquer l’échantillonnage d’importance avec θ solution de {θ : φ(θ) > 0,θ =
∇F (θ)}
– d’appliquer la stratification avec µ donné par le critère ci-dessus en prenant
A = ∇2 F (θ$ ).
129

• Méthode de Etoré et al. (2009) Choisir une partition de R en I inter-


valles consécutifs, revient à choisir une densité g et à définir les strates Ai comme les
quantiles d’ordre k/I de cette# loi. Choisir une politique d’allocation revient à choisir
une densité χ telle que qi = Ai χ(x)dx. En conséquence, la variance de l’estimateur
stratifié est une fonction de I,g,χ et µ.
Lorsque le nombre de strates tend vers +∞, Etoré-Fort-Jourdain-Moulines ont
montré que n Var[µ̂n (g,χ,I,µ)] converge vers
( &( =( >2 '
1 exp(−x2 )
φ2 (z)fx (z) dz − φ(z)fx (z) dz dx ,
2π R χ(x) Rd Rd

où fx désigne la densité de la densité de la loi conditionnelle P(Z ∈ ·|µ$ Z = x).


Une première remarque est que cette quantité est indépendante de g i.e. de la façon
dont les strates sont définies. La seconde remarque est que cette quantité peut être
minimisée en χ (à µ fixé) et qu’en ce sens, l’allocation (dite) optimale est donnée par
M =( >2
(
$ 2
χ ∝ exp(−0.5x ) φ2 (z)f x (z) dz − φ(z)fx (z) dz .
Rd Rd

Pour ce choix de l’allocation, la variance devient


M =( >2
( (
1 2 2
√ exp(−0.5x ) φ (z)fx (z) dz − φ(z)fx (z) dz dx , (5.13)
2π R Rd Rd

(et on peut établir par Jensen que cette quantité est strictement inférieure à (5.12) -
rappelons que (5.12) a été obtenu pour l’allocation proportionnelle, alors que dans le
cas présent, on a pris la “meilleure” allocation χ$ ).
En pratique χ$ n’est pas calculable explicitement; mais on montre que la variance
asympotique (quand I → +∞) de l’estimateur stratifié à allocation optimale q $ est
(5.13). En quelque sorte, ce résultat nous dit que quand I est grand, la variance de
l’estimateur stratifié à allocation optimale q $ est une approximation de (5.13). La
direction optimale µ$ est définie comme la direction qui minimise (5.13): malheu-
reusement elle n’est pas calculable en pratique. Pour trouver µs tar, on peut donc
chercher la direction µ qui minimise la variance de l’estimateur stratifié à allocation
optimale q $ .
Cette résolution, là encore non explicite, peut néanmoins être approchée en met-
tant en oeuvre un algorithme stochastique itératif qui a pour but (cf. l’article de
Etoré et al. (2008) pour plus de détails)
– d’estimer l’allocation optimale
– de trouver la direction optimale µ$
en même temps, puisque l’allocation optimale dépend de la direction de stratification,
et que réciproquement, pour déterminer la direction de stratification optimale il faut
disposer de l’allocation optimale.
130 Méthodes de réduction de variance

• Application au calcul du prix d’options On souhaite calculer la prime


asiatique &
d
' 
1 !
I = exp(−rT ) E  Stk − K 
d
k=1 +
où tk = kT /d et le sous-jacent {St ,t ≥ 0} suit le modèle de BS
St = S0 exp((r − 0.5σ 2 )t + σWt ) .
Dans les applications numériques, on prend
S0 = 50 r = 0.05 T =1 d = 16 σ = 0.1 K = 45
Sur la figure 5.12[gauche], on trace l’évolution de l’estimation de la direction optimale
µ en fonction du nombre d’itérations de l’algorithme; on a initialisé cet algorithme
itératif en µ(0) ∝ (1, · · · ,1). A droite-haut, on trace l’évolution de I et l’évolution de la
variance de l’estimateur stratifié en fonction du nombre d’itérations. La valeur limite
de cette variance est 0.016. Au fur et à mesure des itérations, l’algorithme envisage des
directions de stratification µ(t) ; on reporte sur la figure 5.12[droite, bas] l’estimation
de la variance de l’estimateur de stratification calculé en prenant µ = µ(t) . On voit
que cette variance diminue au fur et à mesure des itérations: les directions successives
sont en effet construites par un algorithme de gradient stochastique, afin de converger
vers la direction qui minimise la variance de l’estimateur stratifié associé.

6.056

0.45
6.055

0.4
6.054

0.35
6.053

0.3
6.052
0 10 20 30 40 50 60 70 80 90 100
0.25 Number of iterations

0.2 0.2

0.15
0.15

0.1
0.1
0.05

0.05 0

0 −0.05
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Number of iterations Number of iterations

Fig. 5.12 – Section 5.4.6.[gauche] Directions de stratification successives t 0→ µ(t) .


µ(0)
√ est propotionnel à (1, · · · ,1) de sorte que les d courbes partent du même point
1/ d. Par convention, la première composante de µ(t) est positive. [droite, haut]
estimations successsives de la quantité d’intérêt. [droite, bas] valeurs successives de
la variance; la valeur limite est 0.0016.

La réduction de variance par rapport à la méthode de Monte Carlo classique


– est d’un facteur 2 500 par la méthode de stratification adaptative proposée par
Etoré et al.
131

– est d’un facteur 5 000 par la méthode de stratification adaptative proposée par
Etoré et al. combinée avec de l’échantillonnage d’importance.
– est d’un facteur 500 par la méthode de stratification proposée par Glasserman
et al. (qui, par définition, est toujours combinée avec de l’échantillonnage d’im-
portance).
Attention, par définition des méthodes, Glasserman et al. considèrent un estimateur
stratifié à allocation proportionnelle, tandis que Etoré et al. considèrent un estimateur
stratifié à allocation optimale.
132 Méthodes de réduction de variance

5.5 Méthode des variables antithétiques


5.5.1 Introduction
Nous avons vu beaucoup d’exemples où l’on souhaite approcher par une méthode
de Monte Carlo une quantité de la forme E [φ(Z)] avec Z ∼ Nd (0,Id) (cf. l’exemple
d’introduction de la section 5.4). L’estimation d’une telle quantité par une méthode
de Monte Carlo nécessite la simulation de v.a. (Zk ,k ≥ 0) i.i.d. de loi Nd (0,Id). Or,
Zk et −Zk ayant même loi; donc, on peut à partir des v.a. (Zk ,k ≥ 0) construire une
somme de Monte-Carlo avec 2n termes :
n
!
−1
(2n) {Ξ(Zk ) + Ξ(−Zk )} .
k=1

Certes ces 2n termes ne sont plus indépendants, mais cette approche définit néanmoins
un estimateur de variance plus faible que le premier.

Principe de la méthode des variables antithétiques

On désire estimer E[φ(Z)]. Considérons deux estimateurs de E[φ(Z)] de la forme


n
! n
!
def −1 def −1
Ȳn = n φ(Zk ) , µ̂n = (2n) {φ(Zk ) + φ(L(Zk ))} ,
k=1 k=1

où
– (Zk ,k ≥ 0) est une suite de v.a. i.i.d. à valeurs Rd de même loi que Z
– L désigne une transformation de Rd dans Rd telle que L(Z) a même loi que Z.
Intuitivement, si φ(Zk ) est très éloigné de E[φ(Z)] entrainant une grande ’variabilité’,
on préférera utiliser 0.5{φ(Zk ) + φ ◦ L(Zk )} si cette moyenne est plus proche de
E[φ(Z)]. Autrement dit, µ̂n sera d’autant plus intéressant que φ(Zk ) et φ ◦ L(Zk ) “se
compensent” i.e. sont négativement corrélés.

On suppose ci-après que toutes les v.a. sont définies sur le même espace de pro-
babilité, et
A7 φ : Rd → R mesurable telle que Var[φ(Z)] < +∞.
A8 L une transformation (mesurable) de Rd dans Rd telle que L(Z) a même loi
que Z, et L ◦ L = Id.
Par exemple
– si Z est une v.a. gaussienne centrée réduite, L peut être toute transformation
orthogonale (et en particulier L(z) = −z convient).
– Si Z est une v.a. uniforme sur [0,1], L(z) = 1 − z vérifie les conditions.
133

5.5.2 Définition de l’estimateur


Soit (Zk ,k ≥ 0), des v.a. i.i.d. de même loi que Z. On définit l’estimateur
n
!
def −1
µ̂n = (2n) {φ(Zk ) + φ(L(Zk ))} .
k=1

5.5.3 Biais et variance de l’estimateur


+ Biais
Comme Z et L(Z) ont même loi, E[φ(Z)] = E[φ ◦ L(Z)]. Par suite
E [µ̂n ] = E[φ(Z)]
et l’estimateur est sans biais.

+ Estimateur consistant
Par la loi des grands nombres pour des v.a. i.i.d. on a
!n !n
p.s. p.s.
n−1 φ(Zk ) −→ E[φ(Z)] n−1 φ ◦ (Zk ) −→ E[φ ◦ L(Z)] = E[φ(Z)]
k=1 k=1
p.s.
de sorte que µ̂n −→ E[φ(Z)].

+ Variance
• Variance de l’estimateur. En utilisant l’indépendance des v.a. (Zk ,k ≥ 0) et le
fait que Z et L(Z) ont même loi, il vient
1
Var [µ̂n ] = Var [φ(Z) + φ ◦ L(Z)]
4n
1
= {Var [φ(Z)] + Var [φ ◦ L(Z)] + 2Cov(φ(Z),φ ◦ L(Z))}
4n
1
= {Var [φ(Z)] + Cov(φ(Z),φ ◦ L(Z))} .
2n
• Variance minimale. Puisque Var[φ(Z)] = Var[φ ◦ L(Z)], on a
Var[φ(Z)] - .
Var [µ̂n ] = 1 + ρφ(Z),φ◦L(Z) .
2n
Elle est donc minimale (et égale à zéro) ssi
φ ◦ L(Z) − E[φ(Z)] = −(φ(Z) − E[φ(Z)])
ce qui n’a bien sûr aucun intérêt en pratique, puisque cela équivaut à 0.5{φ(Z) + φ ◦
L(Z)} = E[φ(Z)].
En revanche, cette discussion montre que la méthode est d’autant plus efficace
que la transformation L est telle que φ ◦ L(z) est une fonction presque affine de φ(z)
de pente négative (la proximité se mesurant ici par la corrélation de φ(Z) et φ ◦ L(Z)
proche de −1).
134 Méthodes de réduction de variance

+ Comparaison avec l’estimateur de Monte Carlo classique


Pour cette méthode %de réduction de variance, il est d’usage de considérer que le
−1 n
temps de calcul% de n k=1 φ ◦ L(Zk ) est du même ordre que celui nécessaire au
−1 n
calcul de n k=1 φ(Zk ).
En conséquence, on préfereral’estimateur par variable antithétique à l’estimateur
de Monte Carlo classique (de variance n−1 Var[φ(Z)]) lorsque (cf. Section 5.1.2)
2 Var [µ̂n ] < n−1 Var[φ(Z)] ;
i.e.
Cov(φ(Z),φ ◦ L(Z)) < 0 . (5.14)
Nous donnerons dans l’exercice 63 des conditions suffisantes sur le couple (φ,L)
garantissant cette condition.

+ Décomposition de la variance
Toute fonction φ peut se décomposer en une partie “L-symétrique” φ0 et une
partie “L-anti-symétrique” φ1 données par
def φ(z) + φ ◦ L(z) def φ(z) − φ ◦ L(z)
φ0 (z) = , φ1 (z) = .
2 2
• Ces deux composantes sont orthogonales (i.e. décorrélées). En effet, puisque
E[φ1 (Z)] = 0,

Cov [φ0 (Z),φ1 (Z)] = E [(φ0 (Z) − E[φ0 (Z)]) (φ1 (Z) − E[φ1 (Z)])]
= E [(φ0 (Z) − E[φ0 (Z)]) φ1 (Z)]
= E [φ0 (Z) φ1 (Z)] − E[φ0 (Z)] E[φ1 (Z)]
1 0 1
= E [φ0 (Z) φ1 (Z)] = E φ2 (Z) − φ2 (L(Z)) = 0 ,
4
où l’on a utilisé l’identité en loi de Z et L(Z) dans la dernière égalité.
• Cette orthogonalité implique la décomposition de variance suivante
Var[φ(Z)] = Var[φ0 (Z)] + Var[φ1 (Z)] .
En observant que Var[Ȳn ] = n−1 Var[φ(Z)] et Var[µ̂n ] = n−1 Var[φ0 (Z)], on peut donc
écrire que
Var[Ȳn ] = Var[µ̂n ] + Var[φ1 (Z)] ,
et affirmer que
1. la variance de µ̂n est toujours inférieure à celle de l’estimateur usuel Ȳn .
2. si les transformations (φ,L) sont telles que φ = φ1 (càd φ(z) = −φ ◦ L(z)), alors
la variance de l’estimateur µ̂n est nulle. Si on est dans ce cadre, on a E[φ(Z)] = 0
et donc il n’est pas utile de recourir aux méthodes de Monte Carlo · · · .
3. si les transformations (φ,L) sont telles que φ1 = 0 (i.e. φ = φ0 ) alors la méthode
des variables antithétiques n’apporte rien en terme de réduction de variance.
135

5.5.4 Intervalles de confiance


Les variables (0.5{φ(Zk ) + φ ◦ L(Zk )},k ≥ 0) sont i.i.d. et de variance finie. Le
TCL pour de telles variables affirme que
& n
'
√ 1 ! D
n {φ(Zk ) + φ ◦ L(Zk )} − E[φ(Z)] −→ N (0,Var {φ(Z) + φ ◦ L(Z)} /4)
2n
k=1

On en déduit alors un intervalle de confiance à (1 − α)% pour la quantité d’intérêt


E[φ(Z)] donné par
) *
σVA σVA
µ̂n − zα/2 √ ; µ̂n + zα/2 √ ,
n n
où zα/2 désigne le quantile d’ordre 1 − α/2 d’une gaussienne centrée réduite et

def /
σVA = 0.5 Var [φ(Z) + φ ◦ L(Z)] .

2 n’est pas connue, on peut l’approcher par l’estimateur empirique


Si la variance σVA
usuel. Dans ce cas, l’application du théorème de Slutsky montre que l’intervalle de
confiance ci-dessus reste valable, en remplaçant σVA par son estimateur.

5.5.5 Généralisation
Nous avons jusqu’ici supposé que L◦L = Id. Si il existe un indice p tel que Lp = Id
où Lp désigne le p-ième itéré de L, alors on peut définir un nouvel estimateur par
n
def 1 !- .
µ̂(p)
n = φ(Z) + φ ◦ L(Z) + · · · + φ ◦ Lp−1 (Z) .
pn
k=1

Les discussions précédentes peuvent s’étendre aisément. En particulier,


(p)
• on peut montrer que Var[µ̂n ] ≤ Var[Ȳn ] en décomposant φ en une composante
symétrique et une composante anti-symétrique “orthogonales” :
p−1
def1! def
φ0 (z) = φ◦Lk (z) , φ1 (z) = φ(z)−φ0 (z) , Cov[φ0 (Z),φ1 (Z)] = 0 .
p
k=0

(p)
• on préférera l’estimateur µ̂n à l’estimateur usuel Ȳn dès lors que
+ , 0 1
p Var µ̂(p)
n < Var Ȳn ,

où le facteur multiplicatif p est introduit pour tenir compte du coût de calcul
(on suppose implicitement que le coût de calcul des transformations Lk z ne
dépend pas de k).
136 Méthodes de réduction de variance

5.5.6 Exemples
+ Trouver une transformation L vérifiant (5.14), cas Z ∈ R
• Règle. Si Z est une v.a. réelle, (5.14) est vraie dès que les deux conditions
suivantes sont vérifiées
1. z 0→ φ(z) est une fonction croissante,
2. et z 0→ φ ◦ L(z) est une fonction décroissante.
(cf. Exercice 63) Un autre jeu de conditions suffisantes est obtenu en supposant φ
décroissante et φ ◦ L croissante.
Autrement dit, on demande à φ d’être monotone et à L de transformer la mono-
tonie. Les transformations L(z) = −z ou L(z) = 1 − z transforment la monotonie.
• Exemple. On se place dans un modèle de Black-Scholes : le prix de l’actif
sous-jacent est donné par
- .
St = S0 exp {r − 0.5σ 2 }t + σWt ,
def
où (Wt ,t ≥ 0) est un brownien standard. On
√ cherche à calculer I = exp(−rT )E [(ST − K)+ ].
En remarquant que WT a même loi que T Z où Z ∼ N (0,1), cette quantité s’écrit
E[φ(Z)] où la fonction φ est donnée par
" " √ $ $
φ(z) = exp(−rT ) S0 exp {r − 0.5σ 2 }T + σ T z − K .
+

Alors z 0→ φ(z) est croissante. Comme la loi de Z est symétrique, on peut prendre
L(z) = −z et on vérifie bien que φ ◦ L est décroissante. Ainsi,

Cov [φ(Z) ,φ ◦ L(Z)] < 0 .

Application On calcule le prix d’un call, lorsque r = 0.05, σ = 0.3, T = 0.25,


S0 = 50 et K = 45. La valeur exacte est 6.43. Sur la figure 5.13[gauche], on visualise
les points de coordonnées (φ(Z),φ(−Z)) lorsque Z ∼ N (0,1). A droite (haut), on
montre l’évolution des estimateurs de Monte Carlo usuel Ȳ2n , et de l’estimateur par
variables antithétiques µ̂n en/fonction de n; on montre aussi (bas), l’évolution de
l’estimation des écarts-types Var(φ(Z)) et σVA .

+ Trouver une transformation L vérifiant (5.14), cas Z ∈ Rd


• Règle. Soient
1. (Zk ,k ≤ d) des v.a.r. indépendantes.
2. φ,φ̃ : Rd → R, mesurables et resp. croissante et décroissante en chacune de leurs
coordonnées. 5
5. φ : Rd → R est croissante en chacune de ses coordonnées ssi pour tout i ∈ {1, · · · ,d},
x1 , · · · ,xi−1 ,xi+1 , · · · ,xd et t,u, on a
(t − u) {φ(x1 , · · · ,xi−1 ,t,xi+1 , · · · ,xd ) − φ(x1 , · · · ,xi−1 ,u,xi+1 , · · · ,xd )} ≥ 0 .
137

60

6.5
6.4
50
6.3
6.2
40 6.1
6
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2
30 4
x 10
8
20
6

10
4

0 2
0 5 10 15 20 25 30 35 40 45 50 50 100 150 200 250 300 350 400 450 500

Fig. 5.13 – Section 5.5.6. [gauche] Points de coordonnées (φ(Z),φ ◦ L(Z)).


[droite,haut] Estimation de I par l’estimateur de Monte Carlo Ȳ2n (en rouge, trait
plein) et par l’estimateur par Variable antithétique µ̂n (en bleu, points), en fonction
de n. La vraie valeur (I = 6.43)/est indiquée (noir, pointillés). [droite, bas] Evolution
de l’estimation des écart-types Var[φ(Z)] et σVA en fonction du nombre de points
n.

On suppose de plus que φ(Z1 , · · · ,Zd ) et φ̃(Z1 , · · · ,Zd ) ont même loi. Alors [cf.
exercice 63] + ,
Cov φ(Z1 , · · · ,Zd ) ,φ̃(Z1 , · · · ,Zd ) ≤ 0 . (5.15)

En particulier, si L : Rd → Rd est une transformation mesurable telle que


1. L(Z1 , · · · ,Zd ) et (Z1 , · · · ,Zd ) ont même loi,
2. et z 0→ φ(L(z)) est décroissante en chacune de ses coordonnées,
alors la condition (5.14) est vérifiée.
• Exemple. Prix d’une option européenne asiatique. On cherche à estimer
& ' 
d
!
def 1
I = exp(−rT )E  Stk − K  ,
d
k=1 +

où (St ,t ≥ 0) est un brownien géométrique et t0 = 0 < t1 < · · · < td = T .


On a (cf. l’exemple d’introduction section 5.4) I = E[φ(Z)] où Z ∼ Nd (0,Id). On
peut vérifier que φ est une fonction croissante en chacune de ses coordonnées. Donc
on peut appliquer la méthode des variables antithétiques en considérant par exemple
la transformation L(z) = −z.
138 Méthodes de réduction de variance

5.6 Exercices
Exercice 51 (Méthode de Kemna et Vorst pour l’étude des options asiatiques). On
considère le payoff dans une option asiatique de la forme
) 9 ( T :*
def −1
I = E φ T Ss ds
0

où (St ,t ≥ 0) suit un modèle de Black-Scholes


- .
St = S0 exp (r − 0.5σ 2 )t + σWt ,

et φ est une fonction mesurable, croissante, φ ≥ 0.


1. (a) Montrer que
9 ( T : ( T
def 2 −1 −1
XT = S0 exp 0.5(r − 0.5σ )T + T σ Ws ds ≤T Ss ds .
0 0
(5.16)
(b) En déduire que E[φ(XT )] ≤ I.
2. (a) Montrer que
( T ( T
Ws ds = (T − s)dWs .
0 0
#T
(b) En déduire l’espérance et la variance de 0 Ws ds.
(c) Montrer que E[exp(−rT )(XT − K)+ ] peut se calculer à l’aide de la formule
de Black-Scholes (on précisera les paramètres).
3. En pratique, pour # T calculer par simulation une option asiatique, on doit discrétiser
−1
l’intégrale T 0 Ss ds en temps aux instants t1 , · · · ,tM (l’objectif de ce cha-
pitre n’est pas de discuter de la discrétisation optimale):
(a) Que devient l’expression de la prime en tenant compte de cette approxi-
mation?
(b) En adaptant le raisonnement ci-dessus, proposez une variable de contrôle
dans le cas où φ est un call φ(x) = exp(−rT )(x − K)+ .
(c) Indiquez le calcul d’un estimateur par variable de contrôle pour le calcul
de cette prime: on précisera sa mise en oeuvre à partir d’un générateur de
v.a. gaussiennes N (0,1) ainsi que le calcul d’un intervalle de confiance à
95%.
Exercice 52 (Calcul itératif du coefficient b$ dans l’estimateur par variables de contrôle).
Soit ((Xk ,Yk ),k ≥ 0) une suite de couples aléatoires indépendants et de même loi que
(X,Y ). On note Fk la tribu engendrée par le passé du processus ((Xk ,Yk ),k ≥ 0):
def
Fk = σ(Xl ,Yl ,l ≤ k).
Soit {bk ,k ≥ 0} une suite de v.a. réelles adaptée i.e. bk ∈ Fk . On suppose que
def Cov(X,Y )
bk −→k→+∞ b$ = p.s. et dans L2 .
Var(X)
139

On définit une suite de v.a. (Zk ,k ≥ 0) et un estimateur µ̂n par les relations
n
!
def def −1
Zk = Yk − bk−1 (Xk − E[X]) , µ̂n = n Zk .
k=1

p.s.
Nous allons montrer que µ̂n −→ E[Y ].

1. Montrer que E[Zk |Fk−1 ] = E[Y ].


2. Montrer que Var[Zk ] = E[h(bk−1 )] où
def
h(b) = b2 Var[X] − 2bCov(X,Y ) + Var[Y ] ;

puis que limk→+∞ Var[Zk ] = h(b$ ).


def %
3. On pose Nn = nk=1 k−1 (Zk − E[Y ]).
(a) Montrer que (Nn ,n ≥ 1) est une Fn -martingale de carré intégrable.
(b) Montrer que (Nn ,n ≥ 1) converge p.s. et dans L2 vers une v.a. dans L2 .
4. Conclure en utilisant le lemme de Kronecker. 6 .
def % def %
5. Exemple : on pose X̄k = k1 kj=1 Xj , Ȳk = k1 kj=1 Yj ,

k
! k
!
def def def Ck
Ck = (Xj − X̄k )(Yj − Ȳk ) , Vk = (Xj − X̄k )2 , bk = .
Vk
j=1 j=1

(a) Montrer que (Ck ,Vk ,Ȳk ,X̄k ) se calculent de façon récursive à l’aide de
(Ck−1 ,Vk−1 ,Ȳk−1 ,X̄k−1 ) et du couple aléatoire (Xk ,Yk ).
p.s.
(b) Montrer que bk −→ b$ . On admettra que la convergence a lieu aussi dans
L2 en imposant quelques conditions de moment supplémentaires sur la v.a.
X.

En appliquant un TCL pour les martingales, et en imposant quelques conditions de


moments pour les v.a. X et Y , on peut montrer que
√ D
n (µ̂n − E[Y ]) −→ N (0,h(b$ )) ,

si bien que cet algorithme itératif permet de définir un estimateur qui, asympotique-
ment, se comporte comme l’estimateur optimal (i.e. celui de variance minimale). La
démonstration de ce TCL repose sur un TCL pour les martingales qui demande un
peu plus de conditions que le TCL pour des v.a. indépendantes.
6. Soit (an ,n ≥ 0) une suite de réels et (bn ,n ≥ 0) une suite de réels positifs, croissante, telle que
lim+∞ bn = +∞. Alors
! n
!
X −1 −1
X
ak bk < +∞ =⇒ bn ak → 0 .
k k=1
140 Méthodes de réduction de variance

Exercice 53 (Variable de contrôle pour une option sur un portefeuille d’actifs). Soient
(1) (L)
L actifs corrélés (X· , · · · ,X· ) tels que à t = T ,
" √ $
(l)
XT = xl exp (r − 0.5σl2 )T + σl T Zl

avec (Z1 , · · · ,ZL ) ∼ NL (0,Σ); la matrice de variance-covariance Σ n’est pas nécessairement


diagonale et l’on a Σkk = 1 pour tout k ∈ {1, · · · ,L}.
On considère le calcul de prime suivant
 & L ' 
! (l)
E exp(−rT ) αl XT − K 
l=1 +

%L
où αl ≥ 0 et l=1 αl = 1.

1. En procédant comme dans l’exercice 51, proposer méthode par variable de


contrôle pour le calcul d’une approximation de I: montrer que l’espérance de
la variable de contrôle se calcule à l’aide de la formule de Black-Scholes pour
des valeurs du taux, de la volatilité, du prix initial que l’on précisera.
2. Préciser comment vous mettriez en oeuvre le calcul de cet estimateur à partir
d’un générateur de v.a. N1 (0,1) (la matrice Σ est supposée connue); ainsi que
le calcul d’un intervalle de confiance à 95%.

Exercice 54 (Variable de contrôle optimale). On souhaite calculer une quantité de la


forme E[Y ] où Y est une v.a. positive de carré intégrable et FT -mesurable. (Ft ,t ≥ 0)
désigne la filtration d’un mouvement brownien (Wt ,t ≥ 0) à valeurs dans R.
1. Montrer, à l’aide du théorème de représentation des martingales du mouvement
brownien, qu’il existe une variable de contrôle X qui réduit parfaitement la
variance i.e. la variance de Y − X est nulle.
2. On suppose de plus que Y est de la forme
( T ( T ( t
Y = exp(− r(Su )du) φ(ST ) − exp(− r(Su )du) ψ(St )dt ,
0 0 0

avec r : R → R une fonction bornée, φ,ψ : R → R sont des fonctions à croissance


sous-linéaire, et (St ,t ≥ 0) vérifie l’équation

dSt = b(St )dt + σ(St )dWt ,

pour des fonctions b,σ lispshitziennes de R → R.


(a) S0 est une quantité déterministe. Montrer que Y est une v.a. de carré
intégrable.
(b) Soit u : R+ × R une fonction de classe 1,2
# t C . Ecrire l’équation différentielle
stochastique satisfaite par exp(− 0 r(Su )du) u(t,St ).
141

(c) En déduire que si u est solution d’une EDP avec condition terminale en
t = T (EDP et conditions que l’on explicitera), on peut écrire
( T ( t
Y = u(0,S0 ) + exp(− r(Su )du) A(t,St ) dWt ,
0 0

pour une fonction A que l’on explicitera en fonction des dérivées de u et


des quantités (b,σ,φ,ψ,r).
(d) Si de plus les dérivées de u par rapport à la variable x sont bornées, déduire
de ce qui précède l’expression de la v.a. de contrôle optimale X en fonction
des quantités (b,σ,φ,ψ,r).
En pratique, la solution de l’EDP n’est pas explicite · · · de sorte que la variable de
contrôle optimale n’est pas calculable.

Exercice 55 (Changement de loi lorsque Z ∼ Nd (0,Id)). On considère la famille de


lois
P = {densités gaussiennes Nd (θ,Id), θ ∈ Rd } ,

de sorte que
1
gθ (x) = √ d
exp(−0.56x − θ62 ) .

Pour simplifier les notations, on écrit Eθ pour Egθ et E pour E0 .

1. (Formule de Cameron-Martin) Montrer que pour tout θ ∈ Rd ,


0 - .1
E[φ(Z)] = E φ(Z + θ) exp −0.5θ $ θ − θ $ Z . (5.17)

2. En déduire une méthode de Monte Carlo par échantillonnage d’importance pour


calculer E[φ(Z)]: on précisera comment calculer cet estimateur à partir d’un
générateur de nombre N (0,1) et comment calculer un intervalle de confiance.
0 1
Dans la suite, on suppose que φ est telle que E φ2 (Z)|Z| exp(|Z||θ|) < +∞
pour tout θ et on pose

def - .
σ 2 (θ) = Var[φ(Z + θ) exp −0.5θ $ θ − θ $ Z ] .

3. Montrer que
0 1
σ 2 (θ) = E φ2 (Z) exp(−θ $ Z + 0.5θ $ θ) − (E[φ(Z)])2 ,
0 1
= E φ2 (Z) exp(−0.5Z $ Z) exp(0.56Z − θ62 ) − (E[φ(Z)])2 .

En déduire que lim|θ|→+∞ σ 2 (θ) = +∞, et que θ 0→ σ 2 (θ) est une fonction
strictement convexe.
142 Méthodes de réduction de variance

4. En déduire que θ 0→ σ 2 (θ) atteint son minimum en un point θ $ tel que


0 1
E (θ $ − Z) exp(−θ $ $ Z) φ2 (Z) = 0 . (5.18)

Vérifier que l’on a aussi


0 1 0 1
E (θ $ − Z) exp(−θ $ $ Z) φ2 (Z) = E exp(θ $ θ) φ2 (Z − θ) (2θ − Z)

5. Application au calcul d’un Call européen dans un modèle de Black-Scholes: Soit


Z ∼ N (0,1), λ,K,σ des réels positifs tels que λ < K. On considère l’évaluation
du prix
0 1 def
exp(−rT )E (λ exp{σZ} − K)+ φ(Z) = (λ exp{σZ} − K)+ .

En utilisant les résultats précédents, montrer que θ 0→ σ 2 (θ) est une appli-
cation décroissante sur ] − ∞,σ −1 log(K/λ)]. En déduire un estimateur par
échantillonnage d’importance de variance strictement inférieure à celle de l’es-
timateur de Monte Carlo usuel.

Exercice 56 (Changement de loi pour le calcul d’une option asiatique). On considère


le calcul de la prime +
def - . ,
I = E exp(−rT ) S̄T − K + ,
%
où S̄T = M −1 Mk=1 Stk et tk = kT /M . (St ,t ≥ 0) désigne le prix du sous-jacent dans
un modèle de Black-Scholes:

St = S0 exp((r − 0.5σ 2 )t + σWt )

1. Montrer que I s’exprime sous la forme E[φ(Z)] pour une fonction φ que l’on
explicitera et pour Z ∼ NM (0,Id). Dans la suite, pour traduire la dépendance
en Z de la v.a. Stk , on écrira Stk (Z).
2. Soit D = {z,φ(z) > 0}. Expliciter l’équation : θ = ∇[ln φ](θ) pour θ ∈ D.
3. En déduire que la solution θ$ de cette équation est solution de
L
T S̄T (θ)
θ1 = σ ,
M S̄T (θ) − K

et pour tout 2 ≤ k ≤ M
L
T Stk−1 (θ)
θk = θk−1 − σ .
M M (S̄T (θ) − K)

4. Proposer un estimateur d’éhantillonnage d’importance basé sur un changement


de loi gaussien gθ = Nd (θ,Id).
143

Exercice 57. Soit Z une variable aléatoire réelle, gaussienne centrée réduite. Soit un
réel m. " $
2
1. (a) On pose Lm = exp −mZ − m2 , montrer que E[Lm φ(Z + m)] = E[φ(Z)]
pour toute fonction φ telle que E[|φ(Z)|] < ∞.
(b) Soit X (m) une autre variable aléatoire, intégrable telle que E[X (m)
0 (m)φ(Z1 +
m)] = E[φ(Z)] pour toute fonction φ bornée. Montrer que E X |Z =
Lm .
(c) Dans une méthode de simulation quelle représentation de E[φ(Z)] vaut-il
mieux utiliser E[X (m) φ(Z + m)] ou E[Lm φ(Z + m)]?
2. φ est une fonction bornée et mesurable.
(a) Montrer que la variance de Lm φ(Z +m), notée σ 2 (m), se met sous la forme
) 2
*
−mZ+ m2 2
E e φ (Z) − E[φ(Z)]2 .

(b) En déduire que m 0→ σ 2 (m) admet un unique minimum m$ , solution d’une


équation de la forme E[G(m) ] = 0 pour une v.a. G(m) que l’on précisera.
(c) Donner la valeur de m$ lorsque φ(x) = x. Commenter.
3. Soit 0 < α < 1 et m1 et m2 , deux réels. On pose :
m21 m22
l(z) = α em1 z− 2 + (1 − α) em2 z− 2 .

(a) Montrer que pour toute fonction φ mesurable telle que E[φ2 (Z)] < ∞,
(
E[l(Z) φ(Z)] = φ(x)p(x)dx,
R

p étant une densité que l’on précisera.


(b) Proposer une technique de simulation selon la loi de densité p.
(c) On suppose que U est une variable aléatoire suivant la loi précédente p.
Montrer que pour toute fonction φ mesurable telle que E[φ2 (Z)] < ∞,
) * ) * ) 2 *
φ(U ) φ(U ) φ (Z)
E = E[φ(Z)], Var =E − E[φ(Z)]2 .
l(U ) l(U ) l(Z)

(d) On s’intéresse au cas α = 1/2, m1 = −m2 = m et φ(x) = x. Montrer que :


) * ; 2
<
U em /2 Z 2
Var =E .
l(U ) cosh(mZ)

On note v(m) cette variance comme fonction de m.


– Vérifier que v $ (0) = 0 et v $$ (0) < 0.
– Comment choisir m pour réduire la variance lors d’un calcul de E(Z)?
144 Méthodes de réduction de variance

Exercice 58 (Changement de loi par la méthode “Tilted density”). Soient {Zk ,k ≥ 0}


et {τk ,k ≥ 0} des v.a. i.i.d. de loi resp. Gamma de paramètre (α,β) et exponentielles
de paramètre λ. On rappelle que les densités sont resp. données par
βα
f (x) = xα−1 exp(−βx) x>0 f (x) = λ exp(−λx) x>0 .
Γ(α)
def
Soit p > 0. On pose Xk = Zk − pτk , et on cherche
n
!
def
P(σx < ∞), où σx = inf{n ≥ 1, Xk > x} ,
k=1

avec la convention inf ∅ = +∞ (x ≥ 0).

Pour calculer cette probabilité, nous allons implémenter une technique d’échantillonnage
préférentiel et, pour déterminer le changement de loi, utiliser la fonction génératrice
des cumulants. 7 Les v.a. (Xk ,k ≥ 1) sont indépendantes et de même loi; notons fX
leur densité. On définit une famille de densités (gθ ,θ ∈ DX ) sur R, par la relation

def exp(θx) fX (x)


gθ (x) = .
exp(ψX (θ))

Les v.a. ((τk ,Zk ),k ≥ 0) sont définies sur un espace mesurable (Ω,A) que l’on munit
d’une famille de lois (Pθ ,θ ∈ DX ) telles que sous Pθ , les v.a. (Xk ,k ≥ 0) sont i.i.d. de
loi gθ . Noter que 0 ∈ DX et que g0 = fX de sorte que P0 sera noté simplement P. Eθ
désigne l’espérance associée à la probabilité Pθ . Soit (Fn ,n ≥ 1) la filtration naturelle
def
du processus (Xk ,k ≥ 1) : Fn = σ(Xk ,k ≤ n).

1. (Simulation sous la loi gθ , pour θ ∈ DX .)


(a) Montrer que si Y1 et Y2 sont indépendantes alors ψY1 +Y2 = ψY1 + ψY2 sur
DψY1 ∩ DψY2 .
(b) Montrer que ψZ et ψ−pτ sont données par

ψZ (θ) = −α ln(1 − β −1 θ) , DZ =] − ∞,β[ ,


ψ−pτ (θ) = − ln(1 + pλ−1 θ) , Dτ =] − λ/p; +∞[ .

(c) En déduire l’expression de ψX et son domaine de définition DX , en fonction


de α,β,λ,p.
7. On rappelle que pour une v.a. réelle Y de densite fY par rapport à la mesure de Lebesgue, la
fonction génératrice des cumulants est donnée par
Z
def
ψY (θ) = ln exp(θx) fY (x) dx = ln E [exp(θY )] ,
R

def
et est définie pour tout θ ∈ DY = {µ ∈ R : ψY (µ) existe}. De plus, la fonction génératice des
cumulants caractérise la loi d’une v.a. : si ψY1 = ψY2 alors Y1 et Y2 ont même loi.
145

(d) Montrer que la fonction génératrice des cumulants associée à la densité gθ


est donnée par ψX (θ + µ) − ψX (θ), pour tout µ tel que θ + µ ∈ DX .
(e) Soit θ ∈ DX . Déduire des questions précédentes que si Z (θ) est une v.a. de
loi Ga(α,β − θ), τ (θ) est une v.a. de loi E(λ + θp) et que Z (θ) et τ (θ) sont
indépendantes alors Z (θ) − pτ (θ) est une v.a. de densité gθ .
2. (Changement de loi) Soit θ ∈ DX .
(a) Montrer que pour tout A ∈ Fn ,
+ Pn ,
P (A) = Eθ e−θ k=1 Xk +n ψX (θ) A .

(b) Vérifier que σx est un temps d’arrêt pour la filtration Fn et montrer que
+ Pσx ,
P(σx < +∞) = Eθ e−θ k=1 Xk +σx ψX (θ) σx <+∞ .

(c) Montrer que Eθ [X1 ] = ψX $ (θ); en déduire que si θ est tel que ψ $ (θ) > 0,
X
alors Pθ (σx < +∞) = 1.
(d) Déduire de ce qui précède que si ψX$ (θ) > 0, alors

+ P σx ,
P(σx < +∞) = Eθ e−θ k=1 Xk +σx ψX (θ) . (5.19)

3. (Choix du drift θ)
(a) Montrer que θ 0→ ψX (θ) est convexe sur DX . En déduire que si ψX $ (0) < 0

alors
i. il existe un unique θ̌ > 0 (que l’on ne cherchera pas à déterminer) tel
que ψX $ (θ) > 0 sur ]θ̌,β[ et ψ $ (θ) < 0 sur ] − λ/p; θ̌[.
X
ii. il existe un unique θ$ ∈]θ̌,β[ tel que ψX (θ$ ) = 0.
(b) En utilisant les résultats de Asmussen, S. (1998) [Applied Probability and
Queues, Wiley, Chichester, England], on montre que la variance des esti-
mateurs de la forme (5.19) est minorée et que cette borne inférieure est
atteinte en prenant θ = θ$ .

Exercice 59 (Simulation sous la loi conditionnelle P(X ∈ ·|X ∈ Ai )). Soit X une v.a.
réelle de fonction de répartition F . Notons F −1 son inverse généralisée.
1. Soit U une v.a. uniforme sur [0,1] et deux réels ai ,bi tels que F (ai ) < F (bi ).
Montrer que la v.a. définie par

F −1 (F (ai ) + U (F (bi ) − F (ai )))

est distribuée selon la loi P(X ∈ ·|X ∈]ai ,bi ]).


2. En déduire une procédure de calcul de l’estimateur stratifié pour une approxi-
mation de E[φ(Z)], où Z est une v.a. réelle dont on peut évaluer la fonction de
réparition F et la fonction de répartition inverse F −1 .
146 Méthodes de réduction de variance

Exercice 60 (Simulation sous des lois conditionnelles par acceptation-rejet, cas gaus-
sien). Soit Z ∼ N (0,1).
1. Etant donnés deux réels −∞ < ai < bi < +∞. Proposer une procédure
d’acceptation-rejet basée sur la densité instrumentale uniforme pour simuler
une v.a. de loi P(Z ∈ ·|Z ∈]ai ,bi ]). Préciser la règle d’acceptation.
2. Soit un réel a > 0.
(a) Proposer une procédure d’acceptation-rejet basée sur la densité instrumen-
tale g(x) = x exp(−0.5x2 ) x>0 pour simuler une v.a. de loi P(Z ∈ ·|Z ∈
]a, + ∞[). Préciser la règle d’acceptation.

(b) Montrer que si X ∼ E(0.5) alors X a pour densité g.
(c) Quel choix de densité instrumentale g vous semble plus astucieux ? indi-
quez comment obtenir des réalisations de cette nouvelle loi à partir de
réalisations de v.a. de loi E(0.5).

Exercice 61 (Simulation de lois conditionnelles, cas gaussien multi-dimensionnel).


L’objectif de cet exercice est d’indiquer comment obtenir des réalisations sous la loi
P(Z ∈ ·|µ$ Z ∈]ai ,bi ]) lorsque Z ∼ Nd (0,Id) et µ ∈ Rd est un vecteur (déterministe)
vérifiant µ$ µ = 1. Soit B une matrice d × (d − 1) telle que [µ B] soit une matrice
orthogonale.
1. Soit g une fonction mesurable bornée. Montrer que
#
0 $
1 g (y1 µ + By2:d ) 1Ai (y1 ) exp (−0.5y $ y) dy
E g(Z)|µ Z ∈ Ai = √ d−1 # .
2π $
Ai (y1 ) exp(−0.5y1 y1 ) dy1

2. En déduire que la loi P(Z ∈ ·|µ$ Z ∈ Ai ) est la loi de T1 µ + BT2:d où


– T1 a pour loi P(W ∈ ·|W ∈ Ai ) et W ∼ N (0,1).
– T2:d est distribué selon Nd−1 (0,Id).
– T1 et T2:d sont indépendantes.
3. En remarquant que BB $ = Id − µµ$ montrer que si W ∼ Nd (0,Id) alors (Id −
µµ$ )W ∼ BT2:d .
4. En utilisant l’exercice 59, décrire une procédure de simulation sous la loi P(Z ∈
·|µ$ Z ∈]ai ,bi ]).

Exercice 62 (Estimateur stratifié et prime d’options asiatiques). On souhaite estimer


E[Y ] avec
& d '
def 1!
Y = exp(−rT ) Stk − K ,
d
k=1 +

où (St ,t ≥ 0) est un brownien géométrique


- .
St = s0 exp (r − 0.5σ 2 )t + σWt ,
147

et t0 = 0 < t1 < · · · < td = T . Pour ce faire, on combine l’approche de l’échantillonnage


préférentiel (formule de Cameron-Martin, cf. exercice 55) et la méthode de stratifica-
tion.
1. Montrer que Y = φ(Z) où Z ∼ Nd (0,Id). On explicitera la fonction φ.
2. Choix du drift θ:
def
(a) Expliciter l’équation ∇F (t) = t où l’on a posé F = (ln φ) φ>0 . Proposer
une procédure de résolution de cette équation au point fixe.
(b) Montrer que
& & d
' '
def 1!
Y ≥ Ỹ = exp(−rT ) exp Stk −K ,
d
k=1 +

et que Ỹ s’écrit sous la forme φ̃(Z) où Z ∼ Nd (0,Id). Expliciter l’équation


def
∇F̃ (t) = t où l’on a posé F̃ = (ln φ̃) φ̃>0 .
3. Quel choix proposez-vous pour la direction de stratification µ?

Exercice 63. Soient (Zk ,k ≤ d) des v.a.r. indépendantes; et φ,φ̃ : Rd → R, mesurables


et resp. croissante et décroissante en chacune de leurs coordonnées. On suppose que
φ(Z1 , · · · ,Zd ) et φ̃(Z1 , · · · ,Zd ) ont même loi, et que E[φ2 (Z1 , · · · ,Zd )] < +∞. Nous
allons montrer par récurrence sur d que
+ ,
Cov φ(Z1 , · · · ,Zd ) ,φ̃(Z1 , · · · ,Zd ) ≤ 0 . (5.20)

1. On suppose que d = 1.
" $
(a) Quel est le signe de (φ(x) − φ(y)) φ̃(x) − φ̃(y) ?
+ ,
(b) En déduire que Cov φ(Z1 ) φ̃(Z1 ) ≤ 0.

2. On suppose que (5.20) est établie pour d − 1 : pour toute fonction f,f˜ :
Rd−1 → R mesurables et resp. croissantes et décroissantes en chacune de leurs
coordonnées, et telles que f (Z1 , · · · ,Zd−1 ) et f˜(Z1 , · · · ,Zd−1 ) ont même loi et
E[f 2 (Z1 , · · · ,Zd−1 )] < +∞ on a
+ ,
Cov f (Z1 , · · · ,Zd−1 ) ,f˜(Z1 , · · · ,Zd−1 ) ≤ 0 .

Soient φ,φ̃ : Rd → R, mesurables et resp. croissante et décroissante en chacune


de leurs coordonnées et telles que φ(Z1 , · · · ,Zd ) et φ̃(Z1 , · · · ,Zd ) ont même loi
et E[φ2 (Z1 , · · · ,Zd )] < +∞.
+ ,
def def
(a) On pose Λ(x) = E [φ(Z1 , · · · ,Zd−1 ,x)] et Λ̃(x) = E φ̃(Z1 , · · · ,Zd−1 ,x) .
Montrer que x 0→ Λ(x) est croissante et que x 0→ Λ̃(x) est décroissante.
148 Méthodes de réduction de variance

(b) Montrer que


+ ,
Cov φ(Z1 , · · · ,Zd ) ,φ̃(Z1 , · · · ,Zd )
( N + , O
= E φ(Z1 , · · · ,Zd−1 ,x) φ̃(Z1 , · · · ,Zd−1 ,x) − Λ(x)Λ̃(x) PZd (dx) ,

où PZd (dx) désigne la loi de Zd .


(c) Conclure.

Exercice 64. Soit un brownien géométrique (St ,t ≥ 0):

St = S0 exp({r − 0.5σ 2 }t + σWt ).

1. Montrer que
9 :
max S0−1 St = exp σ max [Wt + σ −1 2
{r − 0.5σ }t] .
t∈[0,T ] t∈[0,T ]

2. Montrer que maxt∈[0,T ] S0−1 St a même loi que


"σ / $
def
exp {WT + αT + (WT + αT )2 − 2T ln U } , α = σ −1 {r − 0.5σ 2 } ,
2
où U est une v.a. uniforme sur [0,1] indépendante de WT . On rappelle que 8

(a) pour tout x,y,


=
- . 1, y ≤ max(0,x) ,
P max[0,t] Ws ≥ y|Wt = x =
exp(−2y(y − x)/t) , sinon .

8. Pour démontrer ces propriétés, on peut


(a) Dans le cas y ≤ max(0,x) , la preuve est simple puisque sur l’évènement {Wt = x} on a

max[0,t] (Ws ) ≥ max (Wt ,W0 ) = max (x,0) .

(b) Dans l’autre cas, on peut introduire le temps d’arrêt


def
τy = inf{t ≥ 0,Wt ≥ y}

et observer que Wτy = y. En utilisant la prop. de Markov fort et le fait que la loi de Ws est la
loi de −Ws , montrer que l’on a les égalités
` ´
P max[0,t] Ws ≥ y,Wt ≤ x = P (τy ≤ t,Wt ≤ x) = P (τy ≤ t,Wt ≥ 2y − x)
Z +∞
1
= P (Wt ≥ 2y − x) = √ exp(−0.5t−1 u2 )du .
2y−x 2πt
Puis conclure.
149

- .
(b) ce qui entraine que la loi conditionnelle P max[0,t] Ws ∈ ·|Wt = x est la
loi de " / $
0.5 x + x2 − 2t ln U

où U est une v.a. uniforme sur [0,1].

3. En déduire une méthode de Monte Carlo par variables antithétiques, pour le


calcul
- du prix. d’une option européenne sur maximum, -de fonction.de payoff
f max[0,T ] St , lorsque f est monotone et telle que E[f 2 max[0,T ] St ] < +∞.
4. Pour mettre en oeuvre une méthode de stratification, quelle variable de strati-
fication proposeriez-vous? Argumentez votre choix.
150 Méthodes de réduction de variance
Chapitre 6

Méthodes de Monte Carlo


adaptatives

6.1 Introduction
6.1.1 Echantillonnage d’importance adaptatif
Soit Z ∼ Nd (0,Id) et une application φ : Rd → R mesurable telle que Var[φ(Z)] <
+∞. La formule de Cameron-Martin donne, pour tout θ ∈ Rd , (cf. Exercice 55)
0 - .1
E[φ(Z)] = E φ(Z + θ) exp −0.56θ62 − θ $ Z . (6.1)

Cette égalité suggère d’estimer E[φ(Z)] par un échantillonneur de Monte Carlo usuel
appliqué à l’écriture de droite dans (6.1); ce qui revient à considérer un estimateur
d’importance en faisant le changement de loi g0 −→ gθ où gθ désigne la densité d’une
loi Nd (θ,Id). Quel choix de θ conduit à l’estimateur de variance minimale?
On montre (cf. Exercice 55) que la variance de cet estimateur est égale à - à une
constante additive près indépendante de θ - à la quantité v(θ)
0 1
v(θ) = E φ2 (Z) exp(−θ $ Z + 0.56θ62 ) (6.2)
0 2 1
= E φ (Z) exp(−0.56Z62 ) exp(0.56Z − θ62 ) . (6.3)

θ 0→ v(θ) est donc convexe et lim|θ|→+∞ v = +∞. Sous certaines conditions d’intégrabilité
de φ, elle est de classe C 1 et possède donc un unique minimum (global) caractérisé
par l’unique solution de l’équation ∇v(θ) = 0 ce qui est équivalent à résoudre en θ
(cf. Exercice 55)
0 1
E exp(0.56θ62 ) (θ − Z) exp(−θ $ Z) φ2 (Z) = 0

ou encore 0 1
E exp(6θ62 ) φ2 (Z − θ) (2θ − Z) = 0 .
La résolution de cette équation n’est, en général, pas explicite.
152 Méthodes de Monte Carlo adaptatives

Dans le cas d = 1: si v pouvait être évaluée explicitement en tout θ ∈ R, on


pourrait rechercher son minimum par un algorithme de dichotomie (v est unimodale).
Dans le cas général (d ≥ 1): si le gradient ∇v(θ) pouvait être évalué explicitement
pour tout θ ∈ Rd , on pourrait mettre en oeuvre un algorithme de gradient

θn+1 = θn − γn+1 ∇v(θn )

où {γn ,n ≥ 0} est une suite de pas déterministe positive. Mais en général, ni v ni ∇v
ne sont calculables. L’idée consiste donc à approcher les quantités inconnues par une
méthode de Monte Carlo. Puisque −∇v(θ) est de la forme E[H(θ,Z)], on pourrait
proposer l’algorithme itératif suivant: à l’itération n,
1. Simuler Mn v.a. i.i.d. de même loi que Z et définir
Mn
P 1 !
−∇v(θn ) = H(θn ,Zj ) ,
Mn
j=1

2. Etape de gradient
Mn
1 !
θn+1 = θn + γn+1 H(θn ,Zj ) .
Mn
j=1

Cet algorithme est néanmoins très coûteux en terme de simulations: n itérations


de l’algorithme demandent M1 + · · · + Mn tirages. Nous proposons donc l’algorithme
suivant
θn+1 = θn + γn+1 H(θn ,Zn ) , (6.4)
qui se comprend comme une discrétisation couplée avec une approximation stochas-
tique de la trajectoire de l’Equation Différentielle Ordinaire (EDO) θ̇ = h(θ) où
def
h(θ) = E[H(θ,Z)] .

Cet algorithme ne nécessite qu’un seul tirage par itération.

6.1.2 Approximation stochastique


Etant donnés: H : Rd × Rl → Rd et h : Rd → Rd telles que h(θ) = E[H(θ,Z)];
une suite de pas {γn ,n ≥ 0} déterministe, positive. L’objectif de la section 6.2 est
de montrer que sous certaines conditions, la suite {θn ,n ≥ 0} définie par (6.4) est
stable (i.e. presque-sûrement bornée), et converge. La dernière étape est d’identifier
les points limite.
Les conditions proposées sont de trois types. En écrivant

θn+1 = θn + γn+1 h(θn ) + γn+1 {H(θn ,Zn ) − h(θn )} ,

on écrit que la suite {θn ,n ≥ 0} est une perturbation de l’algorithme déterministe


tn+1 = tn + γn+1 h(tn ) dès lors que la perturbation γn+1 {H(θn ,Zn ) − h(θn )} est
153

négligeable: un premier jeu de conditions est donc relatif au contrôle de cette per-
turbation. La trajectoire déterministe tn+1 = tn + γn+1 h(tn ) peut être relue comme
une discrétisation de l’Equation Différentielle Ordinaire (EDO) θ̇ = h(θ); après N
itérations on a en effet
   
!N !N !N
γn+j
tn+N = tn +  γn+j  %N h(tn+j ) ≈ tn +  γn+j  h(tn ) .
j=1 j=1 k=1 γn+k j=1

Pour que le comportement asymptotique de cette discrétisation soit effectivement


%l’EDO, il faut des conditions sur la suite de pas {γn ,n ≥ 0} (par
guidé par celui de
exemple, il faut j γj = +∞). Le comportement asymptotique de l’EDO peut être
facilement étudié dès lors que le système possède une fonction de Lyapunov: i.e. il
existe une fonction V : Rd → R+ de classe C 1 telle que ∇V (θ) · h(θ) ≤ 0. En d’autres
termes, la trajectoire déterministe {θs ,s ≥ 0} issue de x et solution de θ̇ = h(θ)
descend le potentiel V :
( u
V (θs+u ) = V (θs ) + ∇V (θs+r ) · h(θs+r ) dr ≤ V (θs ) .
0

Si V est minorée alors la suite {V (θs ),s ≥ 0} est décroissante, minorée donc conver-
gente; si l’ensemble {θ,V (θ) ≤ V (x)} est borné, alors la suite {θs ,s ≥ 0} est bornée;
enfin, moyennant des conditions sur les ensembles de niveau de V et sur l’ensemble
des points fixes {θ,∇V (θ) · h(θ) = 0}, la suite {θs ,s ≥ 0} est convergente. Le troisième
jeu de conditions pour l’étude de la convergence de la suite stochastique (6.4) est donc
relatif à l’existence d’une fonction de Lyapunov possédant de ’bonnes’ propriétés.

6.2 Convergence des algorithmes stochastiques


6.2.1 Résultat préliminaire : Lemme de Robbins-Siegmund
Lemme 65 (Lemme de Robbins-Siegmund simplifié). Soit {Vn ,n ≥ 0} et {Wn ,n ≥ 0}
% positifs%et {an ,n ≥ 0} et {bn ,n ≥ 0} des suites déterministes
des processus adaptés
positives telles que n an + n bn < ∞. On suppose de plus que E[V0 ] < ∞ et
E [ Vn+1 | Fn ] ≤ (1 + an ) Vn − Wn + bn , P − p.s. (6.5)
Alors,
%
1. Wn < +∞ P-p.s.
p.s.
2. Vn −→ V∞ et E[V∞ ] < +∞
3. supn≥1 E[Vn ] < ∞.
Q
Démonstration. • On pose αn = nk=1 (1 + ak )−1 ; α0 = 1. Montrons que la suite
(αn ) converge vers α∞ ∈]0,1]. Par définition, {αn ,n ≥ 0} est une suite décroissante.
Remarquons de plus que puisuqe 1 + x ≤ exp(x) on a
n
! !
ln αn ≥ − ak ≥ − ak ;
k=1 k≥1
154 Méthodes de Monte Carlo adaptatives

" % $
la suite (αn ) est donc aussi minorée. Elle est donc convergente. Puisque exp − k≥1 ak ≤
αn ≤ 1, on a bien α∞ ∈]0,1].
• On pose
n−1
! ∞
!
Vn$ = αn−1 Vn , b$n = αn bn , Wn$ = αn Wn Sn = Vn$ + Wk$ + b$k .
k=1 k=n

Montrons que {Sn ,n ≥ 0} converge p.s. vers une v.a. positive S∞ telle que E[S∞ ] <
+∞. Par définition de Sn et en utilisant (6.5)
n
! ∞
!
E [ Sn+1 | Fn ] ≤ αn E [ Vn+1 | Fn ] + Wk$ + b$k
k=1 k=n+1
n−1
! ∞
!
≤ αn−1 Vn + Wk$ + b$k ≤ Sn .
k=1 k=n

p.s.
Par conséquent, {Sn ,n ≥ 0} est une surmartingale positive et par conséquent Sn −→
S∞ avec
n
!
E[S∞ ] ≤ E[S0 ] = E[V0 ] + b$k .
k=1
%n $
%∞ %∞
Comme k=1 bk = k=1 αk bk ≤ k=1 bk < ∞, cette dernière inégalité montre que
E[S∞ ] < ∞ et donc que la%v.a. S∞ est finie presque-sûrement. %
• Résultat 1. La suite ( nk=1 Wk$ )n est croissante et, comme pour tout n, nk=1 Wk$ ≤
Sn , nous avons donc, P-p.s.
n
!
lim Wk$ ≤ lim sup Sn = S∞ < ∞
n→∞ n
k=1
%
série nk=1 Wk$ converge P-p.s. Puisque limn αn = α∞ > 0, ceci implique
Par suite la %
que la série nk=1 Wk converge, car pour tout n ≤ m,
m
! m
! m
!
Wk ≤ α−1
m αk Wk = α−1
m Wk$ .
k=n k=n k=n
%n
• Résultat
% 2. Comme la convergence de%la∞série k=1 bk implique la convergence
de la série% nk=1 b$k , %
nous avons limn→∞ k=n b$k = 0 et par conséquent, la suite
Vn$ = Sn − n−1 $ ∞ $ −1 $
k=1 Wk − k=n bk converge P-p.s.. Comme Vn = αn−1 Vn et que limn αn =
α∞ > 0, la suite (Vn ) converge aussi P-p.s. vers une variable finie P-p.s., ce qui établit
l’assertion 2.
• Résultat 3. Finalement, en utilisant l’inégalité αn−1 Vn = Vn$ ≤ Sn nous obtenons

E[Vn ] ≤ α−1 −1
n−1 E[Sn ] ≤ α∞ E[S0 ] .

Ceci établit donc l’affirmation 3.


155

6.2.2 Convergence de {V (θn ),n ≥ 0}


Supposons
A9 Il existe une fonction h : Rd → Rd et H : Rd × Rq → Rd tel que, pour tout
θ ∈ Θ, E|H(θ,X)| < +∞ et E[H(θ,X)] = h(θ).
A10 Il existe une fonction V : Rd → R+ continûment différentiable telle que
1. ∇V est Lipshitzienne et |∇V |2 ≤ C(1 + V ),
2. ∇V · h ≤ 0,
0 1
3. E |H(θ,X)|2 ≤ C(1 + V (θ)) .
% 2
A11 la suite {γn ,n ≥ 0} est une suite de pas déterministe, positive telle que n γn+1 <
+∞.
A12 soit θ0 tel que E[V (θ0 )] < +∞; et {Xn ,n ≥ 0} des v.a. i.i.d. de même loi que
X et indépendante de θ0 .
Proposition 66. Supposons (A9) à (A12). Alors,
1. {V (θn )}n≥0 est bornée dans L1 (P)
p.s.
2. θn+1 − θn −→ 0
p.s.
3. V (θn ) −→ V∞ et E[V∞ ] < +∞.
%
4. 0 ≤ − n≥1 γn+1 ∇V (θn ) · h(θn ) < +∞ P-p.s.

Démonstration. Dans la suite, C est une constante dont la valeur peut prendre
différentes valeurs. On pose Fn = σ(θ0 , . . . ,θn ), pour tout n ≥ 1. En utilisant la
formule de Taylor-Lagrange, on obtient

V (θn+1 ) = V (θn + γn+1 H(θn ,Xn+1 ))


= V (θn ) + γn+1 ∇V (θn ) · H(θn ,Xn+1 )
2
≤ V (θn ) + γn+1 ∇V (θn ) · H(θn ,Xn+1 ) + γn+1 [∇V ]Lip |H(θn ,Xn+1 )|2 . (6.6)

• On va tout d’abord démontrer que, pour tout n, E|V (θn+1 )| < ∞. Nous avons en
effet, en utilisant l’inégalité de Cauchy-Schwarz
- .1/2 - .1/2
EV (θn+1 ) ≤ EV (θn ) + γn+1 E|∇V (θn )|2 E|H(θn ,Xn+1 )|2
2
+ γn+1 [∇V ]Lip E|H(θn ,Xn+1 )|2
2
≤ EV (θn ) + Cγn+1 (1 + EV (θn )) + Cγn+1 (1 + EV (θn )) .

Comme par hypothèse EV (θ0 ) < ∞, nous en déduisons par récurrence que, pour tout
n, EV (θn ) < ∞.
• Résultats 1, 3 et 4. Nous avons donc, en calculant l’espérance conditionnelle
dans (6.6)
2
0 R 1
E [ V (θn+1 ) | Fn ] ≤ V (θn ) + γn+1 ∇V (θn ) · h(θn ) + Cγn+1 [∇V ]Lip E |H(θn ,Xn+1 )|2 R Fn
2 2
≤ (1 + Cγn+1 )V (θn ) + γn+1 ∇V (θn ) · h(θn ) + Cγn+1
156 Méthodes de Monte Carlo adaptatives

Nous pouvons appliquer le Lemme de Robbins-Siegmund


% avec Vn = V (θn ), an = bn =
2
Cγn+1 et Wn = −γn+1 ∇V (θn ) · h(θn ). Comme n γn2 < ∞, nous obtenons donc les
conclusions 1, 3 et 4.
• Résultat 2. En écrivant, θn+1 −θn = γn+1 H(θn ,Xn+1 ) et en utilisant supn E[V (θn )] <
∞, nous obtenons donc:
;∞ < ∞
! !
2
E |θn+1 − θn | = E|θn+1 − θn |2
n=0 n=0

! !
2
≤ γn+1 E|H(θn ,Xn+1 )|2 ≤ C 2
γn+1 (1 + EV (θn )) < ∞ ,
n=0 n

Par suite, θn+1 − θn converge dans L2 . On a aussi pour tout δ > 0


9 : !
lim P sup |θm+1 − θm | ≥ δ ≤ δ−2 lim E|θm+1 − θm |2 = 0
n m≥n n
m≥n

ce qui établit la converge p.s.


Quelques remarques:
– Les hypothèses sur la fonction de Lyapunov V entrainent que celle-ci est au
plus à croissance quadratique : il existe C tel que
- .
V (θ) ≤ C 1 + 6θ62 .

– On peut relâcher la condition A12 et la condition A10(3) en supposant que pour


tout n
0 1
E [H(θn ,Xn+1 )|Fn ] = h(θn ) E |H(θn ,Xn+1 )|2 |Fn ≤ C{1 + V (θn )} .

Les v.a. {Xn ,n ≥ 0} ne sont donc pas nécessairement i.i.d.


– On a établi que la suite {V (θn ),n ≥ 0} converge p.s. : cela entraine l’existence
d’un ensemble Ω0 tel que P(Ω0 ) = 1 et pour tout ω ∈ Ω0 , {θn (ω),n ≥ 0}
converge vers un ensemble de niveau de V (dépendant de ω). Les ensembles de
niveau ne sont pas nécessairement bornés: on ne peut donc pas déduire de la
Proposition 66 que la suite {θn (ω),n ≥ 0} est bornée. Elle le sera si par exemple,
lim|θ|→+∞ V = +∞, puisque dans ce cas, les ensembles de niveau {θ,V (θ) ≤ M }
sont des compacts.

6.2.3 Convergence de la suite {θn ,n ≥ 0}


Théorème 67. Supposons (A9-12). Supposons de plus que:
1. h est continue,
2. lim|θ|→∞ V (θ) = +∞,
3. L’équation ∇V (θ)·h(θ) = 0 admet une solution unique θ∗ et {θ,V (θ) = V (θ∗ )} =
{θ∗ }.
157

%
4. n γn = +∞.
p.s.
Alors, θn −→ θ∗ .

Démonstration. En application de la Proposition 66, il existe un événement Ω0 ⊆ Ω


%1 et pour tout ω ∈ Ω0 : (a) lim supn V (θn (ω)) < ∞, et (b) la série à
tel que, P(Ω0 ) =
termes positifs n≥1 γn+1 ∇V (θn (ω)) · h(θn (ω)) < +∞ est convergente.
Comme lim|θ|→∞ V (θ) = ∞, ceci implique que, pour tout ω ∈ Ω0 , la suite
(θn (ω))n≥0 est bornée. Donc l’ensemble Θ∞ (ω) des points d’accumulation de la suite
(θn (ω)) est non vide. %
% La convergence de la série n≥1 γn+1 ∇V (θn (ω)) · h(θn (ω)) < ∞ et la condition
n≥0 γn = ∞, impliquent que

lim inf ∇V (θn (ω)) · h(θn (ω)) = 0 , P − p.s. .


n

Il existe donc un point θ∞ (ω) ∈ Θ∞ (ω) tel que ∇V (θ∞ (ω)) · h(θ∞ (ω)) = 0 et
comme l’ensemble des solutions de l’équation ∇V (θ) · h(θ) = 0 est réduit au point
θ∗ , nous avons donc θ∞ (ω) = θ∗ . Comme (V (θn (ω))) converge, ceci implique que
limn→∞ V (θn (ω)) = V (θ∗ ) et donc pour tous les points d’accumulation θ ∈ Θ∞ (ω),
V (θ) = V (θ∗ ). Comme l’ensemble {θ,V (θ) = V (θ∗ )} est égal à {θ∗ }, l’ensemble des
points d’accumulation est réduit à θ∗ .

Théorème 68. Supposons (A9-12). Supposons de plus que:


– La fonction θ 0→ h(θ) est continue,
– lim|θ|→∞ V (θ) = +∞,
– Pour tout v ∈ V (Rd ), l’ensemble {V = v} ∩ {∇V · h = 0} est localement fini.
Alors, la suite {θn ,n ≥ 0} converge p.s. vers un point de l’ensemble {θ,∇V (θ) · h(θ) =
0}.

Démonstration. En application de la Proposition 66, il existe un événement Ω0 ⊆ Ω


tel que, P(Ω0 ) = 1 et pour tout ω ∈ Ω0 , (a) lim % supn V (θn (ω)) < ∞, (b) |θn (ω) −
θn−1 (ω)| → 0 et (c) la série à termes positifs − n≥1 γn+1 ∇V (θn (ω)) · h(θn (ω)) < ∞
est convergente.
Comme lim|θ|→∞ V (θ) = ∞, ceci implique que, pour tout ω ∈ Ω0 , la suite
(θn (ω))n≥0 est bornée; de plus, limn |θn (ω) − θn−1 (ω)| = 0 et donc que l’ensemble
Θ∞ (ω) des points d’accumulation de la suite (θn (ω)) est un ensemble compact bien
enchaı̂né et donc connexe 1 . %
% La convergence de la série − n≥1 γn+1 ∇V (θn (ω)) · h(θn (ω)) < ∞ et la condition
n≥0 γn = ∞, impliquent que

lim inf ∇V (θn (ω)) · h(θn (ω)) = 0 , P − p.s.


n

1. Rappelons qu’un ensemble X est bien enchaı̂né si pour tout point x,y de X, et tout a > 0, il
existe une suite de points x0 ,x1 , . . . ,xn de X avec x0 = x, . . . ,xn = y, et |xk − xk+1 | ≤ a. ”Etre bien
enchaı̂né” est donc une variation d’être connexe. Si un espace est connexe, il est bien enchaı̂né. La
réciproque est vraie si l’espace est compact.
158 Méthodes de Monte Carlo adaptatives

Par suite, puisque θ 0→ h(θ) et θ 0→ ∇V (θ) sont continues, tous les points d’accumu-
lation θ ∈ Θ∞ (ω) vérifient ∇V (θ) · h(θ) = 0.
Il existe donc un point θ∞ (ω) ∈ Θ∞ (ω) tel que ∇V (θ∞ (ω)) · h(θ∞ (ω)) = 0 et
une sous-suite (θφ(n) (ω)) telle que limn→∞ θφ(n) (ω) = θ∞ (ω). Comme (V (θn (ω)))
converge, ceci implique que limn→∞ V (θn (ω)) = V (θ∞ (ω)) = v∞ (ω). Donc, pour
tous les points d’accumulation θ ∈ Θ∞ (ω), V (θ) = v∞ (ω).
L’ensemble des points d’accumulation est donc localement fini. Puisqu’il est aussi
bien enchaı̂né, il est donc réduit à un point θ$ (ω), qui vérifie ∇V (θ) · h(θ) = 0. Ce
qui conclut la démonstration.

6.3 Applications
6.3.1 Algorithme de Robbins-Monro
On veut calculer E[φ(Z)] où φ : Rd → R, mesurable; on suppose que Var[φ(Z)] <
+∞. On pose
def def
h(θ) = E[φ(Z)] − θ = E [H(θ,Z)] avec H(θ,z) = φ(z) − θ ,

L’unique solution θ$ de l’équation h(θ) = 0 est θ$ = E[φ(Z)] de sorte que calculer


E[φ(Z)] revient à rechercher le zéro de la fonction h.
Ce problème possède une fonction de Lyapunov naturelle donnée par V (θ) =
0.56θ − θ$ 62 . On a en effet ∇V (θ) = θ − θ$ de sorte que

∇V (θ) · h(θ) = {θ − θ$ } · {E[φ(Z)] − θ} = −6θ − θ$ 62 ≤ 0 .

Il est facile de voir que le triplet (h,H,V ) vérifie les hypothèses de la Proposition 66
et du Théorème 67. En particulier, on a

{θ,∇V (θ) · h(θ) = 0} = {θ$ }

et
{θ,V (θ) = V (θ$ )} = {θ,V (θ) = 0} = {θ$ } .
On peut donc énoncer le corollaire suivant
Corollaire 69. Soit φ une application mesurable telle que Var[φ(Z)] < ∞. Etant
donnée :
– une v.a θ0 telle que E[6θ0 62 ] < +∞,
– une famille {Zn ,n ≥ 0} de v.a. i.i.d. de même loi que Z, et indépendantes de
θ0 ,
% %
– {γn ,n ≥ 0} une suite positive déterministe telle que n γn = +∞ et n γn2 <
+∞,
la suite {θn ,n ≥ 0} définie par

θn = θn−1 + γn (φ(Zn ) − θn−1 ) , n≥1,

converge p.s. vers E[φ(Z)].


159

Dans le cas particulier γn = 1/n, ce corollaire n’est rien d’autre que la loi des
grands nombres pour des v.a. i.i.d.: on a en effet
1 1
θn = (1 − γn )θn−1 + γn φ(Zn ) = (1 − )θn−1 + φ(Zn )
n n
ce qui est équivalent à
n
1!
θn = φ(Zk ) .
n
k=1

Par suite, {θn ,n ≥ 0} a la même limite que la moyenne empirique, qui, par la loi des
grands nombres pour des v.a. i.i.d., converge p.s. vers E[φ(Z)].

6.3.2 Algorithme de gradient stochastique


Soit V : Rd → R+ continûment différentiable telle que {θ,∇V (θ) = 0} = {θ$ }.
On suppose de plus qu’il existe H telle que

∇V (θ) = −E [H(θ,Z)] .

On veut déterminer θ$ . On pose

h(θ) = −∇V (θ) = E [H(θ,Z)] .

+ Cas général
V est une fonction de Lyapunov naturelle pour h puisque

∇V (θ) · h(θ) = −6∇V (θ)62 ≤ 0 .

Si le triplet (h,H,V ), la suite de pas {γn ,n ≥ 0} et la famille de v.a. {Zn ,n ≥ 0}


vérifient les hypothèses de la Proposition 66 et du Théorème 67 ou 68 alors la suite
{θn ,n ≥ 0} définie par θn+1 = θn + γn+1 H(θn ,Zn+1 ) converge p.s. vers θ$ .

+ Cas convexe
Lorsque V est strictement convexe, on peut trouver une autre fonction de Lyapu-
nov pour le champ h = −∇V qui, par construction, vérifie les conditions A10(1,2) et
dont les ensembles de niveau sont compacts. On a en effet le résultat suivant
Lemme 70. Soit G : Rd → R une fonction convexe, continûment différentiable.
Alors
{∇G(θ) − ∇G(θ $ )} · {θ − θ $ } ≥ 0 ;
on a inégalité stricte pour tout θ 3= θ $ dès que G est strictement convexe.

Démonstration. Soit g : [0,1] → R définie par g(s) = G(θ + s(θ $ − θ)) − G(θ). Alors
g est convexe (resp. strictement convexe) puisque G est convexe (resp. strictement
160 Méthodes de Monte Carlo adaptatives

convexe); et de classe C 1 . Donc s 0→ g$ (s) est croissante (resp. strictement croissante)


et g$ (1) ≥ g$ (0) (resp. g$ (1) > g$ (0)). On obtient le résultat en remarquant que

g$ (s) = ∇G(θ + s(θ $ − θ)) · (θ $ − θ) .

En appliquant le Lemme 70 avec G = V et θ $ = θ$ , on a

h(θ) · {θ − θ$ } ≤ 0

def
de sorte que la fonction Ṽ = 0.56θ − θ$ 62 est une fonction de Lyapunov pour h. De
plus, Ṽ vérifie A10(1,2), lim+∞ Ṽ = +∞, {θ,∇Ṽ (θ) · h(θ) = 0} = {θ$ } et {θ,Ṽ (θ) =
Ṽ (θ$ )} = {θ$ }. Par suite, dès lors que
0 1
– E |H(θ,Z)|2 ≤ C{1 + 6θ62 }
– {Zn ,n ≥ 0} est une famille de v.a. i.i.d. de même loi que Z, et indépendantes
de θ0 ,
%
– {γ
%n ,n2 ≥ 0} est une suite positive déterministe telle que n γn = +∞ et
n γn < +∞,
la suite {θn ,n ≥ 0} définie par θn+1 = θn + γn+1 H(θn ,Zn+1 ) converge p.s. vers θ$ .

6.3.3 Echantillonnage d’importance adaptatif (suite)


On applique les résultats de la section 6.2 à l’exemple présenté en section 6.1.1.
On cherche à déterminer θ$ unique solution de l’équation ∇v(θ) = 0 où v est une
fonction continûment différentiable, et telle que ∇v(θ) = −E[H(θ,Z)] avec

H(θ,Z) = exp(0.56θ62 ) (θ − Z) exp(−θ $ Z)φ2 (Z) .

+ Fonction de Lyapunov (I)


D’après la discussion ci-dessus, une fonction de Lyapunov naturelle est V = v
où v est définie par (6.2). Malheureusement, V ne vérifie pas les conditions A10(a,b)
puisque quand |θ| → ∞, la croissance de V est plus que quadratique. En effet, comme
Var(φ(Z)) < +∞, il existe $ > 0 tel que P(φ2 (Z) ≥ $,|Z| ≤ 1/$) > 0. Par suite,

v(θ) ≥ exp(0.56θ62 ) $ exp(−|θ|/$) P(φ2 (Z) ≥ $,|Z| ≤ 1/$) > 0 .

Ainsi, la fonction v ne vérifie pas les conditions de la Proposition 66.

+ Fonction de Lyapunov (II)


Dans la suite, on suppose qu’il existe C,a > 0 tels que

0 ≤ φ(z) ≤ C exp(a|z|/2) . (6.7)


161

La fonction v(θ) définie par (6.2) est strictement convexe; on peut donc appliquer
les résultats du paragraphe 6.3.2 et prendre pour
0 fonction
1 de Lyapunov V (θ) =
0.56θ − θ$ 62 . Malheureusement, la condition E |H(θ,Z)|2 ≤ C{1 + 6θ62 } n’est pas
vérifiée. On a en effet
0 1 S T
E |H(θ,Z)|2 ≥ exp(6θ62 ) $2 θ $ θ − 2|θ|/$ exp(−2|θ|/$) P(φ2 (Z) ≥ $,|Z| ≤ 1/$) > 0 .

Ainsi le triplet (h,H,V ) ne vérifie pas les conditions de la Proposition 66.

+ Fonction de Lyapunov (III)


Néanmoins, il est facile de vérifier que le comportement asymptotique de la suite
{θn ,n ≥ 0} définie par θn+1 = θn + γn+1 H(θn ,Zn+1 ) est le même que celui de la suite
définie par θ̃n+1 = θ̃n + γn+1 ψ(θ̃n ) H(θ̃n ,Zn+1 ) où ψ(θ) est une fonction strictement
positive et bornée.
Plus généralement, h étant donnée, il n’y a pas unicité de la fonction H telle que
E[H(θ,Z)] = h(θ) ni de la fonction de Lyapunov associée. On peut donc construire
différents triplets (h,H,V ) permettant d’établir la convergence vers θ$ .
On choisit

def /
Ha (θ,z) = − exp(−6θ62 ) exp(−a 1 + 6θ62 ) exp(6θ62 ) φ2 (z − θ) (2θ − z)
/
= − exp(−a 1 + 6θ62 ) φ2 (z − θ) (2θ − z) ,

de sorte que

def / 0 1
ha (θ) = E [Ha (θ,Z)] = − exp(−a 1 + 6θ62 ) E φ2 (Z − θ) (2θ − Z) ;

et on considère la suite définie par

θn+1 = θn + γn+1 Ha (θn ,Zn+1 ) . (6.8)

De plus, en utilisant (6.7)


0 1 / 0 1
E |Ha (θ,Z)|2 ≤ C exp(−2a 1 + 6θ62 ) E exp(2a6Z − θ6) 62θ − Z62
/ 0 1
≤ C exp(−2a 1 + 6θ62 ) exp(2a6θ6) E exp(2a6Z6){6θ62 + 6Z62 }
≤ C {1 + 6θ62 } .

Il est aisé de vérifier que le triplet (ha ; Ha ; V = 0.56θ − θ$ 62 ) vérifie les autres condi-
tions de la Proposition 66 et du Théorème 67; et que le seul point vérifiant les condi-
tions : “∇V (θ) · ha (θ) = 0” et “V (θ) = 0” est le point θ$ .
Par suite, la suite définie par (6.8) converge p.s. vers θ$ dès lors que les simulations
{Zn ,n ≥ 0}, le point initial θ0 et les pas {γn ,n ≥ 0} vérifient les conditions A11 et
A12.
162 Méthodes de Monte Carlo adaptatives

+ Echantillonnage d’importance adaptatif


Pour exploiter ce résultat de convergence, on peut implémenter l’algorithme sui-
vant:
1. Estimer θ$ , le point qui minimise v(θ), en mettant en oeuvre l’algorithme (6.8)
jusqu’à convergence.
2. Estimer la quantité d’intérêt E[φ(Z)] par une méthode de Monte Carlo
n
!
n−1 φ(Zk + θ$ ) exp(−0.56θ$ 62 − θ$$ Zk ) ,
k=1

où les v.a. {Zk ,k ≥ 0} sont indépendantes de θ$ . Néanmoins, cet algorithme est très
coûteux en simulations: les simulations effectuées dans la première étape pour le calcul
de θ$ ne sont pas utilisées dans la suite de l’algorithme.
Une alternative est donc de combiner approximation stochastique et méthode
de Monte Carlo dans la même procédure itérative. On obtient alors un algorithme
d’échantillonnage d’importance adaptatif dans lequel le paramètre d’implémentation
(ici, la valeur du drift θ) est appris au fur et à mesure de déroulement de l’algorithme.
Une itération de cette procédure adaptative consiste à
1. simuler Zn+1 .
2. mettre à jour l’estimation de θ$ : θn+1 = θn + γn+1 Ha (θn ,Zn+1 ).
3. mettre à jour l’estimation de la quantité d’intérêt :
9 :
1 1
In+1 = 1 − In + φ(Zn+1 + θn ) exp(−0.56θn 62 − θn$ Zn+1 ) .
n+1 n+1

On a alors
n
1!
In = φ(Zk + θk−1 ) exp(−0.56θk−1 62 − θk−1
$
Zk ) .
n
k=1

L’étude des propriétés asymptotiques de cet estimateur repose sur des théorèmes
limite pour des martingales et non plus sur des théorèmes limite pour les v.a. i.i.d.
(cf. Exercice 71).

+ Application numérique
On souhaite évaluer la prime d’option
" √ $
def
I(K) = E [φ(Z)] φ(Z) = exp(−rT ) S0 exp((r − 0.5σ 2 )T + σ T Z) − K
+

lorsque
S0 = 50 , r = 0.1 , T =1, σ = 0.1 .
Lorsque K est grand, l’option est en dehors de la monnaie et la méthode de Monte
Carlo usuelle est peu efficace: on montre sur la figure 6.1 l’évolution du coefficient
163

Evolution de la prime europeenne


35
Coefficient de variation
16
30
14

25
12

10 20

8 15

6
10

4
5
2

0
0 20 25 30 35 40 45 50 55 60 65 70
20 25 30 35 40 45 50 55 60 65 70 Strike K
Strike K

/
Fig. 6.1 – [gauche] Evolution du coefficient de variation Var[φ(Z)]/E[φ(Z)] en
fonction du strike K. [droite] Evolution de la prime en fonction du strike.

de variation en fonction du strike K; ainsi que l’évolution de K 0→ I(K). Dans cet


exemple simple, I(K) et le coefficient de variation sont calculables de façon exacte
en utilisant la formule de Black-Scholes.
Dans la suite, on prend K = 60. On trace sur la figure 6.2[gauche] l’évolution
de l’estimateur de Monte Carlo usuel µ̂n en fonction du nombre n de termes dans la
somme de Monte Carlo.
On met en oeuvre l’algorithme (6.8) en prenant
√ 1
a = 2σ T γn = min{ ,0.001}
(100 + n)0.8
et /
θ0 = (log(K/S0 ) − (r − 0.5σ 2 )T )/(σ (T )) .
On montre sur la figure 6.3 une trajectoire de la suite {θn ,n ≥ 0}; la valeur limite
est θ$ = 1.54. Sur la figure 6.2[gauche] on montre l’évolution en fonction du nombre
de termes dans la somme de Monte Carlo, de l’estimateur d’échantillonnage d’impor-
tance µ̂is
n (cf. Equation (6.1)) avec θ = θ$ . Sur
/la figure 6.2[droite], on trace l’évolution
du rapport des écart-types des estimateurs Var[µ̂is n ]/Var[µ̂n ].
Enfin, on met en oeuvre l’algorithme d’échantillonnage d’importance adaptatif,
dans lequel intégration (somme de Monte Carlo) et estimation (du paramètre optimal
θ) se font simultanément. Sur la figure 6.3[droite] on montre l’évolution en fonction du
nombre de termes dans la somme de Monte Carlo de l’estimateur d’échantillonnage
d’importance adaptatif.
Dans cet exemple, la méthode adaptative permet de réduire la variance de l’esti-
mateur de Monte Carlo classique d’un facteur 4.

6.4 Exercices
Exercice 71. Soit une fonction φ : Rd → R bornée et Z un vecteur un vecteur aléatoire
à valeur Rd . On veut calculer E[φ(Z)].
164 Méthodes de Monte Carlo adaptatives

Estimation de la prime Rapport des ecarts−type (IS / MC)


0.606 3
Monte Carlo
Vraie Valeur
0.604 IS avec drift optimal 2.5

0.602 2

0.6 1.5

0.598 1

0.596 0.5

0.594 0
0 200 400 600 800 1000 1200 1400 1600 1800 2000 0 200 400 600 800 1000 1200 1400 1600 1800 2000
x 1000 tirages Nombre de tirages

Fig. 6.2 – [gauche] Evolution de l’estimation de I(60) en fonction du nombre de


termes dans la somme de Monte Carlo, par l’estimateur de Monte Carlo classique
(trait plein) et l’estimateur d’échantillonnage d’importance en θ = 1.54 (dash-dot).
Pour comparaison, la vraie valeur (dash). [droite] Evolution du rapport des écarts-type
des estimateurs.

ISoptimal et IS adaptatif
1.6 0.625
IS optimal
IS adaptatif
1.5 0.62

1.4 0.615

1.3 0.61

1.2 0.605

1.1 0.6

1 0.595

0.9 0.59

0.8 0.585
0 1 2 3 4 5 6 7 0 2 4 6 8 10 12 14 16
4
x 10 Nombre d’iterations x 10
4

Fig. 6.3 – [gauche] Trajectoire de la suite {θn ,n ≥ 0}; [droite] Comparaison des
estimateurs de I(60) par échantillonnage d’importance avec drift optimal (θ = 1.54)
et par échantillonnage d’importance adaptatif.
165

1. On suppose qu’il existe une famille de fonction ψ(θ,·) : Rd × Rd → R telle que


pour tout θ ∈ Rd ,
E[φ(Z)] = E[ψ(θ,Z)] E[ψ 2 (θ,Z)] < ∞ . (6.9)
def
On note σ 2 (θ) = Var[ψ(θ,Z)].
(a) Dans cette question, Z ∼ Nd (0,Id). Proposer une fonction ψ qui vérifie les
conditions (6.9).
(b) Soit (Zn ,n ≥ 0) une famille de v.a. i.i.d. de même loi que Z. On note Fn
la filtration associée. Soit (Θn ,n ≥ 0) une famille de v.a. adaptées à la
def
filtration Fn et telles que E[σ 2 (Θn )] < ∞. On pose M0 = 0 et
n
!
def
Mn = {ψ(Θk−1 ,Zk ) − E[φ(Z)]} .
k=1

Montrer que (Mn ,n ≥ 0) est une martingale de carré intégrable par rapport
à la filtration Fn .
(c) Calculer le crochet < M >n de la martingale en fonction de σ 2 .
p.s.
(d) On suppose dans toute la suite, que Θn −→ θ $ , θ $ nombre réel, et que
θ 0→ σ 2 (θ) est continue. Montrer que
p.s.
n−1 < M >n −→ σ 2 (θ $ ) .
En déduire que si σ 2 (θ $ ) > 0, on a
n
! p.s.
n−1 ψ(Θk−1 ,Zk ) −→ E[φ(Z)] .
k=1

(e) On suppose dorénavant qu’il existe a > 1 tel que pour tout θ, E[ψ 2a (θ,Z)] <
∞ et que θ 0→ E[ψ 2a (θ,Z)] est continue. Montrer que
& n
'
√ ! D
−1
n n {ψ(Θk−1 ,Zk ) − E[φ(Z)]} −→ N (0,σ 2 (θ $ )) .
k=1

Pour ce faire, on pourra


– Rappeler la condition de Lindeberg pour l’existence d’un TCL pour
les martingales de carré intégrable.
– Montrer que pour tout n,$ > 0
n
! + ,
n−1 E |ψ(Θk−1 ,Zk ) − E[φ(Z)]|2 √
|ψ(Θk−1 ,Zk )−E[φ(Z)]|≥! n |Fk−1
k=1
c ! + ,
n
2a
≤ a E |ψ(Θk−1 ,Zk ) − E[φ(Z)]| |Fk−1
n
k=1

pour une constante c que l’on explicitera en fonction de $,a.


166 Méthodes de Monte Carlo adaptatives

– Montrer que
+ ,
E |ψ(Θk−1 ,Zk ) − E[φ(Z)]|2a |Fk−1 ≤ CE[ψ 2a (θ,Z)]|θ=Θk−1 .

– Conclure.
(f) On peut montrer (en introduisant une martingale adéquate, et en raison-
nant comme au dessus) que si a ≥ 2,
n
& n
'2
! ! p.s.
−1 2 −1
n ψ (Θk−1 ,Zk ) − n ψ(Θk−1 ,Zk ) −→ σ 2 (θ $ ) .
k=1 k=1

(g) On suppose que θ $ minimise σ 2 (θ).


– Proposer une méthode de simulation permettant de calculer E[φ(Z)].
– Indiquer comment on peut estimer l’erreur d’estimation et construire
un intervalle de confiance.
2. On se place dans le cas où ψ(θ,z) = exp(−θ $ z−0.5θ $ θ) φ(Z+θ), et Z ∼ Nd (0,Id).
Proposer un algorithme de type Robbins-Monro permettant de résoudre (5.18).
3. Déduire de ces études, une méthode de simulation adaptative permettant de
calculer E[φ(Z)].
Exercice 72 (Extraction de la volatilité implicite dans le modèle de Black-Scholes).
Le spot x, le taux r, le strike K et la maturité T étant fixés, le prix d’un Call dans
le modèle de Black-Scholes ne dépend que de la volatilité σ par la relation :
)9 : *
σ2 √ −rT
CBS (σ) = E x exp(− T + σ T Z) − Ke
2 +

1. (a) Montrer que la dérivée du prix par rapport à la volatilité σ (appelée Vega)
est égale à

$
/ ln(S0 /K) + (r + 0.5σ 2 )T
CBS (σ) = x T /2π exp(−0.5d21 ) d1 = √
σ T
(b) En déduire que σ 0→ CBS (σ) est strictement croissante.
2. On note )9 : *
−rT σ2 √
PBS (σ) = E Ke − x exp(− T + σ T Z)
2 +
le prix du put au strike K.
(a) Etablir la parité entre le prix du call et le prix du put, à savoir:

CBS (σ) − PBS (σ) = x − Ke−rT

(b) En déduire que


- .
lim PBS (σ) = Ke−rT − x + lim PBS (σ) = Ke−rT
σ→0 σ→+∞
167

(c) En déduire que


- .
lim CBS (σ) = x − Ke−rT + lim CBS (σ) = x .
σ→0 σ→+∞

+- . ,
3. La fonction CBS est donc continue et strictement croissante de R+ dans x − Ke −rT ;x .
+- . , +
Par conséquent, il s’agit d’une bijection et pour tout P Market ∈ x − Ke−rT + ; x
il existe une unique volatilité implicite σ ∗ ∈ R+ telle que CBS (σ ∗ ) = P Market .
- .
(a) Montrer que si P Market = x − Ke−rT + , alors σ ∗ = 0. On suppose donc
- .
par la suite que P Market > x − Ke−rT + .
(b) Dans le but de pouvoir appliquer l’algorithme de Robbins-Monro, on in-
troduit la fonction H définie par :
)9 : *
σ2 √
H(σ,z) = ϕ(σ) x exp(− + T + σ+ T Z) − Ke−rT −P Market
2 +

2
σ+
− T
où ϕ(σ) = (1 + |σ|)e 2 . On pose alors :
7
ϕ(σ) [CBS+(σ) − CBS (σ ∗ )] , σ>0
h(σ) = E [H(σ,Z)] = - −rT
. Market
(1 + |σ|) x − Ke +
−P σ≤0

– Montrer que la recherche de volatilité implicite est donc équivalente à


la recherche de 0 de h.
– Montrer que
∀σ 3= σ ∗ ,h(σ)(σ − σ ∗ ) > 0

– Montrer que
0 1
E H(σ,Z)2 ≤ C(1 + |σ|2 ) .

– Etablir les propriétés d’un algorithme d’approximation stochastique


pour le calcul de la volatilité implicite.

6.5 Bibliographie
Algorithmes stochastiques

– A. Benveniste, M. Métivier, P. Priouret. Adaptive algorithms and stochastic


approximations, Springer-Verlag, 1990.
– M. Duflo. Méthodes récursives aléaoires, Masson, 1990.
– H. J. Kushner, G. Yin. Stochastic Approximation and Recursive Algorithms and
Applications, Springer, 2003.
168 Méthodes de Monte Carlo adaptatives

Echantillonnage d’importance adaptatif


– B. Arouna. Adaptive Monte Carlo method, a variance reduction technique, Monte
Carlo Methods Appl, 10(1):1-24, 2004.
– B. Jourdain, J. Lelong. Robust adaptive importance sampling for normal random
vectors, Annals of Applied Probablity, 2009.
– V. Lemaire, G. Pagès. Unconstrained Recursive Importance Sampling, 2008.

Méthodes de réduction de variance adaptatives


– S. M. T. Ehrlichman, S. G. Henderson. Adaptive control variates for pricing
multi-dimensional American options, Journal of Computational Finance.2006.
11 (1).
– P. Etoré, G. Fort, B. Jourdain, E. Moulines. Adaptive stratification, 2009.
– P. Etoré, B. Jourdain. Adaptive optimal allocation in stratified sampling me-
thods. Methodol. Comput. Appl. Probab. 2009.
– S. G. Henderson, B. Simon. Adaptive simulation using perfect control variates,
Journal of Applied Probability 41, 859-876, 2004.
– S. Kim, S.G. Henderson. Adaptive control variates for finite-horizon simulation,
Math. Oper. Res., 32(3):508-527, 2007.