Vous êtes sur la page 1sur 7

Simulation Monte-Carlo et mthodes de Rduction de Variance

Louis Feuilloy et Grgoire Brunat 11 Mai 2012

Rsum Un rsum qui nonce le ou les rsultat les plus importants de larticle.

1 2
2.1

Introduction Dnitions
Vocabulaire

Echantillon Un chantillon, cest un ensemble de rsultat (obtenus suite la ralisation dune simulation) sur lequelle on peut travailler pour tablir des Statistiques. Ex : Notes des lves dune classe, rsultats dune quipe de Foot Modle statistique Le Modle statistique sert modliser des observations, venements, de manire mathmatiques. Il essaye de reprsenter la ralit sous forme de formule. Soit S lespace chantillonnal (cest dire lensemble des rsultats possible dune tude statistique). Un modle statistique est un ensemble de distribution, dans S, index par un paramtre rel . Statistique Une statistique, cest simplement une fonction, nimporte laquelle, qui se sert des valeurs de lchantillon utilis, et en sort quelquechose. Ca peut etre aussi bien la moyenne des valeurs, que la mdiane, que le mot "super poussin"... Toute fonction T (X1 , X2 , ..., Xn ) des donnes X1 , X2 , ..., Xn est appele une statistique.

Estimateur Un estimateur est avant tout une statistique. On a vu que les modles statistiques dpendent dun ensemble de paramtres quon peut noter = (1 , 2 , ..., n ). Un estimateur est une statistique (donc une fonction de lchantillon) qui a pour seul but de sapprocher des paramtres i du modle. Les estimateurs, comme les statistiques, ne sont pas tous de mme qualit. On les direncie laide de leur convergence, biais, ecacit, robustesse et variance. Estimation De manire gnrale, une estimation est une valeur particulire dun estimateur. On distinque les deux estimations suivantes Ponctuelle : Cest la valeur observe dans lchantillon, ou une valeur unique calcule partir de la valeur observe dans lchantillon, dans le voisinage de laquelle la valeur inconnue de la statistique quon cherche estimer a une trs grande probabilit de se trouver. Par intervalle de conance : Cest un intervalle de valeurs qui a une probabilit importante (80% 99%), appele niveau de conance, de contenir la valeur inconnue de la statistique quon cherche estimer. Biais dun Estimateur Jutilise une balance mal talonne, alors elle indiquera toujours un poids plus ou moins faux, elle est biaise. De la mme manire, un estimateur sans biais, donne "en moyenne" la valeur du paramter cherch. Le biais dun estimateur T est la fonction qui associe chaque estimateur la dirence entre son esprance et la valeur du paramtre : B(T, ) = ET (T ) Dans le cas o R on dit que lestimateur surestime (sous-estime) la vraie valeur du paramtre si le biais est strictement positif (ngatif) Variance dun Estimateur La variance dun estimateur est positive ou nulle. Dans lide, elle montre si les valeurs de lchantillon sont loignes ou pas de la moyenne. Si la variance est nulle donc, toutes les valeurs de lchantillon sont identiques. Elle a pour formule : V ar(T ) = E[(T E[T ])2 ] = E[T 2 ] E[T ]2 Consistance dun Estimateur Lide est dtudier le comportement dun estimateur sur un chantillon qui tend linni. Soit une suite destimateur Tn = T (X1 , X2 , ..., Xn ). Dire que lestimateur T est consistant revient dire que la suite Tn converge en probabilit vers le paramtre , lorsque n tend vers l. > 0, lim P { | Tn |> } = 0
n

2.2

Thormes Fondamentaux

Lois des Grands Nombres Lide est que, si la taille de lchantillon est assez grande, les paramtres de lchantillon galent celles de la statistique.

Soit (Xn )nN une suite de variables alatoires i.i.d., dnies sur un espace de probabilit (, F, P ) telles que V ar(X1 ) = < et E[X1 ] = . Pour n N, posons Sn = X1 + X2 + ... + Xn . La Loi Faible des Grands Nombres Avec les hypothses ci-dessus, on a : 0,
n

lim P { |

Sn n

} = 0.

La Loi Forte des Grands Nombres La Loi Forte des Grands Nombres prcise que, pour n assez grand, Sn converge vers E[X] = , presque srement . Avec les hypothses ci-dessus, on a : P { lim ( Sn ) = } = 1. n
n

Thorme Central Limite Lide de ce Thorme est dapproximer une somme de variables alatoires par une variable alatoire normale, plus simple manipuler. Soit (Xn )nN une suite de variables alatoires i.i.d., dnies sur un espace de probabilit (, F, P ) telles que 0 < V ar(X1 ) < . On pose : 2 = V ar(X1 ) et E[X1 ] = . Alors, x R, on a :
n

lim P

Sn n x = (x) n

O (x) est la fonction de rpartition dune va N (0, 1).

2.3

Description de la mthode de Monte-Carlo

Aujourdhui, la rsolution de nombreux problmes scientiques ncessite de passer par des mthodes dapproximation. Simplement car les techniques de calcul direct, dites analytiques, sont trs vite dpasses par la complexit des modles : elles ncessitent souvent des hypothses trop fortes, ou alors, comme dans le cas de calcul de sommes, le nombre doprations requises peut tre trop important pour tre ralis en un temps raisonnable. La mthode de Monte-Carlo est une mthode dapproximation empirique. Elle sert calculer une valeur numrique en utilisant des procds alatoires (des techniques probabilistes). Pour cela, on simule par ordinateur la loi dchantillonnage dun quelconque estimateur.

Exemple explicite : On cherche la surface du lac connaissant celle du pr (disons 1 sur 1 pour faire simple). On rparti de manire informatique, alatoire, des points sur la surface totale. Nombre de Points dans le lac = Air du lac Nombre de Points au total

On a alors,

Figure 1 - Illustration de la Mthode de Monte-Carlo

Plus thoriquement, On a la fonction de rpartition F . Avec, on obtient n ralisations (x1 , x2 , ..., xn ), des variables alatoires (X1 , X2 , ..., Xn ), qui nous permet de faire une premire estimation du paramtre cherch. On ritre cette technique N fois, pour gnrer un chantillon de N estimations (t1 , t2 , ..., tN ). A partir de l, en construisant un histogramme rprtoriant les estimations, avec N est assez grand, on obtient une approximation de la loi dchantillonnage (fonction de densit) de lestimateur.

2.4

Simulation de variable alatoires

Avant tout, soit X une variable alatoire dont la fonction de rpartition est FX (X). Les deux mthodes principales pour simuler une variable alatoire - cest dire trouver des valeurs x1 , x2 , ..., xn , ralisations de X et rparties de manires alatoires - sont les suivantes :

Mthode dInversion ou de Transpose Inverse Si FX (X) est continue et strictement croissante sur R alors la v.a. U = FX (X) est distribue uniformment sur [0,1]. On sait produire des nombres u1 , .., un de manire pseudo-alatoires ayant une distribution uniforme sur [0,1]. Du moment que FX (X) est inversible, on se rend compte quune simu1 1 1 lation de X nest autre que FX (u1 ), FX (u2 ), .. , FX (un ) = x1 , x2 , ..., xn . 1 Le Problme tant que FX est en gnral impossible trouver et quil faut se servir dapproximation numrique en substitut.

Mthode de Rejet 1 Si tout en connaissant fX on narrive pas trouver FX , la Mthode de Rejet est un autre moyen de simuler la variable alatoire. Lide est la mme que lors de la mesure de lair du lac dans un pr (voir section 2.3), le plus dur est de trouver un pr qui contient le lac mais qui nest pas trop grand, pour ne pas simuler des valeurs inutilement. Toujours pour comprendre lide : On prend de manire alatoire des points (xi , yi ) du plan. Les seules valeurs qui nous intressent sont les valeurs xi telles que 0 yi fX (xi ), cest dire appartenant a lair entre la courbe fX et laxe des abscisses. On imagine bien que, plus la loi dchantillonage est grande en un xi donn, plus on a de chance que des points gnrs de manire alatoire dans le plan, ayant pour abscisse xi , soient gards. En gardant les valeurs xi respectant cette condition, on a alors une simulation de la variable alatoire X. Cependant on a aaire au problme suivant : plus la surface (imagine un rectangle englobant la surface sous la courbe fX ) est grande, plus de valeurs - inutiles - sont rejetes, plus il faut de simulations, plus on perd de temps ! Il faut donc chercher minimiser au maximum cette surface et on va le faire en prenant une surface gnre par lair sous la courbe dune autre loi dchantillonage, dont la forme approche celle de la courbe fX , mais plus simple cette fois ci, et surtout qui majore toujours fX .

Maintenant que le but est compris, le ct thorique, On majore la loi dchantillonage fX par une autre fonction h(x) = amin .g(x), amin ]1, [ de sorte que : - g(x) est une fonction de densit assez simple pour que la fonction de rpartition G(X) lie soit inversible en G1 (Y ), et dont la courbe se rapproche le plus la courbe de f (rappel : par dnition, g(x)dx = 1). - Le facteur amin sert sassurer que h(x) est toujours suprieure fX (x) (fX = g tant toutes les deux des lois dchantillonage, il est impossible davoir x, fX (x) g(x)). Jai choisi la notation amin pour mettre en avant le fait quune innit de valeurs de a sont utilisables mais quiil faut prendre le a le plus petit possible. - x X, on a fX (x) h(x).
Figure 2 - Illustration de la Mthode de Rejet

Il reste simuler de manire alatoire des (xi , yi ) appartenant la surface sous la courbe h(x). Il sut dutiliser deux variables alatoires uniformes sur [0,1], U1 (qui reprsente lalatoire sur labcisse) et U2 (qui reprsente lalatoire sur lordonne) avec lesquelles on gnre alatoirement des u1i et des u2i . Voil leur utilit : - xi nest autre que G1 (u1i ), donc une variable alatoire selon g(x) daprs la Mthode dInversion. - yi devant appartenir [0, h(xi )] on a yi = u2i .h(xi ) h(xi ) - Donc on gnre alatoirement un xi qui est labscisse, puis on "monte" (plus u2i est proche de 1 plus on "monte") jusquau yi , tout en restant sous la courbe h(x). On garde xi si yi [0, f (xi )], cest dire les points dans la zone verte, sinon on le rejette. fX 1 Nombre de valeurs gardes Ecacit de la Mthode : Nombre de valeurs simules = = g amin

2.5 2.6

Mthodes de Monte-Carlo Mthode de Rduction de Variance

La rduction de la variance est lensemble des techniques, plus ou moins simples, permettant de rduire la variance des estimateurs obtenus par la mthode de Monte-Carlo. Les plus utilises sont les suivantes : Echantillonage Prfrentiel Lide est que pour obtenir une mthode de Monte-Carlo ecace, il faut essayer de prendre une loi dchantillonnage dont la densit soit la plus proportionnelle possible | f |.

Mthodes de la Variable de Contrle L encore, on introduit une variable, mais dont cette fois, on cherche ( complter) Mthode de la Variable Antithtique Cette mthode repose sur certaines symtries dune distribution et de la corrlation ngative entre deux variables alatoires. Ainsi, on introduit une seconde variable alatoire corrle ngativement ac celle utilis (qui tend donc tre inversement proportionnelle ac celle-ci). Comme on sait que V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 Cov(X, Y ). ( complter)

3 4 5

Approximation de Monte-Carlo pour des exemples simples Exemple concret dEchantillonage Prfrentiel Conclusions

Rfrences
[1] E. Hairer, G. Wanner. Lanalyse au l de lhistoire. Springer-Verlag, Berlin, 2001. online convert http ://www.commentcamarche.net/contents/latex/latex-images.php3 http ://www.siteduzero.com/tutoriel-3-133680-a-la-decouverte-de-l-aleatoireet-des-probabilites.html