Simu

Simulation et modlisation
Cours de deuxime anne de master
Bernard Delyon 19 juillet 2012
1. IRMAR, Universit Rennes I, Campus de Beaulieu, 35042 Rennes cdex.
Table des matires

I Les gnrateurs de suites i.i.d. I.1 Problmatique . . . . . . . . . . . . . . . . . . . . . I.2 Gnrateurs pour la loi U([0, 1]) . . . . . . . . . . . . I.2.1 Rcurrences linaires simple . . . . . . . . . . I.2.2 Rcurrences linaires multiples . . . . . . . . I.2.3 Dcalage de registre . . . . . . . . . . . . . . I.2.4 Amliorations modernes . . . . . . . . . . . . I.3 Lois non uniformes : mthodes gnrales . . . . . . . I.3.1 Loi discrte . . . . . . . . . . . . . . . . . . . I.3.2 Inversion . . . . . . . . . . . . . . . . . . . . I.3.3 Composition . . . . . . . . . . . . . . . . . . I.3.4 Rejet . . . . . . . . . . . . . . . . . . . . . . I.4 Quelques lois usuelles . . . . . . . . . . . . . . . . . I.4.1 Loi exponentielle . . . . . . . . . . . . . . . . I.4.2 Loi normale . . . . . . . . . . . . . . . . . . . I.4.3 Vecteur gaussien . . . . . . . . . . . . . . . . I.4.4 Vecteur sur la sphre . . . . . . . . . . . . . . I.4.5 Loi du 2 p . . . . . . . . . . . . . . . . . . . . I.4.6 Autres . . . . . . . . . . . . . . . . . . . . . . I.5 preuves empiriques sur les suites pseudo-alatoires I.5.1 preuves de distribution instantanne . . . . I.5.2 preuves dindpendance . . . . . . . . . . . I.6 Exercices et complments . . . . . . . . . . . . . . . I.6.1 Gnrateurs . . . . . . . . . . . . . . . . . . . I.6.2 Epreuves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 5 6 7 7 8 8 8 9 9 10 10 10 10 10 10 11 11 11 12 13 13 15 17 17 17 18 18 19 20 20 20 21 21 21 22 23 2
II Monte Carlo : Exemples de base II.1 Estimation du volume . . . . . . . . . . . . . . . . . . . . . . . II.2 Intgration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II.3 Dcompte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II.3.1 Premier cas . . . . . . . . . . . . . . . . . . . . . . . . . II.3.2 Deuxime cas . . . . . . . . . . . . . . . . . . . . . . . . II.4 Exemples applicatifs simples . . . . . . . . . . . . . . . . . . . II.4.1 Temps dchappement dune comte du systme solaire II.4.2 Perte de connexion dans un graphe . . . . . . . . . . . . II.4.3 Files dattente . . . . . . . . . . . . . . . . . . . . . . . II.4.4 Options amricaines . . . . . . . . . . . . . . . . . . . . II.4.5 Calcul du niveau dun test . . . . . . . . . . . . . . . . II.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III Rduction de variance
III.1 chantillonage prfrentiel (importance sampling) III.2 Variables de contrle . . . . . . . . . . . . . . . . . III.3 chantillonage corrl . . . . . . . . . . . . . . . . III.4 Variables antithtiques . . . . . . . . . . . . . . . . III.5 chantillonage strati . . . . . . . . . . . . . . . . III.6 Conditionnement . . . . . . . . . . . . . . . . . . . III.7 Quasi-Monte Carlo : les suites discrpance faible III.8 Exercices . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23 25 26 26 27 28 29 31 33 33 35 36 36 37 37 38 38 38 39 40 41 43 43 44 45 45 47 47 48 50 50 51 54 54 55 57 57 57 60 61 63 63 64 67 67 69
IV Les chantillonneurs de Metropolis et de Gibbs IV.1 Rappels sur les chanes de Markov nombre ni dtats . . . . . . . . IV.2 Lchantillonneur de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . IV.3 Algorithme de Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . IV.3.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.3.2 Simulation de graphes. . . . . . . . . . . . . . . . . . . . . . . . IV.3.3 Marche alatoire sans recoupement (self-avoiding random walk) IV.3.4 Mthode de rejet . . . . . . . . . . . . . . . . . . . . . . . . . . IV.4 Applications lestimation. Mthodes MCMC . . . . . . . . . . . . . . IV.4.1 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . IV.4.2 Echantillonnage postrieur. Modle baysien hirarchique . . . IV.4.3 Donnes manquantes 1 : Modle baysien . . . . . . . . . . . . IV.4.4 Donnes manquantes 2 : Lalgorithme EM . . . . . . . . . . . . IV.5 Processus ponctuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.5.1 chantillonnage postrieur des processus ponctuels . . . . . . . IV.5.2 Simulation des cluster Poisson process . . . . . . . . . . . . IV.6 Champs de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.6.1 Dnition des champs de Gibbs . . . . . . . . . . . . . . . . . . IV.6.2 chantillonnage de Gibbs . . . . . . . . . . . . . . . . . . . . . IV.6.3 Algorithme de Metropolis . . . . . . . . . . . . . . . . . . . . . IV.6.4 Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . IV.7 Exercices, exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.7.1 Chanes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . IV.7.2 chantillonneur de Gibbs, algorithme de Metropolis . . . . . . IV.7.3 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.7.4 Processus ponctuels . . . . . . . . . . . . . . . . . . . . . . . . IV.7.5 Champs de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . V Modles markoviens V.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . V.2 Simulation des processus de saut . . . . . . . . . . V.3 Simulation de processus vnements discrets . . . V.4 Modles spatiaux dynamiques . . . . . . . . . . . . V.5 Modles semi-markoviens, modles dtat . . . . . V.5.1 Modles linaires . . . . . . . . . . . . . . . V.5.2 Modles non-linaires. Filtrage particulaire V.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . V.6.1 Processus vnements discrets . . . . . . V.6.2 Modles autorgressifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VI Simulation de processus : convergence 71 VI.1 Algorithme des rptitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 VI.2 Rgnration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3
VI.2.1 Renouvellement . . . . . . . . . . . . . . VI.2.2 Thorie gnrale . . . . . . . . . . . . . . VI.2.3 Mthode atomique . . . . . . . . . . . . . VI.2.4 Modication de la transition . . . . . . . VI.3 chantillonnage parfait : couplage sur le pass . VI.3.1 Cas gnral . . . . . . . . . . . . . . . . . VI.3.2 Cas monotone . . . . . . . . . . . . . . . VI.3.3 Mthode dencadrement et de domination VI.4 Rduction de variance . . . . . . . . . . . . . . . VI.5 Exercices et complments . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72 73 74 75 75 76 77 77 79 79 81 81 81 82 83 84 85 85 86 86 87 88 91 91 91 93 95 95 96 97 97 97 98 99 101 101 101 102 102 102 103 105
VII Optimisation par Monte-Carlo VII.1 Approximation stochastique . . . . . . . . . . . . . . . . . . . . . VII.1.1 Deux exemples simples . . . . . . . . . . . . . . . . . . . VII.1.2 Forme gnrale et acclration . . . . . . . . . . . . . . . VII.1.3 La rgression linaire . . . . . . . . . . . . . . . . . . . . . VII.1.4 Exemple : Donnes manquantes . . . . . . . . . . . . . . VII.1.5 Exemple : Algorithme de Kiefer-Wolfowitz . . . . . . . . VII.1.6 Exemple : Optimisation dune chane de Markov contrle VII.1.7 Cadre gnral dynamique markovienne . . . . . . . . . VII.1.8 Algorithmes de poursuite . . . . . . . . . . . . . . . . . . VII.2 Recuit simul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIII Simulation dquations direntielles VIII.1 Introduction . . . . . . . . . . . . . VIII.2 Schmas dintgration . . . . . . . . VIII.3 Exercices de simulation. Exemples . VIII.4 Techniques spciques de simulation VIII.4.1 chantillonnage prfrentiel . VIII.4.2 Importance splitting . . . . . stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
IX Bootstrap IX.1 Introduction . . . . . . . . . . . . . . . . . . . . . . IX.2 Estimation par rptitions (bootstrap paramtrique) IX.3 Principes de base du bootstrap . . . . . . . . . . . . IX.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . IX.5 chec du bootstrap dans un cas non-rgulier . . . . IX.6 Variantes et dtails pratiques . . . . . . . . . . . . . IX.6.1 Bootstrap rgularis. . . . . . . . . . . . . . . IX.6.2 Bootstrap semi-paramtrique. . . . . . . . . . IX.6.3 Normalisation pivotale. . . . . . . . . . . . . IX.6.4 Bootstrap par sous-chantillonnage . . . . . . IX.7 Exercices et complments . . . . . . . . . . . . . . . A Filtre de Kalman
I Les gnrateurs de suites i.i.d.
I.1
Problmatique
Soit une distribution sur R ou Rd , il sagit dans ce chapitre de simuler une suite de variables i.i.d. Yn possdant cette loi. Il y a donc deux contraintes satisfaire : Les Yn doivent avoir la bonne distribution Les Yn doivent tre indpendantes. Nous ne donnons ici quun aperu culturel rapide des mthodes utilises. Une bonne rfrence est le livre de Knuth [21]. Larticle [22] contient des informations trs intressantes galement, avec des rfrences plus actuelles. La question thorique de savoir comment une suite gnre par un algorithme peut tre considre comme alatoire relve de toute une thorie (de la complexit) qui ne sera pas aborde ici, voir [27] et les rfrences contenues dans cet article. Le chapitre 14 de [7] ralise une trs bonne introduction la thorie de la complexit.
I.2
Gnrateurs pour la loi U([0, 1])
Les nombres machine compris entre 0 et 1 tant tous de la forme x = n2p n {0, ...2p } il ny a pas plus de 2p nombres dirents sur [0, 1[, et comme ces nombres sont galements espacs, le problme se rduit tirer des entiers uniformment sur {0, 1, ...2p 1}. Typiquement p = 32. On verra que les algorithmes de gnration de suites (Un )n0 uniformes auront toujours plus ou moins la forme Xn = f (Xn1 ), Xn {0, 1, ...m}, Un = Xn /m. Il y a donc deux consquences importantes Les Un ne seront pas indpendantes : la suite est pseudo-alatoire. La suite Un sera priodique de priode au plus m, et parfois moins.
I.2.1
Rcurrences linaires simple

(I.1)
Il sagit de gnrateurs de la forme 1 : Xi = aXi1 + c (mod m). avec Ui = Xi /m. La priode dun tel gnrateur est bien entendu infrieure m. Si c = 0 sa priode est mme infrieure ou gale m 1 car 0 est point xe. On ne considrera que deux cas, qui sont les plus importants dans la pratique. Thorme 1 Si c = 0, m = 2 et 4, le gnrateur (I.1) a une priode (maximale) gale m/4 si et seulement si x0 est impair et a 3 ou 5 (mod 8).
1. Dans toute le suite on note x = y (mod m) pour dnir x partir de y par les conditions x y (mod m) et 0 x < m.
Thorme 2 Si c = 0 et m premier le gnrateur (I.1) a une priode (maximale) gale m 1 ssi x0 = 0 et a est une racine primitive de m : a = 0 et pour tout p diviseur premier de m 1 : a(m1)/p 1 (mod m). Notons que m = 231 1 est premier. Voici quelques exemples 2 : Lehmer (1948) RANDU (IBM 1968) Marsaglia (1972) SURAND (1968) INMOS [21] LEcuyer (1993) CDC a = 23, m = 108 + 1 a = 65539, m = 231 a = 69069, m = 232 a = 16807, m = 231 1 a = 1664525, m = 232 a = 41358, m = 231 1 a = 515 , m = 247 assez moyen mauvais raisonnable raisonnable le meilleur a connu pour ce m bon longue priode
Table I.1 Quelques valeurs utilises pour m et a, (c = 0).
Critre spectral. La priode nest pas tout. Par exemple le gnrateur avec a = c = 1 a une priode maximale mais fournit une suite Un loin dtre indpendante. Une faon de le voir est dobserver que la distribution de (Un , Un+1 ) nest pas du tout uniforme sur le carr, puisque Un+1 Un m1 (mod 1). De mme, dans le cas du gnrateur RANDU des vieux IBM, associ a = 65539, m = 231 , on observe que Un+2 6Un+1 + 9Un 0 (mod 1) ; ceci vient de ce que 65539 = 216 + 3. Les chercheurs ont observ que les gnrateurs linaires tendent placer les vecteurs Vi = (Ui+1 , . . . Ui+d ) sur la runion des hyperplans parallles de la forme Hn = {v Rd : , v = n} pour un certain vecteur = (1 , ...d ), ce qui signie que , Vi 0 (mod 1) pour tout i. Par exemple, si d = 2, on voit tout les points (Un , Un+1 ) sur des droites parallles qui-espaces. Il y a mme de nombreux vecteurs ayant cette proprit. Plus les Hn sont espacs, plus le gnrateur est de mauvaise qualit, car il y a de grande zones de lespace non visites. La distance entre deux hyperplans successifs tant la distance de 0 H1 qui vaut 1 , on considrera le critre spectral
d
hd = max{
=0
:
j =1
j Ui+j 0 (mod 1), i = 1, 2...}.
On calcule alors d =
d d/2 h d P (d/2 + 1)
o P est la priode.On considre que pour les bons gnrateur, d est voisin ou suprieur 1 et que si d est infrieur 0,1 le gnrateur est assez mauvais 3 .
I.2.2
Rcurrences linaires multiples

k
Elles sont dnies par la relation : Xi =

j =1
aj Xij (mod m).
2. F. James, A review of pseudorandom number generators, Comput. Phys. Comm. 60 (1990), no. 3, 329344. Voir aussi : K. Entacher, A collection of selected pseudorandom number generators with linear structures, random.mat.sbg.ac.at/charly/server. 3. M. Lscher, A portable high-quality random number generator for lattice eld theory simulations, Comput. Phys. Comm. 79 (1994), no. 1, 100110.
avec bien entendu Ui = Xi /m. La priode dun tel gnrateur est mk 1 si m est premier et a1 , . . . ak bien choisis. Noter que la priode est bien plus grande que le nombre de valeurs prises. Un exemple est le gnrateur de Marsaglia et Zaman : Xn = Xnr Xns (mod b). Les valeurs proposes par Lscher2 sont b = 224 , r = 24, s = 10.
I.2.3
Dcalage de registre
b1 b2 bl + + ... + l = 0, b1 , ...bl . 2 4 2
On opre directement sur la reprsentation binaire des rels de [0, 1] : u=0+
On ralise une suite de bi {0, 1} par la rcurrence bi = a1 bi1 + ... + aq biq (mod 2), puis ui = 0, bil+1 , bil+2 , ...bil+l , , soit : b1 . . . . bl bl+1 . . . . b2l b2l+1 . . . . b3l ... u0 u1 u2 Il y a 2q suites (bi1 , ...biq ) direntes possibles, et comme zro est point xe, la priode des bi est au plus de 2q 1 ; on choisira toujours un gnrateur ayant cette priode. Pour que la priode de la suite ui soit galement 2q 1, il faudra utiliser eectivement toutes les suites (bi+1 , ...bi+l ) apparaissant (et non pas une sur l), et pour cela on prendra un l tel que pgcd(l, 2q 1) = 1. Exemples. On a beaucoup tudi les gnrateurs avec des rcurrences deux termes bi = bip + biq (mod 2) (p < q ) pour lesquels la priode est de 2q 1. Par exemple les paires q = 31, p = 3, 6, 7, 13, 18, 24, 25, 28 q = 607, p = 273. Un choix recommand est q = 31, p = 13, l = 32. Critre dquirpartition. En plus de la priode, on peut vrier thoriquement la bonne rpartition des vecteurs : On calcule pour chaque cellule dyadique de [0, 1]d de ct 2 , avec l et d < q le nombre de vecteurs de la forme (Ui+1 , . . . Ui+d ) qui sont tombs dedans, sur une priode entire du gnrateur (on ajoute le vecteur (0, ...0), ce qui fait en tout exactement 2q vecteurs). Si [q/d] et chacune des 2d cellule a exactement 2qd vecteurs, alors on dit quil y a quirpartition maximale pour et d. Si > [q/d] et chaque cellule ne contient pas plus dun point, on dit quil y a absence de collision. Il se trouve que de nombreux gnrateurs dcalage de registre fournissent des suites ayant ces deux proprits pour diverses valeurs de (d, ) [22]. (I.2) ai { 0 , 1 }
I.2.4
Amliorations modernes
Il existe deux faons damliorer un gnrateur. La manire courante est de coupler des gnrateurs dirents. Par exemple le gnrateur suivant a de bonnes proprits : Xn+1 Yn+1 Zn+1 = 40014Xn (mod 231 85) = 40692Yn (mod 231 249) = Xn Yn (mod 231 86). 7
Il sagit du premier gnrateur parmi les 32 proposs par Lcuyer 4 . Lintrt est principalement de rallonger la priode sans trop compliquer les algorithmes, car, sous certaines hypothses, les priodes se multiplient (on a donc ici une priode dordre 1018 ). On voit se dessiner une forme plus gnrale qui est une forme dtat : Xn+1 = AXn (mod m) Un = C T Xn (mod 1) o Xn , m et C sont des vecteurs et A est une matrice. On arrive ainsi raliser 5 des gnrateurs de priode 219937 1 o X est de longueur 623 32 + 1 = 19937 bits, m = 2 et Un est form laide des 32 derniers bits de Xn . Gnrateurs non-linaires. Un exemple rcent dun tel gnrateur est 6
3 Xn+1 = aXn + 1 (mod m) Xn +1 = a Xn + 1 (mod m ) Un = (Xn /m + Xn /m ) (mod 1) 3
La priode vaut au mieux mm . Par exemple : m = 65519, m = 65447, a = 512, a = 27076.
I.3
I.3.1
Lois non uniformes : mthodes gnrales

Loi discrte
Soit une variable gnrer qui prend les valeurs 1, 2, ..r avec probabilit p1 , ...pr : P (X = i) = pi . On commence par gnrer une suite uniforme indpendante Un puis on pose Si les Un sont i.i.d U([0, 1]), les Xn sont clairement indpendantes avec la loi voulue. En pratique on testera successivement p1 > Un puis, p1 + p2 > Un , etc... Pour que la simulation soit la plus rapide possible, il faudra donc prsenter les pi par ordre dcroissant. Xn = i si p1 + + pi1 < Un p1 + + pi .
I.3.2
Inversion
Si la loi gnrer possde une fonction de rpartition F (x) = P (X x) continue strictement croissante et si Q est la fonction inverse de F (fonction quantile) alors la variable Q(U ), avec U U([0, 1]), suit la loi F : Pour un F gnral, cette mthode fonctionne encore en dnissant Q par (exercice I.6.1.15) ou par sa version continue droite (Q+ (u) = Q(u ), obtenue galement en remplaant par > dans (I.3)). Cette mthode ne stend pas simplement aux variables vectorielles. Pour simuler un vecteur Xn = (Xn1 , ...Xnd ) de variables non-indpendantes avec la mthode dinversion, il faut se ramener des variables relles, par exemple : simuler dabord Xn1 selon sa loi marginale, puis Xn2 selon sa loi conditionnelle Xn1 , puis Xn3 selon sa loi conditionnelle Xn1 et Xn2 , etc...
4. P. LEcuyer, Ecient and Portable Combined Random Number Generators, Communications of the ACM, 31 (1988), 742749, 774. Ces gnrateurs sont disponibles ladresse hpux.u-aizu.ac.jp sous le nom de ranlib . Ils forment le gnrateur grand de Scilab. 5. M. Matsumoto, T. Nishimura, Mersenne Twister : A 623-dimensionally equidistributed uniform pseudorandom number generator, ACM Transactions on Modeling and Computer Simulation, 8(1), 1998. 6. P. LEcuyer, P. Hellekalek, Random Number Generators : Selection Criteria and Testing, in Random and Quasi-Random Point Sets, Lectures Notes In Statistics, no. 138, Springer, 1998, 223266.
P (Q(U ) x) = P (U F (x)) = F (x). Q(u) = min{y : F (y ) u}
(I.3)
+
I.3.3
r i=1
Composition
Cest le cas o lon a un mlange de lois, cest--dire que la distribution est de la forme PX (dx) = r pi Pi (dx), ce qui revient dire que la densit satisfait (si elle existe) f (x) = i=1 pi fi (x). Par exemple X est la taille dun individu pris au hasard dans r pays dirents, Pi est la distribution de la taille dans le i-ime pays et pi est la population relative de ce pays. Algorithme 2. Gnrer ensuite X selon PJ . En eet : P (X A) =
i
1. Gnrer une v.a. J valeurs dans {1, 2, . . . r} avec probabilits p1 , . . . pr
P (X A|J = i)P (J = i) =
Pi (A)pi = PX (A).
I.3.4
Rejet
On va montrer quune approximation, mme grossire, de la loi simuler par une loi facilement simulable peut sure gnrer facilement des chantillons. Soit simuler la variable X de loi de densit f (x) par rapport une certaine mesure (dx) (typiquement (dx) = dx), telle que pour un C > 0 f (x) C 1 f0 (x) et o P0 (dx) = f0 (x)(dx) est une loi facilement simulable. Par exemple si f (x) = c0 e|x| choisir f0 (x) = e|x| /2. Algorithme On pose g (x) = Cf (x)/f0 (x) 1. Tirer U U([0, 1]) et Y P0 indpendantes
|x|+1
, on peut
2. Si U g (Y ) alors on a un nouvel chantillon X = Y sinon recommencer. Thorme 3 Lalgorithme simule bien la loi de X . La probabilit de rejet vaut 1 C . Dmonstration: Si lon fait n tirages et que lon gnre kn chantillons indpendants de mme loi X1 , ...Xkn (kn est une variable alatoire), on a pour toute fonction borlienne borne 1 kn
kn
(Xj ) =
j =1
1 n
n i=1 (Yi )1Ui g(Yi ) . n 1 i=1 1Ui g(Yi ) n
Comme la probabilit de non rejet vaut P (U g (Y )) = E [g (Y )] = C > 0, kn et la limite du membre de gauche est bien lesprance de (X ) pour la loi simule. Par application de la loi des grands nombres le numrateur du membre de droite converge vers (y )10ug(y) du f0 (y )(dy ) = (y )g (y )f0 (y )(dy ) = C (y )f (y )(dy ). (y )f (y )(dy ).
Le dnominateur correspondant = 1, la limite du rapport est bien
Dans le cas o P est P0 conditionn par lappartenance un ensemble B , f = f0 1B /P0 (B ), C = P0 (B ), g est la fonction indicatrice de B , et lalgorithme se simplie en une forme dont la signication intuitive est claire : Tirer des chantillons selon P0 et ne garder que ceux qui appartiennent B . Dans le cas o P0 est uniforme sur une partie B de Rd et P est la mesure de densit f par rapport la mesure de Lebesgue sur B , alors f0 = 1/(B ) et lon a la mthode du rejet traditionnelle avec g = f / sup f : 1. Tirer Y U(B ) et U U([0, 1]) 2. Si U g (Y ) alors on a un nouvel chantillon X = Y sinon recommencer. 9
Aspects pratiques. On cherchera f0 proche de f de sorte que C puisse tre choisi le plus grand possible. + Si f est dicile calculer mais peut tre approxime par deux suites fn f fn respectivement croissantes et dcroissante convergeant vers f , le test U g (Y ) peut se faire en cherchant un n assez grand + pour que fn (Y ) et fn (Y ) soient du mme ct de U f0 (Y )/C , ce qui permet de raliser un algorithme en temps ni [9].
I.4
I.4.1
Quelques lois usuelles

Loi exponentielle
U U([0, 1]).
Lapplication de la mthode dinversion donne immdiatement X = log(U ),
I.4.2
Loi normale
Une mthode classique consiste gnrer les variables par paires. 2. On obtient deux v.a. normales indpendantes en posant X1 = 2V cos(2U ), X2 = 2V sin(2U ). En eet pour toute fonction continue borne f E [f (X1 , X2 )] =
0 + 0 + 0 0 2 1
1. Gnrer U U([0, 1]) et V exponentielle de paramtre 1
f ( 2v cos(2u), 2v sin(2u))ev dvdu f ( cos , sin )e

2 2
= =
/2
d 2
f (x, y )e(x
+y 2 )/2 dxdy
2 2 En particulier on voit que pour (X1 , X2 ) N(0, I ), la loi de X1 + X2 est exponentielle de paramtre 1/2. Il 7 existe un algorithme analogue pour simuler les loi stables .
I.4.3
Vecteur gaussien
Soit simuler la loi N(, R). Alors simuler X0 = N(0, I ) laide de lalgorithme prcdent et poser X = + M X0 , o M est une racine carre de R : M M T = R. Clairement X est un vecteur gaussien de moyenne et variance correctes.
I.4.4
Vecteur sur la sphre
Linvariance de la loi gaussienne par rotation implique que si X N(0, I ), alors X/ X est uniformment rparti sur la sphre.
I.4.5
Loi du 2 p
2 2 Cest la loi de X1 + . . . Xp o (X1 , . . . Xp ) N(0, I ). Si p est pair cest donc la loi de la somme de p/2 variables exponentielles de paramtre 1/2, sinon, ajouter le carr dune normale au 2 p1 .
7. J.M. Chambers , C.L. Mallows et B.W. Stuck, A method for simulating stable random variables, Journal of the American Statistical Association, vol. 71, No 354, 340-344, 1976.
10
I.4.6
Autres
Il existe quantit de mthodes astucieuses pour simuler les direntes lois. Voir par exemple [9]. Voir aussi les exercices I.6.1.14 et I.6.1.17.
I.5
preuves empiriques sur les suites pseudo-alatoires
Les preuves servent vrier la qualit des suites pseudo-alatoires. Elle sont faites pour tre passes avec succs pour les suites i.i.d de loi F dsire. Ces preuves sajoutent dventuels critres, plus spciques au type de gnrateur, comme les deux vus au I.2.1 ou au I.2.3. Il y a deux types extrmes dpreuves : le premier se centre sur la vrication du fait que la distribution est bien celle attendue et lautre sur la vrication de lindpendance des variables. Cest le deuxime point qui est de loin le plus dlicat, aussi bien du point de vue de la ralisation des suites que de celui la vrication par des preuves. Noter toutefois quune preuve conue pour vrier que la loi de trois variables simules conscutives est bien la loi de trois rpliques indpendantes de la loi F participe de ces deux types.
I.5.1
preuves de distribution instantanne
Lide est de supposer que la suite simule est bien une suite i.i.d et dutiliser des tests statistiques classiques pour sassurer que la loi est bien la bonne. Test de Kolmogorov Soit la fonction de rpartition empirique Fn (x) = 1 n
n 1
1Xi x
et la statistique dn = n sup |Fn (x) F (x)|

x
alors on a le thorme de Kolmogorov et Smirnov Thorme 4 Si les Xi sont i.i.d de loi donne par F suppose continue, alors la loi de dn est indpendante de F avec asymptotiquement : lim P (dn x) =
k=+ k=
(1)k e2k
x2
= H (x)
Il sensuit que H (x) est la probabilit de conance du test dcidant la loi signicativement non-conforme si dn > x. En pratique on compare le niveau = 1 H (dn ) un seuil donn lavance toujours pris infrieur 5%. On montre en exercice I.6.2.19 que si F nest pas continue, le test bas sur dn aura un niveau suprieur ; on peut donc trs bien lutiliser dans ce contexte. Notons que le fait que la statistique est indpendante de F est li aux rsultats du chapitre prcdent ; en eet, posons Ui = F (Xi ), alors les Ui sont U([0, 1]) et
n
Fn (x)
n1
1
1Ui F (x) 11
et donc dn = n sup |n1

x n 1
1Ui F (x) F (x)| =
n sup |n1
u
1Ui u u|
dont la loi est xe. La statistique de Kuiper est parfois prfre : d n = n sup(Fn (x) F (x)) inf (Fn (x) F (x)) .
x x
Test du 2 Ce test est utile si lon cherche simuler des variables alatoires pour lesquelles le test de Kolmogorov est inadapt ( valeurs non-relles, discrtes,...). On dcoupe lespace de valeurs de X en parties direntes, S1 , . . . S , de probabilit p1 , . . . p . On considre alors les probabilits empiriques de tomber sur ces ensembles
n
p k = n1
i=1
1Xi Sk
et lon considre la statistique de test
Tn = n
k=1
( pk pk )2 . pk
Thorme 5 Si les Xi sont i.i.d de loi donne par F alors Tn 2 1 en loi. Donc le test qui dcide que la loi est signicativement non-conforme si Tn > x, est de niveau asymptotique 1 F 1 (x) (probabilit de conance de F 1 (x)) o F est la fonction de rpartition du 2 . Les ensembles seront typiquement choisis de probabilit gale.
I.5.2
preuves dindpendance
On supposera ici souvent pour simplier que la distribution gnrer est U([0, 1]) et la suite sera note Un au lieu de Xn . Ces preuves se gnralisent aux autres distributions sans dicult. On va voir quune bonne partie des preuves dindpendance consistera vrier que la suite (Uj +1 , . . . Uj +d )j a bien une distribution uniforme sur lhypercube [0, 1]d . Notations. On posera pour tous entiers d et K xs Vj = (Ujd+1 , . . . Ujd+d ), Test des corrlations Cette preuve a la particularit de ne pas ncessiter la connaissance de FX . On calcule simplement les corrlations empiriques de la suite Xi produite. Ce test peut sappuyer sur le thorme suivant Thorme 6 Si la suite Xi est i.i.d de variance nie, alors pour tout k > 0, la corrlation empirique r n entre deux chantillons distance k , base sur n chantillons, satisfait nr n N(0, 1). Il sensuit que le test qui dcide la dpendance si n |r n | > x a un niveau gal 2(1 Fg (x)) o Fg est la fonction de rpartition de la gaussienne (probabilit de conance 2Fg (x) 1). 12 Yi = [KUi ], Zi = (Yid+1 , . . . Yid+d ). (I.4)
Test des sries Les Zi , i = 1, . . . n ne peuvent prendre chacune que q = K d valeurs possibles distinctes. Mthode 2 : Ici n q (p.ex d = 5, K = 2) et lon fait un test du 2 . Mthode des collisions : q est grand (par exemple de lordre de la priode) et lon compte C = n nv o nv est le nombre de valeurs prises parmi les q valeurs possibles ; C est donc le nombre de rptitions (collisions). On a sous hypothse duniformit [21] q! P (C = c) = n Cc q (q n + c)! n qui permet de construire un intervalle de conance [a, b] pour C (numriquement parlant, il faut un algorithme spcial) ; une grande valeur de C correspond la prsence de concentrations de points dans certaines rgions, et une trop petite valeur est associe un gnrateur trop rgulier . On vrie que si a > 0 il faut, pour avoir un niveau raisonnable, n q car P (C = 0) exp(n2 /q ). Test des points proches Soient V1 , . . . Vn des variables U([0, 1]d ) et D la distance minimale entre deux de ces points (on prend la distance sur le tore, cest--dire que les dirences sont calcules modulo 1, comprises entre 1/2 et 1/2). Soit v = d/2 /(d/2 + 1) le volume de la sphre unit en dimension d, alors la variable W = exp(n2 vDd /2) suit approximativement une loi U([0, 1]). On peut donc simuler de telles suites de n vecteurs et tester si la loi de W est bien uniforme [22]. Une autre faon de tester les points proches est de faire un test des sries avec q n2 / log(2) de sorte que P (C = 0) 1/2. Birthday spacings Prendre la suite Y1 , . . . Yn , et considrer la suite rordonne Y(i) , puis les carts Si = Y(i) Y(i1) , i = 1, . . . n (Y(0) = 0). On calcule alors le nombre C de collisions de la suite (Si ), c--d n moins le nombre de valeurs prises. Sous lhypothse duniformit, C possde une certaine loi que lon peut calculer [21]. Il ne reste alors qu rpter lexprience et faire un test dadquation de distribution. Typiquement K sera la priode mais ce nest pas oblig. Test des lacunes (gap test) Soit I = [a, b] [0, 1] un intervalle, typiquement I = [0, 1/2]. On dit que la suite Ui admet une lacune de longueur l aprs j si : Uj I, Uj +1 , ...Uj +l / I, Uj +l+1 I Les longueurs sucessives Lk de ces lacunes sont des variables i.i.d dont la loi est pl = p(1 p)l o p = b a. Il ne reste plus qu faire un test dadquation de distribution par exemple un test de Kolmogorov (exercice I.6.2.19), ou un 2 sur la variable Lk = min(Lk , ).
I.6
I.6.1
Exercices et complments
Gnrateurs
Exercice I.6.1.1 Montrer quun gnrateur de le forme Xn = f (Xn1 , Xn2 ), o f est valeurs dans {0, 1, . . . m 1} est priodique avec une priode au plus de m2 . Que peut-on dire si f (0, 0) = 0 ? si f (x, 0) = f (0, x) pour tout x ? 13
Exercice I.6.1.2 On considre lalgorithme du I.3.1. Quel est le nombre moyen de tests faits pour gnrer une variable alatoire ? Exercice I.6.1.3 Soient U et V i.i.d U([0, 1]) ; quelle est la loi (simple) de la variable alatoire vectorielle ( U cos(2V ), U sin(2V )) ? Exercice I.6.1.4 On considre la densit f (x, y ) = xexy 1y>0 10<x<1 et une paire de v.a. (X, Y ) suivant cette loi. 1. Quelle est la loi de Y sachant X = x ? 2. Quelle est la loi de X ? 3. Proposer un procd de simulation de (X, Y ). Exercice I.6.1.5 On considre la densit f (x, y ) = yxy1 ey 1y>0 10<x<1 et une paire de v.a. (X, Y ) suivant cette loi. 1. Quelle est la loi de Y ? 2. Que vaut P (X x|Y = y ) ? 3. Proposer un procd de simulation de (X, Y ).
1 8
Exercice I.6.1.6 Soit la densit f (x, y ) = suivant cette loi. 1. Quelle est la loi de Y sachant X = x ? 2. Quelle est la loi de X ?
e y
x/2 x
1x>0 et la paire (X, Y ) de variables alatoires
3. Proposer un procd de simulation de (X, Y ). Exercice I.6.1.7 Soit deux v.a. indpendantes X et Y de fonction de rpartition FX et FY . Quelle est la fonction de rpartition de max(X, Y ) ? En dduire une faon de gnrer une v.a. de fonction de rpartition min(x, 1)(1 ex )1x>0 . Tracer la densit de cette variable. Exercice I.6.1.8 Proposer une mthode de rejet pour fabriquer des variables uniformes sur le disque unit avec des U([0, 1]) sans utiliser de fonction trigonomtrique. Exercice I.6.1.9 (Inversion approche [9]) On veut simuler une variable alatoire X de densit f , ayant sa disposition une approximation croissante de la fonction quantile Q (cf I.3.2). 1. Quelle doit tre la densit h de la loi de U pour que (U ) suive la loi de X (on notera H la fonction de rpartition de U ). Vrier la solution obtenue si = Q. 2. Proposer une mthode de rejet pour simuler de telles variables U . Exercice I.6.1.10 On veut simuler une variable N(0, 1) avec la mthode de rejet en utilisant pour f0 la loi de Laplace de paramtre . Exprimer g et C (en normalisant de sorte que sup g = 1) et en dduire la valeur (simple) de qui va minimiser la probabilit de rejet ; vrier que cette dernire vaut environ 0, 24. Exercice I.6.1.11 Quelle est la distribution des chantillons rejets dans la mthode de rejet ? Exercice I.6.1.12 Soit < 1. Utiliser la mthode du rejet pour simuler des variables de loi de Poisson de paramtre (P (X = n) = n e /n!) partir de variables de probabilit P (Y = n) = n (1 ). Calculer la probabilit de rejet. Exercice I.6.1.13 (Mlange avec poids ngatifs ; mthode de Bignami et de Matteis). Soit une pi = 1. Les pi ne sont densit de la forme f (x) = i pi fi (x) o chaque fi est une densit de probabilit et + pas tous positifs (ceci arrive en estimation de densit), et lon pose pi = p+ p o p i i i = pi si pi > 0 et 0 + + sinon. Proposer une mthode pour simuler la loi i pi fi (x)/ pi . En dduire une mthode de rejet pour simuler f , dont la probabilit de rejet est p p+ i / i . 14
Exercice I.6.1.14 Soit E1 , E2 , ... une suite de v.a. exponentielles de paramtre 1, vrier que la variable alatoire N dont la valeur est lindice n tel que E1 + E2 + + En < E1 + E2 + + En+1 suit une loi de Poisson de paramtre (pn = e n /n!). On calculera dabord P (N = n|E1 , ...En ) ; pour cela on pourra dmontrer et utiliser que Rn 1x1 +...+xn<1 dx1 ...dxn = 1/n! (la dmonstration peut se faire par changement de variables en introduisant les sommes partielles). En dduire une mthode pour simuler une loi de Poisson. Cette mthode nest utilise que pour relativement petit ; pourquoi ? Exercice I.6.1.15 Montrer que le min de (I.3) est atteint. En dduire que Q(u) x quivaut F (x) u, 0 u 1 (montrer les deux implications sparment), puis que Q(U ) a pour fonction de rpartition F si U ([0, 1]). Montrer que Q+ (U ) convient galement (on pourra admettre que toute fonction croissante na quun nombre dnombrable de points de discontinuit). Exercice I.6.1.16 Soit F (x) la limite gauche de F . Montrer que la v.a. U obtenue en tirant X selon F , puis U uniformment sur [F (X ), F (X )] est uniforme sur [0, 1]. *Exercice I.6.1.17 Soient , > 0. Montrer que le procd suivant simule linverse gaussienne (loi de x)2 dx densit exp (2 [9]) : 2 x 2x3 2. Calculer les deux solutions X et X+ de lquation y 2 = (x )2 /(2 x) pour y = Y . 1. Simuler Y N(0, 1).
+
Indications : Vrier que
3. Choisir X = X avec probabilit p = (1 + X /)1 et X = X+ avec probabilit 1 p. E [f (X )] = E [f (x (Y ))p(Y )] + E [f (x+ (Y ))(1 p(Y ))]
o x (y ) est la plus petite racine de lquation du second degr. Pour eectuer les calculs, se garder de rsoudre cette quation, mais noter que la fonction x (y ) est bijective de R+ dans ]0, ] et que lquation donne tout de suite une relation entre dx et dy , qui permet deectuer simplement le changement de variable. Tout se passe de la mme faon pour x+ (noter que x+ x = 2 et donc 1 p = (1 + x+ /)1 ).
I.6.2
Epreuves
Exercice I.6.2.18 (preuve du maximum) On choisit d et lon pose Yj = max(Xjd+1 , . . . Xjd+d ). Expliciter le test de Kolmogorov. Exercice I.6.2.19 On reprend le test de Kolmogorov. Utiliser les rsultats de lexercice I.6.1.15 pour montrer que si F est discontinue : P (dn > ) P (dc n > ) o dc n est la statistique dans le cas continu. En dduire qu seuil xe, le test qui rfute F si dn > a un niveau suprieur si F est discontinue. Exercice I.6.2.20 (Points proches) On reprend lide du I.5.2 mais en considrant la variable = min { Vi V0
1in , i
= 1 , . . . n} ,
( x
= max |xk |)
1kd
o les dirences sont calcules modulo 1 de sorte que 0 Vi V0 < 1.
1. En remarquant que P ( > h|V0 = v ) est indpendant de v , calculer la loi de . 15
2. On ralise P chantillons de . Quelle est la statistique du test de Kolmogorov ?
Exercice I.6.2.21 (Programmation) On considre la suite Un = a(Un1 Un2 )Un3 (mod 1) 1. Programmer cette suite avec a = 2 et tracer sa fonction de rpartition empirique. 2. Montrer, en utilisant les corrlations dordre 1, que cest une mauvaise suite alatoire. 3. Ressayer avec a = 100000 (ou dautres valeurs de votre choix).
16
II Monte Carlo : Exemples de base
II.1
Estimation du volume
On cherche estimer le volume V dun objet gomtrique E inclus dans [0, 1]d . On suppose que lon a un moyen simple de tester si un point x appartient E ou non. Algorithme 1. Tirer n points dans [0, 1]d 2. Compter le nombre N de points appartenant E = N/n 3. V )2 = V (1 V )/n 4. (V 5. Ic = V Qg (1 /2) Qg dsigne la fonction quantile de le gaussienne centre rduite. N est une somme de variables de Bernoulli vaut donc 2 = V (1 V )/n, et )2 en est une estimation raisonnable. Ic est desprance V , la variance de V (V un intervalle de conance de niveau asymptotique , bas sur lapproximation gaussienne (thorme-limite V + N(0, 1)). central V Si lon sait que E est compris entre deux ensembles E et E+ , E E E+ , de volume V et V+ , on a toujours intrt, si cest possible et peu coteux, tirer uniformment dans lensemble E+ \ E ; la de R = (V V )/(V+ V ) avec variance proportion de points tombant dans E donnera une estimation R + V . R(1 R)/n, do une variance (V V )(V+ V )/n pour V = (V+ V )R
II.2
Intgration
Au paragraphe prcdent on calculait E [1E (X )] o X est U([0, 1]d ). La problmatique est ici sensiblement la mme puisquil sagit de calculer = E [f (X )] pour une v.a. X que lon sait simuler. Lestimateur naturel est = 1 n
n
f (Xi ).
i=1
Sa variance vaut ) = V ar( 1 V ar(f (X )). n 17
Comme prcdemment, cette variance permet dobtenir, par approximation gaussienne, un intervalle de conance bas sur )2 ( = 1 n2
n i=1
)2 . (f (Xi )
Cette mthode permet en particulier de calculer des intgrales sur [0, 1]d, et par extension sur toute partie de Rd . Noter la vitesse de convergence en 1/ n. Les mthodes (dterministes) dintgration par quadrature, c.--d. de la forme
n
f (x)dx
wi f (xi )
i=1
commettent une erreur en O(ns/d ) o s est la rgularit de la fonction (les drives dordre infrieur ou gal s sont bornes) ; les suites (xi , wi ) dpendent du s que lon considre. On voit donc quen grande dimension, lalgorithme de Monte Carlo est comptitif.
II.3
Dcompte
Soit E1 , . . . EK une suite de sous-ensembles dun ensemble E ; il sagit ici de calculer le cardinal de leur runion ou de leur intersection (le deuxime problme se ramenant au premier par passage au complmentaire). La mthode dterministe consiste en gnral utiliser la formule dinclusion-exclusion (ou de Bonferroni) | Ei | = |Ei | |Ei Ej | + |Ei Ej Ek | . . .
i=j
i=j =k
Cette formule est trs vite inutilisable. On va proposer des mthodes de Monte Carlo pour approximer de telle quantits. Par dfaut, tous les tirages seront faits uniformment dans les ensembles concerns.
II.3.1
Premier cas
On est ici dans la situation o lon peut simplement tirer au hasard des lments dans E et tester bas prix leur appartenance aux dirents sous-ensembles. On fait ici nalement comme au II.1. Exemple. On se donne un systme dquations de la forme Ax b, o A est une matrice m p, x est un vecteur de 0 ou 1 de dimension p, et b est un vecteur de dimension m. Cette quation signie une ingalit pour chaque coordonne. Le calcul du nombre de solutions x A et b xs est trs dicile. On est ici dans la situation o E = {0, 1}p , Ei = {x E :
j
aij xj bi }
et lon cherche = | i Ei | (|F | dsigne le cardinal de F ). Comme /|E | est la probabilit quun point de E tir au hasard tombe dans i Ei , lalgorithme consiste calculer empiriquement cette probabilit et la multiplier par |E | : Algorithme 1. Tirer au hasard e1 , . . . en E = |E |.|{j : ej i Ei }|/n, )2 = (|E | )/n . 2. ( est (|E | )/n. La variance de 18
II.3.2
Deuxime cas
On est ici dans la situation o lon peut tirer au hasard des lments dans chacun des Ei et o les |Ei | sont connus. Karp et Luby 1 ont propos un algorithme pour calculer = | K i=1 Ei | dans ces circonstances. Algorithme 1. Tirer au hasard {1, . . . K } avec probabilit P ( = i) = pi = |Ei |/ |Ej |
2. Tirer E et poser = 1/l() o la fonction l(e) est le nombre de i tels que e Ei . = 3. Itrer N fois les deux points prcdents. |Ei | o est la moyenne empirique de 2 1 2 4. ( ) = N ( |Ei |) V aremp ( ) (V aremp =variance empirique).
Remarque. On va voir que la variance est borne par ) N 1 V ar( |Ei | N 1 K2 . (II.1)
Dmonstration: Il sagit de vrier que E [ ] = / |Ei |. Il faut pour cela calculer la loi de l(). Soit Fq lensemble des points qui appartiennent exactement q des ensembles Ei : Fq = {e E : l(e) = q }.
Cette borne ne prend pas en compte le calcul de l(). Sil est long, le nombre dopration est plutt dordre n = N K , do une variance en K 2 2 /n qui peut encore tre nettement infrieur (|E | )/n.
Le tirage successif de et revient tirer uniformment dans la runion disjointe des Ei . Comme chaque point de Fq y est reprsent q fois, on a P (l() = q ) = P ( Fq ) = s1 q |Fq |, Do le calcul de lesprance de : E [ ] =
q
s=
|Ek |.
q 1 P (l() = q ) = s1 | Fq | = s1 | Ei |.
Dmontrons maintenant (II.1). On a ) = s2 V ar( V ar( ) = N 1 s2 V ar( ) N 1 s2 E [ 2 ] = N 1 s2 Le point 2 de lalgorithme peut tre remplac par 2 bis. Tirer E . Tirer au hasard des {1, . . . K } (uniformment) jusqu ce que E , enregistrer le nombre 1 de ces tirages et faire = /K .
q
q 2 s1 q |Fq | N 1 s.
On vrie en eet que E [ ] = 1/l(). Les variances sont lgrement modies.
Exemple : formules boolennes. On se place dans {0, 1}d. Chaque Ei est lensemble des suites de variables boolennes b {0, 1}d qui satisfont une formule conjonctive (des et ) : bj = 1
j Ji
soit encore en langage logique bj = vrai.

j Ji
1. R.M. Karp, M. Luby, Monte Carlo algorithms for enumeration and reliability problems, 24th Annual symposium on foundations of computer science, New-York 1983.
19
Ei est donc simplement caractris par lensemble dindices Ji o b doit valoir 1. Lensemble Ei est une disjonction (des ou ) de telles formules : bj = vrai
i j Ji
ce qui correspond la forme normale disjonctive dune formule boolenne. Noter quil ny a aucune dicult tirer un point au hasard dans Ei et que |Ei | = 2d|Ji| . Extension au cas probabilis. On vrie sans peine que si lon veut maintenant calculer = P0 (Ei ) pour une certaine mesure de probabilit P0 lalgorithme devient : Algorithme 1. Tirer au hasard {1, . . . K } avec probabilit P ( = i) = pi = P0 (Ei )/ tirer E avec probabilit P ( = e) = P0 (e)/P0 (E ) P0 (Ej ), puis
2. (Inchang) Poser = 1/l() (ou faire comme au 2 bis ci-dessus) = 3. Itrer les deux points prcdents. P0 (Ei ).
II.4
II.4.1
Exemples applicatifs simples

Temps dchappement dune comte du systme solaire
Soit z < 0 lnergie dune comte (lnergie est ngative, calcule de sorte quelle sera nulle une fois la comte sortie du systme solaire). La dure dune priode de sa trajectoire est z 3/2 . On suppose que cette nergie varie alatoirerement selon un modle o elle est considre constante sur chaque priode : zi+1 = zi + ui . Les ui sont des gaussiennes centres rduites indpendantes. Soit M le premier instant o zM = 0, la M 1 3/2 . Des simulations de Monte Carlo 2 permettent dtudier la dure de vie de cette comte est T = i=0 zi distribution de T en fonction de z0 (larticle original dHammersley considre les situations z0 = 1/2, 1, 2, 4, 8).
II.4.2
Perte de connexion dans un graphe
On se donne un graphe totalement connect (rseau de communication) pour lequel la probabilit de perte du i-ime arc est pi . On veut savoir la probabilit p de coupure de connexion entre deux nuds s et t (ou deux ensembles de nuds). La solution la plus simple est de rpter n fois lexprience suivante (tirage dun graphe alatoire) : 1. Tirer au hasard les pertes darc : pour chaque arc tirer une variable Bernoulli de probabilit pi dont la valeur dira si larc est perdu. 2. Voir si la communication entre s et t est perdue. et enn de calculer la probabilit empirique p n de coupure de communication entre ces deux nuds. La variance destimation est p(1 p)/n. En pratique on essaiera de tester la perte de communication au fur et mesure de la gnration des arcs : par exemple si deux arcs partent de s, on peut les simuler en premier et sils sont perdus, rien ne sert de poursuivre la simulation du graphe. Pour des mthodes plus subtiles, voir [15]. Un article de Newman 3 fait une revue assez gnrale sur les graphes et leurs applications en modlisation. Un autre exemple de graphe alatoire sera considr au IV.4.1, et aux exercices IV.7.2.9 et IV.7.2.10.
2. J.M. Hammersley, D.C. Handscomb, Monte Carlo Methods, Chapman, Hall, 1964. 3. M. E. Newman, The Structure and Function of Complex Networks, SIAM Review, Vol 45, no 2, 167-256, 2003.
20
II.4.3
Files dattente
Une station service est ouverte h heures par jours. Il y a un seul pompiste et les clients font la queue pour se faire servir ds que leur tour arrive. Les inter-arrives des clients sont des variables alatoires exponentielles indpendantes de paramtre a . Le temps de service dun client suit une loi dErlang(2,s ) (somme de 2 exponentielles indpendantes de paramtre s ). Les clients suivent la stratgie suivante leur arrive en fonction de la longueur l de la le dattente - rester faire la queue si l < 5 - partir si l > 10 - si 5 l 10 il y a une probabilit (11 l)/7 que le client reste. Un client achte pour P euros dessence, o P suit une loi inverse gaussienne (cf exercice I.6.1.17). Estimer le chire daaire moyen dune journe, et le temps dattente moyen dun client. Pour ne pas perdre de temps, sil ny a aucun client, le pompiste se lance dans une tche annexe qui lui prend un temps exponentiel de paramtre t raliser, qui rapporte une somme S de loi inverse gaussienne. Quel est maintenant le chire daaire moyen dune journe ?
II.4.4
Options amricaines
n i=1
On se donne le modle suivant pour lvolution de la valeur dune action : Vn = V0 e

Xi
On achte au temps 0 une option, cest--dire le droit dacheter une action un prix K x lavance et une date infrieure N (dans loption europenne la date est obligatoirement N ). On cherche alors la meilleure politique dachat, en supposant que lon revend immdiatement aprs lachat : comment dcider au vu du cours du moment le meilleur instant pour acheter ; bien entendu on nachte que si V > K , et le bnce est donc de (V K )+ . Mathmatiquement, comme on ne peut prendre de dcision que sur la base de linformation passe, est un temps darrt, cest--dire que lvnement { = n} ne dpend que de linformation prcdant n ; cet vnement est donc ici une fonction des variables V1 , . . . Vn . On cherche donc maximiser sur les stratgies (temps darrts) le bnce moyen Une premire stratgie consister prendre = N . On montre que cest la meilleure si + 2 /2 > 0. Si + 2 /2 < 0, cest un problme trs dicile. Une stratgie propose [33] est dacheter ds que le gain est suprieur ce que lon peut esprer avoir dans le futur, soit le premier instant n tel que Le membre de gauche se calcule sans problme et lon obtient que sera le premier instant n tel que 2 i log(K/Vn ) ei(+ /2) ( i + bi ) K (bi ) , bi = Vn K Vn max 1iN n i o est la fonction de rpartition de la gaussienne. Des simulations permettent de comparer direntes stratgies, sur des critres arbitraires (gain moyen, variance du gain...). Vn K E [(Vn+i K )+ |Vn ], i = 1, . . . N n. E [(V K )+ ].
Xi N(, 2 ).
II.4.5
Calcul du niveau dun test
On veut savoir si un chantillon de donnes X (suite de variables i.i.d, tableau de contingence...) suit une certaine distribution P0 (hypothse H0 ). Pour cela on propose un test qui rfutera H0 si S (X ) > ; S est une fonction dont on pense quelle reste raisonnablement petite sous P0 , par exemple la vraisemblance change de signe, une statistique de 2 ... Le niveau du test est la probabilit derreur de premire espce P0 (S (X ) > ). Il peut tre estim facilement par simulation sous P0 . On peut ainsi ajuster de sorte avoir le niveau voulu (p.ex. =1%) : tirer n ralisations de la loi P0 (loi de lchantillon X sous H0 ), disons (Y1 , ...Yn ), et sera la (1 ).n-ime valeur observe des S (Yi ) (rangs par ordre croissant) ; la p-value correspondant X sera estime comme la proportion de S (Yi ) qui dpassent S (X ). 21
Un test non-paramtrique dindpendance par bootstrap. Soit des vecteurs i.i.d. Xi = (Xi1 , ...Xip ), 1 i n. On veut tester si X11 , ...X1p sont indpendants. Lchantillon X est donc une matrice reprsentant n ralisations i.i.d. de la mme distribution sur Rp . Ici H0 nest malheureusement pas simple. On se donne une statistique de test S (X ), X = (X1 , ...Xn ). Par exemple S (X ) est une certaine combinaison des corrlations empiriques. Une mthode consiste considrer p 1 permutations alatoires 1 , ...p1 indpendantes de {1, ...n} puis Xi = (Xi1 , X1 (i)2 , ...Xp1 (i)p ) et choisir (X ) tel que P (S (X ) (X )|X ) , cest--dire le plus petit tel que : 1 (n!)p1
1 ,...p1
1S (X ) .
Ceci peut tre fait par simulation. Comme sous H0 pour tout la loi de X est invariante par X X , et comme (X ) = (X ), le test qui rfute lindpendance si S (X ) (X ) sera de niveau : P (S (X ) (X )) = P (S (X ) (X
1
)) = P (S (X ) (X ))
La p-value correspondant X sera estime comme la proportion de S (X ) qui dpassent S (X ). Besag 4 applique cette mthode aux tables de contingence.
II.5
Exercices
Exercice II.5.1 On sait que E contient un ensemble E de volume V . On sait tester si un point appartient E mais en revanche on nest pas capable de tirer uniformment dans le complmentaire de E . On choisit donc destimer le volume de E \ E par la mthode de base, pour en dduire ensuite le volume de E . quelle condition cette mthode est-elle plus rapide que celle consistant estimer le volume de E directement ? Proposer galement une condition susante simple sur le volume de E . Exercice II.5.2 On est dans la situation de lexercice II.5.1 avec E = {x [0, 1]d : 0, 1 x1 0, 9}. Comparer les performance de lalgorithme de base, de celui de lexercice II.5.1, et de lalgorithme acclr du cours. On explicitera comment on fait le tirage pour lalgorithme acclr. n ) et lerreur relative (V n )/V . Exercice II.5.3 Comparer (V
1
Exercice II.5.4 On considre la mthode suivante pour calculer =

0
f (x) dx :
1 n
n i=1
f (Xi ),
On suppose que f est drivable sur lintervalle avec drive borne. 1. Borner V ar(f (Xi )) par un terme en n2 (on utilisera le thorme de Rolle). 2. Montrer que lerreur destimation est dordre n3/2 . Exercice II.5.5 (Programation) Estimer la proportion de suites de {0, 1}20 qui contiennent au moins une suite de quatre 1 conscutifs. On utilisera la mthode de Karp et Luby. Exercice II.5.6 (Programation) Tester la mthode dintgration sur f (x) = i=1 k 2 sin(kxi ) avec par ). Comparer exemple d = 8 et dirents k . On calculera par ailleurs la valeur exacte de lintgrale et de ( k = 1 et k = 2.
d
1 i avec Xi U([ i n , n ]) indpendantes.
4. J. Besag, Markov Chains Monte Carlo for Statistical Inference, Center for Stat. and the Social Sciences, Working Paper 9 (2000), updated February 2002. www.csss.washington.edu/Papers.
22
III Rduction de variance
Les mthodes de Monte Carlo sont lapplication de la simulation lestimation. partir du principe de base gnralement trs simple (simuler et moyenner), les chercheurs ont imagin de nombreuses techniques pour acclrer la vitesse de convergence, qui restera toutefois quasiment toujours en 1/ n. Ces mthodes font lobjet de ce chapitre. Notons que lusage de ces mthodes reprsente souvent un surcot en calcul quil faudrait prendre en compte dans ltude des performances. Pour un algorithme donn, ce surcot varie normment dune situation concrte une autre, cest pourquoi on ne prendra en compte essentiellement dans la suite que la diminution de variance destimation, ce qui nest pas forcment trs objectif.
III.1
chantillonage prfrentiel (importance sampling)
Cest une mthode de calcul de = E [f (X )] qui consiste tirer les variables selon une distribution errone, et compenser numriquement le rsultat postriori. Pour en donner une ide, revenons au calcul dune intgrale sur [0, 1]. Si p est une densit > 0 sur [0, 1], on peut crire
1 1
f (x)dx
0
=
0
f (x) p(x)dx p(x)
ce qui suggre la possibilit dun autre algorithme : = 1 n

n i=1
f (Yi ) p(Yi )
o les Yi sont i.i.d sur [0, 1] de loi p(x)dx. De manire plus gnrale on peut proposer : Algorithme 1. Tirer n points indpendants sur Yi selon la loi avec densit p par rapport la loi de X n f (Yi ) =1 2. i=1 p(Yi ) n )2 = 12 3. Variance estime : ( n f (Yi )2 2 n i=1 ( p(Yi )2 ) Estimation de = E [f (X )]. p est une densit > 0 sur {f = 0}.
Rappelons que si X a une densit fX (x) et Y une densit fY , alors p = fY /fX . 23
est non-biais avec pour variance : Thorme 7 On suppose que la densit p est > 0 sur {f = 0}. ) nV ar( = E [f (X )2 p(X )1 ] E [f (X )]2
Elle est minimale pour p = p , p (y ) = |f (y )|/E [|f (X )|] auquel cas elle vaut 0 si f 0. Dmonstration: Pour toute fonction , on a : E [(Y )] = E [(X )p(X )]. Par consquent ] = E [ E f (Y ) = E [f (X )] = . p(Y )
Pour la variance : ) nV ar( = V ar(f (Y )/p(Y )) = E [f (Y )2 /p(Y )2 ] 2 = E [f (X )2 /p(X )] 2 .
Pour trouver le meilleur p, il faut minimiser E [f (X )2 /p(X )]. Noter que si p = p cette quantit vaut E [|f (X )|]2 qui est la plus petite valeur possible car pour tout choix de p E [|f (X )|]2 = E |f (X )| p(X )
2
p(X )
f (X )2 E [p(X )] = E [f (X )2 /p(X )]. p(X )
Aspects pratiques. Cette mthode peut tre trs avantageuse en grande dimension si f est petite sur une bonne partie de lespace. Comme p est inconnu (si f 0, connatre p implique connatre ), on ne pourra pas employer le meilleur algorithme, toutefois il sera bon dessayer de sen approcher, ce qui signie de tirer les points dans une rgion en quantit proportionnelle la valeur de f . Une mthode propose consiste approcher p dans une famille paramtrique p en cherchant en cours dalgorithme le qui ralisera la distance minimale entre p et p (cette distance peut tre estime laide des chantillons de Monte Carlo) 1 . = ( n f (Yn )p(Yn )1 )/( n p(Yn )1 ) = (f )/ (1) qui est Certains auteurs proposent lestimateur i=1 i=1 galement consistant et possde lavantage de donner 1 si f = 1. Un calcul de variance asymptotique donne ) ce qui nest gnralement pas trs bon, surtout si p est une valeur E [p(X )1 (f (X ) )2 ] pour nV ar( proche de p . Cest donc une plutt mauvaise ide. vnements rares. Cest lexemple typique dapplication de la mthode : on cherche estimer P (A) pour un vnement A de probabilit trs faible. Si lon utilise la mthode habituelle, il faudra tirer un trs grand nombre dchantillons pour tomber dans A de temps en temps. Lchantillonnage prfrentiel conseille de tirer avec densit proche de p (y ) = 1A /P (A), cest--dire de la loi de X conditionnelle X A. On tirera donc selon une loi qui favorise A davantage, et dont la densit est > 0 sur A. Cette distribution essayera de ressembler la loi conditionnelle sachant A. Exemple simple. Soit X N(0, 1), on cherche calculer P (|X 5| < 1/2) ; on a 1 P (|X 5| < 1/2) n
n i=1
1|Yi 5|<1/2 eYi /2+(Yi m)
/22
o les Yi ont t tirs N(m, 2 ). Un bon choix des paramtres est m = 4.6 et = 0.5 (se vrie exprimen) pour direntes valeurs des paramtres). talement en calculant (
1. P-T. De Boer, D.P. Kroese, S. Mannor, R.Y. Rubinstein, A Tutorial on the Cross-Entropy Method (2003). Soumis Annals of Operation Research. wwwhome.cs.utwente.nl/ptdeboer/ce/tutorial.html.
24
Exemple compliqu. Reprenons lexemple du II.4.3 et supposons que lon cherche la probabilit davoir trois fois plus de clients servis que dhabitude sur une journe : = P (Ns 3) o = E [Ns ]. On suppose ici que le temps de service est galement exponentiel. Il sagit de deviner la loi des variables sachant que Ns 3. Plusieurs cas peuvent se prsenter : On pense que le pompiste est sous-employ et quune grosse arrive de clients sut expliquer le phnomne. Dans ce cas on pourra simuler les arrives avec un taux trois fois suprieur et choisir lestimateur = Moyenne empirique(1N 3 3Nt e 2a Ti )
s
o les Si sont les temps de service. On pense que les deux eets interviennent et lon combine les deux mthodes, par exemple en multipliant par trois les deux taux.
o les Ti sont les inter-arrives entre deux clients, Ns le nombre de clients servis dans la simulation, Nt le nombre total de clients apparus. Le facteur se trouve par le raisonnement suivant : on a simul avec la densit 3a e3a Ti pour chaque inter-arrive au lieu de a ea Ti , il faut donc compenser en multipliant par e2a Ti /3. Noter que est maintenant rendu petit par le terme 3Nt e 2a Ti 3Nt e2Nt /3 . Le choix de tripler le taux a t fait par simplicit, on aurait pu faire un autre choix de loi darrive qui en gros triple le nombre de clients. On pense quau contraire les clients arrivent toujours en grand nombre et quun jour exceptionnel sexpliquera par de temps de services plus courts, auquel cas on simulera avec un taux trois fois suprieur puis = Moyenne empirique(1Ns 3 3Ns e 2s Si )
III.2
Variables de contrle
Supposons que lon cherche calculer = E [f (X )] par simulations de X . Soit Yi une v.a. a priori proche de f (Xi ) dont on connat lesprance (typiquement Yi = g (Xi ) avec g proche de f ), on a alors lestimateur = E [Y ] + 1 n Il a une variance de ) nV ar( = V ar(f (X )) + V ar(Y ) 2 Cov (f (X ), Y ) 1 V ar(Y ). 2
n i=1
f (Xi ) Yi .
et lon y gagne si Cov (f (X ), Y )
Exemple : retranchement dun estimateur intermdiaire. Ayant notre disposition une famille paramtrique de fonctions g pour laquelle on sait calculer E [g (X )], on peut de choisir pour g un bon approximant de f se trouvant dans cette famille (par exemple en estimant ). Le cas non-paramtrique est similaire. Si f est rgulire support dans [0, 1]d, lestimation de [0,1]d f (x)dx par n1 f (Xi ) peut sembler rustique. Une faon damliorer est de commencer par faire une estimation non paramtrique de f laide de points Z1 , ...Zp g (x) = 1 phd
p
f (Zi )K
i=1
x Zi h 25
avec, si s est la rgularit de f , une erreur dapproximation dans L2 de ps/(2s+d) pour h dordre p1/(2s+d) (le choix eectif de h se fait empiriquement facilement car f est calculable sans erreur). Z et g sont dsomais une variance de xs. On estime alors lintgrale de f g avec n p points et lon obtient alors pour ) = V ar( (n p)1 p2s/(2s+d) O(1) = n12s/(2s+d) O(1) si p = n/2. Les mthodes de quadrature donnent au mieux une erreur dordre ns/d ( comparer donc n1/2s/(2s+d) ). On na pas pris en compte ici le fait que le temps de calcul de f (x) nest pas forcment analogue au temps de calcul de g (x).
III.3
chantillonage corrl
On cherche estimer la dirence = 2 1 deux paramtres 1 = E [f (X )] et 2 = E [g (Y )] ; cest--dire la moyenne de deux fonctions sous deux distributions direntes. Souvent f = g et les distributions sont proches. La mthode usuelle consiste gnrer des Xi et des Yi indpendants et poser = 1 2 = 1 n et lon trouve ) = V ar( 1 ) + V ar( 2 ) 2 Cov ( 1 , 2 ) = V ar( 1 ) + V ar( 2 ). V ar( On aurait bien entendu un meilleur rsultat si lon arrivait corrler positivement les deux estimateurs. Par 2 = 1 conduirait une variance exemple dans le cas extrme o X et Y ont mme loi et f = g , le choix nulle ; on peut donc penser juste titre que le gain peut tre considrable. Si lon utilise la mthode dinversion (cf I.3.2), une possibilit est de gnrer Xi et Yi partir de la mme variable uniforme : Xi = QX (Ui ) et Yi = QY (Ui ) ; il sut alors que f et g soient croissantes lune de lautre (par exemple si f = g ) pour rduire la variance (cf exercice III.8.10).
n i=1
f (Xi ) g (Yi )
III.4
Variables antithtiques
1 + 2 2 1 ) V ar( 2 ) Cov ( 1 , 2 ) V ar( + + . 4 4 2
1 et 2 . Leur moyenne 3 est encore un estimateur dont la variance est Considrons deux estimateurs V ar =
On voit que si ces deux estimateurs sont ngativement corrls, on fait mieux que sils taient indpendants. On a par exemple Thorme 8 Soient Ui des v.a.i.i.d U([0, 1]) et une fonction monotone de chacune de ses variables, alors les variables 1 1 X = ((U1 , . . . Un ) + (Un+1 , . . . U2n )) Y = ((U1 , . . . Un ) + (1 U1 , . . . 1 Un )) 2 2 vrient V ar(Y ) V ar(X ). Pour la dmonstration voir lexercice III.8.8. En particulier, si f une fonction monotone, alors les estimateurs i = 1 2n a = 1 f (QX (Ui )), 2n i=1
2n n i=1
f (QX (Ui )) + f (QX (1 Ui ))
a ) V ar( i ). Un exemple dapplication est o QX est la fonction quantile de X du I.3.2, vrient V ar( donn au III.6 (calcul de ). 26
On peut aussi envisager cette mthode pour des situations plus compliques lorsque les simulations utilisent la mthode dinversion, comme par exemple la pompe essence (cf II.4.3) : lestimateur prend la = (U1 , . . . Un ), o les variables Ui sont U([0, 1]). forme a soit meilleur que i si nest pas monotone ; lon peut toutefois estimer Rien ne garantit coup sr que = n1 f (Xi ) et facilement la corrlation entre les deux termes et vrier son signe. Plus prcisment, si que Xi est fonction de p variables uniformes (U1 , ...Up ), il sagit de vrier que la corrlation entre f (Xi ) et i ), o X i est calcul avec 1 U1 , ..1 Up , est bien ngative. f (X
III.5
chantillonage strati
Exemple introductif. Supposons que les clients de lexemple du II.4.3 arrivent avec des taux qui changent chaque jour. Il y a trois taux possibles a1 , a2 , a3 , qui sont alatoires avec probabilits p1 , p2 , p3 . On cherche toujours calculer le chire daaire moyen sur une journe. Le mode habituel de simulation consiste rpter la procdure suivante : simuler dabord le choix dun des trois taux, puis simuler la journe. Loption dchantillonnage strati consiste faire trois sries de simulations, une pour chaque taux, puis faire la moyenne des trois rsultats avec les poids p1 , p2 , p3 . Mthode. On cherche calculer = E [f (X )] par simulations de X . On suppose que lon est capable de sparer lespace de probabilit en J sous-ensembles disjoints j de probablit connue : P (j j ) = 1, P (j k ) = 0, j = k
et que lon peut simuler sur chacun de ces ensembles avec la probabilit P (.|j ). Tout se base alors sur la formule
J
E [f (X )] =
j =1
P (j )E [f (X )|j ].
Algorithme
Estimation de = E [f (X )].
2. Estimateur : =
1. Simuler nj points (X1j , . . . Xnj j ) dans chaque j avec probabilit P (.|j )

J j =1
P (j ) nj
nj
f (Xij )
i=1
3. Variance estime :
J
)2 (
=
j =1
2 P (j )2 j , nj
2 j
1 = nj
nj
i=1
f (Xij )
1 nj
nj
f (Xij )
i=1
est La dmonstration de la validit de la procdure est laisse en exercice. La variance de

J
) = V ar(
j =1
P (j )2 2 j , nj
2 j = E [f (X )2 |j ] E [f (X )|j ]2 .
Choix des j . Au vu de la formule prcdente, on a intrt choisir ses j de sorte que f y ait la plus petite variance. 27
Choix des nj . Si nj = nP (j ), on obtient toujours une rduction de variance dun terme qui est la variance inter-classe (il ne reste que la variance intra-classe) :
J J 2 P (j )j = V ar(f (X )) j =1
) nV ar(
=
j =1
P (j )(E [f (X )|j ] )2 .
(III.1)
Cependant le meilleur choix (sous la contrainte n j = nP (j )j /

k
nj = n) est
P (k )k
avec une variance de ) nV ar( =
J j =1
On peut estimer galement en cours dalgorithme les proportions idales j = n j /n :

j = P (j ) j / k
P (j )j ,
nj = n j.
P (k ) k .
Choix de J . ventuellement grand : on vrie simplement que pour les deux choix de nj proposs ci-dessus, la variance diminue chaque fois que lon scinde une classe j en deux. Rien ninterdit de prendre J = n. Extension. Si lon ne sait pas tirer alatoirement dans les j mais que lon sait tester si x j , on peut , en distinguant a posteriori ceux alors tirer les Xi alatoirement dans et prendre ensuite lestimateur qui sont tombs dans chaque ensemble. Noter que si lon approxime dans cet estimateur P (j ) par nj /n, on retombe sur lestimateur habituel !
III.6
Conditionnement
Exemple. Considrons la station essence du II.4.3. Si lon sintresse au chire daaire moyen sur une journe, la mthode de base consiste simuler une ralisation Pk du prix pay pour chaque client, et calculer la somme des Pk sur chaque journe simule : = 1 n
n Ni
Pik
i=1 k=1
o Ni est le nombre de client de la i-ime journe. La mthode avec conditionnement consiste aecter la de Pk chaque transaction : moyenne P n = P Ni . n i=1 Cas gnral. De manire gnrale lorsquon cherche calculer E [X ], on simule des ralisations de X mais aussi dautres variables annexes, Y , Z ,... Il arrive que lon sache simplement calculer E [X |Y ] = g (Y ), auquel cas lestimateur = 1 ) = 1 V ar(X ) Xi , V ar( n n peut tre remplac par = 1 ) = 1 V ar(E [X |Y ]). g (Yi ), V ar( n n La variance destimation a diminu. Dans lexemple prcdent, Y est le nombre N de transactions de la N . journe, et E [ k=1 Pk |N ] = N P 28
Exemple : calcul de . Pour calculer on tire des v.a. dans [0, 1]2 et lon compte la proportion de points qui sont tombs dans le cercle centr en 0 de rayon 1 ; ici = /4 : = 1 n
n
Xi ,
i=1
Xi = 1Ui2 +Vi2 <1 , Ui , Vi U([0, 1])
est (1 )/n = 0, 17/n. On a aussi La variance de Do lestimateur = 1 n i E [X |U = u ] = P (u2 + V 2 < 1) = P (V < 1 Ui2 . 1 u2 ) = 1 u2 .
La variance est trs simple calculer et vaut, au facteur n prs, 2/3 (/4)2 0.05. On peut encore amliorer en utilisant les variables antithtiques : = 1 1 Ui2 + 1 (1 Ui )2 . 2n i On trouve cette fois-ci par intgration numrique une variance de 0, 007/n. Comparaison avec lchantillonnage strati. Dans la formule E [f (X )] = f (x)pX |Y =y (dx)pY (dy )
lchantillonnage strati calcule lintgrale en x par simulation et lintgrale (discrte) en y explicitement tandis que la mthode de conditionnement fait exactement le contraire.
III.7
Quasi-Monte Carlo : les suites discrpance faible
Il sagit de trouver des suites qui permettent une vitesse de convergence plus rapide que les suites alatoires pour le problme de lintgration. Il est facile de voir que si lon veut par exemple intgrer sur [0, 1] une fonction f priodique de priode 1 et de rgularit donne sur R, alors pour des raisons de symtrie, on ne pourra faire mieux (en labsence dautre hypothse sur f ) que dutiliser une suite exactement uniformment rpartie (Xk = k/n, k = 1, ...n) ; dans le cas non priodique il faut faire appel a des mthodes plus subtiles (trapzes...). Cette mthode a deux dfauts : la fonction doit tre priodique et pour passer dune suite de longueur n une suite de longueur n + 1, il faut recalculer tous les points. Les suites discrpance faible sont des suites dterministes qui vitent ces dfauts. Dfinition 9 Soit (i )i>0 une suite de points de [0, 1]d ; pour tout ensemble B [0, 1]d , on dsigne par n (B ) la proportion des n premiers points de cette suite appartenant B . La discrpance est la suite : Dn ( ) = sup |n (B ) (B )|,
B
n (B ) =
1 n
1B (i )
i=1 d i=1 [0, ui ],
o est la mesure de Lebesgue et le sup est pris tous les B de la forme B =
uj 1.
La discrpance compare donc la fonction de rpartition empirique celle de la mesure de Lebesgue. Il existe dautres mesures de discrpance dont on ne parlera pas ici. La variation totale de f au sens de Hardy et Krause est
d
V (f ) =
k=1 i1 <i2 ,<ik [0,1]k
kf xi1 ...xik
dxi1 ...dxik
o f est calcule en xj = 1 pour les j dirents de i1 , ...ik . On a le thorme 29
Thorme 10 (Ingalit de Koksma-Hlawka) Pour toute fonction f : 1 n

n i=1
f (i )
[0,1]d
f (u)du V (f )Dn ( ).
Il sagit maintenant de trouver des suites telles que Dn ( ) dcroisse le plus vite possible. Il a t dmontr quau mieux Dn ( ) = O(n1 log(n)d/2 ) pour d > 1 et O(n1 log(n)) pour d = 1. On sait par ailleurs fabriquer par des procds arithmtiques des suites telles que (suites de Halton, de Faure, de Sobol, de Niederreiter...) Dn ( ) = O(n1 log(n)d ). Une telle suite est appele suite discrpance faible ; la suite k = (kz1 , . . . kzd ) (mod 1), o les zi sont des irrationnels indpendants sur Q, satisfait Dn ( ) = O(n1 log(n)d+1+ ) pour tout > 0 [29]. La convergence est donc plus rapide quavec le Monte Carlo ordinaire, au moins pour des fonctions f telles que V (f ) < . Le problme principal est que la borne V (f )Dn ( ) est rarement trs bonne, et dicile calculer. Pour estimer lerreur, lide suivante 2 est de coupler les deux mthodes : Algorithme (Rptitions) 1. Tirer R variables alatoires uniformes Xr sur [0, 1]d r = n1 n f (Xr + i ), = R 1 R 2. i=1 r =1 r , R ) = R2 r )2 3. 2 ( (
r =1
r sont i.i.d et V ar( ) = R1 V ar( 1 ). On voit en particulier que lestimation de ( ) est raisonEn eet les 1/2 1 nable, mme avec des R modestes. Notons que son ordre de grandeur thorique est au plus R n log(n)d .
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
1.0 0.9
0.8 0.7 0.6
0.5 0.4 0.3 0.2 0.1
0 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure III.1 Une suite alatoire et une suite discrpance faible sur [0, 1]2 (500 points).
Attention, la suite de vecteurs ((1 , 2 ), (3 , 4 ), ...) nest pas discrpance faible. Contrairement aux suites i.i.d, les suites disrpance faible sous-chantillonnes ne sont plus discrpance faible. De manire plus gnrale, rien ninterdit de remplacer les suites alatoires par des suites discrpance faible dans une simulation qui nutilise que des U([0, 1]). Mais il faut bien prendre garde rester dans le contexte du thorme (d devra tre le nombre maximum de points ncessaires construire un Xi , ce qui dans les cas de la station service du II.4.3 ferait un vecteur par jour !).
2. R. Cranley, T.N.L. Patterson, Randomization of number theoretic methods for multiple integration, SIAM J. Num. Anal., 13(6), 904-914, 1976.
30
Pour des complments concernant ce paragraphe nous renvoyons [29] et [23]. Les suites discrpance faible ne tirent gnralement pas prot de la rgularit de la fonction intgrer (contrairement aux mthodes de quadrature) lexception des lattice rules dans le cas o la fonction est priodique, cf [29] 5.1-5.2. Des programmes pour les suites de Niederreiter, Faure et Sobol sont disponibles ladresse www.netlib.no/ netlib/toms, numros 738, 647 et 659.
III.8
Exercices
Exercice III.8.1 Motiver et proposer une mthode dchantillonnage prfrentiel pour lexemple du II.4.2 dans le cas o la probabilit de coupure est trs faible (les pi sont petits et les arcs nombreux). Exercice III.8.2 Soit E une variable exponentielle, X = cos(E ) + E , et Y = cos(E ) + E 2 . 1. Quelle est la loi de E sachant E > A ? 2. Proposer une mthode dchantillonnage prfrentiel pour calculer P (X > B ) avec B grand (ne pas oublier la condition p > 0 sur {f = 0} ).
3. Adapter la mthode prcdente au calcul P (Y > B ).
Exercice III.8.3 On veut estimer P (X + Y > 3) o X et Y sont exponentielles indpendantes de paramtres et . Proposer une mthode de variables antithtiques, puis une mthode qui combine le conditionnement et les variables antithtiques. Exercice III.8.4 On considre la mthode de variables de contrle avec une fonction de contrle g et un = E [g (X )] + 1 n f (Xi ) g (Xi ). paramtre : i=1 n . Pour quelle valeur de est-elle minimale ? De quel facteur a-t-elle diminu ? Exprimer la variance de Exercice III.8.5 Soit (Xi )1i2n une suite i.i.d. et les deux estimateurs 1 = 1 n
n i=1
f (Xi ) g (Xi ),
2 = 1 n
n i=1
f (Xi )
1 g (Xi ). n i=n+1
2n
quelle condition sur f et g la variance de 1 est-elle infrieure celle de 2 ? Exercice III.8.6 On cherche la probabilit quune variable exponentielle de paramtre soit suprieure A. On propose un chantillonnage prfrentiel en tirant les n variables selon une loi de paramtre dirent. tudier la variance de lestimateur obtenu : On sintressera lasymptotique lorsque A + et lon es)/2 dans les deux situations chantillonnage normal et chantillonnage timera la variance relative V ar( prfrentiel avec optimal ; on donnera galement, dans ces deux cas, lordre de grandeur du n ncessaire lobtention dune estime raisonnablement prcise. *Exercice III.8.7 (Importance splitting 3 ) On cherche calculer la probabilit dun vnement A assez rare, pour un processus long simuler (probabilit de blocage dans un rseau tlphonique sur [0, T ]...). Lide est la suivante : lorsquau cours dune simulation on est proche du blocage (charge du rseau suprieure un seuil...), on fait repartir de cette situation plusieurs simulations indpendantes, an daugmenter ses chances dobserver A ; si lon sapproche encore (charge suprieure un nouveau seuil), on multiplie nouveau les simulations... Le problme est que bien entendu, si lon observe A plus souvent, les simulations en revanche ne sont plus tires selon la mme loi, et ne sont plus indpendantes. Le cadre thorique adquat est le suivant. Soit une suite dvnements Bi , i = 1...k ( dpassement du i-ime seuil ) A = Bk+1 Bk ... B1 et une suite de tribus (Fi )1ik telles que Bi Fi (dans lexemple Fi est la tribu du pass avant Bi ). On part de N0 simulations indpendantes. Si pour une simulation B1 est
3. On pourra consulter les articles suivants : A. Lagnoux, Rare event simulation, paraitre dans PEIS. www.lsp.ups-tlse.fr/Fp/Lagnoux. F. Crou, A. Guyader, Adaptive multilevel splitting for rare event analysis, rapport Inria 5710, octobre 2005. www.inria.fr/rrrt/liste-2005.html.
31
atteint, on multiplie les simulations en faisant N1 (choisi lavance) tirages conditionnellement F1 , puis on fait de mme avec B2 ,... multipliant ainsi les simulations partir du contingent de dpart. Montrer que pour toute v.a. intgrable X ( ) un estimateur sans biais de E [X 1A ] est 1 N0 N1 ...Nk X (i )1A (i ) (III.2)
o la dernire somme comptabilise tous les succs observs (indication : noter quon peut galement multiplier les simulations si Bi nest pas atteint ; bien voir le rle de lhypothse de lembotement des Bi et de lappartenance aux tribus). Autre point de vue. Suppons pour simplier que X = 1. Soit i le nombre de trajectoires vivantes la i-ime tape, alors i+1 E [P (Bi+1 |Fi )1Bi ] = P (Bi+1 |Bi ) N i i et lon retrouve lestime en crivant P (A) = P (A|Bk )P (Bk |Bk1 )...P (B2 |B1 )P (B1 ) (III.3)
Noter que N0 N1 ...Nk est bien plus grand que le nombre de simulations eectivement ralises ; son inverse est le pendant du terme 3Nt e 2a Ti de lexemple du III.1. Mise en uvre. Posons p = P (A)1/k . Des calculs de variance (article dA. Lagnoux cit en note) montrent qu k x on a intrt choisir les Bi de sorte que P (Bi+1 |Bi ) = p et Ni = 1/p pour i = 1, ...k (si bien quen particulier le nombre dchantillons en vie reste en moyenne constant). Exercice III.8.8 Dmontrer le thorme 8 laide du thorme suivant : Thorme 11 Soient (x) et (x) deux fonctions de Rd dans R, monotones lune de lautre sparment pour chacune de leurs variables au sens o pour tous x et y ne dirant que par une seule composante : ((y ) (x))( (y ) (x)) 0 et soit X une v.a. sur Rd composantes indpendantes, alors Cov ((X ), (X )) 0. Remarque : Pour la dmonstration de ce thorme, faire dabord le cas d = 1 en prenant lesprance dans ((Y ) (X ))( (Y ) (X )) 0 o X et Y sont indpendantes de mme loi, puis tendre par rcurrence aux dimensions suprieures. Exercice III.8.9 Dmontrer la formule (III.1). Exercice III.8.10 Montrer laide du thorme 11 que si f et g sont croissantes lune de lautre (c.--d. (f (y ) f (x))(g (y ) g (x)) 0), lestimateur par chantillonnage corrl = 1 2 = 1 n
n i=1
f (Xi ) g (Yi ), Xi = QX (Ui ),
Yi = QY (Ui )
a une moindre variance que lestimateur chantillonnage indpendant. Exercice III.8.11 Rinterprter lexercice II.5.4 en fonction de ce qui a t vu dans ce chapitre. Exercice III.8.12 (Progammation) Reprendre lexercice II.5.6 avec une suite discrpance faible.
32
IV Les chantillonneurs de Metropolis et de Gibbs
Les chantillonneurs de Metropolis et de Gibbs sont deux mthodes pour simuler une distribution sur un ensemble de cardinal ou de dimension lev ; elles consistent simuler une chane de Markov dont la mesure invariante est . Linconvnient de la mthode est que dune part on ne simule plus des variables indpendantes et que dautre part les variables nont pas la loi dsire ds le dbut car il faut attendre la convergence vers la mesure invariante. Ce deux problmes seront tudis au chapitre VI. Les dmonstrations ne seront faites que dans le cas dun espace dtats ni.
IV.1
Rappels sur les chanes de Markov nombre ni dtats
On considre ici une chane de Markov Xn sur un ensemble ni E , et lon note P = (pij ) sa matrice probabilits de transition (attention P dsigne galement la probabilit des vnements). Classification des tats. Rappelons quon note i j , sil existe une suite de transitions de probablilit non nulle menant de i j , et i j si i j et j i. Un tat i tel que pour un j on ait i j et pas j i est dit transient ; les autres sont rcurrents. La relation de communication partitionne lensemble des tats rcurrents en classes dquivalence appeles classes dirrductibilit (gure IV.1). Partant dun tat la chane arrive avec probabilit 1 dans une classe dirrductibilit, en visite chaque tat inniment souvent, et plus jamais les autres tats. Une classe dirrductibilit est dit priodique si elle admet une partition xe
C A B E F D
Figure IV.1 Une chane 8 tats. On marque dune che les transitions de probabilit non-nulle. A et B sont transients et il y a deux classes dirrductibilit {C, D} et {E, F, G, H }. La partition {E, F, G, H } = {E, H } {F, G} montre que cette classe est priodique ; si X0 {E, H }, alors X2n {E, H } pour tout n. Si lon retire C et D la chane devient indcomposable, et irrductible si lon retire galement A et B . non triviale dont chaque ensemble est visit successivement dans le mme ordre avec probabilit un (si X0 33
appartient cet ensemble). En absence de classe priodique on dit que la chane est apriodique. En prsence dune seule classe dirrductibilit on dit que la chane est indcomposable, et irrductible sil y a pas dtat transient. On considre souvent que ltat initial appartient une classe dirrductibilit connue auquel cas il sut de restreindre la chane cette classe pour se ramener une chane irrductible. Matrice de transition et calcul de lois. Pour toute probabilit initiale (vecteur ligne), P n reprsente la loi de Xn si X0 , et pour tous n, i, j et toute fonction f sur E reprsente par un vecteur colonne : (P n )ij = P (Xn = j |X0 = i), (P n f )i = E [f (Xn )|X0 = i], P n f = E [f (Xn )].
Thorme 12 P a toutes ses valeurs propres de module infrieur 1 et 1 est toujours valeur propre de P . La chane est apriodique si et seulement si 1 est la seule valeur propre de module 1 de P , et indcomposable si et seulement si lordre de multiplicit de 1 est 1. P est indcomposable si et seulement sil existe un point i qui peut tre atteint de tout autre par une suite de transitions non-nulles i E, j E, max P (Xn = i|X0 = j ) > 0.
n>0
Une chane indcomposable est apriodique si et seulement si pour un i rcurrent et un n 0 P (Xn = i|X0 = i) > 0, et P (Xn+1 = i|X0 = i) > 0. Il existe toujours une mesure invariante , P = ; si P est indcomposable, elle est unique et pour toute fonction g 1 n
n k=1
g (Xk ) (g ) =
n
i g (i)
i
avec probabilit 1 en loi
1 n
k=1
g (Xk ) (g )
N (0, 2 )
o dpend de g . Si de plus P est apriodique, alors Xn converge en loi vers son unique mesure invariante = (i )iE et il y a convergence vitesse gomtrique de P n vers la matrice dont toutes les lignes sont gales : soit 2 la deuxime valeur propre de P et r son ordre de multiplicit algbrique, il existe un C tel que Introduisont les chanes rversibles, qui joueront un rle important dans la suite : Dfinition 13 P est dite rversible 1 (ou f -rversible) sil existe une fonction fi 0 non identiquement nulle telle que pour tous i et j fi pij = fj pji . Thorme 14 Si P est rversible, alors la mesure i = fi
j E
P n Cnr1 |2 |n .
(IV.1)
fj
est invariante. Si de plus f > 0 et P est indcomposable et apriodique, alors P est diagonalisable, et le thorme 12 sapplique avec r = 1. Dmonstration: Lidentication de est immdiate. La proprit de rversibilit implique que DP = P T D o D est la diagonale des fi , ce qui signie que la matrice D1/2 P D1/2 est symtrique ; elle est diagonalisable, P aussi, et donc r = 1.
1. Cette proprit est appele rversibilit de la chane car elle implique que, sous la mesure invariante i = fi / j fj , la chane retourne dans le temps a la mme loi : P (X0 = i0 , ...Xn = in ) = P (Xn = i0 , ...X0 = in ) (vrication lmentaire).
34
IV.2
Lchantillonneur de Gibbs
Soit X = (X1 , ...Xd ) un vecteur alatoire de probabilit (X ) que lon veut simuler. On reste, pour simplier dans le cas o X prend un nombre ni de valeurs bien que ce ne soit pas ncessaire. Lchantillonneur de Gibbs consiste crer directement une chane de Markov rversible indcomposable apriodique de mesure invariante en tirant chaque coordonne son tour selon sa loi conditionnelle aux autres. On notera X k,x = (X1 , . . . , Xk1 , x, Xk+1 , . . . Xd ). Attention, ici lindice k dans Xk nest pas un indice temporel de chane de Markov mais lindice de coordonne. Algorithme Tirage de X (chantillon suivant) aprs X 1. Tirer k uniformment dans {1, . . . d}
2. Tirer x selon la loi de Xk conditionnelle aux autres : Qk (x|X ) = (Xk = x|Xj , j = k ) = puis X = X k,x . (X k,x ) k,y ) y (X
La chane est rversible avec f = puisque pour X = X et pXX = 0 on a pXX = d1 Qk (x|X ) = d1 (X )/qX o qX = qX . Lapriodicit vient de ce que X = X avec probabilit > 0. Lindcomposabilit, qui se vrie en gnral facilement au cas par cas, entrane alors la convergence. Variantes. Dans le premier point, on peut remplacer la loi uniforme par toute loi qui porte tous les points, ou encore faire un balayage dterministe de tous les points, c.--d. qu la n-ime tape k = n (mod d). Il ne faut en revanche pas rafrachir tous les points simultanment (gnrer X1 , . . . Xd partir de (X1 , . . . Xd ), et considrer (X1 , . . . Xd ) comme nouvel chantillon) car on fabrique alors une chane dont la loi invariante nest plus la mme 2 . Cas continu. Mme procd : on tire Xk sous sa loi conditionnelle aux autres. Avertissement. Lchantillonneur de Gibbs fonctionne dautant mieux que les coordonnes sont peu dpendantes ; dans le cas contraire, la convergence vers la mesure invariante peut tre trs lente car la dpendance forte entre coordonnes nuit la dynamique de la chane. Exemple : formes produit. Dans cet exemple, Xk sera le nombre de communications tlphoniques en cours dans la k -ime cellule du rseau UMTS. Si N est le nombre de canaux (frquences) disponibles, une contrainte ncessaire de non-interfrence sera
k C
Xk N
pour tout ensemble C de cellules voisines. On suppose que sous ces contraintes loprateur sait attribuer des frquences sans interfrences. On notera E0 lensemble des suites (x1 , ...xd ) qui satisfont ces contraintes. On suppose que la loi de (X1 , ...Xd ) a la forme, dite forme produit (cf exercice IV.7.1.6 pour une justication) (x1 , ...xd ) = C1 (x1 )...d (xd )1xE0 o chaque k est une mesure de probabilit (cest lindpendance conditionne E0 ). On a ici (Xk = x|Xj , j = k ) = k (x) 1X k,x E0 y k (y ) (IV.2)
2. Considrer la distribution sur {0, 1}2 qui attribue (x, y ) = (1, 1) la probabilit 1/3 et P ((1, 1)) = 0. Partant de (0, 0), le rafrachissement simultan conduit (1, 1) avec probabilit 1/4.
35
o la somme est tendue aux y tels que X k,y E0 . La simulation par chantillonneur de Gibbs est donc trs simple (avec ventuellement une mthode de rejet pour tirer selon la loi conditionnelle). Si par exemple k (0) > 0 pour tout k , on a lindcomposabilit puisque ltat nul peut tre atteint en d transitions.
IV.3
Algorithme de Metropolis
Soit un ensemble discret E et une fonction f de E dans R+ . On veut gnrer des variables de distribution i = Cfi o C est la constante de normalisation. La dicult que lon rencontre est quen gnral, soit C nest pas calculable car E est trop grand, soit E est un sous-ensemble dicilement atteignable dun ensemble connu, par exemple si est la mesure uniforme sur lensemble des coloriages des dpartements, avec 5 couleurs, tels que deux dpartements voisins soient de couleur dirente. Lalgorithme de Metropolis donne une mthode pour simuler une chane de Markov de mesure invariante .
IV.3.1
Principes
k
Il sagit donc de simuler i = fi /
fk o les fi sont connus. Il faut se donner une matrice pij telle que :
(MP) Tous poins i, j tels que fi , fj > 0 peuvent tre joints par une chane k1 = i, k2 , ...kn1 , kn = j telle que pkl kl+1 > 0, pkl+1 kl > 0 et fkl > 0. Ce quon pourrait rsumer par irrductibilit aller-retour sur {f > 0} . Cest le cas si f > 0 et P est indcomposable avec pij = 0 ssi pji = 0. Algorithme Tirage de Xn aprs Xn1 = i
1. Tirer j dans E avec probabilit pij fj pji fi pij
2. Faire alatoirement Xn = j ou Xn = i avec probabilit q et 1 q : q = min 1, . (IV.3)
Remarque : Pour que soit invariante, il est essentiel de garder tous les chantillons, rptitions comprises. Thorme 15 On se place sous (MP) et lon suppose de plus que fX0 > 0, et que P nest pas f -rversible ou est apriodique. Alors la suite Xn produite par lalgorithme converge en loi vers et le thorme 12 sapplique. De plus la chane est rversible. Dmonstration: Posons E0 = {f = 0}. Comme X0 E0 , la forme de q implique que Xn E0 pour tout n. La matrice de transition de la chane (Xn ) est p ij = min pij , fj pji fi , i = j, p ii = 1 p ik
k =i
et en particulier fi p ij = fj p ji ; il y a donc rversibilit et est bien invariante. Lindcomposabilit est consquence de (MP). Pour montrer lapriodicit, noter que sil existe i E0 tel que p ii = 0 alors il y a apriodicit en raison du theorme 12 ; sinon p ij = pij pour tout i E0 et P est f -rversible, et donc apriodique par hypothse. 36
Choix de p. On choisit rarement pij = pj ( chane indpendante ) car cette option peut provoquer de trs nombreux rejets (Xn = Xn1 ) ; voir cependant lexemple du IV.4.1. Gnralement E est un ensemble trs grand et les coecients pij sont majoritairement nuls : on ne fait de transition que vers des tats voisins ; par exemple X est un long vecteur et ses voisins nen dirent que par une coordonne. Ceci fonctionne bien si nest pas trop multimodale, car ce type de transition dfavorise les passages dun mode lautre. La dtermination de pij peut rsulter dune approximation de restreinte au voisinage de i : si pij = j 1ij (i et j voisins ; pii = 1 j i pij ), alors q = 1. Cette approximation peut tre combine (par mlange de lois) avec une approximation globale de sur E pour garantir la mobilit. On peut aussi choisir p parmi une famille paramtre, en optimisant le paramtre en cours dalgorithme de sorte avoir le moins de rejets possibles 3 . Cas continu. Il faut raisonner avec les densits. Prenons le cas dune loi de densit (x) = Cf (x) par rapport la mesure de Lebesgue sur Rd . On tirera un nouvel tat selon une loi de densit px (y ) et q = min 1, f (x)py . Si px (y ) consiste choisir un indice k au hasard et remplacer yk par une valeur alatoire x (y )
(y )p(xk ) yk de loi p( ), alors q = min 1, f f (x)p(y ) .
k
f (y )p (x )
IV.3.2
Simulation de graphes.
On reprend lexemple du II.4.2. On veut simuler des rseaux ayant la probabilit requise mais en se restreignant lensemble R de ceux o les points a et b ne sont pas connects. La solution naturelle est, pour chaque i, de prendre pour pij la mesure uniforme sur tous les rseaux j R qui ne dirent de i que par ltat dune connexion ; on appelle cet ensemble Vi . On a donc en cas de rtablissement dune connexion fj /fi = (1 p)/p et q = min 1, (1 p)|Vi | p|Vj |
o p est la probabilit de perte de cette connexion ; en cas de perte p est remplac par 1 p dans cette formule. Lindcomposabilit vient de ce que lon peut toujours arriver ltat o toutes les connexions sont coupes. Une mthode plus simple est de prendre pour pij la mesure uniforme sur tous les rseaux j qui ne dirent de i que par ltat dune connexion, et fj = 0 si j / R. Elle semble demander moins de calculs car pij est constant mais risque de causer davantage de rejets, de mme pour lchantillonneur de Gibbs.
IV.3.3
Marche alatoire sans recoupement (self-avoiding random walk)
Dans cet exemple, on ralise un algorithme de Metropolis o f vaut 0 ou 1 et les pij sont constants et donc q {0, 1}. La marche alatoire dans Zd est le processus Wk = 1 + 2 + . . . k , W0 = 0 o i est tir uniformment parmi lensemble D des vecteurs de la base canonique et de leur opposs. On se dplace donc chaque instant dune unit dans une des 2d directions possibles tire au hasard. La simulation dun tel processus ne pose videmment aucune dicult. La loi de (W1 , . . . WK ) est simplement la distribution uniforme sur toutes les trajectoires possibles. La marche alatoire sans recoupement de longueur K dans Zd est le mme processus dont la loi est conditionne labsence de recoupement. Sa distribution est donc uniforme sur lensemble E = {(W1 . . . WK ) ZdK : Wi Wi1 = 1, W1 = 1, Wi = Wj si i = j }.
3. C. Andrieu, C.P. Robert, Controlled MCMC for Optimal Sampling, Document de travail du CREST, 2001. www.crest.fr/doctravail/liste.htm
37
En dimension trois, on modlise ainsi les polymres, par exemple le polythylne CH2 CH2 CH2 o Wk reprsente la position de la k -ime base. Les simulations 4 conrment bien la relation observe exprimentalement entre la longueur du polymre et le nombre de bases E [ WK 2 ] K 2 avec la bonne valeur de . La mthode du rejet pour simuler ces trajectoires marchera trs mal car il y a proportionnellement fort peu de trajectoires sans recoupement (particulirement si d = 2). On se propose de simuler une chane de Markov sur E . Soit T lensemble des permutations T de D telles que T (v ) = T v (en dautres termes T correspond une isomtrie prservant D) alors pour tout T T et 1 k K on peut dnir
Tk (W1 , . . . WK ) = (W1 , . . . WK ) Wi = 1 + 2 + + i , j j<k j = = T ( ) j k. j j
Lapplication Tk fait une isomtrie sur la n de la marche sans modier le dbut. On tire successivement les Xn : 1. Tirer uniformment k dans {1, . . . K } et T dans T et poser X = Tk Xn1 Si i = j et i, j E , alors pij = (K |T |)1 . La vrication de lindcomposabilit est dicile (il sagit de montrer que lon peut toujours dplier la marche pour la mettre dans ltat o tous les j sont gaux). 2. Si X est sans recoupement, alors Xn = X , sinon Xn = Xn1 .
IV.3.4
Mthode de rejet
Si une chane rversible a une mesure invariante et si gi est une densit non-ncessairement normalise, on peut par une mthode de rejet raliser simplement une chane de probabilit invariante gi i /( j gj j ) : Corollaire 16 Soit P une matrice de transition -rversible. et g un vecteur 0. Les transitions de lalgorithme du IV.3.1 o (IV.3) est remplac par q = min (1, gj /gi ) ralisent une chane de Markov rversible de mesure invariante gi i . Ce rsultat est un corollaire du theorme 15 avec f = g car la rversibilit implique que pji /pij = i /j .
IV.4
Applications lestimation. Mthodes MCMC
Les applications donnes ici concernent lestimation ; pour dautres exemples, voir les exercices ainsi que le chapitre suivant.
IV.4.1
Maximum de vraisemblance
Q(X, ) Z ()
Soit une famille de lois de probabilits paramtres par , de la forme p (X ) =
o la fonction Q(X, ) est simple calculer et la constante de normalisation Z () est en revanche trs dicile calculer. On a vu au IV.3.2 un exemple dune telle situation (avec = p) et lon en verra dautres au IV.6. Dans le cas continu, si la mesure de rfrence est la mesure de Lebesgue, on a Z () = Q(x, )dx
4. N. Madras, G. Slade, The self-avoiding walk, Birkhuser, Boston, 1993.
38
o lintgrale est sur Rd , d pouvant tre trs grand, et dans le cas discret, Z () = x Q(x, ) o la somme stend un ensemble extrmement grand. Soit (Xi )1in une suite de ralisations indpendantes de loi p , inconnu. Il est simple de vrier que le gradient du logarithme de la vraisemblance scrit
n i=1
log Q(Xi , ) nE [ log Q(Y, )].
Un algorithme de simulation (Metropolis, Gibbs ou autre) permet destimer le deuxime terme pour toute MV , le plus simple tant lalgorithme valeur de , et donc de faire des algorithmes (itratifs) de calcul de de gradient stochastique : k+1 = k + k ( 1 n
n i=1
log Q(Xi , k ) log Q(Yk , k ))
o Yk a t simul selon Pk et k est une suite positive dcroissant vers 0 (ou en pratique constant assez petit..., voir le chapitre VII). Cest un algorithme de gradient o le signe desprance a t oubli. Exemple : rseaux sociaux. Wasserman et Pattison 5 considrent N individus (29 enfants, 12 garons et 17 lles) et observent les 292 variables Xij valant 1 si lindividu i pense avoir des liens privilgis avec j et 0 sinon. On convient que Xii = 0. Ces v.a. ralisent donc un graphe orient dont les sommets sont les individus. On considre la loi de probabilit paramtre par R4 xij xji + 3 xij xjk xik + 4 xij + 2 xij xjk xki P (xij , 1 i, j N ) = Z ()1 exp 1
i,j i,j i,j,k i,j,k
Si 2 = 3 = 4 = 0, les Xij sont indpendants et p = (1 + e1 )1 est la probabilit quun lien se tisse entre deux individus. Les autres coecients sont associs la rciprocit , la transitivit , et la cyclicit des relations. Linterprtation brute de ces coecients est dicile. Pour simuler des ralisations (Yij ) du tableau sous P , une mthode ecace dans notre exemple consiste utiliser lalgorithme de Metropolis avec tirages indpendants (pij = pj ) o chaque tape tous les Yij sont tirs indpendamment selon un Bernoulli de paramtre p, moyenne empirique des Xij . Les auteurs comparent 6 les deux modles obtenus avec seulement les lles et seulement les garons. On nobserve pas que 3 ou 4 soit signicativement non nul et lon trouve = (0.166, 0.22) pour les lles et = (0.127, 0.07) pour les garons ; il y a donc une rciprocit plus forte chez les lles ; en fait la statistique i,j xij xji chez les garons prend une valeur tout--fait vraisemblable sous lhypothse 2 = 3 = 4 = 0, ce qui se vrie par simulation sous cette loi avec le 1 estim ; ce nest pas le cas chez les lles. Cette absence de signicativit de la rciprocit chez les garons est probablement due la petitesse de lchantillon. Ils considrent galement le modle o le premier terme est spar en 4 selon le sexe de i et j , ce qui fait trois paramtres en plus ; une dirence signicative entre ces derniers montre quil y a davantage de garons prtendant avoir des liens privilgis avec des lles que le contraire : on trouve = (1f f , 1gg , 1f g , 1gf , 2 ) = (0.24, 0.14, 1.5, 0.4, 0.37).
IV.4.2
Echantillonnage postrieur. Modle baysien hirarchique
Lestimation au maximum de vraisemblance est souvent dicile raliser. Une mthode simple pour contourner ce problme est de se placer dans un cadre baysien et de simuler des ralisations du paramtre sous sa loi a postriori, c.--d. conditionnelle aux observations ; un avantage annexe est que la variabilit observe donne une ide de lincertitude dune estimation par le mode ou la moyenne (ou autre) de cette loi.
5. S. Wasserman, P. Pattison, Logit models and logistic regressions for social networks. I. An introduction to Markov graphs and p. Psychometrika 61 , no. 3, 401425, 1996. kentucky.psych.uiuc.edu/pstar. 6. Ils font lestimation des paramtre avec une pseudo-vraisemblance.
39
Illustrons par le cas du modle baysien hirarchique ; cest un modle baysien o la loi du paramtre est elle-mme paramtre par un modle baysien. Prenons un exemple de Cohen, Nagin, Wallstrom, et Wasserman 7 . Pour chaque individu arrt dans le comt de Los Angeles en 1990 on sintresse au nombre Yi darrestations dans le pass (la dernire non-incluse). Ces donnes sont spares en dirents groupes selon le type dinfraction : trac de drogue , possession de drogue , cambriolage , vol et lanne (1986 ou 1990). On postule un modle Poissonnien : i Gamma(, ) Yi |i Poisson(i ti ) (densit : 1 e/ /())
o ti est lge du sujet moins 18 ans. Les i sont donc indpendants Gamma(, ) (moyenne = , variance 2 = 2 ) et conditionnellement i , Yi suit la loi P(i ti ). Comme dans le cas de modles mixtes, on donne une structure alatoire aux paramtres (les i ) car ils peuvent dicilement tre estims et leur valeur individuelle intresse peu : cest leur distribution qui caractrise le comportement du groupe. On se donne une distribution a priori sur les paramtres 8 (, ) {(1 + )2 }1 qui correspond une mesure uniforme pour (log , 1/(1 + )). Lide est que la distribution de dpend du groupe auquel appartient lindividu, et la distribution sur , correspond la distribution des dirents groupes. La loi de (, , ) sachant les observations sobtient par la formule de Bayes p(, , |Y ) P (Y |, , )P (|, ) (, )
i +1 i (ti +1/ ) Y e i
= P (Y |, , )P (|, )P (, )P (Y )1 n ()n (1 + )2
(des termes ne dpendant que des Yi et des ti on t limins). Bien que (, ) ne soit pas dintgrale nie, la mesure conditionnelle ci-dessus est bien nie 9 . On peut donc trs facilement simuler des chantillons de (, , ) sous cette loi ( loi a posteriori ) avec un chantillonneur de Gibbs. Les auteurs obtiennent ainsi la distribution a posteriori du paramtre = (nombre moyen darrestations par an aprs 18 ans) dans les dirents groupes. Ils observent en particulier que les traquants de drogue ayant subit une peine de prison ont un taux darrestation pour des dlits non lis la drogue signicativement infrieur aux autres prisonniers, ce qui correspond une politique de fort emprisonnement des traquants dans les annes 1986-1990.
IV.4.3
Donnes manquantes 1 : Modle baysien
On dispose dune famille paramtrique de lois candidates p (X ) pour un ensemble de donnes X . Il arrive que certaines donnes manquent. On note X = (Y, Z ), o Y est la partie observe et Z la partie manquante (par exemple X est une matrice dont les lignes sont des vecteurs gaussiens i.i.d. mais certains lments manquent et contient les paramtres de la gaussienne). Ceci rend les algorithmes destimation de assez diciles raliser. On suppose dans la suite que lon sait simuler facilement, pour donn, la loi de X sachant Y (c.--d. de Z sachant Y ). Soit le modle baysien p(, X ) = ()p (X ).
7. J. Cohen, D. Nagin, G. Wallstrom, L. Wasserman, Hierarchical Bayesian Analysis of Arrest Rates, J. Am. Stat. Ass., vol 93, 444, 1260-1270, 1998. www.stat.cmu.edu/tr/tr636/tr636.html. 8. Voir larticle pour la justication ; le fait que cette loi ne soit pas une probabilit est un dfaut couramment accept en thorie baysienne. La distribution d/ sur R+ est souvent utilise pour un paramtre positif en absence dinformation car elle est invariante par changement dchelle linaire ; cest la distribution uniforme pour log(). 9. Nous ne dtaillons pas cet exercice : Lintgrale par rapport aux i se fait en utilisant la densit de la loi gamma. Remarquer ensuite que si Yi > 0, ( + Yi ) = ( + Yi 1)...( + 1)(), ce qui permet alors de majorer lintgrale restante, si un des Yi et un des ti est > 0, par C p (1 + )1 ( + 1)q dd (pour certains C, p, q > 0) qui est bien ni.
40
Si X tait observ, la mthode baysienne consisterait calculer E [|X ]. Ici, on calculera E [|Y ]. Ceci requiert un calcul dintgrale compliqu qui peut se raliser simplement par simulation en produisant des ralisations de (, Z ) selon f (, Z ) ()p (Y, Z ) (Y est xe dans cette formule) par mthode de Gibbs en alternant sur et Z (la simulation de Z est un chantillonnage postrieur). Notons quon obtient mme une approximation de la distribution conditionnelle de , et donc en particulier une variance destimation. Lexemple du IV.4.2 peut tre considr comme un cas de donnes manquantes (les i ). Exemple : le modle tobit. Soit le modle de rgression Xi N(ai , 2 ) ; pour chaque individu i, ai est le vecteur (ligne) de rgression. On observe Yi = max(Xi , 0) et les ai . Ce modle a t introduit par James Tobin 10 (celui de la taxe) pour la situation o Yi est le rapport entre la dpense en biens durables et le revenu annuel de lindividu i ; ai1 est son ge et ai2 est le rapport entre le montant de ses biens en actifs et son revenu annuel. Ce modle permet dexpliquer simplement loccurence dune dpense nulle avec probabilit non ngligeable. Si lon se donne une probabilit a priori () pour le paramtre = (, ) la mthode de Gibbs reviendra boucler sur les deux tapes (les dtails sont laisss au lecteur) : 1. Tirage de X sachant et Y : si Yi > 0 alors Xi = Yi , sinon simuler Xi selon la loi N(ai , 2 ) conditionne par le fait dtre ngatif. 2. Tirage de sachant X : simuler (, ) selon n exp{ i (Xi ai )2 /2 2 } (). Exemple : le modle probit multivari. Il sagit dun modle bas sur le mme principe pour modliser des vecteurs de 1, par la formule Yi = signe(Xi ) (le signe est pris composante par composante) et Xi N(ai , R), o R est une certaine matrice, galement estimer, possiblement paramtre 11 .
IV.4.4
Donnes manquantes 2 : Lalgorithme EM
Nous rfrons [26] pour un article tutoriel sur le sujet. On va voir que la situation typique correspondant ce paragraphe est celle o Y suit un modle de mlange et que ladjonction de la variable latente Z exprimant le terme du mlange choisi rsulte en une famille exponentielle de lois p (Y, Z ), ce qui fait que les problmes destimation seraient considrablement simplis si lon connaissait Z (cf lexemple aprs lquation (IV.6)). Lalgorithme du maximum de vraisemblance consiste maximiser la probabilit des donnes observes : = arg max p (Y ),
p (Y ) =
p (Y, z )dz
(IV.4)
o lon note galement par abus p la loi des donnes observes. Souvent cette intgrale est incalculable, mais on est capable de simuler les donnes manquantes sous leur loi conditionnelle aux observations p (Z |Y ). La remarque importante est que la solution de lquation suivante = arg max H ( , ),
H ( , ) =
log(p (Y, z ))p (z |Y )dz
(IV.5)
est solution de (IV.4) (tout au moins les conditions du premier ordre sont identiques) car une solution de cette quation vrie 0 = H ( , )| = = p (Y, z ) p (Y, z ) dz = p (Y )1 p (Y, z ) p (Y ) p (Y, z )dz.
Lalgorithme EM consiste fabriquer la suite n+1 = arg max H (, n ).
(IV.6)
10. Estimation of Relationships for Limited Dependent Variables, pp. 24-36 Econometrica, Vol. 26, No. 1, 1958 11. Pour des applications, voir par exemple : C. Stefanescu, B.W. Turnbull, On the Multivariate Probit Model for Exchangeable Binary Data with Covariates, Biometrical Journal 47 (2005) 2, 206218. Ou encore : S. Chib, E.S. Greenberg, Analysis of Multivariate Probit Models, Biometrika, 85 (1998) 2, 347-361.
41
On montre que cette suite satisfait la proprit de croissance pn+1 (Y ) pn (Y ) (exercice IV.7.3.16), et que sous des hypothses assez gnrales n converge vers une solution de (IV.5). Parfois la fonction H peut tre calcule et minimise explicitement, cest le cas par exemple si les Yi forment une une suite i.i.d. dun mlange de deux gaussiennes de variance 2 connue et de moyennes et avec poids 1 p et p. Ici = (p, , ), auquel cas on trouve sans dicult, en prenant pour Z la variable de Bernoulli qui vaut 0 si la premire gaussienne a t choisie et 1 sinon (E [Z ] = p) : H (, 0 ) =
i
(1 wi ) log((1 p)g (Yi )) + wi log(pg (Yi ))
wi =
p0 g (Yi 0 ) (1 p0 )g (Yi 0 )) + p0 g (Yi 0 )
o g est la densit de la gaussienne centre de variance 2 . Le poids wi sinterprte comme la probabilit que Zi vaille 1 sachant Yi . Si lon ne dispose pas de forme explicite pour H , lapproximation de lintgrale par une moyenne conduit lalgorithme suivant
K
n+1 = arg max

k=1
log(p (Y, zk ))
(IV.7)
o les zk sont tous simuls selon la loi pn (z |Y ) ; cest cette simulation qui peut faire intervenir lchantillonneur de Gibbs comme on va le voir au paragraphe suivant. Mais il arrive galement quelle doive se faire laide dun chantillonneur prfrentiel si lon ne sait pas directement simuler la loi de Z sachant Y (typiquement on sait plutt simuler Y sachant Z , lobservation sachant la donne manquante ; voir lexemple du IV.5.1 ou les modles dtat du V.5.2) et lon utilisera une approximation pn (z ) (en pratique choisie astucieusement au vu de la situation)
K
n+1 = arg max

k=1
log(p (Y, zk ))
pn (zk |Y ) arg max pn (zk )
log(p (Y, zk ))
k=1
pn (zk , Y ) pn (zk )
La formule (IV.7) sinterprte comme un maximum de vraisemblance o les donnes manquantes ont t simules laide de lestime prcdente. Pour avoir convergence K doit bien entendu tendre vers linni avec n, ce que lon ne fait pas en pratique car la limite nest quune estime du vrai paramtre. Noter galement quil est inutile, surtout au dbut dessayer datteindre le maximum avec une grande prcision. Voir galement lalgorithme stochastique du VII.1.4. Application : salamandres. On considre une population de I salamandres femelles et J mles 12 . On tente daccoupler chaque femelle avec chaque mle. Les observations consistent donc en les IJ variables Yij valant 0 ou 1 selon le succs de lentremise. On considre le modle logistique mixte P (Yij = 1) = ij ij log = + ui + vj . 1 ij Les variables latentes ui et vj ne sont pas observes, mais sont i.i.d de loi N(0, 1/u ) et N(0, 1/v ). Conditionnellement u et v les Yij sont donc indpendants avec la loi donne ci-dessus. Notons = (, u , v ) et z = (u, v ). La probabilit de Y, u, v est donc P (Y, z ) = = P (Y |u, v ) P (u, v )
I/2 J/2 c u v ij
12. P. McCullagh, J.A. Nelder, Generalized Linear Models, Chapman & Hall, 1989.
exp{Yij ( + ui + vj )} u exp 2 1 + exp{ + ui + vj } 42
u2 i
v 2
2 vj j
En revanche la probabilit de Y seul sobtient en intgrant cette expression par rapport (u, v ) ce qui conduit une intgrale multiple en dimension leve sur laquelle il est trs dicile de travailler. Il faudra simuler (u, v ) selon sa loi sachant Y . Ceci peut se faire par un chantillonneur de Gibbs. La simulation de chaque ui nest elle-mme pas trs vidente et peut se faire par le biais dune mthode de rejet ; voir aussi ltude de McCulloch 13 pour un algorithme un peu dirent.
IV.5
IV.5.1
Processus ponctuels
chantillonnage postrieur des processus ponctuels
Soit une paire de variables alatoires (X, Y ) o Y est observe et X est la variable recherche. La mthode dchantillonnage postrieur consiste simuler des ralisations de X conditionnellement Y . Ceci permet davoir une estime de la loi de X conditionnellement Y . Rappelons la dnition (informelle) du processus de Poisson ponctuel sur E (gnralement E Rd ) dintensit , mesure nie sans atome sur E : une ralisation de ce processus est un ensemble X = {X1 , ...XN } o N est tir selon une loi de Poisson de paramtre (E ) et les Xi sont tirs indpendamment dans E selon (.)/(E ). Ces processus permettent de modliser par exemple la distribution de certaines espces dans les forts 14 . Voir aussi [10] pour des exemples dtudes en biologie, et [19]. Rappelons que la superposition Z = {X1 , ...XN , X1 , ...XP } de deux processus de Poisson ponctuels indpendants dintensit et est un processus de Poisson dintensit + . Dans notre exemple 15 , Y = (Y1 , ...Yp ) est lensemble des cas de leucmie dans ltat de New-York entre 1978 et 1982 (ensemble de points du plan). Lobservation semble montrer que ces points ne sont pas uniformment rpartis mais forment des groupes. Il sagit de voir si les cas de leucmie sont plus frquents au voisinage de sites de dchets. Les auteurs prsupposent donc lexistence dun vecteur X = (X1 , ...Xn ), ensemble des centrodes des groupes ; X est un processus de Poisson de mesure uniforme sur ltat de New2 2 York E de masse totale et on ralise des Yi selon un processus de Poisson de mesure i e Xi y /2 (superposition de processus de Poisson gnrs par chaque Xi ) 16 . Si les paramtres du modle (, , ) sont connus on peut, ayant Y sa disposition, simuler X sous sa loi conditionnelle, ce qui nest pas simple car on a maintenant aaire un processus dont la densit par rapport sa loi dorigine est, par la formule de Bayes (P (X |Y ) = P (Y |X )P (X )/P (Y )) proportionnelle q (x) =
j i
x i Yj
/22
Le paramtre ne joue donc aucun rle dans la loi a postriori de X . Noter que q () = 0 (sauf si n = 0). Les auteurs se proposent de simuler de cette loi pour voir si la distribution des Xi se concentre proximit des sites de dchets. Le procd suivant permet de simuler un processus ponctuel de densit q (x) par rapport au processus dintensit (U(A) dsigne la mesure uniforme sur A et = (E )) :
13. C.E. McCulloch, Maximum likelihhod algorithm for generalized linear mixed models, J. Am. Stat. Ass., 92, 162-170, 1997. 14. R.L. Wolpert, K. Ickstadt, Poisson/gamma random eld models for spatial statistics, Biometrika 85, no. 2, 251267, 1998. 15. M.A. Loizeaux, I.W. McKeague, Bayesian inference for spatial point processes via perfect sampling, Dept of Stat., Florida State Univ., 2000. fsu.edu/mckeague/ps/perfect.ps Loizeaux et McKeague utilisent en fait ces donnes pour illustrer lchantillonnage parfait et ceci inue lgrement sur le modle car il sont obligs dintroduire un paramtre supplmentaire. 16. Cette modlisation o Y est un processus de Poisson dont lintensit rsulte elle-mme de la ralisation dun processus stochastique est caractristique des processus de Cox.
43
Algorithme
Simulation de Xk+1 aprs Xk = x
1. Tirer (.)/, U(x), 2. Soit n = |x|. Xk+1 = x { } Faire Xk+1 = x\{ } Xk+1 = x avec probabilit p1 =
r n+1+r
min
n avec probabilit p2 = n+ r min avec probabilit p3 = 1 p1 p2 .
q(x{ }) rq(x) , 1 rq(x\{ }) ,1 q (x )
r est un paramtre que lon peut choisir gal 1. Le lecteur vriera que la mesure invariante est bien la bonne 17 , exercice IV.7.4.18. Un autre algorithme est propos lexercice IV.7.4.19.
IV.5.2
Simulation des cluster Poisson process
Il sagit essentiellement du modle considr au IV.5.1. Rappelons dabord comment on produit une ralisation X = {Xi } du processus de Poisson associ un espace mesur (X, F, ), o la mesure (dx) est suppose -nie : 1. Dcomposer X en une runion disjointe i Ai densembles de mesure nie 2. Pour chaque i, Tirer Ni P((Ai )) puis Ni v.a.i.i.d. de distribution restreinte Ai normalise : Lensemble form des variables simules sur X forme une ralisation du P.P. (la loi du rsultat ne dpend pas du dcoupage). Le cadre gnral pour le cluster point process est le suivant : On se donne deux espaces (X, F, ) et (Y, G), et un noyau K (x, dy ) dni sur X G. On suppose que pour tout x, K (x, Y) < , et que la mesure (dx) est nie. Le processus associ Y = {Yi } se ralise de la faon suivante : Raliser le P.P. X = {Xi } sur (X, ). Raliser pour chaque i le P.P. dintensit K (Xi , dy ), et runir lensemble. Ceci revient galement raliser le P.P. dintensit i K (Xi , dy ) (principe de superposition). Typiquement, on considre un processus spatial marqu : Xi = (i , Mi ), X = Rd M avec une mesure = ( )d (dm). est une mesure de probabilit nie et il sut donc de raliser le P.P. et de tirer ensuite les Mi i.i.d. Considrons lexemple simple suivant : X = Rd R+ , (dx) = aebt ddt et K (x, .) = N(x, t Id ). Mme si lon sintresse simuler la restriction des Yi une zone borne W de lespace, il faut a priori simuler tous les Xi , c.--d. une innit (ce ne serait pas le cas si le noyau K (x, .) avait un support toujours contenu dans une boule centre en x et de rayon 1). Dun point de vue pratique on peut considrer comme raisonnable sur cet exemple de simuler la restriction de X un voisinage assez grand de W . On peut cependant faire autrement : Simulation eective. On cherche simuler la restriction YW de Y une partie petite W Y. La remarque essentielle est la suivante : La restriction du processus X aux points qui ont un ls dans W est un P.P. dintensit : (1 eK (x,W ) )(dx). Ce qui est une consquence immdiate de la proprit assez simple (thinning) : Si X est un P.P. et Zi une suite de v.a.i.i.d. indpendante de X , et g (x, z ) une fonction mesurable, alors la restriction de X aux points tels que g (Xi , Zi ) = 1 est un P.P. dintensit P (g (x, Z ) = 1)(dx).
17. Lide cache derrire cet algorithme est la suivante dans le cas r = 1 : si q (.) = 1, on vrie sans problme que la mesure invariante est bien le processus de Poisson dintensit et comme le processus que lon dsire simuler a une densit q (.) par rapport cette mesure, cet algorithme nest autre que lalgorithme du IV.3.4. Pour tendre r gnral, noter que le processus simuler a galement une densit r |x| q (x) par rapport au processus de Poisson dintensit r, car le processus de Poisson dintensit r a une densit r |x| par rapport au processus de Poisson dintensit .
(IV.8)
44
Lalgorithme est donc le suivant : 1. Raliser le P.P. donn par (IV.8) 2. Raliser pour chaque i le P.P. dintensit K (Xi , dy )1yW conditionn avoir au moins un point et runir lensemble des points obtenus. En pratique (IV.8) sera bien une mesure nie. Les seules questions qui restent sont relatives la mise en uvre eective de ces deux points. Brix et Kendall 18 proposent une mthode de rejet (thinning) consistant utiliser un noyau dominant L(x, dy ) = (x, y )1 K (x, dy ) avec 1 puis jeter les points simuls avec probabilit 1 (Xi , Yi ). Le fait que la loi des ls conditionnellement aux pres (les Xi ) soit un processus de Poisson nintervient pas, il sut que Y soit une runion de processus ponctuels indpendants conditionnellement X , la loi de chacun ne dpendant que de Xi .
IV.6
Champs de Gibbs
Le but de la thorie des champs de Markov est de modliser des tableaux de variables alatoires dont la loi est caractrise par une structure de corrlation particulire entre points proches. On ne sintressera quaux champs de Gibbs qui recouvrent quasiment tous les champs de Markov, et qui reprsentent ici le modle adquat ; la question plus gnrale des donnes spatiales est extensivement expose dans [8] et [35]. Voir aussi larticle trs riche de J. Besag [5]. On traite dabord le cas o le champ prend ses valeurs dans un ensemble ni. La simulation ralisera une chane de Markov dont la mesure invariante correspond la loi dsire.
IV.6.1
Dnition des champs de Gibbs
Un des exemples phare pour les champs de Markov est une image numrise 19 par exemple sur une grille de 256 256 pixels, chacun ayant un niveau de gris par exemple un entier compris entre 1 et 32. Un autre exemple prsent dans [5] est celui dune culture de tomates dont certaines sont infectes : la variable alatoires vaut 0 ou 1 selon que la plante est atteinte ou non. Appelons S la grille et X lensemble des niveaux de gris. Cette image sera alors considre comme la ralisation dun tableau de variables alatoires indexes par les lments de S . Dfinition 17 On appelle structure de voisinage sur un ensemble S une relation symtrique sur S , ou encore une structure de graphe non-orient sur S : a est voisin de b si un arc joint a et b. On convient que a nest pas voisin de a. On appelle clique un ensemble de points voisins entre eux. Les points de S sont parfois appels sites . En traitement dimage on considre souvent les 4 ou 8 plus proches voisins. Dans le premier cas les cliques sont les ensembles de deux points distance minimale et dans le deuxime ce sont les blocs carrs de 4 points et leurs parties ( vrifer !). Dfinition 18 Soit X un ensemble ni et S un ensemble muni dune structure de voisinage, on appelle champ de Gibbs une distribution de probabilit sur les tableaux X indexs par les lment de S et valeurs dans X (c.--d. X XS ) ayant la forme suivante : P (X ) = Z 1 e
C
VC (XC )
o la somme est prise sur toutes les cliques, XC = (Xa )aC , et les VC sont des fonctions arbitraires nies. Z est une constante de normalisation. P (X ) dsigne ici soit la probabilit de X si X est ni, soit la densit, si X = R.
18. Brix, Kendall : Simulation of cluster point processes without edge eects, Adv.Appl.Prob. 34, 267-280 19. Une rfrence classique est larticle prcurseur de S. Geman et D. Geman : Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images, IEEE-PAMI, vol. 6, No 6, nov. 1984.
45
o la somme est retreinte aux paires (i, j ) telles que (i, j ), (i 1, j ) et (i, j 1) appartiennent la grille. Si 1 = 2 , cette expression se rcrit P (X ) = Z 1 e
ab =1 (Xa Xb ) 2
En particulier, toute distribution est un champ de Gibbs pour la structure triviale o tous les points sont voisins (comme dans lexemple du IV.4.1). La constante Z est gnralement compltement inconnue. Un exemple typique dans le cas des 4-voisinages est : 1 (Xij Xi1,j )2 + 2 (Xij Xi,j 1 )2 P (X ) = Z 1 exp
ij
o Nh et Nv sont le nombre de cliques horizontales et verticales avec dsaccord. On a ici choisi le mme coecient pour les cliques de mme orientation de sorte avoir une certaine stationnarit. On voit que si les i sont positifs, cette distribution a tendance corrler positivement les voisins. Cette corrlation sera dautant plus forte que le paramtre i sera grand.
. .
Dans le cas o X = {1, 1}, on a, les deux expressions 1 2Xij (1 Xi1,j + 2 Xi,j 1 ) P (X ) = Z 1 e41 Nh 42 Nv = Z exp
ij
(IV.9)
Figure IV.2 Deux ralisations du champ (IV.9) sur une grille 128 128 : une avec 1 = 2 = 0, 8 et lautre avec 1 = 2 = 1, 5. On a utilis lchantillonneur de Gibbs. Thorme 19 Soit un champ de Gibbs sur S , alors la loi conditionnelle de Xa sachant (Xb )b=a est donne par
1 P (Xa |Xb , b = a) = Za e
C a
VC (XC )
En particulier elle ne dpend que de Xb pour b voisin de a. Le facteur de normalisation Za est une fonction des Xb pour b voisin de a. Si lon revient lexemple (IV.9), il vient
1 P (Xij |Xa , a = (i, j )) = Zij exp {2Xij (1 Xi1,j + 1 Xi+1,j + 2 Xi,j 1 + 2 Xi,j +1 )} .
Noter que, comme on le voit sur cet exemple, la constante Za sera souvent calculable. Le thorme de Hammersley-Cliord donne une rciproque : sous des conditions trs gnrales, si la loi conditionnelle de Xa sachant les autres ne dpend que de Xb pour b voisin de a, alors le champ est un champ de Gibbs pour cette structure de voisinages (c.--d. : Il existe des fonctions VC ....). 46
Les champs de Gibbs on la proprit de maximum dentropie suivante ([7] chap.12) : Parmi toutes les distributions dont les marginales sur chaque clique concident avec celles de P , P est celle dont lentropie est maximale (c.--d. la plus diuse, celle qui rajoute le moins de particularit supplmentaire). Exemple : segmentation dimage. An de modliser la prsence de rgions homognes distinctes dans une image, on propose le modle suivant : Une image est la ralisation dune suite (Xa , Ya )aS o les Xa (tiquette non-observe) sont des v.a. prenant leurs valeurs dans {1, ...r} (numros de rgion) et Ya est le niveau de gris 20. La loi de X est P (X ) = Z 1 e
ab =1
1(Xa =Xb )
= Z 1 eN .
Lexpression ci-dessus conduit la loi de X sachant Y (qui est la seule variable observe) ce qui va permettre destimer les rgions, par exemple en maximisant P (X, Y ) par rapport X , ce qui nest pas toujours un problme facile ; une simple simulation de X sous cette loi par un chantillonneur de Gibbs (chantillonnage postrieur) fera dj apparatre les rgions bien plus nettement que sur limage de dpart.
N est la longueur des frontires entre rgions. La loi de Y sachant X est une suite de variables indpendantes, Yi ayant une loi de densit eU (y,Xi ) (par exemple et pour simplier N((Xi ), 2 ) o le paramtre (j ) est le niveau de gris moyen de la rgion numro j ). On a donc nalement la loi lie : 1Xa =Xb + U (Ya , Xa ) . (IV.10) P (X, Y ) = P (X )P (Y |X ) = Z 1 exp
ab =1
IV.6.2
chantillonnage de Gibbs
Tirage de X aprs X
Lchantillonneur de Gibbs du IV.2 devient ici : Algorithme 1. Tirer a au hasard uniformment dans S . 2. Tirer une v.a selon la loi conditionnelle de Xa sachant les autres 3. On dduit X de X en remplaant Xa par cette nouvelle valeur. Au lieu de tirer a au hasard on peut se donner un ordre lavance. Par exemple dans le cas des 4-voisinages, on peut renouveler dabord les sites blancs (S est vu comme un damier) puis les noirs. Notons que le renouvellement des blancs peut se faire en parallle puisque la distribution sur un site blanc ne dpend que des valeurs sur des sites noirs.
IV.6.3
Algorithme de Metropolis
Lchantillonneur de Gibbs peut tre un peu compliqu mettre en uvre, ce qui fait que parfois la mthode de Metropolis sera prfre. On est, avec les notations du IV.3.1, dans la situation o f (X ) = e
C
VC (XC )
20. Par exemple dans larticle : J.M. Odobez , D. Chen, Robust Video Text Segmentation and Recognition with Multiple Hypotheses, Proc. of the ICIP, sept. 2002, les auteurs considrent 2 4 tiquettes selon le modle, une des tiquettes reprsentant le niveau de gris dun caractre, les autres reprsentant le fond. Pour une application des images de rsonnance magntique nuclaire, voir larticle de B. Chalmond : Image restoration using an estimated Markov model Signal Processing, Vol.15, 2, pp 115-221, sept. 1988. A. Lorette, X. Descombes et J. Zerubia utilisent galement cette approche pour lanalyse automatique dimages satellitaires : Texture Analysis through a Markovian Modelling..., 4.2.2, Int. J. of Computer Vision, Vol. 36, N. 3, pp 1573-1405 (2000). www.inria.fr/rrrt/rr-3423.html. Voir galement : J. Besag, On the Statistical Analysis of Dirty Pictures, JRSS-B, Vol. 48, No. 3., 1986, pp. 259-302.
47
La transition dun tat X un autre X va consister tirer un site a au hasard et modier Xa par choix dune valeur dans X, si bien que X et X concident sur S \ {a} ; les tats voisins dun tat donn sont donc en nombre |S |.|X| et pij est pour tous i et j linverse de cette valeur. Le passage eectif au nouvel tat X se dcidera donc avec probabilit q = min 1, e
C
VC (XC )
VC (XC )
= min 1, e
C a
VC (XC )VC (XC )
(IV.11)
Cette quantit locale est trs facile calculer ; dans lexemple des 4-voisinages, on a si a = (i, j ) et X = {1, 1} :
C a VC (XC ) VC (XC ) = 4Xij (1 Xi1,j + 1 Xi+1,j + 2 Xi,j 1 + 2 Xi,j +1 ).
IV.6.4
Autres exemples
On considre ici des exemples o X peut tre inni. Si X = R il sut de considrer que P est la densit de la loi par rapport, par exemple, la mesure de Lebesgue : p(x) = Z 1 exp{ C VC (xC )}. Champ gaussien autorgressif. On va supposer que S = {a1 , ..an } est une partie nie de lespace euclidien. Considrons la distribution pour X = (Xa )aS : log p(X ) = 1 2 2
a,b
(Xa a )cab (Xb b ) + cst,
caa = 1
(IV.12)
o les i sont des rels et la matrice C = (cab )a,bS est dnie positive. Il sagit dune distribution gaussienne. Il est facile de vrier que la loi dun Xa sachant les autres est une gaussienne de variance 2 et de moyenne : a = ma X cab Xb ,
b=a
ma =
b
cab b .
(IV.13)
Les voisins de a sont donc les points b tels que cab = 0, et ma est la moyenne de Xa sachant les autres nuls. Il se trouve que pour m et C > 0 donns, P est la seule distribution satisfaisant cette spcication de loi conditionnelle. Souvent on prfre partir de cette spcication pour en dduire m et C , puis . Gnralement cab ne dpendra que de b a (le champ recentr est stationnaire). Par exemple dans le cas dune grille rgulire du plan, on pourra partir du modle local ij = 1 (Xi1,j + Xi+1,j + Xi,j 1 + Xi,j +1 ) X 4 qui dnit les ma (nuls) et la matrice C (elle est bien positive). Pour les points a = (i, j ) du bord, si, par exemple, (i +1, j ) sort du domaine on se donne lavance une valeur xe pour Xi+1,j dont leet est dajouter un terme ma . Ce modle est utilis par exemple pour tudier le rendement de parcelles voisines [8] : Xa est la production de la parcelle a. a ne sont pas des variables alatoires indpendantes ; pas plus Attention, les erreurs de prdiction Xa X que dans une srie temporelle autorgressive, ne le sont les erreurs de prdictions utilisant pass et futur. En a est indpendante de Xb , b = a. revanche, Xa X Modle conditionnellement binomial. Considrons les donnes de mort subite de nouveau-n dans les 100 comts de Caroline du Nord [8] pour les priodes 1974-1978 et 1979-1984. Pour chaque priode on dispose dun tableau 100 lignes et 2 colonnes : la premire colonne contient, pour a variant de 1 100, le nombre Xa de morts subites de bbs de moins dun an dans le comt a, et la seconde le nombre na de naissances. Typiquement na est compris entre 500 et 30000 et Xa entre 0 et 50. On a reprsent sur la gure ci-dessous les donnes sur chaque priode par une carte o lon a plac pour chaque comt un cercle dont le diamtre est proportionnel au nombre de morts subites divis par le nombre 48
de naissances sur la mme priode (la valeur moyenne de cette quantit est 0,002) ; lunit spatiale est la centaine de kilomtres (la gure est verticalement dilate). Une corrlation spatiale semble apparatre, elle serait de lexistence dune variable explicative spatialement corrle (structure de la population). Un modle possible est le suivant (les na sont dterministes) P (X ) = Z 1 e
1 Xa + 2 a,b
cab (Xa qna )(Xb qnb ) a
1 Xa !(na Xa )!
(IV.14)
avec caa = 0 et cab = cba . Il est conditionnellement binomial : Loi(Xa |Xb , b = a) = B na , a a + 1 , a = exp{ + cab (Xb qnb )} (IV.15)
3.2
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
3.2
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
2.8 2.4
+ + + +
2.8 2.4
+ + + +
+ + +
+ + + + + +
+ +
2.0
+
+ +
+ +
+ +
+ +
2.0
+
+ +
+ +
+ +
1.6 1.2 0.8 0.4 0 0
1.6 1.2 0.8 0.4 0
On peut faire un modle analogue en remplaant la loi binomiale par une loi de Poisson P(a ) ; lexemple ne sy prte pas (cf exercice IV.7.5.24). Ce modle est visiblement surparamtr puisquil y a 4952 paramtres cab en jeu pour ici 100 observations. Une solution est de se donner une forme particulire, par exemple : cab = d(a, b) ou cab = 1d(a,b)<
o d(a, b) est la distance entre les comts a et b. Le modle na plus pour paramtres que , et . On peut galement faire dpendre de la priode, = p , ce qui fait alors 5 paramtres. En dehors de lintrt de lestimation des paramtres, on peut galement considrer ce modle comme une base pour faire des tests ; par exemple, on pourra tester les hypothses 0 = 1 (pas de dirence signicative entre les priodes) ou encore = 0 (pas de corrlation signicative entre comts proches). Il savre utile dajouter un terme na Xa lexponentielle de (IV.14) ce qui revient remplacer par + na dans (IV.15). Une estimation par maximisation de pseudo-vraisemblance (on choisit ici 2 p p l() = p=1 a log P (Xa |X b , b = a)) avec cab = 1d(a,b)<0.64 (ce qui fait une moyenne de 7 termes non nuls par ligne), donne = 6.1, = 0.01165, q = 0.00188 et = 1.64 105 . Lestimation laide dun logiciel se fait en remarquant que la maximisation de l() correspond lestimation dun modle logistique (les Xb dans lexpression de a tant considrs comme des variables explicatives) ; les paramtres estims sont ici considrs comme signicativement non nuls. Le fait que = 0 vient probablement de ce que na est corrl avec des variables explicatives manquantes. Modle dtat spatial. Nous nous basons ici sur un exemple particulier 21 qui sut prsenter lide gnrale, qui est que les observations Yi sont fonctions alatoires dun processus gaussien X .
21. J. Zhu, J.C. Eickho, & P. Yan, Generalized Linear Latent Variable Models for Repeated Measures of Spatially Correlated Multivariate Data, Biometrics, vol 61 pp 874-683, 2005.
49
On mesure sur 34 pins 4 variables : la quantit de rsine prsente 1m50 de haut et 2m70, et la prsence 2 ou non de lsions ces deux hauteurs. Chaque Yi , 1 i 34, est donc un vecteur de R2 + {0, 1} . Les 2 auteurs prsupposent lexistence de variables non observes (latentes) Xi R telles que la loi de chaque Yi conditionellement (Yj )j =i soit issue dun modle linaire gnralis de variable explicative Xi :
2 2 Yi N(1 , 1 ) N(2 , 2 ) B(1, (1 + e3 )1 ) B(1, (1 + e4 )1 ),
k = k + k , Xi .
ce qui fait 12 paramtres. Xi est modlis comme un processus spatial gaussien, typiquement centr de matrice de covariance diagonale de la forme Cov (Xi , Xj ) = (dij )Id , o dij est la distance entre les pins i et j et (0) = 1, tant une fonction prciser 22. Lestimation de ce modle utilise lalgorithme EM ; noter lanalogie de situation avec lexemple des salamandres p.42.
IV.7
IV.7.1
Exercices, exemples
Chanes de Markov
Exercice IV.7.1.1 (Modle dEhrenfest) Deux chiens ont des puces qui sautent de lun lautre. Il y a en tout m puces. On considre le nombre Xn de puces sur le premier chien entre le n-ime et le n + 1-ime saut (donc |Xn Xn+1 | = 1). Donner la matrice de transition de la chane de Markov Xn . Montrer que sa loi stationnaire est binomiale. Exercice IV.7.1.2 Un volume contient des particules. Sur chaque intervalle [n, n + 1[ chacune meurt avec probabilit p, tandis que dautres arrivent dont le nombre suit une loi de Poisson de paramtre . Soit Xn le nombre de particules linstant n ; montrer que la matrice de transition de cette chane de Markov est donne par
min(i,j )
p(i, j ) = e
k=0
j k i (1 p)k pik . k (j k )!
Montrer quune certaine loi de Poisson est invariante. Exercice IV.7.1.3 Un individu va dun sommet un autre dun graphe sans point isol en choisissant chaque instant uniformment parmi les sommets connects celui o il se trouve. Vrier que la chane est rversible et donner une mesure invariante. quelle condition est-elle unique ? (Daprs Foata et Fuchs) Un rat se dplace dans un labyrinthe qui comporte 9 pices :
1 4 7 2 5 8 3 6 9
chaque tape il change de pice. Lorsquil est dans une pice k portes, il choisit lune de ces portes avec 1 probabilit k . Combien de temps le rat passe-t-il en moyenne dans chaque pice ? Le graphe est maintenant un triangle de sommets A, B et C. La probabilit initiale de la chane (loi de X0 ) donne les poids 1/4, 1/2 et 1/4 A, B et C. Calculer lesprance de f (X3 ), o f est la fonction qui vaut respectivement 0, 1 et 2 en A, B et C (utiliser la formule matricielle). Exercice IV.7.1.4 (Indcomposabilit et non-apriodicit) On considre la chane de Markov du IV.7.1.1.
22. Les auteurs considrent en fait une covariance un peu plus complique mais contraignent certaines composantes des k tre nulles ce qui vite une surparamtrisation ; de plus les mesures sont rptes trois moments dirents ce qui fait trois fois plus dobservations mais une variable temps supplmentaire qui est traite comme les variables spatiales et ne fait donc que rajouter une dimension.
50
1. Dmontrer lindcomposabilit. 2. Expliquer pourquoi de manire vidente la chane partant dun tat donn ne peut converger vers une mesure invariante (On remarquera que Xn alterne entre deux ensembles disjoints prciser). Faire de mme avec la chane du rat de lexercice IV.7.1.3. 3. Montrer que de manire gnrale, lorsquil y a un nombre ni dtats, lexistence dune valeur propre pour P quivaut lexistence dune fonction f telle que E [f (Xn+1 )|Xn ] = f (Xn ). Montrer quici 1 est valeur propre de P . En dduire la non-apriodicit. Exercice IV.7.1.5 (Rversibilit) Soit (X0 , X1 ) les deux premiers chantillons dune chane de Markov nombre ni dtats. Montrer que si pour une certaine loi initiale 0 , (X0 , X1 ) et (X1 , X0 ) ont mme loi alors 0 est invariante et la chane est rversible. Cette proprit permet de dnir la 0 -rversibilit si la chane nest pas nombre ni dtats. Montrer que ceci implique que pour tout n la loi de X0 , ...Xn et la mme que celle de Xn , ...X0 (pour un espace dtats arbitraire). On pourra commencer par n = 2. Exercice IV.7.1.6 (Forme produit) On reprend lexemple du IV.2. Soient F1 , ...Fd , d espaces dtats E0 une partie de leur produit. Dans lexemple d est le nombre de cellules Fi = {0, 1, ...N }, et E0 = {(x1 , ...xd ) : xi N }. Soit Pk une matrice de transition rversible sur Fk (p.ex. : un individu de la cellule raccroche ou un individu dcroche) de mesure invariante k ; on se propose de dnir une chane de Markov sur E0 de la faon suivante : si X = (X1 , ...Xd ), on choisit 1 k d uniformment puis on choisit x selon Pk (Xk , .) ; la transition se fait vers X k,x ou X selon que X k,x E0 ou non (notation du IV.2). Vrier que la matrice de transition globale est rversible et que la mesure invariante est de la forme (IV.2).
IV.7.2
chantillonneur de Gibbs, algorithme de Metropolis
Exercice IV.7.2.7 Proposer un algorithme dchantillonnage de Gibbs pour simuler des ralisations du vecteur alatoire de densit fXY (x, y ) = C exp(y 2 /2 x2 (1 + y + y 2 )/2). Exercice IV.7.2.8 Soient X1 , ...Xd d v.a. exponentielles de paramtre , et S leur somme. Proposer un algorithme dchantillonnage de Gibbs pour simuler la loi de (X1 , ...Xd ) conditionnellement S > C . Exercice IV.7.2.9 (Hard-core lattice gaz model 23) On se donne un graphe G n sommets. Une conguration consiste aecter chaque sommet de G une valeur 0 ou 1 de sorte que deux sommets connects par un arc ne soient pas 1. On considre la distribution qui donne une conguration un poids proportionnel pn1 (1 p)nn1 o n1 est le nombre de 1 (cest donc la loi qui attribue 0 ou 1 avec probabilit 1 p et p indpendamment chaque sommet, conditionne par lisolement des 1). Proposer un chantillonneur de Gibbs pour simuler des ralisations de ce graphe et une mthode pour estimer le nombre moyen de sommets 1 sous la loi considre. Exercice IV.7.2.10 (Modle de Fortuin-Kasteleyn 24 ) On se donne un graphe G n arcs. Une conguration {0, 1}n consiste aecter chaque arc de G une valeur 0 ou 1, une valeur 0 tant considre comme une annihilation de cet arc, de sorte que reprsente un sous graphe de G. On donne ces sous-graphes une distribution P ( ) = Z 1 q N ()
k
pk (1 p)(1k )
o N ( ) est le nombre de composantes connexes du sous-graphe.

23. J. van den Berg, J.E. Steif, Percolation and the hard-core lattice gas model, Stochastic Process. Appl. 49, no. 2, 179197, 1994. 24. G. Grimmett, The stochastic random-cluster process and the uniqueness of random-cluster measures, Ann. Probab. 23, no. 4, 14611510, 1995.
51
Proposer un chantillonneur de Gibbs pour simuler des ralisations de cette loi. Exercice IV.7.2.11 Simulation de points avec eet rpulsif. 1. Proposer un algorithme dchantillonnage de Gibbs pour gnrer des familles de d points (z1 , . . . zd ) de [0, 1], conditionns par le fait que les zk sont au moins distance les uns des autres. 2. Combiner cette mthode avec un rejet dans le cas o chaque zi appartient [0, 1]2 . 3. Proposer une mthode de Mtropolis pour gnrer des familles de d points (z1 , . . . zd ) avec une densit par rapport la loi uniforme sur ([0, 1]2 )d proportionnelle n o n est le nombre de paires de points distants de moins de . Exercice IV.7.2.12 On dsire colorier une carte des dpartements. Un tel coloriage associe chaque dpartement un vecteur gi [0, 1]3 correspondant aux proportions de rouge, vert et bleu. Comme il faut que deux dpartements voisins aient des couleurs assez direntes, on se propose de tirer les coloriages avec une probabilit proportionnelle exp( gi gj ) o la somme est tendue seulement aux paires de dpartements voisins, et est une constante choisir, suppose ici connue. Proposer une mthode de Mtropolis pour raliser ce projet. Proposer galement un chantilonneur de Gibbs (on pourra utiliser une mthode de rejet). Exercice IV.7.2.13 On observe des v.a. (Yij )1in,1j p . On suppose lexistence de v.a. = (1 , ..p ), = (y , , ) avec les proprits de distribution conditionnelle (cf IV.4.2) :
1 Yij | , N(j , y ) 1 j | N(, ) ind ind ind
, y , N(0, 1), E(1), E(1) 1. j reprsente un pays de la communaut europenne dans lequel on a tir n individus au hasard et Yij est le logarithme du taux dimposition de lindividu. Interprter chaque coordonne de . 2. Proposer une mthode simple de simulation dune ralisation de ces v.a. 3. On pose Y = (Yij )ij . crire la loi de (Y, , ). Les Yij sont elles indpendantes ? 4. Proposer un chantillonneur de Gibbs pour simuler (, ) sous sa loi conditionnelle aux Yij . (Y ) = E [ |Y ]. 5. Proposer une mthode pour calculer lestimateur baysien
(Y ) sous la loi de (Y, , ). 6. Proposer une mthode simple de simulation pour estimer la variance de (Y ) (donc 7. Proposer une mthode de simulation, si est connu, pour estimer la variance ( ) de conditionnellement ) ; en dduire un estimateur de ( ) partir seulement des observations Y (Noter lanalogie de dmarche avec lestimateur de variance de p n estimateur usuel de la probabilit quune variable de Bernoulli vaille 1). Comparer heuristiquement cet estimateur de variance celui du point prcdent, en particulier dans le cas o lon a peu de donnes et dans le cas contraire.
Exercice IV.7.2.14 On sintresse lvolution de la population des grues blanches dAmrique, espce en voie de disparition 25 . Chaque anne est eectu un compte exact de la population de ces grues lorsquelles arrivent au Texas au dbut de lhiver. On observe chaque fois deux groupes : les brunes qui ont moins dun an et les blanches qui sont plus ges. On dispose de ces donnes de 1938 nos jours. Soit la variable Xij qui contient le nombre de grues de la classe dge j pour lanne i (elles sont ici numrotes de 1 n). On considre en tout 7 classes dge, la dernire comprenant toutes les grues de plus de 6 ans. On mesure donc les variables Bi = Xi1 , Wi = Xi2 + ... + Xi7 , i = 1, ...n.
Ces observations ninterviennent qu partir de la question 2. On se donne le modle suivant pour lvolution de la population
25. W.A. Link, J.A. Royle, J.S. Hateld, Demographic Analysis from Summaries of an Age-Structured Population, Biometrics, 59, 4, 778-785, Dec. 2003.
52
Chaque grue de la classe j , j < 7, a une chance ij de survivre et donc de passer la classe j + 1 lanne suivante. Chaque grue de la classe 7 donne naissance un nombre de petits qui suit une loi de Poisson de paramtre i ; elle a ensuite une chance i6 de survivre et donc de rester dans la classe 7 lanne suivante. Ce modle fait clairement du vecteur Xi. N7 une chane de Markov. = (ij ) et = (i ) paramtrisent cette loi. 1. Donner pour chaque j la loi de Xi+1,j sachant Xi. . Exprimer P (Xi+1,1 = x1 , ...Xi+1,7 = x7 |Xi. ). On k notera p(k ; ) = k e /k ! et b(k ; n, p) = pk (1 p)nk Cn . 2. En dduire la loi f (X ; , ) de (Xij )1in,1j 7 (on suppose que lon se donne une loi 0 initiale pour X1. ; elle ninuencera pas les estimations et les tests). Cest un produit de termes un peu compliqu. 3. Quelle modication simple apporter f pour obtenir la loi conditionnelle aux observations, une constantes prs ? 4. Soit 1 < i < n (on ne traite pas ici, pour simplifer, les cas i = 1 ou i = n). On veut simuler (Xi1 , ...Xi7 ) conditionnellement (Bi , Wi ) et aux Xi j , i = i. Quelles sont les contraintes portant sur les valeurs possibles ? En dduire un algorithme de Metropolis permettant cette simulation. 5. En dduire un chantillonneur de Gibbs permettant simuler les Xij conditionnellement aux (Bi , Wi ). On se donne le modle hirarchique suivant ij = (1 + ei j )1 , log(i ) = a + bi + i o
1 i N(0, ),
j N(0, 2.5),
1 i N(0, ),
, dx/x,
a, b dx
(concernant lusage de distributions non intgrables comme loi a priori, voir IV.4.2, note 8). On sintresse aux paramtres (a, b, , ), les autres variables ((i ), (j ), (i )) tant considres comme des eets alatoires. 6. Exprimer la distribution de ((Xij ), (i ), (j ), (i ), , , a, b). 7. Comment simuler des chantillons de (a, b, , ) conditionnellement aux Xij ? On ne dtaillera pas les lois de tirage mais on expliquera le mcanisme. 8. Comment simuler des chantillons de (a, b, , ) conditionnellement aux observations (les Bi et les Wi ) ? 9. On trouve que les distributions de a et b a postriori sont approximativement N(1.1, 0.0752) et N(0.018, 0.0042). Quen dire ?
10. Proposer une mthode dchantillonnage pour vrier si lhypothse 2 = 3 = 4 = 5 est raisonnable (plusieurs approches sont possibles, la meilleure tant probablement de commencer par fabriquer une statistique de test). Exercice IV.7.2.15 On veut simuler sous une loi (x1 , ...xK ) conditionnellement lappartenance E0 E , et lon sait simuler chaque Xk sous conditionnellement aux autres Xj , j = k . Lalgorithme de Gibbs va demander de simuler y sous (Xk = y |Xj , j = k ) conditionnellement X k,y E0 . Si ce nest pas faisable directement (E0 est trop compliqu), on peut faire des tirages de y jusqu ce que X k,y E0 . Cette mthode sera longue sil se trouve que peu de valeurs de y ralisent cette contrainte. On peut alors proposer lalgorithme suivant qui permet de faire changer k chaque fois : 1. Tirer k uniformment dans {1, . . . d}. 2. Tirer y sous P (y ) = (Xk = y |Xj , j = k ).
Vrier que la chane ainsi construite est bien rversible et que la mesure invariante est bien la bonne. 53
3. Si X k,y E0 , faire X = X k,y sinon X = X .
IV.7.3
Algorithme EM
Exercice IV.7.3.16 On reprend les notations du IV.4.4. On se propose de montrer la proprit de croissance de lalgorithme EM. 1. Montrer que pour deux densits de probabilit p(z ) et q (z ) on a (log q (z ) log p(z ))p(z )dz 0 (utiliser lingalit de Jensen). 2. En dduire que log pn+1 (Y ) pn (Y ). p (Y, z )dz log p0 (Y, z )dz H (, 0 ) H (0 , 0 ), puis, quen particulier
Exercice IV.7.3.17 On reprend les notations du IV.4.4. Soit h() = x H (x, )|x= = log(p (Y, z )) p (z |Y )dz = E [ log(p (Y, z ))|Y ].
Lalgorithme EM se propose de rsoudre h() = 0. Le but de cet exercice est de proposer un algorithme de Gauss-Newton pour tenter dacclrer la convergence (malheureusement la proprit de croissance est perdue et la convergence reste prouver). ) est une matrice symtrique ngative. 1. Montrer que h() = log p (Y ). Un dduire que h( On supposera dans la suite quelle est galement dnie. 2. Montrer que h() = E [2 log p (Y, z )|Y ] + Cov ( log p (Y, z )|Y ) = A() + B (). On pourra vrier que A() et B () ont une expression raisonnablement simple dans le cas du mlange de deux gaussiennes avec p connu considr au IV.4.4 (i.e. = (, )). 3. Lalgorithme de Gauss-Newton pour rsoudre h() = 0 est : n+1 = n h(n )1 h(n ). On pourra vrier que si H (, 0 ) est quadratique en (, 0 ) cet algorihme converge en une tape, contrairement litration (IV.6). Justier lalgorithme
1 n+1 = n Mn hn (n ) K
hn (n ) =
1 K
K
ln,k
k=1 T
ln,k = log pn (Y, zk ) 1 Mn = K

k=1
1 log pn (Y, zk ) + K
2
K T ln,k ln,k k=1
1 2 K
ln,k
k=1 k=1
ln,k
IV.7.4
Processus ponctuels
Exercice IV.7.4.18 Si X est Poisson dintensit (dx) sur E , = (E ), (dx)/ (indpendante de X ) et U(X ), un calcul standard sur les processus ponctuels montre que pour f mesurable borne E [f (X, )] = E [ |X | f (X \{ }, )]. En dduire la validit de lalgorithme du IV.5.1. Exercice IV.7.4.19 Montrer que lalgorithme suivant a bien comme mesure invariante un processus ponctuel de Poisson dintensit (dx) avec densit q (utiliser (IV.16)) 54 (IV.16)
Algorithme
Simulation de Xk+1 aprs Xk = x
1. Tirer (.)/, U(x), 2. Soit n = |x|. Xk+1 = x { } Faire Xk+1 = x\{ } Xk+1 = x avec probabilit p1 =
1 2 1 2 min(1, n+1 q(x{ }) q (x ) ) n q(x\{ }) q (x ) )
avec probabilit p2 = min(1, avec probabilit p3 = 1 p1 p2 .
IV.7.5
Champs de Gibbs
Exercice IV.7.5.20 Soit un champ de Gibbs sur S et A S montrer que la loi conditionnelle de XA sachant (Xb )b / A est de la forme o Z ne dpend que des valeurs de X en dehors de A. Exercice IV.7.5.21 (Daprs X. Guyon) On considre le champ de Gibbs binaire sur S = {1, ...2n} de loi (x) = Z 1 eU (x) , U (x) =
i 2n1 i=1 2n2 i=1
P (XA |Xb , b / A) = Z 1 e
AC =
VC (XC )
xi +
xi xi+1 +
xi xi+2 ,
xi = 1.
1. Quels sont les points voisins dun point i S ? 2. Soit P (resp. I ) lensemble des indices pair (resp. impairs). Quelle est la loi de XI sachant XP ? Que se passe-t-il si = 0 ? 3. Dsormais = 0. On observe un vecteur (Yi )iP de variables indpendantes conditionnellement X telles que P (Yi = Xi |X ) = 1 P (Yi = Xi |X ) = . (a) Montrer quon a P (Yi |X ) = eXi Yi /(2 cosh( )) pour un bien choisi (calculer P (Yi |X ) dans les deux cas Xi Yi = 1 et Xi Yi = 1 et identier). (b) En dduire la loi de X sachant Y . (c) En dduire une mthode base sur un chantillonneur de Gibbs pour estimer E [X |Y ]. Exercice IV.7.5.22 On reprend lexemple de la segmentation dimage du IV.6 dans le cas gaussien. On suppose connu. Les i et ne sont pas connus. Il faut donc les estimer (pralablement X ). 1. En sinspirant du IV.4.4, proposer un algorithme pour raliser cette estimation au maximum de vraisemblance. On explicitera la solution de (IV.7). 2. On suppose que lon sait raliser la maximisation de (IV.10) en X (cest en fait un problme dicile). Proposer un algorithme itratif, moins rigoureux, pour estimer simultanment X , les i et . Exercice IV.7.5.23 Vrier la formule (IV.13). Exercice IV.7.5.24 On sintresse modier le modle binomial du IV.6.4. 1. Trouver une loi de probabilit satisfaisant la contrainte (loi de Poisson tronque) :
1 P (Xa = k |Xb , b = a) = Za
k a 1kna , k!
a = e+
cab Xb
Za est la constante de normalisation. 2. Mme question avec cette fois le modle de Poisson : P (Xa = k |Xb , b = a) = ea Pourquoi est-il ncessaire ici que cab que 2 sites S = {a, b}). k a , a = e+ b cab Xb . k! 0 pour tous a et b ? (Commencer par tudier le cas o il ny a 55
56
V Modles markoviens
V.1
Gnralits
Xn = Q(Xn1 , Un ), Un U([0, 1]) (V.1)
Les chanes de Markov tat discret ou scalaire peuvent toujours se mettre sous la forme
o Q(x, u) est la fonction quantile de la loi de Xn sachant Xn1 : Q(x, u) = min{y : P (Xn y |Xn1 = x) u}. Cest la mthode dinversion pour gnrer Xn connaissant sa loi, cf I.3.2. Si le processus est non-stationnaire, Q va dpendre de n. En pratique, la mthode dinversion est inutile car les chanes ont naturellement la forme (V.1), avec cependant U non-uniforme. Par exemple pour simuler un processus GARCH on utilisera directement des variables gaussiennes :
p p
Xn =
k=1 2 n
ak Xnk + n n +
p p 2 ck n k
k=1
bk nk nk ,
=s+
k=1
+
k=0
dk 2 nk .
2 Les n sont des N(0, 1) indpendantes, et n reprsente donc la variance de lerreur de prdiction de Xn sachant le pass. Ici (Xn , ...Xnp+1 , n , ...np+1 , n , ...np+1 ) est une chane de Markov. Ces modles sont utiliss en nance pour reprsenter des processus dont la variance est changeante ( volatility clustering ) et les queues de distribution leves. Il permettent galement de fournir des exemples de processus dcorrls dpendants (p.ex. accroissement journalier du logarithme dun cours boursier). Les exercices du V.6.2 prsentent dautres exemples de processus autorgressifs.
Le reste du chapitre est consacr au traitement de situations plus compliques.
V.2
Simulation des processus de saut
Les processus de Poisson sont des processus croissants valeurs sur les entiers successifs, et donc constants par morceaux. Un tel processus Nt est donc caractris simplement par les instants o il saute. Un saut reprsentera larrive dun vnement (arrive dun client,...). 57
Processus de Poisson intensit constante. Pour un tel processus, les interarrives (intervalle de temps entre deux sauts successifs) sont les v.a. E(). Il sut donc de simuler une suite i.i.d n E() et les k vnements arrivent aux instants Tk = i=1 i . Donc Nt = sup{k : Tk t}. Il se trouve que ce processus se caractrise par proprit suivante P (Nt+h Nt = 1|Ft ) = h + O(h2 ) o Ft est la tribu du pass avant t. On voit bien comment cette proprit sut en thorie simuler le processus : discrtiser le temps en intervalles de longueur h trs petite et faire un saut chaque instant nh avec probabilit h. Sur un intervalle [a, b] le nombre Na,b de sauts suit la loi P((b a)) et conditionnellement Na,b les sauts sont uniformment rpartis, ce qui donne une autre faon de simuler. De plus Na,b et Nc,d sont indpendants si [a, b]]c, d] = . Principe de superposition. Soient Nt et Nt deux processus de Poisson, alors leur superposition Nt + Nt est encore un processus de Poisson de paramtre + . Processus intensit variable. On a maintenant, pour une certaine fonction t P (un saut sur [t, t + h]|Ft ) = t h + O(h2 ).
t 0
(V.2)
0 Une mthode simple de simulation est dutiliser que le processus Nt se rcrit galement N( t) , o (t) =
s ds et Nt0 est un processus de Poisson dintensit 1. Pour une mthode dirente de type rejet, voir [33]. Na,b suit ici la loi P((b) (a)) avec cette fois la rpartion de densit t /((b) (a)). La proprit dindpendance et le principe de superposition restent. Processus de Hawkes. Soit (t) une fonction positive et (t) une autre fonction positive, nulle sur R et dintgrale < 1. Le processus de Hawkes associ est construit de la faon suivante : simuler la premire gnration qui est un processus dintensit . Partant de chaque vnement Ti de premire gnration, simuler ses enfants comme un processus de Poisson dintensit (t Ti ) (ce sont donc des vnements postrieurs Ti ). Simuler ensuite la troisime gnration de manire analogue en partant de chaque vnement de la seconde, et continuer jusqu extinction des familles (ce qui arrive car (t)dt < 1 : Le nombre denfants dune gnration est desprance = et lon montre facilement que le nombre de descendants dun parent donn est desprance 1 + + 2 ... = 1/(1 )). Processus intensit stochastique. Il arrive que lintensit s dans (V.2) dpende du pass de la trajectoire avant s. Il est remarquable que si est de la forme t = (t) + Ti t (t Ti ) on retrouve le processus de Hawkes prsent ci-dessus 1 . Des modles de ce type sont utiliss pour les tremblements de terre (secousse initiale puis rpliques) 2 , avec par exemple (x) = a + b(x + c)p , = cste. Ou encore 3 s = (t Nt ) o est une fonction croissante > 0. La simulation peut se faire par une sorte de mthode de rejet si lon sait que est born par une constante M connue : Il sut de simuler un processus de Poisson Tn dintensit M puis successivement pour chaque n, simuler une variable Un U([0, M ]) et ne garder Tn que si Un est infrieur lintensit Tn en Tn calcule sur la base du pass de la nouvelle trajectoire. On vrie facilement que (V.2) est satisfait. Voir [33] pour un ranement.
1. Thorme de Hawkes et Oakes, voir leur article de 1984. 2. Y. Ogata, K. Katsura, M. Tanemura (2003), Modelling heterogeneous space-time occurrences of earthquakes and its residual analysis, J.R.S.S. series C, 52 (4), 499-509. 3. Y. Ogata, D. Vere-Jones, Inference for earthquake models : a self-correcting model, Stochastic Process. Appl. 17 (1984), no. 2, 337347. Un application trs dirente concernant les parasites du pin est tudie dans : J.G. Rasmussen, J. Mller, B.H. Aukema, K.F Raa, J. Zhu, Bayesian inference for multivariate point processes observed at sparsely distributed times, 2006, www.math.aau.dk/jm/ipscont-techreport.pdf.
58
Un processus sauts markoviens est caractris par sa matrice de taux de transition A = (Aij ) dun tat lautre. Sa caractrisation innitsimale est : P (Xt+h = j |Ft ) = P (Xt+h = j |Xt ) = Aij h + O(h2 ), Xt = i = j. (V.3)
Comme prcdemment on pourrait simuler approximativement ainsi : discrtiser le temps en intervalles de longueur h trs petite et chaque instant nh faire un saut vers un point j dirent de i = Xnhh avec probabilit Aij h et rester en i avec probabilit 1 j =i Aij h. On peut simuler ce processus comme suit : soit X (t) = i ltat courant, pour chaque tat j = i on simule une variable exponentielle de paramtre Aij et lon fait la transition correspondant au minimum m de ces variables. On a alors ltat linstant X (t + m), et X (s) = X (t) pour s [t, t + m[. Il est plus simple dutiliser la proprit suivante : On vrie que partant de i, j est choisi avec probabilit Qij = Aij / k=i Aik . Si lon fait abstraction du temps, lvolution peut donc se faire par une chane de Markov (chane induite). Le temps quon reste dans chaque tat peut tre simul ensuite, sa loi est une v.a. exponentielle indpendante du reste et de paramtre j =i Aij , si ltat est i. La matrice Pt = (P (Xt = j |X0 = i))ij satisfait Pt = etA , avec Aii = j =i Aij . La (ou les) mesure invariante (commune tous les Pt ) satisfait A = 0. Attention : na pas de raison dtre une mesure invariante pour Q car i prend galement en compte le temps quon reste dans ltat i ; en revanche i Aii est mesure invariante pour Q (vrier !). Exemple 1 : volution du SIDA. Les auteurs 4 considrent un modle 5 tats (Infect sans anticorps, avec anticorps sans symptomes, avec premiers symptomes, tat cliniquement avanc, mort) :
1
Anticorps Pr-symptomes Symptomes
2
+
3
+ +
4
+ +
partir dune tude portant sur 513 individus, les auteurs obtiennent les estimes suivantes des paramtres i en mois1 : 0.46, 0.02, 0.016, 0.04. Exemple 2 : Dynamique des pidmies : modle SIS. Soit une population de taille n. Chaque individu est soit sain soit infect. Chaque individu infect gurit indpendamment du reste en un temps de paramtre ( is the reciprocal of the mean infectious period) et chaque individu sain est infect en un temps de paramtre proportionnel au nombre it dinfects it /n ; est appel taux de contact infectieux . Il y a donc 2n tats et 2n transitions possibles. Ce modle est rsum par le tableau de gauche transition infect sain sain infect taux i/n transition ii1 ii+1 taux i i(n i)/n
On vrie facilement que la relation (V.3) est satisfaite par it qui est donc lui-mme un processus sauts Markovkiens dont les taux sont donnes par le tableau de droite ; on peut le vrier plus rigoureusement en passant par la chane induite et en exploitant quun minimum de v.a.i.i.d. exponentielles est encore exponentiel. Il ny a plus que n + 1 tats et 2 transitions possibles chaque fois. Le passage de i illustre que le min de i v.a.i.i.d. E() est E(i). Des valeurs raisonnables pour la grippe sont = 0, 36 par jour (un sujet atteint reste infectieux pendant environ 3 jours) et = 0, 96 par jour 5 . Voir aussi le modle SIR de lexercice V.6.1.8.
4. Longini, Clark, Byers, Ward, Darrow, Lemp, Hethcote, Statistical analysis of the stages of HIV infection using a Markov model, Stat Med. 1989 July 8(7), pp 831-843. 5. A. Lavenu, A-J. Valleron , F. Carrat, "Exploring cross-protection between inuenza strains by an epidemiological model",
59
Exemple 3 : Dynamique des populations. On considre M populations (tats voisins) et lon note Yi leectif de la i-ime population, Y = (Y1 , ...YM ), ei = (0, ...0, 1, 0, ...). Ltat est Y et lon se donne 2M + M (M 1)/2 transitions possibles suivantes 6 : transition Y Y + ei Y Y ei Y Y ei + ej taux Yi b Yi d + Yi (1 ) Yi /(M 1) b : taux de naissance, d : taux de dcs, : taux dmigration : fraction dmigrants restant dans la communaut.
La division par M 1 vient de ce que le taux dimmigration mlange tous les pays de destination ; le taux dimmigration de i vers j est /(M 1). Si lon utilise la mthode de la chane induite, le temps exponentiel simuler chaque transition aura pour paramtre Yi (b + d + ). Exemple 4 : Raction chimique. On considre un compos de n = ([A], [B ], [C ]) molcules de A, B et C par litre avec la raction A+B C Posons e = (1, 1, 1), alors, si k1 et k2 sont les constantes de vitesse des deux ractions : transition nn+e nne taux k1 [A][B ] k2 [C ]
quation diffrentielle limite. En utilisant ces quations et (V.3) il vient E [n(t + dt) n(t)|n(t)] = k1 [A]t [B ]t edt k2 [C ]t edt. Si lon considre que pour n grand, la loi des grands nombres va impliquer que [X ] E ([X ]), X = A, B, C , on retrouve alors les quations de la cintique chimique d[A] d[B ] d[C ] = = = k1 [A][B ] + k2 [C ]. dt dt dt
V.3
Simulation de processus vnements discrets
La simulation va calculer ltat du systme chaque instant dvnement, ce qui sut avoir ltat sur tout le temps puisque rien ne se passe entre deux vnements. Pour la simulation, ltat sera augment de faon rendre markovien le systme chantillonn aux instants dvnements, et faciliter la simulation ; il contiendra typiquement les informations suivantes : nombre dindividus dans chacune des parties du systme temps absolu (date du dernier vnement) tat instants dvnements venir initialiss dans le pass autres informations sur le pass du systme
La dernire catgorie contient toutes les variables supplmentaires ncessaires la simulation des vnements (par exemple si un temps de service dpend du temps coul depuis la dernire maintenance, ce dernier devra tre propag dans la simulation). Un vnement venir initialis dans le pass est typiquement la livraison dune commande dj passe.
Virus Research 103 (2004). Sur un plan plus gnral concernant ces modles, on pourra consulter le rapport de V. Isham, Stochastic models for epidemics, 2004. www.ucl.ac.uk/statistics/research/pdfs/rr263.pdf 6. F. Arrigoni, Deterministic approximation of a stochastic metapopulation model Adv. Appl. Prob., vol 35, No 3, 691-720, 2003.
60
Le choix de ltat contient une part darbitraire ; par exemple si lon simule la superposition de deux processus de Poisson on peut simuler directement ce nouveau processus de Poisson ou prfrer pour dautres raisons simuler les deux et les superposer ensuite. Il peut arriver que le nombre de variables prendre en compte dans ltat ne puisse pas tre rduit un nombre ni donn lavance. Cest par exemple le cas si les clients dune le dattente simpatientent et partent si leur service na pas commenc aprs un temps T : les temps de dpart potentiel des clients faisant la queue devront tre inclus dans ltat. De plus certaines variables doivent tre rcupres en cours de simulation pour valuer les statistiques requises. Gestion dinventaire. Ce problme est caractris par les points suivants Politique de gestion des stocks Renouvellement : soit S la quantit de marchandise en stock, alors ds que S < s , on achte s+ S au prix de cm (s+ S ). Le dlai de la livraison est dl . Cet achat est payable la livraison. Inventaire : Les cots dinventaire sont de ci par unit de temps et de marchandise. Dynamique des clients : ils arrivent avec un taux pour acheter min(Q, S ) de marchandise au prix unitaire p. Q est une v.a. de loi Q. La transaction est instantanne. On pourrait aussi tenir compte de la dtrioration des stocks... Le problme concret qui peut se poser est par exemple loptimisation de s , qui doit te assez petit pour viter trop de commandes et assez grand pour viter que trop de clients ne partent en achetant moins de marchandise que prvu. On a la structure suivante arrive dun client arrive dune livraison vnements passage dune commande (concide avec larrive dun client) S = volume du stock C = volume de la commande en cours t = temps absolu tat L = instant darrive de la prochaine livraison (+ si C = 0) A = instant darrive du prochain client si A < L , on simule la transaction et linstant darrive du suivant : et lon passe une commande en cas de baisse excessive des stocks : si S < s et C = 0 : sinon : puis lvolution du bnce : si L < A , on a : X = (S + C, 0, L , +, A ), B = B + min(Q, S )p (t t)Sci . B = B cm (C ) (t t)Sci .
C = s+ S , L = t + dl C = C, L = L t = A , Q Q, S = S min(Q, S ), A E() + t
On sintressera galement la variable B reprsentant le bnce. La simulation du nouvel tat X = (S , C , t , L , A ) et de B se fait selon deux cas :
Nous renvoyons [33] pour des discussions plus approfondies sur ce sujet.
V.4
Modles spatiaux dynamiques
Il sagit dun processus sauts markoviens qui vit sur une grille S (partie nie de Z2 , ou nimporte quelle partie nie de lespace euclidien, ou ventuellement un domaine plus gnral), et volue en fonction de ses voisins avec une dynamique de processus de saut. 61
Comptition entre espces. Le plan est discrtis en sites o 3 tats sont possibles selon ce qui y pousse : herbe, buisson, arbre. Le processus X (t) dcrit chaque instant ltat dans lequel se trouve chaque site : Xa (t) X, a S , o S est lensemble des points et X est lensemble trois lments (tats). Il y a cinq transitions correspondant la naissance ou la mort dun buisson ou dun arbre : 0 : herbe 1 : buisson 2 : arbre transition taux 01 1 nij (1) 02 2 nij (2) 10 3 12 4 nij (2) 20 5
nij (1) est bien entendu le nombre de buissons dans les sites voisins de (i, j ). Ici le nombre de transitions possibles partant dun tat est 2n0 + 2n1 + n2 o ni est le nombre de sites dans ltat i. Ce type de modle stend immdiatement davantage despces, et peut faire apparatre des comportements trs dirents selon les valeurs des paramtres (disparitions despces, coexistence, oscillations...) 7 . Aspects pratiques. La mesure invariante de ce processus (et de la chane associe) est clairement celle o il ny a que de lherbe ; cest la situation vers laquelle converge X (t). Pour un certain domaine de valeurs de , cette convergence peut tre trs lente si la grille est grande ; on peut expliquer cela thoriquement par le fait que la chane de Markov correspondante admet des mesures quasi-invariantes (i.e. qui satisfont P 1), sur lesquelles la chane peut sinstaller longtemps ; ces mesures sont intressantes car elles reprsentent des situations typiques avant dsertication 8 . Voir lexercice V.6.1.9 pour des complments sur ce type de phnomnes. Si lon sintresse simuler ces situations typiques (pour dirents ...) il faut soit arrter la simulation temps, soit se mettre en rgime stationnaire aprs avoir modi les rgles du jeu par exemple en autorisant des transitions vers 1 ou 2 bien que les voisins soient 0, ou en maintenant autour de la grille une certaine proportion dindividus 1 ou 2.
Catalyse. S reprsente maintenant la surface dun catalyseur. Lair ambiant contient du monoxyde de carbone CO et de loxygne O2 . Le catalyseur transformera le CO en CO2 au travers des trois transitions suivantes 9 : 1. Une molcule de CO atterit sur un site libre 2. Une molcule dO2 arrive sur deux sites libres voisins et se scinde en deux avec un atome par site 3. Une molcule de CO et un atome doxygne se trouvant sur deux sites voisins reagissent formant une molcule de CO2 qui schappe. Chacune de ces transitions se fait avec son propre taux. Dans larticle original de Zi, Gulari et Barshad (1986) la dernire transition est instantanne (taux inni), et p dsigne 1 /(1 + 2 ) (1 et 2 sont les taux des deux transitions restantes). p peut sinterprter comme la proportion de CO dans le mlange ambiant CO/O2 . Ils ont obtenu par simulation les rsultats de la gure ci-dessous pour les concentrations de CO et dO sur la surface en rgime stationaire (mesure quasi-invariantes quand le nombre de sites est grand). Ils mettent en vidence trois rgimes :
7. D. Tilman, Competition and bio-diversity in spatially structured habits, Ecology, 75, 2-16, 1994. 8. Gnralement ces mesures correspondent des mesures invariantes pour une grille innie, au sens o, lorsque la la taille de la grille tend vers linni, P tend vers 0 et converge en un sens adquat vers une certaine mesure. 9. M. Bramson, C. Neuhauser, Coexistence for a catalytic surface reaction model, Ann. Appl. Prob., Vol 7, No 3,565-614, 1997.
62
1.2 1.0 0.8 O 0.6 0.4 0.2 CO 0 0.2 0 0.2 0.4 0.6 0.8 1.0 O O CO
Concentrations en fonction de p p [0, p1 [ p ]p1 , p2 [ p ]p2 , 1] : empoisonnement loxygne : coexistence : empoisonnement au CO p1 0, 389 et p2 0, 525.
V.5
Modles semi-markoviens, modles dtat
Un processus semi-markovien est un processus Yn pour lequel il existe une chane de Markov Zn et une fonction f tels qu chaque instant n, Yn = f (Zn ). En pratique, la modlisation naturelle est Yn = f (Xn , Wn ) o Wn est une suite i.i.d indpendante du reste, et Xn (ltat) une chane de Markov ; alors Zn = (Xn , Yn ) est une chane de Markov et Yn est donc semi-markovien. Do la reprsentation gnrale usuelle Xn1 Yn1 Xn Yn Xn+1 Yn+1
o chaque che reprsente un tirage selon une loi qui ne dpend que du point dorigine. Dans les applications, les Yn sont les observations et (Xn ) est une trajectoire inconnue que lon cherche reconstituer. Il se peut, comme dans lexemple de lexercice IV.7.2.14 que Yn soit une fonction de Xn : dans cette application Xn N7 et Yn = (Xn1 , Xn2 + ... + Xn7 ).
V.5.1
Modles linaires
Xn+1 = AXn + Vn Yn = CXn + Wn (V.4) (V.5)
Les modles semi-markoviens les plus classiques sont les modles linaires.
o (Vn , Wn ) est une suite indpendante, gnralement gausienne de loi connue. A et C sont des matrices connues (ou estimer...) de dimensions adquates. Considrons par exemple le problme du suivi dun avion par un radar (ou un missile...) ; on note xn et x n la position et la vitesse de lavion linstant n, et Yn la mesure de position prise par le radar. On supposera (en absence dautre information...) que la vitesse varie lentement de manire inconnue, ce qui conduit au modle xn+1 = xn + hx n + un x n+1 = x n + vn Yn = xn + Wn
2 o h est le pas de temps. Ici Xn = (xn , x n ) est de dimension 6. Le bruit un a une variance u certainement 4 2 trs faible, dordre h , puisque la premire quation est ralise O(h ) prs ; on pourrait le prendre nul (ce que lon fera dans lexemple suivant) ; de mme vn a une variance dordre O(h2 ). Pour avoir un modle stable, on peut prfrer remplacer la deuxime quation par x n+1 = x n + vn avec 0 < < 1, il se trouve que cela nest pas trs important pour lapplication (estimation de ltat). Notons quavec une quation de plus (voir plus bas), on peut raliser un modle analogue, mais avec acclration constante (en moyenne).
63
Le but est destimer au mieux la position xn au vu des Yi , i n, seulement. Le ltre de Kalman donne une solution simple ce problme, qui correspond postuler une loi gaussienne pour Vn = (un , vn ) et pour n = E [Xn |Y1 , ...Yn ]. Ces estimes sont appeles les estimes ltres, X0 , et calculer chaque instant X et se calculent par un systme dquations classique (Annexe A). Cette mthode permet de dbruiter les Yi en introduisant linformation que la vitesse varie peu. Mentionnons simplement que x n est la dernire coordonne de la suite qui maximise la vraisemblance jusquau temps n (pour simplier lquation qui suit 2 on se place en dimension 1 et lon suppose les bruits indpendants ; on postule une loi N( x0 , 0 ) pour x0 ) x = arg
x1 ,...xn ,x 1 ,...x n
min
(x0 x 0 )2 + 2 0
n k=1
(x k x k1 )2 (Yk xk )2 (xk xk1 + hx k1 )2 + + . 2 2 2 u v W
Chaque terme peut sinterprter comme un cart au modle idal (bruits nuls), avec une certaine pondration. Comme le ltre de Kalman calcule galement la variance de Xn sachant Y1 , ...Yn , il fournit en fait la loi (gaussienne) de Xn sachant Y1 , ...Yn .
2.3
+
1.9
+
+ +
1.5 1.1 0.7 0.3 0.1 0.5 0
+ + + + + + + + + + + ++ + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Vrit (continu) Observations (+) Estimes ltres ( ) Estimes lisses ().
10
20
30
40
50
Si lon observe sur un temps N , on peut galement cacluler les estimes lisses (smoothed) x n = E [xn |Y1 , ...YN ] qui sont meilleures mais arrivent avec retard. La gure ci-dessus illustre le ltre de Kalman et le lisseur. On a pris le modle acclration constante (en dimension 1 pour simplier) xn+1 = xn + hx n x n+1 = x n + hx n x n+1 = x n + vn Yn = xn + Wn ,
2 2 = 0.5, W = 0.4, X0 = (x0 , x 0, x 0 ) = (0, 0.5, 0.5). h = 0.04, v
Nous renvoyons des exposs classiques sur le ltrage linaire pour plus dinformation. Mentionnons galement quil est dans une certaine mesure possible destimer les matrices A et C partir dun chantillon Y1 , ...Yn .
V.5.2
Modles non-linaires. Filtrage particulaire
On suppose cette fois que Xn est une chane de Markov de noyau de transition Q(x, dx ), et que Yn a une certaine loi (loi dmission) sachant ltat Xn que lon notera R(x, dy ). Xn1 R Yn1
Q
Xn R Yn
Xn+1 R Yn+1
64
Si Xn a un espace dtats ni X, on parle souvent dun Modle source markovienne cache ou dun Modle de Markov cach (Hidden Markov Model, HMM) ; il sera paramtr par la matrice de transition de Xn et par les densits (souvent supposes gaussiennes) R(x, dy ), x X ; on a donc un nombre ni de paramtres (au moins dans le cas gaussien). Tant que la taille de X reste raisonnable, tout est assez bien matris en thorie comme en pratique, puisque depuis maintenant longtemps on dispose de mthodes de ltrage donnant la loi de ltat sachant les observations, et galement de mthodes destimation des paramtres des modles partir des observations seulement [32, 14]. Cest pour cela quune des solutions courament propose pour traiter le cas non-linaire est de discrtiser lespace dtats, ce qui dun point de vue pratique est souvent dicile raliser. Exemple 1 : Changements de rgime 10 . On observe le nombre Yn de crises dpilepsie dun patient par jour sur une anne (n est donc le jour). Les donnes laissent supposer deux rgimes dirents, un avec beaucoup de crises et un avec des crises rares. Un modle de Markov cach naturel consiste postuler lexistence dune chane de Markov Xn deux tats non-observe, reprsentant le rgime, et pour Yn se donner une loi de Poisson de moyenne i si Xn = i. Le modle possde 4 paramtres indpendants : les deux probabilits de transition p11 et p22 (qui caractrisent la loi du temps pendant lequel le patient reste dans chaque tat), et les deux moyennes 1 et 2 . Tous ces paramtres peuvent tre estims par des algorithmes (dans lesprit de IV.4.3 et IV.4.4), et leur valeur permet de caractriser plus prcisment la maladie. Le ltrage estimera la suite des tats. Exemple 2 : Modification du modle linaire. Dans (V.4), par exemple si lon remplace AXn par f (Xn ) il nexiste pas de solution gnrale satisfaisante au problme de ltrage. Cest galement le cas si lon reprend cette fois le modle vitesse (ou acclration) constante mais cette fois en dimension deux 2 (poursuite dun sous-marin...) et quau lieu dobserver la position xn = (x1 n , xn ), on nobserve que langle, 2 1 soit Yn = arctan(xn /xn ) + Wn . Exemple 3 : Changements de moyenne 11 . Au cours dun forage ptrolier, il est trs important de dtecter les changements de roche traverse an dajuster la pression du forage. On se donne le modle suivant pour les observations ( rponse magntique nuclaire ) : Xn avec probabilit p Vn avec probabilit 1 p Yn = Xn + Wn Xn+1 = (Vn , Wn ) est une suite gaussienne. Les sauts dans la suite Xn reprsentent un changement de roche. Exemple 4 : Changements de dynamique 12 . La variable Yn est lintensit du vent et Xn est une chane de Markov prenant trois valeurs correspondant trois situations mtorologiques typiques dans le Golfe de Gascogne (anticyclone des Aores,...). Yn suit une loi AR- dordre 1 (exercice V.6.2.10) dont les coecients dpendent de Xt . Comme la loi de Yn dpend galement de Yn1 , ...Ynp , il sagit dun modle dtat condition de rajouter (Yn1 , ...Ynp ) ltat. Exemple 5 : Population des grues blanches dAmrique. Ce modle est prsent lexercice IV.7.2.14 ; lobservation est Yn = (Bn , Wn ). On y voit comment lestimation peut se faire, dans un cadre baysien, par une mthode dchantillonneur de Gibbs, dans le mme esprit quau IV.4.2, la structure markovienne nintervenant pas particuliremment, si ce nest quelle permet dcrire la vraisemblance 13.
10. N.D. Le, B.G. Leroux, M.M. Puterman, Exact likelihood evaluation in a Markov mixture model for time series of seizure counts, Biometrics, 48, 317-323, 1992. 11. J. Carpenter, P. Cliord, P. Fearnhead, Building Robust Simulation-based Filters for Evolving Data Sets, Tech. Rep., Dept. Statist., Univ. Oxford, Oxford, U.K., 1999. 12. P. Ailliot & al, Simulation of sea state parameters process to study the protability of a maritime line, Proc. ISOPE Conf., vol. III, pp. 51-57, 2003 13. Pour un autre exemple intressant de H.M.M. avec utilisation de lchantillonneur de Gibbs pour lestimation : M.C.M. de Gunst, H.R. Knsch, J.G. Schouten., Statistical analysis of ion channel data using hidden markov models with correlated state-dependent nois and ltering, J.A.S.A., Vol. 96, No. 455, pp. 805-815, Sept. 2001.
65
Filtrage particulaire. On va estimer la loi n de Xn sachant Y1 , ...Yn par une mthode de simulation gnrale. Il sagit donc dchantillonnage postrieur, ce qui peut tre appliqu lestimation des paramtres du modle (cf IV.4.3 et IV.4.4). Commenons par le cas discret pour simplier les notations ; Q et R sont donc des matrices et n est cod par un vecteur ligne dont chaque coecient dpend de Y1 , ...Yn . Si lon note n la loi de Xn sachant Y1 , ...Yn1 , une simple application de la formule de Bayes conduit aux relations : Prdiction : Correction : o lon a not (a b)i = ai b i . j aj b j n = n1 Q n = n R(., Yn )
Le passage de n1 n correspond une tape de chane de Markov et fait diuser la mesure tandis que le passage de correspond lintroduction de lobservation et a un eet de concentration. Si lon est en n n continu, ces formules deviennent pour les densits par rapport la mesure de rfrence m(dx) (Lebesgue...) n (x) = n1 (y )Q(x, y )m(dy ) (a b)(x) = a(x)b(x) . a(x)b(x)m(dx)
n (x) = n (x) R(x, Yn ),
La valeur initiale 0 doit tre spcie (loi a priori de x0 ). La propagation de ces quations est en pratique impossible raliser exactement (sauf dans le cas linaire o cest le ltre de Kalman et dans le cas discret ni). La mthode particulaire consiste approximer n par une distribution de particules, c.--d. une somme de masses Dirac (de manire analogue la distribution au temps n de multiples rpliques indpendantes dune chane de Markov reprsente bien sa loi instantanne). La mesure n sera approche par f (x)n (x)m(dx) n 1 I
I i f (n ) i=1
Le passage de n1 se fera simplement par une transition de Markov (donc par simulation) partant de i chaque n 1 , on obtient alors un ensemble n , et le passage de n n se fait par tirage de particules dans i lensemble prcdent selon la loi sur {1, ...I } proportionnelle ri = R(n , Yn ) Il est plus prcis et moins coteux de raliser la dernire tape de manire dterministe en remplaant i chaque particule n par i = [Ii ], i = ri / j rj , exemplaires delle-mme ; comme cette mthode modie lgrement le nombre total de particules, on prfrera faire comme suit Algorithme Tirage des I particules au temps n. rj , si =
i j =1 i i i 1. Pour chaque particule n 1 , tirer n Q(n1 , y )m(dy ) j i n
n1 n n .
R(.,Yn )
i 2. Calculer les vraisemblances ri = R(n , Yn ), i = ri /
j , s 0 = 0 .
3. Remplacer par i exemplaires delle-mme, o i est le nombre dentiers dans lintervalle (Isi1 + 0.5, Isi + 0.5] (dirence des parties entires des bornes).
On voit en particulier quavec cette mthode le rchantillonnage est sans eet si R est constant. Avant le calcul des i on peut permuter alatoirement les particules ce qui permet de ne pas prendre en compte leur arrangement (qui nintervient que dans la mesure o i dire de [Ii ]). Rien ninterdit de tirer n sous une loi dirente quitte compenser ensuite, comme lors dun chantillonnage prfrentiel
n n , n1 n
Qn
i i i i i Rn (n ) = R(n , Yn )Q(n1 , n )/Qn (n )
66
la loi Qn pouvant dpendre du pass de la simulation et des observations. Un bon choix est Qn (x) i R(x, Yn )Q(n 1 , x) [1] ; si R est born, on peut envisager de raliser cela avec une methode de rejet base i sur Q (C = R(y, Yn )Q(n 1 , y )m(dy )/ maxx R(x, Yn ), cf I.3.4). On trouvera des complments dans [2, 24, 1] et des applications tout--fait intressantes sur le site www.cs.washington.edu/ai/Mobile_Robotics/projects. Lissage trajectoriel. Pour estimer la loi de X0 , ...Xn sachant Y1 , ...Yn , on peut faire le mme raisonnement que prcdemment mais en considrant ltat Xi = (X0 , ...Xi ). Cela se traduit dans lalgorithme i i i prcdent simplement par le fait que la particule n sera dsormais lie son pass (0 , ...n 1 ) et que le rchantillonnage se fera sur les trajectoires compltes (si bien quau bout dun certain temps, force dlimination par rchantillonnage, les premiers tats seront les mmes pour tous).
V.6
V.6.1
Exercices
Processus vnements discrets
Exercice V.6.1.1 On reprend lexercice IV.7.1.1. On sintresse dsormais au processus Yt dsignant le nombre de puces dans la premire bote au temps t. On rappelle quon avait trouv P (Xn+1 = i 1|Xn = i) = i/m = 1 P (Xn+1 = i + 1|Xn = i). On suppose que chaque puce fait ses sauts en des instants poissonniens de mme paramtre . Montrer que Yt est un processus sauts markoviens dont on donnera la matrice Aij (utiliser le modle par chane de Markov induite). Exercice V.6.1.2 Soit la le deux serveurs en srie E E G1 E E G2 E t On dsigne par systme 1 la premire le dattente et le premier serveur , et le systme 2 est dni de manire analogue. Les clients arrivent en entre du premier systme selon un processus de Poisson dintensit puis se font servir par le premier serveur, le service tant alatoire de distribution G1 puis refont ventuellement la queue et se font servir par le deuxime serveur (dsitribution G2 ). Montrer quon peut simuler la le en considrant ltat suivant N1 , N2 = nombre de clients dans les deux systmes t = temps absolu tat 1 , 2 = instant de n du service en cours de chaque serveur A = instant darrive du prochain client
Exercice V.6.1.3 On considre une le deux serveurs en parallle : E G1 B E t r rr j G r E 2 Le client en tte de le occupe le premier serveur qui se libre, et le serveur 1 si les deux sont libres. Quel tat choisira-t-on ? Expliciter le schma de simulation.
Exercice V.6.1.4 Un patient reoit des injections des instants ti espacs selon une certaine loi gamma. chaque fois, la dose injecte xi suit une loi log-normale ; la quantit de produit actif rsiduelle dans le corps t due la i-ime injection sera xi e(tti ) (amortissement exponentiel). 67
Proposer une mthode pour simuler la quantit de produit actif dans le corps du patient aux instants dinjection, en tirant prot de la forme de lamortissement pour simuler avec un tat de dimension 1. Exercice V.6.1.5 On considre une le dattente serveur unique. Montrer la relation exprimant lattente Wi du i-ime client celle du prcdent, au temps de service du prcdent Si1 et linter-arrive Ai : Wi = (Wi1 + Si1 Ai )+ , W0 = 0. On pourra faire un schma o lon dispose les vnements dintrt sur laxe des temps. Exercice V.6.1.6 [33] Un atelier possde m + n machines identiques et nen utilise que n simultanment au plus. Un employ est charg de la rparation des machines en panne. On se donnera une loi pour la dure de rparation et une autre pour la dure de vie dune machine remise neuf. Proposer un algorithme de simulation avec un tat de dimension n + 2. Exercice V.6.1.7 Expliciter le schma de simulation de lexemple du pompiste du II.4.3. Exercice V.6.1.8 Soit le modle SIR (Susceptible, Infectious, Recovered/Resistant) transition (S, I, R) (S 1, I + 1, R) (S, I, R) (S, I 1, R + 1) (S, I, R) (S + 1, I, R 1) taux SI/n I R
Montrer que si lon suppose que par un eet de loi des grands nombres, population leve, It /n et St /n sont proches de leur esprance on trouve les quations du modle SIR dterministe pour ces quantits (on garde abusivement la mme notation) : = SI I, I = SI + R, S = I R. R Que peut-on dire si / < 1 ? Le facteur R0 = / est estim entre 2 et 5 pour le SIDA, 3 et 5 pour la variole, 16 et 18 pour la rougeole 14. *Exercice V.6.1.9 (Dynamique des pidmies, mesure quasi-invariante 15 ) Soit une population de N individus. chaque instant k N, il y a Ik individus infects et Sk = N Ik individus sains. Le passage de k k + 1 se fait de la faon suivante : les Ik individus infects sont sains au temps k + 1, et chacun des Sk individus a une probabilit p de rencontrer chacun des Ik individus infects (et contracter linfection), ces Ik vnements tant indpendants. p est le taux de contact infectieux. 1. Calculer la probabilt pour un des Sk individus donn de ne pas avoir contract la maladie au temps k + 1. 2. En dduire que la probabilit de transition de la chane de Markov Ik satisfait p00 = 1 et 3. Quelle est la mesure invariante ? (vrier lapriodicit et lindcomposabilit). A-t-on irrductibilit ? On voit donc que Ik converge toujours vers 0. En simulation on observe que le temps datteinte de 0 est quasi-astronomique (pour N un peu grand, par exemple N = 30) ds que q passe en dessous dune certaine limite, tandis que si q est au dessus de cette valeur, Ik tend vers 0 assez vite. Pour tudier ce phnomne on 1/N va poser q = q0 et considrer le comportement asymptotique de Ik /N quand N est grand. 4. Dmontrer que E [Ik+1 |Ik ] = (N Ik )(1 q Ik ). 5. On pose xk = limN Ik /N (on suppose que la limite existe en probabilit). En dduire que xk = xk limN E [Ik ]/N puis que xk+1 = (1 xk )(1 q0 ).
14. M. Keeling, The mathematics of diseases, Plus Magazine, No 14, 2001, plus.maths.org/issue14. Voir aussi www.maths.warwick.ac.uk/keeling/Pop_Dyn. 15. I.M. Longini, A Chain Binomial Model of Endemicity, Mathematical Biosciences, 50, 85-93, 1980.
j i j i(N ij ) pij = CN 1i+j N , i (1 q ) q
q = 1 p.
68
On montre que si q0 e > 1 alors xk tend vers 0. En revanche, si q0 e < 1 alors xk converge vers le point xe non-nul x (q0 ) de lquation prcdente, ce qui montre que pour une population grande, si q N e > 1, Ik aura tendance se stabiliser un certain temps autour de la valeur I = N x (q N ) avant de tendre vers 0. On pourra faire une simulation avec par exemple N = 30 et q au voisinage de 0, 93 ; on vriera que la valeur thorique I correspond assez bien la ralit, en revanche, le seuil dendmie q = e1/N est assez approximatif. On pourra observer quau dessous du seuil dendmie le spectre de la matrice P contient une valeur propre trs proche de 1 associe un vecteur propre composantes positives, tracer la mesure quasi-invariante correspondante, et la comparer aux donnes observes pendant le long transitoire de la simulation.
V.6.2
Modles autorgressifs
Exercice V.6.2.10 (Suite de lexemple 4 page 65) Soit le processus Yt tel que, conditionnellement au p pass (..., Yt2 , Yt1 , ) Yt suit la loi gamma de moyenne t = i=1 ai Yti + b et de variance 2 . Les para2 mtres sont donc (p, a1 , ...ap , b, ). On rappelle que la loi gamma de paramtre et admet pour densit ()1 ey/ y 1 1y>0 , avec pour moyenne et variance = et 2 = 2 . Expliciter la densit de Yt sachant le pass. Remarque : Autorgressif circulaire. Si Yt permet de modliser lintensit du vent, on peut galement modliser sa direction t par une sorte de processus autorgressif : Breckling 16 propose le modle markovien suivant pour t : sa loi conditionnelle (t1 , t2 , ....) suit une distribution de von Mises 17 M (t , t ) avec t eit = a1 eit1 + ... + ap eitp + est un complexe xe ; les paramtres sont donc (p, a1 , ...ap , ).
16. G. Breckling, The analysis of directionnal time series : applications to wind speed and direction, Lecture Notes in Statistics 61, Springer, 1989. 17. La distribution de Von-Mises de paramtres (, ), M (, ), est la distribution sur [0, 2 ] de densit (2I0 ())1 e cos() , o I0 (x) est la fonction de Bessel dordre 0. On a E [ei ] = I1 ()ei /I0 () ; est un paramtre 2 de concentration. Cest la mesure invariante de lEDS dt = sin(t )dt + dwt , pour tout choix de . 2 Pour la simulation, voir : D.J. Best, N.I. Fisher, Ecient Simulation of the von Mises Distribution, Applied Statistics, Vol. 28, No. 2,1979 , pp. 152-157.
69
70
VI Simulation de processus : convergence
On sintresse au problme gnral suivant : On sait simuler une chane de Markov, que lon suppose indcomposable et apriodique, et lon veut estimer la moyenne dune certaine fonction g sous la mesure invariante : = E [g (Xn )]. Rappelons les deux points importants dj mentionns : on ne simule plus des variables indpendantes les variables nont pas la loi ds le dbut ; il y a seulement convergence. Le premier point introduit de la variance supplmentaire dans les estimateurs tandis que le second introduit du biais. Le thorme 12 garantit que ce biais dcrot avec vitesse exponentielle ; cependant lorsque lespace dtats est trs grand il arrive souvent que dans la formule (IV.1) |2 | soit trs proche de 1 et C trs grand. La mthode simple consistant simuler une trajectoire Xn et poser = 1 N
N
g (Xn )
n=1
devra tre amliore. Le problme pos dans toute sa gnralit est donc dicile, en particulier celui de lestimation de la variance destimation. Lespoir est gnralement que |2 | ne soit pas trop proche de 1 ou que C soit raisonnablement petit, mais encore faut-il tre capable de mettre cette proprit prot.
VI.1
Algorithme des rptitions
Une mthode pour avoir une estimation de la variance destimation est de tirer plusieurs trajectoires indpendamment dans le mme esprit que lalgorithme du III.7 Algorithme 1. Choisir une mesure initiale 0 , le nombre de rptitions R et la longueur des trajectoires N
r 2. Simuler R trajectoires de longueur N , Xn avec loi initiale 0 r 1 1 = R r = N 3. r r n g (Xn ), r )2 . )2 = R2 ( 4. ( r
La validit de la mthode ne pose pas de problme. Le vritable ennui est que le biais reste inconnu (mme sil est asymptotiquement nul) et donc lerreur sur est inconnue. En particulier N doit tre choisi assez grand de sorte oublier les conditions initiales et rduire le biais. 71
Choix de 0 . Il sera bon de prendre pour 0 une mesure assez proche de si possible pour diminuer le biais et de support assez grand pour tre sr de ne par faire une mesure trop locale si la chane communique ) nest pas trs prcise pour des R modestes, elle donnera mal ; dans ce dernier cas, mme si la valeur de ( un ordre de grandeur correct pourvu que 0 soit bien choisi. Choix de R. Il semble a priori inutile de prendre R trop grand ; moins de partir de 0 = , on peut montrer quon a intrt investir dans des trajectoires longues plutt que dans des rptitions, voir [15] 6.6. limination du transitoire. On peut choisir de ne pas introduire les variables ds le dbut de simulation en raison de la lenteur de convergence vers la mesure initiale. Ce retard de convergence arrivera typiquement si lon part par malchance dune zone transiente, mais sur laquelle on reste avec trs grande probabilit. On limine donc une priode transitoire dite priode dchauement de longueur d dterminer. Il ny a pas de rponse gnrale satisfaisante la question du choix du meilleur d. On ne peut en eet estimer le temps dchauement qu condition davoir fait une exprience au moins aussi longue que celui-ci ! Tout ceci reste donc trs exprimental.
VI.2
VI.2.1
Rgnration
Renouvellement
Fixons i0 E et considrons les temps datteinte successifs de ltat i0 , suppos rcurrent, pour la chane partant de X0 = i0 : T0 = 0 Tq = inf(n > Tq1 : Xn = i0 ). Les instants Tn seront appels instants de renouvellement car les variables valeurs dans d Rd Zq = (XTq1 , . . . XTq 1 ) sont i.i.d [6] : leur loi commune est celle de la chane partant en i0 et arrte en i0 . Les variables (Sq , q ) dnies par Sq =
Tq 1 n=Tq1
g (Xq ),
q = Tq Tq1
forment donc une suite i.i.d. Par ailleurs on peut rcrire lestimateur bas sur les TQ premires variables :
1 = Q Q 1 Q n=1 Sq Q n=1 q
S .
Il sensuit que = E [S 1 ] . E [1 ] Q (S ) N(0, s2 ), s2 = V ar(S1 1 ).
Le thorme-limite central implique ) = Q (
est un rapport Le problme du biais a disparu (un biais existe toujours, mais il est simplement d au fait que de variables alatoires, ce qui na que des consquences secondaires) et lon a lestime de la variance : )2 = ( 1 2 Q2
q
)2 = 1 (Sq q 2 TQ
)2 . (Sq q 72
(VI.1)
Cette mthode, malheureusement rarement applicable, est donc inniment suprieure la prcdente. Si lon compte que s est au plus de lordre de , on obtient un cart-type au pire de lordre de Q1/2 ; il peut tre bien plus petit car la variance de S1 1 dpend aussi de g et de la nature de la chane. En vertu du thorme qui suit, le nombre de variables simules sera quant lui de lordre de Q/i0 , et lon a donc intrt partir dun point de forte mesure invariante. Noter que si lon arrive avoir Q de lordre de quelques units, les estimes de variance sont dj raisonnables. Thorme 20 Soit Xn une chane de Markov valeurs dans un espace dnombrable, de mesure invariante unique , et Ti le premier instant datteinte de ltat i, alors
1 E [Ti |X0 = i] = i .
Pour la dmonstration, voir [6] 6.9.
VI.2.2
Thorie gnrale
La proprit dindpendance des trajectoires partielles, et donc lapplicabilit de la formule (VI.1), stend dautres situations. Thorme 21 Soit Xn une chane de Markov homogne, T1 un temps darrt ni avec probabilit 1 et f la fonction telle que T1 = f (X1 , X2 , ...). Soit (Tq )q1 la suite croissante de temps darrt, dnie par Tq+1 = f (XTq +1 , XTq +2 , ...). Si lon a la proprit de rgnration : P (Xn = x|T1 = n, Xn1 , Xn2 ...) = (x) pour une certaine fonction , alors les variables Zq = (XTq1 , ...XTq 1 ) sont i.i.d.
+ Dmonstration: Notons Xn = (Xi )in et Xn = (Xi )0in En vertu de la formule de Bayes, puis de la proprit de Markov, on a + P (Xn = x, Xn +1 B |Tq = n, Xn1 ) + = P (Xn +1 B |Xn = x)(x)
(VI.2)
+ = P (Xn +1 B |Xn = x, Tq = n, Xn1 )P (Xn = x|Tq = n, Xn1 )
qui ne dpend ni de n ni de Xn 1 ; par consquent pour tout C + P (Xn C |Tq = n, Xn 1 ) = (C )
pour une certaine mesure . Comme sur {Tq = n}, Zq+1 est une fonction du futur aprs Xn , il sensuit que
) = 1 (A) P (Zq+1 A|Tq = n, XT q 1 pour une certaine mesure 1 qui est ncessairement la loi de Zq+1 . Par consquent comme Zq est mesurable par rapport XTq 1 : P (Zq+1 A|Zq ) = 1 (A)
ce qui prouve la stationnarit et lindpendance. Dans le cas discret, le premier temps datteinte dun point est un instant de rgnration. Nous allons prsenter au VI.2.3 et VI.2.4 deux mthodes qui permettent de crer davantage dinstants de rgnration. 73
VI.2.3
Mthode atomique
Cest la mthode classique de [30]. Supposons quil existe une mesure de probabilit sur E et une suite qi 0 non identiquement nulle, telles que pour tous i, j E qi j pij . (VI.3) On dit que (q, ) est un atome pour p. Cest--dire que lorsquon est ltat i, la loi du suivant est minore par avec un facteur qi . Notons que sil y avait galit pour tout i, alors qi = 1 et la chane de Markov serait une suite de variables indpendantes de loi . Plus gnralement, on peut remarquer que P (Xn = j |Xn1 = i) = = pij qi j 1 qi qi j + (1 qi ) pij . qi j + (1 qi )
(VI.4)
Le membre de droite peut tre vu comme un mlange de deux lois avec poids qi et 1 qi . Ceci signie que pour simuler la chane sachant Xn1 = i, on peut simuler une variable Un valant 1 ou 0 avec probabilit qi et 1 qi et selon cette valeur tirer Xn sous la loi ou bien avec la transition p ij . La paire (Xn , Un ) est markovienne et chaque instant o Un = 1 est un instant de rgnration (la dmonstration est laisse au lecteur). En pratique on prfre procder sans toucher au mode de simulation de Xn . On simule dabord Xn , puis Un sous sa loi conditionnelle Xn , Xn1 , . . . X0 , Un1 , . . . U0 ; on trouve avec la formule de Bayes : P (Un = 1|Xn = j, Xn1 = i, . . . X0 ) = qi j /pij ce qui permet de produire Un . Do la procdure complte Algorithme 1. Choisir q et satisfaisant (VI.3) 2. U0 = 1 ; simuler X0 sous 3. Simuler les Xn , et les Un selon (VI.5) 4. Calculer les instants de renouvellement : Tq = inf(n > Tq1 : Un = 1), = T 1 TQ g (Xn ), 2 )2 = T 2 5. ( n=1 Q Q q (Sq q ) . T0 = 0 (VI.5)
Remarques : Si le nombre dtats est ni, on trouve des conditions simples sur q pour avoir, avec probabilit 1, un nombre inni dinstants de rgnration. Si lon pose I = {i : qi > 0} et J = {j : j > 0}, on voit que tout point de I peut faire une transition vers tout point de J avec probabilit non-nulle ; ceci montre tout de suite les limitations de la mthode et donne une premire ide sur la construction de q et . La situation idale pour appliquer ce rsultat est de connatre un gros ensemble I et une mesure tels que pour i I la transition se fasse avec une loi toujours proche de : pij j . Dans ce cas on prend qi = minj pij /j qui sera souvent proche de 1 pour i I et les passages dans I raliseront souvent un renouvellement. Si est une masse de Dirac, on est dans la situation du VI.2.1. Il peut tre plus facile dappliquer cette mthode la chane sous-chantillonne de matrice de transition P n ( la limite n = +, on a q = 1 et = ). Cas continu. La relation (VI.3) devient P (x, dy ) q (x)(dy ) pour une fonction q 0 non identiquement nulle et une probabilit. Le membre de droite de (VI.5) devient q (x)(dy )/P (x, dy ). Atome uniforme. Dans le cas o = mini qi > 0, il existe des mthodes de simulation dchantillons indpendants sous qui pour chaque chantillon demandent de simuler la chane sur une longueur dordre 1/ (exercices VI.5.2 et VI.5.3). 74
Algorithme de Metropolis. On reprend les notations du IV.3. Soit (q, ) un atome pour P , alors ( q , ), avec q i = ci , fi c = min
i =0
fi qi i
, matrice de transition de (Xn ). La dmonstration est laisse en exercice. est un atome pour P Un cas intressant est celui o pij = pj ne dpend que de j ; cest--dire que la chane de Markov P produit une suite de v.a.i.i.d. Dans ce cas qi = 1 et j = pj , c = min fj /pj et le membre de droite de (VI.5) vaut c min
fi fj pi , pj 1
VI.2.4
Modication de la transition
On dcrit directement la mthode en espace continu, et toutes les mesures seront donnes par leur densit par rapport une mesure de rfrence (dx), de sorte que les notations sont les mmes que dans le cas discret. Brockwell et Kadane 1 proposent une modication de la chane de Markov de noyau p(x, y ) qui ne change pas la mesure invariante (x) et qui fait apparatre des instants de rgnration. Soit (x) une densit a priori pas trop loigne de (x), mais sous laquelle on sait simuler facilement. On sait que est proportionnelle une fonction f et lon se donne un rel positif . Algorithme Tirage de Xn+1
(Y ) 1. Tirer Y p(Xn , y )(dy ) et poser = min 1, f (Y )
2. Avec probabilit 1 et choisir Xn+1 =
Y Z 1 (x) min(1, 1 f (x)/(x))
(1 ) ()
3. Si lon a choisi la deuxime option, n + 1 est un instant de rgnration. Z est la constante de normalisation. Linvariance de et la proprit de rgnration sont laisss en exercice. Le tirage dans le deuxime cas se fait facilement avec la mthode de rejet en tirant sous la loi . La situation idale est davoir = 1 f (ce qui voudrait dire quon sait facilement simuler sous !). On essayera de prendre proche de et par exemple E [f (X )/(X )]. Noter que si est trop grand, il y aura beaucoup de rejets et si est trop petit on nobserve pas de renouvellement. On vrie facilement que si = f / = et si lon a latome p(x, y ) q (x)(y ), alors E [|Xn1 , Xn2 , ...] q (Xn1 ) ; la mthode fait donc probablement mieux que toute mthode atomique lorsque = f / = .
VI.3
chantillonnage parfait : couplage sur le pass
La algorithmes prcdents permettent de calculer des moments de mais ne permettent pas de simuler exactement des variables sous . Lchantillonnage parfait est une mthode plus sophistique permettant de raliser cela. Elle est due J. Propp et D. Wilson 2 sur une ide remontant G. Letac. Elle permet dchantillonner selon la loi invariante exacte dune chane de la forme Xn+1 = f (Xn , Un ) (VI.6)
o les Un sont i.i.d. Elle est particulirement adapte au cas o la chane est stochastiquement monotone, cest--dire que f est une fonction croissante de la premire variable (pour une certaine relation dordre sur lespace dtats).
1. A.E. Brockwell, J.B. Kadane, Practical Regeneration for Markov Chain Monte Carlo Simulation, Rap. Techn. 757 du Dept of Stat, Univ. Carnegie Mellon, 2001. 2. J. Propp, D. Wilson, Coupling from the Past : a Users Guide, Microsurveys in discrete probability, 181192, DIMACS Ser. Discrete Math. Theoret. Comput. Sci., 41, Amer. Math. Soc., 1998.
75
VI.3.1
Cas gnral
q Supposons la chane Xn ralise pour n Z. Si lon note Up = (Up , Up+1 , ...Uq ), lquation (VI.6) permet 1 dexprimer X0 en fonction de Xn et de Un : 1 X0 = f (Xn , U n ) = n (Xn , )
(VI.7) (VI.8)
n (x, ) = n1 (f (x, Un ), ).
La fonction f a t tendue un nombre darguments arbitraire pour oprer plusieurs transitions successives. La fonction n est la mme avec une notation plus adquate pour la suite, o n est le nombre de transitions eectuer et est la suite des Ui . On a donc le schma suivant pour n X0 = n (x, ) Xn+2 .... Xn+1 X n = x Thorme 22 On considre la chane (VI.6) avec les notations (VI.7,VI.8). Soit x un point de lespace. On suppose que n ( x, ) converge avec probabilit 1 vers une limite alatoire Z , et que la chane partant de x converge vers une certaine loi (ncessairement invariante), alors Z suit la loi . Ceci reste vrai si lon suppose la suite Un simplement stationnaire. Remarques. En gnral, n (x, ) convergera avec probabilit 1 vers une limite alatoire Z indpendante de x (noter que limage de cette application ne fait que diminuer dun n au suivant) 3 . Ce nest cependant pas systmatiquement le cas, et cette proprit peut dpendre de la fonction f choisie (mme si la loi de la chane reste la mme), voir lexercice VI.5.6. Dmonstration: On a pour tout A P (Z A) = P ( lim n ( x, ) A) = lim P (n ( x, ) A) = lim Px (Xn A) = (A)
n n n Un Un+1 U1
Lide est donc de raliser n pour des n de plus en plus grands jusqu ce que son image soit rduite un point. Ce point suit la loi . Ceci va imposer de stocker chaque itration les valeurs n (x), x E , et lon obtient lalgorithme suivant dicilement ralisable en pratique 1. 2. 3. 4. Initialisation : Partir (x) = x, x E . Simuler U indpendante du reste. Recalculer la fonction : x E, (x) (f (x, U )). Si (E ) est un singleton, cette valeur suit et cest ni, sinon aller au 2.
On pourrait tre tent de propager vers le futur au lieu de reculer vers le pass : Simuler les trajectoires partant de toutes les valeurs possibles de X0 avec la formule (VI.6) et attendre quelles se confondent en un n seul point, c.--d. le premier n tel que x f (x, U1 ) soit constant. Malheureusement la distribution de ce point ne sera pas . Lavantage de la propagation directe est que le nombre de points simuler diminue au cours du temps. Une mthode essayant de mettre cela prot est la suivante qui consiste reculer dans le temps par paquets de longueur croissante, p.ex. 2k , chaque paquet correspondant une simulation directe, ceci se faisant au prix de reculer plus que ncessaire (deux fois au pire) : = (Un , ...U1 ) Algorithme On pose U = U 1 1. Initialisation : Partir de U 2. Doubler la longueur de U en prolongeant cette suite par la gauche avec des variables i.i.d ), en utilisant (VI.6). Si cest un singleton 3. Calculer limage de E par ces transitions, f (E, U cette valeur suit et cest termin, sinon retourner au 2.
3. On peut se faire une image de ce qui se passe en travaillant sur le cas dun AR(1) : Xn+1 = aXn + Un , |a| < 1 ; dans ce cas n (x, ) = an x + an1 Un + ...U1 . On nest plus dans un espace detats ni, mais on voit bien la convergence n (x, ) vers une limite.
76
Le stockage de est vit, la mise en uvre plus simple, mais le nombre de calculs reste en gros le mme, tout fait prohibitif si lesapce dtats est grand.
VI.3.2
Cas monotone
On suppose que lon sest donn une relation dordre partiel sur E avec un plus petit lment xmin et un plus grand xmax (c.--d. x E, xmin x xmax ). Si pour tout u, x f (x, u) est croissante, alors n (x, ) aussi, et |n (E )| = 1 si et seulement si n (xmin ) = n (xmax ). Lalgorithme consiste alors simplement calculer ces deux tats pour des n de plus en plus grands : Algorithme = (Un , ...U1 ) On pose U = U 1 1. Initialisation : Partir de U 2. Doubler la longueur de U en prolongeant cette suite par la gauche avec des variables i.i.d ) et f (xmax , U ) avec condition initale xmin et 3. Calculer les deux tats terminaux f (xmin , U xmax , en utilisant (VI.6). Sil concident, cette valeur suit et cest termin, sinon retourner au 2.
Exemple : Champ de Gibbs. Considrons le modle (IV.9) simul avec lalgorithme du IV.6.3, et dnissons x y ssi xa ya pour tout a. xmin est le tableau de -1 et xmax est le tableau de 1. La fonction f (x, u) contient le tirage de lindice de la coordonne modier (u = (a, v ), xa est chang si v q , cf (IV.11), et U U(S ) U([0, 1])) ; elle est croissante si les i sont 0. Exemple : Le modle de Fortuin-Kasteleyn (exercice IV.7.2.10) est galement monotone pour un choix naturel de f si q 1. Exemple : Algorithme de Metropolis. On reprend les notations du IV.3. Dans le cas o pij = pj (tirages indpendants) on a monotonicit avec i j ssi pi fj pj fi (on choisi un ordre arbitraire en cas dgalit). Il faut cependant que xmin et xmax soient connus, ce qui nest pas toujours le cas. Un algorithme qui ne requiert que xmin est propos au paragraphe suivant.
VI.3.3
Mthode dencadrement et de domination
La mthode prcdente soure de deux problmes : 1. Souvent xmax nexiste pas. Par exemple si Xn est un processus ponctuel valeurs dans lensemble des parties nies dun ensemble S inni, xmin = est un choix naturel mais xmax nexiste pas. 2. f nest pas ncessairement croissante. Deux ides de Kendall et Mller 4 permettent de remdier cela dans des situations relles. La premire est dintroduire un processus majorant rversible qui jouera le rle de xmax et la deuxime est dexploiter un encadrement de f par deux fonctions croissantes. On suppose donc toujours que xmin existe. On supposera que (VI.6) peut se rcrire sous la forme Xn+1 = g (Xn , (Xn ), Un ). (VI.9)
o (x) est valeurs dans Rd + (on peut gnraliser dautres ensembles...) et que g (x, , u) est croissante en x et en mais que (x) est une fonction quelconque. Soient deux fonctions dnies pour x x+ satisfaisant
4. J. Mller, Pefect simulaton of conditionally specied models, J.Roy.Stat.Soc. (B), 61, 251-264, 1999. dimacs.rutgers.edu/dbwilson/exact.html. W.S. Kendall, J. Mller, Perfect simulation using dominating processes on ordered spaces, with application to locally stable point processes, Adv. in Appl. Probab. 32, no. 3, 844865, 2000.
77
coordonne par coordonne (x , x+ ) + (x , x+ )

x x x+ x x x+
min
(x) (x)
(VI.10) (VI.11)
max
qui aient la mme monotonicit en x et x+ que les membres de droite, et h telle que g (x, + (xmin , x), u) On suppose que de plus : On sait raliser une suite D0 , D1 , .... telle que Dk+1 = h(Dk , Uk ). On dnit les processus minorant et majorant :
+ Xn,k +1 = g (Xnk , (Xnk , Xnk ), Un+k ), + + + + Xn,k +1 = g (Xnk , (Xnk , Xnk ), Un+k ), Xn 0 = xmin + Xn 0 = D n .
h(x, u).
Alors on vrie sans dicult que

Xn 1,n1 Xnn
n (xmin , )
+ Xnn
+ Xn 1,n1
+ + ce qui implique que ds que Xnn = Xnn , alors Xpp = Xpp = p (xmin , ) pour p > n et donc cette valeur suit la loi . Noter que si f est croissante, on retrouve lalgorithme du paragraphe prcdent sauf que lon calcule ) au lieu de f (xmax , U ). f (Dn , U
Mise en uvre. On cherchera dabord (si f nest pas croissante) les fonctions g et telles que (VI.6) puisse se rcrire (VI.9) avec les conditions de monotonicit requises ; puis les fonctions et + seront typiquement dnies comme les membres de droite de (VI.10) et (VI.11). On cherchera ensuite h telle que D soit rversible et telle que la mesure invariante de D soit facilement ralisable : en eet dans ce cas il sut de tirer D0 selon la sa loi invariante puis faire reculer la chane 0 0 Dk1 = h(Dk , Uk ) avec une premire suite Uk ; la suite Dk a bien la loi dsire en raison de la rversibilit ; on tirera ensuite les Uk selon leur loi sachant les Dk , c.--d. chaque Uk indpendamment selon sa loi conditionne par Dk+1 = h(Dk , Uk ). + + Il ne reste plus qu simuler les (Xnk , Xnk )0kn pour n = 2, 4, 8, 16, ... jusqu ce que Xnn = Xnn . Exemple : Champ binomial. La loi du champ binomial du IV.6.4 est 1 cab (Xb qnb )(Xa qna ) P (X ) = Z 1 exp Xa + 2 a
a=b
1 Xa !(na Xa )!
On considrera la relation x x a, xa x a . On peut poser xmin = (0, ....0) et xmax = (na )a . Comme X est major, on peut prendre Dn = xmax . Soit b(n, p, v ) une fonction croissante en p qui fabrique une binomiale B(n, p) si v suit une loi donne n dont on note V une ralisation (p.ex. b(n, p, v ) = in 1vi p avec la loi U([0, 1] )). Soit W une v.a. de loi uniforme sur lensemble des indices o varie a. Alors la mthode de Gibbs consiste remplacer XW par b(nW , p, V ) o p = W (X )/(1 + W (X )), et W (X ) est donn par la formule (IV.15). Ceci dnit une fonction f (x, u) = g (x, , u), u = (v, w), (x) = (a (x))aS , qui ralise bien lchantillonneur de Gibbs. On prendra (x , x+ ) = minx x x+ (x) o le min est pris coordonne par coordonne. Exemple : Champ poissonnien. La loi du champ poissonnien est (on fait q = 0 pour simplier) 1 1 P (X ) = Z 1 exp . Xa + cab Xb Xa 2 X a! a a
a=b
78
Les coecients cab sont 0 (cf exercice IV.7.5.24). On construira comme prcdemment une fonction p(, v ) croissante en qui produit une variable de Poisson de paramtre e si v suit une distribution prescrite (p.ex. par la mthode dinversion). La fonction f (x, u) = g (x, (x), u), u = (v, w), consiste modier xw par p(w (x), v ), avec w (x) = + b cwb xb . On prendra (x , x+ ) = minx x x+ (x) o le min est pris coordonne par coordonne. h(x, u) = g (x, , u). Exemple : Processus ponctuels. Reprenons lalgorithme du IV.5.1. Les variables simules et chaque tape seront notes n+1 et n+1 . On considre le nouvel tat Xn = (Xn , n , n ) et lon pose = (p1 , 1 p2 ), et X Y X Y . Alors la mthode de couplage sapplique, si par exemple q est borne dans les deux sens. On prendra pour h la transition o dans p1 on a remplac q (x { })/q (x) par sa valeur maximale M (quand x et varient ) et dans p2 on remplace q (x\{ })/q (x) par 1/M , ce qui correspond au cas q (x) = M n , si bien que dans ce cas la chane est encore rversible et sa mesure invariante est un processus de Poisson ponctuel dintensit M . Exemple : Algorithme de Metropolis. Reprenons lexemple du VI.3.2. Ici 0, les Dk seront i.i.d de loi (pj ) et Uk = (Dk , Vk ) o Vk U([0, 1]n ) est la v.a. servant raliser ltape 2 de lalgorithme par la comparaison q Vk (cf la formule (IV.3)).
VI.4
Rduction de variance
Les mthodes de rduction de variance sont galement applicables dans le contexte markovien. Lchantillonnage prfrentiel donnera lalgorithme suivant (on note pij = p(i, j )) : Algorithme 1. Simuler les Xn selon la loi markovienne de matrice transition Q : 2. Calcul dune estime
N
= dN N 1
n=1
g (Xn ),
dN =
p(Xn1 , Xn ) q (Xn1 , Xn ) n=1

R
3. Pour estimer la variance, rpter (1) et (2) R fois (cf VI.1) puis
R
= R 1
r =1
r ,
)2 = R2 (
r =1
r )2 . (
Pour ce qui est de la mthode des variables antithtiques du III.4, remarquons que la simulation de Xn peut se faire partir dune suite i.i.d de variables uniformes Un , avec une formule Xn = f (Xn1 , Un ), si bien (X1 , ...XN ) est de la forme = (U1 , ...UN ) ; en simulant Yn = f (Yn1 , 1 Un ) on peut donc fabriquer que (Y1 , ...YN ), et moyenner les deux estimateurs obtenus (la valeur initiale est issue la variable antithtique dun chauement qui est le mme pour les deux suites : X1 = Y1 ).
VI.5
Exercice VI.5.1 (Mthode de Breyer et Roberts 5 ) Soit une chane de probabilit de transition p(x, y ) (on est soit en discret soit en continu, dans ce dernier cas p est une densit). Soit une mesure (x) (en continu
5. L.A. Breyer, G.O. Roberts, A new method for coupling random elds, LMS Journal of Computation and Mathematics, 5 : 7794, 1999.
79
est une densit) et la chane Xn construite en faisant soit une transition selon p soit une transition vers : Yn p(Xn1 , .), Zn (.), n = min 1, Xn = Zn Yn avec probabilit n avec probabilit 1 n . p(Xn1 , Zn )(Yn ) p(Xn1 , Yn )(Zn )
1. Montrer que Xn est une chane de Markov de probabilit de transition p(x, y ). 2. Montrer que les instants o Zn est choisi sont des instants de rgnration. 3. Montrer que si on a latome p(x, y ) q (x)(y ), alors E [n |Xn1 , Xn2 , ...] q (Xn1 ). En dduire que cette mthode donnera sans doute davantage de renouvellements que la mthode atomique pour cette mesure . 4. Montrer pourquoi cette mthode ne peut fonctionner telle quelle dans le cas de lchantillonneur de Gibbs prsent dans lencadr du IV.2 (et gnralement de mme pour lalgorithme de Metropolis). Comment remdier cela ? Exercice VI.5.2 Soit une P matrice de transition possdant un atome (, ) : o est un rel > 0. Dans la suite, on note 1 le vecteur colonne de 1. . 1. Montrer que la dcomposition (VI.4) peut se rcrire : P = 1 + (1 )P i 2. En dduire que la mesure invariante de P scrit : = i=0 (1 )i P 3. En dduire la validit de lalgorithme (Murdoch et Green) : (a) Tirer N selon la loi gomtrique de paramtre et X0 selon partant de X0 jusquau temps N . XN suit la loi . (b) Faire tourner la chane P 4. tendre cette mthode au cas continu. Exercice VI.5.3 Soit P , et comme lexercice prcdent. On propose ici une mthode qui vite de . simuler sous P Expliquer comment on peut appliquer la mthode de couplage par le pass en ne simulant la chane que pour un seul tat initial (sinspirer de la mthode atomique). Expliquer pourquoi le nombre de transitions simuler sera dordre 1 . Montrer comment ceci stend au cas continu. Exercice VI.5.4 Montrer que est bien mesure invariante dans lalgorithme du VI.2.4. Exercice VI.5.5 Montrer la monotonicit pour lalgorithme de Metropolis annonce au VI.3.2 (On crira la chane sous la forme Xn+1 = f (Xn , (Un , Vn )), avec Un et Vn uniformes sur [0, 1]). Exercice VI.5.6 Il sagit de montrer limportance du choix de f pour la mthode de couplage sur le pass. Considrons la marche alatoire sur les sommets du triangle de lexercice IV.7.1.3. On identiera les trois sommets aux nombres 0, 1 et 2. 1. On dcide de paramtrer la chane par une addition modulo 3 1 Xn+1 = Xn + Un (mod 3), P (Un = 1) = P (Un = 1) = . 2 Montrer que la convergence de n (x, ) vers une limite indpendante de x est impossible. 2. On propose une paramtrisation dirente avec les transitions suivantes selon la valeur de U U = 1 : 01 10 20 U =1: 02 12 21 j pij
Vrier que la loi de la chane est la mme. Observer leet de deux valeurs direntes de U successives sur la chane et en dduire que n (x, ) converge avec probabilit 1. 80
VII Optimisation par Monte-Carlo
On discutera dans ce chapitre de deux mthodes : lapproximation stochastique et le recuit simul. Lapproximation stochastique tudie la rsolution dun problme doptimisation sur des donnes bruites. En revanche, dans le recuit simul le problme est dterministe et bien pos, minimiser une fonction V sur un ensemble E , mais lalgorithme de recherche est randomis an de bien parcourir lensemble E . Les deux mthodes sont donc fondamentalement direntes : dans un cas lalatoire vient des donnes tandis que dans lautre il est introduit dans lalgorithme. Mentionnons ds maintenant la rfrence [2] qui traite de ces mthodes.
VII.1
Approximation stochastique
Lapproximation stochastique est un domaine dicile o les rsultats gnraux ncessitent des jeux dhypothses compliqus et o les preuves sont gnralement assez ardues ; voir cependant [16] pour une situation raisonnablement gnrale traite compltement. Nous renvoyons pour les tudes thoriques aux traits gnraux [3, 28, 11], et [3, 34] pour ce qui est des applications. Nous ne nous livrons ici qu une discussion assez informelle.
VII.1.1
Deux exemples simples
Gradient bruit. La mthode de gradient pour minimiser une fonction V () consitste raliser lalgorithme suivant n = n1 V (n1 ) qui pour assez petit converge assez vite vers un minimum de V (sous certaines hypothses....). Supposons maintenant que lon ne puisse mesurer le gradient quavec un certain bruit. Cest--dire que lon peut faire des mesures o lon observe V () + o est au choix mais est une v.a de moyenne nulle. Ceci arrive si par exemple le calcul de V passe par des esprances que lon estime par simulation. Lalgorithme stochastique consiste sinspirer de la mthode du gradient de la faon suivante : n = n1 n (V (n1 ) + n ). La n- exprience a donc t faite avec le paramtre n1 , et lon a mesur Yn = V (n1 ) + n . Des calculs thoriques conduisent deux observations importantes : La premire est que le bon choix de n est de prendre a ce gain dordre 1/n (p.ex. n = n+ b ). La seconde est que lide dessayer de faire des expriences successives avec le mme pour estimer V () en moyennant, et ensuite utiliser lalgorithme dterministe est mauvaise, cest--dire conduira une variance destimation suprieure pour un nombre x dexpriences. Un algorithme stochastique peut donc tre vu comme un algorithme dterministe o lon a oubli le signe desprance et modi le gain en consquence. 81
Moyenne empirique. Un cas particulier de gradient stochastique est V () = E [(Y )2 ]/2, o Y est une v.a. dont on peut observer des ralisations ; ici V atteint son minimum en = E [Y ]. On ne peut pas observer V () = E [Y ] mais des ralisations de Y , et donc de Y dont lesprance est bien V () ; do lalgorithme n = n1 n (n1 Yn ). On observe facilement que si n = 1/n, et 0 = 0 alors n = (Y1 + . . . Yn )/n. Dosage : un algorithme de Robbins-Monro. Soit un paramtre rel reprsentant un dosage entre dirents produits. Pour chaque , on peut faire une exprience dont le rsultat est un nombre rel Y (quantit de chaleur produite,...) et lon cherche rsoudre lquation E [Y ] = . (VII.1)
L encore on observe Y alors quil faudrait E [Y ]. On suppose que E [Y ] est une fonction continue strictement croissante de . Lalgorithme de Robbins-Monro consiste faire une srie dexpriences avec un choix de paramtre dpendant chaque fois des rsultats prcdents : n = n1 + n ( Yn ). Ici Yn est le rsultat de lexprience faite avec n1 . Lalgorithme augmente donc si Y est trop faible et le fait diminuer sinon. On montre alors, sous des hypothses raisonnables, la convergence de n vers la solution de (VII.1). Cet algorithme est le pendant stochastique de lalgorithme dterministe n = n1 + E [ Yn ]. Dans ce dernier algorithme on sait quon a intrt prendre constant.
VII.1.2
Forme gnrale et acclration
Dans toute la suite, le signe dsignera le gradient par rapport la variable . Le problme gnral est le suivant : Cas stationnaire : On cherche rsoudre en lquation E [H (Y, )] = 0 o Y est une v.a. et H (y, ) une certaine fonction. chaque instant n, on dispose dune ralisation de H (Yn , ) en un point de son choix. Cas Robbins-Monro : Ici la loi de Y peut dpendre de , lquation est E [H (Y, )] = 0 et Yn est tir selon P . Lalgorithme stochastique associ est : n = n1 + n H (Yn , n1 ). Une situation typique est le cas du gradient stochastique : On cherche minimiser en un cot moyen V () = E [Q(Yn , )], et dans ce cas H (Yn , ) = Q(Yn , ). On montre que pour n = c/n , 1/2 < 1, et c pas trop grand si = 1, n convergera vers la solution = 1, du problme, et il y a normalit asymptotique de (n )/ n . Le dernier point pousse prendre n ( mais le choix de c devient critique : quand = 1, si c est trop grand la variance asymptotique de n ) se met augmenter et si c est infrieur un certain seuil n(n ) devient dordre n avec < 1/2. Acclration. Posons h() = E [H (, Y )]. Dans le cas stationnaire un meilleur choix (en terme de variance destimation) est de prendre un gain matriciel n n
1 = n1 + n H (Yn , n1 ) n
(VII.2) (VII.3) 82
k=1
H (Yk , k1 ).
ou mieux n = nh(n1 ), si cette quantit est connue ; ce dernier choix convient galement pour le cas Robbins-Monro. On peut en eet montrer que si lalgorithme ci-dessus est stable, il conduit trs gnralement la meilleure variance asymptotique possible (borne de Cramr-Rao pour la variance de n(n )) qui est, pour des Yi indpendants, la variance de h( )1 H (Yn , ). Noter quon retrouve dans le cas du gradient stochastique un algorithme du type Newton. Si cette mthode ne peut tre employe (comme dans le cas du dosage), on peut avoir intrt utiliser lalgorithme avec moyennisation, dit de Ruppert-Polyak 1 : n n = n1 + n H (Yn , n1 ) = 1 n
n
k
k=1
o un bon choix de n est dordre n2/3 ; n( n ) converge en loi vers une gaussienne de variance optimale. En pratique, on laissera un temps dchauement avant de commencer la moyennisation (deuxime quation) car les premiers n sont souvent assez mauvais. Convergence et trajectoire moyenne. De manire gnrale, la convergence na lieu que si les trajectoires de (t) d (t)), = h( dt h() = E [H (Y, )], (VII.4)
(0). La convergence de ces trajectoires ne pose gnralement pas trop de problme convergent pour tout dans le cas dun algorithme de gradient (h() = V ()), cf exercice VII.3.1. Le champ h est appel champ moyen et ses trajectoires sont appeles trajectoires moyennes car elles reprsentent le comportement moyen de la suite n , sous des hypothses adquates ; on a lapproximation par des morceaux de trajectoire moyenne : n+p (n + . . . n+p ), (0) = n , p = 1, 2, ...
lapproximation tant dautant meilleure que linstant de dpart n est grand.

Sans entrer dans les dtails, disons que cette approximation est surtout valide pour n grand. Lheuristique cache derrire cette ide est :
p p
n+p
n +
k=1
n+k H (Yn+k , n+k1 ) n +
n+k h(n+k1 )
k=1 2 i n+p i=n 2 ). Ltude rigoureuse est i
un terme de moyenne nulle prs, petit si n est assez grand (sa variance est dordre bien entendu dicile ; les conditions sur n sont n = + et < .
Aspects pratiques. Gain constant. Le rglage du gain est souvent dicile. Il est frquemment plus simple de commencer par faire tourner lalgorithme avec un gain constant pour avoir une ide de lendroit o se trouve avec une prcision dordre . Lestime obtenue peut alors servir de point de dpart pour un algorithme pas dcroissant.
VII.1.3
La rgression linaire
On observe des paires (yn , xn ) R Rd et lon cherche le vecteur minimisant lerreur de prdiction linaire de yn avec xn : = arg min E [(yn xn )2 ]. On supposera que la suite (yn , xn ) est i.i.d. Un premier algorithme est lalgorithme de gradient : n = n1 + n xT n (yn xn n1 )
1. B.T. Polyak, New stochastic Approximation Type Procedures", Autom. & Remote Contr., 51(7).
(VII.5)
83
2 qui minimise E [(yn xT n ) ], cf lexercice VII.3.3. Si lon essaye de lamliorer selon lquation (VII.2), on obtient lalgorithme RLS (Recursive Least Squares) :
= n1 +
1 1 T R x (yn xn n1 ), n n n
Rn =
1 n
xT i xi ,
i=1
(VII.6)
qui doit tre modi pour les n petits, en raison de la non-inversibilit de Rn ; noter que, si lon fait abstraction de cette modication, et si 0 = 0, n concide avec
n
n = (nRn )1
i=1
xi yi
(multiplier (VII.6) par nRn ) qui est exactement lestime aux moindres carrs (le qui minimise i (yi xi )2 ). On prfre souvent exprimer le calcul de Rn de faon rcursive avec un calcul direct de n = n 1 ( i=1 xT i xi ) n = n1 + n xT n (yn xn n1 ), n = n1 n1 xT n xn n1 . 1 + xn n1 xT n
Exemple : Annulation de bruit. An de permettre aux conducteurs de tlphoner au volant de leur voiture on se propose de xer un micro au volant. Ce micro enregistre la somme du signal de parole et du bruit ambiant yn = pn + b n . Un second micro plac au plafond, derrire le conducteur, enregistre le bruit seul. Il reoit un signal rn quon espre proche de bn Le signal transmis au correspondant sera de la forme Le meilleur est celui qui rendra tn aussi proche que possible de pn et donc qui minimisera E [(tn pn )2 ]. Comme pn est indpendant de bn et rn , on a en vertu du thorme de Pythagore Le meilleur minimise donc lnergie de tn , cest la corrlation entre r et y . De manire plus gnrale on pose xn = (rn , ...rnd+1 ), Rd et lon minimise E [(yn xn )2 ]. Cest un problme de rgression linaire pour lequel on peut utiliser le RLS.
2 2 2 E [t 2 n ] = E [(tn pn + pn ) ] = E [(tn pn ) ] + E [pn ].
tn = yn rn .
VII.1.4
Exemple : Donnes manquantes
Reprenons la situation du IV.4.4. On dispose dune famille paramtrique de lois candidates p pour un ensemble de donnes X partiellement observes. On note X = (Y, Z ), o Y est la partie observe et Z la partie manquante. Lalgorithme de maximum de vraisemblance consiste maximiser la probabilit des donnes observes : = arg max p (Y ),
p (Y ) =
p (Y, z )dz.
(VII.7)
Lintgrale est trop complique calculer, mais on sait tirer des chantillons selon p (z |Y ), cf lexemple du IV.4.4. Proposons lalgorithme stochastique suivant : o la variable Zn est simule chaque tape selon la loi pn (z |Y ), et n est le gain. Le champ moyen de lalgorithme est h() = log p (Y, z ) p (z |Y )dz = p (Y, z ) p (Y, z ) dz = log(p (Y )). p (Y, z ) p (Y ) n+1 = n + n+1 log pn (Y, Zn ) (VII.8)
On a donc un algorithme de gradient dont la limite sera un maximum de p (Y ), si toutes les hypothses techniques non mentionnes ici sont vries. 84
Gain matriciel. Il est bien connu et simple dmontrer que lon a h() = E [ log p (Y, z )|Y ] = E [2 log p (Y, z )|Y ] + Cov ( log p (Y, z )|Y ). Le membre de droite donnant le gain optimal cf (VII.1.2), on est conduit n Mn Sn n = = = =
1 n1 n hn ,
Mn1 + hn
hn = log p (Y, Zn )
Sn1 + 2 log p (Y, Zn ) + hn hT n T Sn M n M n /n.
maximise log p (Y ), h( ) devrait tre une matrice dnie ngative. Ceci nimplique cependant Comme pas que n le soit ce qui fait que lalgorithme doit tre mis en uvre avec prcautions. Noter la parent de cet algorithme avec celui de lexercice IV.7.3.17.
VII.1.5
Exemple : Algorithme de Kiefer-Wolfowitz
Supposons que lon cherche rgler un paramtre dun robot (ou une commande) de sorte ce quil atteigne au mieux sa cible dans des congurations direntes (de bruit, ou de positionnement de la cible...). On est alors (en gnral) dans la situation du VII.1.2 sauf que lon ne sait pas calculer le gradient de la fonction que lon veut optimiser 2 . En particulier, contrairement la situation Robbins-Monro, on ne sait pas du tout dans quelle direction modier le paramtre. Une exprience avec un certain et certaines conditions permettra dvaluer une performance (distance la cible...) Q(Y, ) o la v.a. Y , a priori non observe, reprsente ici lala (la position de la cible, les bruits,...). On checher minimiser E [Q(Y, )]. Une solution est de faire les expriences par paire de sorte estimer le gradient ; lalgorithme devient si est scalaire n = n1 + n
, n1 cn ) Q(Yn , n1 + cn ) Q(Yn 2 cn
o lon a en plus les conditions (n /cn )2 < et cn 0 qui vont garantir la convergence [34] ; un bon choix est n = 1 /n, cn 1/ log(n), qui conduit la avec normalit asymptotique de cn n( n ) si 1 3 est assez grand [16] . Si est vectoriel on tire chaque fois un vecteur alatoire n de 1, et le quotient ci-dessus est remplac par (2cn )1 n (Q(Yn , n1 + cn n ) Q(Yn , n1 cn n )).
VII.1.6
Exemple : Optimisation dune chane de Markov contrle

(VII.9)
On se donne une chane de Markov Xn dont la dynamique scrit Xn = f (Xn1 , , n )
o est un paramtre et n une suite i.i.d de distribution connue. On cherche la valeur de qui minimise un cot moyen E [Q(Xn )]. Si lon considre Xn comme une fonction de , X0 et des n , on peut dire que lon cherche minimiser E [Q(Xn (), )]. Pour construire lalgorithme stochastique correspondant, il va falloir driver Xn par rapport . Si lon note Xn cette drive, on a
Xn = f (Xn1 , , n ) + fX (Xn1 , , n )Xn 1
(VII.10)
2. Voir par exemple larticle : H.F. Chen, H-T. Fang, Output Tracking for Nonlinear Stochastic Systems by Iterative Learning Control, IEEE Trans. Automatic Control, Vol.49, No.4, 583-588, 2004. 3. Voir aussi V. Koval, R. Schwabe, A law of the iterated logarithm for stochastic approximation procedures in d-dimensional Euclidean space, Stochastic Processes and their Applications, Vol.105, 2, Pages 299-313, 2003
85
do lalgorithme complet
n = n1 n (x Q(Xn1 , n1 )Xn 1 + Q(Xn1 , n1 )) Xn = f (Xn1 , n1 , n )
Xn = f (Xn1 , n1 , n ) + fX (Xn1 , n1 , n )Xn 1
o lindice indique la variable par rapport laquelle on drive. Noter que dans la dernire quation Xn nest quune approximation de la drive, puisque volue ; cette approximation est rendue valide par le fait que change de plus en plus lentement : ltude du champ moyen sort du cadre tabli jusqu prsent et relve du VII.1.7. Tout ceci nest bien entendu valable que si lquation (VII.10) donne un systme stable, cest--dire que Xn est eectivement une fonction rgulire de . Cest par exemple le cas si f (X, , ) = X + , pour || < 1 car alors Xn = n + n1 + 2 n2 + ..... Marbach et Tsitsiklis 4 traitent un exemple o lespace dtats est ni et donc la drivation de Xn est impossible.
VII.1.7
Cadre gnral dynamique markovienne
Le cadre du VII.1.2 est trop restrictif car il ne contient pas en particulier lexemple du paragraphe prcdent car Yn = (Xn , Xn ) a une dynamique markovienne. On considre donc plus gnralement des algorithmes de la forme : n = n1 + n H (Yn , n1 ). o la loi de Yn sachant le pass est donne par la probabilit de transition Pn1 (Yn1 , dy ) (une famille de probabilits de transitionP (x, dy ) est donc donne lavance). On peut montrer que sous certaines hypothses (en particulier la stabilit de la chane (n , Yn )) cet algorithme convergera vers une solution de E [H (Y, )] = 0 o lesprance est prise sous la mesure invariante de P . Lhypothse essentielle est toujours la convergence de la trajectoire moyenne dt = h(t ), h() = E [H (Y, )]. dt Sil y a forte dpendance de la loi de la chane par rapport , lalgorithme (VII.2) perd de son sens et il est dicile de trouver une matrice de gain adquate. Toutefois la mthode de Ruppert-Polyak sapplique toujours.
VII.1.8
Algorithmes de poursuite
Reprenons lexemple de la rgression, mais on va supposer maintenant que varie lentement au cours du temps car les processus ne sont pas stationnaires. Supposons que lon ait lquation
yn = xn n + un
avec (xn , un ) i.i.d. Les changements de font que (yn , xn ) nest plus stationnaire. Lide des algorithmes adaptatifs est de ne plus prendre n tendant vers 0, car on ne cherche plus avoir convergence vers une valeur xe, mais de prendre constant : ou encore en RLS : n Rn 1 n n = n1 + xT n (yn xn n1 )
1 T xn (yn xn n1 ) = n1 + Rn n
xT i xi .
i=1
4. P. Marbach, J.N Tsitsiklis, Simulation-based optimization of Markov reward processes, IEEE Trans. Automat. Control, 46, no. 2, 191209, 2001.
86
Dans cette dernire quation, si xn a une dynamique lentement variable, il vaut mieux prendre 5 Rn Le choix de la meilleure valeur de est dicile ; le mieux est de la dterminer par simulation. = Rn1 (Rn1 xT n xn ).
VII.2
Recuit simul
Soit E un ensemble ni et V une fonction relle dnie sur E . On cherche le minimum de V . Lexemple typique dapplication du recuit simul est le problme du voyageur de commerce : trouver un chemin ferm le plus court possible qui passe par un ensemble de villes donnes ; E est donc lensemble des tels chemins. Lide est de simuler les distributions de probabilit suivante sur E
1 V (i) (i) = Z e
o est un paramtre et Z est la constante de normalisation. On voit en eet facilement que lorsque tend vers +, tend vers la mesure uniforme sur les minima de V . Si est xe, on est dans la situation dutilisation de lalgorithme de Metropolis avec fi = eV (i) . Il sut de se donner une matrice de transition P sur E ; dans le cas du voyageur de commerce, on choisit typiquement pour pij la mesure uniforme sur tous les chemins j qui se dduisent de i par linterversion de deux villes (dautres versions sont possibles...). En simulant cette loi avec grand, on visitera sans doute assez souvent de bonnes solutions ; malheureusement, plus est grand, plus les transitoires sont longs (la chane de Markov a une dynamique trs faible). Lide du recuit simul est de faire augmenter au cours de lalgorithme de Metropolis ; il faut donc donner une suite croissante n qui sera utilise la n-ime tape, avec lide que la loi de la variable simule Xn sera toujours approximativement n . Do lalgorithme, o X dsigne la meilleure solution trouve jusquau temps n : Algorithme Tirage de Xn 1. Tirer Yn parmi les voisins de Xn1 selon une loi prdetermine (gnralement uniforme) 2. Faire alatoirement Xn = Yn ou Xn = Xn1 avec probabilit q et 1 q : q = en (V (Yn )V (Xn1 ))+
3. Enregistrement du meilleur : si V (Xn ) < V (Xn 1 ) faire Xn = Xn .
On voit donc que la transition est accepte srement si V (Yn ) V (Xn1 ), et ventuellement sinon. On accepte donc parfois des transitions qui font augmenter V , ce qui permet dviter les minima locaux. La dicult est que si augmente trop vite, on gle lalgorithme et lon ne poursuit plus : lalgorithme se calera dans une rgion o V fait une cuvette. La rgle thorique est de prendre chaque instant n = C/ log(n), pour un C assez grand 6 ; cependant lapplication brute de cette formule, avec le C recommand, donne en gnral des algorithmes extrmement longs. Cela vient en partie du fait que les tudes de convergence du recuit simul se soucient de la convergence en loi de Xn et non pas de celle de Xn . La convergence de ce dernier ne requiert pas que tende vers 0. La convergence est donc a priori trs lente et lecacit observe de la mthode dans des situations concrtes est une aaire de praticien. Il est souvent assez dicile de trouver une vitesse de croissance de adquate. Il faut remarquer quun un peu trop grand aura pour eet de transformer lalgorithme en algorithme de descente pure et un trop
5. L. Ljung, S. Gunnarson, Adaptation and tracking in system identicationa survey, Automatica-J IFAC, 26 (1990), 721. 6. Pour tout x, on dni le cot dun chemin partant de x et menant au minimum de V comme le maximum de (V (y ) V (x))+ sur tous les points y de ce chemin ; ce cot est nul si le chemin descend. On dnit ensuite c(x) comme le cot minimum de tout les chemins menant au minimum de V . c(x) est nul si lon peut aller de x au minimum en descendant. C est alors le maximum de c(x) pour tous les x. Voir : B. Hajek, Cooling schedules for optimal annealing, Math. Oper. Res., 13 (1988), no. 2, 311329.
87
petit fera accepter quasiment toutes les transitions. Il y a donc un juste milieu adopter, qui ne laisse en ralit pas une trs grande marge ; on trouve en eet par calcul, que si les V (j ) V (i) sont du mme ordre, disons , pour j voisin de i, et si q est le nombre de voisins de chaque point, alors : min 1 , max 1 log(q )
au sens o si < min , on accepte en gros toute transition une fois sur deux, et si > max on attend davoir visit tous les voisins avant daccepter une transition montante. On peut par exemple estimer un n raisonnable de manire adaptative par : n n 1 1 |V (Yn ) V (Xn1 )| ou bien n1 + (V (Yn ) V (Xn1 ))+ n n 1 = c n log(q ) = n1 +
o q est le nombre de voisins dun point et c une constante infrieure 1. Une solution alors ecace est dutiliser une rgle du type de la prcdente et de faire varier la taille des voisinages : au dbut on prend des voisinages de grande taille pour bien visiter lespace et lon rduit peu peu ; dans le cas du voyageur de commerce, on pourra ainsi se restreindre des interversions de villes de plus en plus proches au fur et mesure de lavance de lalgorithme. Le recuit simul a t utilis pour des problmes trs dirents pour lesquels les minimums locaux sont nombreux. Citons le problme de la prdiction de la structure des protines : il sagit de minimiser une fonction V (x1 , ...xn ) o xi R3 est la position du i-ime atome de la protine ; cette fonction fait intervenir les angles et les distances entre atomes successifs 7 . Mentionnons galement lapplication la restoration dimages traite dans larticle cit en note page 45.
VII.3
Exercices
Exercice VII.3.2 Soit Xn une suite de v.a.i.i.d. et 0 < < 1. Quel est le champ moyen de lalgorithme n = n1 n (1Xn <n1 ).
Exercice VII.3.1 On suit les notations du VII.1.2. Montrer que si V () est strictement convexe et tend = V () converge vers le minimum de V (on montrera que vers linni, alors lquation direntielle V (t ) tend vers une limite, et que |V (t )|2 dt < ; on conclura par labsurde).
Vrier que lalgorithme est un algorithme de gradient. Vers quelle valeur devrait converger lalgorithme ? Exercice VII.3.3 Vrier que (VII.5) est lalgorithme de gradient pour minimiser E [(yn xT )2 ] et construire lalgorithme correspondant la minimisation de E [|yn xT n |].
Il espre que n convergera vers 1 (resp. 0) si A (resp. B ) est la meilleure machine 8 . Calculer le champ moyen. Vrier que si = 0 (resp. 1) alors E [n ] est dcroissant (croissant).
7. Voir le 8 de : A. Neumaier, Molecular modeling of proteins and mathematical prediction of protein structure, Siam Rev., 39 (1997), 407-460. 8. Cette convergence a t prouve par G. Pags, D. Lamberton et P. Tarrs : When can the two-armed bandit algorithm be trusted ?, The Annals of Applied Probability, 14(3), 1424-1454, 2004
Exercice VII.3.4 Une machine sous a deux bras. La probabilit de gain avec le bras A (resp. B ) est inconnue et vaut pA (resp. pB ). Un joueur veut estimer quel bras a la plus grande probilit de gain sans perdre trop dargent. Sa stratgie est la suivante : au temps n, il choisit la machine A (resp. B ) avec probabilit n1 (resp. 1 n1 ) et sil a perdu n1 + (1 ) sil a gagn sur A n = n1 n n1 n1 n n1 sil a gagn sur B
88
Exercice VII.3.5 (Pseudo-vraisemblances et donnes manquantes) On reprend lexemple du VII.1.4 mais on suppose que p (Y, z ) = f (Y, z )/Z () o Z () est trop dicile calculer. Dans ce type de cas, on peut tre conduit utiliser une pseudo-vraisemblance q (Y, z ) dans la formule (VII.7). Vrier que E [ log q (Y, z )|Y ] = E [2 log q (Y, z )|Y ] + Cov ( log p (Y, z ), log q (Y, z )|Y ) et que lalgorithme acclr est donc n Mn Nn Sn n = = = = =
1 n1 n hn ,
Mn1 + hn Nn1 + kn ,
2
hn = log q (Y, Zn )
T Sn1 + log q (Y, Zn ) + hn kn T Sn M n N n /n.
kn = log f (Y, Zn )
89
90
VIII Simulation dquations diffrentielles stochastiques
VIII.1
Introduction
dxt = b(xt )dt + (xt )dwt (VIII.1)
Il sagit dapprocher numriquement la solution de lquation direntielle stochastique
partant dun point donn (pour un expos introductif au EDS, voir [31]). On oublie la dpendance ventuelle de b et par rapport t, qui ne jouerait quun rle mineur dans la suite. Si w est multidimensionnel, (x) est une matrice. Notons que si est constant, on a xt = yt + wt o y est solution de dyt = b(yt wt )dt ce qui nous ramne au cas dterministe (toutefois la fonction b1 (y, t) = b(y wt ) est trs irrgulire en t ce qui limite lusage de mthodes dterministes dordre lv).
VIII.2
Schmas dintgration
Les deux mesures de vitesse de convergence Si yn xnh est une approximation de la trajectoire de (VIII.1), La vitesse de convergence forte est donne par le plus grand tel que : E [|xT yN |] = O(h ) et la vitesse de convergence faible concerne la convergence des moments et est donne par le plus grand tel que : |E [f (xT )] E [f (yN )]| = O(h ) (VIII.2)
pour tout polynme f (ou pour f assez rgulire support compact). Cette quation restera gnralement valide pour les fonctions assez rgulires. Pour chaque mthode, des conditions de rgularit spciques devront tre imposes sur les fonctions b et pour que la vitesse propre la mthode soit eectivement atteinte. Schma dEuler. Il consiste considrer les intgrands constants. On approxime donc
t+h t+h
xt+h = xt +
t
b(xs )ds +
t
(xs )dws 91
par xt+h xt + hb(xt ) + (xt )(wnh+h wnh ). Comme les variables wnh+h wnh sont normales indpendantes de variance h, on arrive au schma yn+1 = yn + b(yn )h + (yn ) h n
o n sont des variables i.i.d N(0, 1). Si b et dpendent de t, il faut bien entendu mettre b(nh, yn ) et (nh, yn ). Lordre fort est = 0, 5 et lordre faible est = 1. Mthode de Romberg. Contrairement au cas dterministe, les schmas deviennent trs rapidement extrmement compliqus. Si lon cherche un bon ordre en loi, une alternative est dutiliser la mthode de Romberg : partir dun schma simple (Euler) et le faire fonctionner pour direntes valeurs de h (on a donc des trajectoires simules xk,h t ) puis extrapoler polynomialement (en polynme de h) les esprances obte1 k,h nues e(h) = K f ( x ) pour trouver la valeur en h = 0 (la mthode se base donc sur lexistence dun . k dveloppement de Taylor en h pour E [f (xk,h . )]). Schma de Milstein. En raison du terme brownien, dordre h, le schma dEuler na un ordre fort que de 0, 5. Une faon de corriger cela est davancer plus loin dans le dveloppement de sorte arriver juqu lordre h. On est naturellement conduit une approximation plus ne de xs dans la deuxime intgrale :
t+h
xt+h
xt + hb(xt ) +
t t+h
(xt + (xt )(ws wt ))dws (xt ) + (xt ) (xt )(ws wt )dws

t+h t
xt + hb(xt ) +
t
xt + hb(xt ) + (xt )(wt+h wt ) + (xt ) (xt )
(ws wt )dws
(VIII.3)
xt + hb(xt ) + (xt )(wt+h wt ) + (xt ) (xt )((wt+h wt )2 h)/2
(car 2
t 0
2 yn+1 = yn + b(yn )h + (yn ) h n + (yn ) (yn )(n 1)h/2. Ceci nest valide que sil ny a quun brownien car en dimension suprieure on voit intervenir des termes de t+h la forme t (ws wt )dws , o w est un second brownien indpendant ; or ils sont inconnus. Il faut donc se procurer des ralisations des intgrales stochastiques et utiliser (VIII.3). Lordre fort comme lordre faible vaut 1. Un schma de Runge et Kutta. Ces schmas sont trs vite extrmement compliqus 1 . Prsentons un des plus simples 2 x+ bs = b /2 n = xn + (bs (xn )h + (xn ) h n ), 3 h h + xn+1 = xn + (bs (xn ) + 3bs (xn )) + ( (xn ) + 3 (x+ n ))n . 4 4
1. K. Burrage, P.M. Burrage, High strong order explicit Runge-Kutta methods for stochastic ordinary dierential equations, Applied Numerical Mathematics, 22, 81-101 (November 1996).
2 ws dws = wt t2 ) do
92
Complments. On peut, sans changer lordre faible, remplacer les n gaussiennes standard par dautres variables centres rduites. Par exemple un Bernoulli, ou encore la variable , telle que P ( = 3) = P ( = 3) = 1/6 et P ( = 0) = 2/3 (dont les moments sont ceux de la gausienne jusqu lordre 4). Remarquer que dans le cas du Bernoulli, les schmas de Milstein et Euler concident, ceci explique pourquoi ils ont mme ordre faible. Lquation (VIII.2) restera souvent valide mme pour des fonctions f non-rgulires pourvu que la simulation soit faite avec des variables normales. Il existe des schmas dordre suprieur, R-K, et implicites ; ils ont trs vite des expressions assez compliques, pas toujours gnralisables au cas multidimensionnel ; nous renvoyons [20].
VIII.3
Exercices de simulation. Exemples

dxt = bxt dt + xt dwt .
Martingale exponentielle. Le procesus xt = exp((b 2 /2)t + wt ) satisfait Si b = 0, cest une martingale qui tend p.s vers 0. Noter quici on a pour Euler et Milstein respectivement : yn+1 = yn (1 + bh + hn ) 2 yn+1 = yn (1 + bh + hn + 2 h(n 1)/2). Vrier exprimentalement la vitesse de convergence forte pour b = 1/2, = 1, T = 1 : On calculera par Monte-Carlo E [|x1 yN |2 ] pour direntes valeurs de h (par exemple h = 0, 1p , p = 2 + k/2, k = 0, ...4), points que lon portera sur un graphique log-log ; pour le Monte Carlo, on fera environ une centaine de tirages pour chaque valeur de h. On comparera ainsi Euler et Milstein. Amortisseur. Lquation est mx t + ux t + kxt + F signe(x t ) = me t avec des valeurs typiques 2 m = 60 (kg ), k = 3500 (N/m), F = 40 (N ).
u x a k
suspension
1111111 0000000 0000000 1111111 0000000 1111111

repre absolu
profil de la route
2. S. Bellizzi, R. Bouc, F. Campillo, et E. Pardoux, Contrle optimal semi-actif de suspension de vhicule. In A. Bensoussan and J.L. Lions, editors, Analysis and Optimization of Systems, Antibes 1988, volume 111 of Lecture Notes in Control and Information Sciences, pages 689-699. INRIA, Springer Verlag, 1988. La masse typique de 60 kg vient du fait quen ralit la suspension est sous le sige du conducteur, si bien que et est en fait le prol amorti.
93
La quantit u (lie au diamtre du trou qui laisse passer lhuile) peut tre commande en fonction de xt et x t qui sont facilement mesurs, le but tant de minimiser le dsagrment du conducteur mesur par la valeur moyenne de (ux + kxt + F signe(x t ))2 (noter que si cette quantit est nulle, lordonne lie au conducteur x + e est constante). On propose une commande de la forme u(x, x ) = m(1 + 2 x signe(x ))+ . On suppose de plus que e t est correctement reprsent par un mouvement brownien : e t = wt (valeur typique = 0.5). Finalement, en posant y = x , et = k/m, = F/m dxt dyt = = yt dt ((1 + 2 x signe(yt ))+ yt xt signe(yt ))dt + dwt = b(xt , yt )dt + dwt .
Des simulations permettent destimer les meilleures valeurs pour = (1 , 2 ), c.--d. celles qui minimisent E [b(xt , yt )2 ] en rgime stationnaire. On trouve une valeur voisine de = (2, 200). Oscillateur de Dung-Van der Pol. On part de lquation dterministe 3 x +x ( 1 x2 ) ( 1 x2 )x = 0. Si le systme est excit par un bruit alatoire, on ajoute un bruit blanc au membre de gauche ( drive virtuelle du mouvement brownien t dt = dwt ) et lquation devient
2 x t + x t ( 1 x2 t ) ( 1 xt )xt = t .
En notant y = x , le processus vectoriel (x, y ) satisfait dxt dyt = = yt dt

2 yt ( 1 x2 t )dt + ( 1 xt )xt dt + dwt .
On pourra simuler les situations = 1 = = 1, 1 = 0, {0; 0, 2; 0, 5}, T = 8, x0 [4; 2], y0 = 0 et lon regardera, en particulier quand grandit, le comportement au voisinage des attracteurs -1 et 1 en traant x seulement, avec T de lordre de 100 (ou 1000 ; pour aller vite, ne pas prendre h trop petit). Pont brownien. Il sagit de xt = wt tw1 . On vrie que xt donc sa loi concide avec celle de xt dt + dwt . dxt = 1t
t 0
s + 1x s ds est un mouvement brownien et
Observer par simulation quen dpit de la singularit en t = 1 le comportement semble assez bon. Dynamique des populations (proie/prdateur). Equations de Lotka-Volterra. Lquation dterministe est x = ( x)x qui exprime que pour une population x petite (c.--d. x ), le nombre de naissances moins le nombre de morts est proportionnel x ( > 0), mais quand x approche de /, le manque de ressources se fait sentir, impliquant une dcroissance quand x dpasse cette valeur. Noter les deux points stationaires et remarquer que 0 est instable si > 0 et stable sinon. Les alas sur les ressources disponibles font que est alatoire, et est remplac par + t o t est un bruit blanc. On obtient dxt = ( xt )xt dt + xt dwt .
3. L. Arnold, Random dynamical systems, Springer, 1998.
94
Le modle dterministe simple pour deux espces dont une est le prdateur de lautre est x = ax byx, y = cy + dxy . Noter que z = dx c log x + by a log y est une intgrale premire (c.--d. z = 0). Plus gnralement un modle vectoriel pour plusieurs espces est dxi = (i + ij xj )xi dt + i xi dwt
o i + ii xi est la vitesse de croissance en absence dautre espce, et ij est positif si i est prdateur de j , ngatif sinon, et nul si les espces signorent (matrice antisymtrique en signe). Exemple trois populations : dx1 dx2 dx3 = = = (a1 b11 x1 b12 x2 )x1 dt + 1 x1 dwt (a2 + b21 x1 b22 x2 b23 x3 )x2 dt + 2 x2 dwt
(a3 + b32 x2 b33 x3 )x3 dt + 3 x3 dwt .
Les ai et bij sont positifs. Noter que des i peuvent tre ngatifs (espce prdatrice qui ne peut survivre seule). On laisse le lecteur interprter les signes. Modle de Heston. Il sagit dune amlioration du modle de Black-Scholes o la volatilit vt du prix St de lactif est elle-mme modlise par un processus stochastique 4 : dSt = St dt + v t St dwt dvt = (vt )dt + k v t dwt
o wt et wt sont deux mouvements browniens indpendants.
VIII.4
VIII.4.1
Techniques spciques de simulation

chantillonnage prfrentiel
Tout est bas sur le thorme de Girsanov qui implique que les deux processus condition initiale dterministe dxt = b(xt )dt + (xt )dwt , dyt = (b(yt ) + (yt )h(yt ))dt + (yt )dwt , y0 = x0 satisfont pour toute fonction mesurable borne f (x) = f (xt , 0 t T ) E [f (x)] = E [f (y )e
T 0
h(yt )dwt 1 2
T 0
h (y t )
dt
].
b, et h peuvent dpendre de t galement. Il sut pour cela davoir existence et unicit en loi de la solution en x et que |h(x)| C (|x| + 1) [18]. On peut alors choisir h de sorte favoriser certaines trajectoires, par exemple h(x) = x si lon veut calculer P (|xT | < ) ; voir le III.1 pour les dtails pratiques. Lchantillonnage prfrentiel est galement utilis pour simuler des trajectoires conditionnellement leur valeur en certains points. En eet ce problme de simulation est gnralement dicile mais possde une solution simple dans le cas o b est une fonction ane de x et est constant, car le processus est gaussien de structure connue simple ; le thorme de Girsanov permet de sy ramener ds que est une matrice carre inversible constante, et galement dans certaines autres circonstances. Nous rfrons larticle en note pour les dtails et les applications lestimation 5 .
4. Larticle de G. Daniel, D.S. Bre et N.L. Joseph, A goodness-of-t for the Heston model, donne une premire approche intressante de ce modle pour un statisticien. Voir www.cs.man.ac.uk/dbree/goodness-of-fit-Heston-Model.pdf 5. B. Delyon, Y. Hu, "Simulation of conditioned diusions and applications to parameter estimation", Stochastic Processes and Application, 116, no. 11, 16601675. 2006.
95
VIII.4.2
Importance splitting
Cest simplement lapplication de lexercice III.8.7. Par exemple pour calculer la loi de x = (xt )0tT sachant A = {suptT |xt | > K }, on simulera N0 trajectoires, on considrera ensuite celles pour lesquelles le seuil K1 = K/2 (par exemple) est dpass et pour toutes ces dernires on refera N1 simulations partant du temps datteinte de ce seuil ; on slectionne ensuite parmi ces dernires celles qui atteignent un seuil K2 = 2K/3.... On a alors lestime (III.2) de E [f (x)1A ] avec X = f (x).
96
IX Bootstrap
IX.1
Introduction
Soit T (y1 , ...yn ) une statistique base sur n observations, par exemple un estimateur dun certain paramtre, ou encore, un estimateur dun moment des yi (supposs indpendantes et de mme loi). On cherche avoir de linformation sur la distribution de cette statistique, par exemple variance intervalles de conance fonction de rpartition Une mthode pourrait consister faire une estimation de la densit de y pour en dduire ensuite les informations ncessaires sur la distribution de T . Cette faon de faire est toutefois dicile raliser et coteuse. Les mthodes considres ici consistent estimer par simulation cette distribution. Comme la loi de y nest pas connue, il faut lapprocher. Les rfrences [12] et [13] contiennent de nombreux exemples et dtails pratiques et [25] est une excellente tude plus approfondie.
IX.2
Estimation par rptitions (bootstrap paramtrique)
On est ici ncessairement dans un cadre paramtrique. On se donne donc une famille de lois P , et une suite dobservations Y = (y1 , ...yn ), indpendantes, de loi P0 chacune ; 0 est le paramtre inconnu. Soit (Y ) un estimateur de 0 . k k Si 0 tait connu, on pourrait simuler dautres suites dchantillons sous la loi P0 , disons Yk = (y1 , ...yn ), k = 1, ...K , et observer la distribution empirique des (Yk ). On aurait par exemple un estimateur de la (Y ) avec la formule variance de 2 =
0
1 K
k=1
(Yk ) 0 )2 . (
k k Comme est inconnu, on peut procder de la faon suivante : simuler dautres suites Yk = (y1 , ...yn ) sous 2 la loi P (Y ) et observer la distribution des (Yk ). On a par exemple un estimateur de la variance de (Y ) avec la formule
2 =
1 K
k=1
(Yk ) (Y ))2 . (
(Y ) car cest la valeur du vrai paramtre dans le cas o la distribution est P . Noter quon a mis ici (Y ) Cette mthode est clairement base sur les hypothses 97
1. Exactitude du modle : les yi suivent eectivement la loi P0 . 2. Rgularit et proximit : la statistique recherche (ici 2 ) est une fonction susament rgulire de 0 , (Y ) est susament proche de 0 . et
IX.3
Principes de base du bootstrap
Cette mthode a lavantage de fonctionner mme dans un cadre non-paramtrique. Elle est simplement base sur le principe de base de lestimation : remplacer une fonction de la vraie distribution (inconnue) par la mme fonction applique la distribution empirique. Pour xer les ides, donnons-nous lexemple suivant o lon estime le moment dordre de 4 des yi supposs de mme loi T (Y ) = 1 n
n 4 yi , i=1 4 T 0 = E [y 1 ] = lim T (Y ). n
Pour bien comprendre le bootstrap, il faut interprter T (y1 , ...yn ) comme une fonction de la rpartition empirique Fn des donnes : Fn (x) = 1 #{i : yi x}. n
En eet, la donne de Fn est quivalente celle de lchantillon Y . On utilisera alors labus de notations : T (Y ) = T (Fn ) ; dans lexemple plus haut on a T (Fn ) = y 4 dFn (y ). T (Fn ) est une estime de T 0 = T (F ), limite quand n tend vers linni, car Fn tend vers F en norme uniforme (thorme de Glivenko-Cantelli) et T sera suppose continue pour cette mtrique (condition gnralement satisfaite). Le bootstrap consiste produire des chantillons indpendants de T en faisant comme si la distribution empirique des yi tait la vraie distribution des yi : Gnrer un chantillon Y = (y1 , ...yn ) en eectuant n tirages uniformes avec remise dans {y1 , ...yn } T (Y ) est un chantillon de la statistique. Ayant produit un grand nombre dchantillons Y 1 , ...Y B et de rptitions, T (Y1 ), ...T (YB ), on peut par 0 exemple estimer lcart quadratique moyen entre T (Y ) et T par 2 = 1 B
B
b=1
(T (Yb ) T (Y ))2 .
Pour une rgion de conance, soit tel que 95% des T (Yb ) satisfassent T (Y ) [T (Y b ) , T (Yb ) + ] alors on considrera que lintervalle [T (Y ) , T (Y ) + ] est une rgion de conance pour T 0 de niveau approximatif 5%. Noter que le passage se fait de la faon suivante : monde de dpart monde bootstrapp chantillons Y T (Y ) Yb T (Yb ) paramtres T0 F T (Y ) Fn
et lon calcule sous Fn (monde bootstrapp) ce que lon veut connatre sous F . 98
Avantages et inconvnients du bootstrap. Il sont essentiellement : 1. La simplicit du principe. 2. Des rsulats exprimentaux assez bons en divers domaines, par exemple en rgression non-paramtrique [17], ou en calibration dintervalles de conance 1 , mme sur des chantillons de taille modeste. 3. Des thormes dmontrant la validit des approximations jusquau deuxime ordre en la taille de lchantillon. Ceci explique le point prcdent. 4. Mme si lon connat bien la loi asymptotique de T (Y ) T 0 correctement normalis, il est frquent quil ny ait pas dexpression explicite pour sa densit ou sa variance, ce qui rend dicile lexploitation de cette information. Le bootstrap permet de contourner ce problme. 5. Un inconvnient : Le bootstrap nest sr que dans un cadre o lapproximation gaussienne est valide ; de plus les valeurs extrmes dans le monde rel et le monde bootstrapp ont a priori des distributions trs direntes 2 . Ceci signie que dans lexemple ci-dessus, il faut que n(T (Y ) T 0 ) tende en loi vers une gaussienne et que lon ne peut prendre dun ordre infrieur 1/ n. Voir cependant le IX.6.4. Un mot de la thorie. Un rsultat thorique gnral typique est que sous certaines hypothses de rgularit n(T (Fn ) T (F )) tendent en loi vers N(0, 2 ), de T (considre comme fonction de F ) 3 alors les v.a. E = > 0 et pour (presque) tout Y , les E = n(T (Fn ) T (Fn )) ont la mme limite en loi. Cependant cette proprit nest pas forcment trs passionnante, car on peut souvent estimer sans trop de problme. Dautres rsultats (voir [4] ou [25] p.19), assurent que la loi E b est proche de celle E un ordre meilleur que lapproximation gaussienne ; malheureusement, cette proximit nest garantie en gnral que pour des versions plus sophistiques du bootstrap, comme le bootstrap avec normalisation pivotale ( IX.6.3), ou le bootstrap rgularis en rgression non-paramtrique [17], ou encore le double bootstrap 4 . Voir aussi le IX.6.4 pour le cas non asymptotiquement gaussien. En pratique, une mthode de bootstrap devra toujours tre valide par des simulations.
IX.4
Exemples
Calibration dune rgion de conance. Les rgions de conance pour les estimateurs sont de la forme : ) < } R = { : (,
1. P. Hall, L. Peng, On prediction intervals based on predictive likelihood or bootstrap methods, Biometrika, 86, 4, 871-880, 1999. 2. A.T.A. Wood, Bootstrap relative errors and subexponential distributions, Bernoulli, 6(5), 2000, 809-834. 3. On demandera lexistence dune certaine fonction (x) variation totale nie, appele fonction dinuence, telle que pour toute fonction de rpartition G, T (G) =T (F ) + EG [(y )] + o( G F 2
).
On a alors = V ar ((Y )). En particulier, T doit varier peu si lon perturbe la distribution de y par une masse de Dirac (G = (1 )F + 1.x0 ). 4. Pour le traitement complet dun exemple simple consulter larticle J.G. Booth, P. Hall, Monte Carlo approximation and the iterated bootstrap, Biometrika, vol 81, No 2, 331-340, 1994. Voir aussi [4]. Lide est simple mais techniquement complique traiter mathmatiquement de bout en bout : on a par un dveloppement dEdgeworth 1 P ( n(T (Y ) T 0 ) x) =P (N(0, 2 ) x) + p1 (x) + .... n et il y a un dveloppement analogue pour T (Y ) (conditionnel Y ) 1 1 (x) + .... P ( n(T (Y ) T (Y ) x) =P (N(0, 2 ) x) + p n Si = (cas pivotal), alors lcart entre les deux lois est dordre n1 car lcart entre p1 et p 1 est dordre n1/2 . Si = leur cart sera dordre n1/2 et lcart entre les deux lois devient dordre n1/2 .
99
) = ( )T S ( ) pour une certaine matrice S et = 2 (). Malheureusement, o typiquement (, p cette rgion nest bien de niveau que si le nombre dchantillon est susament lev. Le bootstrap permet dvaluer autrement la valeur de pour laquelle cette rgion est de niveau . En eet, le niveau de conance tels que (, ) < . On de la rgion estim par bootstrap sera simplement donn par la proportion de b b peut donc rgler de sorte avoir un niveau donn. Distribution de la mdiane (ou autre...). On veut savoir la loi de mY m0 o mY est la mdiane empirique des yi et m0 la mdiane de leur distribution. Pour cela, on observera simplement la loi de mYb mY quand Y b est un chantillon bootstrapp (et que Y est xe, puisque cest lobservation). Dans le deuxime trac de la gure IX.1 on a superpos la fonction de rpartition de mY m0 (calcule thoriquement) et celle mYb mY (calcule empiriquement). Rgression non-paramtrique adaptative. Cest une situation o il faut choisir un estimateur parmi une innit indexe par un paramtre. On observe : yi = f (xi ) + i o les (xi , i ) sont i.i.d. et f est inconnue. On a par exemple lestimateur noyau f h (x) =
i
pi y i , i pi
pi = K
x xi h
2 On cherche h de sorte minimiser lerreur de prdiction E [(y f h (x)) ] o lesprance porte sur la paire (x, y ) de distribution F (distribution commune aux (xi , yi )) ainsi que sur les (xi , yi ) implicites dans lestimateur. Le choix de h est rarement facile 5 . Lestimateur par bootstrap de cette erreur est
c(h) =
1 nB
b=1 i=1
b (xi ))2 (yi f h
b est lestimateur de f bas sur un chantillon bootstrapp de (xi , yi ) : o f h b (x) = f h

i b pb i yi , b i pi
pb i = K
x xb i h
On choisira donc la valeur de h qui minimise c(h). Cette mthode est la plus rustique ; on prfre gnralement utiliser un bootstrap rgularis (exercice IX.7.3). Estimation de densit. On aura cette fois p h (x) = c(h) = 1 nB
n B 1 nh
x x i h
et lon minimisera
log p b b h (xi ) o p h (x) =

i=1 b=1
1 nh
K
i
x xb i h
Le log est simple et naturel pour illustrer le propos mais nest pas trs bon, et il est meilleur en pratique dutiliser les estimes habituelles du risque quadratique 6 .
5. W. Hrdle, P. Hall, J.S. Marron , How Far Are Automatically Chosen Regression Smoothing Parameters From Their Optimum, J. Amer. Statist. Assoc. 83 (1988), no. 401, 86101. 6. Pour un expos concis sur les estimateurs gnraux de h, on pourra consulter larticle : M.C. Jones, J.S. Marron, S.J. Sheater, A Brief Survey of Bandwith Selection for Density Estimation, J. Amer. Statist. Assoc. 91 (1996), no. 433, 401407.
100
IX.5
chec du bootstrap dans un cas non-rgulier
Considrons lestimation des quantiles : T (F ) = max{x : F (x) < }. On a ici n(T (Fn ) T (F )) N(0, 2 ), avec 2 = (1 ). La gure IX.1 montre deux expriences faites avec = 1 et = 1/2. Dans le cas o 0 < < 1, tout va bien. Sinon, lexprience nest pas rgulire et la bonne normalisation pour T (Fn ) T (F ) est n et non pas n ; dans ce cas on nobtient pas la distribution asymptotique de n(T (Fn ) T (F )) en calculant celle de n(T (Fn ) T (Fn )). Faisons le lien avec la note page 99. On montre sans grande dicult que si F est drivable et de drive strictement positive en T (F ), alors il y a drivabilit et la fonction dinuence vaut (x) = F (T (F ))1 ( 1(x < T (F )). En particulier on voit que si = 1 (estimation du maximum du support de la distribution et T (Y ) = T (Fn ) = supi yi ), les ennuis commencent, surtout si F admet une drive nulle en F 1 (1), auquel cas est inni ; on peut galement vrier que T nest pas une fonction continue au voisinage de F , en eet si T (F ) = alors > 0, T ((1 )F + +1 ) = + 1.
ij
Un autre exemple dchec du bootstrap est celui des U -statistiques : T = certaine fonction, cf [25] p. 37.
H (yi , yj ), o H est une
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.15
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.3
-0.13
-0.11
-0.09
-0.07
-0.05
-0.03
-0.01
0.01
-0.2
-0.1
0.1
0.2
0.3
Figure IX.1 Lchantillon Y = (y1 , ...yn ) consiste en 50 tirages de la loi uniforme sur [0, 1]. T (Y ) = sup(yi ). La premire gure reprsente la fonction de rpartition de la distribution de T (Y ) T (Fy ) = T (Y ) 1 obtenue thoriquement et son estimation par bootstrap. On retrouve la valeur e1 0, 37 qui est la probabilit asymptotique quun sous-chantillon de taille n tir uniformment dans {y1 , ...yn } ne contienne pas le plus grand lment de cet chantillon. Sur la seconde gure lexprience est la mme sauf que cette fois-ci T est la mdiane.
IX.6
IX.6.1
Variantes et dtails pratiques

Bootstrap rgularis.
Ce nest rien dautre que lestimation de la distribution des yi pour gnrer de nouveaux chantillons ; cest donc une simple mthode de rptitions couple avec une estimation pralable. On peut estimer cette loi dans un cadre paramtrique ou non-paramtrique. Pour un exemple en estimation de densit, voir lexercice IX.7.3. 101
IX.6.2
Bootstrap semi-paramtrique.
Dans un modle paramtrique de la forme yi = f (0 , xi ) + ui o les xi sont dterministes, plutt que de faire le bootstrap direct des donnes (ce qui peut paratre assez injusti puisque les rgresseurs sont gnralement considr comme dterminisites), on prfrera estimer 0 , puis les ui puis gnrer les donnes bootstrappes : xi ) + ub y b = f (,
i i
xi ). o les sont tirs uniformment dans lensemble des u i = yi f (, (i) , xi ), o (i) est lestime Il pourra tre plus n de gnrer les ui par leave-one-out : u i = yi f ( obtenue en excluant la paire (xi , yi ) des donnes. ub i
IX.6.3
Normalisation pivotale.
Cette mthode amliore souvent considrablement les performances du bootstrap. Elle est tout--fait recommande dans les cas rguliers, voir [4] ou [25] chap.5. Le point est de modier la statistique T de sorte que sa distribution soit asymptotiquement indpendante de F : moins T dpend de F , plus le bootstrap apporte damlioration (cf. p.ex. [4] 3.1). Soit (Y ) un estimateur (non-ncessairement prcis) de la variance de T (Y ). Alors la loi de (T (Y ) T (Fy ))/ (Y ) peut tre approche par la loi empirique de (T (Y b ) T (Y ))/ (Y ). Ceci conduit a lapproximation en loi (Y ) (T (Y ) T (Y )) T (Y ) T (Fy ) (Y ) dans le membre de gauche cest Y qui varie, et dans celui de droite, cest bien entendu Y et Y est x. Cette mthode conduit des intervalles de conance pour T (Fy ), qui sont de la forme [T (Y ) 1 (Y ), T (Y ) + 2 (Y )].
IX.6.4
Bootstrap par sous-chantillonnage
Dans cette mthode, Y est un sous-chantillon de Y de longueur bn < n, obtenu par tirage sans remise. On montre que si bn nest pas trop grand, on pourra estimer la distribution T (Y ) T 0 dans un cadre trs gnral, comprenant mme le contre-exemple du paragraphe prcdent. En eet, si bn bn 0 n (n)(T (Y ) T 0 ) D
en distribution
o D est une certaine loi et (n) est la vitesse de convergence (dans les cas rguliers D est gaussienne et (n) = n), alors, pour presque tout , Ceci signie que pour tout point x de continuit de D n (x/ (bn )) = 1 B
B b=1
(bn )(T (Y ) T (Y )) D
en distribution.
1(T (Yb )T (Y ))x/ (bn) P (D x)
(IX.1)
bn o la somme est tendue aux B = Cn sous-chantillons de Y 7 .
7. Pour un nonc plus prcis consulter : D.N. Politis, J.P. Romano, Large Sample Condence Regions based on Subsamples under Minimal Assumptions Ann. Stat., 1994, Vol 22, No 4, 2013-2050. En particulier, dans lnonc prcdent, la convergence na en ralit pas lieu presque srement mais en probabilit, moins daner lhypothse de dcroissance de bn /n.
102
La valeur bn = n2/3 est souvent recommande. Cette mthode est donc trs bonne pour obtenir au moins la forme de la distribution ; en eet, le facteur dchelle (n) est a priori inconnu. Pour le cas o (n) = n , P. Bertail 9 propose une mthodologie pour estimer qui donne, aprs report dans (IX.1), une estime consistante de la fonction de rpartition de D. Lide est simplement de calculer n (x) pour dirents choix de bn et de voir pour quel les courbes n (b n x) se superposent.
Si cette mthode est plus robuste que le simple bootstrap, on peut vrier quen revanche la convergence vers D est moins rapide dans les cas rguliers 8 .
IX.7
Exercice IX.7.1 (Estimation de biais) Proposer une mthode de bootstrap pour estimer le biais E [T (Y ) T (Fy )] de lestimateur T . Exercice IX.7.2 (Rapport de vraisemblance empirique) Soit G une fonction de rpartition associe une mesure portant les yi , ce que lon notera G Fn . Si les poids correspondants sont pi , on dnira le rapport de vraisemblance R(G) = 2n
0 p0 i log(pi /pi )
10 o les p0 a montr que lon a asymptotiquement i sont les poids donns par Fn (gnralement 1/n). Owen sous certaines hypothses de rgularit
inf {R(G); T (G) = T (Fy ), G Fn } 2 (si T (G) Rp , on trouve un 2 p ). Ceci conduit aux intervalles de conance asymptotiques T (Fy ) {T (G); R(G) c, G Fn } avec le niveau 1 F2 (c). 1. Proposer une mthode de bootstrap pour restimer le niveau. 2. On suppose que lon dispose dune mthode raisonnable pour estimer Fy . Proposer une mthode de simulation pour restimer le niveau. Exercice IX.7.3 (Bootstrap rgularis) On sintresse lestimation de densit. Supposons que lon connaisse une valeur h0 qui est infrieure la valeur optimale h0 . Utiliser p h0 pour construire une mthode de bootstrap rgularis. Donner une justication heuristique ce choix (on considrera la mme mthode en remplaant h0 par 0 ou h0 ). Proposer une mthode analogue en rgression non-paramtrique yi = f (xi ) + i (on supposera les xi dterministes) : il sagit de partir dune estime pilote f 0 , den dduire des i , puis fabriquer des chantillons b bootstrapps en tirant des i . En pratique, on pourra prendre h0 infrieur la valeur de h obtenue par validation croise, ou par un bootstrap non-rgularis [17]. Noter que ce h0 est eectivement gnralement plus petit que h0 11 .
8. P. Bertail, Second order properties of an extrapolated bootstrap without replacement under weak assumptions, Bernoulli 3(2), 1997, 149-179. 9. P. Bertail, D.N. Politis, J.P. Romano, On subsampling estimators with unknown rate of convergence, J. Amer. Statist. Assoc. 94 (1999), No 446, 569-579. 10. A.B. Owen, Empirical Likelihhod ratio condence intervals, Biometrika, vol.75, No.2, 237-249, 1988. 11. Voir aussi larticle P. Hall, J.S. Marron, B.U. Park, Smoothed cross-validation, Probab. Th. Relat. Fields, 92,1-20, 1992. pour une comparaison avec la validation croise.
103
104
A Filtre de Kalman
Soit un systme dont lvolution est donne par les quations xk+1 yk = = Ak xk + vk Ck xk + wk (A.1) (A.2) . On se donne galement la loi de x0 :
Qk Rk T Rk Sk N( x0 , P0 ). Le ltre de Kalman se rsume au rsultat suivant : o (vk , wk ) est un bruit blanc gaussien de covariance
Thorme 23 On suppose Rk = 0. La loi de xk sachant (y1 , y2 ...yk1 ), ou (y1 , y2 ...yk ) est gaussienne. Les variables x k x k satisfont x k x k+1 Pk
Pk +1
= =
E [xk |yk1 , yk2 ...] E [xk |yk , yk1 ...] = = x k + Kk (yk Ck x k) (correction) (prdiction) (A.3) (A.4)
Ak x k
o les matrices Kk et
T x = E [( x k+1 xk+1 ) |yk , yk1 ...] k+1 xk+1 )( = (I Kk Ck )Pk T T = Pk Ck (Ck Pk Ck + Sk )1
= E [( xk xk )( xk xk )T |yk , yk1 ...]
satisfont la rcursion Pk Kk
Pk +1
(A.5) (A.6) (A.7)
= Ak Pk AT k + Qk .
T = Ak x k + Rk (Ck Pk Ck + Sk )1 (yk Ck x k)
Si Rk = 0, les formules (A.4) et (A.7) deviennent x k+1

Pk +1 T T T T = Ak Pk Ak + Qk (Ak Pk Ck + Rk )(Ck Pk Ck + Sk )1 (Ak Pk Ck + Rk )T .
Les estimes lisses x n = E [xn |y1 , . . . yN ] peuvent se dduire des estimes ltres, par le ltrage arrire de Rauch-Tung-Striebel : x n =
1 x n + Pn AT ( xn+1 x n (Pn+1 ) n+1 ),
x N = x N . 105
(A.8)
Note : Si lvolution de x dans (A.1) est xk+1 = Ak xk + uk + vk avec uk connu, il faut simplement remplacer (A.4) par x k + uk . k+1 = Ak x Dmonstration: Rappelons que si Y = CX + e o e est indpendant de X , et C est une matrice de dimension approprie alors on a
1 E [X |Y ] = mx + Rxy Ryy (Y Cmx ) = mx + Rxx C T (CRxx C T + Ree )1 (Y Cmx ) 1 = Rxx Rxy Ryy Rxx = Rxx Rxx C T (CRxx C T + Ree )1 CRxx .
Rxx|y
Soulignons quil est remarquable que la matrice Rxx|y ne dpende pas de y . Les quations (A.3,A.5,A.6) sont les mmes que celles-ci, avec Y = yk , X = xk , e = wk , Rxx = Pk , Rxx|y = Pk et E [ . ] dsigne ici E [ . |yk1 , yk2 ...] (donc E [ .|Y ] dsigne E [ . |yk , yk1 ...]), si bien que mx = x k. Les quations (A.4) et (A.7) sont lmentaires si Rk est nul. Pour le cas R = 0, il faut noter que comme vk , yk y k = yk Ck x k , et yk1 , yk2 , ... sont orthogonaux, T et que la variance de yk Ck x k = Ck (xk x k ) + wk est Ck Pk Ck + Sk , on a
T 1 E [vk |yk , yk1 ...] = E [vk |yk Ck x (yk Ck x k , yk1 ...] = E [vk |yk Ck x k ] = Rk (Ck Pk Ck + Sk ) k) et donc la formule pour x k+1 sensuit ; pour la formule de Pk+1 noter que
x k+1 xk+1
T = Ak ( xk xk ) + Rk (Ck Pk Ck + Sk )1 (yk Ck x k ) vk
T 1 = Ak ( x (yk Ck x k xk ) + Ak Kk (yk Ck x k ) + Rk (Ck Pk Ck + Sk ) k ) vk T T 1 = Ak ( x (yk Ck x k xk ) + (Ak Pk Ck + Rk )(Ck Pk Ck + Sk ) k ) vk
et en faisant passer le terme central dans le membre de gauche, on fait apparatre deux sommes de deux variables indpendantes, ce qui conduit au rsultat lorquon prend la variance. On laisse (A.8) en exercice (dicile !).
106
Bibliographie
[1] S. Arulampalam, S. Maskell, N. Gordon, T. Clapp, A tutorial on particle lters for on-line nonlinear/non-gaussian bayesian tracking, IEEE-SP, 50(2), 174-188, Feb 2002. [2] N. Bartoli, P. Del Moral, Simulation et algorithmes stochastiques : une introduction avec applications, Cpadus , 2001. [3] A. Benveniste, M. Mtivier, P.Priouret, Adaptive Algorithms and Stochastic Approximations, SpringerVerlag, 1990. [4] R. Beran, Prepivoting test statistics : a bootstrap J.Amer.Statist.Assoc., Vol. 83, No. 403, 687697, 1988. view of asymptotic renements,
[5] J. Besag, Spatial Interaction and the Statistical Analysis of Lattice Systems, Journal of the Royal Statistical Society, Series B, Vol. 36, No. 2, 192-236, 1974. [6] L. Breiman, Probability, Addison-Wesley,1968. [7] T.M. Cover, J.A. Thomas, Elements of Information Theory, 2nd edition, Wiley, 2006. [8] N. Cressie, Statistics for spatial data, Wiley, 1991. [9] L. Devroye, Non-Uniform Random Variate Generation, Springer, 1986. Voir aussi dautres rfrences sur cgm.cs.mcgill.ca/luc/rng.html.
[10] P.J. Diggle, Statistical Analysis of Spatial point processes, Academic Press, 1987. [11] M. Duflo, Algorithmes stochastiques, Springer, 1996.
[12] B. Effron E. Jolivet, R. Hordan, Le bootstrap et ses applications, CSISIA, 1995. [13] B. Effron, R.J. Tibshirami, An introduction to the bootstrap, Chapman and Hall, 1993. [14] Y. Ephraim, N. Merhav, Hidden Markov processes, IEEE Trans. Inform. Theory, vol. 48, . 15181569, June. 2002.ece.gmu.edu/ yephraim/ephraim.html [15] G.S. Fishman, Monte Carlo, Springer 1997. [16] P. Hall, C.C. Heyde, Martingale Limit Theory and Its Applications, Academic Press, 1980. [17] W. Hrdle, Applied nonparametric regression, Cambridge University Press (1990). [18] I. Karatzas, S. Shreve, Brownian Motion and Stochastic Calculus, 2d edition, Springer 1991. [19] J.F.C. Kingman, Poisson processes, Clarendon Press, 1993. [20] E. Kloeden, E. Platen, Numerical Solution of Stochastic Dierential Equations, Springer, 1992. [21] D.E. Knuth, The Art of computer programming. Vol. 2, Addison-Wesley , 1998. [22] P. LEcuyer, Random Number Generation, in Handbook of Computational Statistics, J.E. Gentle, W. Haerdle, and Y. Mori, eds., Springer, 2004. www.iro.umontreal.ca/lecuyer/papers.html.
[23] P. LEcuyer, C. Lemieux, Recent Advances in Randomized Quasi-Monte Carlo Methods, in Modeling Uncertainty : An Examination of Stochastic Theory, Methods, and Applications, M. Dror, P. LEcuyer, and F. Szidarovszki, eds., Kluwer Academic Publishers, 2002, 419-474. www.iro.umontreal.ca/lecuyer/papers.html. 107
[24] F. LeGland, Filtrage particulaire, 19ime Gretsi, septembre 2003. Disponible ladresse www.irisa.fr/sigma2/legland/pub/gretsi03.pdf. [25] E. Mammen, When Does Bootstrap Work ?, Springer, 1992. [26] X.-L. Meng, D. van Dyk, The EM AlgorithmAn Old Folk-Song Sung to a Fast New Tune, Journal of the Royal Statistical Society. Series B, Vol. 59, No. 3. (1997), pp. 511-567. [27] A.A. Muchnik, A.L. Semenov and V.A. Uspensky Mathematical metaphysics of randomness, Theoret. Comput. Sci. 207 (1998), no. 2, 263317. [28] B.M. Nevelson, R.Z. Khasminskii, Stochastic Approximation and Recursive Estimation, American Mathematical Society Translation of Math. Monographs, vol 47, 1976. [29] H. Niederreiter, Random Number Generation and Quasi-Monte Carlo Methods, CBMS-NSF Reg. Conf. Series in Appl.Math., Vol. 63, SIAM, 1992. [30] E. Nummelin, General irreducible Markov chains and non-negative operators, Cambridge University Press, 1984. [31] B. Oksendal, Stochastic dierential equations : an introduction with applications, Springer, 1992. [32] L. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition, Proc. IEEE, 77(2) :257-286, Feb. 1989. Disponible sur divers sites internet. [33] S.R. Ross, Simulation, Academic Press, 1997. [34] G.N. Saridis, Stochastic Approximation Methods for Identication and Control A Survey, IEEEAC, vol 19, No 6, dcembre 1974. [35] D. Stoyan, W.S. Kendall, J. Mecke, Stochastic Geometry and Its Applications, Wiley, 1987.
108
Index
algorithme stochastique, 81 annulation de bruit, 84 antithtiques (variables), 26 aperiodicit, 34 approximation stochastique, 81 baysien hirarchique, 39, 52 binnial (modle conditionnellement), 48 birthday spacings, 13 bootstrap paramtrique, 97 chane de Markov contrle, 85 champ de Gibbs, 45 champ de Markov, 45 champ gaussien, 48 conditionnellement binnial (modle), 48 conditionnellement poissonnien (modle), 55 couplage sur le pass, 75 Cox (processus), 43 dcompte, 18 discrpance, 29 donnes manquantes, 40, 41, 84 chantillonnage corrl, 26 chantillonnage parfait, 75 chantillonnage postrieur, 39, 41, 43, 47, 66 chantillonnage prfrentiel, 23, 95 chantillonnage strati, 27 Ehrenfest, 50 EM (algorithme), 41 pidemie, 59, 68 estimation, 38 vnements rares, 24 forme produit, 35, 51 formules boolennes, 20 Fortuin-Kasteleyn, 51, 77 Gibbs (chantillonneur), 35, 47 graphes, 20, 37, 45, 51 hard-core model, 51 Hawkes, 58 hirarchique (baysien), 39, 52 HMM, 65 image, 47 importance sampling, 23 importance splitting, 31, 96 indcomposabilit, 34 intgration, 25 inverse gaussienne, 15 inversion, 8 inversion approche, 14 irrductibilit, 34 Kiefer-Wolfowitz (algorithme), 85 Kolmogorov (test), 11 lacunes, 13 mlange avec poids ngatifs, 14 MCMC, 38 mesure quasi-invariante, 62, 68 Metropolis (alg.), 36, 39, 47, 75, 77, 79, 80, 87 Milstein, 92 points proches, 13, 15 Poisson, 15, 39 Poisson (processus ponctuel), 43, 79 poissonnien (modle conditionnellement), 55 poursuite, 86 probit multivari (modle), 41 processus spatiaux, 48 quasi-invariante (mesure), 62, 68 recuit simul, 87 rgnration, 72 rejet, 9, 77 renouvellement, 72, 79 rversibilit, 34, 51 Robbins-Monro, 82 robot (calibration), 85 Romberg (mthode), 92 saut (processus), 57, 61 semi-markovien, 63 109
superposition (principe), 58 test des corrlations, 12 test des lacunes, 13 test des points proches, 13, 15 test des sries, 13 tobit (modle), 41 variables antithtiques, 26 variables de contrle, 25 voisinage, 45 von Mises (distribution), 69
110

Simu

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Simu

Transféré par

Droits d'auteur :

Formats disponibles

Simulation et modlisation

Cours de deuxime anne de master

Bernard Delyon 19 juillet 2012

1. IRMAR, Universit Rennes I, Campus de Beaulieu, 35042 Rennes cdex.

Table des matires

VI Simulation de processus : convergence 71 VI.1 Algorithme des rptitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 VI.2 Rgnration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3

72 73 74 75 75 76 77 77 79 79 81 81 81 82 83 84 85 85 86 86 87 88 91 91 91 93 95 95 96 97 97 97 98 99 101 101 101 102 102 102 103 105

I Les gnrateurs de suites i.i.d.

Gnrateurs pour la loi U([0, 1])

Rcurrences linaires simple

Table I.1 Quelques valeurs utilises pour m et a, (c = 0).

j Ui+j 0 (mod 1), i = 1, 2...}.

Rcurrences linaires multiples

Elles sont dnies par la relation : Xi =

aj Xij (mod m).

On opre directement sur la reprsentation binaire des rels de [0, 1] : u=0+

La priode vaut au mieux mm . Par exemple : m = 65519, m = 65447, a = 512, a = 27076.

Lois non uniformes : mthodes gnrales

P (Q(U ) x) = P (U F (x)) = F (x). Q(u) = min{y : F (y ) u}

1. Gnrer une v.a. J valeurs dans {1, 2, . . . r} avec probabilits p1 , . . . pr

n i=1 (Yi )1Ui g(Yi ) . n 1 i=1 1Ui g(Yi ) n

Le dnominateur correspondant = 1, la limite du rapport est bien

Quelques lois usuelles

Lapplication de la mthode dinversion donne immdiatement X = log(U ),

1. Gnrer U U([0, 1]) et V exponentielle de paramtre 1

f ( 2v cos(2u), 2v sin(2u))ev dvdu f ( cos , sin )e

Vecteur sur la sphre

preuves empiriques sur les suites pseudo-alatoires

preuves de distribution instantanne

et la statistique dn = n sup |Fn (x) F (x)|

et donc dn = n sup |n1

1Ui F (x) F (x)| =

et lon considre la statistique de test

1x>0 et la paire (X, Y ) de variables alatoires

Indications : Vrier que

o les dirences sont calcules modulo 1 de sorte que 0 Vi V0 < 1.

1. En remarquant que P ( > h|V0 = v ) est indpendant de v , calculer la loi de . 15

2. On ralise P chantillons de . Quelle est la statistique du test de Kolmogorov ?

II Monte Carlo : Exemples de base

Sa variance vaut ) = V ar( 1 V ar(f (X )). n 17

On vrie en eet que E [ ] = 1/l(). Les variances sont lgrement modies.

soit encore en langage logique bj = vrai.

Exemples applicatifs simples

Perte de connexion dans un graphe

On se donne le modle suivant pour lvolution de la valeur dune action : Vn = V0 e

Calcul du niveau dun test

Exercice II.5.4 On considre la mthode suivante pour calculer =

1 i avec Xi U([ i n , n ]) indpendantes.

III Rduction de variance

chantillonage prfrentiel (importance sampling)

f (x) p(x)dx p(x)

ce qui suggre la possibilit dun autre algorithme : = 1 n

Rappelons que si X a une densit fX (x) et Y une densit fY , alors p = fY /fX . 23

Pour la variance : ) nV ar( = V ar(f (Y )/p(Y )) = E [f (Y )2 /p(Y )2 ] 2 = E [f (X )2 /p(X )] 2 .

f (X )2 E [p(X )] = E [f (X )2 /p(X )]. p(X )

1|Yi 5|<1/2 eYi /2+(Yi m)

et lon y gagne si Cov (f (X ), Y )

f (QX (Ui )) + f (QX (1 Ui ))

1. Simuler nj points (X1j , . . . Xnj j ) dans chaque j avec probabilit P (.|j )

est La dmonstration de la validit de la procdure est laisse en exercice. La variance de

Cependant le meilleur choix (sous la contrainte n j = nP (j )j /

avec une variance de ) nV ar( =

On peut estimer galement en cours dalgorithme les proportions idales j = n j /n :