Vous êtes sur la page 1sur 34

Cours 2 : Metropolis - Hastings

1) Introduction : mthodes de Monte Carlo par chanes


de Markov (MCMC)
2) Lalgorithme de Metropolis-Hastings indpendant
3) Lalgorithme de Metropolis-Hastings marche alatoire
4) Algorithme de Green sauts rversibles

p. 1/34

Introduction
Pour approcher lintgrale
h()f ()d,
P

il nest pas ncessaire de simuler suivant f (cf. chant.


dimportance). Le principe des mthodes MCMC est de
construire une chane de Markov ergodique dont la loi
stationnaire est f :
Ide : on part dune valeur (0) et on construit (t)
laide dun noyau de transition tel que la loi cible est f
Pour t0 grand", (t0 ) est distribu suivant f
Remarque : Les valeurs gnres (t0 ) , (t0 +1) , ... sont
dpendantes
p. 2/34

Principes des mthodes MCMC


On connat la loi cible f une constante multiplicative
prs
On dfinit une loi de proposition (appele aussi loi
instrumentale) q(y|).
Initialisation : choix de (0)
partir de (t) , on gnre y (t) laide de la loi de
proposition et on accepte ou rejette cette valeur de y (t)
laide dune procdure dacceptation-rejet. La valeur
retenue est note (t+1) .
Les premires valeurs gnres par lalgorithme ne
seront pas utilises pour linfrence (burn-in")

p. 3/34

Lalgorithme de Metropolis-Hastings
tant donn (t) ,
1.
2.

Gnrer yt q(y|(t) ).
Acceptation-Rejet
(t+1) =

yt
(t)

avec prob. ( (t) , yt ),


avec prob. 1 ( (t) , yt ),

o
(, y) = min

f (y) q(|y)
,1
f () q(y|)

p. 4/34

Proprits et commentaires
Cas symtrique :
(t)

( , yt ) = min

f (yt )
,1
(t)
f ( )

On accepte toujours les valeurs de yt augmentant la


vraisemblance"
La loi cible f peut tre connue une constante
multiplicative prs
La chane ((t) )t peut prendre plusieurs fois la mme
valeur chantillon non iid

p. 5/34

Convergence
Hypothses
Probabilit dacceptation
f (yt ) q((t) |yt )
1 < 1.
P
(t)
(t)
f ( ) q(yt | )

(1)

i.e., lvnement {(t+1) = (t) } est possible.


Loi de proposition
q(y|) > 0 pour tout (, y),

(2).

En particulier, le support de la loi de proposition doit


inclure le support de la loi cible !

p. 6/34

Convergence
Conclusions
Ergodicit
Pour h tel que Ef [|h()|] < ,
1
lim
T T

h((t) ) =

h()f ()d

t=1

Convergence en variation totale


K n (, )(d) f

lim

=0
TV

pour toute loi initiale , K n (, ) est le noyau de la chane aprs n transitions.

En particulier
lim P [(t) A] =

f ()d
A
p. 7/34

Metropolis-Hastings - Cas indpendant


La loi de proposition q(y|(t) ) est indpendante de (t)
tant donn (t) ,
1.
2.

Gnrer yt q(y).
Acceptation-Rejet

(t+1)

yt

avec prob. min

(t)

sinon

f (yt ) q((t) )
f ((t) ) q(yt )

,1 ,

Proprits
Lchantillon gnr nest pas iid
Si f () M q(), supp f , alors .

TV

1 n
M

(ergodicit uniforme)

La probabilit dacceptation est 1/M (i.e proba acceptation-rejet)


p. 8/34

Exemple : Loi Gamma


Soit f la densit dune loi gamma Ga(, ). Calcul de

2 f ()d,

I=

Acceptation rejet avec q() Ga [], []


, f () < M q()

M = exp{(ln() 1) a(ln(a) 1)}


Algo de Metropolis-Hastings avec q() Ga [], []

((t) , yt ) = min

yt
(t) yt
exp
(t)

[]

,1

Matlab : lois-gamma, I = 8.33, TSVP pour exemples


nombre de donnes alatoire avec acceptation-rejet
p. 9/34

Acceptation-Rejet - Loi Gamma

1.

Gnrer y Ga [], []
.

2.

Acceptation-Rejet
(t) = y avec prob.

ey exp(y/)

[]

p. 10/34

Metropolis-Hastings - Loi Gamma

tant donn (t) ,


1.

Gnrer yt Ga [], []
.

2.

Acceptation-Rejet

y
avec prob. min
t
(t+1)

=
(t)
sinon

yt
(t)

exp

(t) yt

[]

,1

p. 11/34

Exemple : = 2.43, = 1
20
acceptation-rejet
valeur de lintgrale
Metropolis-Hastings

18

16

14

intgrale

12

10

500

1000

1500

2000

2500
iterations

3000

3500

4000

4500

5000

p. 12/34

Zoom
11

acceptation-rejet
valeur de lintgrale
Metropolis-Hastings

10.5

10

intgrale

9.5

8.5

7.5

6.5
1000

1500

2000

2500

3000
iterations

3500

4000

4500

p. 13/34

Metropolis-Hastings - Marche Alatoire


La loi de proposition q est telle que
yt = (t) + t ,

o t indpendant de (t) , i.e. q(y|) = q(y ). Si q est


symtrique, on obtient lalgorithme suivant :
tant donn (t) ,
1.
2.

Gnrer yt q(y (t) ).


Acceptation-Rejet

(t+1)

yt

avec prob. min

(t)

sinon

f (yt )
f ((t) )

,1 ,

p. 14/34

Proprits
Pas dergodicit uniforme
Conditions suffisantes dergodicit gomtrique pour
des densits symtriques log-concaves ... (Mengersen
& Tweedie, 1996)
P,

K (, )(d) f

TV

M
n,
r

avec M < et r > 1.


Applet 1 : exemple dalgorithme de Metropolis-Hastings
marche alatoire, Jeff Rosenthal (Thanks!)
Applet 2 : problme de la non-convergence uniforme, Jeff
Rosenthal (Thanks!)
p. 15/34

Exemple : Loi Normale


Simulation de donnes suivant la loi normale N (0, 1).

Metropolis-Hastings - Indpendant avec q(y) U [3, +3]


Algo de Metropolis-Hastings - Marche Alatoire avec
q(t ) U [, +] (Hastings, 1970)

Probabilit dacceptation

2
yt2 )/2
min exp ((t)

,1

Matlab : loi-gauss et loi-gauss-delta pour d = 1 et d = 0.01

p. 16/34

Lois cibles pour = 0.01 et = 1


=1
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-4

-3

-2

-1

1.5

= 0.01
1
0.8
0.6
0.4
0.2
0
-2.5

-2

-1.5

-1

-0.5

0.5

p. 17/34

Calcul des moyennes pour {0.1, 0.5, 1, 5}


= 0.1

= 0.5

0.4

0.5

0.2
0
0
-0.2
-0.5
-0.4
-0.6

5000

10000

15000

-1

5000

=1

10000

15000

10000

15000

=5

6
5

1.5

4
1

0.5

2
1

0
-0.5

0
0

5000

10000

15000

-1

5000

p. 18/34

Calcul des variances pour {0.1, 0.5, 1, 5}


= 0.1

= 0.5

1.4
1.2

1.5

1
0.8

1
0.6
0.4

0.5

0.2
0

5000

10000

15000

5000

=1

10000

15000

10000

15000

=5

1.4

12

1.2

10

0.8
6
0.6
4

0.4

0.2
0

5000

10000

15000

5000

p. 19/34

Extensions
Adaptive Rejection Metropolis Sampling (ARMS)
Algorithme de Metropolis-Hastings sauts rversibles
Algorithmes de Langevin
...

p. 20/34

Metropolis-Hastings avec sauts rversibles


One of the things we do not know is the number of things we
do not know" - Peter Green
Dans quel cas ?
Lorsque lespace des paramtres inconnus est de taille
inconnue
mlanges de lois
modles de types ARMA
modles stationnaires par morceaux
Solution
utiliser une loi de proposition qui permet de se
dplacer dans des espaces de diffrentes dimensions
p. 21/34

Densits jointe et a posteriori


Loi jointe
f (k, (k) , x) = f (x|k, (k) )f ((k) |k)f (k),

k K, (k) k

f (k) : a priori sur le nombre de paramtres (k P())


f ((k) |k) : loi a priori sur les paramtres sachant k
f (x|k, (k) ) : vraisemblance
Loi a posteriori
f (k, (k) |x) =
k, (k)
variable.

f (k, (k) , x)
(k)

f
(k,

, x)
(k)
(k)
f (k, , x)d dk

nk
C
,
C
=
{k}

R
espace de dimension
k
k
kK
p. 22/34

Transition de Mk vers Mk
Pour se dplacer de Rnk vers Rnk , avec k = k , on doit
complter ces espaces afin de dfinir un diffomorphisme gkk

Transition de Mk vers Mk

Rnk +nkk Rnk

g1kk

(k) , u (k )

gkk =

Rnk +nkk Rnk k

g2kk

(k) , u u

avec nk + nkk = nk + nk k .

p. 23/34

Transition de Mk vers Mk
Afin dassurer la rversibilit, il faut aussi dfinir un

diffomorphisme gk k allant de Rnk vers Rnk


Transition de Mk vers Mk

Rnk +nk k Rnk

g1k k

(k ) , u (k)

gk k =

Rnk +nk k Rnkk

g2k k

(k ) , u u

Remarque : on peut avoir u = 0 ou u = 0 !

p. 24/34

Probabilit dacceptation
Le nouvel tat (k ) = g1k k (k) , u est accept avec la
probabilit

kk = min

Posterior Mk
Posterior Mk

pk k Proposal u
pkk Proposal u

(k ) , u
((k) , u)

,1

avec
pk k : proba de tenter un dplacement de Rnk vers Rnk
pkk : proba de tenter un dplacement de Rnk vers Rnk

(k ) ,u
((k) ,u)

: Jacobien de la transformation

p. 25/34

Exemple scolaire
Modle M1

xi N (1 , 1), i 50, xi N (2 , 1), i > 50, C1 = {2}R2


Posterior

exp
2
j=1

tj+1 1

i=tj

(xi j )

Modle M2

1
exp (j )2
2

xi N (, 1), i = 1, ..., 100, C2 = {1} R


Posterior
1
2

50

1
exp
2

100
2

i=1

(xi )

1
1
exp ( )2
2
2

1
2
p. 26/34

Diffomorphisme g12
Passage de M1 M2
g12

R2 R2

(1 , 2 ) ( =

1 +2
,u
2

1 2
)
2

Probabilit dacceptation

2
1/2 q(u)
|Jacobien| =
PosteriorM1 1/2 1
PosteriorM2

1 +2
2

2
q 1
1
2
1 (1 , 2 )
2

Proposal u N (, 1)

p. 27/34

Diffomorphisme g21
Passage de M2 M1
g21

R2 R2

(, u) (1 = + u, 2 = u)

Probabilit dacceptation

1/2 1
1 ( + u, u)
|Jacobien| =
2
PosteriorM2 1/2 q(u)
2 ()q(u)
PosteriorM1

Proposal u N (, 1)
Matlab : samplingGreen

p. 28/34

Optimisation du taux dacceptation


Un algorithm gnrique Adaptive rejection Metropolis
sampling (ARMS)"
choix dune loi instrumentale q qui approche f de faon
ce que le rapport f /q soit born, de faon avoir
lergodicit uniforme
Algorithme marche alatoire
Dans les deux derniers cas, le choix de q est critique !

p. 29/34

Metropolis-Hastings Indpendant
f (Y ) q()
= E min
,1
f () q(Y )
f (Y )
f ()
= 2P

,
q(Y )
q()

f, Y q,

Loi de proposition q paramtre par et on cherche qui


maximise le taux dacceptation moyen
2
() =
m

I{f (yi )q(i )>f (i )q(yi )} ,


i=1

o 1 , . . . , m chantillon de densit f et y1 , . . . , ym chantillon


iid de densit q.
p. 30/34

Metropolis-Hastings marche alatoire


Un taux dacceptation moyen lev nindique pas
ncessairement que lalgorithme volue correctement car
la marche alatoire peut voluer trop lentement (exemple
typique des densits multi-modales)
Un taux dacceptation moyen faible signifie que le
dplacement entre yt et (t) est rapide
Rgle empirique (Gelman, Gilks et Robert, 1995) : taux
dacceptation de 50% pour les modles de dimension 1 et
2, et de 25% pour les modles de dimension suprieure
Applets Laird Breyer + exemples 2 derniers slides

p. 31/34

Exemple dune loi bimodale

p. 32/34

Exemple dune loi bimodale

p. 33/34

Mlange de Gaussiennes
Modle : y1 , ..., yn i.i.d., r inconnu
r

(y mi )2
exp
2
2i2
2i
i

f (y|r ) =
i=1

reversible jump sampler

0.25

2.5

0.2

0.15

1.5

0.1

0.05

0.5

9 10

0
-2

-1

Codes C disponibles sur la page dOlivier Capp,


http://www.tsi.enst.fr/~cappe/ctrj_mix

p. 34/34