Académique Documents
Professionnel Documents
Culture Documents
M
etodos Aproximados
4.1
Computac
ao Bayesiana
Existem varias formas de resumir a informacao descrita na distribuicao a posteriori. Esta etapa frequentemente envolve a avaliacao de probabilidades ou esperancas.
Neste captulo serao descritos metodos baseados em simulacao, incluindo
Monte Carlo simples, Monte Carlo com funcao de importancia, metodos de
reamostragem e Monte Carlo via cadeias de Markov (MCMC). O material apresentado e introdutorio e mais detalhes sobre os estes metodos podem ser obtidos
por exemplo em Gamerman (1997), Robert & Casella (1999) e Gamerman &
Lopes (2006). Outros metodos computacionalmente intensivos como tecnicas de
otimizacao e integracao numerica, bem como aproximacoes analticas nao serao
tratados aqui e uma referencia introdutoria e Migon & Gamerman (1999).
Todos os algoritmos que serao vistos aqui sao nao determinsticos, i.e. todos
requerem a simulacao de n
umeros (pseudo) aleatorios de alguma distribuicao de
probabilidades. Em geral, a u
nica limitacao para o n
umero de simulacoes sao o
tempo de computacao e a capacidade de armazenamento dos valores simulados.
Assim, se houver qualquer suspeita de que o n
umero de simulacoes e insuficiente,
a abordagem mais simples consiste em simular mais valores.
4.2
Apesar da sua grande utilidade, os metodos que serao apresentados aqui devem ser
aplicados com cautela. Devido `a facilidade com que os recursos computacionais
podem ser utilizados hoje em dia, corremos o risco de apresentar uma solucao para
o problema errado (o erro tipo 3) ou uma solucao ruim para o problema certo.
Assim, os metodos computacionalmente intensivos nao devem ser vistos como
substitutos do pensamento crtico sobre o problema por parte do pesquisador.
48
4.3. O PROBLEMA GERAL DA INFERENCIA
BAYESIANA
49
Alem disso, sempre que possvel deve-se utilizar solucoes exatas, i.e. nao
aproximadas, se elas existirem. Por exemplo, em muitas situacoes em que precisamos calcular uma integral m
ultipla existe solucao exata em algumas dimensoes, enquanto nas outras dimensoes temos que usar metodos de aproximacao.
4.3
Z
k=
q()d
CAPITULO 4. METODOS
APROXIMADOS
50
4.4
M
etodo de Monte Carlo Simples
g()d.
a
(b a)g()
I=
a
1
d = (b a)E[g()]
ba
identificando como uma variavel aleatoria com distribuicao U (a, b). Assim,
transformamos o problema de avaliar a integral no problema estatstico de estimar uma media, E[g()]. Se dispomos de uma amostra aleatoria de tamanho
n, 1 , . . . , n da distribuicao uniforme no intervalo (a, b) teremos tambem uma
amostra de valores g(1 ), . . . , g(n ) da funcao g() e a integral acima pode ser
estimada pela media amostral, i.e.
1
I = (b a)
n
n
X
g(i ).
i=1
g()d.
a
Pn
i=1
g(i )/n
4. calcule I = (b a)g
R3
Exemplo 4.1 : Suponha que queremos calcular 1 exp(x)dx. A integral pode
ser reescrita como
Z 3
(3 1)
exp(x)/(3 1)dx
1
4.4. METODO
DE MONTE CARLO SIMPLES
51
P
integral e 2 100
e a funcao de
i=1 yi /100. Por outro lado, sabemos que exp(x)
densidade de uma v.a. X Exp(1) e portanto a integral pode ser calculada de
forma exata,
Z
10
0.20
0.25
0.30
0.35
0.40
CAPITULO 4. METODOS
APROXIMADOS
0.25
0.30
0.35
0.40
52
20
50
100
200
500
Figura 4.2: Boxplots para 50 estimativas da integral no Exemplo 4.1 com n=20, 50,
100, 200, e 500 simulacoes.
matematica de uma funcao g() onde tem funcao de densidade p(), i.e.
Z
I=
g()p()d = E[g()].
(4.1)
Neste caso, podemos usar o mesmo algoritmo descrito acima modificando o passo
1 para gerar 1 , . . . , n da distribuicao p() e calculando
1X
I = g =
g(i ).
n i=1
n
Uma vez que as geracoes sao independentes, pela Lei Forte dos Grandes
N
umeros segue que I converge quase certamente para I,
1X
g(i ) E[g(], n .
n i=1
n
e V ar[g(i )] = 2 =
1X
(g(i ) g)2
n
4.4. METODO
DE MONTE CARLO SIMPLES
53
i.e. a aproximacao pode ser tao acurada quanto se deseje bastando aumentar o
importante notar que n esta sob nosso controle aqui, e nao se trata
valor de n. E
do tamanho da amostra de dados.
O Teorema Central do Limite tambem se aplica aqui de modo que para n
grande segue que
g E[g()]
v
tem distribuicao aproximadamente N (0, 1). Podemos usar este resultado para
testar convergencia e construir intervalos de confianca.
No caso multivariado a extensao tambem e direta. Seja = (1 , . . . , k )0
um vetor aleatorio de dimensao k com funcao de densidade p(). Neste caso os
valores gerados serao tambem vetores 1 , . . . , n e o estimador de Monte Carlo
fica
n
1X
I=
g( i )
n i=1
0
3
Exemplo 4.2 : Suponha que queremos calcular P r(X < 1, Y < 1) onde o vetor aleatorio (X, Y ) tem distribuicao Normal padrao bivariada com correlacao
igual a 0,5. Note que esta probabilidade e a integral de p(x, y) definida no intervalo acima, portanto simulando valores desta distribuicao poderemos estimar esta
probabilidade como a proporcao de pontos que caem neste intervalo. A Figura 4.3
apresenta um diagrama de dispersao dos valores simulados e foi obtida usando os
camandos do R abaixo.
CAPITULO 4. METODOS
APROXIMADOS
0.2
0.1
p(y)
0.2
0.0
0.0
0.1
p(x)
0.3
0.3
54
0.3
0.2
0.0
0.1
p(y | x<1)
0.2
0.1
0.0
p(x | y<1)
0.3
0.4
4.4.1
Em muitas situacoes pode ser muito custoso ou mesmo impossvel simular valores
da distribuicao a posteriori. Neste caso, pode-se recorrer `a uma funcao q() que
seja de facil amostragem, usualmente chamada de func
ao de import
ancia. O
procedimento e comumente chamado de amostragem por import
ancia.
Se q() for uma funcao de densidade definida no mesmo espaco de variacao
de entao a integral (4.1) pode ser reescrita como
Z
g()p()
g()p()
I=
q()dx = E
q()
q()
4.4. METODO
DE MONTE CARLO SIMPLES
55
1
.
(1 + 2 )
.
p(|x) = Z
1
2
exp[(x
)
/2]d
1 + 2
Suponha agora que queremos estimar usando funcao de perda quadratica. Como
vimos no Captulo 3 isto implica em tomar a media a posteriori de como estimativa. Mas
Z
Z
exp[(x )2 /2]d
2
1
+
E[|x] = p(|x)d = Z
1
exp[(x )2 /2]d
2
1+
e as integrais no numerador e denominador nao tem solucao analtica exata.
Uma solucao aproximada via simulacao de Monte Carlo pode ser obtida usando
o seguinte algoritmo,
1. gerar 1 , . . . , n independentes da distribuicao N (x, 1);
2. calcular gi =
i
1
e gi =
;
2
1 + i
1 + i2
CAPITULO 4. METODOS
APROXIMADOS
56
Pn
gi
Exercicios
1. Para cada uma das distribuicoes N (0, 1), Gama(2,5) e Beta(2,5) gere 100,
1000 e 5000 valores independentes. Faca um grafico com o histograma e
a funcao de densidade superimposta. Estime a media e a variancia da
distribuicao. Estime a variancia do estimador da media.
2. Para uma u
nica observacao X com distribuicao N (, 1), desconhecido,
queremos fazer inferencia sobre usando uma priori Cauchy(0,1). Gere um
valor de X para = 2, i.e. x N (2, 1).
(a) Estime atraves da sua media a posteriori usando o algoritmo do
Exemplo 4.3.
(b) Estime a variancia da posteriori.
(c) Generalize o algoritmo para k observacoes X1 , . . . , Xk da distribuicao
N (, 1).
4.5
M
etodos de Reamostragem
4.5.1
M
etodo de Rejei
c
ao
Considere uma funcao de densidade auxiliar q() da qual sabemos gerar valores.
A u
nica restricao e que exista uma constante A finita tal que p(|x) < Aq().
O metodo de rejeicao consiste em gerar um valor da distribuicao auxiliar q
e aceitar este valor como sendo da distribuicao a posteriori com probabilidade
4.5. METODOS
DE REAMOSTRAGEM
57
p( |x)/Aq( ). Caso contrario, nao e aceito como um valor gerado da posteriori e o processo e repetido ate que um valor seja aceito. O metodo tambem
funciona se ao inves da posteriori, que em geral e desconhecida, usarmos a sua
versao nao normalizada, i.e p(x|)p().
Podemos entao usar o seguinte algoritmo,
1. gerar um valor da distribuicao auxiliar;
2. gerar u U (0, 1);
3. se u < p( |x)/Aq( ) faca (j) = , faca j = j + 1 e retorne ao passo 1.
caso contrario retorne ao passo 1.
Tomando a priori p() como densidade auxiliar a constante A deve ser tal que
p(x|) < A. Esta desigualdade e satisfeita se tomarmos A como sendo o valor
onde e o estimador
maximo da funcao de verossimilhanca, i.e. A = p(x|)
de maxima verossimilhanca de . Neste caso, a probabilidade de aceitacao se
)
1
i
p(x|) =
(2)1/2 exp
exp
(xi )2
2
2
i=1
i=1
o
n n
exp (x )2
2
e o estimador de maxima verossimilhanca e = x. Usando o algoritmo acima,
gera-se um valor da distribuicao Cauchy(0,1) e a probabilidade de aceitacao neste
caso fica simplesmente exp[n(
x )2 /2]. A funcao do R a seguir obtem uma
amostra de tamanho m de e como ilustracao vamos gerar 50 observacoes da
distribuicao N (2,1). Note que a taxa de aceitacao foi extremamente baixa. Isto
ocorreu devido ao conflito entre verossimilhanca e priori.
CAPITULO 4. METODOS
APROXIMADOS
58
Taxa de aceitacao 0.022
0.4
0.0
0.1
0.2
0.3
priori
veross.
4.5. METODOS
DE REAMOSTRAGEM
4.5.2
59
Reamostragem Ponderada
Estes metodos usam a mesma ideia de gerar valores de uma distribuicao auxiliar
porem sem a necessidade de maximizacao da verossimilhanca. A desvantagem
e que os valores obtidos sao apenas aproximadamente distribuidos segundo a
posteriori.
Suponha que temos uma amostra 1 , . . . , n gerada da distribuicao auxiliar q
e a partir dela construimos os pesos
p(i |x)/q(i )
wi = Pn
,
j=1 p(j |x)/q(j )
i = 1, . . . , n
i = 1, . . . , n
Exerccios
1. Em um modelo de regressao linear simples temos que yi N (xi , 1). Os
dados observados sao y = (2, 0, 0, 0, 2) e x = (2, 1, 0, 1, 2), e usamos
uma priori vaga N (0, 4) para . Faca inferencia sobre obtendo uma
CAPITULO 4. METODOS
APROXIMADOS
0.0
0.03
0.01
0.1
0.2
pesos
0.3
0.4
0.05
60
1.8
1.9
2.0
2.1
0.0
0.1
0.2
0.3
0.4
1.7
Figura 4.6: Verossimilhanca normalizada (linha cheia), densidade a priori (linha tracejada) e os valores amostrados (a) e reamostrados (c). Em (b) os valores de com pesos
maiores do que 0,01.
4.6
61
4.6.1
Cadeias de Markov
Uma cadeia de Markov e um processo estocastico {X0 , X1 , . . . } tal que a distribuicao de Xt dados todos os valores anteriores X0 , . . . , Xt1 depende apenas
de Xt1 . Matematicamente,
P (Xt A|X0 , . . . , Xt1 ) = P (Xt A|Xt1 )
para qualquer subconjunto A. Os metodos MCMC requerem ainda que a cadeia
seja,
homogenea, i.e. as probabilidades de transic
ao de um estado para outro sao
invariantes;
irredutvel, i.e. cada estado pode ser atingido a partir de qualquer outro
em um n
umero finito de iteracoes;
aperiodica, i.e. nao haja estados absorventes.
CAPITULO 4. METODOS
APROXIMADOS
62
X (t) (x) e
Ou seja, embora a cadeia seja por definicao dependente a media aritmetica dos
valores da cadeia e um estimador consistente da media teorica.
Uma questao importante de ordem pratica e como os valores iniciais influenciam o comportamento da cadeia. A ideia e que conforme o n
umero de iteracoes
aumenta, a cadeia gradualmente esquece os valores iniciais e eventualmente converge para uma distribuicao de equilbrio. Assim, em aplicacoes praticas e comum
que as iteracoes iniciais sejam descartadas, como se formassem uma amostra de
aquecimento.
4.6.2
Acur
acia Num
erica
Na pratica teremos um n
umero finito de iteracoes e tomando
1X
(t)
g(Xi )
n t=1
n
g =
como estimativa da E(g(Xi )) devemos calcular o seu erro padrao. Como a sequencia de valores gerados e dependente pode-se mostrar que
"
#
n
X
s2
k
V ar(
g) =
1+2
1
k
n
n
k=1
sendo s2 a variancia amostral e k a autocorrelacao amostral de ordem k. Se
k > 0 k entao V ar(
g ) > s2 /n. Uma forma muito utilizada para o calculo
da variancia do estimador e o metodo dos lotes aonde os valores da cadeia sao
divididos em k lotes de tamanho m e cada lote tem media Bi . O erro padrao de
g e entao estimado como
v
u
k
u
X
1
t
(Bi B)2
k(k 1) i=1
sendo m escolhido de modo que a correlacao serial de ordem 1 entre as medias
dos lotes seja menor do que 0,05.
63
4.6.3
Algoritmo de Metropolis-Hastings
Os algoritmos de Metropolis-Hastings usam a mesma ideia dos metodos de rejeicao vistos no captulo anterior, i.e. um valor e gerado de uma distribuicao auxiliar e aceito com uma dada probabilidade. Este mecanismo de correcao garante
a convergencia da cadeia para a distribuicao de equilibrio, que neste caso e a
distribuicao a posteriori.
Suponha que a cadeia esteja no estado e um valor 0 e gerado de uma
distribuicao proposta q(|). Note que a distribuicao proposta pode depender do
estado atual da cadeia, por exemplo q(|) poderia ser uma distribuicao normal
centrada em . O novo valor 0 e aceito com probabilidade
(0 ) q(|0 )
0
(, ) = min 1,
.
(4.2)
() q(0 |)
onde e a distribuicao de interesse.
Uma caracterstica importante e que so precisamos conhecer parcialmente,
i.e. a menos de uma constante ja que neste caso a probabilidade (4.2) nao se
altera. Isto e fundamental em aplicacoes Bayesianas aonde nao conhecemos completamente a posteriori. Note tambem que a cadeia pode permanecer no mesmo
estado por muitas iteracoes e na pratica costuma-se monitorar isto calculando a
porcentagem media de iteracoes para as quais novos valores sao aceitos.
Em termos praticos, o algoritmo de Metropolis-Hastings pode ser especificado
pelos seguintes passos,
1. Inicialize o contador de iteracoes t = 0 e especifique um valor inicial (0) .
2. Gere um novo valor 0 da distribuicao q(|).
3. Calcule a probabilidade de aceitacao (, 0 ) e gere u U (0, 1).
4. Se u entao aceite o novo valor e faca (t+1) = 0 , caso contrario rejeite
e faca (t+1) = .
5. Incremente o contador de t para t + 1 e volte ao passo 2.
Embora a distribuicao proposta possa ser escolhida arbitrariamente na pratica
deve-se tomar alguns cuidados para garantir a eficiencia do algoritmo. Em aplicacoes Bayesianas a distribuicao de interesse e a propria posteriori, i.e. = p(|x)
CAPITULO 4. METODOS
APROXIMADOS
64
(4.3)
1
1
1
+ , p2 =
, p3 =
, p4 = .
2 4
4
4
4
n!
py 1 py 2 py 3 py 4
y1 !y2 !y3 !y4 ! 1 2 3 4
p(x|
)
1
= min 1,
.
(, 0 ) = min 1,
p(x|)
2+
1
65
[1] 0.1639
(b)
0.5
0.0
1.0
Autocorrelation
1.0
(a)
5000
7000
9000
Iterations
5 10
20
30
Lag
(c)
0.4
0.5
0.6
0.7
0.8
CAPITULO 4. METODOS
APROXIMADOS
66
p1
p2
p3
p4
Mean
0.656
0.094
0.094
0.156
SD Naive SE Time-series SE
0.013
0.000
0.000
0.013
0.000
0.000
0.013
0.000
0.000
0.013
0.000
0.000
Tabela 4.1:
2.5%
0.629
0.070
0.070
0.129
25%
0.647
0.085
0.085
0.147
50%
0.657
0.093
0.093
0.157
75% 97.5%
0.665 0.680
0.103 0.121
0.103 0.121
0.165 0.180
67
sigma=0.5
100
200
300
400
500
400
500
Time
sigma=10
100
200
300
Time
Figura 4.8: 500 valores simulados para o Exemplo 4.7 usando o algoritmo de
Metropolis-Hastings com (a) = 0.5 e (b) = 10.
CAPITULO 4. METODOS
APROXIMADOS
68
Nos Exemplos 4.6 e 4.7 foram ilustrados casos especiais do algoritmo nos quais
a distribuicao proposta nao depende do estado atual ou a dependencia e na forma
de um passeio aleatorio. Estes casos sao formalizados a seguir.
4.6.4
Casos Especiais
69
( 0i | i ) q( i | 0i , i ))
= min 1,
( i | i ) q( 0i | i , i )
.
(4.5)
Exercicios
1. Assumindo que a distribuicao estacionaria e N (0, 1),
(a) faca 500 iteracoes do algoritmo de Metropolis com distribuicoes propostas N (; 0, 5), N (; 0, 1) e N (, 10).
(b) faca os graficos dos valores das cadeias ao longo das iteracoes. Existe
alguma indicacao de convergencia nos graficos?
(c) Calcule as taxas de aceitacao.
2. Suponha que a distribuicao estacionaria e N (0, 1).
(a) Para distribuicoes propostas Cauchy(0, ), selecione experimentalmente o valor de que maximiza a taxa de aceitacao.
(b) Para este valor de faca os graficos dos valores simulados da cadeia
ao longo das iteracoes e verifique se ha indicacao de convergencia.
(c) Repita os itens anteriores com a distribuicao proposta Cauchy(, ).
4.6.5
Amostrador de Gibbs
No amostrador de Gibbs a cadeia ira sempre se mover para um novo valor, i.e nao
existe mecanismo de aceitacao-rejeicao. As transicoes de um estado para outro
sao feitas de acordo com as distribuic
oes condicionais completas (i | i ), onde
0
i = (1 , . . . , i1 , i+1 , . . . , d ) .
Em geral, cada uma das componentes i pode ser uni ou multidimensional.
Portanto, a distribuicao condicional completa e a distribuicao da i-esima componente de condicionada em todas as outras componentes. Ela e obtida a partir
da distribuicao conjunta como,
(i | i ) = Z
()
()di
CAPITULO 4. METODOS
APROXIMADOS
70
(0)
(t)
2
(t)
(t1)
(1 |2
..
.
(t1)
, 3
(t1)
, . . . , d
(t) (t1)
(t1)
(2 |1 , 3 , . . . , d )
(t)
(t)
(t)
(d |1 , 2 , . . . , d1 )
71
2
n/2
2
exp
(yi ) exp 2 a1 eb .
2 i=1
2s
Esta distribuicao conjunta nao tem forma padrao mas as condicionais completas
sao faceis de obter,
"
#
n
X
2
2
p(|y, ) exp
(yi ) exp 2
2 i=1
2s
1
1
2
2
2
exp (n + s ) 2
y ) exp ( m)
2
2C
onde C 1 = n + s2 e m = C y e
"
1X
b+
(yi )2
2 i=1
n
!#
.
n
1X
n
,b +
2
2
!
(yi )2
i=1
CAPITULO 4. METODOS
APROXIMADOS
72
i = 1, . . . , m
Yi P oisson(),
i = m + 1, . . . , n.
m
Y
n
Y
yi
i=1
e yi a1 eb c1 ed
i=m+1
1
n
1
n
P
Pn
sendo t1 = m
ao e dificil verificar que as
i=1 yi e t2 =
i=m+1 yi . Neste caso n
distribuicoes condicionais completas ficam
p(|, m, y) a+t1 1 e(b+m)
ou |, m, y Gama(a + t1 , b + m)
c+t2 1 (d+nm)
p(|, m, y)
p(m|, , y) t1 em t2 e(nm) ,
ou |, m, y Gama(c + t2 , d + n m)
m = 1, . . . , n.
Mean
SD Naive SE Time-series SE
lambda 2.234 0.428
0.006
0.012
phi 4.018 0.625
0.009
0.018
m 21.647 4.825
0.068
0.155
2.5%
25%
50%
75% 97.5%
1.491 1.999 2.229 2.479 3.043
2.933 3.672 4.024 4.399 5.112
2.000 21.000 22.000 23.000 29.000
Tabela 4.2:
VARIAVEL
Trace of lambda
73
Density of lambda
1000
2000
3000
4000
5000
Iterations
Trace of phi
Density of phi
0.0
0.4
1000
2000
3000
4000
5000
Iterations
Trace of m
Density of m
0.10
0.00
0 10
Density
30
0.20
1000
2000
3000
4000
5000
Iterations
10
20
30
40
Figura 4.9:
4.7
Problemas de Dimens
ao Vari
avel
CAPITULO 4. METODOS
APROXIMADOS
0.00
0.05
0.10
0.15
tm
0.20
0.25
0.30
0.35
74
10 13 16 19 22 25 28 31 34 37 40
Figura 4.10:
VARIAVEL
Density of lambda.22
0.0
0.4
0.8
1.2
Trace of lambda.22
75
500
1000
1500
1.0
1.5
2.0
2.5
3.0
3.5
Iterations
Trace of phi.22
Density of phi.22
0.0
3.0
0.2
4.0
0.4
5.0
0.6
6.0
0.8
500
1000
1500
Iterations
Figura 4.11:
posteriori conjunta,
(, k|y) p(y|, k) p(|k) p(k)
e conseguirmos simular valores desta distribuicao entao automaticamente teremos
uma amostra aproximada de (k|y) e (|k, y).
Note que neste caso estamos admitindo que a dimensao de pode variar ao
longo dos modelos e precisamos entao construir uma cadeia com espaco de estados que muda de dimensao ao longo das iteracoes. Os algoritmos de MetropolisHastings e o amostrador de Gibbs nao podem ser utilizados ja que sao definidos
apenas para distribuicoes com dimensao fixa. Embora existam outras possibilidades iremos estudar os algoritmos MCMC com saltos reversiveis (Green 1995)
que sao particularmente u
teis no contexto de selecao Bayesiana de modelos.
CAPITULO 4. METODOS
APROXIMADOS
76
4.7.1
Este algoritmo e baseado na abordagem usual dos metodos de MetropolisHastings de propor um novo valor para a cadeia e definir uma probabilidade
de aceitacao. No entanto, os movimentos podem ser entre espacos de dimensoes diferentes como veremos a seguir. Em cada iteracao o algoritmo envolve a
atualizacao dos parametros, dado o modelo, usando os metodos MCMC usuais
discutidos anteriormente e a atualizacao da dimensao usando o seguinte procedimento.
Suponha que o estado atual da cadeia e (k, ), i.e. estamos no modelo k
com parametros e um novo modelo k 0 com parametros 0 e proposto com
probabilidade rk,k0 . Em geral isto significa incluir ou retirar parametros do modelo
atual. Vamos assumir inicialmente que o modelo proposto tem dimensao maior,
i.e. nk0 > nk e que 0 = g(, u) para uma funcao deterministica g e um vetor
aleatorio u q(u) com dimensao nk0 nk . Entao o seguinte algoritmo e utilizado,
proponha (k, ) (k 0 , 0 ) com probabilidade rk,k0
gere u q(u) com dimensao nk0 nk
faca 0 = g(, u),
aceite (k 0 , 0 ) com probabilidade min(1, A) sendo
rk0 ,k g(, u)
(k 0 , 0 )
.
A=
(k, )
rk,k0 q(u) (, u)
i = 1, . . . , n.
yi
VARIAVEL
77
n Y 1 P yi
yi e
p(y|, , k = 2) = n
()
as distribuicoes condicionais completas sao facilmente obtidas como
X
|y, , , k = 1 Gama(n + 2, 1 +
yi )
X
|y, , , k = 2 Gama(n + 4, 2 +
yi )
n Y 1 3 2
p(|y, , , k = 2)
yi e
n ()
A distribuicao condicional completa de nao e conhecida entao vamos usar o
algoritmo de Metropolis-Hastings propondo valores 0 U [ , + ]. A
funcao a seguir atualiza o valor de segundo este esquema.
Suponha que o modelo atual e Exp() e queremos propor o modelo
Gama(, ). Um possivel esquema de atualizacao e o seguite,
1. gere u Gama(a, b)
2. defina (, ) = g(, u) = (u, u)
3. calcule o Jacobiano,
0 1
u = u
p(y | , , k = 2) p()p() u
p(y | , k = 1)
p() q(u)
Note que transformacao no item (2) preserva a media, ou seja E(Y ) = 1/ sob o
modelo exponencial e E(Y ) = u/u = 1/ sob o modelo gama.
Se o modelo atual for Gama(, ) e propomos o modelo Exp() o esquema
reverso consiste em fazer (, u) = g 1 (, ) = (/, ). A probabilidade de
aceitacao e simplesmente min(1, 1/A) substituindo u = .
Finalmente o algoritmo pode ser implementado para atualizar tanto o modelo
quanto os parametros dentro do modelo.
CAPITULO 4. METODOS
APROXIMADOS
78
4.8
T
opicos Relacionados
4.8.1
Autocorrela
c
ao Amostral
Coment
ario
A nao ser para obter esta reducao de espaco ocupado em disco, descartar valores
simulados (alem daqueles da amostra de aquecimento) me parece um desperdicio.
Metodos de series temporais estao disponiveis para analisar cadeias levando em
conta as autocorrelacoes. Alem disso pode-se tentar outros amostradores que
gerem cadeias com menor autocorrelacao amostral.
4.8.2
Monitorando a Converg
encia
4.9
Normalidade assint
otica
4.9. NORMALIDADE ASSINTOTICA
79
d
log p(|x) = log p( |x) + ( )
log p(|x)
d
=
2
1
d
2
+
( )
log p(|x)
+ ...
2
d2
=
2
d
d
Por definicao,
log p(|x)
= 0 e definindo h() =
log p(|x) segue
d
d2
=
que,
h( )
2
log p(|x) constante exp
( ) .
2
Portanto, temos a seguinte aproximacao para a distribuicao a posteriori de ,
|x N ( , h( )1 ).
xi 1
xi , + n)
exp{( + n)}
ou equivalentemente,
log p(|x) = ( +
xi 1) log ( + n) + constante.
P
2
d
+ xi 1
log p(|x) =
.
2
d
2
Segue entao que,
P
+ xi 1
=
,
+n
h() =
xi 1
e h( ) =
( + n)2
P
.
+ xi 1
CAPITULO 4. METODOS
APROXIMADOS
80
1.5
0.0
0.5
p(|x)
1.0
posteriori conjugada
aproximacao normal
0.5
1.0
1.5
2.0
2.5