Académique Documents
Professionnel Documents
Culture Documents
LUIS RODRIGUEZ
RAFAEL ROSALES
RICARDO RIOS
Departamento de Matem
aticas
Universidad de Carabobo
FACYT
Valencia, Estado Carabobo, Venezuela
email: larodri@uc.edu.ve
Escuela de Matem
aticas
Universidad Central de Venezuela
Facultad de Ciencias
Caracas 1040, Venezuela
email: rrios@euler.ciens.ucv.ve
ABSTRACT
In this work we estimate the a posteriori distribution of an autoregressive process with Markov
regime. We suppose polynomial regression functions in each regime. We use an MCMC sampler
that is an hybrid of Gibbs and Metropolis algorithm to make a Bayesian approach for estimating the polynomial order and coefficients and the
noise variance in each regime.
KEYWORDS
Autoregressive, MCMC, Markov regime.
RESUMEN
En este trabajo estimamos la distribucion posterior de un proceso autorregresivo con regimen
de Markov (AR-RM) en el caso cuando las funciones de regresion en cada regimen son polinomios, utilizando un algoritmo MCMC mezcla
de los algoritmos de Gibbs y Metropolis para
obtener aproximados Monte Carlo de los estimadores de Bayes para los parametros de los
polinomios, su grado y la varianza asociada al
ruido en cada regimen.
PALABRAS CLAVES
Autorregresion, MCMC, regimen de Markov.
1.
Introduccion
(MCMC siglas en ingles) es utilizado para estimar la distribucion posterior. El metodo MCMC
que presentamos es una mezcla de los algoritmos
de Gibbs y Metropolis-Hastings.
Los AR-RM pueden ser vistos como una
combinacion de los modelos switching (ver [3]
1.2 y sus referencias) y los modelos de cadenas de Markov ocultas (ver [13] y sus referencias). Los procesos AR-RM son usados en
muchas a reas porque representan modelos heterogeneos no independientes. En econometra
Hamilton [12], los utiliza en el analisis de la serie temporal del producto interno bruto (GNP)
de los Estados Unidos, considerando dos estados (regmenes) de la economa: uno de contraccion y otro de expansion. Los procesos ARRM tambien han sido usados en varios problemas de la ingeniera electrica: deteccion de fallas, control automatico, manipulacion de objetivos, ver [7, 15]. Mientras que las cadenas de
Markov oculta son aplicadas en distintas a reas
por ejemplo en: finanzas, econometra, genetica,
reconocimiento de patrones, biofsica. Referimos
al lector a [4, 13, 19].
La estimacion Bayesiana de modelos CMO
con un numero conocido de estados es estudiada
por Robert et al. [17] mientras que la regresion
switching es considerada por Ferreira [8] y la suposicion de funciones de regresion polinomicas
por Gallant y Fuller [10]. Si el numero de estados
de la cadena oculta es desconocido podemos citar
el trabajo de Robert et al. [18].
Este artculo esta estructurado de la manera siguiente. El modelo y sus hipotesis generales
son presentados en la seccion 2. En la seccion
3 detallamos lo relacionado con los pasos del
muestreador de Gibbs cuando el grado de las fun-
ciones de regresion es conocido y para garantizar la estabilidad del modelo se introduce un algoritmo hbrido mezcla de los pasos de Gibbs
y Metropolis. En la seccion 4 suponemos que
el grado de las funciones polinomicas es desconocido y realizamos la inferencia a traves del
muestreador de saltos reversibles. Las demostraciones de consistencia son postergadas al captulo
5.
2.
Modelo e hipotesis
(1)
donde {xn } es una cadena de Markov no observada homogenea y ergodica con valores en
el conjunto finito {1, . . . , m} con probabilidades
de transicion aij = P(xn = j|xn1 = i). Las
probabilidades aij forman la matriz de transicion
A = [aij ]. Denotamos por = (1 , . . . , m ) la
distribucion invariante de la cadena de Markov
{xn }.
La funcion f : {1, . . . , m} R R tiene
la forma
k
= (10 , . . . , 1k , . . . , m0 , . . . , mk ) ,
El smbolo T denota la operacion transpuesta de
un vector o matriz.
La sucesion {n } es una sucesion de variables aleatorias gaussianas N (0, 1), independientes e identicamente distribuidas. Denotamos
por = (1 , . . . , m ) y por y = y0 , . . . , yN las
observaciones del proceso AR-RM. Usaremos p
como un smbolo generico para distribuciones y
densidades.
El problema de inferencia que estudiamos
se centra en el parametro = (A, , ) el cual
pertenece al espacio de parametros definido por
2
= [0, 1]m m (R+ ).
Cuando se modelan series temporales utilizando procesos autorregresivos es necesario imponer condiciones de estabilidad por esta razon
N
X
Z
h(yn ) =
h(y)(dy).
n=1
En Yao y Attali [21] se garantiza la estabilidad del proceso {yn } bajo las siguientes condiciones,
i. La funcion de regresion f satisface para cada i = 1, . . . , m la condicion de sublinealidad
|f (i, y)|
i |y| + bi .
donde
i , bi son constantes positivas.
ii. Condicion tipo radio espectral:
E (log(
)) =
m
X
log(
i )i < 0.
i=1
2.2.
Inferencia Bayesiana
L()p()
.
L()p()d
(2)
p(y, x|)
x{1,...,m}N
=
=
p(y|, x)p(x|)
x{1,...,m}N
m
m
X
X
...
i1 =1
i1 pi1 (y1 , y0 ) . . .
im =1
(4)
p(Ai )p(i2 )
iE
k
Y
p(il ).
l=0
1
il2
2
il N (0, ) =
exp 2 .
2
2
2. Para i2 se escoge una densidad gamma inversa,
1
viui
vi
2
i IG(ui , vi ) =
exp 2
,
(ui )
i i2
R
i {1, . . . , m}, (u) = 0 su es ds.
3. Ai D(ei ) donde D es una densidad
Dirichlet con parametro ei , es decir,
P
m
Y
( m
e 1
j=1 eij )
D(ei ) = Qm
aijij .
(e
)
ij j=1
j=1
La evaluacion de estimadores h() para alguna funcion de riesgo L(g, ) donde g es un estimador de , conduce a minimizar en g el riesgo
posterior,
Z
L(g, )(|y)d.
con
Metodos MCMC
Una alternativa al tratamiento de la integracion E (h()|y) es utilizar metodos de aproximacion de Monte Carlo con muestreo por cadenas de Markov (MCMC) los cuales proveen
una solucion. Las tecnicas MCMC consisten en
la construccion de una cadena de Markov ergodica {(t) } con valores en E = {1, . . . , m}N ,
E = B() ({1, . . . , m}N ) e invariante , tal
que la distribucion emprica
b(d|y) = 1/T
T
X
t=1
h()b
(d|y) = 1/T
E
T
X
h((t) )
t=1
(t)
(t)
(t)
1 p(1 |y, 2 , . . . , d )
(t+1)
(t)
(t)
(t)
2
p(2 |y, 1 , 3 . . . , d )
..
.
(t)
(t)
(t)
d p(d |1 , . . . , d1 ).
El algoritmo de Gibbs define una cadena de Markov con distribucion estacionaria
(1 , . . . , d |y), la cual es irreducible si el condicional completo de j tiene probabilidad positiva
para cualquier subconjunto de Ej , j = 1, . . . , d
esto como una consecuencia del Teorema de
Hammersly Clifford, (ver Robert y Casella [16],
Teorema 7.1.20, p. 298) el cual garantiza la unicidad de la descomposicion en condicionales completos.
En la siguiente seccion implementamos
este esquema al modelo de AR-RM y estudiamos
las propiedades de ergodicidad de la cadena
resultante.
A continuacion escribimos la implementacion del algoritmo de Gibbs para muestrear
del posterior conjunto (|y) = (, x|y)
(t)
(t) (d)
tas por la condicion de estabilidad 2.1. Posteriormente presentamos una generalizacion de estos metodos con el proposito de incorporar estas
restricciones.
p(y|, x)p(x|)p()
(, x|y) = Z
p(y|, x)p(x|)p()d
E
lo cual implica que muestrearemos de los condicionales (|x, y) y (x|, y). En los dos siguientes apartados explicamos el muestreo para
cada uno de los condicionales completos.
3.2.
Muestreo de (|x, y)
N
X
N
1
Y
p(xn |xn+1 , y, ),
n=1
y por lo tanto es suficiente muestrear de las distribuciones discretas p(xN |y, ) y p(xn | xn+1 , y,
) para n = 1, . . . , N 1. Para ello, sea y1:n =
y1 , . . . , yn , entonces dada xn+1 , se define el filtro
p(xn |y1:n , ) recursivamente por
p(xn = i|y1:n , )
m
X
con
2l
i2
i2 2
2
(x|, y)
i1 pi1 (y1 , y0 ) . . . aiN 1 iN pi1 (yN , yN 1 )
=
,
p(y|)
i=1
n=1
C4 =
n=1
N
X
N
X
(yn1 )2l 1Ii (xn ) + i2
n=1
y definimos
Ni =
Nij =
N
X
n=1
N
1
X
1Ii (xn )
n=1
Uni
= yn
k
X
il0 (yn1 )l .
l0 =0
l6=l0
En esta subseccion presentamos el desempeno del muestreador de Gibbs para observaciones simuladas de un AR-RM las cuales
mostramos en la figura 1. Para una muestra de
talla N = 500 los parametros que se usaron para
generar la simulacion son: k = 2,
0.99 0.01
A=
0.01 0.99
Observaciones
1.5
0.5
1
1.5
2
3
4
100
200
300
400
Varianza estado 1
500
1.5
50
100
150
200
250
iteraciones
300
350
400
450
500
0.5
0.5
0.8
100
200
300
400
Transiciones estado 1
500
0.99
0.6
100
200
300
400
Varianza estado 2
500
100
200
300
400
Transiciones estado 2
500
100
500
1.5
0.2
0
0.99
0.4
0.2
0
0.01
50
100
150
200
250
iteraciones
300
350
400
450
500
0.01
0
200
400
iteraciones
600
200
300
iteraciones
400
3.5.
El algoritmo Metropolis-Hastings
La idea de esta subseccion es estimar la densidad posterior del proceso AR-RM imponiendo
condiciones de estabilidad al modelo para esto
reemplazamos el muestreo de los condicionales
completos p(i | ) por un paso de MetropolisHastins tal que la condicion tipo radio espectral
se preserve.
El algoritmo Metropolis-Hastings (Robert
y Casella [16]) asociado a la densidad objetivo p(i | . . .) (ver (7)) y la densidad condicional
q(|i ), consiste en la construccion de la cade(t)
na {i } siguiendo el siguiente algoritmo. Dado
(t)
i i ,
p(i | )q(i |i )
(i , i ) = mn 1,
,
p(i | )q(i |i )
(t+1)
Si (i , i ) > 1, entonces i
= i . Si no,
generamos u U [0, 1] y
(
i si u < (i , i ),
(t+1)
i
=
i en otro caso.
Sea K , el nucleo de la cadena {(t) }, dado
por
K (, ) = (, )q( |) + (1 r()) ( )
R
donde r() = (, )q( |)d . El primer
termino representa la probabilidad de cambiar de
valor y el otro la probabilidad de permanecer en
el mismo . Para este nucleo es sencillo observar
(t)
que efectivamente {i } tiene como invariante
el condicional deseado si la cadena de Markov
(t)
{i } con nucleo de transicion K satisface la
condicion de detalle balanceado, esto es, si existe
una probabilidad tal que:
e
e ) = ()K(, )
e , ,
e
()K(
,
1
0
2
0
100
200
300
400
Varianza estado 1
500
1.5
2 p( 2 | ).
0.5
0.5
A p(A| ).
100
200
300
400
Varianza estado 2
500
100
200
300
400
Transiciones estado 2
500
100
500
1.5
100
200
300
400
Transiciones estado 1
500
0.99
0.2
0
0.99
x, p(x| ).
Para i = 1, . . . , m
0.01
i0 p(i0 | ).
Para i = 1, . . . , m, l = 1, . . . , k, se muestrea
il con el procedimiento de M-H. Se detalla
el procedimiento en la siguiente seccion.
3.6.
Para muestrear valores que esten en la region de estabilidad S Rm , debemos definir una
densidad q que tenga como soporte este conjunto. Si observamos que la condicion de tipo radio
espectral puede ser escrita en la forma
m <
1
/
1 1 m
0.01
0
m1
m1
/m
(8)
!
1
Sm = 0 , 1 /m
.
m1 /m
m1
En el apartado 2.1 definimos
i = k|ili |
para i = 1, . . . , m, donde li {1, . . . , k} denota la posicion en la cual se alcanza el coeficiente il con modulo maximo. Para determinar el coeficiente ili nos resta: muestrear la
posicion li de una distribucion discreta uniforme
en {1, . . . , k} y su signo de una distribucion
Bernoulli de parametro p = 1/2. Los parametros
restantes il los muestreamos de distribuciones
con soporte en los intervalos (
i , i ).
100
200
300
iteraciones
400
500
200
300
iteraciones
400
1
0
2
0
100
200
300
400
Varianza estado 1
500
1.5
1
0.5
0.5
100
200
300
400
Varianza estado 2
500
100
200
300
400
Transiciones estado 2
500
1.5
100
200
300
400
Transiciones estado 1
500
0.99
0.2
0
(t)
0.99
0.01
100
200
300
iteraciones
400
500
100
200
300
iteraciones
400
500
4.1.
El muestreador de saltos reversibles introducido por Green [11] es un algoritmo que construye una cadena de Markov que puede saltar entre los modelos Mk garantizando que se satisfagan las ecuaciones de detalle balanceado 3.5. El
algoritmo es el siguiente: si la cadena se encuentra en el estado (k, k ),
1. Proponemos un nuevo modelo Mk con
probabilidad s(k|k ).
2. Generamos u
q(u|k , k, k ).
de
0.01
0
una
distribucion
(k , k |y)s(k|k )
= min 1,
(k, k |y)s(k |k)
q(u |k , k , k)
q(u|k , k, k )
"
#!
gk,k (k , u)
det
(9)
((k) , u)
PT
(t)
t=1
P
T
k 1Ik (kt )
(k , k |y)s(k|k )
= min 1,
(k, k |y)s(k |k)
q(u |k , k , k)
.
(10)
q(u|k , k, k )
Elegimos para k una previa uniforme sobre el conjunto {1, . . . , kmax }. Si estamos en un
modelo que tiene ndice k proponemos un nuevo
modelo con ndice k de la distribucion condicional s(k|k ). Proponemos un nuevo modelo
cuya dimension este muy cerca del modelo anterior pero que eventualmente nos permita saltos
grandes de dimension, es decir, queremos una
distribucion condicional s que a los saltos de dimension pequenos les de alta probabilidad y los
grandes baja probabilidad, para este fin seguimos
a Troughton y Godsill [20] que utilizan la distribucion Laplaciana,
s(k |k) exp( |k k |), k {1, . . . , kmax },
donde es un parametro de escala.
La implementacion del procedimiento
MCMC es la siguiente,
a) (|x, y).
b) x (x|, y).
c) (k, ) (k , ).
pero
q(u|k , k, k )
si elegimos q(u|k , k, k) = p(k |A, 2 , x, y) y de
acuerdo a la identidad de Besag,
p(k, k |A, 2 , x, y)
= p(k|A, 2 , x, y),
p(k |A, 2 , x, y)
entonces la probabilidad de aceptacion para el paso c) es:
Calculo de p(k|A, , x, y)
p(y|k, , A, 2 , x)p(|k, )
= N (|0, x2 IN )N (|0, Id )
m
Y
N/2
= (2)
iNi (2)d /2
i=1
1 T
1 2 T
exp D
2
2
con D = (x I)1 .
Tenemos que
t D + 2 T
= (y 1 Z)T D(y 1 Z) + 2 T
= y T1 Dy 1 + ( m )T C 1 ( m )
mT C 1 m
con C 1 = Z T DZ + 2 I, m = CZ T Dy 1 .
Luego
p(y|k, , A, 2 , x)p(|k, )
m
Y
N/2
= (2)
iNi N (|m , C) det(C 1/2 )
i=1
1
exp( y T1 Dy 1 mT C 1 m )
2
al integrar con respecto a se tiene,
p(k|A, 2 , x, y)
N/2
p(k)(2)
m
Y
i=1
y 1 = Z + ,
con y 1
=
(y1 , . . . , yN )T ,
=
(x1 1 , . . . , x1 N ). Donde Z es una matriz
de dimension (N 1) m(k + 1) y el elemento
1
exp( y T1 Dy 1 mT C 1 m ),
2
s(k |k)
.
s(k|k )
p(k|A, 2 x, y) p(k)p(y|k, A, 2 , x)
Z
= p(k) p(y|, k, A, 2 , x)p(|k, )d
(t)
100
200
300
400
500
iteraciones
600
700
800
900
1000
(t)
x (x |y) =
Kx (x(t) |x(t1) ))
{1,...,m}N
(t1)
x (x(t1) |y)dx
Z
(t)
(t)
( |y) =
K ( (t) | (t1) ))
(t1)
( (t1) |y)d
600
500
400
300
200
(t)
(t)
100
0
0.5
1.5
2.5
3.5
5.
En esta seccion demostramos la convergencia de la cadena { (t) , x(t) }. Siguiendo a Rosales [19] se demuestra que la cadena es ergodica
y que converge uniformemente sobre E al posterior conjunto (, x|y). El muestreador descrito
en la seccion 3.1 genera la sucesion { (t) , x(t) },
t = 1, . . . , T , por composicion de dos nucleos:
Kx (x(t) |x(t1) )
Z
=
x (x(t) |, y) (|x(t1) , y)d
R
{1,...,m}N
= x (x(t) |y)
K ( (t) | (t1) ))
Z
=
( (t1) |, x, y)x (x| (t1) , y)dx
{1,...,m}N
y
R
En efecto,
Z
{1,...,m}N
{1,...,m}N
dx (x(t1) |, y)dx(t1)
Z Z
x (x(t) |, y) (|x(t1) , y)
{1,...,m}N
x( x(t1) |, y)dx(t1) d
x (x |, y)
{1,...,m}N
(t1)
dx
d
Z
=
x (x(t) |, y)(|y)d
Z
=
x (x(t) , |y)d
= x (x(t) |y)
para ( (t) |y) la demostracion es analoga.
(t)
(t)
k k Rrt1 .
Demostracion de i. Como la cadena {x(t) } esta definida en un espacio de estado discreto
{1, . . . , m}N , solo hay que demostrar que es irreducible y aperiodica, para esto nos basta con ver
que el nucleo de transicion es positivo, en efecto,
por el procedimiento de Carter y Kohn descrito
en 3.3 el nucleo de transicion satisface que:
(t)
K ( 0 , ) h ( 0 ),
para todo .
Demostracion: por la definicion de K ( 0 , )
se tiene,
K ( 0 , )
Z
=
( 0 |x, y)x (x|, y)dx
{1,...,m}N
Z
( ),
N
Y
n=1
N
Y
n=1
> 0,para
y por la eleccion de los previos, p()
, de aqu
nf p(y|x, )p(
)
> 0.
()
Kx (x(t) |x(t1) )
p(xN |, y)
(, x(t1) |y)
(t)
N
1
Y
(t)
p(x(t)
n |xn+1 , y) > 0
n=1
c=
k k kx(t) k C(t1) .
Lo que nos dice que la velocidad de convergencia de { (t) } al invariante esta mayorada por
la velocidad de convergencia de {x(t) }. Ademas
tenemos una cota del numero de iteraciones necesario para garantizar un umbral de tolerancia tol
(t)
para la diferencia k k,
m=
log(tol) log(C)
+ 1,
log(1 2Kx )
2Kx )
2Kx
y como log(1
log(tol) N log(m)
+ 1.
2Kx
En la practica (0) , x(0) son conocidos y fijos, Kx depende del estado inicial x(0) y por lo
tanto el nfimo en la definicion de Kx depende
solo de x0 . En este caso la minimizacion puede
ser realizada directamente utilizando por ejemplo
el algoritmo de programacion dinamica de Viterbi (ver MacDonald y Zucchini [13]).