Académique Documents
Professionnel Documents
Culture Documents
Facultad de Ciencias
Postgrado en Matematicas
Estimaci
on en procesos autorregresivos
con r
egimen de Markov
Tesis Doctoral
presentada ante la ilustre
Universidad Central de Venezuela
para optar al ttulo de
Doctor en Ciencias
Menci on Matem aticas
3
4
A mi madre.
A Daniela ese angel que inspira mi vida.
A la memoria de mi ta Nelida.
A la memoria de la profesora E. Ricabarra.
5
6
Agradecimientos
La realizacion de este trabajo fue posible gracias a muchas personas. Las que sean
omitidas mil disculpas.
7
8
A mis compa
neros y amigos del departamento de Matematica de la Universidad
de Carabobo sin omisiones por su apoyo. A Roberto por las discusiones relacionadas
con temas de este trabajo.
Indice general
Resumen 3
Dedicatoria 5
Agradecimientos 7
Introducci
on general 13
Bibliografa 19
1. Estimaci
on penalizada del n
umero de estados 23
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2. Definiciones y preliminares . . . . . . . . . . . . . . . . . . . . . . . . 29
1.2.1. La funcion de verosimilitud . . . . . . . . . . . . . . . . . . . 31
1.3. Estimacion penalizada del n
umero de estados . . . . . . . . . . . . . 36
1.4. El algoritmo SAEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.4.1. Paso ES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.4.2. Paso EA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.4.3. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.5. Prueba de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.6. Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
9
10
1.6.1. HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.6.2. AR-RM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Bibliografa 59
2. Estimaci
on Bayesiana 63
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.2. Modelo e hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.2.1. Estabilidad del proceso AR-RM . . . . . . . . . . . . . . . . . 66
2.2.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 67
2.2.3. Metodos MCMC . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.3. AR-RM polinomial con k conocido . . . . . . . . . . . . . . . . . . . 71
2.3.1. El muestreador de Gibbs . . . . . . . . . . . . . . . . . . . . . 71
2.3.2. Muestreo de (|x, y) . . . . . . . . . . . . . . . . . . . . . . 72
2.3.3. Muestreo de (x|, y) . . . . . . . . . . . . . . . . . . . . . . 73
2.3.4. Ejemplo numerico . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.3.5. El algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . . 75
2.3.6. Muestreando desde la region S . . . . . . . . . . . . . . . . . 77
2.4. AR-RM con k desconocido . . . . . . . . . . . . . . . . . . . . . . . . 79
2.4.1. Muestreador de saltos reversibles . . . . . . . . . . . . . . . . 79
2.4.2. Calculo de p(k|A, 2 , x, y) . . . . . . . . . . . . . . . . . . . . 81
2.5. Convergencia del muestreador de Gibbs . . . . . . . . . . . . . . . . . 83
Bibliografa 90
3. Estimaci
on semiparam
etrica 95
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.2. Hipotesis generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.2.1. Hipotesis sobre el modelo . . . . . . . . . . . . . . . . . . . . . 98
11
Bibliografa 114
Bibliografa 146
13
14
aXn1 ,
-
X1 ....... Xn1 Xn Xn+1 .......
f (Yn1 , Xn , en )
?
Y0 - Y1 ....... Yn1 - Yn Yn+1 .......
Los modelos de CMO son usados en distintas areas de las ciencias basicas y
aplicadas, as como en la industria, las finanzas y la economa, desde el analisis
de rutina hasta la resolucion de problemas de alta envergadura: reconstruccion de
imagenes, reconocimiento de patrones, tomografa, resolucion de problemas inversos,
etc. ver Cappe [8] y McDonald y Zucchini [26] para referencias mas completas.
Los modelos de CMO fueron introducidos por Blackwell and Koopmans [5] como
funciones probabilsticas de una cadena de Markov. Ellos se ocupan del siguiente
problema probabilstico: para todos los procesos estacionarios Y = {Yn }n0 con
valores en un conjunto discreto caracterizar cuales de ellos admiten la representacion
Yn = f (Xn ) y caracterizar sus propiedades. Heller [19] resuelve este problema, aunque
su prueba no es constructiva. Utilizando algunos aspectos de la teora de realizacion
estocastica se pueden dar algoritmos que permitan, dado un proceso Y = {Yn }n0 ,
que se puede representar como un modelo de CMO, construir una cadena de Markov
15
{Xn }n0 y una funcion f tal que el proceso Yn = f (Xn ) o al menos Yn y f (Xn ) tengan
la misma distribucion, ver Finesso [15].
Yn = f (Yn1 , Xn ) + en , (1)
16
o de manera equivalente,
Yn = fXn (Yn1 ) + en . (2)
Este trabajo se estructura en cuatro captulos, cada uno de los cuales se basa
en un artculo. En el primero establecemos la consistencia del metodo de maxima
verosimilitud penalizada para estimar el n
umero de estados de la cadena de Markov no
observada en procesos autorregresivos lineales con regimen de Markov (AR-RM). Los
parametros de este modelo son estimados con una version estocastica del algoritmo
EM (SAEM). Dise
namos una prueba de hipotesis para la hipotesis nula de un modelo
de cadena de Markov oculta (CMO) contra la alternativa de un proceso autorregresivo
con regimen de Markov, ver [31].
18
19
20
[9] C. K Carter y R. Kohn. On Gibbs sampling for state space model. Biometrika
3-81:541-553, 1994.
[15] L. Finesso. Estimation of the order a finite Markov chain. Tesis Doctoral,
University of Maryland, 1990.
[18] J.D. Hamilton. A new approach to the economic analysis of non stationary time
series and the business cycle. Econometrica, pages 357384, 1989.
[19] A. Heller. On Stochastic Process Derived form Markov Chains. Ann. Math.
Stat., 36:1286-1291, 1965.
[26] I.L. MacDonald y W. Zucchini. Hidden Markov and Other Models for discrete-
valued Time Series. Chapman and Hall, 1997.
22
[27] L. Mevel. Statistique asymptotique pour les mod`eles de Markov cachees. Tesis
Doctoral. Universite Rennes I, 1997.
Estimaci
on penalizada del n
umero
de estados
Resumen
23
24
1.1. Introducci
on
Dise
nar una prueba de hipotesis para la hipotesis nula de un modelo CMO
contra la alternativa de un AR-RM.
Los procesos de regresion con regimen de Markov pueden ser vistos como una
combinacion de los modelos de cadenas de Markov ocultas (CMO) y los modelos de
regresion con umbrales. Los AR-RM son introducidos en el contexto econometrico
por Goldfeld y Quandt [22] y se han vuelto muy populares en la literatura al ser
considerados por Hamilton [23] para el analisis de la serie temporal del producto
interno bruto de los Estados Unidos, con dos regmenes: uno de contraccion y otro de
25
expansion.
Estimaci
on del n
umero de estados. Cuando el n
umero de estados de la cadena de
Markov oculta es conocido a priori los problemas de estimacion pueden ser resueltos,
en principio, por tecnicas de estimacion por maxima verosimilitud ver McDonald y
Zucchini [29] y Cappe et al. [4]. Pero en muchas aplicaciones un problema clave es
como determinar el n
umero de estados de manera que se describa adecuadamente
los datos, pero manteniendo un compromiso entre el ajuste y la capacidad de
generalizacion del modelo. El problema de estimacion de la cadena de Markov oculta
en AR-RM es un ejemplo tpico donde la familia de modelos esta anidada: los modelos
con m parametros constituyen una subclase de los modelos de m + 1 parametros.
Entonces el problema de seleccion del modelo consiste en determinar el modelo
mas peque
no que contiene la distribucion que genera los datos. En muchos casos
la estimacion del modelo dependera de como la identificabilidad influya o no en la
especificacion del modelo correcto.
Prueba de hip
otesis. Para la prueba de hipotesis de un modelo de CMO contra
un proceso AR-RM seguimos las ideas de Giudici et al. [21] que nos permite obtener
nuestra prueba de cociente de verosimilitud. Ellos usan el cociente de verosimilitud
29
Supondremos que:
Notaciones:
Para cada i m,
Pn
ni = 1Ij (Xk ) el n
k=1 umero de visitas de la cadena de Markov {Xn } al estado
P
i en los primeros n pasos y nij = n1 k=1 1Ii,j (Xk1 , Xk ) el n
umero de transiciones
de i a j en n pasos.
Ii := {k n : Xk = i} = {k1i , . . . , kni }
1.2.1. La funci
on de verosimilitud
Yi = Wi i + i Ei ,
Suponemos que
m
Y
2 2
p() = p(A)p(| )p( ) = p(Ai )p(i |i2 )p(i2 ),
i=1
2. 12 , . . . , m
2
son independientes con
u v0 /2 u0
0
v0
i2 IG(v0 /2, u0 /2) = 2
(i2 )( 2 +1) e 2 2
i .
(v0 /2)
m
(m/2) Y 1/2
D(ei ) = a .
(1/2)m j=1 ij
Teorema 1.1 La distribucion previa p() satisface para todo m 1 y todo y1n Rn
la siguiente desigualdad
donde
YkT Pk Yk YiT Pi Yi
= m a x
Ykt Bk Yk i=1,...,m Y t Bi Yi
i
33
y para n 4,
(m/2) m(m 1) 1
cm (n) = log m m log + , (1.3)
(1/2) 4n 12n
n 1 n
d(n) = + log , (1.4)
2 2 2
m 1 4 m log(2)
em (n) = log + C (1.5)
2 n2 m 2
Pi = I Wi Mi WiT (1.6)
Demostraci
on: Observamos que
Z XZ Z Z
p (y1n |y0 )p()d = p,2 (y1n |y0 , xn1 )pA (xn1 )p(A)p()p( 2 )dAdd 2
xn P
1
XZ Z Z
= p (y1n |y0 , xn1 )p()dd 2 pA (xn1 )p(A)dA
xn P
1
X
= qm (y1n |y0 , xn1 )qm (xn1 ). (1.9)
xn
1
= C1 C2 qm (y1n ).
34
y Qm Qm n n ij
j=1 ( ni )
ij
pA (xn1 ) i=1
Q h Qm (nij +1/2) i . (1.12)
qm (xn1 ) m (m/2)
i=1 (ni +1/2) i=1 (1/2)
Entonces:
pA (xn1 )
nm(m1)/2 exp cm (n). (1.13)
qm (xn1 )
Queda evaluar el cociente entre p,2 (y1n |y0 , xn1 , , 2 ) y qm (y1n |y0 , xn1 ). Comencemos
evaluando qm .
Z Y
m
1
q(y1n |y0 , xn1 ) = (2i2 )ni /2 T
exp 2 (Y Wi i ) (Yi Wi i )
i=1
2i
1 iT i u0 v0 /2 (i2 )(1+v0 /2) 2
u0
di di2 .
2
exp 2 2 e i
2 2 i2 2 i 2 (v0 /2)
bi = (WiT Wi )1 WiT Yi
1
bi2 =
(YT Yi biT WiT Yi ).
ni i
satisface
m
Y
n n
p,b
b 2 (y1 |y0 , x1 ) = i2 )ni /2 eni /2
(2b
i=1
m
Y n /2
= (2)ni /2 eni /2 ni i (YiT Bi Yi )ni /2 .
i=1
Para el segundo
m
X ni YiT Pi Yi nm YkT Pk Yk
log log .
i=1
2 Yit Bi Yi 2 Ykt Bk Yk
Para el tercer termino
!2
X X X
4
det(Mi1 ) = 1 + ni 4 2
yk1 4
yk1 + 2 + 2 yk1 ,
kIi kIi kIi
1.3. Estimaci
on penalizada del n
umero de estados
El objetivo de esta seccion es presentar un metodo de estimacion por maxima
verosimilitud penalizada para seleccionar el n
umero de estados m de la cadena de
37
p0 {p : m0 } \ {p : m0 1 }. (1.14)
Decimos que m
sobre estima el n
umero de estados m0 si m
> m0 y subestima el
n
umero de estados m
< m0 .
pen(n,m)
Teorema 1.2 Supongamos que lmn n
= 0 para todo m entonces
m(n)
m0 . c.s.
Para la demostracion del teorema 1.2 los siguientes dos lemas seran necesarios.
38
1
Lema 1.1 (Finesso [16]) El conjunto de funciones fn () = n
log p (y1n |y0 ) es una
sucesi
on equicontinua c.s-P0 .
Demostraci
on: Trabajaremos directamente con la cadena de Markov extendida
1
{(Yn , Xn )}. Definimos h() = n
log p (y0n , xn1 ) y sean , 0 , demostraremos que,
> 0 existe () > 0 tal que
de donde
e
|hn () hn ()|
!
1 X 1 X
m m m
1 X 1 1
nij | log aij log eaij | + ni log i2 log ei2 + Y T
i Y i
n i,j=1 2n i=1 n i=1 2i2 2e2
i
m !
m !T !
1 X T i ei 1 X i ei T i ei
+ Y Wi + Wi Wi . (1.15)
n i=1 i i2 e2 n i=1 i2 e2 i2 e2
i i i
Ahora bien, la norma de la matriz simetrica WiT Wi viene dada por el modulo
del autovalor real mas grande, el cual en nuestro caso es
p
tr(WiT Wi ) + tr(WiT Wi )2 4 det WiT Wi
.
2
Como det WiT Wi es positivo,
p
tr(WiT Wi ) + tr(WiT Wi )2 4 det WiT Wi
tr(WiT Wi ).
2
P
Tenemos que tr(WiT Wi ) = ni + kIi Yk2 , entonces
m n
1 X
WiT Wi 1 + 1
X
Y 2.
n i=1 n k=1 k
As el u e
ltimo termino de (1.15) es menor que C5 k k.
40
|hn () hn ( 0 )| Ck 0 k, c.s.
lo que implica que hn es una sucesion equicontinua. Para regresar a {Yn } observamos
que
1 p (y n
, x n
)
log 0 1 ,
n p0 (y0n , xn1 )
de donde
p0 (y1n , xn1 ) exp(n)p (y1n , xn1 )
por lo tanto
1 p 0 (y |y0 )
n
log 1 .
n p (y1n |y0 )
2. Para cada m0 \ m0 1 ,
mn nf K(m0 , ) > 0
m<m0 m
41
Demostraci
on: La primera parte es una consecuencia de la proposicion 2.9 en [26].
Para la segunda parte seguimos el lema de Leroux (ver [6], Lema 8, pag. 21),
para cada m0 tal que p 6= pm0 , existe una vecindad O y > 0 tal que
nf O K(mo , ) > . Pero m0 1 es compacto, el esta cubierto por una union
finita O1 , . . . , OI (cada uno de ellos asociado a un i > 0) y por lo tanto,
Demostraci
on del teorema 2:
Pm0 1
Utilizando que P(m
n > m0 i.o) m=1 P(m
n = m). Demostraremos que
P(m
n = m) = 0. En efecto,
P(m
n = m) P sup log p pen(n, m) log pm0 pen(n, m0 )
m
P sup log p log pm0 pen(n, m0 ) + pen(n, m) ,
m
como m por lema 1.2 existe i I tal que log pm < n + log pi , por lo tanto
de la u
ltima desigualdad,
P(m
n = m) P max log pi log pm0 pen(n, m0 ) n
iI
I
X
log pi log pm0 pen(n, m0 )
P ,
i=1
n n
Demostraci
on: Definimos el conjunto
T
Yk Pk Yk
An = tn
Ykt Bk Yk
y
nm Y T Pk Y k
n,m = cm (n) + dm (n) + em (n) + log kt + pen(n, m0 ) pen(n, m).
2 Yk Bk Yk
Observamos que
X
P (m
n > m 0 , An ) = P0 (m
0 = m)
m>m0
y
Pm0 (m
= m, An )
(a)
n n
Pm0 log pm0 (y1 |y0 ) sup log pm (y1 |y0 ) + pen(n, m0 ) pen(n, m), An
m
(b)
pm0 (y1n |y0 )
Pm0 log m,n , An
qm (y1n )
Z
pm0 (y1n |y0 ) pm0 (y1n |y0 )
= 1I log n
m,n , A n n
qm (y1n )dy1n
n
y1 q (y
m 1 ) q (y
m 1 )
m(m + 1)
exp log(n) + cm (n) + d(n) + em (n)
2
n log(tn )
+ + pen(n, m0 ) pen(n, m)
2
donde (a) es una consecuencia de la definicion de estimador de MVP y (b) del teorema
1.1.
igual media e igual varianza, con r = (nk + 2)2 /(nk + 4). Mientras que Ykt Bk Yk se
distribuye 2nk , si suponemos que Bk tiene rango maximo, (ver Searle [33],2, pags.
49-53).
3
Escogiendo 2 = 4k
3m
nm (m m0 ) log(n) + (m0 m)(m0 + m) + m0 + (n) log n
2 4k 2
(m m0 ) log(n).
2
Por lo tanto
= m, An ) exp (m m0 ) log(n) = O(n/2 ).
Pm0 (m
2
Debido a que esta ecuacion no tiene una solucion analtica cerrada, al calcular
numericamente una solucion aproximada se deben considerar los mn terminos que
aparecen en la ecuacion (1.2). Esto restringe el modelo a un n
umero limitado de
observaciones y a cadenas con pocos estados. Como una alternativa, para modelos de
cadenas de Markov oculta Baum et al. [1] introducen el algoritmo forward-backward,
el cual es una version temprana del algoritmo EM. El algoritmo EM propuesto en
su forma general por Dempster et al. [12] maximiza la funcion log-verosimilitud
en problemas con presencia de variables no observadas. Dicho algoritmo es un
metodo recursivo que permite cambiar la maximizacion de la funcion de verosimilitud
46
n Y m n Y m
" #1Ii (xk )
Y 1I (x ,x ) Y 1 (yk y
i k1 b i )2
aij i,j k k+1 p exp 2
. (1.16)
k=1 i,j=1 k=1 i=1
2 2
i
i
Nuestro modelo pertenece a la familia exponencial, por lo que satisface las hipotesis
que garantizan la convergencia del algoritmo EM.
1.4.1. Paso ES
p (xn1 |y0n ) = x1 p(y1 |y0 , x1 ) . . . axn1 xn p(yn |yn1 , xn )/p (y1n |y0 ),
para todo xn1 {1, . . . , m}N . Carter y Kohn en [5] proponen una metodo de muestreo
que es una version estocastica del algoritmo forward-backward propuesto por Baum
et al. [1]. Esto se tiene observando que p (xn1 |y0n ) admite la descomposicion,
n1
Y
p (xn1 |y1n ) = p (xn |y0n ) p (xk |xk+1 , y0n ).
k=1
Dado Xk+1 conocido, p (Xk |Xk+1 , y0n ) es una distribucion discreta, lo cual nos sugie-
re la siguiente estrategia de muestreo. Para k = 2, . . . , n, i {1, . . . , m}, calculamos
recursivamente el filtro optimo p(Xk |y0k , ) como
m
X
p(Xn = i|y0k , ) p (yk |yk1 , Xk = i) aij p(Xk1 = j|y1k1 , ).
i=1
48
En este caso por teoremas clasicos de cadenas de Markov finitas (Kemeny y Snell
[25]) se satisface que,
n,(t+1) n,(t)
kK(x1 , x1 , ) p(X1n |y0n , )k Ct1 ,
1.4.2. Paso EA
y para i 6= 0,
(t+1)
(t+1) S3 [i, j]
b
aij = (t+1)
S2 (i)
Pn1 (t+1) Pn1
(t+1) P (t+1)
(t+1) k=1 S1 [i, n]yk yk1 S1 [i, k]yk N
k=1 k=1 S1 [i, k]yk1
bi = Pn1 (t+1) Pn1 (t+1) 2
2
k=1 S1 [i, k]yk1 k=1 S1 [i, k]yk
n1
X n
X
bb(t+1) = (t+1)
S1 [i, k]yk
bi S1
(t+1)
[i, k]yk1
i
k=1 k=1
(t+1)
n
1 X (t+1) 2
b2 i
(t+1)
= S1 [i, k] yn i yn1 bi
n k=1
Al considerar fijas las observaciones y1n las expresiones anteriores definen de forma
explcita en cada uno de los dos casos de estudio la aplicacion b = (S) entre los
estadsticos suficientes y el espacio de parametros la cual es necesaria para el algoritmo
SAEM.
1.4.3. Convergencia
n,(t)
El procedimiento de simulacion genera una cadena de Markov finita {x1 }. Las
hipotesis de Delyon et al. [11] que garantizan la convergencia del algoritmo SAEM
en este caso no son validas pero podemos utilizar una extension de este resultado de
Kuhn y Lavielle en [27]:
50
En nuestro caso las hipotesis del teorema se verifican, en efecto la condicion (RM)
es satisfecha si elegimos t = 1/t, SAEM1 es cierta porque 1 se distribuye normal y
SAEM2 es una consecuencia de los discusion en 1.4.1. Esto garantiza que el teorema
anterior aplica y de aqu obtenemos la convergencia.
H0 : = 0
contra
H1 : 6= 0.
51
l(0 )) 2 , bajo P .
Teorema 1.5 2(l() m 0
Demostraci
on: Expandimos l() por Taylor alrededor de ,
= (0 )
l(0 ) l() + 1 (0 )
l() t 2 l()(
0 )
2
donde = 0 + (1 ),
(0, 1). Tambien l()
= 0. As
= [N 1/2 (0 )
2(l(0 ) l()) t ][N 1 2 l()][N
1/2
(0 )].
y
I(0 ) P c.s.
N 1/2 2 l() 0
Demostrando el teorema.
2
2(l(0 ) l()) m,
1.6. Simulaciones
En esta seccion aplicamos nuestros resultados a algunos datos simulados.
log(N )
Trabajamos con un CMO y dos AR-RM. Usamos pen = 2
dim(m ) (BIC).
Evaluamos la verosimilitud para cualquier parametro calculando
m
X
p(y1:N |y0 ) = N (i),
i=1
52
1.6.1. HMMs
8
0 50 100 150 200 250 300 350 400 450 500
7 5 0.9
0.8
4
6
0.7
3
5 0.6
2
0.5
4
0.4
1
3 0.3
0
0.2
2
1
0.1
1.5
1 2 0
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000
1.6.2. AR-RM
El Cuadro 1.2 contiene los valores para el MVP para m = 2, . . . , 6, observemos que
= 2. En este caso fue estimado utilizando SAEM, cuyos valores son, 2 = 1,42,
m
1.07 0.96 0,8650 0,1350
= A = ,
0.5 0.5 0,1130 0,8870
6
0 50 100 150 200 250 300 350 400 450 500
0.6
1.1 0.5
1 0.4
0.8
0.2
0.6
0
0.4
0.2
0.2
0.4
0
0.6
0.2
0.4 0.8
0.5
0.6 1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000
3 0.9
2.8 0.8
2.6
0.7
2.4
0.6
2.2
0.5
2
0.4
1.8
0.3
1.6
1.5
1.4 0.2
1.2 0.1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000
300
200
100
100
200
300
400
0 50 100 150 200 250 300 350 400 450 500
Agradecimiento A Marc Lavielle y Jean Michel Loubes. A Rafael Rosales por sus
observaciones a una version preliminar de este trabajo.
58
1.5
0.9
0.8 1.08
0.9
0.6
0.5
0.4
0
0.2
0.5
0
1
0.2
1.5
0.4
0.6 2
0.7
0.8 2.5
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200
2.1 1
0.9
2
0.8
1.9 0.7
0.6
1.8
0.5
1.7
0.4
0.3
1.6
0.2
1.5
0.1
1.4 0
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200
[2] L. Broemiling. Bayesian analysis of linear Models. Marcel Dekker, New York,
1985.
[5] C. K Carter y R. Kohn. On Gibbs sampling for state space model. Biometrika,
81:541553, 1994.
[7] Chambaz, A. y Matias, C. Number of hidden states and memory: a joint order
estimation problem for Markov chain with Markov regime. Preprint 2006.
59
60
[16] L. Finesso. Estimation of the order a finite Markov chain. Tesis Doctoral,
University of Maryland, 1990.
[17] R. Garcia. Asymptotic null distribution of the likelihood ratio test in Markov
switching models. International Economic Review, 39, 763-788, 1998.
[20] E. Gassiat y C. Keribin. Likelihood ratio test for the number the components in
a number mixture with Markov regimen. ESAIM Prob. and Stat, 2000.
[23] J.D. Hamilton. A new approach to the economic analysis of non stationary time
series and the business cycle. Econometrica, pages 357384, 1989.
[24] P. B. Hansen. The likelihood ratio test under nonstandar conditions: Testing the
Markov Switching model of GNB. Journal of Applied Econometrics, 7, S61-S82
1992. (Erratum 11, 195-198).
[28] C. Liu y P. Narayan. Order estimation and sequential universal data compression
of a hidden Markov source by method the mixtures. IEEE Trans. Inform. Theory,
40:11671180, 1994.
62
[29] I.L. MacDonald y W. Zucchini. Hidden Markov and Other Models for discrete-
valued Time Series. Chapman and Hall, 1997.
[32] T. Ryden. Estimating the order of hidden Markov models. Statistics, 26, 345-354,
1995.
[33] S. R. Searle. Linear Models. John Wiley & Sons, Inc. New York-London-Sydney-
Toronto, 1970.
Estimaci
on Bayesiana
Resumen
63
64
2.1. Introducci
on
Los AR-RM pueden ser vistos como una combinacion de los modelos de estructura
variable (ver [3] 1.2 y sus referencias) y los modelos de cadenas de Markov ocultas
(CMO), ver [13] y sus referencias. Los procesos AR-RM son usados en muchas areas
porque representan modelos heterogeneos no independientes. Hamilton [12] los utiliza,
en un contexto econometrico, en el analisis de la serie temporal del producto interno
bruto (GNP) de los Estados Unidos, considerando dos estados (regmenes) de la
economa: uno de contraccion y otro de expansion. Los procesos AR-RM tambien
han sido usados en varios problemas de la ingeniera electrica: deteccion de fallas,
control automatico, manipulacion de objetivos, ver [7]. Por otro lado, las cadenas de
Markov oculta son aplicadas en distintas areas, por ejemplo: finanzas, econometra,
genetica, reconocimiento de patrones, biofsica. Referimos al lector a [4, 13, 18].
65
= (10 , . . . , 1k , . . . , m0 , . . . , mk )T ,
T
donde el smbolo denota la operacion transpuesta de un vector o matriz.
Un modelo AR-RM es estable si para el proceso {yn } definido por (2.1) existe una
solucion estacionaria y ergodica. Esto significa que existe una u
nica medida tal que
N
X Z
lm 1/N h(yn ) = h(y)(dy), c.s.
N
n=1
En Yao y Attali [20] se garantiza la estabilidad del proceso {yn } bajo las siguientes
condiciones
67
donde
i , bi son constantes positivas.
donde
i = k max{|il | : l = 1, . . . , k}. Entonces la region de estabilidad se define
por
S = {
: E (log(
)) < 0}.
Esta propiedad y la propiedad de Markov sobre {xn } nos permite escribir la funcion
de verosimilitud como
X
L() = p(y, x|)
x{1,...,m}N
X
= p(y|, x)p(x|)
x{1,...,m}N
m
X m
X
= ... i1 pi1 (y1 , y0 ) aiN 1 iN pi1 (yN , yN 1 )
i1 =1 im =1
con
(yn+1 f (i, yn ))2
pi (yn+1 , yn ) exp .
2i2
Se consideran previas conjugadas que sean debilmente informativas sobre .
Una previa que pertenece a una familia parametrica es conjugada a una funcion
de verosimilitud dada, si la distribucion posterior resultante tambien pertenece a la
familia (ver Bernardo y Smith [2]).
En el caso de una verosimilitud con {en } normal y una multinomial para x, las
familias de previas conjugadas para estan dadas por las siguientes densidades:
2.2.3. M
etodos MCMC
T
X
b(d|y) = 1/T (t) (d)
t=1
Z T
X
IbT (h) = h()b
(d|y) = 1/T h((t) )
E t=1
lm ET (h()|y) = E (h()|y),
T
Dos algoritmos que permiten construir cadenas de Markov que tengan como
invariante a (|y), son el muestreador de Gibbs y el algoritmo de Metropolis-
Hastings.
(t) (t)
Dado el estado (t) = (1 , . . . , d ), simulamos (t+1) mediante el siguiente
esquema:
(t) (t) (t)
1 p(1 |y, 2 , . . . , d )
(t+1) (t) (t) (t)
2 p(2 |y, 1 , 3 . . . , d )
..
.
(t) (t) (t)
d p(d |1 , . . . , d1 ).
conjunto como
p(y|, x)p(x|)p()
(, x|y) = Z ,
p(y|, x)p(x|)p()d
E
lo cual implica que muestrearemos de los condicionales (|x, y) y (x|, y). En los
siguientes dos apartados explicamos el muestreo para cada uno de los condicionales
completos.
(A1 , . . . , Am , 1 , . . . , m , 1 , . . . , m ).
En este caso, hechas las elecciones de las previas, todas las densidades completas
tienen una expresion analtica cerrada ya que solo involucran una realizacion de x
(Robert et al [16]). Las densidades condicionales en este caso son
donde
( N
)
C1 = Ni /2 + ui 1X
C2 = (yn f (i, yn1 ))2 + vi
N
X 2 n=1
2 Uni (yn1 )l 1Ii (xn )
i2 2 .
C3 = n=1 C4 = N
N
X X
2 2l
(yn1 ) 1Ii (xn ) + i2 2 (yn1 )2l 1Ii (xn ) + i2
n=1
n=1
Para muestrear de las densidades (2.3),(2.4) y (2.5) seguimos los metodos descritos
en Fishman [9].
73
definido para todo (i1 , . . . , iN ) {1, . . . , m}N , Carter y Kohn [5] proponen una
metodologa de muestreo que es una version estocastica del algoritmo forward-
backward propuesto por Baum et al. [1]. Notemos que p(x|, y) admite la descom-
posicion
N
Y 1
(x|, y) = p(xN |y, ) p(xn |xn+1 , y, )
n=1
con
(yn f (i, yn1 ))2
p(yn |xn = i, yn1 , ) exp .
2i2
Entonces muestreamos xN p(xN |y, ) y para n = N 1, . . . , n
una muestra de talla N = 500, los parametros que se usaron para generar la simulacion
son: k = 2, T = (1, 0, 0.5, 2, 0, 0.5), 2 = (0.5, 0.2) y
0.99 0.01
A= .
0.01 0.99
Observaciones
3
4
0 50 100 150 200 250 300 350 400 450 500
iteraciones
0.8
0.6
0.4
0.2
1 2
1.5
0 100 200 300 400 500 0 100 200 300 400 500
Varianza estado 1 Varianza estado 2
1.5 1.5
1 1
0.5 0.5
0.2
0 0
0 100 200 300 400 500 0 100 200 300 400 500
Transiciones estado 1 Transiciones estado 2
0.99 0.99
0.01 0.01
0 200 400 600 0 100 200 300 400 500
iteraciones iteraciones
(t+1)
Si (i , i ) > 1, entonces i = i . Si no, generamos u U [0, 1] y
i si u < (i , i ),
(t+1)
i =
i en otro caso.
K (, ) = (, )q( |) + (1 r()) ( )
R
donde r() = (, )q( |)d . El primer termino representa la probabilidad de
cambiar de valor y el otro la probabilidad de permanecer en el mismo . Para
(t)
ucleo es sencillo observar que efectivamente {i } tiene como invariante el
este n
(t)
condicional deseado si la cadena de Markov {i }, con n
ucleo de transicion K,
satisface la condicion de detalle balanceado. Esto es, si existe una probabilidad
tal que
e
()K( e ) = ()K(, )
, e , ,
e
2 p( 2 | ).
A p(A| ).
x, p(x| ).
Para i = 1, . . . , m
i0 p(i0 | ).
1
m < / /m
, (2.6)
1 1 m
m1
m1
En las figuras 2.3 y 2.4 vemos los resultados de las salidas del algoritmo, para el
ejemplo descrito en la seccion 2.3.4.
78
0
1
1 2
0 100 200 300 400 500 0 100 200 300 400 500
Varianza estado 1 Varianza estado 2
1.5 1.5
1 1
0.5 0.5
0.2
0 0
0 100 200 300 400 500 0 100 200 300 400 500
Transiciones estado 1 Transiciones estado 2
0.99 0.99
0.01 0.01
0 100 200 300 400 500 0 100 200 300 400 500
iteraciones iteraciones
0
1
1 2
0 100 200 300 400 500 0 100 200 300 400 500
Varianza estado 1 Varianza estado 2
1.5 1.5
1 1
0.5 0.5
0.2
0 0
0 100 200 300 400 500 0 100 200 300 400 500
Transiciones estado 1 Transiciones estado 2
0.99 0.99
0.01 0.01
0 100 200 300 400 500 0 100 200 300 400 500
iteraciones iteraciones
(t)
y la muestra {k , t = 1, . . . , T } permite estimar E(k |y, k), bajo perdida cuadratica,
mediante PT (t)
b k |y, k) = t=1 k 1Ik (kt )
E( PT .
t=1 1Ik (kt )
Elegimos para k una previa uniforme sobre el conjunto {1, . . . , kmax }. Si estamos
en un modelo que tiene ndice k, proponemos un nuevo modelo con ndice k de la
distribucion condicional s(k|k ) cuya dimension este muy cerca del modelo anterior,
pero que eventualmente nos permita saltos grandes de dimension, es decir, queremos
una distribucion condicional s que a los saltos de dimension peque
nos les de alta
probabilidad y a los saltos grandes, baja probabilidad. Para este fin seguimos a
Troughton y Godsill [19] que utilizan la distribucion Laplaciana
a) (|x, y).
81
b) x (x|, y).
c) (k, ) (k , ).
Los pasos a) y b) son basicamente los pasos de Gibbs descritos en 2.3.2 y 2.3.3.
El paso c) involucra un paso de Metropolis con probabilidad de aceptacion (2.8), el
cual se simplifica si solo consideramos en este el parametro directamente involucrado
con k, en este caso
p(k , k |A, 2 , x, y)s(k|k )q(u |k , k , k)
= min 1, .
p(k, k |A, 2 , x, y)s(k |k)q(u|k , k, k )
p(k, k |A, 2 , x, y)
= p(k|A, 2 , x, y),
p(k |A, 2 , x, y)
y = W + e,
p(k|A, 2 , x, y) p(k)p(y|k, A, 2 , x)
Z
= p(k) p(y|, k, A, 2 , x)p(|k, )d.
Ahora bien
p(y|k, , A, 2 , x)p(|k, )
con D1 = diag(x ), y
et De + 2 T = (y W)T D(y W) + 2 T
= yT Dy + ( )T C 1 ( ) T C 1
Por lo tanto
p(y|k, , A, 2 , x)p(|k, )
Ym
1
= (2)N/2 iNi N (| , C) det(C 1/2 ) exp( yT Dy T C 1 ).
i=1
2
Al integrar con respecto a se tiene
m
Y 1
2
p(k|A, , x, y) p(k)(2) N/2
iNi det(C 1/2 ) exp( yT Dy T C 1 ).
i=1
2
Finalmente, la probabilidad de aceptacion se escribe como
( 1/2
)
det(Ck ) exp( 12 k T Ck 1 k ) s(k |k)
min 1, 1/2
.
det(Ck ) exp( 12 T Ck1 ) s(k|k )
En las figuras 2.5 y 2.6 se observa el comportamiento de las salidas del algoritmo
para el ejemplo descrito en la seccion 2.3.4.
83
k
2
0
0 100 200 300 400 500 600 700 800 900 1000
iteraciones
600
500
400
300
200
100
0
0.5 1 1.5 2 2.5 3 3.5 4
Z
(t) (t1)
Kx (x |x )= x (x(t) |, y) (|x(t1) , y)d
84
Z
(t) (t1)
K ( | )) = ( (t1) |, x, y)x (x| (t1) , y)dx.
{1,...,m}N
Z
(t) (t) (t1)
x (x |y) = Kx (x(t) |x(t1) ))x (x(t1) |y)dx
{1,...,m}N
Z
(t) (t) (t1)
( |y) = K ( (t) | (t1) )) ( (t1) |y)d
(t) (t)
donde x (x(t) |y), ( (t) |y) corresponden a los marginales de la distribucion
conjunta ( (t) , x(t) ) condicionado a y en la t-esima iteracion.
Z
Kx (x(t) |x(t1) )(x(t1) |y)dx(t1) = x (x(t) |y)
{1,...,m}N
Z
K ( (t) | (t1) )( (t1) |y)d (t1) = ( (t) |y).
85
En efecto,
Z
Kx (x(t) |x(t1) )x (x(t1) |, y)dx(t1)
{1,...,m}N
Z Z
= x (x(t) |, y) (|x(t1) , y)dx (x(t1) |, y)dx(t1)
{1,...,m}N
Z Z
= x (x(t) |, y) (|x(t1) , y)x( x(t1) |, y)dx(t1) d
N
Z {1,...,m} Z
(t)
= x (x |, y) (, x(t1) |y)dx(t1) d
{1,...,m}N
Z
= x (x(t) |, y)(|y)d
Z
= x (x(t) , |y)d
= x (x(t) |y)
Teorema 2.1 Sea { (t) , x(t) } generada por el procedimiento de Gibbs para el AR-RM
entonces
kx(t) k ct1 .
(t)
k k Rrt1 .
Lema 2.1 Existe una constante 0 < h 1 y una densidad sobre , tal que
K ( 0 , ) h ( 0 )
para todo .
87
Ademas existe tal que para cada x {1, . . . , m}N , p(y|x, )
> 0, en efecto,
N
Y
=
p(y|x, ) pin (yn , yn1 )
n=1
YN
= N (yn f (in , yn1 ), i2n ) > 0
n=1
> 0, para , de aqu
y por la eleccion de la previa, p()
nf p(y|x, )p(
() ) > 0.
x
Demostraci
on de ii. La condicion de minorizacion sobre K implica que la cadena
{ (t) } es -irreducible. Ademas, debido a la invarianza de (|y) ella es tambien
(|y)-irreducible y como { (t) } es recurrente y positiva, se deduce que (|y) es
88
u
nica. La condicion de minorizacion de K implica que la cadena es aperiodica (Meyn
y Tweedie [14], p. 118). Por u
ltimo, la condicion de minorizacion tambien nos dice
que todo el espacio es un conjunto peque
no y en concordancia con el teorema 16.2.4
de Meyn y Tweedie [14], p. 392 se obtiene el resultado.
(t)
k k kx(t) k c(t1) .
log(tol) log(c)
I= + 1,
log(1 2Kx )
[5] C. K Carter y R. Kohn. On Gibbs sampling for state space model. Biometrika,
81:541553, 1994.
91
92
[11] P.J. Green. Reversible jump Markov chain Monte Carlo computation and
Bayesian model determination. Biometrika, 82(4):711732, 1995.
[12] J.D. Hamilton. A new approach to the economic analysis of non stationary time
series and the business cycle. Econometrica, pages 357384, 1989.
[13] I.L. MacDonald y W. Zucchini. Hidden Markov and Other Models for discrete-
valued Time Series. Chapman and Hall, 1997.
Estimaci
on semiparam
etrica
Resumen
95
96
3.1. Introducci
on
En este trabajo se establece, para procesos autorregresivos con regimen de Markov,
la consistencia y la velocidad de convergencia en probabilidad de un estimador de
mnimos cuadrados modificado de los parametros del proceso. Una ventaja practica
de realizar la inferencia estadstica por un criterio de mnimos cuadrados frente a
estimacion por maxima verosimilitud es que no se requiere especificar una distribucion
para el proceso de ruido, contemplando la estimacion no parametrica de la densidad
del ruido usando n
ucleos de convolucion con los resduos de la estimacion a cada paso.
Yn = f (Yn1 , Xn ) + en (3.1)
Entre los trabajos mas recientes en los que se desarrolla la estimacion de los
parametros por el metodo de maxima verosimilitud para los procesos autorregresivos
con regimen de Markov tenemos: Francq y Roussignol [5], Jensen y Petersen [7] y Douc
et al. Sobre el problema del calculo numerico del estimador de maxima verosimilitud
consultar Ros y Rodrguez [10] y sus referencias.
entonces por
N
1 X n |Y n1 ))2
SN () = (Yn E(Y 0 (3.4)
N n=1
y0 , . . . , yN . El estimador de es
3.2. Hip
otesis generales
3.2.1. Hip
otesis sobre el modelo
|f (y, i )| i |y| + bi .
Pm
E3 (Condicion tipo radio espectral) Suponemos que i=1 log i i < 0.
LP Para i = 1, ..., m,
|f (y, i ) f (y, i0 )| K1 |i i0 |.
|f (y, i )| C1 y k f (yn , i )k C2 ,
3.2.2. Hip
otesis sobre la densidad y los estimadores
Suponemos que la funcion de densidad es acotada y que existe > 0 tal que,
Suponemos que,
3.3.1. Construcci n |Y n1 )
on del estimador E(Y 0
y
N
X
n (j) = n f (yn1 , i )).
n1 (i)aij (y
i=1
Proposici
on 3.1 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de
estabilidad [E1-E3], las condiciones sobre el n
ucleo K [K1-K3] y la condici
on [PS],
se verifica que
k
n (j) n (j)k = Op (vn ) ,
Demostraci
on: Como la sucesion {en } es i.i.d es conocido que:
k = Op (vn ),
k
m(M2 k k ).
n1 n1 k + k
Lema 3.1 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de estabilidad
[E1-E3], las condiciones [C1-C2], tenemos que:
104
) admite un u
ii. La funcion S(, nico mnimo en = .
Demostraci
on de (i).
Demostraci
on de (ii).
Tenemos que
E(Y1 E (Y1 |Y0 ))2 = E(Y1 E (Y1 |Y0 ))2 + E(E (Y1 |Y0 ) E (Y1 |Y0 ))2
potesis (C1) la funcion E(E (Y1 |Y0 ) E (Y1 |Y0 ))2 admite un u
y por hi nico mnimo
).
en = y as S(,
Demostraci
on de (iii).
SN () SN ( 0 )
" N #
1 X
= (Yn E (Yn |Y0n1 ))2 (Yn E0 (Yn |Y0n1 ))2
N n=1
N
1 X
= [E0 (Yn |Y0n1 ) E (Yn |Y0n1 )][2Yn (E0 (Yn |Y0n1 ) + E (Yn |Y0n1 ))]
N n=1
105
Como la esperanza de 2Yn (E0 (Yn |Y0n1 ) + E0 (Yn |Y0n1 )) es acotada nos basta
demostrar que el termino E0 (Yn |Y0n1 ) E (Yn |Y0n1 ) esta acotado por Ck 0 k
y as el punto (iii) es cierto. En efecto,
El siguiente lema sera necesario para establecer la parte (ii) de la proposicion 3.2.
Lema 3.2 Bajo las hipotesis de estabilidad [E1-E3] suponiendo las las condiciones
[C1-C2] el proceso AR-RM definido en (3.1) satisface las siguientes propiedades,
i N SN ( ) N (0, 1 ).
h i
E (Yn |Y0n1 ) E (Yn |Y0n1 )
ii 2 SN ( ) 2E 0 k
k
Demostraci
on:
E(Zn ) = 0.
E(Zn |(Y0N )) = 0.
1
Pn 1
Pn
lmn n k=1 Zk Zkt = lmn n k=1 cov(Zk ) = 1 .
1
Pn Zk 2+
lmn n k=1 Ek n
k = 0.
107
SN ((s)) SN ( )
= F1 + F2 + F3 ,
k0 k k0 k
2
PN E(s) (Yn |Y0n1 ) E(s) (Yn |Y0n1 ) E (Yn |Y0n1 ) E (Yn |Y0n1 )
F1 (s) = N n=1 k0 k0
k0 k0
PN
2 2 E(s) (Yn |Y0n1 ) 2 E (Yn |Y0n1 )
F2 (s) = N n=1 Yn k0 k
k0 k
,
Escribimos
E(s) (Yn |Y0n1 ) E(s) (Yn |Y0n1 ) 2 E (Yn |Y0n1 )
= s( ),
k0 k k0 k
donde es un punto en el segmento que une a (s) con , lo que nos permite
expresar F1 (s) como
2 E (Yn |Y0n1 ) E(s) (Yn |Y0n1 ) E (Yn |Y0n1 )
s ( ) + .
k0 k k0 k
la compacidad de y la condicion de regularidad [AC]
La consistencia de ,
R1
permiten demostrar que 0 F1 (s)ds = op (1). Analogamente para F2 y F3 .
Demostraci
on proposici
on 3.2
= SN ( ) + ( )2 SN (s + (1 s))
SN ()
equivalente a la expresion,
N ( ) = N SN ( )[2 SN ( ) + RN ]1 ,
Teorema 3.1 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de
estabilidad [E1-E3], las condiciones sobre el n
ucleo K [K1-K4], las condiciones [C1-
on [PS], se verifica que el estimador en probabilidad.
C2] y la condici
SN () SN ()
" N #
1 X (Yn |Y n1 ))2 (Yn E (Yn |Y n1 ))2
= (Yn E 0 0
N n=1
N
1 X (Yn |Y n1 )][2Yn (E
(Yn |Y n1 ) + E (Yn |Y n1 ))].
= [E (Yn |Y0n1 ) E 0 0 0
N n=1
Teorema 3.2 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de
estabilidad [E1-E3], las condiciones sobre el n
ucleo K [K1-K4], las condiciones [C1-
C2] y la condici
on [PS], tenemos que
= Op (vN )
Lema 3.3 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de estabilidad
[E1-E3], las condiciones sobre el n
ucleo K [K1-K4], las condiciones [C1-C2] y la
condici
on [PS], se satisfacen las propiedades siguientes:
i. La velocidad de convergencia de
k SN ( ) SN ( )k = Op (vN )
Demostraci
on (i).
Escribimos
SN ( ) SN ( ) = T1 + T2 + T3
donde
PN n |Y n1 ) E(Yn |Y n1 ))
T1 = 2/N n=1 (Yn E(Yn |Y0n1 ))( E(Y 0 0
PN n1 n |Y n1 ) E(Yn |Y n1 ))
T2 = 2/N n=1 (E(Yn |Y0 ) E(Yn |Y0n1 ))( E(Y 0 0
PN n1
T3 = 2/N n=1 (E(Yn |Y0 ) E(Yn |Y0n1 )) E(Yn |Y0n1 ).
n |Y n1 ) E(Yn |Y n1 ).
E(Y 0 0
n |Y n1 ) E(Yn |Y n1 ).
E(Y 0 0
v1 = /(2 + 1) y como
m
X
n |Y n1 ) E(Yn |Y n1 ) =
E(Y f (Yn , i )(
n (i) n (i))
0 0
i=1
v1
k = Op log N
k .
N
Por otra parte,
m
X
n |Y n1 ) E(Yn |Y n1 ) =
E(Y n (i) n (i))
f (yn , i )(
0 0
i=1
m
X
+ f (yn , i )( n (i) n (i))
i=1
y por
Las formulas son analogas para n sustituyendo por 0 . Al sustituir
n |Y n1 ) E(Yn |Y n1 ) aparecen expresiones con terminos del tipo
en E(Y
0 0
0 0 . Es conocido (ver por ejemplo [9], 3) que
y
v
0 0 log N 2
k k = Op ,
N
y v3
log N
T1 = Op
N
con v3 = 1/(2 + 2)(2 + 1) y para T2 tenemos
v
log N 3
T2 = Op .
N
Demostraci
on de (ii).
Para demostrar (ii) procedemos como en la parte (ii) del Lema 3.2.
Demostraci
on del teorema 3.2: Expandiendo Sn alrededor de y se obtiene
que
( ) = SN ( )[2 SN ( ) + RN ]1 ,
= SN ( )[2 SN ( ) + RN ]1 + ( SN ( ) SN ( ))[2 SN ( ) + RN ]1
= Op (N 1/2 ) + ( SN ( ) SN ( ))[2 SN ( ) + RN ]1
113
eligiendo v = v3 .
[6] J.D. Hamilton. A new approach to the economic analysis of non stationary time
series and the business cycle. Econometrica 357384 1989.
[8] L. Mevel. Statistique asymtotique pour les modeles Markov caches. Tesis doctoral,
Universite Rennes I 1997.
115
116
Resumen
117
118
4.1. Introducci
on
existe un n
umero fijo de patrones del trafico, y cada nuevo da de observacion
puede ser comparable con uno de estos.
En a
nos recientes, diversos metodos de analisis de datos funcionales han sido
estudiados ampliamente y se han relacionado con la prevision de fenomenos en los
cuales los datos que observamos son curvas o funciones. Tales tecnicas permiten
ajustar un modelo no lineal a los datos y utilizarlo para predecir los valores posteriores.
Para una referencia general de esta tematica vease Ferraty y Vieu [20]. Nosotros no
empleamos suposiciones muy rigurosas sobre los datos y por esta razon nos enfocamos
en metodos de clasificacion funcionales. Dejamos claro que no consideramos metodos
de series de tiempo, como en Belomestny et al. [4], ya que nuestros datos impiden el
uso de estas tecnicas. Esta afirmacion sera discutida en la seccion 4.6.
120
4.2.1. Descripci
on
el flujo, indica el n
umero de vehculos detectados por el sensor en perodos fijos
de tiempo,
Denotamos por:
Cs la estacion de calculo n
umero s, con s = 1, . . . , S (S es el n
umero total de
estaciones de calculo sobre la red, para este estudio S 2000),
Jn representa el da n
umero n, con n = 1, . . . , N (N es el n
umero total de das
considerados en el estudio).
1. La deteccion de las medidas atpicas esta basada en los tres puntos siguientes
deteccion de velocidades muy bajas, mas bajas que 5 km/h durante mas
de 3.6 horas.
Estos tres puntos corresponden a salidas de errores conocidos por los encargados
del trafico de carreteras, por ejemplo, las medidas de velocidad constante son
debidas a estaciones que no se re-inicializaron despues de cierta medida y
automaticamente repiten la medida sobre varios perodos consecutivos.
Si todas las medidas estan perdidas no hay completacion. Este paso se repite
hasta que el 80 % de los datos hayan sido completados.
Figura 4.1: Grafico de una curva de velocidad para la estacion de calculo 19, antes
de aplicar el algoritmo de completacion (lnea punteada) y despues del algoritmo de
completacion (lnea continua). En este ejemplo, los valores perdidos son completados.
125
4.2.3. M
etodo de previsi
on
t
0 +49
Para un da nuevo Jn0 , en el tiempo H 10
, t010
+50
que corresponde a los
diferentes tiempos t0 = 1, . . . , 180, observamos las medidas de velocidad Yns0 (t),
t < t0 , s = 1, . . . , S. Queremos estimar Yns0 (t), t t0 y para todas las estaciones
de calculo Cs , s = 1, . . . , S, con la finalidad de prever los tiempos de viaje para un
itinerario dado.
de las componentes y el n
umero optimo de componentes.
4.3.1. Descripci
on del modelo
Yn = fXn + en , n = 1, . . . , N (4.1)
0
= (1 , . . . , m , f1 , . . . , fm , ) . (4.2)
L() = 0,
Sea Zn = (Znj ) = (1Ij (Xn ))j=1,...,m . Esta variable completa el modelo en la medida que
indica a cual clase pertenece la observacion Yn . Esta variable tiene una distribucion
128
0
multinomial con parametro desconocido = (1 , . . . , m ) .
(p)
k (yn ) = E(Znk |Yn = yn , (p) )
Nuestro modelo pertenece a la familia exponencial por lo que satisface las hipotesis
que garantizan la convergencia del algoritmo EM.
129
p+1
Q
1
K(p+1)
X X
p + p+1
= Q k
znj
(p1)
log j
(p1)
(yn ; fj p ,
, (p1) ) Q
K(p + 1) k=1 n,j
4.3.2. Estimaci
on del n
umero de componentes de la mezcla
Fm = {f1 , . . . , fm , fi RT , 1 , . . . , m , }
Para todo > 0 y para todo 1 m mmax , donde mmax es una cota superior del
n
umero de componentes, definimos
m()
= arg mn (Jm + m) .
1mmmax
La siguiente proposicion, contenida en Lavielle [28], nos provee una tecnica para
escoger un valor adecuado de , y de esta manera estimar m .
131
Proposici
on 4.1 Existen sucesiones m1 = 1 < m2 < . . . , y 0 = > 1 > . . . con
Jmi Jmi+1
i = , i 1
mi+1 mi
Un peque
no cambio en no debera determinar un cambio marcado en la
eleccion del n
umero de componentes. La estabilidad de la escogencia del n
umero de
componentes respecto a la eleccion de , nos sugiere retener u
nicamente los intervalos
(i , i1 ) de longitudes mas grandes. Proponemos el siguiente procedimiento para
calcular el n
umero de componentes de la mezcla:
(m) y Jm .
1. para m = 1, . . . , mmax , calcular
3. guardar los valores mas grandes de mi tales que li >> lj , para j > i.
4.4. M
etodo de clasificaci
on jer
arquica
La salida de un metodo de clasificacion jerarquica depende fuertemente tanto de
la eleccion de la distancia entre los individuos, como de la eleccion de la distancia
entre las clases. Las distancias usualmente definidas en la literatura (vease por
ejemplo Gordon [24]) no son apropiadas para el contexto de datos temporales como
los utilizados en este trabajo. El estudio del trafico de carretera nos conlleva a
133
p
(x, y) = (x y)0 W (x y)
n|ij|
con W una matriz n n definida por Wij = n
, para todo i, j = 1, . . . , n.
Notese que es una distancia sobre Rn . Para el ejemplo precedente los resultados
de las distancias al utilizar son los siguientes: (X, Y ) = (Y, Z) = 637 y
(X, Z) = 967. De esta manera, permite diferenciar las curvas de velocidad
trasladadas. Por lo tanto elegimos como la distancia entre individuos y definimos
el ndice de distancia entre clases como la variacion maxima de la distancia entre
individuos. Esto es, sean A y B dos clases, tenemos que
Este criterio de variacion maxima nos lleva a obtener clases homogeneas, mirando
entre clases heterogeneas. La clasificacion jerarquica se realiza utilizando el algoritmo
aglomerativo de Johnson, el cual agrupa, en cada paso, las clases cercanas (ver Gordon
[24]).
134
4.4.1. Elecci
on del n
umero
optimo de clases
una muestra modelo, utilizada para estimar los patrones, con NM das completos
(80 % de los datos).
X 161 p+19
Nl X X
m = arg mn |Yn (p) fm,j(n,t) (p)|,
m=1,...,mmax
n=1 t=11 p=t
con
fm,j(n,t) = arg mn 0 ((Yn )t1 t1
)1 ),
1 , (fm,m
fm,m
,m=1,...,m
donde fm,1 , . . . , fm,m son los patrones obtenidos para m clases y fm,j(n,t) es el patron
mas cercano a Yn , entendiendo la nocion de cercano en terminos de la distancia 0
135
La Figura 4.3 muestra el error absoluto calculado para la estacion 19, con
m = 1, . . . , 20. Se observa que el error de prevision decrece cuando m crece, es decir,
existe un fenomeno de sobre ajuste cuando el n
umero de patrones crece despues de un
cierto valor. Por lo tanto es posible estimar un n
umero optimo de clases. Se destaca
que la mayora de las estaciones de calculo exhiben el mismo comportamiento.
Figura 4.3: Error absoluto de prevision para la estacion 19, con m patrones estandar,
m = 1, . . . , 20. El valor optimo es alcanzado en m = 11.
Figura 4.4: Patrones estandar para la estacion 19. La grafica superior utiliza el
modelo de clasificacion. La grafica inferior utiliza el modelo de mezcla. El eje vertical
representa la velocidad de los vehculos mientras que el horizontal el eje del tiempo.
4.6. Previsi
on de los tiempos de viaje
En las dos secciones previas construimos, utilizando dos metodos diferentes para
(i)
cada estacion observada Cs , s = 1, . . . , S, los patrones estandar fj F i, i
{1, 2}, j = 1, . . . , mi . Los conjuntos F 1 y F 2 representan los patrones diarios de
la curva de velocidad de los vehculos, respectivamente para el modelo de mezcla
(i = 1) y para el metodo de clasificacion emprica (i = 2). La idea que sigue consiste
en usar los patrones para prever los tiempos de viaje de un usuario cualquiera, en
un trayecto seleccionado en el tiempo H + h, con h (en minutos) en el conjunto
{18, 30, 48, 60, 78, 90, 108}.
138
t
0 +49
Denotamos por Jn0 la observacion del da y sea t0 tal que H 10
, t010
+50
.
Realizamos la prevision estimando, a partir de las observaciones para todas las
estaciones del itinerario, las velocidades media f s (t), s S, t t0 , donde S es el
conjunto de todas las estaciones de calculo que se encuentran en el itinerario. Una
vez obtenidas estas velocidades, la estimacion de los tiempos de viaje es inmediata.
El procedimiento consiste en comparar los datos entrantes Yns0 (t), s S, t < t0 ,
del da Jn0 , con todas las curvas de velocidad de F 1 o F 2 y elegimos la mas cercana,
es decir, para cada i {1, 2} y para cada g F i definimos
donde j , j = 1, . . . , m, es el tama
no de la clase j y P es una matriz (t0 1) (t0 1),
definida por
1
si i = j y i t0 10,
t0 i
Pij = .
0 en otro caso
En consecuencia, despues de elegir uno de los dos modelos F 1 o F 2 , el estimador
f(t) para cada t t0 esta dado por
0
f = arg mn g1t0 1 , Y1t0 1 .
gF
Los cuadros 4.1 y 4.2 presentan los errores mnimo y maximo, respectivamente,
de los tiempos de viaje, los cuales fueron obtenidos con aproximadamente 3000
simulaciones de la muestra de aprendizaje para cada uno de los tres modelos. El
error, en minutos, es definido como
tiempo de viaje real tiempo de viaje estimado
error = .
tiempo de viaje real
Cuadro 4.1: Evolucion del error mnimo para diferentes valores del horizonte de
prediccion.
140
Cuadro 4.2: Evolucion del error maximo para diferentes valores del horizonte de
prediccion.
Figura 4.5: Evolucion de la errores de prevision para los tiempos de viaje (media y
desviacion estandar)
141
Afirmamos que ambos modelos subestiman los tiempos de viajes reales. Para
aplicaciones practicas este sesgo debe ser considerado en cuenta.
4.7. Conclusiones
Nuestros resultados son mas favorables que los resultados dados por los metodos
de prevision globales usuales (por ejemplo Sytadin, http://www.sytadin.tm.fr, o
Bison Fute), los cuales se basan u
nicamente en modelos aproximados. Los modelos
que proponemos son interesantes: El modelo de mezcla por su simplicidad y buen
desempe
no, y el modelo de clasificacion por ser mas preciso, pero al mismo tiempo,
mas complicado desde un punto de vista computacional.
[1] Y. Baraud. Model selection for regression on a fixed design. Probab. Theory
Related Fields, 117(4):467493, 2000.
[2] A. Barron, L. Birge y P. Massart. Risk bounds for model selection via
penalization. Probab. Theory Related Fields, 113(3):301413, 1999.
147
148
[11] J. Chen. Optimal rate of convergence for finite mixture models. Ann. Statist.,
23(1):221233, 1995.
[13] S. Cohen. Ingenierie du trafic routier. Presses de lEcole Nationale des Ponts et
Chaussees, Institut National de Recherche sur les Transports et leur Securite -
INRETS, France, 1990.
[18] A.P. Dempster, N.M. Laird y D.B. Rubin. Maximum likelihood from incomplete
data via the em algorithm. J. Roy. Statist. Soc. Ser. B, 39(1):138, 1977. With
discussion.
[20] F. Ferraty, V. Nu
nez y P. Vieu Regresi
on No parametrica: desde la dimension
uno hasta la dimension infinita Universidad del pas Vasco, 2001.
[23] F. Gamboa, J-M. Loubes y E. Maza. Structural estimation for high dimensional
data. Enviado a Ann. Statist.
[33] J.O. Ramsay y C.J. Dalzell. Some tools for functional data analysis. J. Roy.
Statist. Soc. Ser. B, 53(3):539572, 1991. With discussion and a reply by the
authors.
151
152
T
Definimos el cambio de variables (e1 , . . . , en , X1n , Y0 ) (Y1 , . . . , Yn , X1n , Y0 ) por
ek = Yk fXk , para k=1,. . . ,n. As por el teorema del cambio de variables y utilizando
la independencia conjunta se tiene
E(h(Y1 , . . . , Yn , X1n , Y0 ))
Z X
= h(T 1 (e1 , . . . , en , in1 , u))L(e1 , . . . , en )L(in1 )g(u)den1 du
in
1
Z X n
Y n
Y
= h(T 1 (e1 , . . . , en , in1 , u)) (Yk fik (Yk1 )) aik1 ik i1 g(u)den1 du.
in
1 k=1 k=2
153
154
Por lo tanto la v.a (Y1 , . . . , Yn , X1n , Y0 ) admiten densidad conjunta con respecto a
la medida de Lebesgue producto y la medida de contar,