Académique Documents
Professionnel Documents
Culture Documents
Ecuaciones Diferenciales
[1.1.1]
La ecuación [1.1.1] es una ecuación lineal de diferencias de primer orden. Una ecuación de
diferencia es una expresión que relaciona una variable con sus valores anteriores. Es una
ecuación de diferencia de primer orden porque sólo aparece el primer retardo de la variable
en la ecuación. Obsérvese que expresa como una función lineal de y .
Un ejemplo de [1.1.1] es la función estimada de demanda de dinero de Goldfeld (1973) para los
Estados Unidos. El modelo de Goldfeld relacionó el registro de las tenencias de dinero real del
público con el logaritmo del ingreso real agregado ( ), el logaritmo del tipo de interés de las
cuentas bancarias ( ), y el logaritmo de la tasa de interés en papel comercial ( ):
En el Capítulo 3 la variable de entrada wt será considerada como una variable aleatoria, y las
implicaciones de [1.1.1] para las propiedades estadísticas de la serie de resultados yt serán
exploradas. En preparación para esta discusión, es necesario primero entender la mecánica de las
ecuaciones de las diferencias. Para la discusión en los capítulos 1 y 2, los valores para la variable de
entrada {w1, w2, …} simplemente se considerarán como una secuencia de números deterministas.
Nuestro objetivo es responder a la siguiente pregunta: Si un sistema dinámico es descrito por
[1.1.1], ¿cuáles son los efectos sobre y de los cambios en el valor de w?
1.1 Ecuaciones de Diferencia de Primer Orden 1
para esa fecha al valor anterior y el valor actual de .
Fechas Ecuación
0 [1.1.3]
1 [1.1.4]
2 [1.1.5]
⋮ ⋮
t [1.1.6]
,
O
,
O
Continuando recursivamente en la moda, el valor que y toma en la fecha t puede describirse como
una función de su valor inicial yy la historia de w entre la fecha 0 y la fecha t:
⋯ [1.1.7]
Este procedimiento se conoce como resolver la ecuación de diferencia [1.1.1] por sustitución recursiva.
Multiplicadores dinámicos
Notar que [1.1.7] expresa como una función lineal del valor inicial los valores
históricos de . Esto hace que sea muy fácil calcular el efecto de en . Si cambiaba con y
, ,…, ... tomado como no afectado, el efecto en sería dado por
∅ [1.1.8]
Tenga en cuenta que los cálculos serían exactamente los mismos si la simulación dinámica se
iniciara en la fecha t (tomando y dado); Entonces y podría describirse como una función de yt-1 y wt,
wt+1, …, wt+j:
2 Capítulo 1 | Ecuaciones Diferenciales
[1.1.9]
⋯
Así, el multiplicador dinámico [1.1.10] sólo depende de j, el tiempo que separa la perturbación de la
entrada (wt) y el valor observado de la salida (yt+j). El multiplicador no depende de t; esto es, no
depende de las fechas de la observación, esto es cierto para cualquier ecuación de diferencia lineal.
Como ejemplo de cálculo de un multiplicador dinámico, considere nuevamente las
especificaciones de demanda de dinero de Goldfeld [1.1.2]. Supongamos que queremos saber qué
pasará con la demanda de dinero dos trimestres a partir de ahora si los ingresos actuales It fueran a
aumentar en una unidad hoy con los ingresos futuros It + 1yIt + 2no afectados:
∅ .
De [1.1.2], un aumento de una unidad en It, aumentará wt en 0.19 unidades, lo que significa que
/ 0.19 Desde ∅ = 0.72, calculamos
0.72 0.19 0.098.
Debido a que es el registro de ingresos, un aumento en de 0.01 unidades corresponde a un
aumento del 1% en los ingresos. Un aumento en de (0.01) (0.098) ≅ 0.001 corresponde a un
aumento del 0.1% en las tenencias de dinero. Por lo tanto, se espera que el público aumente sus
tenencias de dinero por un poco menos de 0.1% dos trimestres después de un aumento del 1% en
los ingresos.
⋯ [1.1.11]
Aquí la variable de salida y es la suma de las entradas históricas . Un aumento de una unidad en
causará un aumento permanente de un minuto en :
1.1 Ecuaciones de Diferencia de Primer Orden 3
(a) Ø = 0.8 (b) Ø = - 0.8
Y una tasa de interés constante1 r> 0, el valor actual de la corriente en el tiempo t viene dado por
+ + + +…. [1.1.12]
β ≡ 1/(1 + r).
Note que 0 <β< 1. Luego el valor presente [1.1.12] puede escribirse como
Considere lo que sucedería si hubiera un aumento de una unidad en w_t con w_ (t + 1), w_
(t + 2), ... inalterado. Las consecuencias de este cambio para el valor presente de y se encuentran
diferenciando [1.1.13] con respecto a w_t y luego usando [1.1.10] para evaluar cada derivada:
1 La tasa de interés se mide aquí como una fracción de 1; r = 0.1 corresponde a un tipo de interés del 10%.
4 Capítulo 1 | Ecuaciones Diferenciales
Ø 1/ 1 Ø ,
[1.1.14]
Siempre que βØ< 1.
(
TIEMPO
(a) Valor de
TIEMPO
(b) Valor de
FIGURA 1.2 Caminos de la variable de entrada ( ) Y variable de salida ( ) Para los cálculos
del multiplicador dinámico y del valor presente.
⋯ ∅ ∅ ∅ ⋯ ∅ 1
1.1 Ecuaciones de Diferencia de Primer Orden 5
CuandoØ< 1, El límite de esta expresión como va al infinito se describe a veces como el efecto
de "largo plazo" de en :
lim ⋯ 1 ∅ ∅ ⋯
→
1
1 ∅
[1.1.15]
TIEMPO
(a) Valor de
TIEMPO
(a) Valor de
FIGURA 1.3 Caminos de variables de entrada ( ) y variable de salida ( ) para los cálculos del
efecto a largo plazo.
Por ejemplo, la elasticidad del ingreso a largo plazo de la demanda de dinero en el sistema [1.1.2]
está dada por
0.19
0.68.
1 0.72
Un aumento permanente del 1% en los ingresos llevará eventualmente a un aumento de 0,68% en
la demanda de dinero.
6 Capítulo 1 | Ecuaciones Diferenciales
1/ 1 Ø
[1.1.16]
Dado que Ø< 1. Obsérvese que el efecto acumulativo sobre y de un cambio transitorio en
(expresión [1.1.16]) es el mismo que el efecto a largo plazo sobre y de un cambio permanente
en (expresión [1.1.15]).
∅ ∅ ⋯ ∅ [1.2.1]
Ecuación [1.2.1] es una ecuación lineal de diferencia de orden p.
. [1.2.2]
.
.
Es decir, el primer elemento del vector En la fecha t es el valor y tomó en la fecha t. El segundo
elemento de t Es el valor y tomó en la fecha t - 1, y así sucesivamente. Defina la matriz (p x p) F
por
∅ ∅ ∅ ...∅ ∅
1 1 1 ... 0 0
0. 0. 0. ... 0 0
. . [1.2.3]
...
. . . . .
...
. . . . .
...
0 0 0 1 0
Por ejemplo, para p = 4, F se refiere a la siguiente matriz 4 x 4:
∅ ∅ ∅ ∅
1 0 0 0
0 1 0 0
0 0 1 0
Para p = 1 (la ecuación de diferencia de primer orden [1.1.1]), F es sólo el escalar Ø. Finalmente,
defina el vector (p x 1) vt por
1.2 Ecuaciones diferenciales de Orden p 7
0
0
. [1.2.4]
.
.
0
Considere la siguiente ecuación de diferencia vectorial de primer orden:
t t - 1 vt [1.2.5]
∅ ∅ ∅ ...∅ ∅
1 0 0 ... 0 0 0
0 1 0 ... 0 0 0
. . . . ... . . . .
. . . . ... . . . .
. . . . ... . . . .
0 0 0 ... 1 0 0
Este es un sistema de p ecuaciones. La primera ecuación en este sistema es idéntica a la ecuación
[1.2.1]. La segunda ecuación es simplemente la identidad
= ,
Debido al hecho de que el segundo elemento de t es el mismo que el primer elemento de t --1 . La
tercera ecuación en [1.2.5] establece que = ; La ecuación pth indica que =
.
Por lo tanto, el sistema vectorial de primer orden [1.2.5] es simplemente una representación
alternativa del sistema escalar de orden p. [1.2.5] es que los sistemas de primer orden suelen ser más
fáciles de trabajar que los sistemas de orden p.
t -1 ⋯ [1.2.6]
8 Capítulo 1 | Ecuaciones Diferenciales
0 0
0 0
. . . . ⋯
. . . .
. . . .
0 0
0 0
0 0
. . [1.2.7]
. .
. .
0 0
Considera la primera ecuación del sistema, la cual caracteriza el valor de . Sea denotar que (1,
1) como elemento de , el (1, 2) elemento de , y así. Entonces la primera ecuación de [1.2.7]
afirma que:
⋯ [1.2.8]
Esto describe el valor de y en fecha t como una función linear de p valores iniciales dey ( , ,
…, )y la historia de la variable de entrada desde 0 ( , , … , ). Tenga en cuenta que
mientras que sólo un valor inicial para y (el valor ) En el caso de una ecuación de diferencias de
primer orden, p valores iniciales para y (los valores , ,…, ) Son necesarios en el caso de
una ecuación de diferencias de orden p.
⋯ [1.2.10]
Así, para una ecuación de diferencias de orden p, el multiplicador dinámico viene dado por
[1.2.11]
Donde denota que (1, 1) elemento de . Para j = 1, esto es simplemente el elemento (1, 1)
de F, o el parámetro Ø1 . Por lo tanto, para cualquier sistema de orden, el efecto en de un
aumento de una unidad en Está dada por el coeficiente to en la ecuación [1.2.1]:
Ø .
1.2 Ecuaciones diferenciales de orden p 9
La multiplicación directa de [1.2.3] revela que el (1, 1) elemento de es (Ø + Ø ), entonces
Ø Ø
en un sistema de orden p.
Aunque la simulación numérica puede ser adecuada para muchas circunstancias, también es
útil tener una caracterización analítica simple de ⁄ , que, sabemos de [1.2.11], está dada
por el (1, 1) elemento de . Esto es bastante fácil de obtener en términos de los valores propios
de la matriz F. Recordemos que los valores propios de una matriz F Son los números λ para los
cuales
|F - λI | = 0. [1.2.12]
Por ejemplo, para p = 2 los valores propios son las soluciones a
∅1 ∅2 λ 0
- 0
1 0 0 λ
O
∅ λ ∅
∅ ∅ [1.2.13]
1 λ
Los dos valores propios de F para una ecuación de diferencia de segundo orden están dados por
∅ ∅ ∅
[1.2.14]
∅ ∅ ∅
[1.2.15]
Proposición 1.1: Los valores propios de la matriz F definida en la ecuación [1.2.3] son los valores de λ que
satisfacen
∅ ∅ ⋯ ∅ ∅ [1.2.16]
Una vez que conocemos los autovalores, es fácil caracterizar el comportamiento dinámico
del sistema. Primero consideramos el caso cuando los autovalores de F son distintos; Por ejemplo,
requerimos que y en [1.2.14] y [1.2.15] Ser números diferentes.
10 Capítulo 1 | Ecuaciones Diferenciales
Solución general de una ecuación de diferencia de orden p con valores
propios distintos
Recordar2que Si los valores propios de una matriz (p x p) F son distintos, existe un no
singular (p x p) matriz T tal que
F = TΛ [1.2.17]
Donde Λ es una matriz (p x p) con los valores propios de F a lo largo de la diagonal principal y
ceros en otra parte:
1 0 0... 0
0 20
... 0
. . . ... . [1.2.18]
. . . ... .
. . . ... .
0 0 0...
La estructura diagonal de Λ implica que Es también una matriz diagonal cuyos elementos son
cuadrados de los valores propios de F:
2
1
0 0... 0
2 ... 0
0 20
. . . ... .
. . . ... .
. . . ... .2
0 0 0...
j términos
…
Que simplifica
=T [1.2.19]
2 Ver la ecuación [A.4.24] en la Revisión Matemática (Apéndice A) al final del libro.
1.2 Ecuaciones diferenciales de orden p 11
Donde
1
0 0... 0
... 0
0 20
. . . ... .
. . . ... .
. . . ... .
0 0 0...
Dejar denotar la fila i, columna j elemento de T y dejan Denotan la fila i, columna j elemento
de . La ecuación [1.2.19] escrita se convierte explícitamente en
... t ...
...t ...
. . ... . . . ... .
. . ... . . . ... .
. . ... . . . ... .
... ...
t
⋯
O
⋯ [1.2.20]
donde
=[ ]. [1.2.21]
Tenga en cuenta que la suma de los Términos tiene la siguiente interpretación:
⋯ ⋯ , [1.2.22]
Que es el elemento (1, 1) de T. . Dado que T. Es sólo la matriz de identidad (p x p), [1.2.22]
implica que el Términos suma a unidad:
+ +…+ = 1. [1.2.23]
Sustituyendo [1.2.20] en [1.2.11] se obtiene la forma del multiplicador dinámico para una
ecuación de diferencia de orden p:
⋯ [1.2.24]
12 Capítulo 1 | Ecuaciones Diferenciales
La ecuación [1.2.24] caracteriza el multiplicador dinámico como una media ponderada de cada uno
de los p valores propios elevados a la potencia j.
El siguiente resultado proporciona una expresión de forma cerrada para las constantes
( , , …, ).
Proposición 1.2: Si Los valores propios , ,…, de la matriz F en [1.2.3] son distintos, entonces
se puede escribir la magnitud c_i en [1.2.21].
∏
[1.2.25]
⋯ [1.2.26]
Ψ Ψ ⋯ Ψ Ψ
El multiplicador dinámico
[1.2.27]
. [1.2.28]
Una expresión de forma cerrada para se puede obtener mediante la búsqueda de los valores
propios de F, o los valores de λ satisfacer [1.2.16]. Denotando estos valores p por ( , , … , ) y
suponiendo que son distintos, el multiplicador dinámico viene dado por
ψ λ λ ⋯ λ [1.2.29]
Para un sistema de primer orden (p = 1), esta regla nos obligaría a resolver [1.2.16],
λ + Ø = 0,
Que tiene la solución única
λ =Ø . [1.2.30]
1 λ1 . [1.2.31]
Ø1 ,
O el mismo resultado encontrado en la Sección 1.1.
1.2 Ecuaciones diferenciales de orden p 13
Para sistemas de orden superior, [1.2.29] permite una variedad de dinámicas más
complicadas. Supongamos primero que todos los valores propios de F (o soluciones a [1.2.16]) son
reales. Este sería el caso, por ejemplo, si p = 2 y 4 0 en las soluciones [1.2.14] y [1.2.15]
para el sistema de segundo orden. Si, además, todos los valores propios son menores que 1 en valor
absoluto, entonces el sistema es estable y su dinámica se representa como un promedio ponderado
de exponenciales decrecientes o exponenciales decrecientes oscilando en signo. Por ejemplo,
considere la siguiente ecuación de diferencia de segundo orden:
0.6 0.2
A partir de las ecuaciones [1.2.14] y [1.2.15], los valores propios de este sistema están dados por
/ 0.778
/ 0.222
= λ + λ ,
Se representa como una función de j en el panel (a) de la figura 1.43. Tenga en cuenta que a medida
que j se hace más grande, el patrón está dominado por el valor propio más grande ( ),
aproximándose a un decaimiento geométrico simple a una tasa .
Si los valores propios (las soluciones a [1.2.16]) son reales, pero al menos uno es mayor que
la unidad en valor absoluto, el sistema es explosivo. Si Denota el autovalor que es mayor en valor
absoluto, el multiplicador dinámico es eventualmente dominado por una función exponencial de
ese valor propio:
1
lim .
→ λ
Otras posibilidades interesantes surgen si algunos de los valores propios son complejos.
Cuando este es el caso, aparecen como conjugados complejos. Por ejemplo, si p = 2 y 4
0, entonces las soluciones y Son conjugados complejos, escritos como
λ = a + bi [1.2.32]
λ = a – bi [1.2.33]
∅ ⁄2 [1.2.34]
3
Una vez más, si el propósito de uno solo es generar un gráfico numérico como en la Figura 1.4, el enfoque más fácil es la simulación
numérica del sistema.
14 Capítulo 1 | Ecuaciones Diferenciales
∅ 4∅ [1.2.35]
Nuestro objetivo es caracterizar la contribución al multiplicador dinámico cuando
es un número complejo como en [1.2.32]. Recordemos que para elevar un número complejo a una
potencia, reescribimos [1.2.32] en forma de coordenadas polares:
cos ⁄
sin ⁄
λ = R[eiθ],
Y así
λ cos . sin ,
Que puede escribirse5
Por lo tanto
4 Ver la ecuación [A.3.25] en la Revisión Matemática (Apéndice A) al final del libro.
5 Véase la ecuación [A.3.26].
1.2 Ecuaciones diferenciales de orden p 15
(b) Ø = 0.5, Ø = -0.8
FIGURA 1.4 Multiplicador dinámico para la ecuación de diferencias de segundo orden para
diferentes valores deØ y Ø (trazado de ⁄ como una función del retardo ).
λ λ ∙ cos ∙ ∙ sin
2 ∙ cos ∙ 2 ∙ sin
2 cos 2 sin
Que es estrictamente real.
Así, cuando algunos de los valores propios son complejos, aportan términos
proporcionales a Rj cos(Ø ) y Rj sen(Ø ) al multiplicador dinámico . Obsérvese que si R = 1 -
es decir, si los autovalores complejos tienen módulo unitario - los multiplicadores son funciones
seno y coseno periódicas de j. Un aumento dado en aumenta para algunos rangos de j y
disminuye sobre otros rangos, con el impulso nunca muriendo como j → ∞. Si los valores
propios complejos son menores que 1 en módulo (R <1), el impulso sigue de nuevo un patrón
sinusoidal aunque su amplitud decae a la velocidad R j. Si los autovalores complejos son mayores
que 1 en módulo (R> 1), la amplitud de los sinusoides explota a la velocidad R j.
Para un ejemplo de comportamiento dinámico caracterizado por sinusoides en
descomposición, considere el sistema de segundo orden
0.5 0.8 .
Los valores propios para este sistema se dan de [1.2.14] y [1.2.15]:
16 Capítulo 1 | Ecuaciones Diferenciales
0.5 0.5 4 0.8
0.25 0.86
2
O cuando (Ø , Ø ) esté por debajo de la parábola indicada en la figura 1.5. Para el caso de
autovalores complejos, el módulo R satisface
R2 = a2 + b2,
⁄2 4 ⁄4 .
Así, un sistema con autovalores complejos es explosivo siempre que Ø < -1. Además, cuando los
valores propios son complejos, la frecuencia de oscilaciones viene dada por
cos ⁄ cos ⁄2 ,
Donde cos ” denota la inversa de la función coseno, o la medida de radian de un ángulo cuyo
coseno es x.
6 Vea la Sección A.1 de la Revisión Matemática (Apéndice A) al final del libro para una discusión de la frecuencia y el período de una
función sinusoidal.
7 Esta discusión sigue de cerca Sargent (1987, pp. 188-89).
1.2 Ecuaciones diferenciales de orden p 17
FIGURA 1.5 Resumen de la dinámica para una ecuación de diferencia de segundo orden.
Para el caso de los valores propios reales, el valor propio aritméticamente mayor ( ) será mayor
que la unidad siempre que
4
1
2
o
4 2 .
Suponiendo que λ es real, el lado izquierdo de esta expresión es un número positivo y la
desigualdad sería satisfecha para cualquier valor de (Ø > 2). Si, por otro lado, Ø < 2 podemos
cuadrar a ambos lados para concluir que excederá la unidad siempre que
4 4 4
o
Ø >1-Ø .
Así, en la región real, λ será mayor que la unidad si (Ø > 2) o si ((Ø , Ø )) se encuentra al noreste
de la línea (Ø = 1 – Ø ) en la Figura 1.5. Del mismo modo, con valores propios reales, el valor
propio aritméticamente más pequeño (λ ) será menor que -1 siempre que
4
1
2
4 2
2 .
Una vez más, si (Ø < – 2), esto debe ser satisfecho, y en el caso cuando (Ø > – 2), podemos
cuadrar ambos lados:
4 4 4
1 .
Así, en la región real, (λ ) será menor que -1 si Ø < – 2 o (Ø , Ø )se encuentra al noroeste de la
línea (Ø = 1 + Ø ) en la Figura 1.5.
El sistema es así estable siempre que (Ø , Ø ) se encuentra dentro de la región triangular de
la figura 1.5.
18 Capítulo 1 | Ecuaciones Diferenciales
En el caso más general de una ecuación de diferencias para la cual F tiene valores propios
repetidos y s <p vectores propios linealmente independientes, el resultado [1.2.17] se generaliza
utilizando la descomposición de Jordan,
F = MJM-1 [1.2.40]
0 … 0
0 … 0
⋮ ⋮ … ⋮
0 0 …
con
1 0 … 0 0
0 1 … 0 0
0 0 … 0 0
… ⋮
⋮ ⋮ ⋮ ⋮
… 1
0 0 0
…
0 0 0 0
[1.2.41]
Para (λ ) un autovalor de F. Si [1.2.17] es reemplazado por [1.2.40], entonces la ecuación [1.2.19] se
generaliza a
Fj = MJjM-1 [1.2.42]
donde
0 … 0
0 … 0
⋮ ⋮ … ⋮
0 0 …
0
De modo que el multiplicador dinámico tome la forma
8 Esta expresión se toma de Chiang (1980, p.444)
1.2 Ecuaciones diferenciales de orden p 19
.
⋯, [1.2.44]
Donde ( ) viene dado por el elemento (1, 1) de (Fj) y toma la forma particular de [1.2.29] en el
caso de valores propios distintos.
También es sencillo calcular el efecto sobre el valor actual de y de un aumento transitorio
en w. Esto es más sencillo de encontrar si consideramos primero el problema ligeramente más
general de las consecuencias hipotéticas de un cambio en cualquier elemento del vector (t +j ) sobre
cualquier elemento de ( ) en un sistema general de la forma de [1.2.5] . La respuesta a este
problema más general puede deducirse inmediatamente de [1.2.9]:
. [1.2.45]
[1.2.46]
Siempre que los valores propios de F sean todos menos que (β-1) en módulo. El efecto sobre el
valor presente de y de un cambio en w,
∑
,
Es así el elemento (1, 1) de la matriz (p x p) en [1.2.46]. Este valor viene dado por la siguiente
proposición.
Proposición 1.3: Si los valores propios de la matriz (pxp) F definida en [1.2.3] son todos menores que
en módulo, entonces existe la matriz ,y el efecto de w sobre el valor presente de y viene dado por
su 1, 1) elemento:
1⁄ 1 ϕ β ϕ β ⋯ ϕ β ϕ β
Tenga en cuenta que la Proposición 1.3 incluye el resultado anterior para un sistema de primer
orden (ecuación [1.1.14]) como un caso especial.
El efecto acumulativo de un cambio único en + , …) puede considerarse un caso
especial de la Preposición 1.3 sin descuento. El ajuste (β = 1) en la Preposición 1.3 muestra que,
siempre que los valores propios de F sean todos menos de 1 en módulo, el efecto acumulativo de
un cambio de una vez en w en y viene dado por
∑ 1⁄ 1 ⋯ . [1.2.47]
20 Capítulo 1 | Ecuaciones Diferenciales
Observe nuevamente que [1.2.47] puede interpretarse alternativamente como dando el eventual
efecto a largo plazo sobre y de un cambio permanente en w:
lim ⋯ 1⁄ 1 ⋯ .
→ ð
|F - λ | = 0 [1.A.1]
APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1 21
Pero el determinante de una matriz triangular superior es simplemente el producto de los términos
a lo largo de la diagonal principal:
| | ⁄ ⁄ … ⁄ .
1 . ⋯ .
[1.A.3]
Los valores propios de F son, por lo tanto, los valores de λpara los cuales [1.A.3] es cero, o para los
cuales
⋯ 0,
Como se afirma en la Proposición 1.1.
[1.A.4]
⋮
1
Donde denota el i-ésimo valor propio de F. Aviso
⋯
1 0 0 ⋯ 0 0
0 1 0 ⋯ 0 0
⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮
0 0 0 ⋯ 1 0
1
[1.A.5]
⋯
⋮ ⋮
1
.
o
22 Capítulo 1 | Ecuaciones Diferenciales
F =λ . [1.A.7]
Podemos calcular la matriz T combinando los vectores propios ( , ,…, ) en una matriz (p x
p)
T=[ … ]. [1.A.8]
Para calcular los valores particulares de en la ecuación [1.2.21], recuerde que se caracteriza
por
T T-1 = , [1.A.9]
Donde T está dado por [1.A.4] y [1.A.8]. Escribiendo explícitamente la primera columna de la
matriz sistema de ecuaciones [1.A.9], tenemos
⋯
1
⋯ 0
0
⋯ ⋮ ⋮
⋮ ⋮ ⋯ ⋮
⋯ . 0
⋯ 0
1 1 1
Esto da un sistema de p ecuaciones lineales en las p incógnitas (t 11, t 21,…, t p1). Siempre que el ( )
son todos distintos, la solución se puede demostrar que es9
1
⋯
1
⋯
⋮
1
⋯
| | | . | | |,
De modo que |F – β -1 | tendría que ser cero cuando la inversa de (( – βF)) no existiera. Pero
esto significaría que (β -1) es un autovalor de F, que se descarta por la suposición de que todos los
valores propios de F son estrictamente menores que (β -1) en módulo. Por lo tanto, la matriz ( –
βF) debe ser no singular.
[1.A.10]
9 Véase Lemma 2 de Chiang (1980, p.144).
APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1 23
Sea ( ) la fila i, columna j elemento de ([ – βF]-1), y escriba [1.A.10] como
⋯ 1 ⋯
⋯ 1 ⋯ 0 0 [1.A.11]
⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮
⋯ 0 0 ⋯ 1 1
1 0 ⋯ 0
0 1 ⋯ 0
⋮ ⋮ ⋯ ⋮
0 0 ⋯ 1
La tarea consiste entonces en encontrar el elemento (1, 1) de ([ – βF]-1), es decir, encontrar el
valor de ( .). Para hacer esto solo necesitamos considerar la primera fila de ecuaciones en
[1.A.11]:
1 …
… 1 …
… 0 0
⋮ ⋮ ⋮ ⋮
…
0 0 1
1 0 … 0 0 [1.A.12]
Consideremos la posibilidad de multiplicar este sistema de ecuaciones por una matriz con 1s a lo
largo de la diagonal principal, β en la fila p, columna p - 1 y 0s en otra parte:
1 0 ⋯ 0 0
0 1 ⋯ 0 0
⋮ ⋮ ⋯ ⋮ ⋮
0 0 ⋯ 1
El efecto de esta operación es multiplicar la p° columna de una matriz por β y agregar el resultado a
la 1 columna:
1 …
… 1 …
… 0 0
⋮ ⋮ ⋮ ⋮
…
0 0 0 1
1 0 … 0 0
24 Capítulo 1 | Ecuaciones Diferenciales
Capítulo 1 Referencias
Chiang, Chin Long. 1980. An introduction to Stochastic Processes and Their Applications.
Huntington, N.Y.: Krieger.
Goldfeld, Stephen M. 1973. “The Demand for Money Revisited,” Brookings Papers on Economic
Activity 3:577-638.
Sargent, Thomas J. 1987. Macroeconomic Theory, 2da ed. Boston: Academic Press.
Capítulo 1 Referencias 25
2
Operadores de retardo
2.1. Introducción
El capítulo anterior analizó la dinámica de las ecuaciones de diferencia lineal usando álgebra
matricial. Este capítulo desarrolla algunos de los mismos resultados usando operadores de series de
tiempo. Empezaremos con algunas observaciones introductorias sobre algunos operadores de series
temporales útiles.
Una serie cronológica es una colección de observaciones indexadas por la fecha de cada
observación. Por lo general, hemos recogido datos que comienzan en una fecha determinada
(digamos, t = 1) y terminamos en otra (digamos t = T):
{yt}tx= ~ x = { …., y-1, y0, y1, y2, …, yT, yT+1, yT+2 …}.
Muestra observada
Normalmente, una serie de tiempo = -∞ se identifica describiendo el elemento t-
ésimo. Por ejemplo, una tendencia temporal es una serie cuyo valor en la fecha es simplemente la
fecha de la observación:
= t.
También podríamos considerar una serie temporal en la que cada elemento es igual a una constante
independientemente de la fecha de la observación :
= c.
=ε ,
Donde = -∞ es una secuencia de variables aleatorias independientes, cada una de las cuales
tiene una distribución N(0, ).
26 Capítulo 2 І Operadores de retraso
salida (y). Un operador de series temporales transforma una serie temporal o un grupo de series
temporales en una nueva serie temporal. Acepta como entrada una secuencia tal como ( = -∞)
o un grupo de secuencias como ( = -∞, = -∞) y tiene como salida una nueva secuencia
( = -∞). Una vez más, el operador se resume describiendo el valor de un elemento típico de
( = -∞) en términos de los elementos correspondientes de ( = -∞).
= . [2.1.1]
Aunque se escribe exactamente de la misma manera que la simple multiplicación escalar, la ecuación
[2.1.1] es en realidad una abreviatura para una secuencia infinita de multiplicaciones, una para cada
fecha t. El operador multiplica el valor x toma en cualquier fecha t por alguna constante β para
generar el valor de y para esa fecha.
= + .
Aquí el valor de y en cualquier fecha t es la suma de los valores que x y w adoptan para esa fecha.
β +β ,
β( + ).
Un operador muy útil es el operador de retraso. Supongamos que comenzamos con una secuencia
( = -∞) y generamos una nueva secuencia ( = -∞), donde el valor de y para la fecha t es
igual al valor x tomado en la fecha t - 1:
= , [2.1.2]
= [2.1.3]
L(Lxt) = L(xt ̶ 1) = xt ̶ 2.
L2xt = xt ̶ 2.
Lkxt = xt ̶ k. [2.1.4]
2.1 Introducción 27
xt → βxt → βxt ̶ 1,
El resultado será exactamente el mismo que si hubiéramos aplicado primero el operador de retraso
y luego el operador de multiplicación:
xt → xt ̶ 1 → βxt ̶ 1.
L(βxt) = β· Lxt.
De manera similar, si primero añadimos dos series y luego aplicamos el operador de retraso al
resultado,
(xt, wt) → xt + wt → xt ̶ 1 + wt ̶ 1,
Así vemos que el operador de retraso sigue exactamente las mismas reglas algebraicas que
el operador de multiplicación. Por esta razón, es tentador usar la expresión "multiplicar ( ) por L"
en lugar de "operar en ( = -∞) por L." Aunque la última expresión es técnicamente más
correcta, este texto utilizará a menudo la expresión taquigráfica anterior para Facilitar la exposición.
Cara con una serie temporal definida en términos de operadores compuestos, somos libres de usar
las leyes algebraicas conmutativas, asociativas y distributivas estándar para la multiplicación y la
adición para expresar el operador compuesto en una forma alternativa. Por ejemplo, el proceso
definido por
Yt =(a + bL)Lxt
28 Capítulo 2 І Operadores de retraso
Una expresión como (aL + bL2) se denomina polinomio en el operador de retardo. Es
algebraicamente similar a un polinomio simple (az + bz2) donde z es un escalar. La diferencia es que
el polinomio simple (az + bz2) se refiere a un operador que se aplicaría a una serie temporal
( = -∞) para producir una nueva serie temporal ( = -∞).
=c Para todo t,
Lxt = xt ̶ 1 = c.
La ecuación [2.2.1] se puede volver a escribir usando el operador de retardo [2.1.3] como
Yt = øLyt + wt.
Yt ̶ øLyt = wt,
El resultado sería
= (1 ̶ øt+1Lt+1).
2.2. Ecuaciones Diferenciales de Primer Orden 29
Sustituyendo [2.2.5] en rendimientos [2.2.4]
Observe que la ecuación [2.2.7] es idéntica a la ecuación [1.1.7]. La aplicación del operador [2.2.3]
está realizando exactamente el mismo conjunto de sustituciones recursivas que se emplearon en el
capítulo anterior para llegar a [1.1.7].
Es interesante reflexionar sobre la naturaleza del operador [2.2.3] a medida que t se hace grande.
Vimos en [2.2.5] que
∅ ∅ ∅ ⋯ ∅ ∅ ≅ .
Se dice que una secuencia = -∞) está limitada si existe un número finito ( ) tal que
| | .
Así, cuando (|Ø|< 1 y cuando estamos considerando aplicar un operador a una secuencia acotada,
podemos pensar en:
∅ ∅ ∅ ⋯ ∅
Como aproximando el inverso del operador (1 – ØL), con esta aproximación hecha arbitrariamente
exacta eligiendo j suficientemente grande:
∅ ∅ ∅ ∅ ⋯ ∅ . 2.2.8
→
∅ ∅ ,
Donde "1" denota el operador de identidad:
1 = .
30 Capítulo 2 І Operadores de retraso
El siguiente capítulo discute las secuencias estocásticas en lugar de las secuencias
determinísticas, aunque el significado práctico de [2.2.8] será poco cambiado.
Siempre que (Φ<1) y nos limitamos a secuencias acotadas o estocástico estacionario procesado,
ambos lados de [2.2.2] pueden ser "divididos" por 1 ΦL para obtener:
∅
O
∅ ∅ ∅ ⋯. 2.2.9
∅ ∅ ∅ ∅ ⋯, 2.2.10
Produce otra serie consistente con [2.2.1] para cualquier constante (a0). Para verificar que [2.2.10] es
consistente con [2.2.1], multiplique [2.2.10] por ( ∅ ):
∅ ∅ ∅ ∅ ∅
∅ ∅∙ ∅
,
De modo que [2.2.10] es consistente con [2.2.1] para cualquier constante (a0).
| ∅ | → ∞ → ∞.
Así, incluso si ( = -∞) es una secuencia acotada, la solución ( = -∞) dada por [2.2.10] es
ilimitada a menos que (a0=0) en [2.2.10]. Por lo tanto, hubo una razón particular para definir el
operador [2.2.8] como el inverso de ( ∅ ) - a saber, ∅ definido en [2.2.8] es el único
operador que satisface
∅ ∅
Que mapea una secuencia acotada ( = -∞) en una secuencia acotada ( = -∞).
∅ ∅ . [2.3.1]
∅ ∅ , [2.3.2]
2.3. Ecuaciones Diferenciales de Segundo Orden 31
El lado izquierdo de [2.3.2] contiene un polinomio de segundo orden en el operador de retardo L.
Supongamos que tenemos en cuenta este polinomio, es decir, números de aleta ( ) y ( ) tales que
∅ ∅ ̶ ̶ ̶ . [2.3.3]
Esta es sólo la operación en [2.1.5] a la inversa. Valores dados para (∅ ) y (∅ ), buscamos los
números ( ) y ( ) con las propiedades que:
∅ .
. . . . . [2.3.4]
Es muy fácil ver que estos valores de ( ) y ( ) funcionan para este ejemplo numérico, pero
¿cómo se encuentran ( ) y ( ) en general? La tarea es elegir ( ) y ( ) para asegurar que el
operador en el lado derecho de [2.3.3] es idéntico al del lado izquierdo. Esto es verdad cuando las
siguientes representan las funciones idénticas de z:
∅ ∅ . [2.3.5]
¿Cuál es el punto de hacerlo? Con [2.3.5], no podemos preguntar, ¿Para qué valores de z es el lado
derecho de [2.3.5] igual a cero? La respuesta es, si z = (λ1̶ 1) o z = (λ2̶ 1), entonces el lado derecho
[2.3.5] sería cero. No habría tenido sentido hacer una pregunta análoga de [2.3.3] - L denota un
operador particular, no un número, y L = (λ1̶ 1) no es una afirmación sensata.
¿Por qué deberíamos preocuparnos de que el lado derecho de [2.3.5] sea cero si z = (λ1̶ 1) o z = (λ2̶
1)? Recordemos que el objetivo era elegir (λ ) y (λ ) de modo que los dos lados de [2.3.5]
1 2
representaran el polinomio idéntico en z. Esto significa que para un valor particular z las dos
funciones deben producir el mismo número. Si encontramos un valor de z que establece el lado
derecho a cero, ese mismo valor de z debe establecer el lado izquierdo también. Pero los valores de
z que ponen el lado izquierdo a cero,
∅ ∅ , [2.3.6]
∅ ∅ ∅
[2.3.7]
∅
∅ ∅ ∅
[2.3.8]
∅
El ajuste z = ( ) o ( ) hace que el lado izquierdo de [2.3.5] sea cero, mientras que z = ( )o
( ) fija el lado derecho de [2.3.5] en cero. Así
[2.3.9]
[2.3.10]
32 Capítulo 2 І Operadores de retraso
. . .
.
.
. . .
.
.
Y así
/ . .
/ . . ,
Como se encontró en [2.3.4]
Cuando (ø12 + 4ø2 < 0), los valores ( ) y ( ) son conjugados complejos, y sus inversos (λ1) y (λ2)
se pueden encontrar escribiendo primero el número complejo en forma de coordenadas polares.
Específicamente, escriba
Como
.
Entonces
En realidad, existe un método más directo para calcular los valores de (λ1) y (λ2) de (∅ ) y (∅ ).
Divide ambos lados de [2.3.5] por ( ):
. [2.3.11]
≅ . [2.3.12]
∅ ∅ . [2.3.13]
De nuevo, [2.3.13] debe mantenerse para todos los valores de (λ) para que los dos lados de [2.3.5]
representen el mismo polinomio. Los valores de (λ) que establecen el lado derecho a cero son (
) y ( ). Estos mismos valores también deben poner el lado izquierdo de [2.3.13] a cero:
∅ ∅ . [2.3.14]
Por lo tanto, para calcular los valores de ( ) y ( ) que factor el polinomio en [2.3.3], podemos
encontrar las raíces de [2.3.14] directamente de la fórmula cuadrática:
∅ ∅ ∅
[2.3.15]
2.3 Ecuaciones Diferenciales de Segundo Orden 33
∅ ∅ ∅
[2.3.16]
. . .
.
. . .
.
Es instructivo comparar estos resultados con los del Capítulo 1. Allí se resumió la dinámica de la
ecuación de diferencias de segundo orden [2.3.1] calculando los valores propios de la matriz F dada
por
∅ ∅
, [2.3.17]
Los valores propios de F se consideraron los dos valores de (λ) que satisfacen la ecuación [1.2.13]:
∅ ∅
Pero este es el mismo cálculo que en [2.3.14]. Este hallazgo se resume en la siguiente proposición.
∅ ∅ [2.3.18]
Es el mismo cálculo que encontrar los valores propios de la matriz F en [2.3.17]. Los valores
propios ( ) y ( ) de F son los mismos que los parámetros ( ) y ( ) en [2.3.18], y están dados
por las ecuaciones [2.3.15] y [2.3.16].
∅ ∅ [2.3.19]
Dentro del círculo de la unidad. La posible confusión es que a menudo es conveniente trabajar
directamente con el polinomio en la forma en que aparece en [2.3.2],
∅ ∅ , [2.3.20]
Cuyas raíces, hemos visto, son los recíprocos de los de [2.3.19]. Así, podríamos decir con igual
exactitud que "la ecuación de diferencia [2.3.1] es estable siempre que las raíces de [2.3.19] estén
dentro del círculo unitario" o que "la ecuación de diferencias [2.3.1] sea estable cuando la Las raíces
de [2.3.20] están fuera del círculo unitario ". Las dos afirmaciones significan exactamente lo mismo.
Algunos estudiosos se refieren simplemente a "las raíces de la ecuación de diferencia [2.3.1]",
aunque esto plantea la posibilidad de confusión entre [2.3.19] y [2.3.20]. Este libro seguirá la
convención de usar el término "valores propios" para referirse a las raíces de [2.3.19]. Siempre que
se utilice el término "raíces", se indicará explícitamente la ecuación cuyas raíces se describen.
34 Capítulo 2 І Operadores de retraso
A partir de aquí en esta sección, se supone que la ecuación de diferencia de segundo orden es
estable, con los valores propios ( ) y ( ) distintos y ambos dentro del círculo unitario. En este
caso, las inversas
…
…
Están bien definidos para secuencias acotadas. Escribir [2.3.2] en la forma factorizada:
⁼
˭ ˙ [2.3.21]
.
[2.3.22]
Así, [2.3.21] puede escribirse como:
⋯
⋯
O
…, [2.3.23]
Donde
/ [2.3.24]
̶ / [2.3.25]
2.3 Ecuaciones Diferenciales de Segundo Orden 35
,
∅ ∅ ⋯ ∅ [2.4.1]
∅ ̶ ∅ ̶ ̶ ∅ . [2.4.3]
Esto es lo mismo que encontrar los valores de (λ1, λ2, ···, λƿ) tales que los siguientes polinomios son
los mismos para todo z:
∅ ∅ ⋯ ∅ .
̶ ƿ
Como en el sistema de segundo orden, multiplicamos ambos lados de esta ecuación por (z )y
definimos ():
∅ ∅ ∅ ∅
. [2.4.4]
Claramente, el ajuste (λ = λi) para 1, 2. …, o p hace que el lado derecho de [2.4.4] sea igual a cero.
Así, los valores (λ1, λ2, ···, λƿ) deben ser los números que ponen el lado izquierdo de la expresión
[2.4.4] a cero también:
λƿ ̶ ∅ ∅ ∅ ∅ = 0. [2.4.5]
Esta expresión es idéntica a la dada en la Proposición 1.1, que caracterizó los valores propios (λ1, λ2,
···, λƿ) de la matriz F definida en la ecuación [1.2.3]. Así, la Proposición 2.1 generaliza fácilmente.
∅ ̶ ∅ ̶ ̶ ∅ .
Es el mismo cálculo que encontrar los valores propios de la matriz F definida en [1.2.3]. Los valores propios ( λ1,
λ2, ···, λƿ ) de F son los mismos que los parámetros ( λ1, λ2, ···, λƿ ) en [2.4.3] y están dados por las soluciones a la
ecuación [2.4.5].
La ecuación de diferencia [2.4.1] es estable si los valores propios (las raíces de [2.4.5]) están dentro
del círculo unitario, o equivalentemente si las raíces de
∅ ∅ ⋯ ∅ [2.4.6]
36 Capítulo 2 І Operadores de retraso
Suponiendo que los valores propios están dentro del círculo unitario y que nos estamos limitando a
considerar secuencias acotadas, las inversas 1 , 1 , … , 1 existen,
permitiendo que la ecuación de diferencias.
1 1 1
1 1 1 . [2.4.7]
A condición además de que los valores propios (λ1, λ2, ···, λƿ) sean todos distintos, el polinomio
asociado con el operador en el lado derecho de [2.4.7] puede ampliarse de nuevo con fracciones
parciales:
1
1 1 1
⋯ 2.4.8
1 1 1
Siguiendo a Sargent (1987, pp. 192-93), los valores de (c1, c2, ···, cƿ) que hacen [2.4.8] verdaderos se
pueden encontrar multiplicando ambos lados por 1 1 1 :
1 1 1 … 1
1 1 … 1 ⋯
1 1 … 1
. 2.4.9
La ecuación [2.4.9] debe mantenerse para todos los valores de z. Puesto que se trata de un
polinomio de (p - 1) orden, si (c1, c2, ···, cƿ) son elegidos para que [2.4.9] se mantenga para p
valores distintos distintos de z, entonces [2.4.9] debe mantenerse para todo z. Para asegurar que
[2.4.9] se mantenga en ( ) se requiere que
1 1 1 1
˙
[2.4.10]
[2.4.11]
.
.
.
1 2 1
[2.4.12]
2.4 Ecuaciones Diferenciales de orden p 37
Nótese nuevamente que éstos son idénticos a la expresión [1.2.25] en el Capítulo 1. Recuerda de la
discusión allí que ⋯ 1.
⋯
1 1 1
1 ⋯ 1 ⋯ ⋯
1 ⋯
⋯ ⋯
⋯ ⋯
⋯ 2.4.13
Donde (C1,C2,…Cp) están dadas por las ecuaciones [2.4.10] a [2.4.12]. De nuevo, el multiplicador
dinámico se puede leer directamente [2.4.13]:
= [C1λi1+C2λi2+⋯+Cpλip], [2.4.14]
Hay una manera muy conveniente de calcular el efecto de w sobre el valor presente de y usando la
representación del operador de lag. Escribir [2.4.13] como
Dónde
Ѱi = [C1λi1+C2λi2+⋯+Cpλip]. [2.4.16]
∑ i i
[2.4.18]
=∑ Ѱi.
38 Capítulo 2 І Operadores de retraso
∑
Ѱ ѱ ѱ ѱ ѱ ⋯,
[2.4.19]
Ѱ (L) = [(1-λ1L)(1-λ2L)…(1-λpL)]-1 ,
Concluiríamos en que
Ѱ ( ) = [1 - Ø1 – Ø2 2 - …- Øp p)]-1. [2.4.20]
∑
Ø – Ø … Ø
, [2.4.21]
1
lim ⋯ .
→ Ø – Ø … Ø
P valores iniciales de y,
{Y0, Y1,…, Yt}Ciertamente hay sistemas donde la pregunta se plantea precisamente en esta forma.
Podemos conocer la ecuación de movimiento para el sistema [2.5.1] y su estado actual [2.5.2] y
deseamos caracterizar los valores que {Y0, Y1,…, Yt} podría asumir para diferentes especificaciones
de {W0, w1,…, wt}.
Sin embargo, hay muchos ejemplos en economía y finanzas en los que una teoría especifica sólo la
ecuación del movimiento [2.5.1] y una secuencia de las variables de conducción [2.5.3]. Claramente,
estas dos piezas de información por sí solas son insuficientes para determinar la secuencia {Y0,
Y1,…, Yt} y se necesita alguna teoría adicional más allá de la contenida en la ecuación de diferencia
0 39
[2.5.1] para describir completamente la dependencia de y en w. Estas restricciones adicionales
pueden ser de interés en su propio derecho y también ayudar a dar una idea de algunos de los
detalles técnicos de la manipulación de las ecuaciones de diferencia. Por estas razones, esta sección
analiza en profundidad un ejemplo del papel de las condiciones iniciales y sus implicaciones para
resolver ecuaciones de diferencias.
r t+1= (Pt+1-Pt)/Pt+Dt/Pt.
Un modelo muy simple de la bolsa postula que el inversionista de retorno gana en acciones en
constante a través de períodos de tiempo:
La ecuación [2.5.4] puede parecer demasiado simplista para ser de mucho interés práctico;
Asume entre otras cosas que los inversores tienen una previsión perfecta sobre los precios de las
acciones y los dividendos futuros. Sin embargo, un modelo ligeramente más realista en el que los
rendimientos esperados de las acciones son constantes implica un conjunto muy similar de
cuestiones técnicas. La ventaja del modelo de perfección perfecta es que puede ser discutido usando
las herramientas que ya están en la mano para obtener alguna información adicional sobre el uso de
operadores de retraso para resolver ecuaciones de diferencia.
r Pt = Pt+1-Pt +Dt
La ecuación [2.5.5] se reconocerá como una ecuación de diferencia de primer orden de la forma de
[1.1.1] con Yt =Pt+1,Ø= (1+r) y wt= - Dt. De [1.1.7], sabemos que [2.5.5] implica que
Si se dio la secuencia { D0 , D1 ,…, Dt } y el valor de P0, entonces [2.5.6] podría determinar los
valores de { P1, P2,… Pt+1}. Pero si sólo se dan los valores { D0 , D1 ,…, Dt }, entonces la ecuación
[2.5.6] no sería suficiente para fijar { P1, P2,… Pt+1}. Hay infinidad de secuencias posibles { P1, P2,…
Pt+1} consistentes con [2.5.5] y con un dado { D0 , D1 ,…, Dt }. Este número infinito de
posibilidades se indexa por el valor inicial P0.
Otra suposición simplificadora ayuda a aclarar la naturaleza de estos diferentes caminos para { P1,
P2,… Pt+1}. Supongamos que los dividendos son constantes en el tiempo:
+…+ (1+r)+1] D
= (1+r)
t+1P
0 – D [2.5.7]
40 Capítulo 2 І Operadores de retraso
= (1+r) [P0 –(D/r)]+(D/r)
t+1
Pt=D/r [2.5.8]
Para todo t. En esta solución, los dividendos son constantes en D y el precio de las acciones es
constante en D/r. Sin cambios en los precios de las acciones, los inversores nunca tienen ganancias
o pérdidas de capital, y su retorno es únicamente el rendimiento de dividendos D/P=r. En un
mundo sin cambios en los dividendos, esto parece ser una expresión sensata de la teoría
representada por [2.5.4]. La ecuación [2.5.8] se describe a veces como la solución de los
"fundamentos del mercado" a [2.5.4] para el caso de los dividendos constantes.
Sin embargo, incluso con dividendos constantes, la ecuación [2.5.8] no es el único resultado
consistente con [2.5.4]. Supongamos que el precio inicial excedió D/r:
P0 >D/r.
Los inversionistas parecen estar valorando las acciones más allá del potencial de su flujo constante
de dividendos. De [2.5.7] esto podría ser consistente con la teoría de precios de activos [2.5.4]
siempre que Pt supere D/r una cantidad aún mayor. Mientras todos los inversionistas crean que los
precios seguirán aumentando con el tiempo, cada uno ganará el retorno requerido r de la ganancia
de capital realizada y [2.5.4] será satisfecho. Este escenario ha recordado muchas economías de una
burbuja especulativa en los precios de las acciones.
Entonces la única secuencia para ∞ consistente con ambos [2.5.4] y [2.5.9] sería la
solución de los fundamentos del mercado [2.5.8].
Relajemos ahora la hipótesis de que los dividendos son constantes y lo reemplazamos con
el supuesto de que ∞ es una secuencia acotada. ¿Cuál es el camino para regresar a la
ecuación de diferencia [2.5.5.]. Llegamos a la forma [2.5.6] sustituyendo recursivamente esta
ecuación hacia atrás. Es decir, utilizamos el hecho de que [2.5.5] mantenido para las fechas t, t-1,t-
2,…,0 y recursivamente sustituido para llegar a [2.5.6] como una implicación lógica de [2.5.5]. La
ecuación [2.5.5] también podría ser resuelta recursivamente hacia delante. Para ello, la ecuación
[2.5.5] se escribe como
Pt= [Pt+1+Dt]. [2.5.10]
= .
2.5 Condiciones iniciales y secuencias sin consolidar 41
Pt+2= [Pt+3+Dt+2],
Y la sustitución en [2.5.12] da
.
Siguiendo con esta moda T períodos en el futuro produce
[2.5.13]
⋯ .
Si la secuencia ∞ debe satisfacer [2.5.9], entonces
lim 0.
→
lim ∑ 0.
→
Así, si ∞ debe ser una secuencia acotada, entonces podemos tomar el límite de [2.5.13]
como → ∞ para concluir
1
,
1
[2.5.14]
Que se conoce como la solución de los "fundamentos del mercado" de [2.5.5] para el caso general
de los dividendos que varían en el tiempo. Observe que [2.5.14] produce [2.5.8] como un caso
especial cuando para todo t.
Describir el valor de una variable en el tiempo t como una función de realizaciones futuras
de otra variable como en [2.5.14] puede parecer un artefacto de asumir un modelo de previsión
perfecta de los precios de las acciones. Sin embargo, un conjunto análogo de operaciones resulta ser
apropiado en un sistema similar [2.5.4] en el cual los retornos esperados son constantes. En tal
sistema [2.5.14] se generaliza a
1
,
1
Donde Et denota una expectativa de una cantidad futura desconocida basada en la información
disponible para los inversionistas en la fecha t.
⋯ ⋯
- (1+r)t-1D1- (1+r)t-2D2-…-(1+r)Dt-1-Dt
42 Capítulo 2 І Operadores de retraso
⋯.
Por lo tanto, establecer la condición inicial P0 para satisfacer [2.5.14] es suficiente para asegurar que
se cumple para todo t. La elección de P0 igual a cualquier otro valor haría que las consecuencias de
los dividendos de cada período se acumularan con el tiempo, de manera que pudiera llegar a una
violación de [2.5.9] eventualmente.
Es útil discutir estos mismos cálculos desde la perspectiva de los operadores de retraso. En
la Sección 2.2 la sustitución recursiva hacia atrás que llevó de [2.5.5] a [2.5.6] se representó
escribiendo [2.5.5] en términos de los operadores de retardo como
Si (1 + r) fuera menor que la unidad, sería natural considerar el límite de [2.5.16] como → ∞:
En el caso de la teoría de los rendimientos de las existencias discutidos aquí, sin embargo, r>0 y
este operador no está definido. En este caso, se puede buscar una representación de operador de
retardo para la sustitución recursiva que conduce de [2.5.5] a [2.5.13]. Esto se logra utilizando el
inverso del operador de retraso,
L-1 Wt=Wt+1,
Que extiende el resultado [2.1.4] a valores negativos de k. Tenga en cuenta que L-1 es, de hecho, la
inversa del operador L:
L-1(Lwt)=L-1wt-1=wt.
En general,
L-kLj=Lj-k,
L0 wt=wt .
x [-(1+r)-1L-1]
Para obtener
x [1-(1+r)-1L-1] Pt+1
2.5 Condiciones iniciales y secuencias sin consolidar 43
⋯ ,
x [1+(1+r)-1L-1+(1+r)-2 L-2+… ].
Aplicar este operador limitador a [2.5.15] equivale a resolver la ecuación de diferencia hacia delante
como en [2.5.14] y seleccionar la solución de los fundamentos del mercado entre el conjunto de
trayectorias de tiempo posibles para ∞ dada una trayectoria temporal específica para los
dividendos ∞.
El consejo de Sargent (1987) era resolver la ecuación "hacia atrás" cuando│<1 multiplicando por
Definir la inversa de [1- ØL] de esta manera equivale a seleccionar un operador [1- ØL]-1 con las
propiedades que
La conclusión de esta discusión es que al aplicar un operador como [1- ØL]-1, estamos
imponiendo implícitamente una suposición limitada que excluye a priori fenómenos como las
burbujas especulativas de la ecuación [2.5.7]. Donde esa es nuestra intención, tanto mejor, aunque
no deberíamos aplicar las reglas [2.5.19] o [2.5.20] sin alguna reflexión sobre su contenido
económico.
Capítulo 2 Referencias
Sargent, Thomas J. 1987. Macroeconomic Theory, 2ª ed. Boston: Academic Press
44 Capítulo 2 І Operadores de retraso
Whiteman, Charles H. 1983. Linear Rational Expectations Models: A User´s Guide. Minneapolis:
University of Minnesota Press.
2.5 Condiciones iniciales y secuencias sin consolidar 45
3
con
ε ~ 0, .
Esto se conoce como una muestra de tamaño T de un proceso de ruido blanco gaussiano.
. . . , γ , γ , γ , γ , … , γ , γ ,γ ,..
46 Capítulo 3 | Procesos Estacionarios ARMA
Imagine una batería de I tales computadoras generando secuencias y ∞, y
∞,…, y ∞ y considere seleccionar la observación asociada con la fecha t de cada
secuencia:
{ t (1), t ,…,
( 2)
t
(I) }.
Esto se describiría como una muestra de I realizaciones del variable aleatorio t. Esta variable
aleatoria tiene cierta densidad, denotada fyt( t), que se denomina densidad incondicional de t. Por
ejemplo, para el proceso de ruido blanco gaussiano esta densidad viene dada por
exp .
√
E Y ≡ . [3.1.3]
Podríamos ver esto como el límite de probabilidad del promedio del conjunto:
E Y p lim 1/ ∑ . [3.1.4]
→
Yt =μ+ εt [3.1.5]
Entonces su media es
Yt = t+ εt , [3.1.7]
La media es
E (Yt)= t. [3.1.8]
A veces para el énfasis la expectativa E (Yt) se llama la media incondicional de Yt. La media
incondicional es denotada μ t:
E (Yt)=μ t
Obsérvese que esta notación permite la posibilidad general de que la media pueda ser una función
de la fecha de la observación t. Para el proceso [3.1.7] que implica la tendencia temporal, la media
[3.1.8] es una función del tiempo, mientras que para el ruido blanco constante más Gaussiano, la
media [3.1.6] no es una función del tiempo.
. [3.1.9]
ε σ .
3.1 Expectativas, Estacionariedad y Ergodicidad 47
Autovarianza
Dada una realización particular como ∞ en un proceso de series temporales,
considere construir un vector asociado con la fecha t. Este vector consta de las observaciones
más recientes [j + 1] sobre y a partir de la fecha t para esa realización:
Xt(1)≡ .
⋮
γjt= … Yt μt Yt j μt j
ƒyt,yt-1,…,yt-j(yt,yt-1,…,yt-j)dytdyt-1…dyt-j [3.1.10]
=E(Yt-μt) (Yt-j-μt-j).
Obsérvese que [3.1.10] tiene la forma de una covarianza entre dos variables X e Y:
Cov(X,Y)=E(X-μx)(Y-μy).
Así [3.1.10] podría ser descrito como la covarianza de Yt con su propio valor retrasado; Por
lo tanto, el término "autovarianza". Observe más lejos de [3.1.10] que la autocovariancia 0 es sólo la
varianza de Yt, como anticipó la notación Y0t en [3.1.9].
Una vez más, puede ser útil pensar en la j-ésima autocovariancia como el límite de
probabilidad de un promedio de conjunto:
Estacionariedad
Si ni la media μ ni las autocovarianzas Yjt dependen de la fecha t, entonces se dice que el
proceso para Yt es covarianza-estacionario o débilmente estacionario:
48 Capítulo 3 | Procesos Estacionarios ARMA
E(Yt)=μ
E(Yt- μ) (Yt-j- μ)=
0
Por el contrario, el proceso de [3.1.7] no es covarianza-estacionario, porque su media, Bt, es una
función del tiempo.
Pero refiriéndose de nuevo a la definición [3.1.12], esta última expresión es sólo la definición de γ-j.
Así, para cualquier proceso de covarianza-estacionario,
En este texto el término "estacionario" por sí mismo se toma para significar "covarianza-
estacionario".
ƒyt.yt+j1,…,yt+jn(yt,yt+j1,…,yt+jn)
Es Gaussiano para cualquier j1,j2,…,jn. Dado que la media y la varianza son todo lo que se necesita
para parametrizar una distribución Gaussiana multivariable completamente un proceso Gaussiano
estacionario de covarianza es estrictamente estacionario.
Ergodicidad
Hemos visto las expectativas de una serie de tiempo en términos de promedios de conjunto
como [3.1.4] y [3.1.11]. Estas definiciones pueden parecer un poco artificiales, ya que por lo general
todo lo que uno tiene disponible es una realización única del tamaño T del proceso, que antes
denotamos { , ,…, }. A partir de estas observaciones se calcula la media muestral ȳ.
Esto, por supuesto, no es un promedio de conjunto, sino un promedio de tiempo:
ȳ 1/ .
[3.1.14]
3.1 Expectativas, Estacionariedad y Ergodicidad 49
Si los promedios de tiempo como [3.1.14] eventualmente convergen al concepto de conjunto E(Yt)
para un proceso estacionario tiene que ver con la ergodicidad. Se dice que un proceso covarianza-
estacionario es ergódico para la media si [3.1.14] converge en probabilidad a E(Yt) como → ∞.
Un proceso será ergódico para la media siempre que la autocovariancia vaya a cero lo
suficientemente rápido como j se hace grande. En el capítulo 7 veremos que si la autocovariancia
para un proceso de covarianza-estacionario satisface
[3.1.15]
Entonces { } es ergódico para la media.
Del mismo modo, se dice que un proceso de covarianza-estacionario es ergódico para los segundos
momentos si
Para todos j. Las condiciones suficientes para la ergodicidad de segundo momento se presentarán
en el capítulo 7. En el caso especial donde { } es un proceso estacionario Gaussiano, la condición
[3.1.15] es suficiente para asegurar la ergodicidad para todos los momentos.
Para muchas aplicaciones, la estabilidad y la ergodicidad resultan ser las mismas. Sin
embargo, con el propósito de aclarar los conceptos de estacionario y ergodicidad, puede ser útil
considerar un ejemplo de un proceso que es estacionario pero no ergódico. Supongamos que la
media μ(i) para la i-ésima realización ∞ se genera a partir de una distribución N(0, )
digamos
Aquí {εt} es un proceso de ruido blanco gaussiano con media cero y varianza que es
independiente de μ(i). Darse cuenta de
También,
E(εt) = 0 [3.2.1]
50 Capítulo 3 | Procesos Estacionarios ARMA
E(ε2t) = σ2, [3.2.2]
Un proceso que satisface [3.2.1] a [3.2.3] se describe como un proceso de ruido blanco.
En ocasiones queremos reemplazar [3.2.3] por la condición ligeramente más fuerte de que los ’s
son independientes a través del tiempo:
ε t , εT [3.2.4]
Obsérvese que [3.2.4] implica [3.2.3] pero [3.2.3] no implica [3.2.4]. Un proceso que satisface [3.2.1]
a [3.2.4] se denomina proceso de ruido blanco independiente.
Donde μ y θ podrían ser constantes. Esta serie temporal se denomina proceso de media móvil de
primer orden, denominado MA (1). El término "promedio móvil" proviene del hecho de que Yt se
construye a partir de una suma ponderada, similar a una media, de los dos valores más recientes de
ε.
Utilizamos el símbolo para el término constante en [3.3.1] en previsión del resultado que este
término constante resulta ser la media del proceso.
La varianza de Yt es
2 ² [3.3.3]
1 .
La primera autocovariancia es
3.3 Procesos de Media Móvil 51
0 0 0. [3.3.4]
0 1. [3.3.5]
Dado que la media y las autocovarianzas no son funciones del tiempo, un proceso MA (1) es
covarianza-estacionario independientemente del valor de . Además, [3.1.15] está claramente
satisfecho:
1 .
Así, si es ruido blanco gaussiano, entonces el proceso MA (1) [3.3.1] es ergódico para todos los
momentos.
≡ [3.3.6]
Una vez más, la terminología surge del hecho de que es la correlación entre y :
,
,
A partir de [3.3.3] y [3.3.4], la primera autocorrelación para un proceso MA (1) está dada
por
²
[3.3.7]
²
La autocorrelación se puede trazar como una función de como en la figura 3.1. El panel (a)
muestra la función de autocorrelación para el ruido blanco, mientras que el panel (b) da la función
de autocorrelación para el proceso MA (1):
0.8
52 Capítulo 3 | Procesos Estacionarios ARMA
1/ . 1/
1 1 ² 1 1/ 1
0.5
2
Tendría la misma función de autocorrelación:
2 0.5
0.4.
1 2 1 0.5
Tendremos más que decir acerca de la relación entre dos procesos MA (1) que comparten la misma
función de autocorrelación en la Sección 3.7.
3.3 Procesos de Media Móvil 53
El Proceso de Media Móvil de Orden “q-nésima”
Donde el proceso de media móvil denotado MA(q), se caracteriza por:
⋯ ,
[3.3.8]
Satisface [3.2.1] a [3.2.3] y , ,…, podría ser cualquier número real. La media de [3.3.8] es
nuevamente dada por :
. . ⋯ .
. . . [3.3.9]
FIGURA 3.2 La primera autocorrelación para un proceso MA (1) es posible para diferentes
valores de .
⋯ 1 ⋯ . [3.3.10]
..
⋯
⋯ . [3.3.11]
Los términos que implican ′ en diferentes fechas han sido eliminados porque su producto tiene
una expectativa cero, y se define como unidad. Para j> q, no hay con fechas comunes en la
definición de y así la expectativa es cero.
Así,
⋯ . 1,2, … ,
[3.3.12]
0
1 Ver la ecuación [A.5.18] en el Apéndice A al final del libro.
54 Capítulo 3 | Procesos Estacionarios ARMA
Por ejemplo, para un proceso MA (2)
1 .
⋯ 0
Para cualquier valor de , ,…, , el proceso MA (q) es, por tanto, covarianza-
estacionario. Condición [3.1.15] se satisface, por lo que para gaussiana el proceso MA (q) es
también ergódico para todos los momentos. La función de autocorrelación es cero después de
retrasos q, como en el panel (c) de la figura 3.1.
∑ ⋯ [3.3.13]
Esto podría ser descrito como un proceso MA∞. Para preservar la flexibilidad de la notación
posteriormente, usaremos para los coeficientes de un proceso de media móvil de orden infinito y
′ para los coeficientes de un proceso de media móvil de orden finito.
El Apéndice 3.A de este capítulo muestra que la secuencia infinita en [3.3.13] genera un proceso
estacionario de covarianza bien definido, siempre que
∝
∝.
[3.3.14]
A menudo es conveniente trabajar con una condición ligeramente más fuerte que [3.3.14]:
∞.
[3.3.15]
Se dice que una secuencia de números 0 que satisface [3.3.14] es sumatoria
cuadrada, mientras que una secuencia que satisface [3.3.15] se dice que es absolutamente sumatoria.
La sumabilidad absoluta implica la suma cuadrada, pero la inversa no se sostiene. Hay ejemplos de
secuencias cuadradas-sumábles que no son absolutamente sumables (véase también el Apéndice
3.A).
3.3 Procesos de Media Móvil 55
La media y las autocovariancias de un proceso MA ∞ con coeficientes absolutamente
sumables se pueden calcular a partir de una simple extrapolación de los resultados para el proceso
MA (q):2
lim ⋯ [3.3.16]
→
lim ⋯ ² lim ⋯ . ²
→ →
[3.3.17]
⋯ .
[3.3.18]
∝.
[3.3.19]
Por lo tanto, un proceso MA ∞ que satisface [3.3.15] es ergódico para la media (véase el Apéndice
3.A). Si el ′ es Gaussiano, entonces el proceso es ergódico para todos los momentos
. [3.4.1]
De nuevo, { }es una secuencia de ruido blanco que satisface [3.2.1] a [3.2.3]. Observe que [3.4.1]
toma la forma de la ecuación de diferencia de primer orden [1.1.1] o [2.2.1] en la que la variable de
entrada está dada por . Sabemos por el análisis de las ecuaciones de diferencias de
2 Sumabilidad absoluta y existencia del segundo momento son condiciones suficientes para permitir intercambiar el orden
de integración y suma. Específicamente, si es una secuencia de variables aleatorias tales que
∞,
Entonces
56 Capítulo 3 | Procesos Estacionarios ARMA
primer orden que if 1, las consecuencias de ′ para Y se acumulan en lugar de morir a lo
largo del tiempo. Por lo tanto, no es sorprendente que cuando no existe un proceso de
covarianza-estacionario para Y con una varianza finita que satisface [3.4.1]. En el caso en que
1, existe un proceso de covarianza-estacionario para Y que satisface [3.4.1]. Se da por la
solución estable a [3.4.1] caracterizada por [2.2.9:]
. . . ⋯
/ 1 ⋯. [3.4.2]
Esto puede ser visto como un proceso MA ∞ como en [3.3.13] con dado por Cuando
1, se satisface la condición [3.3.15]:
∝ ∝
/ 1 0 0 ⋯,
De manera que la media de un proceso estacionario AR (1) es
/ 1 . [3.4.3]
La varianza es
⋯ [3.4.4]
1 ⋯
^2/ 1 ^2 .
⋯ ⋯ [3.4.5]
⋯ .
1 ⋯ .
/ ^
.
3.4 Procesos Autorregresivos 57
/ , [3.4.6]
Los momentos para un AR estacionario (1) se obtuvieron arriba al verlo como un proceso MA ∞ .
Una segunda forma de llegar a los mismos resultados es asumir que el proceso es covarianza-
estacionario y calcular los momentos directamente a partir de la ecuación de diferencia [3.4.1].
Tomando las expectativas de ambos lados de [3.4.1],
. . [3.4.7]
. [3.4.8]
0
o
/ 1 ,
Observe que la fórmula [3.4.9] claramente no está generando una declaración sensata si
| | 1. Por ejemplo, si c>0 y 1, entonces Y en [3.4.1] es igual a una constante positiva más
un número positivo multiplicado por su valor retrasado más una variable aleatoria de media-cero.
Sin embargo, [3.4.9] parece afirmar que Y sería negativo en promedio para tal proceso! La razón de
que la fórmula [3.4.9] no es válida cuando | |≥1 es lo que asumimos en [3.4.8] que Y es
covarianza-estacionaria, suposición que no es correcta cuando | |≥1.
Para encontrar los segundos momentos de Y de una manera análoga, utilice [3.4.3] para
reescribir [3.4.1.] Como
1
o
. [3.4.10]
58 Capítulo 3 | Procesos Estacionarios ARMA
2 . [3.4.11]
(b) ∅ = 0.5
(c) ∅= 0.9
FIGURA 3.3 Realizaciones de un proceso AR (1), para valores alternativos de
.
3.4 Procesos Autorregresivos 59
⋯,
Pero no está correlacionada con , , … así que no debe estar correlacionada con
. Así, el término medio en el lado derecho de [3.4.11] es cero:
0 [3.4.12]
. [3.4.13]
0 ²
/ 1 ,
Reproduciendo [3.4.4].
Del mismo modo, podríamos multiplicar [3.4.10] por y tomar las expectativas:
. . [3.4.14]
Pero el término será una función lineal de , , .., que, para j> 0, no se
correlacionará con . Por lo tanto, para j> 0, el último término en el lado derecho en [3.4.14] es
cero. Obsérvese, además, que la expresión que aparece en el primer término en el lado derecho de
[3.4.14],
μ ,
[3.4.15]
Que reproduce [3.4.6]. Ahora vemos por qué la función de impulso-respuesta y la función
de autocorrelación para un proceso AR (1) coinciden - ambas representan la solución a una
ecuación de diferencia de primer orden con un parámetro autorregresivo , un valor inicial de
unidad y ningún choque subsiguiente.
60 Capítulo 3 | Procesos Estacionarios ARMA
El Proceso Autorregresivo de Segundo Orden
Una autorregresión de segundo orden, denotada AR (2), satisface
, [3.4.16]
1 . [3.4.17]
1 0 [3.4.18]
Fuera del círculo de la unidad. Cuando esta condición se cumple, el proceso AR (2) resulta ser
covarianza-estacionario, y el inverso del operador autorregresivo en [3.4.17] está dado por
1 ¯ ⋯. [3.4.19]
. [3.4.20]
/ 1 [3.4.21]
y
∝
∝;
[3.4.22]
Se invita al lector a probar estas afirmaciones en los ejercicios 3.4 y 3.5. Puesto que [3.4.20] es un
proceso absolutamente sumable MA∞, su media está dada por el término constante:
/ 1 [3.4.23]
,
Implicando
0,
Reproduciendo [3.4.23].
3.4 Procesos Autorregresivos 61
o
. [3.4.24]
1,2, … .. [3.4.25]
Por lo tanto, la autocovariancia sigue la misma ecuación de diferencia de segundo orden que el
proceso para con la ecuación de diferencia para indexada por el retardo j. Las autocovariancias
para el mismo se comportan igual que las soluciones a la ecuación de diferencia de segundo orden
analizada en la Sección 1.2. Un proceso AR (2) si covariancia-estacionario siempre que y se
encuentren dentro de la región triangular de la Figura 1.5.
Cuando y se encuentran dentro de la región triangular pero por encima de la parábola en esa
figura, la función de autocovariancia es la suma de dos funciones exponenciales decrecientes de j.
Cuando y caen dentro de la región triangular pero debajo de la parábola, es una función
sinusoidal amortiguada.
1,2, … .. [3.4.26]
/ 1 . [3.4.27]
Para j = 2
. [3.4.28]
. .
,
La ecuación [3.4.29] puede escribirse
. [3.4.29]
.0 .0 .
o
. [3.4.30]
62 Capítulo 3 | Procesos Estacionarios ARMA
El Proceso Autoregresivo de Orden P
Una autorregresión de orden P, denotada AR (p), satisface
⋯ . [3.4.31]
1 ⋯ 0 [3.4.32]
Todos se encuentran fuera del círculo unitario, es fácil verificar que la representación estacionaria
covarianza de la forma
[3.4.33]
Existe donde
1 ⋯ ¯¹
⋯ ,
/ 1 ⋯ . [3.4.34]
⋯
. [3.4.35]
Las autocovariancias se encuentran multiplicando ambos lados de [3.4.35] por y
tomando las expectativas:
⋯ 1,2, . .
⋯ 0,
[3.4.36]
Usando el hecho de que , el sistema de ecuaciones en [3.4.36] para j = 0, 1, ..., p puede ser
resuelto para , , … como funciones de , , , … , . Se puede demostrar que el vector
1 , ,… está dado por los primeros p elementos de la primera columna de la
matriz ¯¹ donde F es la matriz (pxp) definida en la ecuación [1.2.3] Y x indica el
producto Kronecker.
⋯ [3.4.37]
⋯ , [3.4.38]
⋯ 0
3.4 Procesos Autorregresivos 63
3.5. Procesos Mixtos de Media Móvil Autorregresiva
Un proceso de ARMA (p, q) incluye términos de media autorregresiva y móvil:
⋯ [3.5.1]
⋯ ,
1 ⋯
1 ⋯ . [3.5.2]
1 ⋯ 0 [3.5.3]
donde
1 ⋯
1 ⋯
∝
/ 1 ⋯
⋯ . [3.5.4]
⋯ [3.5.5]
Tenga en cuenta que [3.5.5] no se mantiene para for j≤q, debido a la correlación entre
y . Por lo tanto, un proceso ARMA (p, q) tendrá autocovariancias más complicadas para
64 Capítulo 3 | Procesos Estacionarios ARMA
los retornos 1 a q que el correspondiente proceso AR (p). Para j>q con raíces autorregresivas
distintas, las autocovariancias serán dadas por
⋯ [3.5.6]
Esto toma la misma forma que las autocovariancias para un proceso AR (p) [3.4.38], aunque debido
a que las condiciones iniciales , , … , difieren para los procesos ARMA y AR, los parámetros
en [3.5.6] no Ser los mismos que los parámetros en [3.4.38].
Existe la posibilidad de una parametrización redundante con procesos ARMA. Considere, por
ejemplo, un simple proceso de ruido blanco,
. [3.5.7]
1 1 , [3.5.8]
Claramente, si [3.5.7] es una representación válida, entonces también es [3.5.8] para cualquier valor
de p. Así, [3.5.8] podría ser descrito como un ARMA (1, 1) proceso, con y . Es
importante evitar esta parametrización. Puesto que cualquier valor de p en [3.5.8] describe los datos
igualmente bien, obviamente nos meteremos en problemas tratando de estimar el parámetro p en
[3.5.8] por máxima verosimilitud. Además, las manipulaciones teóricas basadas en una
representación tal como [3.5.8] pueden pasar por alto cancelaciones clave. Si estamos usando un
modelo ARMA (1, 1) en el que está cerca de - entonces los datos podrían ser mejor
modelados como simple ruido.
Una sobreparametrización relacionada puede surgir con un modelo ARMA (p, q). Consideremos el
factoraje de los operadores polinomiales de lag en [3.5.2] como en [2.4.3]
1 1 … 1
1 1 … 1 . [3.5.9]
1 1
1 ⋯
1 ⋯ , [3.5.10]
donde
1 ⋯
1 1 … 1 1 … 1
1 ⋯
3.5 Procesos Mixtos de Media Móvil Autorregresiva 65
1 1 … 1 1 … 1 .
El proceso estacionario ARMA (p, q) que satisface [3.5.2] es claramente idéntico al proceso
estacionario ARMA (p - 1, q - 1) que satisface [3.5.10].
[3.6.1]
Esta función se construye tomando la autovarianza j-ésima y multiplicándola por un número z
elevado a la potencia j, y luego sumando sobre todos los valores posibles de j. El argumento de esta
función (z) se toma como un escalar complejo.
cos sin
Donde √ 1 y w es el ángulo radiano que z hace con el eje real. Si la función de generación de
autocovariancia se evalúa en y se divide por 2 , la función resultante de ,
1 1
,
2 2
1 . 1 .
1 1 [3.6.2]
1 ⋯ ,
1 ... [3.6.3]
1 ... .
66 Capítulo 3 | Procesos Estacionarios ARMA
Esta conjetura puede ser verificada realizando la multiplicación en [3.6.3] y recopilando términos
por potencias de z:
1 ... 1 ...
... . . . [3.6.4]
1 ...
. . . ... .
La comparación de [3.6.4] con [3.3.10] o [3.3.12] confirma que el coeficiente de en [3.6.3] es, en
efecto, el j-ésimo autocovarianza.
[3.6.5]
con
. .. [3.6.6]
∞,
[3.6.7]
Entonces
[3.6.8]
1 ∅ ,
[3.6.9]
∅ ∅
1 ∅ ∅ ∅ ...
1 ∅ 1 ∅
(1 ∅ ∅ ∅ . . . ,
∅ ∅ ∅ ∅ ∅ . . . ∅ / 1 ∅ .
3.6 La función de generación de autocovarianza 67
De hecho, esto produce la autocovariancia j-ésimo, tal como se calculó anteriormente en la
ecuación [3.4.5].
. . . . . .
∅ ∅ . . . ∅ ∅ ∅ . . . ∅
[3.6.10]
Filtros
A veces los datos son filtrados, o tratados de una manera particular antes de ser analizados,
y nos gustaría resumir los efectos de este tratamiento en las autocovariancias. Este cálculo es
particularmente sencillo utilizando la función de generación de autocovariancia. Por ejemplo,
supongamos que los datos originales se generaron a partir de un proceso MA (1)
1 , [3.6.11]
Con función generadora de autocovariancia dada por [3.6.2]. Digamos que los datos como
realmente analizados, , representan el cambio en sobre su valor del período anterior:
1 . [3.6.12]
Sustituyendo [3.6.11] en [3.6.12], los datos observados se pueden caracterizar como el siguiente
proceso MA (2)
1 1 1 1 1 , [3.6.13]
1 1 . [3.6.14]
1 1 1 ,
En cuyo caso [3.6.14] podría escribirse
1 1 1 1
1 1 . . [3.6.15]
Por supuesto, [3.6.14] y [3.6.15] representan la función idéntica de z, y la forma en que elegimos
escribirla es simplemente una cuestión de conveniencia. La aplicación del filtro (1 - L) a da como
resultado la multiplicación de su función de generación de autocovariancia por (1 - z) 1 .
Este principio fácilmente generaliza. Supongamos que la serie de datos originales satisface
[3.6.5] a [3.6.7]. Digamos que los datos se filtran según
[3.6.16]
Con
68 Capítulo 3 | Procesos Estacionarios ARMA
∞.
Donde ∗ ≡ 1 y ∗
≡ . La secuencia de coeficientes asociados con el operador
∗
compuesto resulta ser absolutamente sumatoria, and La función de generación de
autocovariancia de puede ser calculada como
∗ ∗
. 3.6.17
Aplicando el filtro h (L) a una serie esto resulta en multiplicar su función de generación de
autocovariancia por .
3.7. Invertibilidad
1 , [3.7.1]
Con
0
Siempre que | | 1, ambos lados de [3.7.1] se puedan multiplicar por 1 para obtener 3
Que podría ser visto como una representación AR ∞ . Si una representación de media
móvil tal como [3.7.1] puede ser reescrita como una representación AR ∞ . tal como [3.7.2]
simplemente invirtiendo el operador de media móvil 1 , entonces la representación del
promedio móvil se dice que es invertible. Para un proceso MA (1), la Invertibilidad requiere | |
1; si | | 1, entonces la secuencia infinita en [3.7.2] no estaría bien definida.
Vamos a investigar lo que significa invertibilidad en términos del primer y segundo momentos del
proceso. Recordemos que el proceso MA (1) [3.7.1] tiene una función media y generadora de
autocovariancia
1 1 . [3.7.3]
1 ̅ , [3.7.4]
3 Nota de [2.2.8]
0 69
Con
0
Tenga en cuenta que tiene la misma media que . Su función de autocovariancia es
1 ̅ 1 ̅
̅ 1 ̅ ̅ 1 ̅ [3.7.5]
1 ̅ 1 ̅
Supongamos que los parámetros de [3.7.4], ̅, , están relacionados con los de [3.7.1] mediante
las siguientes ecuaciones:
̅ [3.7.6]
̅ [3.7.7]
Entonces las funciones generadoras de autocovariancia [3.7.3] y [3.7.5] serían las mismas, lo que
significa que y tendrían idénticos momentos primero y segundo.
⋯, [3.7.8]
Además, la secuencia así generada es ruido blanco. La forma más sencilla de verificar esto es
calcular la función generadora de autocovariancia de y confirmar que el coeficiente de (la j-
ésima autocovariancia) es igual a cero para cualquier 0. De [3.7.8] y [3.6.17], la función de
generación de autocovariancia para viene dada por
1 1 . [3.79]
1 1 ̅ 1 ̅ 1 ̅ [3.7.10]
70 Capítulo 3 | Procesos Estacionarios ARMA
̅ ,
Donde la última igualdad se deriva del hecho de que ̅ . Dado que la función generadora de
autocovarianza es una constante, se deduce que es un proceso de ruido blanco con
varianza ̅ .
La proposición inversa es también verdadera - supongamos que los datos fueron realmente
generados a partir de [3.7.1] con | | 1, una representación invertible. Entonces existe una
representación no inversa con ̅ 1⁄ que describe estos datos con igual validez. Para caracterizar
esta representación no reversible, considere el operador propuesto en [2.5.20] como la inversa
apropiada de 1 ̅ :
1 ̅ ̅ ̅ ⋯
1 ⋯ .
̅ ≡ ⋯, [3.7.11]
Observando que esta serie converge para | | 1. Otra vez esta serie es ruido blanco:
1 ⋯
1 ⋯ 1 1
1 ̅ ̅
De modo que hemos encontrado una no reversible MA (1) representación de los datos que fueron
realmente generados por la inversible MA (1) representación [3.7.1].
3.7 Invertibilidad 71
Invertibilidad para el proceso MA (q)
Consideremos ahora el proceso MA (q)
1 ⋯ [3.7.12]
0
Siempre que las raíces de
1 ⋯ 0 [3.7.13]
Fuera del círculo unitario, [3.7.12] se puede escribir como un ∞ simplemente invirtiendo el
operador MA,
1 ⋯ ,
Donde
1 ⋯ 1 ⋯
1 ⋯ 1 1 ⋯ 1 . [3.7.14]
Si | | 1 para todos , entonces las raíces de [3.7.13] están todas fuera del círculo unitario y la
representación [3.7.12] es invertible. Si en cambio algunos de los están fuera (pero no en) el
círculo unitario, Hansen y Sargent (1981, p.102) sugirieron el siguiente procedimiento para
encontrar una representación invertible. La función de autocovariancia de puede escribirse
. 1 1 ⋯ 1 [3.7.15]
1 1 ⋯ 1
Ordene el de modo que , ,⋯, esté dentro del círculo de unidad y , ,⋯,
esté fuera del círculo de unidad. Supongamos que en [3.7.15] es reemplazado por
. . ⋯ ; Ya que el complejo aparece como pares conjugados, este es un número
real positivo. Supongamos además que , ,⋯, son reemplazados por sus inversos,
. ⋯ . La función resultante sería
. . ⋯ 1 1
1 1
1 1
72 Capítulo 3 | Procesos Estacionarios ARMA
1 1
1 1
1 1
1 1
∏ 1 ̅, [3.7.16]
Donde
| | 1 1,2, . . . ,
| | 1 1, 2, … ,
0
Entonces la representación invertible es dada por
∏ 1 ∏ 1 , [3.7.17]
Donde
⋯
0
Entonces [3.7.16] y [3.7.17] tienen la misma función de autocovariancia-generación, aunque sólo
[3.7.17] satisface la condición de invertibilidad.
De la estructura del argumento precedente, está claro que hay una serie de representaciones
alternativas de MA (q) de los datos asociadas a todos los posibles "flips" entre y . Sólo uno
de estos tiene todos los en o dentro del círculo de la unidad. Las innovaciones asociadas con
esta representación se dice que son las innovaciones fundamentales para .
3.7 Invertibilidad 73
APÉNDICE 3.A. Convergencia de Resultados para Procesos
de media móvil de orden infinito
Este apéndice demuestra las declaraciones hechas en el texto sobre la convergencia para el proceso
∞ [3.3.13].
A continuación mostramos que la soma cuadrada no implica una summabilidad absoluta. Para un
ejemplo de una serie que es cuadrada-sumatoria pero no absolutamente sumable, considere
1⁄ para j=1,2,…. Observe que1⁄ 1⁄ para todos , lo que significa que
1⁄ 1⁄
Y así
1⁄ 1⁄
Y así
1/ 1 1⁄ 1 1 2 1⁄ ,
1
74 Capítulo 3 | Procesos Estacionarios ARMA
.
En palabras, una vez que hemos sumado N términos, calcular la suma a un número M más grande
no cambia el total por más de un número arbitrariamente pequeño .
∑ ∑ [3.A.1]
En palabras una vez que se han sumado N términos, la diferencia entre esa suma y la
obtenida de la suma a M es una variable aleatoria cuya media y varianza son arbitrariamente
cercanas a cero.
⋯ . [3.A.2]
Pero si ∑ converge según lo requerido por [3.3.14] entonces por el criterio de Cauchy el
lado derecho de [3.A.2] puede hacerse tan pequeño como se desee mediante la elección de un N
adecuadamente grande. Así, la serie infinita en [3.3.13] converge en cuadrado medio siempre que
[3.3.14] se cumpla.
Entonces
| | | | | | | |
.
Por tanto
APÉNDICE 3.A. Convergencia de Resultados para Procesos de media móvil de orden infinito 75
.| | | | .
| |. ∞
Capítulo 3 Ejercicios
3.1 ¿Es el siguiente MA (2) proceso de covarianza-estacionario?
1 2.4 0.8
1
0
Si es así, calcule sus autocovariancias.
1 1.1 0.18
1
0
Si es así, calcule sus autocovariancias.
1 ∅ ∅ ⋯∅ ,
Con
1⁄ 1 ∅ ∅ ⋯∅
1 ∅ ∅ ⋯∅ ⋯ 1.
Para que esta ecuación sea verdadera, el coeficiente implícito en ° debe ser unidad y los
coeficientes en , , , … deben ser cero. Anote estas condiciones de forma explícita y muestre
que implica un algoritmo recursivo para generar los pesos ∞ , , … Muestre que esta
recursividad es algebraicamente equivalente a establecer igual al (1, 1) elemento de la matriz F
elevado a El j-ésimo poder como en la ecuación [1.2.28].
76 Capítulo 3 | Procesos Estacionarios ARMA
3.6. Sugerir un algoritmo recursivo para calcular los pesos ∞ ,
1 ⋯
Asociado a un proceso inversible MA(q),
1 ⋯ .
Dar una expresión de forma cerrada para como una función de las raíces de
1 ⋯ 0,
3.7. Repita el ejercicio 3.6 para un proceso no reversible MA (q). (SUGERENCIA: Recuerde la
ecuación [3.7.17].)
Capítulo 3 Referencias
Anderson, Brian D. O., y John B. Moore. 1979. Optimal Filtering. Englewood Cliffs.
N.J.: Pretince-Hall.
Hannan, E. J. 1970. Multiple Time Series. New York: Wiley
Hansen, Lars P., y Thomas J. Sargent. 1981. “Formulating and Estimating Dynamic Linear
Rational Expectations Models”. In Robert E. Lucas, Jr. and Thomas J. Sargent, eds.,
Rational Expectations and Econometric Practice, Vol I. Minneapolis: University of Minnesota
Press.
Capítulo 3 Referencias 77
4
Previsión
Este capítulo discute cómo pronosticar series temporales. La sección 4.1 revisa la teoría de la
predicción e introduce la idea de una proyección lineal, que es un pronóstico formado a partir de
una función lineal de observaciones rápidas. La sección 4.2 describe el pronóstico que se utilizaría
para los modelos ARMA si se dispone de un número infinito de observaciones pasadas. Estos
resultados son útiles en las manipulaciones teóricas y en la comprensión de las fórmulas de la
Sección 4.3 para una predicción óptima aproximada cuando sólo un número finito de
observaciones están disponibles.
La sección 4.4 describe cómo lograr una factorización triangular y la factorización de Cholesky de
una matriz de varianza-covarianza. Estos resultados se usan en esa sección para calcular el
pronóstico óptimo exacto basado en un número finito de observaciones. También se utilizarán en
el Capítulo 11 para interpretar las autorregresiones vectoriales, en el Capítulo 13 para derivar el
filtro de Kalman, y en una serie de otros cálculos teóricos y métodos numéricos que aparecen a lo
largo del texto. La factorización triangular se utiliza para derivar una fórmula para actualizar un
pronóstico en la Sección 4.5 y establecer en la Sección 4.6 que para los procesos gaussianos la
proyección lineal es mejor que cualquier pronóstico no lineal.
La sección 4.7 analiza qué tipo de proceso resulta cuando se agregan dos procesos ARMA
diferentes. La sección 4.8 indica la descomposición de Wold, que proporciona una base para usar
una representación MA () para caracterizar la regla de pronóstico lineal para cualquier proceso
covarianza-estacionario. La sección también describe un enfoque empírico popular para encontrar
una aproximación razonable a esta representación que fue desarrollada por Box y Jenkins (1976).
Sea Y*t+1|t una predicción de Yt + 1 basada en Xt. Para evaluar la utilidad de esta previsión,
necesitamos especificar una función de pérdida, o un resumen de cómo estamos preocupados si
nuestro pronóstico está desactivado por una cantidad determinada. Se obtienen resultados muy
convenientes si se asume una función de pérdida cuadrática. Una función de pérdida cuadrática
significa elegir el pronóstico Y*t+1|t para minimizar.
La expresión [4.1.1.] Se conoce como el error cuadrático medio asociado con el pronóstico Y*t+1|t
denotado.
78 Capítulo 4 | Previsión
El pronóstico con el error cuadrático medio más pequeño resulta ser la expectativa de Yt + 1
condicional en Xt;
Y*t+1|t=E(Yt+1|Xt) [4.1.2.]
Para verificar esta afirmación, considere basar Y*t+1|t en cualquier función g (Xt) que no sea la
expectativa condicional.
Y*t+1|t=g(Xt) [4.1.3.]
2E [nt+1] [4.1.5.]
Donde
Considere primero la expectativa de nt+1 condicional a Xt. Condicionados a Xt, los términos E (Yt +
1|Xt) y g (Xt) son constantes conocidas y pueden ser factorizados de esta expectativa:1
=0
Por una aplicación directa de la ley de expectativas repetidas, la ecuación [A.5.10], se sigue que
E [Yt + 1 – g (Xt)]2 = E [Yt + 1 - E (Yt + 1|Xt)]2 + E ([E (Yt + 1|Xt) - g (Xt)]2) [4.1.6.]
El segundo término del lado derecho de [4.1.6.] No puede ser menor que cero, y el primer término
no depende de g (Xt). La función g (Xt) que hace que el error cuadrático medio [4.1.6.] Sea lo más
pequeño posible es la función que establece el segundo término en [4.1.6.] A cero:
Por lo que el pronóstico g (Xt) que minimiza el error cuadrático medio es la expectativa condicional
E (Yt + 1|Xt), tal como se reivindica.
La expectativa de predicción E (Yt + 1|Xt) representa el momento de la población condicional de
11
4.1 Principios de la Previsión 79
El MSE de esta previsión óptima es
Supongamos que deberíamos encontrar un valor para α tal que el error de pronóstico (Yt + 1|r - α´
Xt) no esté correlacionado con Xt
La proyección lineal resulta producir el error cuadrático medio más pequeño entre la clase de reglas
de pronóstico lineal. La prueba de esta afirmación es paralela a la demostración de la óptima de la
expectativa condicional entre el conjunto de todas las previsiones posibles. Sea g´X, cualquier regla
de predicción lineal arbitraria. Tenga en cuenta que su MSE es
E [Yt + 1 – g´ (Xt)]2
= E [Yt + 1 - α´ Xt + α´ Xt – g´ Xt]2
+ E [α´ Xt - g´ Xt]2
El pronóstico lineal óptimo g´X, es el valor que establece el segundo término en [4.1.12] igual a
cero:
g´ Xt = α´ Xt
(Yt + 1|Xt) = α´ Xt
O a veces simplemente
Ŷ Yt + 1|r = α´ Xt
80 Capítulo 4 | Previsión
Ya que la expectativa condicional ofrece la mejor previsión posible.
α´=E(Yt+1X´t)[E(XtX´t)]-1 [4.1.13.]
Suponiendo que E (XtX´t) es una matriz no singular. Cuando E (XtX´t) es singular, el vector de
coeficientes α no está determinado exclusivamente por [4.1.10], aunque el producto de este vector
con las variables explicativas, α´ Xt, está determinado de forma única por [4.1.10]2
E(Yt+1-α´Xt)2=E(Yt+1)2–2E(α´XtYt+1)+E(α´XtX´tα) [4.1.14]
+E(Yt+1X´t)[E(XtX´t)]-1 [4.1.15.]
Para ver esto, observe que a (Yt + 1| Xt) + b es una función lineal de Xt. Además, el error de
pronóstico,
2
Si E (XtX´t) es singular, existe un vector no nulo e tal que e´. E (XtX´t).e = E (e´Xt)2 = 0, de modo
que alguna combinación lineal E, es igual a cero para todas las realizaciones.
Por ejemplo, si Xt consiste en dos variables aleatorias, la segunda variable debe ser una versión
escalonada de la primera: X2t = cX1t. Podría simplemente eliminar las variables redundantes de
dicho sistema y calcular la proyección lineal de Yt+1 en X*t, donde X*t, Es un vector que consiste en
los elementos no redundantes de Xt. Esta proyección lineal *´X*t se puede calcular de forma única
a partir de [4.1.13] con X, en [4.1.13.] Reemplazada por X*t. Cualquier combinación lineal de las
variables originales ´X, [4.1.10] representa esta misma variable aleatoria; Que es ´Xt = *´X*t,
para todos los valores de consistentes con [4.1.10]
4.1 Principios de la Previsión 81
No está correlacionada con Xt, como se requiere de una proyección lineal
Un modelo de regresión lineal relaciona una observación sobre yt-1 con xt:
´
[4.1.17.]
El valor de que minimiza [4.1.17], denota b, es la estimación de mínimos cuadrados ordinarios (MCO)
de. La fórmula de b resulta ser.
[4.1.18.]
1 1
´
[4.1.19.]
Obsérvese que si el proceso estocástico {Xt, Yt+1} es covarianza estacionaria y ergocida para los
segundos instantes, entonces los momentos muestrales convergerán a los momentos de la
población a medida que el tamaño de la muestra T pase al infinito:
1
´ → ´
82 Capítulo 4 | Previsión
1
→
Implicando eso
→
[4.1.20.]
Sin embargo, los momentos de los datos pueden haber cambiado en el tiempo de formas
fundamentales, o el futuro ambiente puede ser diferente a la que en el pasado.
Cuando este es el caso, los mínimos cuadrados ordinarios pueden ser indeseables, y mejores
pronósticos pueden surgir de un análisis estructural cuidadoso.
Vectores de pronóstico
Los resultados anteriores pueden ser extensores para predecir un vector (nx1) Yt + 1 sobre la base de una
función lineal de un vector (m x 1) Xt:
Es decir, cada uno de los n elementos de (Yt+1 - Ŷt+1|r) en no correlacionados con cada uno de los
m elementos de Xt. Por consiguiente, el j-ésimo elemento del vector Ŷt+1|r, da la predicción mínima
MSE del escalar Yj, t+1. Además, predecir cualquier combinación lineal de los elementos De Yt+1,
zt+1 = h´ Yt+1 el pronóstico mínimo de MSE de zt+1 requieres (zt+1 - žt+1|r) no está correlacionado
con Xt, claramente h´ (Yt+1 - Ŷt+1|r) también está des correlacionado con Xt. Así, cuando Ŷt+1|r
satisface [4.1.22], entonces h´ Yt+1|r, es el pronóstico mínimo de MSE de h´ Yt+1 para Cualquier
valor de h.
4.1 Principios de la Previsión 83
MSE (α´Xt) ≡ E {[Yt+1 - α´Xt] [Yt+1 - α´Xt]´}
ψ L ψ
ψ 1
∑ |ψ| ∞ [4.2.2]
Supongamos que tenemos un número infinito de observaciones sobre ε a través de la fecha t, {εt, εt-
1, εt-2…}, y conocemos además los valores de μ ya {ψ1, ψ 2…}. Digamos que queremos pronosticar
el valor de Yt+s, y es decir, el valor que Y tomará en s periodos a partir de ahora. Tenga en cuenta
que [4.2.1] implica.
Es decir, el futuro desconocido ε´s se establece en su valor esperado de cero. El error asociado con
esta previsión es
Para que [4.2.4] sea el pronóstico lineal óptimo, la condición [4.1.10] requiere que el error de
previsión tenga una media de cero y no se correlacione con E. Se confirma fácilmente que el error
de [4.2.5] Estas propiedades, por lo que [4.2.4] debe ser la proyección lineal, como se afirma. El
error cuadrático medio asociado con esta previsión es
84 Capítulo 4 | Previsión
⋯ 1,2, …
1, 2, …
El MSE es
σ para s 1
1 θ θ ⋯ θ σ para s 2,3, … q
1 θ θ ⋯ θ σ para s q 1, q 2
Una expresión compacta del operador del lag para la predicción en [4.2.4] adentro usado a veces.
Considere tomar el polinomio ψ (L) y dividir por Ls:
⋯ ⋯
El operador de aniquilación3 (indicado por [•]+), sustituye las potencias negativas de L por cero; por
ejemplo,
⋯ [4.2.8]
Comparando [4.2.8] con [4.2.4], el pronóstico óptimo podría escribirse en la notación de operador
de lag como
Ê | , ,…
O utilizando [4.2.11]
Ê | , … [4.2.16]
1 ⋯ [4.2.17]
3 3
La discusión de la predicción basada en el operador de aniquilación es similar a la de Sargent
(1987)
4.2 Pronóstico basado en un número infinito de observaciones 85
Y
⋯ / 1 [4.2.18]
Si se sustituye [4.2.18] por [4.2.16], se obtiene el pronóstico lineal óptimo para un proceso AR (1)
estacionario:
Ê | , ,… 1
1
[4.2.19]
1 ⋯
Observe que esto crece con s y asintóticamente se aproxima a σ2/ (1 – ϕ2), la varianza incondicional
de Y.
⋯
⋯
[4.2.20]
Donde
[4.2.21]
Recordemos que f (j) 11 representa el elemento (1,1) de Fj, f (j) 12 representa el elemento (1,2) de Fj, y
así sucesivamente, donde F es la matriz siguiente (p x p):
…
1 0 0 … 0 0
0 1 0 … 0 0
⋮ ⋮ ⋮ … ⋮ ⋮
0 0 0 … 1 0
El pronóstico óptimo para el s-período futuro es este
Ŷ | ⋯ [4.2.22]
86 Capítulo 4 | Previsión
Obsérvese que para cualquier horizonte de pronóstico s la predicción óptima es una constante más
una función lineal de {Yt, Yt-1,… Yt-p+1}. El error de pronóstico asociado es
Ŷ | ⋯ [4.2.23]
La forma más fácil de calcular la predicción en [4.2.22] es a través de una recursión simple. Esta
recursión se puede deducir independientemente de un principio conocido como la ley de
proyecciones iteradas, que se demostrará formalmente en la Sección 4.5. Supongamos que a la fecha
t queríamos hacer un pronóstico de Yt+1. El pronóstico óptimo es claramente
Ŷ | ⋯ [4.2.24]
Considere la siguiente previsión de dos periodos por delante. Supongamos que en la fecha t + 1
deberíamos hacer una previsión de Yt+2. Si reemplazamos t con t + 1 en [4.2.24] se obtiene la
predicción óptima como
Ŷ | ⋯ [4.2.25]
La ley de proyecciones iteradas afirman que si esta fecha t + 1 pronostica de Yt+2 se proyecta en la
fecha t información, los resultados son la fecha t pronostica de Yt+2. A la fecha t se conocen los
valores Yt, Yt-1,…Yt-p+2 en [4.2.25]. Así,
Ŷ | Ŷ | ⋯ [4.2.26]
Sustituyendo [4.2.24] en [4.2.26] entonces produce el pronóstico de dos periodos por delante para
el proceso AR (p):
Ŷ | ⋯
⋯
⋯
´
Ŷ | Ŷ | Ŷ | ⋯ Ŷ | [4.2.27]
Ŷ | Para r ≤ t
1 [4.2.28]
Con |θ|<1. Reemplazando ψ (L) en la fórmla Wiener-Kolmogorov [4.2.16] con (1+θL) obtenemos
Ŷ | [4.2.29]
4.2 Pronóstico basado en un número infinito de observaciones 87
Y así
Ŷ | [4.2.30]
1
ἕ
1
Y ver εt, como el resultado de una recursión infinita,
ἕ ἕ [4.2.31]
Ŷ | ἕ [4.2.32]
La ecuación [4.2.31] es, de hecho, una caracterización exacta de εt, deducida del simple
reordenamiento de [4.2.28]. La notación de "sombrero" (ἕt) se introduce en este punto en
anticipación de las aproximaciones a εt, que será introducido en la siguiente sección y sustituido en
[4.2.31] y [4.2.32]
0 Para s = 2,3,…
Y así, de [4.2.29]
Ŷ | Para s = 2,3,…
[4.2.33]
1 ⋯
⋯
Ŷ | [4.2.34]
⋯
Ahora
1 ⋯
, ,…
⋯
0 1, 2, …
88 Capítulo 4 | Previsión
Así, para horizontes de s = 1,2,... q, la previsión viene dada por
Ŷ | ⋯ ἕ [4.2.35]
ἕ ἕ ἕ ⋯ ἕ [4.2.36]
Una predicción más allá de los períodos q en el futuro es simplemente la media incondicional μ.
1 1
Ŷ |
1 1
[4.2.37]
Aquí
1
1
1 ⋯ 1 ⋯
⋯ ⋯
[4.2.38]
1 ⋯
1
Ŷ |
1 1
1
[4.2.39]
Tenga en cuenta que para s = 2,3, ... la previsión [4.2.39] obedece a la recursión
Ŷ | Ŷ |
Por lo tanto, más allá de un período, el pronóstico se desintegra geométricamente a la tasa φ hacia la
media incondicional μ. El pronóstico de un período futuro (s = 1) está dado por
4.2 Pronóstico basado en un número infinito de observaciones 89
Ŷ | [4.2.40]
Ŷ | ἕ [4.2.41]
Donde
1
ἕ
1
ἕ ἕ Ŷ | [4.2.42]
1 ⋯ 1 ⋯
Ŷ | ⋯ ⋯ ἕ ἕ ⋯
ἕ [4.2.43]
ἕ Ŷ | [4.2.44]
Ŷ | Ŷ | ⋯ Ŷ |
ἕ ἕ ⋯ ἕ 1,2, …
Ŷ | Ŷ | ⋯ Ŷ | 1, 2, …
Donde
Ŷ |
Así, para un horizonte de previsión s mayor que el orden medio móvil q, los pronósticos siguen una
ecuación de diferenciación de orden P gobernada únicamente por los parámetros autorregresivos.
90 Capítulo 4 | Previsión
Las fórmulas de la sección anterior supusieron que teníamos un número infinito de observaciones
pasadas sobre Y, {Yt, Yt-1,…}, y conocíamos con certeza parámetros poblacionales tales como, μ, ϕ
y θ. Esta sección continúa asumiendo que los parámetros de población se conocen con certeza,
Pero desarrolla pronóstico basado en un número finito de observaciones {Yt, Yt-1,…Yt-m+1}
Ê | , ,… ≡ Ê Ŷ | , ,… , 0, ,… [4.3.1]
ἕ ἕ ⋯ ἕ 0 [4.3.2]
Y luego iterar en [4.2.36] para generar E. Allí los cálculos producen ἕt-m+1, ἕt-m+2,…ἕt
ἕ
ἕ ἕ
ἕ ἕ ἕ
Y así. El resultante para (ἕt, ἕt-1,…, ἕt-q+s) se sustituye entonces directamente en [4.2.35] para
producir el pronóstico [4.3.1]. Por ejemplo. Para s = q = 1, la previsión sería
Ŷ | ⋯ 1
[4.3.3]
[4.3.4]
Para m grande y |θ| Pequeño, esto da claramente una aproximación excelente. Para |θ| Más cerca
de la unidad, la aproximación puede ser más pobre. Tenga en cuenta que si el operador de media
móvil no es invertible, el pronóstico [4.3.1] es inapropiado y no debe utilizarse.
4.3 Pronósticos basados en un número finito de observaciones 91
1
´
⋯
[4.3.5]
El coeficiente que relaciona Yt + 1 a Yt en una proyección de Yt + 1 sobre los m valores más recientes
de Y se denomina (m)1 en [4.3.5]. Esto será en general diferente del coeficiente que relaciona Yt + 1
a Yt, en una proyección de Yt + 1 sobre los m + 1 valores más recientes de Y; El último coeficiente
se denotaría (m+1)1
´
≡ …
[4.3.6]
1 ⋯
⋯
… ⋯
⋮ ⋮ ⋮ ⋯ ⋮
⋯
Ŷ | ⋯
[4.3.7]
Para esta definición de X, los coeficientes pueden calcularse directamente a partir de [4.1.13] para
⋯
⋯
ser ⋮ ⋮ ⋯ ⋮ ⋮ [4.3.8]
⋮
⋯
En la Sección 4.5 demostraremos que los coeficientes ((m)1, (m)2,… (m)m) en las ecuaciones [4.3.8] y
[4.3.6] son idénticos. Esto es análogo a un resultado familiar para los coeficientes de regresión-
pendiente de los mínimos cuadrados ordinarios que no cambiarían si todas las variables se expresan
en desviaciones de sus medias de la muestra y el término constante es eliminado de la regresión
, , ,
Ŷ | ⋯
Donde
92 Capítulo 4 | Previsión
,
⋯
, ⋯
[4.3.9]
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
, ⋯
Varios algoritmos pueden ser utilizados para evaluar [4.3.8] utilizando cálculos relativamente
simples. Un enfoque se basa en el filtro de Kalman discutido en el capítulo 13, que puede generar
predicciones exactas de muestras finitas para una amplia clase de procesos incluyendo cualquier
especificación ARMA. Un segundo enfoque se basa en factorización triangular de la matriz en
[4.3.8]. Este segundo enfoque se desarrolla en las dos secciones siguientes. Este enfoque resultará
útil para la cuestión inmediata del cálculo del pronóstico de las muestras finitas y también es un
dispositivo útil para establecer una serie de resultados posteriores.
= ADA´ [4.4.1]
1 0 0 ⋯ 0
1 0 ⋯ 0
1 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
⋯ 1
0 0 ⋯ 0
0 0 ⋯ 0
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯
Donde dii > 0 para todo i. Esto es conocido como la factorización triangular
⋯
⋯
⋯ [4.4.2]
⋮ ⋮ ⋮ ⋯ ⋮
⋯
Suponemos que es positivo definido, lo que significa que x´x > 0 para cualquier no nulo (n x 1)
vector x. También suponemos que es simétrica, de modo que ij = ji.
4.4. La Factorización triangular de una matriz simétrica definida positiva 93
La matriz se puede transformar en una matriz con cero en la posición (2, 1) multiplicando la
primera fila de por 2111-1 y restando la fila resultante de la segunda. Se puede poner un cero en
la posición (3,1) multiplicando la primera fila por 3111-1 y substrayendo la fila resultante de la
tercera. Procedemos en este cuadro en la primera columna.. Este conjunto de operaciones puede
resumirse como pre multiplicación por la siguiente matriz:
1 0 0 ⋯ 0
1 0 ⋯ 0
1 ⋯ 0 [4.4.3]
⋮ ⋮ ⋮ ⋯ ⋮
0 0 ⋯ 1
Esta matriz siempre existe, provee que 11 0. Esto se asegura en el caso presente, porque 11 es
igual a e´1e1, donde e´1 = [1 0 0… 0]. Como es positivo definido, e´1e1, debe ser mayor que
cero.
´ [4.4.4]
Donde
0 0 ⋯ 0
0 ⋯
0 ⋯ [4.4.5]
⋮ ⋮ ⋮ ⋯ ⋮
0 ⋯
0 0 ⋯ 0
0 ⋯
0 ⋯
⋮ ⋮ ⋮ ⋯ ⋮
0 ⋯
1 0 0 ⋯ 0
0 1 1 ⋯ 1
0 1 ⋯ 1
⋮ ⋮ ⋮ ⋯ ⋮
0 1 ⋯ 1
[4.4.6]
Esta matriz siempre existe siempre que h22 0. Pero h22 puede calcularse como h22 = e´2He2, donde
e´2 = [0 1 0…0]. Además. H = E1E´1, donde es positivo definido y E1 dado por [4.4.3].
Puesto que E1 es triangular inferior, su determinante es el producto de términos a lo largo de la
diagonal principal, que son toda la unidad. Así, E1 es no singular, lo que significa que H = E1E´1
es positivo definido y así h22 = e´2He2 debe ser estrictamente positivo. Por lo tanto, la matriz en
[4.4.6] siempre se puede calcular.
94 Capítulo 4 | Previsión
Si H es pre multiplicado por la matriz en [4.4.6] y post multiplicado por la transposición, el
resultado es
Donde
0 0 ⋯ 0
0 0 ⋯ 0
0 0 ⋯
⋮ ⋮ ⋮ ⋯ ⋮
0 0 ⋯
De nuevo, dado que H es positivo definido y dado que E2 es no singular, K es positivo definido y
en particular k33 es positivo. Procediendo a través de cada una de las columnas con el mismo
enfoque, vemos que para cualquier matriz simétrica definida positiva existen matrices E1,
E2,…En-1 tales que
´ ´ ´
… … [4.4.7]
Donde
0 0 ⋯ 0
0 0 ⋯ 0
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯ . . .
Con todas las entradas diagonales de D estrictamente positivas. Las matrices E1 y E2 en [4.4.7] están
dadas por [4.4.3] y [4.4.6]. En general, Ej es una matriz con valores distintos de cero en la j-ésimo
columna por debajo de la diagonal principal, 1 a lo largo de la diagonal principal, y ceros por todas
partes.
Así, cada Ej es triangular inferior con determinante unitario. Por tanto existe Ej-1, y existe la
siguiente matriz:
⋯ … [4.4.8]
Si [4.4.7] es pre multiplicado por A y post multiplicado por A´, el resultado es:
= ADA´ [4.4.9]
Así
4.4 La factorización triangular de una matriz simétrica definida positiva 95
1 0 0 ⋯ 0
1 0 ⋯ 0
0 1 ⋯ 0 [4.4.10]
⋮ ⋮ ⋮ ⋯ ⋮
0 0 ⋯ 1
Como puede comprobarse directamente multiplicando [4.4.3] por [4.4.10] para obtener la matriz de
identidad. Similar.
1 0 0 ⋯ 0
0 1 0 ⋯ 0
0 1 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 ⋯ 1
Y así. Debido a esta estructura especial, la serie de multiplicaciones en [4.4.8] resulta ser trivial para
llevar a cabo:
1 0 0 ⋯ 0
1 0 ⋯ 0
0 1 ⋯ 0 [4.4.11]
⋮ ⋮ ⋮ ⋯ ⋮
⋯ 1
Cabe destacar que la sencillez de realizar multiplicaciones matriciales se debe no sólo a la estructura
especial de las matrices Ej-1, sino también al orden en que se multiplican. Por ejemplo, A-1 = En-1 En-
2… Ei no se puede calcular simplemente usando la j-ésimo columna de Ej-1para la j-ésimo columna
de A-1.
Puesto que la matriz A en [4.4.11] es triangular inferior con 1 a lo largo de la diagonal principal, la
expresión [4.4.9] es la factorización triangular de
1 0 0 1
1 0 0 1
[4.4.12]Mientras que la de una matriz (3 x 3) es
1 0 0 0 0 1
1 0 0 0 0 1 [4.4.13]
1 0 0 0 0 1
Donde h22 = (22 - 2111-112).h33 = (33 - 3211-113) y h23 = h32 = (23 - 2111-113)
96 Capítulo 4 | Previsión
´ ´
[4.4.14]
La post-multiplicación por A'2 establece que A'1 = A'2. La pre-multiplicación [4.4.14] por A-1 y la
post-multiplicación por [A']-1 produce entonces D1 = D2
La factorización Cholesky
Una factorización estrechamente relacionada de una matriz definida positiva simétrica se obtiene
como sigue. Defina D1/2 como la matriz diagonal (n x n) cuyas entradas diagonales son las raíces
cuadradas de los elementos correspondientes de la matriz D en la factorización triangular:
0 0 ⋯ 0
0 0 ⋯ 0
/
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯
Puesto que la matriz D es única y tiene entradas diagonales estrictamente positivas, la matriz D1/2
existe y es única. Entonces la factorización triangular puede ser escrita
/ / ´ / /
´
o
Ω ꞊ РР´, 4.4.16
Dónde:
/
Р≡A
1 0 0 ⋯ 0 0 0 ⋯ 0
1 0 … 0 0 0 … 0
= 1 … 0 0 0 … 0
⋮ ⁞ ⁞ … ⋮
⋮ ⁞ ⁞ … ⋮
… 1
0 0 0 ⋯
4.4 La factorización triangular de una matriz simétrica definida positiva 97
0 0 ⋯ 0
0 … 0
= … 0
⋮ ⁞ ⁞ … ⋮
⋯
Ῡ≡Α 4.5.2
E(ῩῩ´) = Ω[ ´ = ´ [ ´ D. 4.5.4
Es decir,
d
E( Ȳ Ȳ ) = 4.5.5
0 .
Así, la forma de una serie de variables aleatorias que no están correlacionadas entre sí4. Para ver la
implicación de esto, pre multiplicar 4.5.2 por :
Ȳ = Y. 4.5.6
4
⁴Utilizaremos “ y que son no estaremos correlacionado” para significar " E( ) = 0." La terminología será
correcta si y tiene cero medios o si un término constante se concluye en la proyección lineal.
98 Capítulo 4 | Previsión
1 0 0 ⋯ 0 Ȳ Y
1 0 … 0 Ȳ Y
1 … 0 Ȳ = Y . [4.5.7]
⋮ ⁞ ⁞ … ⋮ ⋮ ⋮
⋯ 1 Ȳ Y
Ω Ω Ȳ Ȳ Y ,
O, utilizando [4.5.8],
Ȳ Ȳ ≡
4.5.9
E(Ȳ Ȳ 0 , [4.5.10]
Pero, recordando [4.1.10], el valor de que satisface [4.5.10] esta definido como el coeficiente de la
proyección lineal de en . Por lo tanto, la factorización triangular de Ω se puede utilizar para
inferir que el coeficiente de una proyección lineal de en esto se da por = , lo que
confirma el resultado anterior [4.1.13]. En general, la fila , la columna 1 es la entrada de A es
, que es el coeficiente de una proyección lineal de en .
Esto confirma la fórmula para el MSE de una proyección lineal derivada (ecuación [4.1.15] ).
La tercera ecuación en [4.5.7] indica que
Ȳ Ȳ Ȳ Y .
Así, este residuo no está correlacionado con uno o , lo que significa que Ȳ tiene la
interpretación como el residuo de una proyección lineal de Y en Y y Y . De acuerdo con [4.5.11],
la proyección lineal se da por:
Y ⎹ Y , Y Ȳ Y . [4.5.12]
E[Y Y ⎹ Y , Y h , [4.5.13]
4.5 Actualización de una Proyección Lineal 99
La expresión [4.5.12] da una fórmula conveniente para actualizar una proyección lineal.
Supongamos que estamos interesados en predecir el valor de Y . Sea Y una cierta información
inicial sobre la cual este pronóstico podría ser basado. Una previsión de Y sobre la base de Y solo
toma la forma
Y ⎹ Y Y
Sea Y representada sobre alguna nueva información con la cual podríamos actualizar este
pronóstico. Si se nos pidiera adivinar la magnitud de esta segunda variable sobre la base deY solo,
la respuesta sería
Y ⎹ Y Y
La ecuación [4.5.12] establece que:
Y ⎹ Y , Y Y ⎹ Y Y Y ⎹ Y . [4.5.14]
Así pues, actualizamos de manera óptima el pronóstico inicial añadiéndole un múltiplo () del
componente imprevisto de la nueva información [].
Este múltiplo () también se puede interpretar como el coeficiente sobre en una proyección lineal de
on y.
Para entender la naturaleza del multiplicador (), defina el vector (n x 1) (1) mediante:
Ȳ ≡ E Y, [4.5.15]
Donde E está la matriz dada en [4.4.13]. Observe que la matriz de segundo momento de Ȳ(1) está
dada por:
Pero desde [4.4.4] esto es sólo la matriz H. Así H tiene la interpretación como matriz de segundo
momento de Ȳ(1). Sustituyendo [4.4.3] en [4.5.15],
Y
Y
Ȳ(1) = Y .
⁞
Y
El primer elemento de Ȳ(1) es, por tanto, sólo él mismo, mientras que el i-ésimo elemento de Ȳ(1).
para i = 2,3, ...., n es el residuo de una proyección de on. La matriz H es, pues, la matriz de segundo
momento de los residuos de las proyecciones de cada una de las variables. En particular, es el MSE
de una proyección de en:
Y Y ⎹ Y ,
Mientras que es el producto esperado de este error con el error de una proyección de sobre:
Y Y ⎹ Y Y Y ⎹ Y
Así, la ecuación [4.5.14] establece que una proyección lineal puede actualizarse utilizando la
siguiente fórmula:
Y ⎹ Y , Y Y ⎹ Y
+ {E Y Y ⎹ Y Y Y ⎹ Y
x Y Y ⎹ Y x Y Y ⎹ Y [4.5.16]
100 Capítulo 4 | Previsión
Por ejemplo, supongamos que es un término constante, por lo que es justo, la media de, mientras
que =. La ecuación [4.5.16] afirma entonces que
Y ⎹ Y , 1 = , . Y .( Y .
El MSE asociado con esta proyección lineal actualizada también se calcula a partir de la
factorización singular. A partir de [4.5.5], el MSE a partir de una proyección lineal de en Y y
Y se puede calcular a partir de
E[Y Y ⎹ Y , 1 = E(Ȳ
=
= .
En general, para 2, el coeficiente sobre en una proyección lineal de on y es dado por el i-ésimo
elemento de la segunda columna de la matriz A. Para cualquier i> j, los coeficientes sobre una
proyección lineal de on se da Por la fila i, columna j elemento de A. La magnitud gices el MSE para
una proyección lineal de on.
1 0 ⋯ 0
1 … 0
Ω = E ( Y Y´) = 0 1 … 0 [4.5.17]
⋮ ⁞ ⁞ … ⋮
0 0 0 ⋯ 1
1 0 ⋯ 0
1 … 0
A= 0 1 … 0 [4.5.18]
⋮ ⁞ ⁞ … ⋮
…
0 0 0 ⋯ 1
…
4.5 Actualización de una Proyección Lineal 101
1 0 ⋯ 0
0 … 0
D== 0 0 … 0 [4.5.19]
⋮ ⁞ ⁞ … ⋮
…
0 0 0 ⋯
…
Para utilizar la factorización triangular para calcular las predicciones exactas de las muestras finitas,
recordemos que el ith elemente de, tiene la interpretación como la frontera residual de una
proyección lineal de una constante y es valores previos:
Ȳ ⎹ , ,…, .
Ȳ Ȳ
1
1
Ȳ Ȳ
1
⁞
1 …
Ȳ Ȳ .
1 …
1 …
– ⎹ , ,…, .
1 …
Reticente
⎹ , ,…, [4.5.20]
1 …
– ⎹ , ,…,
1 …
.
…
MSE[ ⎹ , ,…, . [4.5.21]
…
1 …
⟶
1 …
102 Capítulo 4 | Previsión
Mientras que el MSE [4.5.21] tiende a, la varianza de la innovación fundamental. Así, el pronóstico
óptimo para un número finito de observaciones [4.5.20] eventualmente tiende a la regla de
pronóstico utilizada para un número infinito de observaciones [4.2.32].
96
Alternativamente, los cálculos que producen [4.5.20] son igualmente válidos para una
representación no reversible con > 1. En este caso, el coeficiente de [4.5.20] tiende a :
1 … 1 / 1
1 … 1 / 1
⟶
1
Por lo tanto, el coeficiente en [4.5.20] tiende a en este caso, que es el coeficiente de media
móvil con la representación invertible.
El MSE [4.5.21] tiende a :
1 / 1
⟶ ,
1 / 1
Que será reconocido a partir de [3.7.7] como la varianza de la innovación asociada con la
representación fundamental.
1
⎹ , ,…, ⎹ , ,…, ,
[4.5.23]
3
… 1 .
1 / →
4.5 Actualización de una Proyección Lineal 103
Así, la varianza del error de pronóstico tiende de nuevo hacia la de. Por lo tanto la innovación es
otra vez fundamental para este caso en el sentido de [4.5.22]. Obsérvese el contraste entre el
pronóstico óptimo [4.5.23] y un pronóstico basado en una aplicación ingenua de [4.3.3],
⋯ 1 . [4.5.24]
⋯ 1 1 .
Supongamos que tenemos observaciones sobre dos conjuntos de variables. El primer conjunto
de variables se recoge en un 1 vector y el segundo conjunto en un 1 vector . Su
matriz de segundo momento se puede escribir en forma particionada como.
E YY´ E YY´ Ω Ω
Ω ≡
E YY´ E YY´ Ω Ω
I 0
E
Ω Ω I
.
I 0 Ω Ω I 0
[4.5.25]
Ω Ω I Ω Ω Ω Ω I
= .
Definiendo
I 0
A ≡ E = .
Ω Ω I
Ω Ω I 0
Ω Ω Ω Ω I
104 Capítulo 4 | Previsión
Ω 0 I Ω Ω
0 Ω Ω Ω Ω 0 I
[4.5.26]
Esto es similar a la factorización triangular Ω = ADA´, excepto que D es una matriz diagonal de
bloques en lugar de una matriz verdaderamente diagonal:
.
Como en el caso anterior, D se puede interpretar como la matriz de segundo momento del vector
= ;
Y ⎹ Y Ω Ω Y
[4.5.27]
Como se reivindica en [4.1.23]. La matriz MSE asociada con esta proyección lineal es
E{[ ⎹ ⎹ ´
= [4.5.28]
=
Los cálculos para una matriz (3 x 3) se extienden de manera similar a una matriz de bloques (3 x 3)
sin complicaciones. Let Y , Y y Y por ( x 1), ( x 1), y ( x 1) vectores. Una factorización
triangular en bloques de su matriz de segundo momento se obtiene a partir de una simple
generalización de la ecuación [4.4.13]:
[4.5.29]
Dónde , y ´
Esto nos permite generalizar el resultado anterior [4.5.12] al actualizar una proyección lineal. El
pronóstico óptimo de condicional en y se puede leer en la última fila de bloque de A :
⎹ , [4.5.30]
⎹ ⎹ ,
Dónde
4.5 Actualización de una Proyección Lineal 105
⎹ ⎹ ´
⎹ ⎹ ´.
Dónde
H E Y Y ⎹ Y Y Y ⎹ Y ´
P Y ⎹ Y Y Y ⎹ Y H H Y Y ⎹ Y ,
Las reglas de predicción desarrolladas en este capítulo son óptimas dentro de la clase de
funciones lineales de las variables en las que se basa la predicción. Para los procesos gaussianos,
podemos afirmar con mayor fuerza que mientras se incluya un término constante entre las variables
en las que se basa la predicción, el pronóstico no resuelto óptimo resulta tener una forma lineal y,
por lo tanto, está dado por la proyección lineal.
Para verificar esto, sea Y un vector 1 con media , y Y un vector 1 con media,
donde la matriz varianza - covarianza es dada por
´ ´
.
´ ´
/
, /
[4.6.1]
´ ´ .
106 Capítulo 4 | Previsión
El inverso de Ω se encuentra fácilmente invirtiendo [4.5.26]:
´
´
[4.6.2]
|Ω| | |. | |. | ´|
Pero es una matriz triangular inferior. Por lo tanto, su determinante es dado por el producto de
términos a lo largo de la diagonal principal, todos los cuales son unidad. Por lo tanto | | 1 y:
| | | |:5
[4.6.3]
| . | |.
/ /
/
| | .| |
x ´ ´
| | .| |
´ ´
[4.6.4]
–
| | .| |
x ´
Escriba |
5 5
en forma Jordana como M1J1 M1 -1 donde es triangular superior con algunos valores de a lo largo de la diagonal
principal. Escribir como M2J2 M2 -1 . Entonces dónde
M= J=
Así Ω tiene el mismo determinante que J . Porque J es triangular superior, su determinante es el producto de términos a lo largo del
principal, o |J| = | | . | |. Por lo tanto | Ω| = | | . |
4.6 Pronóstico Optimo para Procesos Gaussianos 107
´ – .
Donde
≡ .
[4.6.5]
. ,
| ,
= – /
exp ( ´ – ,
Dónde
H≡ [4.6.6]
En otras palabras,
| ~ ,
~ , .
[4.6.7]
Vimos en la Sección 4.1 que el pronóstico óptimo no restringido es dado por la expectativa
condicional. Para un proceso gaussiano, el pronóstico óptimo es
E( | ( .
Por otra parte, para cualquier distribución, la proyección lineal del vector sobre un vector un
término constante está dada por
E( | ( .
Por lo tanto, para un Proceso Gaussiano, la proyección lineal da la predicción óptima sin
restricciones.
108 Capítulo 4 | Previsión
¿Dónde está el ruido blanco?:
E( para j 0
0
1 0
E( para j 1 [4.7.2]
0 .
Indicar una serie de ruido blanco por separado:
para j 0
0
[4.7.3]
E( 0 ,
Reticente
E( 0 , [4.7.4]
Sea una serie observada Y la suma del MA (1) y el ruido blanco del proceso:
+
= + . [4.7.5]
La pregunta que ahora se plantea es: ¿Cuáles son las propiedades de la serie temporal de Y?
Claramente, , tiene cero medio, y sus auto covarianzas se pueden deducir de [4.7.2] a
través de [4.7.4]:
E( + )( +
= +
1 0
para j 1
0 .
[4.7.6]
Así, la suma + es covarianza - estacionaria, y sus autocovariancias son cero más allá de un
retraso, al igual que las de un MA (1). Naturalmente, podríamos preguntarnos si existe una media
MA media (1) representación para Y,
, [4.7.7]
Con
E( para j 0
0
Cuyas auto covarianzas matemáticas son las que implican [4.7.6]. Las auto covarianzas de [4.7.7]
serían dadas por
4.7 Suma de los procesos ARMA 109
1 0
E( para j 1
0 .
Con el fin de ser coherente con [4.7.6], tendría que ser el caso de que
1 1 [4.7.8]
y
. [4.7.9]
σ δσ / θ , [4.7.10]
1 δσ / θ = 1
1 δ = [ 1 / ] θ
δ 1 / ] θ δ 0 [4.7.11]
Para valores dados de y, dos valores de que satisfacen [4.7.11] se pueden encontrar de la fórmula
cuadrática:
= [4.7.12]
1 0, [4.7.13]
O
∗
1 1 ,
110 Capítulo 4 | Previsión
∗ ∗ ∗
= +…)
∗ ∗ ∗
+ +…)
∗ ∗ ∗
+( +…) [4.7.16]
La serie definida en [4.7.16] es un retraso distribuido en valores pasados de y, por lo que podría
parecer que posee una estructura de autocorrelación rica. De hecho, resulta ser
¡Ruido blanco! Para ver esto, tenga en cuenta desde [4.7.6] que la función de autocovariancia de Y
puede escribirse
∗
1 1 , [4.7.17]
∗ ∗
[4.7.18]
∗
Pero fueron elegidos para hacer que la función de autocovariancia de (1 + ), es decir,
∗ ∗
1 1
En resumen, la adición de un proceso MA (1) a una serie de ruido blanco con la cual no
está correlacionada en todos los conductores y retardos produce un nuevo proceso MA (1)
caracterizado por [4.7.7].
4.7 Suma de los procesos ARMA 111
Obsérvese que la serie en [4.7.16] no podría ser pronosticada como una función lineal
de Y rezagada o rezagada. Claramente, podría ser pronosticada, a partir de retrasado retrasado .
Las historias { y contener más información que O { . La predicción óptima de sobre la
base de { , , … . . sería
⎹ , ,… = ∗
Con errores de cuadrados medios asociados. Por el contrario, el pronóstico lineal óptimo de
sobre la base de { , ,…, , , … sería
⎹ , ,…, , ,… =
Con el error cuadrático medio asociado +. Recordando de [4.7.14] que | ∗ | <| , se desprende de
[4.7.9] que( ∗ ∗ < | ∗ | <| | , que significa desde [4.7.8] que> +. En otras palabras, los
valores pasados de Y contienen menos información que los valores pasados de .
Este ejemplo puede ser útil para pensar sobre las consecuencias de diferentes conjuntos de
información. Uno siempre puede hacer un pronóstico razonable sobre la base de lo que uno sabe,
{ , , … aunque por lo general hay otra información que podría haber ayudado más. Una
característica importante de tales ajustes es que aunque,, y, son todo el ruido blanco, hay
correlaciones complicadas entre estas series blancas del ruido.
Otro punto a destacar es que todo lo que se puede estimar sobre la base de son los dos parámetros
y, mientras que el verdadero modelo "estructural" [4.7.5] tiene tres parámetros (,, y). Por lo tanto,
los parámetros del modelo estructural no están identificados en el sentido en que los
econometristas usan este término --- existe una familia de configuraciones alternativas de, y con <1
que produciría el valor idéntico para la función de verosimilitud del observado de la data { .
Los procesos que se sumaron para este ejemplo, ambos tenían una media cero.
La adición de términos constantes a los procesos no cambiará los resultados de ninguna manera
interesante --- si es un proceso MA (1) con la media dada por . Por lo tanto, no se pierde
nada al restringir la discusión subsiguiente a sumas de procesos de significación cero.
{ 1 ⋯ ≡
Con
E( para j 0
0
1 ⋯ ≡
Con
E( para j 0
0
112 Capítulo 4 | Previsión
Así, X tiene autocovariancias , , ,…, , de la forma de [3.3.12] mientras que tiene
,
autocovariancias , ,…, ,de la misma estructura básica. Supongamos que X y W no están
correlacionados entre sí en todas las derivaciones y rezagos:
E( 0 para todo j;
.
Defina q como el mayor de 1o 2:
q = max{q1, q2}.
E(
0, 1, 2, … ,
=
0
Por lo tanto, las autocovariancias son cero más allá de retrasos q, lo que sugiere que podría ser
representado como un proceso de MA (q).
¿Qué más debemos mostrar para estar completamente convencido de que es de hecho un
proceso de MA (q)? Esta pregunta puede plantearse en términos de funciones generadoras de
autocovariancia. Ya que
,
Resulta que
Pero estas son sólo las definiciones de las respectivas funciones de auto covarianza,
.
[4.7.19]
La ecuación [4.7.19] es un resultado bastante general --- si se suman dos procesos de covarianza -
estacionarios que no están correlacionados entre sí ay todos los conductores y retardos, el 106
La función generadora de auto covarianza de la suma es la suma de las funciones generadoras de
auto covarianza de la serie individual.
Si, se expresa como un proceso MA (q)
1 ⋯ ≡
Con
E( para j 0
0
4.7 Suma de los procesos ARMA 113
.
La cuestión es, por tanto, si siempre existen valores de ( , , ,…, , ) tales que [4.7.19]
Está satisfecho:
. [4.7.20]
Resulta que sí. Por lo tanto, la conjetura resulta ser correcto que si dos procesos de media móvil que
no están correlacionados entre sí en todas las derivaciones y rezagos se suman, el resultado es un
nuevo proceso de media móvil cuyo orden es el mayor de las dos series originales:
Una prueba de esta afirmación, junto con un algoritmo constructivo para lograr la factorización en
[4.7.20], se proporcionará en el capítulo 13.
(1 – [4.7.22]
(1 – [4.7.23]
Donde y son cada ruido blanco con No correlacionado con para todo .
Supongamos nuevamente que observamos
Y quieren pronosticar sobre la base de sus propios valores rezagados. Si, por casualidad, X y
W comparten el mismo parámetro autorregresivo, o
(1 – 1 –
(1 –
Pero la suma + es ruido blanco (como un caso especial de resultado [4.7.21]), lo que significa que
tiene una representación AR (1)
En el caso más probable de que los parámetros autorregresivos y p sean diferentes, entonces
[4.7.22] se puede multiplicar por (1 – :
(1 – ) (1 – 1 – ; [4.7.24]
(1 – 1 – (1 – ; [4.7.25]
114 Capítulo 4 | Previsión
La adición de [4.7.24] a [4.7.25] produce
(1 – 1 – 1 – (1 – ; [4.7.26]
De [4.7.21], el lado derecho de [4.7.26] tiene una representación MA (1). Así, el podría escribir
1 ∅ ∅ 1 ,
Dónde
(1 - ∅ ∅ 1 – (1–
1 1 – (1 – ;
En las palabras,
Para un proceso AR (p2) con el que no está correlacionado en todos los conductores y retardos,
∅ = )p(L)
Y
∅ = p L + ) .
Descomposición de Wold
Todos los procesos de covarianza - estacionarios considerados en el Capítulo 3 pueden escribirse en
la forma
∑ , [4.8.1]
¿Dónde está el error de ruido blanco que se haría en el pronóstico como una función lineal de Y
retrasado y donde <con = 1?
Uno podría pensar que fuimos capaces de escribir todos estos procesos en la forma de
[4.8.1] porque la discusión se restringió a una conveniente clase de modelos. Sin embargo, el
4.8. Descomposición de Wold y la caja – Jenkins Filosofía de modelado 115
siguiente resultado establece que la representación [4.8.1] es de hecho fundamental para cualquier
serie temporal de covarianza – estacionaria.
| , ,… . [4.8.3]
El valor de kt no está correlacionado con para cualquier j, aunque k puede ser predicho
arbitrariamente bien a partir de una función lineal de valores pasados de Y:
| , ,…
Esta proposición fue probada por primera vez por Will (1938)6. La proposición se basa en
segundos segundos estables de Y, pero no hace uso de momentos superiores. Por lo tanto, describe
sólo el pronóstico lineal óptimo de Y.
1 1 1 ⋯
≡
1 1 ⋯
[4.8.4]
Otro enfoque, basado en la supuesta "suavidad" del espectro poblacional, se explorará en el
capítulo 6.
Aunque los modelos complicados pueden rastrear los datos muy bien sobre el período
histórico para el cual se calculan los parámetros, a menudo se desempeñan mal cuando se usan los
pronósticos del foro para la muestra. Por ejemplo, los años sesenta vieron el desarrollo de una serie
de grandes modelos macroeconométricos que pretendían describir la economía utilizando cientos
de variables macroeconómicas y ecuaciones. Parte de la desilusión con tales esfuerzos fue el
descubrimiento de que los modelos ARMA univariados con valores pequeños de p o q a menudo
6
6 Véase Sargent (1987, pp. 286-90) para un bonito dibujo de la intuición detrás de este resultado.
116 Capítulo 4 | Previsión
producían mejores pronósticos que los grandes modelos (véase, por ejemplo, Nelson, 1972).7 Como
veremos en capítulos posteriores, el gran tamaño por sí solo no era la única responsabilidad de
estos modelos macroeconómicos a gran escala. Aun así, la afirmación de que los modelos más
simples ofrecen pronósticos más sólidos tiene muchos creyentes en todas las disciplinas.El enfoque
de pronóstico propuesto por Box y Jenkins puede desglosarse en cuatro pasos:
(1) Transforme los datos, si es necesario, de manera que la asunción de covarianza - estacionariedad
sea razonable.
(2) Hacer una estimación inicial de valores pequeños para p yq para un modelo ARMA (p, q) que
podría describir la serie transformada.
(4) Realizar análisis de diagnóstico para confirmar que el modelo es de hecho coherente con las
características observadas de los datos.
El primer paso, la selección de una transformación adecuada de los datos, se discute en el capítulo
15. Por ahora simplemente observar que para las series económicas que crecen con el tiempo,
muchos investigadores utilizan el cambio en el logaritmo natural de los datos brutos. Por ejemplo,
si Xt es el nivel de PNB real en el año t, entonces
log [4.8.5]
Autocorrelaciones de muestra
Una parte importante de este procedimiento de selección es formar una estimación de la
autocorrelación de la población. Recordemos que se definió como
≡ /
Dónde
Dónde
∑ 0,1,2,3, … . , 1 [4.8.6]
7
7 Para obtener evidencias pesimistas más recientes sobre modelos actuales a gran escala, véase Ashley (1988).
88
Box y Jenkins se refieren a esta etapa como "identificación" del modelo apropiado. Anulamos la terminología de Box y
Jenkins, porque la "identificación" tiene un significado muy diferente para los econometristas.
4.8 Descomposición de Wold y la caja – Jenkins Filosofía de modelado 117
1
Obsérvese que aunque sólo se usan las observaciones T - j para construir , el denominador en
[4.8.6] es T en lugar de T - j. Por lo tanto, para j grande, la expresión [4.8.6] reduce las estimaciones
hacia cero, ya que de hecho las autocovariancias de la población van a ero como j, asumiendo
covarianza - estacionariedad. Además, se utiliza la muestra completa de observaciones para
construir .
Recuerde que si los datos realmente siguen un proceso MA (q), entonces será cero para j> q. Por el
contrario, si los datos siguen un proceso AR (p), entonces se descompondrá gradualmente hacia
cero como una mezcla de exponenciales o sinusoides amortiguados. Una guía para distinguir entre
las representaciones MA y AR, entonces, sería las propiedades de desintegración de. A menudo,
estamos interesados en una evaluación rápida de si = 0 para j = q + 1, q + 2, ... Si los datos fueron
realmente generados por un proceso Gaussian MA (q), entonces la varianza de la estimación podría
ser aproximada por9
Var( ̂ ≅ 1 2∑ 1, 2, … .. 4.8.8
Por lo tanto, en particular, si sospechamos que los datos fueron generados por el ruido Gaussian
White, entonces para cualquier j 0 debería estar alrededor del 95% del tiempo.
En general, si hay autocorrelación en el proceso que generó los datos originales {}, la estimación se
correlacionará con i j.10Así, los patrones en el estimado pueden representar errores de muestreo en
lugar de patrones en el verdadero.
Autocorrelacion Parcial
Otra medida útil es la autocorrelación parcial. La m-ésima autocorrelación parcial de la
población (denotada) se define como el último coeficiente en una proyección lineal de Y en sus m
valores más recientes (ecuación [4.3.7]):
̂+ +….+ + ,
Vimos en la ecuación [4.3.8] que el vector se puede calcular a partir de
…
…
⋮ ⁞ … ⁞ ⁞ .
⁞
…
Recuerde que si los datos fueran realmente generados por un proceso AR (p), sólo los p valores
más recientes de Y serían útiles para la predicción. En este caso, los coeficientes de proyección en Y
más de p períodos en el pasado son igual a cero:
0 para m= p + 1, p + 2,……
Por el contrario, si los datos realmente fueron generados por un proceso MA (q) con q 1,
entonces la autocorrelación parcial se aproxima asintóticamente a cero en lugar de cortar
abruptamente.
Una estimación natural de la m-ésima autocorrelación parcial es el último coeficiente en una
regresión OLS de y sobre una constante y sus m valores más recientes:
̂+ +….+ + ,
99
Véase Box y Jenkins (1976, pág. 35)
10 10
Otra vez, véase Box y Jenkins (1976, p.35).
118 Capítulo 4 | Previsión
Donde denota la regresión OLS residual. Si los datos fueron realmente generados por un proceso
AR (p), entonces la muestra estimada ( ) tendría una varianza alrededor del valor verdadero (0)
que podría ser aproximado por 11
Var ( )= 1/T para m = p + 1, p + 2, ...
Por otra parte, si los datos fueran realmente generados por un proceso AR (p), entonces y
serían asintóticamente para , .
Ejemplo 4.1
Ilustramos el enfoque de la Caja - Jenkins con datos trimestrales desestacionalizados sobre el PNB real
estadounidense de 1947 a 1988. Los datos brutos fueron convertidos para registrar cambios como en
4,8,5 . El panel (a) de la figura 4.2 representa las autocorrelaciones de la muestra de ̂
0, 1, … , 20 , mientras que el panel (b) muestra las autocorrelaciones parciales de la muestra
0, 1, … , 20 . Las bandas de confianza del noventa y cinco por ciento 2/√ se trazan
en ambos paneles; para el panel (a), estos son apropiados bajo la hipótesis nula de que los datos son
realmente ruido blanco, mientras que para el panel (b) son apropiados si los datos son realmente generados
por un proceso AR (p) para p sea menor que m.
Las dos primeras autocorrelaciones parecen no nulas, lo que sugiere que 2 sería necesario
describirlas como procedentes de un proceso de media móvil. Por otro lado, el patrón de autocorrelaciones
parece coherente con la simple descomposición geométrica de un proceso AR (1),
con ≅ 0.4. Las autocorrelaciones parciales también podrían ser vistas como moribundas después de un
retraso, también consistentes con la hipótesis AR (1). Por lo tanto, su conjetura inicial para un modelo
parsimonioso podría ser que el crecimiento del PNB sigue un proceso AR (1), con MA (2) como otra
posibilidad a considerar.
11 11
Box y Jenkins (1976, pág. 65).
4.8 Descomposición de Wold y la caja – Jenkins Filosofía de modelado 119
APÉNDICE 4.A. Paralelo entre la Regresión MCO y la
Proyección Lineal
Este apéndice discute el paralelismo entre la regresión de mínimos cuadrados ordinarios y la proyección
lineal. Este paralelo se desarrolla introduciendo una variable aleatoria artificial construida específicamente
para tener momentos de población idénticos a los momentos muestrales de una muestra particular.
Digamos que en alguna muestra en particular sobre la cual pretendemos realizar MCO hemos observado
valores T particulares para el vector explicativo, denotado , , . . . , . Consideremos una variable
aleatoria artificial discreta que puede tomar sólo uno de estos valores T particulares, cada uno con
Probabilidad (1/T):
1/
1/
.
:
1/
.
Por lo tanto, es una variable aleatoria construida artificialmente cuya distribución de probabilidad de
población está dada por la función empírica de . La media de población de la variable aleatoria es
1
. .
1
4. A. 1
que es el segundo momento de la muestra de , ,…, .
Podemos construir de manera similar una segunda variable artificial X que puede tomar uno de
los valores discretos , ,…, . Supongamos que la distribución conjunta de y viene dada por
, 1/ para t = 1,2,…, T.
Luego
Log (m)
1
4. A. 2
1
.
4. A. 3
Esto es algebraicamente el mismo problema que elegir para minimizar 4.1.17 . Así, la regresión de
mínimos cuadrados ordinarios (elegir para minimizar 4.1.17 ) puede verse como un caso especial de
proyección lineal (elegir para minimizar 4. A. 3 ).
El valor de que minimiza 4. . 3 puede ser encontrado sustituyendo las expresiones por los
momentos de población de las variables aleatorias artificiales (las ecuaciones 4. A. 1 y 4. A. 2 en la
fórmula para una proyección lineal (ecuación 4.1.13 ):
120 Capítulo 4 | Previsión
1 1
.
Por lo tanto la fórmula MCO para la estimación en 4.1.18 se puede obtener como un caso
especial de la fórmula para el coeficiente de proyección lineal en 4.1.13 .
Debido a que las proyecciones lineales y las regresiones MCO comparten la misma estructura
matemática, las declaraciones sobre una tienen un paralelo en la otra. Esto puede ser un dispositivo útil
para recordar los resultados conforme el álgebra. Por ejemplo, la declaración sobre los momentos de la
población,
,
1 1
4. A. 5
con
1/ .
Como segundo ejemplo, supongamos que estimamos una serie de regresiones MCO, con la
variable dependiente para la i-ésima regresión y un 1 vector de las variables explicativas comunes
a cada regresión. Sea , ,…, y escriba el modelo de regresión como
Π′
1 1 1 1 1
̂ ̂ . 4. A. 6
1 1
.
Apéndice 4.B. Factorización triangular de la matriz de covarianza para un proceso MA (1)
121
1, y luego multiplicar la matriz D resultante por para obtener el resultado para el caso general.
El elemento 1,1 de D (ignorando el factor ) está dado por el elemento 1,1 de Ω: 1 .
Para poner un cero en la posición 2,1 de Ω, multiplicamos la primera fila de Ω por / 1 y
restamos el resultado del segundo; por lo tanto / 1 . Esta operación cambia el elemento
2,2 de Ω a
1 1
1 .
1 1 1
Para poner un cero en el elemento 3,2 de Ω, la segunda fila de la nueva matriz debe ser multiplicada por
/ y luego restada de la tercera fila; por lo tanto,
1
.
1
Esto cambia el elemento 3,3 a
1
1
1
2 4 2 1
1 ⋯
. 2 4 2
1 ⋯
Y restar de la fila 1 , produciendo
2 4 2 1
1 ⋯
. 1 2 4 2
1 ⋯
2 4 2 2 4 2
1 ⋯ 1 ⋯
2 4 2
1 ⋯
2 4 2 1
1 ⋯
2 4 2
1 ⋯
2 4 2 1
1 ⋯
2 4 2
.
1 ⋯
122 Capítulo 4 | Previsión
Capítulo 4 Ejercicios
4.1. Utilice la fórmula 4.3.6 para demostrar que para un proceso estacionario de covarianza, la
proyección de en una constante y , está dada por
׀ 1
dónde y Υ /Υ .
(a) Muestran que para el proceso AR (1), esto reproduce la ecuación 4.2.19 para 1.
(b) Muestran que para el proceso MA (1), esto reproduce la ecuación 4.5.20 para 2.
(c) Muestran que para el proceso AR (2), el pronóstico implícito es
/ 1 .
¿Es el error asociado con esta previsión correlacionada con ? ¿Está correlacionada con ?
4.2. Verificar la ecuación 4.3.3 .
4.3. Encontrar la factorización triangular de la siguiente matriz:
1 2 3
2 6 4
3 4 12
.
4.4. ¿Puede el coeficiente de a partir de una proyección lineal de en , y ser encontrado
desde el elemento 4,2 de la matriz A de la factorización triangular de Ω ?
4.5. Supongamos que sigue un proceso AR (p) y es un proceso de ruido blanco que no está
correlacionado con para todo . Muestre que la suma
4.6. Generalizar el ejercicio 4.5 para deducir si se añade un proceso con un proceso y si
estos dos procesos no están correlacionados entre sí en todos los conductores y rezagos, entonces el
resultado es un proceso , .
Capítulo 4 Referencias
Ashley, Richard. 1988. “Sobre el Valor Relativo de las Recientes Previsiones Macroeconómicas”. Revista
internacional de previsión 4:363-76.
Box, George E.P., and Gwilym M. Jenkins. 1976. Análisis de series temporales: previsión y control, rev. Ed. ed. S
Francisco: Holden-Day.
Nelson Charles R. 1972. “El rendimiento de predicción del modelo F.R.B.-M.I.T.-PENN de la economía de
los EE.UU.” Revisión económica americana 62:902-17.
Sargent, Thomas J. 1987. Teoría Macroeconómica, 2d ed. Boston: Prensa académica.
Wold, Herman. 1938 (2d ed. 1954). Un estudio en el análisis de series temporales estacionarias.
Uppsala, Sweden: Almqvist y Wiksell.
Capítulo 4 Referencias 123
5
Estimación de Máxima
Verosimilitud
5.1. Introducción
[5.1.3]
0
∼ . . . 0, . [5.1.5]
Aunque esta suposición es fuerte, las estimaciones de que resultan de ella a menudo resultarán ser
sensibles también para los procesos no gaussianos.
Encontrar estimaciones de máxima verosimilitud implica conceptualmente dos pasos. En
primer lugar, se debe calcular la función de verificación 5.1.4 . En segundo lugar, se deben
encontrar valores de que maximicen esta función. Este capítulo se organiza en torno a estos dos
pasos. Las secciones 5.2 a 5.6 muestran cómo calcular la función de verosimilitud para diferentes
especificaciones de ARMA gaussiano, mientras que las secciones subsiguientes revisan las técnicas
generales de optimización numérica.
124 Capítulo 5 | Estimación de Máxima Verosimilitud
5.2. La función de verosimilitud para un proceso Gaussiano
AR (1)
Evaluación de la Función de Verosimilitud
Un proceso 1 gaussiano toma la forma
, [5.2.1]
Con ∼ . . . 0, . Para este caso, el vector de parámetros de población a estimar se
compone de , ,
/ 1
y varianza
/ 1
; ; , ,
1 / 1
.
√2 / 1 2 / 1
[5.2.2]
Luego consideremos la distribución de la segunda observación condicionada a la observación de
. A partir de 5.2.1 ,
. [5.2.3]
Acondicionamiento en significa tratar la variable aleatoria como si fuera la constante
determinista . Para este caso, 5.2.3 da como la constante más la 0, la
variable . Por lo tanto,
׀ ∼ , ,
en el sentido
1
׀ ׀ ; .
√2 2
[5.2.4]
. ; ׀ ׀ ; ׀ . ;
.
, . , , ; ׀. ׀, ; . . ; ׀
.
En general, los valores de , , … , importan para sólo a través del valor de , y la
densidad de observación condicional a las observaciones precedentes de 1 es dada por
׀ ׀ ;
5.2.5
1
.
√2 2
. …., , 1, … , 1;
5.2.6
׀ ׀ ; . , …., , …., ; .
; ׀ ׀ ; .
[5.2.8]
Claramente, el valor de que maximiza 5.2.8 es idéntico al valor que maximiza 5.2.7 .
Sin embargo, la sección 5.8 presenta una serie de resultados útiles que se pueden calcular como un
subproducto de la maximización si uno siempre plantea el problema como maximización del Log
función de verosimilitud 5.2.8 en lugar de la función de verosimilitud 5.2.7 .
Al sustituir 5.2.2 y 5.2.5 en 5.2.8 , se considera que la probabilidad de log para una
muestra de tamaño T de un proceso AR (1) gaussiano
1 1 2/ 1 2
2
2 2
/ 1
1 /2 log 2
2
1
[5.2.9]
1
2 2
126 Capítulo 5 | Estimación de Máxima Verosimilitud
Una expresión alternativa para la Función de Verosimilitud
A veces es útil una descripción diferente de la función de verosimilitud para una muestra de
tamaño T de un proceso AR (1) gaussiano. Recopilar el conjunto completo de observaciones en un
vector 1 ,
≡ , ,…,
.
Este vector podría ser visto como una realización única a partir de una distribución Gaussiana T-
dimensional. La media de este vector 1 es
, [5.2.10]
⋮ ⋮
Ω, [5.2.11]
dónde
…
…
Ω … [5.2.12]
⋮ ⋮ ⋮
…
Los elementos de esta matriz corresponden a autocovariancias de . Recuerde que la j-ésima
autocovariancia para un proceso AR (1) está dada por
.
1
[5.2.13]
Por lo tanto, 5.2.12 puede escribirse como
Ω , [5.2.14]
dónde
1 …
1
…
…
V 1 [5.2.15]
⋮ ⋮
⋮ ⋮
… ⋮
1
/2 log 2 |Ω | Ω . [5.2.17]
1 0 0 … 0 0
1 0 … 0 0
… 0
≡ 0 1 0 . [5.2.18]
… ⋮
⋮ ⋮ ⋮ ⋮
…
0 0 0 1
, [5.2.19]
⁄2 log 2 | | . [5.2.21]
1 0 0 … 0 0
… 0 0
1 0 …
0 1 0 0 [5.2.22]
… ⋮ ⋮
⋮ ⋮ ⋮ ⋮
…
0 0 0 1
1
.
⋮
Sustituyendo / 1 , se convierte en
1
Por multiplicación directa, se calcula
1 1 1
… 1
0 1 1 …
… 1
LV 0 0 1 1 .
…
⋮ ⋮ ⋮ … ⋮
0 0 0 1
Y pre multiplicando esto por produce la matriz de identidad . Por tanto, que confirma 5.2.19
128 Capítulo 5 | Estimación de Máxima Verosimilitud
1 / 1
1
1/ 2
2
1/ 2 1 / 1 [5.2.23]
1/ 2 .
| | [5.2.24]
/2 | |
Donde se ha hecho uso de las ecuaciones A. 4.8 , A. 4.9 y A. 4.11 en la Revisión Matemática
(Apéndice A) al final del libro. Además, dado que L es triangular inferior, su determinante viene
dado por el producto de los términos a lo largo de la diagonal principal: | | 1 . Así,
5.2.24 afirma que
| | /2 1 . [5.2.25]
La sustitución de 5.2.23 y 5.2.25 en 5.2.21 reproduce 5.2.9 . Por lo tanto, las ecuaciones
5.2.17 y 5.2.9 son sólo dos expresiones diferentes para la misma magnitud, como se afirma.
Cualquier expresión describe con precisión la función de log verosimilitud.
La expresión 5.2.17 requiere invertir una matriz , mientras que 5.2.9 no lo hace.
Por lo tanto, la expresión 5.2.9 es claramente preferible para los cálculos. Evita invertir una
matriz , escribiendo como la suma de un pronóstico y un error de
pronóstico por . El error de pronóstico es independiente de las observaciones anteriores de la
construcción, de modo que el log de su densidad se añade simplemente a la probabilidad de las
observaciones precedentes. Este enfoque se conoce como una descomposición del error de predicción de la
función de verosimilitud.
1 /2 2 1 /2 [5.2.27]
.
2
[5.2.28]
que se logra mediante una regresión de mínimos cuadrados ordinarios (MCO) de en una
constante y su propio valor retardado. Las estimaciones máximas de verosimilitud de c y por lo
tanto, dadas por
̂ 1∑ ∑
∑ ,
∑ ∑
1 1
0,
2 2
o
1
.
1
En otras palabras, el MLE condicional es el cuadrado medio residual OLS de la regresión 5.2.28 .
A diferencia de las estimaciones de máxima verosimilitud exacta, las estimaciones de
máxima verosimilitud condicional son, por tanto, triviales para calcular. Además, si el tamaño de la
muestra T es suficientemente grande, la primera observación hace una contribución insignificante a
la probabilidad total. El MLE exacto y el MLE condicional resultan tener la misma distribución de
gran tamaño, siempre que | | 1. Y cuando | | 1, el MLE condicional continúa
proporcionando estimaciones consistentes, mientras que la maximización de 5.2.9 no lo hace.
Esto se debe a que 5.2.9 se deriva de 5.2.2 , que no describe con precisión la densidad de
cuando| | 1. Por estas razones, en la mayoría de las aplicaciones los parámetros de una
autoregresión son estimados por MCO (probabilidad máxima condicional) en lugar de la máxima
verosimilitud exacta.
130 Capítulo 5 | Estimación de Máxima Verosimilitud
5.3. La Función de Verosimilitud para un Proceso Gaussiano
AR (p)
En esta sección se analiza un proceso AR (p) Gaussiano,
⋯ , [5.3.1]
Una combinación de los dos métodos descritos para el caso AR (1) se utiliza para calcular
la función de verosimilitud para una muestra de tamaño T para un proceso AR (p). Las primeras p
observaciones en la muestra , ,…, se recogen en un 1 vector , que se ve como la
realización de una variable Gaussiano p-dimensional. La media de este vector es , que denota un
vector 1 cada uno de cuyos elementos está dado por
/ 1 … . [5.3.2]
Sea la matriz de varianza-covarianza de , ,…, :
…
…
… [5.3.3.]
⋮ ⋮ ⋮
…
. …., , ,…, ;
/ /
2 [5.3.4]
/ / / 1
2
2
,
5.3 La Función de Verosimilitud para un Proceso Gaussiano AR(p) 131
⋯
y la varianza . Sólo las p observaciones más recientes son importantes para esta distribución.
Por lo tanto, para ,
. …., , ,…, ;
.
, 1
,…, 1
; [5.3.5]
1 …., 1
׀ 1. 2 …..
׀ 1, 2, … , ; ,
. …., , ,…, ;
2 [5.3.6]
1 1
2 2
…
2 2
1 1
2 2
…
.
2 2
1 ,
[5.3.7]
132 Capítulo 5 | Estimación de Máxima Verosimilitud
1 .
1
1 1 1
1
Y
1
1
1
1 1 2 1
.
La probabilidad de registro exacta para un proceso AR (2) gaussiano es así dada por
1
2 1 1
2 2 2
1 2 1 [5.3.8]
,
2
dónde / 1 .
2 [5.3.9]
⋯
.
2
Los valores de , , ,…, que maximizan 5.3.9 son los mismos que los que minimizan
[5.3.10]
Así, los parámetros de las estimaciones de máxima verosimilitud condicional pueden obtenerse a
partir de una regresión OLS de sobre una constante y p de sus propios valores rezagados.
La estimación de probabilidad máxima condicional de resulta ser el promedio del cuadrado
residual de esta regresión
1
̂ ⋯ .
Observamos en el capítulo 4 que una regresión MCO de una variable sobre una constante y
p de sus retrasos daría una estimación consistente de los coeficientes de la proyección lineal,
׀ , ,…, ,
Siempre que el proceso sea ergódico durante los segundos momentos. Esta regresión MCO
también maximiza la probabilidad de logaritmos condicional gaussiana 5.3.9 . Por lo tanto, incluso
si el proceso es no gaussiano, si erróneamente formamos una función de verosimilitud logarítmica
gaussiana y la maximizamos, las estimaciones ̂ , , ,…, resultantes proporcionarán
estimaciones consistentes de los parámetros de población en 5.3.1 .
Una estimación que maximiza una función de verosimilitud no especificada (por ejemplo,
una MLE calculada bajo el supuesto de un proceso gaussiano cuando los datos verdaderos no son
gaussianos) se conoce como estimación de probabilidad casi máxima. A veces, como resulta ser el caso
aquí, la estimación de probabilidad casi máxima proporciona estimaciones consistentes de los
parámetros de población de interés. Sin embargo, los errores estándar para los coeficientes
estimados que se calculan bajo la hipótesis de gaussianidad no necesitan ser correctos si los datos
verdaderos no son gaussianos2.
1
0.
log 0
2
Estos puntos fueron planteados por primera vez por White (1982) y se discuten más adelante en la sección 5.8 y 14.4.
134 Capítulo 5 | Estimación de Máxima Verosimilitud
Sin embargo, Nelson y Granger (1979) reportaron resultados desalentadores de este método en la
práctica
Li y McLeod (1988) y Janacek y Swift (1990) describieron enfoques de estimación de máxima
verosimilitud para algunos modelos no Gaussianos ARMA. Martin (1981) discutieron datos
robustos de la serie de tiempo para los datos contaminados.
El cálculo de la función de verosimilitud para una autoregresión resultó ser mucho más
simple si
׀ ׀ ;
5.4.4
1 2
.
2 2 2 2
2 .
2 2 2
Para un valor numérico particular de , calculamos la secuencia de implicada por los
datos 5.4.3 . La probabilidad de log condicional 5.4.5 es entonces una función de la suma de
cuadrados de estos . Aunque es simple programar esta iteración por computadora, la probabilidad
de log es una función no lineal bastante complicada de y , de modo que no se calcula fácilmente
una expresión analítica para las estimaciones de máxima verosimilitud de y . Por lo tanto,
incluso las estimaciones de máxima verosimilitud condicional para un proceso MA (1) se deben
encontrar por optimización numérica.
La iteración en 5.4.3 a partir de un valor de inicio arbitrario de dará lugar a
⋯
1 1 .
5.4 La Función de Verosimilitud para un Proceso Gaussiano MA (1) 135
intentada de nuevo con el recíproco de utilizado como valor inicial para el procedimiento de
búsqueda numérica.
/ |Ω| /
; 2 Ω . [5.4.6]
Una descomposición del error de predicción de la probabilidad se proporciona a partir de
la factorización triangular de Ω.
Ω ADA . [5.4.7]
/ |ADA | /
; 2
A D A . [5.4.8]
Pero A es una matriz triangular inferior con 1 a lo largo de la diagonal principal. Por lo tanto, |A|
1y
|ADA | |A|. |D|. |A | |D|.
Definición adicional
≡ . [5.4.9]
La primera fila de este sistema indica que , mientras que la r-ésima fila implica que
136 Capítulo 5 | Estimación de Máxima Verosimilitud
1 ⋯
.
1 ⋯
[5.4.11]
| | ,
[5.4.13]
[5.4.14]
Sustituyendo 5.4.13 y 5.4.14 en 5.4.10 , la función de verosimilitud es
/
/
1
; 2
2
[5.4.15]
1 1
; log 2 log .
2 2 2
5.5 La Función de Verosimilitud para un Proceso Gaussiano MA (q) 137
⋯ , [5.5.1]
un enfoque simple es condicionar en el supuesto de que los primeros valores de q para eran todos
cero:
⋯ 0, [5.5.2]
A partir de estos valores iniciales podemos iterar en
⋯ [5.5.3]
log 2 log ,
2 2 2
Donde , , ,…, , . De nuevo, la expresión 5.5.4 sólo es útil si todos los valores
de z para los cuales
1 ⋯ 0
/ |Ω| /
; 2 Ω , [5.5.5]
138 Capítulo 5 | Estimación de Máxima Verosimilitud
Ω ADA . [5.5.8]
dónde A es la matriz triangular inferior dada por 4.4.11 y D es la matriz diagonal dada por
4.4.7 . Obsérvese que la estructura de bandas de Ω en 5.5.6 hace que A y D sean simples de
calcular. Después de las primeras filas 1 , todas las entradas subsiguientes en la primera
columna de Ω ya son cero, por lo que no es necesario agregar un múltiplo de la primera fila para
hacerlas cero. Por lo tanto, 0 1. De manera similar, más allá de las primeras
2 filas de la segunda columna, no es necesario añadir un múltiplo de la segunda fila para
hacer estas entradas cero, lo que significa que 0 2. Así A es una matriz de
banda triangular inferior con 0 :
1 0 0 0 0
…
1 0 0 0
1 …
… 0 0
⋮ ⋮ ⋮ … ⋮ ⋮
… 0
. . . 0
…
0 . . … 0 0
⋮ ⋮ ⋮
⋮ ⋮ …
0 0 0 . 1
Una computadora puede ser programada para calcular estas matrices rápidamente para un valor
numérico dado para .
Al sustituir 5.5.8 en 5.5.5 , la función de verosimilitud exacta para un proceso
Gaussiano de MA (q) se puede escribir como en 5.4.10 :
/ /
1
; 2 |D| D
2
dónde
[5.5.9]
⋮
. . ⋯ . .
[5.5.10]
1 1
log ; 2 log
2 2 2
5.6 La Función de Verosimilitud para un Proceso Gaussiano ARMA (p,q) 139
⋯ [5.6.1]
⋯ [5.6.2]
⋯
log 2 log
2 2 2
⋯ 0.
Entonces la probabilidad condicional calculada es
,…, ǀ , … , , 0, … , 0
log 2 log
2 2 2
Como en el caso de los procesos de media móvil. Estas aproximaciones sólo deben utilizarse si los
valores de satisfacción
1 ⋯ 0
Fuera del círculo de unidad
Algoritmos alternativos
El método más sencillo para calcular la función de verosimilitud exacta para un proceso
Gaussiano ARMA es utilizar el filtro de Kalman descrito en el Capítulo 13. Para más detalles sobre
estimación exacta y aproximada de máxima verosimilitud de modelos ARMA, ver Galbraith y
Galbraith (1974). Box y Jenkins (1976. Capítulo 6). Hannan y Rissanen (1982), y Koreisha y Pukkila
(1989).
140 Capítulo 5 | Estimación de Máxima Verosimilitud
5.7. Optimización Numérica
Las secciones anteriores del capítulo han mostrado cómo calcular la función de probabilidad de
logaritmos
, ,…, , ,…, ; [5.7.1]
Para varias especificaciones oh el proceso que ha generado los datos observados y1, y2, …, yT. Dar
los datos observados, las fórmulas dadas se podrían utilizar para calcular el valor de L (θ) para
cualquier valor numérico dado de θ.
Esta sección discute cómo encontrar el valor de que maximiza L (θ) dado que no tiene más
conocimiento que esta capacidad para calcular el valor de L (θ) para cualquier valor particular de θ.
El enfoque general es escribir un producto que pueda utilizar una computadora para calcular el
valor numérico de L (θ) para cualquier valor numérico particular para θ y los datos observados y1,
y2, …, yT. Podemos pensar en este procedimiento como una "caja negra" que nos permite adivinar
algún valor de θ y ver cuál es el valor resultante de L (θ) seria:
L (θ)
La idea será hacer una serie de suposiciones diferentes para θ, comparar los valores de L (θ) el valor
para lo cual L (θ) es el más grande. Tales métodos se describen como maximización numérica.
Búsqueda de cuadrícula
El enfoque más simple para la maximización numérica se conoce como el método de
búsqueda de cuadrícula. Para ilustrar este enfoque, supongamos que tenemos datos generados por
un proceso AR (1), para el cual se consideró que la probabilidad de logar estaba dada por [5.2.9].
Para mantener el ejemplo muy sencillo, se supone que se sabe que la media del proceso es cero
(c = 0) y que las innovaciones tienen una varianza unitaria ( 1). El único parámetro
desconocido es el coeficiente autorregresivo , y [5.2.9] simplifica a
0 141
y evaluar () en una cuadrícula más fina, calculando el valor de para todos los valores de
entre 0.1 y 0.3 en el incremento de 0.02. Procediendo de esta manera, debe ser posible acercarse
arbitrariamente al valor de que maximiza haciendo la cuadrícula más fina y más fina.
Tenga en cuenta que este procedimiento no encuentra el MLE exacta, pero en su lugar
se aproxima con cualquier precisión deseada. En general, este será el caso con cualquier algoritmo
de maximización numérica. Para utilizar estos algoritmos, por lo tanto, tenemos que especificar un
criterio de convergencia, o algunos dicen manera de decidir cuándo estamos lo suficientemente
cerca de la máxima real. Por ejemplo, supongamos que queremos una estimación que difiera de la
verdadera MLE por no más de ±0.0001. Entonces continuaríamos refinando la rejilla hasta que los
incrementos estén en pasos de 0.0001, y la mejor estimación entre los elementos de esa rejilla sería
el MLE numérico de .
FIGURA 5.1 Probabilidad de log para un proceso AR (1) para varias guías de ϕ.
142 Capítulo 5 | Estimación de Máxima Verosimilitud
FIGURA 5.2 Función de probabilidad de registro bimodal
Para entender este enfoque, vamos a desestimar temporalmente la naturaleza de la "caja negra" de la
investigación y en su lugar examinar cómo proceder analíticamente con un problema particular de
maximización. Supongamos que tenemos una estimación inicial del vector de parámetro, denotada
, y deseamos llegar a una mejor estimación . Imaginemos que estamos obligados a elegir
para que la distancia al cuadrado entre y sea un número fijo k:
El valor óptimo para elegir para sería entonces la solución al siguiente problema de
maximización restringida:
max ′sujeto a ’
k ’ [5.7.3]
Donde Denota un multiplicador de Lagrange. Diferenciando [5.7.3] con respecto a Y fijar el
resultado igual a cero rendimientos
2 0
[5.7.4]
La expresión [5.7.5] afirma que si se nos permite cambiar sólo por una cantidad fija, se obtendrá
el mayor incremento en la función de probabilidad de log si se elige el cambio en (la magnitud
) como constante 1/(2λ) a veces el vector de gradiente . Si estamos
contemplando un paso muy pequeño (de modo que k es cercano a cero), el valor se
aproximará . En otras palabras, el vector gradiente da la dirección en la que la
función de probabilidad de log aumenta más abruptamente desde .
1.5 2 . [5.7.6]
Podemos ver fácilmente analíticamente este ejemplo de que el MLE está dado por 0,0 ′.
Utilicemos, sin embargo, este ejemplo para ilustrar cómo funciona el método del ascenso más
empinado. Los elementos del vector de gradiente son
3 4 [5.7.7]
3 4
Un aumento en aumentaría la probabilidad, mientras que un aumento en disminuiría la
probabilidad. El vector de gradiente evaluado en es
3
4
De manera que el paso óptimo debería ser proporcional a (3,-4)’. Por ejemplo, con k =
1 elegiríamos
3
5
4
;
5
Es decir, las nuevas suposiciones serían 0.4 y 0.2. Para aumentar la probabilidad
en la mayor cantidad, queremos incrementar y disminuir con respecto a sus valores en la
conjetura inicial . Puesto que un cambio de una unidad en tiene un efecto mayor sobre
que un cambio de una unidad en , el cambio en es mayor en valor absoluto que el cambio en
.
Volvamos ahora a la perspectiva de la caja negra, donde la única capacidad que tenemos es calcular
el valor de para un valor numérico especificado de θ. Podríamos comenzar con una
estimación inicial arbitraria del valor de θ, denotado . Supongamos que entonces calculamos el
valor del vector de gradiente en .
[5.7.8]
Este gradiente podría, en principio, ser calculado analíticamente, diferenciando la expresión general
de con respecto a θ y escribiendo un procedimiento informático para calcular cada elemento
de dados los datos y un valor numérico para θ. Por ejemplo, expresión [5.7.7] podría utilizarse
144 Capítulo 5 | Estimación de Máxima Verosimilitud
para calcular para cualquier valor particular de θ. Alternativamente, si es demasiado difícil
diferenciar analíticamente, siempre podemos obtener una aproximación numérica al
gradiente viendo cómo cambia para un pequeño cambio en cada elemento de θ. En particular,
el i-ésimo elemento de podría ser aproximado por
, ,…, , , , ,…, .
Para algunos escalares positivos s. Una opción adecuada para s podría encontrarse por una
adaptación del método de búsqueda de graduación. Por ejemplo, podríamos calcular los valores de
∗ para s = 1/16, 1/8 , ¼, ½, 1, 2, 4, 8y 16 y elegir como nueva estimación
el valor de ∗ para el cual es mayor. Valores menores o mayores de s
también podrían ser explorados si el máximo parece estar en uno de los extremos. Si ninguno de los
valores de s mejora la probabilidad, entonces se debe probar un valor muy pequeño para s tal como
el valor ∆ 10 utilizado para aproximar la derivada.
∗
Para m = 0, 1, 2, … hasta que se cumpla algún criterio de convergencia, como por ejemplo que el
vector gradiente esté dentro de una tolerancia especificada de cero, la distancia entre
y sea menor que un cierto umbral especificado o el cambio entre y
sea menor que Alguna cantidad deseada.
Figure 5.3 ilustran el método del ascenso más empinado cuando θ contiene a = 2 elementos. La
figura muestra las curvas de nivel para la probabilidad de log ; A lo largo de un contorno
dado, la probabilidad de log es constante. Si la iteración se inicia en la estimación inicial ,
el gradiente describe la dirección del ascenso más pronunciado.
Encontrar el paso óptimo en esa dirección produce la nueva estimación . El gradiente en ese
punto determina entonces una nueva dirección de búsqueda en la que se basa una nueva
estimación , hasta que se alcanza la parte superior de la colina.
La figura 5.3 también ilustra una generalización multivariante del problema con múltiples máximos
locales, visto anteriormente en la Figura 5.2. El procedimiento debe converger a un máximo local,
∗
que en este caso es diferente del máximo global θ*. En la figura 5.3, parece que si se usaron
para iniciar la iteración en lugar de , el procedimiento convergería al máximo global real θ*.
Practico la única manera de asegurar que se encuentra un máximo global es comenzar la iteración a
partir de un número de valores iniciales diferentes para y continuar la secuencia desde cada
valor inicial hasta que se descubre la parte superior de la colina asociada con ese valor inicial.
Newton-Raphson
Un inconveniente para el método de ascenso más pronunciado es que puede requerir un
número muy grande de iteración para cerrar en el máximo local. Un método alternativo conocido
como Newton-Raphson a menudo converge más rápidamente siempre y cuando (1) las segundas
derivadas de la función de probabilidad de log exista y (2) la función sea cóncava, lo que
significa que -1 veces la matriz de las segundas derivadas está en todas partes positivo definitivo.
Supongamos que θ es un vector (a x 1) del parámetro a estimar. Sea el vector gradiente de
la función de probabilidad de log en .
y deja denotar -1 veces la matriz de las segundas derivadas de la función log verosimilitud
.
′
≅ θ θ θ . [5.7.10]
La idea detrás del método de Newton-Raphson es elegir θ para maximizar [5.7.10]. Establecer la
derivada de [5.7.10] con respecto a θ igual a cero resulta en
θ 0
[5.7.11]
Deje denotan una conjetura inicial en cuanto al valor de θ. Se puede calcular la derivada de la
probabilidad de log en esa estimación inicial ( ) ya sea analíticamente, como en [5.7.7], o
numéricamente, como en [5.7.9]. También se pueden utilizar métodos analíticos o numéricos para
calcular el negativo de la matriz de las segundas derivadas en la conjetura inicial . La
expresión [5.7.11] sugiere que una estimación mejorada de θ (denote ) satisface
146 Capítulo 5 | Estimación de Máxima Verosimilitud
o
[5.7.12]
Uno podría calcular el gradiente siguiente y Hessian en y usarlos para encontrar una nueva
estimación y continuar iterando de esta manera. El paso mth en la iteración actualiza la
estimación de θ utilizando la fórmula
[5.7.13]
Si la función de probabilidad de log pasa a ser una función cuadrática perfecta, entonces [5.7.10] se
mantiene exactamente y [5.7.12] generará el MLE exacto en un solo paso:
[5.7.15]
∆ ∆ ′
∆ ′ ∆
[5.7.16]
∆ ∆ ′
∆ ′ ∆
donde
∆ ≡
∆ ≡
En qué sentido debe ser calculado de [5.7.16] como una estimación de la inversa de
?. Consideremos primero el caso cuando θ es un escalar (a = 1). Entonces [5.7.16]
simplifica a
∆ ∆
∆ ∆ ∆
∆
∆
∆
∆
en este caso,
∆
∆
Más generalmente (para a> 1), una estimación de la derivada de g (·) debería estar relacionada con
el cambio observado en g (·) de acuerdo con
≅
′
es decir,
148 Capítulo 5 | Estimación de Máxima Verosimilitud
o
∆ ≅ ∆
∆ ∆
[5.7.17]
Después de la multiplicación de [5.7.16] por ∆ confirma que [5.7.17] está realmente
satisfecho por la estimación de de Davidon - Fletcher – Powell.
∆ ∆
∆ ∆ ′ ∆
∆ ′ ∆
∆ ∆ ′ ∆
∆ ′ ∆
∆ ∆ ∆
∆
Así, el cálculo de [5.7.16] produce una estimación de que es consistente con la
magnitud del cambio observado entre y dado el tamaño del cambio entre
y .
La siguiente proposición (demostrada en el Apéndice 5. A al final del capítulo) establece algunas
otras propiedades útiles de la fórmula de actualización [5.7.16].
Proposición 5.1: (Fletcher y Powell (1963)). Considere , donde : → tiene continuas primeras
derivadas denotadas
.
Supongamos que algún elemento de es distinto de cero y de una matriz simétrica definida (a x a)
positiva. Entonces, lo siguiente.
(a) Existe un escalar s > 0 tal que > para
[5.7.18]
(b) Si s en [5.7.18] se elige para maximizar , entonces las condiciones de primer orden para un
máximo interior implican que
′ 0 [5.7.19]
(c) Siempre que [5.7.19] se mantenga y que algún elemento de sea distinto de cero,
entonces descrito por [5.7.16] es una matriz simétrica definida positiva.
Con definido positivo, entonces Fletcher y Powell (1963) mostraron que la iteración en [5.7.15] y
[5.7.16] convergerá al máximo global verdadero en a pasos
;
De manera más general, es bien aproximado por una función cuadrática, entonces el
procedimiento de búsqueda Davidon - Fletcher - Powell debe acercarse al máximo global más
rápidamente que el método de ascenso más pronunciado,
≅
Para el N grande, mientras que debería converger al negativo de la matriz de las segundas
derivadas de la función de verosimilitud:
≅
′
[5.7.20]
En la práctica, sin embargo, la aproximación en [5.7.20] puede ser algo pobre, y es mejor evaluar la
matriz de derivadas secundarias para calcular errores estándar, como se analiza en la Sección 5.8.
Si la función no es globalmente cóncava o si el valor inicial está lejos del máximo real, el
procedimiento de Davidon - Fletcher - Powell puede hacer muy mal.
Si se encuentran problemas, a menudo ayuda a probar un valor de inicio diferente ,a
cambiar la escala de los datos o parámetros para que los elementos de θ estén en unidades
comparables, o para reescalar la matriz inicial por ejemplo estableciendo
1 10
La sección anterior discutió maneras de encontrar la máxima probabilidad como dado sólo la
habilidad numérica para evaluar la función de probabilidad de log . Esta sección resume los
enfoques generales que pueden usarse para probar una hipótesis acerca de θ. La sección resume
simplemente una serie de resultados útiles sin proporcionar ninguna prueba. Volveremos a estos
150 Capítulo 5 | Estimación de Máxima Verosimilitud
temas con mayor profundidad en el Capítulo 14, donde se desarrollará la base estadística detrás de
muchas de estas reivindicaciones.
Sin embargo, antes de detallar estos resultados, vale la pena llamar la atención sobre dos de
los principales supuestos detrás de las fórmulas presentadas en esta sección. En primer lugar, se
supone que los datos observados son estrictamente estacionarios. En segundo lugar, se supone que
ni la estimación ni el valor verdadero caen en un límite del espacio de parámetro permisible.
Por ejemplo, supongamos que el primer elemento de θ es un parámetro que corresponde a la
probabilidad de un evento particular, que debe estar entre 0 y 1. Si el evento no ocurrió en la
muestra, la estimación de probabilidad máxima de la probabilidad podría ser Ero Este es un
ejemplo donde la estimación cae en el límite del espacio de parámetro permisible, en cuyo caso
las fórmulas presentadas en esta sección no serán válidas.
̂
′
[5.8.2]
Aquí denotan la probabilidad de registro
log | | ;
′≅
′
[5.8.3]
̂ , , ′
[5.8.4]
Aquí , denota el vector (a x 1) de las derivadas del log la densidad condicional de la
observación t- iésima con respecto a los elementos a del vector de parámetros θ, con esta derivada
evaluada en la estimación de máxima verosimilitud :
log | , ,…;
, |
′≅ , , ′
3 0
,
′ 0 4
Y por tanto el resultado [5.8.3] sugiere que la varianza de la estimación de máxima verosimilitud
puede ser aproximada por 1/4. El MLE para este ejemplo fue 0. Así, una el intervalo de
confianza aproximado del 95% para está dado por
0 2 1/4 1.
Tenga en cuenta que a menos que los elementos fuera de la diagonal de ̂ sean cero, en
general uno necesita calcular todos los elementos de la matriz ̂ e invertir esta matriz completa para
obtener un error estándar para cualquier parámetro dado.
¿Qué estimación de la matriz de información, ̂ o ̂ , es mejor utilizar en la práctica? La
expresión [5.8.1] en sólo una aproximación a la distribución de , y ̂ y ̂ son a su vez sólo
aproximaciones al verdadero valor de j. La teoría que justifica estas aproximaciones no da ninguna
orientación clara a la cual es mejor usar, Y típicamente, los investigadores dependen de cuál sea la
estimación de la matriz de información más fácil de calcular. Si las dos estimaciones difieren
mucho, esto puede significar que el modelo está mal especificado. White (1982) desarrolló una
prueba general de las bases de especificación del modelo sobre esta idea. Una opción para construir
errores estándar cuando las dos estimaciones difieren significativamente es usar los errores
estándares de "casi-máxima verosimilitud" discutidos al final de esta sección.
152 Capítulo 5 | Estimación de Máxima Verosimilitud
o 4/7. El MLE restringido es así ̅ , ′, y el valor máximo alcanzado para la
probabilidad de log mientras que satisface la restricción es
̅ .
3∗4 / 2∗7∗7 4 3
6/7
El MLE sin restricciones es ̅ 0, atr que . Por lo tanto, [5.8.5] sería
12
2 ̅ 1.71
7
La prueba aquí implica una sola restricción, por lo que m = 1. En la Tabla B.2 del Apéndice B, la
probabilidad de que una variable (1) exceda a 3.84 es 0.05. Desde 1,71 <3,84, aceptamos la
hipótesis nula de que 1 en el nivel de significación del 5%.
log | , ,…;
̅, ̅
La prueba del multiplicador de Lagrange de la hipótesis nula de que las restricciones son verdaderas
viene dada por el siguiente estadístico:
̅, ′ ̅,
[5.8.6]
Si la hipótesis nula es verdadera, entonces para T grande debería tener aproximadamente una
distribución (m). La matriz de información j se puede estimar nuevamente como en [5.8.2] o
[5.8.4] con reemplazar por ̅
Esta matriz de varianza - covarianza fue propuesta por White (1982), quien describió este enfoque
como la estimación de casi máxima verosimilitud.
Por ejemplo, para asegurar que ϕ es siempre entre ±1, podríamos tomar
| |
[5.9.1]
El objetivo es encontrar el valor de λ que produce el mayor valor para la probabilidad de log.
Comenzamos con una conjetura inicial como λ=3. El procedimiento para evaluar la función de
probabilidad de log calcula primero
154 Capítulo 5 | Estimación de Máxima Verosimilitud
3/ 1 3 0.75
Y luego encuentra el valor para la probabilidad de log asociada con este valor de ϕ de [5.7.2]. No
importa qué valor para λ la computadora adivina, el valor de ϕ en [5.9.1] siempre será menor que 1
en valor absoluto y la verosimilitud función será bien definido. Una vez que hemos encontrado el
valor de que maximiza la función de verosimilitud, la estimación de máxima verosimilitud de ϕ es
entonces dada por
1
Esta técnica de reparameterizar la función de verosimilitud de forma que los estimados siempre
satisfacen las restricciones necesarias a menudo es muy fácil de implementar. Sin embargo, se debe
mencionar una nota de precaución. Si un error estándar se calcula a partir de la matriz de las
segundas derivadas de la probabilidad de log como en [5.8.3], y representa el error estándar de ,
no el error estándar de . Para obtener un error de stardard para ., el mejor enfoque es primero
reparameterizar en términos de λ para calcular la matriz de derivadas secundarias evaluadas en .
para obtener el error estándar final para . del error estándar para Sobre la fórmula para una
prueba de Wald de una hipótesis no lineal descrita en el Capítulo 14
⋯
⋯
Ω ⋮ ⋮ ⋯ ⋮
⋯
Aquí es necesario imponer la condición de que Ω es positiva definida y simétrica. El mejor enfoque
es parametrizar Ω en términos de n(n+1) /2 elementos distintos de la descomposición de Cholesky
de Ω:
Ω PP′ [5.9.2]
donde
0 0 ⋯ 0
0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
⋯
⋯ 1
En este caso, un enfoque es parametrizar las probabilidades en términos de , ,…, , donde
/ 1 ⋯ P ara i 1, 2, … , k 1
1/ 1 ⋯
Puesto que es definida positiva y puesto que 0, la expresión [5.A.2] establece que
,
156 Capítulo 5 | Estimación de Máxima Verosimilitud
[5.A.3]
Con la última línea que sigue a [5.7.18]. Las condiciones de primer orden estabelecidas [5.A.3]
iguales a cero, lo que implica
0
Con la última línea siguiendo de nuevo desde [5.7.18]. Esto establece la reclamación en [5.7.19]
′ ∆ ∆ ′
′ ′
∆ ′ ∆
′ ∆ ∆ ′
∆ ′ ∆
[5.A.4]
Puesto que es definida positiva, existe una matriz no singular P tal que
PP′
Definir
∗
≡ ′
∗
≡ ′∆
Entonces [5.A.4] se puede escribir
′ ′ ∆ ∆ ′ ′
′ ′ ′
∆ ′ ′ ∆
′ ∆ ∆ ′
∆ ′ ∆
[5.A.5]
∗ ∗ ∗ ∗
∗ ∗
∆ ∆
∗ ∗ ∆ ∆
Recordando la ecuación [4.A.6], los dos primeros términos de la última línea de [5.A.5] representan
la suma de los cuadrados de una regresión OLS de ∗ sobre ∗ . Esto no puede ser negativo.
∗ ∗ ∗ ∗
∗ ∗
∗ ∗
0
[5.A.6]
Apéndice 5.A. Pruebas de las Proposiciones del Capítulo 5 157
Con la última línea que sigue a [5.7.18]. Pero el término final en [5.A.8] debe ser negativo, en virtud
de los hechos que es positivo definido, s> 0, amd 0. Por lo tanto, [5.A.7] tiene, lo
que significa que es positivo definido para este caso.
Caso 2. No hay β tal que ∆ . Si este caso, [5.A.6] es cero, de modo que [5.A.6] se
convierte
′ ∆ ∆ ′
′
∆ ′ ∆
∆ ′ ∆ ∆ ′ ∆
∆ ′ ∆
∆ ∆ ′ 0,
como en [5.A.8]
Capítulo 5 Ejercicios
5.1 Muestran que el valor de [5.4.16] en ̅, es idéntico a su valor en ̅ ,
̅
5.2 Verifique que la expresión [5.7.12] calcule el máximo de [5.7.6] en un solo paso desde la
estimación inicial 1,1 .
5.3 Dejar (y1, y2, …, yT.) ser una muestra de tamaño T dibujar a partir de un i.i.d. N ( , )
distribución
(a) Muestran que las estimaciones de máxima verosimilitud son dadas por
1 0
̂ 1
0 2
̂ 0
,
0 2
Capítulo 5 Referencias
Anderson, Brian D.O., y John B, Moore. 1979. Filtrado óptimo. Englewood Cliffs, N.J .: Prentice-
Hall.
Berndt, E.K., B. H. Hall, y J. A. Hausman. 1974. “Estimación e inferencia en modelos estructurales
no lineales”. De la medición económica y social 3:653-65.
158 Capítulo 5 | Estimación de Máxima Verosimilitud
Box, George E P y D R Cox 1964. “Un análisis de las transformaciones”. Diario de la serie real de
la sociedad estadística B, 26: 211-52
Y Gwilym M Jenkins. 1976. Análisis de series temporales: pronóstico y control, rev. Ed. San
francisco: Día de Holden
Broyden. C. G. 1965. "Una clase de métodos para resolver ecuaciones simultáneas no lineales".
Matemáticas de Computación 21: 368-81.
Chiang, Alpha C. 1974. Métodos Fundamentales de la Economía Mhematical, 2d ed. Nueva York:
McGraw-Hill.
Davidon, W.C. 1959. "Métodos Metálicos Vaeiable de Minimización". A.E.C. Informe de
investigación y desarrollo ANL-5990 (rev.).
Fletcher, R. y M. J. D. Powell. 1963. "Un Método de Descenso Rapidamente Convergergente para
la Minimización". Computer Journal 6: 163 - 68.
Galbraith, R.F., y J.I. Galbraith. 1974. "Sobre las inversiones de algunas matrices modeladas que
surgen en la teoría de series de tiempo estacionarias". Revista de Probabilidad Aplicada11: 63-71
Nelson, Harold L., y C. W. J. Granger. 1979. "Experiencia con el uso de la transformación de Box-
Cox cuando se pronostican series de tiempos económicos". Journal of Econometrics 10: 57-69.
Quandt, Richard E. 1983. "Computacional problemas y métodos", en Zvi Griliches y Michael D.
Intriligator, eds. Manual de Econometría, Vol. 1. Amsterdam: Norte de Holanda.White. Halbert.
1982. "Estimación de Máxima Verosimilitud de Modelos Perdidos". Econometrica 50: 1-25.
Capítulo 5 Referencias 159
6
Análisis Espectral
Hasta este punto en el libro, el valor de una variable 𝑌𝑡 , en compañía de t ha sido típicamente
descrito en términos de una secuencia de innovaciones {𝜀}∞
𝑡=−∞ en modelos de la forma.
∞
𝑌𝑡 = 𝜇 + ∑ 𝜓𝑗 𝜀𝑡−𝑗
𝑗=0
El enfoque se ha centrado en las implicaciones de tal representación para la covarianza entre 𝑌𝑡 ,y
𝑌𝜏 con distintos acompañantes como t y 𝜏 . Esto es conocido como el análisis de propiedades de
{𝑌𝑡 }∞
𝑡=−∞ en el dominio temporal.
Este capítulo, en cambio describe el valor de 𝑌𝑡 , como una suma ponderada de funciones periódicas
de la forma cos(𝜔𝑡) y 𝑠𝑒𝑛(𝜔𝑡) , donde 𝜔 denota una frecuencia particular:
𝜋 𝜋
𝑌𝑡 = 𝜇 + ∫ 𝛼(𝜔). cos(𝜔𝑡) 𝑑𝜔 + ∫ 𝛿(𝜔). 𝑠𝑒𝑛(𝜔𝑡)𝑑𝜔
0 0
El objetivo será determinar cómo los ciclos importantes de frecuencias
diferentes están en explicar el comportamiento de 𝑌𝑡 . Esto es conocido como dominio de la
frecuencia o análisis espectral. Como veremos, los dos tipos de análisis no son mutuamente
exclusivos. Cualquier proceso de covarianza estacionaria tiene una representación de dominio
temporal y una de dominio frecuencial, y cualquier función de los datos que puedan ser descritos
por una representación, puede ser igualmente bien descrita por la otra representación. Para algunas
funciones, la descripción del dominio temporal puede ser más sencilla, mientras para otras
funciones la descripción del dominio frecuencial es la más sencilla.
La sección 6.1 describe las propiedades del espectro poblacional e introduce el teorema de la
representación espectral, mientras puede ser considerado como una versión del dominio
frecuencial de la teoría de Wold. La sección 6.2 presenta el modelo análogo del espectro
poblacional y utiliza un marco de regresión de Mínimos Cuadrados Ordinarios (MCO) para
provocar el teorema de la representación espectral y explicar el sentido en el cual el modelo
espectral identifica las contribuciones a la varianza de los datos observados de componentes
periódicos con ciclos diferentes. La sección 6.3 habla de estrategias para estimar el espectro
poblacional. La sección 6.4 presenta un ejemplo de la aplicación de técnicas espectrales y comenta
sobre algunas de las maneras en que pueden ser utilizadas en la práctica. Las discusiones más
detalladas sobre análisis espectral son proporcionadas por Anderson (1971), Bloomfield (1976) y
Fuller (1976).
𝑔𝛾 (𝑧) = ∑ 𝛾𝑗 𝑧 𝑗
𝑗=−∞
[6.1.1]
Donde z denota un escalar complejo. Si [6.1.1] es dividido por 2𝜋 y valorado en algún z
representado 𝑧 = ℯ −𝑖𝜔 para 𝑖 = √−1 y 𝜔 un escalar real , el resultado es llamado espectro
poblacional de Y:
∞
1 −𝑖𝜔
1
𝑆𝛾 (𝜔) = 𝑔 (ℯ ) = ∑ 𝛾𝑗 ℯ −𝑖𝜔𝑗
2𝜋 𝛾 2𝜋
𝑗=−∞
[6.1.2]
Tomando en cuenta que el espectro es una función de 𝜔: dado cualquier valor en particular de 𝜔 y
una secuencia de autocovarianza {𝑌𝑗 }∞
𝑗=−∞ , podríamos calcular en un principio el valor de
𝑆𝛾(𝜔) .
El teorema de De Moivre nos permite escribir ℯ −𝑖𝜔𝑗 como:
Tome en cuenta que por un proceso de covarianza estacionaria, 𝛾𝑗 = 𝛾−𝑗 .Por consiguiente, [6.1.4]
implica
∞
1 1
𝑆𝛾 (𝜔) = 𝛾 [cos(0) − 𝑖. 𝑠𝑒𝑛(0)] + {∑ 𝛾𝑗 [ cos(𝜔𝑗) + cos(−𝜔𝑗) − 𝑖. 𝑠𝑒𝑛(𝜔𝑗)
2𝜋 0 2𝜋
𝑗=1
− 𝑖. 𝑠𝑒𝑛(−𝜔𝑗)]}
[6.1.5]
1Analizados en la sección A.1 del Análisis Matemático (Apéndice A) al final del libro
2Consultar, por ejemplo, Fuller (1976, p.110)
𝜓(𝐿) = ∑ 𝜓𝑗 𝐿𝑗
𝑗=0
∞
∑ |𝜓𝑗 | < ∞
𝑗=0
2
𝐸(𝜀𝑡 𝜀𝜏 ) = { 𝜎 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
Recordar de la expresión [3.6.8] que la función de autocovarianza generada para Y es dada por:
𝑔𝛾 (𝑧) = 𝜎 2 𝜓(𝑧)𝜓(𝑧 −1 )
Recuerde que cos(𝜔)va de 1 a-1 como 𝜔 va de 0 a 𝜋. Por ello, cuando 𝜃 > 0 el espectro 𝑆𝛾 (𝜔) es
una función monótonamente decreciente de 𝜔 para 𝜔 en [0,𝜋], mientras que cuando 𝜃 < 0, el
espectro es monótonamente creciente.
Para un modelo AR(1):
𝑌𝑡 = 𝑐 + 𝜙𝑌𝑡−1 + 𝜀𝑡
1
Tenemos 𝜓(𝑧) = (1−𝜙𝑧) mientras que | 𝜙 |< 1 .De modo que, el espectro es:
1 𝜎2
𝑆𝛾 (𝜔) =
2𝜋 (1 − 𝜙ℯ −𝑖𝑤 )(1 − 𝜙ℯ −𝑖𝑤 )
[6.1.14]
Si la media móvil y los polinomios regresivos se calculan de la siguiente manera:
1 + 𝜃1 𝑧 + 𝜃2 𝑧 2 + ⋯ + 𝜃𝑞 𝑧 𝑞 = (1 − 𝜂1 𝑧)(1 − 𝜂2 𝑧) … (1 − 𝜂𝑞 𝑧)
1 − 𝜙1 𝑧 + 𝜙2 𝑧 2 + ⋯ + 𝜙𝑝 𝑧 𝑝 = (1 − 𝜆1 𝑧)(1 − 𝜆2 𝑧) … (1 − 𝜆𝑝 𝑧)
𝜋
∫−𝜋 𝑆𝛾 (𝜔)𝑒 𝑖𝑤𝑘 𝑑𝜔 = 𝛾𝑘
[6.1.15]
El resultado [6.1.15] puede ser equivalentemente escrito como:
𝜋
∫−𝜋 𝑆𝛾 (𝜔)cos(𝜔𝑘)𝑑𝜔 = 𝛾𝑘
[6.1.16]
El siguiente resultado se obtiene como un caso especial de la proposición 6.1 estableciendo k=0
𝜋
∫ 𝑆𝛾 (𝜔)𝑑𝜔 = 𝛾0
−𝜋
[6.1.17]
En otras palabras, el área bajo el espectro poblacional entre ±𝜋 da 𝛾0 , la varianza de 𝛾𝑡 .
De manera más general – dado que 𝑆𝛾 (𝜔) es no negativo - si tuviéramos que calcular:
𝜔1
∫ 𝑆𝛾 (𝜔)𝑑𝜔
−𝜔1
Para cualquier 𝜔1 entre 0 y 𝜋 , el resultado podría ser un número positivo que podríamos interpretar
como una porción de la covarianza de 𝑌𝑡 , esto es asociado con frecuencias 𝜔 que son menores que
𝜔1 en valor absoluto. Recordando que 𝑆𝛾 (𝜔)es simétrico, la afirmación es:
𝜔1
2. ∫ 𝑆𝛾 (𝜔)𝑑𝜔
0
[6.1.18]
Representa la porción de la varianza de Y que podría ser atribuida a componentes aleatoriamente
periódicos con frecuencia menor o igual a. 𝜔1
¿Qué significa atribuir cierta porción de la varianza de Y a modelos con una frecuencia menor o
igual a 𝜔1? Para explorar esta pregunta, vamos a considerar el siguiente modelo estocástico
bastante especial. Supongamos que el valor de Yen compañía de t está determinado por:
𝑀
E(𝑌𝑡2 ) = ∑𝑀 2 2 2 2
𝑗=1[𝐸(𝛼𝑗 ). 𝑐𝑜𝑠 (𝜔𝑗 𝑡) + 𝐸(𝛿𝑗 ). 𝑠𝑒𝑛 (𝜔𝑗 𝑡)
=∑𝑀 2 2 2
𝑗=1 𝜎𝑗 [ 𝑐𝑜𝑠 (𝜔𝑗 𝑡) + 𝑠𝑒𝑛 (𝜔𝑗 𝑡)
=∑𝑀𝑗=1 𝜎𝑗
2
[6.1.20]
Con la última línea denota a la ecuación [A.1.12].Por lo tanto, para este modelo la porción de la
varianza de Y que es debido a los ciclos de frecuencia 𝜔𝑗 que son dados por 𝜎𝑗2 .
Si las frecuencias son ordenadas 0<𝜔1 <𝜔2 <…<𝜔𝑀 <𝜋, la porción de la varianza de Y que es
2
debido a los ciclos de una frecuencia menor o igual a 𝜔𝑗 es dada por 𝜎12 +𝜎𝑗2 +…+𝜎𝑗2 .
La kth autocovarianza de Y es:
E(𝑌𝑡 𝑌𝑡−𝑘 ) = ∑𝑀 2
𝑗=1{𝐸(𝛼𝑗 ). 𝑐𝑜𝑠(𝜔𝑗 𝑡). cos[𝜔𝑗 (𝑡 − 𝑘)]
E(𝑌𝑡 𝑌𝑡−𝑘 ) = ∑𝑀 2
𝑗=1 𝜎𝑗 . 𝑐𝑜𝑠(𝜔𝑗 𝑘).
[6.1.23]
Ya que la media y las autocovarianzas de Y no son funciones del tiempo, el modelo descrito por
[6.1.19] es una covarianza estacionaria, aunque [6.1.23] implica que la secuencia de autocovarianzas
∞
E{𝛾𝑘 } 𝑘=0 son absolutamente sumatorias.
Fuimos capaces de atribuir cierta porción de la varianza de 𝑌𝑡 a ciclos menores que una frecuencia
dada por el modelo en [6.1.19] porque ese es un modelo bastante especial de covarianza
estacionaria. Sin embargo, hay un resultado general conocido como el teorema de la representación
espectral que dice que cualquier modelo de covarianza estacionaria 𝑌𝑡 , puede ser expresado en
términos de una generalización de [6.1.19].Para cualquier frecuencia fija 𝜔 en [0,𝜋], definimos
variables aleatorias 𝛼(𝜔)y 𝛿(𝜔), y propone escribir un proceso estacionario con autocovarianzas
absolutamente sumatorias en la forma.
𝜋
𝑌𝑡 = 𝜇 + ∫ [ 𝛼(𝜔). cos(𝜔𝑡) + 𝛿(𝜔). 𝑠𝑒𝑛(𝜔𝑡)]𝑑𝜔
0
El proceso aleatorio representado por 𝛼(.) y 𝛿(. ) tiene media cero y las propiedades adicionales
𝜔
que para cualquiera de las frecuencias 0<𝜔1 <𝜔2 <𝜔3 <𝜔4 <𝜋, la variable ∫𝜔 2 𝛼(𝜔)𝑑𝜔 no está
1
𝜔 𝜔 𝜔
correlacionada con ∫𝜔 4 𝛼(𝜔)𝑑𝜔y la variable ∫𝜔 2 𝛿(𝜔)𝑑𝜔no es correlativa con ∫𝜔 4 𝛿(𝜔)𝑑𝜔 ,
3 1 3
𝜔
mientras para cualquier 0<𝜔1 <𝜔2 <𝜋 y 0<𝜔3 <𝜔4 <𝜋, la variable ∫𝜔 2 𝛼(𝜔)𝑑𝜔 no tiene ningún
1
𝜔
vínculo con∫𝜔 4 𝛿(𝜔)𝑑𝜔. Para tal proceso ,uno puede calcular una parte de la varianza de Y ,que
3
se debe a los ciclos con una frecuencia menor o igual a algún valor especificado 𝜔1 a través de una
generalización del procedimiento utilizado para analizar [6.1.19] .Además, esta magnitud resulta ser
dada por la expresión en [6.1.18].
No intentaremos hacer una prueba de la representación del teorema espectral aquí, por lo cual para
detalles el lector es referido a Cramer y Leadbetter (1997, pp.128-38).
En cambio, la siguiente sección proporciona una derivación formal de una versión de muestreo
preciso de estos resultados, mostrando el sentido en el cual el modelo análogo de [6.1.18] da la
porción muestreada de la varianza de series observadas que puede ser atribuidas a ciclos con
frecuencias menores o iguales a 𝜔1 .
∞
Y 𝜇 = 𝐸(𝑌𝑡 ) .Tome en cuenta que el espectro poblacional es expresado en términos de {𝛾𝑗 } 𝑗=0 , el
cual representa segundos momentos poblacionales.
Dada una muestra observada de T observaciones denotaron 𝑦1 , 𝑦2 , … , 𝑦𝑇 , que podemos calcular
hasta T-1 autocovarianzas muestrales de las formulas.
𝑇
−1
𝑇 ∑ (𝑦𝑡 − 𝑦̅) 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑇 − 1
𝛾̂ =
𝑖=𝑗+1
{𝛾̂−𝑗 𝑝𝑎𝑟𝑎 𝑗 = −1, −2, … , −𝑇 + 1
[6.2.2]
Donde 𝑦̅ es la media de la muestral
𝑇
−1
𝑦̅ = 𝑇 ∑ 𝑦𝑡
𝑖=1
[6.2.3]
Para cualquier 𝜔 dada, entonces podemos construir el modelo análogo de [6.2.1], el cual es
conocido como periodograma muestral.
1
𝑠̂𝑦 (𝜔) = ∑𝑇−1 𝛾̂ 𝑒 −𝑖𝜔𝑗
2𝜋 𝑗=−𝑇+1 𝑗
[6.2.4]
Los mismos cálculos que comandaron a [6.1.17] pueden ser utilizados para demostrar que el área
bajo el periodograma es la muestra de la varianza de y:
𝜋
∫ 𝑠̂𝑦 (𝜔)𝑑𝜔 = 𝑦̂0
−𝜋
Como el espectro poblacional, el modelo de periodograma es simétrico en torno a 𝜔=0, de modo
que podríamos escribir equivalentemente:
𝜋
𝑦̂0 = 2 ∫ 𝑠̂𝑦 (𝜔)𝑑𝜔
0
También resulta ser un modelo análogo al teorema de representación espectral, el cual
desarrollamos ahora. En particular, veremos que dada cualquier observación de T en un proceso
(𝑦1, 𝑦2, … , 𝑦𝑇 ), existen frecuencias 𝜔1 ,𝜔2 ,…,𝜔𝑀 y coeficientes 𝜇̂ , 𝛼̂1 , 𝛼̂2 , … , 𝛼̂𝑀 , 𝛿̂1 , 𝛿̂2 , … , 𝛿̂𝑀 tales
que el valor de y en compañía de t puede ser expresado como
𝑀
donde la variable 𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] es ortogonal en el ejemplo de 𝛼̂𝑘 . cos[𝜔𝑘 (𝑡 − 1)] para 𝑗 ≠ 𝑘,
la variable 𝛿̂𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]es ortogonal a 𝛿̂𝑘 . 𝑠𝑒𝑛[𝜔𝑘 (𝑡 − 1)] para 𝑗 ≠ 𝑘 , y la variable
𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)]es ortogonal a 𝛿̂𝑘 . 𝑠𝑒𝑛[𝜔𝑘 (𝑡 − 1)] para toda j y k.
La muestra de varianza de y es 𝑇 −1 ∑𝑇𝑡=1(𝑦𝑡 − 𝑦̅)2 ,y la porción de esta varianza que puede ser
atribuida a ciclos con frecuencia 𝜔𝑗 que puede ser inferida de la muestra de periodograma 𝑠̂𝑦 (𝜔𝑗 ).
Desarrollaremos esta afirmación para el caso, cuando el tamaño de muestra T sea un número impar.
En este caso 𝑦𝑡 , será expresado en términos de funciones periódicas M=(T-1)/2 con frecuencias
diferentes en [6.2.6].Las frecuencias 𝜔1 ,𝜔2 ,…,𝜔𝑀 son especificadas de la siguiente forma:
𝜔1 = 2𝜋/𝑇
𝜔2 = 4𝜋/𝑇
.
.
.
𝜔𝑀 = 2𝑀𝜋/𝑇
[6.2.7]
2(𝑇 − 1)𝜋
𝜔𝑀 = <𝜋
2𝑇
Considere la posibilidad de una regresión de Mínimos Cuadrados Ordinarios (MCO) del valor de 𝑦𝑡
en una constante y en los diversos términos de seno y coseno,
𝑀
𝛽´ = [𝜇 𝛼1 𝛿1 𝛼2 𝛿2 … 𝛼𝑀 𝛿𝑀 ]
[6.2.10]
Tenga en cuenta que 𝑥𝑡 tiene (2M+1)=T elementos, por lo tanto hay tantas variables explicativas
como observaciones. Demostraremos que los elementos de 𝑥𝑡 son independientes de manera lineal,
lo que significa que una regresión de Mínimos Cuadrados Ordinarios (MCO) de 𝑦𝑡 en 𝑥𝑡 da un
encaje perfecto. De este modo, los valores correspondientes para esta regresión son de la forma de
[6.2.6] con ningún término de error 𝜇𝑡 . Además, los coeficientes de esta regresión tienen la
1
propiedad de que (𝛼̂𝑗2 + 𝛿̂𝑗2 ) representa la porción de la muestra de varianza de y que puede ser
2
1
atribuida a ciclos con frecuencia 𝜔𝑗 . Esta magnitud (𝛼̂𝑗2 + 𝛿̂𝑗2 ) asimismo resulta ser proporcional
2
al periodograma muestral evaluado en 𝜔𝑗 . En otras palabras, cualquiera de las series observadas
𝑦1, 𝑦2,..., 𝑦𝑇, pueden ser expresadas en términos de función periódica como en [6.2.6],y la porción de
la muestra de varianza que se debe a los ciclos con frecuencia 𝜔𝑗 pueden ser encontrados de la
muestra de periodograma. Estos puntos son establecidos formalmente en la siguiente proposición,
la cual es provista en el apéndice 6.A al final de este capítulo.
Además, sea {𝑦1, 𝑦2, … , 𝑦𝑇 } cualquier número de T. Entonces , las siguientes son verdaderas:
a. El valor de 𝑦𝑡 puede ser expresado como:
𝑀
c. La porción de la varianza mostrada de y que puede ser atribuida a ciclos de la frecuencia 𝜔𝑗 puede ser
expresada equivalentemente como
1 2 4𝜋
(𝛼̂𝑗 + 𝛿̂𝑗2 ) = ( ) . 𝑠̂𝑦 (𝜔𝑗 )
2 𝑇
[6.2.15]
El resultado 6.2.11 establece que ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ es una matriz diagonal, lo que significa que las variables
explicativas contenidas en 𝑥𝑡 son mutuamente ortogonales. La proposición afirma que cualquier
serie de tiempo observada
(𝑦1, 𝑦2, … , 𝑦𝑇 ), con T impar puede ser escrito como una constante más una suma ponderada de
funciones periódicas (T-1) con (T-1)/2 frecuencias diferentes; un resultado relacionado puede
también ser desarrollado cuando aunque T sea un entero. Por lo tanto, la proposición da una
muestra análoga finita del teorema de la representación espectral. La proposición muestra además
que el modelo de periodograma captura la porción de la muestra de varianza de y que puede ser
atribuida a ciclos de diferentes frecuencias.
Tenga en cuenta que las frecuencias 𝜔𝑗 en términos de los cuales la varianza de y es explicada en
[0, 𝜋]. ¿Por qué no se emplean frecuencias negativas en también? Suponga que la información fue
actualmente generada por un caso especial del proceso en [6.1.19],
cos[(p/2)t] cos[(3p/2)t]
1
.5
0
2 4 6 8 t
-.5 -1
-1.5
-2
0 2 4 6 8 10
𝜋 3𝜋x
Gráfico 6.1 Aliasing: trazos de cos[( ) 𝑡] y cos[( ) 𝑡]como funciones de t
2 2
+ 𝜔 como en [6.2.17] es simplemente una cuestión de convención que elige enfocarse solo en
frecuencias positivas
¿Por qué es 𝜔 = 𝜋 la mayor frecuencia considerada? Considere que la información fue generada de
una función periódica con frecuencia 𝜔 > 𝜋, 𝜔 = 3𝜋/2 para este ejemplo
3𝜋 3𝜋
𝑌𝑡 = 𝛼. cos[( ) 𝑡] + 𝛿. 𝑠𝑒𝑛[( ) 𝑡]
2 2
[6.2.18]
Nuevamente, las propiedades de la función del seno y coseno implican que [6.2.18] es equivalente a
𝜋 𝜋
𝑌𝑡 = 𝛼. cos[(− ) 𝑡] + 𝛿. 𝑠𝑒𝑛[(− ) 𝑡]
2 2
[6.2.19
3𝜋
De esta forma, por previo argumento, una representación con ciclos de frecuencia ( )es
2
𝜋
observacionalmente indistinguible de alguno con ciclos de frecuencia( 2 ).
Para resumir, si el proceso de información generada actualmente incluye ciclos con frecuencias
negativas o con frecuencias mayores a 𝜋, estás serán atribuidas a ciclos con frecuencias entre 0 y 𝜋.
Esto es conocido como aliasing.
Otra forma de entender sobre aliasing es lo que cumple. Recuerde que el valor de la función
2𝜋
cos(𝜔𝑡)se repite cada 𝜔 periodos, por lo tanto, una frecuencia de 𝜔 es asociada con un periodo de
Tenga en cuenta que en una muestra particularmente finita, la menor frecuencia utilizada para
explicar la variación en y es 𝜔1 = 2𝜋/𝑇, la cual corresponde a un periodo de T. Si un ciclo toma
más tiempo que T periodos a repetirse, no hay mucho que uno pueda inferir sobre esto si uno solo
tiene T observaciones válidas.
Como resultado (C) de la Proposición 6.2 indica que la porción de la muestra de varianza de y que
puede ser atribuida a ciclos de frecuencia 𝜔𝑗 que son proporcionales al muestreo de periodograma
evaluado en 𝜔𝑗 con 4 𝜋/𝑇 la constante de proporcionalidad. Por tanto, la proposición desarrolla el
fundamento formal de la afirmación que el muestreo de periodograma refleja de la porción de la
muestra de varianza y que puede ser atribuida a ciclos de frecuencias distintas.
¿Por qué la constante de proporcionalidad es igual a 4 𝜋/𝑇 en [6.2.15]? El espectro poblacional
𝑆𝛾 (𝜔) podría ser estimado en cualquier 𝜔 en la serie continua de puntos entre 0 y 𝜋.En este
sentido, es muy parecido a una probabilidad de densidad 𝑓𝑥 (𝑥), donde X es una variable aleatoria
continua .Aunque podríamos pensar ligeramente en el valor de 𝑓𝑥 (𝑥), como la ‘’probabilidad ‘’
𝑥
donde 𝑋 = 𝑥, es preciso decir que el cálculo integral ∫𝑥 2 𝑓𝑥 (𝑥) 𝑑𝑥 representa la probabilidad que
1
X toma como valor entre 𝑥1 y 𝑥2 .
A medida que 𝑥2 −𝑥1 se reduce, la probabilidad de que X será observada para presentarse entre
𝑥1 y 𝑥2 se reduce y la probabilidad de que X pueda tomar con exactitud el valor x es efectivamente
igual a cero. De la misma forma, aunque podamos pensar de forma general sobre el valor de
𝑠𝛾(𝜔)como la contribución que estos ciclos con frecuencia 𝜔 hacen a la varianza de Y , es más
preciso decir que el cálculo integral
𝜔1 𝜔1
∫ 𝑠𝛾 (𝜔)𝑑𝜔 = ∫ 2𝑠𝛾 (𝜔)𝑑𝜔
−𝜔𝑡 0
1 4Veala sección A.1 del análisis matemático (Apéndice A) al final del libro a través de una
discusión de este punto.
La sección 6.1 introdujo el espectro poblacional 𝑠𝛾 (𝜔),el cual indica la porción de la varianza
poblacional de Y que puede ser atribuida a ciclos de frecuencias 𝜔.
Esta sección aborda la siguiente pregunta: Dada una muestra de observación
{𝑦1, 𝑦2, … , 𝑦𝑇 },,¿Cómo podría ser estimado 𝑠𝛾 (𝜔)?
Supongamos que
∞
𝑌𝑡 = ∑ 𝜓𝑗 𝜀𝑡−𝑗
𝑗=0
Donde {𝜓𝑗 }∞ 𝑗=0 es absolutamente sumatorio y donde {𝜀𝑡 }∞
𝑡=−∞ es una secuencia i.i.d
(independiente e idénticamente distribuida)con 𝐸(𝜀𝑡 ) = 0 y 𝐸(𝜀𝑡 ) = 𝜎 2 . Sea 𝑠𝛾 (𝜔)el espectro
2
poblacional definido en [6.1.2],y considere a 𝑠𝛾 (𝜔) > 0para toda 𝜔. Sea también 𝑠̂𝛾 (𝜔). el
periodograma muestral definido en [6.2.4].Fuller (1976,p.280) mostro que para 𝜔 ≠ 0 y una
muestra suficientemente grande como el tamaño de T,dos veces el radio del periodograma muestral
al espectro poblacional tiene aproximadamente la siguiente distribución :
2. 𝑠̂𝛾 (𝜔)
≈ 𝑋 2 (2)
𝑠𝛾 (𝜔)
[6.3.1]
Además, si 𝜆 ≠ 𝜔, la cantidad
2. 𝑠̂𝛾 (𝜆)
𝑠𝛾 (𝜆)
[6.3.2]
También tiene una distribución aproximada 𝑋 2 (2), con la variable en [6.3.1] aproximadamente
independiente de esto en [6.3.2] .
Como la variable 𝑋 2 (2)xxx tiene una media de 2, el resultado [6.3.1] sugiere que:
2. 𝑠̂𝛾 (𝜔)
𝐸[ ]≅2
𝑠𝛾 (𝜔)
O mientras que 𝑠𝛾 (𝜔)es una magnitud poblacional en lugar de una variable aleatoria,
𝐸[𝑠̂𝛾 (𝜔)] ≅ 𝑠𝛾 (𝜔)
De este modo, si el tamaño dela muestra es suficientemente mayor, el periodograma muestral
permite una estimación aproximadamente imparcial del espectro poblacional.
Tenga en cuenta en la tabla B.2 que el 95% del tiempo, una variable 𝑋 2 (2)caerá entre 0.05 y 7.4.
Por tanto, en [6.3.1], 𝑠̂𝛾 (𝜔)es poco probable que sea pequeña como 0.025 veces en verdadero valor
de 𝑠𝛾 (𝜔), y 𝑠̂𝛾 (𝜔)cualquiera sea mayor a 3.7 veces tan grande como 𝑠𝛾 (𝜔), Dado el gran intervalo
de confianza, podríamos decir que no es una estimación totalmente satisfactoria de 𝑠𝛾 (𝜔)
Otra característica del resultado [6.3.1] es que la estimación 𝑠̂𝛾 (𝜔) no es tan exacta como el
aumento del tamaño de la muestra T. Típicamente, uno supone una econometría estimada cada vez
mejor mientras la muestra de tamaño crece .Por ejemplo, la varianza para el coeficiente de
Supongamos que esta información podría ser representada con un modelo ARMA (p,q)
𝑌𝑡 = 𝜇 + 𝜙1 𝑌𝑡−1 + 𝜙2 𝑌𝑡−2 + ⋯ + 𝜙𝑝 𝑌𝑡−𝑝 + 𝜀𝑡 + 𝜃1 𝜀𝑡−1
+𝜃2 𝜀𝑡−2 + ⋯ + 𝜃𝑞 𝜀𝑡−𝑞 [6
Donde 𝜀𝑡 , es ruido blanco con varianza 𝜎 2 .Entonces un excelente enfoque para estimar el espectro
poblacional es primero estimar los parámetros 𝜇, 𝜙1 , … , 𝜙𝑝 , 𝜃1 , … , 𝜃𝑞 y 𝜎 2 por un máximo de
probabilidades como se describió en el capítulo anterior.
La máxima probabilidad de estimaciones (𝜙̂1 , … , 𝜙̂𝑝 , 𝜃̂1 , … , 𝜃̂𝑞 , 𝜎̂ 2 )podría entonces ser
introducida en una formula tal como [6.1.14] para estimar el espectro poblacional 𝑠𝛾 (𝜔)en
cualquier frecuencia 𝜔. Si el modelo es correctamente especificado, la máxima probabilidad
estimada (𝜙̂1 , … , 𝜙̂𝑝 , 𝜃̂1 , … , 𝜃̂𝑞 , 𝜎̂ 2 )se acercara más y más a los valores verdaderos mientras el
tamaño de muestra crece; por lo tanto, el resultado estimado del espectro poblacional debería tener
la esta misma propiedad.
∑ 𝑘(𝜔𝑗+𝑚 , 𝜔𝑗 ) = 1
𝑚=−ℎ
∑ [ℎ + 1 − |𝑚|] = (ℎ + 1)2
𝑚=−ℎ
Por lo tanto, en orden de satisfacer la propiedad que los pesos suman a la unidad, la propuesta
kernel es:
ℎ+1−|𝑚|
k(𝜔𝑗+𝑚 , 𝜔𝑗 ) = (ℎ+1)2
[6.3.5]
5Tenga en cuenta que
ℎ ℎ ℎ
∑ [ℎ + 1 − |𝑚|] = ∑ [ℎ + 1] − ∑ |𝑚|
𝑚=−ℎ 𝑚=−ℎ 𝑚=−ℎ
ℎ ℎ ℎ
= (ℎ + 1) ∑ 1 − 2 ∑ 1 − 2 ∑ 𝑠
𝑚=−ℎ 𝑚=−ℎ 𝑠=0
= (2ℎ + 1)(ℎ + 1) − 2ℎ(ℎ + 1)/2
= (ℎ + 1)2
Recuerde de [6.3.1] y [6.3.2] que las estimaciones 𝑠̂𝛾 (𝜔 )y 𝑠̂𝛾 ( 𝜆)son aproximadamente
independientes en muestras grandes para 𝜔 ≠ 𝜆 .Porque el estimador kernel promedia sobre
números de diferentes frecuencias, esto podría dar una mejor estimación en comparación a lo que
el periodograma hace.
Promediando 𝑠̂𝛾 (𝜔 )sobre diferentes frecuencias puede equivalentemente ser representada
como el multiplicar la jth muestra de autocovarianza 𝛾̂𝑗 para j>0 en la formula el periodograma
muestral [6.2.5] por un peso 𝑘𝑗∗ .Por ejemplo,considere una estimacion del espectro en la frecuencia
xxx que es obtenida por tomar un promedio simple del valor de 𝑠̂𝛾 ( 𝜆)para 𝜆 entre 𝜔 –v y 𝜔 +v:
𝜔+𝑣
𝑠̂𝛾 (𝜔 ) = (2𝑣)−1 ∫ 𝑠̂𝛾 ( 𝜆)𝑑𝜆
𝜔−𝑣
[6.3.7]
Sustituyendo [6.2.5] en [6.3.7], tal estimación podría ser equivalentemente expresada como:
𝜔+𝑣 𝑇−1
−1
𝑠̂𝛾 (𝜔 ) = (4𝑣𝜋) ∫ [𝛾̂0 + 2 ∑ 𝛾̂𝑗 cos(𝜆𝑗)]𝑑𝜆
𝜔−𝑣 𝑗=1
𝑇−1
1
= (4𝑣𝜋)−1 (2𝑣)𝛾̂0 + (2𝑣𝜋𝜋)−1 ∑ 𝛾̂𝑗 ( ) . [sen(λj)]𝜔+𝑣
𝜆=𝜔−𝑣
j
𝑗=1
𝑇−1
1
= (2𝜋)−1 𝛾̂0 + (2𝑣𝜋)−1 ∑ 𝛾̂𝑗 ( ) . {sen[( 𝜔 + 𝑣)𝑗] − 𝑠𝑒𝑛[(𝜔 − 𝑣)𝑗]}
j
𝑗=1
[6.3.8]
Recuerde que 𝑠𝑒𝑛(𝜋𝑗) = 0 para cualquier entero j .Por ello, si 𝑣 = 𝜋, entonces 𝑘𝑗∗ = 0 para toda j
y [6.3.11]se convierte en
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 𝛾̂0
[6.3.13]
En este caso, todas las autocovarianzas aparte de 𝛾̂0podrían ser reducidas a cero Cuando 𝑣 = 𝜋 la
estimación [6.3.7] es un promedio no ponderado de 𝑠̂𝛾 (𝜆)sobre todos los valores de 𝜆,y el
resultado de estimación podría ser el espectro amplio y plano para un proceso de ruido blanco.
La especificación de una función kernel k(𝜔𝑗+𝑚 , 𝜔𝑗 )en [6.3.4] puede ser equivalentemente descrita
en términos de una secuencia ponderada {𝑘𝑗∗ }𝑇−1 𝑗=1 en [6.3.11].Por el hecho de que solo son 2
∗
representaciones para la misma idea, el peso 𝑘𝑗 es a veces también llamado kernel .Valores pequeños
de 𝑘𝑗∗imponen más homogeneidad en el espectro.
Los esquemas homogéneos tampoco podrían ser elegidos porque ellos ofrecen una especificación
adecuada para k(𝜔𝑗+𝑚 , 𝜔𝑗 )o porque ellos ofrecen una especificación adecuada para 𝑘𝑗∗.
Una estimación popular del espectro emplea el modificado Bartlett kernel, el cual es dado por
𝑗
1− 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑞
𝑘𝑗∗ ={ 𝑞+1
0 𝑝𝑎𝑟𝑎 𝑗 > 𝑞
[6.3.14]
La estimación Barlett del espectro es por consiguiente
𝑞
𝑗
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 {𝛾̂0 ∑[1 − ]𝛾̂ cos(𝜔𝑗)}
𝑞+1 𝑗
𝑗=1
[6.3.15]
Ilustramos algunos de los usos de análisis espectral con la información en manufacturera en los
Estados Unidos .Los datos fueron trazados en la Grafica 6.3. Las series son los índices mensuales
desajustados estacionalmente del Comité Federal de la Reserva desde Enero de 1947 a Noviembre
de 1989.Las recesiones económicas en 1949,1954,1958,1960,1970,1974,1980 y 1982 aparecen como
episodios aproximadamente de un año entero de producción decreciente. También hay fuertes
modelos estacionales en estas series; por ejemplo, la producción casi siempre disminuye en Julio y
se recupera en Agosto.
El periodograma muestral para los datos básicos es trazado en la Grafica 6.4,los cuales demuestran
𝑠̂𝛾 (𝜔𝑗 )como una función de j donde 𝜔𝑗 = 2𝜋𝑗/𝑇.La contribución de la muestra de varianza de los
componentes de la menor frecuencia (j cerca de cero) es varias veces superior a las contribuciones
de recesiones económicas o los factores estacionales. Esto es debido a la clara tendencia al alza de la
serie en la Grafica 6.3
160
140
120
100
80
60
40
25000
20000
15000
10000
5000
La suposición tendría que ser ω es tan menor que incluso en la información t = T la magnitud ωT
sería aún menor que π ∕ 2. El gráfico 6.4 que indica que la tendencia o componentes de menor
frecuencia sin duda son los determinantes más importantes de la muestra de la varianza de y.
La definición del espectro poblacional en la ecuación [6.1.2] asumió que el proceso es
covarianza estacionaria, la cual no es una buena suposición para los datos en el Grafico 6.3. En
cambio podríamos intentar analizar el crecimiento mensual de la tasa definido por
xt = 100. [log(yt ) − log(yt−1 )] [6.4.1]
El segundo punto más alto en el Grafico 6.5 ocurre en j=44 y corresponde al periodo de
513/44 = 11.7 meses. Esto es naturalmente visto como un ciclo de 12 meses asociados con efectos
estacionales y efectos calendarios.
Filtros
Aparte del parámetro escala, la tasa de crecimiento mensual xt en [6.4.1] es obtenida de
log(yt ) por aplicar el filtro
xt = (1 − L) log(yt ), [6.4.3]
Donde L es el operador de retraso. Para discutir tales transformaciones en términos generales, sea
Yt cualquier serie de covarianza estacionaria con autocovarianzas absolutamente sumatorias.
90
80
70
60
50
40
30
20
Grafica 6.6 Estimación del espectro para la tasa de crecimiento año a año de la producción
industrial mensual y espectro de 100 veces la diferencia estacionaria del registro de la serieen el
Grafico 6.3
Denote la función de autocovarianza generada de Y por 𝑔𝑌 (𝑧) , y denote el espectro poblacional de
Y por sy (ω) . Recuerde que
sY (ω) = (2π)−1 g Y (e−iω) [6.4.4]
Suponga que transformamos Y de acuerdo a
X t = h(L)Yt
Donde
∞
h(L) = ∑ hj Lj
j= −∞
Y
∑ |hj | < ∞
j=−∞
Recuerde de la ecuación [3.6.17] que la función de autocovarianza generada de X puede ser
calculada de la función de autocovarianza generada de Y usando la formula
g X (z) = h(z)h(z −1 )g Y (z) [6.4.5]
El espectro poblacional de X es por lo tanto
sX (ω) = (2π)−1 g X (e−iω ) = (2π)−1 ℎ(e−iω )ℎ(eiω )g Y (e−iω ) [6.4.6]
Sustituyendo [6.4.4] en [6.4.6] rebela que el espectro poblacional X está relacionado al espectro
poblacional de Y de acuerdo a
sX (ω) = ℎ(e−iω )ℎ(eiω )sY (ω) [6.4.7]
Operando en una serie Yt con el filtro h(L) tiene el efecto de multiplicar el espectro por la función
ℎ(e−iω )ℎ(eiω ).
Para el operador diferente [6.4.3], el filtro es h(L) = 1 − L y la función ℎ(e−iω )ℎ(eiω )
podría ser
ℎ(e−iω )ℎ(eiω ) = (1 − e−iω )(1 − eiω )
= 1 − e−iω − eiω + 1 [6.4.8]
= 2 − 2 ⋅ cos(𝜔)
Donde la última línea que cumple [6.1.11].Si 𝑋𝑡 = (1 − 𝐿)𝑌𝑡 , entonces , para encontrar el valor del
espectro poblacional de 𝑋 en cualquier frecuencia ω nosotros primero encontramos el valor del
espectro poblacional de Y en ω y entonces multiplicar por 2 − 2 ⋅ cos(𝜔).Por ejemplo, el
espectro en frecuencia es multiplicado por cero , el espectro en la frecuencia ω = π ∕ 2 es
multiplicado por 2, y entonces el espectro en la frecuencia ω = π es multiplicado por 4
diferenciando la información elimina los componentes de menor frecuencia y acentúa los
componentes de frecuencia alta.
Por supuesto, este cálculo asume que el proceso original Y es una covarianza estacionaria,
por lo tanto sY (ω)existe. Si el proceso original no es estacionario, como parece ser el caso en el
Grafico 6.3, la información diferenciada (1 − L)Yt en general podría no tener un espectro
poblacional que es cero en frecuencia cero.
El filtro de diferencia estacional usado en [6.4.2] es ℎ(𝐿) = 1 − 𝐿12 , para el cual
Esta función es igual a cero cuando ω = 2π, 4π, 6π, 8π, 10π, 𝑜 12π es decir esto es cero en las
frecuencias de ω = 0, 2π⁄12 , 4π⁄12 , 6π⁄12 , 8π⁄12 , 10π⁄12 y π es decir,
Por lo tanto, la diferencia estacional no solo elimina los componentes (ω = 0)de menor frecuencia
de un proceso estacionario, pero más allá de eso elimina cualquier contribución de los ciclos con
periodos de 12,6,4,3,2.4, o 2 meses.
∞
1 𝜋
= ∑ ∫−𝜋{cos[𝑤(𝑘 − 𝑗)] + 𝑖. sin[ω(k − j)]} ⅆω
2𝜋 𝑗=−∞
[6.A.1]
= (k − j)−1 {sin[π(k − j)] − sin[−π(k − j)] −i. cos[π(k − j)] + i. cos[−π(k − j)]}
Pero la diferencia entre las frecuencias π(k − j) y –π(k − j),es 2π(k − j)la cual es un entero
múltiplo de 2π. Ya que las funciones seno y coseno son periódicas, la magnitud en [6.A.3 ] es cero.
Por tanto, solo el termino para𝑗 = 𝑘 en la suma en [6.A.1] es distinto a cero, y usando [6.A.2], esta
suma es vista como
π 1 𝜋
∫ sy (ω)eiωk ⅆω = 2𝜋 𝛾𝑘 ∫−𝜋{cos(0) + 𝑖. sin(0)} ⅆω = 𝛾𝑘 ,
−π
Como afirmación en [6.1.15]
Para derivar [6.1.16], note que como sy (ω) es simétrica en torno a ω = 0,
Como afirmación
Previsto que z ≠ 1, cuando es el caso que 0 < |s| < T. Expresión [6.A.7] puede ser verificado por
inducción. Claramente esto llega a N=1, para luego
𝑁
∑𝑡=1 𝑧 (𝑡−1) = 𝑧 (0) = 1
1−𝑧 𝑁
= + 𝑧𝑁
1−𝑧
1 − 𝑧 𝑁 + 𝑧 𝑁 (1 − 𝑧)
=
1−𝑧
1 − 𝑧 𝑁+1
=
1−𝑧
Como aclaración en [6.A.7]
Tenemos N=T en [6.A.7] y sustituyendo el resultado dentro[6.A.6], vemos que
Para 0 < |s|< T . Pero este sigue para la definición de z en [6.A.5] dado
𝑧 𝑇 = exp[𝑖(2𝜋𝑠⁄𝑇). 𝑇]
= exp[𝑖(2𝜋𝑠)]
=𝑐𝑜𝑠(2𝜋𝑠) + 𝑖. sin(2𝜋𝑠) [6.A.9]
=1 para s=±1, ±2, … . , ±(T − 1)
Como aclaramos en [6.A.4]
Para ver como[6.A.4] puede ser usado para deducir la expresión [6.2.11], la cual tiene la
T
primera columna de ∑z=1 xt xt′ esta dada por
T
∑ 𝐶𝑂𝑆[ω1 (𝑡 − 1)]
∑ sin[ ω1 (𝑡 − 1)]
.
[6.A.10]
.
.
∑ cos[ωM (𝑡 − 1)]
[ ∑sin[ωM (𝑡 − 1)] ]
T
Donde Σ indica sumatoria acerca de t desde 1 hasta T. La primera fila de ∑t=1 xt xt′ es la
traspuesta de [6.A.10]. Para mostrar que todos los términos en [6.A.10] otros dan que el primer
elemento es cero,
Podemos mostrar que
T
∑ 𝑐𝑜𝑠[ωj (𝑡 − 1)] = 0 para j = 1,2, … . , M [6.A.11]
t=1
T
∑ 𝑠𝑖𝑛[ωj (𝑡 − 1)] = 0 para j = 1,2, … . , M [6.A.12]
t=1
Para j = 1, 2, …. ,M. Para [6.A.13] igualar a cero, tanto el componente real e imaginario se igualan a
cero. Desde ωj = 2𝜋𝑗⁄𝑇 , resultando [6.A.11] y [6.A.12] seguido inmediatamente de [6.A.13].
T
El resultado [6.A.4] puede ser usado para calcular los otros elementos ∑t=1 xt xt′ . Para ver como
resultado
1 𝑖𝜃 1
[𝑒 + 𝑒 −𝑖𝜃 ] = [cos(𝜃) + 𝑖. 𝑠𝑖𝑛(𝜃) + 𝑐𝑜𝑠(𝜃) − 𝑖. 𝑠𝑖𝑛(𝜃)] [6.A.14]
2 2
Y similarmente
1 1
2𝑖
[𝑒 𝑖𝜃 + 𝑒 −𝑖𝜃 ] = 2𝑖 [cos(𝜃) + 𝑖. 𝑠𝑖𝑛(𝜃) − {𝑐𝑜𝑠(𝜃) − 𝑖. 𝑠𝑖𝑛(𝜃)}] [6.A.15]
T
Por ejemplo los elementos ∑t=1 xt xt′ correspondiendo al producto de los términos de coseno que
pueden ser calculados como
T
1
=4 ∑ {exp[𝑖wj (t − 1)] + exp[−𝑖wj (t − 1)]}𝑥
t=1
Para cada j= 1, 2, . . . , M y para cada k ≠ j, expresión [6.A.16] es cero por virtud de [6.A.4]. Para
cada k=j la primera y la ultima sumatoria en la ultimas línea de[6.A.16] son cero, entonces el total es
igual a (1 ∕ 4) ∑Tt=1(1 + 1) = T ∕ 2.
T
Del mismo modo, elementos de ∑t=1 xt xt′ correspondientes a productos cruzados de los
términos del seno pueden ser encontrados de
T
∑ 𝑠𝑖𝑛[ωj (𝑡 − 1)]. sin[ωk (𝑡 − 1)
t=1
T
= −1/4 ∑ {𝑒𝑥𝑝[𝑖ωj (𝑡 − 1)] − exp[−iωj (𝑡 − 1)]} 𝑥 {exp[𝑖ωk (𝑡 − 1)] −
t=1
{exp[−𝑖ωk (𝑡 − 1)]}
T
1 2𝜋 2𝜋
= − ∑ {exp [𝑖 ( ) (𝑗 + 𝑘)(t − 1)] − exp [𝑖 ( ) (𝑘 − 𝑗)(t − 1)]}
4 𝑇 𝑇
t=1
− {exp[𝑖(2𝜋/𝑇)(𝑗 − 𝑘)(t − 1)] + exp[𝑖(2𝜋/𝑇)(−𝑗 − 𝑘)(t − 1)]}
T⁄2 Para j = k
={
0 ⅆe otra manera
T
Finalmente, elementos de ∑t=1 xt xt′ correspondientes a productos cruzados de términos del seno
y coseno son dados por
T
∑ 𝑐𝑜𝑠[ωj (𝑡 − 1)]. sin[ωk (𝑡 − 1)
t=1
T
= 1/4𝑖 ∑ {𝑒𝑥𝑝[𝑖ωj (𝑡 − 1)] + exp[−iωj (𝑡 − 1)]} 𝑥 {exp[𝑖ωk (𝑡 − 1)] −
t=1
{exp[−𝑖ωk (𝑡 − 1)]}
T
1 2𝜋 2𝜋
= − ∑ {exp [𝑖 ( ) (𝑗 + 𝑘)(t − 1)] + exp [𝑖 ( ) (𝑘 − 𝑗)(t − 1)]}
4i 𝑇 𝑇
t=1
− {exp[𝑖(2𝜋/𝑇)(𝑗 − 𝑘)(t − 1)] − exp[𝑖(2𝜋/𝑇)(−𝑗 − 𝑘)(t − 1)]}
los cuales son iguales a cero para todas j y k. Esto completa la derivación de [6.2.11]
𝑏 = {∑ xt xt′ }−1 {∑ xt yt }
t=1 t=1
−1
T 0′
=[ ] {∑Tt=1 xt yt } [6.A.17]
0 [T ∕ 2]. 𝐼𝑡−1
−1
𝑇 −1 0′
=[ ] {∑Tt=1 xt yt }
0 [2 ∕ T]. 𝐼𝑡−1
Pero la definición de xxx en [6.2.9] implica que
∑Tt=1 xt yt = [𝛴𝑦 , 𝛴𝑦 , cos[𝜔1 (𝑡 − 1)] 𝛴𝑦 , sin[𝜔1 (𝑡 − 1)] 𝛴 𝑦 , cos[𝜔2 (𝑡 −
1)] 𝛴𝑦 , sin[𝜔2 (𝑡 − 1)] . . . … .. 𝛴𝑦 , cos[𝜔𝑀 (𝑡 − 1)] 𝛴𝑦 , sin[𝜔𝑀 (𝑡 − 1)] ] [6.A.18]
Prueba de la proposición 6.2(b). Recuerde de la expresión [4.A.6] que la suma residual de
cuadrados asociados con la estimación de Mínimos Cuadrados Ordinarios (MCO) de [6.2.8] es
T T T −1
∑t=1 û2i = ∑t=1 yt2 − [∑Tt=1 yt xt′ ] [∑t=1 xt xt′ ] [∑Tt=1 xt yt ] [6.A.19]
Puesto que hay tantas variables explicativas como observaciones y ya que las variables explicativas
son linealmente explicativas, los MCO residuales ût son todos cero.Por lo tanto, , [6.A.19] implica
que
T T −1
∑t=1 yt2 = [∑Tt=1 yt xt′ ] [∑t=1 xt xt′ ] [∑Tt=1 xt yt ] [6.A.20]
Pero [6.A.17] nos permite escribir
𝑇 0′
∑Tt=1 xt yt = [ ]𝑏 [6.A.21]
0 [T ∕ 2]. 𝐼𝑡−1
Sustituyendo [6.A.21] y [6.2.11] en establece que
T −1
𝑇 0′ T 0′ 𝑇 0′
∑ yt2 = 𝑏 ′ [ ][ ] [ ]𝑏
0 [T ∕ 2]. 𝐼𝑡−1 0 [T ∕ 2]. 𝐼𝑡−1 0 [T ∕ 2]. 𝐼𝑡−1
t=1
𝑇 0′
= 𝑏′ [ ]𝑏
0 [T ∕ 2]. 𝐼𝑡−1
𝑀
𝑇
2
̂2j + δ̂2 )
= 𝑇. 𝜇̂ + ( ) ∑(α
2
𝑗=1
Por tanto
𝑇 𝑀
1 1
(𝑇) ∑ (yt2 ) = 𝜇̂ 2 + ( ) ∑
2
̂2j + δ̂2 )
(α [6.A.22]
𝑡=1 𝑗=1
Finalmente, observe de [4.A.5] y el hecho de que 𝜇̂ 2 = 𝑦̅ que
𝑇
𝑀
1 1
( ) ∑(yt2 ) − 𝜇̂ 2 = ( ) ∑(yt − y̅τ )2
𝑇 𝑇
𝑗=1
𝑡=1
Permitiendo [6.A.22] ser escrito como
𝑇
𝑀
1 1
̂2j + δ̂2 )
( ) ∑(yt − y̅τ )2 = ( ) ∑(α
𝑇 2
𝑗=1
𝑡=1
Como afirmación en [6.2.14] .Como los regresores son todos ortogonales, el termino 1/2(α ̂2j +
δ̂2 ) puede ser interpretado como la porción de la muestra de la varianza que puede ser atribuida a
los regresores [ωj (𝑡 − 1)] y sinωj (𝑡 − 1).
Asimismo,
𝑇
2
𝛼̂𝑗 − 𝑖. 𝛿̂𝑗 = (𝑇) ∑ (yt − y̅τ ). exp[iωj (𝑡 − 1)] [6.A.27]
𝑡=1
4 𝑇 𝑇−1
= ( 2 ) {∑𝑡=1(yt − 𝑦̅)2 + ∑𝑡=1 (yt − 𝑦̅)(yt+1 − 𝑦̅).exp[iωj ]
𝑇
𝑇
+∑𝑡=2(yt − 𝑦̅)(yt−1 − 𝑦̅).exp[iωj ]
𝑇−2
+ ∑𝑡=1 (yt − 𝑦̅)(yt+2 − 𝑦̅).exp[−2iωj ]
𝑇
+ ∑𝑡=3(yt − 𝑦̅)(yt−2 − 𝑦̅).exp[2iωj ] + …. [6.A.28]
+(y1 − 𝑦̅)(y𝜏 − 𝑦̅)].exp[-(T-1) iωj ]
+(y𝜏 − 𝑦̅)(y1 − 𝑦̅)].exp[(T-1) iωj ]
4
= ( ) {𝛾̂0 + 𝛾̂1 . exp[−iωj ] + 𝛾̂−1 . exp[−iωj ]
T
+𝛾̂2 . exp[−2iωj ]+𝛾̂−2 . exp[2iωj ]+ . . .
+𝛾̂𝑡−1 . exp[−(𝑇 − 1)iωj ]+𝛾̂−𝜏+1 . exp[(𝑇 − 1)iωj ]}
4
= ( ) (2𝜋)𝑠̂𝑦 (𝑤𝑗 ),
𝑇
Capítulo 6 Ejercicios
6.1 Derivar [6.1.12] directamente de la expresión [6.1.6] y las fórmulas para las
autocovarianzas de un proceso MA(1)
6.2 Integrar [6.1.9]para confirmar independientemente que [6.1.17] sostiene para un ruido
blanco y un proceso MA (1).
𝑙𝑖𝑚 𝑐𝑡 = 𝑐
𝑇→∞
O equivalentemente,
cT → c
Por ejemplo, CT = 1 ∕ T denota la secuencia {1,1/2,1/3…} para lo cual
𝑙𝑖𝑚 𝐶𝑡 = 0
𝑇→∞
Cuando el plim de una secuencia de estimadores (tal como {μ̂ 𝑇 }∞ 𝑇=1 ) es igual al parámetro
poblacional real (en este caso μ),se dice del estimador que es constante.Si un estimador es
constante, entonces existe una muestra suficientemente grande tal que podamos estar seguros con
una probabilidad muy alta que la estimación será en cualquier banda de tolerancia deseada en torno
al valor real.
El siguiente resultado es de mucha ayuda encontrando plims; unas pruebas de esto y algunas de las
otras proposiciones de este capítulo son ofrecidas en el Apéndice 7.A en el final de este capítulo.
Proposición 7.1 Sea{XT} una secuencia de (n x 1) vectores aleatorios con plim c, y sea g(c) una función de vector
valuado, 𝑔: 𝑅 𝑛 → 𝑅 𝑚 , donde g(.) es continua en c y no depende en T.
La idea básica detrás de esta proposición es que, ya que g(.) es continua, g(X T) estará cerca
de g(c) siempre que XT esté cerca de eligiendo un valor suficientemente mayor de T, la probabilidad
que este cerca de c (y así que g(XT) esta tan cerca de g(c)) puede ser llevado tan cerca de la unidad
como se desee.
Tenga en cuenta que g(XT) depende del valor de XT pero no puede depender del propio índice T.
Ya que, g(X T . T) = T ⋅ X 2T no es una función cubierta por la Proposición 7.1.
Ejemplo 7.1
P P P
Si X1t → C1 y Si X2t → C2, entonces Si (X1t + X2T) →(C1 + C2). Esto cumple inmediatamente, ya
que g(X1T,X2T) = (X1T,X2T) es una función continua de (X1T,X2T)
Ejemplo 7.2
P
Sea X1t una secuencia de (m x n) matrices aleatorias con X1t → C1 , una matriz no singular. Sea X2t
P P
una secuencia de (n x 1) vectores aleatorios con X2t → C2.Al final [X1T]-1X2t → [C1]-1c2 .Para ver esto
,tenga en cuenta que los elementos de la matriz [X1T]-1son funciones continuas de los elementos de
P
X1T en X1T =C1,ya que [C1]-1 existe. Por tanto, [X1T]-1→[C1]-1. Similarmente, los elementos de [X1T]-
1X2t son sumas de elementos de productos de[X1T]-1 con los de X2t. Ya que cada suma es
nuevamente una función continua de X1T y X2T,
plim[X1T]-1X2t=plim[X1T]-1plim X2T =[C1]-1c2.
La proposición 7.1 también sostiene que si alguno de los elementos de XT son
deterministas con limites convencionales como en la expresión [7.1.1]. Especialmente, sea 𝑋𝑇′ =
′
(𝑥1𝑇 ′ ),
, 𝑋2𝑇 donde X1T es un vector estocástico (n1 x 1) y c2t es un vector determinista (n2 x 1). Si
P
plim X1t=c1 y limt∞c2t =c2 entonces g(X1t,c2t) → g(c1,c2). (ver el ejercicio 7.1.)
Ejemplo 7.3
Considere un estimador alternativo de la media dada por 𝑌̅𝑇∗ ≡ [1 ∕ (𝑇 − 1)] x ∑𝑇𝑡=1 𝑌𝑡 Esto puede
1
ser escrito como 𝑐1𝑇 𝑌̅𝑇 donde 𝑐1𝑡 = (𝑇 ∕ (𝑇 − 1)) y 𝑌̅𝑇 = (𝑇) ∑𝑇𝑡=1 𝑌𝑡 . Bajo condiciones generales
detalladas en la Sección 7.2, la media muestral es un estimador constante de la media poblacional,
P
implicando que 𝑌̅𝑇 → u. Es también fácil de verificar que c1t1. Ya que 𝑐1𝑇 𝑌̅𝑇 es una función
P
continua de c1t y 𝑌̅𝑇 , cumple que 𝑐1𝑡 𝑌̅𝑇 → 1.u = u. Por lo tanto 𝑌̅𝑇∗ como 𝑌̅, es un estimador
constante de u.
Convergencia en Distribución
Sea {X T }∞
T=1 una secuencia de variables aleatorias, y sea FxT (x) la función de distribución
acumulable de XT. Suponga que existe una función de distribución acumulable Fx (x) tal que
lim FxT (x) = Fx (x)
T→∞
1Esto es con frecuencia descrito como Ley débil de grandes números .Un resultado análogo conocido como la ley fuerte de grandes
números se refiere una convergencia casi segura en lugar de convergencia en probabilidad de la media muestral.
2 Esto es conocido como el teorema Khinchine .Ver, por ejemplo, Rao (1973,p.112
T=10
T=2
T=2
T=10
T=100
̅T − μ)
Grafica 7.2 Densidad de √T(Y
Ejemplo 7.4
p L
Suponga que X T → c y YT → Y, donde Y~N(μ, σ2 ). Entonces, por la Proposición 7.3 (b), la
secuencia X T YT tiene la misma ley de probabilidad limitada como la de c veces una variable
L
N(μ, σ2 ). En otras palabras, X T YT → N(cμ, c 2 σ2 ).
Ejemplo 7.5
Generalmente el resultado previo, sea {XT } una secuencia de (mxn) matrices aleatoria y {YT } una
p L
secuencia de (n x 1) vectores aleatorios con X T → c y YT → Y, con Y~N(μ, Ω) Entonces la
L
distribución limitada de X T YT es la misma que CY; esto es, X T YT → N, (Cμ , CΩC ′ ).
Ejemplo 7.6
L
Suponga que X T → N(0,1). Entonces la Proposición 7.3 (c) implica que el cuadrado de X T se
p
comporta asintóticamente como el cuadrado de una N(0,1) variable: X T2 → X 2 (1)
L
̅T − μ) → N(0, σ2 )
√T(Y [7.1.6]
El resultado [7.1.6] también sostiene bajo muchas más condiciones generales, algunas de las cuales
son exploradas en la siguiente sección.
L
̅T − μ) → para 3 diferentes valores de T.
Grafica 7.2 traza un ejemplo de la densidad de √T(Y
Valores de T. Cada una de estas densidades tiene media cero y varianza 𝜎 2 . A medida que T se hace
grande, la densidad converge a la de una variable N (0, 𝜎 2 ).
Un resultado final útil es el siguiente.
Proposición 7.4: Sea 𝑋𝑡 una secuencia de vectores aleatorios (n x 1) tales que √𝑇(𝑋𝑡 – c) 𝜇 X y tenga g: 𝑅 𝑛
→ 𝑅 𝑚 primeros derivados continuos con G denotando la matriz (m x n) de derivadas evaluadas en c:
𝜕𝑔
G≡ ⃒𝑥=𝑐
𝜕𝑥ʹ
𝐿
Entonces √𝑇 [g(𝑋𝑇 ) – g(c) → GX.
Ejemplo 7.7
Sea {𝑌1 , 𝑌2 , . . . , 𝑌𝑇 } una muestra i.i.d del tamaño T dibujado de una distribución con media 𝜇 ≠ 0
y varianza 𝜎 2 . Considere la distribución del recíproco de la media muestral, 𝑆𝑇 = 1⁄ ̅ , donde 𝑌̅𝑇
𝑌𝑇
𝐿
≡ (1⁄𝑇)∑𝑇𝑡=1 𝑌𝑡 . Conocemos del teorema del límite central que √𝑇(𝑌̅𝑇 - 𝜇) → 𝑌, donde 𝑌 ~
N(0, 𝜎 2 ). También, g(𝑦) = 1⁄𝑦 es continua en 𝑦 = 𝜇. Sea G ≡ (∂g/∂𝑦)⃒𝑦= 𝜇 = (−1⁄𝜇2 ).
𝐿 𝐿
Entonces √𝑇[𝑆𝑇 − (1⁄𝜇)] → G.Y ; en otras palabras, √𝑇[𝑆𝑇 − (1⁄𝜇)] → N(0, 𝜎 2 ⁄𝜇4 ) .
∑∝
𝑗=0|𝛾𝑗 | < ∝ [7.2.3]
Considere las propiedades de la media muestral:
Por lo tanto,
2
𝐸((𝑌̅𝑇 − 𝜇)) = (1⁄ 2 ) {𝑇𝛾0 + 2(𝑇 − 1)𝛾1 + 2(𝑇 − 2)𝛾2 + 2(𝑇 − 3)𝛾3 + ⋯ + 2𝛾𝑇−1 }
𝑇
o
2 1 (𝑇 − 2)
𝐸((𝑌̅𝑇 − 𝜇)) = ( ) {𝑌0 + [(𝑇 − 1)/𝑇]2𝑌1 + [ ] (2𝑌2 ) + [(𝑇 − 3)/𝑇](2𝑦3 ) + ⋯
𝑇 𝑇
+ [1/𝑇](2𝑦𝑇−1 )}
[7.2.5]
Es fácil ver que la expresión va a cero mientras el tamaño de la muestra crece, es decir, que ‘’𝑦̅𝑇
𝑚.𝑆
→ 𝜇: ’’:
2 (𝑇−1) (𝑇−2) (𝑇−3) 1
T.E(𝑌𝑇 − 𝜇) = |𝑌0 + [ 𝑇
] (2𝑌1 ) + [ 𝑇
] (2𝑌2 ) + [ 𝑇
] (2𝑌3 ) + ⋯ + [𝑇] (2𝑦𝑇−1 )|
(𝑇−1) (𝑇−2) (𝑇−3) 1
≤{|𝑌0 | + [ 𝑇
] . 2|𝑌1 | + [ 𝑇
] . 2|𝑌2 | + [ 𝑇
] . 2|𝑌3 | + ⋯ + [𝑇] . 2|𝑌𝑇−1 |}
[7.2.7]
Esta conjetura es verdaderamente correcta. Para verificar esto, tenga en cuenta que la suposición
[7.2.3] significa que para cualquier ℰ > 0 existe una q tal que:
2|𝑌𝑞+1 | + 2|𝑌𝑞+2 | + 2|𝑌𝑞+3 | + ⋯ < 𝜀/2
Ahora
∝ 2
|∑ 𝑌𝐽 − 𝑇. 𝐸(𝑌 𝑇 − 𝜇) |
𝐽=−∝
=|{𝑌0 + 2𝑌1 + 2𝑌2 + 2𝑌3 + ⋯ } − {𝑦0 + [(𝑇 − 1)/𝑇]. 2𝑦1 + [(𝑇 − 2)/𝑇]. 2𝑦2 + [(𝑇 − 3)/
1
𝑇]. 2𝑦3 + ⋯ + [𝑇] . 2𝑦𝑇−1 }|
1 2 3 𝑞
≤ ( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ⋯ + ( ) . 2|𝑦𝑞 | + 2|𝑌𝑞+1 | + 2|𝑌𝑞+2 | + 2|𝑌𝑞+3 |
𝑇 𝑇 𝑇 𝑇
+⋯
1 2 3 𝑞
≤ ( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ( ) . 2|𝑌𝑞 | + 𝜀/2.
𝑇 𝑇 𝑇 𝑇
1 2 3 𝑞
( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ⋯ + ( ) . 2|𝑌𝑞 | < 𝜀/2
𝑇 𝑇 𝑇 𝑇
Para toda 𝑇 ≥ 𝑁, asegurar que
∞
2
| ∑ 𝑌1 − 𝑇. 𝐸(𝑌 𝑇 − 𝜇) | < 𝜀
𝑗=−∞
𝑔𝑌 (𝑍) = ∑ 𝑌𝑗 𝑍𝑗
𝑗=−∞
∑ 𝑌𝐽 = 𝑔𝑌 (1)
𝐽=−∞
∑ 𝑌𝐽 = 2𝜋𝑆𝑌 (0)
𝐽=−∞
El último resultado viene del hecho que 𝑒 0 = 1. Por ejemplo, considera el proceso MA(∞)
∞
𝑌1 = 𝜇 + ∑ 𝛹𝑖 𝜀𝑖−𝐽 ≡ 𝜇 + 𝜓(𝐿)𝜀𝑡
𝐽=0
∑ 𝑌𝐽 = 𝜓(1)𝜎 2 𝜓(1) = 𝜎 2 [1 + 𝜓1 + 𝜓2 + 𝜓3 + ⋯ ]2
𝑗=−∞
[7.2.8]
información válida en la información t, donde esta información incluye valores actuales y retrasados
de Y.7 Por ejemplo, podríamos tener
Ω𝑡 = {𝑌𝑡 , 𝑌𝑡−1 , . . . , 𝑌1 . 𝑋𝑡 , 𝑋𝑡−1 , . . . , 𝑋1 }
Donde 𝑋𝑡 es una segunda variable aleatoria. Si
Entonces se dice de {𝑌𝑡 } que es una secuencia de diferencia de Martingala con respecto a {Ω𝑡 }
Donde ninguna información es específica, se presume de Ω𝑡 que consiste únicamente de valores
actuales y retardados de 𝑌
Ω𝑡 = {𝑌𝑡 , 𝑌𝑡−1 , . . . , 𝑌1 }
Por tanto si una secuencia de escalares {𝑌𝑡 }∝
𝑡=1 conforme E(𝑌𝑡 ) para toda 𝑡 y
Para t= 2,3,…., entonces diremos simplemente que {𝑌𝑡 } es una secuencia de diferencia Martigala.
Tenga en cuenta que [7.2.10] es implicado por [7.2.9] por la ley de valores esperados iterados.
Ejemplo 7.8
Si 𝜀𝑡 ~ i.i.d N (0, 𝜎 2 ), entonces 𝑌𝑡 = 𝜀𝑡 𝜀𝑡−1 es una secuencia de diferencia de Martingala, pero no
independiente en serie
L1-Mixingalas
Una clase más general del proceso conocido como L1-mixingalas fue introducido por
Andrews (1988). Considere una secuencia de variables aleatorias {𝑌𝑡 }∝
𝑡=1 con E(𝑌𝑡 )= 0 para t=
1,2,….. Denote Ω𝑡 información valida al tiempo t, como antes, donde Ω𝑡 , incluye valores actuales y
retrasados de Y. Supongamos que podemos encontrar secuencias de constantes deterministas no
negativas {𝐶𝑡 }∝ ∝
𝑡=1 y {𝜀𝑚 }𝑚=0 tales que lim 𝜀𝑚 = 0 y
𝑚→∝
𝐸 |𝐸 (𝑌𝑡 ⃒Ω𝑡−𝑚 )| ≤ 𝑐𝑡 𝜀𝑚
[7.2.11]
6 6Donde quiera que una expectativa sea indicada, es tomado como implícito que el integral existe, eso es, que E|𝑌 | es finito
𝑡
Ejemplo 7.10
Sea 𝑌𝑡 , donde ∑∞ ∞
𝐽=0 𝛹𝑖 𝜀𝑖−𝐽 y ∑𝐽=0|𝛹𝑗 | < ∞ es una secuencia de diferencia de Martingala con
𝐸|𝜀𝑡 | < 𝑀 para toda t para alguna 𝑀 <∝ . Entonces {𝑌𝑡 } es una L1-mixingala con respecto a
Ω𝑡 = {𝜀𝑡 , 𝜀𝑡−1 . .. }. Vea esto, y tenga en cuenta que
Entonces {𝛹𝑖 }∝ 𝑗=0 es absolutamente sumable y 𝐸|𝜀𝑡−𝑗 | < 𝑀, podemos intercambiar el orden de
expectativa y suma.
∝ ∝
𝐸 {∑∞
𝐽=𝑚 ⃒𝛹𝑖 𝜀𝑖−𝐽 ⃒} = ∑𝑗=𝑚|𝛹𝑖 | . 𝐸|𝜀𝑡−𝑗 | ≤ ∑𝑗=𝑚|𝛹𝑖 | . 𝑀
Condición (a) nos requiere para encontrar un momento más alto que el primero que existe.
Típicamente, podríamos usar r = 2. Sin embargo, aunque si una variable tiene varianza infinita, esto
aún puede ser uniformemente integrable siempre y cuando 𝐸|𝑌𝑡 |𝑟 exista para alguna r entre 1 y 2.
Ejemplo 7.11
Sea 𝑌̅𝑇 la media muestral de una secuencia de diferencia de Martingala, 𝑌̅𝑇 = (1⁄𝑇) ∑𝑇𝑡=1 𝑌𝑡 con
𝐸|𝑌𝑡 |𝑟 < 𝑀ʹ para alguna r > 1 y 𝑀ʹ <∝. Tenga en cuenta que esto también implica que exista una
𝑀 < ∞ tal que 𝐸|𝑌𝑡 | < 𝑀. De la proposición 7.7(a), {𝑌𝑡 } es uniformemente integrable. Por otra
parte, del ejemplo 7.9, {𝑌𝑡 } puede ser vista como una L1-mixingala con 𝑐𝑡 = 𝑀. De esta manera,
𝑃
lim (1⁄𝑇) ∑𝑇𝑡=1 𝑐𝑡 = 𝑀 <∝ y así, de la Proposición 7.6, 𝑌̅𝑇 → 0
𝑇→∝
Ejemplo 7.12
Sea 𝑌𝑡 =∑∝ ∝
𝑗=0 𝛹𝑖 𝜀𝑡−𝑗 , donde ∑𝑗=0 𝛹𝑖 <∝ y {𝜀𝑡 } es una secuencia de diferencia de Martingala con
𝐸|𝜀𝑡 |𝑟 < 𝑀ʹ <∝ para alguna r > 1 y algunas 𝑀ʹ <∝. Entonces, de la proposición 7.7(b), {𝑌𝑡 } es
uniformemente integrable. Asimismo, del ejemplo 7.10. {𝑌𝑡 } es una L1-mixingala con 𝑐𝑡 = 𝑀,
donde M representa el mayor valor de 𝐸|𝜀𝑡 | para algún t. Entonces lim (1⁄𝑇) ∑𝑇𝑡=1 𝑐𝑡 = 𝑀 <∝ ,
𝑇→∝
𝑃
establece nuevamente que 𝑌̅𝑇 → 0.
La Proposición 7.6 puede ser aplicada a la doble matriz indexada {𝑌𝑡.𝑇 }; que es cada
muestra de tamaño T pude ser asociado con una secuencia diferente {𝑌1.𝑇 , 𝑌2.𝑇 … . . 𝑌𝑇.𝑇 }. Se dice de
la matriz que es una L1-mixingala con respecto a una información contenida en Ω𝑡.𝑇 que incluye
{𝑌1.𝑇 , 𝑌2.𝑇 … . . 𝑌𝑇.𝑇 } si existen constantes no negativas 𝜀𝑚 y 𝑐𝑡.𝑇 tales que lim 𝜀𝑚 = 0 y
𝑚→∝
para alguna r> 2. Tome en cuenta que el segundo momento poblacional puede ser escrito9
∞ ∞
= 𝐸 (∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )
𝑢=0 𝑣=0
[7.2.13]
∞ ∞
= ∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )
𝑢=0 𝑣=0
Considere un pronóstico de 𝑋𝑡.𝑘 en las bases de Ω𝑡−𝑚 ≡ {𝜀𝑡−𝑚 𝜀𝑡−𝑚−1 … . } para 𝑚 > 𝑘
∞ ∞
≤ ∑ ∑ |𝜓𝑢 𝜓𝑣 |. 𝑀
𝑢=𝑚 𝑣=𝑚−𝑘
∞ ∞ ∞ ∞
Y 𝐸|𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 | < ∞, permitiéndonos mover el operador expectativo dentro de los signos de sumatoria en la última línea de [7.2.13]
Ejemplo 7.14
Sea Y1 =∅1 𝑌𝑡−1 + ∅2 𝑌𝑡−2 + ⋯ + ∅𝑝 𝑌𝑡−𝑝 + 𝜀𝑡𝑠 ,donde {𝜀𝑡 } es una secuencia i.i.d y donde bases de
(1 − 𝜙1 𝑧 − 𝜙1 𝑧 2 − ⋯ − 𝜙𝑝 𝑧 𝑝 ) = 0 se encuentran fuera del circulo de la unidad .Vimos en el
Capítulo 3 que Y puede ser escrita como ∑∞ ∞
𝑗=0 𝜓𝑗 𝜀𝑡−𝑗 con∑𝑗=0|𝜓𝑗 | < ∞ ,la Proposición 7.10
establece que si 𝜀𝑡 ,tiene momentos de cuarto orden finitos ,entonces 𝑌𝑡 también lo hace .
Ejemplo 7.15
Sea Yt =∑∞ ∞ 2 2 4
𝑗=0 0𝜓𝑗 𝜀𝑡−𝑗 con ∑𝑗=0|𝜓𝑗 | < ∞ y 𝜀 i.i.d,con E(𝜀𝑡 ) = 0,(𝜀𝑡 ) = 𝜎 ,y 𝐸(𝜀𝑡 ) < ∞.
Considere la variable aleatoria X, definida por 𝑋𝑡 ≡ 𝜀𝑡 𝑌𝑡−𝑘 para 𝑘 > 0. Entonces X es una
secuencia de diferencia de martingala con varianza 𝐸(𝑋𝑡2 ) = 𝜎 2 . 𝐸(𝑌𝑡2 ) y con momento de cuarto
orden 𝐸(𝜀𝑡4 ). 𝐸(𝑌𝑡4 ) < ∞, por ejemplo 7.14.Por ende, si podemos demostrar que
𝑇
𝑝
(1/𝑇) ∑ 𝑋𝑡2 → 𝐸(𝑋𝑡2 )
𝑡=1
[7.2.16]
Entonces la proposición 7.8 puede ser aplicada para deducir que
𝑇
𝐿
(1/√𝑇) ∑ 𝑋𝑡 → 𝑁(0, 𝐸(𝑋𝑡2 ))
𝑡=1
O
𝑇
𝐿
(1/√𝑇) ∑ 𝜀1 𝑌𝑡−1 → 𝑁(0, 𝜎 2 . 𝐸(𝑋𝑡2 ))
𝑡=1
[7.2.17]
Para verificar [7.2.16], tenga en cuenta que
𝑇 𝑇
2
(1/𝑇) ∑ 𝑋𝑡2 = (1/𝑇) ∑ 𝜀𝑡2 𝑌𝑡−𝑘
𝑡=1 𝑡=1
𝑇 𝑇
(1/𝑇) ∑(𝜀𝑡2 2 2
= − 𝜎 2 )𝑌𝑡−𝑘 + (1/𝑇) ∑ 𝜎 2 𝑌𝑡−𝑘
𝑡=1 𝑡=1
[7.2.18]
2
Pero (𝜀𝑡2 − 𝜎 2 )𝑌𝑡−𝑘 es una secuencia de diferencia de martingala con momento de segundo finito,
así que, del Ejemplo 7.11
𝑇
𝑝
2
(1/𝑇) ∑(𝜀𝑡2 − 𝜎 2 )𝑌𝑡−𝑘 →0
𝑡=1
Donde {𝜀𝑡 } es una secuencia de i.i.d variables aleatorias con (𝜀𝑡∝ ) < ∞, entonces
𝐿 ∝
√𝑇(𝑌̅𝑇 − 𝜇) → 𝑁 (0, ∑ 𝑦𝑗 )
𝑗=−∝
[7.2.19]
Una versión de [7.2.19] puede también ser desarrollada por {𝜀𝑡 } una secuencia de diferencia
de martingala satisfaciendo ciertas restricciones,ver Phillips y Solo (1992)
[7.A.1]
La continuidad de 𝑔𝑗 (. ) implica que existe una ƞ tal que ⃒𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)⃒ > 𝛿 solo si
[(𝑋1𝑇 − 𝑐1 )2 + (𝑋2𝑇 − 𝑐2 )2 + ⋯ + (𝑋𝑛𝑇 − 𝑐𝑛 )2 ] > ƞ2
[7.A.2]
Este seria el caso solo si (𝑋1𝑇 − 𝑐1 )2 para alguna i. Pero por el hecho que 𝑋𝑖𝑇 − 𝑐𝑖 para cualquier t
y valores especificados de 𝜀 y ƞ podemos encontrar un valor de N tal que
𝑃{|𝑋𝑖𝑇 − 𝑐𝑖 | > ƞ⁄√ƞ < 𝜀 ⁄ƞ}
Para toda 𝑇 ≥ 𝑁. Ya que [7.A.2] fue una condición necesaria para que |𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)| sea
mucho más grande que 𝛿, de ello se desprende que la probabilidad que |𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)| es
mucho más grande que 𝛿 es menos que 𝜀 el cual fue para ser mostrado
Prueba de la Proposición 7.2: Denote S el conjunto de toda x tal que |𝑥 − 𝑐| > 𝛿 y denote S su
complemento (toda 𝑥 tal que |𝑥 − 𝑐| < 𝛿). Entonces, para 𝑓𝑥 (𝑥) la densidad de 𝑥,
𝑙 𝑙
= ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥 + ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆 𝑆
𝑙
≥ ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆
𝑙
≥ ∫ 𝛿 𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆
𝛿 𝑟 𝑃{|𝑥 − 𝑐| < 𝛿}
A fin de que
Prueba de la proposición 7.7: La parte (a) es establecida como en Andrews (1988,p.463) usando
la desigualdad de Holder ( ver ,por ejemplo ,White 1984,p.30), la cual establece que para r> 1,si
𝐸[|𝑌|1 ] < ∞ y 𝐸[|𝑊|𝑟𝑡(𝑟−1) ] < ∞ ,entonces
1/𝑟 (𝑟−1)/𝑡
𝐸|𝑌𝑊| ≤ {𝐸{|𝑌|𝑟 }} 𝑥{𝐸[(𝑊)𝑟𝑡(𝑟−1) ]}
Esto implica que
𝑟𝑡(𝑟−1) (𝑟−1)/𝑡
1/𝑟
𝐸 (|𝑌1 |. 𝛿||𝑌1 |≥𝑒| ) ≤ {𝐸{|𝑌1 |𝑟 } } 𝑥 {𝐸 [(𝛿||𝑌1 |≥𝑒| ) ]}
[7.A.4]
𝑟𝑡(𝑟−1) 𝐸|𝑌1 |
𝐸 [(𝛿||𝑌1 |≥𝑒| ) ] = 𝐸 [𝛿||𝑌1 |≥𝑒| ] = ∫ 1. ∫ 𝑟𝑡 (𝑌𝑡 )𝑑𝑦 = 𝑃{|𝑌1 | ≥ 𝑒} ≤
|𝑌1 |≥𝑒 𝐶
[7.A.5]
Donde el ultimo resultado sigue desde la desigualdad de Chebyshev .Sustituyendo [7.A.5] en [7.A.4].
1/𝑟 𝐸|𝑌1 |
𝐸 (|𝑌1 |𝛿||𝑌1 |≥𝑒| ) ≤ {𝐸{|𝑌𝑡 |𝑟 }} 𝑋{ }
𝐶
[7.A.6]
Recuerde que 𝐸{|𝑌𝑡 |𝑟 } < 𝑀, para toda t, Implicando que ahí también existe una M< ∞ tal que
𝐸|𝑌1 | < 𝑀 para toda t. Así pues 𝐸 (|𝑌1 |𝛿||𝑌1 |≥𝑒| ) ≤ (𝑀𝑙)1/𝑟 𝑥(𝑀/𝐶)(𝑟−𝑡)/𝑟
Esta expresión puede ser hecha tan pequeña como sea deseada por elegir a el suficientemente
mayor c .Por ende, la condición [7.2.112] establece asegurar que {𝑌𝑡 } es uniformemente integrable
Para establecer (b), tenga en cuenta que
𝐸 {∑∞
𝑗=−∞|ℎ𝑗 |. |𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| } [7.A.7]
𝑟
Ya que 𝐸[|𝑋𝑡−𝑗 | ] < 𝑀, y como𝛿||𝑌1 |≥𝑒| ≤ 1, esto demuestra que 𝐸 {|𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| } es
∞
delimitada. Ya que {ℎ𝑗 } es absolutamente sumatorio, podemos traer el operador de la
𝑗=−∞
expectativa dentro de la suma en la última expresión de [7.A.7] para deducir que
∞ ∞
Donde la última desigualdad demuestra los mismos argumentos como en [7.A.6].Por consiguiente,
[7.A.7] se convierte en
∞ (𝑟−1)𝑟
, 𝑡/𝑟
𝐸|𝑌𝑡 |
𝐸 (|𝑌𝑡 |. 𝛿||𝑌1 |≥𝑒| ) ≤ ∑ |ℎ𝑗 |𝑥(𝑀 ) 𝑥{ }
𝑐
𝑗=−∞
[7.A.8]
Pero ciertamente, 𝐸|𝑌𝑡 | es delimitada
∞ ∞
Con 𝜎 > 0 , por determinaciones positivas de Ω .(b) 𝐸(𝑌𝑡4 )es una suma finita de términos de la
2
forma 𝜆𝑖 𝜆𝑗 𝜆𝑙 𝜆𝑚 𝐸(𝑌𝑖𝑡 𝑌𝑖𝑗 𝑌𝑖𝑙 𝑌𝑖𝑚 ) y así es delimitada para toda t por condición (b) de la Proposición
7.9;por tanto ,Y, satisface la condición (b) de la Proposición 7.8 Para r=4.(c) Define
𝑆 𝑇≡(1/𝑇)𝑋 ∑𝑇𝑡=1 𝑌12 y 𝑆 𝑇≡(1/𝑇) ∑𝑇𝑡=1 𝑌1 𝑌11 ,tengiendo en cuenta que 𝑆𝑇 = 𝜆`𝑆𝑇 𝜆.Ya que , ST es una
función continua de ST, conocemos que plim ST =𝜆`Ω𝜆 ≡ 𝜎 2 ,donde Ω es dada como el plim de ST
.Por ello, Y satisface las condiciones (a) a través de (c) de la proposicion 7.8 y asi √𝑇 𝑌𝑇
𝐿 𝐿
→ 𝑁(0, 𝜎 2 ) o √𝑇𝑌𝑇 → 𝜆`𝑌,donde Y~(0, Ω).Ya que esto es verdad para cualquier 𝜆,esto confirma
𝐿
la afirmación que √𝑇 𝑌 𝑇 → 𝑁(0, 𝜎 2 )
Prueba de la Proposición 7.10: Sea Y≡ 𝑋𝑇 𝑋𝑆 y W≡ 𝑋𝑈 𝑋𝑉 . Entonces la desigualdad Holder
implica que para r> 1
(𝑟−1)/𝑟
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ {𝐸|𝑥𝑡 𝑥𝑠 |𝑟 }1/𝑟 𝑥{𝐸|𝑥𝑡 𝑥𝑠 |𝑟/(𝑟−1) }
Para r=2, esto significa
1 1
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ {𝐸(𝑥𝑡 𝑥𝑠 )2 }2 𝑥{𝐸(𝑥𝑡 𝑥𝑠 )2 }2 ≤ 𝑚𝑎𝑥{𝐸(𝑥𝑡 𝑥𝑠 )2 , 𝐸(𝑥𝑢 𝑥𝑣 )2 }
Una segunda aplicación de la desigualdad Holder con 𝑦 ≡ 𝑋 2 y 𝑦 ≡ 𝑋 2 revela que
(𝑟−1)/𝑟
𝐸(𝑥𝑡 𝑥𝑠 )2 = 𝐸( 𝑥𝑡 2 , 𝑥𝑠 2 ) ≤ {(𝐸(𝑥𝑡 2 ))𝑟 }1/𝑟 𝑥{(𝐸(𝑥𝑠 2 ))𝑟(𝑟−1) }
Nuevamente para r=2, esto implica desde el estricto estacionario de {𝑥𝑡 } que
𝐸(𝑥𝑡 𝑥𝑠 )2 ≤ 𝐸(𝑥𝑡 4 )
Por tanto, si {𝑥𝑡 } es estrictamente estacionaria con momento de cuarto orden finito ,entonces
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ 𝐸(𝑥𝑡 4 ) = 𝜇4
Para todo t,s,u y v
Observe más allá que
∞ ∞ ∞ ∞
∞ ∞
∞
∞
Pero
∞ ∞ ∞
∞
∞ ∞ ∞ ∞
Y
𝐸|𝑋𝑡−𝑖 𝑋𝑠−𝑗 𝑋𝑢−𝑙 𝑋𝑣−𝑚 | < 𝜇4
Para cualquier valor de cualquier de los índices, Por consiguiente,
∞ ∞
∞
∞
Capítulo 7 Ejercicios
7.1 Denote {𝑋t } una secuencia de escalares aleatorios con plim 𝑋t = 𝜉. Sea. {𝑐t } Denote una
secuencia de escalares deterministas con IimT→∞ ct = 𝑐. Sea 𝑔: ℝ2 → ℝ1 continuo en (𝜉, 𝑐) .
𝑃
Demuestre que 𝑔(𝑋t , ct ) → 𝑔(𝜉, 𝑐).
Capítulo 7 Referencias
Anderson,T.W.1971.El análisis estadísticos de series de tiempo.Nueva York:Willey.
Nosotros tenemos un camino conveniente para estimar los parámetros de una autoregresión con la
regresión de mínimos cuadrados ordinarios, una técnica de estimación que que también es usada para
un gran número de modelos. Este capítulo revisa las propiedades de la regresión lineal. La sección 8.2
da resultados análogos de la estimación de los mínimos cuadrados ordinarios de más modelos generales
como las autoregresiones y regresiones en la cual los disturbios son no Gaussianos, heterocedásticos y
autocorrelacionados. Los modelos de regresión lineal también pueden ser estimados por los mínimos
cuadrados ordinarios, los cuales son descritos en la sección 8.3.
𝑦𝑡 = 𝑥𝑡′ 𝜷 + 𝑢𝑡 [8.1.1]
Esta relación puede ser usada para describir cada una de las variables aleatorias o su realización. En
modelos de regresión discutidas, esto resulta engorroso de distinguir notacionalmente entre las variables
aleatorias y su realización, en la practica estándar esta para usar las letras pequeñas para cada uno.
𝒃= [∑ xt xt′ ] [∑ xt yt ] [8.1.3]
t=1 t=1
8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 209
T
Asumiendo que la (k x k) matriz [∑t=1 xt xt′ ] es no singular. La muestra residual MCO para la
observación t es
𝑢̂ = yt − xt′ 𝒃 [8.1.4]
y = 𝐗𝜷 + u, [8.1.5]
Donde
y1 x1′ u1
y2 x2′ u2
y ≡ . X ≡ . u ≡ .
(𝑡𝑥1) (𝑡𝑥1)
(𝑡𝑥1) . . .
[yT ] [xT′ ] [uT ]
Luego las estimaciones de los MCO estimada en [8.1.3] pueden ser escritas como
−1
x1′ y1
x2′ y2
𝒃 = [𝑥1 𝑥2 . . . 𝑥𝑇 ] . [𝑥1 𝑥2 . . . 𝑥𝑇 ] . [8.1.6]
. .
{ [xT′ ] } { [yT ] }
= ((𝑿′ 𝑿)−𝟏 𝑿′ 𝒚
Similarmente el vector de muestras residuales MCO [8.1.4] puede ser escrito como
Idempotente: 𝑴𝐗 𝑴 𝐗 = 𝑴𝐗 ;
Por tanto, de [8.1.7], las muestras residuales MCO son ortogonales a las variables explicativas en X:
̂ ´ 𝐗 = 𝑦 ′ 𝐌𝐱′ 𝑿 = 0′
𝐮 [8.1.10]
La muestra residual MCO (𝑢 ̂𝑡 ) xxx podría ser distinguida de la población residual ut . La muestra
̂ = yt − xt′ 𝒃) (mientras la población residual
residual es construida de la estimación de la muestra b(𝑢
es una construcción hipotética basada en el verdadero valor poblacional 𝜷(𝑢 = yt − xt′ 𝜷). La relación
entre la muestra mientras la población residual es una construcción hipotética basada en el verdadero
valor poblacional xxx. La relación entre la muestra y la población residual puede ser encontrada
sustituyendo [8.1.5] en [8.1.7]:
𝑢 = 𝑴𝒙 (𝑿𝜷 + 𝒖) = 𝑴𝒙 𝒖 [8.1.11]
Si la variable explicativa en la regresión fue un término constante (𝒙𝒕 = 1), luego el valor
ajustado para cada observación podría solo ser la media muestral 𝑦̅ ya la suma de cuadrados de valores
ajustados podría ser 𝑇𝑦̅ 2 . Esta suma de cuadrados es con frecuencia comparada con la suma de
cuadrados cuando un vector de variables xxx es incluido en la regresión. La centrada 𝑅 2 (denotada por
𝑅𝑐2) es definida como
Suposición 8.1: (a) xt es un vector de variables determinativas (por ejemplo, xt podría incluir un
término constante y funciones determinativas de t); (b) ut es i. i. d con media cero y varianza 𝜎 2 ; (c)
ut es Gaussiana.
Para resaltar el rol de cada una de estas suposiciones, primero notamos las implicaciones de la
suposición de 8.1 (a) y (b) solos, y luego el comentario sobre las implicaciones añadidas que siguen de
(c).
8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 211
𝐸[(𝑏 − 𝛽)(𝑏 − 𝛽)′ ] = 𝐸[(𝑿′ 𝑿)−1 𝑋 ′ 𝑢𝑢′ 𝑿(𝑿′ 𝑿)−𝟏 ] [8.1.16]
= (𝑋 ′ 𝑋)−1 𝑋 ′ [𝐸𝑢𝑢′ )]𝑋(𝑋′𝑋)−1
= 𝜎 2 (𝑿′ 𝑿)−𝟏 𝑿′𝑿(𝑿′ 𝑿)−𝟏
= 𝜎 2 (𝑿′ 𝑿)−1
Esto puede ser demostrado más allá que bajo la suposición 8.1 (a) a través de (c), ningún estimador
imparcial de β es más eficiente que el estimador MCO 𝑏.2 Por consiguiente, con residuos Gausseanos,
el estimador MCO es óptimo
Donde Ʌ es una 𝑇 𝑋 𝑇 matriz con los valores propios de 𝑀𝑥 en la diagonal principal y ceros en otros
lugares. Tenga en cuenta de [8.1.9] que 𝑴𝒙 𝒗 = 𝟎 si 𝑣 podría ser dado por una de las 𝑘 columnas de X.
Asumiendo que las columnas de X son independientemente lineales, las 𝑘 columnas de X de esta
manera representan 𝑘 diferentes valores propios de 𝑿 cada uno asociado 𝑴𝒙 con un valor propio igual
a cero. También de [8.1.8] , 𝑀𝑥 𝑣 = 𝑣 para cualquier vector 𝑣 que es ortogonal a las columnas de 𝑋
De este modo, los elementos de 𝑤 no son correlativos, con la media cero y varianza 𝜎 2 . Ya que 𝑘 de la
𝛾 son cero y el restante 𝑇 − 𝑘 son unidades, [8.1.22] se convierte en
2
𝑢′𝑀𝑥 𝑢 = 𝑤12 + 𝑤22 + ⋯ + 𝑤𝑇−𝑘 [8.1.23]
Igualmente, cada 𝑤𝑡2 2
tiene expectativa 𝜎 , para que
𝐸(𝑢′𝑀𝑥 𝑢) = (𝑇 − 𝑘)𝜎 2
𝑅𝑆𝑆 [8.1.24]
= 𝒖′𝑴𝒙 𝒖/𝜎 2 ~𝑋 2 (𝑇 − 𝑘)
𝜎2
Nuevamente, es posible mostrar bajo la suposición 8.1(a) a través de (c) , Ningún otro estimador
imparcial de 𝜎 2 tiene mucho menor varianza como hace 𝑠 2 4
Tenga en cuenta también de [8.1.11] y [8.1.12] que 𝑏 y 𝑢̂ no son correlativas:
4 4
See Rao (1973, p. 319)
8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 213
(𝒃𝒊 −𝜷𝟎𝒊 ) (𝒃 −𝜷𝟎 ) [8.1.26]
𝑡= ̂𝑏
𝜎
= 𝑠(𝜀𝒊𝑖𝑖)1/2
𝒊
,
𝑖
Donde 𝜀 𝑖𝑖 denota la fila 𝑖, columna 𝑖 elemento de (𝑋 ′ 𝑋)−1 y 𝜎̂𝑏𝑖 es el error estándar de la estimación
MCO del 𝜎̂𝑏𝑖 ≡ √𝑠 2 𝜀 𝑖𝑖 coeficiente. La magnitud en [8.1.26] tiene una exacta 𝑡 distribución con 𝑇 − 𝑘
grados de libertad siempre y cuando 𝑥 es determinativa y 𝑢𝑡 es 𝑖. 𝑖. 𝑑. Gausseana. Para verificar esta
afirmación tenga en cuenta [8.1.17] que bajo la hipótesis nula 𝑏𝑖 ~𝑁(𝜷𝟎𝒊 , 𝜎 2 𝜀 𝑖𝑖 ), lo que significa que
(𝑏𝑖 − 𝜷𝟎𝒊 )/√𝜎 2 𝜀 𝑖𝑖 ~𝑁(0,1)
Por lo tanto, si [8.1.26] es escrito como
(𝒃𝒊 − 𝜷𝟎𝒊 )/√𝜎 2 𝜀 𝑖𝑖
𝑡=
√𝜎 2 /𝜎 2
𝐻0 : 𝑅𝛽 = 𝑟 [8.1.27]
Aquí 𝑅 es una matriz (𝑚×𝑘) conocida representando las combinaciones lineales particulares de β
sobre la cual consideramos hipótesis y r es un vector (𝑚×1) conocido de los valores que creemos que
estas combinaciones lineales toman. Por ejemplo, para representar la hipótesis simple 𝛽𝑖 = 𝜷𝟎𝒊 usada
previamente, podríamos tener 𝑚 = 1, 𝑅 𝑎(1×𝑘) vector con unidad en la 𝜷𝟎𝒊 posición y ceros en otros
lugares, y 𝑟 el escalar 𝑘 = 4. Como un segundo ejemplo, considere una regresión con variables
explicativas y la hipótesis conjunta que 𝛽1 + 𝛽2 = 1 y 𝛽3 = 𝛽4. En este caso, 𝑚 = 2 y
1 1 0 0 1 [8.1.28]
𝑅=⌈ ⌉ 𝑟=[ ]
0 0 1 −1 0
= ∑ 𝑤𝑖2 /𝛾𝑖 ,
𝑖=1
Donde 𝑤 ≡ 𝑃−1 𝑧. Tenga en cuenta que 𝑤 es Gaussiana con media cero y varianza
𝐸(𝑤𝑤 ′ ) = 𝐸(𝑃−1 𝑧𝑧 ′ [𝑃′ ] = 𝑃−1 Ω[𝑃′ ]−1 = 𝑃−1 𝑃Ʌ𝑃′ [𝑃′ ]−1 = Ʌ
De este modo [8.1.30] es la suma de cuadrados de 𝑛 variables normales independientes, cada uno
divido dividido por su varianza 𝛾𝑖 . Esto por consecuencia tiene una 𝑋 2 (𝑛) distribución, como esta
afirmado.
Aplicando la Proposición 8.1 directamente a [8.1.29], bajo 𝐻0 ,
El numerador es una 𝑥 2 (𝑚) variable dividida por su grado de libertad, mientras el denominador es una
𝑥 2 (𝑇 − 𝑘) variable dividida por su grado de libertad .Nuevamente, ya que 𝑏 y 𝑢̂ son independientes, el
numerador y el denominador son independientes de cada otro .Por lo tanto, [8.1.32] tiene una exacta
𝐹(𝑚, 𝑇 − 𝑘) distribución bajo 𝐻0 cuando 𝑥𝑡 no es estocástica y 𝑢𝑡 es 𝑖. 𝑖. 𝑑 Gaussiana.
Tenga en cuenta que la prueba 𝑡 de la hipótesis simple 𝛽𝑖 = 𝜷𝟎𝒊 es un caso especial de la
formula general [8.1.32], para la cual
′ −1 [8.1.33]
𝐹 = (𝛽 − 𝜷𝟎 ) [𝑠 2 𝜀 𝑖𝑖 ] (𝛽 − 𝜷𝟎 )
𝑖 𝒊 𝑖 𝒊
Este es el cuadrado de la 𝑡 estadística en [8.1.26].Ya que una 𝐹(1, 𝑇 − 𝑘) variable es solo el cuadrado
de una 𝑡(𝑇 − 𝑘) variable, la respuesta idéntica resulta de (1) calculando [8.1.26] y usando 𝑡 tablas para
encontrar la probabilidad de un valor absoluto tan grande para una 𝑡(𝑇 − 𝑘) variable ,o (2) calculando
[8.1.33] y usando 𝐹 tablas para encontrar la probabilidad de un valor tan grande para una 𝐹(1, 𝑇 − 𝑘)
variable.
8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 215
con respecto a 𝑏2∗ , 𝑏3∗ , ⋯ , 𝑏𝑘∗ y de este modo minimiza la suma residual de cuadrados [8.1.2] sujeto a la
distracción que 𝛽𝑖 − 𝜷𝟎𝒊 . Alternativamente, para imponer la restricción en [8.1.28] podríamos regresar
𝑦𝑡 − 𝑥2𝑡 en (𝑥1𝑡 − 𝑥2𝑡 ) y (𝑥3𝑡 − 𝑥4𝑡 ):
Proposición 8.2: Denote b la estimación MCO no limitada [8.1.6] y Sea RSS la suma residual de cuadrados
resultados del uso de esta estimación
𝑇 [8.1.35]
𝑅𝑆𝑆1 = ∑(𝑦𝑡 − 𝑥𝑡′ 𝑏)2
𝑡=1
Denote 𝑏 ∗ la estimación MCO delimitada y 𝑅𝑆𝑆0 la suma residual de cuadrados de estimación MCO
delimitada
𝑇 [8.1.36]
𝑅𝑆𝑆0 = ∑(𝑦𝑡 − 𝑥𝑡′ 𝑏)2
𝑡=1
Ya que la forma Wald de la prueba MCO F de una hipótesis lineal ○18.1.32] puede equivalentemente
ser calculada como
(𝑅𝑆𝑆0 − 𝑅𝑆𝑆1 )/𝑚 [8.1.37]
𝐹=
𝑅𝑆𝑆1 /(𝑇 − 𝑘)
Es mayor que 3.20 (el valor crítico del 5 % para una 𝐹(2,46) variable aleatoria), entonces la hipótesis
nula debería ser rechazada.
𝑦𝑡 = 𝑥𝑡′ 𝛽 + 𝑢𝑡
Bajo la suposición sostenida 8.1 (𝑥 es determinativa y 𝑢𝑡 es 𝑖. 𝑖. 𝑑 Gaussiana)
Nos referiremos a continuación a esta suposición como ‘’caso 1 ‘’ .Esta sección generaliza esta
suposición para describir especificaciones probable que surjan en el análisis de series de tiempo.
Algunos de los resultados claves son resumidos en la Tabla 8.1
Esto podría ser reemplazado con la suposición 𝑢 𝑋~𝑁(0, 𝜎 2 𝐼𝑇 ) con todos los resultados para seguir
sin cambios
Muchos de los resultados para represores determinativos continúan aplicando para este caso. Por
ejemplo, tomando expectativas de [8.1.12] y explotando la suposición independiente,
La distribución de las pruebas estadísticas para este caso puede ser encontrada por un procedimiento de
2 pasos .El primer paso evalúa la distribución condicional la distribución condicional en X; es decir,
esto trata a X como deterministas ,justo como el análisis más temprano .El segundo paso multiplica
por la densidad de X y se integra a lo largo de X para encontrar la verdadera distribución incondicional.
Por ejemplo , [8.1.17] implica que
Pero esta densidad es la misma para toda X. Por ello, cuando multiplicamos la densidad de RSS/X por
la densidad de X y se integran, obtendremos exactamente la misma densidad. Por tanto,[8.1.24]
continua dando la distribución incondicional correcta para la suposición 8.2.
55
This could be replace with the assumption with all the results to follow unchanged.
Suposición 8.3: (a) 𝑥𝑡 estocástica e independiente de 𝑢𝑠 para toda 𝑡, 𝑠;(b) 𝑢𝑡 no gaussiana pero 𝑖. 𝑖. 𝑑 con media
cero, varianza 𝜎 2 y 𝐸(𝑢𝑡4 ) = 𝜇4 < ∞; (𝑐)𝐸(𝑥, 𝑥𝑡′ ) = 𝑄, una matriz definida positiva con (1/𝑇) ∑𝑇𝑡=1 𝑄𝑡 →
𝑝
𝑄, una matriz definida positiva ;(d) 𝐸(𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑙𝑡 𝑥𝑚𝑡 ) < ∞ para toda 𝑖, 𝑗, 𝑙, 𝑚 y 𝑡;(e) (1/𝑇) ∑𝑇𝑡=1(𝑥𝑡 𝑥𝑡′ ) → 𝑄.
El modelo de regresión es 𝑦 = 𝑥𝛽 + 𝑢, 𝑏 es dado por [8.1.6], 𝑥 2 por [8.1.18], estadística 𝑡 por [81.26], y estadística 𝐹 por [8.1.32]; 𝜇4 denota 𝐸(𝑢𝑡4 ).
Caso 1: X no estocástico, 𝑢~𝑁(0, 𝜎 2 𝐼𝑇 )
Caso 2: X estocástico, 𝑢~𝑁(0, 𝜎 2 𝐼𝑇 ),X independiente de 𝑢.
𝐿
Caso 3: X estocástico, 𝑢~ No Gasussiana (0, 𝜎 2 𝐼𝑇 ), X independiente de 𝑢, 𝑇 −1 ∑ 𝑥𝑡 𝑥𝑡′ → 𝑄.
Caso 4: autoregresion estacionaria con errores independientes, Dado 𝑄 por [8.2.27]
Considere el primer término en [8.2.3]. La Suposición 8.3 (e) y la Suposición 7.1 implican que
𝑇 −1 [8.2.4]
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] →𝑄 −1
𝑡=1
Considerando después, el segundo término en [8.2.3], note que 𝑥, 𝑢 es una secuencia de diferencia
de martingala con matriz varianza-covarianza dada por
𝐸(𝑥𝑡 𝑢𝑡 𝑥𝑡′ 𝑢𝑡 ) = {𝐸(𝑥𝑡 𝑥𝑡′ )} ∙ 𝜎 2 ,
La cual es finita.Por eso, del Ejemplo 7.11,
𝑇 [8.2.5]
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 ] → 0 .
𝑡=1
Vimos en [8.2.4] que el primer término converge en probabilidad a 𝑄 −1.. El segundo término es √𝑇
veces la media muestral de 𝑥𝑡 𝑢𝑡 ,donde 𝑥𝑡 𝑢𝑡 es una secuencia de diferencia de martingala con
varianza 𝜎 2 𝑄𝑡 y (1/𝑇) ∑𝑇𝑡=1 𝜎 2 𝑄𝑡 → 𝜎 2 𝑄. Observe que bajo la Suposición 8.3 podemos aplicar la
Proposición 7.9:
𝑇 [8.2.7]
1 𝐿
2
[( ) ∑ 𝑥𝑡 𝑢𝑡 ] → 𝑁(0, 𝜎 𝑄).
√𝑇 𝑡=1
Combinando [8.2.6],[8.2.4], y [8.2.7], vemos como en el Ejemplo 7.5 que
𝐿 [8.2.8]
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, [𝑄 −1. (𝜎 2 𝑄) ∙ 𝑄 −1 = 𝑁(0, 𝜎 2 𝑄 −1 ).
Esto, por supuesto, es el mismo resultado obtenido en [8.1.17],el cual asumió perturbaciones
Gaussianas .Con perturbaciones no Gaussianas la distribución no es exacta, pero ofrece una
aproximación cada vez más buena mientras la muestra del tamaño crece .
A continuación, considere consistencia de la varianza estimada 𝑠𝑇2 .Tenga en cuenta que el residuo
poblacional suma cuadrados que pueden ser escritos:
(1/𝑇)(𝑦𝑇 − 𝑋𝑇 𝛽)′(𝑦𝑇 − 𝑋𝑇 𝛽)
1 1 1 ′
= ( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) + ( ) ( ) (𝑏𝑇 − 𝛽)′𝑋𝑇 𝑋𝑇 (𝑏𝑇 − 𝛽),
𝑇 𝑇 𝑇
O
1
( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )
𝑇
1 [8.2.11]
= ( ) (𝑢′𝑇 𝑢 𝑇 ) − (𝑏𝑇− 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇− 𝛽).
𝑇
1 1
Ahora ( ) (𝑢′𝑇 𝑢 𝑇 ) = ( ) ∑𝑇𝑡=1 𝑢𝑡2 , donde {𝑢𝑡2 } es una secuencia 𝑖. 𝑖. 𝑑 con media 𝜎 2 .De este
𝑇 𝑇
modo, por la ley de grandes números
1 𝑃
( ) (𝑢′𝑇 𝑢 𝑇 ) → 𝜎 2 .
𝑇
𝑝 𝑝
Para el segundo término en [8.2.11],tenemos (𝑋𝑇′ 𝑋𝑇 /𝑇) → 𝑄 y (𝑏𝑇− 𝛽) → 0, por lo tanto, de la
Proposición 7.1,
𝑋𝑇′ 𝑋𝑇 𝑝
(𝑏𝑇− 𝛽)′ ( ) (𝑏𝑇− 𝛽) → 0′ 𝑄0 = 0.
𝑇
Sustituyendo estos resultados en [8.2.11],
1 𝑝 [8.2.12]
= ( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) → 𝜎 2 .
𝑇
Para encontrar la distribución asintótica de 𝑠𝑇2 , considere primero √𝑇(𝜎̂𝑇2 − 𝜎 2 ). De [8.2.11], esto
equivale a
1 [8.2.15]
√𝑇(𝜎̂𝑇2 − 𝜎 2 ) = ( ) (𝑢′𝑇 𝑢 𝑇 )√𝑇𝜎 2 − √𝑇(𝑏𝑇 − 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇
√𝑇
− 𝛽).
Pero
1 1 𝑇
( ) (𝑢′𝑇 𝑢 𝑇 ) − √𝑇𝜎 2 = ( ) ∑ 𝑢𝑡2 − 𝜎 2 ),
√𝑇 √𝑇 𝑡=1
Donde {𝑢𝑡2 − 𝜎 2 } es una secuencia de variables 𝑖. 𝑖. 𝑑 con media cero y varianza 𝐸(𝑢𝑡2 − 𝜎 2 )2 =
𝐸(𝑢𝑡4 ) − 2𝜎 2 𝐸(𝑢𝑡2 ) + 𝜎 4 = 𝜇4 − 𝜎 4 . Así pues, por el teorema de límite central,
1 𝐿 [8.2.16]
( ) (𝑢′𝑇 𝑢 𝑇 ) − √𝑇𝜎 2 → 𝑁(0, (𝜇4 − 𝜎 4 ))
√𝑇
𝐿 𝑋′ 𝑋 𝑝
Para el ultimo termino en [8.2.15], tenemos √𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ), ( 𝑇𝑇 𝑇 ) → 𝑄, y (𝑏𝑇 −
𝑝
𝛽) → 0. Por consiguiente,
𝑝 [8.2.17]
√𝑇(𝑏𝑇 − 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇 − 𝛽) → 0
Para ver que 𝑠𝑇2 , tiene esta mismadistribucion limitada, tenga en cuenta que
Por tanto, imponiendo 𝑍 denota una 𝑁(0,1) variable, una variable 𝑡 con 𝑁 grados de libertad tiene
la misma distribución como
𝑍
𝑡𝑁 =
{(𝑍1 + 𝑍2 + ⋯ + 𝑍𝑁2 )/𝑁}1/2
2 2
Esta es una función cuadrática de un vector Normal del tipo descrito por la Proposición 8.1,de la
cual
𝐿
(𝑚𝐹𝑇 → 𝑥 2 (𝑚))
Por tanto, una inferencia asintótica puede estar basada en la aproximación
Para el denominador
𝑃
(𝑍12 + 𝑍22 + ⋯ + 𝑍𝑁2 )/𝑁 → 𝐸(𝑍𝑡2 ) = 1,
Implicando
𝐿
→
𝐹𝑚,𝑁 𝑋/𝑚.
𝑁→∞
Por lo tanto, comparando [8.2.23] con un valor critico o comparando [8.2.22] con un valor
𝐹(𝑚, 𝑇 − 𝑘) critico resultara en la prueba idéntica suficientemente grande para 𝑇 (vea el ejercicio
8.2)
Para una muestra de tamaño 𝑇 dada, la distribución de muestras pequeñas (la distribución 𝑡 o 𝐹)
implica intervalos de confianza más amplia que la distribución de muestra grande (Normal o
distribución 𝑋 2 ). Aun cuando la justificación para usar la distribución 𝑡 o 𝐹 es solo asintótica,
muchos investigadores prefieren usar las tablas 𝑡 o 𝐹 en lugar de la normal o tablas 𝑋 2 con los
fundamentos que los más antiguos eran más conservadores y puede representar una mejor
representación de la distribución de muestra pequeña.
Si nos basamos solo en la distribución asintótica, la prueba estadística Wald [8.2.23] puede ser
generalizada para permitir una prueba de un conjunto de restricciones no lineales en 𝛽.
Considere una hipótesis nula que consta de m restricciones no lineales separadas de la forma
𝑔(𝛽) = 0 donde 𝑔: ℝ𝑘 → ℝ𝑚 y 𝑔(∙) tiene derivados primeros continuos, El resultado de [8.2.8] y
la Proposición 7.4 implica que
𝐿 𝜕𝑔
√𝑇[𝑔(𝑏𝑇 ) − 𝑔(𝛽0 )] → [(𝜕𝛽 ′ | 𝛽−𝛽0 )] 𝑧,
Donde 𝑧~𝑁(0, 𝜎 2 𝑄 −1 ) y
𝜕𝑔
( ′ | 𝛽=𝛽0 )
𝜕𝛽
Denota la matriz (𝑚×𝑘) de derivadas de 𝑔(∙) con respecto a 𝛽, evaluada en el valor real 𝛽0 .Bajo
la hipótesis nula que 𝑔(𝛽0 ) = 0. Esto sigue de la Proposición 8.1 que
−1
𝜕𝑔 𝜕𝑔 𝐿
{√𝑇 ∙ 𝑔(𝑏𝑇 )}′ {(𝜕𝛽 ′ | 𝛽=𝛽0 ) 𝜎 2 𝑄 −1 (𝜕𝛽 ′ | 𝛽=𝛽0 ) ′} {√𝑇 ∙ 𝑔(𝑏𝑇 )} → 𝑥 2 (𝑚)
1 𝜕𝑔 𝐿
Recuerde que 𝑄 es el plim de ( )(𝑋𝑇′ 𝑋𝑇 ). Ya que es continua y ya que 𝑏𝑇 → 𝛽0 , sigue de la
𝑇 𝜕𝛽 ′
proposición 7.1 que
𝜕𝑔 𝐿 𝜕𝑔
( ′ | 𝛽=𝑏𝑇 ) → ( ′ | 𝛽=𝛽0 )
𝜕𝛽 𝜕𝛽
Por esto un conjunto de 𝑚 restricciones no lineales sobre 𝛽 de la forma 𝑔(𝛽) = 0 puede ser
probada con la estadística
−1
𝜕𝑔 −1 𝜕𝑔 𝐿
′{( ′ | 𝛽=𝑏 )𝑆𝑇2 (𝑋𝑇′ 𝑋𝑇 ) ( ′ | 𝛽=𝑏 )′} {𝑔(𝑏𝑇 )}→𝑥 2
{𝑔(𝑏 )} 𝜕𝛽 𝑇 𝜕𝛽 𝑇
(𝑚).
𝑇
Vea que la prueba Wald para restricciones lineales [8.2.23] puede ser obtenida como un caso
especial de esta forma más general estableciendo 𝑔(𝛽) = 𝑅𝛽 − 𝑟.
Una desventaja de la prueba Wald para restricciones no lineales, es que la repuesta que uno tiene
puede ser dependiente de como las restricciones 𝑔(𝛽) = 0 son parametradas. Por ejemplo, las
𝛽
hipótesis 𝛽1 = 𝛽2 y 𝛽1 = 1 son equivalentes, y asintóticamente una prueba Wald basada también en
2
𝜕𝑔
𝑔(𝛽0 ) ( ′ | 𝛽=𝑏𝑇 ) (𝑏𝑇 − 𝛽0 ) = 0.
𝜕𝛽
Debe tenerse cuidado para asegurar que la linealizacion es razonable en el rango de valores factibles
para 𝛽. Ver a Gregory y Veall (1985). Lafontaine y White (1986), y Phillips y park (1988) para una
discusión más detallada
Una autoregresion tiene la forma del modelo de regresión estándar 𝑦𝑡 = 𝑋𝑡′ 𝛽 + 𝜇𝑡 con 𝑋𝑡′ =
(1. 𝑦𝑡−1 , 𝑦𝑡−2 , ⋯ , 𝑦𝑡−𝑝 ) y 𝜇𝑡 .Tenga en cuenta, sin embargo, que una autoregresion no puede
satisfacer la condición (a) de la Suposición 8.2 o 8.3. Aunque 𝜇𝑡 .es independiente de 𝑥 bajo la
suposición 8.4, este no será el caso que 𝜇𝑡 . sea independiente de 𝑥𝑡+1 . Sin esta independencia,
ninguno de los resultados de muestra pequeña aplica para el caso 1. Especificamente, aun si 𝜀𝑡 , es
gaussina, el coeficiente MCo 𝑏 da una estimación parcial de 𝛽 por una autoregresion, y las
estadísticas estándar 𝑡 y 𝐹 pueden solo estar justrificadas asintóticamente.
Sin embargo,los resultados asinoticos para el caso 4 son los mismos como para el caso 3 y son
derivados en la misma manera esencialmente. Para adaptar la notación temprana, suponga que la
muestra consiste de 𝑇 + 𝑝 observaciones en 𝑦𝑡 enomeradas (𝑦−𝑝+1 , 𝑦−𝑝+2 , ⋯ 𝑦0 , 𝑦1 ⋯ , 𝑦𝑇 );la
estimación CO por lo tanto usara observaciones 1 a través de 𝑇. Entonces como en [8.2.6]
𝑇 −1 𝑇 [8.2.25]
√𝑇(𝑏𝑇 − 𝛽) = [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1 𝑡=1
𝑇 −1 −1
1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−𝑝
[(/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ]
2
𝑡=1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−1 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−1 𝑦𝑡−𝑝
= 2
𝑇 −1 ∑ 𝑦𝑡−2 𝑇 −1 ∑ 𝑦𝑡−2 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−2 𝑦𝑡−𝑝
⋮ ⋮ ⋮ ⋯ ⋮
−1 −1 −1 −1 2
[𝑇 ∑ 𝑦𝑡−𝑝 𝑇 ∑ 𝑦𝑡−𝑝 𝑦𝑡−1 𝑇 ∑ 𝑦𝑡−𝑝 𝑦𝑡−2 ⋯ 𝑇 ∑ 𝑦𝑡−𝑝 ]
𝑇 −1 [8.2.26]
𝑃
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] → 𝑄 −1
𝑡−1
Donde
1 𝜇 𝜇 ⋯ 𝜇 [8.2.27]
𝜇 𝛾0 + 𝜇2 𝛾1 + 𝜇2 ⋯ 𝛾𝑝−1 + 𝜇2
𝑄≡ 𝜇 𝛾1 + 𝜇2 𝛾0 + 𝜇2 ⋯ 𝛾𝑝−2 + 𝜇2
⋮ ⋮ ⋮ ⋯ ⋮
[𝜇 𝛾𝑝−1 + 𝜇2 𝛾𝑝−2 + 𝜇2 ⋯ 𝛾0 + 𝜇2 ]
Para el segundo término en [8.2.25], observe que 𝑥𝑡 𝑢𝑡 es una secuencia de diferencia de martingala
con matriz de varianza-covarianza definida positiva dada por
𝐸(𝑥𝑡 𝑢𝑡 𝑢𝑡 𝑥𝑡′ ) = 𝐸(𝑢𝑡2 ) ∙ 𝐸(𝑥𝑡 𝑥𝑡′ ) = 𝜎 2 𝑄
Usando un argumento similar a este en el ejemplo 7.15, puede ser demostrado que
1 𝑇 𝐿 [8.2.28]
[( ) ∑ 𝑥𝑡 𝑢𝑡 ] → 𝑁(0, 𝜎 2 𝑄)
𝑇 𝑡−1
Es sencilla de verificar más allá de que 𝑏𝑇 y 𝑠𝑇2 son constantes para este caso .De [8.2.26],la matriz
varianza-autocovarianza asintótica de √𝑇(𝑏𝑇 − 𝛽) puede ser estimada constantemente por
𝑠𝑇2 (𝑋𝑇′ 𝑋𝑇 /𝑇)−1 , lo que significa que estadísticas estándar 𝑡 y 𝐹 que trata 𝑏𝑇 como si fuera
𝑁(𝛽, 𝑠𝑇2 (𝑋𝑇′ 𝑋𝑇 )−1 producirá asintóticamente pruebas validas de hipótesis sobre los coeficientes de
una autoregresion
Como un caso especial de [8.2.29], considere la estimación MCO de autoregresion de primer
orden,
𝑦𝑡 = 𝜑𝑦𝑡−1 + 𝜀𝑡
2 )
Con 𝜑 < 1. Entonces 𝑄 es el excalar 𝐸(𝑦𝑡−1 = 𝑦0 , la varianza de un proceso AR(1).Vimos en
2 2
el capítulo 3 que esto es dado por 𝜎 /(1 − 𝜑 ). Por ello, para 𝜑 el coeficiente MCO,
∑𝑇𝑡−1 𝑦𝑡−1 𝑦𝑡
𝜑̂𝑇 =
∑𝑇𝑡−1 𝑦𝑡−1
2
Para entonces se estima parámetros de [8.2.24] con una regresión MCO en esta muestra
artificial .Una nueva muestra es generada por la cual una nueva regresión es estimada. Mediante la
realización, suponga, 10.000 tales regresiones, una estimación de la distribución exacta de muestra
pequeña de las estimaciones MCO pueden ser obtenidas.
Para el caso de la autoregresion de primer orden, es conocido como cálculos que 𝜙̂𝑡 es imparcial
hacia abajo en muestras pequeñas, con las tendencias convirtiéndose cada vez más severas como 𝜙
se acerca a la unidad .Por ejemplo, para una muestra de tamaño T=25 generada por [8.2.24](con un
término constante incluido ) será menos que el valor real de 1 en el 95% de las muestras , y aun
caerán bajo 0.6 en 10% de las muestras.
Suposición 8.5 (a) Xt estocástica ;(b) condicional en la matriz completa X vector u es 𝑁(0, 𝜎 2 𝑉), ; (c) es una
matriz definida positiva conocida .
Cuando los errores para diferentes informaciones tienen diferentes varianzas pero no
son correlativas con cada una (Eso es V diagonal) ,se dice que los errores son autocorrelativos.
Escribiendo la matriz varianza-covarianza como el producto de algún escalar xxx y una matriz V es
una convención que ayudara a simplificar el álgebra y la interpretación para algunos ejemplos de
heteroscedasticidad y autocorrelacion .Tenga en cuenta nuevamente que la suposición 8.5(b) no
podría mantener una autoregresion ,entonces una condicional en xt+1=(1, yt, yt-1, ……., yt-p+1)’ y xt ,el
valor de ut es conocido con certeza.
Alternativamente, uno puede generar el valor inicial para y con un dibujo de la distribución
incondicional apropiada. Específicamente, genera un (px1) vector v ¬ 𝑁(0. 𝐼𝑃 ) y establece ( Y-P+1,
……,Y0)´= 𝜇. 1 + 𝑃. 𝑣, uno denota un 𝜇 = 𝑐/(1 − ∅1 − ⋯ … . −∅𝑝 ) vector de (Px1), y P es el
factor CHolesky tal que P.P= r .r para la ( p x p)matriz de quien sus columnas apiladas en un (𝑝2 x
1 )vector incluye la primera columna de la matriz , donde F es la , 𝜎 2 [𝐼𝑃2− (𝐹 𝑋 𝐹)] -1matriz
definida en la ecuación [1.2.3] capítulo 1.
*estos valores pueden ser inferidos de la Tabla B.5
A menos que 𝑉 = 𝑰 𝑇 , esta no es la misma matriz de varianza como en [8.1.17], para que la
estadística MCO 𝑡 [8.1.26] no tengan la interpretación como una variable Gaussiana dividida por
una estimación de su propia derivación estándar. Por lo tanto [8.1.26] no tendrán una
t (𝑇 − 𝑘) distribución en muestras pequeñas, ni siquiera será asintóticamente 𝑁(0, 1). Una prueba
válida de la hipótesis que 𝛽𝑖 = 𝛽𝑖0 para el caso 5 no sería basado en [8.1.26] pero mas bien
(𝑏𝑖 − 𝛽𝑖0 )
𝑡∗ = [8.2.32]
s √𝑑𝑖𝑖
Donde 𝑑𝑖𝑖 indica la fila 𝑖, columna 𝑖 elemento de (𝑿′ 𝑿)−𝟏 𝑿′𝑽𝑿(𝑿′ 𝑿)−𝟏 . Esta estadística será
asintóticamente 𝑁(0, 1).
Aunque uno podría formar una inferencia basada en [8.2.32], en este caso el cual 𝑽 es conocida, un
estimador superior y un proceso de prueba son descritos en la sección 8.3.
Primero, sin embargo, consideramos un caso más general en el cual 𝑽 es de forma desconocida.
Suposicion 8.6: (𝑎) 𝑥𝑡 estocástico, incluyendo valores tal vez retrasados de 𝑦; (𝑏) 𝑥𝑡 𝑢𝑡 es una secuencia de
diferencia de Martingala ; (𝑐) 𝐸(𝑢𝑡2 𝑥𝑡 𝑥𝑡′ ) = Ω𝑡 , una matriz definida positiva, con (1/
𝑝
𝑇) ∑𝑇𝑡=1 Ω𝑡 convergiendo a la matriz definida positiva Ω y (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡2 𝑥𝑡 𝑥𝑡′ → Ω ;
(𝑑) 𝐸(𝑢𝑡 𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑙𝑡 𝑥𝑚𝑡 < ∞ para toda 𝑖, 𝑗, 𝑙, 𝑚 y 𝑡; (𝑒) plims de (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑖𝑡 𝑥𝑡 𝑥𝑡′ y (1/
4
𝑝
𝑇) ∑𝑇𝑡=1 𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑡 𝑥𝑡′ existen y son finitas para toda 𝑖 y 𝑗 y (1/𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ → 𝑸 , una matriz no
singular.
La Suposición 8.6(𝑏) requiere 𝑢𝑡 para no ser correlativa con su propio valor de retraso y su
valor actual y de retraso de 𝑥. Aunque los errores son presumido de ser seriamente no correlativos,
la suposición 8.6(𝑐) permite una amplia clase de heteroscedasticidad condicional para los errores
.Como un ejemplo de tal heteroscedasticidad, considere una regresión con una variable singular
explicativa i.i.d 𝑥 con 𝐸(𝑥𝑡2 ) = 𝜇2 y 𝐸(𝑥𝑡4 ) = 𝜇4 .Suponga que la varianza residual de la
información 𝑡 es dada por 𝐸(𝑢𝑡2 ⁄𝑥𝑡 ) = 𝑎 + 𝑏𝑥𝑡2 . Entonces 𝐸( 𝑢𝑡2 𝑥𝑡2 ) = 𝐸𝑥 [𝐸(𝑢𝑡2 ⁄𝑥𝑡 ). 𝑥𝑡2 ] =
𝐸𝑥 [(𝑎 + 𝑏𝑥𝑡2 ). 𝑥𝑡2 ] = 𝑎𝜇2 + 𝑏𝜇4 . Por tanto, Ω𝑡 = 𝑎𝜇2 + 𝑏𝜇4 = Ω para toda 𝑡. Por la ley de
números grandes, (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡2 𝑥𝑡2 convergirá al momento poblacional Ω. La suposición 8.6(𝑐)
permite heteroscedasticidad condicional más general en esta 𝐸( 𝑢𝑡2 𝑥𝑡2 ) podría ser una función de 𝑡
𝑇 −1 𝑇
𝑇 −1
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] → 𝑸−𝟏
𝑡=1
Proposición 8.3: Con heteroscedasticidad de forma desconocida satisfaciendo la Proposición 8.6, la matriz
varianza-covarianza asintótica del coeficiente vectorial MCO puede ser sistemáticamente estimada por
−1 𝑃
𝑄̂𝑇 Ω ̂𝑇 𝑄̂𝑇 −1 → ( 𝑄 −1 Ω𝑄 −1 ) [8.2.34]
̂𝑇 ⁄𝑇)
𝑏𝑇 ≈ 𝑁(𝛽, 𝑉
Donde
̂𝑇 = 𝑄̂𝑇 −1 Ω
𝑉 ̂𝑇 𝑄̂𝑇 −1
= 𝑇. (𝑋𝑇′ 𝑋𝑇 )−1 [∑ ̂
𝑢𝑡2 𝑥𝑡 𝑥𝑡′ ] (𝑋𝑇′ 𝑋𝑡 )−1
𝑡=1
̂𝑇 ⁄𝑇)
(𝑉
= (𝑋𝑇′ 𝑋𝑇 )−1 [∑ ̂
𝑢𝑡2 𝑥𝑡 𝑥𝑡′
𝑡=1
𝑞 𝑇
𝑣
+ ∑ [1 − ] ∑(𝑥𝑡 𝑢̂𝑡 𝑢̂ ′
𝑡−𝑣 𝑥𝑡−𝑣 + 𝑥𝑡−𝑣 𝑢
̂ ̂𝑡 𝑥𝑡′ ] (𝑋𝑇′ 𝑋𝑇 )−1
𝑡−𝑣 𝑢
𝑞+1
𝑣=1 𝑡=1
𝑉 −1 = 𝐿′ 𝐿. [8.3.1]
Imagine el transformar los residuos de la población 𝑢 por 𝐿:
𝑢̂ ≡ 𝐿𝑢
(𝑇 ×1)
6
Conocemos que existe una matriz no singular 𝑃 tal que 𝑉 = 𝑃𝑃 ′ y asi 𝑉 −1 = [𝑃 ′ ]−1 𝑃 −1
Tome 𝐿 = 𝑃 −1 para deducir [8.3.1]
−1
𝐸(𝑢̂𝑢̂′ |𝑋) = 𝜎 2 𝐿[𝐿′ 𝐿] 𝐿′ = 𝜎 2 𝐼𝑇 [8.3.2]
Podemos por lo tanto tomar la ecuación matriz que caracteriza el modelo de regresión básica,
𝑦 = 𝑋𝛽 + 𝑢,
Y premultiplicada ambos lados por 𝐿:
𝐿𝑦 = 𝐿𝑋𝛽 + 𝐿𝑢
𝑦̂ = 𝑋̂𝛽 + 𝑢̂ [8.3.3]
donde
𝑦̂ ≡ 𝐿𝑦 𝑋̂ ≡ 𝐿𝑋 𝑢̂ ≡ 𝐿𝑢 [8.3.4]
Con 𝑢̂|𝑋 ~𝑁(0, 𝜎 2 𝐼𝑇 ). Por eso ,el modelo transformado [8.3.3] satisface la Suposición 8.2,es decir
que los resultados para este caso aplicado a [8.3.3].Específicamente ,el estimador
−1
𝑏̂ = (𝑋̂ ′ 𝑋̂ ) 𝑋̂ ′ 𝑦̂ = (𝑋 ′ 𝐿′ 𝐿𝑋)−1 𝑋 ′ 𝐿′ 𝐿𝑦 = (𝑋 ′ 𝑉 −1 𝑋)−1 𝑋 ′ 𝑉 −1 𝑦 [8.3.5]
−1
Es Gaussiano con media 𝛽 y varianza 𝜎 2 (𝑋̂ ′ 𝑋̂ ) = 𝜎 2 (𝑋 ′ 𝑉 −1 𝑋)−1 condicional en 𝑋 y es el
estimador condicional imparcial de varianza mínima en 𝑋.El estimador [8.3.5] es conocido como el
estimador mÍnimo cuadrático generalizado (MCG).Igualmente,
Tiene una distribución exacta [𝜎 2 ⁄(𝑇 − 𝑘)]. 𝑥 2 (𝑇 − 𝑘) bajo la Suposicion 8.5, mientras
′ −1
(𝑅𝑏̂ − 𝑟) [ 𝑠̂
2 𝑅(𝑋 ′ 𝑉 −1 𝑋)−1 𝑅 ′ ] (𝑅𝑏̂ − 𝑟)⁄𝑚
Heteroscedasticidad
Un caso simple para analizar es uno para el cual la varianza de 𝑢𝑡 es presumida para ser
2
proporcional al cuadrado de una de las variables explicativas para esta ecuación, dice 𝑥1𝑡 :
2
𝑥11 0⋯ 0
𝐸(𝑢𝑢′ |𝑋) = 𝜎 2 [ ⋮ ⋱ ⋮ ] = 𝜎2𝑉
2
0 0⋯ 𝑥1𝑇
1⁄|𝑥11 | 0 ⋯ 0
𝐿=[ ⋮ ⋱ ⋮ ]
0 0 ⋯ 1⁄|𝑥1𝑇 |
Autocorrelacion
Como un segundo ejemplo, considere
𝑢𝑡 = 𝜌𝑢𝑡−1 + 𝜀𝑡
[8.3.7]
𝜎2 1 𝜌 𝜌2 ⋯ 𝜌𝑇−1
′ |𝑋)
𝐸(𝑢𝑢 = [ ⋮ ⋱ ⋮ ] = 𝜎2𝑉
1 − 𝜌2 𝑇−1 𝑇−2 𝑇−3
𝜌 𝜌 𝜌 ⋯ 1
[8.3.8]
√1 − 𝜌2 0 0 ⋯0 0
𝐿= [ ⋮ ⋱ ⋮]
0 0 0 ⋯−𝜌 1
[8.3.9]
Satisface [8.3.19]. Las estimaciones MCG son encontradas de una regresión MCO de 𝑦̂ = 𝐿𝑦 en
𝑋̂ = 𝐿𝑋 ; eso es retroceso 𝑦1 √1 − 𝜌2 en 𝑥1 √1 − 𝜌2 y 𝑦𝑡 − 𝜌𝑦𝑡−1 en 𝑥𝑡 − 𝜌𝑥𝑡−1 para 𝑡 =
2,3, … . . , 𝑇.
Tenga en cuenta que [8.3.1] puede ser usada para escribir el ultimo termino en [8.3.10] como
− (1⁄2)(𝑦 − 𝑋𝛽)′ ( 𝜎 2 𝑉)−1 (𝑦 − 𝑋𝛽)
−1 −1 −1
√𝑇 (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑋𝑇 ) (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑦𝑇 )
𝑝 −1 −1 −1
→ √𝑇 (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑋𝑇 ) (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑦𝑇 ),
Donde 𝑉𝑇 (𝜃0 ) denota la varianza verdadera de errores y 𝜃̂𝑇 es cualquier estimación constante
de 𝜃.Ademas ,una estimación constante de 𝜃 puede con frecuencia ser obtenida de un análisis
simple de residuos MCO.Por tanto,una estimación viene de unas MCO simples y regresiones
MCG que pueden tener la misma distribución asintótica como el estimador de probabilidad
máxima .Entonces las regresiones son mucho más fáciles de implementar que una maximización
numérica, las estimaciones más simples son utilizadas con frecuencia.
Ilustramos estos temas considerando una regresión cuyos residuales siguen el proceso
AR(1) [8.3.7].Por ahora mantenemos la suposición que 𝑢|𝑋 tiene media cero y varianza
𝜎 2 𝑉(𝜌),observando que esto descarta variables endógenas retrasadas ;es decir, asumimos que 𝑥𝑡 no
es correlativa con 𝑢𝑡−𝑠 .Los siguientes comentarios de subsección en la importancia de esta
suposición .Recuerde que el determinante de una matriz triangular inferior es solo el producto de
Si conocimos el valor de 𝜌 ,entonces el valor de 𝛽 que maximiza [8.3.15] podría ser encontrado por
una regresión MCO de (𝑦𝑡 − 𝜌𝑦𝑡−1 ) en (𝑥𝑡 − 𝜌𝑥𝑡−1 ) para 𝑡 = 2,3, … 𝑇
(llame a esta regresión A). En cambio, si conocimos el valor de 𝛽 ,entonces el valor de 𝜌 que
maximiza [8.3.15] seria encontrado por una regresión MCO de (𝑦1 − 𝑥1′ 𝛽) en (𝑦𝑡−1 − 𝑥𝑡−1 ′
𝛽)
para 𝑡 = 2,3, … 𝑇 (llame a esta regresión B).Podemos por lo tanto empezar una estimación inicial
para 𝜌 (con frecuencia 𝜌 = 0), y presentar la regresión A para obtener una estimación inicial de
𝛽 .Para 𝜌 = 0, esta estimación inicial de 𝛽 solo sería la estimación MCO 𝑏. Esta estimación de 𝛽
puede ser utilizada en la regresión B para obtener una estimación de 𝜌, por ejemplo, regresando el
residuo MCO 𝑢 ̂𝑡 = 𝑦𝑡 − 𝑥𝑡′ 𝑏 en su propio valor de retraso. Esta nueva estimación de 𝜌 puede ser
utilizada para repetir las dos regresiones .
Zigzagueando hacia adelante y hacia atrás entre A y B es conocido como el método iterado
Cochrane Orcutt y convergirá a un máximo local de [8.3.15]
Alternativamente, considere la estimación de 𝜌 que resulta de la primera iteración sola,
(1⁄𝑇) ∑𝑇 ̂𝑡−1 𝑢
𝑡=1 𝑢 ̂𝑡
𝜌̂ = (1⁄𝑇) ∑𝑇 2
̂𝑡−1
, [8.3.16]
𝑡=1 𝑢
̂𝑡 = (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 + 𝛽 ′ 𝑥𝑡 − 𝑏 ′ 𝑥𝑡 ) = 𝑢𝑡 +( 𝛽 − 𝑏)′ 𝑥𝑡 ,
𝑢
Permitiendo que el numerador de [8.3.16] sea escrito
𝑇
Siempre y cuando 𝑏 sea una estimación constante de 𝛽 y condiciones limitadas aseguren que plims
de (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡−1 , (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡 , y (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1
′
existen ,entonces
𝜌
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡 𝑢̂𝑡−1 → (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 )
Si 𝑢 no es correlativa con 𝑥𝑠 para 𝑠 = 𝑡 − 1, 𝑡,y 𝑡 + 1 puede hacer la afirmación más fuerte que
una estimación de 𝜌 basada en una auto regresión de residuales MCO 𝑢̂𝑡 (expresión [8.3.16])que
tiene la misma distribución asintótica como una estimación de 𝜌 basada en los residuos
poblacionales verdaderos 𝑢𝑡 . Específicamente ,si el plim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡−1 ] =
𝑝lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑥𝑡 ] = 0, entonces multiplicando [8.3.17] por √𝑇, encontramos
𝑇
Por lo tanto
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡−1 𝑢̂𝑡 𝜌 (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑢𝑡
√𝑇 [ ] → √𝑇 [ ] [8.3.20]
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡−1
2
(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1
2
La estimación MCO de 𝜌 basada en los residuales poblacionales tendría una distribución asintótica
dada por [8.2.30]:
(1⁄𝑇) ∑𝑇 ̂𝑡−1 𝑢
̂𝑡 𝐿
𝑡=1 𝑢
√𝑇 [ (1⁄𝑇) ∑𝑇 2
̂𝑡−1
− 𝜌] → 𝑁(0, (1 − 𝜌2 )). [8.3.21]
𝑡=1 𝑢
El resultado [8.3.20] implica que una estimación de 𝜌 tiene la misma distribución asintótica cuando
se basa en cualquier estimación constante de 𝛽. Si las iteraciones Cochrane-orcutt son detenidas
después de una sola evaluación de 𝜌̂,la estimacion resultada de 𝜌 tiene la misma distribución
asintótica como la estimacion de 𝜌 emergiendo de cualquier paso subsecuente de la iteración.
Lo mismo también resulta ser cierto de la estimación MCG 𝑏̂.
Una variable endógena es una variable que es correlacionada con el termino de error de la regresión
𝑢𝑡 .Muchos de los resultados precedentes sobre errores correlacionados en serie ya no sostienen si la
regresión contiene variables endógenas retardadas. Por ejemplo, considere una estimación de
𝑦𝑡 = 𝛽 𝑦𝑡−1 + 𝛾𝑥𝑡 + 𝑢𝑡 , [8.3.22]
Donde 𝑢𝑡 sigue un proceso 𝐴𝑅(1) como en [8.3.7].Entonces (1) 𝑢𝑡 es correlativa con 𝑢𝑡−1 y (2)
𝑢𝑡−1 es correlativa con 𝑦𝑡−1 , esto cumple que 𝑢𝑡 es correlativa con la variable explicatoria 𝑦𝑡−1 . En
consecuencia ,este no es el caso que 𝑝 lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑢𝑡 ] = 0. La condición clave requerida
para la consistencia del estimador MCO 𝑏. Por tanto, 𝜌̂ en [8.3.16] no es una estimación constante
de 𝜌.
Si uno a pesar de ello itera en el procedimiento Cochrane-Orcuttt, entonces el algoritmo convergirá
a un máximo local de [8.3.15].Sin embargo, la estimación MCG resultante 𝑏̂ no tiene que ser una
estimación constante de 𝛽.No obstante ,el máximo global de [8.3.15] debería ofrecer una
estimación constante de 𝛽. Por medio de la experimentación con valores de inicio para Cochrane –
Orcutt iterado además de 𝜌 = 0, uno podría encontrar este máximo global.10
Una estimacion simple de 𝜌 que es constante en la presencia de variables endógenas retardadas fue
propuesta por Durbin (1960).Multiplicando [8.3.22] por (1 − 𝜌𝐿) da
Donde los cuatro coeficientes de regresión (𝛼1 , 𝛼2 , 𝛼3 , 𝛼4 ) son restringidos para no se funciones
lineales de tres parámetros subyacentes (𝜌, 𝛽, 𝛾).Reduccion de la suma de 𝜀 ′ s cuadrada en [8.3.23]
es equivalente a un acondicionamiento de la estimacion de probabilidad máxima en las primeras
dos observaciones. Además ,el termino de error en la ecuación [8.3.24] no es correlativa con las
variables explicativas, por lo tanto la 𝛼 ′ s puede ser estimada sistemáticamente por la estimación
MCO de [8.3.24] . Entonces − 𝛼 ̂4 ⁄𝛼
̂3 ofrece una estimación constante de 𝜌 a pesar de la presencia
de variables endógenas retardadas en [8.3.24]
Aun si estimaciones sistematizadas de 𝜌 y 𝛽son obtenidas ,Durbin (1970) enfatiza que con
variables endógenas retardadas esto aun no será el caso que una estimacion de 𝜌 basada en (𝑦𝑡 −
𝑥𝑡′ 𝛽̂) tiene la misma distribución asintótica como una estimación basada en (𝑦𝑡 − 𝑥𝑡′ 𝛽̂ ). Para ver
esto, tenga en cuenta que si 𝑥 contiene variables endógenas retardadas, entonces [8.3.19] no seria
valida .Si 𝑥 incluye 𝑦𝑡−1 por ejemplo, entonces 𝑥 y 𝑢𝑡−1 serán correlativas y
𝑝 lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑥𝑡 ] ≠ 0, incluye variables endógenas retardadas.
Nuevamente , un proceso de uso múltiple que trabajara como es maximizar la función de
probabilidad de registro [8.3.15] numéricamente.
′ ′
−𝜌2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽) − ⋯ − 𝜌𝑝 (𝑦𝑡−𝑝 − 𝑥𝑡−𝑝 𝛽)] ,
= − ∑ (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 )𝑥𝑡′ + 𝜆′ 𝑅 = 0′ ,
𝑡=1
O
𝑇 𝑇
∗
𝑏 ′∑ 𝑥𝑡 𝑥𝑡′ = ∑ 𝑦𝑡 𝑥𝑡′ − 𝜆′ 𝑅.
𝑡=1 𝑡=1
Tomando transposiciones,
𝑇 𝑇
[∑ 𝑥𝑡 𝑥𝑡′ ] 𝑏 = ∑ 𝑥𝑡 𝑦𝑡 − 𝑅 ′ 𝜆
∗
𝑡=1 𝑡=1
= 𝑏 −(𝑋 ′ 𝑋)−1 𝑅′ 𝜆 ,
𝑅𝑏 − 𝑟 = 𝑅(𝑋 ′ 𝑋)−1 𝑅′ 𝜆
O
𝜆 = [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟).
[8.A.3]
𝑅𝑆𝑆𝑆0 = (𝑦 − 𝑋𝑏 ∗ ) ′ (𝑦 − 𝑋𝑏 ∗ )
= ( 𝑦 – 𝑋𝑏 + 𝑋𝑏 − 𝑋𝑏 ∗ ) ′ ( 𝑦 – 𝑋𝑏 + 𝑋𝑏 − 𝑋𝑏 ∗ )
[8.A.7]
Confirmando [8.A.6] ∎
𝑃
∎ Prueba de la proposición 8.3: Suposición 8.6 (e) garantiza que 𝑄̂𝑇 → 𝑄 asi que el asunto es si
̂ ̂
Ω𝑇 da una estimación constante de Ω. Defina Ω𝑇 ≡ (1/T)∑𝑡=1 𝑢𝑡 𝑥𝑡 𝑥𝑡′ , observe que Ω∗𝑇 converge
∗ 𝑇 2
𝑃
̂𝑇 − Ω∗𝑇 → 𝟎,
en probabilidad a Ω por la suposición 8.6(c ).Por tanto ,si podemos mostrar que Ω
𝑃
̂𝑇 → Ω . Ahora
entonces Ω
Pero
(ȗ2𝑡 − 𝑢𝑡2 ) = (𝑢̂𝑡 + 𝑢𝑡 )(𝑢̂𝑡 + 𝑢𝑡 )
𝑇 𝑇
̂𝑇 −
Ω Ω∗𝑇 = (− 2/𝑇) ∑ 𝑢𝑡 (𝑏𝑇 − 𝛽) ′
𝑥𝑡 (𝑥𝑡 𝑥𝑡′ ) + (1/T) ∑[(𝑏𝑇 − 𝛽)′ ]2 (𝑥𝑡 𝑥𝑡′ ).
𝑡=1 𝑡=1
[8.A.10]
(− 2/𝑇) ∑𝑇𝑡=1 𝑢𝑡 (𝑏𝑇 − 𝛽)′ 𝑥𝑡 (𝑥𝑡 𝑥𝑡′ ) = −2 ∑𝑘𝑖=1(𝑏𝑖𝑇 − 𝛽𝑖 )[(1/T) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑖𝑡 (𝑥𝑡 𝑥𝑡′ )] [8.A.11]
𝑝
El segundo término en [8.A.11] tiene un 𝑝𝑙𝑖𝑚 finito por la suposición 8.6 (e),y (𝑏𝑖𝑇 − 𝛽𝑖 ) → 0 para
cada 𝑖. Por tanto, la probabilidad limita de [8.A.11] es cero.
Pasando al siguiente termino en [8.A.10]
(1/𝑇) ∑𝑇𝑡=1[(𝑏𝑇 − 𝛽)′ 𝑥𝑡 ] 2 (𝑥𝑡 𝑥𝑡′ ) = ∑𝑘𝑖=1 ∑𝑘𝑖=1(𝑏𝑖𝑇 − 𝛽𝑖 )(𝑏𝑖𝑇 − 𝛽𝑖 )[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑖𝑡 𝑥𝑗𝑡 (𝑥𝑡 𝑥𝑡′ )] .
𝑇 −1 𝑇
Ahora mostraremos que [(1⁄𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )′ ] tiene el mismo 𝑝𝑙𝑖𝑚 como
[(1⁄𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑥𝑡 − 𝜌𝑥𝑡−1 )′ ] y que [(1⁄√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑢𝑡 − 𝜌̂𝑢𝑡−1 )] tiene
la misma distribución asintótica como [(1⁄√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑢𝑡 − 𝜌𝑢𝑡−1 )].
𝜌
Pero (𝜌 − 𝑝̂ ) → 0 y los plims de (1/T) ∑𝑇𝑡=1 𝑥𝑡−1 𝑥𝑡−1 ´
y (1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1
´
son tomados como
existentes .Por ello [8.A.13] tiene el plim de muestra como
𝑇
(1/T) ∑(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑥𝑡 − 𝜌𝑥𝑡−1 )´
𝑡=1
A continuacion considere el segundo término en [8.A.12]
𝑇
Pero [8.3.21] establecio que √𝑇(𝜌 − 𝜌̂) converge en distribución a una variable aleatoria
estable.Entonces, 𝑝𝑙𝑖𝑚(1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑢𝑡 = 0los tres últimos términos en [8.A.14] desaparecen
asintóticamente
Por lo tanto,
𝑇 𝑇
𝜌
(1/√𝑇) ∑(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )( 𝑢𝑡 − 𝜌̂𝑢𝑡−1 ) → (1/√𝑇) ∑(𝑥𝑡 − 𝜌𝑥𝑡−1 )( 𝑢𝑡 − 𝜌𝑢𝑡−1 )
𝑡=1 𝑡=1
Capítulo 8 Ejercicios
8.1 Indique que la 𝑅𝑢2 [8.1.13]puede estar escrita equivalentemente como
𝑇 𝑇
Para 𝑢̂ la muestra residual MCO [8.1.4]. Muestra que el 𝑅𝑡2 centrado puede ser escrito como
𝑇 𝑇
8.2 Considere una hipótesis nula 𝐻0 involucrando 𝑚 = 2 restricciones lineales en 𝛽 . ¿Cuán grande
es necesario un tamaño de muestra T antes del 5% del valor critico basado en la forma Wald de la
prueba MCO F de 𝐻0 dentro del 1% del valor critico de la forma Wald de la prueba MCO 𝑥 2 de
𝐻0 ?
𝑦𝑡 = 𝜇 + ∑ 𝜑𝑗 𝜀𝑡−1
𝑡=1
Donde {𝜀𝑡 } es una secuencia i.i.d con media cero, varianza 𝜎 2 , y momento de cuarto orden finito y
donde ∑𝑥𝑗→0|𝜑| < ∞.Considere el estimar una autoregresion de 𝑝𝑡ℎ orden por MCO:
𝑦𝑡 = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦𝑡−𝑝 + 𝑢𝑡
Indique que los coeficientes MCO dan estimaciones constantes de los parámetros poblacionales
que caracterizan la proyección lineal de 𝑦, en una constante y 𝑝 de su retraso –es decir, los
coeficientes dan estimaciones constantes de los parámetros 𝑐, ∅1 , … … , ∅𝑝 definidos por
𝐸̇ (𝑦𝑡 |𝑦𝑡−1 , 𝑦𝑡−2 , … … . , 𝑦𝑡−𝑝 ) = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦𝑡−𝑝
Capitulo 8 Referencias
Amemiya ,Takeshi.1973 ‘’Minimos cuadrados generalizados con una matriz de autocovarianza
estimada’’Econometrica 41:729-32
Anderson ,T.W.1971.El análisis estadístico de series de tiempo .Nueva York : Wiley.
Betancourt,Roger,y Harry Kelejian.1981.Variables endógenas retardadas y el procedimiento
Cochrane-Occurt’’Econometrica 49:1073-78
Brillinger,David R.1981 .Series de Tiempo :Datos de Analisis y Teoria ,expandida ed.San
Franciso:Dia-Holden
Durbin,James,1960.’’Estimacion de parámetros en modelos de regresión en series de tiempo
‘’.Diario Series de la sociedad estadística del Royal B,22:139-53
1970 ‘’Prueba para correlacion en serie en Regresión de minimos cuadrados cuando algunos de
los regresores son variables dependientes retardadas’’ .Econometria 38:410-21.
Eicker,F,1967,’’Teoremas limitados para regresiones con errores dependientes y desiguales’’
Procedimiento del Simposio Berkeleey en quinto orden en estadísticas matemáticas y probabilidad.
Vol1.pp59-62.Berkeley:Universidad de la prensa de california
Engle,Robert F.1982’’Condicional de heteroscedasticidad autoregresiva con estimaciones de la
varianza de la inflacio de Reino Unido.’’Econometria 50:981-1007
Evans.G.B.A y N.E Savin.1981.’’Prueba para Raices de la unidad’’:1.Econometris 49:753-79
Flavin,Marjorie A.1983’’Volativilidad excesica en los mercados finacieros:Un ultimo estudio de la
evidencia empririca’’Diario de economía política 91:929-56
Gregory,Allan W.y Michael R.Veall 1985’’Formulando pruebas de Wald de restricciones no
lineales’’ Econometrica 53:1465-68
Hansen.Lars P,1982.’’ Propiedades de muestra mayor de método generalizado de momentos
estimadores’’ Econometrica 50:1929-54
Harvey,A.C,1981.’’El análisis Economico de series de tiepo ‘’.Nueva York:Wiley Hausman,Jerry A,y
William E.Taylor ,1983.’’Identificacion en modelos de ecuaciones simultaneas lineares Covarianza
Restrictiva :Una interpretación de variables instrumentales ‘’.Econometrica 51:1527-49
Imhof,J.p.1961’’Computando la distribución de fromas cuadráticas en varables normales’’
.Biometrika 48:419-26
Juge,Gerorge G,Willian E. Griffiths,R Carter Hill, y Tsoung –Chao Lee,1980.La teoria y praticas
econometricas,Nueva York:Wiley.
Kinderman,A.J y J.G.Ramage.1976. ‘’Generación de la Computadora de variables aleatorias
Normales’’.Diario de la asociación estadística Americana. 71:893-96
Lafontaine,Fancine and Kenneth J,White.19886.’’Obteniendo cualquier estadística Wald que
quieras’’ Letras de Economia 21:35-40
La Sección 9.1 Discute porque esta suposición a menudo no se cumple, examinando un concreto
ejemplo de sesgo de ecuaciones simultáneas. Las secciones siguientes discuten una variedad de
técnicas para tratar un problema. Estos resultados se utilizarán en la interpretación estructural de las
autoregresiones vectoriales en el capítulo 11 y para la comprensión del método generalizado de
estimación de momentos en el capítulo 14.
Con B<0; Un precio más alto reduce la cantidad que el público está dispuesto a comprar. Aquí Etd
representan el factor la influencia de la demanda aparte del precio. Se asume que son
independientes e idénticamente distribuidos con media cero y varianza o2d .
Donde y>0 y Ets y representan factores que influyen en la oferta distinta del precio. Se supone que
estos factores omitidos son i.i.d con significancia cero y varianza o2s , Con la perturbación de la
oferta est sin correlación con la perturbación de la demanda etd.
𝜀1𝑑 −𝜀1𝑠
𝑝1 = 𝛾−𝛽
[9.1.3]
𝜀𝑑1 −𝜀𝑠1
+ 𝜀𝑠1 𝜀𝑑1 = 𝜀𝑠1
𝛾 𝛽
𝑞1 = 𝛾 𝛾−𝛽
= 𝛾−𝛽 𝛾−𝛽
[9.1.4]
Considere las consecuencias de intentar estimar (9.1.1) por OLS. Una regresión de la cantidad sobre
el precio producirá la estimación.
1
( ) ∑𝑇
𝑡=1 𝑝1 𝑞1
𝑇
𝑏𝑟 = 1
[9.1.5]
(( )) ∑𝑇 2
𝑡=1 𝑝1
𝑇
𝑇
1 𝛾 𝛽 𝛾+𝛽
= ∑[ (𝜀1𝑑 )2 + (𝜀1𝑠 )2 − 𝜀 𝑑 𝜀 𝑠]
𝑇 (𝛾 − 𝛽)2 (𝛾 − 𝛽)2 (𝛾 − 𝛽)2 1 1
1=1
𝑝 𝛾𝜎𝑑2 + 𝛽𝜎𝑠2
→
(𝛾 − 𝛽)2
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑚𝑒𝑛𝑡𝑒 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟,
2
1
𝑇
1
𝑇
1 1 2 𝛾𝜎2𝑑 + 𝛽𝜎𝑠
∑ 𝑝21 = ∑[ 𝜀𝑑1 − 𝜀𝑠1] 𝑃
𝑇
1=1
𝑇
1=1
𝛾−𝛽 𝛾−𝛽 𝜎2𝑑 + 𝜎2𝑠
[9.1.6]
Por otro lado, si σd2 → ∞ o (σ2 → 0), los OLS dan una estimación consistente de la elasticidad de
la oferta ϒ, en los casos entre, un economista podría creer que la regresión eliminaba la curva de
demanda (9.1.1) and un segundo economista podría realizar la misma regresión llamando a la curva
de oferta (9.1.2).La actual OLS estima que representaría una mezcla de ambas. Este fenómeno es
conocido como sesgo de ecuaciones simultáneas.
Figura 9.1 representa el problema gráficamente. 1en cualquier fecha de la muestra, hay alguna curva
de demanda (determinada por el valor de εdt ) y una curva de oferta(determinada por εts ), con la
observación en (pt ,qt) dada por la intersección de esas dos curvas. Por ejemplo, fecha 1 puede
haber sido asociado con un pequeño choque a la demanda, produciendo la curva D1, y un largo
choque positivo para la oferta, produciendo S1. La observación de la fecha 1 será entonces (p1,q1).
La fecha 2 podría
S2
S3
O (p1, q1)
Demanda promedio
(p3, q3)
(p2, q2)
D3
D1 1
D2 1
O Pt
Figura 9.1Observaciones en precio y cantidad implícita por Perturbaciones tanto de las funciones
de oferta como de las funciones de demanda
Haber visto un choque negativo mayor para la demanda y un choque negativo para la oferta,
mientras la fecha 3 como se muestra refleja un modesto choque positivo para la demanda y un largo
choque negativo para la oferta. OLS intenta encajar una línea a través de la dispersión de puntos {pt
, qt }tt=1.
Si se sabe que los choques son conocidos debido a la curva de oferta y ||no a la curva de la
demanda, cuando la dispersión de puntos traza la curva de demanda, como en la figura 9.2.Si se
sabe que los choques son conocidos debido a la curva de demanda en lugar que curva de oferta, la
dispersión trazara la curva de oferta, como en la figura 9.3.
Así, 𝑢𝑡𝑠 no está correlacionado con 𝑤1 por la definición de h. Aunque es probable que el clima de
la Florida influya en el suministro de naranjas, es natural asumir que el clima.
S1
S2
S3
O (p1, q1)
(p2, q2)
(p3, q3)
Pt
O
FIGURA 9.2 Observations on price and quantity implied by disturbances to supply function only.
qt
O (p3, q3)
(p1, q1)
(p2, q2) D3
1
D1
1
D2
O
Pt
FIGURA 9.3 Observaciones sobre el precio y la cantidad implicadas por perturbaciones a la función de
la demanda solamente
Los asuntos para la demanda pública para las naranjas sólo a través de su efecto sobre el precio.
Bajo este supuesto. Tanto 𝑤1 como 𝑢𝑡𝑠 no están correlacionados con 𝜀1𝑑 .Los cambios en el precio
que se pueden atribuir al tiempo representan desplazamientos de oferta y no cambios de demanda.
Define 𝑝1 .a la proyección lineal de 𝑝1 en 𝑤1 . Sustituyendo [9.1.7] intro [9.1.3]
Y por lo tanto,
Puesto que 𝜀1𝑑 y 𝑢𝑡𝑠 no están correlacionados con 𝑤1 .La ecuación [9.1.8] puede escribirse así
𝜀1𝑑 − 𝑢𝑡𝑠
𝑞1 = 𝛽 {𝑝1 + 𝛾−𝛽
}+ 𝜀𝑡𝑑 = 𝛽𝑝𝑡 + 𝑣𝑡 [9.1.10]
Donde,
−𝛽 𝑢𝑡𝑠 𝛾𝜀1𝑑
𝑣𝑡 = 𝛾−𝛽
+ = 𝛾−𝛽
Dado que 𝑢𝑡𝑠 y 𝜀𝑡𝑑 están ambos no correlacionados con𝑤1 , se sigue que 𝑣1 no está correlacionada
con 𝑝𝑡 .Por lo tanto, si (9.1.10] fueron estimados por mínimos cuadrados ordinarios, el resultado
sería una estimación consistente de β:
(1/𝑇) ∑𝑇1=1 𝑝1 𝑞1
𝛽𝑇
(1/𝑇) ∑𝑇1=1[𝑝𝑡 ]2
𝑝𝑡 = 𝛿𝑇 𝑤𝑡 [9.1.12]
Donde,
(1/𝑇) ∑𝑇𝑡=1 𝑤𝑡 𝑝𝑡
𝛿𝑟 =
(1/𝑇) ∑𝑇𝑡=1 𝑤𝑡2
El estimador (9.1.11) con 𝑝𝑡 sustituido por 𝑝̆, se conoce como el estimador de coeficientes de mínimos
cuadrados de dos etapas (2SLS):
(1/𝑇) ∑𝑇 ̂𝑇 𝑄𝑡
𝑡=1 𝑃
𝛽̂2𝑆𝐿𝑆 = 𝑇
(1/𝑇) ∑𝑡=1(𝑃̂𝑡 )2
[9.1.13]
𝛾1 = 𝜷𝟏 𝒛𝟏 + 𝑢𝑡 [9.2.1]
Recoger las variables explicativas predeterminadas junto con los instrumentos en un vector (r X 1)
x_t. Por ejemplo, para estimar la curva de demanda, no había variables explicativas predeterminadas
en la ecuación [9.1.1] y sólo un solo instrumento; Por lo tanto, r = 1, y 𝑥𝑡 sería el escalar 𝑤𝑡 . Como
segundo ejemplo, supongamos que la ecuación a estimar es.
Donde,
𝑇 −1 𝑇
Si 𝑧𝑖𝑡 es una de las variables predeterminadas, 𝑧𝑖𝑡 es uno de los elementos de 𝑥𝑡 y la ecuación [9.2.3]
se simplifica a.
𝑧̂𝑖𝑡 = 𝑧𝑖𝑡
Recopile las ecuaciones en [9.2.3] para i = 1,2 ..., k en una ecuación vectorial (k + 1)
𝑧̂𝑡 = 𝛿̂ 1 𝑥𝑡 [9.2.4]
𝛿̂1𝑡
𝛿̂2𝑡
𝛿̂ 1 = . = [∑𝑇𝑡=1 𝑧̂𝑡 𝑥1𝑡 ][∑𝑇𝑡=1 𝑥𝑡 𝑥1𝑡 ]−1 [9.2.5]
.
.
[𝛿̂4𝑡 ]
El estímulo de mínimos cuadrados de dos etapas (2SLS) de β se encuentra en una regresión de OLS
de 𝑦𝑡 en 𝑧̂𝑖 :
𝑇 −1 𝑇
Una forma alternativa de escribir [9.2.6] es a veces útil, dejar 𝑒̂𝑖𝑡 denotar la muestra residual de la
estimación OLS de [9.2.2] es decir, dejar.
∑ 𝑥𝑡 𝑒̂𝑖𝑡 = 0,
𝑡=1
Por lo tanto, si [9.2.7] es multiplicado por 𝑧̂𝑗𝑡 y sumado sobre t, el resultado es:
𝑇 𝑇 𝑇
√𝑇(𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽) = [(1/𝑇) ∑𝑇𝑡=1 𝑧̂𝑡 𝑧𝑡1 ]−1 [(1/√𝑇)(1/𝑇) ∑𝑇𝑡=1 𝑧̂𝑡 𝑢𝑡 ] [9.2.16]
Donde,
𝑇 𝑇
Supongamos que 𝑥𝑡 es covarianza - estacionaria y que {𝑢𝑡 } es a i.i.d. Secuencia con media cero y
varianza 𝜎 2 con 𝑢𝑡 independiente de 𝑥𝑠 para todo s ≤ t. Entonces {𝑥𝑡 𝑢𝑡 } es una secuencia de
diferencia de martingala con matriz de varianza-covarianza dada por 𝜎 2 𝐸(𝑥𝑡 𝑥𝑡1 ) si 𝑢𝑡 y 𝑥𝑡 tienen
finitos cuartos momentos, entonces podemos esperar de la proposición 7.9 que.
𝑇
𝐿
(1/√𝑇 ∑ 𝑥𝑡 𝑢𝑡 ) → 𝑁(𝜎 2 . 𝐸(𝑥𝑡 𝑥𝑡1 ))
𝑡=1
[9.2.18]
𝑉 = 𝑄 −1 [𝐸(𝑧𝑡 𝑥𝑡1 )]𝐸(𝑥𝑡 𝑥𝑡1 )−1 [𝜎 2 . 𝐸(𝑥𝑡 𝑥𝑡1 )][(𝑥𝑡 𝑥𝑡1 )]−1 [𝐸(𝑥𝑡 𝑧𝑡1 )]𝑄 −1 [9.2.20]
= 𝜎 2 𝑄 −1 . 𝑄. 𝑄 −1
= 𝜎 2 𝑄 −1
Para Q dado en [9.2.13]. Por lo tanto
Puesto que 𝛽̂2𝑆𝐿𝑆.𝑇 es una estimación consistente de β, claramente una estimación consistente de la
población residual para la observación t es proporcionada por
𝑡=1
Las estimaciones correctas [9.2.22] y [9.2.23] utilizan las variables explicativas reales 𝑧𝑡 , en lugar de
los valores ajustados 𝑧𝑡 .
Una estimación consistente de Q viene dada por [9.2.11]:
𝑇
𝑇 −1
𝑇 −1 𝑇
𝛽̂ ̂𝑡 1
2𝑆𝐿𝑆.𝑇 = [∑ 𝛿 𝑥𝑡 𝑧𝑡 ] [∑ 𝛿̂ 𝑡 𝑥𝑡 𝑦𝑡 ]
𝑡=1 𝑡=1
[9.2.27]
= [∑ 𝑥𝑡 𝑧𝑡1 ] [∑ 𝑥𝑡 𝑦𝑡 ]
𝑡=1 𝑡=1
La expresión [9.2.28] se conoce como el estimador de la variable instrumental (IV). Una propiedad
clave del estimador IV se puede ver prenultiplicando ambos lados de [9.2.28] por ∑𝑇𝑡=1 𝑥𝑡 𝑧𝑡1
𝑇 𝑇
Dado que el estimador IV es un caso especial de 2SLS, comparte la propiedad de coherencia del
estimador 2SLS. Su varianza estimada con i.i.d. Los residuos se pueden calcular a partir de [9.2.25]:
−1 −1
𝑇 𝑇 𝑇
9.3 Identificación
Observamos en el ejemplo de oferta y demanda en la Sección 9.1 que la elasticidad de la
demanda β no podía ser estimada consistentemente por una regresión OLS de la cantidad sobre el
precio. De hecho, en la ausencia de un instrumento válido como es 𝑤𝑡 , como la elasticidad de la
demanda no se puede estimar por cualquier método! Para ver esto, recuerde que el sistema como
está escrito en [9.1.1] y [9.1.2] implicaba las expresiones [9.1.4] y [9.1.3]:
𝛾 𝛽
𝑞𝑡 = 𝜀𝑡𝑑 − 𝜀𝑠
𝛾−𝛽 𝛾−𝛽 𝑡
0 253
𝜀𝑡𝑑 − 𝜀𝑡𝑠
𝑝𝑡 =
𝛾−𝛽
Si 𝜀𝑡𝑑 y 𝜀𝑡𝑠 son i.i.d. Gaussiana, entonces estas ecuaciones implican que el vector (𝑞𝑡 , 𝑝𝑡 ) es
Gaussiano con media cero y varianza - matriz de covarianza
Esta matriz se describe completamente por tres magnitudes, siendo estas las varianzas de q y p
junto con su covarianza. Dada una muestra suficientemente grande, los valores de estas tres
magnitudes pueden inferirse con considerable confianza, pero eso es todo lo que se puede inferir,
porque estas magnitudes pueden especificar completamente el proceso que generó los datos bajo la
suposición mantenida de media cero i.i.d. Observaciones gaussianas. No hay manera de descubrir
los cuatro parámetros del modelo estructural (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) De estas tres magnitudes. Por ejemplo,
los valores (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) = (1, 2, 3, 4) Implican exactamente las mismas propiedades observables
para los datos que (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) = (2, 1, 4, 3) .
Cuando se agrega una tercera variable gaussiana de ruido blanco w, al conjunto de observaciones, se
dispone de tres magnitudes adicionales para caracterizar el proceso de observables. Siendo esta la
varianza de w, la covarianza entre w y p. Y la covarianza entre w y q. Si la nueva variable w
introduce tanto la ecuación de demanda como la de oferta, se requerirían tres nuevos parámetros
para estimar el modelo estructural: el parámetro que resume el efecto de w a la demanda, el
parámetro que resume su efecto sobre la oferta y la varianza De w. Con tres magnitudes más
estimables pero tres parámetros más para estimar estaríamos atascados con el mismo problema, no
teniendo base para la estimación de β.
En la sección 9.2 se mostró que los parámetros de una ecuación podían ser estimados (y por lo
tanto deben ser identificados) si (1) el número de instrumentos para esa ecuación es al menos tan
grande como el número de variables explicativas endógenas para esa ecuación y (2 ) Las filas
de 𝐸(𝑧𝑡 𝑥𝑡1 ) Son linealmente independientes. La primera condición se conoce como condición de
orden para la identificación, y la segunda se conoce como la condición de rango.
1 −𝛽 𝑞𝑡 0 𝑢𝑑
[ ] [𝑝 ] + [ ] 𝑤𝑡 = [ 𝑡𝑠 ] [9.3.4]
1 −𝛾 𝑡 −ℎ 𝑢𝑡
Supongamos que estamos interesados en la ecuación representada por la primera fila del sistema
vectorial de ecuaciones en [9.3.1.]. Sea 𝑦𝑜𝑡 la variable dependiente en la primera ecuación, y sea 𝑦1𝑡
, denotada por un vector (𝑛1 𝑥 1) que consiste en esas variables endógenas que aparecen en la
primera ecuación como variables explicativas. Similarmente, sea 𝑥1𝑡 denotada por un vector
(𝑚1 𝑥 1) que consiste en esas variables predeterminadas que aparecen en la primera ecuación
como variables explicativas. Luego, la primera ecuación en el sistema es
Aquí 𝐵𝑜1 es un vector (1 𝑥 𝑛1 ) y 𝑟𝑜1 es un vector (1 x 𝑚1 ) .Sea 𝑦2𝑡 denotada por un vector
(𝑛2 x 1) que consiste en esas variables endógenas que no aparecen en la primera ecuación; así,
𝑦𝑡1 = (𝑦𝑜𝑡 , 𝑦𝑡1 , 𝑦𝑡2 ) y 1 + 𝑛1 + 𝑛2 = 𝑛. Similarmente, sea 𝑥2𝑡 denotada por un vector (𝑚2 𝑥 1)
que consiste en esas variables predeterminadas que no aparecen en la primera ecuación. De modo
que 𝑥𝑡1 = 𝑥𝑡1 , 𝑥𝑡2 y 𝑚1 + 𝑚2 = 𝑚.
Luego el sistema [9.3.1] puede ser escrito en forma dividida como
1 𝐵01 01 𝑦𝑜𝑡 𝑟01 01 𝑥 𝑢𝑜𝑡
1𝑡
[𝐵10 𝐵12 𝐵12 ] [ 1𝑡 ] + [𝑟11 𝑟12 ] [𝑥 ] = [𝑢1𝑡 ]
𝑦 [9.3.5]
2𝑡
𝐵20 𝐵21 𝐵22 𝑦2𝑡 𝑟21 𝑟22 𝑢2𝑡
Aquí, por ejemplo,. 𝐵12 es una matriz (𝑛1 𝑥 𝑛2 ) que consiste en filas a través de (𝑛1 + 1) y
columnas (𝑛1 + 2) a n de la matriz B.
Una representación útil alternativa del sistema se obtiene moviendo rx, al lado derecho de [9.3.1] y
pre multiplicando ambos lados por 𝐵−1
𝑦1 = −𝐵−1 𝑟𝑥1 + 𝐵− 𝑢𝑡 = ∏𝑥𝑡 + 𝑣𝑡 [9.3.6]
∏´ = −𝐵− 𝑢𝑡 [9.3.7]
𝑣1 = −𝐵−1 𝑢1 [9.3.8]
La expresión [9.3.6] es conocida como la representación de la forma reducida del sistema estructural
[9.3.1]. En la representación de la forma reducida, cada variable endógena es expresada solamente
como una función de las variables predeterminadas. Por el ejemplo de [9.3.4], la forma reducida es
𝑞𝑡 1 −𝛽 −1 0 1 −𝛽 −1 𝑢𝑡𝑑
[𝑝 ] = [ ] [ ] 𝑤𝑡 + [ ] [ 𝑠]
𝑡 1 −𝛾 −ℎ 1 −𝛾 𝑢𝑡
−𝛾 𝛽 0
= [1/(𝛽 − 𝛾)] [ ][ ]𝑤
−1 1 ℎ 𝑡
−𝛾 𝛽 𝑢𝑡𝑑
+ [1/(𝛽 − 𝛾)] [ ][ ] [9.3.9]
−1 1 𝑢𝑡𝑠
𝐵ℎ −𝑦𝑢𝑡𝑑 + 𝛽𝑢𝑡𝑠
= [1/(𝛽 − 𝛾)] [ ] 𝑤𝑡 + [1/(𝛽 − 𝛾)] [ ]
ℎ −𝑢𝑡𝑑 + 𝑢𝑡𝑠
La forma reducida por un sistema general puede ser escrita de forma dividida como
Donde, por ejemplo ∏12 denota una matriz (𝑛1 𝑥 𝑚2 ) que consiste de 2 filas mediante (𝑛1 + 1)
1
y 2 columnas (𝑚1 + 1) mediante m de la matriz ∏'.
Para aplicar la condición de rango por identificación de la primera ecuación indicad anteriormente,
formaríamos la matriz de productos cruzados entre las variables explicativas en la primera ecuación
(𝑥1𝑡 y 𝑦1𝑡 ) y las variables predeterminadas por todo el sistema (𝑥1𝑡 y 𝑥2𝑡 )
1 ) 1 )
𝐸(𝑥1𝑡 𝑥1𝑡 𝐸(𝑥1𝑡 𝑥2𝑡
𝑀= [ 1 ) 1 )] [9.3.11]
𝐸(𝑦1𝑡 𝑥1𝑡 𝐸(𝑦1𝑡 𝑥2𝑡
En la notación anterior, las variables explicativas por la primera ecuación consiste de 𝑧𝑡 = 𝑥1𝑡 𝑦𝑡1
1
mientras las variables predeterminadas por el sistema en su conjunto consisten en 𝑥1= 𝑥1𝑡 𝑥2𝑡 . Así,
1
la condición de rango, que requiere que las filas de 𝐸𝑧𝑡 𝑥𝑡 sean linealmente independientes,
significa que las filas de [(𝑚1 + 𝑛1 )𝑥 𝑚] de la matriz M en (9.3.11] [9.3.11] sean linealmente
independientes. La condición de rango puede ser equivalentemente fijados en términos de la matriz
estructural de parámetros B y Γ o la matriz de parámetros de forma reducida ∏ . La siguiente
proposición es adaptada por Fisher y es demostrada en el Apéndice 9.A al final de este capítulo.
Proposición 9.1: Si la matriz B en [9.3.1] en [9.3.1] y la matriz de segundos momentos de las variables
predeterminadas E(𝑥1 𝑥𝑡1 ) son no singulares, luego las siguientes condiciones son equivalentes:
Por ejemplo, para el sistema en [9.3.4], las variables no endógenas son excluidas de la primera
ecuación, y así 𝑦𝑜𝑡 = 𝑞𝑡 𝑦1𝑡 = 𝑝𝑡 y 𝑦2𝑡 no contienen elementos. Las variables no
predeterminadas parecen en la primera ecuación, y así 𝑥1 no contiene elementos y 𝑥2= 𝑤1 . La
matriz en [9.3.12] es luego solo dada por parámetros 𝑟12. Esta representación de coeficientes en 𝑥2𝑡
en la ecuación describe 𝑦1𝑡 y es igual al parámetro escalar -h. Resulta (b) de la proposición 9.1 así
afirma que la primera ecuación es identificada siempre que ℎ ≠ 𝑂. El valor de ∏12 se puede leer
directamente del coeficiente en 𝑤𝑡 en la segunda fila de [9.3.9] y esta dado por ℎ/(𝛽 − 𝛾). Ya que
B se asume es no singular, (𝛽 − 𝛾) () no es cero, y entonces Γ12 es cero si y solo si ∏12 es cero.
Luego el residuo 𝑢𝑡𝑑 puede ser estimado con 𝑢̂𝑡𝑑 = 𝑞𝑡− 𝛽̂ 𝑝𝑡 considere, por lo tanto, el estimador
[9.3.13] con la población residual 𝑢𝑡𝑑 reemplazado por la IV muestra residual:
−1
𝛾̂𝑇 Σ𝑢̂𝑑 𝑝 Σ𝑢𝑡𝑑 𝑤𝑡 Σ𝑢̂𝑡𝑑 𝑞𝑡
[̂ ] = [ 𝑡 𝑡 ] [ ] [9.3.14]
ℎ𝑡 Σ𝑤𝑡 𝑝𝑡 Σ𝑤𝑡2 Σ𝑤𝑡 𝑞𝑡
𝑝
Es sencillo utilizar el hecho que 𝛽̂ =→ 𝛽 deduce que la diferencia entre los estimadores en [9.3.14]
y [9.3.13] convergen en probabilidad a cero. Por consiguiente, el estimador [9.3.14] es también
consistente.
Dos supuestos permiten a los parámetros de la ecuación de la oferta (𝑦 and ℎ) ser estimados.
Primero, una restricción de exclusión permite a β ser estimado. Segundo, una restricción de
covarianza entre 𝑢𝑡𝑑 y 𝑢𝑡𝑠 fueron necesarios. Si 𝑢𝑡𝑑 fuera correlativo con 𝑢𝑡𝑠 luego 𝑢𝑡𝑑 no sería un
instrumento válido para la ecuación de la oferta y el estimado [9.3.13] no sería consistente.
0 257
𝑇
= ∑ 𝑙𝑜𝑔𝑓(𝑦𝑡 /𝑥𝑡; 𝐵, Γ, 𝐷)
𝑡=1
= −(𝑇𝑛/2) log(2𝜋) −) (𝑇/2)𝑙𝑜𝑔/𝐵−1 𝐷 (𝐵−1 )/ [9.4.1]
𝑇
−(1/2) ∑[𝑦𝑡 + 𝐵−1 Γ𝑥𝑡; ] [𝐵−1 𝐷(𝐵−1 )]−1 [𝑦𝑡 + 𝐵−1 Γ𝑥𝑡; ]
𝑡=1
Pero
1 −𝛽 2 𝜎2 0
= 𝑇𝑙𝑜𝑔(2𝜋) + (𝑇/2)𝑙𝑜𝑔 | | − (𝑇/2)𝑙𝑜𝑔 | 𝑑 |
1 −𝛾 0 𝜎𝑠2
−1
1 𝜎2 0 𝑞𝑡 − 𝛽𝑝𝑡
− 2 ∑𝑇𝑡=1 {[𝑞𝑡 − 𝛽𝑝𝑡 𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 ] [ 𝑑 ] [ ]} [9.4.5]
0 𝜎𝑠2 𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡
𝑇
1
− ∑(𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )2 / 𝜎𝑑2
2
𝑡=1
𝜕𝐿 𝑇 ∑𝑇
𝑡=1(𝑞𝑡 −𝛽𝑝𝑡 )𝑝𝑡
𝜕𝛽
= 𝛾−𝛽 + 𝜎𝑑2
=0 [9.4.6]
𝜕𝐿 𝑇 ∑𝑇
𝑡=1(𝑞𝑡 −𝛾𝑝𝑡 −ℎ𝑤𝑡 )𝑝𝑡
𝜕𝛾
= 𝛾−𝛽 + 𝜎𝑑2
=0 [9.4.7]
𝜕𝐿 ∑𝑇
𝑡=1(𝑞𝑡 −𝛾𝑝𝑡 −ℎ𝑤𝑡 )𝑤𝑡
= =0 [9.4.8]
𝜕ℎ 𝜎𝑠2
𝜕𝐿 𝑇 ∑𝑇
𝑡=1(𝑞𝑡 −𝛾𝑝𝑡 −ℎ𝑤𝑡 )
2
𝜕𝜎𝑠2
= 2𝜎2 + 𝜎𝑠4
=0 [9.4.10]
𝑠
Las 2 últimas ecuaciones caracterizan a la estimación máxima de probabilidad de las varianzas como
el promedio de los residuos al cuadrado.
𝑇
2
𝜎̂𝑑2 = (1/𝑇) ∑(𝑞𝑡 − 𝛽̂ 𝑝𝑡 )
𝑡=1
[9.4.11]
𝑇
2
𝜎̂𝑑2 = (1/𝑇) ∑(𝑞𝑡 − 𝛾̂𝑝𝑡 − ℎ̂𝑤𝑡 )
𝑡=1
[9.4.12]
𝑇 𝑇
∑(𝑞𝑡 − 𝛽̂ 𝑝𝑡 ) 𝑤𝑡 = 0
𝑡=1
Es decir, se elige la elasticidad de la demanda para hacer que la estimación residual para la ecuación
de la demanda sea ortogonal a 𝑤𝑡 Por lo tanto, la estimación de la variable instrumental 𝛽̂𝐼𝑉 resulta
ser también el estimador FIML. Las ecuaciones [9.4.8] y [9.4.14] afirma que los parámetros para la
ecuación de la oferta (𝛾 and ℎ) se eligen para hacer que el residuo para la ecuación sea ortogonal a
𝑤𝑡 y a la demanda residual 𝑢̂𝑡𝑑 = 𝑞𝑡 − 𝛽̂ 𝑝𝑡 . Por tanto, la estimación FIML para estos parámetros
son igual a la estimación de la variable instrumental sugerido en [9.3.14].
Para este ejemplo, mínimos cuadrados de dos etapas, estimación de variable instrumental e
información completa de estimación máxima de probabilidad todos producen las estimaciones
idénticas. Esto es porque el modelo es solo identificado. Un modelo es llamado solo identificado si por
algún valor admitido para los parámetros de la representación de la forma reducida existe un único
valor para los parámetros estructurales que implique esos parámetros de la forma reducida. Se dice
que un modelo es excesivamente identificado si algunos valores admisibles para los parámetros de la
forma reducida son descartados por las restricciones estructurales. En un modelo excesivamente
identificado, IV, 2SLS, y estimación FIML no son equivalentes, y la FIML típicamente producen
los estimadores más eficientes.
𝑇 𝑇 −1
En otras palabras, la i-ésima fila de Π´ es obtenido de una regresión OLS de la i-ésima variable
endógena para todas las variables predeterminadas:
𝑇 𝑇 −1
Para un modelo solo identificado, las estimaciones FIML son los valores de (𝐵, Γ, 𝐷) para cada
̂ ´ = −𝐵−1 Γ and
Π ̂ = 𝐵−1 𝐷(𝐵−1 )´
Ω
Ahora vamos a mostrar que las estimación de 𝐵, 𝛤, y 𝐷 Inferidos de esta manera de los parámetros
de forma reducida para el ejemplo de oferta y demanda recién identificados son los mismos que las
estimaciones FIML. La estimación Π ̂ 1 ies encontrada por la regresión OLS de 𝑞𝑡 sobre 𝑤𝑡
̂
mientras que Π2 es el coeficiente de una regresión OLS de 𝑝𝑡 sobre 𝑤𝑡 Estas estimaciones
satisfacen:
∑𝑇𝑡=1(𝑞𝑡 − Π ̂ 1 𝑤𝑡 )𝑤1 = 0 [9.5.2]
̂ 2 𝑤𝑡 )𝑤1 = 0
∑𝑇𝑡=1(𝑝𝑡 − Π [9.5.3]
̂
Ω ̂ 12
Ω Σ(𝑞𝑡 − π̂1 𝑤𝑡 )2 ̂1 𝑤𝑡 )(𝑝𝑡 − π
Σ(𝑞𝑡 − π ̂2 𝑤𝑡 )
[ 11 ] = (1/𝑇) [ ] [9.5.4]
̂ 21
Ω ̂
Ω22 Σ(𝑝𝑡 − π
̂ 𝑤
2 𝑡 ) (𝑞 𝑡 − π
̂ 𝑤
1 𝑡 ) Σ(𝑝 𝑡 − π
̂ 2 𝑡)
𝑤 2
̂ ´ = −Γ o
La estimación estructural satisface 𝐵Π
1 −𝛽 𝜋̂1 0
[ ][ ] = [ ] [9.5.5]
1 −𝛾 𝜋̂2 ℎ
Encontrar instrumentos válidos es muy difícil y requiere mayor importancia y un poco de buena
suerte. Para la pregunta sobre el servicio militar, Angrist (1990) encontró un instrumento genial
para el servicio militar basado en los detalles institucionales del proyecto en los Estados Unidos
durante la Guerra de Vietnam. La probabilidad de que un individuo fue reclutado en servicio militar
fue determinada por una lotería basada en cumpleaños. Por lo tanto, el cumpleaños de un individuo
durante el año estaría correlacionado con el servicio militar, pero presumiblemente no
correlacionado con otros factores que ponen fin al ingreso. Desafortunadamente. Es raro ser capaz
de encontrar un instrumento tan atractivo para muchas preguntas que uno quisiera hacer de los
datos.
𝐼 0 𝑥1𝑡 0
= 𝐸 {[ 1𝑡 ] [ ] [𝑥 ´ 𝑥 ´ ] + [ ] [𝑥1𝑡
´ ´
𝑥2𝑡 ]} [9.A.1]
Π11 Π12 𝑥2𝑡 1𝑡 2𝑡 𝑣1𝑡
𝐼 0
= 𝐸 {[ 1𝑡 ] 𝐸(𝑥1 𝑥𝑡´ )}
Π11 Π12
Supongamos que las filas de M son linealmente independientes. Esto significa que [𝜆´𝜇´]𝑀 ≠
0´ para cualquier vector 𝜆 (m1 x 1) y cualquier vector 𝜇 (n1 x 1) que no sean ambos cero. En
particular [−𝜇´𝜋11 𝜇´]𝑀 ≠ 0´ Pero desde el lado derecho de [9.A.1], esto implica que
𝐼 0
[−𝜇´𝜋11 𝜇´] [ 1𝑡 ] 𝐸(𝑥1 𝑥𝑡´ ) = [0´ 𝜇´𝜋12 ]𝐸(𝑥1 𝑥𝑡´ ) ≠ 0´
Π11 Π12
Para cualquier vector no nulo 𝜇 (n1 x 1) Pero esto sólo podría ser verdadero si 𝜇´𝜋12 ≠ 0´. Por lo
tanto, si las filas de M son linealmente independientes, entonces las filas de Π12 son también
linealmente independientes.
Para probar que (c) implica (a), multiplicamos ambos lados de [9.A.1] por un vector
[𝜆´ 𝜇´]diferente de cero. El lado derecho sería
𝐼𝑚𝑡 0
[𝜆´ 𝜇´] [ ] [𝐸(𝑥1 𝑥𝑡´ ) = [𝜆´ 𝜇´𝜋11 ]𝜇´𝜋12 ]𝐸(𝑥1 𝑥𝑡´ ) = 𝑛´ 𝐸(𝑥1 𝑥𝑡´ )
Π11 Π12
Donde 𝑛´ ≡ [(𝜆´ 𝜇´Π11 𝜇´𝜋12 )] Si las filas de 𝜋12 son linealmente independientes. Luego 𝑛´
'no puede ser el vector cero a menos que tanto 𝜇 y 𝜆 sean cero. Para ver esto, tenga en cuenta que si
𝜇 diferente de cero. Entonces 𝜇´𝜋12 no puede ser el vector cero, mientras que si 𝜇 = 0 , entonces
𝑛´ será cero sólo si 𝜆. Es también el vector cero. Además, puesto que 𝐸(𝑥1 𝑥𝑡´ ) es no singular, un
𝑛´ no nulo significa que 𝑛´ 𝐸(𝑥1 𝑥𝑡´ ) no puede ser el vector cero. Por lo tanto, si el lado derecho de
[9.A.1] es premultiplicado por cualquier vector no nulo (𝜆´ 𝜇´), el resultado no es cero. Lo mismo
debe ser cierto para el lado izquierdo: [𝜆´ 𝜇´]𝑀 ≠ 0´ para cualquier no nulo (𝜆´ 𝜇´),
estableciendo que la independencia lineal de las filas de M.
Γ B
Supongamos que las filas de la matriz [Γ12 B12 ] son linealmente independientes. Entonces, los
22 22
unicos valores para 𝜆1 y 𝜆2 para el cual el lado derecho de [9.A.5] puede ser cero son 𝜆1 = 0
and 𝜆2 = 0. Sustituyendo estos valores en [9.A.6], El unico valor de 𝜇1 Para el cual lado
izquierdo de [9.A.5] puede ser cero, debe satisfacer que
[0 𝜇1´ 0´] = [𝜆0 0´ 0´]𝐵
= [𝜆0 𝜆0 𝐵01 0´ ]
Hacer coincidir los primeros elementos en estos vectores implica 𝜆0 = 0, y por lo tanto, la
coincidencia de los segundos elementos requiere 𝜇1 = 0. Por lo tanto, si se satisface la condición
(b), entonces el único valor de 𝜇1 para el cual el lado izquierdo de [9.A .5] puede ser cero es 𝜇1 =
0 estableciendo que las filas de Γ12 son linealmente independientes. Por lo tanto. La condición (c)
se cumple cuando alguna vez (b) se cumple.
Por el contrario ver que (c) implica (b). 𝜆1 Y 𝜆2 denotan vectores ( 𝑛1 x 1) and (𝑛2 x 1), y pre
multiplican ambos lados de [9.A.4] por el vector de la fila [0 λ1′ 𝜆′2 ]𝐁:
𝚷𝟎𝟐 𝟎′ 0′ 0′
[0 λ1′ 𝜆′2 ]𝐁 [𝚷𝟏𝟐 𝟎 ] = [0 λ1′ 𝜆′2 ] [−Γ12 𝐁12 ] [9.A.7]
𝚷𝟐𝟐 𝐈𝒏𝟐 −Γ22 𝐁22
O
𝚷𝟎𝟐 𝟎′
−Γ 𝐁12
[𝜇0 μ1′ 𝜇2′ ]𝐁 [𝚷𝟏𝟐 𝟎 ] = [λ1′ λ′2 ] [ 12 ]
−Γ22 𝐁22
𝚷𝟐𝟐 𝐈𝒏𝟐
Donde
[𝜇0 μ1′ 𝜇2′ ] = [0 λ1′ 𝜆′2 ]𝐁 [9.A.8]
Multiplicando ambos lados de la ecuación [9.A.4] por B implica que
−𝐁𝟎𝟏 𝚷𝟎𝟐 𝟎′
−Γ 𝐁12
[𝜇0 μ1′ 𝜇2′ ] [ 𝚷𝟏𝟐 𝟎 ] = [λ1′ λ′2 ] [ 12 ] [9.A.10]
−Γ22 𝐁22
𝚷𝟐𝟐 𝐈𝒏𝟐
Para que el lado izquiero de [9.A.10] sea cero, debe ser el caso que 𝜇2 = 0 y que
−𝜇0 B01 Π12 + 𝜇1′ Π12 = (𝜇1′ − 𝜇0 B01 )Π12 = 0′ [9.A.11]
Pero si las filas de Π12 son linealmente independientes, [9.A.11] pueden ser cero solo si
𝜇1′ = 𝜇0 B01 [9.A.12]
Sustituyendo estos resultados en [9.A.8], resulta que [9.A.10] puede ser cero solo si
[0 λ1′ 𝜆′2 ]𝐁 = [𝜇0 𝜇0 𝐵01 0′]
1 𝐁𝟎𝟏 0′
= [𝜇0 0′ 0′] [𝐁𝟏𝟎 𝐁𝟏𝟏 𝐁𝟏𝟐 ] [9.A.13]
𝐁𝟐𝟎 𝐁𝟐𝟏 𝐁𝟐𝟐
= [𝜇0 0′ 0′ ]𝐁.
Ya que B no es singular, amos lados de [9.A.13] pueden ser multiplicados por 𝐁−1 para deducir que
[9.A.10] puede ser cero solo si
[0 λ1′ 𝜆′2 ] = [𝜇0 0′ 0′]
Así que, el lado derecho de [9.A.10] puede ser cero solo si 𝜆1 y 𝜆2 son ambos cero, estableciendo
que las filas de la matriz en [9.3.12] podrían ser linelamente independientes.
Capítulo 9 Ejercicio
9.1. Verificar que [9.2.23] de una estimador consistente de 𝜎 2 .
Capítulo 9 Referencias
Angrist, Joshua D. 1990. "Lifetime Earnings and the Vietnam Era Draft Lottery : Evidence from
Social Securitv Administration Records." American Economic Review 80:313-36. Errata. 1990,
80:1284-86 .
Fisher, Franklin M . 1966. The ldentification Problem in Economerrics. New York : McGraw- Hill.
Hausman, Jerry A ., and William E . Taylor . 1983. "ldentification in Linear Simultaneous Equations
Models with Covariance Restrictions : An Instrumental Variables lnterpretation .·· Econometrica
51:1527-49.
Nelson, Charles R ., and Richard Startz. 1990. "Sorne Further Results on the Exact Small Sample
Properties of the Instrumental Variable Estimator ... Economezrica 58:967-76. Rothenberg,
Thomas J . 1971. "Identification in Parametric Models." Econometrica 39:577- 91
Sección 10.1 introduce algo de las principales ideas en tiempo de análisis de serie.
Sección 10.2 desarrollando algunos resultados de convergencia que son útiles para derivar la
propiedad asintótica de ciertas estadísticas y para caracterizar las consecuencias de filtros
multivariados. Sección 10.3 introduce la función generadora de autocovarianza para procesos
vectoriales el cual es usado para analizar espectro multivariado en la sección 10.4. Sección 10.5
desarrolla una generalización multivariable de la proposición 7.5 describiendo la propiedad de un
proceso vectorial correlacionado en serie. Estos últimos resultados son útiles para derivar
autocorrelación y estimadores consistentes de heterocedasticidad para OLS, para entender las
propiedades de método generalizado de estimadores de momentos discutidos en el capítulo 14 y
para derivar algunas de las pruebas de raíces unitarias discutidas en el capítulo 17.
𝐸(𝜀𝑡 ) = 0 [10.1.2]
2
𝐸(𝜀𝑡 𝜀𝑇 ) = {𝜎 𝑓𝑜𝑟 𝑡 = 𝑇 [10.1.3]
0 𝑑𝑒 𝑜𝑡𝑟𝑎 𝑚𝑎𝑛𝑒𝑟𝑎
Notar que nosotros continuaremos usando la conversión introducida en el capítulo 8 de usar letra
minúscula para denotar una variable aleatoria o su realización. Este capítulo describe las
interacciones dinámicas entre un conjunto de variables recogidas (n × 1) en un vector 𝑦𝑡 . Por
ejemplo, el primer elemento de 𝑦𝑡 (denotado 𝑦1 ) debe representar el nivel de GNP en año 𝑡1 el
segundo elemento (𝑦2 ) el tipo de interés pagado en la factura del tesoro en el año t, y así. Un pth-
orden autoregresión vectorial, denotado VAR(p), es una generalización vectorial de [10.1.1]
mediante [10.1.3]:
𝐸(𝜀𝑡 ) = 0 [10.1.5]
Así una autoregresión vectorial es un sistema en cual cada variable se regula en una constante y p de
su propio retraso tanto como en p retraso de otras variables en la VAR. Notar que cada regresión
tiene las mismas variables explicativas usando el rezago de la notación de operador, [10.1.4] puede
ser escrito en la forma:
[In − ∅1 𝐿 − ∅2 𝐿2 − −∅𝑝 𝐿𝑝 ]𝑦𝑡 = 𝑐 + 𝜀𝑡
o
𝜓(𝐿)𝑦𝑡 = 𝑐 + 𝜀𝑡
Aquí ∅(L) indica una matriz polinomial (n×𝑛) en el operador de retraso L. La fila i, columna j
elementos de ∅ (L) es un polinomio escalar en L:
(1) (1) 𝑝
∅(L) = [𝛿𝑖𝑗 − ∅𝑖𝑗 𝐿1 − ∅𝑖𝑗 𝐿2 − . . . −∅𝑖𝑗 𝐿𝑝 ],
𝜇 = 𝑐 + ∅1 𝜇 + ∅2 𝜇+ . . . ∓∅𝑛 𝜇,
o
Ecuación [10.1.4] puede luego ser escrito en condiciones de variaciones desde el significado como
(𝑦𝑡 − 𝜇) = ∅1 (𝑦𝑡−1 − 𝜇)
+ ∅2 (𝑦𝑡−2 − 𝜇)+ . . . + ∅𝑝 (𝑌𝑡−𝑝 − 𝜇) + 𝜀𝑡 . [10.1.8]
𝜀𝑡
0
𝐕 .
(𝑛𝑝 ×1)𝑡 =
..
[0]
La VAR(p) en [10.1.8] puede luego ser reescrito como el siguiente VAR (1):
𝛏𝑡 = 𝐅𝜉𝑡−1 + 𝐕𝑡 [10.1.11]
Donde
𝑄 𝑝𝑎𝑟𝑎 𝑡 = T
𝐸(𝑣𝑡 𝑉𝑇′ ) = {
0 𝑑𝑒 𝑜𝑡𝑟𝑎 𝑚𝑎𝑛𝑒𝑟𝑎
Y
Ω 0 … 0
0 0 … 0
𝐐 . . … .
(𝑛𝑝 ×𝑛𝑝). = . . … .
. . … .
[0 0 … 0]
Condiciones para la estacionariedad
En orden para el proceso para ser covarianza estacionaria, las consecuencias de cualquier 𝜀𝑡 debe
eventualmente desaparecer. Si todos los valores propios de F se encuentran dentro del circulo de la
unidad, luego VAR resulta ser covarianza estacionaria.
El siguiente resultado generaliza la proposición 1.1 desde el capítulo 1 (para un apéndice de
prueba 10.A al final de este capítulo).
Por lo tanto, una VAR(p) es una covarianza estacionaria mientras |𝜆| < 1 satisfaciendo
[10.1.13]. Equivalentemente, el VAR es covarianza estacionaria si todos los valores de z satisfacen
(𝑗) (𝑗)
Aquí 𝜓𝑗 = 𝐅11 y 𝐅11 denota el bloque superior izquierdo de 𝐅𝑗 , donde 𝐅𝑗 es la matriz F elevado a la potencia
(𝑖) (𝑗)
- jth, es decir la matriz (n × n) 𝐅11 indica las filas 1 a n y las columnas 1 a n de la matriz (np ×𝑛𝑝)𝐅11 .
(𝑗)
Similarmente, 𝐅12 denota el bloque de 𝐅𝑗 que consiste en las filas 1 a n y las columnas (n + 1) a 2n, mientras
(𝑗)
que 𝐅1𝑝 representa las filas 1 a n y las columnas [ n(p-1) + 1] a np de 𝐅𝑗 .
Si los valores absolutos de F se encuentran dentro del circulo de la unidad, luego 𝐅𝛿 → 0 como
𝛿 → ∞ y 𝐲𝑡 puede ser expresado como una suma convergente de la historia de 𝜀:
Y 𝜀𝑡+1 puede ser interpretado como la innovación fundamental para 𝑦𝑡+1 en las bases de una
función lineal de una constante y 𝑦𝑡 , 𝑦𝑡−1 .
Mas generalmente seguido desde [10.1.14] que un pronóstico de 𝑦𝑡 , 𝑦𝑡+1 tomará la forma
(𝛿) (𝛿)
𝑦̂𝑡+𝛿⋮1 = 𝜇 + 𝐅11 (𝑦𝑡 − 𝜇) + 𝐅12 (𝑦𝑡−1 − 𝜇)
[10.1.16]
(𝛿)
+ . . .+ 𝐅1𝑝 (𝑦𝑡−𝑝+1
− 𝜇).
Las matrices de movimiento promedio 𝜓, puede equivalentemente ser calculado como
sigue.
Los operadores 𝜙(𝐿) y 𝜓(𝐿) son relacionados por:
𝜙(𝐿) = [𝜙(𝐿)]−1
Requiriendo
Configuración del coeficiente en 𝐋𝛅 igual a la matriz cero, como en el ejercicio 3.3 del capítulo 3,
produce.
𝜓2 = 𝛟1 𝜓1 + 𝛟2 [10.1.18]
Y en general para 𝐋𝟑 ,
𝜇𝑡 = 𝐇𝜀𝑡 [10.1.20]
Entonces ciertamente 𝜇𝑡 , es ruido blanco. Por otra parte, de [10.1.15] podríamos escribir
= 𝛍 + 𝐉0 𝐔𝑡 + 𝐉1 𝐔𝑡−1 + 𝐉3 𝐔𝑡−3 + . . . ,
Donde
𝐲𝛿 = 𝛙𝜹 + 𝐇 −1
Por ejemplo, H puede ser cualquier matriz diagonalizada Ω, la matriz de covariación de varianza de
𝜀𝑡 :
HΩ𝐻 ′ = D,
Con D una matriz diagonal. Para esta elección de H, los elementos de 𝜇, no están correlacionados
entre sí:
E (𝜇𝑡 ,𝜇𝑡′ ) = 𝐸( 𝐇𝜀𝑡 𝜀𝑡′ 𝐻′ ) = 𝐷
Por lo tanto, siempre es posible escribir un proceso VAR (p) estacionario como una media móvil
infinito convergente de un vector de ruido blanco 𝜇𝑡 cuyos elementos están mutuamente no
correlacionados.
Sin embargo, hay una diferencia importante entre las representaciones MA (∞) [10.1.15] y
[10.1.2]. En [10.1.15], la matriz de parámetros MA principal 𝛙𝟎 es la matriz de identidad. Para
obtener la representación MA para las innovaciones fundamentales, debemos imponer la
normalización 𝛙𝟎 = 𝐈𝑛 .
Nota que, aunque 𝑦𝑗 = 𝑦−𝑗 por un proceso escalar, el mismo no ocurre con un proceso vectorial:
𝛤𝑗 ≠ 𝛤−𝑗
El (1,2) elemento de 𝛤−𝑗 da la covariancia entre 𝑦1 , y 𝑦2,𝑡+𝑗 . No hay razón que este deba ser
relatado – la respuesta de 𝑦1 , a movimientos previos en que pueda ser completamente diferente
desde la respuesta de 𝑦2 a previos movimientos en 𝑦1 .
Para darse cuenta que la covariación estacionaria [10.2.2] podría significar que t en [10.2.1] puede
ser reemplazado con 𝑡 + 𝑗 :
Tomando transposiciones
Como se reivindicó.
Donde 𝛆𝑡 es un Vector de ruido blanco con proceso satisfactorio [10.1.5] y [10.1.6] y 𝛉 representa
una matriz (n×n) de MA coeficientes para j=1,2 … , q . El principal 𝐲𝑡 , es 𝜇 y la diferencia es
Con Autocovarianzas
Algunos de los resultados para procesos escalares MA (𝑥) con absolutamente coeficientes
sumatorios van mediante por procesos vectoriales. Este es resumido por el siguiente teorema
prueba en Apéndice 10. A este capítulo.
Proposición 10.2: Sea 𝑦𝑡 un vector (𝑛×1) satisfactorio:
𝒙
𝑦𝑡 = 𝝁 + ∑ 𝜳𝒌𝜺𝟏−𝒌
𝒌=( )
Donde 𝜀𝑡 es un vector ruido blanco satisfactorio [10.1.5]) y [10.1.6] y {𝜳𝒌 }𝑘𝑥 es absolutamente sumatorio. 𝑦𝑖𝑡 ,
denota el i-ésimo elemento de 𝑦𝑡 y 𝜇𝑡 , denota el i-ésimo elemento de 𝜇 . Luego
(a) La autocovariancia entre el ith variable en el momento t y el i-ésima variable 𝑠 de periodos
anteriores𝐸(𝑦𝑖𝑡 − 𝜇𝑖 )(𝑦𝑖𝑡−𝑠 − 𝜇𝑗 ), existe y es dada por la fila 𝑖 , columna 𝑗 , elemento de
𝑥
𝜞𝑠 = ∑ 𝜳𝑠+𝑣 𝜴𝜳′𝒗
𝑣=( )
𝑥
(b) La Secuencia de matrices {𝜞𝑠 }𝑠=( ) es absolutamente sumatoria.
Filtros Multivariados
Supuesto que el (𝑛×1) vector 𝑦𝑡 sigue un proceso MA (𝑥):
𝑦𝑡 = 𝜇Y + 𝚿(𝐿)𝜀𝑡 ,
[10.2.8]
𝑥 𝑥
Con {𝚿𝒌 }𝑘=( ) absolutamente sumatorio. Sea {𝐇𝒌 }𝑘=−𝑥 una secuencia absolutamente sumatoria
𝑥𝑡 = 𝐇(𝐿)𝑦𝑡 = ∑ 𝐇𝑘 𝑦𝑡−𝑘 ,
𝑘=−𝑥
[10.2.9]
Esto es
𝑥𝑡 = 𝐇(𝐿)[𝜇Y + 𝚿(𝐿)𝜀𝑡 ]
= 𝐇(𝑙)𝜇Y + 𝐇(𝐿)𝚿(𝐿)𝜀𝑡 [10.2.10]
= 𝜇𝑋 + 𝐁(𝐿)𝜀𝑡 ,
Donde 𝛍𝑥 ≡ 𝐇(l)𝛍Y y B (L) es el operador compuesto dado por
𝑥
𝐁(𝐿) = ∑ 𝐁𝑘 𝐿𝑘 = 𝐇(𝐿)𝚿(𝐿).
𝑘=−𝑥
[10.2.11]
La siguiente proposición establece que 𝑥𝑡 seguido de un proceso MA(x) sumatorio absoluto de dos
caras.
Autoregresion Vectorial
A continuación derivamos expresiones para los segundos momentos para 𝑦𝑡 , siguiendo un
𝑉𝐴𝑅 (𝑝).
Sea 𝜉𝑡 ser como definida en ecuación [10.1.9]. Asumiendo que 𝜉 y 𝑦 tienen covariancia estacionaria,
Σ denota la varianza de 𝜉.
∑ = 𝐸(𝜉𝑡 𝜉𝑡′ )
𝑦𝑡 − μ
𝑦𝑡−1 − μ
= 𝐸 {[ ⋮ ] 𝑥 [(𝑦𝑡 − μ)′ (𝑦𝑡 − μ)′ ⋯ (𝑦𝑡−𝑝+1 − μ)′]}
𝑦𝑡−𝑝+1 − μ
Γ0 Γ1 … Γ𝑝−1
Γ1 Γ0 … Γ𝑝−2
= , [10.2.12]
⋮ ⋮ … ⋮
[Γ′𝑝+1 Γ′𝑝−20 … Γ0 ]
Donde Γ𝑗 denota la i-ésima autocovariancia del proceso original y. Multiplicar [10.1.11] por su
propia transposición tomando las expectativas dadas
′
𝐸[𝜉𝑡 𝜉 ′ 𝑡 ] = 𝐸[(𝐅𝜉𝑡−1 + v𝑡 )(𝐅𝜉𝑡−1 + vt )′ ] = 𝐅𝐸(𝜉𝑡−1 𝜉𝑡−1 )𝐅 ′ + 𝐸(v𝑡 v𝑡′ ).
Σ = 𝐅𝚺𝐅 ′ + Q. [10.2.13]
Una solución de forma cerrada [10.2.13] puede ser obtenida en periodos del operador vec. Si A es
una matriz ( 𝑚 𝑥 𝑛), luego vec(𝐴) es un vector (𝑚𝑛 𝑥 1) de columna obtenido apilando las
columnas de A, uno bajo el otro con las columnas ordenadas desde izquierda a derecha. Por
ejemplo, si
𝑎11 𝑎12
𝐴 = [𝑎21 𝑎22 ],
𝑎31 𝑎32
Luego,
𝑎11
𝑎21
𝑎31
vec(𝐀) = 𝑎 [10.2.14]
12
𝑎22
[𝑎32 ]
El apéndice 10.A establece el siguiente resultado fácil.
Proposición 10.4: Sea A, B y C matrices cuyas dimensiones sean tales que el producto ABC existe. Luego
vec(𝐀𝐁𝐂) = (𝐂 ′ ⊗ 𝐀). vec(𝐁) [10.2.15]
Donde el símbolo ⊗ denota el producto Kronecker.
Así el operador vec es aplicado para ambas lados de [10.2.13] el resultado es:
g𝑌 (𝓏) ≡ ∑ 𝛾𝑗 𝑧 𝑗
𝑗=−𝑥
Con
𝐆𝐘 (z) ≡ ∑ Γ𝑗 𝑧 𝑗
𝑗=−𝑥
[10.3.1]
Donde
𝐆ε (z) = 𝛀. [10.3.2]
Para el vector MA (q) proceso de [10.2.3] la expresión univariedad [3.6.3] para el generación de
autocovariancia función generalizada para
Este puede ser verificado observando que el coeficiente en 𝑧 𝑗 en [10.3.3] es igual a Γ𝑗 como dado
en [10.2.5]
= [𝑰𝒓 + 𝐅𝑧 + 𝐅 2 𝑧 2 + 𝐅 3 𝑧 3 + ⋯ ]𝐐
×[𝐼𝑟 + (𝐹 ′ )𝑧 −1 + (𝐹 ′ )2 𝑧 −2 + (𝐹 ′ )2 𝑧 −2 + ⋯ ] [10.3.5]
= 𝐆𝑋 (𝑧) + 𝐆𝑊 (𝑧).
Nota también que si un vector (𝑟𝑥1) 𝜉𝑡 es pre multiplicado por una matriz no estocástica
(𝑛𝑥𝑟) H. El efecto es pre multiplicar la autocovariancia por H’ y multiplicar por H:
′ ′
𝐸[(𝐻 ′ 𝜉𝑡 − 𝐻 ′ 𝜇𝜉 )(𝐻 ′ 𝜉𝑡−𝑗 − 𝐻 ′ 𝜇𝜉) = 𝐻 ′ 𝐸 [(𝜉𝑡 − 𝜇𝜉 )(𝜉𝑡−𝑗 − 𝜇𝜉 ) ] 𝐇,
Implicando,
Poniendo estos resultados juntos, considerar 𝜉𝑡 la r -dimensional 𝑉𝐴𝑅 (1) proceso 𝜉𝑡 = 𝐅𝛏𝑡−1 +
𝑣𝑡 y un nuevo proceso 𝑢𝑡 , dado por 𝑢𝑡 = 𝑯′ 𝜉𝑡 + 𝑤𝑡 con 𝑤𝑡 Un proceso de ruido blanco que no
es relacionado con 𝛏𝑡−1 para todos 𝑗 . Luego
O, si R es la varianza de 𝑤𝑡 ,
𝑦𝑡 = 𝜇𝑌 + Ψ(𝐿)𝜀𝑡
Donde 𝜀𝑡 es un proceso de ruido blanco con diferente covariancia matriz dada por 𝛀 y donde
𝑥 𝑘 𝑥
Ψ(𝐿)=Σ𝑘=( ) 𝚿𝒌 𝐿 con {Ψ𝑘 }𝑘=( ) sumatorios absolutamente. Así La Función de generación de
autocovariancia para 𝑦 es
Comparando [10.3.8] con [10.3.7], el efecto de aplicar el filtro 𝐇(𝐿) para 𝑦𝑡 es para pre multiplicar
La Función de generación de autocovariancia por 𝐇 (𝑧) para mjltiplicar por transponer de
𝐇(𝒛−𝟏 ):
𝐆𝐘 (𝑧) = ∑ Γ𝑘 𝑧 𝑘
𝑘=−𝑥
[10.4.2]
La gama de población asociada a (n x n) matriz de números complejos con la escalar real ω. Indica
cualquier elemento único establecido por la proposición 6.1 Se multiplica por ℮(𝑖𝑤𝑘) Y la función
resultante de ω integración de –π a π , el resultado es el elemento correspondiente de la kth matriz
de autocovarianza Y:
𝜋
∫−𝜋 𝑆𝑦(𝜔)℮𝐼𝜔𝐾 𝑑𝜔 = Г𝑘 [10.4.4]
𝑧
Así, como en el caso univariado, la secuencia de autocovarianza {Г𝑘}𝑘=−𝑧 y la función
representada por la gama de población Sy(ω) contiene la misma información
𝑆𝑦 (ω)
(𝑘) −𝑖𝜔𝑘 (𝑘) −𝑖𝜔𝑘
1 ∑𝑥𝑘=−𝑥 𝑌𝑥𝑥 ℮ ∑𝑥𝑘=−𝑥 𝑌𝑥𝑦 ℮
=2𝜋 [ (𝑘) −𝑖𝜔𝑘 (𝑘) −𝑖𝜔𝑘
]
∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 ℮ ∑𝑥𝑘=−𝑥 𝑌𝑦𝑦 ℮
(𝑘) (𝑘)
1 ∑𝑥𝑘=−𝑥 𝑌𝑥𝑥 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)} ∑𝑥𝑘=−𝑥 𝑌𝑥𝑦 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)}
= [ (𝑘) (𝑘)
]
2𝜋
∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)} ∑𝑥𝑘=−𝑥 𝑌𝑦𝑦 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)}
[10.4.10]
Usando [10.4.7]y [10.4.8] tanto con hechos sen(-ωk)= - sen(ωk) y sen(0) = 0 . Los componentes
imaginarios desaparecen de los términos diagonales:
𝑆𝑦 (ω)
(𝑘) (𝑘)
1 ∑𝑥𝑘=−𝑥 𝑌𝑥𝑥 cos(𝜔𝑘) ∑𝑥𝑘=−𝑥 𝑌𝑥𝑦 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)}
=2𝜋 [ (𝑘) (𝑘)
]
∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)} ∑𝑥𝑘=−𝑥 𝑌𝑦𝑦 cos(𝜔𝑘)
[10.4.11]
(𝑘) (−𝑘)
Sin embargo. Como en general 𝑦𝑥𝑦 ≠ 𝑦𝑥𝑦 Los elementos fuera de diagonal son típicamente
números complejos.
Los componentes reales de la gama cruzada se conoce como cogama entre “X” y “Y”
(𝑘)
𝐶𝑦𝑥 (𝜔) = (2𝜋)−1 ∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 cos(𝜔𝑘) [10.4.14]
Se puede verificar que [10.4.9] y el hecho de que sen(-ωk) que la gama en cuadrática de Y a X. Es el
negativo de la gama cuadrática de x a Y
Recordar [10.4.13]. Estos resultados implica que los elementos de 𝑆𝑦 (𝜔) Son conjugados
complejos entre sí; en general, la fila “J” columna “m” elemento de 𝑆𝑦 (𝜔) es el completo
conjugado de la fila “m” columna”J” elemento de 𝑆𝑦 (𝜔) . Tenga en cuenta que tanto 𝐶𝑦𝑥 (𝜔) y
𝑞𝑦𝑥 (𝜔) Son Funciones periódicas de valor real de ω
Por lo tanto, la cogama y la gama en cuadrática están totalmente especificados por los valores que
asume como rangos entre 0 y π
Resultado [10.4.5] implica que la gama cruzada se integra a la covarianza incondicional entre X e Y:
𝜋
∫ 𝑆𝑦𝑥 (𝜔)𝑑𝜔 = 𝐸(𝑌𝑡 − 𝜇𝑦 )(𝑋𝑡 − 𝜇𝑋 )
−𝜋
Por lo tanto. La covarianza entre “X” y “Y” puede calcularse desde la gama del área bajo entre “X”
e “Y”
𝜋
∫−𝜋 𝐶𝑦𝑥 (𝜔)𝑑𝜔 = 𝐸(𝑌𝑡 − 𝜇𝑦 )(𝑋𝑡 − 𝜇𝑋 ) [10.4.18]
𝑌𝑡 = ӯ + ∑𝑀
𝑗=1{ἂ𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 . 𝑠𝑒𝑛(𝑡 − 1)]} [10.4.19]
2
𝛿𝑗 = (𝑇) ∑𝑇𝑖=1 𝑌𝑡 . sen[ 𝜔𝑗 (𝑡 − 1)] [10.4.21]
𝑋𝑡 = 𝑋̅ + ∑𝑀
𝑗=1{ἂ𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 . 𝑠𝑒𝑛(𝑡 − 1)]} [10.4.22]
2
ἂ𝑗 = (𝑇) ∑𝑇𝑖=1 𝑋𝑡 . cos[ 𝜔𝑗 (𝑡 − 1)] [10.4.23]
2
𝛿𝑗 = (𝑇) ∑𝑇𝑖=1 𝑋𝑡 . sen[ 𝜔𝑗 (𝑡 − 1)] [10.4.24]
Recordar que [6.2.11] que los regresores periódicos en [10.4.19] todo tiene media de la muestra
ceroy son mutuamente ortogonales, mientras
∑𝑇𝑖=1 𝑐𝑜𝑠 2 [𝜔𝑗 (𝑡 − 1)] = ∑𝑇𝑖=1 𝑠𝑒𝑛2 [𝜔𝑗 (𝑡 − 1)] = 𝑇/2 [10.4.25]
= 𝑇 −1 ∑𝑇𝑖=1{ ∑𝑀
𝑗=1{ἂ𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 . 𝑠𝑒𝑛(𝑡 − 1)]}
= (1/2)∑𝑀 ̂𝑗 + 𝛿𝑗 𝑑̂𝑗 )
𝐽=1( ἂ𝑗 𝑎
Por lo tanto, la porción de covarianza muestral que “x” y “y” . eso se debe a sus dependencias
comunes en los ciclos de frecuencia ω .dada por
Esta magnitud se puede relacionar a un simple análogo de cogama, con cálculos similares a los
utilizados para establecer el resultado (C) de proposición 6.2. Recordemos que desde
Así.
(2) ̂ (−2)
+ 𝑦𝑦𝑥 exp[−2𝑖𝜔𝑗 ] + 𝑦𝑦𝑥 . exp[2𝑖𝜔𝑗 ] + …
(𝑇−1) ̂ (−𝑇+1)
+ 𝑦𝑦𝑥 exp[−(𝑇 − 1)𝑖𝜔𝑗 ] + 𝑦𝑦𝑥 . exp[(T − 1) 𝑖𝜔𝑗 ]} [10.4.29]
(𝑘)
Donde 𝑦𝑦𝑥 es la varianza muestral entre el valor “y” y el valor que suponía “k” en periodos
anteriores
(𝑘) 1
𝑦𝑦𝑥 = ( ) {∑𝑇−𝑘 ̅ ̅
𝑖=1 ( 𝑋𝑡 − 𝑋)(]𝑌𝑡+𝑘 − 𝑌 ). Para k= 0, 1,2….., T -1
𝑇
1
(𝑇) {∑𝑇−𝑘 ̅ ̅
𝑖=−𝑘+1( 𝑋𝑡 − 𝑋 )(]𝑌𝑡+𝑘 − 𝑌 ). Para k=0,1 ,2,…-T [10.4.30]
𝑆̂𝑥𝑦 (𝜔𝑗 ) =
∑𝑇−1 ̂ (𝐾) −𝑖𝜔𝑘 ∑𝑇−1
𝐾=−𝑇+1 𝑌𝑥𝑥 ℮
̂ (𝐾) −𝑖𝜔𝑘
𝐾=−𝑇+1 𝑌𝑥𝑦 ℮ 𝑆̂𝑥𝑥 (𝜔) 𝑆̂𝑥𝑦 (𝜔)
−1
(2𝜋) [ ]=[ ]
∑𝑇−1 ̂ (𝐾) −𝑖𝜔𝑘
𝐾=−𝑇+1 𝑌𝑦𝑥 ℮ ∑𝑇−1 ̂ (𝐾) −𝑖𝜔𝑘
𝐾=−𝑇+1 𝑌𝑦𝑦 ℮
𝑆̂𝑦𝑥 (𝜔) 𝑆̂𝑦𝑦 (𝜔)
En la expresión [10.4.31] indica que el muestreo del periodograma cruzado de “x” a “y” en la
frecuencia puede expresarse como
= [𝑇⁄(8𝜋)]. (𝑎̂𝑗 𝛼̂𝑗 + 𝑑̂𝑗 𝛿̂𝑗 ) + 𝑖[𝑇⁄(8𝜋)]. (𝑑̂𝑗 𝛼̂𝑗 − 𝑎̂𝑗 𝛿̂𝑗 )
El componente real es el análogo de la muestra del cogama, mientras que el componente imaginario
es el análogo muestral de la gama en cuadrática
Donde
¿Que interpretación debemos atribuir a la gama cuadrática? Considere el uso de los pesos [10.4.22]
para construir una nueva serie 𝑥𝑡∗ desplazando la fase de cada una de las funciones periódicas de un
cuarto de ciclo
𝑀
La variable 𝑥𝑡∗ se conducen por los ciclos que 𝑥𝑡 excepto en la fecha 𝑡 = 1 cada ciclo es
una cuarta parte de camino en lugar de comenzar, como el caso de 𝑥𝑡
Ya que sin[𝜃 + (𝜋⁄2)] = cos(𝜃) y desde cos[𝜃 + (𝜋⁄2)] = − sin(𝜃), la variable 𝑥𝑡∗ se puede
escribir alternativamente como
𝑀
𝑇 −1
∑(𝑦𝑡 − 𝑦̅)(𝑥𝑡∗ − 𝑥̅ ) = (1⁄2) ∑(𝛼̂𝑗 𝑑̂𝑗 − 𝛿̂𝑗 𝑎̂𝑖 )
𝑖=1 𝑖=1
Asumiendo que 𝑠𝑌𝑌 (𝜔) y 𝑠𝑋𝑋 (𝜔) son diferentes de cero. Si 𝑠𝑌𝑌 (𝜔) o 𝑠𝑋𝑋 (𝜔) es cero. La
coherencia se define como cero. Se puede demostrar que 0 ≤ ℎ𝑌𝑋 (𝜔) ≤ 1 para todo 𝜔 tanto
como 𝑋 e 𝑌 son covarianza estacionaria con matrices de autocovarianza. Si ℎ𝑌𝑋 (𝜔) es largo. Esto
indica que 𝑌 e 𝑋 tienen importante ciclos de frecuencia en común.
𝑠𝑌𝑋 (𝜔) = 𝑐𝑌𝑋 (𝜔) + 𝑖. 𝑞𝑌𝑋 (𝜔) = 𝑅(𝜔). 𝑒𝑥𝑝𝜔[𝑖. 𝜃(𝜔)], [10.4.37]
Donde
1
𝑅(𝜔) = {[𝑐𝑌𝑥 (𝜔)]2 + [𝑞𝑌𝑊 (𝜔)]2 }2 [10.4.38]
La función 𝑅(𝜔) a veces se describe como la ganancia 𝜃(𝜔) mientras se la llama fase.
𝑦𝑡 = 𝛍 + 𝚿(𝐿)𝜀𝑡
Donde
𝛀 para 𝑡 = 𝜏
𝐸(𝜀𝑡 𝜀 ′ 𝑡 ) = {
0 para otro
Sustituyendo [10.3.4] dentro [10.4.3] revela que la gama de poblaciones para 𝑦𝑡 se puede calcular
como
Por ejemplo, la gama de población para una VAR(p) estacionario escrita como en [10.1.4] es
−1
𝑠𝑌 (𝜔) = (2𝜋)−1 {𝐼𝑛 − Φ1 𝑒 −𝑖𝜔 − Φ2 𝑒 −2𝑖𝜔 − ⋯ − Φ𝑝 𝑒 −𝑝𝑖𝜔 } Ω
−1
X {𝐼𝑛 − Φ1′ 𝑒 𝑖𝜔 − Φ2′ 𝑒 2𝑖𝜔 − ⋯ − Φ𝑝′ 𝑒 𝑝𝑖𝜔 } [10.4.41]
Donde
𝑇
𝑇
−1
𝑦̅ = 𝑇 ∑ 𝑦𝑡
𝑡=1
[10.4.42]
Filtros
Sea x𝑡 , un proceso estacionario de covarianza r-dimensional con autovarianza
𝑥
absolutamente sumables y con (𝑟×𝑟) poblacion de gama denotado s𝑋 (𝜔). Sea {𝐇𝑘 }𝑘=−𝑥 una
secuencia absolutamente sumables de matrices (𝑛×𝑟), y sea y𝑡 denota el numero de procesos
vectorial n-dimensional dado por
y𝑡 = 𝐇(𝐿)𝐱𝑡 = ∑ 𝐇𝑘 𝐱𝑡−𝑘
𝑘=−𝑥
Se deduce de [10.3.9] que la gama de poblacion (denotado 𝑠𝑌 (𝜔)) está relacionado con el de x
según
s𝑋𝑋 (𝜔) 0
s𝑌 (𝜔) = [ ]
0 s𝑈𝑈 (𝜔)
𝑌𝑡 = ∑ ℎ𝑘 𝑋𝑡−𝑘 + 𝑢𝑡 ≡ ℎ(𝐿)𝑋𝑡 + 𝑢𝑡
𝑘=−𝑥
[10.4.44]
𝑥
{ℎ𝑘 }𝑘=−𝑥
Donde es absolutamente sumable. Observese que el vector 𝐲𝑡 ≡ (𝑋𝑡 , 𝑌𝑡 )′ se obtiene a
partir de un vector 𝐱𝑡 por el filtro
y𝑡 = 𝐇(𝐿)𝐱 𝑡
Donde
1 0
𝐇(𝐿) = [ ]
ℎ(𝐿) 1
Se deduce de [10.4.43] que la gama de y es dado por
1 0 𝑆𝑋𝑋 (𝜔) 0 ℎ𝑒 𝑖𝜔 ]
𝑠𝑦 (ω) = [ ][ ] [1 [10.4.45]
ℎ(𝑒 −𝑖𝜔 ) 1 0 𝑆𝑈𝑈 (𝜔) 0 1
( 𝜔)ℎ(𝑒 −𝑖𝜔 )
𝑆𝑋𝑋 𝜔 𝑆𝑋𝑋
=[ ]
ℎ(𝑒 −𝑖𝜔 )𝑆𝑥𝑥 (𝜔) ℎ(𝑒 −𝑖𝜔 )𝑆𝑥𝑥 (𝜔)ℎ(𝑒 𝑖𝜔 ) + 𝑆𝑈𝑈 (𝜔)
Donde
∞
−𝑖𝜔𝑘
h(𝑒 −𝑖𝜔
) = ∑ ℎ𝑘𝑒
𝑘=−∞
[104.46]
𝑥
Entonces la proyección lineal de 𝑌𝑡 en {𝑋𝑡−𝑘 }𝑘=−𝑥 existe y es deformada de [10.4.44] donde 𝑢𝑡 se
consideraría ahora como el residuo de la poblacion asociado con la poblacion lineal. La secuencia
𝑥
de coeficientes de proyección lineal {ℎ𝑘 }𝑘=−𝑥 puede resumirse en términos de función de 𝜔 dado
en [10.4.46]. Comparando los elementos inferiores izquierdos de [10.4.47] y [10.4.45], esta función
debe satisfacer
𝑆𝑌𝑋 (𝜔)
ℎ(𝑒 −𝑖𝜔 ) =
𝑆𝑋𝑋 (𝜔)
[10.4.48]
Asumiendo que 𝑆𝑋𝑋 (𝜔) no es cero. Cuando 𝑆𝑋𝑋 (𝜔) = 0, establecemos ℎ(𝑒 −𝑖𝜔 ) = 0. Esta
magnitud, la relación entre la gama cruzado de X a Y para la gama de X, se conoce como función de
transferencia de X a Y.
Las principales subyacentes [10.4.4] se puede utilizar además para descubrir coeficientes de
función de transferencia individuales.
𝜋
𝐻𝐾 = (2𝜋)−1 ∫ ℎ( 𝑒−𝑖𝜔 ) 𝑒−𝑖𝜔𝑘 𝑑𝜔
−𝜋
[10.4.49]
E(y1)=µ [10.5.1]
Asi
+ ⋯ + +[1/𝑇]Γ−(𝑇−1)
Como en el caso univariado los pesos en Γ𝑘 para |𝑘| pequeño ir la unidad como 𝑇 → ∞ y las
autocovarianzas superiores pasan a cero para un proceso estacionario de covariancia. Por lo tanto
tenemos la siguiente generalización de la proposición 7.5.
Proposición 10.5: Sea 𝑦𝑡 un proceso estacionario de covarianza con momentos dados por [10.5.1] y [10.5.2] y
con autocovariancias absolutamente sumables. Entonces, la media muestral [10.5.3]satisface
𝑝
(ɑ) ӯ𝑡 → 𝜇
𝑥
Absolutamente sumabilidad de {Γ𝑟 }𝑟=−𝑥 .implica que para cualquier 𝜀 > 0 existe un 𝑞 tal que
(𝑣)
∑ 𝘳𝑖𝑗 ≤ 𝜀 ⁄2
|𝑟|≥𝑞
Así
𝑇−1 𝑞
(𝑣) |𝑣| (𝑟) (𝑟)
|∑ 𝘳𝑖𝑗 + ∑ ( ) 𝘳𝑖𝑗 | ≤ 𝜀 ⁄2 + ∑ (|𝑣|/𝑇) |𝛾𝑖𝑗 |
𝑇
|𝑣|≥𝑇 𝑌=−(𝑇−1) 𝑌=−𝑞
Esta suma puede hacerse menos que 𝜀 eligiendo T suficientemente grande. Esto establece la
reivindicación (b) de la proposición 10.5 . De este resultado, 𝐸(𝑦̅𝑖.𝑇 − 𝜇𝑖 )2 → 0 para cada i implica
𝑃
que 𝑦̅𝑖.𝑇 → 𝜇𝑖 .
Si los datos fueron regenerados por el vector de proceso 𝑀𝐴(𝑞), entonces el resultado (b)
habría implicado.
𝑞
S = ∑ 𝑟𝑟
𝑌=−𝑞
[10.5.8]
Ŝ = ṙ0 + ∑(ṙ0 + ṙ´𝑣 )
𝑟=1
[10.5.9]
Donde
𝑇
Γ̂𝑣 = (1⁄𝑇) ∑ (𝑦𝑡 − ӯ𝑡 )(𝑦𝑇−1 − ӯ)´
𝑡=𝑣+1
Siempre que y𝑡 sea ergódico por segundo momento, [10.5.9] proporciona una estimación
cómoda de [10.5.8. En efecto, Hansen (1982) y Blanco (1984, Capitulo 6) notaron que [10.5.9] da
una estimación consistente de la varianza asintótica de la media de la muestra para una amplia clase
de procesos que exhiben heteroscedasticidad y autocorrelacion dependientes del tiempo. Para ver
Suponer, primero esto E[(yt − μ)(ys − μ)´ ] = 0 para |t − s| > q, como fue el caso del vector
MA(q) proceso que generalizamos a partir de MA(q) proceso para permitir E[(yt − μ)(ys − μ)´]
ser una función de t para |t − s| ≤ q. Entonces [10.5.11] implica
T ∙ E[(y̅T − μ)(y̅T − μ)´ ]
T
[10.5.13]
En [10.5.12]
T
(1⁄T) ∑ E[(yt − y̅T )(yt−v − y̅T )´]
t=v+1
[10.5.14]
Y por lo tanto [10.5.9] proporciona una estimación consistente del límite de [10.5.12] cuando
[10.5.14] converge en probabilidad a [10.5.13]. Por lo tanto, el estimador propuesto en [10.5.9]
puede dar una estimación consistente de T veces la varianza de la media muestral en presencia de
heteroscedasticidad y autocorrelación hasta el orden q.
Más generalmente, incluso si E[(yt − μ)(ys − μ)´] es distinto de cero para todo t y s. Siempre y
cuando esta matriz vaya a cero lo suficientemente rápido como | t − s| → ∞. Entonces todavía hay
un sentido en el cual ŝT en [10.5.9] puede proporcionar una estimación consistente de S.
Específicamente, si el tamaño de la muestra T crece. Un mayor número de muestras
p
autocovarianzas q se utiliza para formar la estimación, entonces ŝT → S (ver página, 1984, p.155)
[10.5.15]
yt = xt´ β + ut
Para xt una (k×1) vector de variables explicativas. Recordar de la ecuación [8.2.6] que la desviación
de la estimación OLS bT del árbol valor β satisface
T −1 T
[10.5.16]
𝑇 −1
𝑝
[(1⁄𝑇) ∑ 𝑥𝑡 𝑥𝑡´ ] → 𝑄 −1
𝑡=1
[10.5.17]
El segundo término en [10.5.16] puede ser visto como √𝑇 veces la media muestral de la (𝑘×1)
vector 𝑥𝑡 𝑢𝑡 :
[(1⁄√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ] = (√𝑇)(1⁄𝑇) ∑ 𝑦𝑡
𝑡=1 𝑡=1
[10.5.18]
= √𝑇 ∙ 𝑦̅𝑇
Donde 𝑦𝑡 ≡ 𝑥𝑡 𝑢𝑡 . Siempre que 𝐸(𝑢𝑡 |𝑥𝑡 ) = 0, el vector 𝑦, tiene media cero. Podemos permitir la
heterocedasticidad condicional, la autocorrelación y la variación del tiempo en los segundos
momentos de 𝑦𝑡 , siempre y cuando
A la luz del análisis que antecede, podríamos esperar para estimar 𝑆 por
𝑞
𝑣
𝑆̂𝑇 = Γ̂0.T + ∑ [1 − ] (Γ̂ + Γ̂´v.T )
𝑞 + 1 v.T
𝑣=1
[10.5.20]
Esto
𝑇
𝑢̂𝑡.𝑇 es el MCO residual para el dato 𝑡 en una muestra de tamaño 𝑇(𝑢̂𝑡.𝑇 = 𝑦𝑡 − 𝒙´𝒕 𝒃𝑻 ) y 𝑞 es una
longitud de retraso más allá de la cual estamos dispuestos a asumir que la correlación entre 𝑥𝑡 𝑢𝑡 y
𝑥𝑡−𝑣 𝑢𝑡−𝑣 es esencialmente cero. Claramente, 𝑄 es consistentemente estimado por 𝑄̂𝑇 =
(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥´𝑡 . La sustitución de 𝑄̂𝑇 y 𝑆̂𝑇 en [10.5.19], la sugerencia es tratar la estimación de
OLS 𝑏𝑇 como si
Donde
= [(1/𝑇) ∑ 𝑥𝑡 𝑥´𝑡 ] (1
𝑡=1
𝑇 𝑞 𝑇
𝑣
/𝑇) [∑ 𝑢̂𝑡2 𝑥𝑡 𝑥´𝑡 + ∑ [1 − ´
] ∑ (𝑥𝑡 𝑢̂𝑡 𝑢̂𝑡−𝑣 𝑥𝑡−𝑣 + 𝑥𝑡−𝑣 𝑢̂𝑡−𝑣 𝑢̂𝑡 𝑥𝑡´ )]
𝑞+1
𝑡=1 𝑣=1 𝑡=𝑣+1
𝑇 −1
× [(1/𝑇) ∑ 𝑥𝑡 𝑥´𝑡 ]
𝑡=1
(𝑉̂𝑇 ⁄𝑇)
𝑇 −1 𝑇
[10.5.21]
Donde 𝑢̂ es el MCO muestra residual. la raíz cuadrada de la fila 𝑖, columna 𝑖 elemento de 𝑉̂𝑇 /𝑇 se
conoce como heterocedasticidad - consistente de autocorrelación y error estándar para el 𝑖-ésimo
elemento del vector de coeficiente OLS estimado. La esperanza es que los errores estándar basados
en [10.5.21] sean robustos a una variedad de formas de heterocedasticidad y autocorrelación de los
residuos 𝑢, de la regresión.
Estimadores espectral
Una serie de estimaciones alternativas de 𝑆 en [10.5.7] han sido sugeridos en la literatura.
Notar que como en el caso univariante discutido en la sección 7.2, si 𝑦, es covarianza estacionaria,
entonces 𝑆 tiene la interpretación como la función generadora de autocovariancia 𝐺𝑦 (𝑧) =
∑∞ 𝑣
𝑣=−∞ 𝛤𝑣 𝑧 evaluado 𝑧 = 1, o equivalentemente, como 2𝜋 veces el espectro de la población a la
frecuencia cero:
𝑞
𝑆 = ∑ 𝛤𝑣 = 2𝜋𝑠𝑌 (0)
𝑣=−∞
Donde
1 − 6𝑧 2 + 6𝑧 3 𝑝𝑎𝑟𝑎 0 ≤ 𝑧 ≤ 1
𝑘(𝑧) = { 2(1 − 𝑧)3 1
𝑝𝑎𝑟𝑎 ≤ 𝑧 ≤ 1
2
0 𝑑𝑒 𝑜𝑡𝑟𝑎 𝑚𝑎𝑛𝑒𝑟𝑎
Por ejemplo, para 𝑞 = 2, tenemos
5 2
𝑆̂ = 𝛤̂0 + (𝛤̂1 + 𝛤̂1′ ) + (𝛤̂2 + 𝛤̂2′ )
9 27
Andrews (1991) examinó una serie de estimadores alternativos y encontró el mejor
resultado para un núcleo espectral cuadrático:
En contraste con los estimadores de Newey-west y Gallant, la sugerencia de Andrews hace uso de
todos los estimadores estimados de autocovariancia 𝑇 − 1
𝑇−1
𝑇 𝑣
𝑆̂ = [𝛤̂0 + ∑ 𝑘 ( ) (𝛤̂𝑣 + 𝛤̂𝑣′ )]
𝑇−𝑘 𝑞+1
𝑣=1
[10.5.22]
Aunque [10.5.22] haga uso de todas las autocovariancias calculadas, todavía hay un parámetro de
ancho de banda Q que se elegirá para construir el núcleo. Por ejemplo, para 𝑞 = 2
𝑇−1
𝛤̂0 + ∑ 𝑘(𝑣 ⁄3)(𝛤̂1 + 𝛤̂𝑣′ ) = 𝛤̂0 + 0.85(𝛤̂1 + 𝛤̂1′ ) + 0.50(𝛤̂2 + 𝛤̂2′ ) + 0.14(𝛤̂3 + 𝛤̂3′ ) + ⋯
𝑣=1
Andrews recomendó multiplicar la estimación por 𝑇⁄(𝑇 − 𝑘), donde 𝑦𝑡 = 𝑥𝑡 𝑢̂𝑡 para 𝑢̂𝑡 , la
muestra OLS residual de una regresión con 𝑘 variables explicativas. Andrews (1991) y Newey-west
(1992) también ofrecieron algunas pautas para elegir un valor óptimo del parámetro de
truncamiento o ancho de banda de retraso 𝑞 para cada uno de los estimadores de S que se han
discutido aquí.
Los estimadores que se han descrito funcionarán mejor cuando 𝑦, tiene una representación
media móvil finita. Andrews y monahan (1992) sugirieron un enfoque alternativo para estimar 𝑆
que también aprovecha cualquier estructura autorregresiva de los errores. Sea 𝑦, un vector de media
cero, y sea 𝑆 la varianza asintótica de la media muestral de 𝑦. Por ejemplo, si queremos calcular
heteroscedasticidad y autocorrelación - errores estándar consistentes para la estimación de OLS,
𝑦 correspondería a 𝑥𝑡 , 𝑢̂𝑡 , donde 𝑥𝑡 , es el inversor de variables explicativas para la regresión y 𝑢̂𝑡 ,
es el residuo de OLS. El primer paso en la estimación de 𝑆 es ajustar un VAR de orden inferior
para 𝑦𝑡 .
Donde 𝑣, se supone que tiene alguna autocorrelación residual que no se capta completamente por
el VAR. Tenga en cuenta que dado que 𝑦, tiene cero medios, no se incluye ningún término
constante en [10.5.23]. La i-ésima fila representada en [10.5.23] puede estimarse mediante una
regresión OLS del i-ésimo elemento de 𝑦, de todos los elementos de 𝑦, aunque si cualquier
autovalor de |𝐼𝑛 𝜆𝑝 − 𝛷̂1 𝜆𝑝−1 − 𝛷
̂2 𝜆𝑝−2 − ⋯ − 𝛷 ̂𝑝 | = 0 está demasiado cerca del círculo unitario
(digamos, mayor de 0,97 en módulo). Andrews y monahan (1992, pág. 957) recomendaron
modificar las estimaciones de OLS para reducir el autovalor más grande.
Donde
Así, a partir de [10.4.43], la densidad espectral de 𝑦 está relacionada con la densidad espectral de 𝑣
de acuerdo con
−1
𝑠𝑌 (𝜔) = {[𝐼𝑛 − 𝛷1 𝑒 −𝑖𝜔 − 𝛷2 𝑒 −2𝑖𝜔 − ⋯ − 𝛷𝑝 𝑒 −𝑝𝑖𝜔 ]} 𝑠𝑣 (𝜔)
−1
×{[𝐼𝑛 − 𝛷1 𝑒 𝑖𝜔 − 𝛷2 𝑒 2𝑖𝜔 − ⋯ − 𝛷𝑝 𝑒 𝑝𝑖𝜔 ]´}
Por lo tanto, una estimación de 2𝜋 veces la densidad espectral de 𝑦 en la frecuencia cero está dada
por
𝑆̂𝑇 = {[𝐼𝑛 − 𝛷
̂1 − 𝛷 ̂𝑝 ]}−1 𝑆̂𝑇∗ ×{[𝐼𝑛 − 𝛷
̂2 − ⋯ − 𝛷 ̂1 − 𝛷 ̂𝑝 ]´}−1
̂2 − ⋯ − 𝛷 [10.5.25]
Donde 𝑆̂𝑇∗ se calcula a partir de [10.5.24]. La matriz en 𝑆̂𝑇 es la estimación de Andrews Monahan
(1992) de 𝑆, donde
Multiplique cada bloque final de 𝑛 columnas por (1/𝜆) y añada al bloque anterior. Multiplique cada
una de las 𝑛 columnas de este bloque resultante de siguiente a final por (1/𝜆) y añada el resultado
al bloque de columnas tercero a último. Proceder de esta manera revela [10.A.2] que sea el mismo
que
𝑋1 𝑋2
[0 −𝜆𝐼𝑛(𝑝−1) ]
[10.A.2]
Como puede comprobarse mediante la multiplicación directa. Pre multiplicar una matriz por S y
multiplicar por S no cambiará el determinante. Así [10.A.2] es igual a:
0 𝐼𝑛(𝑝−1) 𝑋1 𝑋2 0 𝐼𝑛 −𝜆𝐼𝑛(𝑝−1) 0
|[
𝐼𝑛 0
][ 0 −𝜆𝐼𝑛(𝑝−1) ] [𝐼𝑛(𝑝−1) 0 ]| = | 𝑋2 𝑋1
|
[10.A.3]
(−𝜆)𝑛(𝑝−1) |𝑋1 | = (−𝜆)𝑛(𝑝−1) |𝛷1 − 𝜆𝐼𝑛 + (𝛷2 ⁄𝜆) + (𝛷3 ⁄𝜆2 ) + ⋯ + (𝛷𝑝 ⁄𝜆𝑝−1 )|
▪ Prueba de proposición 10.2. Es útil definir 𝑧𝑡 (𝑖, 𝑗) como el componente de 𝑦𝑖𝑡 que refleja los
efectos acumulativos del elemento 𝑙 de 𝜀:
∞
(0) (1) (2) (𝑣)
𝑧𝑡 (𝑖, 𝑙) = 𝛹𝑖𝑙 𝜀𝑙𝑡 + 𝛹𝑖𝑙 𝜀𝑙.𝑡−1 + 𝛹𝑖𝑙 𝜀𝑙.𝑡−2 + ⋯ = ∑ 𝛹𝑖𝑙 𝜀𝑙.𝑡−𝑣
𝑣=0
[10.A.4]
(𝑣)
Donde 𝛹𝑖𝑙 denota la fila 𝑖. columna 𝑙 elemento de la matriz 𝛹 ,. El valor real de la
Ith variable 𝑦𝑖𝑙 , es la suma de las contribuciones de cada uno de los 𝑙 = 1,2, … 𝑛 componentes de
𝜀:
𝑛
𝑦𝑖𝑙 = 𝜇𝑖 + ∑ 𝑧𝑡 (𝑖, 𝑙)
𝑙=1
[10.A.5]
Prueba de (a). Considere la variable aleatoria𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑣 (𝑗, 𝑚), donde 𝑖, 𝑙, 𝑗 y 𝑚 representan
índices arbitrarios entre 1 y 𝑛 y donde 𝑠 es el orden de la autocovariancia de y que se está
calculando. Nota de que [10.A.4]
∞ ∞
(𝑟) (𝑟)
𝐸{𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚)} = 𝐸 {[∑ 𝛹𝑖𝑙 𝜀𝑙.𝑡−𝑟 ] × [∑ 𝛹𝑗𝑚 𝜀𝑚.𝑡−𝑠−𝑣 ]}
𝑟=0 𝑣=0
[10.A.6]
Ahora, el producto de # "en el término final en [10.A.6] puede tener una expectativa no nula sólo si
el 𝜀 tiene la misma fecha, es decir, si 𝑟 = 𝑠 + 𝑣. así, aunque [10.A.6] implica una suma sobre un
número infinito de valores de 𝑟, sólo el valor en 𝑟 = 𝑠 + 𝑣 contribuye a esta suma:
∞ ∞
(𝑠+𝑣) (𝑣) (𝑠+𝑣) (𝑣)
𝐸{𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚)} = ∑ {𝛹𝑖𝑙 𝛹𝑗𝑚 } ∙ 𝐸{𝜀𝑙.𝑡−𝑠−𝑣 𝜀𝑚.𝑡−𝑠−𝑣 } = ∑ 𝛹𝑖𝑙 𝛹𝑗𝑚 𝜎𝑙𝑚
𝑣=0 𝑣=0
[10.A.7]
Donde 𝜎𝑙𝑚 representa la covarianza entre 𝜀𝑙.𝑡 y 𝜀𝑚.𝑡 viene dada por la fila 𝑙, columna 𝑚 elemento
de 𝛺.
(𝑠+𝑣) (𝑣)
Pero ∑𝑛𝑙=1 ∑𝑛𝑚=1 𝛹𝑖𝑙 𝛹𝑗𝑚 𝜎𝑙𝑚 es la fila 𝑖, columna 𝑗 elemento de 𝛹𝑣+𝑠 𝛺𝛹𝑣´ . Así indica [10.A.8]
que la fila 𝑖, columna 𝑗 elemento de 𝛤, está dada por la fila 𝑖, columna 𝑗 elemento de
∑𝑛𝑣=0 𝛹𝑣+𝑠 𝛺𝛹𝑣´ , como se afirma en la parte (a).
𝑣=0 𝑠=0
∞ ∞
(𝑣) (𝑠+𝑣)
≤ |𝜎𝑙𝑚 | ∑ |𝛹𝑗𝑚 | ∑ |𝛹𝑖𝑙 |
𝑣=0 𝑠=0
[10.A.9]
<∞
Por lo tanto.
𝑣 ∞ 𝑛 𝑛 𝑛 𝑛 ∞
(𝑠)
∑ |𝛾𝑖𝑗 | ≤ ∑ ∑ ∑ |ℎ𝑠 (𝑖, 𝑗, 𝑙, 𝑚)| = ∑ ∑ ∑|ℎ𝑠 (𝑖, 𝑗, 𝑙, 𝑚)|
𝑣=0 𝑠=0 𝑙=1 𝑚=1 𝑙=1 𝑚=1 𝑠=0
[10.A.10]
[10.A.11]
∞ ∞ ∞ ∞
(𝑣 ) (𝑣 ) (𝑣 ) (𝑣 )
≤ ∑ ∑ ∑ ∑ |𝛹𝑖1 𝑙11 𝛹𝑖2 𝑙22 𝛹𝑖3 𝑙33 𝛹𝑖4 𝑙44 | ×𝐸 |𝜀𝑙1 .𝑡1 −𝑣1 𝜀𝑙2 .𝑡2 −𝑣2 𝜀𝑙3 .𝑡3 −𝑣3 𝜀𝑙4.𝑡4−𝑣4 |
𝑣1 =0 𝑣2 =0 𝑣3 =0 𝑣4 =0
<∞
Ahora
= 𝐸 |𝜇𝑖1 + ∑ 𝑧𝑡1 (𝑖1 , 𝑙1 )| ∙ |𝜇𝑖2 + ∑ 𝑧𝑡2 (𝑖2 , 𝑙2 )| ∙ |𝜇𝑖3 + ∑ 𝑧𝑡3 (𝑖3 , 𝑙3 )| ∙ |𝜇𝑖4 + ∑ 𝑧𝑡4 (𝑖4 , 𝑙4 )|
𝑙1 =1 𝑙2 =1 𝑙3 =1 𝑙4 =1
𝑛 𝑛 𝑛
Pero esta es una suma finita que implica términos de la forma de [10.A.11] que se consideraron
finitos con términos que implican firmes a través de los terceros momentos de 𝑧 que también
deben ser finitos.
El mismo argumento que conduce a [7.2.14] puede utilizarse para establecer que
𝑇
𝑝
(1⁄𝑇) ∑ 𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚) → 𝐸{𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚)}
𝑡=1
[10.A.12]
Para ver que [10.A.12] implica ergodicidad para los segundos momentos de y, nota de 10.A.5] que
𝑇 𝑇 𝑛 𝑛
(1⁄𝑇) ∑ 𝑦𝑢 𝑦𝑡 𝑡−𝑠 = (1⁄𝑇) ∑ [𝜇𝑡 + ∑ 𝑧𝑙 (𝑖, 𝑙)] [𝜇𝑙 + ∑ 𝑧𝑡−𝑠 (𝑗, 𝑚)]
𝑡=1 𝑡=1 𝑙=1 𝑚=1
= 𝐸[𝑦𝑖𝑡 𝑦𝑖.𝑡−𝑠 ]
Como se afirma.
Así, () se convierte
Prueba de proposición 10.4. Que A sea (𝑚×𝑛), B sea (𝑛×𝑟), y C sea (𝑟×𝑞). (𝑛×1). Deje que el
vector 𝑏𝑖 y denote el i-ésimo columna de B, y denote 𝑐𝑖𝑗 la fila 𝑖, columna 𝑗 elemento de C.
entonces
c𝟏𝟏 ⋯ 𝒄𝟏𝒒
𝐀𝐁𝐂 = 𝐀[𝒃𝟏 𝒃𝟐 ⋯ 𝒃𝒓 ] [ ⋮ ⋱ ⋮ ]
𝒄𝒓𝟏 ⋯ 𝒄𝒓𝒒
= [{𝑨𝒃𝟏 𝑐11 + 𝑨𝒃𝟐 𝑐21 + ⋯ + 𝑨𝒃𝒓 𝑐𝑟1 }{𝑨𝒃𝟏 𝑐12 + 𝑨𝒃𝟐 𝑐22 + ⋯ + 𝑨𝒃𝒓 𝑐𝑟2 } ⋯ {𝑨𝒃𝟏 𝑐1𝑞
+ 𝑨𝒃𝟐 𝑐2𝑞 + ⋯ + 𝑨𝒃𝒓 𝑐𝑟𝑞 }]
= [{𝑐𝟏𝟏 𝑨𝒃𝟏 + 𝑐𝟐𝟏 𝑨𝒃𝟐 + ⋯ 𝑐𝒓𝟏 𝑨𝒃𝒓 }{𝑐𝟏𝟐 𝑨𝒃𝟏 + 𝑐𝟐𝟐 𝑨𝒃𝟐 + ⋯ 𝑐𝒓𝟐 𝑨𝒃𝒓 } ⋯ {𝑐𝟏𝒒 𝑨𝒃𝟏 + 𝑐𝟐𝒒 𝑨𝒃𝟐
+ ⋯ 𝑐𝒓𝒒 𝑨𝒃𝒒 }]
Capítulo 10 Ejercicios
10.1. Considere un proceso escalar AR (𝑝) (𝑛 = 1). Deducir de la ecuación [10.2.19] que el vector
(𝑝×1) que consiste en la varianza y las primeras (𝑝 − 1) autocovariancias
𝛾0
𝛾1
𝛾2
⋮
[𝛾𝑝−1 ]
Puede calcularse a partir de los primeros elementos p en la primera columna de la matriz(𝑝2 ×𝑝2 )
para 𝐹 la matriz 𝜎 2 [𝐼𝑝2 − (𝐹#𝐹)] definida en la ecuación [1.2.3] en el capítulo 1.10.2 sea dada por
𝑦𝑡 = (𝑋𝑡 𝑌𝑡) ´
𝑋𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1
𝑌𝑡 = ℎ1 𝑋𝑡−1 + 𝑢𝑡
Donde (𝜀𝑡 , 𝑢𝑡 )´ es el ruido del vector thite con la matriz de varianza-covarianza contemporánea
dada por
(a) calcule las matrices de autocovarianza {𝛤𝑘 }∞ 𝑘=−∞ para este proceso
(b) utilice la ecuación [10.4.3] para calcular el espectro de población. Encontrar el cospectrum
entre 𝑋 e 𝑌 y el espectro en cuadratura de 𝑋 a 𝑌
(c) verificar que su respuesta a la parte (b) podría ser calculada equivalentemente a partir de la
expresión [10.4.45]
(d) verificar integrando su respuesta a la parte (b) que [10.4.49] contiene; Eso es demostrar que
𝜋
𝑆𝑌𝑋 (𝜔) 𝑖𝜔𝑡 ℎ 𝑝𝑎𝑟𝑎 𝑘 = 1
(2𝜋) ∫ 𝑒 𝑑𝜔 = { 1
−𝜋 𝑆𝑋𝑋 (𝜔)
0 𝑝𝑎𝑟𝑎 𝑜𝑡𝑟𝑜 𝑒𝑛𝑡𝑒𝑟𝑜 𝑘
Capítulo 10 Referencias
Andrews. Donald W. K . 1991. "I-leteroskedasticity and Autocorrelation Consisten! C0- variance
Matrix Estim::nion.·· Econometrica 59:817-58.
--- and J. Christopher Monahan. 1992. "An Improved Heteroskedasticity and Auto- correlation
Consiste!lt Covariance Matrix Estimator." Econometrica 60:953-116.
Fuller. Wayne A. i976 . Jntroduction 10 Srarisrica! Time Series . New York: Wiley .
Hansen. Lars P. 1982. "Large Sample Properties of Generalized Method of Moments Es-
timators. ·· Economerrica 50: 1029-54.
Newey. Whitney K .. and Kenneth D. West. 1987. "A Simple Positive Semi-Definite. 1-let-
eroskedasticity and Autocorrelation Consisten! Covariance Matrix ... Economerrica 55: 703-8.
--- and ---. 1992. "Automatic Lag Selection in Covariance Matrix Estimation ... University of
Wisconsin. Madison, Mimeo.
White. Halbert. 1984 . Asymptotic Theory for Econometricians. Orlando, Fla. : Academic
Press
Autoregresiones Vectoriales
El capítulo anterior introdujo algunas herramientas básicas para describir procesos de series
temporales vectoriales. Este capítulo examina más a fondo las autorregresiones vectoriales, que son
particularmente convenientes para la estimación y la predicción. Su popularidad para analizar la
dinámica de los sistemas económicos se debe al trabajo influyente de Sims (1980). El capítulo
comienza con una discusión de estimación de máxima verosimilitud y pruebas de hipótesis. La
sección 11.2 examina un concepto de causalidad en sistemas bivariados propuesto por Granger
(1969). La sección 11.3 generaliza la discusión de la causalidad de Granger a sistemas multivariantes
y examina la estimación de autoregresiones vectoriales restringidas. Las secciones 11.4 y 11.5
introducen funciones de impulso-respuesta y descomposiciones de varianza, que se utilizan para
resumir las relaciones dinámicas entre las variables en una autorregresión vectorial. Sección 11.6
revisa cómo estos resúmenes pueden ser utilizados para evaluar hipótesis estructurales. La Sección
11.7 desarrolla fórmulas necesarias para calcular errores estándar para las funciones de respuesta al
impulso.
Supongamos que hemos observado cada una de estas 𝑛 variables para (𝑇 + 𝑝). Como en la
autorregresión escalar, el enfoque más sencillo es condicionar las primeras observaciones
(denotadas 𝑦(− 𝜌 + 1,) , 𝑦(− 𝜌 + 2,) ,…,𝑦0 .) ya la estimación de base en la última 𝑇 observaciones
(denotadas 𝑦1 , 𝑦2 ,…, 𝑦𝑇 ). El objetivo entonces es formar la posibilidad de probabilidad
Será conveniente utilizar una expresión más compacta para la media condicional [11.1.3]. Sea 𝑥,
denote un vector que contiene un término constante y 𝑝 regresiones de cada uno de los elementos
de 𝑦:
1
𝑦𝑡−1
𝑥𝑙 ≡ 𝑦 𝑡−2 [11.1.5]
. ..
[ 𝑦𝑡−𝜌 ]
Así, 𝑥, es un vector [(𝑛𝑝 + 1) 𝑥 1]. Sea 𝜋′ la siguiente matriz [𝑛𝑥 (𝑛𝑝 + 1)]:
Π ′ ≡ [𝑐 Φ1 Φ2 . . . Φ𝜌 ] [11.1.6]
Entonces la media condicional [11.1.3] es igual a 𝜋′𝑥. La j-ésima fila de 𝜋′ contiene los parámetros
de la j-ésima ecuación en el VAR. Usando esta notación, [11.1.4] se puede escribir de forma más
compacta como
′
𝑦𝑡 │𝑦𝑡−1, 𝑦𝑡−2,. . ., 𝑦−𝜌+1 ~𝑁(Π 𝑥𝑙 , Ω) [11.1.7]
Π ′ 𝑥𝑙 )]
[11.1.8]
∧ 𝑇 𝑇 −1
∏ ′ = [∑ 𝑦𝑡 𝑥𝑡 ′] [∑ 𝑥𝑡 𝑥𝑡 ′]
𝑛𝑥(𝑛𝑝+1) 𝑡=1 𝑡=1
[11.1.11]
Que puede ser visto como el análogo muestral de la proyección lineal de población de 𝑦, sobre una
constante y 𝑥, (ecuación [4.1.23]). La j-ésima fila de Π ′ es
∧ 𝑇 𝑇 −1
∏ ′ = [∑ 𝑦𝑗𝑡 𝑥𝑡 ′] [∑ 𝑥𝑡 𝑥𝑡 ′]
[1𝑥(𝑛𝑝+1)] 𝑗 𝑡=1 𝑡=1
[11.1.12]
Que es sólo el coeficiente estimado vector de una regresión OLS de 𝑦𝑗 en 𝑥 ,. Por lo tanto, las
estimaciones de máxima verosimilitud de los coeficientes de la ecuación de un VAR se encuentran
por una regresión OLS de 𝑦𝑗 , en un término constante y 𝑝 regresiones de todas las variables en el
sistema.
Para verificar [11.1.11], escriba la suma que aparece en el último término en [11.1.10] como
𝑇
𝑇
̂′ 𝑥𝑙 + Π
= ∑[(𝑦𝑡 − Π ̂ ′ 𝑥𝑙 − Π ′ 𝑥𝑙 )′Ω−1 (𝑦𝑡 − Π
̂ ′ 𝑥𝑙 +Π
̂ ′ 𝑥𝑙 Π′ 𝑥𝑙 )]
𝑡=1
[11.1.10]
Donde el j-ésimo elemento del vector (𝑛 𝑥 1)𝜀̂ , es la muestra residual para la observación 𝑡de una
regresión OLS de 𝑦𝑗𝑡 , en 𝑥:
̂ ′ 𝑥𝑙
𝜀̂𝑡 ≡ 𝑦𝑡 − Π [11.1.14]
𝑇 𝑇
′
= ∑ 𝜀̂𝑡 Ω 𝜀̂𝑡 + 2 ∑ 𝜀̂𝑡 ′ Ω−1 (Π
′ −1 ̂ − Π) 𝑥𝑙
𝑡=1 𝑡=1
𝑇
′
̂ − Π)Ω−1 (Π
+ ∑ 𝑥𝑙′ (Π ̂ − Π) 𝑥𝑙
𝑡=1
[11.1.15]
𝑇
̂ − Π)′ 𝑥𝑙 𝜀̂𝑡 ′ ]
= 𝑡𝑟𝑎𝑧𝑎 [∑ Ω−1 (Π
𝑡=1
𝑇
̂ − Π)′ ∑ 𝑥𝑙 𝜀̂𝑡 ′ ]
= 𝑡𝑟𝑎𝑧𝑎 [Ω (Π −1
𝑡=1
[11.1.16]
Pero los residuos de la muestra de una regresión OLS son por construcción ortogénica a las
variables explicativas, lo que significa que ∑𝑇𝑡=1 𝑥𝑙 𝜀̂𝑡 = 0 para todo j y así ∑𝑇𝑡=1 𝑥𝑙 𝜀̂𝑡 ′ = 0. Por lo
tanto, [11.1 . 16] es idénticamente cero, y [11.1.15] se simplifica a
𝑇 𝑇
′ −1 ̂ − Π)′ 𝑥𝑙
̂ − Π)Ω−1 (Π
= ∑ 𝜀̂𝑡 Ω 𝜀̂𝑡 + ∑ 𝑥𝑙′ (Π
𝑡=1 𝑡=1
[11.1.17]
Puesto que Ω es una matriz definida positiva. Ω−1 es también. Por tanto, definiendo el vector
(𝑛 ∗ 1) vector 𝑥 ∗ es
̂ − Π)′ 𝑥𝑙
𝑥𝑙 ∗ ≡ (Π
𝑛 𝑛
′
𝑥 𝐴𝑥 = ∑ ∑ 𝑥𝑙 𝑎𝑖𝑗 𝑥𝑗
𝑖=1 𝑗=1
[11.1.18]
𝜕𝑥 ′ 𝐴𝑥
𝜕𝑎𝑖𝑗
= 𝑥𝑙 𝑥𝑗 [11.1.19]
Recogiendo estos 𝑛2 derivados diferentes en una matriz (n x n), la ecuación [11.1.19] se puede
expresar convenientemente en forma de matriz como
𝜕𝑥′𝐴𝑥
= 𝑥𝑥 ′ [11.1.20]
𝜕𝐴
El segundo resultado se refiere a la derivada del determinante de una matriz. Sea A una matriz
asimétrica no restringida (n x n) con determinante positivo. Entonces
𝜕 log │𝐴│
𝜕𝐴
= 𝑎𝑖𝑗 [11.1.21]
𝜕 log │𝐴│
𝜕𝐴
= (𝐴′ )−1 [11.1.22]
[11.1.23]
𝜕 log │𝐴│
= (1⁄│𝐴│). (−1)𝑖+𝑗 │𝐴𝑖𝑗 │
𝜕𝑎𝑖𝑗
Que se reconocerá de la ecuación [A.4.12] como la fila j columna i element de 𝐴−1 tal como se
reivindica en la ecuación [11.1.22].
Nuestro objetivo es encontrar una matriz positiva definida simétrica 𝛀 para la cual sea lo más
grande posible. Es instructivo considerar primero la maximización [11.1.25] eligiendo 𝛀 como
cualquier matriz sin restricciones (n x n). Para este propósito, podemos diferenciar [11.1.25] con
respecto a los elementos de 𝜴−𝟏 usando las fórmulas [11.1.20] y [11.1.22]:
𝑇
̂)
𝜕ℒ(Ω, Π 𝜕 log │Ω−1 │ 𝜕 𝜀̂𝑡 ′ Ω−1 𝜀̂𝑡
= (𝑇⁄2) ⁄
− (1 2) ∑
𝜕Ω−1 𝜕Ω−1 𝜕Ω−1
𝑡=1
[11.1.27]
La matriz Ω que satisface [11.1.27] maximiza la probabilidad entre la clase de todas las matrices
no restringidas (n x n). Tenga en cuenta, sin embargo, que el valor óptimo no restringido para Ω
especificado por [11.1.27] resulta ser simétrico y positivo definido. El MLE., O el valor de Ω
Que maximiza la probabilidad entre la clase de Matrices definidas positivas simétricas, también es
dada por [13.1.27]:
𝑇
̂ = (1⁄𝑇) ∑ 𝜀̂𝑡 𝜀̂𝑡 ′
Ω
𝑡=1
[11.1.28]
̂ está dada por
La fila i, columna j elemento de 𝜴
[11.1.29]
Que es sólo el promedio cuadrado residual de una regresión de la ith variable en el VAR en un
plazo constante y p lags de todas las variables. La fila I, columna j elemento de 𝛀 es
𝑇
[11.1.30]
Que es el producto medio del residuo MCO para la variable i y el residuo MCO para la variable j.
̂, Π
ℒ(Ω ̂ ) = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω
̂ −1 │
[11.1.31]
𝑇
−(1⁄2) ∑ 𝜀̂𝑡 ′ Ω
̂ −1 𝜀̂𝑡
𝑡=1
𝑇
̂ −1 𝜀̂𝑡 ′ 𝜀̂𝑡 ]
= (1⁄2)𝑡𝑟𝑎𝑧𝑎 [∑ Ω
𝑡=1
̂ −1 (𝑇Ω
= (1⁄2)𝑡𝑟𝑎𝑧𝑎 [Ω ̂ )]
= (1⁄2)𝑡𝑟𝑎𝑧𝑎 [𝑇. 𝐼𝑛 ]
= 𝑇 𝑛 ⁄2
Sustituir esto en [11.1.31] produce
̂, Π
ℒ(Ω ̂ ) = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω
̂ −1 │ − (𝑇 𝑛⁄2)
[11.1.32]
Esto hace que las pruebas de razón de verosimilitud sean particularmente sencillas de realizar.
Supongamos que queremos probar la hipótesis nula de que un conjunto de variables se generó a
partir de un VAR Gaussiano con pn rezagada contra la especificación alternativa de 𝜌1 > 𝜌0
Retrasos. Para estimar el sistema bajo la hipótesis nula, realizamos un conjunto de n regresiones
OLS de 'cada variable m del sistema en un término constante y en 𝜌0 lags de todas las variables en
̂ 0 −1 │ − (𝑇 𝑛⁄2)
ℒ0∗ = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω
De forma similar, el sistema se estima bajo la hipótesis alternativa por regresiones OLS que
incluyen p, rezagos de todas las variables. La probabilidad de registro maximizada bajo la alternativa
es
−1
̂1
ℒ1∗ = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω │ − (𝑇 𝑛⁄2)
−1 −1
̂1
2(ℒ1∗ − ℒ0∗ ) = 2 {(𝑇⁄2) log │Ω ̂0
│ − (𝑇⁄2) log │Ω │}
̂ 1 │) − 𝑇 log(1⁄│Ω
= 𝑇 log(1⁄│Ω ̂ 0 │) [11.1.33]
̂ 1 │) − 𝑇 log(│Ω
= −𝑇 log(│Ω ̂ 0 │)
̂ 0 │ − log(│Ω
= 𝑇{log │Ω ̂ 1 │)}
Bajo la hipótesis nula, esto asintóticamente tiene una distribución 𝑥 2 con grados de libertad igual al
número de restricciones impuestas bajo Ha. Cada ecuación en la especificación restringida por
𝐻0 tiene (𝑝1 − 𝑝0 )menos retrasos en cada una de n variables en comparación con 𝐻1 , 𝐻0 impone
n(𝑝1 − 𝑝0 ) restricciones en cada ecuación. Puesto que hay n tales ecuaciones. 𝐻0 impone 𝑛2
(𝑝1 − 𝑝0 )restricciones. Así, la magnitud calculada en [11.1.33] es asintóticamente 𝑥 2 con 𝑛2
(𝑝1 − 𝑝0 ) grados de libertad.
Por ejemplo, supongamos que una VAR bivariada se estima con tres y cuatro
Retrasos (n=2, 𝑝0 = 3, 𝑝1 = 4). Digamos que la muestra original contiene 50 observaciones sobre
cada variable (denotadas𝑦−3 , 𝑦−2,. . . .,𝑦46 ) y que las observaciones
46 se utilizaron para estimar las especificaciones de tres y cuatro Que T= 46. Sea 𝜀̂𝑖𝑡 (𝑝0 ) el residuo
muestral para la observación t de una OLS Regresión de 𝑦𝑖𝑡 en una constante, tres retrasos de 𝑦𝑖𝑡 y
tres rezagos de 𝑦2𝑡 Suponer que (1⁄𝑇) ∑𝑇𝑡=1[𝜀̂𝑙𝑡 (𝑝0 )]2 = 2.0 (1⁄𝑇) ∑𝑇𝑡=1[𝜀̂2𝑡 (𝑝0 )]2 = 2.5
(1⁄𝑇) ∑𝑇𝑡=1 𝜀̂𝑙𝑡 (𝑝0 )𝜀̂2𝑡 (𝑝0 ) = 1.0
̂ 0 = [2.0 1.0]
Ω
1.0 2.5
̂ 0 │ = log 4 = 1.386 .Supongamos que cuando se agrega un cuarto rezago a cada
Y log │Ω
regresión, la matriz de covarianza residual se reduce a
̂ 1 = [1.8 0.9]
Ω
0.9 2.2
̂ 1 │ = 1.147.Luego
para cual log │Ω
Los grados de libertad para esta prueba son 22 (4 − 3) = 4. Dado que 10,99> 9,49 (el valor
crítico del 5% para una variable 𝑥 2 (4), la hipótesis nula es rechazada. La dinámica no es
Sims (1980, p.17) sugirió una modificación de la prueba de razón de verosimilitud para tener en
cuenta el sesgo de la muestra pequeña. Recomendó reemplazar [11.1.33]
̂ 0 │ − log(│Ω
(𝑇 − 𝐾){log │Ω ̂ 1 │)} [11.1.34]
Donde k = 1 + npx es el número de parámetros estimados por ecuación. La prueba ajustada tiene
la misma distribución asintótica que [11.1.33], pero es menos probable que rechace la hipótesis nula
en pequeñas muestras. Para el presente ejemplo, esta estadística de prueba sería
(46 - 9)(1.386 - 1.147) = 8.84
̂
Distribución asintótica de 𝛱
Las estimaciones de máxima verosimilitud Π ̂ yΩ ̂ darán estimaciones consistentes de los
parámetros de la población incluso si las innovaciones verdaderas no son gaussianas. Los errores
̂ pueden basarse en las fórmulas OLS habituales, como demuestra la siguiente
estándar para Π
proposición.
Donde εt , es independiente e idénticamente distribuida con la media 0, la varianza Ω y E (εit εjt εlt εmt ) < ∞
para todo i, j, l y m y donde las raíces de
Sea 𝜋
̂𝑡 = 𝑣𝑒𝑐𝑡(𝛱 ̂𝑡 ) el vector (nk x 1) de los coeficientes resultantes de las regresiones OLS de cada uno de los
elementos de y, sobre x, para una muestra de tamaño T:
𝜋̂1.𝑇
𝜋̂2.𝑇
..
𝜋̂ 𝑇 =
.
.
.
[𝜋̂𝑛.𝑇 ]
Donde
𝑇 −1 𝑇
𝜋̂𝑖.𝑇= [∑ 𝑥𝑡 𝑥𝑡 ′] [∑ 𝑥𝑡 ]
𝑡=1 𝑡=1
Y sea 𝜋 denota el vector (nk X 1) de coeficientes vecinales de población. Por último, deje
Donde
𝑃
(a) (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡 ′ → 𝑄 DONDE 𝑄 = 𝐸(𝑥𝑡 𝑥𝑡′ )
𝑃
(b) 𝜋̂ 𝑇 → 𝜋
𝑃
̂𝑡 → 𝛺
(c) 𝛺
(d) √𝑇(𝜋̂𝑡 − 𝜋)
𝐿
→ 𝑁(0, (𝛺 ⊗ 𝑄 −1 )) 𝐷𝑂𝑁𝐷𝐸 ⊗ 𝐷𝐸𝑁𝑂𝑇𝐴 𝐸𝐿 𝑃𝑅𝑂𝐷𝑈𝐶𝑇𝑂 𝐾𝑅𝑂𝑁𝐸𝐶𝐾𝐸𝑅
Una prueba de esta proposición se proporciona en el Apéndice 11.A de este capítulo. Si
sólo estamos interesados 𝜋̂𝑖.𝑇 en, los coeficientes de la regresión ITH en el VAR, el resultado (d)
implica que
𝐿
√𝑇(𝜋̂𝑖.𝑇 ~𝜋𝐼 ) → 𝑁(0, 𝜎𝐼2 𝑄 −1 ) [11.1.36]
Donde 𝜎2𝐼 = 𝐸(𝜀2𝑖𝑗 ) Es la varianza de la innovación de la ecuación ith en el VAR. Pero 𝜎2𝐼 es
estimado consistentemente por 𝜎̂ 2𝐼 = (1⁄𝑇) ∑𝑇𝑡=1 𝜀̂2𝑖𝑡 El promedio del cuadrado residual de la
estimación OLS de esta ecuación. Similarmente, 𝑄 −1 es estimado consistentemente por
[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥′𝑡 ]−1 Por lo tanto, [11.1.36] nos invita a tratar 𝜋̂𝑖 approximadamente como
𝑇 −1
[11.1.37]
Pero esta es la fórmula estándar de OLS para las variaciones de coeficientes con 𝑠 2 𝑖 =
[1⁄(𝑇 − 𝐾)] ∑𝑇𝑡=1 𝜀̂ 2
𝑖𝑡 en la fórmula-estándar-reemplazada por la estimación de máxima
verosimilitud & j en [11.1.37]. Claramente, 𝑠 2 𝑖 y 𝜎 2 𝑖 son asintóticamente equivalentes, aunque
siguiendo el argumento de Sims en [11.1.34], los errores estándar más grandes (y por lo tanto más
conservadores) resultantes de las fórmulas OLS podrían ser preferidos. Por lo tanto. La Propuesta
11.1 establece que las estadísticas OLS t y F estándares aplicadas a los coeficientes de cualquier
ecuación única en la VAR son asintóticamente válidas y pueden evaluarse de la manera habitual.
Una hipótesis más general de la forma 𝑅𝜋 = r que implica coeficientes a través de diferentes
ecuaciones de la VAR puede ser probado usando una generalización de la forma Wald de la prueba
OLS 𝑥 2 (expresión [8.2.23]). El resultado (d) de la Proposición 11.1 establece que
𝐿
√𝑇(𝑅𝜋̂ 𝑇 − 𝑟) → 𝑁(0, 𝑅(Ω ⊗ 𝑄 −1 )𝑅′)
A la luz de los resultados (a) y (c), la distribución asintótica podría describirse equivalentemente
como
Donde Ω ̂ 𝑇 = (1⁄𝑇) ∑𝑇𝑡=1 𝜀̂𝑡 𝜀̂𝑡′ 𝑦 𝑄𝑇 = ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ Por lo tanto la siguiente estadística tiene una
distribucion 𝑥 2 asíntota
−1
̂𝑇 ⊗ 𝑄𝑇 −1 )𝑅′ ) (𝑅𝜋̂ 𝑇 − 𝑟)
𝑋 2 (𝑚) = 𝑇(𝑅𝜋̂ 𝑇 − 𝑟)′ (𝑅(Ω [11.1.38]
−1
̂𝑇 ⊗ (𝑇𝑄𝑇 )−1 )𝑅′ ) (𝑅𝜋̂ 𝑇 − 𝑟)
= (𝑅𝜋̂ 𝑇 − 𝑟)′ (𝑅(Ω
−1 −1
𝑇
̂𝑇 ⊗ (∑ 𝑥𝑡 𝑥𝑡 ′) ] 𝑅′}
= (𝑅𝜋̂ 𝑇 − 𝑟)′ {𝑅 [Ω (𝑅𝜋̂ 𝑇 − 𝑟)
𝑡=1
Los grados de libertad para esta estadística están dados por el número de filas de R. o el número de
restricciones probadas. Por ejemplo, supongamos que queremos probar la hipótesis de que el
término constante en la primera ecuación en el VAR (𝑐1 ) es igual al término constante en la
segunda ecuación (𝑐2 ). Entonces R es un vector (1 x nk) con unidad en la primera posición. - 1 en
la (k + 1) posición, y los ceros en otra parte:
𝑅 = [1 0 0 . . . 0 − 1 0 0 . . . 0]
Para aplicar el resultado [11.1.38], es conveniente escribir R en la forma de producto de Kronecker
como
𝑅 = 𝑅𝑛 ⊗ 𝑅𝑘 [11.1.39]
Donde𝑅𝑛 selecciona las ecuaciones que están involucradas y𝑅𝑘 Selecciona los coeficientes. Para
este ejemplo,
𝑅𝑛 (1𝑋𝑛) = [1 − 1 0 0 0. . . 0]
𝑅𝑘 (1𝑋𝑘) = [1 0 0 0 0. . . 0]
̂𝑇 ⊗ (∑ 𝑥𝑡 𝑥𝑡 ′) ] 𝑅 ′ = (𝑅𝑛 ⊗ 𝑅𝑘 ) [Ω
𝑅 [Ω ̂𝑇 ⊗ (∑ 𝑥𝑡 𝑥𝑡 ′) ] (𝑅𝑛 ′ ⊗ 𝑅𝑘 ′ )
𝑡=1 𝑡=1
𝑇 −1
̂ 𝑅𝑛 𝑡 ) ⊗ [𝑅𝑘 ](∑ 𝑥𝑡 𝑥𝑡 ′)
= (𝑅𝑛 Ω 𝑅𝑘𝑡
𝑡=1
= (𝜎̂𝑖2 − 2𝜎̂𝑖2
2
+ 𝜎̂22 ) ⊗ 𝜉11
−1
Donde 𝜎̂12 es la covarianza entre 𝜀̂1𝑡 y 𝜀̂2𝑡 y 𝜉11 es el elemento (1, 1) de (∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡 ′) Puesto
que𝜉11 es un escalar, el producto Kronecker anterior es una multiplicación simple. Estadística de
prueba [11.1.38] es entonces
(𝑐̂1 − 𝑐̂2 )2
𝑋 2 (1) =
(𝜎̂𝑖2 − 2𝜎̂12 + 𝜎̂22 )𝜉11
𝜎11
𝜎21
𝜎31
𝜎11 𝜎12 𝜎13 𝜎12
𝜎
𝑣𝑒𝑐 [ 21 𝜎22 𝜎23 ] = 𝜎22 [11.1.40]
𝜎31 𝜎32 𝜎33 𝜎32
𝜎13
𝜎23
[𝜎33 ]
Un operador "vech" analógico transforma una matriz (n X n) en un vector ([n(n+1) / 2] X 1)
apilando verticalmente esos elementos sobre o debajo del principal diagonal. Por ejemplo:
𝜎11
𝜎21
𝜎31
𝜎11 𝜎12 𝜎13 𝜎12
𝜎
𝑣𝑒𝑐ℎ [ 21 𝜎22 𝜎23 ] = 𝜎22 [11.1.41]
𝜎31 𝜎32 𝜎33 𝜎32
𝜎13
𝜎23
[𝜎33 ]
Proposición 11.2: Sea
│𝐼𝑛 − 𝛷1 𝑧 − 𝛷2 𝑧 2 − . . . −𝛷𝜌 𝑧 𝑝 │ = 0
Fuera del círculo de la unidad. Sea , 𝜋̂ 𝑇 , 𝛺̂𝑇 , y Q como se define en la Proposición 11.1 Entonces
√𝑇(𝜋̂ 𝑇 − 𝜋) 𝐿 0 (𝛺 ⊗ 𝑄 −1 ) 0
[ ] → 𝑁 ([ ] , [ ])
̂𝑇 ) − 𝑣𝑒𝑐ℎ(𝛺)]
√𝑇[𝑣𝑒𝑐ℎ(𝛺 0 0 𝛴22
Sea 𝜎𝑖𝑗 representa el elemento de la fila i, columna j de Ω por ejemplo, 𝜎11 , es la varianza
de 𝜀𝑖𝑡 .Luego el elemento de Σ22 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑒 𝑎 𝑙𝑎 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝜎̂𝑖𝑗 y 𝜎̂𝑙𝑚 por ejemplo
para n=2 Proposición 11.2 implica que :
2 2
𝜎̂11.𝑇−𝜎11 0 2𝜎11 2𝜎11 𝜎12 2𝜎12
𝐿
2
√𝑇 [𝜎̂12.𝑇 − 𝜎12 ] → 𝑁 ([0] , [2𝜎11 𝜎12 𝜎11 𝜎12 + 𝜎12 2𝜎12 𝜎22 ]) [11.1.42]
𝜎̂22𝑇 − 𝜎22 0 2
2𝜎12 2𝜎12 𝜎22 2
2𝜎22
Una prueba de Wald de la hipótesis nula de que 𝜀1 y 𝜀2 , tienen la misma varianza es dada por
Donde 𝜎̂11 denota el cuadrado de la varianza estimada de la innovación para la primera ecuación.
La matriz ∑22 en la Proposición 11.2 puede expresarse de forma más compacta usando la matriz de
duplicación. Obsérvese que, puesto que Ω es simétrica, los 𝑛2 elementos de vec (H) en [11.1.40]
son duplicaciones simples de los 𝑛(𝑛 + 1)/2 elementos de vech (Ω) en [11.1.41]. Existe una matriz
𝐷Ω única que transforma vech (H) en vec (Ω), es decir, una matriz única que satisface
1 0 0 𝜎 𝜎11
11
0 1 0 𝜎 𝜎21
[ ] [ 21 ] = [𝜎 ] [11.1.44]
0 1 0 𝜎 12
31
0 0 1 𝜎22
Obsérvese que 𝐷𝑛+ 𝐷n = 𝐼𝑛(𝑛+1)/2. Así, premultiplicar ambos lados de [11.1.43] por 𝐷𝑛+ revela que
𝐷𝑛+ es una matriz que transforma vec (Ω) en vech (Ω) para Ω simétrico;
𝜎11
𝜎11 1 0 0 0
1 1 𝜎21
[𝜎21 ] = [0 2 2
0] [𝜎 ] [11.1.47]
12
𝜎31 0 0 0 1 𝜎22
Resulta que la matriz ∑22 descrita en la Proposición 11.2 puede escribirse como
1 0 0 0
1 1
2𝐷2+ (Ω ⊗ Ω)(𝐷2+ )′ = 2 [0 0]
2 2
0 0 0 1
La razón de Granger para proponer esta definición fue que, si un evento 𝑌 es la causa de otro
evento 𝑋, entonces el evento 𝑌 debe preceder al evento 𝑋. Aunque uno pueda estar de acuerdo con
esta posición filosóficamente, puede haber serios obstáculos para la implementación práctica de
esta idea utilizando datos agregados de series temporales, como se verá en los ejemplos
considerados más adelante en esta sección. Primero, sin embargo, exploramos las implicaciones
mecánicas de la causalidad de Granger para la representación en serie temporal de un sistema
bivariado.
Desde la primera fila de este sistema, el pronóstico óptimo de un solo período de avance de 𝑥
depende sólo de sus propios valores rezagados de 𝑦:
𝐸̂ (𝑥𝑡+𝑠 |𝑥𝑡 , 𝑥𝑡−1, . . . , 𝑦𝑡 , 𝑦𝑡−1 ,. . . ) = 𝑐 + ϕ11 (1) 𝑥𝑡 + ϕ11 (2) 𝑥𝑡−1 +. . . +ϕ11 (𝜌) [11.2.3]
𝑥𝑡+2 = 𝑐1 + ϕ11 (1) 𝑥𝑡+1 + ϕ11 (2) 𝑥𝑡 +. . . +ϕ11 (𝜌) 𝑥𝑡−𝜌+2 + 𝜀𝑖𝑡+2
Pronóstico de esta magnitud sobre la base de (𝑥1, 𝑥𝑡−1 , …, 𝑦1, 𝑦𝑡−1 , … ). Depende también solo
en(𝑥1, 𝑥𝑡−1 , … 𝑥𝑡−𝑝−1 ) - Por inducción, lo mismo es cierto para un pronóstico en el período 𝑠. Por
lo tanto, para el VAR bivariante, y no Granger-causa 𝑥 si es triangular inferior para todos 𝑗, como
se reivindica.
Con Ψ0 la matriz de identidad y Ψ𝑠 = 0 para 𝑠 < 0. Esta expresión implica que si Φ𝑗 ; es triangular
inferior para todos j, entonces las matrices Ψ𝑠 ,para la representación fun- fundamental serán
triangulares inferiores para todos los 𝑠. Así, si y falla en Granger-causa 𝑥, entonces la
representación MA (∞) puede escribirse
𝑥𝑡 𝜇1 𝜓 (𝐿) 0 𝜀1𝑡
[𝑦 ] = [𝜇 ] + [ 11 ][ ] [11.2.4]
𝑡 2 𝜓21 (𝐿) 𝜓22 (𝐿) 𝜀2𝑡
Donde
Proposición 11.3: Considere una proyección lineal de 𝑦, sobre pasado, presente y futuro 𝑥′𝑠
∞ ∞
𝑦𝑡 = 𝑐 + ∑ 𝑏𝑗 𝑥𝑡−𝑗 + ∑ 𝑑𝑗 𝑥𝑡+𝑗 + 𝜂𝑡
𝑗=0 𝑗=1
[11.2.5]
Donde 𝑏𝑗 𝑌 𝑑𝑗 se definen como coeficientes de proyección poblacional, es decir, los valores para
los cuales
𝐻0 : 𝛽1 = 𝛽2 = . . . = 𝛽𝜌 = 0 [11.2.7]
Recordando la Proposición 8.2, una forma de implementar esta prueba es calcular la suma de los
residuos cuadrados de [11.2.6]
𝑇
𝑅𝑆𝑆1 = ∑ 𝑢̂𝑡2
𝑡=1
Y comparar esto con la suma de los residuos cuadrados de una autorregresión univariada para 𝑥𝑡
𝑇
𝑅𝑆𝑆0 = ∑ 𝑒̂𝑡2
𝑡=1
Donde
Es mayor que el valor crítico del 5% para una distribución de 𝐹(𝑝, (𝑇 − 2𝑝 − 1))entonces
rechazamos la hipótesis nula de que y no hace que Granger cause x \ que es, si 5, es
suficientemente grande, concluimos que Y hace Granger-causa x.
La estadística de prueba [11.2.9] tendría una distribución exacta de F para una regresión con
regresores fijos y perturbaciones gaussianas. Con variables dependientes rezagadas como en las
regresiones de causalidad de Granger, sin embargo, la prueba es válida sólo asintóticamente. Una
prueba asintóticamente equivalente es dada por
𝑇(𝑅𝑆𝑆0 −𝑅𝑆𝑆1 )
𝑆2 ≡ 𝑅𝑆𝑆1
[11.2.10]
Rechazaríamos la hipótesis nula de que y no causa Granger x si 𝑆2 es mayor que los valores críticos
de 5% para una variable 𝑥 2 {𝑝).
Un enfoque alternativo es basar la prueba en la forma Sims [11.2.5] en lugar de la forma Granger
[11.2.2]. Un problema con la forma Sims es que el término de error 77, en general, está
[11.2.11]
El término de error en [11.2.11] es ruido blanco y no correlacionado con ninguna de las variables
explicativas. Además, 𝑑 𝑗∗ = 0 para todo j si y sólo si 𝑑𝑗 = 0 para todo j;. Así, al truncar las sumas
infinitas en [11.2.11] en algún valor finito, podemos probar la hipótesis nula de que y no hace
Granger-causa x con una prueba F de 𝑑 1∗ = 𝑑 ∗2 = . . . = 𝑑 ∗𝑝 = 0
Se han propuesto una variedad de otras pruebas de causalidad de Granger; Véase Pierce y Haugh
(1977) y Geweke, Meese y Dent (1983) para encuestas selectivas. Bouissou; Laffont, y ^ Vuong
(1986) discutieron las pruebas usando datos de panel discretos. Las simulaciones de Monte Carlo de
Geweke, Meese y Dent sugieren que la prueba más simple y más sencilla, a saber, la basada en
[11.2.10], puede ser la mejor.
Los resultados de cualquier prueba empírica para la causalidad de Granger pueden ser
sorprendentemente Sensibles a la elección de la longitud del retraso (p) oa los métodos utilizados
para no estacionaria de la serie. Para demostraciones de la relevancia práctica del sucr, Véase Feige y
Pearce (1979), Christiano y Ljungqvist y Stocl Y Watson (1989).
El primer ejemplo utiliza una modificación del modelo de precios de las acciones descrito en el
Capítulo 2. Si un inversor compra una acción de una acción por el precio P, en la fecha t, entonces
en t + 1 el inversor recibirá 𝐷𝑡+1 en dividendos y será capaz Para vender las acciones de 𝑃𝑡+1 La
tasa de rendimiento ex post de la acción (denotada 𝑟𝑡+1 ) se define por
Un modelo simple de los precios de las acciones sostiene que la tasa de rendimiento esperada de la
acción es una constante r en todas las fechas
Así, según la teoría, el precio de las acciones incorpora la mejor previsión del mercado sobre el
valor presente de los dividendos futuros. Si este pronóstico se basa en más información que los
dividendos pasados, los precios de las acciones causarán dividendos a Granger, ya que los
inversionistas tratarán de anticipar los movimientos de dividendos. Para una simple ilustración de
este punto, supongamos que
𝐷𝑡 = 𝑑 + 𝑢𝑖 + 𝛿𝑢𝑡−1 + 𝑣𝑖 [11.2.15]
Donde u, yv, son independientes Gaussian ruido blanco serie y d es el dividendo medio.
Supongamos que los inversores a tiempo t conocer los valores de {𝑢𝑡 , 𝑢𝑡−1 ,. . . } Y
{𝑣𝑡 , 𝑣𝑡−1 ,. . .}. La predicción de 𝐷𝑙+𝑗 basada en esta información es dada por
𝑑 + 𝛿𝑢𝑡 𝑝𝑎𝑟𝑎 𝑗 = 1
𝐸𝑡 (𝐷𝑡+𝑗 ) = {
𝑑 𝑝𝑎𝑟𝑎 𝑗 = 2,3,. . .
[11.2.16]
Por lo tanto, para este ejemplo, el precio de las acciones es un ruido blanco y no podría ser un
pronóstico sobre la base de los precios de las acciones o dividendos retrasados.
Por otra parte, tenga en cuenta de [11.2.17] que el valor de puede ser descubierto a partir del precio
de las acciones retrasadas
Recordemos de la sección 4.7 que contiene información adicional acerca de 𝐷𝑡 más allá de lo
contenido en {𝐷𝑡 , 𝐷𝑡−1 , 𝐷𝑡−2 , … . } Así, los precios de las acciones Granger-causa
Dividendos, aunque los dividendos no a Granger-causar precios de las acciones. El VAR bivariado
presenta la forma
𝑃𝑡 𝑑 ⁄𝑟 0 0 𝑃𝑡−1 𝛿𝜇 ⁄(1 + 𝑟)
[ ]=[ ]+[ ][ ]+[ 𝑡 ]
𝐷𝑡 − 𝑑 ⁄𝑟 1+𝑟 0 𝐷𝑡−1 𝜇𝑡 + 𝑣𝑡
Por lo tanto, en este modelo, la causalidad de Granger corre en la dirección opuesta a la verdadera
causalidad. Los dividendos fallan en los precios de "Granger-cause", a pesar de que la percepción de
los inversionistas sobre los dividendos es el único determinante de los precios de las acciones. Por
otro lado, "los precios hacen" Granger-causa "los dividendos, a pesar de que la evaluación del
mercado de la acción en realidad no tiene ningún efecto en el proceso de dividendo.
En general, las series de tiempo que reflejan un comportamiento orientado hacia el futuro,
como los precios de las acciones y las tasas de interés, a menudo son excelentes predictores de
muchas series económicas clave. Esto claramente no significa que estas series hacen que el PNB o
la inflación se muevan hacia arriba o hacia abajo. En su lugar, los valores de estas series reflejan la
mejor información del mercado en cuanto a dónde podría dirigirse el PNB o la inflación. Las
Sin embargo, existen circunstancias en las que la causalidad de Granger puede ofrecer evidencia útil
sobre la dirección de la causalidad verdadera. Como ejemplo de este tema, considere tratar de medir
los efectos de los aumentos de los precios del petróleo en la economía.
Una posibilidad es que la correlación sea una casualidad -por casualidad- que los choques de
petróleo y las recesiones aparecieron en momentos similares, a pesar de que los procesos reales que
generaron las dos series no están relacionados. Podemos investigar esta posibilidad probando la
hipótesis nula de que los precios del petróleo no causan el PNB de Granger. Esta hipótesis es
rechazada por los datos-los precios del petróleo ayudan a predecir el valor del PNB, y su
contribución a la predicción es estadísticamente significativa. Esto argumenta en contra de ver la
correlación como simplemente una coincidencia.
Para colocar una interpretación causal en esta correlación, se debe establecer que los aumentos de
los precios del petróleo no reflejaban alguna otra influencia macroeconómica que fue la verdadera
causa de las recesiones. Los principales aumentos de los precios del petróleo se han asociado con
claros acontecimientos históricos como la crisis de Suez de 1956-57, la guerra árabe-israelí de 1973-
74, la revolución iraní de 1978-79, el inicio de la guerra Irán-Irak en 1980 , Y la invasión de Kuwait
por el Iraq en 1990. Se podría considerar que estos hechos fueron causados por fuerzas totalmente
ajenas a la economía estadounidense y que eran esencialmente impredecibles. Si esta opinión es
correcta, entonces se podría dar una interpretación causal a la correlación histórica entre los precios
del petróleo y el PNB. La opinión tiene la implicación refutable que ninguna serie debe Granger-
causa los precios de petróleo. Empíricamente, en efecto, se encuentran muy pocas series
macroeconómicas que ayuden a predecir el momento de estos choques petroleros.
El tema de estos dos ejemplos es que las pruebas de causalidad Granger pueden ser una
herramienta útil para probar hipótesis que pueden ser enmarcadas como declaraciones sobre la
predictibilidad de una serie particular. Por otro lado, uno puede ser escéptico acerca de su utilidad
como un diagnóstico general para establecer la dirección de la causalidad entre dos series arbitrarias.
Por esta razón, parece mejor describir estos como pruebas de si y ayuda a pronosticar x en lugar de
pruebas de si y produce x. Las pruebas pueden tener implicaciones para esta última pregunta, pero
sólo en conjunción con otras suposiciones.
Hasta este punto hemos estado discutiendo dos variables, xey, aisladas de otras. Supongamos que
hay otras variables que interactúan con x o y también. ¿Cómo afecta esto a la relación de pronóstico
entre x e y?
Observe que 𝑦𝑙 es la suma de un proceso MA {1) (𝜀𝑙𝑡 + 𝛿𝜀𝑙𝑡−1) y un proceso de ruido blanco no
corregido (𝜀2.𝑡−1 ). Sabemos por la ecuación [4.7.15] que la representación univariada para 𝑦𝑙 es un
proceso MA {1):
𝑦𝑙𝑡 = 𝑢𝑡 + 𝜃𝑢𝑡−1
Así. Y3 retardado podría ayudar a mejorar un pronóstico de 𝑦1 , que se había basado en valores
rezagados de 𝑦1 , solo, lo que significa que 𝑦3 Granger-causa 𝑦1 en un sistema bivariado. La razón
es que la 𝑦3 ? Se correlaciona con la variable omitida 𝑦2 , que también es útil para pronosticar 𝑦1
Aquí 𝑥𝑙𝑡 es un vector [𝑛1 𝑝 x 1) que contiene rezagos de 𝑦𝑙𝑡 y el vector (n2p X 1) 𝑥2𝑡 , contiene
rezagos de 𝑦2𝑡 :
𝑦1.𝑡−1 𝑦2.𝑡−1
𝑦1.𝑡−2 𝑦2.𝑡−2
. .
𝑥1𝑡 ≡ . 𝑥2𝑡 ≡ .
. .
[𝑦1.𝑡−𝜌 ] [𝑦2.𝑡−𝜌 ]
Los vectores (𝑛1 x 1) y (𝑛2 X 1) 𝑐1 y 𝑐2 contienen los términos constantes del VAR, mientras que
las matrices 𝐴1 , 𝐴2 , 𝐵1 , y 𝐵2 Contienen los coeficientes autorregresivos.El grupo de variables
representado por> '] se dice que es exógeno de bloque en el sentido de la serie de tiempo con
respecto a las variables de 𝑦1 si los elementos de 𝑦2 no son de ninguna ayuda para mejorar una
predicción de cualquier variable contenida en y, es decir Basado en valores rezagados de todos los
elementos de 𝑦1 , atone. En el sistema de [11.3.1] y [11.3.2], y, es bloque-exógeno cuando 𝐴2 = 0.
Para discutir la estimación del sistema sujeto a esta restricción, primero notamos una forma
alternativa en la cual la probabilidad sin restricciones puede Ser calculado y maximizado
Donde
𝑦𝑡′ = (𝑦𝑙𝑡′ , 𝑦2𝑡
′ ), ′ ′
𝑥 𝑡 = (𝑦𝑡−1 ′
, 𝑦𝑡−2 ′
,. . . . , 𝑦𝑡−𝜌 ) 𝑦 log 𝑓𝑦 │𝑥 (𝑦𝑡 |𝑥𝑡 ; 𝜃)
𝑡 𝑡
𝑛1 +𝑛2 1 Ω Ω12
=− log(2𝜋) − log | 11 | [11.3.4]
2 2 Ω21 Ω22
1
− [(𝑦𝑙𝑡 − 𝑐1 − 𝐴′𝑙 𝑥𝑙𝑡 − 𝐴′2 𝑥2𝑡 )′ (𝑦2𝑡 − 𝑐2 − 𝐵𝑙′ 𝑥𝑙𝑡 − 𝐵2′ 𝑥2𝑡 )′ ]
2
Ω11 Ω12 −1 𝑦𝑙𝑡 − 𝑐1 − 𝐴′𝑙 𝑥𝑙𝑡 − 𝐴′2 𝑥2𝑡
𝑋[ ] [ ]
Ω21 Ω22 𝑦2𝑡 − 𝑐2 − 𝐵𝑙′ 𝑥𝑙𝑡 − 𝐵2′ 𝑥2𝑡
Alternativamente, la densidad de la junta en [11.3.4] podría escribirse como el producto de una
densidad marginal de𝑦1𝑡 con la densidad condicional de 𝑦2𝑡 dadas 𝑦𝑙𝑡
1
𝑋 𝑒𝑥𝑝 [ [(𝑦𝑙𝑡 − 𝑐1 − 𝐴′𝑙 𝑥𝑙𝑡 − 𝐴′2 𝑥2𝑡 )′ Ω11 −1 𝑋 (𝑦𝑙𝑡 − 𝑐1 − 𝐴′𝑙 𝑥𝑙𝑡 − 𝐴′2 𝑥2𝑡 )]]
2
1
𝑋 𝑒𝑥𝑝 [− (𝑦2𝑡 − 𝑚2𝑡 )′Η −1 (𝑦2𝑡 − 𝑚2𝑡 )]
2
Los parámetros de esta distribución condicional se pueden calcular utilizando los resultados de la
Sección 4.6. La varianza condicional viene dada por la ecuación [4.6.6]:
Aviso de [11.3.2]
𝑚2𝑡 = (𝑐2 + 𝐵𝑙′ 𝑥𝑙𝑡 + 𝐵2′ 𝑥2𝑡 ) + Ω21 Ω11 −1 [𝑦1𝑡 − (𝑐1 + 𝐴′𝑙 𝑥𝑙𝑡 + 𝐴′2 𝑥2𝑡 )]
Donde
1
− [(y1t − c1 − A′1t x1t − A′2 x2t )′ 𝛀11
−1 (y ′ ′
1t − c1 − A1t x1t − A2 x2t )]
2
1
ℓ2t = (−n2 ⁄2) log(2π) − log |𝐇| [11.3.15]
2
Son ortogonales por construcción a 𝑦1𝑡 , un término constante, y 𝑥𝑡 . Dado que los residuos de la
muestra de OLS asociados con las primeras regresiones, 𝜀̂1𝑡 son funciones lineales de estos mismos
elementos, 𝑣̂2𝑡 es ortogonal por construcción a 𝜀̂1𝑡 .
̂ 𝟏, 𝐀
Dónde (𝒄̂𝟏 , 𝐀 ̂ 𝟏𝟏 ) denota estimaciones basadas en la estimación de OLS de [11.3.17]. Una
̂ 𝟐, 𝛀
prueba de razón de verosimilitud de la hipótesis nula de que A₂ puede basarse en
Esto tendrá un asintótico 𝑋 2 distribución con grados de libertad igual al número de restricciones. Ya
que A2 es un (𝑛1 × 𝑛2 𝑝) matriz, el número de restricciones es 𝑛1 𝑛2 𝑝.
Así, para probar la hipótesis nula de que la n₁ variables representadas por y₁ son exógenos
de bloque con respecto a la 𝑛2 variables representadas por 𝑦2 , realizar las regresiones OLS de cada
uno de los 𝑦1 . En una constante, 𝑝 rezagos de todos los elementos de 𝑦1 , y 𝑝 rezagos de todos los
elementos de 𝑦2 . Dejar 𝜀̂1 , denotan el (𝑛1 ×1) vector de residuos de muestra para la fecha 𝑡 de
estas regresiones y 𝛀 ̂ 𝟏𝟏 , su matriz de varianza-covarianza (𝛀 ̂ 𝟏𝟏 = (1⁄𝑇) ∑𝑇𝑡=1 𝜀̂1𝑡 𝜀̂1𝑡
′
). A
continuación, realizar las regresiones OLS de cada uno de los elementos de 𝑦1 sobre una constante
𝑝 rezagos de todos los elementos de 𝑦1 . Dejar 𝜀̂1 (0) denotan el (𝑛1 ×1) vector de residuos de
muestra de este segundo conjunto de regresiones y 𝛀 ̂ 𝟏𝟏 (0) su matriz de varianza-covarianza
̂ 𝟏𝟏 (0) = (1⁄𝑇) ∑𝑡=1[𝜀̂1𝑡 (0)][𝜀̂1𝑡 (0)] ) .
(𝛀 𝑇 ′
Si
𝑇{log|𝛀 ̂ 𝟏𝟏 (0)| − log |𝛀
̂ 𝟏𝟏 |}
Es mayor que el valor crítico del 5% para un 𝑋 2 (𝑛1 𝑛2 𝑝) variable, entonces la hipótesis nula es
rechazada, y la conclusión es que algunos de los elementos de 𝑦2 son útiles para pronosticar 𝑦1 .
Por lo tanto, si nuestro interés está en la estimación de los parámetros
(𝐜𝟏 , 𝐀𝟏 , 𝛀𝟏𝟏 , 𝐝, 𝐃𝟎 , 𝐃𝟏 , 𝐃𝟐 , 𝐇) o probar una hipótesis sobre la exogeneidad de bloques, todo lo
que es necesario es la regresión OLS en las ecuaciones afectados. Supongamos, sin embargo, que
queríamos estimaciones de máxima verosimilitud de la información completa de los parámetros de
la verosimilitud según se parametrizó originalmente (𝐜𝟏 , 𝐀𝟏 , 𝛀𝟏𝟏 , 𝐜𝟐 , 𝐁𝟏 , 𝐁𝟐 , 𝛀𝟐𝟏 , 𝛀𝟑𝟏 ).
Para los parámetros del primer bloque de ecuaciones (𝐜𝟏 , 𝐀𝟏 , 𝛀𝟏𝟏 ). Las leyes siguen siendo dadas
por OLS estimación de [11.3.19]. Los parámetros del segundo bloque se pueden encontrar a partir
de las estimaciones OLS invirtiendo las ecuaciones [11.3.9] a [11.3.12]:9
̂ 21 (0) = D
Ω ̂ ′0 [Ω
̂ 11 (0)]
̂ 𝟐𝟐 (𝟎) = 𝐇
𝛀 ̂ +𝐃 ̂ 𝟏𝟏 (𝟎)]𝐃
̂ ′𝟎 [𝛀 ̂𝟎
Y entonces
Y el valor maximizado es
Donde Ω ̂ 12 es la matriz de covarianza entre los residuos de la estimación de OLS sin restricciones
de [11.3.1] y [11.3.2]. Esta hipótesis nula impuso (𝑛1 𝑛2 𝑝) restricciones que 𝐴2 = 0, restricciones
(𝑛2 𝑛1 𝑝) restricciones 𝐵1 = 0 y las (𝑛2 𝑛1 ) restricciones que 𝛺21 . Por lo tanto, la estadística en
[11.3.25] tiene una 𝑋 2 distribución con (𝑛1 𝑛2 )×(2𝑝 + 1) grados de libertad
Geweke (1982) propuso (1⁄𝑇) veces la magnitud en [11.3.25] como una medida del grado de
dependencia lineal entre 𝑦1 y 𝑦2 . Obsérvese que [11.3.25] puede expresarse como la suma de los
tres términos:
𝛺̂ 𝛺̂12
= 𝑇 {log|𝛺̂11 (0)| + log|𝛺̂22 (0)| − log | 11 |}
𝛺̂21 𝛺̂22
= 𝑇{log|𝛺̂11 (0)| + log|𝛺̂11 |} + {log|𝛺̂22 (0)| + log|𝛺̂22 |} [11.3.26]
𝛺̂11 𝛺̂12
+𝑇 {log|𝛺̂11 | + log|𝛺̂22 | − log | |}
𝛺̂21 𝛺̂22
El primero de estos tres términos, 𝑇{log|𝛺̂11 (0)| + log|𝛺̂11 |} es una medida de la fuerza de la
retroalimentación lineal de 𝑦2 a 𝑦1 y es la 𝑋 2 (𝑛1 𝑛2 𝑝) estadística calculada en [11.3.23]. El segundo
término, 𝑇{log|𝛺̂22 (0)| + log|𝛺̂22 |} es una medida análoga de la fuerza de la retroalimentación
lineal de 𝑦1 a 𝑦2 y es la 𝑋 2 (𝑛1 𝑛2 𝑝) estadística en [11.3.25]. El tercer término.
𝛺̂ 𝛺̂12
𝑇 {log|𝛺̂11 | + log|𝛺̂22 | − log | 11 |}
𝛺21 𝛺̂22
̂
Es una medida de retroalimentación instantánea. Esto corresponde a una prueba de razón de
verosimilitud de la hipótesis nula que 𝛀𝟐𝟏 = 𝟎 con A2 y 𝐁𝟏 , sin restricciones y tiene un 𝑋 2 (𝑛1 𝑛2 )
distribución bajo el nulo.
Así, [11.3.26] se puede utilizar para resumir la fuerza de cualquier relación lineal entre 𝑦1 y
𝑦2 e identificar la fuente de la relación. Geweke demostró cómo estas medidas pueden ser más
descompuestas por la frecuencia.
𝑦𝑡 = ℒ𝑡′ 𝛽 + 𝜀𝑡 [11.3.28]
Dónde 𝐿′𝑡 es la matriz siguiente (𝑛×𝑘):
′ ′
𝑥1𝑡 𝑥1𝑡 0′ ⋯ 0′
𝑥′ 0′ ′
𝑥2𝑡 … 0′
ℒ ′ = [ 2𝑡 ] = [ ]
⋮ ⋮ ⋮ ⋱ ⋮
′ ′
𝑥𝑛𝑡 0′ 0′ ⋯ 𝑥𝑛𝑡
′
Así, 𝑥𝑗𝑡 se define como un vector (1×𝑘) que contiene el 𝑘𝑖 variables explicativas para ecuaciones
𝑖, con ceros agregados de manera que sean conformes (𝑘×1) con el vector 𝛃.
El objetivo es elegir 𝛃 y 𝛀 con el fin de maximizar la función de probabilidad de logaritmos
ℒ(𝛃, Ω) = −(𝑻𝒏 ⁄𝟐) 𝐥𝐨𝐠(𝟐𝝅) + (𝑻⁄𝟐) 𝐥𝐨𝐠 |𝛀−𝟏 |
−(𝑇⁄2) ∑𝑇𝑡=1(𝑦𝑡 − ℒ𝑡′ 𝛃)′𝛀−𝟏 (𝑦𝑡 − ℒ𝑡′ 𝛃) [11.3.29]
𝑡=1 𝑡=1
= ∑𝑇𝑡=1(𝑦̅ − ℒ̅′𝛽)′(𝑦̅ − ℒ̅ ′ 𝛽) [11.3.31]
Donde 𝑦̅ = 𝐿𝑦, y
𝑥̅1𝑡
𝑥̅
ℒ̅ ′ = 𝐿ℒ ′ = [ 2𝑡 ]
⋮
𝑥̅𝑛𝑡
Pero [11.3.31] es simplemente
𝑇
∑(𝑦̅ − ℒ̅′𝛽)′(𝑦̅ − ℒ̅ ′ 𝛽)
𝑡=1
′ ′ ′
𝑦̅1𝑡 − 𝑥̅1𝑡
𝑇 𝛽 𝑦̅1𝑡 − 𝑥̅1𝑡 𝛽
′ ′
𝑦̅ − 𝑥̅2𝑡 𝛽 𝑦̅ − 𝑥̅2𝑡 𝛽
= ∑ [ 2𝑡 ] [ 2𝑡 ]
⋮ ⋮
𝑡=1 ′ ′
𝑦̅𝑛𝑡 − 𝑥̅𝑛𝑡 𝛽 𝑦̅𝑛𝑡 − 𝑥̅𝑛𝑡 𝛽
Que se minimiza mediante una regresión MCO de 𝑦̅𝑗𝑡 con 𝑥̅𝑗𝑡 , agrupando todas las ecuaciones (𝑖 =
1, 2, … , 𝑛) en una gran regresión. Por lo tanto, la estimación de máxima probabilidad es dada por
̂ = {∑𝑇𝑡=1[(𝑥̅1𝑡 𝑥̅1𝑡
𝛃 ′ ) ′ )
+ (𝑥̅2𝑡 𝑥̅2𝑡 ′ )]}−1
+ ⋯ + (𝑥̅𝑛𝑡 𝑥̅𝑛𝑡 [11.3.32]
𝑇
𝑇 −1
′
̂ − 𝛃)(𝛃
𝐸(𝛃 ̂ − 𝛃) = {∑[(𝑥̅1𝑡 𝑥̅1𝑡
′ ) ′ )
+ (𝑥̅2𝑡 𝑥̅2𝑡 ′ )]
+ ⋯ + (𝑥̅𝑛𝑡 𝑥̅𝑛𝑡 }
𝑡=1
Construcción de las variables 𝑦̅ y 𝑥̅ para usar en esta regresión OLS agrupada requiere
conocimiento de L y Ω. Los parámetros en 𝛃 y Ω pueden estimarse conjuntamente por máxima
verosimilitud mediante el siguiente procedimiento iterativo. De las 𝑛 regresiones de OLS de 𝑦𝑗𝑡 y
𝑥𝑗𝑡 , forman una estimación inicial del vector de coeficientes
Una expresión alternativa para el MLE en [11.3.32] se utiliza a veces. Darse cuenta de
′ )
[(𝑥̅1𝑡 𝑥̅1𝑡 ′ ) ′ )]
+ (𝑥̅2𝑡 𝑥̅2𝑡 + ⋯ + (𝑥̅𝑛𝑡 𝑥̅𝑛𝑡
′
𝑥̅1𝑡
′
= [𝑥̅1𝑡 𝑥̅2𝑡 … 𝑥̅𝑛𝑡 ] [𝑥̅2𝑡 ]
⋮
′
𝑥̅𝑛𝑡
̅𝐭𝓛
=𝓛 ̅ ′𝐭
̅ 𝐭 𝐋′ 𝐋𝓛
=𝓛 ̅ ′𝐭 [11.3.33]
′
𝒙𝟏𝒕 𝟎 … 𝟎 𝝈𝟏𝟏 𝝈𝟏𝟐 … 𝝈𝟏𝒏 𝒙𝟏𝒕 𝟎′ … 𝟎′
𝟎 𝒙𝟐𝒕 … 𝟎 𝝈𝟐𝟏 𝝈𝟐𝟐 … 𝝈𝟐𝒏 ] 𝟎′ 𝒙′𝟐𝒕 … 𝟎′
=[ ][
⋮ ⋮ … ⋮ ⋮ ⋮ … ⋮ ⋮ ⋮ … ⋮
𝟎 𝟎 … 𝒙𝒏𝒕 𝝈𝒏𝟏 𝝈𝒏𝟐 … 𝝈 𝒏𝒏 [ 𝟎′ 𝟎′ … 𝒙′𝒏𝒕 ]
𝜕𝑦𝑡−𝑠
= 𝛙𝒔
𝜕ε′𝑡
[11.4.2]
𝜕𝑦𝑖,𝑡+𝑠
𝜕𝜀𝑗𝑡
[11.4.4]
Y para variable 𝑛.
𝜕𝐸̂ (𝑦𝑖,𝑡+𝑠 |𝑦𝑛𝑡 ,𝑦𝑛−1𝑡 ,…,𝑦1𝑡 ,𝑥𝑡−1)
? [11.4.8]
𝜕𝑦𝑛𝑡
Esta última magnitud corresponde al efecto de 𝜀𝑛𝑡 con 𝜀1𝑡 , … , 𝜀𝑛−1𝑡 , constante y se da
simplemente por el elemento fila 𝑖, columna 𝑛 de 𝛙𝐬 .
El ordenamiento de la información recursiva en [11.4.5] a [11.4.8] es muy comúnmente
utilizado. Para este ordenamiento, los multiplicadores indicados se pueden calcular a partir de los
coeficientes de media móvil (𝛙𝐬 ) y de la matriz de varianza-covarianza de 𝜀𝑡 (𝛺) mediante un
algoritmo simple. Recordemos de la sección 4.4 que para cualquier matriz real definida simétrica
positiva 𝛀, existe una única matriz triangular inferior 𝐀 con es a lo largo de la diagonal principal y
una matriz diagonal única 𝐃 con entradas positivas a lo largo de la diagonal principal que
𝛀 = 𝐀𝐃𝐀′ [11.4.9]
Usando esta matriz 𝐀 podemos construir un vector 𝑛 𝑥 1, de ut
μt ≡ A−1 εt [11.4.10]
Obsérvese que puesto que 𝛆𝐭 no está correlacionada con los retornos propios o con valores
rezagados de 𝑦, se sigue que 𝐮𝐭 . También está sin correlación con los retornos propios o con
valores rezagados de 𝑦.
Los elementos de 𝐮𝐭 no están correlacionados entre sí:
𝐸(𝑢𝑡 𝑢𝑡′ ) = [𝐴−1 ]𝐸(𝜀𝑡 𝜀𝑡′ )[𝐴−1 ]
= [A−1 ]Ω[A′ ]−1
= [A−1 ]AΩA′ [A′ ]−1 [11.4.11]
=𝐃
El hecho de que 𝑢𝑗𝑡 no estén correlacionados implica además que el coeficiente de 𝑢1𝑡 en
una proyección de 𝜀𝐽𝑡 sobre (𝑢1𝑡 , 𝑢2𝑡 , … , 𝑢𝑗−1,𝑡 ) es el mismo que el coeficiente de
Recordando de [11.4.13] que 𝜀1𝑡 = 𝑢1𝑡 , vemos que nueva información sobre el valor de 𝜀1𝑡 nos
haría revisar nuestra proyección de 𝜀𝐽𝑡 por la cantidad
𝜕𝐸̂ (𝜀𝑗𝑡 |𝜀1𝑡 ) 𝜕𝐸̂ (𝜀1𝑡 |𝑢1𝑡 )
= [11.4.16]
𝜕𝜀1𝑡 𝜕𝑢1𝑡
Ahora 𝜀1𝑡 tiene la interpretación as 𝑦1𝑡 − 𝐸̂ ( 𝑦1𝑡 |𝑥𝑡−1 ) y 𝜀𝑗𝑡 tiene la interpretación as 𝑦𝑗𝑡 −
𝐸̂ ( 𝑦𝑗𝑡 |𝑥𝑡−1 ). De la fórmula para actualizar una proyección lineal [4.5.14], el coeficiente de 𝑦1𝑡 en
una proyección lineal de 𝑦𝑗𝑡 sobre 𝑦1𝑡 y 𝑥𝑡−1 es igual que el coeficiente sobre 𝜀1𝑡 en una
proyección lineal de 𝜀𝑗𝑡 sobre 𝜀1𝑡 . Por lo tanto
Donde
0
1
𝑎32
𝑎2 =
𝑎42
⋮
[𝑎𝑛2 ]
En general,
𝜕𝐸̂ (𝑦𝑡+𝑠 |𝑦𝑗𝑡, ,𝑦𝑗−1𝑡 ,…,𝑦1𝑡 ,𝑥𝑡−1 )
= 𝛙𝐬 𝐚𝐣 [11.4.19]
𝜕𝑦𝑗𝑡
donde
𝐏 ≡ 𝐀𝐃𝟏⁄𝟐
𝐯𝐭 ≡ 𝐏 −𝟏 𝛆𝐭 = 𝐃−𝟏⁄𝟐 𝛆𝐭 = 𝐃−𝟏⁄𝟐 𝐮𝐭
Así, 𝑣𝑗𝑡 es simplemente 𝑢𝑗𝑡 dividido por su desviación estándar √𝑑𝑗𝑗 . Un aumento de una unidad
en 𝑣𝑗𝑡 es el mismo que un aumento de una desviación estándar en 𝑐.
En lugar del multiplicador dinámico 𝜕𝑦𝑖,𝑡+𝑠 ⁄𝜕𝑢𝑗𝑡 , estos investigadores informan 𝜕𝑦𝑖,𝑡+𝑠 ⁄𝜕𝑣𝑗𝑡 . La
relación entre estos multiplicadores es claramente
∂yt+s ∂yt+s
= √djj = 𝛙𝐬 𝐚𝐣 √djj .
∂vjt ∂ujt
Pero 𝑎𝑗 √𝑑𝑗𝑗 es sólo la columna 𝑗th de 𝐀𝐃𝟏⁄𝟐 , que es la columna 𝑗th de la matriz del factor
Cholesky 𝐏. Denotando la columna 𝑗th de 𝐏 por pj , tenemos
∂yt+s
∂vjt
= 𝛙𝐬 𝐩𝐣 [11.4.22]
Consideremos ahora cómo cada una de las perturbaciones ortogonales (𝑢1𝑡 , … , 𝑢𝑛𝑡 )
contribuye a este MSE. Escriba [11.4.12] como
𝜀𝑡 = 𝐴𝑢𝑡 = 𝑎1 𝑢1𝑡 + 𝑎2 𝑢2𝑡 + ⋯ + 𝑎𝑛 𝑢𝑛𝑡 [11.5.4]
Con esta expresión, podemos calcular la contribución de la innovación 𝑗th ortogonalizada a la MSE
de la previsión del período s-adelante:
𝑉𝑎𝑟(𝑢𝑗𝑡 ). [𝑎𝑗 𝑎𝑗′ + 𝛙𝟏 𝑎𝑗 𝑎𝑗′ 𝛙′𝟏 + 𝛙𝟐 𝑎𝑗 𝑎𝑗′ 𝛙′𝟐 + ⋯ + 𝛙𝐬−𝟏 𝑎𝑗 𝑎𝑗′ 𝛙′𝐬−𝟏 ]
Una vez más, esta magnitud en general depende del orden de las variables.
Como 𝑠 → ∞ para un VAR de covarianza-estacionario, MSE(𝑦̂𝑡+𝑠|𝑡 ), la varianza
incondicional del vector 𝑦𝑡 . Por lo tanto, [11.5.6] permite calcular la porción de la varianza total de
𝑦𝑖 que se debe a la perturbación 𝑢𝑗 dejando que 𝑠 sea adecuadamente grande.
Alternativamente, recordando que √𝑉𝑎𝑟(𝑢𝑗𝑡 ) es igual a 𝐩𝐣 , la columna 𝑗th del factor de
Cholesky 𝐏, resultado [11.5.6] se puede escribir de manera equivalente como
𝑀𝑆𝐸(𝑦̂𝑡+𝑠|𝑡 ) = ∑𝑛𝑗=1[pj p′j + 𝛙𝟏 pj p′j 𝛙′𝟏 + 𝛙𝟐 pj p′j 𝛙′𝟐 [11.5.7]
+ ⋯ + 𝛙𝐬−𝟏 𝑝𝑗 𝑝𝑗′ 𝛙′𝐬−𝟏 ]
Supongamos que nos gustaría estimar una función de demanda de dinero que exprese la
disposición del público a retener efectivo en función del nivel de ingresos y tasas de interés. La
siguiente especificación fue utilizada por algunos investigadores tempranos:
Donde los siete parámetros (𝛼0 , 𝛼1 , … , 𝛼6 ) están restringidos en [11.6.3] a funciones no lineales de
los cinco parámetros subyacentes (𝜌, 𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 ). La suposición de [11.6.2] puede ser probada
comparando el ajuste de [11.6.3] con el de la estimación no restringida de [11.6.4].
Por definición, 𝑣𝑡𝐷 representa factores que influyen en la demanda de dinero para los cuales el
investigador no tiene una teoría explícita. Por lo tanto, parece extraño para poner gran confianza en
una especificación detallada de su dinámica, como [11.6.2], sin probar esta suposición contra los
datos. Por ejemplo, no parece haber razones teóricas claras para descartar una especificación como
𝐷 𝐷
𝑣𝑡𝐷 = 𝜌1 𝑣𝑡−1 + 𝜌2 𝑣𝑡−2 + 𝑢𝑡𝐷
𝐷
O, para el caso, una especificación en la que 𝑣𝑡 se correlaciona con valores rezagados de 𝑌 o 𝐼.
La ecuación [11.6.1] supone además que el multiplicador dinámico que relaciona la
demanda de dinero con el ingreso es proporcional al que relaciona la demanda de dinero con el tipo
de interés:
𝜕(𝑀𝑡+𝑠 − 𝑃𝑡+𝑠 )
= 𝛽1 𝛽3𝑆
𝜕𝑌𝑡
𝜕(𝑀𝑡+𝑠 − 𝑃𝑡+𝑠 )
= 𝛽2 𝛽3𝑆
𝜕𝐼𝑡
Una vez más, parece una buena idea probar esta suposición antes de imponerla, comparando el
ajuste de [11.6.1] con el de un modelo dinámico más general. Por último, la inflación puede tener
efectos sobre la demanda de dinero que no son capturados por los tipos de interés nominales.
La especificación en [11.6.1] incorpora suposiciones muy fuertes sobre la forma en que la demanda
nominal de dinero responde al nivel de precios.
En resumen, una especificación como [11.6.1] y [11.6.2] impone implícitamente muchas
restricciones sobre dinámicas para las cuales hay poca o sobre justificación sobre la base de la teoría
económica. Antes de reflexionar sobre las inferencias de [11.6.1] y [11.6.2], parece una buena idea
probar ese modelo en contra de una especificación más general como
Al igual que la ecuación [11.6.1], la especificación en [11.6.5] se considera como una ecuación de
(0) (0)
demanda de dinero estructural; 𝛽13 y 𝛽14 se interpretan como los efectos de los ingresos
corrientes y la tasa de interés en las tenencias de dinero deseadas, y 𝑢𝑡𝐷 representa los factores que
influyen en la demanda de dinero aparte de la inflación, los ingresos y las tasas de interés. En
comparación con [11.6.1], la especificación en [11.6.5] generaliza el comportamiento dinámico del
término de error 𝑣𝑡𝐷 , el proceso de ajuste parcial y la influencia del nivel de precios en las tenencias
monetarias deseadas.
Aunque [11.6.5] relaja muchas de las restricciones dudosas sobre la dinámica implícita por
[11.6.1], todavía no es posible estimar [11.6.5] por OLS, debido a las ecuaciones simultáneas sesgo.
OLS estimación de [11.6.5] se resumen la correlación entre el dinero, el nivel de precios, los
ingresos, y la tasa de interés. Los ajustes de la demanda de dinero del público son una razón por la
que estas variables se correlacionan, pero no la única. Por ejemplo, en cada período, el banco
central puede ajustar la tasa de interés 𝐼𝑡 a un nivel compatible con sus objetivos de política, que
puede depender de los valores recurrentes y rezagados del ingreso, del tipo de interés, del nivel de
precios y de la oferta monetaria:
(0) (0) (0)
𝐼𝑡 = 𝑘4 + 𝛽41 𝑀𝑡 + 𝛽42 𝑃𝑡 + 𝛽43 𝑌𝑡
(1) (1) (1) (1)
+𝛽41 𝑀𝑡−1 + 𝛽42 𝑃𝑡−1 + 𝛽43 𝑌𝑡−1 + 𝛽44 𝐼𝑡−1 [11.6.6]
(2) (2) (2) (2)
+𝛽41 𝑀𝑡−2 + 𝛽42 𝑃𝑡−2 + 𝛽43 𝑌𝑡−2 + 𝛽44 𝐼𝑡−2 + ⋯
(𝑝) (𝑝) (𝑝) (𝑝)
+𝛽41 𝑀𝑡−𝑝 + 𝛽42 𝑃𝑡−𝑝 + 𝛽43 𝑌𝑡−𝑝 + 𝛽44 𝐼𝑡−𝑝 + 𝑢𝑡𝐶
(0)
Aquí, por ejemplo, 𝛽42 capta el efecto del nivel de precios actual sobre la tasa de interés que el
banco central intenta lograr. Los disturbios 𝑢𝑡𝐶 reflejan cambios en la política que no pueden
describirse como una función determinista del dinero actual y rezagado, el nivel de precios, los
ingresos y la tasa de interés. Si los trastornos de la demanda de dinero 𝑢𝑡𝐷 son inusualmente
(0)
grandes, esto hará que 𝑀𝑡 sea inusualmente grande. Si 𝛽41 > 0, esto causaría que 𝐼𝑡 fuera
inusualmente grande también, en cuyo caso 𝐼𝑡 estaría positivamente correlacionado con la variable
explicativa 𝐼𝑡 en la ecuación [11.6.5]. Por lo tanto, [11.6.5] no puede ser estimado por OLS.
No es la política del banco central y la endogeneidad de 𝐼𝑡 la única razón para preocuparse
por el sesgo de las ecuaciones simultáneas. Las perturbaciones de la demanda de dinero y los
cambios en la política de los bancos centrales también tienen efectos sobre la producción agregada
y el nivel de precios, de modo que 𝑌𝑡 y 𝑃𝑡 en [11.6.5] también son endógenos. Se podría postular
una ecuación de la demanda agregada, por ejemplo, que relaciona el nivel de producción con la
oferta monetaria, el nivel de precios y la tasa de interés:
(0) (0) (0)
𝐼𝑡 = 𝑘3 + 𝛽31 𝑀𝑡 + 𝛽32 𝑃𝑡 + 𝛽34 𝐼𝑡
(1) (1) (1) (1)
+𝛽31 𝑀𝑡−1 + 𝛽32 𝑃𝑡−1 + 𝛽33 𝑌𝑡−1 + 𝛽34 𝐼𝑡−1
(2) (2) (2) (2)
+𝛽31 𝑀𝑡−2 + 𝛽32 𝑃𝑡−2 + 𝛽33 𝑌𝑡−2 + 𝛽34 𝐼𝑡−2 + ⋯ [11.6.7]
(𝑝) (𝑝) (𝑝) (𝑝)
+𝛽31 𝑀𝑡−𝑝 + 𝛽32 𝑃𝑡−𝑝 + 𝛽33 𝑌𝑡−𝑝 + 𝛽34 𝐼𝑡−𝑝 + 𝑢𝑡𝐴
Con 𝑢𝑡𝐴 representando otros factores que influyen en la demanda agregada. De manera similar, una
curva de oferta agregada podría relacionar el nivel de precios agregado con las otras variables
estudiadas. La conclusión lógica de tal razonamiento es que todas las variables explicativas de fecha
𝑡 en [11.6.5] deben ser tratadas como endógenas.
El sistema de las ecuaciones [11.6.5] a [11.6.7] (junto con una ecuación de suministro
agregada análoga que describe 𝑃𝑡 ) puede ser recogido y escrito en forma vectorial como
Donde
y𝑡 = (𝑀𝑡 , 𝑃𝑡 , 𝑌𝑡 , 𝐼𝑡 )′
u𝑡 = (𝑢𝑡𝐷 , 𝑢𝑡𝑆 , 𝑢𝑡𝐴 , 𝑢𝑡𝐶 )′
(0) (0) (0)
1 −𝛽12 −𝛽13 −𝛽14
(0) (0) (0)
−𝛽21 1 −𝛽23 −𝛽24
B0 = (0) (0)
−𝛽31 −𝛽32 1 (0)
−𝛽34
(0)
(0)
[−𝛽41 −𝛽42
(0) −𝛽43 1 ]
𝐤 = (𝑘1 , 𝑘2 , 𝑘3 , 𝑘4 )′
(𝑠)
Y 𝐁𝒔 es una matriz (4×4) cuyo elemento fila 𝑖, columna 𝑗 está dado por 𝛽𝑖𝑡 para 𝑠 = 1, 2, … , 𝜌.
Una clase grande de modelos estructurales para un (𝑛×1) vector 𝑦𝑡 se puede escribir en la forma
de [11.6.8].
Generalizando el argumento en [11.6.3], se supone que un número suficiente de retrasos de
() se incluyen y las matrices () se definen de modo que () es el ruido blanco del vector. Si en su
lugar, por ejemplo, 𝑢𝑡 seguido un 𝑟th -orden VAR, con
ε𝑡 = 𝐁0−1 u𝑡 [11.6.12]
Suponiendo que [11.6.8] está parametrizado lo suficientemente rico que 𝐮𝐭 es el ruido blanco del
vector, entonces 𝛆𝐭 también será el ruido blanco del vector y [11.6.9] se reconocerá como la
representación vectorial autoregresiva para el sistema estructural dinámico [11.6. 8].
Por lo tanto, un VAR puede ser visto como la forma reducida de un modelo estructural dinámico
general.
Esta magnitud describe el efecto de una innovación en la variable 𝑗th sobre los valores futuros de
cada una de las variables del sistema. Según [11.6.12], la innovación VAR 𝛆𝐣𝐭 es una combinación
lineal de las perturbaciones estructurales 𝐮𝐭 . Por ejemplo,
En este caso si el efectivo en el poder del público es mayor de lo que se hubiera previsto utilizando
el VAR (𝜀1𝑡 es positivo), esto podría deberse a que la demanda pública de efectivo es mayor que la
que normalmente se asocia con el nivel actual de ingresos y La tasa de interés (es decir, 𝑢𝑡𝐷 es
positiva). Alternativamente, 𝜀1𝑡 puede ser positivo porque el banco central ha elegido facilitar el
crédito (𝑢𝑡𝐶 es negativo), o una variedad de otros factores. En general, 𝜀1𝑡 representa una
combinación de todas las influencias diferentes que importan para cualquier variable en la
economía. Visto de esta manera, no está claro por qué la magnitud [11.6.13] es de particular interés.
Por el contrario, si pudiéramos calcular
𝜕y𝑡+𝑠
𝜕𝑢𝑡𝐶
[11.6.14]
Esto sería de considerable interés. La expresión [11.6.14] identifica las consecuencias dinámicas
para la economía si el banco central endurece el crédito más de lo habitual y es una magnitud clave
para describir los efectos de la política monetaria sobre la economía.
La sección 11.4 también discutió el cálculo de una función de impulso-respuesta
ortogonalizada. Para 𝛀 = 𝐸(𝜀𝑡 𝜀𝑡′ ), encontramos una matriz triangular inferior 𝐀 y una matriz
diagonal 𝐃 tal que 𝛀 = 𝐀𝐃𝐀′ . Entonces construimos el vector para valores futuros de 𝐀−𝟏 𝛆, y
calculo las consecuencias de los cambios en cada elemento de este vector para los valores futuros
de 𝒚.
Recordemos de [11.6.12] que las perturbaciones estructurales 𝐮𝒕 están relacionadas con las
innovaciones VAR 𝜺𝒕 por
𝐮𝒕 = 𝐁𝐨 𝛆𝐭 [11.6.15]
Suponiendo que ocurrió que la matriz de parámetros estructurales 𝐁𝐨 era exactamente igual a la
matriz 𝐀−𝟏 . Entonces las innovaciones ortogonalizadas coincidirían con las verdaderas
perturbaciones estructurales:
𝐮𝒕 = 𝐁𝐨 𝛆𝐭 = 𝐀−𝟏 𝛆𝐭 [11.6.16]
En este caso, el método descrito en la Sección 11.4 podría ser utilizado para encontrar la respuesta a
preguntas importantes como [11.6.14].
¿Hay alguna razón para esperar que 𝐁𝐨 y 𝐀−𝟏 sería la misma matriz? Puesto que 𝐀 es
triangular inferior, esto claramente requiere 𝐁𝐨 para ser triangular inferior. En el ejemplo [11.6.18],
esto requeriría que los valores actuales de 𝑃, 𝑌 y 𝐼 entraran en la curva de suministro agregado, y así
sucesivamente. Tales suposiciones son bastante inusuales, aunque puede haber otra manera de
ordenar las variables de modo que una estructura recursiva sea más aceptable. Por ejemplo, un
keynesiano podría argumentar que los precios responden a otras variables económicas sólo con un
retraso, de modo que los coeficientes de las variables actuales en la ecuación de la oferta agregada
son todos cero. Quizás el dinero y las tasas de interés influyen en la demanda agregada sólo con un
retraso, de modo que sus valores actuales se excluyen de la ecuación de la demanda agregada. Uno
podría tratar de argumentar promover que la tasa de interés afecta el dinero deseado de la
celebración sólo con un retraso también. Debido a que la mayoría de los bancos centrales
monitorean las condiciones económicas actuales con bastante cuidado, tal vez todos los valores
Es
0 0 0 0
𝑃𝑡 𝑘1 (0) 𝑃𝑡
𝑌𝑡 𝑘2 𝛽21 0 0 0 𝑌
[ ] = [ ] + (0) (0) [ 𝑡]
𝑀𝑡 𝑘3 𝛽31 𝛽32 0 0 𝑀𝑡
𝐼𝑡 (0)
𝑘4 (0)
[𝛽41
(0)
𝛽42 𝛽43 0] 𝐼𝑡
Supongamos que existe tal ordenación de las variables para las cuales 𝐁𝟎 es triangular inferior.
Escriba el modelo estructural dinámico [11.6.8] as
𝐁(0 ) y𝑡 = −Γ𝐱𝑡 + 𝐮𝒕 [11.6.18]
donde
−Γ
[𝐤 𝐁1 𝐁2 ⋯ 𝐁𝑝 ]
[𝑛×(𝑛𝑝 + 1)] ≡
1
x𝑡 y 𝑡−1
≡ y𝑡−2
[(𝑛𝑝 + 1)×1]
⋮
y
[ 𝑡−𝑝 ]
Supongamos, además, que las perturbaciones de las ecuaciones estructurales no están
correlacionadas y no están correlacionadas entre sí:
𝐃 para 𝑡 = 𝜏
𝐸(u𝑡 u′𝜏 ) = { [11.6.19]
0 de otra manera
Donde 𝐃 es una matriz diagonal. El VAR es la forma reducida del modelo estructural
dinámico [11.6.18] y puede escribirse como
y𝑡 = Π ′ x𝑡 + ε𝑡 [11.6.20]
donde
Π ′ = −𝐁0−1 Γ [11.6.21]
ε𝑡 = 𝐁0−1 𝐮𝑡 [11.6.22]
d s w
Podríamos entonces tomar ut , ut , ut ' Para ser un vector de ruido blanco con matriz diagonal
de varianza-covarianza dada por D. Este es un ejemplo de un modo estructural [11.6.18] en el cual
1 0
B0 1 h [11.6.27]
0 0 1
No hay manera de ordenar las variables para hacer que la matriz B0 Triangular inferior. Sin
embargo, la ecuación [11.6.22] Indica que las perturbaciones estructurales ut Están relacionados
con el VAR residuales t por t B01ut . Así, si B0 Se calcula por máxima verosimilitud,
entonces las funciones impulso-respuesta podrían calcularse como en la sección 11.4 con A
reemplazado por B01 , Y los resultados darían los efectos de cada una de las perturbaciones
estructurales sobre valores posteriores de variables del sistema. Específicamente,
t
B01 ,
utt
De modo que el efecto sobre la perturbación estructural j-ésimo u jt es dado por b j , La j-ésima
columna de B01. Así, calcularíamos
yt s yt s t
sb j
u jt tt u jt
Para s el n n Matriz de coeficientes para el j-ésimo retraso de la MA representación
[11.4.1].
Si no hay restricciones en la dinámica retardada, esto se maximiza con respecto a por MCO
regresión de yt en xt . Sustituyendo esta estimación [11.6.28] como en [11.1.25] Produce
L B0 , D,
ˆ Tn / 2 log 2 T / 2 log B 1D B 1 t
0 0
1 [11.6.29]
1/ 2 ˆ B01D B01 ˆt .
T t
t
t 1 t
Pero
t 1 t 1
t 1
trace B01 D B01 ˆt ˆt1
T
t 1
ˆ
trace B01 D B01 T
t 1
[11.6.30]
t 1
ˆ
T trace B01 D B01
T trace B t D 1 B
0
ˆ .
0
Además.
log B01D B01 log B01 D B01 log B0 log D .
t 2
[11.6.31]
Sustituyendo [11.6.31] y [11.6.30] dentro [11.6.29], FIML Las estimaciones de los parámetros
estructurales se encuentran eligiendo B0 y D con el fin de maximizar.
L B0 , D, Tn / 2 log 2 T / 2 log B0 T / 2 log D
2
[11.6.32]
T / 2 trace B0t D 1B0
ˆ .
Utilizando cálculos similares a los utilizados para analizar [11.1.25], Uno puede mostrar que si
t
existen matrices exclusivo B0 y D de satisfacer el formulario requerido. B01D B01 , A
continuación, maximización de [11.6.32] producirá estimaciones B̂0 y D̂ satisfactorio.
t
Bˆ01Dˆ Bˆ01 ˆ.
[11.6.33]
Éste es un sistema no lineal de ecuaciones, y la maximización numérica de [11.6.32] Ofrece un
enfoque general conveniente para encontrar una solución a este sistema de ecuaciones.
Incluso si el pedido es satisfecho, el modelo puede todavía no ser identificado. Por ejemplo,
supongamos que
1 0
B0 1 0 .
0 0 1
2
2
Para S D un n nD matriz y sD un n 1 vector. Para el ejemplo de oferta y demanda:
d2
0
0
0 d2
vec D s2 D s2
0 w2
0
0
2
w
Denote el lado derecho de [11.6.36] por f B , D , donde f : RnR RnP R n :
*
vech f B , D . [11.6.37]
El Apéndice 11.B muestra que la n nB nD matriz de los derivados de esta función está
*
dada por
vech vech
J
Bt
Dt [11.6.38]
2 Dn B01 S B B0 B0 S D ,
Dn 1 1
Donde Dn es de n n matriz definida en [11.1.45].
* 2
misma distribución de probabilidad para los datos. No tendríamos ninguna base para distinguir
entre estos valores alternativos para B , D , lo que significa que el modelo no sería identificado.
t t
Para comprobar esta condición en la práctica, el enfoque más simple es generalmente hacer una
conjetura en cuanto a los valores de los parámetros estructurales y comprobar J numéricamente,
Giannini (1992) Derivó una expresión alternativa para la condición de rango y proporcionó
software para comprobarlo numéricamente.
1
esta condición caracteriza la identificación local: puede ser que incluso si un modelo satisface tanto la condición de
rango como de orden. Hay dos valores no convencionales de (𝜽´𝑩 , 𝜽´𝑫 ) Para los cuales la probabilidad tiene el mismo
valor para todas las realizaciones de los datos. Ver Rothenberg (1971. Teorema 6. p.585)
Aun así, debe reconocerse que convincentes suposiciones de identificación son difíciles de
conseguir. Por ejemplo, el pedido en [11.6.17] Es claramente algo arbitrario, y las restricciones de
exclusión son difíciles de defender. En efecto, Si hubiese supuestos de identificación convincentes
para tal sistema, los feroz debates entre los macroeconomistas se habrían resuelto hace mucho
tiempo! El sesgo de las ecuaciones simultáneas es muy penetrante en las ciencias sociales, y extraer
inferencias estructurales de las correlaciones observadas debe siempre proceder con gran cuidado.
Seguramente no siempre podemos esperar encontrar suposiciones de identificación creíbles que nos
permitan identificar las relaciones causales entre cualquier conjunto arbitrario de n variables sobre
las que tenemos datos.
2
Los cálculos relacionados con los desarrollados en esta sección Baillie (1987). Lutkepohl (1989). y
Giannini (1992). Giannini proporcionó software informático para calcular algunas de estas magnitudes.
ˆ
T s ,T S
L
GS X ,
Donde
S
GN . [11.7.2]
n nk
2 t
Es decir,
ˆ
T s ,T S
L
N 0, GS Q1 GSt . [11.7.3]
Los errores estándares para un coeficiente de impulso-respuesta estimado están dados por la raíz
cuadrada del elemento diagonal asociado de 1/ T Gˆ s ,T
ˆ Qˆ 1 Gt , donde
T T s ,T
x
Gˆ s ,T
t ˆ
t
T
QˆT 1 / T xt xt1 ,
t 1
Para aplicar este resultado, necesitamos una expresión para la matriz GN in [11.7.2]. Apéndice
1l.B En este capítulo se establece que la secuencia GS S 1 puede calcularse iterando en
m
G1 I n 0n1 I n 0nn...0nn
G2 I n 0n1 1t I n ...0nn 1 I n G1.
Una solución cerrada para [11.7.4] es dado por
Donde y0 , y1 ,..., y y p 1 denotan los valores de pre muestras de y que se observaron realmente
en los datos históricos. Tomando un segundo sorteo u2 , generar
1
y2 cˆ
ˆ y1
ˆ y ...
ˆ y 1
p p 2 u2 .
1
1 1 2 0
Tenga en cuenta que este segundo sorteo es con reemplazo; Es decir, hay un (1/T) posibilidad de
que u1 es exactamente lo mismo que u21 . Procediendo de esta manera, una muestra completa
1
y11 , y21 ,..., yT1 puede ser generado. Un VAR Puede ser montado por OLS a estos datos
simulados (tomando de nuevo los valores de pre muestras y de cómo sus valores históricos),
produciendo una estimación ˆ . De esta estimación, la magnitud s ˆ 1 puede ser calculado.
1
Como en la ecuación [11.6.34], los elementos desconocidos de B0 ron resumidos por un nB 1
vector B con vec B0 S B B sB . Similarmente, como en [11.6.35], se asume que
vec D SD D sD para D un nD 1 vector. A continuación se deduce de la proposición
7.4 ese
T ˆB ,T B
L
N 0, 2GB Dn Dn GBt
t
[11.7.7]
T ˆD,T D
L
N 0, 2GD Dn Dn GDt ,
t
[11.7.8]
Donde
B
GB [11.7.9]
nB n *
vech '
D
GD [11.7.10]
nD n *
vech '
Y
n* n n 1 / 2.
Ecuación [11.6.38] dio una expresión para la n nB nD matriz:
*
vech vech
J .
B
t
Dt
Hemos observado que si el modelo va a ser identificado, las columnas de esta matriz deben ser
linealmente independientes. En el caso recién identificado, n* nB nD y J
1
existe de donde
GB 1
G J . [11.7.11]
D
Aunque una VAR impone pocas restricciones sobre la dinámica, el costo de esta generalidad es que
las inferencias dibujadas no son demasiado precisas. Para obtener mayor precisión, es necesario
imponer nuevas restricciones. Un enfoque es encajar la dinámica multivariante usando un modelo
restringido con muchos menos parámetros, siempre que los datos nos permitan aceptar las
restricciones. Un segundo enfoque consiste en confiar más en las expectativas previas sobre la
dinámica del sistema. Este segundo enfoque se explorará en el próximo capítulo.
QT 1 / T t 1t
t 1
1
T
T ˆT T
Q 1/ T xt 2t [11.A.1]
t 1
T
Q 1 1 / T
T
t 1
xt nt
Donde
T
QT 1/ T xt xtt
t 1
Definir t para el siguiente nk 1 vector:
xt 1t
x
t t 2t .
xt nt
Darse cuenta de t es una secuencia de diferencia de martingala con cuartos momentos finitos y
varianza
Q.
1/
T
T t
L
N 0, Q . [11.A.3]
t 1
Ahora, la expresión [11.A.1] puede escribirse
t
1 / T xt 1t
0
t 1
Q 1
0
t
t
0 QT1 0 1 / T xt 2t
T ˆt
t 1
0 0 QT1
t
1 / T xt nt
t 1
I n Qt1 1 / T .
T
t
t 1
1
Q1. Así,
Pero resulta (a) implica que QT
P
I 0 Q 1 1/ T .
T
T ˆt
P
t
[11.A.4]
t 1
Pero de [11.A.3], esto tiene una distribución que es Gaussiana con media 0 y varianza
I n Q1 Q I n Q1 I nI n Q1QQ1 Q 1 ,
Como se reivindica. ■
t
ˆ 'x y ˆ x
T
1 / T yt
t
ˆt x ˆt x
t t t
t 1
T t T
T t T
y ˆ x
T t [11.A.5]
1 / T yt
ˆt x
T t t
t
T t
t 1
1 / T x x ˆ
t T
ˆ
'
T t t T
t 1
1 / T xt xt' ˆ T ,
t T
ˆ
ˆ
T T
t 1
Donde los términos de producto cruzado se dejaron caer en la tercera igualdad a la derecha a la luz
de la condición de ortogonalidad OLS 1/ T t 1 yt Tt xt xtt 0. Ecuacion [11.A.5] implica
T
que
1/ T x x
T
T
ˆ .
t
ˆ *
T ˆ ˆ
t
T T T
t 1
t t
T
ˆ
T T converge en la distribución. Así, de la proposición 7.3, T T
ˆ *
ˆ
T
p
0
significa que T
ˆ ˆ .
T
*
T T p
Recordando [11.A.4],
I n Q 1 / T
T
1
T ˆT t
[11.A.6]
p
t 1
T vech
ˆ
T
vech
T
1 / T t
t 1
Donde t t xt y
12t 1t 1t 2t 12 1t nt 1n
21 22t 22 2t nt 2 n
t vech 2t 1t
nt 1t n1 nt 2t n 2 nn
2
nt
1/ T
0
t
12 [11.A.7]
t 1
L
N , 11 ,
0 21 22
T
1/ T t
t 1
Donde
12 E tt E t tt
t
11
.
22 E ttt 21 E t tt
Recordemos de la prueba de la proposición 11.1 que
1t E ttt Q.
T
1/ T t
0 Q 0
t 1
L
N , ,
22
0 0
T
1/ T
t 1
t
Y por lo tanto de [11.A.6],
T ˆT 0 Q 1 0
L
N , .
T vech
ˆ
T
vech
0
0 22
Prueba de Proposición 11.3. Primero supongamos que y falla en Granger-causa x, Para que el
proceso se pueda escribir como en [11.2.4]. Definir v2t ser el residuo de una proyección de 2t en
1t , con b0 definido como el coeficiente de proyección:
v21 21 b01t .
Así, v2t y 1t no están correlacionados y, recordando que t es ruido blanco, v2t debe estar sin
correlación con 1 para todo t así como. Desde la primera fila de [11.2.4], esto significa que
v2t y x No están correlacionados para todos t y . Con esta definición de v2t , La segunda fila de
[11.2.4] puede escribirse como
y1 2 21 L 1t 22 L v2t b0 t1 . [11.A.15]
Además, desde la primera fila de [11.2.4],
1
1t 1t L xt t . [11.A.16]
Sustituyendo [11.A.16] dentro [11.A.15] da
yt c b L xt t , [11.A.17]
Donde hemos definido b L 21 L b0 22 L 11 L
1
, c 2 b 1 1 , y
1 22 L v2t . Pero t , Construido a partir de v2t , no está correlacionada con xt para todo .
Además, sólo los valores actuales y rezagados de x, Como lo resume el operador b L , aparecen
en la ecuación [11.A.17]. Hemos demostrado que si [11.2.4] sostiene, entonces di 0 para todo i
en [11.2.5].
Para probar lo contrario, supongamos que di 0 para todo j en [11.2.5]. Permite
xt t 1t L 1t [11.A.18]
Denotan la representación wold univariada xt ; así, 11 1. Utilizaremos una notación
t
consistente con la forma de [11.2.4] en previsión de la respuesta final que se derivará; Por ahora, el
lector debe ver [11.A.18] como una nueva definición de 1t L en términos de la representación
de Wold univariada para x. Existe también una representación de Wold univariada para el término
de error en [11.2.5], denotado
t 22 L v2t , [11.A.19]
Observa eso 1t , 2t ' es el ruido blanco del vector. Sustituyendo [11.A.21] y [11.A.22] en
[11.A.20] produce
yt 2 b L 11 L b0 22 L 1t 22 L 2t . [11.A.23]
Finalmente, defina
21 L b L 11 L b0 22 L ,
Señalando que 21 0. Luego, sustituyendo esto en [11.A.23] produce
1
yt 2 21 L 1t 22 L 2t .
Esto combinado con [11.A.18] completa la demostración de que [11.2.5] implica [11.2.4].■
Este apéndice calcula las derivadas reportadas en las secciones 11.6 y 11.7.
■Derivación de [11.6.38]. Deje que el escalar representan un elemento particular de B o D , y
deja / denotan el n n 2 2
matriz que resulta cuando cada elemento de se diferencia
con respecto a . Así, la diferenciación [11.6.33] con respecto a resulta en
/ B01 / D B01 ' B01 D / B01 ' B01 D B01 '/ . [11.B.1]
Definir
B01 / D B01 ' [11.B.2]
Y notar que
Ya que D es una matriz de varianza-covarianza y por lo tanto debe ser simétrica. Así, [11.B.1] puede
escribirse
Permite Dn denotar el n n matriz de duplicación introducida en [11.1.43]. Observe que para
2 *
cualquier n n matriz , los elementos de Dnt vec son de la forma d para elementos
diagonales de y de la forma d u para elementos fuera de la diagonal. Por lo tanto,
1
Dnt vec Dnt vec ' . si [11.B.5] es premultiplicado por Dn Dnt Dn Dnt , el resultado es
así
vech [11.B.6]
B0 B0 vec D / ,
2 Dn vec Dn 1 1
Ya que desde [11.1.46] Dn vec vech .
Diferenciar la identidad B01B0 I n con respecto a produce
B 1
0 / B0 B01 B0 / 0nn
O
B01 / B01 B0 / B01. [11.B.7]
Expresión [1l.B.8] es un n 1 vector que da el efecto de un cambio en algún elemento de B
*
resultado es
vech vech vech
... [11.B.9]
B ,1 B ,2 B ,nB
2 Dn B01 S B e1 e2 ... enB
Es decir,
vech
2 Dn B01 S B . [11.B.10]
B
t
Tomando transposiciones,
ts ts 11t ts 2t2 ... ts p tp ' [11.B.13]
Deje que el escalar denotan algún elemento particular de , y diferenciar [11.B.13] con respecto
a:
ts 1t t2 tp
ts 1 ts 2 ... ts p
ts 1 t ts 2 t ts p t
1 2 ... p
c '/
t /
1
2 /
0n1 s 1 s 2 ... s p
t t t
t
tp /
ts 1 t ts 2 t s p t
t
1 2 ... p
0n1 ts 1 ts 2 ... ts p [11.B.14]
ts 1 t ts 2 t s p t t
1 2 ... p.
Recordar resultado [11.B.4], y observe el caso especial cuando A es el n n matriz de
identidad, B es un matriz de n r , y C es un matriz de r q :
vec BC C ' I n vec B . [11.B.15]
Por ejemplo,
ts 1 t ts 1 s 1
vec 1 1 I n vec 1 I n . [11.B.16]
Otra implicación de [11.B.4] puede obtenerse permitiendo A ser una matriz de m q , B
matriz de q n , y C matriz de identidad n n :
vec AB I n A vec B .
[11.B.17]
Dejando representan sucesivamente cada uno de los elementos y apilar las ecuaciones
resultantes horizontalmente como en [11.B.9] resulta en
s
I n 0n1 ts 1 ts 2 ... ts p
t
s 1 s p
1 I n t
... p I n ,
t
■Derivación de [11.7.5]. Aquí la tarea es verificar que si G, es dado por [11.7.5], entonces
[11.7.4] sostiene:
Gs I n 0n1 ts 1 ts 2 ... ts p k I n Gs k . [11.B.20]
p
k 1
k 1
k I n Gs k
s k
k I n i 1 0n1 ts k i ts k i 1... ts k i p 1
p
k 1 i 1
sk
k i 1 0n1 ts k i ts k i 1... ts k i p 1 .
p
k 1 i 1
Para cualquier valor dado para k y i, define v = k + i. Cuando i = l, entonces v = k + l; cuando
i = 2, entonces v = k + 2; y así:
k I n Gsk
k 1
k 1 v k 1
k v k 1
I G
1
n s
k 1 v 2
[11.B.21]
k v 1 0n1 ts v ts v 1... ts v p 1
s p
v 2 k 1
s
p
k v 1 0n1 ts v ts v 1... ts v p 1
v 2 k 1
v2
En virtud de [11.8.12]. Si el primer término en el lado derecho de [11.B.20] se añade a [11.B.21], el
resultado es
I n 0n1 ts 1 ts 2 ... ts p I n Gv
p
1
v2
v 1
Como se afirma en [11.7.14]. Similarmente, si es un elemento de , entonces no tiene efecto
sobre s , y su influencia en B0t es dado por
Apilar [11.B.24] horizontalmente con representando cada uno de los elementos de vech
produce así
hs B
H s B0t S B
t
,
vech ' vech '
Como se afirma en [11.7.15]. ■
Capítulo 11 Ejercicios
los de la segunda representación i ,i , i , i , 1 ? ¿Cuál es la relación entre i y ui ?
2
Capítulo 11 Referencia
Ashley, Richard. 1998. “On the Relative Worth of Recent Macroeconomic Forecasts”. International
Journal of Forecasting 4:363-76.
Baillie, Richard T.1987. “Inference in Dynamic Models Containing Surprise Variables” Journal of
Econometric 35:101-17.
Bernanke, Ben. 1986. “Alternative Explanations of the Money-Income Correlation.” Carnegie-
Rochester Conference Series on Public Policy 25:49-100.
Blanchard. Olivier. 1989. “A Traditional Interpretation of Macroeconomic Fluctuations.” American
Economic Review 79:1146-64.
And Peter Diamond. 1989. “The Beveridge Curve.” Brookings Papers on Economic Activity II:
1990, 1-60.
And 1900. “The Cyclical Behavior of the Gross Flows of U.S. Workers.” Brookings Papers
on Economic Activity I: 1989, 85-155.
And Danny Quah. 1989. “The Dynamic Effects of Aggregate Demand and Aggregate Supply
Disturbances.” American Economic Review 79:655-73
And Mark Watson. 1986. “Are Business Cycle. Chicago: Chicago University of Chicago Press.
Bouissou, M. B., J. J. Laffont, and Q. H. Vuong. 1986. “Tests of Noncausality under Makov
Assumptions for Qualitative Panel Data.” Econometrica 54:395-414
Christiano, Lawrence J., and Lars Ljungqvist. 1988. “Money Does Granger- Cause Output in the
Bivariante Money-Output Relation.” Journal of Monetary Economics 22:217-35.
Análisis Bayesiano
En el capítulo anterior se observó que, debido a que muchos parámetros se estiman en una
autorregresión vectorial, los errores estándar para inferencias pueden ser grandes. Las estimaciones
se pueden mejorar si el analista tiene información sobre los parámetros más allá de la contenida en
la muestra. La estimación bayesiana proporciona un marco conveniente para incorporar
información previa con tanto peso como el analista considere que merece.
La sección 12.1 introduce los principios básicos que subyacen al análisis bayesiano y los
utiliza para analizar un modelo de regresión estándar o una autorregresión univariable. Las
autorregresiones vectoriales se discuten en la Sección 12.2. Para las especificaciones de las secciones
12.1 y 12.2, los estimadores bayesianos se pueden encontrar analíticamente. Los métodos
numéricos que pueden utilizarse para analizar problemas estadísticos más generales a partir de un
marco bayesiano se examinan en la Sección 12.3.
1 −(𝑦𝑡 −𝜇)2
𝑓(𝑦; 𝜃) = ∏𝑇𝑡=1 𝑒𝑥𝑝 [ ] [12.1.1]
√2𝜋𝜎 2 2𝜎 2
En las estadísticas bayesianas, por contraste, 𝜃 se considera como una variable aleatoria.
Toda inferencia acerca de 𝜃 toma la forma de declaraciones de probabilidad, tales como "sólo hay
una probabilidad de 0.05 que 𝜃1 es mayor que cero". La opinión es que el analista siempre tendrá
cierta incertidumbre acerca de 𝜃 , y El objetivo del análisis estadístico es describir esta
incertidumbre en términos de una distribución de probabilidad. Cualquier información que el
analista tenía sobre 𝜃 antes de observar los datos está representada por una densidad anterior 𝑓(𝜃)
1. Las declaraciones de probabilidad que el analista pudo haber hecho sobre 𝜃 antes de observar los
datos pueden expresarse como integrales de 𝑓(𝜃) ; Por ejemplo, la sentencia anterior se expresaría
1 A lo largo de este capítulo omitiremos el subíndice que indica la variable aleatoria cuya densidad está siendo descrita; Por ejemplo, 𝑓𝜃 =
(𝜃) simplemente se denotará 𝑓(𝜃). La variable aleatoria cuya densidad se está describiendo siempre debe estar clara desde el contexto y
el argumento de 𝑓(. ).
Las declaraciones de probabilidad que se harían sobre 𝜃 después de que los datos y se han
observado se basan en la densidad posterior de 𝜃 , que está dada por
𝑓(𝑦,𝜃)
𝑓(𝜃|𝑦) = [12.1.3]
𝑓(𝑦)
∞
Recordando [12.1.2] y el hecho de que 𝑓(𝑦) = ∫−∞ 𝑓(𝑦, 𝜃)𝑑𝜃 la ecuación [12.1.3] puede escribirse
como
𝑓(𝑦|𝜃 ).𝑓(𝜃)
𝑓(𝜃|𝑦) = ∞
∫−∞ 𝑓(𝑦|𝜃 ).𝑓(𝜃)𝑑𝜃
[12.1.4]
Que se conoce como la ley de Bayes. En la práctica, la densidad posterior se puede encontrar a
veces simplemente reorganizando los elementos en [12.1.2] como
Donde 𝑓(𝑦) es una densidad que no implica 𝜃; El otro factor, 𝑓(𝜃|𝑦), es entonces la
densidad posterior.
Donde 1 denota un vector (T x 1) de 1s. Aquí 𝜇 se considera como una variable aleatoria.
Para mantener el ejemplo simple, asumiremos que la varianza 𝜎 2 se conoce con certeza.
Supongamos que la información previa sobre 𝜇 está representada por la distribución anterior
𝜇 ~𝑁(𝑚, 𝜎 2 ⁄𝑣 ):
1 −(𝜇−𝑚)2
𝑓(𝜇; 𝜎 2 ) = (2𝜋𝜎2 ⁄𝑣)1⁄2 𝑒𝑥𝑝 [ ] [12.1.6]
2𝜎2 ⁄𝑣
Aquí m y v son parámetros que describen la naturaleza y calidad de la información previa sobre 𝜇.
El parámetro m se puede interpretar como la estimación de 𝜇 que el analista habría realizado antes
de observar y, con 𝜎 2 ⁄𝑣 la EEM de esta estimación. Expresar este MSE como un múltiplo (1⁄𝑣 )
de la varianza de la distribución para 𝑦𝑡 resulta para simplificar algunas de las expresiones que
siguen. Una mayor confianza en la información previa sería representada por valores mayores de v.
Para hacer la idea de una distribución anterior más concreta, supongamos que antes de observar y el
analista había obtenido anteriormente una muestra de N observaciones separadas 𝑧𝑖 =
{1,2, , … … . , 𝑁}de la distribución 𝑁(𝜇, 𝜎 2 ). Sería entonces natural tomar m como la media de esta
1 −1⁄2 −1
𝑓(𝑦; 𝜎 2 ) = (2𝜋𝜎2)𝑇⁄2 |𝐼𝑇 + 1. 1´ ⁄𝑣| . 𝑒𝑥𝑝 {[−1⁄(2𝜎 2 )](𝑦 − 𝑚. 1)´ (𝐼𝑇 + 1. 1´ ⁄𝑣) (𝑦 − 𝑚. 1)}
[12.1.8]
𝑣 𝑇
𝑚∗ = ( )𝑚 + ( ) 𝑦̅ [12.1.9]
𝑣+𝑇 𝑣+𝑇
Con una función de pérdida cuadrática, la estimación bayesiana de 𝜇 es el valor 𝜇̂ que minimiza
𝐸(𝜇 − 𝜇̂ )2 . Aunque esta es la misma expresión que la MSE clásica, su interpretación es diferente.
Desde la perspectiva bayesiana, 𝜇 es una variable aleatoria con respecto a cuya distribución se toma
la expectativa, y 𝜇̂ es un valor candidato para la estimación. El valor óptimo para 𝜇̂ es la media de la
distribución posterior descrita en la Proposición 12.1:
𝑣 𝑇
𝜇̂ = ( )𝑚 + ( ) 𝑦̅
𝑣+𝑇 𝑣+𝑇
Este es el promedio ponderado de la estimación que utilizaría el estadístico clásico (𝑦̅) y una
estimación basada únicamente en información previa (m). Los valores mayores de v corresponden a
una mayor confianza en la información previa, y esto haría que la estimación bayesiana se acercara a
m. Por otra parte, cuando v se aproxima a cero, la estimación bayesiana se aproxima a la estimación
clásica 𝑦̅.El límite de [12.1.6] como 𝑣 → 0 se conoce como densidad anterior difusa o impropia. En
este caso, la calidad de la información previa es tan escasa que la información previa es
completamente ignorada en la formación de la estimación 𝜇̂ .
𝑦𝑡 = 𝑋𝑡´ 𝐵 + 𝑢𝑡
𝑦1 𝑥 ´1
𝑦2 ´
𝑦(𝑇×1) =[ ] 𝑋(𝑇×𝑘) = 𝑥2
⋮ ⋮
𝑦𝑇
[𝑥 ´ 𝑇 ]
1 1
= (2𝜋𝜎2 )𝑇⁄2 𝑒𝑥𝑝 {[− 2𝜎2 ] (𝑦 − 𝑋𝛽)´ (𝑦 − 𝑋𝛽)} [12.1.10]
Supongamos que la información previa sobre 𝛽 está representada por una distribución
𝑁(𝑚, 𝜎 2 𝑀):
1 1
𝑓(𝛽; 𝜎 2 ) = (2𝜋𝜎2 )𝑘⁄2 |𝑀|−1⁄2 𝑒𝑥𝑝 {[− 2𝜎2 ] (𝛽 − 𝑚)´ 𝑀−1 (𝛽 − 𝑚)} [12.1.11]
Por lo tanto, antes de la observación de la muestra, la mejor estimación del analista en cuanto al
valor de 𝛽 está representada por (𝑘×1) 𝑒𝑙 𝑣𝑒𝑐𝑡𝑜𝑟 m, y la confianza en esta suposición se resume
(𝑘×𝑘) en la matriz 𝜎 2 𝑀; Menos confianza está representada por mayores elementos diagonales de
M. El conocimiento sobre las variables exógenas X se presume que no tiene ningún efecto sobre la
distribución anterior, de modo que [12.1.11] también describe 𝑓(𝛽|𝑋; 𝜎 2 ).
1 1⁄2
𝑓(𝛽|𝑦, 𝑋; 𝜎 2 ) = (2𝜋𝜎2 )𝑘⁄2 |𝑀−1 + 𝑋 ´ 𝑋| [12.1.12]
1 −1⁄2
𝑓(𝑦|𝑋; 𝜎 2 ) = (2𝜋𝜎2 )𝑇⁄2 |𝐼𝑇 + 𝑋𝑀𝑋 ´ | [12.1.13]
−1
×𝑒𝑥𝑝 {[−1⁄(2𝜎 2 )](𝑦 − 𝑋𝑚)´ (𝐼𝑇 + 𝑋𝑀𝑋 ´ ) (𝑦 − 𝑋𝑚)}
Si la expectativa previa del analista es que todos los coeficientes son cero (𝑚 = 0) y esta afirmación
se hace con la misma confianza para cada coeficiente (𝑀−1 = 𝜆𝐼𝑘 𝑝𝑎𝑟𝑎 𝜆 > 0), entonces el
estimador bayesiano [12.1.14] es
−1
𝑚∗ = (𝜆. 𝐼𝑘 + 𝑋 ´ 𝑋) 𝑋 ´ 𝑦 [12.1.15]
Y la varianza es
2
𝐸(𝑊 2 ) − [𝐸(𝑊)]2 =N.{𝐸(𝑍𝑖4 ) − [𝐸(𝑍𝑖2 )] } [12.1.17]
г(𝑁⁄2)=1.2.3…….[(𝑁⁄2) − 1]
1 35
г(𝑁⁄2)=√𝜋. . . ……..[(𝑁⁄2) − 1]
2 22
1
Con г(2)=√𝜋.
Recordando [12.1.16], la relación 𝑁⁄𝜆 es el valor esperado para 𝜎 −2 sobre la base de información
previa. Como veremos en breve en la Proposición 12.3 si la información previa se basa en una
muestra anterior de observaciones {𝑧1 , 𝑧2 , … … . . , 𝑧𝑁 }, el parámetro N resulta para describir el
tamaño de esta muestra anterior y 𝜆 es la suma anterior de cuadrantes de la muestra. Para una razón
dada de 𝑁⁄𝜆, valores mayores para N implican mayor confianza en la información previa.
1
×𝑒𝑥𝑝 {[− ] (𝛽 − 𝑚)´ 𝑀−1 (𝛽 − 𝑚)}
2𝜎 2
Así, 𝑓(𝛽|𝜎 −2 , 𝑋), la densidad previa conjunta para 𝛽 y 𝜎 −2 , está dada por el producto de
[12.1.19] y [12.1.20]. La distribución posterior 𝑓(𝛽, 𝜎 −2 |𝑦, 𝑋), se describe mediante la siguiente
proposición.
Proposición 12.3: Sea la densidad anterior 𝑓(𝛽, 𝜎 −2 |𝑋), dada por el producto de [12.1.19] y
[12.1.20], y deje que la probabilidad de la muestra sea
1 1
𝑓(𝑦|𝛽, 𝜎 −2 , 𝑋)=(2𝜋𝜎2 )𝑇⁄2 𝑒𝑥𝑝 {[− ] (𝑦 − 𝑋𝛽)´ (𝑦 − 𝑋𝛽)} [12.1.21]
2𝜎 2
con
−1
𝑚∗ = (𝑀−1 + 𝑋 ´ 𝑋) (𝑀−1 𝑚 + 𝑋 ´𝑦 ) [12.1.24]
−1
𝑀∗ = (𝑀−1 + 𝑋 ´ 𝑋) [12.1.25]
Con
𝑁∗ = 𝑁 + 𝑇 [12.1.27]
(b) La distribución marginal posterior de 𝛽 es una distribución t de k-dimensional con 𝑁 ∗ grados de libertad, media
𝑚∗ y matriz de escala (𝜆∗⁄𝑁 ∗ ). 𝑀∗ :
г[(𝑘+𝑁 ∗ )⁄2]
𝑓(𝛽|𝑦, 𝑋) = {(𝜋𝑁∗ )𝑘⁄2 |(𝜆∗⁄𝑁 ∗ )𝑀∗ |−1⁄2 ×[1 + (1⁄𝑁 ∗ )(𝛽 − 𝑚∗ )´ [(𝜆∗⁄𝑁 ∗ )𝑀∗ ]−1 (𝛽 −
г(𝑁∗ ⁄2)
−(𝑘+𝑁∗ )⁄2
𝑚∗ )] } [12.1.29]
(c) Sea R una matriz conocida (m x k) con filas linealmente independientes, y defina
−1 ´ −1
[𝑅(𝛽−𝑚∗ )]´ [𝑅(𝑀 ´ +𝑋 ´ 𝑋) 𝑅 ] [𝑅(𝛽−𝑚∗ )]⁄𝑚
𝑄= 𝜆∗ ⁄𝑁 ∗
[12.1.30]
Que es idéntico al estimado derivado en la Proposición 12.2 para el caso donde 𝜎 2 es conocido.
Una vez más, para la información anterior difusa, 𝑚∗ = 𝑏, la estimación de MCO.
El resultado (c) describe la perspectiva bayesiana sobre una hipótesis sobre el valor de 𝑅𝛽,
donde la matriz R caracteriza qué combinaciones lineales de los elementos de 𝛽 son de interés. Un
estadístico clásico pondría a prueba la hipótesis de que 𝑅𝛽 = г mediante el cálculo de una
estadística F OLS,
−1 −1
(𝑅𝑏 − г)´ [𝑅(𝑋 ´ 𝑋) 𝑅´ ] (𝑅𝑏 − г)⁄𝑚
𝑠2
Y evaluar la probabilidad de que una variable 𝐹(𝑚, 𝑇 − 𝑘) pueda ser igual o superior a esta
magnitud. Esto representa la probabilidad de que el valor estimado de Rb pueda estar en la medida
en que se observa que es de r dado que el valor verdadero de 𝛃 satisface 𝐑𝛃 = 𝐫. Por el contrario,
un Bayesiano considera 𝐑𝛃 como una variable aleatoria, cuya distribución se describe en el
resultado (c). Según [12.1.30], la probabilidad de que 𝐑𝛃 sea igual a r está relacionada con la
probabilidad de que una variable 𝐹(𝑚, 𝑁 ∗ ) asuma el valor
Que se comparará en este caso con una distribución 𝐹(𝑚, 𝑇). Recordando que
(𝑦 − 𝑋𝑏)′ (𝑦 − 𝑋𝑏)
𝑠2 = ,
𝑇−𝑘
Parece que, aparte de una diferencia menor en los grados de libertad del denominador, el estadístico
clásico y el bayesiano con una distribución anterior difusa calcularían esencialmente el estadístico de
prueba idéntico y lo compararían con el mismo valor crítico al evaluar la plausibilidad de la
hipótesis Representado por Rβ=r.
Obsérvese en particular que los resultados (b) y (c) de la Proposición 12.3 describen las
distribuciones exactas posteriores de la pequeña muestra, incluso cuando (x) contiene variables
dependientes rezagadas. Por el contrario, un estadístico clásico consideraría que las pruebas t y F
habituales sólo son válidas asintóticamente.
Aquí R denota una matriz no singingular conocida (k x k) cuyas filas representan combinaciones
lineales de (β) en términos de las cuales es conveniente describir la información previa del analista.
Por ejemplo, si la expectativa previa es que (𝛽1 = 𝛽2 ) entonces la primera fila de R podría ser (1, -1,
0, ..., 0) y el primer elemento de r sería cero.
El elemento (1, 1) de V refleja la incertidumbre de esta información previa. Si (𝛽)~ 𝑁(𝑚, 𝜎 2 𝑀)Por
lo tanto Rβ~𝑁(𝑅𝑚, 𝜎 2 𝑅𝑀𝑅′) . la relación entre los parámetros para la distribución previa
expresada en [12.1.34] (R, ry V) y los parámetros para la distribución previa expresada en [12.1.20]
(m y M) está dada por
𝑟 = 𝑅𝑚
| [12.1.35]
V=RMR’ , [12.1.36]
Usando las ecuaciones [12.1.35] y [12.1.38], la media posterior [12.1.33] puede ser reescrita como
−1 −1
𝑚∗ = (𝑅 ′𝑉 𝑅 + 𝑋 ′ 𝑋) (𝑅′𝑉 −1 𝑟 + 𝑋′𝑣) [ 12.1.39]
Para obtener otra perspectiva en [12.1.39], observe que la distribución anterior [12.1.34] puede
escribirse
𝑟 = 𝑅𝛽 + 𝜖 [12.1.40]
Donde 𝜖~𝑁(0, 𝜎 2 𝑉). Esta es de la misma forma que las ecuaciones de observación del modelo de
regresión,
𝑦 = 𝑋𝛽 + 𝑢 [12.1.41]
𝑦 ∗ = 𝑋 ∗ 𝛽 + 𝑢∗ , [12.1.42]
Donde
𝑦∗ 𝑟 𝑋∗ 𝑅
=[ ] =[ ]
(𝑇 + 𝑘) 𝑥 𝑡 𝑦 (𝑇 + 𝑘) 𝑥 𝑘 𝑋
𝑉 0
𝐸(𝑢∗ 𝑢∗ ′) = 𝜎 2 𝑉 ∗ = 𝜎 2 [ ]
0 𝐼𝑇
El estimador GLS para el sistema apilado es
La discusión anterior suponía que R era una matriz no singular (k x k). En algunas ocasiones el
analista puede tener información valiosa sobre algunas combinaciones lineales de coeficientes pero
no sobre otras. Por lo tanto, supongamos que la distribución anterior [12.1.34] se escribe como
𝑅1 𝑟1 𝑉 0
[ ] 𝛽 ~ 𝑁([ ] , 𝜎 2 [ 1 ])
𝑅2 𝑟2 0 𝑉2
Donde (𝑅1 ) es una matriz (m x k) que consiste en aquellas combinaciones lineales para las cuales la
información previa es buena y (𝑅2 ) es una matriz {(k-m) x k}de las combinaciones lineales
restantes. Entonces la información previa difusa sobre aquellas combinaciones lineales descritas por
(𝑅2 ) podría ser representada por el límite como (𝑉2−1 → 0), para el cual
𝑉 −1 0 ′ −1
𝑅 ′ 𝑉 −1 = [𝑅 ′1 𝑅 ′ 2 ] [ 1 −1 ] → [𝑅1 𝑉1 0]
0 𝑉2
Para esta especificación, (𝜔𝑠 ) tiene la interpretación como 𝜕𝑦𝑡 /𝜕𝑥𝑡−𝑠 algunos han argumentado
que esto debería ser una función suave de s; Ver Almon (1965) y Shiller (1973) por ejemplo.
Cualquiera que sea el mérito de esta visión, es difícil justificar la imposición de una condición de
𝑝 𝑝
suavidad en las secuencias {𝜔𝑠 }𝑠=1 𝑜 {𝜙𝑠 }𝑠=1 en un modelo con término autorregresivo como
Ya que aquí el multiplicador dinámico (𝜕𝑦𝑡 /𝜕𝑥𝑡−𝑠 ) es una función no lineal complicada de
𝜙′𝑠 y 𝜔′𝑠.
𝑦𝑡 − 𝑦𝑡−1 = 𝑐 + 𝜖 [12.2.2]
Donde ϵ, no está correlacionada con valores rezagados de cualquier variable. La teoría económica
predice tal comportamiento para muchas series de tiempo. Por ejemplo, supongamos que (y) es el
logaritmo del precio real de algún activo en el momento t, es decir, el precio ajustado por la
inflación. Entonces 𝑦𝑡 - 𝑦𝑡−1 es aproximadamente la tasa de retorno real de comprar el activo en t -
1 y venderlo en t. En una extensión del argumento de los mercados eficientes de Fama (1965)
descrito en la Sección 11.2, los especuladores habrían comprado más activos en el momento t-1 si
hubieran esperado rendimientos inusualmente altos, impulsando (t-1) en relación con el valor
anticipado de 𝑦𝑡 La trayectoria temporal para (𝑦𝑡 ) que resulta de tal especulación presentaría
cambios de precios que son impredecibles. Por lo tanto, podemos esperar que los precios reales de
artículos tales como acciones, bienes raíces o metales preciosos satisfagan [12.2.2]. Hall (1978)
sostuvo que el nivel de gasto de los consumidores también debe satisfacer [12.2.2], mientras que
Barro (1979) y Mankiw (1987) desarrollaron argumentos relacionados con los impuestos
recaudados y el nuevo dinero emitido por el gobierno. Los cambios en los tipos de cambio también
son impredecibles por muchos; Ver las pruebas revisadas en Diebold y Nason (1990).
(𝑠) (1)
Donde (𝜙𝑖𝑗 )da el coeficiente relativo (𝑦𝑖 𝑡 ) a (𝑦𝑗 𝑖−𝑠 ). La restricción [12.2.2] requiere (𝜙𝑖𝑗 )
(𝑠)
y todos los demás (𝜙𝑖𝑗 ) .Estos valores (0 o 1) caracterizan entonces la media de la distribución
anterior de los coeficientes. Litterman utilizó una distribución difusa anterior para el término
constante 𝑐𝑖 .
Litterman tomó la matriz de varianza-covarianza para que la distribución anterior fuera diagonal,
(𝑝)
con (𝛾) denotando la desviación estándar de la distribución anterior para 𝜙𝑖1 :
(𝑝)
𝜙𝑖1 ~ 𝑁(1, 𝛾 2 ).
Aunque cada ecuación i=1,2,,,,,,,,n del VAR se estima por separado, típicamente se utiliza el mismo
número (𝛾) para cada i. Un valor menor para (i) representa mayor confianza en la información
previa y obligará a las estimaciones de parámetros a estar más cerca de los valores predichos en
[12.2.2]. Un valor de (𝛾) = 0,20 significa que, antes de ver los datos, el analista tenía 95% de
(𝑠)
confianza de que (𝜙𝑖𝑗 )no es menor que 0,60 y no mayor que 1,40.
Se predice que los coeficientes relativos (𝛾𝑖𝑡 ) a los rezagos posteriores son cero, y Litterman
argumentó que el analista debería tener más confianza en esta predicción cuanto mayor sea el
(𝑠) 𝛾 (𝑝) (𝑝) 𝛾
retraso. Por lo tanto, sugirió tomar (𝜙𝑖𝑗 )~𝑁(0, (3)2 ), 𝜙𝑖𝑗 ,..., y (𝜙𝑖𝑗 )~𝑁(0, (𝑝)2 , endureciendo
la distribución anterior con una serie armónica para la desviación estándar a medida que aumenta el
desfase.
(𝑠)
Obsérvese que los coeficientes 𝜙𝑖𝑗 son invariables en escala; Si cada valor de (𝑦𝑖 𝑡 ) se multiplica por
(𝑝) (𝑝)
100, los valores de 𝜙𝑖𝑗 serán iguales. Lo mismo no ocurre con 𝜙𝑖𝑗 para (i ≠ j); Si la serie i se
(𝑠)
multiplica por 100 pero la serie j no lo es, entonces se multiplicará por (𝜙𝑖𝑗 ). Por lo tanto, al
(𝑠)
calcular el peso que debe darse la información previa sobre (𝜙𝑖𝑗 ), un ajuste para las unidades en las
que los datos son Medido es necesario. Litterman propuso utilizar la siguiente desviación estándar
(𝑠)
de la distribución anterior para (𝜙𝑖𝑗 ):
𝑤. 𝛾. 𝜏̂ 𝑖
𝑠. 𝜏̂𝑗
[12.2.4]
Aquí (𝜏̂ 𝑖 /𝜏̂𝑗 ) es una corrección para la escala de la serie i en comparación con la serie j. Litterman
sugirió que (𝜏̂ 𝑖 ) podría estimarse a partir de la desviación estándar de los residuos de una regresión
OLS de (𝑦𝑖 𝑡 ) sobre una constante y en p de sus propios valores rezagados. Aparte de esta
corrección de escala, [12.2.4] simplemente multiplica (𝛾/𝑠) (que fue la desviación estándar para la
(𝑠)
distribución anterior de (𝜙𝑖𝑗 ) por un parámetro w. La experiencia común con muchas series de
tiempo es que los propios valores rezagados (𝑦𝑖 𝑡−𝑠 ). Probablemente sean de mayor ayuda en la
(𝑠)
predicción 𝜙𝑖𝑗 que los valores de otras variables (𝑦𝑖 𝑡−𝑠 ). Por lo tanto, deberíamos tener más
(𝑠)
confianza en la creencia previa de que 𝜙𝑖𝑗 = 0 que la creencia anterior de que w = 0, lo que sugiere
un valor de w que es menor que 1. Doan (1990) recomendó un valor de w = 0.5 in Concierto con
(𝛾) = 0,20.
Hay que señalar varias precauciones al emplear esta distribución previa. En primer lugar, para
algunas series, la expectativa natural previa podría ser que la serie sea ruido blanco en lugar de una
𝑓(𝑦|𝜃). 𝑓(𝜃)
𝑓(𝑦|𝜃) =
𝑓(𝑦)
[12.3.1]
Tenga en cuenta que si el objetivo es maximizar [12.3.2] con respecto a (𝜃), no es necesario calcular
𝑓(𝑦), ya que esto no depende de (𝜃). El modo posterior se puede encontrar así maximizando
Donde (𝜃) es un vector (a x 1) de parámetros y g: 𝑅′′ → 𝑅′ es una función de interés. Por ejemplo,
si 𝑔(𝜃) = 𝜃𝑡 , entonces [12.3.4] es la media posterior del primer parámetro, mientras que 𝑔(𝜃) =
𝜃𝑡 2 ) da el segundo momento. La expresión [12.3.1] se puede utilizar para escribir [12.3.4] como
∞ ∞
∫ 𝑔(𝜃). 𝑓(𝑦|𝜃)𝑑(𝜃) ∫−∞ 𝑔(𝜃). 𝑓(𝑦|𝜃)𝑑(𝜃)
𝐸[𝑔(𝜃)|𝑦] = −∞ = ∞ ,
𝑓(𝑦) ∫ 𝑓(𝑦|𝜃)𝑓(𝜃) 𝑑(𝜃)
−∞
[12.3.5]
Define
Sea (𝜃 ∗) el valor que maximice [12.3.6], y considere una aproximación de la serie de Taylor de
segundo orden a ℎ(𝜃) alrededor de (𝜃 ∗):
𝜕ℎ(𝜃) 1 𝜕 2 ℎ(𝜃)
ℎ(𝜃) ≅ ℎ(𝜃 ∗ ) + | . (𝜃 − 𝜃 ∗)
+ (𝜃 − 𝜃 ∗ )′{
| }(𝜃 − 𝜃 ∗ )
𝜕𝜃 ′ 𝜃−𝜃∗ 2 𝜕𝜃𝜕𝜃 ′ 𝜃−𝜃∗
[12.3.9]
donde
∞ 1 1
= exp[𝑇. ℎ(𝜃 ∗ )](2𝜋)𝑎/2 |𝛴∗ /𝑇|1/2 x ∫−∞ (2𝜋)𝑎/2 |𝛴 ∗ /𝑇|1/2 exp{− 2 (𝜃 − 𝜃 ∗ )′(𝛴 ∗ /𝑇)−1 (𝜃 −
𝜃 ∗ )} 𝑑(𝜃)
La última igualdad sigue porque la expresión que está siendo integrada es una densidad 𝑁(𝜃 ∗ ; Σ ∗ /
𝑇) y por lo tanto se integra a la unidad.
Similarmente, la función 𝑘(𝜃) puede ser aproximada con una expansión alrededor del modo
posterior (𝜃̂),
|𝛴 ∗ |1/2
= 1/2
exp{𝑇. [ℎ(𝜃 ∗ ) − 𝑘(𝜃̂)]}
|𝛴̂ |
. [12.3.15]
Para calcular esta aproximación a la media posterior de 𝑔(𝜃), primero encontramos el valor (𝜃 ∗)
que maximiza (1/𝑇). {𝑙𝑜𝑔𝑔(𝜃) + 𝑙𝑜𝑔𝑓(𝑦|𝜃) + 𝑙𝑜𝑔𝑓(𝜃)}. Entonces ℎ(𝜃 ∗ ) en [12.3.5] es el valor
máximo alcanzado para esta función y (𝛴 ∗ ) es el negativo de la inversa de la matriz de las segundas
derivadas de esta función. A continuación encontramos el valor (𝜃̂) que maximiza (1/
𝑇). {𝑙𝑜𝑔𝑓(𝑦|𝜃) + 𝑙𝑜𝑔𝑓(𝜃)}, con 𝑘(𝜃̂) el valor máximo alcanzado y (𝛴̂) el negativo de la inversa
de la matriz de derivadas secundarias.
1 1
𝑓(𝑦, 𝜇; 𝜎 2 ) = |𝛴|−1/2 exp {− 𝛼 ′ 𝛴 −1 𝛼}
(2𝜋)(𝑇+1)/2 2
[12.A.1]
Donde
𝛼 𝜇−𝑚
=[ ]
(𝑇 + 𝑡)𝑥𝑡 𝑦 − 𝜇. 1
[12.A.2]
𝛴 𝜎 2/𝑣 0′
=[ ]
(𝑇 + 𝑡)𝑥(𝑇 + 𝑡) 0 𝜎 2 𝐼𝑇
[12.A.3]
[12. A. 4]
𝜇 − 𝑚∗
=[ ]
𝑦 − 𝑚. 1
= 𝛼∗
y
𝜎 2 /(𝑣 + 𝑇) 0′
=[ ]
1/𝑣 𝜎 (𝐼𝑇 + 𝐼. 𝐼 ′ /𝑣)
2
= 𝛴∗
[12.A.6]
Por lo tanto,
1 −1′ /(𝑣 + 𝑇) 1 0′
𝐴=[ ] [ ]
0 𝐼𝑇 1 𝐼𝑇
Cada una de estas matrices triangulares tiene 1s a lo largo de la diagonal principal y por lo tanto
tiene unidad determinante, lo que implica que |𝐴| = 1. Por lo tanto,
−1/2 −1/2
1 𝜎2 2
𝐼. 𝐼 ′ 1(𝜇 − 𝑚∗ )2
= 𝑇+1 [𝑣 + 𝑇 ] . |𝜎 (𝐼𝑇 + 𝑥 exp {−
)|
𝑣 2𝜎 2
(2𝜋) 2
𝑣+𝑇
𝐼. 𝐼 ′
(𝑦 − 𝑚. 1)′(𝐼𝑇 + 𝑣 )(𝑦 − 𝑚. 𝐼)
− }
2𝜎 2
[12.A.9]
𝛼 𝛽−𝑚
=[ ]
(𝑇 + 𝑡)𝑥𝑡 𝑦 − 𝑋𝛽
𝛴 𝜎2𝑀 0
=[ ]
(𝑇 + 𝑘)𝑥(𝑇 + 𝑘) 0 𝜎 2 𝐼𝑇
−1
(𝑀−1 + 𝑋 ´ 𝑋) 𝑀−1 0
=[ ]
2
0 𝜎 𝐼𝑇
Así, A tiene determinante de unidad y
𝛽 − 𝑚∗
𝐴𝛼 = [ ]
𝑦 − 𝑋𝑚
con
−1
𝜎 2 (𝑀−1 + 𝑋 ´ 𝑋) 0
𝐴𝛴𝐴′ = [ ]
0 𝜎 2 (𝐼𝑇 + 𝑋𝑀𝑋′)
Así, como en la ecuación [12.A.9],
−1 −1/2
2)
1 𝜎 2 (𝑀−1 + 𝑋 ´ 𝑋) 0
𝑓(𝑦, 𝛽|𝑋; 𝜎 = (𝑇+𝑘)/2
| |
(2𝜋) 0 2 (𝐼
𝜎 𝑇 + 𝑋𝑀𝑋′)
1 𝛽 − 𝑚∗ ′ 𝜎 2 (𝑀−1 + 𝑋 ´ 𝑋)−1 0 𝛽 − 𝑚∗
x exp {− [ ] | |[ ]} .
2 𝑦 − 𝑋𝑚 0 𝜎 2 (𝐼𝑇 + 𝑋𝑀𝑋′) 𝑦 − 𝑋𝑚
Los dos primeros términos del lado derecho son idénticos a [12.1.10] y [12.1.11]. Así, la
Proposición 12.2 puede usarse para escribir [12.A.10] como
𝑓(𝑦, 𝛽, 𝜎 2 |𝑋)
1 1
{ 2 𝑘/2
|𝑀∗ |1/2 exp {[− 2 ] (𝛽 − 𝑚∗ )′(𝑀∗ )−1 (𝛽 − 𝑚∗ )}}
(2𝜋𝜎 ) 2𝜎
1
𝑥{ |𝐼 + 𝑋𝑀𝑋′|−1/2
(2𝜋𝜎 2 )𝑇/2 𝑇
1
x exp {[− ] (𝑦 − 𝑋𝑚)′(𝐼𝑇 + 𝑋𝑀𝑋′)−1 (𝑦 − 𝑋𝑚)}}
2𝜎 2
𝜆 𝑁
−2|( )−1|
(2)𝑁/2 𝜎 2 𝑒𝑥𝑝[−𝜆𝜎 −2 /2]
𝑥{ }
𝑁
𝑇( 2 )
[12.A.11]
Mostraremos más adelante que este es el mismo que el valor (𝜆∗) descrito en la proposición. Para
𝑁 ∗ = 𝑁 + 𝑇 , la densidad [12.A.11] se puede escribir como
𝑓(𝑦, 𝛽, 𝜎 −2 |𝑋)
1 1
={ 2 𝑘/2
|𝑀∗ |1/2 exp {[− 2 ] (𝛽 − 𝑚∗ )′(𝑀∗ )−1 (𝛽 − 𝑚∗ )}}
(2𝜋𝜎 ) 2𝜎
𝜆
∗ /2)−1|
𝜎 −2|(𝑁 ( )𝑁/2
𝑥{ 2 |𝐼𝑇 + 𝑋𝑀𝑋 ′ |−1/2 𝑒𝑥𝑝[−𝜆∗ 𝜎 −2 /2]}
𝑇 𝑁
(2𝜋)2 𝑇( )
2
1 1
={ 2 𝑘/2
|𝑀∗ |1/2 exp {[− 2 ] (𝛽 − 𝑚∗ )′(𝑀∗ )−1 (𝛽 − 𝑚∗ )}}
(2𝜋𝜎 ) 2𝜎
∗ /2)−1| 𝜆∗
𝜎 −2|(𝑁 ( 2 )𝑁/2
𝑥{ 𝑒𝑥𝑝[−𝜆∗ 𝜎 −2 /2]}
𝑁∗
𝑇( 2 )
𝑁∗ 𝜆
𝑇( 2 )(2)𝑁/2
𝑥{ 𝑇 𝑁 𝜆∗
|𝐼𝑇 + 𝑋𝑀𝑋 ′ |−1/2 }
𝑁 ∗ /2
(2𝜋)2 𝑇( )( )
2 2
[12.A.13]
𝑁 𝜆∗ ∗
𝑇( 2 )( 2 )𝑁 /2
𝑓(𝑦|𝑋) = { 𝑇 𝑁 𝜆∗
|𝐼𝑇 + 𝑋𝑀𝑋 ′ |−1/2 }
∗
(2𝜋)2 𝑇( )( )𝑁 /2
2 2
−1 −(𝑁+𝑇)/2
1 𝜆
𝑐 = {1 + ( )(𝑦 − 𝑋𝑚)′ [( )(𝐼𝑇 + 𝑋𝑀𝑋 ′ )] (𝑦 − 𝑋𝑚)}
𝑁 𝑁
donde
−1/2
𝑁+𝑇 1 𝜆
𝑇[ 2 ](𝑁)𝑇/2 |(𝑁)(𝐼𝑇 + 𝑋𝑀𝑋 ′ )|
𝑐= 𝑇 𝑁
𝜋 2 𝑇( 2 )
Como puede comprobarse mediante premultiplicación [12.1.28]. Para verificar que esto es
realmente el caso, observe que
= 𝐼𝑇
Donde los términos de producto cruzado han desaparecido debido a la condición de ortogonalidad
OLS (𝑦 − 𝑋𝑏)′ 𝑋 = 0′ . Además,
(𝑦 − 𝑋𝑏)′ 𝑋 = 0′
1 1
={ 2 𝑘/2
|𝑀∗ |−1/2 exp {[− 2 ] (𝛽 − 𝑚∗ )′(𝑀∗ )−1 (𝛽 − 𝑚∗ )}}
(2𝜋𝜎 ) 2𝜎
𝑁∗ ∗
−2|( )−1| 𝜆∗ 𝑁
𝜎 2 ( )2
𝑥{ 2 exp[−𝜆∗ 𝜎 −2 /2]}
𝑁∗
𝑇( 2 )
(𝑘+𝑁∗ )
−2|| |−1| (𝑘+𝑁 ∗ )/2
2
𝜎 𝜆∗ ∗ )′(𝜆∗ 𝑀∗ )−1 (𝛽 ∗ )]}
= 𝑥 { . [1 + (𝛽 − 𝑚 − 𝑚
𝑇[𝑘 + 𝑁 ∗ )/2] 2
(
𝜆∗
x exp {− . [1 + (𝛽 − 𝑚∗ )′(𝜆∗ 𝑀∗ )−1 (𝛽 − 𝑚∗ )]𝜎 −2 })
2
𝑇[(𝑘 + 𝑁 ∗ )/2]
𝑓(𝛽|𝑦, 𝑋) = { 𝑘 𝐾 𝑁∗
|(𝜆∗ /𝑁 ∗ )𝑀∗ |−1/2 }
(𝑁 ∗ )2 𝜋 2 𝑇( )
2
−1
1 𝜆∗
𝑥 [1 + ( ∗ ) (𝛽 − 𝑚 ) [( ∗ ) 𝑀 ] (𝛽 − 𝑚∗ )]−(𝑘+𝑁)/2 }
∗ ′ ∗
𝑁 𝑁
El cual k-dimensional t density with 𝑁 ∗ degrees of freedom, mean m*, and scale matrix (𝜆∗ /
𝑁 ∗ )𝑀∗ .
𝑚𝜆∗ 𝑚
|( )−1| 𝑚𝜆∗ 𝑞
[ 2 ∗ ]𝑚/2 𝑞 2 exp[− 2 ∗ ]
𝑓(𝑞|𝜎 2 , 𝑦, 𝑋) = 2𝜎 𝑁 𝑚
2𝜎 𝑁
𝑇( 2 )
[12.A.16]
𝑁∗ ∗
−2|( )−1| 𝜆∗ 𝑁
𝜎 2 ( ) 2
𝑥{ 2 exp[−𝜆∗ 𝜎 −2 /2]}
𝑁∗
𝑇( 2 )
𝑁∗ +𝑚
[ ]
𝜆∗ 2
{(𝑁 ∗ + 𝑚𝑞). [ ]}
2(2𝑁 ∗ )
= 𝑚
𝑇( 2 )
{ }
𝑚𝜆∗ 𝑚
|( )−1| 𝑚𝜆∗ 𝑞
[ 2 ∗ ]𝑚/2 𝑞 2 exp[− 2 ∗ ]
= { 2𝜎 𝑁 2𝜎 𝑁
𝑁∗ + 𝑚
𝑇[ ]
2
𝑁∗+𝑚
−2||(
2
)|−1| 𝜆∗ 2
xσ exp[−(𝑁 ∗ + 𝑚𝑞)( )𝜎 /2 }
𝑁∗
[12.A.17]
𝜆∗
Donde 𝑓(𝜎 −2 |𝑞, 𝑦, 𝑋)es una densidad (𝑇(𝑁 ∗ + 𝑚𝑞)( ∗ )) y 𝑓(𝑞|𝑦, 𝑋) es una densidad 𝐹(𝑚, 𝑁 ∗ ).
𝑁
Capítulo 12 Ejercicios
12.1 Deduzca la Proposición 12.1 como un caso especial de la Proposición 12.2.
Capítulo 12 Referencias
Almon, Shirley. 1965. “The Distributed Lag between Capital Appropriations and Expenditures.”
Econometrica 33: 178-96.
Barro, Robert J. 1979. “On the Determination of the Public Debt”. Jorunal of Political Economy
87:940-71.
Degroot, Morris H. 1970. Optimal Statistical Decisions. New York: McGraw-Hill.
Diebol, Francis X. amd James A. Nason 1990. “Nonparametric Exchange Rate Prediction?” Journal
of International Economics 28:315-32.
Doan, Thomas A. 1990. RATS User’s Manual. VAR Econometrics. Suite 612. 1800 Sherman Ave.,
Evanston, IL 60201.
Fama, Eugene F. 1965. “The Behavior of Stock Market Prices”. Journal of Business 38: 34-105.
Geweke, John. 1988a. “The Secular and Cyclical Behavior of Real GDP in 19 OECD Countries,
1957-1983”. Journal of Business and Economic Statistics 6:479-86.
El Filtro de Kalman
Este capítulo presenta algunas herramientas muy útiles nombradas para las contribuciones R.E
Kalman (1960-1963). La idea es expresar un sistema dinámico en una forma particular llamada
representación del estado espacial. El filtro de Kalman es un algoritmo para actualizar
secuencialmente una proyección lineal para el sistema. Entre otros beneficios. Este algoritmo
proporciona una forma de calcular los pronósticos exactos de las muestras finitas y la función de
verosimilitud exacta para los procesos Gaussianos ARMA para factorizar la autocovariancia
matricial generando funciones o densidades espectrales y para estimar las autoregresiones
vectoriales con coeficientes que cambian con el tiempo.
La sección 13.1 describe cómo un sistema dinámico puede escribirse en una forma que pueden ser
analizados usando el filtro de Kalman. El filtro en sí se deriva en la Sección 13.2, y su uso en la
predicción se describe en la Sección 13.3. La sección 13.4 explica cómo para estimar los parámetros
de la población por máxima verosimilitud. Sección 13.5 analiza las propiedades del filtro de Kalman
a medida que crece el tamaño de la muestra y explica cómo el filtro de Kalman está relacionado en
el límite a la representación de Wold y factoring una función generadora de autocovarianza. La
Sección 13.6 desarrolla un algoritmo de suavizado Rithm, que es una forma de utilizar toda la
información de la muestra para formar inferencia sobre el estado no observado del proceso en
cualquier fecha histórica. Sección 13.7 describe errores estándar para inferencias suavizadas y
pronósticos. El uso del filtro de Kalman para estimar sistemas con parámetros variables en el
tiempo es en la sección 13.8.
Supuestos Mantenidos
Sea yt denote un vector (n X 1) de variables observadas a la fecha t. Una clase rica de
modelos dinámicos para y, se puede describir en términos de una posiblemente no observada (r x 1)
vector ξt, conocido como el vector de estado. La representación del espacio la dinámica de y viene
dada por el siguiente sistema de ecuaciones:
donde F, A y H' son matrices de parámetros de dimensión (r x r), (n x k), Y (n x r), respectivamente
y xt es un vector (k x 1) de valores exógenos o predeterminados variables. La ecuación [13.1.1] se
conoce como la ecuación de estado, y [13.1.2] se conoce como la ecuación de observación. El
vector (r x 1) v, y el vector (n x 1) wt, son ruido blanco del vector:
𝑄 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
𝐸(𝑉𝑡 𝑉𝜏´ ) = { [13.1.3]
0 𝑜𝑡𝑟𝑜𝑠
0 389
𝑅 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
𝐸(𝑊𝑡 𝑊𝜏´ ) = { [13.1.4]
0 𝑜𝑡𝑟𝑜𝑠
donde Q y R son (r x r) y (n x n) matrices, respectivamente. Los disturbios vt y wt, se supone que no
están correlacionados en todos los retrasos:
El sistema de [13.1.1] a [13.1.5] se utiliza típicamente para describir una serie finita de observaciones
{y1, y2, . . . , YT} para todas las suposiciones acerca del valor iniciar del vector de estado ξ1.
Suponemos que ξ1 no está correlacionada con cualquier realización de vt, o wt :
La ecuación de estado [13.1.1] implica que ξt puede escribirse como una función lineal de
(𝜉1 , 𝑉2 , 𝑉3 , … 𝑉𝑡 ).
Así, [13.1.6] y [13.1.3] implican que vt no está correlacionada con valores rezagados de ξ:
De forma similar
𝐸(𝑾𝑡 𝝃´𝜏 ) = 0 Para todo 𝞽 = 1, 2, …, T [13.1.10]
𝐸(𝑾𝑡 𝒚1´ ) = 𝐸[𝑾𝑡 (𝑨´𝑿𝜏 + 𝑯´𝝃𝜏 + 𝑾𝜏 )´]
=0 Para todo 𝞽 = t-1, t-2,…, 1 [13.1.11]
´
𝐸(𝑽𝑡 𝒚𝜏 ) = 0 Para todo 𝞽 = t-1, t-2, …, 1 [13.1.12]
𝑦𝑡+1 − µ
𝑦𝑡 − µ
[ ⋮ ] [13.1.14]
𝑦𝑡−𝑝+2 − µ
Ø1 Ø2 … Ø𝑃−1 Ø𝑃 𝑦1 − µ Ɛ𝑡+1
1 0 … 0 0 𝑦𝑡−1 − µ 0
= 0 1 … 0 0 [ … ][ ]
⋮
⋮ ⋮ … ⋮ ⋮ 𝑦𝑡−𝑝+1 − µ
[0 0
0 … 1 0]
Ecuación de observación (n = 1):
𝑦𝑡+1 − µ
𝑦𝑡 − µ
𝑦𝑡 = µ + [1 0 ⋯ 0] [ ⋮ ] [13.1.15]
𝑦𝑡−𝑝+1 − µ
Es decir, especificaríamos
𝑦𝑡 − µ Ø1 Ø2 … Ø𝑃−1 Ø𝑃
𝑦𝑡−1 − µ 1 0 … 0 0
𝝃𝒕 = [ ⋮ ] 𝑭= 0 1 … 0 0
𝑦𝑡−𝑝+1 − µ ⋮ ⋮ … ⋮ ⋮
[0 0 … 1 0]
Ɛ𝑡+1 σ2 0 … 0
0
𝑽𝑡+1 = [ ] 𝑸=[0 0 … 0]
⋮ ⋮ ⋮ … ⋮
0 0 0 … 0
𝒚𝑡 = 𝑦𝑡 𝑨´ = µ 𝑿𝑡 = 1
𝑯´ = [1 0 ⋯ 0] 𝑾𝒕 = 0 𝑹 = 0.
Tenga en cuenta que la ecuación de estado aquí es simplemente la ecuación de diferencia de vector
de primer orden introducido en la ecuación [1.2.5]; F es la misma matriz que aparece en la ecuación
[1.2.3]. La ecuación de observación aquí es una identidad trivial. Así, ya hemos visto que la
representación del espacio de estado [13.1.14] y [13.1.15] es otra forma de resumir el proceso de
AR(p) [13.1.13]. La razón para reescribir un proceso AR (p) en tal forma era obtener un resumen
conveniente de la dinámica del sistema, y esta es la razón básica para estar interesado en la
representación del espacio de estado de cualquier sistema. El análisis de una autoregresión vectorial
utilizando la ecuación [10.1.11] empleo una representación similar de espacio del
estado.
Como otro ejemplo, considere un proceso univariante MA(1)
𝑦𝑡 = µ + Ɛ𝑡 + 𝜃Ɛ𝑡−1 [13.1.16]
Ɛ𝑡+1 0 0 Ɛ𝑡 Ɛ
[ ]= [ ][ ] + [ 𝑡+1 ] [13.1.17]
Ɛ𝑡 1 0 Ɛ𝑡−1 0
0 0
𝐐 = [ ] 𝒚𝑡 = 𝑦𝑡 𝑨´ = µ 𝑿𝑡 = 1
1 0
𝑯´ = [1 𝜃 ] 𝑾𝑡 = 0𝑹 = 0
Hay muchas maneras de escribir un sistema dado en forma de espacio de estado. Por
ejemplo, el MA(1) proceso [13.1.16] también se puede representar de esta manera:
Ø1 Ø2 … Ø𝑟−1 Ø𝑟
Ɛ𝑡+1
1 0 … 0 0
0
𝜉𝑡+1 = 0 1 … 0 0 𝜉𝑡 + [ ] [13.1.22]
⋮
⋮ ⋮ … ⋮ ⋮
[ 0
[ 0 0 … 1 0 ]]
Para verificar que [13.122] y [13.123] describen el mismo proceso que [13.1.21], sean ξjt que
denotan el j-ésimo elemento de ξt. Así, la segunda fila de la ecuación del estado afirma ser
𝜉2.𝑡+1 = 𝜉1𝑡
La tercera fila afirma que
𝜉3.𝑡+1 = 𝜉2𝑡 = 𝜉1.𝑡−1
Y en general la j-ésima fila implica que
𝜉𝑗.𝑡+1 = 𝐿𝑗−1 𝜉1.𝑡+1
Así, la primera fila de la ecuación del estado implica que
(1 − ∅1 𝐿 − ∅2 𝐿2 − . . . −∅𝑟 𝐿𝑟 )(𝑦𝑡 − µ)
= (∅1 + ∅2 𝐿 + ∅3 𝐿2 +. . . +∅𝑟 𝐿𝑟−1 )𝜉1𝑡
𝐶𝑡
𝑥1𝑡
𝜉𝑡 = 𝑥2𝑡 [13.1.28]
⋮
[𝑥𝑛𝑡 ]
𝒚𝑡 = 𝑨´ . 𝑿𝒕 + 𝑯´. 𝝃𝒕 + 𝒘t [13.2.2]
(𝑛𝑥1) (𝑛𝑥𝑘)(𝑘𝑥1) (𝑛𝑥𝑟)(𝑟𝑥1) (𝑛𝑥1)
𝑸 𝒑𝒂𝒓𝒂 𝒕 = 𝞽
𝐸(𝑽𝑡 𝑽´𝜏 ) = {(𝑟𝑥𝑟) [13.2.3]
𝟎 𝒐𝒕𝒓𝒐𝒔
𝑹 𝒑𝒂𝒓𝒂 𝒕 = 𝞽
𝐸(𝑾𝑡 𝑾´𝜏 ) = {(𝑛𝑥𝑛) [13.2.4]
𝟎 𝒐𝒕𝒓𝒐𝒔
Se presume que el analista ha observado 𝒚1, 𝒚2 , . . . , 𝒚𝑻 , 𝒙1, 𝒙𝟐 , … , 𝒙𝑻 . Uno de los
objetivos finales puede ser estimar los valores de cualquier parámetro en el sistema sobre la base de
estas observaciones. Por el momento, sin embargo, asumiremos que los valores numéricos
particulares de F, Q, A, H y R son conocidos con certeza; la Sección 13.4 dará detalles sobre cómo
estos parámetros pueden ser estimados de los datos.
Hay muchos usos del filtro de Kalman. Se motiva aquí como un algoritmo para calcular
las predicciones lineales de mínimos cuadrados del vector de estado sobre la base de datos
observado hasta la fecha t,
𝜉̂
𝑡+1|𝑡 = Ê(𝜉𝑡+1 |𝑦𝑡 ) [13.2.5]
Donde,
𝒚𝑡 = (𝒚´𝑡 , 𝒚´𝑡−1 , … , 𝒚´1 , 𝒙´𝑡 , 𝒙´𝑡−1 , … , 𝒙´1 )´ [13.2.5]
Y Ê(𝜉𝑡+1 |𝑦𝑡 ) denota la proyección lineal de ξt+1 dado yt, y una constante. Los filtro de Kalman
calculan estos pronósticos recursivamente, generando 𝜉̂ 1|0, 𝜉̂ 2|1…𝜉̂ T|T-1 en la sucesión. Asociado con
(Ir - F) . E(ξt) =0 cada una de estas estimaciones hay una matriz de error cuadrado medio (MSE),
representada por la siguiente matriz (r x r):
𝑷𝑡+1|𝑡 = 𝐸[(𝜉𝑡+1 − 𝜉̂ ̂
𝑡+1|𝑡 )(𝜉𝑡+1 − 𝜉𝑡+1|𝑡 )´] [13.2.6]
Por ejemplo, para la representación del espacio de estado del MA(1) dado en [13.1.17] y [13.1.18], el
vector de estado fue
𝜀𝑡
𝜉𝑡 = [𝜀 ],
𝑡+1
Para lo cual,
ℰ 0
𝜉̂ 1|0=𝐸 [ 1 ] = [ ] [13.2.7]
𝜀0 0
ℰ1 𝜀 𝜀0 ]) = [𝜎
2
0]
𝑷1|0=𝐸 ([ ][ [13.2.8]
𝜀0 1 0 𝜎2
Donde 𝜎 2 = 𝐸(𝜀𝑡2 )
De manera más general, si los valores propios de F están todos dentro del círculo unitario,
entonces el proceso de 𝜺𝒕 , en [132.1] tiene covarianza-estacionaria. La media incondicional de 𝜺𝒕
puede encontrarse tomando las expectativas de ambos lados de [13.2.1], produciendo
𝐸(𝜉𝑡+1 ) = 𝑭. 𝐸(𝜉𝑡 )
O, puesto que 𝜀𝑡 tiene covarianza estacionaria,
(𝑰𝑟 − 𝑭). 𝐸(𝜉𝑡 ) = 0
Puesto que la unidad no es un valor propio de F, la matriz (𝑰𝑟 − 𝑭) es no singular, y esta ecuación
tiene la solución única E (𝜀𝑡 ) = 0. La varianza incondicional de 𝝃 puede encontrarse de manera
similar post multiplicando [13.2.1] por su transpuesta y tomando las esperanzas.
𝐸(𝜉𝑡+1 𝜉´𝑡+1 ) = 𝐸[(𝑭𝜉𝑡 + 𝑣𝑡+1 )]
Los términos de productos cruzados han desaparecido a la luz de [13.1.9]. Dejando que Σ denote la
matriz de varianza-covarianza de ξ , esta ecuación implica
∑=F∑F´ + Q
Cuya solución se veía en [10.2.18] dada por
vec (∑) = [I r2 – (F ◙ F)]-1 . vec (Q).
Así, en general, siempre que los valores propios de F estén dentro del círculo unitario, las
iteraciones de los filtros de Kalman se pueden iniciar con ℰ̂ 1|0 = 0 y P1|0, la matriz (r x r) cuyos
elementos expresados como vector columna son dados por
vec (P1|0) = [I r2 – (F ⨂ F)]-1 . vec (Q).
Si los valores propios insensibles de F están dentro o fuera del círculo unitario, o si el estado inicial
ξ1 no se considera un drenaje arbitrario del proceso implicado por [13.2.1], entonces ξ1|0 puede ser
reemplazado con la mejor estimación del analista en cuanto al valor inicial de ξt, donde P1|0, es una
matriz definida positiva que resume la confianza en esta suposición, valores mayores para los
elementos diagonales de P1|0, registran mayor incertidumbre sobre el verdadero valor de ξt
Pronosticar yt
Para justificar [13 2.11], debemos recordar de [13. 1.10] que wt está no correlacionado con ξt.
Además, puesto que ξt|t-1 es una función lineal de Yt-1 dado por [13.1 11] también debe ser no
correlacionado con wt
. Usando [132.4] y [13.2.6], la ecuación [13.2.10] se puede escribir
Se puede evaluar mediante la fórmula para actualizar una proyección lineal, la ecuación [4.5.30]:2
ξt|t = ξt|t-1 + {E[(ξt - ξt|t-1)(yt - ŷt|t-1)']} [13.2.13]
x {E[(yt - ŷt|t-1)(yt - ŷt|t-1)´]}-1 x (yt - ŷt|t-1).
2
Aquí ξt corresponde a Y3 Yt corresponde a Y2 y (x1 Yt) 'corresponde a Yt en la ecuación [4.5.30].
Resumen y observaciones
Para resumir, el filtro de Kalman se inicia con la media incondicional y varianza de ξ1.
ἓ 1|0 = E(ξ1)
Cabe señalar que la recursión en [13.2.22] podría calcularse sin ser evaluado [132.23]. Los valores de
Pt|t -1 en [13.2.22] y Kt en [13.2.19] no son funciones de los datos, sino que están determinadas
enteramente por la población de parámetros del proceso.
Una forma alternativa de escribir la recursión para Pt+1|t a veces es útil restar la ecuación de
actualización de Kalman [13.2.20] de la ecuación de estado [13.2.1] se obtiene:
ξt+1 - ἓt+1|t = F(ξt - ἓt|t-1) - Kt(yt – A´xt – H´ἓt|t-1) + vt+1. [13.2.26]
La sustitución de la ecuación de observación [13.2.2] en [13226] da lugar a:
ξt+1 - ἓt+1|t ≡ (F - KtH´)(ξt - ἓt+1|t) - Ktwt + vt+1 [13.2.27]
La postmultiplicación [132.27] por su transpuesta y resultado de expectativas,
Ɛ𝑡
ξt = [ ] [13.3.3]
Ɛ𝑡−1
0 0
F =[ ] [13.3.4]
1 0
Ɛ
vt+1 = [ 𝑡+1 ] [13.3.5]
0
2
Q = [𝜎 0] [13.3.6]
0 0
yt = 𝑦t [13.3.7]
A´ = µ [13.3.8]
xt = 1 [13.3.9]
H´ = [1 Ɵ] [13.3.10]
wt = 0 [13.3.11]
R = 0 [13.3.12]
Los valores iniciales para el filtro se describieron en [13.2.7] y [13.2.8]:
0
𝜉̂1|0 = [ ]
0
2
𝐏1|0 = [𝜎 0]
0 𝜎2
Por lo tanto, a partir de [113.224], el período 1 pronóstico es:
ŷ1|0 = µ + H’𝜉̂1|0 = µ
Con MSE dada por [13.2.25]:
2
E(y1 – ŷ1|0)2 = H’P1|0 + H + R = 1 [1 Ɵ] [𝜎 0 ] [0] + 0 = σ2(1 + σ2)
0 𝜎2 0
Estos, por supuesto, son sólo la media incondicional y la varianza de y.
Para ver la estructura de la recursión para t = 2, 3,. . . , T, considere la forma base de la
ecuación de actualización [13.2.23]. Observe que ya que la primera fila de F conformada de ceros, el
primer elemento del vector ξt+1|t siempre será igual a cero, para todo t. Vemos por qué si
recordamos el significado del vector de estado en [13.3.3]
ε̂𝑡+1|𝑡
𝜉̂𝑡+1|𝑡 = [ ] [13.3.13]
ε̂𝑡|𝑡
Naturalmente, la estimación del futuro ruido blanco, en ε̂𝑡+1|𝑡 es siempre cero. La estimación de
yt+1 está dada por [13.224]:
Ɛ𝑡+1|𝑡
𝑦̂𝑡+1|𝑡 = µ + [1 Ɵ] [ ] = µ + Ɵἓt | r [13.4.14]
ἓ𝑡|𝑡
La ecuación de actualización del filtro de Kalman para el MSE de la ecuación [132.21], para este
ejemplo se convierte en
2
Pt+1|t = FPt|t F´ + Q = [0 0] Pt|t [0 0] + [𝜎 0] [13.3.15]
1 0 1 0 1 0
Así, Pt+1 es una matriz diagonal de la forma:
𝜎2 0
Pt+1|t = [ ] [13.3.16]
0 𝑃𝑡+1
Donde el elemento (2, 2) de Pt+1|1 (que hemos denotado por pt+1) es el mismo que el elemento (1,
1) de Pt|t Recordando [13.2.6] y [133.13], este término tiene el carácter de interpretación como el
MSE de ἓt|t.
𝜎2 0 1 𝜎2 0 1 𝜎2 0
𝐏t | t =[ ]−( 2 ) [ ] [ ] [ 1 Ɵ] [ ]
0 𝑃𝑡 𝜎 + Ɵ2 𝑝𝑡 0 𝑃𝑡 Ɵ 0 𝑃𝑡
El elemento (1, 1) de Pt|t (que vimos es igual a pt+1) esta dado por:
𝜎 2 Ɵ2 𝑃𝑡 [13.3.21]
𝐏t + 1 = σ2 – {1/[σ2 + Ɵ2pt ]} . σ4 =
𝜎 2 + Ɵ2 𝑝𝑡
La recursión en [133.21] se inicia con p, = (72 y por lo tanto tiene la solución
𝜎 2 Ɵ2𝑡
𝐏t + 1 = [13.3.22]
1 + Ɵ2 + Ɵ4 + . . . + Ɵ2𝑡
Es interesante observar lo que sucede al filtro cuando t se hace grande. Primero considere el caso
cuando |𝜃| ≤ 1. Entonces, de [13.3.22],
lim 𝑃𝑡+1 = 0
𝑡→∞
Y así, de [13.3.17],
𝑝
ἓ𝑡|𝑡 → Ɛ𝑡
El error de pronóstico es
yt+s – ŷt+s|t = (A´xt+s + H´ἓt+s + Wt+s) – (A´xt+s + H´ἓt+s)
= H´( ξt+s - ἓt+s|t ) + Wt+s
Con MSE
E[(yt+s – ŷt+s|t)( yt+s - ŷt+s|t)´] = H´Pt+s|t H + R [13.3.30]
= (2𝝅)-n/2|H'Pt|t-1H + R|-1/2}
𝟏
×exp{- (yt -(A'xt + H'𝛏̂t|t−1 )' (H'Pt|t-1H+ R)' [13.4.1]
𝟐
× (yt - A'xt - H'𝛏̂t|t−1 )} para t = 1, 2, . . . , T
Donde 𝜎𝑖𝑗 = 𝐸(𝜀𝑖𝑡 𝜀𝑗𝑡 ). La iteración del filtro de Kalman se inicia desde
0 𝜎11 𝜎12 0 0
𝜎21 𝜎22 0 0
𝛏̂1|0 = [0] 𝑃1|0 = [ ]
0 0 0 𝜎11 𝜎12
0 0 0 𝜎21 𝜎22
La maximización de [13.4.2] se inicia haciendo una estimación inicial de los valores numéricos de
los parámetros desconocidos. Una manera obvia de hacer esto es regresar 𝑦1𝑡 sobre los elementos
de 𝐱𝒕 , que aparecen en la primera ecuación para obtener una estimación inicial para 𝐚𝟏 . Una
regresión OLS similar para 𝑦2 da una idea para 𝐚𝟐 . Ajuste 𝜃11 = 𝜃12 =𝜃21 = 𝜃22 = Ο inicialmente,
una primera estimación para Ω podría ser la matriz de varianza-covarianza estimada de los residuos
de estas dos regresiones de MCO. Para estos valores numéricos iniciales para los parámetros de
población. Podríamos construir, F, Q, A, H, y R a partir de las expresiones que acabamos de dar e
iterar en [13.2.22] a [13.2.25] para t= 1, 2….., T – 1. Las secuencias{𝛏̂1|𝑡−1 } 1=1𝑇 y {𝐏1|𝑡−1 } 1=1𝑇
resultante de estas iteraciones podría usarse en [13.4.1] y [13.4.2] para calcular el valor de la función
de verosimilitud de log que resulta de estos valores de parámetros iniciales. Los métodos
numéricos de optimización descritos en la Sección 5.7 pueden ser empleados para hacer mejores
conjeturas en cuanto al valor de los parámetros desconocidos hasta que se maximice [13.4.2]. Como
se señaló en la Sección 5.9, la búsqueda numérica se comportará mejor si Ω está parametrizado en
términos de su factorización de Cholesky.
Como segundo ejemplo, considere un proceso Gaussiano ARMA (1,1) escalar,
𝑦𝑡 − 𝜇 = 𝜙(𝑦𝜄−1 − 𝜇) + 𝜀𝜄 + 𝜃𝜀𝜄−1
Con 𝜀, ~ i.i.d. N(Ο, 𝜎 2 ). Esto puede escribirse en forma de espacio de estado como [13.1.22] y
[13.1.23] con r = 2 y
0 𝜎 2 / (1 − 𝜙 2 ) 𝜙𝜎 2 /(1 − 𝜙 2 )
𝝃̂1|0 = [ ] 𝑷1|0 = [ ]
0 𝜙𝜎 2 / (1 − 𝜙 2 ) 𝜎 2 /(1 − 𝜙 2 )
Este valor para 𝐏𝟏|𝟎 estaba obteniendo al reconocer que la ecuación de estado [13.1.22] describe el
comportamiento de 𝛏𝑡 = (𝑧, 𝑧𝑡−1,..., 𝑧𝑡−𝑟+1 )' donde zt = 𝜙1 𝑧𝑡−1 + 𝜙2 𝑧𝑡−2 +… + 𝜙𝑟 𝑧𝑡−𝑟 +…+ εt
sigue un proceso 𝐴𝑅 (𝑟). Para este ejemplo, 𝑟 = 2. De modo que 𝑷1|0 es la matriz de varianza-
covarianza de dos trazas consecutivas de un proceso 𝐴𝑅 (2) con parámetros 𝜙1 = 𝜙 y 𝜙2 = 0.
Las expresiones que acabamos de dar para F, Q, A, H, y R se utilizan entonces en las iteraciones
del filtro de Kalman. Así, la expresión [13.4.2] permite un cómputo fácil es válida
independientemente de la función de verosimilitud exacta para un proceso 𝐴𝑅𝑀𝐴 (𝑝, 𝑞). Este
cálculo es válido independientemente de si los parámetros de la media móvil satisfacen la condición
de invertibilidad. Del mismo modo, la expresión [13.3.29] da la exacta muestra finita s-período de
previsión para el proceso y [13.3.30] su MSE, de nuevo, independientemente de si la representación
invertible se utiliza.
Normalmente, los procedimientos de búsqueda numérica para maximizar [13.4.2] requieren
las derivadas de la probabilidad de log. Éstos se pueden calcular numéricamente o analíticamente.
Para caracterizar las derivadas analíticas de [13.4.2], recoja los parámetros desconocidos a estimar en
un vector θ, y escriba F (𝜽), Q(𝜽), A(𝜽), H(𝜽), y R(𝜽). Implícitamente, entonces 𝛏̂𝑡|𝑡−1 (𝜽), y
𝑷𝑡|𝑡−1 (𝜽) Serán también funciones de θ, y la derivada del log de [13.4.1] con respecto al i-ésimo
elemento de θ como implicara 𝜕𝛏̂𝑡|𝑡−1 (𝛉)/ 𝜕𝜃𝑖 y 𝜕𝑃𝑡|𝑡−1 (𝛉)/ 𝜕𝜃𝑖 Estos derivados también pueden
generarse recursivamente diferenciando la recursión del filtro de Kalman, [13.2.22] an [13.2.23], con
respecto a 𝜃𝑖 ; Véase Caines (1988, pp. 585-86) para ilustración.
Para muchos modelos de estados-espacio, el algoritmo EM de Dempster, Laird y Rubin (1977)
ofrece un medio particularmente conveniente para maximizar [13.4.2], como desarrollado por
Shumway y Stoffer (1982) y Watzon y Engle (1983).
Identificación
Aunque la representación del espacio de estados da una manera muy conveniente de
calcificar la función de verosimilitud exacta, se debe dar una palabra de precaución. En ausencia de
restricciones sobre F, Q, A, H y R, los parámetros de la representación de espacio de estado no
están identificados, más de un conjunto de valores para los parámetros puede dar lugar al valor
idéntico de la función de verosimilitud y Los datos no nos dan ninguna guía para elegir entre estos.
Un ejemplo trivial es el siguiente sistema:
Ecuación de Estado (𝑟 = 2)
𝜀1.𝑡+1
𝝃𝑡+1 = [ 𝜀 ] [13.4.3]
2.+1
Ecuación de observación (n = 1)
𝝈12 O
Aqui. F = 0, Q = [ ], A' = 0, H' = [1 1], y R = 0.
0 σ𝟐𝟐
Este modelo afirma que y, es ruido blanco, con ruido, con cero medio y varianza dada por (𝜎12 +
𝜎22 ). Se invita al lector a confirmar en el ejercicio 13.4 que el registro de la función similar de
[13.4.1] y [13.4.2] se simplifica a
= -(T/2) log(2𝜋) – (T/2) log(σ12 + σ22 ) − ∑𝑇𝑡=1 𝑦12 / [2(𝜎12 + 𝜎22 ].[13.4.5]
Claramente, cualquier valor para σ12 y σ22 Esa suma a una constante dada producirá el valor idéntico
para la función de verosimilitud.
El MA (1). El proceso explorado en la Sección 13.3 proporciona un segundo ejemplo de una
representación de espacio de estado no identificada. Como puede verificar el lector en el ejercicio
13.5, resultaría el valor idéntico para la función de verosimilitud logarítmica [13.4.2] si se sustituye θ
por 𝜃 −1 y 𝜎 2 por 𝜃 2 𝜎 2 .
Estos dos ejemplos ilustran dos formas básicas en las que puede ocurrir la ausencia de
identificación. Siguiendo a Rothenberg (1971), se dice que un modelo se identifica globalmente con
un valor de parámetro particular 𝜃0 Si para cualquier valor de θ existe una posible realización 𝒴T
Para el cual el valor de la probabilidad en θ. Se dice que un modelo se identifica localmente en 𝜃0 Si
existe δ > 0 tal que para cualquier valor de un θ satisfactorio (𝛉 − 𝛉𝟎 )′(𝛉 − 𝛉𝟎 ) < 𝛅 Existe una
posible realización de 𝓨𝐭 para el cual el valor de la probabilidad en 𝛉𝟎 . Por lo tanto, la
identificación global implica la identificación local. El primer ejemplo, [13.4.3] y [13.4.4], no es ni
global ni localmente identificado, mientras que el MA (1) ejemplo está identificado localmente, pero
globalmente no identificado.
La identificación local es mucho más fácil de probar para esa identificación global. Rothenberg
(1971) demostró que un modelo está identificado localmente en 𝛉𝟎 Y sólo si la matriz de
información es no singular en un barrio alrededor 𝛉𝟎 . Por lo tanto, un síntoma común de tratar de
estimar un modelo no identificado es la dificultad de invertir la matriz de derivadas secundarias de
la función de probabilidad de logaritmos. Un enfoque para verificar la identificación local es
traducir la representación del espacio de estado de nuevo en un modelo ARMA vectorial y
comprobar la satisfacción de las condiciones en Hannah. (1971): véase Hamilton (1985) para un
ejemplo de este enfoque. Un segundo enfoque es trabajar directamente con la representación del
espacio de estados. Como se hace en Gevers y Wertz (1984) y pared (1986). Para una ilustración si
el segundo enfoque, véase Burmeister, Wall y Hamilton (1986).
Una práctica común es asumir que el límite de 𝒥2𝐷.𝑇 𝑎𝑠 𝑇 ⟶ ∞ Es el mismo que el plim de
1 𝜕2 𝑙𝑜𝑔 𝑓(𝑦𝑡 |𝑥𝑡 ,𝒴1−1: 𝜃
2𝐷.𝑇 = − 𝑇 ∑𝑇1=1 𝜕𝜃 𝜕𝜃𝑡
|𝜃=𝛉̂7 [13.4.8]
donde
𝜎2 0
lim 𝐏𝐭+𝟏|𝐭 = [ 𝜎 2 (𝜎 2 − 1)]
↦∞ 0
𝜃2
0
lim 𝐊 𝑡 = [ 1 ]
↦∞
𝜃2
Tiene la propiedad de que los autovalores de (F — KH') todos se encuentran sobre o dentro del círculo de la
unidad.
La afirmación en la Proposición 13.1 que Pt+1|t < Pt|t-1 significa que para cualquier vector
real (𝑟 × 1) h, la desigualdad escalar h'Pt+1|t h < h' Pt|t-1 h Sostiene.
La Proposición 13.1 supone que el filtro de Kalman se inicia con P(1|0) Igual a la matriz de varianza
incondicional-covarianza del vector de estado Aunque la secuencia {Pt+1|t }Converge a una matriz
P, la solución a [13.5.3] no necesita ser única; Un valor de partida distinto para P,|0 Podría producir
una secuencia que converge a una matriz P diferente satisfaciendo [13.5.3]. Bajo la suposición
ligeramente más fuerte de que Q o R es estrictamente positivo definido, entonces la iteración en
[13.5.1] convergerá a una solución única a [13.5.3], donde el valor inicial para la iteración p, .0 puede
ser cualquiera Matriz semidefinita simétrica positiva.
Proposición 13.2: Sea F una matriz (rxr) cuyos valores propios estén todos dentro del círculo
unitario, que H 'denote una matriz arbitraria (tiX r) y que Q y R sean semidesfinitos positivos
simétricos (rX r) y (nx n) Matrices, respectivamente, con Q o R estrictamente positivo definido.
Entonces, la secuencia de matrices MSE de Kalman {𝐏t + 1|1}Tt=1 Determinada por [13.5.2]
converge a una única matriz semidefinida positiva P de estado estacionario que satisface [13.5.3],
Donde el valor de P es el mismo para cualquier valor de partida simétrico semidefinido positivo
para P, Además, el valor de estado estacionario para la matriz de ganancia de Kalman [13.5.4] tiene
la propiedad de que los valores propios de (F - KH ') están todos estrictamente dentro del círculo
unitario.
A continuación se discute la relevancia de los resultados en las Proposiciones 13.1 y 13.2 con
respecto a los valores propios de (F - KH').
La proyección lineal de yt+1 sobre la muestra finita observada de sus propios valores rezagados se
calcula a partir de
Para L el operador de retraso. Siempre que los valores propios de (F - KH') estén todos
dentro del círculo unitario, [13.5.11] puede expresarse como
Sustituyendo [13.5.12] en [13.5.9] cinco años una regla de estado estacionario para la predicción
yt 1 Como una función lineal de sus valores rezagados:
Proposición 13.3:: Sea F, H '. y K son matrices de dimensión (rxr), (nxr) y (rxn), respectivamente, tales que
los valores propios de F y de (F-KH ') están todos dentro del círculo unitario, y sea z un escalar del complejo circulo
unitario. Entonces
Aplicando la Proposición 13.3, si ambos lados de [13.5.17] son premultiplicados por (In+
H'(Ir– FL)-1KL), el resultado es la representación de Wold para y
𝑦𝑡+1 ={In + H' (Ir – FL)-1KL}𝜀𝑡+1 [13.5.18]
Para resumir, la representación de Wold se puede encontrar iterando en [13.5.1] hasta
convergencia. El valor de estado estacionario para P se utiliza entonces para construir K en [13.5.4]:
Si los valores propios de (F - KH ') están todos dentro del círculo unitario, entonces la
representación de Wold viene dada por [13.5.18]. La tarea de encontrar la representación de Wold
se plantea alternativamente como la cuestión de factorizar la función generadora de autocovariancia
de y. Aplicando el resultado [10.3.7] a [13.5.16] y [13.5.18], anticipamos que la función de
generación de autocovarancia de y puede escribirse en la forma
Gv(z) = {In+ H'(Ir–Fz)-1Kz}{H'PH + R}
× { In+ K' (Ir – F'z-1)-1 Hz-1}. [13.5.19]
Comparemos [13.5.19] con la función de generación de autocovariancia que habríamos escrito
directamente de la estructura del modelo de espacio de estados. De [10.3.5], la función generadora
de autocovariancia de £ viene dada por.
G ( z ) = [ Ir - Fz]-1 Q[Ir – F'z-1]-1
Mientras que desde [10.3.6] la función generadora de autocovariancia de yt = H' 1 + wt es
G ( z ) = H'[Ir–Fz]-1Q[Ir - F'z-1]-1H + R [13.5.20]
Al comparar [13.5.19] con [13.5.20] se sugiere que los valores límite de la ganancia de Kalman y las
matrices MSB K y P pueden utilizarse para factorizar una función generadora de autocovariancia.
La siguiente proposición da una declaración formal de este resultado.
Proposición 13.4: Sea F una matriz (r x r) cuyos valores propios estén todos dentro del círculo
unitario; Que Q y R denotan matrices semidefinidas simétricas positivas de dimensión (rxr) y (nxn),
respectivamente; y H 'denotan una matriz arbitraria (n x r). Sea P una matriz semidefinita positiva
que satisface [13.5.3] y que K sea dada por [13.5.4]. Supongamos que los valores propios de (F -
KH ') están todos dentro del círculo unitario. Entonces
H' [Ir – Fz]-1Q[Ir – F'z-1]-1H + R
= {Ir+ H'(Ir – Fz)-1Kz} {H'PH + R} {Ir+ K'(Ir – F'z-1)-1Hz-1} [13.5.21]
= Pt t 1 2w / ( 2w Pt t 1 ) + V ,
2 2
[13.5.24]
Dejar q max{q1 , q2}, Y aviso de la estructura de F que Fq+j = 0 for j = 1, 2,… Además, desde
[13.5.4], FqK = Fq+1PH(H'PH + R)-1 = 0. Así [13.5.28] toma la forma
yt+1 = { 1 + H'(Ir + FL + F2L2 + F3L3+ … + Fq-1Lq-1)KL} 𝜀𝑡+1 [13.5.29]
= {1 + 1 L + 2 L2+ … + q Lq} 𝜀𝑡+1,
donde
j H'Fj-1K para j = 1, 2 …. q
Esto proporciona una demostración constructiva de la afirmación de M A (q1) proceso más un MA
(q2) Proceso con el que no está correlacionado puede describirse MA(max{ q1, q2}) proceso.
El filtro de Kalman proporciona así un algoritmo general para encontrar la representación de
Wold o factorizar una función generadora de autocovariancia. Simplemente itera en [13.5.1] hasta
convergencia y luego usa la ganancia de estado estacionario de [13.5.4] en [ 13.5.14] (para la forma
AR ( ) o en [13.5.18] (la forma MA(∞)).
13.6. Suavizado
El filtro de Kalman fue motivado en la Sección 13.2 como un algoritmo para calcular una previsión
del vector de estado t Como una función lineal de observaciones anteriores.
prevision:
Pt t 1 E [ ( t t t 1
) ( t t t 1
)´ ].
[13.6.2]
Para muchos usos del filtro de Kalman estas son las magnitudes naturales de interés. Sin embargo,
en algunos contextos, el vector de estado recibe una interpretación estructural, en cuyo caso el valor
de esta variable no observada puede ser de interés por sí mismo. Por ejemplo, en el modelo del
ciclo económico de Stock y Watson, sería útil conocer el estado del ciclo económico en cualquier
fecha histórica t. Una meta podría entonces ser formar una inferencia sobre el valor de t , Basados
en el conjunto completo de datos recogidos, incluidas las yt, yt+1 ….. , yT, xt, xt+1…… xT. Dicha
inferencia se denomina estimación suavizada de t , denotado
𝜉𝑡|𝑇 ≡ 𝐸̂ (𝜉𝑡 |𝒴𝑇 ) [13.6.3]
Por ejemplo, los datos sobre el PNB de 1954 a 1990 podrían utilizarse para estimar el tomó en
1960. El MSE de esta estimación suavizada se denota
𝐏t|T ≡ E[(𝛏t − 𝛏̂t|T )(𝛏t − 𝛏̂t|T )′]
[13.6.4]
En general, Pt T Denota el MSE de una estimación de que se basa en observaciones de y y x a
través de la fecha t.
Para la conveniencia del lector, reproducimos aquí las ecuaciones clave para el filtro de Kalman:
−1
𝛏̂t|t = 𝛏̂t|t−1 + 𝐏t|t−1 + 𝐏t|t−1 𝐇(𝐇′𝐏t|t−1 𝐇 + 𝐑) (yt − 𝐀′xt − 𝐇′𝛏̂t|t−1 [13.6.5]
𝛏̂t+1|t = 𝐅𝛏̂t|t [13.6.6]
𝐏t|t = 𝐏t|t−1 − 𝐏t|t−1 H(H' Pt t 1 H+ R)-1 H'𝐏t|t−1 [13.6.7]
𝐏t+1|t = 𝐅𝐏t|t 𝐅′ + 𝐐 [13.6.8]
Considere la estimación de t Basado en las observaciones hasta la fecha t, t t Supongamos que nos
dijeron posteriormente el verdadero valor de t1 . De la fórmula para actualizar una proyección
lineal, la ecuación [4.5.30], la nueva estimación de r Podría expresarse como3
3
Aquí. Y3 =𝜉𝑡 Y2=𝜉𝑡+1 y Y1= 𝓨t .
0 411
E[(𝜉𝑡 − ξt|t ) (𝛏t+1 − 𝛏t+1|t)´] = E[(𝜉𝑡 − ξt|t ) (F𝜉𝑡 + 𝑣𝑡+1 − 𝐅ξt|t )´].
En virtud de [13.2.1] y [13.6.6]. además, vt+1, no está correlacionada con 𝜉𝑡 y ξt|t . Asi.
E[(𝜉𝑡 − ξt|t ) (𝛏t+1 − 𝛏t+1|t )´] = E[(𝜉𝑡 − ξt|t ) (𝜉𝑡 + ξt|t )´] = 𝐏t|t 𝐅′ [13.6.10]
Definiendo
−1
𝗝t ≡ 𝐏t|t 𝐅′𝐏t+1|t [13.6.11]
Tenemos
𝐸̂ (𝜉𝑡 |ξt+1 , 𝓨t )= ξ̂t|t + 𝗝t (𝛏t+1 − 𝛏̂t+1|t ) [13.6.12]
Es decir, el conocimiento de yt+j o xt+j para j> 0 No tendría valor añadido si ya conociéramos el
valor de 𝛏t+1. Para ver esto, tenga en cuenta que y t j Puede escribirse como
y t j A´x t j H´( Fj1t 1 Fj 2 v t 2 Fj3 v t 3 ... v t j ) w t j
Pero el error
𝜉𝑡 −𝐸̂(𝜉𝑡 |ξt+1 , 𝓨t [13.6.14]
No está correlacionada con 𝛏t+1 Por la definición de una proyección lineal, y sin correlación con
xt+j , wt+j , vt+j , vt+j-1 ,…. Vt+2 bajo las suposiciones mantenidas. Por lo tanto, el error [13.6.14] no
está correlacionado con yt+j or xt+j for j > 0; Lo que significa que [13.6.13] y [13.6.12] son los
mismos, como se afirma:
Se deduce de la ley de proyecciones iteradas que la estimación suavizada, 𝐸(𝜉𝑡 |𝓨T ), Puede
obtenerse proyectando [13.6.15] en 𝓨T . Al calcular esta proyección, necesitamos pensar
cuidadosamente acerca de la naturaleza de las magnitudes en [13.6.15]. El primer término, 𝛏̂t|t
Indica una función lineal exacta de 𝓨t ; Los coeficientes de esta función se construyen a partir de
momentos de población, y estos coeficientes deben ser vistos como constantes deterministas desde
el punto de vista de realizar una proyección posterior. La proyección de 𝛏̂t|t en 𝓨T Sigue siendo 𝛏̂t|t
este mismo función lineal de 𝓨t — No podemos mejorar en un perfecto fit!4. el termino 𝗝t en[13.6.11Es
44
La ley de proyecciones iteradas establece que
𝐸̂ (𝜉𝑡 |𝒴𝑡 ) =𝐸̂ [𝐸̂ (𝜉𝑡 |𝒴𝑇 )|𝒴𝑡 ]
La ley de las proyecciones iteradas nos permite así pasar de un conjunto de información más amplio a uno mas pequeño.
Por supuesto, la misma operación no funciona a la inversa:
𝜉𝑡 = µ + 𝑦𝑡+1
Entonces
̂ )] [ 𝜉𝜏 - ξ̂ (𝜽
E {[𝜉𝜏 - ξ̂ τ|T (𝜽 ̂ )]'|𝒴𝑇 }
τ|T
= 𝐸{[𝜉𝜏 − ξ̂ τ|T (𝛉0 ) + ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽 ̂)
x[𝜉𝜏 − ξ̂ τ|T (𝛉0 ) + ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽 ̂ )]′|𝒴T} [13.7.3]
= 𝐸{[𝜉𝜏 − ξ̂ τ|T (𝛉0 )][𝜉𝜏 − ξ̂ τ|T (𝛉0 )]′|𝒴T }
+ 𝐸{[ ξ̂ (𝛉0 ) − ξ̂ (𝜽 ̂ ) − ξ̂ (𝛉0 ) − ξ̂ (𝜽 ̂ )]′|𝒴T }
τ|T τ|T τ|T τ|T
Los términos de productos cruzados han desaparecido de [13.7.3], ya que
̂ )][𝜉𝜏 − [ξ̂ (𝛉0 )]′|𝒴T }
[ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽 τ|T
= [ξ̂ (𝛉0 ) − ξ̂ τ|T (𝜽 ̂ )]x 𝐸{[𝜉𝜏 − [ξ̂ (𝛉0 )]′|𝒴T }
τ|T τ|T
̂ )]𝒙 0′
=[ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽
̂) se conocen funciones no estocásticas de 𝒴T, Y
La primera igualdad sigue porque ξ̂ τ|T (θ0) yξ̂ τ|T (𝛉
la segunda igualdad está implícita en [13.7.1]. Sustituyendo [13.7.2] en [13.7.3] resulta en
𝐸[𝜉𝜏 − ξ̂ τ|T (𝜽̂ )] 𝐸[𝜉𝜏 − ξ̂ (𝜽 ̂
τ|T )′]|𝒴T ] [13.7.4]
̂ )][ξ̂ (𝛉0 ) − ξ̂ (𝜽
= 𝐏τ|T (𝛉0 ) + E{[ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽 ̂
τ|T τ|T )]′|𝒴T }
El primer componente 𝐏τ|T (𝛉0 ), puede ser descrito como la "incertidumbre del filtro". Este es el
término calculado a partir de la iteración de suavización [13.6.20] o de la predicción MSE [13.2.27] y
5
La discuación es basad en Hamilton (1986)
0 415
Aquí 𝐅(𝐱𝑡 ) representa una matriz (𝑟 ×𝑟) cuyos elementos son funciones de 𝐱𝒕 ; a(𝐱𝒕 ) describe de
forma similar una función de valor vectorial (𝑛 ×1), y H(𝐱𝑡 ) una función matriz (𝑟×𝑛). Se supone
que las condiciones en 𝐱𝒕 , y en los datos observados a través del tiempo 𝑡 − 1, es denotado
′
𝒴𝑡−1 ≡ (𝐲𝒕′ , 𝐲𝒕−𝟏 , … , 𝐲𝟏′ , 𝐱𝒕′ , 𝐱𝒕−𝟏
′
, … , 𝐱𝟏′ )′
′ ′ ′
el vector (𝐯𝒕+𝟏 , 𝐰𝒕 ) tiene la distribución Gaussiana
𝐯𝑡+1 𝟎 𝐐(𝐱𝒕 ) 0
[ 𝐰 |𝐱𝒕 , 𝒴𝑡−1 ] ∼ 𝑁 ( ) , [ ] [13.8.3]
𝑡 𝟎 0 𝐑(𝐱𝒕 )
Obsérvese que, aunque [13.8.1] a [13.8.3] generaliza el marco anterior permitiendo parámetros
estocásticamente variables, es más restrictivo que una distribución gaussiana se asume en [13.8.3]; el
papel requisito Gaussiano será explicado en breve.
Supongamos que tomamos como dado que 𝜉𝑡 |𝒴𝑡−1 ∼ 𝑁(𝜉̂𝑡|𝑡−1 , 𝐏𝑡|𝑡−1 ). Asumiendo
como antes que 𝐱𝒕 , contiene sólo variables estrictamente exógenas o valores rezagados de y, esto
también describe la distribución de 𝜉𝑡 |𝐱𝒕 , 𝒴𝑡−1. Se deduce de los supuestos en [13.8.1] a [13.8.3]
que
−𝟏
𝜉𝑡|𝑡 = 𝜉𝑡|𝑡−1 + {𝐏𝑡|𝑡−1 𝐇(x𝒕 )[[𝐇(x𝑡 )]′ 𝐏t|𝑡−1 𝐇(x𝑡 ) + 𝐑(x𝑡 )] × [y𝑡 − a(xt ) −
[𝐇(x𝒕 )]′𝝃̂𝑡|𝑡−1 ]} [13.8.6]
−𝟏
𝐏𝑡|𝑡−1 = 𝐏𝑡|𝑡−1 − {𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 ) × [[𝐇(𝐱𝑡 ]′ 𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 ) + 𝑹(𝐱𝑡 )][𝐇(𝐱𝑡 )]′ 𝐏𝑡|𝑡−1 }
[13.8.7]
En la continuación de [13.8.1] 𝑦 [13.8.3] 𝑞𝑢𝑒 𝜉𝑡+1 |𝒴 ∼ 𝑁(𝜉̂𝑡+1|𝑡 , 𝐏𝑡+1|𝑡 ), donde
Tenga en cuenta, sin embargo, que a diferencia del caso de parámetro constante, la inferencia
[13.8.6] es una función no lineal de 𝐱𝒕 , esto significa que aunque [13.8.6] da la inferencia óptima si
los disturbios y el estado inicial están Gaussianos, no puede interpretarse como la proyección lineal
de 𝜉𝑡 en 𝒴𝑡 con disturbios no gaussiano.
Aquí 𝐘1 = 𝐲𝑡 , 𝐘2 = 𝜉𝑡 , 𝛍𝒕= a(xt ) − [𝐇(x𝒕 )]′𝝃̂𝑡|𝑡−1 , 𝛀1𝑡 = {[𝐇(𝐱𝑡 ]′ 𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 ) + 𝐑(𝐱𝑡 )}, 𝛀22 = 𝐏𝑡|𝑡−1 , y 𝛀21 = 𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 )
6
𝑦𝑡 = 𝐱′𝑡 𝛃𝑡 + 𝑤𝑡 [13.8.10]
donde 𝐱𝒕 es un vector (𝑘 × 1) que puede incluir había quedado valores de y o variables que son
independientes de la regresión disturbio 𝑤𝑡 para todo τ. Los parámetros del vector del coeficiente
se supone que evoluciona con el tiempo según
Entonces [13.8.10] a [13.8.12] será reconocida como un modelo de espacio de estado de la forma de
[13.8.1] a [13.8.3] con el vector de estado 𝜉𝑡 = 𝛃𝑡 − 𝛃̅. La regresión en [13.8.10] puede escribirse
como
̅ + 𝐱′𝑡 𝝃𝒕 + 𝑤𝑡
𝑦𝑡 = 𝐱′𝑡 𝛃 [13.8.13]
que es una ecuación de observación de la forma de [13.8.2] con 𝐚(𝐱𝑡 ) = 𝐱′𝑡 𝛃 ̅, 𝐇(𝐱𝑡 ) = 𝐱𝑡 y
2
R(𝐱𝑡 ) = 𝜎 . Estos valores entonces se utilizan en las iteraciones del filtro de Kalman [13.8.6] a
[13.8.9]. Un pronóstico por delante un período de [13.8.10] puede ser calculado de [13.8.4] como
̅ + 𝐱′𝑡 𝝃𝑡−𝟏
𝐸(𝑦𝑡 |𝒙𝑡 , 𝒴𝑡−1 ) = 𝐱′𝑡 𝛃
𝑇
donde {𝜉̂𝑡|𝑡−1 } es calculada a partir de [13.8.6] y [13.8.8]. El MSE de este pronóstico puede
𝑡=1
también inferirse de [13.8.4]:
̅ + 𝐱′𝑡 𝝃𝑡−𝟏 )2 |𝐱𝑡 , 𝒴𝑡−1 ] = 𝐱′𝑡 𝐏𝑡|𝑡−1 + 𝜎 𝟐
𝐸 [(𝑦𝑡 − 𝐱′𝑡 𝛃
𝑇
Donde {𝐏𝑡|𝑡−1 } es calculada de log verosimilitud de [13.8.7] y [13.8.9] la muestra es por lo tanto
𝑡=1
𝑇 𝑇
𝑇
∑ log 𝑓(𝑦𝑡 |𝐱𝑡 , 𝒴𝑡−1 ) = − ( ) log(2𝜋) − (1/2) ∑ log( 𝐱′𝑡 𝐏𝑡|𝑡−1 + 𝜎 𝟐 )
2
𝑡=1 𝑡=1
𝑻
̅ + 𝐱′𝑡 𝝃𝑡−𝟏 )2 /(𝐱′𝑡 𝐏𝑡|𝑡−1 + 𝜎 𝟐 )
− (1/2) ∑(𝑦𝑡 − 𝐱′𝑡 𝛃
𝒕=𝟏
La especificación en [13.8.11] puede generalizarse fácilmente para permitir un VAR de la
orden de p por el vector de coeficiente 𝛃, por definición 𝜉′𝑡 = [(𝛃𝑡 − 𝛃 ̅)′ , (𝛃𝑡−1 −
̅)′ … , (𝛃𝑡−𝑝+1 − 𝛃
𝛃 ̅)′] y reemplazando [13.8.11] con
Φ1 Φ2 Φ𝑝−1 Φ𝑝 v𝑡+1
𝐈𝑘 0 ⋯ 0 0 0
𝜉𝑡+1 = 0 Ι𝑘 0 0 𝑡𝜉 + 0
⋮ ⋱ ⋮ ⋮
[ 0 0 ⋯ Ι𝑘 0 ] [ 0 ]
Como en la expresión [12.2.4], esto incluye una corrección (𝜏̂12 /𝜏̂𝑗2 ) para la escala de respecto 𝑦𝑗𝑡
donde 𝜏̂𝑗2 es la varianza estimada de los residuos de un proceso de 𝐴𝑅(𝑝) de coeficiente fijo
univariado para serie j. La variación en [13.8.16] también incluye un factor 𝑤 2 < 1 que representa
la expectativa previa que quedado valores de 𝑦𝑗 para 𝑗 ≠ 1 no suelen ser de ayuda en el pronóstico
𝑦1 , que serían el retardado valores de 𝑦1 , sí mismo; por lo tanto, un más apretado antes de que se
utiliza para establecer coeficientes de 𝑦𝑗 , a cero.
Finalmente, deje que 𝑔 describir la variación de la distribución previa para el término
constante:
𝑐1.1 ~𝑁(0, 𝑔. 𝜏̂12 )
Entonces claramente, [13.A.2] no puede ser menor que [13.A.1], desde la proyección lineal
𝐸̂ (𝜉𝑡+1 |𝒴𝑡 ) hizo un uso óptimo de 𝒴𝑡∗ , junto con la información agregada en (𝐲𝒕′ , 𝐱𝒕′ )′. En
particular, si h es cualquier vector (𝑟×1), la proyección lineal de 𝑧𝑡+1 ≡ 𝐡′ 𝜉𝑡+1 en 𝒴𝑡 tiene MSE
dada por
2 2
𝐸[𝑧𝑡+1 − 𝐸̂ (𝑧𝑡+1 |𝒴𝑡 )] = 𝐸[𝐡′ 𝜉𝑡+1 − 𝐡′ . 𝐸̂ (𝜉𝑡+1 |𝒴𝑡 )]
′
= 𝐡′ . 𝐸 {[𝜉𝑡+1 − 𝐸̂ (𝜉𝑡+1 |𝒴𝑡 )][𝜉𝑡+1 − 𝐸̂ (𝜉𝑡+1 |𝒴𝑡 )] } . 𝐡
= 𝐡′ 𝐏𝑡+1|𝑡 𝐡
Asimismo, la proyección lineal de 𝑧𝑡+1 sobre 𝒴𝑡∗ tiene MSE 𝐡′ 𝐏𝑡+1|𝑡 𝐡, con
∗
𝐡′ 𝐏𝑡+1|𝑡 𝐡 ≤ 𝐡′ 𝐏𝑡+1|𝑡 𝐡 [13.A.3]
Pero para un sistema de la forma de [13.2.1] y [13.2.2] con valores propios de F dentro del círculo
unitario y coeficientes tiempo-invariante, será el caso que
𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝐲𝑡 , 𝐲𝑡−1 , … , 𝐲2 , 𝐱𝑡 , 𝐱𝑡−1 , … , 𝐱2 )]
= 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝐲𝑡−1 , 𝐲𝑡−2 , … , 𝐲1 , 𝐱𝑡−1 , 𝐱𝑡−2 , … , 𝐱1 )]
que es
∗
𝐏𝑡+1|𝑡 = 𝐏𝑡+1|𝑡
Por lo tanto, [13.A.3] implica que
𝐡′ 𝐏𝑡+1|𝑡 𝐡 ≤ 𝐡′ 𝐏𝑡|𝑡−1 𝐡
7
para cualquier (𝑟×1) vector h. La secuencia de escalares {𝐡′ 𝐏𝑡+1|𝑡 𝐡} es así monótonamente no
𝑡=1
aumenta y limita por debajo de cero. Por lo tanto converge a alguno fijo valor no negativo. Puesto
que esto es cierto para cualquier (𝑟×1) vector h y puesto que la matriz 𝐏𝑡+1|𝑡 es simétrica, se
𝑇
deduce que la secuencia {𝐏𝑡+1|𝑡 } converge a alguna matriz semidefinita positiva fija P.
𝑡=1
Para verificar las afirmaciones acerca de los valores propios de la matriz (𝐅 − 𝐊𝐇′), nota que si P
es un punto fijo de [13.5.3], entonces también debe ser un punto fijo de la ecuación de diferencia
equivalente [13.2.28]:
𝐏 = (𝐅 − 𝐊𝐇 ′ )𝐏(𝐅 − 𝐊𝐇 ′ )′ + 𝐊𝐑𝐊 ′ + 𝐐 [13.A.4]
′ ′
Sean x denota un vector propio de (𝐅 − 𝐊𝐇 ) y 𝜆 su valor propio:
(𝐅 − 𝐊𝐇 ′ )′ 𝐱 = λ𝐱 [13.A.5]
Aunque F, K y H son reales, el valor propio 𝜆 y el vector propio x pueden ser complejas si 𝐱 ′′
denota la transpuesta conjugada de x, entonces
𝐱 ′′ (𝐅 − 𝐊𝐇 ′ )𝐏(𝐅 − 𝐊𝐇 ′ )′ 𝐱 = [(𝐅 − 𝐊𝐇 ′ )′ 𝐱]′′ 𝐏[(𝐅 − 𝐊𝐇 ′ )′ 𝐱]
= [𝜆𝐱]′′ 𝐏[𝜆𝐱]
= |𝜆|𝟐 𝐱′′ 𝐏𝐱
Por lo tanto, si [13.A.4] está premultiplicado por 𝐱 ′′ y postmultiplicado por x, el resultado es
𝐱 ′′ 𝐏𝐱 = |𝜆|𝟐 𝐱 ′′ 𝐏𝐱 + 𝐱 ′′ (𝐊𝐑𝐊 ′ + 𝐐)𝐱
o
7
Los argumentos en las pruebas de proposición 13.1 y 13.2. son adaptadas de Anderson y Moore (1979, pp. 76-82)
Tenga en cuenta que 𝐲𝑡 y 𝐱𝒕 están correlacionados con 𝜉𝑡+1 para 𝑡 = 1,2, … solo por el valor de 𝜉1 ,
lo que significa que igual podríamos escribir
𝐏 𝑡+1|𝑡 = 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉𝑡 )] [13.A.8]
′
donde 𝒴𝑡∗ ≡ (𝐲𝑡′ , 𝐲𝑡−1 , … , 𝐲2′ , 𝐱𝑡′ , 𝐱𝑡−1
′
, … , 𝐱2′ )′ . Agrega conocimiento 𝜉2 no podría afectar el
pronóstico:
𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉2 , 𝜉1 )] ≤ 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉1 )] [13.A.9]
Por lo tanto, [13.A.10] y [13.A.11] establecer que la izquierda de [13.A.9] es igual a 𝐏 𝑡|𝑡−1 , mientras
que de [13.A.8] derecho [13.A.9] es igual a 𝐏 𝑡+1|𝑡 . Así, [13.A.9] indica que
𝐏 𝑡|𝑡−1 ≤ 𝐏 𝑡+1|𝑡
son para que { 𝐏 𝑡+1|𝑡 } sea una secuencia monótonamente no decreciente; cuanto más lejos en el
pasado es la información perfecta sobre la 𝜉𝑡 , el menor valor para la predicción 𝜉𝑡+1 .
+𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏
𝐊{𝐇 𝐏𝐇 + 𝐑}𝐊 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇
′
= 𝐅𝐏𝐅 −𝟏 − 𝐏 + 𝐐 [13.A.19]
con la última igualdad siguiente de [13.5.3] sustituir [13.A.17] por [13.A.19] en [13.A.16] resultados
en
{𝚰𝑛 + 𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐊𝑧}{𝐇 ′ 𝐏𝐇 + 𝐑}{𝚰𝑛 + 𝐊 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇𝑧 −1 }
= {𝐇 ′ 𝐏𝐇 + 𝐑} + 𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐅𝐏𝐇𝑧 + 𝐇 ′ 𝐏𝐅 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇𝑧 −1
+𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 {𝐅𝐏𝐅 ′ − 𝐏 + 𝐐}(𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇
𝜎2
𝐸(𝜉|𝑦) = 𝜇 + (𝑦 − 𝜇)
𝜏2 + 𝜎2
con asociados MSE
𝜎 2 𝜏2
𝐸[𝜉 − 𝐸(𝜉|𝑦)]2 = 𝜏2 +𝜎2
Discuta la intuición de estos resultados como 𝜏 2 → ∞ y 𝜏 2 → 0.
13.2. Deducir la representación del espacio de estados para un modelo 𝐴𝑅(𝑝) en [13.1.14] y
[13.1.15] y la representación del espacio de estados para un modelo MA(1) dado en [13.1.17] y
[13.1.18 ] Como casos especiales del modelo ARMA (𝑟, 𝑟 − 1) de [13.1.22] y [13.1.23].
13.3. ¿Es la siguiente una representación válida del espacio de estados de un proceso MA (1)?
Ecuación de estado:
𝜀𝑡+1 0 0 𝜀𝑡 𝜀𝑡+1
[ 𝜀 ]=[ ][ ]+[ 𝜀 ]
𝑡 0 0 𝜀𝑡−1 𝑡
Ecuación de observación:
Método Generalizado
de Momentos
Supongamos que tenemos un conjunto de observaciones sobre una variable 𝑦𝑡 cuya ley de
probabilidad depende de un vector desconocido de parámetros θ. Un enfoque general para estimar
θ se basa en el principio de máxima verosimilitud - elegimos como estimamos 𝜽 ̂ el valor para el cual
los datos serían más probables de haber sido observados. Un inconveniente de este enfoque es que
nos obliga a especificar la forma de la forma de la función de verosimilitud.
Este capítulo explora un principio alternativo para la estimación de parámetros conocido
como método generalizado de momentos (GMM). Aunque las versiones de este enfoque se han
utilizado durante mucho tiempo, la declaración general de GMM en la que se basa este capítulo fue
desarrollada recientemente por Hansen (1982). La principal ventaja de GMM es que requiere
especificación de ciertas condiciones de momento en lugar de la densidad completa. Esto también
puede ser un inconveniente, ya que GMM a menudo no hace un uso eficiente de toda la
información en la muestra.
La Sección 14.1 introduce las ideas detrás de la estimación de GMM y deriva algunos de los
resultados clave. La sección 14.2 muestra cómo varios otros estimadores pueden ser vistos como
casos especiales de GMM, incluyendo mínimos cuadrados ordinarios, estimación de variables
instrumentales, mínimos cuadrados de dos etapas, estimadores para sistemas de ecuaciones
simultáneas no lineales y estimadores para modelos de expectativas racionales dinámicas. Las
extensiones y la discusión adicional se proporcionan en la Sección 14.3. En muchos casos, incluso
la estimación de máxima verosimilitud puede considerarse como un caso especial de GMM. La
sección 14.4 explora esta analogía y la utiliza para derivar algunas propiedades asintóticas generales
de máxima verosimilitud y estimación de casi máxima verosimilitud.
A medida que el parámetro v de los grados de libertad va al infinito, la varianza [14.1.2] se aproxima
a la unidad y la densidad [14.1.1] se aproxima a la de una variable estándar N (0,1). Sea 𝜇̂ 2.𝑇 el valor
cuadrado medio de y observado en la muestra real:
Para el T grande, el momento muestral (𝜇̂ 2.𝑇 ) debe estar cerca del momento de la población (𝜇2 ):
𝑝
𝜇̂ 2.𝑇 → 𝜇2
Recordando [14.1.2], esto sugiere que un estimador consistente de V puede ser obtenido por
encontrar una solución a
𝑣/(𝑣 − 2) = 𝜇̂ 2.𝑇 [14.1.4]
o
2.𝜇̂ 2.𝑇
𝑣̂𝑇 = 𝜇̂ [14.1.5]
2.𝑇 −1
Esta estimación existe siempre que 𝜇̂ 2.𝑇 > 1, es decir, siempre que la muestra muestre más
variabilidad que la distribución de N (0,1). Si en cambio observamos 𝜇̂ 2.𝑇 ≤ 1, la estimación de los
grados de libertad sería infinita - una distribución de N (0,1) se ajusta mejor a la muestra que al
segundo miembro de la familia t.
El estimador derivado de [14.1.4] se conoce como un método clásico de estimadores de
momentos. Una descripción general de este enfoque es la siguiente. Dado un vector desconocido
(𝑎 𝑥 1) de parámetros 𝜃 que caracteriza la densidad de una variable observada 𝑦𝑡 , supongamos que
A distintos momentos de la población de la variable aleatoria pueden ser calculados como
funciones de θ, tales como
𝐸(𝑌𝑡𝑖 ) = 𝜇𝑖 (𝜃) para 𝑖 = 𝑖1 , 𝑖2 , … , 𝑖𝑎 [14.1.6]
̂
El método clásico de estimación de momentos de θ es el valor 𝜃𝑇 para el cual estos momentos de la
población son equiparados a los momentos observados de la muestra; es decir, 𝜃̂𝑇 es el valor para el
cual
̂ 𝑻 ) = (1/𝑇) ∑𝑇𝑡=1 𝑦𝑡𝑖
𝜇𝑖 (𝜽 para 𝑖 = 𝑖1 , 𝑖2 , … , 𝑖𝑎
Un ejemplo temprano de este enfoque fue proporcionado por Pearson (1894).
𝑣
{𝜇̂ 2.𝑇 − 𝑣−2}
𝐠≡[ 3𝑣 2
] [14.1.8]
{𝜇̂ 4.𝑇 − (𝑣−2)(𝑣−4)}
Aquí W es una matriz de ponderación simétrica definitiva positiva (2×2) que refleja la importancia
dada para hacer coincidir cada momento. Cuanto mayor es el elemento (1.1) de W, mayor es la
importancia de estar lo más cerca posible de satisfacer [14.1.4].
Una estimación basada en la minimización de una expresión tal como [14.1.7] fue llamada un
estimador "chi-cuadrado mínimo" por Cramer (1946, p.425), Ferguson (1958) y Rothenberg (1973)
y una "distancia mínima Estimador "por Malinvaud (1970). Hansen (1982) proporcionó la
caracterización más general de este enfoque y derivó las propiedades asintóticas para procesos
dependientes en serie. La mayoría de los resultados reportados en esta sección fueron desarrollados
por Hansen (1982), quien describió esto como una estimación por el "método generalizado de
momentos".
La formulación de Hansen del problema de la estimación es la siguiente. Sea 𝐰𝐭 un vector (ℎ×1)
de variables que se observan en la fecha 𝑡, vamos θ denotar un vector de coeficientes desconocido
(𝑎×1), y 𝐡(𝛉, 𝐰𝒕 ) una función de valor vectorial (𝑟×1) 𝐡: (ℝ𝒂 ×ℝ𝒉 ) → ℝ𝒓 . Puesto que 𝐰𝐭 es
una variable aleatoria, también lo es 𝐡(𝛉, 𝐰𝒕 ). Sea 𝛉𝟎 el valor verdadero de θ, y supongamos que
este valor verdadero se caracteriza por la propiedad que
𝐸{𝐡(𝛉0 , 𝐰𝒕 )} = 𝟎 [14.1.9]
Las 𝑟 filas de la ecuación vectorial [14.1.9] a veces se describen como condiciones de ortogonalidad.
Sea 𝒴𝑇 ≡ (𝐰𝑇′ 𝐰𝑇−1 ′
, … , 𝐰1′ )′ un vector (𝑇ℎ×1) que contenga todas las observaciones en una
muestra de tamaño T, y la función de valor vectorial (𝑟×1) 𝐠(𝜃; 𝒴𝑇 ) denote la media de la muestra
de 𝐡(𝛉, 𝐰𝒕 ):
Observe que 𝐠: ℝ𝒂 → ℝ𝒓 . La idea detrás de GMM es elegir θ para hacer que el momento de
muestreo 𝐠(𝜃; 𝒴𝑇 ) sea lo más cercano posible al momento de la población de cero, es decir, el
estimador de GMM 𝜽 ̂ 𝑇 es el valor de θ que minimiza el escalar
donde {𝐖𝑇 }∞ 𝑇=1 es una secuencia de matrices de ponderación definidas positivas (𝑟×1) que
pueden ser una función de los datos 𝒴𝑇 . A menudo, esta minimización se logra numéricamente
usando los métodos descritos en la sección 5.7.
El método clásico del estimador de momentos de v dado en [14.1.5] es un caso especial de esta
formulación con 𝐰𝑡 = 𝒚𝒕 , 𝛉 = 𝑣, 𝐖𝑡 = 𝟏 y
𝐡(𝛉, 𝐰𝒕 ) = 𝑦𝑡2 − 𝑣/(𝑣 − 2)
1
g(𝛉; 𝒴𝑇 ) = ( ) ∑𝑇𝑡=1 𝑦𝑡2 − 𝑣/((𝑣 − 2)
𝑇
𝑣
{𝑦𝑡2 − 𝑣−2}
𝐡(𝛉, 𝐰𝒕 ) = [ 3𝑣 2
]
{𝑦𝑡4 − (𝑣−2)(𝑣−4)}
𝐠(𝛉̂ 𝑇 ; 𝒴𝑇 ) = 𝟎 [14.1.12]
Si 𝑎 = 𝑟, entonces el estimador GMM es el valor 𝛉 ̂ 𝑇 que satisface estas r ecuaciones. Si en cambio
hay más condiciones de ortogonalidad que los parámetros para estimar (𝑟 > 𝑎), entonces [14.1.12]
no se mantendrá exactamente. ¿Qué tan cerca está el elemento i de 𝐠(𝛉 ̂ 𝑇 ; 𝒴𝑇 ) a cero depende de
cuánto peso la condición de ortogonalidad i es dada por la matriz de ponderación W.
Para cualquier valor de 𝜃, la magnitud del vector (𝑟×1) 𝐠(𝛉, 𝐰𝒕 ) es la media simple de las
realizaciones T del vector aleatorio (𝑟×1) 𝐡(𝛉, 𝐰𝒕 ). Si 𝐰𝒕 es estrictamente estacionario y h(. ) Es
continuo, entonces es razonable esperar que la ley de grandes números se mantenga:
𝒑
𝐠(𝛉, 𝐰𝒕 ) → 𝑬{ 𝐡(𝛉, 𝐰𝒕 )}
La expresión 𝑬{ 𝐡(𝛉, 𝐰𝒕 )} denota una magnitud de población que depende del valor de 𝛉 y de la
ley de probabilidad de 𝐰𝒕 . Supongamos que esta función continúa en 𝛉 y que 𝛉0 es el único valor
de 𝛉 que satisface [14.1.9]. Entonces, bajo condiciones de estacionariedad, continuidad y momento
̂ 𝑇 que minimiza [14.1.11] ofrece una estimación consistente de 𝛉𝟎 ;
bastante generales, el valor de 𝛉
Véase Hansen (1982), Gallard y White (1988), y Andrews y Fair (1988) para más detalles.
𝑺 ≡ ∑ 𝚪𝟏++
=−∝
[14.1.14]
Recordemos de la discusión en la Sección 10.5 que S es la varianza asintótica de la media muestral
de 𝒉(𝜽𝟎 , 𝒘𝒕 ):
𝑆 = lim 𝑇. 𝐸{[𝑔(𝜽𝟎 : 𝒚𝑻 )][(𝜽: 𝒚𝑻 )]´} .
𝑇−𝑋
Donde
Con 𝜽 ̂ otra vez una estimación consistente inicial de 𝜽𝟎 . Alternativamente, los estimadores
propuestos por Gallant (1987), Andrews (1991). O Andrews y Monahan (1992) que se discutieron
en la Sección 10.5 también podrían aplicarse en este contexto.
𝝏𝐠(𝜽,𝒚𝑻 ) ´
{ ̂(−𝟏) ×[𝐠 (𝜽
|𝜽=𝜽̂𝑻 } ×𝑺 ̂ 𝑻, 𝒚𝑻 )] =𝟎 [14.1.22]
𝝏𝜽´ 𝑻
Proposición 14. 1: Sea 𝒈(𝜽𝟎 ; 𝒚𝑻 ) diferenciable en θ para todo 𝒚𝑻 y 𝜽 ̂ 𝑻, sea la GMM que satisface
𝜶 𝒑
[14.1.22] con r ≥ a. Sea {𝑺 ̂𝑻 } una secuencia de matrices definidas positivas (r x r) tales que 𝒔̂𝑻 → 𝒔, con S
𝑻=𝟏
definida positiva. Supongamos, además, que las siguientes consideraciones:
𝒑
̂ 𝑇 → 𝛉𝟎
(a) 𝜽
L
(b) √𝑇 ⋅ 𝐠(𝛉𝟎 ; 𝒚𝑻 ) → 𝑁(𝟎, 𝑺); y
𝑝
̂ ∗ → 𝛉0
(c) Para cualquier secuencia {𝜽∗𝑇 }𝛼𝑇=1 satisface 𝜽 es el caso que
𝑇
𝝏𝐠(𝜽,𝒀𝑻 ) 𝝏𝐠(𝜽,𝒀𝑻 )
plim { 𝝏𝜽´
|𝜽=𝜽̂𝑻 } = 𝑝𝑙𝑖𝑚 { 𝝏𝜽´
|𝜽=𝜽̂𝟎 } ≡ 𝑫´ [14.1.23]
14.2. Ejemplos
Esta sección muestra cómo las propiedades de una variedad de diferentes estimadores se pueden
obtener como casos especiales de los resultados de Hansen para el método generalizado de
momentoEstimación. Para facilitar esta discusión. Primero resumimos los resultados de la sección
anterior.
Resumen de GMM
𝐠 (𝜽; 𝒚𝑻 ) ≡ ∑ 𝐠( 𝛉, 𝐰𝛕 ).
(𝑟×1)
𝑖=1
(𝑟×1)
[14.2.3]
̂ 𝑇 es una estimación de
Y 𝑺
𝑇 ×
1
𝐒 = lim ( ) ∑ ∑ 𝐸 [𝐡(𝛉𝟎 ; 𝑾𝑻 )]. [𝐠(𝛉𝟎 ; 𝑾𝟏−𝒗 )]´.
(𝑟×𝑟) 𝑇 →× 𝑇 (1×𝑟) (1×𝑟)
𝑖=1 =−𝛼
[14.2.4]
La estimación de GMM se puede tratar como si
̂𝑇
𝜽 ̂ 𝑇 ⁄𝑻)
𝑵(𝛉𝟎 ; 𝑽
≈ [14.2.5]
(𝑎×1) (𝑎×1)(𝑎×𝑎)
Dónde
𝑽̂ 𝑇 = {𝑫 ̂−1
̂𝑇 . 𝑺 ̂ ´ −1
𝑇 . 𝑫𝑇 }
(𝑎×𝑎) (𝑎×𝑟)(𝑟×𝑟)(𝑟×𝑢)
[14.2.6]
Y
̂´ = {𝝏𝐠(𝜽, 𝒚𝑻 ) | ̂ }
𝑫 𝒕 𝜽=𝜽𝒕
(𝒓×𝒂) 𝝏𝜽´
[14.2.7]
Ahora exploramos cómo estos resultados serían aplicados en varios casos especiales.
No. Dependen de r, La expresión en el texto es más general de lo necesario bajo el supuesto. Esta
expresión es apropiada para una caracterización de GMM que no asuma estricta estacionaria. La
expresión en el texto también es útil para sugerir estimaciones de S que pueden usarse en varios
casos especiales descritos más adelante en esta sección
𝑻
̂ 𝑻)
̂ 𝑻, 𝒚𝑻 ) = (𝟏⁄𝑻) ∑ 𝒙𝒕 (𝑦𝑡 − 𝒙´𝒕 𝜷
0 = 𝐠 (𝜽
𝒕=𝟏
[14.2.12]
Reordenar [14.2.12] resulta en
𝑇 𝑇
∑ 𝑥𝑡 , 𝑦𝑡 = {∑ 𝑥𝑡 𝑥𝑡´ } 𝛽̂𝑡
𝑡=1 𝑡=1
O
𝑇 𝑇
𝛽̂𝑡 = {∑ 𝑥𝑡 , 𝑦𝑡 } −1
{∑ 𝑥𝑡 , 𝑦𝑡 } ,
𝑡=1 𝑡=1
[14.2.13]
Cuál es el estimador OLS habitual. Por lo tanto, OLS es un caso especial de GMM.
Obsérvese que al derivar el estimador GMM en [14.2.13] supusimos que el residuo no
estaba correlacionado con las variables explicativas, pero no hicimos ninguna otra suposición sobre
heteroscedasticidad o correlación serial de los residuos.
En presencia de heteroscedasticidad o correlación serial, OLS no es tan eficiente como GLS.
Porque GMM utiliza la estimación OLS, incluso en presencia de heterosedasticidad o correlación
en serie. GMM en general no es eficiente. Sin embargo, recuerde de la sección 8.2 que todavía se
puede usar OLS en presencia de heteroscedasticidad o correlación serial. Siempre que se cumpla la
condición [14.2.9], la OLS arroja una estimación consistente β, aunque las fórmulas para errores
estándar deben ajustarse para tener en cuenta la heterocedasticidad o autocorrelación.
La expresión de GMM para la varianza de ̂ 𝜷𝑇 está dada por [14.2.6]. Diferenciando [14.2.11],
vemos que
𝝏𝐠(𝜽, 𝒚𝑻 )
̂𝑇´ =
𝐷 |𝜽=𝜽̂𝒕
𝝏𝜽´
𝑇
𝜕𝒙𝒕 (𝑦𝑡− 𝒛´𝒕 𝜷)
= (1⁄𝑇) ∑ |𝛽=𝛽𝑇
𝜕𝛽 ´
𝑡=1
𝑇
− (1⁄𝑇) ∑ 𝑿𝒕 𝑿´𝒕
𝑖=1
[14.2.14]
̂ 𝟐𝑻
𝝈 ̂ 𝟐𝒕
= (1⁄𝑇) ∑ 𝒖
𝑖=1
Para 𝒖𝑡 = 𝑦𝑡 − 𝒙´𝒕 𝜷𝑰 el OLS residual. La sustitución de [14.2.14] y [14.2.16] en [14.2.6] produce
una matriz de varianza-covarianza para la estimación de la MCO 𝜷̂ 𝑻 de
𝑇 𝑇 −1 𝑇
̂ 𝑇 = (1⁄𝑇 )
(1⁄𝑇)𝑽 {(1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕 [𝜎̂𝑇2 (1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕 ] (1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕 }−1
𝑖=1 𝑖=1 𝑖=1
𝑇 −1
= 𝜎̂𝑇2 [ ∑ 𝒙𝒕 𝒙´𝒕 ]
𝑖=1
Aparte de la estimación de 𝝈𝟐 , esta es la expresión habitual de la varianza del estimador MCO en
estas condiciones.
Por otro lado, supongamos que es condicionalmente heteroscedástica y correlacionada en
serie. En este caso, la estimación de S propuesta en [14.1.19] sería
𝑞
= 𝐓 [∑ 𝒙𝒕 𝒙´𝒕 ] ̂𝑻 [∑ 𝒙𝒕 𝒙´𝒕 ]
𝑺
𝑖=1 𝑖=1
uál es la expresión derivada anterior en la ecuación [10.5.21]. Los errores estándar de la
heteroscedasticidad de White (1980) en [8.2.35] se obtienen como un caso especial cuando q = 0
Que es el estimador de variables instrumentales habituales para este modelo. Para calcular los
errores estándar implícitos en los resultados generales de Hansen (1982), diferenciamos [14.2.19]
por encontrar
𝝏𝐠(𝜽, 𝒚𝑻 )
̂ ´𝑻 = {
𝑫 |𝜽=𝜽̂𝒕 }
𝝏𝜽´
𝑇
𝜕𝑥𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷)
= (1⁄𝑇) ∑ |𝜷=𝜷̂𝒕
𝝏𝜷̂
𝑖=1
[14.2.21]
𝑇
= − (1⁄𝑇 ) ∑ 𝒙𝒕 𝒛´𝒕
𝑖=1
El requisito en la Proposición 14.1 de que el plim de esta matriz tiene columnas linealmente
independientes es la misma condición que se necesitó para establecer la consistencia del estimador
IV en el Capítulo 9. es decir, la condición de que las filas de E(𝒙𝒕 𝒛´𝒕 ) Ser linealmente independientes.
La varianza de GMM para 𝜷 ̂ 𝑻 Se ve frontal [14.2.6] para ser
𝑇 𝑇 −1
̂ 𝒕 − 𝜷)(𝜷
𝑬[(𝜷 ̂ 𝑻 − 𝜷 )´] ≅ 𝜎̂𝑇2 [∑ 𝒛𝒕 𝒙´𝒕 ] [∑ 𝒙𝒕 𝒙´𝒕 ] [∑ 𝒙𝒕 𝒛´𝒕 ]
𝑖=1 𝑖=1 𝑖=1
̂ 𝒕 − 𝜷)(𝜷
𝑬[(𝜷 ̂ 𝑻 − 𝜷 )´] ≅ 𝑻 [∑ 𝒙𝒕 𝒛´𝒕 ] ̂𝑻 [∑ 𝒛𝒕 𝒙´𝒕 ]
𝑺
𝑖=1 𝑖=1
[14.2.25]
Donde
𝑞
𝑣
̂
𝑺𝑻 = 𝚪̂0,𝑇 + ∑ {1 − [ ´
]} (𝚪𝒗,𝒕 + 𝚪𝒗,𝒕 )
(𝑞 + 1)
𝑣=1
[14.2.26]
𝑇
𝝏𝐠(𝜽,𝒚𝑻 ) ´
0 ={ | ̂𝒕 } ×
𝜽=𝜽
̂−𝟏
𝑺 ̂
𝑻 × [𝐠 (𝜽𝑻, 𝒚𝑻 )] [14.2.27]
𝝏𝜽´
𝑇 𝑇
= {− (1⁄𝑇) ∑ 𝒛𝒕 𝒙´𝒕 } ̂
𝑺−𝟏
𝑻 {(1⁄𝑇) ∑ 𝒙𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷}
𝑡=1 𝑡=1
Con la última línea que sigue de [14.2.21] y [14.2.20]. De nuevo, si 𝒖𝒕 está correlacionada en serie y
homoskedasti con varianza 𝝈𝟐 , Una estimación natural de S viene dada por [14.2.24]. Usando esta
estimación, [14.2.27] se convierte en
𝑇 𝑇 −1 𝑇
̂´ =
𝛿 {∑ 𝒛𝒕 𝒙´𝒕 } {∑ 𝒙𝒕 𝒙´𝒕 }
𝑡=1 𝑡=1
Esta 𝜹̂´ es una matriz (k x r) cuya fila representa los coeficientes de una regresión OLS
de 𝒛𝒊𝒕 en 𝒙𝒕 ,sea.
̂ ´ 𝒙𝒕
𝒛´𝒕 ≡ 𝜹
El vector (k x 1) de valores ajustados a partir de estas regresiones de 𝒛𝒕 en𝒙𝒕 . Entonces [14.2.28]
implica eso.
𝑻
̂ 𝑇 = (1⁄𝑇 ) {
(1⁄𝑇)𝑽 ̂−𝟏
[(1⁄𝑇) ∑ 𝒛𝒕 𝒙´𝒕 ] 𝑺 𝑻 [(1⁄𝑇 ) ∑ 𝒙𝒕 𝒛´𝒕 ]}
𝑖=1 𝑖=1
−1 ´ −1
𝑇 𝑇 𝑇
Como se derivó anteriormente en la expresión [9.2.25]. Una prueba de las suposiciones sobre-
identificadoras incorporadas en el modelo en [14.2.17] y [14.2.18] está dada por
´
̂ 𝑻, 𝒚𝑻 )]𝑺
𝑻[𝐠 (𝜽 ̂−1 ̂
𝑇 [𝐠 (𝜽𝑻, 𝒚𝑻 )]
𝑇 ´ 𝑇 −1 𝑇
= 𝑻 {(1⁄𝑇) ∑ 𝒙𝑡 (𝑦𝑡 − ̂ 𝑻 )}
𝒛´𝒕 𝜷 {𝜎𝑇2 . (1⁄𝑇 ) ∑ 𝒙𝒕 𝒙´𝒕 } ̂ 𝑻 )}
× {(1⁄𝑇) ∑ 𝒙𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷
𝑡=1 𝑖=1 𝑡=1
𝑇 𝑇 −1 𝑇
= 𝜎𝑇−2 { [∑ 𝒖
̂ 𝒕 𝒙´𝒕 ] [∑ 𝒙𝒕 𝒙´𝒕 ] ̂ 𝒕 ]}
[∑ 𝒙𝒕 𝒖
𝑡=1 𝑡=1 𝑖=1
𝟐
Esta magnitud tendrá una distribución asintótica 𝒙 con (r-k) grados de libertad si el modelo está
correctamente especificado.
Alternativamente, para permitir la heterocedasticidad y la autocorrelación de los residuos u t , la
estimación 𝒔̂𝒕 en [14.2.24] sería reemplazada por [14.2.26]. Recuerda la condición de primer orden
[14.2.27]:
𝑇 𝑇
̂ ´̂
{(1⁄𝑇) ∑ 𝒛𝒕 𝒙´𝒕 } 𝑺−𝟏
𝑻 {(1⁄𝑇) ∑ 𝒙𝑡 (𝑦𝑡 − 𝒛𝒕 𝜷𝑻 )} = 0
𝑡=1 𝑡=1
[14.2.29]
Si ahora definimos
̂ ´ 𝒙𝒕
𝒛̅𝒕 ≡ 𝜹
𝑇
̂´ ≡ {(1⁄𝑇 ∑ 𝒛𝒕 𝒙´𝒕 } 𝑺
𝜹 ̂−1
𝑇
𝑡=1
Entonces [14.2.29] implica que el estimador GMM para este caso está dado por
𝑇 −1 𝑇
̂𝑇 =
𝜷 {∑ 𝒛̅𝒕 𝒛´𝒕 } {∑ 𝒛̅𝒕 𝒚𝒕 }
𝑡=1 𝑡=1
̂ 𝑻 es circular - para calcular 𝜷
Esta caracterización de 𝜷 ̂ 𝑻 , necesitamos saber 𝒛̅𝒕 y así 𝑺
̂𝑻 mientras que
construir 𝑺𝑻 de [14.2.26] primero necesitamos 𝜷𝑻 saber .La solución es primero estimar
̂ ̂
usando una matriz de ponderación subóptima como 𝑺 ̂ 𝑇 = (1⁄𝑇) ∑𝑇𝑡=1 𝒙𝒕 𝒛´𝒕 y luego usar esta
estimación de S para reestimar β. La varianza asintótica del estimador GMM está dada por
𝑇 𝑇 −1
̂ 𝒕 − 𝜷)(𝜷
𝑬[(𝜷 ̂ 𝑻 − 𝜷 )´] ≅ 𝑻 {∑ 𝒛𝒕 𝒙´𝒕 } 𝐒̂T−1 {∑ 𝒙𝒕 𝒛´𝒕 }
𝑡=1 𝑡=1
Cuando una estimación de S que podría utilizarse con heteroscedasticidad y correlación en serie de
𝒖𝒕 es dado por.
𝑞
̂
𝑺𝑻 = 𝚪̂𝟎,𝑻 + ∑{1 − [𝑣/(𝑞 + 1)]} (𝚪̂𝒗,𝒕 + 𝚪𝒗,𝒕
´
)
𝑣=1
𝑇
̂ 𝒘𝒕−𝒗 )]´
̂ 𝒘𝒕 ) 𝒉(𝜽,
𝚪̂𝟎,𝑻 = (1⁄𝑇) ∑ [𝒉( 𝜽,
𝑡=𝑣+1
La minimización de [14.2.30] puede lograrse numéricamente. Una vez más, para evaluar [14.2.30],
primero necesitamos una estimación inicial de S. Un enfoque es minimizar primero [14.2.30] con
ST I r , Utilice la estimación resultante 𝛉̂ Construir una mejor estimación de ST , Y recalcular,
el procedimiento 𝛉̂ se puede iterar más, si se desea. La identificación requiere una condición de
orden (r ≥a) y la condición de rango que las columnas del plim de ̂ 𝑫´𝑻 ser linealmente
independientes, donde
𝑇
𝝏𝐡(𝜽, 𝒘𝑻 )
̂ ´𝑻 = (1⁄𝑇) ∑
𝑫 |𝜽=𝜽̂𝒕
𝝏𝜽´
𝑡=1
̂ 𝑻 entonces se calculan fácilmente de [14.2.5] y [14.2.6]
Los errores estándar para 𝜽
∑ 𝜷𝑻 𝑬{𝑢(𝑐𝑡+𝑇 )𝑿∗𝒕 )}
𝑡=0
[14.2.31]
Donde 𝒙∗𝒕 Es un vector que representa toda la información disponible para el accionista en la fecha
t y β Es un parámetro que satisface 0<β<1. Valores más pequeños de β Significa que el accionista
coloca un peso menor en eventos futuros. A la fecha t, el accionista contempla comprar cualquiera
de los diferentes activos, donde un dólar invertido en el activo i a la fecha t dará un rendimiento
bruto de (1 + 𝑟𝑖,𝑡+1 ) a la fecha t + 1; En general esta tasa de rendimiento no se conoce con certeza
en la fecha t. Suponiendo que el accionista toma una posición en cada uno de estos activos, la
cartera óptima del accionista satisfará
Donde 𝒄𝒕 Podría moverse dentro del operador de expectativa condicional, ya que representa una
decisión basada únicamente en la información contenida en 𝒙∗𝒕 , la expresión [14.2.34] requiere que
la variable aleatoria describa por
1 − 𝜷{(1 + 𝑟𝑖,𝑡+1 )(𝑐𝑡+1 /𝑐𝑡 )−𝑦 } [14.2.35]
14.3. Extensiones
0 441
𝑤𝑡 − 𝛼 − 𝜹𝒕
𝐠 (𝜽; 𝒘𝑻 ) = [ ]
𝐟 (𝜽, 𝒘𝑻 − 𝜶 − 𝜹𝒕 )
[14.3.2]
Donde, por ejemplo, si {𝐡 (𝜽𝟎 , 𝒘𝒕 )} está sin correlación en serie.
𝑇0
̂
𝑺𝟏𝑻𝟎 = (1⁄𝑇0 ) ∑ [𝐡 (𝜽 ̂ 𝒘𝒕 )]´
̂1𝑇 , 𝒘𝒕 )] [𝐡(𝜽,
0
𝑡=1
La Proposición 14.1 implica que
𝐋
̂ 𝟏𝑻 , − 𝜽𝟏 ) → 𝑵(𝟎, 𝑽𝟏 )
√𝑻𝟎 (𝜽 [14.3.3]
𝟎
L
√𝑇 − 𝑇0 (𝜽 ̂ 2,𝑇−𝑇 − 𝜽2 ) → 𝑵(𝟎, 𝑽𝟐 ) [14.3.4]
0
Como T→α .Sea T0 / T Denote la fracción de observaciones contenida en la primera
submuestra. Entonces [14.3.3] y [14.3.4] lo declaran.
L
√𝑇(𝜽 ̂1,𝑇 − 𝜃1 ) → 𝑵(0, 𝑽1 /𝜋)
0
L
̂ 2,𝑇−𝑇 − 𝜽2 ) → 𝑵(0, 𝑽𝟐 /(1 − 𝜋))
√𝑇(𝜽 0
Como. Andrews y Fair (1988) sugirieron usar una prueba de Wald de la hipótesis nula de que 𝜽𝟏 =
𝜽𝟐 , Aprovechando el hecho de que bajo las condiciones de estacionariedad necesarias para justificar
la Proposición 14.1, 𝜃̂1 Es asintóticamente independiente de 𝜃̂2 :
̂1,𝑇 − 𝜽
𝝀 𝑇 = 𝑇(𝜽 ̂ 2,𝑇 −𝑇 )´ ×{𝝅−1 . 𝑽 ̂ 2.𝑇−𝑇 }−1 (𝜽
̂1.𝑇 + (1 − 𝜋)−1 . 𝑽 ̂1,𝑇 − 𝜽
̂ 2,𝑇 −𝑇 )
0 0 0 0 0 0 0 0
𝐋
Entonces 𝝀𝑻 → 𝒙𝟐 Bajo la hipótesis nula de que 𝜽𝟏 = 𝜽𝟐 ,
Uno puede probar más lejos para el cambio estructural en una variedad de diversas fechas
posibles, repitiendo la prueba anterior para todos 𝑻𝟎 Entre, por ejemplo, 0,15T y 0,85T y elegir el
valor más grande para el estadístico de prueba resultante 𝝀𝑻 . Andrews (1993) describió la
distribución asintótica de tal prueba.
1 𝑠𝑖 𝑡 ≤ 𝑇0
𝑑1𝑡 = {
0 𝑠𝑖 𝑡 > 𝑇0
Si 𝒉(𝜽, 𝒘𝒕 ) es un (r x 1) Vector cuya población media es cero un 𝜽𝟎 , definir
𝒉(𝜽, 𝒘𝒕 ). 𝑑1𝑡
𝒉∗ ( 𝜽, 𝑤𝑡 , 𝑑1𝑡 ) = [ ]
(2𝑟×1) 𝒉(𝜽, 𝒘𝒕 ). (1 − 𝑑1𝑡 )
Los elementos de θ pueden entonces ser estimados usando las condiciones de ortogonalidad 2r
dadas por 𝐸{𝒉∗ (𝜽𝟎 , 𝜽𝒕 , 𝜽𝟏𝒕 )} = 0 para t = 1, 2... T, Simplemente reemplazando 𝒉(𝜽, 𝑤𝑡 )
En [14.2.3] con 𝒉∗ (θ, 𝒘𝟏 , 𝒅𝟏𝒕 ) y reducir al mínimo [14.2.2] de la manera habitual. La prueba
estadística de Hansen 𝑿𝟐 se describe en [14.2.27] basado en 𝒉∗ (. )las condiciones del momento
podrían el ser comparado con un 𝑿𝟐 (2𝑟 − 𝑎) valor crítico para proporcionar una prueba de la
hipótesis de que 𝜽𝟏 = 𝜽𝟐 .
Una serie de otras pruebas de cambio estructural se han propuesto por Andrews y Fair (1988) y
Ghysels y Hall (1900a, b).
Desde [14.4.2] sostiene que para todos los valores admisibles de θ, podemos diferenciar ambos
lados con respecto a θ a la conclusión de que
∂𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜽)
∫𝐴 𝛛𝛉
𝑑𝑦𝑡 = 0 , [14.4.3]
Las condiciones bajo las cuales el orden de la diferenciación y la integración puede ser revertido
como se supone en llegar a [14.4.3] y las ecuaciones a seguir son conocidos como la "regularidad
condiciones" y se detallan en la Cramer (1946). Suponiendo que éstos llevan a cabo, podemos
multiplicar y dividir el integrando en [14.4.3] por la densidad condicional de 𝑦𝑡 :
∂𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜃) 1
|Y𝑡−1 ; 𝜽) 𝑑𝑦𝑡 = 0,
∫𝐴 𝛛𝛉 ∂𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜃 ) 𝑓(𝑦𝑡
o
∂log𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜃)
∫𝐴 𝛛𝛉
𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜽) 𝑑𝑦𝑡 = 0.
[14.4.4]
La ecuación [14.4.6] indica que si los datos fueron realmente generados por la densety [14.4.1],
entonces el valor esperado de la puntuación condicional de la información observada a través de la
fecha t – 1 debe ser igual a cero:
Ε{ 𝐡(𝛉, 𝐘𝒕 ) |Y𝑡−1 }=0. [14.4.7]
0= (1/T) ∑ h(θ, Yt )
T=1
[14.4.9]
Pero este es también el caracterización de la estimación de máxima verosimilitud, el cual se basa
en la maximización de
T
𝑇
1 ∂log𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝜽)
= ( )∑ |𝜃=𝜃̂ 𝑇
𝑇 𝛛𝛉 𝝏𝜽′
𝑡=1
Por otra parte, la observación en [14.4.7] de que las puntuaciones están en serie correlación sugiere
que la estimación de S por
𝑇
1
̂ 𝑇 = ( ) ∑[ℎ (𝜽,
𝑺 ̂ Y𝒕 )′ ]
̂ Y𝒕 )] [𝒉(𝜽,
T
𝑡=1
[14.4.13]
𝜕ℎ(𝜽, Y𝒕 )
=∫ 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉)𝑑𝑦𝑡
𝐴 𝝏𝜽′
𝜕 log 𝑓(𝑦𝑡 |Y𝑡−1 ; θ)
+ ∫ 𝒉(𝜽, Y𝒕 )( 𝑓(𝑦𝑡 |Y𝑡−1 ; 𝛉)𝑑𝑦𝑡
𝐴 𝝏𝜽′
or
𝜕ℎ(𝜽, Y𝒕 )
∫[ 𝒉(𝜽, Y𝒕 )][𝒉(𝜽, Y𝒕 )]′ 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉)𝑑𝑦𝑡 = − ∫ 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉)𝑑𝑦𝑡
𝐴 𝝏𝜽′
𝑨
Esta ecuación implica que si el modelo está correctamente especificado, el valor esperado de la
parte externa del producto del vector de primera derivados del registro de probabilidad es igual a la
negativa de que el valor esperado de la matriz de las segundas derivadas:
𝝏𝐠(𝛉) 𝝏𝐠(𝛉)
̂ 𝑻 )]’{[
T[g𝜽 |𝜃=𝜃̂ 𝑇 ]𝜑̂−1
𝑇 [
̂ 𝑇 )]
| ̂ ]′}−1 [g𝜽 [14.4.16]
𝝏𝜽′ 𝝏𝜽′ 𝜃=𝜃 𝑇
(1 x m) (m x a) (a x a) (a x m) (m x 1)
que converge en distribución a una 𝑿𝟐 (𝑚) variable bajo la hipótesis nula. De nuevo, la estimación
̂ 𝑻 podría basarse en -𝑫
de la matriz de información 𝝋 ̂ 𝑇 en [14.4.13].
̂ ′𝑇 en [14.4.12] o 𝑺
𝒅𝟏 (𝜽∗𝟏.𝑻 ; Y𝒕 )]′
𝒅 (𝜽∗ ; Y )]′
𝑫 ′𝑻 ≡ ([ 𝟐 𝟐.𝑻 𝒕 ]) [14. A. 2]
⋮
𝒅𝒓 (𝜽∗𝒓.𝑻 ; Y𝒕 )]′
𝝏𝒈 (𝜽; Y𝒕 )
{ ̂ −1
∣𝜃=𝜃̂ 𝑇 } 𝑥 𝑺 𝑇 ,
𝝏𝜽′
el resultado es
Capítulo 14 Ejercicios
14.1 Considerar el Gaussiano modelo de regresión lineal.
𝑦𝑡 = 𝒙′𝒕 𝜷 + 𝒖𝒕
con 𝑢𝑡 ~ i.i.d. N(0, 𝜎 2 ) y 𝑢𝑡 independiente de 𝑋𝑇 para todo t y τ. Define θ≡ (β, 𝜎 2 )’. El registro de
la probabilidad de (𝑦1 , 𝑦2 , … , 𝑦𝑇 ) condicional en (𝑥1 , 𝑥2 , … , 𝑥𝑇 ) está dada por
T
𝑇
1
− ∑ 𝒙𝒕 𝒙′𝒕
𝑇
0
̂ ′𝑇 =
𝐷 𝑡=1
𝑇
1 1 ̂2
𝑢
0 ∑{ − 6𝑡}
[ 𝑇] ̂ 4
𝑡=1 2𝜎 𝑇 𝜎
̂𝑇
̂ ′̂ ̂ 𝟐
̂ 𝑻 indicar el máximo de estimaciones de probabilidad.
Donde 𝒖 𝒕 ≡ (𝒚𝒕 − 𝒙𝒕 𝜷 𝑻 ) y 𝜷 𝑻 y 𝝈
̂ 𝑻 en [14.4.13] está dada por
(b) demuestre que la estimación de 𝑺
Capítulo 14 Referencias
Aitchison. J., and S. d. Silvey., 1958. "Estimación de máxima Verosimilitud de los Parámetros
Sujetos a restricciones de tamaño." Anales de la Estadística matemática 29:813-28..
Amemiya, Takeshi. 1974. "El Estimador No Lineal De Dos Etapas De Mínimos Cuadrados."
Diario de econometría 2:105-10.
Andrews, Donald W. K., 1991, "Heterocedasticidad y Autocorrelación Consistente de la Matriz de
Covarianza de la Estimación." Econometrica 59:817-58
1993 "Pruebas para el Parámetro de la Inestabilidad y el Cambio Estructural con
Desconocidos Cambio Punto." Econometrica 61:821-56
And Ray C. Fair. 1988. "La inferencia en no Lineal de los Modelos econométricos con el
Cambio Estructural." Revisión de Estudios Económico 55:615-40.
And J.Christopher Monahan. 1992. "Una Mejora de la Heterocedasticidad y
Autocorrelación Consistente de la Matriz de Covarianza Estimatior." Econometrica 60:953-66.
Bates, Charles y Halbert White. 1988. "Eficiente Variables Instrumentales Estimación de Sistemas
de Implícito Heterogéneo, Dinámico no Lineal de Ecuaciones con Nonspherical Errores." en
William A. Barnett. Ernst R..Berndt, y Halbert Blanco, eds.. Dinámica de la elaboración de modelos
Econométricos, Cambridge, Inglaterra : Cambridge University Press.
Breusch, T. S., y A. R.. Pagano. 1980. "El Multiplicador de Lagrange de la Prueba y Sus
Aplicaciones a la Especificación del Modelo en la Econometría." Revisión de Estudios Económicos
47:239-253.
Cramér,H. 1946. Métodos matemáticos de Stadistics. Princeton, N. J.:Princeton University Press.
Engle, Robert F. 1984. "Wald, Cociente de Probabilidad, y El Multiplicador de Lagrange de la
Prueba en la Econometría." En Zvi Griliches y Michael D. Intriligator, eds., Manual de
Econometría. Vol.2, Amsterdam: North-Holland.
Ferguson, T. S. 1958. "Un Método de Generación de Mejores Asynptotically Normal de las
estimaciones con Aplicación a la estimación de la densidad Bacteriana."Anales de la Estadística
Matemática 29:1046-62.
Galán, A. Ronald. 1977. "Tres etapas de mínimos Cuadrados, la Estimación de un sistema de
Simultáneas no Lineales, Ecuaciones Implícitas." Diario de Econometría 5:71-88.
,1987. No Lineal De Los Modelos Estadísticos. New York: Wiley.
y George Tauchen. 1992. "El que los Momentos de Partido?" Duke University, Mimeo.
And Halbert white, 1988. Una Teoría unificada de la Estimación y la Inferencia no Lineal de
los Modelos Dinámicos.. Oxford: Blackwell.
Garber, Pedro M.. y Robert G. Rey. 1984. "Estructurales Profundos De La Excavación? Una
Crítica de la Ecuación de Euler los Métodos." La universidad de Rochester. Mimeo.
Hasta este punto de nuestro análisis ha sido confinado a la procesos estacionarios. Este capítulo
presenta varios enfoques de modelación no estacionaria de series de tiempo y análisis de las
propiedades dinámicas de los diferentes modelos de no estacionariedad. Consecuencias de la no
estacionariedad de la inferencia estadística, se investigó en los capítulos subsiguientes.
15.1. Introducción
Los capítulos 3 y 4 examinó univariado de series de tiempo modelos que se pueden escribir en la
forma
𝑦𝑡 = 𝜇 + 𝜀𝑡 + 𝜓1 𝜀𝑡−1 + 𝜓2 𝜀𝑡−2 + ⋯ = 𝜇 + 𝜓(𝐿)𝜀𝑡 [15.1.1]
donde ∑⨯ 𝑗=0|𝜔𝑗 | < ∞, las raíces de 𝜓(𝑧) = 0 estan fuera del círculo unitario, y {𝜀𝑡 } es una
secuencia de ruido blanco con media cero y varianza 𝜎 2 . Dos características de los procesos de
mérito repetir aquí. En primer lugar, la incondicional, la expectativa de la variable es una constante,
independiente de la fecha de la observación:
𝐸𝑦𝑡 = 𝜇.
Segundo, como se trata de un pronóstico de la serie más en el futuro, la previsión de 𝑦̂ 𝑡+𝑠∣𝑡 ≡
𝐸̂ ( 𝑦𝑡+𝑠 ∣ 𝑦𝑡 , 𝑦𝑡−1 , … . ) Converge a la incondicional significa:
lim 𝑦̂ 𝑡+𝑠∣𝑡 = 𝜇.
𝑆→∞
Estos pueden ser bastante desagradables supuestos para muchos de los aspectos económicos y
financieros de la serie de tiempo encontradas en la práctica. Por ejemplo, en la Figura 15.1 parcelas
el nivel de producto interno bruto nominal por los Estados unidos desde la segunda Guerra
Mundial. No hay duda de que esta serie ha marcado una tendencia ascendente a lo largo del tiempo,
y esta tendencia al alza se debe ser incorporado en cualquier previsiones de esta serie.
Hay dos enfoques para describir tales tendencias. La primera es incluir el determinismo de la
tendencia del tiempo:
𝑦𝑡 = 𝛼 + 𝛿𝑡 + 𝜓(𝐿)𝜀𝑡 . [15.1.2]
Así, la media µ de la estacionario1 proceso [15.1.1] se sustituye por una función lineal de la fecha t.
Dicho proceso se describe a veces como la tendencia estacionaria, porque si uno resta la tendencia
𝛼 + 𝛿𝑡 de [15.1.2], el resultado es un proceso estacionario.
La segunda especificación es una raíz de la unidad de proceso,
1
Recordemos que "estacionaria" se refiere a "la covarianza estacionaria."
4000
3000
2000
1000
0
47 51 55 59 63 67 71 75 79 83 87
Donde 𝜓(1)≠0. Para una raíz de la unidad de proceso, una estacionaria representación de la forma
de [15.1.1] describe los cambios en la serie. Por razones que serán evidentes en breve, la media de (1
– L) 𝑦𝑡 se denota d en lugar de µ.
El primer operador diferencia (1 – L) vendrá con una frecuencia suficiente que un símbolo especial
(la letra griega ∆) es reservado para ella:
∆𝑦𝑡 ≡ 𝑦𝑡 − 𝑦𝑡−1
El ejemplo prototípico de una unidad de la raíz proceso se obtiene mediante el establecimiento
de 𝜓(L) igual a 1 en [15.1.3]:
𝑦𝑡 = 𝑦𝑡−1 + 𝛿 + 𝜀𝑡 , [15.1.4]
Este proceso es conocido como un paseo aleatorio con deriva δ.
En la definición de una unidad de la raíz proceso en [15.1.3], se asumió que los ω(1) es distinto de
cero, donde ω(1) denota el polinomio
𝜓(𝑧) = 1 + 𝜓𝑧1 + 𝜓2 𝑧 2 + ⋯
Evaluados en z = 1. A ver qué tal restricción debe ser parte de la definición de una unidad de la raíz
proceso, supongamos que la serie original 𝑦𝑡 s, de hecho, inmóvil, con una representación de la
forma
𝑦𝑡 = µ + 𝑋 (𝐿)𝜀𝑡
Con ∑⨯ 𝑗=0|𝜔𝑗 | < ∞ y las raíces de ω(z)=0 fuera del círculo unidad. Por lo tanto, cuando |𝜆𝑖 | < 1
para todos los i, el proceso [15.1.5] sería un caso especial de la tendencia estacionaria proceso de
[15.1.2].Supongamos que en lugar de que 𝜆1 = 1 y |𝜆𝑖 | < 1 para i=2,3,….p. Entonces [15.1.6]
estado en el que
Con ∑⨯ 𝑗=0|𝜔𝑗 | < ∞ y las raíces de ω(z)=0 fuera del círculo unidad. Por lo tanto, si [15.1.5] es de
primera diferenciadas, el resultado es
(1 − 𝐿)𝑦𝑡 = (1 − 𝐿)𝛼 + [𝛿𝑡 − 𝛿(𝑡 − 1)] + (1 − 𝐿)𝑢𝑡 = 0 + 𝛿 + 𝜓 ∗ (𝐿)𝜀𝑡 ,
Cual es la forma de la raíz de la unidad de proceso [15.1.3].
La representación en [15.1.5] explica el uso del término "unidad raíz del proceso". Una de las raíces
o valores propios (𝜆1 ) del polinomio autorregresivo en [15.1.6] es la unidad, y todos los demás
valores están dentro del círculo unitario.
Otra expresión que se utiliza a veces es que el proceso [15.1.3] es integrada de orden 1. Esta
indicado como 𝑦𝑡 ~𝐼(1). El término "integrado" viene de cálculo; if dy/dt = x, a continuación y es
la integral de x. En tiempo discreto de la serie, if ∆𝑦𝑡 = 𝑥𝑡 , a continuación, y también podría ser
visto como la integral, o la suma de más de t, de x.
Si un proceso escrito en la forma de [15.1.5] y [15.1.6] tiene dos autovalores 𝜆1 y 𝜆2 que son
iguales a la unidad con los demás, todos dentro del círculo unidad, la segunda a las diferencias de
los datos tienen que ser tomadas antes de llegar a una serie de tiempo estacionaria:
(1 − 𝐿)2 𝑦𝑡 = 𝑘 + 𝜓(𝐿)𝜀𝑡 .
Por lo tanto, es común tomar los registros de los datos antes de intentar describir con el modelo en
[15.1.2].
Similares argumentos sugieren natural de los registros antes de aplicar [15.1.3]. Para pequeños
cambios, la primera diferencia del logaritmo de una variable es aproximadamente el mismo que el
porcentaje de cambio en la variable:
Donde hemos utilizado el hecho de que para x cercano a cero, log(1+x)≡x2 Por lo tanto, si los
registros de una variable se especifican a seguir a una unidad de una raíz proceso, la presunción es
que la tasa de crecimiento de la serie es un proceso estocástico estacionario. Los mismos
argumentos utilizados para justificar la toma de registros antes de aplicar [15.1.3].
A menudo, las unidades son un poco más cómodo si log(𝑦𝑡 ) se multiplica por 100.
A continuación, los cambios se miden directamente en unidades de porcentaje de cambio. Por
ejemplo, si (1 − 𝐿)[100 𝑥𝑙𝑜𝑔(𝑦𝑡 )]=1. 0, entonces 𝑦𝑡 es 1% mayor que 𝑦𝑡−1 .
2
Ver resultado [A. 3.36] en la Matemática de la Revisión (Apéndice a) al final del libro.
0 455
previsión, la dinámica de los multiplicadores, y de las transformaciones necesarias para lograr la
estacionariedad.
Para estimar el proceso de la única raíz [15.1.3] llamado como única raíz Δ𝑦 , es un proceso
estacionario que puede ser estimado usando la fórmula común:
Δŷ 𝑡+𝑠|𝑡 ≡ Ê [(𝑦 𝑡+𝑠 − 𝑦𝑡+𝑠−1 )| 𝑦𝑡 , 𝑦𝑡−1 , . . . . ] [15.3.2]
+ (𝜓𝑠+1 + 𝜓𝑠 + . . . + 𝜓2 ) 𝜀𝑡−1 + . . .
Así en la estimación del proceso de la raíz unitaria es obtenido analizando algunos casos
especiales. Considerar primero el camino aleatorio con deriva [15.1.4], en cuanto 𝜓1 = 𝜓2 = . . . =
0. Luego [15.3.4] se convierte en
ŷ 𝑡+𝑠|𝑡 = 𝑠𝛿 + 𝑦𝑡 .
Un camino aleatorio con deriva δ es llevado a incrementarse el índice constante de δ por periodo de
cualquier valor 𝑦𝑡 , pasa a ser.
Considerar lo siguiente un ARIMA (0,1,1) especificación (𝜓1 = Ѳ, 𝜓2 = 𝜓3 = . . . = 0). Luego
ŷ 𝑡+𝑠|𝑡 = 𝑠𝛿 + 𝑦𝑡 + Ѳ𝜀𝑡 . [15.3.5]
Note que la limitación MSE es junto la varianza incondicional del componente estacionario ψ(L) 𝜀𝑡 .
Por contraste, de la única raíz [15.1.3], la 𝑠-periodo-delante error estimado es
estimación
Tiempo
estimación
Tiempo
(b) Única raíz
50
40
30
20
10
1 10 19 28 37 46 55 64 73 82 91 100
(b)Camino aleatorio con deriva
FIGURE 15.3 Simple realización del proceso de la única raíz Gaussiana.
Por contraste, por el proceso de una única raíz, el efecto de 𝜀𝑡 en 𝑦𝑡+𝑠 es vista en [15.3.4] para ser3.
∂𝑦𝑡+𝑠 ∂𝑦
= 𝜕𝜀𝑡 + 𝜓𝑠 + 𝜓𝑠−1 +. . . + 𝜓1 = 1 + 𝜓1 + 𝜓2 + . . . + 𝜓𝑠 .
𝜕𝜀𝑡 𝑡
3
Este, de acuerdo, contrasta con el múltiplo que describe el efecto de 𝜀𝑡 , en el cambio entre 𝑦𝑡+𝑠 y 𝑦𝑡+𝑠−1 , que es dado por
∂Δ𝑦𝑡+𝑠
= 𝜓𝑠
𝜕𝜀𝑡
Para esta especificación, se estima que el efecto permanente de un cambio de una unidad en 𝜀𝑡 , en
el nivel real PBN es estimado para ser
ψ(1) = 1/ø(1) = 1/(1 – 0.312 – 0.122 + 0.116 + 0.081) = 1.31.
Transformaciones para lograr la estacionariedad
Una diferencia final entre los procesos de tendencias estacionarias y raíces unitarias que
merecen comentarios es la transformación de los datos necesarios para generar series temporales
estacionarias. Si el proceso es realmente estacionario como en [15.1.2], el tratamiento apropiado es
restar δt de 𝑦𝑡 para producir una representación estacionaria de la forma de [15.1.1]. Por el
contrario, si los datos fueran realmente generados por el proceso raíz unitario [15.1.3], sustraer δ t de
𝑦𝑡 tendría éxito en eliminar la dependencia temporal de la media pero no la varianza. Por ejemplo,
si los datos fueron generados por [15.l.4], el paseo aleatorio con deriva, entonces
𝑦𝑡 − δt = 𝑦0 + (𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡 ) ≡ 𝑦0 + 𝑢𝑡 .
La varianza del residual 𝑢𝑡 es tσ2; crece con la fecha de la observación. Por tanto, sustraer una
tendencia temporal de un proceso de raíz unitaria no es suficiente para producir una serie temporal
estacionaria.
El tratamiento correcto para un proceso de raíz unitaria es diferenciar la serie, y por esta
razón un proceso descrito por [15.1.3] a veces se llama un proceso estacionario-de diferencia.
Obsérvese, sin embargo, que si se tratara de diferenciar un proceso estacionario-tendencia [15.1.2],
el resultado sería
Δ𝑦𝑡 = δ + (1 − 𝐿)ψ(𝐿)𝜀𝑡 .
Esta es una serie temporal estacionaria, pero se ha introducido una raíz unitaria en la representación
del promedio móvil. Así, el resultado sería un proceso no reversible sujeto a las dificultades
potenciales discutidas en los Capítulos 3 a 5.
4
Véase, por ejemplo. Watson (1986), Clark (1987), Campbell y Mankiw (1987a, b). Cochrane (1988). Gagnon (1988). Stock y Watson
(1988), Durlauf (1989) y Hamilton (1989).
0 461
Aunque podría ser muy interesante saber si una serie cronológica tiene una raíz unitaria,
varios trabajos recientes han argumentado que la pregunta es inherentemente no responden sobre la
base de una muestra finita de observaciones.5 El argumento toma la forma de dos observaciones.
La primera observación es que para cualquier proceso raíz unitaria existe un proceso
estacionario que será imposible distinguir de la representación de la raíz unitaria para cualquier
tamaño de muestra dado T. Este proceso estacionario se encuentra fácilmente estableciendo uno de
los valores propios cerca de pero No muy igual a la unidad. Por ejemplo, se compone de T =
10,000 observaciones que fueron realmente generadas por una deriva menos aleatoria:
𝑦𝑡 = 𝑦𝑡−1 + 𝜀𝑡 modelo verdadero (raíz unitaria). [15.4.1]
Considere tratar de distinguir esto del siguiente proceso estacionario:
𝑦𝑡 = ø𝑦𝑡−1 + 𝜀𝑡 |ø| <1 modelo falso (estacionario) [15.4.2]
El pronóstico de s-periodo-adelante de [15.4 1] es
ŷ 𝑡+𝑠|𝑡 = 𝑦𝑡 [15.4.3]
Con MSE
𝐸(𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 )2 = 𝑠𝜎 2 . [15.4.4]
El pronóstico correspondiente de [15.4.2] es
ŷ 𝑡+𝑠|𝑡 = ø s 𝑦𝑡 [15.4.5]
Con MSE
𝐸(𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 )2 = (1 + ø2 + ø4 + . . . +ø2(𝑠−1) ). 𝜎 2 . [15.4.6]
Es evidente que existe un valor de ø suficientemente próximo a la unidad tal que las implicaciones
observables de la representación estacionaria ([15.4.5] y [15.4.6]) son arbitrariamente cercanas a las
del proceso raíz unitaria ([15.4.3] y [15.4.4]) en una muestra de toro 10,000.
Más formalmente, la función de verosimilitud condicional para un proceso gaussiano
caracterizado por [15.1.7] es continua en el parámetro λ1. Por lo tanto, dado cualquier tamaño de
muestra fijo T, cualquier pequeño número η y ε, y cualquier especificación raíz de unidad con λ1 =
1, existe una especificación estacionaria con λ1 <1 con la propiedad de que la probabilidad es menor
que ε, uno observa una muestra de tamaño T para la cual el valor de la probabilidad implícita por la
representación de raíz unitaria difiere en más de η del valor de la probabilidad implícita por la
representación estacionaria.
La proposición inversa es también verdadera—para cualquier proceso estacionario y un
tamaño de muestra dado T, existe un proceso de raíz unitaria que será imposible distinguir de la
representación raíz unitaria. Una vez más, considere un ejemplo simple. Supongamos que el
verdadero proceso es ruido blanco:
𝑦𝑡 = 𝜀𝑡 modelo verdadero (estacionario). [15.4.7]
Considere tratar de distinguir esto de
(1 − 𝐿)𝑦𝑡 = (1 + Ѳ𝐿)𝜀𝑡 |Ѳ| <1 modelo falso (raíz unitaria) [15.4.8]
𝑦0 = 𝜀0 = 0.
El pronóstico del período-s-adelante de [15.4.7] es
ŷ 𝑡+𝑠|𝑡 = 0
Con MSE
𝐸(𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 )2 = 𝜎 2 .
5
Ver Blough (1992a. B), Cochrane (1991), Cristiano y Eichenbaum (1990), Stock (1990) y Sims (1989). La afirmación más clara de este
punto de vista, y la perspectiva en la que se basan las observaciones en el texto, es la de Blough.
𝑦𝑡 = ∅𝑦𝑡−1 + 𝜀𝑡 . [15.4.10]
Dentro de las clases de modelos, la restricción
𝐻() : ∅ = 1
es ciertamente comprobable. Si bien es cierto que existen alternativas locales (como ∅ = 0,99999)
contra las cuales una prueba no tendría esencialmente poder, esto es verdad del mayor test de
hipótesis. Existen otras alternativas (como ∅ = 0.3) que conduciría a cierto rechazo de 𝐻0 , dadas
las observaciones bajas. La hipótesis ‘‘{𝑦𝑡 } es un proceso AR (l) con una raíz unitaria”
potencialmente refutable, la hipótesis “{𝑦𝑡 } es un proceso de raíz unitaria general de la forma
[15.1.3]” no lo es.
∂2 f
= (d+1)·d·(1-z)-d-2
∂𝑧2
∂3 f
∂𝑧 3
= (d+1)·d·(1-z)-d-3
⋮
∂𝑗 f
= (d+j-1)·(d+j-2)···(d+1)·d·(1-z)-d-j.
∂𝑧 𝑗
= ∑∝ 𝑗
𝑗=0 ℎ𝑗 𝐿 ,
Donde ℎ0 ≡1 y
1
ℎ𝑗 ≡ (𝑗!) (𝑑 + 𝑗 − 1)(𝑑 + 𝑗 − 2)(𝑑 + 𝑗 − 3) ··· (𝑑 + 1)(𝑑). [15.5.4]
El apéndice 15.A de este capítulo establece que si d <1, ℎ𝑗 puede ser aproximado para grandes
𝑗 por
ℎ𝑗 ≡ (𝑗 + 1) 𝑑−1 . [15.5.5]
Así. El modelo de series de tiempo
Condición de la agregación de otros procesos que han sido identificados por Granger (1980).
Geweke y Porter-Hudak (1983) y Sowell (1992) propusieron técnicas para estimar 𝑑. Diebold y
Rudebusch (1989) analizaron PNB datos y la densidad de fluctuaciones de búsqueda usando este
enfoque, mientras que Lo (1991) proporcionó una interesante investigación de la persistencia del
movimiento en los valores priores
6
Razonamiento como en el apéndice 3.A al capítulo 3.
∝ 𝑁
𝑁
<1 + ∫𝑡 𝑥 2(𝑑−1)𝑑𝑥
1
Converge en 1 − [1/(2𝑑 − 1)] como 𝑁 → ∞, siempre que 𝑑 < .
2
𝛼2 − 𝛼1 𝑐𝑜𝑛 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝜌
𝜉𝑡 = {
0 𝑐𝑜𝑛 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 1 − 𝜌
Evidentemente, 𝜌 debe ser muy pequeña para representar la idea de que esto es un acontecimiento
relativamente raro. Ecuación [15.5.8] entonces podría ser reescrita como
Δ 𝑦𝑡 = 𝜇 + 𝜂𝑡 . [15.5.9]
Donde
𝜇 = 𝜌 (𝛼2 − 𝛼1 ) + 𝛿
𝜂𝑡 = 𝜉𝑡 − 𝜌 (𝛼2 − 𝛼1 ) + 𝜀𝑡 − 𝜀𝑡−1.
Pero 𝜂𝑡 es la suma de un proceso de ruido blanco de media cero [𝜉𝑡 − 𝜌 (𝛼2 − 𝛼1 )] y una
independiente MA(1) proceso [𝜀𝑡 − 𝜀𝑡−1 ]. Por lo tanto, un MA(1) representación para 𝜂𝑡 existe:
Desde esta perspectiva, [15.5.9] puede considerarse como un proceso ARIMA(0, 1, 1),
Δ 𝑦𝑡 = 𝜇 + 𝜈𝑡 − 𝜃𝜈𝑡−1
se pone un peso diferente a cada innovación. Este peso no desaparece como s → ∞, porque cada
período esencialmente proporciona una nueva observación de la variable 𝜉𝑡 y la realización de
𝜉𝑡 tiene consecuencias permanentes para el nivel de la serie. Desde esta perspectiva, una serie de
tiempo satisfactoria [15.5.7] podría describirse como un proceso de raíz unitaria con innovaciones
de Gauss no.
Lam (1990) estima un modelo muy relacionado con [15.5.7] donde se supone cambios en la
pendiente de la línea de tendencia a seguir una cadena de Markov y donde el PIB real de Estados
Unidos le permitió seguir un autorregresivos de tercer orden inmóvil alrededor de esta tendencia.
Resultados de su estimación de máxima verosimilitud se indican en la figura 15.4.
Estos resultados son muy interesantes para la cuestión de las consecuencias de largo plazo de las
recesiones económicas. Según esta especificación, eventos que definitivamente cambiaron el nivel
del PNB coincidieron con las recesiones de 1957,1973 y 1980.
800
780
760
740
720
700
52 55 58 61 64 67 70 73 76 79 82
FIGURA 15.4 Tendencia discreta estimada por U.S PNB real. 1952-84 (Lam, 1990)
𝑗 − (𝑗 − 2) + 𝑑 − 1 𝑗 − (𝑗 − 1) + 𝑑 − 1
×[ ][ ]
𝑗 − (𝑗 − 2) 𝑗 − (𝑗 − 1) [15.A.1]
𝑑−1 𝑑−1 𝑑−1
= [1 + ] [1 + ] [1 + ]×…
𝑗 𝑗−1 𝑗−2
𝑑−1 𝑑−1
× [1 + ] [1 + ].
𝑗−(𝑗−2) 𝑗−(𝑗−1)
Para justificar esto formalmente, considere la función 𝑔(𝑥) ≡ (1 + 𝑥)𝑑−1 . Teorema de Taylor
afirma que
𝜕𝑔 1 𝜕2 𝑔
(1 + 𝑥)𝑑−1 = 𝑔(0) + | . 𝑥 + 2 𝜕𝑥 2 | . 𝑥2 [15.A.3]
𝜕𝑥 𝑥=0 𝑥=𝛿
Dejando 𝑥 = 1⁄𝑗 da
para todos los 𝑗 > 0 y 𝑑 < 1, con la aproximación [15.A.2] mejorar como j → ∞. Sustituyendo
[15.A.4] en [15.A.1] implica que
Referencias capítulo 15
Blogh, Stephen R. 1992a. "La relación entre la energía y los nivel para las pruebas de raíz de unidad
genérica en Samoles finito". Diario de la Econometría Aplicada 7:295-308.
______. 1992b." Cerca de equivalencia observacional de la raíz de la unidad y procesos
estacionarios: Teoría e implicaciones. " JHONS Hopkins University. Mimeo.
Caja, G.E.P. y Gwilym M. Jenkins. 1976. time Series Analysis: Forecasting and Control, rev. ed. San
Francisco: Holden-día.
Campbell, John Y. y N. Gregory Mankiw. 1987a. "permanente y transitorio componentes en las
fluctuaciones macroeconómicas." Papeles de revisión económicos americanos y procedimientos
77:111-17.
___and___.1987b. ¿"Son las fluctuaciones de la salida transitoria"? Revista trimestral de economía
102:857-80.
Christiano, Lawrence J. y Martin Eichenbaum. 1990. "raíces de la unidad en el PNB Real: sabemos
y nos importa?" en Allan H. Meltzer, ed., raíces de la unidad, las medidas de inversión y otros
ensayos, 7-61. Serie de conferencia de Carnegie-Rochester en las políticas públicas. Vol. 32.
Amsterdam: Holanda del norte.
___ y Lars Ljungqvist. 1988. "el dinero hace salida Granger-causa en la relación bivariada de la
salida de dinero". Diario de 22:217 económica monetaria-35.
Clark, Peter K. 1987. "El componente cíclico de la actividad económica de Estados Unidos".
Revista trimestral de economía 102:797-814.
Cochrane. Jhon H. 1988." ¿Cuál es la caminata al azar en el PIB?" Diario de la política económica
96:893-920.
______. 1991. «una crítica de la aplicación de pruebas de raíz unitarias». Diario de la dinámica
económica y el Control de la 15:275-84.
Diebold. Francis X. y Glenn D. Rudebusch. 1989. — memoria largo y persistencia en la producción
agregada. Diario de 24:189 económica monetaria-209.
Durlauf. Steven N. 1989. "Persistencia de salida, estructura económica y elección de la política de
estabilización". Papeles de Brookings en actividad económica 2:1989. 69-116.
Friedman, Milton. 1957. teoría de la función de consumo. Princeton. N. J.: Prensa de la Universidad
de Princeton.
Gagnon, José E. 1988. «Corto plazo modelos y previsiones de largo plazo: una nota sobre la
permanencia de las fluctuaciones de la salida.» Revista trimestral de 103:415 económica-24.
Geweke, John y Susan Porter-sorts. 1983. "la estimación y aplicación de modelos de serie de tiempo
de larga memoria". Diario de 4:221 de análisis de Series de tiempo-38.
Granger, C. W. J. 1980. — Relaciones de larga memoria y la agregación de modelos dinámicos.
Diario de la econometría 14:227-38.
Este capítulo comienza con el ejemplo más simple de innovaciones i.i.d. en torno a una
tendencia temporal determinista. La sección 16.1 deriva las distribuciones asintóticas de las
estimaciones de coeficientes para este modelo e ilustra una reescalonamiento de variables que es
necesaria para acomodar diferentes tasas de convergencia asintóticas. La sección 16.2 muestra que a
pesar de las diferentes tasas asintóticas de convergencia, la norma estadística OLS (“Mínimos
Cuadrados Ordinarios” - MCO) t y F tienen las limitaciones habituales para este modelo. La sección
16.3 desarrolla resultados análogos para una covarianza estacionaria de autorregresión en torno a
una tendencia temporal determinista. Esta sección también introduce la técnica Sims, Stock y
Watson de transformar el modelo de regresión en una forma canónica para la cual la distribución
asintótica es más sencilla de describir.
𝑦𝑡 = 𝛼 + 𝛿𝑡 + 𝜀𝑡 [16.1.1]
Para 𝜀1 un proceso de “sonido blanco”. Si 𝜀𝑡 ~ 𝑁(0, 𝜎 2 ), entonces el modelo [16.1.1] satisface las
hipótesis de regresión clásicas2 y la estadística MCO t o F estándar en las ecuaciones [8.1.26] y
[8.1.32] tendrían pequeñas muestras exactas distribuciones de t o F. Por otra parte, si 𝜀𝑡 es no
gaussiano, entonces una técnica ligeramente diferente para encontrar las distribuciones asintóticas
1 Una versión más simple de este tema apareció en el análisis de un proceso univariado con raíces unitarias de Fuller (1976).
2 Ver suposición 8.1 en el capítulo 8.
0 471
de las estimaciones de MCO de 𝛼 y 𝛿 debería ser utilizada de la empleada para regresiones
estacionarias en el Capítulo 8. Este Capítulo presenta esta técnica, que resultará útil no sólo para
estudiar las tendencias del tiempo, sino también para analizar los estimadores para una variedad de
procesos no estacionarios en los Capítulos 17 y 18.3
𝑦𝑡 =×1𝑡 𝛽 + 𝜀𝑡 [16.1.2]
En donde,
𝛼
𝛽 ≡ [ ]. [16.1.4]
(2 x 1) 𝛿
[16.1.5]
Recordar de la ecuación [8.2.3] que la derivación de la estimación MCO del valor verdadero
puede expresarse como
𝑇 −1 𝑡
(𝑏𝑇 − 𝛽) = [∑ 𝑥1 𝑥𝑡1 ] [∑ 𝑥1 𝑦1 ].
𝑡=1 𝑡=1
[16.1.6]
Para encontrar la distribución límite para una regresión con variables explicativas
estacionarias, el enfoque del Capítulo 8 fue multiplicar [16.1.6] por √𝑇, resultando en
𝑇 −1 𝑡
[16.1.7]
La hipótesis usual era que (1/𝑇) ∑𝑇𝑡=1 𝑥1 𝑥𝑡1 convergía en la probabilidad a una matriz no
singular Q mientras que(1/√𝑇) ∑𝑡𝑡=1 𝑥1 𝜀1 convergía en la distribución a una 𝑁(0, 𝜎 2 𝑄)
𝐿
variable aleatoria, implicando que √𝑇 (𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ).
3 El enfoque general en estos capítulos sigue Sims, Stock, y Watson (1990).
−1
𝛼̂ 𝑇 − 𝛼 ∑1∑𝑡 ∑ 𝜀𝑡
[̂ ]=[ ] [ ],
𝛿𝑇 − 𝛿 ∑𝑡∑𝑡 2
∑ 𝑡𝜀𝑡
[16.1.8]
∑ 𝑡 = 𝑇 (𝑇 + 1)/2
𝑡=1
[16.1.9]
𝑇
[16.1.10]
[16.1.11]
→ 1/3. [16.1.12]
4 Claramente, [16.1.9] y [16.1.10] se mantienen para T = 1. Dado que [16.1.9] se cumple para T,
∑𝑇+1 𝑇
𝑡=1 𝑡 = ∑𝑡=1 𝑡 + (𝑇 + 1 ) = 𝑇(𝑇 + 1)/2 + (𝑇 + 1) = (𝑇 + 1)[(𝑇/2) + 1] = (𝑇 + 1)(𝑇 + 2)/2 + 2)/2 + 2)
Estableciendo que [16.1.9] se cumple para T + 1. De manera similar, dado que [16.1.10] se cumple para T,
𝑇+1
16.1 Distribución asintótica de las estimaciones de MCO del Modelo Simple de Tendencia
Temporal 473
Para referencia futura, observamos aquí el patrón general -- el término principal en ∑𝑇𝑡=1 𝑡 𝑣 es Tv-
1/(v+1):
𝑇
(1/𝑇 𝑣+1 ) ∑ 𝑡 𝑣 → 1/(𝑣 + 1).
𝑡=1
[16.1.13]
Para verificar [16.1.13], tenga en cuenta que
𝑇 𝑇
(1/𝑇 𝑣+1 ) ∑ 𝑡 = (1/𝑇) ∑(𝑡/𝑇)𝑣 .
𝑣
𝑡=1 𝑡=1
[16.1.14]
El lado derecho de [16.1.14] puede ser visto como una aproximación al área bajo la curva
f(r)=rv
Para r entre cero y unidad. Para ver esto, observe que (1/T) ∙ (t/T)v representa el área de un
rectángulo con ancho (1/T) y la altura rv evaluada en r = t/T (véase la figura 16.1). Por lo tanto,
[16.1.14] es la suma del área de estos rectángulos evaluados…
1
Figura 16.1 Demostración de que (1/𝑇 ) ∑𝑇𝑡=1(𝑡/𝑇)𝑣 = (1/𝑇) ∑𝑇𝑡=1(𝑡/𝑇)𝑣 → ∫ 𝑟 𝑣 𝑑𝑟 =
0
1/(𝑣 + 1).
… en r = 1/T, 2/T, …, 1. Como T → ∞, esta suma converge al área bajo la curva f(r):
[16.1.16]
En contraste con el resultado habitual para regresiones estacionarias, para la matriz en [16.1.16],
(1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡1 diverge. Para obtener una matriz convergente, [16.1.16] tendría que dividirse por
T3 en lugar de T:
𝑇 0 0
𝑇 −3
∑ 𝑥𝑡 𝑥𝑡1 → [ 1].
0
𝑡=1 3
Desafortunadamente, esta matriz limitante no puede ser invertida, ya que (1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡1 puede
estar en el caso habitual. Por lo tanto, se necesitará un enfoque diferente al del caso estacionario
para calcular la distribución asintótica de bT.
Resulta que las estimaciones de MCO 𝛼̂ 𝑇 y 𝛿̂𝑇 tienen diferentes tasas de convergencia
asintóticas. Para llegar a distribuciones limitantes no degeneradas, 𝛼̂ 𝑇 se multiplica por √𝑇 mientras
que 𝛿̂𝑇 debe multiplicarse por 𝑇 3/2 ! Podemos pensar en este ajuste como premultiplicación
[16.1.16] o [16.1.8] por la matriz
𝑌𝑇 ≡ [√𝑇 0 ], [16.1.17]
3/2
0 𝑇
Resultando en
𝑇 −1 𝑇
√𝑇(𝛼̂𝑇 −𝛼)
[ 3 ]= 𝑌𝑇 [∑ 𝑥1 𝑥𝑡1 ] [∑ 𝑥1 𝜀1 ]
𝑇 2 (𝛿̂ − 𝛿 𝑡=1 𝑡=1
𝑇 −1 𝑇
= 𝑌𝑇 [∑ 𝑥1 𝑥𝑡𝑡 ] 𝑌𝑇 𝑌𝑇 − 1 [∑ 𝑥1 𝜀1 ]
𝑡=1 𝑡=1
𝑇 −1 𝑇
= {𝑌 −1 𝑥 𝑥𝑡
𝑇 [∑ 1 𝑡 ]
𝑌𝑇−1 } −1
{𝑌 𝑇 [∑ 𝑥1 𝜀1 ]}
𝑡=1 𝑡=1
[16.1.18]
𝑇
1/2 ∑1 ∑𝑡 1/2
−1
{𝑌 𝑇 [∑ 𝑥1 𝑥𝑡𝑡 ] 𝑌𝑇−1 } = {[𝑇 0 ][
3/2
] [𝑇 0 ]}
3/2
0 𝑇 ∑𝑇 ∑ 𝑇2 0 𝑇
𝑡=1
𝑇 −1 ∑ 1 𝑇 −2 ∑ 𝑡
=[ ]
𝑇 −2 ∑ 𝑡 𝑇 −3 ∑ 𝑡 2
16.1 Distribución asintótica de las estimaciones de MCO del Modelo Simple de Tendencia
Temporal 475
Por lo tanto, se deduce de [16.1.11] y [16.1.12] que
𝑇
−1
{𝑌 𝑇 [∑ 𝑥1 𝑥𝑡𝑡 ] 𝑌𝑇−1 } → 𝑄
𝑡=1
[16.1.19]
1 1/2
Donde 𝑄≡[ ]
1/2 1/3
[16.1.20]
𝑇
1/2 ∑ 𝜀𝑡 (1/√𝑇)𝑡𝜀𝑡
−1
𝑌 𝑇 [∑ 𝑥1 𝑥𝑡𝑡 ] = [𝑇 0 ][
3/2
]=[ ]
0 𝑇 ∑ 𝑡𝜀𝑡 (1/√𝑇) ∑(𝑡/𝑇) 𝜀𝑡
𝑡=1
[16.1.21]
Bajo asunciones estándar sobre 𝜀𝑡 , este vector será asintóticamente gaussiano. Por ejemplo,
supongamos que 𝜀𝑡 es i.i.d. Con media cero, varianza 𝜎 2 , y finito cuarto momento. Entonces el
primer elemento del vector en [16.1.21] satisface
𝑇
1 𝐿
( ) ∑ 𝜀𝑡 → 𝑁(0, 𝜎 2 ),
√𝑇 𝑡=1
Para el segundo elemento del vector en [16.1.21], observe que {(𝑡/𝑇)𝜀1 } es una secuencia
de diferencias de martingala que satisface las condiciones de las Proposiciones 7.8. Específicamente,
su varianza es
𝜎𝑡2 = 𝐸[(𝑡/𝑇)𝜀𝑡 ]2 = 𝜎 2 ∙ (𝑡 2 /𝑇 2 ),
en donde
𝑇 𝑇
(1/𝑇) ∑ 𝜎𝑡2 = 𝜎 2 (1/𝑇 3 )
∑ 𝑡 2 → 𝜎 2 /3
𝑡=1 𝑡=1
𝑝
Más aún, (1/𝑇) ∑𝑇𝑡=1 [(𝑡/𝑇)𝜀𝑡 ]2 → 𝜎 2 /3 Para verificar la última reclamación, observe que
2
𝑇 𝑇
2
𝑇 𝑇
𝑡
= 𝐸 ((1/𝑇) ∑[(𝑡/𝑇)𝜀𝑡 ]2 − (1/𝑇) ∑ ( )2 𝜎 2 )
𝑇
𝑡=1 𝑡=1
𝑡=1
[16.1.22]
Como se reivindica. Por lo tanto, a partir de la proposición 7.8, (1/√𝑇) ∑𝑇𝑡=1(𝑡/𝑇)𝜀𝑡 , satisface el
teorema del límite central:
𝑇
𝐿
(1/√𝑇) ∑(𝑡/𝑇)𝜀1 → 𝑁(0, 𝜎 2 /3)
𝑡=1
𝑡
Entonces [𝜆 + 𝜆2 (𝑇)] 𝜀𝑡 también es una secuencia de diferencias de martingala con una varianza
positiva5 dada por 𝜎 2 [𝜆12 + 2𝜆1 𝜆2 (𝑡/𝑇) + 𝜆22 (𝑡/𝑇)2 ] satisfaciendo
𝑇
(1/𝑇) ∑ 𝜎 2 [𝜆21 + 2𝜆1 𝜆2 (𝑡/𝑇) + 𝜆22 (𝑡/𝑇)2 ] → 𝜎 2 [𝜆12 + 2𝜆1 𝜆2 (1/2) + 𝜆22 (1/3) ]
𝑡=1
= 𝜎 2 𝜆1 𝑄𝜆
5Más exactamente, un dado no nulo 𝜆1 y 𝜆2 producirá una varianza cero para [𝜆1 + 𝜆2 (𝑡/𝑇)]𝜀𝑡 como máximo un solo valor de t, lo cual
no afecta la validez de la afirmación asintótica.
16.1 Distribución asintótica de las estimaciones de MCO del Modelo Simple de Tendencia
Temporal 477
𝑇
𝑃
(1/𝑇) ∑ 𝜆1 + 𝜆2 (𝑡/𝑇)2 𝜀12 → 𝜎 2 𝜆1 𝑄𝜆
𝑡=1
[16.1.23]
Ver el ejercicio 16.1. Así, cualquier combinación lineal de los dos elementos en el vector en
[16.1.21] es asintóticamente gaussiana, lo que implica una limitación a la distribución gaussiana
bivariable:
(1/√𝑇) ∑ 𝜀𝑇 1.
[ ] → 𝑁(0, 𝜎 2 𝑄)
(1/√𝑇) ∑(𝑡/𝑇)𝜀𝑇
[16.1.24]
√𝑇(𝛼̂ 𝑇 − 𝛼) 𝐿
[ 3 ] → 𝑁(0, [𝑄 −1 ∙ 𝜎 2 𝑄 ∙ 𝑄 −1 ]) = 𝑁(0, 𝜎 2 𝑄 ∙ 𝑄 −1 ).
𝑇 2 (𝛿̂𝑇− 𝛿)
[16.1.25]
Proposición 16.1: Sea y1 generado de acuerdo con la tendencia del tiempo determinista simple [16.1.1] donde 𝜀𝑡 es
i.i.d. Con 𝐸(𝜀12 ) = 𝜎 2 y 𝐸(𝜀14 ) < ∞ Entonces,
[16.1.26]
[16.1.27]
Ver el ejercicio 16.2.
𝑋𝑇 = (1/𝑇) ∑ 𝑌𝑇 ,
𝑡=1
𝜎2
𝑃{|𝑋𝑇 | > 𝑀/√𝑇} ≤ 𝑇2 = (𝜎/𝑀)2
𝑀
𝑇
para cada M. Mediante la elección de M para que (𝜎/𝑀)2 < 𝜀 , la condición [16.1.18] está
garantizada. Puesto que la desviación estándar del estimador es 𝜎/√𝑇, eligiendo M para ser un
múltiplo adecuado de 𝜎, la banda 𝑋𝑇 ± 𝑀/√𝑇 puede incluir tanta densidad como se desee.
En general, una secuencia de variables aleatorias {𝑥𝑇 }𝑥𝑇=1 se dice que es 𝑂𝑝 (𝑇 −𝑘 ) de por
cada 𝜀 > 0 existe M >0 tal que
Por tanto, por ejemplo, el estimador 𝛿̂𝑇 en [16.1.26] es 𝑂𝑝 (𝑇 −3/2 ) , dado que existe una banda
±𝑀 alrededor de 𝑇 3/2 (𝛿̂𝑇 − 𝛿) que contenga tanta posibilidad de distribución como se desee.
𝛼̂𝑡 − 𝛼0
𝑙𝑇 =
1
{𝑆𝑇2 [1 0](𝑋𝑇1 𝑋𝑇 )−1 [ ]}1/2
0
[16.2.1]
0 479
𝑇
2
𝑆𝑇2 = [1/(𝑇 − 2) ∑( 𝛾1 − 𝛼̂ 𝑡 − 𝛿̂ 𝑇 𝑡)
𝑡=1
[16.2.2]
√𝑇(𝛼̂𝑡 − 𝛼0 )
𝑙𝑇 =
{𝑆𝑇2 [ √𝑇 0](𝑋𝑇1 𝑋𝑇 )−1 [√𝑇]}1/2
0
[16.2.3]
[ √𝑇 0] = [1 0]𝛾𝑇 .
[16.2.4]
√𝑇(𝛼̂𝑡 − 𝛼0 )
𝑡𝑇 =
1
{𝑆𝑇2 [ 1 0]𝑌𝑇 (𝑋𝑇1 𝑋𝑇 )−1 𝑌𝑇 [ ]}1/2
0
[16.2.5]
𝑃 √𝑇(𝛼̂𝑡 − 𝛼0 ) √𝑇(𝛼̂𝑡 − 𝛼0 )
𝑡𝑇 → =
1 𝜎√𝑞11
{𝜎 2 [1 0]𝑄 −1 [ ]}1/2
0
[16.2.7]
Pero esto es asintóticamente variable gaussiana dividida por la raíz cuadrada de su varianza, y así
asintóticamente tiene una distribución de N (0, 1). Por lo tanto, la prueba usual de MCO t de 𝛼 =
𝛼( ) dará una inferencia asintóticamente válida.
𝑃 𝛿̂𝑇 − 𝛿0
𝑡𝑇 →
0
{𝑆𝑇2 [0 1](𝑋𝑇1 𝑋𝑇 )−1 [ ] }1/2
1
Multiplicando el numerador y denominador por 𝑇 3/2 ,
que de nuevo es asintóticamente una variable N(0, 1). Así, aunque 𝛼̂ 𝑇 y 𝛿̂𝑇 convergen a diferentes
velocidades, los errores estándar correspondientes 𝜎̂𝛼̂𝑇 y 𝜎̂𝛿̂𝑇 también incorporan diferentes
órdenes de T, con el resultado de que las pruebas de MCO t habituales son asintóticamente válidas.
Es interesante también considerar una prueba de una sola hipótesis que involucra tanto
𝛼 𝑦 𝛿,
𝐻0 : 𝑟1 𝛼 + 𝑟2 𝛿 = 𝑟
en donde r1, r2 y r son parámetros que describen la hipótesis. Una prueba t de H( ) puede ser
obtenida de la raíz cuadrada de la prueba MCO F (expresión [8.1.32])6:
(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿̂ − 𝑟)
𝑡𝑇 = 𝑟1
{𝑆𝑇2 [ 𝑟1 𝑟2 ](𝑋𝑇1 𝑋𝑇 )−1 [𝑟 ]}1/2
2
En este caso estamos multiplicando numerador y denominador por √𝑇 , la tasa más baja de
convergencia entre los dos estimadores 𝛼̂ 𝑇 y 𝛿̂𝑇 :
√𝑇 (𝑟1 â 𝑇 + 𝑟2 𝛿̂𝑇 − 𝑟)
𝑡𝑇= 𝑟
{𝑠𝑇2 √𝑇[𝑟1 𝑟2 ](𝑋𝑇′ 𝑋𝑇 )−1 [𝑟1 ] √𝑇}1/2
2
√𝑇 (𝑟1 â𝑇 + 𝑟2 𝛿̂𝑇 − 𝑟)
= 𝑟
{𝑠𝑇2 √𝑇[𝑟1 𝑟2 ]𝑌𝑇−1 𝑌𝑇 (𝑋𝑇′ 𝑋𝑇 )−1 𝑌𝑇 𝑌𝑇−1 [𝑟1 ] √𝑇}1/2
2
√𝑇 (𝑟1 â 𝑇 + 𝑟2 𝛿̂ 𝑇 − 𝑟)
=
{𝑠𝑇2 𝑟𝑇′ [𝑌𝑇 (𝑋𝑇′ 𝑋𝑇 )−1𝑌𝑇 ]𝑟𝑇 }1/2
donde
𝑟1 𝑟1 𝑟
𝑟𝑇 = 𝑌𝑇−1 [𝑟 ] √𝑇 = [𝑟 /𝑇] → [ 1]
2 2 0
[16.2.8]
Similarmente, recordar de [16.1.27] que 𝛿̂𝑇 es superconsistente, implicando que
𝑝
√𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿̂ − 𝑟) → √𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿 − 𝑟)
[16.2.9]
6 Con una única restricción lineal como aquí, m = 1 y la expresión [8.1.32] describe una variable F(1, T-K) cuando las innovaciones son
gaussianas. Pero una variable F(1, T-K) es el cuadrado de una variable t(T-K). La prueba se describe aquí en términos de una prueba t en
lugar de una F para facilitar la comparación con los resultados anteriores en esta sección.
𝑃 √𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿 − 𝑟) √𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿 − 𝑟)
𝑡𝑇 → 𝑟 =
{𝜎 2 [ 𝑟1 0]𝑄 −1 [ 1 ]}1/2 {𝑟𝑡2 𝜎 2 𝑞11 }1/2
0
[16.2.10]
Pero nótese que
𝑃 ̂ 𝑇 − 𝛼)] √𝑇(𝛼
√𝑇[𝑟1 (𝛼 ̂ 𝑇 − 𝛼)
𝑡𝑇 → =
{𝑟𝑡2 𝜎 2 𝑞11 }1/2 {𝜎 2 𝑞11 }1/2
la cual asintóticamente no tiene una distribución N(0, 1). Por lo tanto, nuevamente, las usuales
pruebas MCO t de H1) son asintóticamente válidas.
Este último ejemplo ilustra el siguiente principio general: Una prueba que implica una
restricción única a través de parámetros con diferentes tasas de convergencia está dominada
asintóticamente por los parámetros con las tasas de convergencia más lentas.
Esto significa que una prueba que implica tanto 𝛼 𝑦 𝛿 que emplea el valor estimado de 𝛿 tendría las
mismas propie- dades asintóticas bajo el nulo como una prueba que emplea el valor verdadero de 𝛿.
o, en su forma vectorial,
𝛽 = 𝛽0 .
La forma de Wald de la prueba MCO x2 de H( ) id encontrada de [8.8.23] tomando R = I2:
Recordando [16.1.25], esta es una forma cuadrática en dos vectores bidimensionales gausianos de la
clase considerada en la Proposición 8.1, de la cual
𝐿
𝑋𝑇2 → 𝑋 2 (2).
Por lo tanto, nuevamente, la prueba MCO usual es asintóticamente válida.
Se asume a través de esta sección que 𝜀𝑡 es i.i.d con media cero, varianza 𝜎 2 , y un momento cuatro
finito, y la raíz de
1 − ∅1 𝑍 − ∅2 𝑍 2 − ⋯ − ∅𝑝 𝑍 𝑝 = 0
𝑦𝑡 = 𝛼(1 + ∅1 + ∅2 + ⋯ + ∅𝑝 ) + 𝛿(1 + ∅1 + ∅1 + ⋯ + ∅𝑝 )𝑡
[16.3.2]
[16.3.3]
donde
𝛿 ∗ = 𝛿(1 + ∅1 + ∅2 + ⋯ + ∅𝑝 )
∅∗𝑗 ≡ ∅𝑗 para 𝑗 = 1, 2, … , 𝑃
[16.3.4]
0 483
La idea de transformar la regresión en una forma como [16.3.3] es debido a Sims, Stock y
Watson (1990)7. El objetivo es re-escribir las regresiones de [16.3.1] en términos de media cero
∗
covarianza estacionaria de variables aleatorias (los términos 𝑦𝑡−𝑗 para j = 1, 2, …, p), un término
constante, y una tendencia temporal. Transformando los regresores de esta forma aísla los
coeficientes del coeficiente vector MCO con las diferentes tasas de convergencia y provee una
técnica general para encontrar la distribución asintótica de regresiones involucrando variables no
estacionarias. Un resultado general es que. Si tal ecuación trasformada fuera estimado por MCO, los
coeficientes en media cero variables aleatorias de covarianza estacionaria (en este caso, ∅ ̂1.𝑇
∗
,
̂ ∗ ̂ ∗ ∗ ̂
∅2.𝑇 , … , ∅𝑝.𝑇 ) ) convergerían a una tasa √𝑇 a una distribución gausiana. Los coeficientes 𝛼̂ 𝑇 y 𝛿𝑇 ∗
Es útil describir esta transformación en una notación más general que pueda también
aplicar a modelos más complejos en los capítulos siguientes. El modelo de regresión original
[16.3.1] puede ser escrito
𝑦𝑡 = 𝑥𝑡𝑡 𝛽 + 𝜀𝑡 [16.3.5]
donde
𝑦𝑡−1 ∅1
𝑦𝑡−2 ∅2
. .
.
𝑋𝑡
(𝑝+2)𝑥1
≡ . 𝛽
(𝑝+2)𝑥1
≡ .
.
𝑦𝑡−𝑝 ∅𝑝
1 𝛼
[ 𝑡 ] [𝛿]
[16.3.6]
La transformación algebraica al llegar a [16.3.3] puede entonces ser descrita re-escribiendo [16.3.5]
en la forma:
Donde
1 0 ⋯ 1 0 0
0 1 ⋯ 0 0 0
𝐺 ⋮ ⋮ ⋮ ⋮ ⋮
= ⋯ 1
(𝑝 + 2)𝑥(𝑝 + 2) 0 0 ⋯ 0 0
−𝛼 + 𝛿 −𝛼 + 𝛿 ⋯ −𝛼 + 𝑝𝛿 1 0
[ −𝛿 ⋯
−𝛿 −𝛿 0 1 ]
1 0 ⋯ 1 0 0
0 1 ⋯ 0 0 0
[𝐺 ′ ]−1 ⋮ ⋮ ⋮ ⋮ ⋮
= ⋯ 1
(𝑝 + 2)𝑥(𝑝 + 2) 0 0 ⋯ 0 0
𝛼−𝛿 𝛼−𝛿 ⋯ 𝛼 − 𝑝𝛿 1 0
[ 𝛿 ⋯
𝛿 𝛿 0 1 ]
[16.3.8]
7 Una versión más sencilla de este tema apareció en el análisis de un proceso univariable con unidades de raíz por Fuller (1976).
∅1∗
∅∗2
.
𝛽 ≡ [𝐺 ] 𝛽 = .
∗ 𝑡 −1
.
∅∗𝑝
𝛼
[𝛿]
[16.3.10]
𝑇 −1 𝑇
∗
𝑏 = [∑ 𝑥𝑡∗ [𝑥𝑡∗ ]′ ] [∑ 𝑥𝑡∗ 𝑦 ′ ]
𝑡=1 𝑡=1
𝑇 𝑇
𝑇 −1 𝑇
= [𝐺 ′ ] −1 (∑ 𝑥𝑡 𝑥𝑡′ ) 𝐺 −1
𝐺(∑ 𝑥𝑡 𝑦𝑡 )
𝑡=1 𝑡=1
𝑇 −1 𝑇
= [𝐺 ′ ] −1 (∑ 𝑥𝑡 𝑥𝑡′ ) (∑ 𝑥𝑡 𝑦𝑡 )
𝑡=1 𝑡=1
= [𝐺 ′ ] −1 𝑏,
[16.3.11]
donde b denota el coeficiente vector estimado de una regresión MCO de yt en xt. Por lo tanto, la
estimación del coeficiente para la regresión transformada (b*) es una transformación linear simple
de la estimación del coeficiente por el sistema original (b). El valor ajustado para fecha t asociado
con la regresión transformada es
Por tanto, los valores ajustados para la regresión transformada son numéricamente idénticos a los
valores ajustados de la regresión original.
𝑏 = 𝐺 𝑡 𝑏∗ [16.3.12]
Donde
√𝑇 0 0 ⋯ 0 0 0
0 √𝑇 0 ⋯ 0 0 0
⋮ ⋯ ⋮ ⋮ ⋮
𝛾𝑇
= ⋮ ⋮ ⋯ √𝑇 0 0 [16.3.14]
(𝑝+2)𝑥(𝑝+2)
0 0 0
⋯
0 0 0 0 √𝑇 0
⋯
[0 0 0 0 0 𝑇 3/2 ]
𝛾0∗ 𝛾1∗ 𝛾2∗ 𝛾∗ 0 0
⋯ 𝑝−1
𝛾1∗ 𝛾0∗ 𝛾1∗ ⋯ 𝛾 ∗
𝑝−2 0 0
𝑄∗ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮
= ∗ ∗ ∗ ⋯ 𝛾∗ 0 [16.3.15]
(𝑝+2)𝑥(𝑝+2) 𝛾𝑝−1 𝛾𝑝−2 𝛾𝑝−3 0
⋯ 0
1 1⁄2
0 0 0 ⋯ 0
[ 0 0 0 1⁄2 1⁄3]
0
̂1 ̂∗
𝜙 1 0 ⋯ 0 0 0 𝜙1
̂2
𝜙 0 1 ⋯ 0 0 0 𝜙̂ 2
∗
⋮ = ⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋮ [16.3.16]
̂𝑝
𝜙 0 0 ⋯ 1 0 0 𝜙̂ ∗
𝑝
𝛼̂ −𝛼 + 𝛿 −𝛼 + 2𝛿 ⋯−𝛼 + 𝑝𝛿 1 0 𝛼̂ ∗
[ −𝛿 ⋯ 0 1 ] [ ̂∗ ]
[ 𝛿̂ ] −𝛿 −𝛿
𝛿
Finalmente, la estimación 𝛿̂𝑇 es una combinación linear de variables que convergen en diferentes
tasas:
donde
𝛿̂𝑇 ≡ [−𝛿 − 𝛿 … − 𝛿 0 0]
Sus distribuciones asintóticas están regidas por las variables con las tasas de convergencia más bajas:
= 𝑔𝛿𝑡 √𝑇(𝑏𝑇∗ + 𝛽 ∗ )
𝐿
→ 𝑁(0, 𝜎 2 𝑔𝛿𝑡 [𝑄 ∗ ]−1 𝑔𝛼 )
Por tanto, cada uno de los elementos de bt individualmente es asintóticamente gausiano y Op(T-1/2) .
La distribución asintótica del vector completo √𝑇 (𝑏𝑇 − 𝛽) es multivariado gausiano, aunque con
una singular matriz de varianza-covarianza. Específicamente, la particular combinación linear de
elementos de bT que recubre 𝛿̂𝑇∗ , el coeficiente de tendencia temporal de la regresión hipotética:
̂1.𝑇 + 𝛿∅
𝛿̂𝑇∗ = −𝑔𝛿𝑡 𝑏𝑇∗ + 𝛿̂𝑇 = 𝛿∅ ̂ 2.𝑇 … + 𝛿∅
̂ 𝑝.𝑇 + 𝛿̂𝑇
Prueba de Hipótesis
El precedente análisis describe la distribución asintótica de b en términos de las
propiedades de las estimaciones de regresión transformada b*. Esto podría parecer implicar ese
conocimiento de la transformación de la matriz G en [16.3.8] es necesario de modo que pueda
conducir pruebas de hipótesis. Afortunadamente, éste no es el caso. Los resultados de la sección
𝐻0 : 𝑅𝛽 = 𝑟. [16.3.18]
𝑥𝑇2 = (𝑅𝑏𝑡 − 𝑅)𝑡 [𝑆𝑇2 𝑅(∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 )−1 𝑅𝑡 ]−1 (𝑅𝑏𝑡 − 𝑟). [16.3.19]
Aquí bT es el estimado de B basado en la observación {y-p+1, y-p+2, …, y0, y1, …, yT} y 𝑆𝑇2 =
[1/(𝑇 − 𝑝 − 2)] ∑𝑇𝑡=1(𝑦𝑡 − 𝑥𝑡1 𝑏𝑇 ) 2 .
−1 −1
𝑇
= [𝑅𝐺 −1 (𝐺 −1 )( 𝑏𝑡 − 𝛽)]−1
−1 −1
𝑇
[16.3.20]
Nótese que
𝑇 −1 𝑇 −1 𝑇 −1
(𝑏𝑇∗ − 𝛽 ∗ ) = (𝐺 𝑡 )−1 ( 𝑏𝑡 − 𝛽)
Definiendo:
R* =RG
𝑥𝑇2 = [𝑅 ∗ (𝑏𝑇∗ − 𝛽 ∗ )]𝑡 [𝑆𝑇2 𝑅∗ (∑𝑇𝑡=1 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 )−1 [𝑅∗ ]𝑡 ]−1 [16.3.21]
Observa que la regresión transformada no tiene de hecho que ser estimada de modo que pueda
calcular esta estadística, desde [16.3.21] es numéricamente idéntica a la estadística x2
[16.3.20] que es calculada del sistema no-transformado en la forma usual. No obstante, la
expresión [16.3.21] nos da otra forma de pensar sobre la distribución de las estadísticas como de
hecho son calculadas en [16.3.20].
Para la matriz yt [16.3.14]. Recordar la visión de la Sección 16.2 que las pruebas de hipótesis que
involucran coeficientes con diferentes tasas de convergencia serán regidas por las variables con las
más bajas tasas de convergencia. Esto significa que algunos de los elementos de R* pueden ser
asintóticamente irrelevantes, así que [16.3.22] tiene la misma distribución asintótica que una
expresión más simple. Para describir esta expresión, considerar dos posibilidades:
Caso 1. Cada una de las Hipótesis m Representadas por 𝑅 ∗ 𝛽∗ = 𝑟 involucra un parámetro que
converge en tasa √𝑇
𝐻0 : ∅∗2 = 0, 𝛿 ∗ = 0 [16.3.23]
Lo que parece incluir ∅∗2 en cada restricción. Con el propósito de implementar una prueba de H0,
no importa cuál representación de 𝐻0 se usa, desde que cualquiera producirá el valor idéntico para
la prueba estadística8. Con el propósito de analizar las propiedades de la prueba, distinguimos una
hipótesis tal como [16.3.23] de una hipótesis que involucra sólo a ∅∗2 y ∅∗3 . Para que esta distinción
sea significativa, asumiremos que H0 se escribiría en la forma de [16.3.23] en lugar de [16.3.24].
8 “Más generalmente, dejar que H sea una matriz no singular (m x m). Entonces la hipótesis nula R β=r puede equivalentemente
escribirse como 𝑅̇ 𝛽 = 𝑟̇ donde 𝑅̇ = 𝐻𝑅 y 𝑟̇ = Hr. La estadística x2 construida de la segunda parametrización es
−1 −1
𝑇
𝑡
𝑋 = (𝑅̇ 𝑏 − 𝑟̇ )
2
[𝑆𝑇2 𝑅̇ (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑅̇ 𝑡 ] (𝑅̇ 𝑏 − 𝑟̇ )
𝑡=1
−1 −1
𝑇
𝑡 𝑡
= (𝑅𝑏 − 𝑟) 𝐻 [𝐻 ] 𝑡 −1
[𝑆𝑇2 𝑅̇ (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑅 ] 𝑡
𝐻 −1 𝐻(𝑅𝑏 − 𝑟)
𝑡=1
−1 −1
𝑇
= (𝑅𝑏 − 𝑟) 𝑡
[𝑆𝑇2 𝑅̇ (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑅 ] 𝑡 (𝑅𝑏 − 𝑟),
𝑡=1
El cual es idéntico a la estadística x2 construida de la primera parametrización. La representación [16.3.24] es un ejemplo de tal
transformación de [16.3.23]. con
1 0
𝐻=[ ].
−1 1
Para el caso 1, aunque algunas de las hipótesis pudieran involucrar 𝛿̂𝑇∗ , una prueba de
hipótesis nula sería asintóticamente equivalente a una prueba que trate a 𝛿 ∗ como si fuera
conocida con certeza. Esta es una consecuencia de 𝛿̂𝑇∗ siendo superconsistente. Para desarrollar este
resultado riguroso, nótese que
∗ ⋯ 𝑟 ∗ /√𝑇 𝑟1.𝑝+2
∗ ∗
/√𝑇 3/2
𝑟11 /√𝑇 𝑟12
1.𝑝+1 /√𝑇
⋯ ∗
∗ ∗ ∗
𝑅 ∗ 𝑌𝑇−1 = 𝑟21 /√𝑇 𝑟22 /√𝑇 ⋯ 𝑟2.𝑝+1 /√𝑇 𝑟2.𝑝+2 /√𝑇
3/2
⋮ ⋮ ⋮ ⋮ ⋮
∗ ∗ ∗
𝑟𝑚1 /√𝑇 𝑟𝑚2 /√𝑇 … 𝑟𝑚.𝑝+1 /√𝑇 𝑟 ∗
𝑚.𝑝+2 /√𝑇
3/2
[ ]
y defina
̅̅̅
𝑌 𝑇
≡ √𝑇𝐼𝑚
(𝑚 𝑥 𝑚)
∗ ∗ ⋯ 𝑟∗ ∗
𝑟1.𝑝+2 /𝑇
𝑟11 𝑟12 1.𝑝+1
∗ ∗ ⋯ ∗ ∗
𝑟 𝑟 𝑟 𝑟2.𝑝+2 /𝑇
𝑅𝑇∗ ≡ 21 22 ⋯ 2.𝑝+1
⋮ ⋮ ⋮ ⋮ ⋮
∗ ∗ ∗ ∗
𝑟 𝑟
[ 𝑚1 𝑚2 … 𝑚.𝑝+1 𝑚.𝑝+2 /𝑇]
𝑟 𝑟
𝑅̅𝑇∗ → 𝑅̅ ∗ [16.3.26]
9 “Triangular superior” significa que si el conjunto de restricciones en H0 envuelve parámetros 𝛽𝑖∗1 , 𝛽𝑖∗2 , …, 𝛽𝑖∗𝑛 con 𝑖1 < 𝑖2 < ⋯ < 𝑖𝑛
entonces los elementos de R* en filas 2 a través de m y columnas, 1 a través de i1, todas son cero. Esto es simplemente una normalización
– cualquier hipótesis R* β*= r puede ser escrita en tal forma seleccionando una restricción que involucre 𝛽𝑖∗1 para ser la primera fila de
R* y así multiplicar la primera fila de este sistema de ecuaciones por una constante adecuada y sustraerla de cada una de las siguientes
filas. Si el sistema de restricciones representada por dos filas a través de m de la matriz resultante que involucra parámetros 𝛽𝑖∗1 , 𝛽𝑖∗2 , …,
𝛽𝑖∗𝑛 con 𝑖1 < 𝑖2 < ⋯ < 𝑖𝑛 , entonces se asume que los elementos en filas 3 a través de m y columnas 1 a través de j1 son todas cero.
Un ejemplo de un sistema triangula superior es
𝑋𝑇2 = [𝑌̅𝑇−1 𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]′ 𝑥 [𝑠𝑇2 𝑌̅𝑇−1 𝑅̅𝑇∗ 𝑌𝑇 (∑ 𝑥𝑡∗ [ 𝑥𝑡∗ ]′)−1 𝑌𝑇 [𝑌̅𝑇−1 𝑅̅𝑇∗ ]′] [𝑌̅𝑇−1 𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]
𝑡=1
𝑇 −1
= [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]′ 𝑌̅𝑇−1 𝑥 𝑌̅𝑇 [𝑠𝑇2 𝑅̅𝑇∗ 𝑌𝑇 (∑ 𝑥𝑡∗ [ 𝑥𝑡∗ ]′)−1 𝑌𝑇 [𝑅̅𝑇∗ ]′] 𝑌̅𝑇 𝑌̅𝑇−1 [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]
𝑡=1
𝑇 −1
= [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ ∗ ′
− 𝛽 )] 𝑥 [𝑠𝑇2 𝑅̅𝑇∗ 𝑌𝑇 (∑ 𝑥𝑡∗ [ 𝑥𝑡∗ ]′)−1 𝑌𝑇 [𝑅̅𝑇∗ ]′] [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]
𝑡=1
𝑝
→ [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]′ 𝑥 [𝜎 2 𝑅̅∗ [𝑄 ∗ ]−1 [𝑅̅∗ ]′] −1 [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )] [16.3.27]
∗ ∗ ⋯ ∗
𝑟1.𝑝+1
∗
𝑟1.𝑝+2
𝑟11 𝑟12 ⋯ ∗
∗ ∗ ∗ 𝑟2.𝑝+2
∗
𝑟21 𝑟22 ⋯ 𝑟2.𝑝+1
𝑅𝑇 ≡ ⋮ ⋮ ⋮ ⋮
⋮ ∗
𝑟𝑚−1.1 𝑟𝑚−1.2 … 𝑟𝑚−1.𝑝+1 𝑟𝑚−1.𝑝+2
∗ ∗ ∗
∗
[ 0 0 … 0 𝑟𝑚.𝑝+2 ]
∗ ∗ ⋯ 𝑟∗ ∗
𝑟1.𝑝+2 /𝑇
𝑟11 𝑟12 ⋯ 1.𝑝+1
∗
∗ ∗ ∗ 𝑟2.𝑝+2 /𝑇
𝑟21 𝑟22 ⋯ 𝑟2.𝑝+1
̃ ∗
𝑅𝑇 ≡ ⋮ ⋮ ⋮ ⋮
⋮ ∗
∗
𝑟𝑚−1.1 ∗
𝑟𝑚−1.2 𝑟 ∗
… 𝑚−1.𝑝+1 𝑟𝑚−1.𝑝+2 /𝑇
∗
[ 0 0 … 0 𝑟𝑚.𝑝+2 ]
Resumen
Cualquier prueba estándar MCO x2 de una hipótesis nula Rβ=r para el modelo de
regresión [16.3.1] puede ser calculado e interpretado en la forma usual. La prueba es
asintóticamente válida para cualquier hipótesis sobre cualquier subconjunto de los parámetros en β.
Los elementos de R no tienen que estar ordenados e expresados en ninguna forma particular para
que sean ciertos.
𝑇 −𝟏 𝑇
𝒃∗𝑻 ∗
𝜷 = [∑ 𝑋𝑡 𝑋𝑡∗ [𝑋𝑡∗ ]] [∑ 𝑋𝑡 𝜀𝑡 ]
𝑡=1 𝑡=1
[16.A.1]
Ya que las población residuales 𝜀1 son idénticas para las representaciones transformadas y no-
transformadas. Como en [16.1.18], premultiplicar por YT para escribir
𝑇 −𝟏 𝑇
−𝟏
𝑌𝑇 (𝑏𝑇∗ −𝛽 )= ∗
{𝒀𝑻 ∑ 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 𝒀−𝟏
𝑻 }
−𝟏
{𝒀𝑻 ∑ 𝑋𝑡∗ 𝜀𝑡 }
𝑡=1 𝑡=1
[16.A.2]
De [16.3.9]
∗ ∗ ∗ ∗ ∗ ∗
∑(𝑦𝑡−1 )2 ∑ 𝑦𝑡−1 𝑦𝑡−2 ∑ 𝑦𝑡−1 ∗
𝑦𝑡−𝑝 ∑ 𝑦𝑡−1 ∑ 𝑡𝑦𝑡−1
⋯
∗ ∗ ∗ ∗ ∗ ∗
∑ 𝑦𝑡−2 𝑦𝑡−1 ∑(𝑦𝑡−2 )2 ⋯ ∑ 𝑦𝑡−2 ∗
𝑦𝑡−𝑝 ∑ 𝑦𝑡−2 ∑ 𝑡𝑦𝑡−2
𝑇
⋮ ⋮ ⋯ ⋮ ⋮ ⋮
∑ 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 ≡ ∑ 𝑦 ∗ 𝑦 ∗ ∗ ∗ ⋮ ∗
)2 ∗ ∗
𝑡−𝑝 𝑡−1 ∑ 𝑦𝑡−𝑝 𝑦𝑡−1 …
∑(𝑦𝑡−𝑝 ∑ 𝑦𝑡−𝑝 ∑ 𝑡𝑦𝑡−𝑝
𝑡=1
∗ ∗ ∗
∑ 𝑦𝑡−1 ∑ 𝑦𝑡−2 ∑ 𝑦𝑡−𝑝 ∑1 ∑𝑡
⋯
∗ ∗ ∗
[ ∑ 𝑡𝑦𝑡−1 ∑ 𝑡𝑦𝑡−2 ∑ 𝑡𝑦𝑡−𝑝 ∑𝑡 ∑ 𝑡2 ]
∗ ∗
𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−2 𝑇 −1 ∑ 𝑦𝑡−𝑝
∗
𝑇 −1 . 𝑇 𝑇 −2 . ∑ 𝑡
⋯
−2 ∗ ∗ 𝑇 −2 . ∑ 𝑡
[ 𝑇 ∑ 𝑡𝑦𝑡−1 𝑇 −2 ∑ 𝑦𝑡−2 𝑇 −2 ∑ 𝑦𝑡−𝑝
∗
𝑇 −3 . ∑ 𝑡 2 ]
y [16.A.3]
Pero 𝑦𝑡∗ sigue un proceso estacionarios de media cero AR(p) satisfaciendo las condiciones del
∗
ejercicio 7.7. Por lo tanto, estos términos convergen en la probabilidad de 𝑦|𝑖−𝑗|. Los primeros
elementos p de la fila p +1 (o los primeros elementos p de la columna p +1) son de la forma
𝑇
−1 ∗
𝑇 ∑ 𝑦𝑡−𝑗
𝑡=1
que converge en probabilidad cero. Los primeros elementos p de la fila p +2 (o los primeros
elementos p de la columna p+2) son de la forma
𝑇
−1 ∗
𝑇 ∑(𝑡/𝑇)𝑦𝑡−𝑗
𝑡=1
que pueden converger en probabilidad cero con una adaptación lista a las técnicas del Capítulo 7
(ver ejercicio 16.3). Finalmente, la matriz (2 x 2) en la esquina inferir derecha de [16.A.3] converge a
1 1/2
[ ]
1/2 1/3
Así
𝒑
𝑌𝑇−1 = ∑𝑇𝑡=1 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 𝒀−𝟏
𝑻 →𝑸
∗
[16.A.4]
Donde
∗ ∗
𝑦0∗ 𝑦1∗ 𝑦1⋯ 𝑦𝑝−1 0 0
𝑦1 𝑦0 𝑦1⋯ 𝑦𝑝−1 0 0
∗ ∗ ∗ ∗
⋮ ⋮ ⋯ ⋮ ⋮
𝑄𝑇∗ ≡ ∗ ∗ 0
𝑦𝑝−1𝑦𝑝−2 𝑦𝑝−3 ⋯ 𝑦0 0
∗ ∗
0 0 0 ⋯ 0 1 𝑡/𝑇
2 2
[ 0 0 0 ⋯ 0 𝑡/𝑇𝑡 /𝑇 ]
Y
𝑇
(1/𝑇) ∑ 𝑄𝑡∗ → 𝑄 ∗
𝑡−1
Aplicando los argumentos utilizados en el Ejercicio 8.3 y en [16.1.24], puede verse que
𝐿
𝑌𝑇−1 ∑𝑇𝑡=1 𝑋𝑡∗ 𝜀𝑡 → 𝑁(0, 𝜎 2 𝑄 ∗ ) [16.A.6]
Capítulo 16 Ejercicios
16.1. Verificar el resultado en [16.1.23]
16.3. Dejar que yt sea covarianza estacionaria con media cero autocovarianzas absolutamente
sumatorias:
𝑥
∑ |𝑦𝑗 | < ∞
𝑗𝛼−𝑥
Capítulo 16 Referencias
Fuller, Wayne A. 1976. Introduction to Statistical Time Series. New York: Wiley.
Sims, Christopher A., James H. Stock, and Mark W. Watson. 1990 “Inference in Linear Time Series
Models with Some Unit Roots.” Econometrica 58: 113-44
La sección 17.5 extiende los resultados de la sección 17.3 para cubrir los procesos raíz
unitarios cuyas diferencias exhiben una correlación serial general. Estos resultados se pueden
utilizar para desarrollar dos clases diferentes de pruebas para las raíces unitarias. Un enfoque,
debido a Phillips y Perón (1988), ajusta las estadísticas calculadas a partir de una autorregresión
simple de primer orden para tener en cuenta la correlación serial de los datos diferenciados. El
segundo enfoque, debido a Dickey y Fuller (1979), añade rezagos a la autorregresión. Estos
enfoques se examinan en las secciones 17.6 y 17.7, respectivamente. La sección 17.7 deriva además
las propiedades de todos los coeficientes estimados para la auto-regresión de orden p cuando una
de las raíces es unidad.
𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝜇𝑡 [17.1.1]
Como veremos en breve, [17.1.4] es de hecho un enunciado válido para procesos de raíces unitarias,
pero obviamente no es de mucha ayuda para pruebas de hipótesis. Para obtener una distribución
asintótica no degenerada para 𝑝̂ 𝑇 por T en lugar de √𝑇. Por lo tanto, el coeficiente de raíz unitaria
converge a una tasa más rápida (T) que un coeficiente de regresión estacionaria (que converge en
√𝑇), pero a una tasa más lenta que el coeficiente en una tendencia temporal en las regresiones
analizadas en los capítulos previos (los cuales convergen a T 3/2).
∑𝑇
𝑡=1 𝑦𝑡−1 𝜇𝑡
(𝑝̂𝑡 − 1) = [17.1.5]
∑𝑇 2
𝑡=1 𝑦 𝑡−1
𝑦𝑡 = 𝜇𝑡 + 𝜇𝑡−1 + ⋯ + 𝜇𝑡
[17.1.7]
17.1 Distribución asintótica de las estimaciones de MCO del Modelo Simple de Tendencia
Temporal 497
Pero [17.1.8] implica que la variable 𝑦𝑇 /(𝜎√𝑇) es N (0, 1), siendo así su cuadrado x2(1):
𝑦
[(𝜎2𝑇𝑇)]2 ~𝑥 2 (1) [17.1.13]
Además, ∑𝑇𝑡=1 𝑢𝑡2 es la suma de T i.i.d. variables aleatorias, cada una con media 𝜎 2 , y así, por la ley
de los números grandes,
𝑝
(1/𝑇) ∙ ∑𝑇𝑡=1 𝑢𝑡2 → 𝜎 2 [17.1.14]
∑𝑇𝑡=1 𝑦𝑡−1
2
[17.1.16]
2 )
Recordar que de [17.1.8] que 𝑦𝑡−1 ~𝑁(0, 𝜎 2 (𝑡 − 1)), así 𝐸(𝑦𝑡−1 = 𝜎 2 (𝑡 − 1). Considera la
media de [17.1.16],
𝐸[∑𝑇𝑡=1 𝑦𝑡−1
2 ]
= 𝜎 2 ∑𝑇𝑡=1(𝑡 − 1) = 𝜎 2 (𝑡 − 1)𝑇/2.
Para construir una variable aleatoria que pudiera tener una distribución convergente, la cantidad en
[17.1.16] tendrá que ser dividida por T2 como fue hecho en el denominador [17.1.6].
𝑦𝑡 = 𝑦𝑡−1 + 𝜖𝑡 [17.2.1]
Si el proceso empieza con y0=0, entonces esto sigue como en [17.1.7] y [17.1.8] que
𝑦𝑡 = 𝜀1 + 𝜖2 + ⋯ + 𝜀𝑡
𝑦𝑡 𝑁~(0, 𝑡).
es en sí misma N (0, (s-t)) y es independiente del cambio entre las fechas r y q para cualquier fecha
𝑡 < 𝑠 < 𝑟 < 𝑞.
𝜀𝑡 = 𝑒1𝑡 + 𝑒2𝑡
1
Con 𝑒1𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 2). Nosotros podríamos asociar 𝑒1𝑡 con el cambio entre yt-1 y el valor de y en
algún punto provisional (digamos, y t – (1/2)),
Muestreado en un entero de fecha t=1, 2,…, el proceso de [17.2.2] y [17.2.3] tendrá exactamente las
mismas propiedades que [17.2.1], ya que
𝑦𝑠 − 𝑦1 ~𝑁(0, 𝑠 − 𝑡)
con 𝑦𝑠 − 𝑦𝑡 independiente del cambio sobre cualquier de los intervalos sin superposición.
Con 𝑒1𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0,1/𝑁). El resultado podría ser un proceso con todas las mismas propiedades
de [17.2.1], definidas en una cada vez más fina red de fechas en tanto se incremente N. El límite de
𝑁 → ∞ es un proceso de tiempo continuo conocido como Movimiento Browniano Estándar. El
valor de este proceso en la fecha t está dado por W (t)2. Un proceso de tiempo continuo es una
variable aleatoria que asume un valor número t real no-negativo, distinto a un proceso de tiempo
discreto, el cual solamente está definido en valores enteros de t. Para enfatizar la distinción,
pondremos la fecha en paréntesis cuando se describa el valor de una variable de tiempo continuo de
fecha t (tal como en W (t)) y usaremos subíndices para una variable de tiempo discreto (tal como en
𝑦𝑡 ). Un proceso de tiempo discreto fue representado como una secuencia contable de variables
𝑥
aleatorias, denotadas por {𝑦𝑡 }𝑡=1 . Una realización de un proceso de tiempo continuo puede ser
observada como una función Estocástica, denotada por 𝑊(∙), donde 𝑊: 𝑡 ∈ [0, ∞) → ℝ1 .
(a) W0=0;
(b) Para cualquier fecha 0 ≤ 𝑡1 < 𝑡2 < ⋯ < 𝑡𝑘 ≤ 1, los cambios [𝑊(𝑡2 ) −
𝑊(𝑡1 )], [𝑊(𝑡3 ) − 𝑊(𝑡2 )], ⋯ , [𝑊(𝑡𝑘 ) − 𝑊(𝑡𝑘−1 )] son multivariables independientes
Gaussianas con [𝑊(𝑠) − 𝑊(𝑡)]~𝑁(0, 𝑠~𝑡);
(c) Para cualquier realización dada, 𝑊𝑡 es continua en t con probabilidad 1.
𝑍(𝑡) = 𝜎 ∙ 𝑊(𝑡)
tiene incrementos independientes y está distribuido 𝑁(0, 𝜎 2 𝑡) a través de las realizaciones. Tal
proceso está descrito como Movimiento Browniano con varianza 𝜎 2 . Por tanto, el movimiento
browniano estándar podría también ser descrito como movimiento browniano con varianza
unitaria.
Podría estar distribuido como t veces una variable x2 (1) a través de realizaciones.
𝐿
√𝑇𝜇̅ 𝑇 → 𝑁(0, 𝜎 2 )
Considera ahora un estimador basado en el siguiente principio: cuando
se da una muestra de tamaño T, calculamos la media de la primera mitad de la muestra y
descartamos el resto de las observaciones:
[𝑇/2]∗
𝜇̅ [𝑇/2]∗ = (1/[𝑡/2]2 ) ∑𝑡=1 𝜇𝑡 .
Aquí [T/2]* denota el entero más largo que es menos que o igual a T/2; esto es, [T/2]*=T/2 para
T par [T/2]* = (T-1)/2 y T par. Este estimador extraño podría satisfacer el teorema de límite
central:
3 Para una introducción a la diferenciación e integración de movimiento Browniano, revisar Milliaris y Brock (1982, Chapter 2).
Más aún, este estimador podría ser independiente de un estimador que usa solamente la segunda
mitad de la muestra.
Entonces
1 [𝑇 ]∗ [𝑇]∗
√𝑇 ∙ 𝑋𝑇 (𝑟) = ( 𝑇) ∑𝑡=1
𝑟
𝜇𝑡 = (√[𝑇𝑟 ]∗ /√𝑇) (1/√[𝑇𝑟 ]∗ ) ∑𝑡=1 𝜇𝑡
√
[17.3.4]
Pero
1 [𝑇]∗ 𝐿
( ) ∑𝑡=1 𝜇𝑡 → 𝑁(0, 𝜎 2 )
√[𝑇𝑟 ]∗
√[𝑇𝑟]∗
Por el teorema del límite central como en [17.3.1], mientras ( ) → √𝑟. Por lo tanto, la
√𝑇
distribución asintótica de √𝑟 ∙ 𝑥𝑇 𝑟 en [17.3.4] es que √𝑟 veces una variable aleatoria N (0, 𝜎 2 ) o
𝐿
√𝑇 ∙ 𝑋𝑇 (𝑟) → 𝑁(0, 𝑟𝜎 2 )
y
𝑋𝑇 (𝑟) 𝐿
√𝑇 ∙ [ 𝜎
] → 𝑁(0, 𝑟) [17.3.5]
y es dependiente del estimador en [17.3.5], dado que 𝑟 < 𝑟. Esto por lo tanto no debería
𝑋 (∙)
sorprender dado que la secuencia de funciones estocásticas {√𝑇 ∙ 𝑇 }𝑋𝑇=1 tiene una ley de
𝜎
probabilidad asintótica que se describe por el movimiento browniano estándar 𝑊(∙):
𝐿
√𝑇 ∙ [𝑋𝑇 (∙)/𝜎] → 𝑊(∙) [17.3.6]
𝑋𝑇 (1) 1 𝐿
√𝑇 ∙ =[ ] ∑𝑇𝑡=1 𝜇𝑡 → 𝑊(1)~𝑁(0, 1) [17.3.7]
𝜎 𝜎√𝑡
𝑆𝑇 (𝑟1 ) 𝑆 (𝑟1 )
𝑆𝑇 (𝑟2 ) 𝑆 (𝑟2 )
𝑦𝑇 ≡ [ ] 𝑦 ≡[ ];
⋮ ⋮
𝑆𝑇 (𝑟𝑘 ) 𝑆 (𝑟𝑘 )
(b) Para cada 𝜀 > 0, la probabilidad de que 𝑆𝑇 (𝑟1 ) difiera de𝑆𝑇 (𝑟2 ) para cualquier fecha 𝑟1 y
𝑟2 dentro de 𝛿 de cada otra va a cero uniformemente en T como 𝛿 → 0;
(c) 𝑃{|𝑆𝑇 (0)| > 𝜆} → 0 uniformemente en T como 𝜆 → 0.
4La secuencia de medidas de probabilidad inducida por {𝑠𝑇 (. )}∞ 𝑇=1 débilmente converge (en el sentido de Billingsley, 1968) a la medida
de probabilidad inducida por 𝑆𝑇 (∙) si y sólo si las condiciones (a) a (c) mantienen; Ver Teorema A.2, p.275, en Hall y Heyde (1980).
Así, {𝑌𝑇 }𝑥𝑇=1 es una consecuencia de variables aleatorias, y podríamos hablar de su límite de
probabilidad usando la definición estándar dada en [7.1.2]. Si la secuencia de escalares
{𝑌𝑇 }𝑥𝑇=1 converge en probabilidad a cero, entonces decimos que la secuencia de funciones
𝑆𝑇 (∙) converge en probabilidad a 𝑉𝑇 (∙). Es decir, la expresión
𝑝
𝑆𝑇 (∙) → 𝑉𝑇 (∙).
significa que
𝑠𝑢𝑝 𝑝
𝑟 ∈ [0,1]|𝑆𝑇 (𝑟) − 𝑉𝑇 (𝑟)| → 0
Ejemplo 17.1
𝑝
Sea {𝑋𝑇 }𝑥𝑇=1 una secuencia de escalares aleatorios con 𝑋𝑇 → 0, y sea {𝑆𝑇 (∙)}𝑥𝑇=1 una
𝐿
secuencia de funciones continuas aleatorias, 𝑆𝑇 : 𝑟 ∈ [0, 1] → 𝑅1 con 𝑆𝑇 (∙) → 𝑆 (∙)
Entonces la secuencia de funciones {𝑉𝑇 (∙)}𝑥𝑇=1 definida por 𝑉𝑇 (𝑟) ≡ 𝑆𝑇 (𝑟) + 𝑋𝑇 tiene la
𝐿
propiedad 𝑉𝑇 (∙) → 𝑆𝑇 (∙). Para ver esto, tenga en cuenta que 𝑉𝑇 (𝑟) − 𝑆𝑇 (𝑟) = 𝑥𝑇 para
todos los r, por lo que
𝑠𝑢𝑝
𝑟 ∈ [0,1]|𝑆𝑇 (𝑟) − 𝑉𝑇 (𝑟)| = |𝑥𝑇 |
𝑝
que converge en probabilidad a cero. Por lo tanto,𝑉𝑇 (∙) → 𝑆𝑇 (∙), y por lo tanto 𝑉𝑇 (∙)
𝐿
→ 𝑆𝑇 (∙).
Ejemplo 17.2
Sea 𝜂𝑡 una serie temporal estrictamente estacionaria con un cuarto momento finito, y sea
1 𝑝
𝑆𝑇 (𝑟) = ( ) . 𝜂[𝑇𝑟]∗ . Entonces 𝑆𝑇 (∙) → 0. Para ver esto, tenga en cuenta que
√𝑇
𝑠𝑢𝑝
𝑝{ 𝑟𝜖|0.1||𝑆𝑇 (𝑟)| > 𝛿}
= 𝑃{[|(1/√𝑇). ƞ1 | > 𝛿] 𝑜𝑟 [|(1⁄√𝑇). ƞ2 | > 𝛿 𝑜 ….
|(1/√𝑇). ƞ𝑡 | > 𝛿]}
1
≤ 𝑇. 𝑃 {|( ) . ƞ𝑡 | > 𝛿]}
√𝑇
1 4
𝐸{( ).ƞ𝑡 }
√𝑇
≤ 𝑇. 𝛿4
𝐸(ƞ4𝑡 )
=. 𝑇𝛿 4
El teorema de mapeo continuo también se aplica a un 𝑔(∙) funcional continuo que mapea
una función limitada continua en [0,1] en otra función limitada en [0,1]. Por ejemplo, la función
cuyo valor en r es una constante positiva 𝜎 veces h(r) representa el resultado de aplicar el
funcionamiento continuo g[h(∙)] a h(∙)7. Así, se deduce de [17.3.6] que
𝐿
√𝑇 ∙ 𝑋𝑇 (∙) → 𝜎 ∙ 𝑊(∙) [17.3.8]
Recordando que 𝑤(𝑟)~𝑁(0, 𝑟), el resultado [17.3.8] implica que √𝑇 ∙ 𝑋𝑇 (𝑟) ≈ 𝑁(0, 𝜎 2 𝑟).
En otras palabras, si el valor Wr de una realización del movimiento browniano estándar en cada
fecha r es cuadrado y luego multiplicado por 𝜎 2 , el proceso de tiempo continuo resultante seguirá
esencialmente la misma ley de probabilidad que el proceso de tiempo continuo definido por
𝑆𝑇 (𝑟)en [17.3.9] para T suficientemente grande.
5 La continuidad de un 𝑔(∙) funcional en este contexto significa que para cualquier 𝜀 > 0 existe un 𝛿 > 0 tal que si ℎ(𝑟) y 𝑘(𝑟) son
funciones limitadas continuas en [0,1], ℎ: [0,1] → 𝑅1y 𝑘: [0,1] → 𝑅1 tales que 𝑘: [0,1] → 𝑅1 tal que |ℎ(𝑟) − 𝑘(𝑟)| < 𝛿 para todo 𝑟 ∈
[0,1], entonces
La ilustración más simple del enfoque de Phillip es proporcionada por un tramo aleatorio,
𝑦𝑡 = 𝑦𝑡+1 + 𝜇𝑡 [17.3.11]
donde {𝜇𝑡 } es una secuencia i.i.d con media cero y varianza 𝜎 2 . Si 𝑦0 = 0, entonces [17.3.11]
implica que
𝑦𝑡 = 𝜇1 + 𝜇2 + ⋯ + 𝜇𝑡 [17.3.12]
La ecuación [17.3.11] se puede utilizar para expresar la función estocástica 𝑋𝑇 (𝑟) definida en
[17.3.3] como
La figura 17.1 representa 𝑋𝑇 (𝑟) en función de r. Tenga en cuenta que el área bajo esta función de
paso es la suma de rectángulos T. El t-ésimo rectángulo tiene anchura 1/T y altura 𝑌𝑇−1 /𝑇, y por lo
tanto tiene área 𝑌𝑇−1 /𝑇 2. La integral de 𝑋𝑇 (𝑟) es equivalente a
8 Resultado [17.4.7] en la siguiente sección para el caso con errores i.i.d. se derivaron primero por White (1958). Phillips (1986, 1987)
desarrolló la derivación general presentada aquí basada en el teorema del límite central funcional y el teorema de la cartografía continua.
Otras contribuciones importantes son Dickey y Fuller (1979), Chan y Wei (1988), Park y Phillips (1988, 1989), Sims, Stocks y Watson
(1990). Y Phillips y Solo (1992).
Recordar de [16.1.24]
1
𝑇 −1/2 ∑𝑇 𝜇𝑡 𝐿 0 1
[ −3/2 𝑡−1 ] → 𝑁 ([ ] , 𝜎 2 1
[ 2
1])
𝑇 ∑𝑇𝑡−1 𝜇𝑡 0 2
3
[17.3.18]
Así, [17.3.17] implica que 𝑇 −3/2 ∑𝑇𝑡−1 𝑦𝑡−1 es asintóticamente gaussiana con media cero y varianza
igual a
𝜎2
𝜎 2 {1 − 2 ∙ (1/2) + 1/3} =
3
1
Evidentemente, 𝜎 ∫0 𝑊(𝑟)𝑑𝑟 en [17.3.16] describe una variable aleatoria que tiene una distribución
0𝜎 2
𝑁( 3
)
[17.3.19]
Con la última línea que sigue de [17.3.7] y [17.3.16]. Recordando [17.3.18], la variable aleatoria en el
𝜎2
lado derecho de [17.3.19] evidentemente tiene una distribución 𝑁(0, 3
).
Se tiene que
1 𝑦12 𝑦22 2
∫0 𝑆𝑇 (𝑟)𝑑𝑟 = 𝑇
+ 𝑇
+ ⋯ + 𝑦𝑇−1 /𝑇 2
Para 𝑟 = 𝑡/𝑇 y
𝑡 𝐿 1
𝑇 −3 ∑𝑇𝑡=1 𝑡𝑦 2 𝑡−1 = 𝑇 −2 ∑𝑇𝑡=1 (𝑇) 𝑦 2 → 𝜎 2 ∙ ∫0 𝑟 ∙ [𝑊(𝑟)]2 𝑑𝑟 [17.3.24]
𝑡−1
𝑃 𝐿
Pero (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡2 → 𝜎 2 , por la ley de grandes números, y 𝑆𝑇 (1) → 𝜎 2 [𝑊(1)]2 , por [17.3.10].
De aquí se desprende de [17.3.25] que
𝐿 1
𝑇 −1 ∑𝑇𝑡=1 𝑦 𝑡−1 𝑢𝑡 → (2) 𝜎 2 [𝑊(1)]2 − (1/2)𝜎 2 [17.3.26]
Recordemos que W (1), el valor del movimiento browniano estándar en la fecha r=1, tiene una
distribución N (0,1), lo que significa que [𝑊(1)]2 tiene una distribución 𝑥 2 (1). El resultado
[17.3.26] es, por tanto, sólo otra forma de expresar el resultado anterior [17.1.15] utilizando un
funcional sobre el movimiento browniano en lugar de la distribución 𝑥 2 .
𝜉𝑡 = 𝜉𝑡−1 + 𝑢𝑡
La preposición 17.1 puede utilizarse para calcular las distribuciones asintóticas de las
estadísticas a partir de un número de regresiones simples que implican raíces unitarias. En esta
sección se trataron varios casos clave.
𝑦𝑡 = 𝑝𝑦𝑡 + 𝑢𝑡 [17.4.1]
dónde 𝑢𝑡 es i.i.d. con media cero y varianza 𝜎 2 . Estamos interesados en las propiedades de la
estimación MCO.
∑𝑇
𝑡=1 𝑦𝑡−1 𝑦𝑡
𝑝̂ 𝑇 = ∑𝑇 2 [17.4.2]
𝑡=1 𝑦𝑡−1
𝑦𝑡 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢1 . [17.4.4]
Aparte del término inicial 𝑦0 (que no afecta a ninguna de las distribuciones asintóticas), la
variable 𝑦𝑡 es igual a la cantidad etiquetada 𝜉𝑡 en la Proposición 17.1. Del resultado (b) de esa
proposición,
𝐿
𝑇 −1 ∑𝑇𝑡=1 𝑦 𝑡−1 𝑢𝑡 → (1/2)𝜎 2 [𝑊(1)]2 − 1 [17.4.5]
Dado que [17.4.3] es una función continua de [17.4.5] y [17.4.6], se deduce de la Proposición 7.3 (c)
que bajo la hipótesis nula de que p=1, la estimación MCO 𝑝̂ 𝑇 se caracteriza por
1
𝐿 ( ){[𝑊(1)]2 −1}
2
𝑇(𝑝̂ 𝑇 − 1) → 1 [17.4.7]
∫0 [𝑊(1)]2 𝑑𝑟
Recuerde que [𝑊(1)]2 es una variable 𝑥 2 (1). La probabilidad de que una variable 𝑥 2 (1)
sea menor que la unidad es 0.68, y como el denominador de [17.4.7] debe ser positivo, la
probabilidad de que 𝑝̂ 𝑇 − 1 sea negativa se acerca a 0.68 cuando T se hace grande. En otras
palabras, en dos tercios de las muestras generadas por una caminata aleatoria, la estimación 𝑝̂ 𝑇 será
menor que el valor verdadero de la unidad. Además, en las muestras para las que [𝑊(1)]2 es
grande, el denominador de [17.4.7] también será grande. El resultado es que la distribución límite de
𝑇(𝑝̂ 𝑇 − 1) está sesgada a la izquierda.
Recuérdese que en el caso estacionario |𝑝| < 1, la estimación 𝑝̂ 𝑇 está inclinada hacia abajo
en muestras pequeñas. Aun así, en el caso estacionario la distribución limitante de √𝑇(𝑝̂ 𝑇 − 𝑝) es
simétrica alrededor de cero. Por el contrario, cuando el valor verdadero de 𝑝 es unidad, incluso la
distribución limitante de 𝑇(𝑝̂ 𝑇 − 1) es asimétrica, con valores negativos dos veces como valores
positivos.
Se deduce de [17.4.7] que 𝑝̂ 𝑇 es una estimación supersonsistent del verdadero valor (p=1).
Esto se ve fácilmente dividiendo [17.4.3] por √𝑇:
𝑇 −3/2 ∑𝑇𝑡=1 𝑦𝑡−1 𝑢𝑡
√𝑇(𝑝̂ 𝑇 − 1) = 𝑇 −2 ∑𝑇 2 [17.4.8]
𝑡=1 𝑦𝑡−1
De la Proposición 17.1 (b), el numerador en [17.4.8] converge a 𝑇 −1/2 (1/2)𝜎 2 veces (X-1), donde
X es una variable aleatoria 𝑥 2 (1). Dado que una variable 𝑥 2 (1) tiene una varianza finita, la
varianza del numerador en [17.4.8] es de orden 1/T, lo que significa que el numerador converge en
probabilidad a cero. Por lo tanto,
𝑝
√𝑇(𝑝̂ 𝑇 − 1) → 0
El resultado [17.4.7] permite que la estimación puntual 𝑝̂ 𝑇 sea utilizada por sí misma para
probar la hipótesis nula de una raíz unitaria, sin necesidad de calcular su error estándar. Otra
estadística popular para probar la hipótesis nula de que p=1 se basa en la prueba de MCO t usual de
esta hipótesis,
(𝑝̂𝑇 −1) (𝑝̂𝑇 −1)
𝑡= ̂𝑝𝑡
𝜎
= 1/2 [17.4.9]
{𝑆𝑇2 ÷∑𝑇 2
𝑡=1 𝑦𝑡−1 }
Donde 𝜎̂𝑝𝑡 es el error estándar del MCO habitual para el coeficiente estimado,
o, sustituyendo de [17.4.3],
𝑇 −1 ∑𝑇
𝑡=1 𝑦𝑡−1 𝑢𝑡
𝑡𝑇 = 𝑇 2 }1/2 {𝑆 2 }1/2
[17.4.11]
−2
{𝑇 ∑𝑡=1 𝑦𝑡−1 𝑇
𝑝
Como en la sección 8.2, consistentemente de 𝑝̂ 𝑇 implica 𝑆𝑇2 → 𝜎 2 . Se deduce de [17.4.5] y [17.4.6]
que como 𝑇 → ∞,
Ejemplo 17.3
El siguiente proceso AR (1) para la tasa nominal de tres meses del Tesoro estadounidense
fue ajustado por la regresión de la MCO a los datos trimestrales, 𝑡 = 1947: 𝐼𝐼 a 𝑡 =
1998: 𝐼:
0.99694 𝑖𝑡−1
𝑖= [17.4.13]
(0.010592)
168(0.95 − 1) = −8.4
La prueba t MCO de 𝐻0 : 𝑝 = 1 es
Las pruebas estadísticas [17.4.17] y [17.4.12] son ejemplos de la prueba Dickey-Fuller para
las raíces unitarias, llamada así por la batería generada de pruebas propuesta por Dickey y
Fuller (1979).
𝑦𝑡 = 𝑦𝑡−1 + 𝑢𝑡
Con 𝑢𝑡 i.i.d. Con media cero y varianza 𝜎 2 . Aunque el modelo verdadero es el mismo que en el
caso 1, supongamos ahora que un término constante está incluido en la especificación AR (1) que
debe ser estimada por el MCO:
𝑦𝑡 = 𝛼 + 𝑝𝑦𝑡−1 + 𝑢𝑡 [17.4.14]
𝛼̂ 𝑇 ∑ 𝑦𝑡−1 −1 ∑ 𝑦𝑡
[ 𝑇] = [ 2 ] [ ] [17.4.15]
𝑝̂ 𝑇 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 𝑦𝑡
Bajo la hipótesis nula de que 𝛼 = 0 y p=1 (aquí ∑ indica sumación sobre 𝑡 = 1, 2, … , 𝑇) Recuerde
la caracterización conocida en [8.2.3] de la desviación de un coeficiente de coeficiente MCO (𝑏𝑇 )
estimado del valor verdadero (𝛽 ),
o, en este caso,
̂𝑡
𝛼 𝑇 ∑ 𝑦𝑡−1 −1 ∑ 𝑢𝑡
[ ]=[ 2 ] [ ] [17.4.17]
𝑝̂ 𝑇 − 1 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 𝑢𝑡
En otras palabras,
∑ 𝑦𝑡−1 = 𝑂𝑝 (𝑇 −3/2 )
∑ 𝑦𝑡−1 𝑢𝑡 = 𝑂𝑝 (𝑇 )
2
∑ 𝑦𝑡−1 = 𝑂𝑝 (𝑇 2 )
y de la proposición 17.1(a),
∑ 𝑢𝑡 = 𝑂𝑝 (𝑇 1/2 )
Está claro que a partir de [17.4.19] las estimaciones 𝛼̂𝑡 y 𝑝̂𝑡 tienen diferentes tasas de
convergencia, y como en el capítulo anterior, una matriz de escala 𝑦𝑇 es útil para describir su
distribución limitante. Recordemos de [16.1.18] que esta reescalonamiento se logra multiplicando
[17.4.16] por 𝑦𝑇 y escribiendo el resultado como
De [17.4.19], para esta aplicación 𝑦𝑇 debería especificarse para estar en la siguiente matriz:
1/2
𝑦𝑇 ≡ [𝑇 0] [17.4.21]
0 𝑇
𝑥 {{[𝑇
−1/2
0 ] [ ∑ 𝑢𝑡 ]}
0 𝑇 −1 ∑ 𝑦𝑡−1 𝑢𝑡
o
−1
𝑇 1/2 𝛼̂ 𝑇 1 𝑇 −3/2 ∑ 𝑦𝑡−1 𝑇 −1/2 ∑ 𝑢𝑡
[ ] = [ −3/2 ] [ −1 ]. [17.4.22]
𝑇(𝜌̂𝑇 − 1) 𝑇 ∑ 𝑦𝑡−1 2
𝑇 −2 ∑ 𝑦𝑡−1 𝑇 ∑ 𝑦𝑡−1 𝑢𝑡
𝐿 1 𝜎. ∫ 𝑤(𝑟)𝑑𝑟 1 0 1 ∫ 𝑤(𝑟)𝑑𝑟 1 0
→[ ]=[ ][ ][ ]
𝜎. ∫ 𝑤(𝑟)𝑑𝑟 𝜎 . ∫[𝑤(𝑟)]2 𝑑𝑟
2 0 𝜎 ∫ 𝑤(𝑟)𝑑𝑟 ∫[𝑤(𝑟)]2 𝑑𝑟 0 𝜎
[17.4.23]
Donde el signo integral denota la integración sobre r de 0 a 1. Del mismo modo, el resultado (a) de
la Proposición 17.1 junto con [17.4.5] determina la distribución asintótica del segundo término en
[17.4.22]
𝑇 −1/2 ∑ 𝑢𝑡 𝐿 𝜎 ∙ 𝑊(1)
[ −1 ]→[ ]
𝑇 ∑ 𝑦𝑡−1 𝑢𝑡 1/2𝜎 {[𝑊(1)]2 − 1}
2
1 0 𝑊(1)
=[ ][ ]. [17.4.24]
0 𝜎 1/2{[𝑊(1)]2 − 1}
Sustituyendo [17.4.23] y [17.4.24] in [17.4.22] establece
1 −1
𝐿 1 0 −1 1 ∫ 𝑊(𝑟)𝑑𝑟
[ 𝑇 𝛼̂ 𝑇 ] → 𝜎. [
2
] [ ]
𝑇(𝜌̂𝑇 − 1) 0 𝜎 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟
1 0 −1 1 0 𝑊(1)
𝑥 [ ] [ ][ ]
0 𝜎 0 𝜎 (1⁄2){[𝑊(1)]2 − 1}
−1
𝜎 0 1 ∫ 𝑊(𝑟)𝑑𝑟 0 𝑊(1)
=[ ][ ] 𝑥 [ ]
0 1 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 (1 2){[𝑊(1)]2 − 1}
⁄
[17.4.25]
Nótese que
−1
1 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 − ∫ 𝑊(𝑟)𝑑𝑟
−1
[ ] =∆ [ ],
2
∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)] 𝑑𝑟 − ∫ 𝑊(𝑟)𝑑𝑟 1
[17.4.26]
Ninguna de las estimaciones 𝛼̂ 𝑇 ni 𝑝̂ 𝑇 tiene una distribución gaussiana limitante. Por otra
parte, la distribución asintótica de la estimación de p en [17.4.28] no es lo mismo que la distribución
asintótica en [17.4.7] - cuando un término constante se incluye en la distribución, una tabla
diferente de valores críticos debe ser utilizada.
Obsérvese que esta distribución es aún más fuertemente sesgada que la del caso 1, de modo que
cuando se incluye un término constante en la regresión, el coeficiente estimado en 𝑦𝑡−1 debe estar
más alejado de la unidad para rechazar la hipótesis nula de una raíz unitaria. De hecho, para 𝑇 >
25, el 95% del tiempo el valor estimado 𝑝̂ 𝑇 será menor que la unidad. Por ejemplo, si el valor
estimado 𝑝̂ 𝑇 es 0.999 ins una muestra de tamaño T = 100, la hipótesis nula de P=1 sería rechazada
en el sentido de la alternativa que 𝑝 > 1!, Si el verdadero valor de p es unidad, no esperamos
obtener una Estimación tan grande como 0.999.
Dickey y Fuller también propusieron una prueba alternativa basada en la prueba t de MCO
de la hipótesis nula de que p=1:
𝑝̂𝑇 −1
𝑡𝑇 = ̂𝑝
[17.4.29]
𝜎 ̂
𝑇
dónde
𝑇 ∑ 𝑦𝑡−1 −1 0
̂𝜎𝑝2̂𝑟 = 𝑆𝑇2 [0 1] [ 2 ] [ ]
∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 1
Observe que si ambos lados de [17.4.30] se multiplican por 𝑇 2 , el resultado se puede escribir como
𝑇 ∑ 𝑦𝑡−1 −1 0
𝑇 2 𝜎̂𝑝2̂𝑟 = 𝑆𝑇2 [0 𝑇] [ 2 ] [ ]
∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 1
𝑇 ∑ 𝑦𝑡−1 −1 0
= 𝑆𝑇2 [0 𝑇]𝑌𝑡 [ 2 ] 𝑌𝑡 [ ] [17.4.31]
∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 1
𝑇 ∑ 𝑦𝑡 − 1 −1
𝑌𝑇 [ ] 𝑇𝑇
∑ 𝑡 − 1 ∑ 𝑦2 − 1
𝑇 ∑ 𝑦𝑡 − 1 −1 −1
= {𝑌𝑇−1 [ ]𝑌 }
∑𝑡 −1 ∑ 𝑦2 − 1 𝑇
𝑇(𝜌̂𝑇 −1) 𝜌
𝑡𝑇 = 1⁄2 → 𝑇(𝜌̂𝑇 − 1)×{∫[𝑊(𝑟)]2 𝑑𝑟 − [∫ 𝑊(𝑟)𝑑𝑟]2 }1⁄2
̂𝜌2̂ }
{𝑇 2 𝜎
𝑇
1
𝐿 {[𝑊(1)]2 −1}−𝑊(1).∫ 𝑊(𝑟)𝑑𝑟
→ 2
{∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 }1⁄2
[17.4.36]
Los percentiles de muestra para la prueba t de OLS de P=1 se informan para el caso 2 en la
segunda sección de la Tabla B.6. A medida que T crece, estos se aproximan a la distribución en la
última línea de [17.4.36].
Ejemplo 17.4
Con los errores estándar informados entre paréntesis. La prueba Dickey-Fuller basada en el
valor estimado de 𝜌 para esta especificación es
el cual de la tabla B.6 debe compararse con -2.89. Desde −1.73 > −2.89, la hipótesis nula
de una raíz unitaria es de nuevo aceptada.
Estas estadísticas prueban la hipótesis nula de que p=1. Sin embargo, una hipótesis
mantenida en la que se basa la derivación de [17.4.25] es que el valor verdadero de 𝛼 es cero. Por lo
tanto, podría parecer más natural para probar una raíz unitaria en esta especificación mediante la
prueba de la hipótesis conjunta que 𝛼 = 0 y 𝑝 = 1. Dickey y Fuller utilizaron Monte Carlo para
calcular la distribución de la forma Wald del test MCO F de esta hipótesis (expresión [8.1.23] o
[8.1.37]). Sus valores se indican en el epígrafe "Caso 2" de la Tabla B.7.
Ejemplo 17.5
𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡 [17.4.38]
dónde el valor verdadero de 𝛼 no es cero. Aunque esto puede parecer un cambio de espejo, tiene
un efecto radical sobre la distribución asintótica de 𝛼̂ y 𝑝̂ . Para ver por qué, tenga en cuenta que
[17.4.38] implica que
𝑦𝑡 = 𝑦0 + 𝛼𝑡 + (𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 ) = 𝑦0 + 𝛼𝑡 + 𝜉𝑡 [17.4.39]
dónde
𝜉𝑡 ≡ 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … , 𝑇
con 𝜉𝑡 ≡ 0.
El primer término en [17.4.40] es sólo 𝑇𝑦0 y si éste es dividido por T, el resultado será un valor fijo.
El segundo término, ∑ 𝛼(𝑡 − 1), debe ser dividido por 𝑇 2 para converger:
en virtud de la proposición 17.1 (h). El tercer término converge cuando se divide por 𝑇 3/2:
𝐿 1
𝑇 −3/2 ∑𝑇𝑡=1 𝜉(𝑡 − 1) → 𝜎 ∙ ∫0 𝑊(𝑟)𝑑𝑟
de la Proposición 17.1 (d). El orden en probabilidad de los tres términos individuales en [17.4.40] es
así
𝑂𝑝 (𝑇) 𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 3⁄2 )
∑𝑇𝑡=1 𝑦𝑡−1
2
= ∑𝑇𝑡=1[𝑦0 + 𝛼(𝑡 − 1) + 𝜀𝑡−1 ]2
𝑂𝑝 (𝑇) 𝑂𝑝 (𝑇 3 ) 𝑂𝑝 (𝑇 2 )
𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 3⁄2 ) 𝑂𝑝 (𝑇 5⁄2 )
cuando se divide por 𝑇 3 , el único término que no desaparece asintóticamente es que debido a la
tendencia temporal 𝛼 2 (𝑡 − 1)2
𝑝
𝑇 −3 ∑𝑇𝑡=1 𝑦2𝑡−1 → 𝛼 2 /3 [17.4.42]
de dónde
𝑝
𝑇 −3/2 ∑𝑇𝑡=1 𝑦𝑡−1 𝑢𝑡 →𝑇 −3/2 ∑𝑇𝑡=1 𝛼(𝑡 − 1)𝑢𝑡 [17.4.43]
Los resultados [17.4.41] a [17.4.43] implican que cuando el verdadero proceso es una
caminata aleatoria con deriva, los coeficientes MCO estimados en [17.4.15] satisfacen
−1
𝛼̂ − 𝛼 𝑂𝑝 (𝑇) 𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 1/2 )
[ 𝑇 ]=[ ] [ ]
𝑝̂ 𝑇 − 1 𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 3 ) 𝑂𝑝 (𝑇 3/2 )
Así, para este caso, la matriz de escala de Sims, Stock y Watson sería
[𝑇
1/2
0 ] [𝛼̂ 𝑇 − 𝛼 ]
0 𝑇3/2 𝑝̂ 𝑇 − 1
−1
−1/2
0 ][ 𝑇 ∑ 𝑦𝑡−1 𝑇 −1/2
= {[𝑇 −3/2 ∑ 𝑦 2 ][
0 ]}
0 𝑇 𝑡−1 ∑ 𝑦𝑡−1 0 𝑇 −3/2
𝑥 {[𝑇
−1/2
0 ] [ ∑ 𝑢𝑡 ]}
0 𝑇 −3/2 ∑ 𝑦𝑡−1 𝑢𝑡
o
−1
𝑇 1/2 (𝛼̂ − 𝛼) 𝑇 𝑇 −2 ∑ 𝑦𝑡−1 𝑇 −1/2 ∑ 𝑢𝑡
[ 3/2 𝑇 ] = [ −2 2 ] [ −1/2 ]
𝑇 (𝑝̂ 𝑇 − 1) 𝑇 ∑ 𝑦𝑡−1 𝑇 −3 ∑ 𝑦𝑡−1 𝑇 ∑ 𝑦𝑡−1 𝑢𝑡
[17.4.44]
1 𝑇 −2 ∑ 𝑦𝑡−1 𝑝 1 𝛼/2
[ −2 2 ] → [𝛼/2 ]≡ 𝑄 [17.4.45]
𝑇 ∑ 𝑦𝑡−1 𝑇 −3 ∑ 𝑦𝑡−1 𝛼 2 /2
𝑇 −1⁄2 ∑ 𝑢𝑡 𝜌 𝑇 −1⁄2 ∑ 𝑢𝑡
[ −3⁄2 ] → [ −3⁄2 ]
𝑇 ∑ 𝑦𝑡−1 𝑢𝑡 𝑇 ∑ 𝛼(𝑡 − 1)𝑢𝑡
𝐿 0 1 𝛼 ⁄2
→ 𝑁 ([ ] , 𝜎 2 [ ])
0 𝛼 ⁄2 𝛼 2 ⁄3
= 𝑁(0, 𝜎 2 𝑄) [17.4.46]
𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡
Dónde 𝑢𝑡 es i.i.d. Con media cero y varianza 𝜎 2 . Para este caso, el verdadero valor de 𝛼 resulta no
importar para la distribución asintótica. En contraste con el caso anterior, ahora asumimos que una
tendencia temporal se incluye en la regresión que es realmente estimada por el MCO:
𝑦𝑡 = 𝛼 + 𝑝𝑦𝑡−1 + 𝛿𝑡 + 𝑢𝑡 [17.4.48]
Si 𝛼 ≠ 0, 𝑦𝑡−1 sería asintóticamente equivalente a una tendencia temporal. Dado que una tendencia
temporal ya está incluida como una variable separada en la regresión, esto haría que las variables
explicativas collinear en grandes muestras. Describir la distribución asintótica de las estimaciones
requiere, por tanto, no sólo una re escalada de las variables, sino también una rotación del tipo de la
introducida en la Sección 16.3.
Obsérvese que el modelo de regresión de [17.4.48] puede ser escrito de manera equivalente como
≡ 𝛼 ∗ + 𝑝∗ 𝜉𝑡−1 + 𝛿 ∗ + 𝑢𝑡 [17.4.49]
𝜉𝑡 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡
𝛼̂ 𝑇∗ 𝑇 ∑ 𝜀𝑡−1 ∑ 𝑡 −1 ∑ 𝑦𝑡
∗
[ 𝜌̂𝑇 ] = [∑ 𝜀𝑡−1 2
∑ 𝜀𝑡−1 ∑ 𝜀𝑡−1 𝑡] [∑ 𝜀𝑡−1 − 𝑦𝑡 ]. [17.4.50]
∗
⏞
𝛿𝑇 ∑𝑡 ∑ 𝑡𝜀𝑡−1 ∑ 𝑡2 ∑ 𝑡𝑦𝑡
𝛼̂ 𝑇∗ 𝑇 ∑ 𝜀𝑡−1 ∑ 𝑡 −1 ∑ 𝑢𝑡
∗
𝜌̂
[ 𝑇−1 ] = [∑ 𝜀𝑡−1 2
∑ 𝜀𝑡−1 ∑ 𝜀𝑡−1 𝑡] [∑ 𝜀𝑡−1 − 𝑢𝑡 ] [17.4.51]
∗
⏞
𝛿 𝑇 − 𝛼0 ∑𝑡 ∑ 𝑡𝜀𝑡−1 ∑ 𝑡2 ∑ 𝑡𝑢𝑡
𝑇 1/2 0 0
𝑇=[ 0 𝑇 0 ],
0 0 𝑇 3/2
y [17.4.20] serían
𝑇 1⁄2 0 0 𝛼̂ 𝑇∗
∗
[ 0 𝑇 0 ] [ 𝜌̂𝑇 − 1 ]
0 0 𝑇 3⁄2 𝛿̂𝑇∗ − 𝛼0
𝑇 −1⁄2 0 0 ∑ 𝑢𝑡
× {[ 0 𝑇 −1 0 ] [∑ 𝜀𝑡−1 𝑢𝑡 ]}
0 0 𝑇 −3⁄2 ∑ 𝑡2
o
−1
𝑇 1⁄2 𝛼̂ 𝑇∗ 1 𝑇 3⁄2 ∑ 𝜀𝑡−1 𝑇 −2 ∑ 𝑡
[ 𝑇(𝜌̂𝑇∗ − 1) ] = [𝑇 −3⁄2 ∑ 𝜀𝑡−1 2
𝑇 −2 ∑ 𝜀𝑡−1 𝑇 −5⁄2 ∑ 𝜀𝑡−1 𝑡] ×
𝑇 3⁄2 (𝛿̂𝑇∗ − 𝛼0 ) 𝑇 −2 ∑ 𝑡 ⁄
𝑇 −5 2 ∑ 𝑡𝜀𝑡−1 𝑇 −3 ∑ 𝑡 2
−1⁄2 ∑
𝑇 𝑢𝑡
−1
[𝑇 ∑ 𝜀𝑡−1 𝑢𝑡 ]
𝑇 −3⁄2 ∑ 𝑡𝑢𝑡
[17.4.52]
𝑇 1⁄2 𝛼̂ 𝑇∗
[ 𝑇(𝜌̂𝑇∗ ) ]
𝑇 3⁄2 (𝛿̂𝑇∗ − 𝛼0 )
1 −1
1 𝜎 ∫ 𝑊(𝑟)𝑑𝑟 𝜎𝑊(1)
𝐿 2
1 2
→ 𝜎 ∫ 𝑊(𝑟)𝑑𝑟 2
𝜎 ∫ 𝑊(𝑟) 𝑑𝑟 2
𝜎 ∫ 𝑟𝑊(𝑟)𝑑𝑟 ×[ 2
𝜎 {[𝑊(1)]2 − 1} ]
1
[ 1 𝜎 ∫ 𝑟𝑊(𝑟)𝑑𝑟 ] 𝜎{𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟}
3
1 −1
−1 1 ∫ 𝑊(𝑟)𝑑𝑟
1 0 0 2
= 𝜎 [0 𝜎 0] ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑟𝑊(𝑟)𝑑𝑟 ×
0 0 1 1
∫ 𝑟𝑊(𝑟)𝑑𝑟
1
[ 2 3 ]
𝑊(1)
1 0 0 −1 1 0 0 1 2
[0 𝜎 0] [0 𝜎 0] [ 2 {[𝑊(1)] − 1} ]
0 0 1 0 0 1 𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟
1 −1
1 ∫ 𝑊(𝑟)𝑑𝑟 𝑊(1)
𝜎 0 0 2
1
= [0 1 0 ] ∫ 𝑊(𝑟)𝑑𝑟 ∫ [𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑟𝑊(𝑟)𝑑𝑟 ×[ {[𝑊(1)]2 − 1} ]
2
0 0 𝜎 1
∫ 𝑟𝑊(𝑟)𝑑𝑟
1
𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟
[ 2 3 ]
[17.4.53]
𝑇 ∑ 𝜀𝑡−1 ∑ 𝑡 −1 0
𝑇 2 . 𝜎̂𝜌̂2−1 = 𝑇 2 . 𝑠𝑇2 [0 1 0] [∑ 𝜀𝑡−1 2
∑ 𝜀𝑡−1 ∑ 𝜀𝑡−1 𝑡] [1]
∑𝑡 ∑ 𝑡 𝜀𝑡−1 ∑ 𝑡2 0
𝑇 1⁄2 0 0
= 𝑠𝑇2 [0
1 0] [ 0 𝑇 0 ]×
3⁄2
0 0 𝑇
𝑇 ∑ 𝜀𝑡−1 ∑ 𝑡 −1 𝑇 1⁄2 0 0 0
∑ ∑ 2 ∑
[ 𝜀𝑡−1 𝜀𝑡−1 𝜀𝑡−1 𝑡] [ 0 𝑇 0 ] [1]
∑𝑡 ∑ 𝑡 𝜀𝑡−1 ∑ 𝑡2 0 0 𝑇 3⁄2 0
𝑇 1⁄2 0 0
= 𝑠𝑇2 [0 1 0] [ 0 𝑇 0 ]×
3⁄2
0 0 𝑇
−1
1 𝑇 −3⁄2 ∑ 𝜀𝑡−1 𝑇 −2 ∑ 𝑡 0
−3⁄2
[𝑇 ∑ 𝜀𝑡−1 2
𝑇 −2 ∑ 𝜀𝑡−1 𝑇 −5⁄2 ∑ 𝜀𝑡−1 𝑡] [1]
𝑇 −2 ∑ 𝑡 𝑇 −5⁄2 ∑ 𝑡 𝜀𝑡−1 𝑇 −3 ∑ 𝑡 2 0
𝐿 1 0 0 −1 1 0 0 −1 0
2[ ]
→ 𝜎 0 [
1 0 0 𝜎 0] × [ 0 𝜎 0] [ 1]
0 0 1 0 0 1 0
1 −1
1 ∫ 𝑊(𝑟)𝑑𝑟 2 0
= [0 1 0] ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑟𝑊(𝑟)𝑑𝑟 [ 1]
1
∫ 𝑟𝑊8𝑟)𝑑𝑟
1 0
[ 2 3 ]
=𝑄 [17.4.54]
De este resultado se deduce que la distribución asintótica del test t de MCO de la hipótesis
de que P=1 está dada por
𝑝
𝑡𝑇 = 𝑇(𝑝̂ 𝑇 − 1) ÷ (𝑇 ∙ 𝜎̂𝛽𝑇 )1/2 → 𝑇(𝑝̂ 𝑇 − 1) ÷ √𝑄 [17.4.55]
Una vez más, esta distribución no depende de 𝜎 o 𝛼. La distribución de muestras pequeñas de las
estadísticas de MCO i bajo el supuesto de perturbaciones gaussianas se presenta en el caso 4 del
cuadro B.6. Si esta distribución fuera verdaderamente t, cuando un valor por debajo de -2,0 sería
suficiente para rechazar la hipótesis nula. Sin embargo, la Tabla B.6 revela que. Debido a la
distribución no estándar, el estadístico t debe estar por debajo de -3.4 antes de que la hipótesis nula
de una raíz unitaria pudiera ser rechazada.
La suposición de que el valor verdadero 𝛿 es igual a cero es de nuevo una hipótesis auxiliar
sobre la cual dependen las propiedades asintóticas de la prueba. Por lo tanto, como en el caso 2, es
natural considerar la prueba MCO F de la hipótesis nula conjunta que 𝛿 = 0 y P=1. Aunque esta
prueba F se calcula de la manera habitual, su distribución asintótica no es estándar, y la estadística F
calculada debe compararse con el valor del caso 4 en la Tabla B.7.
¿Cuál es el caso "correcto" para usar para probar la hipótesis nula de una raíz unitaria? La
respuesta depende de por qué nos interesa probar una raíz unitaria. Si el analista tiene una hipótesis
nula específica sobre el proceso que generó los datos, obviamente esto guiaría la elección de la
prueba. En ausencia de tal orientación, un principio general sería ajustar una especificación que sea
una descripción plausible de los datos bajo la hipótesis nula y la alternativa. Este principio sugeriría
usar el caso 4 para una serie con una tendencia obvia y la prueba de caso 2 para series sin una
tendencia significativa.
Por ejemplo, la Figura 17.2 representa la serie de tasas de interés nominal utilizada en los
ejemplos de esta sección. Aunque esta serie ha tendido hacia arriba durante este período de la
muestra, no hay nada en la teoría económica para sugerir que las tasas de interés nominales deben
exhibir una tendencia del tiempo determinista. En términos de enmarcación de una alternativa
plausible, es difícil mantener que estos datos podrían haber sido generados por 𝑖𝑡 = 𝑝𝑖𝑡 + 𝑢𝑡 con
|𝑝| significativamente menor que 1. Si estos datos fueran descritos por un proceso estacionario,
seguramente el proceso tendría una media positiva. Esto argumenta para incluir un término
constante en la regresión estimada, aunque bajo la hipótesis nula el proceso verdadero no contiene
un término constante. Por lo tanto, el caso 2 es un acercamiento inalterable para estos datos, tal
como se analiza en los ejemplos 17.4 y 17.5.
Como segundo ejemplo, la Figura 17.3 muestra el PNB real trimestral de los Estados
Unidos desde 1947: I a 1989: I. Dada la creciente población y las mejoras tecnológicas, se esperaría
que una serie de este tipo exhibiera una tendencia ascendente persistente, y esta tendencia era
inconfundible en la figura. La pregunta es si esta tendencia surge de la tendencia positiva de la
deriva de una caminata aleatoria:
𝐻0 : 𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡 𝛼 > 0,
El modelo siguiente para 100 veces el logaritmo del PNB real (denotado 𝑦𝑡 ) fue estimado
por regresión MCO:
Desde −6.3 > −21.00, la hipótesis nula de que el PNB se caracteriza por una caminata aleatoria
con posible desviación se acepta al nivel del 5%. La prueba Dickey-Fuller t,
0.96252−1.0
𝑡= 0.019304
= −1.94,
excede el valor crítico del 5% de -3,44, de modo que la hipótesis nula de una raíz unitaria es
aceptada también por esta prueba. Finalmente, la prueba F de la hipótesis nula conjunta de que 𝛿 =
0 y p=1 es 2.4. Puesto que esto es menor que el valor crítico del 5% de 6,42 de la Tabla B.7, esta
hipótesis nula se acepta nuevamente.
Caso 1:
Caso 2:
Caso 3:
Caso 4:
La prueba F del MCO de hipótesis conjunta que p=1 y 𝛿 = 0 tiene la distribución descrita
en el caso 4 en la Tabla B.7.
La regresión estimada indica el valor desde el que se estima la regresión, utilizando las observaciones
𝑡 = 1, 2, … 𝑇 T y el condicionamiento en la observación 𝑡 = 0
El proceso verdadero describe la hipótesis nula bajo la cual se calcula la distribución.
𝑝̂ 𝑇 es la estimación MCO de p a partir de la regresión indicada basada en un tamaño de muestra T.
(𝑝̂ 𝑇 − 1)/𝜎̂𝑝̂𝑇 es la prueba MCO t de p=1.
MCO F prueba de una hipótesis que implica dos restricciones está dando por la expresión [17.3.39].
Si 𝑢𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎 2 ), entonces las Tablas B.5 a B.7 proporcionan estimaciones de Monte Carlo de
la distribución exacta de la muestra. Las tablas también son válidas para T grande cuando 𝑢𝑡 es i.i.d no
Gaussiano. Así como para ciertos procesos heterogéneamente distribuidos en serie sin correlación. Para 𝑢𝑡
correlacionado en serie. Ver Tabla 17.2 o 17.3.
FIGURA 17.3 PNB real estadounidense, datos muestreados trimestralmente, pero cotizados a una
tasa anual en miles de millones de dólares de 1982, 1947: I a 1989: I.
De las pruebas discutidas hasta el momento, las desarrolladas para el caso 2 parecen
apropiadas para los datos de tasas de interés y las pruebas desarrolladas para el caso 4 parecen
mejores para los datos PNB. Sin embargo, las pruebas más generales se presentan en las Secciones
16.7 y 16.7 son preferibles para describir cualquiera de estas series. Esto se debe a que la asunción
mantenida a través de esta acción ha sido que el término de perturbación 𝑢𝑡 , en la regresión es i.i.d.
No hay una razón fuerte para esperar esto para cualquiera de estas series de tiempo. La siguiente
sección desarrolla resultados que pueden usarse para probar raíces unitarias en procesos
correlacionados en serie.
dónde
𝐸(𝜀𝑡 ) = 0
2 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
𝐸(𝜀𝑗 𝜀𝑡 ) = {𝜎
0 𝑑𝑒 𝑜𝑡𝑟𝑜 𝑚𝑜𝑑𝑜
∑𝑥𝑗=0 𝑗 ∙ |𝜓| < ∞ [17.5.2]
Entonces
dónde 𝜓(1) ≡ ∑𝑥𝑗=0 𝜓, 𝜂𝑡 = ∑𝑥𝑗=0 𝛼𝑗 𝜀𝑡−𝑗 , 𝛼𝑗 = −(𝜓𝑗+1 + 𝜓𝑗+2 + 𝜓𝑗+3 + ⋯ ), y ∑𝑥𝑗=0|𝛼𝑗 | <
∞.
La condición en [17.5.2] es ligeramente más fuerte que la sumatoria absoluta, aunque está
satisfecha con cualquier proceso ARMA estacionario.
Observe que si 𝑦𝑡 es un proceso I(1) cuya primera diferencia viene dada por 𝑢𝑡 , o
∆𝑦𝑡 = 𝑢𝑡
entonces
Como ejemplo de cómo se puede utilizar este resultado, supongamos que 𝑋𝑇 (𝑟) se define
como en [17.3.2]
1 |𝑇𝑟|∗
𝑋𝑇 (𝑟) ≡ (2) ∑𝑡=1 𝑢𝑡 , [17.5.4]
dónde 𝑢𝑡 satisface las condiciones de la Proposición 17.2 con i.i.d. Y 𝐸(𝜀𝑡4 ) < ∞.
17.5 Resultados asintóticos para procesos de raíz unitaria con correlación serial general 525
Entonces, el proceso de tiempo continuo √𝑇 ∙ 𝑋𝑇 (𝑟) converge a 𝜎 ∙ 𝜓(1) veces el movimiento
estándar browniano:
𝐿
√𝑇 ∙ 𝑋𝑇 (∙) → 𝜎 ∙ 𝜓(1) ∙ 𝑊(∙). [17.5.5]
|𝑇𝑟|∗ 𝐿
(1/√𝑇) ∑𝑡=1 𝜀𝑡 → 𝜎 ∙ 𝑊(𝑟). [17.5.8]
La siguiente proposición utiliza esta idea básica para generalizar los otros resultados de la
Proposición 17.1; Para obtener detalles sobre las pruebas, consulte el Apéndice 17.A.
Proposición 17. 3: Dado 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 = ∑𝑇𝑗=0 𝜓𝑗 𝜀𝑡−𝑗 , donde ∑𝑇𝑗=0 𝑗 ∙ |𝜓𝑗 | < ∞ y {𝜀𝑡 } es una
secuencia i.i.d. con media cero, varianza 𝜎 2 , y finito cuarto momento. Definir
𝛾𝑗 ≡ 𝐸(𝑢𝑡 𝑢𝑡−𝑗 ) = 𝜎 2 ∑∞
𝑠=0 𝜓𝑠 𝜓𝑠+𝑗 𝑝𝑎𝑟𝑎 𝑗 = 0,1,2, …
[17.5.10]
𝜆 ≡ 𝜎 ∑∞
𝑗=0 𝜓𝑗 = 𝜎. 𝝍(𝟏)
𝜀𝑡 ≡ 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … , 𝑇 [17.5.11]
con 𝜉0 = 0. Entonces
𝐿
(𝑎) 𝑇 −1⁄2 ∑𝑇𝑡=1 𝑢𝑡 → 𝜆. 𝑊(1)
𝐿
(𝑏) 𝑇 −1⁄2 ∑𝑇𝑇=1 𝑢𝑡−1 𝜀𝑡 → 𝑁(0, 𝜎 2 𝛾0 ) 𝑝𝑎𝑟𝑎 𝑗 = 01,2, …,
𝜌
(𝑐) 𝑇 −1 ∑𝑇𝑡=1 𝑢𝑡 𝑢𝑡−1 → 𝛾𝑗 𝑝𝑎𝑟𝑎 𝑗01,2, …,
𝐿
→ (1⁄2){𝜆2 . [𝑊(1)]2 − 𝛾0 } 𝑝𝑎𝑟𝑎 𝑗 = 0,1,2, …
(1⁄2){𝜆2 . [𝑊(1)]2 − 𝛾0 } + 𝛾0 + 𝛾1 + 𝛾2 + ⋯ + 𝛾𝑗−1 𝑝𝑎𝑟𝑎 𝑗 = 1,2, …
3 𝐿 1
(𝑓) 𝑇 −2 ∑𝑇𝑡=1 𝜀𝑡−1 → 𝜆. ∫0 𝑊(𝑟)𝑑𝑟
3 𝐿 1
(𝑔) 𝑇 −2 ∑𝑇𝑡=1 𝑡𝑢𝑡−1 → 𝜆. {𝑊81) − ∫0 𝑊(𝑟)𝑑𝑟} 𝑝𝑎𝑟𝑎 𝑗 = 0,1,2, …
𝐿 1
(ℎ) 𝑇 −2 ∑𝑇𝑡01 𝜀 2𝑡−1 → 𝜆2 . ∫0 [𝑊(𝑟)]2 𝑑𝑟
5 𝐿 1
(𝑖) 𝑇 −2 ∑𝑇𝑇=1 𝑡𝜀𝑡−1 → 𝜆. ∫0 𝑟𝑊(𝑟)𝑑𝑟
𝐿 1
(𝑗) 𝑇 −3 ∑𝑇𝑇=1 𝑡𝜀 2𝑡−1 → 𝜆2 . ∫0 𝑟. [𝑊(𝑟)]2 𝑑𝑟
Una vez más, hay maneras más simples de describir resultados individuales; Por ejemplo, (a) es
una distribución N (0, 𝜆2 ), (d) es (1/2)𝜎𝜆 ∙ [𝑥2 (1) − 1], y (f) y (g) son distribuciones N(0, 𝜆2 /3).
Estos resultados se pueden utilizar para construir pruebas de raíz unitaria para observaciones
correlacionadas en serie de dos maneras. Un enfoque, Phillips (1987) y Phillips y Perron (1988),
consiste en seguir estimando las regresiones exactamente en la forma indicada en la Tabla 17.1, pero
para ajustar las estadísticas de los ensayos para tener en cuenta la correlación oscilatoria y la
heteroscedasticidad potencial en la Perturbaciones. Este enfoque se describe en la Sección 17.6. El
segundo enfoque, debido a Dickey y Fuller (1979), es añadir cambios aplazados de y como variables
explicativas en las regresiones de la Tabla 17.1. Esto se describe en la Sección 17.7
𝑦𝑡 = 𝛼 + 𝑝𝑦𝑡−1 + 𝑢𝑡 [17.6.1]
0 527
bajo la suposición de que el verdadero 𝛼 = 0, p=1 y u es iid. Phillips y Perron (1988) generalizaron
estos resultados al caso en que 𝑢𝑡 está correlacionado en serie y posiblemente también
heteroscedástico. Por ahora asumiremos que el verdadero proceso es
𝑦𝑡 − 𝑦𝑡−1 = 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡
dónde 𝜓(𝐿) y 𝜀𝑡 satisfacen las condiciones de la Proposición 17.3. Las condiciones más generales
bajo las cuales la misma técnica es válida serán discutidas al final de esta sección.
Si [17.6.1] eran una autorregresión estacionaria con |𝑝| < 1, la estimación MCO 𝑝̂ 𝑇
[17.4.15] no daría una estimación consistente de p cuando 𝑢𝑡 está correlacionada en serie. Sin
𝑝
embargo, si p es igual a 1, la tasa T de convergencia de 𝑝̂ 𝑇 resulta que → 1 incluso cuando 𝑢𝑡 está
correlacionado en serie. Phillips y Perron por lo tanto, propone estimar [17.6.1] por MCO incluso
cuando 𝑢𝑡 es correlacionada en serie y luego modificar las estadísticas en la Sección 17.4 para tener
en cuenta la correlación en serie.
Sea 𝛼̂ 𝑇 y 𝑝̂ 𝑇 las estimaciones MCO basadas en [17.6.1] sin ninguna corrección para la
correlación serial; Es decir, 𝛼̂ 𝑇 y 𝑝̂ 𝑇 las magnitudes definidas en [17.4.15].
donde ∑ denota sumación sobre t de 1 a T. También, bajo la hipótesis nula de que 𝛼 = 0 y p=1,
sigue como en [17.4.4] que
𝑦𝑡 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 .
−1
1 0 −1 1 𝜆. ∫ 𝑊(𝑟)𝑑𝑟 1 0 −1
=[ ] [ ] [ ] , [17.6.3]
0 𝜆 𝜆. ∫ 𝑊(𝑟)𝑑𝑟 𝜆2 . ∫[𝑊(𝑟)]2 𝑑𝑟 0 𝜆
dónde el signo integral indica una integración sobre r de 0 a 1. De manera similar, los resultados (a)
y (e) de las Proposiciones 17.3 dan
𝜆.𝑊(1) 0
= [1{𝜆2 ] + [1{𝜆2 −𝑦 }]
[𝑤(1)]2 −1} 2 0
2
1 0 𝜆.𝑊(1) 0
= 𝜆[ ] [1 ] + [1{𝜆2 −𝑦 }]
0 𝜆 2{𝜆2 [𝑤(1)]2 −1} 2 0
[17.6.4]
1 0 −1 1 0 𝑊(1) 0
𝑥[ ] {𝜆 [ ] [1{[𝑤(1)]2 ] + [1{𝜆2 −𝑦 }]}
0 𝜆 0 𝜆 2 −1} 2 0
−1
𝜆 0 1 ∫ 𝑊(𝑟)𝑑𝑟 𝑊(1)
=[ ][ ] [1{[𝑤(1)]2 ]
0 1 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 2
−1}
−1
1 0 1 ∫ 𝑊(𝑟)𝑑𝑟 0
+ {[ −1 ] [ ] [1{𝜆2 −𝑦 ]}. [17.6.5]
0 𝜆 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 2 0 }/𝜆
−1
{𝜆2 −𝑦0 } 1 ∫ 𝑊(𝑟)𝑑𝑟 0
+(1/2) [0 1] [ ] [ ]
𝜆2 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 1
1
{[𝑤(1)]2 −1}−𝑤(1) ∫ 𝑊(𝑟)𝑑𝑟 (1/2){𝜆2 −𝑦0 }
=2 + 𝜆2 { [17.6.6]
∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 ∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]}
El primer término de la última igualdad en [17.6.6] es el mismo que [17.4.28], que describe
la distribución asintótica que 𝑇(𝑝̂ 𝑇 − 1) tendría si 𝑢𝑡 fueron iid. El término final en [17.6.6] es una
corrección para correlación en serie. Tenga en cuenta que si 𝑢𝑡 no está correlacionado en serie,
entonces 𝜓0 = 1 y 𝜓𝑗 = 0 para j=1, 2,…. Por lo tanto, si 𝑢𝑡 no está correlacionado en serie,
entonces 𝜆 = 𝜎2 ∙ [𝜓(1)]2 = 𝜎2 y 𝑦0 = 𝐸(𝑢𝑡2 ) = 𝜎 2 . Por lo tanto, [17.6.6] incluye el resultado
anterior [17.4.28] como un caso especial cuando 𝑢𝑡 no está correlacionado en serie.
Es fácil usar 𝜎̂𝑝̂𝑡 el error estándar de MCO para 𝑝̂ 𝑇 para construir una estadística de
muestra que se puede usar para estimar la corrección para la correlación serial. Sea 𝑌𝑇 la matriz
dfined en [17.4.21] y sea 𝑆𝑇2 la estimación MCO de la varianza de 𝑢𝑡 :
𝑃 1 1 1
→ 𝑇(𝜌
̂𝑟 − 1) − ( 2 ) 2 (𝜆2 − 𝑦0 )
2 𝜆 ∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]
1
𝐿 {[𝑤(1)]2 −1}−𝑤(1)∫ 𝑊(𝑟)𝑑𝑟
→2 2 [17.6.8]
∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]
Por lo tanto, la estadística en [17.6.8] tiene la misma distribución asintótica [17.4.28] como la
variable tabulada bajo el encabezado Caso 2 en la Tabla B.5.
1
2 1 2
𝑃 {[𝑤(1)]2 −1}−𝑤(1)∫ 𝑊(𝑟)𝑑𝑟 1 ⁄
2
→ {2 2 + 2 (𝑇2 . 𝜎
̂ 𝜌 /𝑠2𝑇 ) (𝜆2 − 𝑦0 )} + {𝑇2 . 𝜎
̂𝜌 }
∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟] 𝑇 𝑇
1
2 1 2
{[𝑤(1)]2 −1}−𝑤(1)∫ 𝑊(𝑟)𝑑𝑟 ⁄ 1
=2 2 ÷ {𝑇2 . 𝜎
̂𝜌 } + { (1/𝑠𝑇2 )(𝜆2 − 𝑦0 )} 𝑥{𝑇 2 . 𝜎̂𝜌𝑇 2 ÷
∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟] 𝑇 2
1⁄2
𝑠𝑇2 }
1 1/2
𝑃 {[𝑤(1)]2 −1}−𝑤(1)∫ 𝑊(𝑟)𝑑𝑟 𝜆2
→{ 2
2 } ( 2) 𝑥 {∫[𝑊(𝑟)]2 𝑑𝑟 − [∫𝑊(𝑟)𝑑𝑟]2 }1/2
∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟] 𝑠𝑇
1 1⁄2
+ { (1/𝑠𝑇2 )(𝜆2 − 𝑦0 )} 𝑥{𝑇 2 . 𝜎̂𝜌𝑇 2 ÷ 𝑠𝑇2 } [17.6.9]
2
2
+{1/2(𝜆2 − 𝑦0 )/𝜆}𝑥{𝑇 ∙ 𝜎̂𝑃𝑇 ÷ 𝑆𝑇 }. [17.6.11]
Por tanto,
2
(𝑦0 /𝜆2 )1/2 ∙ 𝑡𝑇 − {1/2(𝜆2 − 𝑦0 )/𝜆}×{𝑇 ∙ 𝜎̂𝑃𝑇 ÷ 𝑆𝑇 }
𝐿 1/2{[𝑊(1)]2 −1}−𝑊(1) ∫ 𝑊(𝑟)𝑑𝑟
→ 2 [17.6.12]
{∫[𝑊(𝑟)]𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟] }1/2
que es la misma distribución límite [17.4.36] obtenida de la variable aleatoria tabulada para el caso 2
en la Tabla B.6.
dónde 𝑢̂𝑡 = 𝑦1 − 𝛼̂ 𝑇 − 𝜌̂𝑇 𝑦𝑡−1 es la muestra MCO residual. Phillips y Perron utilizaron la
estimación MCO estándar 𝑦̂0 = (𝑇 − 2)−1 ∑𝑇𝑡=1 𝑢̂𝑡2 = 𝑠𝑡2 . Del mismo modo, a partir del resultado
(a) de la Proposición 17.3, 𝜆2 es la varianza asintótica de la media muestral de u:
𝐿
√𝑇 ∙ 𝑢 = 𝑇 −1/2 ∑𝑇𝑡=1 𝑢1 → 𝑁(0, 𝜆2 ) [17.6.14]
Recordando la discusión de la varianza de la media de la muestra en las secciones 7.2 y 10., esta
magnitud puede describirse equivalentemente como
dónde
y 𝑢̂𝑡 = 𝑦𝑡 − 𝛼̂ 𝑇 − 𝑝̂ 𝑇 𝑦𝑡−1 .
9El procedimiento recomendado por Phillips y Perron difiere ligeramente de aquel del texto. Para ver la relación, escriba la primera línea
de [17.6.7] como
3 −1
1 𝑇 −2 𝛴𝑦𝑡−1 0
𝑇 2 . 𝜎̂𝜌𝑇 2 ÷ 𝑠𝑇2 = [0 1] [ 3 ] [ ]
1
𝑇 −2 𝛴𝑦𝑡−1 𝑇 −2 𝛴𝑦 2 𝑡−1
1
= −2 2
𝑇 𝛴𝑦 𝑡−1 − 𝑇 −3 (𝛴𝑦𝑡−1 )2
1
=
𝑇 −1 [𝑇 −1 𝛴𝑦 2 𝑡−1 − (𝑇 −1 𝛴𝑦𝑡−1 )2 ]
1
𝑇 −1 [𝑇 −1 𝛴(𝑦𝑡−1 − 𝑦̅−1 )2 ]
Donde 𝑦̅−1 ≡ 𝑇 −1 ∑ 𝑦𝑡−1 y la última igualdad se deduce de [4.A.5]. En lugar de esta expresión, Phillips y Perron utilizaron
1
𝑇 −2 ∑(𝑦1 − 𝑦̅ )2
La ventaja de la fórmula en el texto es que es trivial calcular a partir de la salida producida por los paquetes de regresión estándar y la
fórmula idéntica se puede usar para los casos 1,2 y 4.
Sea 𝑢̂𝑡 la muestra MCO residual para la regresión de la tasa de interés [17.4.37] del
ejemplo 17.4:
0.211 0.96691
𝑢̂ = 𝑖 − − 𝑖 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … . 168
(0.112) (0.019133) 𝑡−1
Las autocovariancias estimadas de estos residuos de MCO son
1 1
𝑦̂0 = (𝑇) ∑𝑇𝑡=1 𝑢̂𝑡 2 = 0.630 𝑦̂1 = (𝑇) ∑𝑇𝑡=2 𝑢̂𝑡 𝑢̂𝑡−1 = 0.114
1 1
𝑦̂2 = (𝑇) ∑𝑇𝑡=3 𝑢̂𝑡 𝑢̂𝑡−2 = −0.162 𝑦̂3 = (𝑇) ∑𝑇𝑡=4 𝑢̂𝑡 𝑢̂𝑡−3 = 0.064
= 0.688
= −6.03
Comparando esto con el valor crítico del 5% para el caso 2 de la Tabla B.5, vemos que
−6.03 > −13.8. Por lo tanto, aceptamos la hipótesis nula de que los datos de la tasa de
interés podrían haber sido generados de forma plural por un simple proceso de raíz
unitaria.
𝑦̂ 1/2 2
( 20 ) 𝑡 − {1/2(𝜆̂ − 𝑦̂0 )(𝑇 ∙ 𝜎̂𝑝 /𝑠} ÷ 𝜆̂
𝜆̂
1
= {(0.630)/(0.688)}2 (0.96691 − 1)/0.019133
1
−{(2) (0.688 − 0.630)[(168)(0.0193133)/√(0.63760)] ÷ √(0.688)}
= −1.80
Desde −1.80 > −2.89, la hipótesis nula de una raíz unitaria es nuevamente aceptada al
nivel del 5%.
Las mismas ideas pueden utilizarse para el caso generalizado 1 o el caso 4 de la Sección
17.4, y las estadísticas [17.6.8] y [17.6.12] pueden compararse en cada una con los valores de
correlación en las Tablas B.5 y B.6. Estos resultados se resumen en la Tabla 17.2. Se invita al lector
a confirmar estas afirmaciones en los ejercicios al final del capítulo.
Ejemplo 17.7
Los residuos de la regresión PNB [17.4.56] tienen las siguientes covariancias estimadas:
= −10.76
Dado −10.76 > −21.0, la hipótesis nula de que log PNG sigue un proceso de raíz
unitaria con o sin deriva se acepta al nivel de 5%.
La prueba de t Phillips-Perron es
𝑦̂ 1/2 2
( 20 ) 𝑡 − {1/2(𝜆̂ − 𝑦̂0 )(𝑇 ∙ 𝜎̂𝑝 /𝑠} ÷ 𝜆̂
𝜆̂
1
= {(1.136)/(2.117)}2 (0.96691 − 1)/0.019133
= −2.44
Dado −2.44 > −3.44, la hipótesis nula de una raíz unitaria es nuevamente aceptada.
También se pueden obtener resultados asintóticos bajo hipótesis más débiles sobre 𝑢𝑡 que
los de la Proposición 17.3. Por ejemplo, el lector puede notar a partir de la prueba del resultado
2
17.3(c) que el parámetro 𝑦0 aparece porque es el plim de 𝑇 −1 × ∑𝑇𝑡=1 𝑢𝑡 . Bajo las condiciones de la
proposición, la ley de grandes números asegura que este plim es sólo el valor esperado 𝑢𝑡2 , cuyo
valor esperado fue denotado 𝑦0 . Sin embargo, incluso si los datos se distribuyen heterogéneamente
2
con 𝐸(𝑢𝑡2 ) = 𝑦0 , puede ser que 𝑇 −1 × ∑𝑇𝑡=1 𝑦0 converja a alguna constante. Si 𝑇 −1 ∑𝑇𝑡=1 𝑢𝑡
también converge a esta constante, entonces esta constante desempeña el papel de 𝑦0 en una
generalización del resultado 173 (e).
𝑢̂𝑇 ≡ ∑𝑇𝑡=1 𝑢𝑡
𝜆2𝑇 = 𝑇 ∙ 𝑉𝑎𝑟( 𝑢
̅𝑡) = 𝑇 −1
∙ 𝐸(𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 )2 .
La media 𝑢̅𝑡 de la muestra todavía puede satisfacer el teorema del límite central:
𝐿
𝑇 −1/2 × ∑𝑇𝑡=1 𝑢𝑡 → 𝑁(0, 𝜆2 )
o
L
T −1/2 ∑Tt=j+1 ut → λ ∙ W(1) ,
dónde
Recordando [7.2.8], la expresión [17.6.18] sería en este caso simplemente otra manera de
describir el parámetro λ2 en la Proposición 17.3.
Así, los parámetros y0 y λ2 en [17.6.8] y [17.6.12] pueden definirse más generalmente como
Caso 1:
La regresión estimada indica la forma en que se estima la regresión, utilizando las observaciones t =
1, 2, … . T, T y el condicionamiento en la observación t=0.
El verdadero proceso describe la hipótesis nula bajo la cual se calcula la distribución. En cada caso,
ut se supone que tiene cero medio, pero puede ser heterogéneamente distribuido y correlacionado en serie
con
lim T −1 ∑Tt=1 E(u2t ) = y0
T→x
lim T −1 E(u1 + u2 + ⋯ + ut )2 = λ2
T→x
Zp es la siguiente estadística:
̂2P + sT2 }(λ̂2T − ŷ 0.T )
Zp ≡ T(p̂T − 1) − (1/2){T 2 ∙ σ
dónde
ŷj.T = T −1 ∑Tt=j+1 ût ût−j
ût = MCO muestra residual de la regresión estimada
q
λ̂2T = ŷ0.T + 2 ∙ ∑j=1[1 − j/(q + 1)}]ŷj.T
sT2 = (T − k)−1 ∑Tt=j+1 û2t
K= número de parámetros en regresión estimada
̂σPT = error estándar MCO para p̂
Zt es la siguiente estadística
1
Zt ≡ (ŷ0.T /λ̂2T )2 ∙ (p̂T − 1)/σ
̂ PT
̂ 2 ̂
−(1/2)(λT − ŷ0.T )(1/λT ){T ∙ σ ̂PT ÷ sT }.
Phillips (1987) y Perron y Phillips (1988) derivan [17.6.8] y [17.6.12] asumiendo que 𝑢𝑡 es un
proceso de media cero pero heterogéneamente distribuido que satisface ciertas restricciones sobre
la dependencia en serie y momentos más altos. Desde esta perspectiva, las expresiones [17.6.19] y
[17.6.20] se pueden utilizar como definiciones de los parámetros 𝑦0 y 𝜆2 . Claramente, los
estimadores [17.6.13] y [17.6.16] continúan siendo apodera para esta interpretación alternativa.
Se puede obtener una idea de esta cuestión considerando el ejemplo de la ecuación [14.5.8],
dónde 𝜃es ligeramente mayor que -1 y 𝜀𝑡 i.i.d. Con media cero y varianza 𝜎 2 . El modelo [17.6.21]
implica que
= 𝜀𝑡 + (1 + 𝜃)𝜉𝑡−1 + 𝜃𝜀𝑡 + 𝑦0
dónde
𝜉𝑡−1 ≡ 𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡−1
Para t grande, la variable y, está dominada por el componente raíz unitaria. (1 + 𝜃)𝜉𝑡−1 , y los
resultados asintóticos están regidos por este término. Sin embargo, si 𝜃 es cercano a -1, entonces en
la muestra finita 𝑦𝑡 se comportaría esencialmente como la serie de ruido blanco 𝜀1 más una
constante (𝜃𝜀0 + y0 ). En este caso, es probable que la prueba de Phillips-Perron rechace la
hipótesis nula de una raíz unitaria en muestras finitas aunque sea verdadera10. Por ejemplo, Schwert
(1989) generó muestras Monte Carlo de tamaño T = 1000 según la unidad Modelo raíz [17.6.21]
con 𝜃 = −0.8. La prueba de Phillips-Perron que se supone que rechaza sólo el 5% del tiempo
realmente rechazó la hipótesis nula en prácticamente todas las muestras, ¡aunque la hipótesis nula es
verdadera! Similares resultados fueron reportados por Phillips y Perron (1988) y Kim y Schmidt
(1990).
10 Para una discusión más detallada, véase Phillips y Perron (1988, página 344).
Encontraron que para 𝜃 cerca de -1, la predicción basada en los niveles 𝑦𝑡 tendía a rendir mejor que
aquellos basados en las diferencias ∆𝑦1 , aunque el verdadero proceso de generación de datos fue
I(0).
Una cuestión relacionada, por supuesto, surge con falsas aceptaciones. Claramente, si el
verdadero modelo es
𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝜀𝑡 [17.6.22]
Con p ligeramente por debajo de 1, entonces la hipótesis nula de que p=1 es probable que sea
aceptada en muestras pequeñas, a pesar de que es falsa. El valor de aceptar una falsa hipótesis nula
en este caso es que la imposición de la condición p=1 puede producir una mejor pronóstico que
uno basado en una estimación 𝑝̂ 𝑇 particularmente dado el sesgo a la baja de la muestra 𝑝̂ 𝑇 . Además,
cuando p está cerca de 1, los valores de la Tabla B.6 podrían dar una mejor aproximación de la
pequeña muestra a la distribución de (𝑝̂ 𝑇 − 1) ÷ 𝜎̂𝑃𝑇 que las tablas tradicionales t11
Esta discusión subraya que el objetivo de las pruebas de raíz unitaria es encontrar una
representación parsimoniosa que proporcione una aproximación razonable al proceso verdadero,
en oposición a determinar si el verdadero proceso es literalmente I (1).
(1 − 𝜃1 𝐿 − 𝜃2 𝐿2 − ⋯ − 𝜃𝑝 𝐿𝑝 )𝑦𝑡 = 𝜀𝑡 [17.7.1]
11 Véase Evans y Savin (1981, 1984) para una descripción de las distribuciones de muestras pequeñas.
0 537
Donde {𝜀𝑡 } es una secuencia i.i.d con media cero, varianza 𝜎 2 y finito cuarto momento. Es útil
escribir la autorregresión [17.7.1] en una forma ligeramente diferente. Para ello, defina
𝑝 ≡ ∅1 + ∅2 + ⋯ + ∅𝑝 [17.2.2]
Supongamos que el proceso que generó 𝑦1 contiene una sola raíz unitaria; esto es,
supongamos que en la raíz de
(1 − ∅1 𝑧 − ∅2 𝑧 2 − ⋯ − ∅𝑝 𝑧 𝑝 ) = 0 [17.7.7]
es unidad
1 − ∅1 − ∅2 − ⋯ − ∅𝑝 = 0 [17.7.8]
y todas las demás raíces de [17.7.7] están fuera del círculo unitario. Obsérvese que [17.7.8] implica
que el coeficiente 𝜌 en [17.7.2] es unidad. Además, cuando p=1, la expresión [17.7.4] implicaría
(1 − ∅1 𝑧 − ∅2 𝑧 2 − ⋯ − ∅𝑝 𝑧 𝑝 )
De los valores p de z que hacen que el lado izquierdo de [17.7.9] sea cero, uno es z = 1 y se supone
que todas las otras raíces están fuera del círculo unitario. Lo mismo debe ser cierto para el lado
derecho también, lo que significa que todas las raíces de
(1 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑝 𝑧 𝑝−1 ) = 0
fuera del círculo de la unidad. Bajo la hipótesis nula de que p=1, la expresión [17.7.5] podría
escribirse como
∆𝑦𝑡 = 𝑢𝑡 [17.7.10]
dónde
𝑢𝑡 = (1 − 𝜁1 𝐿 − 𝜁2 𝐿2 − ⋯ − 𝑝 − 1𝐿𝑝−1 )−1 𝜀𝑡 .
La ecuación [17.7.10] indica que 𝑦𝑡 se comporta como la variable 𝜉𝑡 descrita en la Proposición 17.3,
con
Los resultados que generalizan los del caso 1 en la Sección 17.4 se obtienen cuando la
regresión se estima como se escribe en [17.7.6] sin un término constante. Los casos 2 y 3 se
generalizan al incluir un término constante en [17.7.6], mientras que el caso 4 se generaliza al incluir
un término constante y una tendencia temporal en [17.7.6]. Por ejemplo, la regresión del caso 2 se
discute en detalle. Los resultados comparables para el caso 1, el caso 3 y el caso 4 se resumirán en la
Tabla 17.3 más adelante en esta sección, con detalles desarrollados en ejercicios al final del capítulo.
≡ 𝑥𝑡𝑡 𝛽 + 𝜀𝑡
[17.7.11]
𝑡
dónde 𝛽 ≡ (𝜁1 , 𝜁2 , … , 𝜁𝑝−1 , 𝛼, 𝑝) y 𝑦𝑡 ≡ (∆𝑦𝑡−1 , ∆𝑦𝑡−2 , … , ∆𝑦1−𝑝+1 , 1, 𝑦𝑡−1 ). La derivación de
la estimación MCO 𝑏𝑇 del valor verdadero 𝛃 viene dada por
Bajo la hipótesis nula de que 𝛼 = 0 y P=1, vimos en [17.7.10] que 𝑦𝑡 se comporta como
𝜉 = 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 en la Proposición 17.3. Consultando las tasas de convergencia en la
Proposición 17.3, para este caso la matriz de escalamiento debe ser
√𝑇 0 ⋯ 0 0
0 √𝑇 ⋯ 0 0
𝑌𝑇
≡ ⋮ ⋮ ⋮ ⋮ ⋮ [17.7.15]
(𝑝 + 1𝑥𝑝 + 1)
0 0 ⋯ √𝑇 0
[0 0 ⋯ 0 𝑇]
Premultiplicar [17.7.12] por 𝑌𝑇 como en [17.4.20] resulta en
𝑌𝑇 (𝑏𝑇 − 𝛽) = {𝑌𝑇−1 [∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 ]𝑌𝑇−1 }−1 {𝑌𝑇−1 [∑𝑇𝑡=1 𝑋𝑡 𝜀𝑡 ]}. [17.7.16]
Consideremos la matriz 𝑌𝑇−1 ∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 𝑌𝑇−1. Los elementos en el bloque (p x q) superior izquierdo
de ∑ 𝑋𝑡 𝑋𝑡𝑡 se dividen por 𝑇 , los primeros elementos p de la fila p+1 o columna (p + 1) se dividen
por 𝑇 3/2 , y la fila (p+1), columna (p+1) de ∑ 𝑋𝑡 𝑋𝑡𝑡 se divide por 𝑇 2 . Además,
𝑝
𝑇 −1 ∑ 𝑢𝑡−𝑗 𝑢𝑡−𝑗 → 𝑦|𝑖−𝑗| del resultado (c) de la Proposición 17.3
𝑝
𝑇 −1 ∑ 𝑢𝑡−𝑗 → 𝐸(𝑢𝑡−𝑗 ) = 0 de la ley de grandes números
𝑃
𝑇 −3/2 ∑ 𝑦𝑡−𝑗 𝑢𝑡−𝑗 → 0 de la Proposición 17.3(e)
𝐿
𝑇 −3/2 ∑ 𝑦𝑡−𝑗 → 𝜆 ∙ ∫ 𝑊(𝑟)𝑑𝑟 de la Proposición 17.3(f)
𝐿
2
𝑇 −2 ∑ 𝑦𝑡−1 → 𝜆2 ∙ ∫ 𝑊(𝑟)2 𝑑𝑟 de la Proposición 17.3(h),
dónde
𝑦 = 𝐸{(∆𝑦𝑡 )(∆𝑦𝑡−1 )}
𝜆 = 𝜎 ∙ 𝜓(1) = 𝜎/(1 − 𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 )
𝜎 2 = 𝐸(𝜀𝑡2 ) [17.7.17]
𝛾0 𝛾1 … 𝛾𝑝−2 0 0
𝛾1 𝛾0 … 𝛾𝑝−3 0 0
𝐿 𝜆. ∫𝑊(𝑟)𝑑𝑟 ⋮ … ⋮ ⋮ ⋮
→ 𝛾𝑝−3 𝛾𝑝−3 … 𝛾0 0 0
𝜆. ∫𝑊(𝑟)𝑑𝑟 0 … 0 1 𝜆. ∫𝑊(𝑟)𝑑𝑟
2
[ 0 0 … 𝜆. ∫𝑊(𝑟)𝑑𝑟 𝜆. ∫𝑊(𝑟)𝑑𝑟 𝜆2 . ∫[𝑊(𝑟)] 𝑑𝑟]
𝑉 0
=[ ] [17.7.18]
0 𝑄
dónde
𝑦0 𝑦1 ⋯ 𝑦𝑝−2
𝑦1 𝑦0 ⋯ 𝑦𝑝−3
𝑉≡[ ⋮ ⋮ ⋯ ⋮ ] [17.7.19]
𝑦𝑝−2 𝑦𝑝−3 ⋯ 𝑦0
1 𝜆 ∙ ∫ 𝑊(𝑟)𝑑𝑟
𝑄≡[ 2 2 ] [17.7.20]
𝜆 ∙ ∫ 𝑊(𝑟)𝑑𝑟 𝜆 ∙ ∫ 𝑊(𝑟)] 𝑑𝑟
𝑇 −1/2 ∑ 𝑢𝑡−1 𝜀𝑡
𝑇 −1/2 ∑ 𝑢𝑡−2 𝜀𝑡
⋮
𝑌𝑇−1 [∑ 𝑋𝑡 𝜀𝑡 ] = 𝑇 −1/2 ∑ 𝑢 [17.7.21]
1−𝑝+1 𝜀𝑡
−1/2 ∑
𝑇 𝜀𝑡
−1 ∑
[ 𝑇 𝑦𝑡−1 𝜀𝑡 ]
Los primeros elementos p-1 de este vector son √𝑇 veces la media muestral de una secuencia de
diferencias de martingala cuya matriz de varianza-covarianza es
𝑢𝑡−1 𝜀𝑡
𝑢 𝜀
𝐸 [ 𝑡−2 𝑡 ] [𝑢𝑡−1 𝜀𝑡 𝑢𝑡−1 𝜀𝑡 … 𝑢𝑡−𝑝+1 𝜀𝑡 ]
⋮
𝑢𝑡−𝑝+1 𝜀𝑡
𝑦0 𝑦1 ⋯ 𝑦𝑝−2
𝑦1 𝑦 0 ⋯ 𝑦𝑝−3
= 𝜎2 [ ⋮ ⋮ ⋯ ⋮ ]
𝑦𝑝−2 𝑦𝑝−3 ⋯ 𝑦0
= 𝜎 2 𝑉. [17.7.22]
Así, los primeros términos de P-1 en [17.7.21] satisfacen el teorema del límite central usual,
𝑇 −1/2 ∑ 𝑢𝑡−1 𝜀𝑡
𝑇 −1/2 ∑ 𝑢𝑡−2 𝜀𝑡
𝐿
⋮ → ℎ𝑡 ~𝑁(0, 𝜎 2 𝑉). [17.7.23]
−1/2 ∑
𝑇 𝑢1−𝑝+1 𝜀𝑡
[ ]
𝑇 −1/2 ∑ 𝜀𝑡 𝐿 𝜎 ∙ 𝑊(1)
[ −1 ] → ℎ2 ~ [ 2 ] [17.7.24]
𝑇 ∑ 𝑦𝑡−1 𝜀𝑡 1/2𝜎𝜆 ∙ {[𝑊(1)] − 1}
𝐿 𝑉 0 −1 ℎ1 𝑉 −1 ℎ
𝑌𝑇 (𝑏𝑇 − 𝛽) → [ ] [ ] = [ −1 1 ]
0 𝑄 ℎ2 𝑄 ℎ1
[17.7.25]
Coeficientes en ∆𝑦𝑡−𝑗
Los primeros p-1 elementos de β son 𝜁1 , 𝜁2 , … , 𝜁𝑝−1 , que son los coeficientes de los
regresores estacionarios de media cero (∆𝑦𝑡−1 , ∆𝑦𝑡−2 , … , (∆𝑦𝑡−𝑝+1 ). El bloque que consiste en los
primeros elementos p - 1 en [17.7.25] indica que
𝜁1.𝑇 − 𝜁1
𝜁2.𝑇 − 𝜁0 𝐿
√𝑇 [ ⋮ ] → 𝑉 −1 ℎ1 [17.7.26]
𝜁̂𝑝−1.𝑇 − 𝜁𝑝−1
𝜁1.𝑇 − 𝜁1 0 𝑦0 𝑦1 ⋯ 𝑦𝑝−2 −1
𝜁2.𝑇 − 𝜁2 𝐿 𝑦 𝑦 ⋯ 𝑦𝑝−3
] → 𝑁 [0] , 𝜎 2 [ ⋮
1 0
√𝑇 [ ⋮ ⋮ ⋯ ⋮ ] , [17.7.27]
⋮
𝜁̂𝑝−1.𝑇 − 𝜁𝑝−1 ( 0 𝑦𝑝−2 𝑦𝑝−3 ⋯ 𝑦0 )
dónde 𝑦1 = 𝐸{(∆𝑦𝑡 )(∆𝑦𝑡−1 )}.
Esto significa que una hipótesis nula que implica los coeficientes de los regresores
estacionarios (𝜁1 , 𝜁2 , … , 𝜁𝑝−1 ) en [17.7.11] se puede probar de la manera habitual, con el estándar t
y f estadísticas asintóticamente válido. Para ver esto, supongamos que la hipótesis nula es 𝐻0 : 𝑅𝛽 =
𝑟 para R una matriz conocida [𝑚 𝑥 (𝑝 + 1)] donde m es el número de restricciones. La forma
Wald de la prueba MCO 𝑥 2 [8.2.23] está dada por
dónde
Si ninguna de las restricciones implica 𝛼 𝑜 𝑝, entonces las dos últimas columnas de R contienen
todos los ceros:
En este caso R√𝑇 = 𝑅𝑌𝑇 para 𝑅𝑌𝑇 la matriz en [17.7.15], de modo que [17.7.28] puede escribirse
como
−1
2 𝑡 −1
𝑥𝑡2 = [𝑅𝑌𝑇 (𝑏𝑇 − 𝛽)] {𝑆𝑡2 𝑅𝑌𝑇 [∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡 ] 𝑌𝑇 𝑅𝑡 } [𝑅𝑌𝑇 (𝑏𝑇 − 𝛽)].
Pero desde ℎ1 ~𝑁(0, 𝜎 2 𝑉), se sigue que el (mx1) vector 𝑅1 𝑉 −1 ℎ1 se distribuye 𝑁(0, [𝜎2 𝑅1 𝑉−1 𝑅𝑡1 ]) .
Por lo tanto, las expresiones [17.7.31] es una cuadrática de un vector gaussiano que satisface las
condiciones de la Proposición 8.1:
𝐿
𝑥𝑡2 → 𝑥 2 (𝑚).
Esto verifica que las pruebas t o F habituales aplicadas a cualquier subconjunto del coeficiente
𝜁̂1 , 𝜁̂2 , … , 𝜁̂𝑝−1 tienen las distribuciones limitadoras estándar.
Por lo tanto, si el objetivo es estimar 𝜁̂1 , 𝜁̂1 , … , 𝜁̂𝑝−1 o probar hipótesis sobre estos coeficientes, no
hay necesidad basada en la teoría de distribución asintótica para diferenciar los datos antes de
estimar la autorregresión. Muchas investigaciones recomiendan la diferenciación de los datos en
primer lugar, pero la razón es reducir el sesgo de la pequeña muestra y el error cuadrático medio de
las muestras pequeñas de las estimaciones, no para cambiar la distribución asintótica.
−1 𝜎. 𝑊(1)
1⁄2
0 ] [ 𝛼̂ 𝑇 ] →
𝐿 1 ∫𝑊(𝑟)𝑑𝑟
[𝑇 [ ] [1 ]
0 𝑇 𝜌̂𝑇 − 1 ∫𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 𝜎𝜆{[𝑊(1)]2 − 1}
2
−1 𝑊(1)
1 0 −1 1 ∫𝑊(𝑟)𝑑𝑟 1 0 −1 1 0 1
= 𝜎[ ] [ ] [ ] 𝑥[ ][ ]
0 𝜆 ∫𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 0 𝜆 0 𝜆 {[𝑊(1)]2 − 1}
2
1 0 1 ∫𝑊(𝑟)𝑑𝑟
−1 𝑊(1)
=[ ][ ] [1 ]. [17.7.32]
0 𝜎⁄𝜆 ∫𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 {[𝑊(1)]2 − 1}
2
dónde 𝜁̂𝑗.𝑇 denota la estimación de 𝜁𝑗 basada en la regresión MCO [17.7.11]. Así, la generalización
de la prueba p de Dickey-Fuller cuando se incluyen los cambios retardados en y en la regresión es
Dónde 𝑒𝑝+1 denota un vector [(𝑝 + 1)𝑥1] con unidad en la última posición y ceros en otra parte.
Multiplicando el numerador y el denominador de [17.7.36] por T resulta en
(𝑝̂𝑇 −1)
𝑡𝑇 = 1/2 . [17.7.37]
{𝑆𝑡 ∙𝑒𝑝+1 ∙𝑌𝑇 (∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 ∙𝑌𝑇 𝑒𝑝+1 }
2 𝑡
Pero
𝑡 −1
𝑒𝑝+1 ∙ 𝑌𝑇 (∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 ∙ 𝑌𝑇 𝑒𝑝+1 = 𝑒𝑝+1
𝑡
{𝑌𝑇−1 (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑌𝑇−1 } 𝑒𝑝+1
𝐿
𝑡 𝑉 −1 0
→ 𝑒𝑝+1 [ ]𝑒
0 𝑄 −1 𝑝+1
1
= 2
𝜆 ∙ {∫[𝑊(𝑟)]2 𝑑𝑟 − [∫ 𝑊(𝑟)𝑑𝑟]2 }
1/2
𝜎2
÷{ (𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 }
}
𝜆2 {∫[𝑊
1
{[𝑊(1)]2 −1}−𝑊(1).∫ 𝑊(𝑟)𝑑𝑟
2
[17.7.38]
{∫[𝑊 (𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 }1/2
𝑅 0 𝐼2
|2𝑥(𝑝 + 1)| = [2𝑥(𝑝 − 1) (2 𝑥 2)
]
𝐹 = (𝑏𝑇 − 𝛽 𝑡 )𝑅𝑡 {𝑆𝑡2 ∙ 𝑅(∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 𝑅𝑡 }−1 𝑅(𝑏𝑇 − 𝛽 𝑡 )/2 [17.7.39]
𝑌̅𝑇 𝑅 = 𝑅 𝑌𝑇
𝐿
para 𝑅 = [0 𝐼2] y 𝑌𝑇 la matriz (p+1) x (p+1) en [17.7.15]. De [17.7.25],𝑅𝑌𝑇 (𝑏𝑇 − 𝛽 ) → 𝑄 −1 ℎ2. Así,
[17.7.41] implica que
−1
′(𝑅𝑌𝑇 )′{𝑆2 ̅ 𝑡 −1 ′
𝑡 ∙𝑌𝑇 𝑅(∑ 𝑋𝑡 𝑋𝑡 ) 𝑌𝑇 𝑅 }
(𝑏𝑇 −𝛽) 𝑅𝑌𝑇 (𝑏𝑇 −𝛽)
𝐹𝑇 =
2
𝐿
→ (𝑄 −1 ℎ2 )′{𝜎 2 𝑄 −1 }−1 (𝑄 −1 ℎ2 )/2 = ℎ2′ 𝑄 −1 ℎ2 /2𝜎 2
1
= [1/(2𝜎 2 )] [𝜎. 𝑊(1) 2
𝜎𝜆{[𝑊(1)]2 − 1}]
−1
1 𝜆. ∫ 𝑊(𝑟)𝑑𝑟 𝜎.𝑊(1)
𝑥[ ] [1 ]
𝜆. ∫ 𝑊(𝑟)𝑑𝑟 𝜆 . ∫ [𝑊(𝑟)]2 𝑑𝑟
2
2
𝜎𝜆{[𝑤(1)]2 −1}
1 1 1 0
= (2𝜎2 ) 𝜎 2 [𝑊(1) {[𝑊(1)]2 − 1}] [ ]
2 0 𝜆
−1
1 0 −1 1 ∫ 𝑊(𝑟)𝑑𝑟 1 0 −1
𝑥[ ] [ ] [ ]
0 𝜆 ∫ 𝑊(𝑟)𝑑𝑟 ∫ [𝑊(𝑟)]2 𝑑𝑟 0 𝜆
1 0 𝑊(1)
𝑥[ ] [1 ]
0 𝜆 2{[𝑊(1)]2 −1}
1 1
= [𝑊(1) {[𝑊(1)]2 − 1}]
2 2
Finalmente, considere una prueba de hipótesis que implique una restricción12 a través de
𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 y p
𝑟𝑡 𝛽 = 𝑟 [17.7.43]
La distribución de la prueba t de esta hipótesis será dominada asintóticamente por los parámetros
con la tasa de convergencia más lenta, a saber 𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 . Dado que estos son
asintóticamente Gaussiana, la estadística de prueba es asintóticamente Gaussiana y por lo tanto se
puede comparar con las tablas t habituales. Para demostrar esto formalmente, tenga en cuenta que
la estadística t habitual para probar esta hipótesis es
𝑟 𝑡 (𝑏𝑇 −𝑟 ) 𝑇 1/2 (𝑟 𝑡 𝑏 −𝑟 )
𝑡𝑇 = 1/2 = {𝑆2 𝑇 1/2 𝑟 𝑡(∑ 𝑋 𝑋𝑇 𝑡)−1 𝑟𝑇 1/2 } [17.7.44]
{𝑆𝑡2 𝑟 𝑡 (∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 𝑟} 𝑡 𝑡 𝑡
Defina 𝑟𝑇 como el vector que resulta cuando el último elemento de r es reemplazado por 𝑟𝑝−1 /√𝑇
y nótese que
𝑟̅𝑇 = 𝑟̅ ,
dónde
𝑟̅ 𝑡 ≡ [𝑟1 , 𝑟2 , … , 𝑟𝑝−1 0 0 ].
12 Puesto que la suposición mantenida es que 𝜌 = 1, ésta es una manera ligeramente antinatural de escribir una hipótesis. Sin embargo, enmarcar la
hipótesis de este modo resultará pronto útil para derivar la distribución asintótica de una autoregresión estimada en la forma usual sin la
transformación Dickey-Fuller.
dónde
Una implicación interesante de este último resultado se refiere a las propiedades asintóticas
del coeficiente estimado si la autorregresión se estima en los niveles habituales en lugar de la
regresión transformada [17.7.11]. Por lo tanto, supongamos que la siguiente especificación es
estimada por OMC:
para algunos 𝑝 ≥ 2. Recordando [17.7.2] y [17.7.3], la relación entre las estimaciones (𝜁̂1 + 𝜁̂2 +
̂1 , ∅
⋯ + 𝜁̂𝑝−1 , 𝑝̂ ) investigadas anteriormente y las estimaciones (∅ ̂2 + ⋯ + ∅̂ 𝑝 ) basadas en la
estimación de OMC de [17.7.49] es
̂ 𝑝 = −𝜁̂𝑝−1
∅
̂1 = 𝑝̂ + 𝜁̂1.
∅
Así, cada uno de los coeficientes ∅ ̂1 , ∅̂2 + ⋯ + ∅ ̂ 𝑝 es una combinación lineal de los elementos de
(𝜁̂1 + 𝜁̂2 + ⋯ + 𝜁̂𝑝−1 , 𝑝̂ ). El análisis de [17.7.43] establece que cualquier estimación individual ∅̂1
converge a la tasa √𝑇 a una variable aleatoria gaussiana. Recordando la discusión de [16.3.20] y
[16.3.21], una prueba MCO t o F expresada en términos de la representación en [17.7.11]. Por lo
tanto, la prueba t habitual asociada con hipótesis sobre los coeficientes individuales ∅ ̂1 , ∅
̂2 + ⋯ +
̂ 𝑝 en [17.7.49] puede compararse con las tablas estándar t o N (0, 1). De hecho, cualquier hipótesis
∅
sobre combinaciones lineales de los ∅ ̂ ′𝑠 que no sean la suma ∅ ̂1 , ∅
̂2 + ⋯ + ∅ ̂ 𝑝 satisface las
condiciones estándar.
La suma ∅ ̂1 , ∅
̂2 + ⋯ + ∅
̂ 𝑝 , por supuesto, tiene la distribución no estándar de la estimación descrita
en [17.7.33].
(1 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 ) = 0
están fuera del círculo de la unidad. Se observó que las estimaciones 𝜁̂1 + 𝜁̂2 + ⋯ + 𝜁̂𝑝−1
convergen a la velocidad √𝑇 a las variables gaussianas, y las pruebas estándar t o F para la
hipótesis sobre estos coeficientes tienen las distribuciones limitantes habituales de Gauss o
𝑥 2 . Las estimaciones 𝛼̂ y 𝑝̂ convergen a tasas √𝑇 y T, respectivamente, a distribuciones no
estándar. Si la diferencia entre la estimación OMC 𝑝̂ y el valor verdadero hipótesis de la
unidad se multiplica por el tamaño de la muestra y se divide por (1 − 𝜁̂1 + 𝜁̂2 + ⋯ +
𝜁̂𝑝−1 ), la estadística resultante tiene la misma distribución asintótica que la variable tabulada
en la sección caso 2 de la Tabla B.5. El estadístico t habitual de la hipótesis p = 1 no
necesita ser ajustado a partir del tamaño de la muestra o correlación en serie y tiene la
misma distribución asintótica que la variable tabulada en la sección de caso 2 de la Tabla
B.6. La estadística F usual de la articulación La hipótesis 𝛼 = 0 y p=1 tampoco tiene que
ser ajustada para el tamaño de la muestra o la correlación en serie y tiene la misma
distribución que la variable tabulada en la sección del caso 2 de la Tabla B.7.
Cuando la autorregresión incluye cambios rezagados como aquí, las pruebas de raíz
unitaria basadas en el valor indicado, las pruebas t o las pruebas F se describen como
pruebas aumentadas de Dickey-Fuller.
Ejemplo 17.8
El modelo siguiente fue estimado por OMC para los datos de tipo de interés
descritos en el Ejemplo 17.3 (error estándar entre paréntesis):
0.335 0.388 0.276
𝑖𝑡 = ∆𝑖𝑡−1 − ∆𝑖𝑡−2 + ∆𝑖
(0.0788) (0.0808) (0.0800) 𝑡−3
0.107 0.195 0.96904
− ∆𝑖𝑡−4 − + 𝑖
(0.0794) (0.109) (0.018604) 𝑡−1
Fechas t = 1948: II 1989: 1 se utilizaron para la estimación, por lo que en este caso
el tamaño de la muestra es T = 164. Para estas estimaciones, el aumento de Dickey-
Fuller p test [17.7.35] sería:
164
(0.96904 − 1) = −5.74
1−0.335+0.388−0.276+0.107
Desde −5.74 > −13.8, la hipótesis nula de una raíz unitaria es aceptada por la
prueba aumentada de Dickey-Fuller t también. Finalmente, la prueba MCO F de la
hipótesis nula conjunta de p=1 y 𝛼 = 0 es 1.65. Puesto que esto es menor que 4,68,
la hipótesis nula es nuevamente aceptada.
La hipótesis nula de que la autorregresión en niveles requiere sólo cuatro rezagos se
basa en la prueba t de MCO de 𝜁4 = 0:
TABLA 17.3
Resumen de los resultados asintóticos para regresiones conteniendo una raíz unitaria
Caso 1.
Regresión estimada:
Caso 2.
Regresión estimada:
Cualquier prueba t o F que implique 𝜁1 , 𝜁2 , … , 𝜁1−𝑝 puede compararse con las tablas t o F
para para una prueba asintótica válida.
Caso 3.
Regresión estimada:
𝑝̂ 𝑇 converge a la tasa 𝑇 3/2 a una variable gaussiana; Todos los demás coeficientes
estimados convergen a la tasa 𝑇 1/2 a las variables gaussianas.
Caso 4.
Regresión estimada:
Cualquier prueba t o F que implique 𝜁𝑡 − 𝜁2 , … , 𝜁𝑝−1 puede compararse con las tablas t o
F habituales para una prueba asintóticamente válida.
La regresión estimada indica la forma en que se estima la regresión, utilizando las observaciones 𝑡 =
1,2, … , 𝑇 y el condicionamiento en las observaciones 𝑡 = 0, −1, … , −𝑝 + 1.
El proceso verdadero describe la hipótesis nula bajo la cual se calcula la distribución. En cada caso
se supone que las raíces de
(1 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑗 𝑧 𝑝−1 ) = 0
Están todos fuera del círculo de la unidad y que 𝜖𝑡 es i.i.d. Con media cero, varianza 𝜎 2 y cuarto
momento finito.
𝑍𝐷𝐹 en cada caso es la siguiente estadística:
𝑍𝐷𝐹 ≡ 𝑇(𝑝̂ 𝑇 − 1)/(1 − 𝜁̂1𝑇 − 𝜁̂2𝑇 −. . . −𝜁̂𝑝−1.𝑇 )
Donde 𝑝̂ 𝑇 , 𝜁̂1𝑇 , 𝜁̂2𝑇 , … , 𝜁̂𝑝−1.𝑇 son las estimaciones de la CMO de la regresión indicada.
MCO prueba t de p=1 es (𝑝̂ 𝑇 − 1)/𝜎̂𝑃𝑇 , donde 𝜎̂𝑃𝑇 es el estándar de la MCO de error 𝑝̂ 𝑇 .
MCO prueba F de una hipótesis que implica dos restricciones se da por la expresión [17.7.39].
Ejemplo 17.9
La estimación de la autorregresión siguiente fue calculada por la OCM para los datos del
PNB. Figura 17.3 (errores estándar entre paréntesis):
0.329 0.209 0.084
𝑖𝑡 = ∆𝑦𝑡−1 − ∆𝑖𝑡−2 + ∆𝑖
(0.0777) (0.0813) (0.0818) 𝑡−3
Al igual que en la consideración Phillips-Perron del caso MA (∞), el investigador podría querer
elegir valores más grandes para 𝜌, la longitud del retraso autorregresivo, cuanto mayor sea el
tamaño de la muestra T. Said y Dickey (1984) Hasta el infinito lo suficientemente lento en relación
con T, entonces la prueba t de MCO de 𝜌 = 1 puede continuar comparándose con los valores de
Dickey-Fuller en la Tabla B.6.
De nuevo, vale la pena tener en cuenta que siempre existe un p tal que la representación de ARIMA
(p, 1, 0) puede describir un proceso estacionario arbitrariamente bien para una muestra dada. Por lo
tanto, la prueba Said-Dickey de p podría considerarse como la siguiente. Para un determinado p fijo,
ciertamente podemos preguntar si el ARIMA (p, 0, 0) describen los datos casi tan bien como un
ARIMA (p-1, 1, 0). Imponiendo p = 1 cuando el valor verdadero de p es cercano a la unidad puede
mejorar pronósticos y estimaciones de pequeña muestra de los otros parámetros. El resultado de
Said-Dickey permite al investigador utilizar un valor mayor de p sobre el cual basar esta
comparación cuanto mayor sea el tamaño de muestra T.
Esta sección describe brevemente algunos métodos alternativos para probar las raíces unitarias.
0 551
∆𝑦𝑡 = 𝛼 + 𝑢𝑡
dónde
para 𝜀𝑡 una secuencia de ruido blanco con varianza 𝜎 2 . Recordemos de la expresión [15.3.10] que el
efecto permanente de 𝜀𝑡 en el nivel de 𝑦𝑖+𝑠 está dado por
𝜕𝑦
lim 𝑖+𝑠 = 𝜓(1).
𝑠→𝑥 𝜕𝜀𝑡
Cochrane (1988) y Lo MacKinlay (1988) propusieron una prueba para las raíces unitarias
que explotan esta propiedad. Considere el cambio en y sobre períodos s,
y nótese que
𝛼̂ = 𝑇 −1 ∑𝑇𝑡=1(𝑦𝑡 − 𝑦𝑡−1 ).
Considere la siguiente estimación de la varianza del cambio en y sobre el valor de los valores s
anteriores:
ya que el tamaño de la muestra T se hace grande. Comparando estas expresiones con [17.8.3],
Si los datos realmente siguieron una caminata aleatoria de modo que 𝜓(𝐿) = 1, entonces
j(s) en [17.8.5] sería igual a 𝑠 ∙ 𝜎 2 para cualquier 𝑠, donde 𝜎 2 es la varianza de 𝑢𝑡 . Lo y MacKinlay
explotaron esta propiedad para sugerir pruebas de la hipótesis aleatoria basada en valores
alternativos de s. Ver Lo y MacKinlay (1989) y Cecchetti y Lam (1991) para la evidencia sobre las
propiedades de las muestras pequeñas de estas pruebas.
Se han propuesto una serie de otros enfoques para ensayar las raíces unitarias, incluyendo
Sargan y Bhargava (1983), Solo (1984), Barhgava (1986), Dickey y Pantula (1987), Parck y Choi
(1988), Schmidt y Phillips 1992). Véase Stock (1993) para una encuesta excelente. Chan y Wei
(1987), Phillips (1988) y Sowel (1990) han discutido la inferencia asintótica para procesos con un
comportamiento casi de raíz unitaria.
Recordemos de la Proposición 12.3 que si la densidad anterior del vector de coefi- cientes
desconocidos β y la precisión de innovación 𝜎 −2 es de la forma Normal-gamma de [12.1.9] y
[12.1.20], entonces la distribución posterior de β condicional a los datos Es multivariante t. Este
resultado se ajusta exactamente a una muestra finita y se mantiene independientemente de si el
proceso es estacionario. Por lo tanto, en el caso de la distribución anterior difusa representada 𝑁 =
𝜆 =0 y 𝑀−1 = 0, un bayesiano utilizaría esencialmente las estadísticas t y F habituales de la manera
estándar.
Los efectos de la desviación y la dispersión resultan cancelar, de modo que con una distribución
previa uniforme para el valor de p, habiendo observado 𝑝̂ = 0.95, es igualmente probable que el
valor verdadero de p sea mayor que 0.95 como el valor verdadero de p Menos de 0,95. Los efectos
de la desviación y la dispersión resultan cancelar, de modo que con una distribución uniforme
previa para el valor de p, habiendo observado 𝑝̂ = 0.95, es probable que el valor verdadero de p
sea mayor que 0.95 el valor verdadero de p sea Menor de 0.95 .
Naturalmente, se podría utilizar una distribución previa que reflejara más confianza en la
información previa sobre el valor de p. Mientras la distribución anterior fuera de la clase Normal-
gamma, esto nos haría desplazar la estimación puntual 0,94969 en la dirección de la media anterior y
reducir el error estándar y aumentar los grados de libertad según lo garantizado por la información
previa. Pero en la distribución todavía se utilizaría para interpretar la estadística resultante.
Phillips (1991a) señaló que existe una distribución previa para la cual la inferencia bayesiana
imita el enfoque clásico. Argumentó que la distribución difusa anterior de la Proposición 12.3 es en
realidad muy informativa en una regresión de series de tiempo y sugirió en cambio una distribución
previa debido a Jeffresys (1946). Aunque esta distribución previa tiene algunos argumentos teóricos
en su nombre, tiene la propiedad inusual en esta aplicación de que la distribución previa es función
del tamaño de la muestra T-Phillips propondría utilizar una distribución anterior diferente para
𝑓(𝑝) cuando el análisis se va a obtener un tamaño de muestra 50 que el análisis va a obtener un
tamaño de muestra 100. Esto no sería apropiado si la distribución anterior pretende representar la
información real disponible para el analista antes de ver los datos. Phillips (1991b, pp. 468-69)
argumentó que, para ser verdaderamente no-informativo, una distribución previa en este contexto
tendría esta propiedad, ya que cuanto mayor sea el valor verdadero de p, más rápidamente la
información sobre p contenida en la muestra {𝑦1 , 𝑦2 , … , 𝑦𝑇 } va a acumularse con el tamaño de la
muestra T. Sin duda, el concepto de lo que significa que una distribución anterior sea "no-
informativo" puede ser difícil y controversial15.
13 Recordemos de la proposición 12.3 (b) que los grados de libertad están dados por N * = N + T. Por lo tanto, la interpretación
bayesiana no es exactamente idéntica a la estadística t clásica, cuya degress de libertad sería T-k.
14 Stock (1991) ha propuesto recientemente una solución a este problema desde la perspectiva clásica. Otro enfoque consiste en confiar
en la distribución exacta de las muestras pequeñas, tal y como lo analizó Andrews (1993).
15 Ver muchos comentarios acompañando a Phillips (1991a).
∑𝑡𝑠=1 𝑢𝑠 = ∑𝑡𝑠=1 ∑∞
𝑗=0 𝜓𝑗 𝜀𝑠−𝑗
+ ⋯ + {𝜓0 𝜀1 + 𝜓1 𝜀0 + 𝜓2 𝜀−1 + ⋯ }
∑∞
𝑗=0|α𝑗 | = |𝜓1 + 𝜓2 + 𝜓3 + ⋯ | + |𝜓2 + 𝜓3 + 𝜓4 + ⋯ | + |𝜓3 + 𝜓4 + 𝜓5 + ⋯ | + ⋯
= ∑∞
𝑗=0 𝑗|𝜓𝑗 |
Por tanto,
+𝑇 −1 ∑𝑡𝑠=1( 𝑛1 − 𝑛0 ) 𝜀𝑡 . [17.A.3]
Pero
𝐿 2
𝑇 −1 ∑𝑡𝑡=1 𝜉2𝑇 = [𝑇 −2 (𝑢1 + 𝑢2 +. . +𝑢𝑡 )]2 → 𝜆2 ∙ [𝑊(1)] , [17.A.8]
implicando que
Pero
𝐿
𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 = [(𝑇 − 𝑗)/𝑇] ∙ (𝑇 − 𝑗)−1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 → (1/2){𝜆2 ∙ [𝑊(1)]2 − 𝑦0 }
Claramente, 𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 tiene la misma distribución asintótica, dado que
𝑝
𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 → 0 .
Pero de [17.3.9],
𝐿 1
𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡 = 𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡 − 𝑇 −3/2 ∑𝑇𝑡=1 𝜉𝑡−1 → 𝜆 ∙ ∫0 𝑊(𝑟)𝑑𝑟 .
en virtud de [17.5.5].
1 ([𝑇𝑟]∗ +1)
= 𝑇 1/2 ∫0 { 𝑇
} . 𝑋𝑇 (𝑟)𝑑𝑟
𝐿 1
→ 𝜎. 𝜓(1). ∫0 𝑟𝑊(𝑟)𝑑,
1 𝐿 1
= 𝑇 ∫0 {([𝑇𝑟]∗ + 1)/𝑇}. [𝑋𝑇 (𝑟)]2 𝑑𝑟 → [𝜎2 . 𝜓(1)]2 . ∫0 𝑟[𝑊(𝑟)]2 𝑑𝑟
Capítulo 17 Ejercicios
17.1 Sea {𝑢𝑡 } una secuencia iid con media cero y varianza 𝜎 2 , y dado 𝑦𝑡 = 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡
con 𝑦0 = 0. Deducir de [17.3.17] y [17.3.18] que
𝑇 −1/2 ∑ 𝑢𝑡 𝑁 0 1 1/2
[ −3/2 ∑ ] → 𝑁 ([ ] , 𝜎 2 [ ])
𝑇 𝑦𝑡−1 0 1/2 1/3
dónde ∑ indica sumación sobre t de 1 a T. Comparando este resultado con la Proposición 17.1,
argumenta que
𝑊(1) 0 1 1/2
[ ] ~𝑁 ([ ] , [ ])
∫ 𝑊(𝑟) 𝑑𝑟 0 1/2 1/3
dónde el signo integral denota integración sobre r de 0 a 1.
17.2 Phillips (1987) generalización del caso 1. Supongamos que los datos se generan a partir del
proceso 𝑦𝑡 = 𝑦𝑡−1 + 𝑢𝑡 , donde 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 , ∑𝑥𝑗 𝑗 ∙ |𝜓𝑗 | < ∞y 𝜀𝑡 es iid con media cero, varianza
𝜎 2 y finito cuarto momento. Considere la estimación MCO de la autorregresión 𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝑢𝑡 .
2
Sea 𝑝̂ 𝑇 = (∑ 𝑦𝑡−1 )−1 (∑ 𝑦𝑡−1 𝑦𝑡 ) la estimación MCO de p, la estimación MCO de la varianza del
𝐿 𝑦
(𝑏) 𝑇 2 . 𝜎̂𝑝̂𝑟 2 → 2 [ (0 )]2
𝜆 .∫ 𝑊 𝑟 𝑑𝑟
1 1 2
𝐿
2 1⁄2 {[𝑊(1)]2 −1} (𝜆 −𝑦0 )
(𝑐) 𝑡𝑇 → (𝜆 /𝑦0 ) { 2
1 + 2
1 };
{ [ ( )]2 } ⁄2
∫𝑊 𝑟 𝑑𝑟 𝜆2 {∫[𝑊(𝑟)]2 𝑑𝑟} ⁄2
1
1 𝐿 {[𝑊(1)]2 −1}
(𝑑) 𝑇(𝑝̂ 𝑟 − 1) − (𝑇 2 . 𝜎̂𝑝̂𝑟 2 ÷ 𝑠2𝑇 )(𝜆2 − 𝑦0 ) → 2 [ ( )]2 ;
2 ∫ 𝑊 𝑟 𝑑𝑟
1⁄ 1 1
(𝜆2 −𝑦0 ) 𝐿 {[𝑊(1)]2 −1}
(𝑒) (𝑦0 /𝜆2 ) 2
. 𝑡 𝑇 − {2 } 𝑥{𝑇 2 . 𝜎̂𝑝̂𝑟 2 ÷ 𝑠2𝑇 } → 2
1
𝜆 { [ ( )]2 } ⁄2
∫𝑊 𝑟 𝑑𝑟
Sugiera estimaciones de 𝑦0 y 𝜆2 que podrían usarse para construir las estadísticas en (d) y
(e), e indicar dónde se podrían encontrar estadísticas de valores críticos.
17.3. Generalización del Caso 4. Phillips y Perron (1988). Supongamos que los datos se generan a partir
del proceso 𝑦𝑡 = 𝛼 + 𝑦𝑡+1 + 𝑢𝑡 donde 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 y ∑𝑥𝑗 𝑗 ∙ |𝜓𝑗 | < ∞ con media cero, varianza
𝜎 2 y finito cuarto momento, y donde 𝛼 puede ser cualquier valor, incluyendo cero. Considere la
estimación de MCO de
𝑦𝑡 = 𝛼 + py𝑡−1 + 𝛿𝑡 + 𝑢𝑡
Como en [17.4.49], tenga en cuenta que los valores ajustados y la estimación de p de esta
regresión son idénticos a los de y MCO regresión de 𝑦𝑡 en una constante, la tendencia del tiempo, y
𝜉𝑡−1 ≡ y𝑡−1 − 𝛼(𝑡 − 1):
𝑦𝑡 = 𝛼∗ + p∗ 𝜉𝑡−1 + 𝛿∗ 𝑡 + 𝑢𝑡
1 𝑇 −3⁄2 ∑ 𝜀𝑡−1 𝑇 −2 ∑ 𝑡
−3 ⁄2
(𝑎) [𝑇 ∑ 𝜀𝑡−1 𝑇 −2 ∑ 𝜀 2 𝑡−1 𝑇 −5/2 ∑ 𝑡𝜀𝑡−1 ]
−2 ∑
𝑇 𝑇 𝑇 −5/2 ∑ 𝑡𝜀𝑡−1 𝑇 −3 ∑ 𝑡 2
1 0 0 1 ∫ 𝑊(𝑟)𝑑𝑟 1⁄2 1 0 0
𝐿
→ [0 𝜆 0] [∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑊(𝑟)𝑑𝑟] [0 𝜆 0]
0 0 1 1/2 ∫ 𝑟𝑊(𝑟)𝑑𝑟 1/3 0 0 1
𝑇 −1/2 ∑ 𝑢𝑡 𝑊(1)
𝐿 1 0 0 1
2 2
(𝑏) [ 𝑇 −1 ∑ 𝜀𝑡−1 𝑢𝑡 ] → [0 𝜆 0] [2 {𝑊(1) − [𝛾0 ⁄𝜆 ]}]
𝑇 −3/2 ∑ 𝑡𝑢𝑡 0 0 1 𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟
𝑊(1)
1 2
× [ 2 {[𝑤(1)] − [𝛾0 ⁄𝜆2 ]} ]
{{𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟}}
−1
1 ∫ 𝑊(𝑟)𝑑𝑟 1 ⁄2 0
𝜌
2
(𝑑) 𝑇 2 𝜎̂𝜌̂𝑇
→ (𝑠𝑇2 ⁄𝜆2 )[0 1 ]
0 ∫[ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑊(𝑟)𝑑𝑟] [1]
1/2 ∫ 𝑟𝑊(𝑟)𝑑𝑟 1/3 0
≡ (𝑠𝑇2 ⁄𝜆2 ). 𝑄
𝜌
(𝑒) 𝑡𝑇 → (𝜆2⁄𝛾0 )1⁄2 . 𝑇 (𝜌̂𝑇 − 1)⁄√𝑄
1
(𝑓) 𝑇(𝜌̂𝑇 − 1) − (𝑇 2 . 𝜎̂𝜌̂2𝑡 ÷ 𝑆𝑇2 )(𝜆2 − 𝛾0 )
2
−1 𝑊(1)
1 ∫ 𝑊(𝑟)𝑑𝑟 1⁄2
𝐿 1
→ [0 1 ]
0 [∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑊(𝑟)𝑑𝑟] ×[ {[𝑊(1)]2 − 1} ]
2
1/2 ∫ 𝑟𝑊(𝑟)𝑑𝑟 1/3 𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟
≡𝑉
1 𝐿
(𝑔) (𝛾0 ⁄𝜆2 )1⁄2 . 𝑡𝑇 − { (𝜆2 − 𝛾0 )⁄𝜆} ×{𝑇. 𝜎̂𝜌̂𝑡 ÷ 𝑠𝑇 } → 𝑉 ÷ √𝑄
2
Sugerir estimaciones de 𝑦0 y 𝜆2 que podrían utilizarse para construir las estadísticas de (f) y
(g), e indicar dónde se podrían encontrar valores críticos para estas estadísticas.
dónde 𝜀𝑡 es iid con media cero, varianza 𝜎 2 y finito cuarto momento y las raíces de (1 − 𝜁1 𝑧 −
𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 ) = 0 están fuera del círculo unitario. Defina 𝜆 = 𝜎/(1 − 𝜁1 − 𝜁2 − ⋯ −
𝜁𝑝−1 ) y 𝑦𝑡 = 𝐸{(∆𝑦𝑡 )(∆𝑦𝑡−𝑗 )}. Sea 𝜁̂1 ≡ (𝜁̂1.𝑇 , 𝜁̂2.𝑇 , … , 𝜁̂𝑝−1.𝑇 el (p - 1) x 1 vector de los
coeficientes MCO estimados sobre los cambios rezagados en y, y sea 𝜁 el valor verdadero
correspondiente. Demuestre que si el valor verdadero de p es unidad, entonces
−1
𝑉 0
𝑇 1/2 (𝜁̂1 − 𝜁) 𝐿 ℎ1
[ ] → [ 0𝑡 𝜆2 ∙ ∫[𝑊(𝑟)]2 𝑑𝑟
] [ 2 ]
𝑇(𝑝̂ 𝑇 − 1) 1/2𝜎𝜆[𝑊(1)] − 1
dónde V es la matriz [(p-1) x (p-1)] definida en [17.7.19] y ℎ1 ~𝑁(0, 𝜎 2 𝑉). Deducir de esto
que
1 𝐿
(𝑎) 𝑇 2 (𝜁̂1 − 𝜁) → 𝑁(0, 𝜎 2 𝑉 −𝑡 );
1 2
𝐿 2 {[𝑊(1)] − 1}
̂ ̂ ̂
(𝑏) 𝑇(𝑝̂ 𝑇 − 1)/(1 − 𝜁1.𝑇 − 𝜁2.𝑇 − ⋯ − 𝜁𝑝−1.𝑇 ) → ;
∫[𝑊(𝑟)]2 𝑑𝑟
Dónde 𝜀𝑡 es iid con media cero, varianza 𝜎 2 y cuarto momento finito y las raíces de (1 − 𝜁1 𝑧 −
𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 ) = 0 están fuera del círculo unitario.
(a) Muestre que los valores ajustados para esta regresión son idénticos a los de la
siguiente especificación transformada:
dónde
𝜉𝑡−1 ≡ 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡−1
Concluya que para 𝑦0 fijo las variables 𝑢𝑡 y 𝜉𝑡 satisfacen los supuestos de las Proposiciones 17.3 y
que y está dominado asintóticamente por una tendencia temporal.
(C) Sea 𝑦𝑡−1 ≡ 𝐸(𝑢𝑡 𝑢𝑡−1 ) y sea 𝜁̂𝑇 ≡ (𝜁̂1.𝑇 , 𝜁̂2.𝑇 , … , 𝜁̂𝑃−1.𝑇 )1 el (p-1) x 1 vector
de los coeficientes MCO estimados en (𝑢𝑡−1 , 𝑢𝑡−2 , … , 𝑢𝑡−𝑝+1 ); estos, por supuesto, son idénticos
a los coeficientes de (∆𝑦𝑡−1 , ∆𝑦𝑡−2 , … , ∆𝑦𝑡−𝑝+1 ) en la regresión original. Demuestre que si p = 1
y 𝛼 ≠ 0,
𝑇 1/2 (𝜁̂𝑇 − 𝜁) −1
𝑉 0 0 ℎ1
𝑇 1/2 (𝜇̂ 𝑇 − 𝜇) →𝑡
[0 𝑡
1 𝜇/2 ] [ℎ2 ]
3/2
𝑇 (𝑝̂ 𝑇 − 1) 0𝑡 𝜇/2 𝜇2 /3 ℎ3
[ ]
dónde
ℎ1 0 𝑉 0 0
𝑡
[ℎ2 ] ~𝑁 ([0] , 𝜎 [0
2 1 𝜇/2 ])
ℎ3 0 0𝑡 𝜇/2 𝜇2 /3
y V es la matriz en [17.7.19]. Concluya, como en el análisis de la sección 16.3, que cualquier prueba
MCO t o F en la regresión original puede compararse con las tablas estándar t y F de la deducción y
la inferencia asintóticamente válida.
(a) Muestre que los valores ajustados de esta regresión son numéricamente idénticos
a los de la siguiente especificación:
𝜉𝑡−1 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡−1
Concluya que para 𝑦0 fijo las variables 𝑢1 y 𝜉𝑡 satisfacen los supuestos de la Proposición 17.3.
≡ 𝑉;
𝐿
𝑇(𝑝̂ 𝑇 − 1)/𝜎̂𝜌̂𝑇 → 𝑉 ÷ √𝑄
Dónde
(A) W (0) = 0
(B) Para cualquier fecha 0 ≤ 𝑟1 < 𝑟2 < ⋯ 𝑟3 ≤ 1, los cambios [𝑊(𝑟2) − 𝑊(𝑟1)], [𝑊(𝑟3) −
𝑊(𝑟2)], … , [𝑊(𝑟𝑘) − 𝑊(𝑟𝑘 − 1)] son Gaussian multivariado independiente con
[𝑊(𝑠) − 𝑊(𝑠)]~𝑁(0, (𝑠 − 𝑟) ∙ 𝐼𝑛 );
Supongamos que xxx es un proceso de tiempo discreto unidimensional con una media de cero y
una varianza unitaria, y
Donde [𝑇𝑟]∗ denota el entero mayor que es menor o igual que Tr. El teorema del límite central
funcional indica que como 𝑇 → ∞,
𝐿
√𝑇𝑥̅ 𝑇∗ (∙) → 𝑤(∙)
0 565
𝑥
Esto se generaliza fácilmente. Supongamos que {𝑣}𝑡=1 es un proceso de vector iid n-dimensional
𝑡)
con 𝐸(𝑣𝑡 )=0 y 𝐸(𝑣𝑡 𝑣𝑡 = 𝐼𝑛 y que
Entonces
𝐿
√𝑇𝑥̅ 𝑇∗ (∙) → 𝑤(∙) [18.1.1]
𝑥
A continuación, considere un proceso iid n-dimensional {𝜀𝑡 }𝑡=1 con media cero y matriz de
varianza-covarianza dada por Ω. Sea P cualquier matriox tal que
Ω = PP𝑡 [18.1.12]
Por ejemplo, P podría ser el factor Cholesky de Ω. Podríamos pensar en xxx como generado a
partir de
𝜀𝑡 = 𝑃𝑣𝑡 [18.1.3]
Para 𝑣𝑡 iid con media cero y varianza 𝐼𝑛 . Para ver por qué, observe que [18.1.3] implica que 𝜀𝑡 es iid
con media cero y varianza dada por
= 𝑃 ∙ 𝑇 −1 (𝑣1 + 𝑣1 + ⋯ + 𝑣[𝑇𝑟]∗ )
= 𝑃 ∙ 𝑥̅ 𝑇∗ (𝑟).
Se deduce entonces de [18.1.1] y el teorema de mapeado continuo que
𝐿
√𝑇𝑥̅ 𝑇∗ (∙) → 𝑃 ∙ 𝑊(∙) [18.1.4]
Para r dado, la variable 𝑃 ∙ 𝑊(𝑟) representa P veces un vector N(0,r∙ 𝐼𝑛 ) y por lo tanto tiene una
distribución 𝑁(0, 𝑟 ∙ 𝑃𝑃𝑡 ) = 𝑁(0, 𝑟 ∙ Ω). El proceso 𝑃 ∙ 𝑊(∙) se describe como movimiento
browniano n-dimensional con matriz de varianza xxx.
El teorema del límite central funcional también puede aplicarse a procesos vectoriales dependientes
en serie usando una generalización de la Proposición 17.21 . Suponer que
Si 𝑢𝑡 satisface [18.1.5] donde 𝜀𝑠 es iid con media cero, varianza dada por
Ω = PP𝑡 , y finitos cuartos momentos, entonces es directo generalizar al vector procesar las
afirmaciones de la Proposición 17.3 sobre procesos univariados. Por ejemplo, si definimos
1 [𝑇𝑟]∗
𝑥𝑇 (𝑟) ≡ (7) ∑𝑠=1 𝑢𝑠 [18.1.7]
Donde (1) ∙ 𝑃 ∙ 𝑊(∙) se distribuye 𝑁(0, 𝑟[(1)] ∙ Ω ∙ [𝜓(1)]𝑡 ) a través de realizaciones. Además,
para 𝜉𝑡 ≡ 𝑢1 + 𝑢2 + 𝑢1 + ⋯ + 𝑢𝑡 , tenemos como en [17.3.15] que
1 𝐿 1
𝑇 −3/2 ∑𝑇𝑠=1 𝜉𝑇−1 = ∫0 √𝑇 ∙ 𝑋𝑇 (𝑟)𝑑𝑟 → 𝜓(1) ∙ 𝑃 ∙ ∫0 𝑊(𝑟)𝑑𝑟 [18.1.9]
Generalizar el resultado (e) de la Proposición 17.3 requiere un poco más de cuidado. Considere por
ejemplo el caso más simple, donde 𝑣𝑡 es vector iid (n x 1) con media cero y 𝐸(𝑣𝑡 𝑣𝑡𝑡 ) = 𝐼𝑛 . Definir
𝑣 + 𝑣2 + ⋯ + 𝑣𝑡 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … , 𝑇
𝜉𝑡 ≡ { 1
0 𝑝𝑎𝑟𝑎 𝑡 = 0
∗
Utilizamos los símbolos 𝑣𝑡 y 𝜉𝑇−1 aquí en lugar de 𝑢𝑡 y 𝜉𝑡 para enfatizar que 𝑣𝑡 es idd con matriz
de varianza dada por 𝐼𝑛 . Para el caso de varianza de la unidad iid escalar 𝑛 = 1, 𝜆 = 𝑦0 = 1), el
resultado (e) de la Proposición 17.3 se sostiene que
𝐿
𝑇 −1 ∑𝑇𝑠=1 𝜉𝑇−1
∗
𝑣𝑡 → 1/2{[𝑊(1)]2 − 1} [18.1.10]
Ver el resultado (d) de la Proposición 18.1 a seguir. La expresión [18.1.11] generaliza el resultado
escalar [18.1.10] a una matriz (n x n). La fila i, columna i elemento diagonal de esta expresión matriz
indica que
𝐿
∗ ∗
𝑇 −1 ∑𝑇𝑠=1{𝜉𝑖,𝑡−1 𝑣𝑖𝑡 + 𝑣𝑖𝑡 𝜉𝑖,𝑡−1 } → [𝑊𝑖 (1)]2 − 1 [18.1.12]
∗
Donde 𝜉𝑖,𝑡−1 , 𝑣𝑖𝑡 𝑦 𝑊𝑖 (𝑟) denotan el i-ésimo elemento de los vectores 𝜉𝑡∗ y 𝑊 (𝑟),
respectivamente. La fila i, columna j off-diagonal elemento de [18.1.11] afirma que
𝐿
∗ ∗
𝑇 −1 ∑𝑇𝑡=1{𝜉𝑗,𝑡−1 𝑣𝑖𝑡 + 𝑣𝑖𝑡 𝜉𝑗,𝑡−1 } → [𝑊𝑖 (1)] ∙ [𝑊𝑗(1)] [18.1.13]
Esta expresión hace uso de la diferenciación del movimiento browniano, denotada 𝑑𝑊𝑗 (𝑟).
Una definición formal del 𝑑𝑊𝑗 (𝑟) diferencial y la derivación de [18.1.14] están algo implicados -
vea Phillips (1988) para los detalles. Para nuestros propósitos, simplemente consideraremos el lado
derecho de [18.1.14] como una notación compacta para indicar la distribución limitante de la
secuencia representada por el lado izquierdo. En la práctica, esta distribución se construye mediante
la generación de Monte Carlo de la estadística en el lado izquierdo de [18.1.14] para T
adecuadamente grande.
𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 = ∑ 𝜓𝑠 𝜀𝑡−𝑠
𝑡=1
(𝑠)
Donde {𝑆 ∙ 𝜓𝑠 }∗𝑠=0 es absolutamente sumable, es decir ∑𝑥𝑠=0 𝑠 ∙ |𝜓𝑖𝑗 | < ∞ para cada i, j = 1, 2, ...,
n para 𝜓 (𝑠)
𝑠
la fila i, columna j elemento de 𝜓 𝑠 . Supongamos que {𝜀𝑡 } es una secuencia iid con cero
medio, finito frourth momentos, y 𝐸(𝜀𝑡 𝜀𝑡𝑡 ) = Ω una matriz definida positiva. Sea Ω = PP𝑡 la
factorización de Cholesky de Ω, y defina
2Estos resultados o similares se obtuvieron por Phillips y Durlauf (1986), Park y Phillips (1988, 1989), Sims, Stock y Watson (1990) y
Phillips y Solo (1992).
Con 𝜉0 ≡ 0. Entonces
𝑇
𝐿
(𝑎) 𝑇 −1⁄2
∑ 𝑢𝑡 → 𝐴. 𝑊(1);
𝑡=1
𝑇
𝑃
(𝑏) 𝑇 −1
∑ 𝑧𝑡 𝑠0 → 𝑁(0, 𝜎0 . 𝑉); 𝑝𝑎𝑟𝑎 𝑖 = 0,1,2 … , 𝑛;
𝑡=1
𝑇
𝑃
(𝑐) 𝑇 −2 𝑡
∑ 𝑢𝑡 𝑢𝑡−𝑠 → Г; 𝑝𝑎𝑟𝑎 𝑠 = 0,1,2 … ;
𝑡=1
𝑇
(𝑑) 𝑇 −1 𝑡
∑(𝜉𝑡−1 𝑢𝑡−𝑠
𝑡=1
𝐴. [𝑤(1)]. [𝑤(1)]′ . 𝐴′ − Г0 𝑝𝑎𝑟𝑎 𝑠 = 0
𝐿 𝑠−1
+ 𝑢𝑡−𝑠 𝜉′𝑡−1 ) → {
𝐴. [𝑤(1)]. [𝑤(1)]′ . 𝐴′ − ∑ Г𝑣 𝑝𝑎𝑟𝑎 𝑠 = 1,2, … ;
𝑣=−𝑠+1
𝑇 1 ∞
𝐿
(𝑒) 𝑇 −1
∑ 𝜉𝑡−1 𝑢𝑡𝑡 → 𝐴. {∫ [𝑊(𝑟)] [𝑑𝑤(𝑟)]′} . 𝐴 + ∑ Г′𝑣 ; ′
𝑡=1 0 𝑡=1
𝑇 1
𝐿
(𝑓) 𝑇 −1
∑ 𝜉𝑡−1 𝜀𝑡𝑡 → 𝐴. {∫ [𝑊(𝑟)] [𝑑𝑤(𝑟)]′} . 𝑃′ ;
𝑡=1 0
𝑇 1
𝐿
(𝑔) 𝑇 −3/2
∑ 𝜉𝑡−1 → 𝐴. ∫ 𝑊(𝑟)𝑑𝑟 ;
𝑡=1 0
𝑇 1
𝐿
(ℎ) 𝑇 −3/2
∑ 𝑡𝑢𝑡−1 → 𝐴. {𝑤(1) − ∫ 𝑊(𝑟)𝑑𝑟} 𝑝𝑎𝑟𝑎 𝑠 = 0,1,2, … ;
𝑡=1 0
𝑇 1
𝐿
−2 ′
(𝑖) 𝑇 ∑ 𝜉𝑡−1 𝜀𝑡−1 → 𝐴. {∫ [𝑊(𝑟)] [𝑊(𝑟)]′𝑑𝑟} . 𝐴′;
𝑡=1 0
𝑇 1
𝐿
−3 ′
(𝑘) 𝑇 ∑ 𝑡𝜉𝑡−1 𝜉𝑡−1 → 𝐴. {∫ 𝑟[𝑊(𝑟)] . [𝑊(𝑟)]′𝑑𝑟} . 𝐴′;
𝑡=1 0
𝑇
(𝑘) 𝑇 −(𝑣+1) ∑ 𝑡 𝑣 → 1⁄(𝑣 + 1) 𝑝𝑎𝑟𝑎 𝑣 = 0,1,2, …
𝑡=1
Donde 𝑦𝑡 denota una matriz (n x n) para s = 1, 2, ..., p y α y ε𝑡 son (n x1) vectores. El álgebra
escalar en [17.7.4] funciona perfectamente bien para matrices, estableciendo que para cualquier
valor de Φ1 , Φ2 , … , Φ𝑝 los siguientes polinomios son equivalentes:
[18.2.2]
Donde 𝑃 ≡ Φ1 , Φ2 , … , Φ𝑝
[18.2.3]
Que cualquier proceso VAR (p) [18.2.1] siempre puede escribirse en la forma
La hipótesis nula considerada a pesar de esta sección es que la primera diferencia de y sigue
un proceso VAR(p-1):
O, de [18.2.3],
Φ1 , Φ2 , … , Φ𝑝 = 𝐼𝑛 [18.2.8]
Recordando la Proposición 10.1, se dice que la autorregresión del vector [18.2.1] contiene al menos
una raíz unitaria del siguiente determinante es cero:
|𝐼𝑛 − Φ1 − Φ2 − ⋯ − Φ𝑝 | = 0 [18.2.9]
Tenga en cuenta que [18.2.8] implica [18.2.9] pero [18.2.9] no implica [18.2.8]. Por lo tanto, esta
sección está considerando sólo un subconjunto de la clase de vector autoregresions que contiene
una raíz unitaria, a saber, la clase descrita por [18.2.8]. Las autorregresiones vectoriales para las que
[18.2.9] contiene, pero [18.2.8] no se considerarán en el Capítulo 19.
Esta sección comienza con una generalización vectorial del caso del Capítulo 17.
∆𝑦𝑡 = 𝑢𝑡 [18.2.11]
donde
−1
𝑢𝑡 = (𝐼𝑛 − 𝜁1 𝐿 − 𝜁1 𝐿2 − ⋯ − 𝜁𝑝−1 𝐿𝑝−1 ) 𝜀𝑡
Si 𝜀𝑡 es iid con media cero, matriz de varianza-covarianza definida positiva Ω = PP𝑡 , y define
finitos cuartos momentos, entonces 𝑢𝑡 satisface las condiciones de la Proposición 18.1 con
−1
𝜓(𝐿) = (𝐼𝑛 − 𝜁1 𝐿 − 𝜁1 𝐿2 − ⋯ − 𝜁𝑝−1 𝐿𝑝−1 ) [18.2.12]
𝑦𝑡 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡
Recordemos que los valores ajustados de una VAR estimada en los niveles [18.2.1] son idénticos a
los cálculos ajustados para VAR estimados en las formas de [18.2.5]. Considere la ecuación i en
[18.2.5], que escribimos como
𝜁̂ ̂
𝑖1 − 𝜁𝑖1
𝜁̂ ̂
𝑖2 − 𝜁𝑖2
⋮
𝑏𝑇 − 𝛽 = ̂ [18.2.15]
𝜁𝑖𝑝−1 − 𝜁̂ 𝑖𝑝−1
𝛼̂𝑖
[ 𝜌̂𝑖 − 𝑒𝑖 ]
∑ 𝑋𝑡 𝑋𝑡´
´ ´ ´ ´
∑ 𝑢𝑡−1 𝑢𝑡−1 ∑ 𝑢𝑡−1 𝑢𝑡−2 … ∑ 𝑢𝑡−1 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−1 ∑ 𝑢𝑡−1 𝑦𝑡−1
´ ´
… ´ ´
∑ 𝑢𝑡−2 𝑢𝑡−1 ∑ 𝑢𝑡−2 𝑢𝑡−2 ∑ 𝑢𝑡−2 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−2 ∑ 𝑢𝑡−2 𝑦𝑡−1
⋮ ⋮ … ⋮ ⋮ ⋮
= ∑𝑢 ´ ´ ´
… ∑ 𝑢𝑡−𝜌+1 𝑢𝑡−𝜌+1 ´
𝑡−𝜌+1 𝑢𝑡−1 ∑ 𝑢𝑡−𝜌+1 𝑢𝑡−2 ∑ 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−𝜌+1 𝑦𝑡−1
´ ´ ´ ´
∑ 𝑢𝑡−1 ∑ 𝑢𝑡−2 … ∑ 𝑢𝑡−𝜌+1 𝑇 ∑ 𝑦𝑡−1
´ ´
… ´ ∑ 𝑦𝑡−1 ´
[ ∑ 𝑦𝑡−1 𝑢𝑡−1 ∑ 𝑦𝑡−1 𝑢𝑡−2 ∑ 𝑦𝑡−1 𝑢𝑡−𝜌+1 ∑ 𝑦𝑡−1 𝑦𝑡−1 ]
[18.2.16]
∑ 𝑢𝑡−1 𝜀𝑖𝑡
∑ 𝑢𝑡−2 𝜀𝑖𝑡
⋮
𝑋𝑡 𝜀𝑡𝑡 = ∑ 𝑢 [18.2.17]
𝑡−𝑝−1 𝜀𝑖𝑡
∑ 𝜀𝑖𝑡
[ ∑ 𝑦𝑡−1 𝜀𝑖𝑡 ]
Nuestra convención anterior añadiría un subíndice T al coeficiente estimado xxx en
[18.2.15]. Para esta discusión, el subíndice T será suprimido para evitar una notación excesivamente
engorrosa.
𝑇 −2 ∙ 𝐼𝑛(𝑝−1) 0 0
𝑌𝑇
≡[ 0 𝑇 1/2
0 ] [18.2.18]
(𝑛𝑝 + 1)𝑥 (𝑛𝑝 + 1)
0 0 𝑇 ∙ 𝐼𝑛
𝑇 −1 ∑ 𝑢𝑡−1 𝑢𝑡−1
´
𝑇 −1 ∑ 𝑢𝑡−1 𝑢𝑡−2
´
… 𝑇 −1 ∑ 𝑢𝑡−1 𝑢𝑡−𝜌+1
´
𝑇 −1 ∑ 𝑢𝑡−1 𝑇 −3/2 ∑ 𝑢𝑡−1 𝑦𝑡−1
´
…
𝑇 −1 ∑ 𝑢𝑡−2 𝑢𝑡−1
´
𝑇 −1 ∑ 𝑢𝑡−2 𝑢𝑡−2
´
𝑇 −1 ∑ 𝑢𝑡−2 𝑢𝑡−𝜌+1
´
𝑇 −1 ∑ 𝑢𝑡−2 𝑇 −3/2 ∑ 𝑢𝑡−2 𝑦𝑡−1
´
⋮ ⋮ … ⋮ ⋮ ⋮
𝑇 −1 ´
∑ 𝑢𝑡−𝜌+1 𝑢𝑡−1 𝑇 −1 ´
∑ 𝑢𝑡−𝜌+1 𝑢𝑡−2 … 𝑇 −1 ´
∑ 𝑢𝑡−𝜌+1 𝑢𝑡−𝜌+1 𝑇 −1
∑ 𝑢𝑡−𝜌+1 𝑇 −3/2 ´
∑ 𝑢𝑡−𝜌+1 𝑦𝑡−1
𝑇 −1 ∑ 𝑢𝑡−1
´
𝑇 −1 ∑ 𝑢𝑡−2
´
… 𝑇 −1 ∑ 𝑢𝑡−𝜌+1
´
1 𝑇 −3/2 ∑ 𝑦𝑡−1
´
… 𝑇 −3/2 ∑ 𝑦𝑡−1
[ 𝑇 −3/2 ∑ 𝑦𝑡−1 𝑢𝑡−1
´ ´
∑ 𝑦𝑡−1 𝑢𝑡−2 𝑇 −3/2 ∑ 𝑦𝑡−1 𝑢𝑡−𝜌+1
´
𝑇 −3/2 ∑ 𝑦𝑡−1 𝑦𝑡−1
´
]
𝐿 𝑉 0
→[
0 𝑄
] [18.2.20]
donde
Γ0 Γ1 ⋯ Γ𝑝−2
V Γ Γ ⋯ Γ𝑝−3
≡ [ −1 ] [18.2.21]
(𝑛(𝑝 − 1) 𝑥 𝑛(𝑝 − 1)) ⋮ ⋮ ⋯ ⋮
Γ−𝑝+2 Γ−𝑝+3 ⋯ Γ0
Γ𝑠 ≡ 𝐸(∆𝑦𝑡 )(∆𝑦𝑡−𝑠 )
Q 1 [∫ 𝑊(𝑟)𝑑𝑟]𝑡 ∙ Λ
≡[ ] [18.2.22]
(𝑛 + 1)𝑥 (𝑛 + 1)) Λ ∙ ∫ 𝑊(𝑟)𝑑𝑟 Λ ∙ {∫[𝑊(𝑟)] ∙ [𝑊(𝑟)]𝑡 ∙ Λ𝑡 }
Con 𝐸(𝜀𝑡 𝜀𝑡𝑡 ) = 𝑃𝑃𝑡 . Del mismo modo, la aplicación de los resultados (a), (b) y (f) de la
Proposición 18.1 al segundo término en [18.2.19] revela
ℎ1
~𝑁(0, 𝜎𝑖𝑖 𝑉)
[𝑛(𝑝 − 1)𝑥1]
𝜎𝑖𝑖 = 𝐸(𝜀𝑖𝑖2 )
𝑒𝑗𝑡 𝑃𝑊(1)
ℎ2
=[ ]
[𝑛(𝑝 − 1)𝑥1] Λ ∙ {∫[𝑊(𝑟)][𝑑𝑊(𝑟)]𝑡 } ∙ 𝑃𝑡 𝑒𝑗
Para 𝑒𝑗 la i-ésima columna de 𝐼𝑛 . Los resultados [18.2.19], [18.2.20] y [18.2.24] establecen que
𝜁̂𝑖1 − 𝜁𝑖1
𝜁̂𝑖2 − 𝜁𝑖2 𝐿
√𝑇 → 𝑉 −1 ℎ1 ~𝑁(0, 𝜎𝑖𝑖 𝑉 −1 ) [18.2.26]
⋮
𝜁̂
[ 𝑖𝑝−1 𝜁𝑖𝑝−1 ]
−
Esto significa que la forma de Wald de la prueba MCO 𝑥 2 de cualquier hipótesis lineal que
implique sólo los coeficientes en ∆𝑌𝑡−𝑠 tiene la distribución 𝑥 2 asintótica habitual, como se
invita al lector a confirmar en el ejercicio 18.1.
Por lo tanto, como en el caso de una autorregresión univariada, si el objetivo es estrimate los
parámetros 𝜁𝑖1 , 𝜁𝑖2 , … , 𝜁𝑖𝑝−1 o probar hipótesis sobre estos coeficientes, no hay necesidad sobre la
base de las distribuciones asintóticas para estimar el VAR en la diferencia forma [18.2.27] más bien
Que en la forma de niveles,
𝑌𝑖𝑡 = 𝜁̂𝑖1 ∆𝑌𝑡−1 + 𝜁̂𝑖2 ∆𝑌𝑡−2 + ⋯ + 𝜁̂𝑖,𝑝−1 ∆𝑌𝑡−𝑝+1 + 𝛼𝑖 + 𝑝𝑗𝑡 𝑦𝑡−1 + 𝜖𝑖𝑡 [18.2.28]
Sin embargo, las distribuciones de muestras pequeñas pueden mejorarse si se estima el VAR en las
diferencias, suponiendo que la restricción [18.2.8] sea válida.
Aunque la distribución asintótica si el coeficiente de 𝑦𝑡−1 es no gaussiana, el hecho de que esta
estimación converge a la tasa T significa que una prueba de hipótesis que implica una combinación
lineal única de 𝑝𝑖 y 𝜁𝑖1 , 𝜁𝑖2 , … , 𝜁𝑖𝑝−1 será dominada asintóticamente por los coeficientes con la tasa
de convergencia más lenta, es decir, 𝜁𝑖1 , 𝜁𝑖2 , … , 𝜁𝑖𝑝−1 y de hecho tendrá la misma distribución
asintótica como si se usara el valor verdadero de p=𝐼𝑛 . Por ejemplo, si la VAR se estima en niveles
de forma [18.2.1], las matrices de coeficientes individuales Φ𝑠 están relacionadas con los
coeficientes para el VAR transformado [18.2.5] por
̂ 𝑝 = −𝜁̂𝑝−1
Φ [18.2.29]
̂ ̂ ̂
Φ𝑠 = 𝜁𝑠 − 𝜁𝑝−1 𝑝𝑎𝑟𝑎 𝑠 = 2, 3, … , 𝑝 − 1 [18.2.30]
Φ̂ 1 = 𝑝̂ − 𝜁̂1 [18.2.31]
Dado que √𝑇(𝜁̂𝑠 − 𝜁𝑠 ) es asintóticamente gaussiano y como 𝑝̂ es 𝑂𝑝 (𝑇 −1), se sigue que √𝑇(Φ ̂𝑠 −
Φ𝑠 ) es asintóticamente gaussiana para s = 1, 2, ..., p suponiendo que 𝑝 ≥ 2. Esto significa que si la
VAR se estima en niveles de la forma estándar, cualquier coeficiente autorregresivo individual
converge a la velocidad √𝑇 a una variable gaussiana y la prueba t usual de una hipótesis que implica
ese coeficiente es asintóticamente válida.
Además, la prueba F que implica una combinación lineal diferente de Φ1 + Φ2 + ⋯ + Φ𝑝
tiene la distribución asintótica usual.
Otro ejemplo importante es probar la hipótesis nula de que los datos siguen un VAR(Po) con 𝑃𝑜 ≥
1 frente a la alternativa de un VAR(P) con 𝑃 > 𝑃𝑜. Considere la estimación MCO de la i-ésima
ecuación de la VAR como se representa en los niveles,
𝑡 𝑡 𝑡
𝑌𝑖𝑡 = 𝛼𝑖 + Φ𝑖1 𝑌𝑡−1 + Φ𝑖2 𝑌𝑡−2 + ⋯ + Φ𝑖𝑝 𝑌𝑡−𝑝 + 𝜖𝑖𝑡 [18.2.32]
La forma Wald de la prueba MCO 𝑥 2 de esta hipótesis será numéricamente idéntica a la prueba
de
Dado que hemos visto que la prueba F usual de [18.2.34] es asintóticamente válida y
dado que una prueba de [18.2.33] se basa en la estadística de prueba idéntica, se sigue
que la prueba de Wald usual para evaluar el número de rezagos a Incluir en la regresión
es perfectamente adecuado cuando la regresión se estima en los niveles de forma como
en [18.2.32].
Por supuesto, algunas pruebas de hipótesis basadas en una VAR estimada en niveles no
tendrán la distribución asintótica habitual. Un ejemplo importante es una prueba de
Granger-causalidad de la hipótesis nula de que algunas de las variables en 𝑦𝑡 no
𝑡 𝑡
aparecen en la regresión explicando 𝑦𝑖𝑡 . Partición 𝑦𝑡 = (𝑦1𝑡 , 𝑦2𝑡 ) donde 𝑦2𝑡 denota el
subconjunto de variables que no afectan xxx bajo la hipótesis nula. Escriba la regresión
en el nivel como
𝑡
𝑦𝑖𝑡 : 𝜔𝑖1 𝑡
𝑌1,𝑡−1 + 𝜔𝑖1 𝑡
𝑌2,𝑡−1 + 𝜔𝑖2 𝑡
𝑌1,𝑡−2 + 𝜔𝑖2 𝑌2,𝑡−2 + ⋯ + 𝜔𝑝𝑡 𝑌1,𝑡−𝑝 + 𝜆𝑡𝑖1 𝑌2,𝑡−𝑝 + 𝛼𝑖 + 𝜖𝑖𝑡
[18.2.36]
donde
−1
𝛿 ≡ (𝐼𝑛 − 𝜉1 − 𝜉2 − ⋯ − 𝜉𝑝−1 ) 𝛼 [18.2.40]
𝑢𝑡 ≡ 𝜓(𝐿)𝜀𝑡
−1
𝜓(𝐿) ≡ (𝐼𝑛 − 𝜉1 𝐿 − 𝜉2 𝐿2 − ⋯ − 𝜉𝑝−1 𝐿𝑝−1 ) [18.2.41]
En contraste con el caso anterior, en el que se asumió que 𝛿 = 0, aquí suponemos que al menos
uno y posiblemente todos los elementos de 𝛿 son distintos de cero.
Puesto que se trata de una generalización vectorial del caso 3 para la autorregresión univariada
considerada en el Capítulo 17, el primer pensamiento podría ser que, debido a la deriva no nula en
los I (1) regresores, si todos los elementos de 𝛿 son no-cero, entonces todos Los coeficientes
tendrán la distribución limitante gaussiana usual. Sin embargo, esto resulta no ser el caso. Cualquier
elemento 𝑌𝑗𝑡 individual del vector 𝑌𝑡 está dominado por una tendencia determinista y si 𝑌𝑗𝑡
apareció solo en la regresión, los resultados asintóticos serían los mismos que si 𝑌𝑗𝑡 fueran
reemplazados por la tendencia temporal t. De hecho, como observó West (1988) en una regresión
en la que hay un único regresor I (1) con deriva no nula y en la que todos los demás regresores son
I (0), todo el coeficiente sería asintóticamente gaussiano y las pruebas F serían Tienen su
distribución límite habitual. Esto puede demostrarse usando esen- cialmente el mismo álgebra que
en la autorregresión univariada analizada en el caso 3 del capítulo 17. Sin embargo, como lo
señalaron Sims, Stock y Watson (1990), en [18.2.38] hay n diferentes I (1) (Los n elementos de
𝑌𝑡−1 ), y si cada uno de ellos fueron reemplazados por 𝛿𝑗 (𝑡 − 1), los regresores resultantes serían
perfectamente colineales. MCO ajustará n combinaciones lineales separadas de 𝑌𝑡 para intentar
minimizar la suma de los residuos cuadrados, y mientras que una de ellas captará la tendencia
temporal determinista t, las otras combinaciones lineales corresponden a I (1) variables sin deriva.
Para desarrollar la correcta distribución asintótica, es conveniente trabajar con una transformación
de [18.2.38] que aísle estas diferentes combinaciones lineales. Obsérvese que la ecuación de
diferencia [18.2.39] implica que
𝑦𝑡 = 𝑦0 + 𝛿 ∙ 𝑡 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 [18.2.42]
Supongamos, por ejemplo, que la n-ésima variable del sistema presenta una deriva no
nula (𝛿 ≠ 0); Si además 𝛿 ≠ 0 para i=1, 2, …, n resulta ser irrelevante, suponiendo que
[18.2.8] se cumple. Definir
∗
𝑦1𝑡 ≡ 𝑦1𝑡 − (𝛿1 /𝛿𝑛 )𝑦𝑛𝑡
∗
𝑦2𝑡 ≡ 𝑦1𝑡 − (𝛿2 /𝛿𝑛 )𝑦𝑛𝑡
⋮
∗
𝑦𝑛−1.𝑡 ≡ 𝑦𝑛−1,𝑡 − (𝛿𝑛−1 /𝛿𝑛 )𝑦𝑛𝑡
∗
[ 𝑦𝑛𝑡 ≡ 𝑦𝑛,𝑡 ]
Así, para i = 1, 2, ..., n-1,
∗
𝑦1𝑡 = [𝑦𝑖0 + 𝛿𝑖 𝑡 + 𝑢𝑖1 + 𝑢𝑖2 + ⋯ + 𝑢𝑖𝑡 ]
𝜉𝑖𝑡∗ = 𝑢𝑖1
∗ ∗
+ 𝑢𝑖2 ∗
+ ⋯ + 𝑢𝑖𝑡
∗ ∗
𝑢𝑖𝑡 = 𝑢𝑖1 − (𝛿𝑖 /𝛿𝑛 )𝑢𝑛𝑡
∗
𝑢𝑛−1,𝑡 𝑒𝑛 [(𝑛 − 1)𝑥1].
𝑢𝑡 = 𝜓 ∗ (𝐿)𝜀𝑡
para
1 0 0 … 0 −(𝛿1 /𝛿𝑛 )
𝐻 0 1 0 … 0 −(𝛿2 /𝛿𝑛 )
=[ ]
[(𝑛 − 1)𝑥𝑛] ⋮ ⋮ ⋮ … ⋮ ⋮
0 0 0 … 1 −(𝛿𝑛−1 /𝛿𝑛 )
𝑥 𝑥
Puesto que {𝑆 ∙ 𝜓𝑠 }𝑥=0 es absolutamente sumatable, también lo es {𝑆 ∙ 𝜓𝑠 }𝑥=0 . Por lo tanto, el [n(-
1)x1] vector 𝑦𝑡∗ ≡ (𝑦1∗ , 𝑦2∗ , … , 𝑦𝑛−1
∗
) tiene las mismaspropiedades asintóticas que el vector 𝜉 en la
Proposición 18.1 con la matriz 𝜓(1) en la Proposición 18.1 reemplazada por 𝜓 ∗ (1).
Si tuviéramos observaciones directas sobre 𝑦𝑡∗ y u, los valores ajustados si el VAR estimado a partir
de [18.2.38] sería claramente idéntico a los de la estimación de
∗
𝑦𝑡 = 𝜁1 𝑢𝑡−1 + 𝜁2 𝑢𝑡−2 + ⋯ + 𝜁𝑝−1 𝑢𝑡−𝑝+1 + 𝛼 ∗ + 𝑝∗ 𝑦𝑡−1 + 𝑦 ∙ 𝑦𝑛,𝑡−1 + 𝜀𝑡 [18.2.43]
𝑥𝑡∗ ′ ′ ′ ∗′ ′
≡ (𝑢𝑡−1 , 𝑢𝑡−2 , … , 𝑢𝑡−𝑝+1 , 1, 𝑦𝑡−1 , 𝑦𝑛,𝑡−1 )′
[(𝑛 − 1)𝑥𝑛]
𝑇 1⁄2 𝐼1(𝑝−1) 0 0 0
ϓ𝑇 1⁄2
= 0′ 𝑇 0′ 0
[(𝑛𝑝 + 1)𝑥(𝑛𝑝 + 1)] 0 0 𝑇. 𝐼𝑛−1 0
[ 0′ 0 0′ 𝑇 3/2 ]
𝐴∗
[(𝑛+1)𝑥𝑛] = 𝜓 ∗ (1). 𝑃, [18.2.45]
𝑉 0 0 0
′
𝐿 0′ 1 [∫ 𝑊(𝑟)𝑑𝑟] . 𝐴∗ ′ 𝛿0 /2
→
0 𝐴∗ ∫ 𝑊(𝑟)𝑑𝑟 𝐴∗ . {∫ [𝑊(𝑟)]. [𝑊(𝑟)]′𝑑𝑟}. 𝐴∗′ 𝛿0 𝐴∗ ∫ 𝑊(𝑟)𝑑𝑟
′
[0′ 𝛿0 /2 𝛿0 . [∫ 𝑊(𝑟)𝑑𝑟] . 𝐴∗ ′ 𝛿 2 0 /3 ]
donde
Г0 Г1 … Г𝑝−2
𝑉 Г−1 Г0 … Г𝑝−3
= [18.2.47]
[𝑛(𝑝−1)𝑥𝑛(𝑝−1)] ⋮ ⋮ … ⋮
[Г0−𝑝+2 Г−𝑝+3 … Г0 ]
Y W(r) denota el movimiento browniano estándar n-dimensional mientras que el signo integral
indica la integración sobre r de 0 a 1. Similarmente,
ℎ1
𝐿 ℎ2
𝑌𝑇−1 ∑𝑇𝑡=1 𝑥𝑡∗ 𝜀𝑖𝑡 → [ ] [18.2.48]
ℎ3
ℎ4
Donde ℎ1 ~𝑁(0, 𝜎𝑖𝑡 𝑉). Las variables ℎ2 y ℎ4 son también gaussianas, aunque ℎ3 no es gaussiana.
Si definimos 𝜔 como el vector de coeficientes en ∆𝑦, rezagado,
𝑡 𝑡 𝑡
𝜔 ≡ (𝜁𝑖1 , 𝜁𝑖2 , … , 𝜁𝑖,𝑛−1 )
Entonces los resultados anteriores implican que
𝑇 1⁄2 (𝜔
̂ 𝑇 − 𝜔)
∗ ∗) 𝑇 (𝛼̂ 𝑡.𝑇 − 𝛼𝑖∗ ) 𝐿 𝑉 −1 ℎ1
1⁄2 ∗
(𝑏
𝑌𝑇 𝑇 − 𝛽 = → [ −1 ] , [18.2.49]
𝑇(𝜌̂∗ 𝑡.𝑇 − 𝜌𝑖∗ ) 𝑄 ƞ
[ 𝑇 3⁄2 (𝛾̂𝑖,𝑇 − 𝛾𝑖 ) ]
Donde 𝜂 ≡ (ℎ2 ℎ3 ℎ4 ) y Q es el [(n+1)x(n+1)] bloque inferior derecho de la matriz en [18.2.46]. Así
como de costumbre, los coeficientes de u en [18.2.43] son asintóticamente gaussianos:
𝐿
̂𝑖𝑡 − 𝜔𝑖 ) → 𝑁(0, 𝜎1𝑖 𝑉 −1 )
√𝑇(𝜔
𝑦𝑡 = 𝑥𝑡𝑡 𝛽 + 𝑢𝑡
Para qué elementos de 𝑦𝑡 y 𝑥𝑡 podrían no ser estacionarios. Si no hay ningún valor de población
para 𝛽 para el cual 𝑢𝑡 = 𝑦𝑡 − 𝑥𝑡𝑡 𝛽 residual, entonces MCO es muy probable que produzca
resultados espurios. Este fenómeno fue descubierto por primera vez en la experimentación de
Monte Carlo por Granger y Newbold (1974) y posteriormente explicado teóricamente por Phillips
(1986).
La declaración general del problema de regresión espuria se puede hacer de la siguiente
manera. Sea 𝑦𝑡 un vector (n x 1) de variables I (1). Defina 𝑔 ≡ (𝑛 − 1) y divida 𝑦𝑡
como
𝑦1𝑡
𝑦𝑡 = [𝑦 ]
2𝑡
Donde 𝑦2𝑡 denota un vector (g x 1). Considere las consecuencias de una regresión MCO
de la primera variable en la otra y a constante.
𝛼 + 𝑦𝑦2𝑡 + 𝑢𝑡 [18.3.1]
Las estimaciones del coeficiente MCO para una muestra de tamaño T están dadas por
𝑋{𝑅𝑌𝑇 − 𝑟} ÷ 𝑚 [18.3.3]
donde
A menos que haya algún valor para y tal que sea estacionario, la estimación MCO 𝑦1𝑡 − 𝑦𝑦2𝑡
parecerá ser falsamente precisa en el sentido de que la prueba es virtualmente segura de rechazar
cualquier hipótesis nula si el tamaño de la muestra es suficientemente grande, a pesar de que 𝑦̂𝑡 no
proporciona Una estimación consistente de cualquier constante de población bien definida!
La siguiente proposición, adaptada de Phillips (1986), proporciona la base formal para estas
afirmaciones.
Proposición 18.2: Considere un (n x 1) vector 𝑦𝑡 cuya primera diferencia es descrita por
0 579
𝑥
Para 𝜖𝑡 un vector iid (nx1) con media cero, varianza 𝐸(𝜀𝑡 𝜀𝑡𝑡 ) = 𝑃𝑃 y cuartos finitos y donde
𝑥
{𝑆 ∙ Ψ}𝑠=0 es absolutamente sumable. Deje 𝑔 ≡ (𝑛 − 1) y Λ ≡ Ψ(1) ∙ 𝑃. Partición 𝑦𝑡 como 𝑦𝑡 ,
y bastante partición ΛΛ como
𝛴11 𝛴′21
𝐴𝐴′ (1𝑥1) (1𝑥1)
(𝑛𝑥𝑛) = [ 𝛴21 𝛴22 ] [18.3.5]
(𝑔𝑥1) (𝑔𝑥𝑔)
−1
Sea 𝐿22 el factor de Cholesky de Σ22 ; Es decir, 𝐿22 es la matriz triangular inferior que satisface
−1
Σ22 = 𝐿22 𝐿22 [18.3.7]
𝑇 −1/2 𝛼̂ 𝑇 𝐿 𝜎∗ℎ
[ −1 ]→[ ∗1 1 ] [18.3.8]
𝑦̂𝑇 − Σ22 Σ21 𝜎1 𝐿22 ℎ2
donde
−1
ℎ 1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊1∗ (𝑟) 𝑑𝑟
[ 1] = [ ] ×[ ] [18.3.9]
ℎ2 ∗
∫ 𝑊2 (𝑟) 𝑑𝑟 ∫[𝑊2∗ (𝑟)]. [𝑊2∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊2∗ (𝑟). 𝑊1∗ (𝑟)𝑑𝑟
Y el signo integral indica la integración sobre r de 0 a 1, 𝑊1∗ (𝑟) denota el movimiento escalar
estándar Browniano y 𝑊2∗ (𝑟) denota el movimiento browniano estándar g-dimensional con
𝑊2∗ (𝑟) independiente de 𝑊1∗ (𝑟).
(b) La suma de los residuos cuadrados 𝑅𝑆𝑆𝑇 de la estimación MCO de [18.3.1] satisface
𝐿
𝑇 ∙ 𝑅𝑆𝑆𝑇 → (𝜎1∗ )2 ∙ 𝐻 [18.3.10]
donde
𝐻 = [𝑊2∗ (𝑟)]2 𝑑𝑟 − {[∫ 𝑊1∗ (𝑟)𝑑𝑟 ∫ 𝑊1∗ (𝑟). [𝑊2∗ (𝑟)]´ 𝑑𝑟]×
−1
1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊1∗ (𝑟)𝑑𝑟
[ ] [ ]} [18.3.11]
∫ 𝑊2∗ (𝑟) ∫ 𝑊2∗ (𝑟). [𝑊2∗ (𝑟)]´ 𝑑𝑟 ∫[𝑊2∗ (𝑟)] . [𝑊1∗ (𝑟)]𝑑𝑟
[18.3.12]
donde
𝑅 ∗ ≡ 𝑅 ∙ 𝐿22
−1
𝑅 ∗ ≡ 𝑟 𝑅Σ22 Σ21
La ilustración más simple de la Proposición 18.2 se proporciona cuando 𝑦1𝑡 y 𝑦2𝑡 . son
escalares siguiendo caminos aleatorios totalmente no relacionados:
Donde 𝜀1𝑡 es iid con media cero y varianza 𝜎12 es iid con media cero y varianza 𝜎22 y 𝜀1𝑡 , es
independiente de 𝜀2𝑡 para todo t y 𝜏. Para 𝑦𝑡 = ( 𝑦1𝑡 , 𝑦2𝑡 ) esta especificación implica
𝜎1 0
𝑃=[ ]
0 𝜎2
𝜓(1) = 𝐼2
⅀ ⅀21 𝜎1 0
[ 11 ] = 𝜓(1). 𝑃. 𝑃´ . [𝜓(1)]´ = [ ]
⅀21 ⅀22 0 𝜎22
𝜎1 ∗ = 𝜎1
𝐿22 = 1⁄𝜎2
El resultado (a) afirma entonces que una regresión MCO de 𝑦1𝑡 en 𝑦2𝑡 y una constante,
𝑇 −1/2 𝛼̂ 𝑇 𝐿 𝜎1 ∙ ℎ1
]→[
[ ]
𝑦̂𝑡 (𝜎1 /𝜎2 ) ∙ ℎ2
Obsérvese el contraste entre este resultado y cualquier distribución asintótica anterior analizada.
𝑝
Normalmente, las estimaciones de MCO son consistentes con 𝑏𝑇 → 0 y deben ser multiplicadas
por alguna función creciente de orden de Ti para obtener una distribución asintótica no degenerada.
Aquí, sin embargo, ninguna de las estimaciones es coherente - diferentes muestras arbitrariamente
grandes tendrán aleatoriamente diferentes estimaciones 𝑦̂𝑡 . De hecho, la estimación del término
De nuevo diverge como 𝑇 → ∞. Para obtener una estimación que no crece con el tamaño de la
muestra, la suma residual de cuadrados tiene que ser dividida por 𝑇 2 en lugar de T. En este sentido,
el 𝑢̂𝑡 residual de una regresión espuria se comportan como un proceso raíz unitaria; Si 𝜉 es una
serie escalar I (1), entonces 𝑇 −1/2 diverge y 𝑇 −1/2 Σ converge. Para ver por qué se comporta
como y la serie I (1), observe que el MCO residual es dado por
𝑢𝑡 = 𝑦1𝑡 − 𝛼 − 𝑦̂𝑡
a partir del cual
∆𝑦1𝑡 𝐿
∆𝑢̂𝑡 = ∆𝑦1𝑡 − 𝛾̂𝑇´ . ∆𝑦2𝑡 = [1 −𝛾̂𝑇´ ] [∆𝑦 ] → [1 −ℎ2∗′ ]∆ℎ𝑡∗´ [18.3.16]
2𝑡
−1
Donde ℎ = Σ22 Σ21 + σL−1
22 h2 . Este es un vector aleatorio [1 − h2 ] veces el I (0) vector ∆𝑦𝑡 .
El resultado (c) significa que cualquier prueba MCO t o F basada en la regresión espúrea [18.3.1]
también diverge; La estadística MCO F [18.3.3] debe dividirse por T para obtener una variable que
no crece con el tamaño de la muestra. Dado que una prueba F de una única restricción es el
cuadrado de la prueba t correspondiente, cualquier estadística t tendría que ser dividida por 𝑇 1/2
para obtener una variable convergente. Por lo tanto, a medida que el tamaño de la muestra T se
hace más grande, es cada vez más probable que el valor absoluto de una prueba MCO t exceda
cualquier valor finito arbitrario (tal como el valor crítico usual de t = 2). Por ejemplo, en la
regresión de [18.3.15], parecerá que 𝑦1𝑡 y 𝑦2𝑡 están significativamente relacionados, mientras que en
realidad son completamente independientes.
Donde 𝜓(𝐿) ≡= (1 − 𝐿)𝐶(𝐿), que significa 𝜓(1) = (1 − 1)𝐶(1)0 = 0. Por lo tanto, si 𝑦1𝑡
eran realmente I (0) en lugar de I (0), la condición de que Λ ∙ Λ𝑡 es no singular no sería
satisfecha.
Esta regresión no satisface las condiciones de la Proposición 18.1, porque existen valores para los
coeficientes, especialmente ∅ = 1 y 𝑦 = 𝛿 = 0, para los cuales el término de error 𝑢𝑡 es I (0). Se
puede demostrar que la estimación de MCO de [18.3.17] produce estimaciones consistentes de
todos los parámetros. Los coeficientes 𝑦𝑡 y 𝛿 cada uno convergen individualmente a la tasa √𝑇 a
una distribución gaussiana y la prueba t de la hipótesis de que xxx es asintóticamente N (0, 1), como
la prueba t para la hipótesis de que 𝛿 = 0. Sin embargo, una prueba F de La hipótesis nula
conjunta de que 𝑦 y 𝛿 son ambos cero tiene una distribución limitante no estándar: ver ejercicio
18.3. Por lo tanto, incluir valores rezagados en la regresión es suficiente para resolver muchos de los
problemas asociados con regresiones espurias, aunque las pruebas de algunas hipótesis seguirán
involucrando distribuciones no estándar.
Un segundo enfoque consiste en diferenciar los datos antes de estimar la relación, como en
Claramente, puesto que los regresores y el término de error 𝑢𝑡 son todos I (0) para esta
regresión bajo la hipótesis nula, 𝛼 𝑇 y 𝑦2𝑡 convergen a la tasa √𝑇 a variables gaussianas.
Cualquier prueba t o F basada en [18.3.18] tiene la distribución Gaussiana o xxx de limitación
usual.
Un tercer enfoque, analizado por Blough (1992), es estimar [18.3.15] con el ajuste de
Cochrane-Orcutt para la correlación en serie de primer orden de los residuos. Veremos en la
Proposición 19.4 en el siguiente capítulo que si 𝑢𝑡 denota la muestra residual de la estimación
MCO de [18.3.15], entonces el coeficiente autorregressivo estimado xxx de una regresión MCO
de 𝑢𝑡 en 𝑢𝑡−1 converge en probabilidad a unidad. Blough mostró que la regresión Cochrane-
Orcutt GLS es asintóticamente equivalente a la regresión diferenciada [18.3.18].
Porque si la especificación [18.3.18] evita el problema de regresión espuria así como las
distribuciones no estándar para ciertas hipótesis asociadas con las regresiones de los niveles
[18.3.15], muchos investigadores recomiendan diferenciar rutinariamente las variables
aparentemente no estacionarias antes de estimar las represiones. Si bien esta es la solución ideal
para el problema discutido en esta sección, hay dos situaciones diferentes en las que podría ser
innapropiado. En primer lugar, si los datos son realmente estacionarios (por ejemplo, si el valor
verdadero de ∅ en [18.3.17] es 0.9 en lugar de la unidad), entonces diferenciar los datos puede
resultar en una regresión mal especificada. En segundo lugar, incluso si xxx y xxx son
verdaderamente procesos I (1), hay una clase interesante de modelos para los cuales la relación
dinámica bivariada entre 𝑦1𝑡 y 𝑦2𝑡 será mal especificada si el investigador simplemente
∑(𝜉𝑡−1 𝑢𝑡´ + 𝑢𝑡 𝜉 ´
𝑡−1 ) = ∑ 𝜉𝑡 𝜉𝑡𝑡 − ∑(𝜉𝑡−1 +𝜉 𝑡−1 ) − ∑(𝑢𝑡 𝑢𝑡´ )
´
Dividiendo por T,
(F) Defina 𝜉𝑡∗ ≡ 𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡 y 𝐸(𝜀𝑡 𝜀𝑡𝑡 ). Obsérvese que el resultado (e) implica que
𝐿 1
𝑇 −1 ∑𝑇𝑡=1 𝜉𝑡 𝜀𝑡𝑡 → 𝑃 ∙ {∫0 [W(r)] ∙ [dW(r)]}∙ 𝑃 [18.A.5]
o
3 1 3 𝐿 1
𝑇 −2 ∑𝑇𝑡=1 𝑡𝑢 = 𝑇 −2 ∑𝑇𝑡=1 𝑢 − 𝑇 −2 ∑𝑇𝑡=1 𝜉𝑡−1 → ΛW(1) − Λ ∫0 W(r)dr [18.A.8]
A partir de los resultados (a) y (g). Esto establece el resultado (h) para s = 0. La distribución
asintótica es la misma para cualquier s, desde la simple adaptación de la prueba de la Proposición
17.3 (g).
𝐿 1
→ Λ {∫ [W(r)] ∙ [dW(r)]} ∙ Λ
0
▪ Prueba de proposición 18.2. Las distribuciones asintóticas son más fáciles de calcular si
trabajamos con las siguientes variables transformadas:
∗ 1 −1
𝑦1𝑡 ≡ 𝑦1𝑡 − Σ21 Σ22 𝑦2𝑡 [18.A.9]
∗
𝑦2𝑡 = 𝐿𝑡22 𝑦2𝑡 [18.A.10]
Claramente, las estimaciones de MCO para la regresión transformada [18.A.11] se relacionan con
las de la regresión original [18.3.1] por
𝛼̂ 𝑇 = 𝛼̂ 𝑇∗
𝑌̂𝑇∗ = 𝐿22 𝑌̂𝑇∗ + Σ211 −1
Σ22
[18.A.13]
Implicando que
Para
Más aún,
[18.A.15]
Pero [18.3.7] implica que
𝐿ΛΛL = 𝐼𝑔 [18.A.16]
𝑇 1
𝐿
−3/2
𝑇 ∑ 𝑦 → Λ ∙ ∫ W(r) 𝑑𝑟
𝑡=1 0
resulta que
𝑇 −3/2 Σ𝑦 ∗ /𝜎 ∗ 𝐿 1 1
[ −3/2 𝑇 ∗ 1 ] = 𝑇 −3/2 ∑𝑇𝑡=1 𝐿𝑦 → LΛ ∙ ∫0 W(r) 𝑑𝑟 = ∫0 W ∗ (r)𝑑𝑟 [18.A.18]
𝑇 Σ𝑦2𝑡
𝐿 1
→ 𝐿´ Ʌ. {∫ [𝑊(𝑟)]. [𝑊(𝑟)]´ 𝑑𝑟} . Ʌ´ 𝐿
0
1
= ∫ [𝑊 ∗ (𝑟)]. [𝑊 ∗ (𝑟)]´ 𝑑𝑟
0
[18.A.19]
𝑇 −1/2 0
[ ]
0 𝐼𝑔
El resultado es
𝑇 −1⁄2 0´ 𝛼̂ 𝑇∗ ⁄𝜎1∗
[ ][ ]
0 𝐼𝑔 𝛾̂𝑇∗ ⁄𝜎1∗
−1
∗´ ∗
−1⁄2 𝑇 ∑ 𝑦2𝑡 −1 ∑ 𝑦1𝑡 ⁄𝜎1∗
𝑇 0´
𝑇 −3⁄2 0´ 𝑇 −3⁄2 0´
=[ ][ ] [ ] [ ][ ]
0 𝐼𝑔 ∗ ∗ ∗´ 0 𝑇 −2 𝐼𝑔 0 𝑇 −2 𝐼𝑔 ∗ ∗
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦1𝑡 ⁄𝜎1∗
−1
∗ ´ ∗
−3⁄2 𝑇 ∑ 𝑦2𝑡 1⁄2 ∑ 𝑦1𝑡 ⁄𝜎1∗
𝑇 0 ´
𝑇 0 ´
𝑇 −3⁄2 0´
= ([ ][ ][ ]) ([ ][ ])
0 𝑇 −2 𝐼𝑔 ∗ ∗ ∗ ´ 0 𝐼𝑔 0 𝑇 −2 𝐼𝑔 ∗ ∗
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦1𝑡 ⁄𝜎1∗
[18.A.20]
W1∗ (r)
∗ (r) (1𝑥)
W
=
(𝑛𝑥1) W2∗ (r)
[ (𝑔𝑥1)]
La aplicación de [18.A.18] y [18.A.19] a [18.A.20] da lugar a
−1
−1⁄2 ̂𝑇∗ ⁄𝜎1∗ 𝐿 1 ∫[𝑊1∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊1∗ (𝑟)𝑑𝑟
𝑇 𝛼 ℎ
[ ] → [ ] [ ] = [ 1]
𝛾̂𝑇∗ ⁄𝜎1∗ ℎ2
∫ 𝑊2∗ (𝑟)𝑑𝑟 ∫[𝑊2∗ (𝑟)][𝑊1∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊2∗ (𝑟)𝑊1∗ (𝑟)𝑑𝑟
[18.A.21]
Recordando la relación entre las estimaciones transformadas y las estimaciones originales dadas en
[18.A.14], esto establece que
𝑇 −1/2 𝛼 𝑇∗ /𝜎1∗
𝐿 ℎ
[ 1 ] → [ 1]
−1 1
( ∗ ) ∙ [ 𝐿22 Y𝑇 − 𝐿22 Σ21 ℎ2
𝜎1
Premultiplicación por
𝜎1∗ 0
[ ]
0 𝜎1∗ 𝐿22
Y recordando [18.3.7] produce [18.3.8].
1⁄2
∗ ∗ ∗´ 𝑇 0´
− [∑ 𝑦1𝑡 ∑ 𝑦1𝑡 𝑦2𝑡 ] [ ]
0 𝐼𝑔
{
−1
∗´ ∗
−3⁄2 𝑇 ∑ 𝑦2𝑡 1⁄2 ∑ 𝑦1𝑡
𝑇 0 ´
𝑇 0´
𝑇 −3⁄2 0´
× ([ ][ ][ ]) [ ][ ]
0 𝑇 −2 𝐼𝑔 ∗ ∗ ∗´ 0 𝐼𝑔 0 𝑇 −2 𝐼𝑔 ∗ ∗
∑ 𝑦2𝑡 ∑ 𝑦1𝑡 𝑦2𝑡 ∑ 𝑦1𝑡 𝑦2𝑡
}
[18.A.22]
𝑇 −2 . 𝑅𝑆𝑆𝑇 ⁄(𝜎1∗ )2
∗ ⁄ ∗ )2
= 𝑇 −2 ∑(𝑦1𝑡 𝜎1
− [𝑇 −3⁄2 ∑(𝑦1𝑡
∗ ⁄ ∗ ) −2 (𝑦 ∗ ⁄ ∗ )𝑦 ∗´
𝜎1 𝑇 1𝑡 𝜎1 2𝑡 ]
{
−1
1 𝑇 −3⁄2 ∑ 𝑦2𝑡
∗´
𝑇 −3⁄2 ∑ 𝑦1𝑡
∗ ⁄ ∗
𝜎1
×[ ] [ ]
𝑇 −3⁄2 ∑ 𝑦2𝑡
∗ ∗ ∗´
𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 ∗
𝑇 −2 ∑ 𝑦2𝑡 ∗ ⁄ ∗
𝑦1𝑡 𝜎1
}
𝐿
→ ∫[𝑊1∗ (𝑟)]2 𝑑𝑟
{
−1
1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 𝑊1∗ (𝑟)𝑑𝑟
×[ ] [ ]
∫[𝑊2∗ (𝑟)][𝑊1∗ (𝑟)]𝑑𝑟
∫ 𝑊2∗ (𝑟)𝑑𝑟 ∫[𝑊2∗ (𝑟)][𝑊2∗ (𝑟)]´ 𝑑𝑟
}
Prueba de (c). Obsérvese que una prueba F de la hipótesis 𝐻0 : 𝑅𝑦 = 𝑟 para la regresión original
[18.3.1] produciría exactamente el mismo valor que una prueba F de 𝑅 ∗ 𝑦 ∗ = 𝑟 ∗ para la estimación
MCO de [18.A.11], donde, de [18.A. 13],
−1
𝑅 − 𝑟 = 𝑅{𝐿22 𝑌 + Σ22 Σ21 } − 𝑟 = 𝑅 ∗ 𝑦 ∗ − 𝑟 ∗
Para
𝑅 ∗ ≡ 𝑅 ∙ 𝐿22 [18.A.23]
−1
𝑟 ∗ ≡ 𝑟 − 𝑅Σ22 Σ21 [18.A.24]
𝐹𝑇 = {𝑅 ∗ 𝑦 ∗ − 𝑟 ∗ }
Del cual
𝑇 −1 . 𝐹𝑇 = {𝑅 ∗ 𝛾̂𝑇∗ − 𝑟 ∗ }´
−1 −1
∗´
𝑇 ∑ 𝑦2𝑡
𝑇 1⁄2 0´ 𝑇 1⁄2 0´ ´
× {𝑇 −1 . [𝑆𝑇∗ ]2 . [0 𝑅∗ ] [ ][ ] ×[ ] [ 0∗´ ]} {𝑅 ∗ 𝑦̂𝑇∗ − 𝑟 ∗ } ÷ 𝑚
0 𝑇. 𝐼𝑔 ∗ ∗ ∗´ 0 𝑇. 𝐼𝑔 𝑅
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡
−1 −1
1 𝑇 −3⁄2 ∑ 𝑦2𝑡
∗´
´
= {𝑅 ∗ 𝛾̂𝑇∗ − 𝑟 ∗ }´ {𝑇 −1 . [𝑆𝑇∗ ]2 . [0 𝑅 ∗ ]× [ ] [ 0∗´ ]} {𝑅 ∗ 𝑦̂𝑇∗ − 𝑟 ∗ } ÷ 𝑚.
𝑇 −3⁄2 ∗
∑ 𝑦2𝑡 𝑇 −3⁄2 ∗ ∗´
∑ 𝑦2𝑡 𝑦2𝑡 𝑅
[18.A.25]
Pero
𝑇 𝑇
{S∗𝑇 }2 = (𝑇 − 𝑛) −1
∑ (𝑢̂𝑡∗ )2 = (𝑇 − 𝑛) −1
∑ 𝑢̂𝑡2
𝑡=1 𝑡=1
[18.A.27]
𝐿
𝑇 −1 . 𝐹𝑇 → {𝜎1∗ 𝑅 ∗ ℎ2 − 𝑟 ∗ }´ × {(𝜎1∗ )2 . 𝐻[0 𝑅 ∗ ]×
−1 −1
1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 ´
[ ∗
] [ 0∗´ ]} {𝜎1∗ 𝑅 ∗ ℎ2 − 𝑟 ∗ } ÷ 𝑚. ◘
∫ 𝑊2 (𝑟)𝑑𝑟 ∫[𝑊2∗ (𝑟)]. [𝑊2∗ (𝑟)]´ 𝑅
Capítulo 18 Ejercicios
18.1. Considera la estimación MCO de
1 1 1
𝑦𝑖𝑡 = 𝜁1𝑠 ∆𝑦𝑡−1 + 𝜁2𝑠 ∆𝑦𝑡−2 + ⋯ + 𝜁1.𝑝 ∆𝑦1−𝑝+1 + 𝛼𝑡 + 𝑝𝑡𝑡 𝑦𝑡−1 + 𝜀𝑖𝑡
𝑅 𝑅1 0
=[ ]
(𝑚𝑥𝑘) (𝑚𝑥𝑛(𝑝 − 1)) (𝑚𝑥(1 + 𝑛))
Bajo la hipótesis mantenida que 𝛼𝑖 = 0 y 𝑝𝑖 = 𝑒𝑡𝑡 (donde 𝑒𝑡𝑡 denota la i-ésima fila de 𝐼𝑛 ), muestre
𝐿
que x 2𝑇 → 𝑥 2 (𝑚).
Cumple las condiciones de Execise 18.1. Partición esta regresión como en [18.2.37]:
+𝛿 ´ 𝑦2𝑡−1 + 𝜀𝑖𝑡
Donde 𝑦1𝑡 y 𝑦2𝑡 son caminatas aleatorias independientes como se especifica en [18.3.13] y
[18.3.14]. Obsérvese que los valores ajustados de esta regresión son idénticos a los de [18.3.17]
̂ 𝑇 lo mismo para ambas regresiones y 𝛿𝑇 = 𝑛̂ 𝑇 − 𝑦̂𝑇 .
con 𝛼̂ 𝑇 , 𝑌̂𝑇 y ∅
Donde 𝑣𝑇 ~𝑁(0, 𝜎12 /𝜎22 ) y (𝑣2 , 𝑣3 , 𝑣4 ) tiene una distribución limitante no estándar. Concluye
̂ 𝑇 son estimaciones consistentes de 0, 0, 1 y 0, respectivamente, lo que significa
que 𝛼̂ 𝑇 , 𝑌̂𝑇 y ∅
que todos los coeficientes estimados en [18.3.17] son consistentes.
(B) Demuestre que la prueba t de la hipótesis nula de que y = 0 es asintóticamente N (0, 1).
Capítulo 18 Referencias
Blough, Stephen R. 1992. “Spurious Regressions with AR(1) Correction and Unit Root Pretest.”
Johns Hopkins University. Mimeo.
Chan N.H., and C. Z. Wei. 1988. “Limiting Distributions of Least Squares Estimates of Unstable
Autoregressive Processes.” Annals of Statistics 16:367-401.
Granger, C. W. J., and Paul Newbold. 1974. “Spurious Regressions in Econometrics.” Journal of
Econometrics 2:111-20.
Ohanian, Lee E. 1988. “The Spurious Effects of Unit Roots on Vector Autoregressions: A Monte
Carlo Study.” Journal of Econometrics 39:251-66.
Park, Joon Y., and Peter C. B. Phillips. 1988. “Statistical Inference in Regressions with Integrated
Processes: Part 1.” Econometric Theory 4:468-97.
------- and -------. 1989. “Statistical Inference in Regressions with Integrated Processes: Part 2.”
Econometric Theory 5:95-131.
Phillips, Peter C. B. 1986. “Understanding Spurious Regressions in Econometrics.” Journal of
Econometrics 33:311-40.
--------. 1988. “Weak Convergence of Sample Covariance Matrices to Stochastic Integrals via
Martingale Approximations.” Econometric Theory 4:528-33.
------- and S. N. Durlauf. 1986. “Multiple Time Series Regression with Integrated Processes.” Review
of Economic Studies 53:473-95.
------- and Victor Solo. 1992. “Asymptotics for Linear Processes.” Annals of Statistics 20:971-1001.
Sims, Christopher A., James H. Stock, and Mark W. Watson. 1990. “Inference in Linear Time
Series Models with Some Unit Roots.” Econometrica 58:113-44.
Toda, H. Y., and C. B. Phillips. 1993a. “The Spurious Effect of Unit Roots on Exogeneity Tests in
Vector Autoregressions: An Analytical Study.” Journal of Econometrics 59:229-55.
------ and ------. 1993b. “Vector Autoregressions and Causality.” Econometrica forthcoming.
West, Kenneth D. 1988. “Asymptotic Normality, When Regressors Have a Unit Root.” Econometrica
56:1397-1417.
Cointegración
Este capítulo es una clase particular fuera de los procesos de la raíz de unidad del vector que se
conocen como procesos centígrados. Tales especificaciones estaban implícitas en los modelos de
“corrección de errores” definidos por Davidson, Hendry, Srba y Yeo (1978). Sin embargo, un
desarrollo formal d elos conceptos claves no llegó hasta el trabajo de Granger (1983) y Engle y
Granger (1987).
19.1. Introducción
Descripcion De Cointegracion
Se dice que una serie 𝑦 de tiempo vectorial (𝑛𝑥1) es cointegrada si cada una de las series
tomadas individualmente es 𝐼(1)es decir, no estacionaria con una raíz unitaria, mientras que alguna
combinación lineal de la serie 𝑎′ 𝑦𝑡 es estacionaria, o 𝐼(0), para algunos no nulos (𝑛𝑥1) vector 𝑎.
Un ejemplo simple de un p roceso vectorial cointegrado es el siguiente sistema bivariado:
Con 𝑢1𝑡 y 𝑢2𝑡 , procesos de ruido blanco no correlacionados. La representación univariada para
𝑦2𝑡 es una caminata aleatoria,
Recordar de la sección 4.7 que el lado derecho de [19.1.4] tiene una representación MA (1):
La figura 19.1 muestra una muestra de [19.1.1] y [19.1.21] para 𝑦 = 1y 𝑢1𝑡 y 𝑢2𝑡 independiente
𝑁(0,1) variables. Tenga en cuenta que cualquiera de las series (𝑦1𝑡 𝑜 𝑦2𝑡 ) alejarse arbitrariamente
0 593
del valor de la estrella, aunque 𝑦𝑡 , debe permanecer a una distancia fija de𝑦𝑦2𝑡 , con esta distancia
determinada por la desviación estándar de 𝑢1𝑡 .
Cointegración significa que aunque muchos desarrollos pueden causar cambios permanentes en los
elementos individuales de 𝑦 "hay una relación de equilibrio a largo plazo que une los componentes
individuales, representados por la combinación lineal 𝑎′ 𝑦𝑡 . Un ejemplo de tal sistema es el modelo
de gasto de consumo propuesto por Davidson, Hendry, Srba y Yeo (1978). Sus resultados sugieren
que aunque tanto el consumo como el ingreso presentan una raíz unitaria, a largo plazo el consumo
tiende a ser un consumo aproximado y el logaritmo del ingreso, de modo que la diferencia entre el
logaritmo de consumo y el logaritmo de ingresos parece ser un gasto estacionario proceso.
𝑃𝑡 = 𝑆𝑡 𝑃𝑡∗
O tomando logaritmos
𝑝𝑡 = 𝑠𝑡 + 𝑝𝑡∗
Donde 𝑝𝑡 ≡ log 𝑃𝑡 , 𝑠𝑡 ≡ log 𝑆𝑡 y 𝑝𝑡∗ ≡ log 𝑃𝑡∗ . En la práctica, los errores en la medición de los
precios, los costos de transporte y las diferencias de calidad impiden que la paridad del poder
adquisitivo se mantenga exactamente en cada fecha 𝑡. Una versión más débil de la hipótesis es que
la variable 𝑧𝑡 , definida por
𝑧𝑡 = 𝑝𝑡 − 𝑠𝑡 − 𝑝𝑡∗ [19.1.6]
es estacionario, aunque los elementos individuales (𝑝𝑡 , 𝑆𝑡 , 𝑜 𝑃𝑡∗ ) son todos I(1). Baillie y Selover
(1987) y Corbae y Ouliaris (1988) han explorado pruebas empíricas de esta versión de la hipótesis
de la paridad del poder puchante.
y1t 1t
y ( L) , [19.17]
2t 2t
donde
1 L L
( L) [19.18]
0 1
( L ) y t t
1
Donde e (L) = ( L ) . Pero el polinomio matricial asociado al operador de media móvil para
este proceso, Ilf (z), tiene una raíz en unidad,
(1 1)
(1) 0
0 1
El principio general de que [19.1.9] proporciona una ilustración es que con un sistema cointegrado,
uno debe incluir los niveles rezagados junto con las diferencias rezagadas en un vector
Si hay más de dos variables contenidas en y "entonces puede haber dos vectores distintos
de cero (n x 1) a1 y a2 Tal que a1yt Y cualquiera, son ambas estacionarias, donde al a1ytson
linealmente independientes (es decir, no existe un escalar b Tal que a2 = ba1). De hecho, puede
haber vectores h <n linealmente independientes (n x 1) (a1, a„, . , ah) tal que A'y, es un estationarrio
(h x 1) Vector, donde A 'es la siguiente (h x n) matriz1:
a1`
`
A` 2
a
[19.1.10]
ah`
De nuevo, el vector (a1, a2, . . ., ah) No son únicos; Si A'y, es estacionaria, entonces para cualquier
vector no nulo (1 x h) b ', el escalar 13`A'y, Es también estacionaria. Entonces el vector (n x 1)
dada por ' = b`A`También podría describirse como un vector de cointegración.
Supongamos que existe una matriz (h x n) A 'cuyas filas son linealmente independientes
tales que A'y, es un sstacionario (h x 1) vector. Supongamos además que si e 'es cualquier vector (1
x n) que sea linealmente independiente de las filas de entonces c'y, es un escalar no estacionario.
Entonces decimos que hay exactamente h relaciones cointegrantes entre los elementos de y, y que
(a1, a2,…, ah) Forman una base para el espacio de vectores de cointegración.
Donde E (a,) = O y
1Si h = n. Tales vectores linealmente independientes existieron, entonces y, sería por sí mismo 1 (0). Esta claridad se hará
evidente en la representación triangular de un sistema cointegrado desarrollado en [19.1.20] y [19.1.21].
2
Estos resultados fueron derivados primero por Engle y Granger (1987)
Sea (1) denotada por matriz polynomial (n x n) (z) evaluada en r = 1; que es.
( 1) In 1 2 3 ...
yt y0 .t u1 u2 ... ut
[19.1.13]
y0 (1) . (1 2 ... t ) t 0
Donde la última línea se sigue de [18.1.6] para q, un proceso estacionario. Pre multiplicando
[19.1.13] por A 'resulta en
A`yt A`( y0 o) A`yt A` (1) (1 2 ... t ) A`t [19.1.14]
´`
si E(t, t ) es no singular, entonces + 2 + … + t ) Es I (1) para cada vector no es cero (n x 1) c.
Sin embargo, para que y, para ser cointegrado con vectores dados por las filas de A ', la expresión
[19.1.14] se requiere para ser stationarv. Esto podría ocurrir sólo si A´(1) = O. Así [19.1.12) Es
una condición necesaria para la cointegración, tal como está claro.
Tal como lo subrayan Engle y Yoo (1987) y Ogaki y Park (1992), la condición [19.1.12] no es por sí
sola suficiente para asegurar que A'y, es estacionaria. De [19.1.14], la estacionariedad requiere
además que
A' = 0. [19.1.15]
Si alguna de las series presenta una deriva no nula (8 O), entonces, a menos que la deriva a través
de la serie satisfaga la restricción de [19.1.15], la combinación lineal A 'yt crecerá de forma
determinista a una velocidad A’yt. Por lo tanto, si la hipótesis subyacente que sugiere la posibilidad
de cointegración es que ciertas combinaciones lineales de y, son estables, esto requiere que ambos
[19.1.12 y [19.1.15] mantengan.
`
Obsérvese que [19.1.12] implica que ciertas combinaciones lineales de las filas de (1), como a 1
(1), Son cero, considerando que el determinante (z) = 0 at z = 1. Esto a su vez significa que el
operador de matriz (L) Es no reversible. Así. Un sistema cointegrado nunca puede ser
representado por una auto-regresión vectorial de orden finito en los datos diferenciados yt.
1 z z
( z)
0 1
𝑎1′
1 𝑎12 𝑎12 ...𝑎1𝑛
𝑎2′
𝑎21 𝑎22 𝑎23 ......𝑎2𝑛
𝐴′ = .. = .. .. .. ... ..
. . . ... .
. [𝑎 𝑎ℎ2 𝑎ℎ3 ... 𝑎 ℎ𝑛 ]
ℎ1
[𝑎ℎ′ ]
Si 𝑎21 veces la primera fila de 𝐴′ se resta de la segunda fila, la fila resultante es un nuevo vector de
cointegración que es todavía linealmente independiente de 𝑎1 , 𝑎3 , … 𝑎𝑛 3. Del mismo modo
podemos sustraer 𝑎31 veces la primera fila de 𝐴′ de la tercera fila, y 𝑎ℎ1 veces la primera fila de la
fila ℎ𝑡ℎ deducir que las filas de la siguiente matriz también constituyen una base para el espacio de
los vectores de cointegración:
Luego, supongamos que 𝑎22 no nulo; 𝑎22 = 0, podemos cambiar de nuevo 𝑦2𝑡 con alguna
variable 𝑦3𝑡 , 𝑦4𝑡 , … 𝑦𝑛𝑡 que aparece en la segunda relación de cointegración. Divida la segunda fila
de𝐴1′ por 𝑎22 . La fila resultante se puede multiplicar por 𝑎12 y se restan de la primera fila.
∗ ∗
Similarmente, 𝑎32 veces la segunda fila de 𝐴1′ se puede sustraer de la tercera fila, y 𝑎ℎ2 veces la
3
Dado que el primer y segundo momentos del vector (ℎ𝑥1)
𝑎1′
𝑎2′
. 𝑦
.. 𝑡
[𝑎ℎ′ ]
𝑎1′
𝑎2′ − 𝑎21 𝑎1′
. 𝑦𝑡
..
[ 𝑎ℎ′ ]
Además 𝑎1 , 𝑎2 , … 𝑎ℎ son linealmente independientes significa que ninguna combinación lineal de 𝑎1 , 𝑎2 , … 𝑎ℎ es cero, por lo que no
hay una combinación lineal de 𝑎1 𝑎2 − 𝑎21 𝑎1 … 𝑎ℎ puede ser cero tampoco. Por lo tanto 𝑎1 𝑎2 − 𝑎21 𝑎1 … 𝑎ℎ también constituyen una
base para el espacio de cointegrar vectores.
∗∗ ... ∗∗
1 0 𝑎13 𝑎1𝑛
∗∗ ... ∗∗
0 1 𝑎23 ...𝑎2𝑛
𝐴′2 = .. .. .. ... ..
. . . ... .
[0 ∗
𝑎ℎ2 𝑎 ∗∗ ...𝑎∗∗ ]
ℎ3 ℎ𝑛
Procediendo a través de cada una de las h filas de A 'de esta manera, se sigue que dado cualquier (nx
1) vector y, que se caracteriza por e xactly h cointegrating relaciones, es posible ordenar las variables
(y1t, y2t .........., Y nt) de tal manera que las relaciones de cointegración puedan ser presentadas por
una matriz (hxn) A 'de la forma
Donde I 'es una matriz (h x g) de coeficientes para g ≡ n - h. Sea z, denotan los residuos asociados
con el conjunto de relaciones de cointegración:
Zt ≡ A’ yt° [19.1.17]
(hx1)
Una representación para 𝑦2𝑡 está dada por las últimas líneas de g de [19.1.11]:
∆𝑦2𝑡 𝛿2 µ2𝑡
= + (𝑔𝑥1) [19.1.21]
(𝑔𝑥1) (𝑔𝑥1)
Si un vector y, se caracteriza por h exactamente cointegrando relaciones con las variables ordenadas
Otra representación útil para cualquier sistema cointegrado fue propuesta por Stock y
Watson (1988). Supongamos que un vector (nx1) y, se caracteriza por h exactamente cointegrando
las relaciones con g ≡ n - h. Hemos visto que es posible ordenar los elementos de y, de tal manera
que una representación triangular de la forma de [19.1.21] y [19.1.21] existe con ( 𝑧1∗ ′ , 𝑧2𝑡
∗
)’
Un vector estacionario (nx1) con media cero. Suponer que:
∗
𝑧∗ 𝐻𝜀
[ 1] = ∑ [ 𝑠 𝑡−𝑠 ]
µ2𝑡 𝐽𝜀
𝑠 = 0 𝑠 𝑡−𝑠
𝑡
𝑦2𝑡 = 𝑦2.0 + 𝛿2 ∙ 𝑡 + ∑ µ2𝑡
𝑠=1
Ecuaciones [19.1.24] y [19.1.25] dan a las acciones y la representación de las tendencias comunes
de Watson (1988). Estas ecuaciones muestran que el vector 𝑦𝑡 puede describirse como un
componente estacionario,
µ1 µ1𝑡
[µ ] + [µ ],
2 2𝑡
Más combinaciones lineales de hasta g tendencias deterministas comunes, como se describe por el
vector (g x 1) vector 𝛿2 ∙ 𝑡, y combinaciones lineales de g variables de caminata aleatoria común
como se describe por (g x 1) el vector 𝜉2𝑡
Φ (L)y𝑡 = α + ε𝑡 , [19.1.27]
Donde
Φ (L) ≡ I𝑛 - Φ1 𝐿 − Φ2 𝐿2 - … - Φ𝑃 𝐿𝑃 . [19.1.28]
(1 – L) 𝑦𝑡 = δ + 𝜓 (L)ε𝑡° [19.1.29]
Ya que (1 – L) α = 0. Ahora la ecuación [19.1.31]para todas las realizaciones de ε𝑡° que requiere
que
Φ (1) δ = 0 [19.1.32]
Y que (1-L) I𝑛 y Φ (L) 𝜓 (L) representa los polinomios idénticos en L. Esto significa que
Para todos los valores de z. en particular, para z = 1, ecuación [19.1.33] implica que
Dejar 𝜋’ denotar cualquier fila de Φ (1). Entonces [19.1.34] y [19.1.32] establece que 𝜋’ 𝜓 (1) = 0’ y
𝜋’ δ = 0. Recordando [19.1.12] y [19.1.15], esto significa que 𝜋 es un vector de cointegración. Si a1 ,
a2 ……, aℎ constituyen una base para el espacio de los vectores cointegrantes, entonces debe ser
posible expresar 𝜋como una combinación lineal dea1 , a2 ,….., aℎ , -- es decir, que existe un (h x 1)
Vector b tal que
𝜋 = [a1 , a2 ,…..,aℎ ]𝑏
n’ = b’ A’
para A’ la (h x n) matriz con la misma fila es a′𝑖 . Aplicando este razonamiento a cada una de las filas
de Φ (1), Se deduce que existe una matriz (n x h) B tal que
Φ(1) = BA’ [19.1.35]
Tenga en cuenta que [19.1.34] implica que Φ (1) es un singular (n x n ) matriz – lineal combinación
de columna de Φ(1) o de forma Φ (1) x es cero para x cualquier columna de 𝜓 (1). Así el
determinante | Φ (z) contiene una raíz unitaria:
| I𝑛 - Φ1 𝑧1 - Φ2 𝑧 2 - …….. - Φ𝑝 𝑧 𝑝 | = 0 at z = 1
De hecho, a la luz de la evolución de las tendencias [19.1.24] y [19.1.25], Podríamos decir eso Φ (z)
contiene g = n – h raíces unitarias.
p ≡ Φ1 + Φ2 +….. Φ𝑝 [19.1.37]
Donde
ξ0 ≡ 𝑝 - I𝑛 = - (I𝑛 - Φ1 - Φ2 - … - Φ𝑝 ) = - Φ (1).
[19.1.40]
Δy𝑡 = ξ1 Δy𝑡−1 + ξ2 Δy𝑡−2 + ….. + ξ𝑝−1 Δy𝑡−𝑝+1 – BA’ y𝑡−1 + ε𝑡°, [19.1.41]
Expresión se conoce como la representación de corrección de errores del sistema cointegrado. Por
ejemplo, la primera ecuación toma la forma
Por ejemplo, recordar de [19.1.9] que el sistema de [19.1.11] y [19.1.2] se puede escribir en la forma
Davidson, Hendry, Srba y Yeo (1978), propusieron una interpretación económica de una
representación de corrección de errores, que examinó una relación entre el logaritmo del gasto de
consumo (denotado c) y el logaritmo del ingreso (y) de la forma
(1 — L4)ct = Pi.(1 L4)Yt + 132(1 L4)Y,- + P3(c,--4 [19.1.43]
Esta ecuación se ajustó a los datos trimestrales, de modo que (1 - 𝐿4 ) c, denota la variación
porcentual del consumo sobre su valor en el trimestre comparable del año anterior. Los autores
argumentaron que las diferencias estacionales (1 - 𝐿4 ) proporcionaban una mejor descripción de
los datos que las simples diferencias trimestrales (1 - L). Su afirmación era que el consumo
diferenciado estacionalmente (1 - 𝐿4 ) c, no podía ser descifrado usando sólo sus propios retrasos
o los de las diferencias estacionalmente diferenciadas. Además de estos factores, [19.1.43] incluye
el término "corrección de errores" P3 (Ct-4 Y r-4) • Se podría argumentar que existe una razón
media histórica de consumo a ingreso, en la que Caso la diferencia entre los log de consumo y de
ingreso, c, -y "sería una variable aleatoria estacionaria, aun cuando el consumo de log o el ingreso
de registro visto por sí mismo exhibe una raíz unitaria. Para p3 <0, la ecuación [19.1.43] afirma
que si el consumo hubiera sido previamente una proporción mayor que la normal del ingreso (de
modo que c, _4 - y, _4 es mayor que lo normal), entonces esto hace que c, sea Menor para
cualquier valor dado de las otras variables explicativas. El término (c, _4 - y, _4) es visto como el
"error" de la relación de equilibrio de largo plazo, y P3 da la "corrección" a c, causada por este
error
Están fuera del círculo unitario, la matriz (In - t, - g2 - • • - tp _) es no singular. Por lo tanto, para
representar un sistema en el que no hay deriva en ninguna de las variables (8 = 0), tendríamos que
imponer la restricción.
a = 13,4 . [19.1.45].
En ausencia de cualquier restricción sobre a, el sistema de [19.1.42] implica que hay g tendencias de
tiempo separadas que explican la tendencia en el año
𝑍𝑡 ≡ 𝐴′ 𝑦𝑡
Es estacionario. La matriz A 'tiene la propiedad de:
𝐴′ 𝛹(1) = 0
Si, además, el proceso puede representarse como VAR de orden P en niveles como en la ecuación
[19.1.26], entonces existe una matriz (𝑛𝑥ℎ)B tal que
𝜙(1) = 𝐵𝐴′
FIGURA 19.2: 100 veces el registro del nivel deprecios en EEUU (𝑝𝑡 ), tipo de cambio dólar – lira
(𝑆𝑡 ), y el nivel de precios en Italia (𝑝𝑡∗ ), mensualmente 1973-89, Clave: …𝑝𝑡… 𝑆𝑡… 𝑝𝑡∗
Por ejemplo, FIGURA 19.2. Traza datos mensuales desde1973: a 1989:10 para los índices de
precios al consumidor de los Estados Unidos (𝑝𝑡 ) e Italia (𝑝𝑡∗ ).
Junto con el tipo de cambio (𝑆𝑡 ), donde 𝑆𝑡 , es en términos del numero de dólares de EEUU
necesitaba para comprar una lira de Italia. Los registros naturales de los datos brutos tomados y
multiplicados por 100, y el valor inicial para 1973:1 fue el restado (la formula), como en:
𝑝𝑡 = 100[log(𝑝𝑡 ) − log(𝑝1973:1 )]
El propósito de sustentar el constante log (𝑃1973:1) de cada observación es normalizar cada serie
para que será cero (0) para 1973:1 de modo que la grafica sea más fácil de leer. Multiplicando el log
por 100 significa que “p” es aproximadamente la diferencia porcentual ente 𝑃𝑡 y su valor inicial
𝑃1973:1.
𝑍𝑡 ≡ 𝑃𝑡 − 𝑆𝑡 − 𝑃𝑡∗
Parece que las tendencias son eliminadas por esta transformación, aunque las desviaciones del tipo
de cambio real de su media histórica pueden persistir durante varios años.
Ciertamente, anticipamos que la tasa de inflación es positiva, (𝐸(∆𝑃𝑡 ) > 0), de modo que la
hipótesis nula es que 𝑃𝑡 , es un proceso de raíz unitaria con derivada positiva, mientras que la
alternativa es 𝑃𝑡 es estacionaria alrededor de una tendencia temporal determinista. Con los datos
mensuales es una buena idea incluir al menos doce retrasos en la regresión. Por lo tanto, el modelo
siguiente fue estimado por MCO para los datos de EEUU para 𝑡 = 1974: 2.
El estadístico t para probar la hipótesis nula de que p (el coeficiente de pti) es unidad es
Z, = 0.32 AZ, _1- 0.01 AZ, _2+ 0.01 AZi_3+ 0.02 AZ,4
(0.07) (0.08) (0.08) (0.08)
+ 0.08 AZ, _5- 0.00 AZ, _6+ 0.03 AZ, _7 + 0.08 O2, 8 AZ, _8
(0.08) (0.08) (0.08) (0.08) [19.2.2]
- 0.05 AZ, _9+ 0.08 AZ, _10+ 0.05 AZ, _11 - 0.01 bai_12
(0.08) (0.08) (0.08) (0.08)
+ 0.00 + 0.97124 Zj-1
(0.18) (0.01410)
Comparando esto con el valor crítico del 5% para el caso 2 de la Tabla B.6, vemos que -2,04> -
2,88, por lo que la hipótesis nula de una raíz unitaria es aceptada. La prueba F de la hipótesis nula
conjunta de que p = 1 y que el término constante es cero es 2.19 <4.66, lo que es aceptado
nuevamente. Por lo tanto, podríamos aceptar la hipótesis nula de que las series no están
cointegradas.
Alternativamente, la hipótesis nula de que; Es no estacionario podría ser probado usando las
pruebas de Phillips-Perron. La estimación de OLS
ZI= -0.030 + 0.98654 2.1_1 +𝑢𝑡
(0.178) ( 0.01275)
La prueba Phillips-Perron Z ,, es entonces
2
𝑍𝑝 = 𝑇(𝜌̂ − 1) − 12{𝑇. 𝜎̂𝑝̂ ÷ 𝑠} (𝜆̂2 − 𝑐̂0 )
= (201) (0.98654 - 1)
1
− 2 {(201)(0.01275) + (2.49116)}2 (13.031 − 6.144)
= -6.35.
Desde - 6.35> -13.9, la hipótesis nula de no cointegración es nuevamente aceptada. Del mismo
modo, la prueba Phillips-Perron Z:
Claramente, los comentarios sobre la equivalencia observacional de los procesos 𝐼(0) y 𝐼(1)
también son aplicables a las pruebas de cointegracion. Existen representaciones 𝐼(0) y 𝐼(1) que
perfectamente describen los datos observados para 𝑧𝑡 representados en la figura 19.3. Otra manera
de describir los resultados es calcular cuánto tiempo es probable que una desviación de la paridad
del poder adquisitivo persista. La regresión de [19.2.2] implica una autoregresion en niveles de la
forma:
Puede calcularse utilizando los métodos descritos en el capítulo 1. La figura 19.4 representa los
coeficientes de impulso – respuesta estimada en función de j. Un aumento inesperado de 𝑧𝑡 nos
haría revisar hacia arriba nuestra proyección de 𝑍𝑡+𝑗 en un 25% incluso en 3 años . Por lo tanto,
cualquier fuerza que restablezca 𝑧𝑡 a su valor histórico debe operar con relativa lentitud. La misma
conclusión pudo haber sido su norma histórica, puede persistir por un número de años.
FIGURA 19.4 Función de respuesta de impulso para el tipo de cambio dólar-lira real. El gráfico
muestra j ( pt j st j p *t j ) / t , en función de j.
Esto sugiere que podemos obtener una estimación consistente de un vector de cointegración
eligiendo a para minimizar [19.2.3] sujeto a alguna condición de normalización en a. De hecho, un
estimador de este tipo resulta ser superconsistente, convergiendo a la tasa T en lugar de T1/2.
Si se sabe con certeza que el vector de cointegración tiene un coeficiente no nulo para el primer
elemento de y, ( a1 0 ), entonces una normalización particularmente convenienteEs establecer
a1 1 y representar entradas posteriores de a (a2, a3……,an) como el Negativos de un conjunto de
parámetros desconocidos ( 2 , 3 ,......., n )
a1 1
a
2 2
a3 3 [19.2.5]
. .
a n n
Esta minimización se logra, por supuesto, mediante una regresión OLS del primer elemento de y,
en todos los demás:
Proposición 19.2: Sea 1t un escalar y 2t sea un vector (g x 1). Sea n g 1 y supongamos que el
vector (n x 1) ( 1t , '2t ) se caracteriza por una relación de cointegración (h = 1) que tiene un
coeficiente no nulo sobre el 1t . Deje que el triangular
Se supone que:
𝑧𝑡∗
[ ] = Ψ ∗ (𝐿)𝜀𝑡 [19.2.11]
𝑢2𝑡
Donde 𝜀𝑡 es un vector (n x 1) i.i.d con media cero, cuartos finitos y matriz de varianza-covarianza
definida positiva 𝐸(𝜀𝑡 𝜀𝑡′ ) = 𝑃𝑃′ . Supongamos, además, que la sucesión de matrices (n x n) es
𝓍
absolutamente sumable y que las filas de {𝑠 ′ Ψ𝑠∗ }𝑠=0 son linealmente independientes. Sea 𝛼̂ 𝑇 y
𝛾̂𝑇 estimaciones basadas en la estimación MCO de [19.2.9]
′ −1
𝛼̂ 𝑇 𝑇 ∑𝑦2𝑡 ∑𝑦1𝑡
[ ]= [ ] [ ], [19.2.12]
𝛾̂𝑡 ∑𝑦2𝑡 ∑𝑦2𝑡 𝑦′2𝑡 ∑𝑦2𝑡 𝑦1𝑡
ℎ1 ≡ 𝜆1∗ ′ ∙ 𝑊(1)
1
ℎ2 = Λ∗2 ∙ {∫0 [𝑊(𝑟)][𝑑𝑊(𝑟)]′ } ∙ Λ∗1 + ∑∞ ∗
𝑣=0 𝐸(𝑢2𝑡 𝑧𝑡+𝑣 ) .
Obsérvese que la estimación MCO del vector de cointegración es consistente, aunque el término de
error 𝑢𝑡 en [19.2.8] puede ser correlacionado en serie y correlacionado con ∆𝑦2𝑡 , ∆𝑦3𝑡 , .. ∆𝑦𝑛𝑡 .
Esta última correlación contribuiría a un sesgo en la distribución limitante de 𝑇(𝛾̂𝑇 − 𝛾), ya que
entonces la variable aleatoria ℎ2 no tendría una media de cero. Sin embargo, el sesgo en 𝛾̂𝑇 es
𝑂𝑝 (𝑇 −1 ). Dado que las estimaciones de la MCO son consistentes, el promedio de la muestra al
cuadrado residual converge a
Se desvía a +∝. Por lo tanto, el 𝑅 2para la regresión de [19.2.8] convergerá a la unidad a medida que
el tamaño simple crece.
La cointegración puede ser vista como un supuesto estructural bajo el cual ciertas relaciones de
comportamiento de interés pueden ser estimadas a partir de los datos por MCO. Consideremos el
ejemplo de oferta y demanda en las ecuaciones [9.1.2] y [9.1.1].
𝑞𝑡𝑠 = γ𝑝𝑡 + 𝜀𝑡𝑠 [19.2.14]
Hemos observado en la ecuación [9.1.6] que si 𝜀𝑡𝑑 son i.i.d. Con 𝑉𝑎𝑟(𝜀𝑡𝑠 ) finito. Entonces, como la
varianza de𝜀𝑡𝑑 va al infinito, la estimación MCO de [19.2.14] produce una estimación consistente de
la elasticidad de la oferta γ a pesar del sesgo de las ecuaciones simultáneas potenciales. Esto se debe
a que los grandes cambios en la curva de demanda trazan efectivamente la curva de oferta de la
muestra; Véase la Figura 9.3. De forma más general, si 𝜀𝑡𝑠 es I(0) y 𝜀𝑡𝑑 es I(1), entonces [19.2.14] y
[19.2.15] implican que(𝑞𝑡 , 𝑝𝑡 )′ es cointegrada con cointegración vector (1, − γ)′ . En este caso, el
vector cointegrado puede ser estimado consistentemente por MCO por esencialmente el mismo
motivo que en la Figura 9.3. La hipótesis de que una determinada relación estructural que involucra
variables I (1) se caracteriza por una perturbación I (0) equivale a una suposición estructural que
puede ayudar a identificar los parámetros de la relación estructural.
Se asumió en la Proposición 19.2 que ∆𝑦2𝑡 tenía una media cero. Si, en cambio,
𝐸(∆𝑦2𝑡 ) = 𝛿2 , es fácil generalizar la Proposición 19.2 usando una rotación de variables como en
[18.2.43]; Para más detalles, véase Hansen (1992). Mientras no exista una tendencia temporal en la
verdadera relación de cointegración [19.2.9], la estimación γ̂ 𝑇 basada en la estimación de MCO de
[19.2.8] será súper consistente independientemente de si el vector I(1) 𝑦2𝑡 incluye un tiempo
determinístico Tendencia o no.
El Papel de la Normalización
La estimación MCO del vector de cointegración se obtuvo normalizando el primer
elemento del vector de cointegración a ser unidad. La propuesta era entonces regresar el primer
elemento de 𝑦𝑡 en los otros. Por ejemplo, con n = 2, regresaríamos 𝑦1𝑡 en 𝑦2𝑡
𝑦1𝑡 = 𝛼 + γ𝑦2𝑡 + 𝑢𝑡 .
𝑦2𝑡 = 𝜃 + ℵ𝑦1𝑡 + 𝑣𝑡 .
Por lo tanto, elegir que llamar 𝑦1 y que llamar 𝑦2 podría terminar haciendo una diferencia
material para la estimación de a así como para la evidencia que se encuentra para la cointegración
entre las series. Un enfoque que evita este problema de normalización es la estimación de máxima
verosimilitud de información completa propuesta por Johansen (1988, 1991). Esto se discutirá en
detalle en el Capítulo 20.
¿Cuál es la regresión que estima cuando hay más de una relación de cointegración?
Donde el vector (h x 1) 𝑦1𝑡 contiene los primeros h elementos de 𝑦𝑡 en 𝑦2𝑡 contiene los restantes
∗ ∗ ∗ )′
elementos g. Como𝑧𝑡∗ ≡ (𝑧1𝑡 , 𝑧2𝑡 , . . . , 𝑧ℎ𝑡 es covarianza-estacionaria con media cero, podemos
definir 𝛽2 , 𝛽3, . . . , 𝛽ℎ , para ser los coeficientes de población asociados con una proyección lineal de
∗ ∗ ∗ ∗
𝑧1𝑡 sobre 𝑧2𝑡 , 𝑧3𝑡 , . . . , 𝑧ℎ𝑡 :
∗ ∗ ∗ ∗
𝑧1𝑡 = 𝛽2 𝑧2𝑡 + 𝛽3 𝑧3𝑡 + ∙∙∙ +𝛽ℎ 𝑧ℎ𝑡 + 𝑢𝑡 [19.2.18]
∗ ∗ ∗
Donde 𝑢𝑡 por construcción tiene cero y no está correlacionado con 𝑧2𝑡 , 𝑧3𝑡 , . . . , 𝑧ℎ𝑡 .
La siguiente proposición, adaptada por Wooldridge (1991), muestra que la muestra residual 𝑢̂𝑡
resultante de la estimación de MCO de [19.2.8] converge en probabilidad al residuo residual 𝑢𝑡
asociado con la proyección lineal en [19.2.18]. En otra Palabra, entre el conjunto de posibles
relaciones de cointegración, la estimación MCO de [19.2.8] selecciona la relación cuyos residuos no
están correlacionados con ninguna otra combinación lineal I(1) de (𝑦2𝑡 , 𝑦3𝑡 , . . . , 𝑦n𝑡 ).
Proposición 19.3: Dejamos que 𝑦𝑡 = (𝑦 ′1𝑡 , 𝑦 ′ 2𝑡 )′ satisfagan [19.2.16] y [19.2.17] con𝑦1𝑡 y (h x 1) vector
con h> 1, y dejemos 𝛽2 , 𝛽3, . . . , 𝛽ℎ denotan los coeficientes de proyección lineal en [19.2.18]. Suponer que
∝
𝑧∗
[ 𝑡 ] = ∑ Ψ𝑠∗ 𝜀𝑡−𝑠
𝑢2𝑡
𝑠=0
Donde {𝑠 ∙ 𝛹𝑠∗ }∝ 𝑠=0 es absolutamente sumable y 𝜀𝑡 es un i.i.d. (n x 1) vector con media cero, la varianza ΡΡ ', y
finito cuartos momentos. Supongamos además que los elementos de 𝛹 ∗ (1) ∙ 𝛲 son linealmente independientes. Las
estimaciones de coeficientes asociadas con la estimación de MCO de
Converge en probabilidad a
= [1 − Β ′ ] ∙ 𝑧𝑡∗
Con la última igualdad que sigue a la forma [19.2.16] Pero a partir de [19.2.18] estos son los mismos
∗ ∗ ∗ ∗
que los residuos de la población asociados con la proyección lineal de 𝑧1𝑡 en 𝑧2𝑡 , 𝑧3𝑡 , . . . , 𝑧ℎ𝑡
Esto es una ilustración de una propiedad general observada por Wooldridge (1991).
Considere un modelo de regresión de la forma
𝑦𝑡 = 𝛼 + 𝑥′𝑡 Β + 𝑢𝑡 [19.2.22]
La propuesta es, por lo tanto, estimar [19.2.19] por MCO y luego construir una de la prueba de raíz
unitaria estándar sobre los residuos de estimación, como la prueba aumentada de Dickey-Fuller 𝑡 o
la prueba de Phillips 𝑍𝑝 o 𝑍𝑡 . Aunque estos estáticos de prueba se construyen de la misma manera
que cuando se aplican a una serie individual 𝑦𝑡 , cuando las pruebas se aplican a los residuos 𝑢̂𝑡 de
una regresión espuria, los valores críticos que se utilizan para interpretar la estadística de prueba son
diferentes de Los empleados en el Capítulo 17.
Sea 𝑢̂𝑡 el residuo simple asociado con la estimación de MCO de [19.2.24] en un simple de tamaño
T:
Donde
−1
𝛼̂ 𝑇 Σ𝑦′2𝑡 Σ𝑦1𝑡
[ 𝑇] = [ ] [ ]
γ̂ 𝑇 Σ𝑦2𝑡 Σ𝑦2𝑡 𝑦′2𝑡 Σ𝑦2𝑡 𝑦1𝑡
Y donde Σ indica suma sobre t de 1 a T. El residual 𝑢̂𝑡 , puede entonces ser regresado sobre su
propio valor retardado 𝑢̂𝑡−1 sin un término constante:
Rendimiento de la estimación
∑𝑇 ̂𝑡−1 𝑢
𝑡=2 𝑢 ̂𝑡
𝜌̂𝑇 = ∑𝑇 ̂
𝑢 2 [19.2.27]
𝑡=2 𝑡−1
Y sea 𝜎̂𝑃̇𝑇 el error estándar de 𝑃𝑡̇ calculado por la fórmula usual de MCO:
Por último, supongamos 𝑐̂𝑗.𝑇 la j-ésima autocovariancia simple de los residuos estimados asociados
con [19.2.26]:
𝑇
−1
𝑐̂𝑗.𝑇 = (𝑇 − 1) ∑ 𝑒̂𝑡 𝑒̂𝑡−𝑗
𝑡=𝑗+2
Para 𝑗 = 1,2, . . . , 𝑇 − 2 [19.2.30]
𝑍𝜌.𝑇 = (𝑇 − 1)(𝜌̂𝑇 − 1) − (1⁄2) ∙ {(𝑇 − 1)2 ∙ 𝜎̂𝑃2̇ 𝑇 ÷ 𝑠𝑡2 } ∙ {𝜆̂2𝑡 − 𝑐̂0.𝑇 }. [19.2.32]
Sin embargo, la distribución asintótica de esta estadística no es la expresión en [17.6.8], sino que es
una distribución que se describirá en la Proposición 19.4.
Si el vector 𝑦𝑡 no es cointegrado, entonces [19.2.24] será una regresión espuria y 𝜌̂𝑇 debería
estar cerca de 1. Por otra parte, si encontramos que 𝜌̂𝑇 está muy por debajo de 1, es decir, si el
cálculo de [19.2 .32] produce un número negativo que es sufi- cientemente grande en valor
absoluto- entonces se rechazará la hipótesis nula de que [19.2.24] es una regresión espuria, y
concluiremos que las variables están cointegradas. Del mismo modo, la estadística 𝑍𝑡 de Phillips
asociada con la autorregresión residual [19.2.26] sería
𝑍𝑡.𝑇 = (𝑐̂0.𝑇 ⁄𝜆̂2𝑡 )1⁄2 ∙ 𝑡𝑇 − (1⁄2) ∙ {(𝑇 − 1) ∙ 𝜎̂ ′̇ ÷ 𝑠𝑡′ } ∙ {𝜆̂2𝑡 − 𝑐̂0.𝑇 }/ 𝜆̂𝑡
𝑃𝑇 [19.2.33]
Para 𝜀𝑡 a i.i.d. secuencia con media cero, varianza 𝐸(𝜀𝑡′ 𝜀𝑡′ ) = 𝛲𝛲′, y cuarto momentos finitos, y donde {𝑠 ∙
𝛹𝑠∗ }∝
𝑠=0 es absolutamente sumable. Sean 𝑔 ≡ 𝑛 − 1 y 𝛬 ≡ 𝛹(1) ∙ 𝛲. Supongamos que la matrix 𝛬𝛬 (n x n)
′
Entonces lo siguiente:
𝑊1∗ (𝑟)
(1 𝑥 1)
𝑊 ∗ (𝑟)
= ´;
(𝑛𝑥 1)
𝑊2∗ (𝑟)
[(g 𝑥 1) ]
ℎ1
𝐻𝑛 ≡ ∫[𝑊1∗ (𝑟)]2 𝑑𝑟 − [∫ 𝑊1∗ (𝑟)𝑑𝑟 ∫[𝑊1∗ (𝑟)] ∙ [𝑊2∗ (𝑟)]′ 𝑑𝑟] [ ]
ℎ2
(b) Si q→∝ como T→∝ pero q/T→0, Entonces la estadística 𝑍𝑝.𝑇 en [19.2.32] satisface
𝐿
𝑍𝑝.𝑇 → 𝑍𝑛 , [19.2.37]
Donde
1 1 1 1
𝑍𝑛 ≡ { {[1 − ℎ2′ ] ∙ [𝑊1∗ (1)] ∙ [𝑊 ∗ (1)]′ [ ]} − ℎ1 [𝑊1∗ (1)]′ [ ] − 2 (1 + ℎ2′ ℎ2 ) } ÷ 𝐻𝑛
2 −ℎ2 −ℎ2
[19.2.38]
(c) Si q→∝ como T→∝ pero q/T→0, Entonces la estadística 𝑍𝑡.𝑇 en [19.2.33] satisface
𝐿
𝑍𝑡.𝑇 → 𝑍𝑛 ∙ √𝐻𝑛 ÷ (1 + ℎ2′ ℎ2 )1/2 [19.2.39]
(d) Si, además de las suposiciones precedentes, ∆𝑦𝑡 sigue un proceso ARMA de vector estacionario de media cero y
Si q→∝ como T→∝ pero p/𝑇 1/3 → 0, entonces la prueba aumentada de Dickey-Fuller t asociada con
[19.2.34] tiene la misma distribución limitante 𝑍𝑛 que la estadística 𝑍𝑝.𝑇 descrita en [19.2.37].
𝑝
El resultado (a) implica que 𝜌̂𝑇 → 1. Por lo tanto, cuando la regresión de “cointegración”
estimada [19.2.24] es espuria, Los residuos estimados de esta regresión se comportan como un
proceso de raíz unitaria en el sentido de que si 𝑢̂𝑡 es regresado sobre 𝑢̂𝑡−1 , el coeficiente estimado
tenderá a la unidad a medida que crece el tamaño simple. Ninguna combinación lineal de 𝑦𝑡 es
estacionaria, por lo que los residuos de la regresión espuria no pueden ser.
Obsérvese que, dado que 𝑊1∗ (𝑟) y [𝑊2∗ (𝑟) son movimiento browniano estándar, las
distribuciones de los términos ℎ1 , ℎ2 , 𝐻𝑛 , y 𝑍𝑛 en la Proposición 19.4 dependen solamente del
número de variabolas explicativas estocásticas Incluida en la regresión de cointegración (n-1) y
sobre si un término constante aparece en esa regresión afectada por las varianzas, correlaciones y
dinámica de ∆𝑦𝑡 .
En el caso especial cuando, ∆𝑦𝑡 es i.i.d., entonces Ψ(L) = 𝐼𝑛 y la matriz ΛΛ′ =
𝐸[(∆𝑦𝑡 )(∆𝑦𝑡′ )]. Ya que 𝐿𝐿′ = (ΛΛ′ )−1 , resulta que (ΛΛ′ ) = (𝐿′ )−1 (𝐿)−1 . Por lo tanto, para este
caso especial,
′
𝐿′ {𝐸[(∆𝑦𝑡 )(∆𝑦𝑡′ )]}𝐿 = 𝐿′(ΛΛ ) 𝐿 = 𝐿′ {(𝐿′ )−1 (𝐿)−1 }𝐿 = 𝐼𝑛 [19.2.40]
En el caso más general en el que ∆𝑦𝑡 está correlacionado en serie, la distribución limitante
de 𝑇(𝜌̂𝑇 − 1) depende de la naturaleza de esta correlación como capturada por los elementos de L.
Sin embargo, las correcciones de autocorrelación implícitas en las variables de Phillips cuyas
distribuciones No dependen de ningún parámetro de molestia.
Aunque las distribuciones de 𝑍𝑝 , 𝑍𝑡 , y la prueba de Dickey-Fuller t aumentada no
dependen de parámetros de molestia, las distribuciones cuando estos estadísticos se calculan a partir
de los residuos 𝑢̂𝑡 no son las mismas que las distribuciones que tendrían si se calculan a partir de la
𝑦𝑡 datos en bruto. Por otra parte, diferentes valores para n - 1 (el número de variables explicativas
estocásticas en la regresión de cointegración de [19.2.24]) implican diferentes caracterizaciones de la
limitación estadística ℎ1 , ℎ2 , 𝐻𝑛 , y𝑍𝑛 lo que significa que un diferente calue crítico Debe utilizarse
para interpretar 𝑍𝑝 para cada valor de n - 1. De forma similar, las distribuciones asintóticas de
ℎ2 , 𝐻𝑛 , y𝑍𝑛 son diferentes dependiendo de si una ter constante se incluye en la regresión de
cointegración [19.2.24].
La sección denominada Caso 1 en la Tabla B.8 se refiere al caso cuando La regresión de
cointegración se estima sin un término constante:
𝑦1𝑡 = γ2 𝑦2𝑡 + γ3 𝑦3𝑡 + . . . +γ𝑛 𝑦𝑛𝑡 + 𝑢𝑡 [19.2.41]
La tabla reporta estimaciones Monte Carlo de los valores críticos para la estadística de prueba 𝑍𝑝
descrita en [19.2.32], para 𝑢̂𝑡 la fecha t residual de la estimación MCO de [19.2.41]. Los valores se
calcularon generando un simple de tamaño T= 500 por 𝑦1𝑡 , 𝑦2𝑡 , 𝑦3𝑡 . . . 𝑦𝑛𝑡 Independiente
Gaussian paseos aleatorios, la estimación [19.2.41] y [19.2.26] por MCO, y la tabulación de la
distribución de (T-1) (𝜌̂𝑇 − 1). Por ejemplo, la tabla indica que si tuviéramos que regresar una
caminata al azar 𝑦1𝑡 en otros tres paseos aleatorios (𝑦2𝑡 , 𝑦3𝑡 , 𝑒𝑦4𝑡 ), entonces en el 95% de las
muestras, (T-1) (𝜌̂𝑇 − 1) sería mayor tan -27.9, es decir, 𝜌̂𝑇 , debería exceder 0.94 es una muestra
de tamaño T = 500. Si la estimación 𝜌̂𝑇 es inferior a 0,94, entonces esto podría tomarse como
evidencia de que las series están cointegradas.
La sección etiquetada como Caso 2 en la Tabla B.8 da valores críticos para 𝑍𝑝.𝑇 y luego un término
constante se incluye en la regresión de cointegración:
Para este caso, [19.2.26] se estima con 𝑢̂𝑡 , ahora interpretado como el residuo de la estimación de
MCO de [19.2.42]. Obsérvese que los diferentes casos (1 y 2) se refieren a si un ter constante se
incluye en la regresión de cointegración [19.2.42] y no a si un término constante incluido en la
regresión residual [19.2.26]. En cada caso, la autorregresión para los residuos se estima en la forma
de [19.2.26] sin término constante.
Los valores críticos para el estadístico𝑍𝑡 o el estadístico aumentado de Dickey-Fuller se
presentan en la Tabla B.9. De nuevo, si no se incluye una variable constante en la regresión de
cointegración como en [19.2.41], las entradas del caso 1 son apropiadas, mientras que si se incluye
un ter constante en la regresión de cointegración como en [19.2.42], las entradas del caso 2 debería
ser usado. Si el valor para el 𝑍𝑡 o el incremento de Dickey-Fuller t estatistic es negativo y grande en
valor absoluto, esto es evidencia contra la hipótesis nula de que 𝑦𝑡 no está cointegrada.
Cuando se utilizan las correcciones para la correlación serial implícita en la prueba 𝑍𝑝 , 𝑍𝑡 , o
aumentada de Dickey-Fuller, la justificación para usar los valores críticos en la Tabla B.8 o B.9 es
asintótica, y por consiguiente estos Las tablas describen sólo la distribución de grandes muestras.
Los valores críticos de las muestras pequeñas tabulados por Engle y Yoo (1987) y Haug (1992)
pueden diferir algo de los valores críticos de la muestra grande.
Suponer que
∆𝑦2𝑡 = 𝛿2 + 𝑢2𝑡
Con 𝛿2 ≠ 0. Entonces
𝑡
El cual es asintóticamente dominado por el tiempo determinista tren 𝛿2 ∙ 𝑡. Por tanto, las
estimaciones 𝛼̂ 𝑇 y 𝛾̂𝑇 basadas en la estimación MCO de [19.2.43] tienen la misma distribución
asintótica que los coeficientes en una regresión de una serie I(1) sobre una constante y una
tendencia temporal. Si
∆𝑦1𝑡 = 𝛿1 + 𝑢1𝑡
(Donde 𝛿1 puede ser cero), entonces el MCO estimación γ _T base don [19.2.43] da una estimación
consistente (𝛿1 ⁄𝛿2 ), Y la primera diferencia de los residuos de esa regresión converge a 𝑢1𝑡 −
(𝛿1 ⁄𝛿2 )𝑢2𝑡 ; Ver Ejercicio 19.1
Si, de hecho, [19.2.43] fueron una simple regresión de tendencia temporal de la forma
𝑦1𝑡 = 𝛼 + γ𝑡 + 𝑢𝑡 ,
Luego, una prueba aumentada de Dickey-Fuller sobre los residuos,
Sería asintóticamente equivalente a una prueba de Dickey-Fuller aumentada en la serie original y_1t
que incluía un término constante y una tendencia temporal:
Ya que los residuos de MCO estimación de [19.2.43] se comportan como los residuos de una
regresión de [y1t – (δ1 /δ2) y2t] en una tendencia temporal, Hansen (1992) mostró que cuando y2t
tiene una tendencia diferente de cero, la prueba t de ρ = 1 en [19.2.44] para µ, el residuo de la
estimación de MCO [19.2.43] tiene la misma distribución asintótica que la habitual prueba t
aumentada de Dickey – Fuller para una regresión de la de [19.2.45] con y1t reemplazado por [y1t –
(δ1 /δ2) y2t]. Por lo tanto, si la regresión de cointegracion implica una sola variable y2t con
desviación no nula, estimamos la regresión [19.2.43] y calcular la Z, o la estadística T de Dickey –
Fuller aumentado exactamente de la misma manera que se especifico en la ecuación [19.2.33] o
[19.2.34]. Sin embargo, en lugar de comparar estas estadísticas con la (n-1) = 1 entra para el caso 2
de la tabla B.9, en lugar de comparar estas estadísticas con el caso de la sección 4 de la tabla B.6.
Por conveniencia, los valores para una muestra de tamaño T = 500 para el caso univariado
sección 4 de la tabla B.6 se reproducen en el (n - 1) = 1 fila de la sección etiquetada en el caso 3 de
la tabla B.9. Esto se describe como en el caso 3 en las tabulaciones multivariadas por la siguiente
razón. En el análisis univariado, “caso 3” referencia a una regresión en la que la variable yt tenía
una tendencia no nula pero no se incluyó el término de tendencia en la regresión. La generalización
Supongamos que al menos una de las variables explicativas tiene un componente de tendencia
distinto de cero, por ejemplo, llame a esto la variable n-ésima:
δn ≠ 0
y1t* = α* + y2* y2t* + y3* y3t* + . . . + yn-1* yn-1t* + yn* ynt* + µt . [19.2.46]
Donde
∗ 𝛿
𝑦1𝑡 ≡ 𝑦1𝑡 − ( 𝑖⁄𝛿 )𝑦𝑛𝑡 for i= 1, 2, . . . , n-1
𝑛
Los valores críticos apropiados para los estadísticos construidos cuando µt denota los residuos de
la estimación MCO de [19.2.42] puede calcularse a partir de las regresiones de MCO de una variable
I(1) sobre una constante, (n - 2) otra variable I(1), y una tendencia temporal. Los valores críticos
apropiados se tabulan bajo el encabezamiento del caso 3 de las tablas B.8 y B.9.
Por supuesto, podríamos imaginar incluir una tendencia temporal directamente en la regresión,
como en:
Ya que [19.2.48] está en la misma regresión de [19.2.47], los valores críticos para tal regresión
podrían ser encontrados tratando esto como si fuera una regresión que involucra (n + 1) variables y
buscando en el caso de la sección 3 de las tablas B.8 o B.9 para los valores críticos que serian
apropiados si en realidad tuviéramos (n + 1) en lugar de n variables totales. Claramente, la
especificación en [19.2.42] tiene más poder para rechazar una falsa hipótesis nula que [19.2.48], ya
que utilizaríamos la misma tabla de valores críticos para [19.2.42] o [19.2.48] con un grado más de
libertad utilizado por [19.2.48]. Concebiblemente, podríamos todavía querer estimar la regresión en
forma de [19.2.48] para cubrir el caso cuando no estamos seguros de si alguno de los elementos de
yt tiene una tendencia diferente de cero o no.
Para ilustrar este enfoque, considerar nuevamente el ejemplo de paridad del poder adquisitivo
donde ρt es el registro del nivel de precios de los EE.UU. , st es el logaritmo del tipo de cambio
dólar – lira y pt* es el registro del nivel de precios italiano. Ya hemos visto que el vector a = (1, -1,
-1)’ no parece ser un vector de cointegracion par yt = (pt , st , pt*)’. Vamos a preguntar ahora si existe
alguna relación de cointegracion entre estas variables.
El número de observaciones utilizadas para estimar [19.2.49] es T = 202. Cuando los residuos µt
de la muestra son regresados en sus propios valores rezagados, el resultado es:
µt = 0.98331 µt-1 + ℮t
(0.01172)
2
s2 = (T - 2)-1 ∑𝑇𝑡=2 𝑒𝑡 = (0.40374)2
c0 = 0.1622
cj = (T - 1)-1 ∑𝑇𝑡=𝑗+2 𝑒𝑡 𝑒𝑡−𝑗
λ2 = c0 + 2 ∑12 𝑗=1[1 − (𝑗/13)𝑐𝑗 = 0.4082
La prueba Zp Phillips – Ouliaris es:
Dada la evidencia de desviación no nula en las variables explicativas, esto debe compararse con el
caso de la sección 3 de la tabla B.8. Para (n - 1) = 2, el 5% del valor critico para Zp es -27.1. Ya que
-7.54 > -27.1, se acepta la hipótesis nula de cointegracion, de forma similar, la estadística Zt Phillips
– Ouliaris es:
Como un segundo ejemplo, la figura 19.5 representa 100 veces el logaritmo del ingreso real
personal agregado trimestral real (yt) y los gastos de consumo personal (ct) para los Estados Unidos
entre 1947:I a 1989:III. En una regresión de yt en una constante, una tendencia temporal, yt-1 , y ∆yt-
j para j = 1,2, … , 6, la prueba t de MCO que el coeficiente de yt-1 es la unidad es -1.28. De manera
similar, en una regresión de ct en una constante, una tendencia temporal, ct-1 , ∆ct-j para j = 1,2, …
,6, la prueba t de MCO que le coeficiente de ct-1 es unidad es -.1.88. Por tanto, ambos procesos bien
podrían describirse como I(1) con derivada positiva.
µt = 0.782 µt-1 + ℮t
(0.048)
TABLA 19.1.
Sumario de la Prueba de Phillips – Ouliaris – Hansen para Cointegración
El estadístico t Dickey- Fuller aumentado es la prueba t de MCO de la hipótesis nula de que ρ= 1 en la regresión:
Puesto que hay nuevamente una amplia evidencia de que yt tiene derivada positiva, esto debe ser
comparado con el caso 9 de las secciones de las tablas B.8 y B.9, respectivamente. Ya que -32.0 < -
21.5 y -4.28 < -3.42, en cada caso la hipótesis nula de no cointegracion es rechazada al nivel del 5%.
Así, el consumo y los ingresos parecen cointegrarse.
Se observó que si yt es cointegrada, entonces se puede obtener una estimación consistente del
vector de cointegracion mediante MCO. Esta sección explora más la teoría de la distribución de
esta estimación y propone varias estimaciones alternativas que simplifican la prueba de hipótesis.
Si y1t , y 2t son ambos I(1) pero zt* y µ2t son I(0), entonces, para n≡(g + 1), el vector n-dimensional
(y1t , y’2t)’ esta cointegrada con relación de cointegracion [19.3.1].
Considere el caso especial de un sistema Gaussiano para el cual y2t sigue una caminata aleatoria y
para la cual es ruido blanco y no correlacionado con µ2t para todo t y T
𝑧∗ 0 𝜎2 0′
[µ 𝑡 ] ~ i.i.d. N ([ ] , [ 1 ]) [19.3.3]
2𝑡 0 0 𝛺22
Entonces [19.3.1] describe una regresión en la que las variables explicativas (y2t) son independientes
del termino de error (zT*) para todo t y T. La regresión satisface así la suposición 8.2 en el capítulo
8. Allí se vio que los condicionales son (y21 , y22 , … , y2T), las estimaciones MCO tienen una
distribución Gaussiana:
−1
(𝛼̂ 𝑇 − 𝛼) 𝑇 ′
∑ 𝑦2𝑡 ∑ 𝑧𝑡∗
[| ̂ | (𝑦21 , 𝑦22 ,…, 𝑦2𝑇 )] = [ ] [ ]
(ϒ 𝑇 − ϒ) 𝑧𝑡∗
∑ 𝑦2𝑡 ′
∑ 𝑦2𝑡 − 𝑦2𝑡 ∑ 𝑦2𝑡
′ −1
0 𝑇 ∑ 𝑦2𝑡
~ 𝑁 ([ ] , 𝜎12 [ ] ) , [19.3.4]
0 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡′
Recordar más adelante del capítulo 8 que esta distribución Gaussiana condicional es todo lo que se
necesita para justificar la aplicación de muestras pequeñas de las pruebas t o F habituales de MCO.
Rα α + Rϒ ϒ = r
Donde Rα y r son vectores conocidos (m x 1) y Rϒ es una matriz conocida (m x g) que describe las
restricciones. La forma Wald de la prueba F de MCO de la hipótesis nula es:
−1 −1
′
𝑇 ∑ 𝑦2𝑡 𝑅′
(𝑅𝛼 𝛼𝑇 + 𝑅ϒ ϒ𝑇 − 𝑟) ′
{𝑠𝑇2 [𝑅𝛼 𝑅ϒ ] [ ] [ 𝛼′ ]} x (Rα αT + Rϒ ϒT -
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡′ 𝑅ϒ
r) ÷ m. [19.3.5]
Donde,
Es una forma cuadrática en un vector Gaussiano. La proposición 8.1 establece que condicional a
(y21 , y22 , . . . , y2T), la magnitud en [19.3.6] tiene una distribución χ2 (m). Por tanto condicional a (y21
, y22 , . . . , y2T), la prueba F de MCO [19.3.5] podría considerarse como la relación de de una
variable χ2 (m) con la variable independiente χ2 (T - n) con la variable (T - n) sT2 /σt2 , con el
numerador y el denominador cada uno dividido por su grado de libertad. La prueba F de MCO
tiene así una distribución condicional F(m, T - n) exacta. Ya que esta es la misma distribución para
todas las realizaciones de (y21 , y22 , . . . , y2T), se deduce que [19.3.5] tiene una distribución
incondicional F(m, T - n). Por los tanto, a pesar de los I(1) los regresores y las complicaciones de la
cointegracion, el enfoque correcto para este ejemplo seria estimar [19.3.1] por MCO y el uso
estándar o F estadístico para probar cualquier hipótesis sobre el vector de cointegracion. No se
requieren procedimientos especiales para estimar el vector de cointegracion, y no es necesario
consultar valores críticos inusuales para probar una hipótesis sobre su valor.
Ahora buscamos hacer una declaración análoga en términos de las distribuciones asintóticas
correspondientes. Para ello será útil reescalar los resultados en [19.3.4] y [19.3.5] para que definan
secuencias de estadística con distribuciones asintóticas no degeneradas. Si [19.3.4] es pre
multiplicado por la matriz;
𝑇 1/2 0′
[ 𝑇 . 𝐼𝑔 ]
0
La implicación es que la distribución de las estimaciones de MCO condicionales a (y21 , y22 , . . . ,
y2T) es dado por:
𝑇 1/2 (𝛼 𝑇 − 𝛼 ) 𝑦 , 𝑦 , … , 𝑦
[| | ( 21 22 2𝑇 )]
𝑇 (ϒ 𝑇 − ϒ)
′ −1
0 2 𝑇
1/2
0′ 𝑇 ∑ 𝑦2𝑡 𝑇 1/2 0′
~ N ([ ] , 𝜎1 {[ ] [
𝑇 . 𝐼𝑔 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ] [ 𝑇 . 𝐼𝑔 ]})
0 0 ′ 0
−1
0 1 𝑇 −3/2 ∑ 𝑦2𝑡
′
= N ([ ] , 𝜎12 [ −3/2 ] ) [19.3.7]
0 𝑇 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 ′
Para analizar la distribución asintótica, observe que [19.3.1] a través de [19.3.3] son un caso especial
de análisis del sistema en la proposición 19.2 con Ψ* (L) = In y ;
𝜎1 0′
P=[ ]
0 𝑃22
𝜎1 0′
Ψ*(1).P = [ ] [19.3.8]
0 𝑃22
Los términos λ1*’ y ʌ2* mencionados en la proposición 19.2 serian dados por:
ʌ∗2 0 𝑃22
=[ ]
(𝑔 𝑥 𝑛) (𝑔 𝑥 1) (𝑔 𝑥𝑔)
−1
0′
1 {∫ [𝑊 (𝑟)]′ 𝑑𝑟} [ ]
𝐿 𝑃22
→
0′
[0 𝑃22 ] ∫ 𝑊 (𝑟) 𝑑𝑟 [0 𝑃22 ] {∫ [𝑊 (𝑟)] [𝑊 (𝑟)]′ 𝑑𝑟} [ ′ ]
[ 𝑃22 ]
[𝜎1 0′ ] 𝑊(1)
X[ 𝜎 ] ,
[0 𝑃22 ] {∫ [𝑊(𝑟)] [𝑑𝑊(𝑟)]′ } [ 1 ]
0
[19.3.9]
𝑊1 (𝑟)
(1 𝑥 1)
W(r) = [ ]
𝑊2 (𝑟)
(𝑔 𝑥 1)
(n x 1)
𝑇 1/2 (𝛼 𝑇 − 𝛼 )
[ ]
𝑇 (ϒ 𝑇 − ϒ)
−1
{∫ [𝑊2 ′
𝐿 1 (𝑟)]′ 𝑑𝑟} 𝑃22
→ [[ ]]
𝑃22 ∫ 𝑊2 (𝑟) 𝑑𝑟 𝑃22 {∫ [𝑊2 ′
(𝑟) 𝑑𝑟] . [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
𝜎1 𝑊1 (1)
X[ ] [19.3.10]
𝑃22 {∫ [𝑊2 (𝑟)] . 𝑑𝑊1 (𝑟)} 𝜎1
𝑣1
≡𝜎1 [𝑣 ] ,
2
Donde:
−1
′
(𝑟)]′ } 𝑃22
𝑣1 1 {∫[𝑊2
[𝑣 ] ≡ [[ ]]
2 𝑃
22 ∫ 𝑊2 (𝑟) 𝑑𝑟 𝑃22 {∫ [𝑊2 (𝑟)] . [𝑊2 ′
(𝑟)]′ } 𝑃22
[19.3.11]
𝑊1 (1)
X[ ]
𝑃22 {∫ [𝑊2 (𝑟)] . 𝑑𝑊1 (𝑟)}
𝑇 1/2 (𝛼 𝑇 𝛼 )
[| | (y21 , y22 , . . . , y2T)] =
𝑇 (ϒ 𝑇 ϒ)
′ −1
1 𝑇 −3/2 ∑ 𝑦2𝑡 𝑇 −1/2 ∑ 𝑧𝑡∗
[ −3/2 −2 ∑ ] [ −1 ]
𝑇 ∑ 𝑦2𝑡 𝑇 𝑦2𝑡 𝑦2𝑡 ′
𝑇 ∑ 𝑦2𝑡 𝑧𝑡∗
−1
0 1 𝑇 −3/2 ∑ 𝑧2𝑡
′
~ N ([ ] , 𝜎12 [[ −3/2 ]] )
0 𝑇 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 ′
Comparando esto con la distribución limitante [19.3.10], parece que el vector (v1 ,v2’)’ tiene
distribución condicional en W2(.) que podría ser descrito como:
𝑣1
[|𝑣 | 𝑊2 (. )]
2
−1
1 ′
{∫ [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
~N ([0] , [[ ′ ]]
)
0 𝑃22 ∫ 𝑊2 (𝑟)𝑑𝑟 𝑃22 {∫ [𝑊2 (𝑟)] . [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
[19.3.12]
La expresión [19.3.12] permite el argumento que se utilizo para motivar las pruebas t y F de MCO
habituales en el sistema de [19.3.1] y [19.3.2] con perturbaciones Gaussianas que satisfacen dar una
justificación asintótica para estas mismas pruebas en un sistemas con perturbaciones no Gaussianas
cuyos medios y autocovarianzas se asumen en [19.3.3]. Considere para la ilustración una hipótesis
que implica solo el vector de cointegracion, de modo que Rα = 0. Entonces, bajo la hipótesis nula,
m veces la prueba F en [19.3.5] se convierte:
m. FT =
−1 −1
′
𝑇 ∑ 𝑦2𝑡
[𝑅ϒ (ϒ 𝑇 − ϒ)]′ 𝑠𝑇2 0′ [𝑅ϒ (ϒ 𝑇 − ϒ)]
[0 𝑅ϒ ] [ ] [ ]
∑ 𝑦2 ∑ 𝑦2𝑡 ′ 𝑅ϒ′
𝑦2𝑡
{ [ ] }
−1 −1
′
∑ 𝑦2𝑡
𝑇 0′
= [𝑅ϒ . 𝑇 (ϒ 𝑇 − ϒ)]′ {𝑠𝑇2 [0 𝑅ϒ . 𝑇] [ ]}
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡′ ] [
𝑇 . 𝑅ϒ′
X [𝑅ϒ . 𝑇 (ϒ 𝑇 − ϒ)]
= (𝜎12 |𝑠𝑇2 )
′ −1
1 {∫ [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22 0′
{[0 𝑅ϒ ] [ ′ ] [ ′ ]} −1
𝑃22 ∫ 𝑊2 (𝑟)𝑑𝑟 𝑃22 {∫ 𝑊2 (𝑟) . [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22 𝑅ϒ
. [𝑅ϒ 𝑣2 ]
[19.3.13]
El resultado [19.3.12] implica que condicional en W2(.), el vector Rϒ v2 tiene una distribución
Gaussiana con media 0 y varianza
−1
′
1 {∫ [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
0′
[0 𝑅ϒ ] [ ] [ ]
′ 𝑅ϒ′
𝑃22 ∫ 𝑊2 (𝑟)𝑑𝑟 𝑃22 {∫ [𝑊2 (𝑟)] . [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
Dado que 𝑠𝑇2 proporciona una estimación consistente de 𝜎12 , la distribución limitante de m . FT
condicional en W2(.) es, por tanto, 𝑥 2 (𝑚), por lo tanto la distribución incondicional 𝑥 2 (𝑚)
también. Esto significa que las pruebas t o F de MCO que implican el vector de cointegracion
tienen sus distribuciones asintóticas estándar Gaussianas o 𝑥 2 .
También es fácil adaptar los métodos en la sección 16.3 para demostrar que la prueba 𝑥 2 de MCO
de una hipótesis que implica solo α, o que para una hipótesis conjunta que implica tanto α y ϒ,
también tiene una distribución 𝑥 2 limitante.
El análisis a este punto se aplica en el caso especial cuando𝑦1𝑡 y 𝑦2𝑡 siguen caminatas aleatorias. El
análisis se extiende fácilmente para permitir la correlación serial en 𝑧𝑡∗ o 𝑢2𝑡 , siempre y cuando se
mantenga la condición crítica de que 𝑧𝑡∗ no está correlacionada con 𝑢2𝑡 para todo t y T. En
particular, supongamos que el proceso dinámico para (𝑧𝑡∗ , 𝑢2𝑡 )′ viene dado por:
𝑧𝑡∗
[ ] = 𝛹∗ (𝐿) 𝜀𝑡
𝑢2𝑡
Con {𝑠 . 𝛹𝑠∗ }∞ ′
𝑠 = 0 absolutamente sumable, E(𝜀𝑡 ) = 0, E(𝜀𝑡 𝜀𝑇 ) = 𝑃𝑃 si t=T y 0 en caso
′
∗
contrario, y los cuartos momentos de 𝜀𝑡 finito. Para que 𝑧𝑡 no esté correlacionado con 𝑢2𝑡 para
todo t y T, tanto 𝛹 ∗ (𝐿) y P deben ser diagonales en bloque:
∗
𝜓11 (𝐿) 0′
𝛹∗ (𝐿) =[ ∗ ]
0 𝛹22 (𝐿)
𝜎1 0′
P=[ ]
0 𝑃22
Observando el paralelo entre [19.3.14] y [19.3.8], es fácil confirmas que si 𝜆1∗ ≠ 0 y las filas de 𝜆∗22
son linealmente independientes, entonces el análisis de [19.3.10] continúa manteniéndose, con 𝜎1
reemplazado por 𝜆1∗ y 𝑃22 reemplazado por ʌ∗22 :
𝑇 1/2 (𝛼 𝑇 − 𝛼 )
[ ]
𝑇 (𝛾𝑇 − 𝛾)
−1
𝐿 1 {∫ [𝑊2 (𝑟)]′ 𝑑𝑟} ʌ∗′
22
→ [ ]
ʌ∗22 ∫ 𝑊2 (𝑟)𝑑𝑟 ʌ∗22 {∫ [𝑊2 (𝑟)] . [𝑊2 (𝑟)]′ 𝑑𝑟} ʌ∗′
22
Los mismos cálculos están en [19.3.13] indican además que m veces la prueba F de MCO de m
restricciones que implican α o ϒ converge a (𝜆1∗ )2 / 𝑠𝑇2 veces una variable que es 𝑥 2 (𝑚)
condicional en condicional en 𝑊2 (. ). Ya que esta distribución no depende de 𝑊2 (. ), la
distribución incondicional también es [(𝜆1∗ )2 /𝑠𝑇2 ] . 𝑥 2 (𝑚).
Obsérvese que la estimación 𝑠𝑇2 de MCO proporciona una estimación consistente de la varianza de
𝑧𝑡∗ :
𝑇
2 𝑃
𝑠𝑇2 ≡ (𝑇−𝑛)−1 ∑(𝑦1𝑡 − 𝛼 𝑇− 𝑦𝑇′ 𝑦2𝑡 ) → 𝐸(𝑧𝑡∗ )2
𝑡=1
Sin embargo, si 𝑧𝑡∗ esta correlacionada en serie, esto no es la misma magnitud que (𝜆1∗ )2 .
Afortunadamente, esto es fácil de corregir. Por ejemplo, 𝑠𝑇2 en la formula usual para la prueba F
[19.3.5] podría ser reemplazada por:
Para:
Con 𝑢𝑡 = 𝑦1𝑡 − 𝛼 𝑇 − 𝑦𝑇′ 𝑦2𝑡 el residuo de muestra resultante de la estimación de MCO de [19.3.1].
𝑃
Si q →∞. Pero 𝑞/𝑇 → 0, entonces 𝜆1∗ .𝑇 → 𝜆1∗ . Entonces se sigue que la estadística de prueba dada
por:
−1 −1
′
′
𝑇 ∑ 𝑦2𝑡 𝑅𝛼′
(𝑅𝛼 𝛼 𝑇 + 𝑅𝑦 𝑦𝑇 − 𝑟) (𝜆1∗ .𝑇 )2 [𝑅𝛼 𝑅𝑦 ] [ ] [ ′]
∑ 𝑦2 ′
∑ 𝑦2𝑡 𝑦2𝑡 𝑅𝑦
{ }
[19.3.18]
X (𝑅𝛼 𝛼 𝑇 + 𝑅𝑦 𝑦𝑇 − 𝑟)
Las dificultades con las distribuciones no estándar para pruebas de hipótesis sobre el vector de
cointegracion se deben a la posibilidad de correlaciones no nulas entre 𝑧𝑡∗ y 𝑢2𝑡 . El enfoque básico
para construir las pruebas de hipótesis será, por lo tanto, transformar la regresión de las
estimaciones para eliminar los efectos de esta correlación.
Donde 𝑧̅𝑡 por construcción no está correlacionada con 𝑢2,𝑡−𝑠 para 𝑠 = −𝑝, −𝑝 +
1, … , 𝑝. Recordando de [19.3.2] que 𝑢2𝑡 = ∆𝑦2𝑡 , ecuación [19.3.1] entonces se puede escribir:
Si estamos dispuestos a asumir que la correlación entre 𝑧𝑡∗ y 𝑢2,𝑡−𝑠 es cero para |𝑠| > 𝑝, entonces la
prueba F sobre el valor verdadero de ϒ que tiene una distribución asintótica 𝑥 2 es fácil de construir
usando el mismo enfoque adoptado en [19.3.18].
Para una declaración más formal, deje que 𝑦1𝑡 y 𝑦2𝑡 satisfagan [19.3.19] y [19.3.2] con:
∞
𝑧̅
[𝑢 𝑡 ] = ∑ 𝛹
̅𝑠 𝜀1−𝑠
2𝑡
𝑠=0
∞
Donde {𝑠. 𝛹 ̅𝑠 }𝑠 = 0 es una secuencia absolutamente sumable de matrices (𝑛 𝑥 𝑛) y {𝜀𝑡 }𝑡 ∞ =
−∞ es una secuencia independiente e idénticamente distribuida de (𝑛 𝑥 1) vectores con media
cero, varianza 𝑃𝑃′ , y cuartos finitos con 𝛹̅ (1). 𝑃 no singulares. Supongamos que 𝑧̅𝑇 no está
correlacionada con 𝑢2𝑇 para todo t y T, de modo que:
𝜎 0′
𝑃= [ 1 ] [19.3.20]
0 𝑃22
̅ 0′
̅ (𝐿) = [𝜓11 (𝐿)
𝛹 ] [19.3.21]
0 ̅22 (𝐿)
𝛹
̅22 (𝐿) son (𝑔 𝑥 𝑔) matrices para 𝑔 ≡ 𝑛 − 1. Definir
Donde 𝑃22 y 𝛹
′ ′ ′ ′ ′ ′ ′
𝑊𝑡 ≡ (𝑢2,𝑡−𝑝 , 𝑢2,𝑡−𝑝+1 , … , 𝑢2,𝑡−1 , 𝑢2𝑡 , 𝑢2,𝑡+1 , … , 𝑢2,𝑡+𝑝 )
′ ′
𝛽 ≡ (𝛽𝑝′ , 𝛽𝑝−1 ′
, … , 𝛽−𝑝 )
Se invita al lector a confirmar en el ejercicio 19.2 que las estimaciones de MCO de [19.3.22]
satisfacen:
𝑇 1/2 (𝛽̂𝑇 − 𝛽) 𝑄 −1 ℎ1
𝐿
[𝑇 1/2 (𝛼̂ 𝑇 − 𝛼)] → [ 𝜆̅11 𝑣1 ] [19.3.23]
𝑇(ϒ ̂ 𝑇 − ϒ) 𝜆̅11 𝑣2
𝐿
Donde 𝑄 ≡ 𝐸(𝑊𝑡 𝑊𝑡′ ), 𝑇 −1/2 ∑ 𝑊𝑡 𝑧̅𝑡 → ℎ1 , 𝜆̅11 ≡ 𝜎1 . 𝜓̅11 (1) , y:
Aquí ʌ̅22 ≡ 𝛹̅22 (1). 𝑃22 , 𝑊1 (𝑟) es un movimiento Browniano estándar univariante, 𝑊2 (𝑟) es
un movimiento Browniano estándar g- dimensional que es independiente de 𝑊1 (. ), y la
integración del signo integral sobre r de 0 a 1. Por lo tanto, como en [19.3.12],
−1
𝑣1 0 1 {∫[𝑊2 (𝑟)]′ 𝑑𝑟}ʌ̅′22
[|𝑣 | 𝑊2 (. )] ~𝑁 ([ ] , [[ ]] ) [19.3.24]
2 0 ʌ̅ 22 ∫ 𝑊2 (𝑟)𝑑𝑟 ʌ̅22 {∫[𝑊2 (𝑟)]. [𝑊2 (𝑟)]′ 𝑑𝑟}ʌ̅′22
−1 −1
′
∑ 𝑊𝑡 𝑊𝑡′ ∑ 𝑊𝑡 ∑ 𝑊𝑡 𝑦2𝑡
0
′
̂ 𝑇 − 𝑟}
𝑋𝑇2 = {𝑅ϒ ϒ 𝑠𝑇2 [0 0 𝑅ϒ ] ∑ 𝑊 ′ 𝑡 𝑇 ′
∑ 𝑦2𝑡 [ 0′ ]
𝑅ϒ′
′ ′
{ [∑ 𝑦2𝑡 𝑊𝑡 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ] }
̂ 𝑇 − 𝑟}
X {𝑅ϒ ϒ
𝑃
→ (𝜆̂11
2
−1 −1
1 {∫[𝑊2 (𝑟)] 𝑑𝑟} ʌ̅′22
′
0′
/𝑠𝑇2 )[𝑅ϒ 𝑣2 ]′ [0 𝑅ϒ ] 𝑥 [ ] [ ] [𝑅ϒ 𝑣2 ]
𝑅ϒ′
ʌ̅22 ∫ 𝑊2 (𝑟)𝑑𝑟 ʌ̅22 {∫[𝑊2 (𝑟)]. [𝑊2 (𝑟)]′ 𝑑𝑟} ʌ̅′22
{ }
[19.3.25]
Véase el ejercicio 19.3. Pero el resultado [19.3.24] implica que condicional a 𝑊2 (. ), la expresión en
[19.3.25] es (𝜆̅11
2
/ 𝑠𝑇2 ) veces una variable 𝑥 2 (𝑚). Ya que esta distribución es la misma para todos
los 𝑊2 (. ), se sigue que la distribución incondicional también satisface;
𝑃
𝑋𝑇2 → (𝜆̅11
2
/𝑠𝑇2 ). 𝑥 2 (𝑚) [19.3.26]
El resultado [19.3.26] establece que para probar una hipótesis sobre el valor del vector de
cointegracion ϒ, podemos estimar [19.3.19] por MCO y calcular la prueba F estándar de la
hipótesis de que 𝑅𝑦 ϒ = 𝑟 usando la formula usual. Solo se necesita multiplicar el estadístico F de
MCO por una estimación consistente de (𝑠𝑇2 /𝜆11 ̅ ), y el estadístico F se puede comparar con las
2
tablas 𝐹(𝑚, 𝑇 − 𝑘) habituales para 𝑘 el numero de parámetros estimados en [19.3.19] para una
prueba asintóticamente valida. De manera similar, el estadístico t de MCO podría multiplicarse por
1/2
(𝑠𝑇2 /𝜆2̅11 ) y compararse con las tablas t estándar.
𝐴𝑅(𝑝), y djamos que 𝑢̂𝑡 represente el residuo de la muestra resultante de la estimación de MCO de
[19.3.19]. Si 𝑢̂𝑡 es regresado en 𝑝 de sus propios rezagos:
Donde
𝑇
𝜎̂12 = (𝑇 − 𝑝) −1
∑ 𝑒̂𝑡2
𝑡=𝑝+1
𝜆̂̅11
2 𝑞
= 𝑐̂0 + 2. ∑𝑗=1[1 − 𝑗/(𝑞 + 1)] 𝑐̂𝑗 [19.3.28]
Donde
𝑇
−1
𝑐̂𝑗 = 𝑇 ∑ 𝑢̂𝑡 𝑢̂𝑡−𝑗
𝑡=𝑗+1
Estos resultados se derivaron en el supuesto de que no había términos de deriva es ninguno de los
elementos de 𝑦2𝑡 . Sin embargo, no es difícil demostrar que el mismo procedimiento funciona
exactamente de la misma manera cuando algunos o todos los elementos de 𝑦2𝑡 implican tendencias
de tiempo deterministas. Además, no hay ningún problema con la adición de una tendencia
temporal a la regresión de [19.3.19] y probando una hipótesis sobre su valor usando este mismo
factor aplicado a la prueba F usual. Esto permite probar por separado la hipótesis d que (1)𝑦1𝑡 −
ϒ′ 𝑦1𝑡 no tiene tendencia temporal y (2)𝑦1𝑡 − ϒ′ 𝑦2𝑡 es 𝐼(0), es decir, probar por separado las
restricciones [19.1.15] y [19.1.12]. Se invita al lector a verificar estas afirmaciones en los ejercicios
19.4 y 19.5.
Se estimo la siguiente regresión para t = 1948: II a 1988: III por MCO, con formulas MCO usuales
para desviaciones estándar entre paréntesis.
𝑇
2 −1
𝑠 = (𝑇 − 11) ∑ 𝑢̂𝑡2 = (1.516)2
𝑡=1
𝑡 = (0.99216)/0.00306 = - 2.562
Una autoregresion de segundo orden ajustado a los residuos de [19.3.29] por MCO producido.
Donde
𝑇
𝜎̂12 = (𝑇 − 2) −1
∑ 𝑒̂𝑡2 = 0.38092
𝑡=3
Por lo tanto, una prueba de la hipótesis nula de que 𝑎 = (1, −1)′ puede basarse en
Dado que – 0.48 está por encima del valor critico de 5% de – 1.96 para una variable N (0,1),
aceptamos la hipótesis nula de que 𝑎 = (1, −1)′ .
Para probar por separado las restricciones implícitas por la cointegracion para la tendencia temporal
y el componente estocástico, se reestimó la estimación de [19.3.29] con una tendencia temporal:
Donde
𝑇
𝜎̂12 = (𝑇 − 2) −1
∑ 𝑒̂𝑡2 = 0.34395
𝑡=3
y;
Los resultados de MCO en [19.3.29] son ciertamente consistentes con la hipótesis de que el
consumo y el ingreso se cointegran con el vector de cointegracion 𝑎 = (1, −1)′ .
FIGURA 19.6 Cien veces la diferencia entre el logaritmo de los gastos de consumo personal (𝑐𝑡 ) y
el registro del ingreso personal disponible (𝑦𝑡 ) para los Estados Unidos, trimestralmente, 1947-89.
También se asumió que ʌ22 es no singular, lo que significa que no relaciones de cointegracion entre
las variables en 𝑦2𝑡 . Supongamos que estamos interesados en estimar ℎ > 1diferentes vectores
cointegrantes, representados por un sistema de la forma:
Con
𝑧𝑡∗
[ ] = 𝛹 ∗ (𝐿)𝜀𝑡
𝑢2𝑡
Donde 𝐵𝑠′ denota una matriz de coeficientes y se supone que 𝑧̅𝑡 no está correlacionada con 𝑢2𝑡
para todo t y 𝜏. La expresión [19.3.34] describe un conjunto de ecuaciones ℎ. La i-ésima ecuación
de regresión 𝑦𝑖𝑡 sobre una constante, sobre el valor actual de todos los elementos de 𝑦2𝑡 , y sobre
los cambios pasados, presentes y futuros de todos los elementos de 𝑦2𝑡 . Esta ecuación podría ser
(𝑖) (𝑖) 2
(𝑖)
estimada por MCO, con el estadístico F usual multiplicada por [𝑠𝑇 /𝜆̅11 ] , donde 𝑠𝑇 es el error
(𝑖)
estándar de la regresión y 𝜆̅11 podría estimarse a partir de las autocovarianzas de los residuos 𝑧̅̂𝑖𝑡
para la regresión.
El enfoque que acabamos de describir estimó la relación en [19.3.19} por MCO y realizó ajustes a
los estadísticos t y F usuales para poder compararlas con las tablas estándar t y F. Stock y Watson
(1993) también surgió el enfoque más eficiente de la primera estimación [19.3.19] por MCO, luego
usando los residuos para construir una estimación consistente de la autocorrelacion de 𝑢𝑡 en
[19.3.27] o [19.3.28], y finalmente reestimando la ecuación por mínimos cuadrados generalizados.
Los errores estándar de los MCG resultantes podrían ser utilizados para construir pruebas de
hipótesis asintóticamente 𝑥 2 .
Phillips y Loretan (1991, p .424) sugirió que en lugar de autocorrelacion de los residuos de [19.3.19]
podría ser manejado mediante la inclusión de valores rezagados del residuo de la relación de
cointegracion en forma de:
𝑝 𝑝
𝑦1𝑡 = 𝛼 + ϒ′ 𝑦2𝑡 + ∑𝑠=−𝑝 𝛽𝑠′ ∆𝑦2,𝑡−𝑠 + ∑𝑠=1 𝜙𝑠 (𝑦1,𝑡−𝑠 − ϒ′ 𝑦2,𝑡−𝑠 ) + 𝜀1𝑡 [19.3.35]
Su propuesta fue estimar los parámetros en [19.3.35] mediante la minimización numérica de la suma
de los residuos cuadrados.
𝑧𝑡∗
[ ] 𝛹 ∗ (𝐿)𝜀𝑡
𝑢2𝑡
Donde 𝑦2𝑡 es un vector (𝑔𝑥1) y 𝜀𝑡 es un vector de media cero i.i.d para (𝑛𝑥1). Definir:
ʌ∗ ≡ 𝛹 ∗ (1). 𝑃
∑∗ 11 ∑∗ 21
(1𝑥1) (1𝑥𝑔)
∑∗ ≡ ʌ∗ . [ʌ∗ ]′ ≡ [ ∗ ∗ ] [19.3.38]
∑ 21 ∑ 22
(𝑔𝑥1) (𝑔𝑥𝑔)
(n x n)
Por lo tanto, ∑∗ podría alternativamente ser descrito como la función generadora de autocovarianza
𝐺(𝑧) evaluada en 𝑧 = 1:
′
∗
∑11 ∑∗′
21 ∞
𝐸(𝑧𝑡∗ 𝑧𝑡−𝑣
∗ )
𝐸(𝑧𝑡∗ 𝑢2,𝑡−𝑣 )
[ ∗ ∗ ] = ∑𝑣=−∞ [ ] [19.3.39]
∑21 ∑22 ∗ )
𝐸(𝑢2𝑡 𝑧𝑡−𝑣 ′
𝐸(𝑢2𝑡 𝑢2,𝑡−𝑣 )
ℵ ≡ ∑∞ ∗
𝑣=0 𝐸(𝑢2𝑡 𝑧𝑡+𝑣 ) [19.3.40
𝑧𝑡+ 𝑧∗
[ ] = 𝐿′ [ 𝑡 ] [19.3.42]
𝑢2𝑡 𝑢2𝑡
Para;
ℓ′ 1
′ 1 −∑∗′ ∗ −1
21 (∑22 ) (1𝑥𝑛)
𝐿 ≡[ ]≡ [ ′ ] [19.3.43]
0 𝐼𝑔 𝐿 2
(𝑔𝑥𝑛)
+
Supongamos que debemos estimar α y ϒ con regresión por MCO de 𝑦1𝑡 en una escala cómoda y
𝑦2𝑡 :
′ −1 +
𝛼̂ + 𝑇 ∑𝑦2𝑡 ∑𝑦1𝑡
[ 𝑇+ ] = [ ′ ] [ +] [19.3.44]
𝑦̂𝑇 ∑𝑦2𝑡 ∑𝑦2𝑡 𝑦2𝑡 ∑𝑦2𝑡 𝑦1𝑡
Observe que el vector 𝜆1∗′ usado en la proposición 19.2 puede escribirse como 𝑒1′ ʌ∗ para 𝑒1′ la
primera fila de 𝐼𝑛 , mientras que la matriz ʌ∗2 en la proposición 19.2 puede escribirse como 𝐿′2 ʌ∗
para 𝐿′2 las últimas 𝑔 de 𝐿′ . La distribución asintótica de las estimaciones en [19.3.44] se encuentra
𝐿
1 {∫[𝑊(𝑟)]′ 𝑑𝑟} ʌ∗′ 𝐿2
→[ ]
𝐿′2 ʌ∗ ∫ 𝑊(𝑟) 𝑑𝑟 𝐿′2 ʌ∗ {[𝑊(𝑟)]. [𝑊(𝑟)]′ 𝑑𝑟}ʌ∗ 𝐿2
ℓ1′ ʌ∗ 𝑊(1)
𝑥 [ ′ ∗ { [𝑊(𝑟)][𝑑𝑊(𝑟)]′ }ʌ∗′ ] [19.3.45]
𝐿2 ʌ ∫ ℓ1 + ℵ+
∞
∗
= ∑ 𝐸{𝑢2𝑡 [𝑧𝑡+𝑣 − ∑∗′ ∗ −1
21 (∑22 )] 𝑢2,𝑡+𝑣 }
𝑣=0
[19.3.46]
∞
∗ ′ 1
= ∑ 𝐸{𝑢2𝑡 [𝑧𝑡+𝑣 𝑢2,𝑡+𝑣 ]} [ ]
−(∑∗22 )−1 ∑∗21
𝑣=0
ℓ′
𝐵(𝑟) ≡ [ ′1 ] ʌ∗ . 𝑊(𝑟) [19.3.47]
𝐿2
De [19.3.43] y [19.3.38], este es el movimiento Browniano con matiz de varianza
ℓ′
𝐸{[𝐵(1)]. [𝐵(1)]′ } = [ ′1 ] ʌ∗ ʌ∗′ [ℓ1 𝐿2 ]
𝐿2
1 −∑∗′ ∗ −1
21 (∑22 ) ∑∗ ∑∗′ 1 0′
=[ ] [ 11 21
][ 𝐼𝑔 ]
0 𝐼𝑔 ∑∗21 ∑∗22 −(∑∗22 )−1 ∑∗21
(𝜎 + )2 0′
=[ 1 ]
0 ∑∗22
[19.3.48]
Donde;
(𝜎1+ )2 ≡ ∑11
∗
− ∑∗′ ∗ −1 ∗
21 (∑22 ) ∑21 [19.3.49]
Partición 𝐵(𝑟) como:
𝐵1
(1𝑥1) ℓ′ ʌ∗ 𝑊(𝑟)
𝐵(𝑟) = [ ] = [ ′1 ∗ ]
𝐵2 (𝑟) 𝐿2 ʌ 𝑊(𝑟)
(𝑔𝑥1)
(nx1)
𝑇 1/2 (𝛼̂ 𝑇+ − 𝛼)
[ ]
𝑇(ϒ ̂ +𝑇 − ϒ)
−1
𝐿
1 {∫[𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22
∗′
→ [ ]
∗
𝑃22 ∫ 𝑊2+ (𝑟)𝑑𝑟 ∗ {[𝑊 +
𝑃22 + ′
2 (𝑟)]. [𝑊2 (𝑟)] 𝑑𝑟}
[ ]
[19.3.50]
𝜎1+ . 𝑊1+ (1)
𝑥 [ ∗ ]
𝑃22 {∫ 𝑊2+ (𝑟)𝑑𝑊1+ (𝑟)} 𝜎1+ + ℵ+
Para 𝑧̂𝑡∗ el residuo muestral resultante de la estimación de [19.3.36] por MCO y 𝑢̂2𝑡 = ∆𝑦2𝑡 . Para
llegar a una estimación similar de ℵ+ , tenga en cuenta que [19.3.46] puede escribirse:
∞
′ ] 1
ℵ = ∑ 𝐸{𝑢2,𝑡−𝑣 [𝑧𝑡∗
+
𝑢2𝑡 }[ ]
−(∑∗22 )−1 ∑∗21
𝑣=0
∞ ′ ′
𝑧𝑡∗ 𝑢2,𝑡−𝑣 1
= ∑ 𝐸 {[ ′ ] }[ ∗ )−1 ∗ ]
𝑢2𝑡 𝑢2,𝑡−𝑣 −(∑22 ∑21
𝑣=0
∞ (𝑣) ′
𝛤12 1
= ∑[ ] [ ]
𝛤
(𝑣) −(∑∗22 )−1 ∑∗21
𝑣=0 22
[19.3.53]
El estimador MCO completamente modificado propuesto por Phillips y Hansen (1990)es entonces:
−1 +
𝛼̂ ++ 𝑇 ′
∑ 𝑦2𝑡 ∑ 𝑦̂1𝑡
[ 𝑇++ ] = [ ′ ] [ ̂+𝑇 }]
̂
ϒ𝑇 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 +
{∑ 𝑦2𝑡 𝑦̂2𝑡 − 𝑇ℵ
+
Para 𝑦̂1𝑡 ̂ ∗′
≡ 𝑦1𝑡 − ∑ ̂ ∗ −1
21 (∑22 ) ∆𝑦2𝑡 . Este análisis implica que:
−1
𝑇 1/2 (𝛼̂ 𝑇++ − 𝛼) 1 𝑇 −3/2 ∑ 𝑦2𝑡′
𝑇 −1/2 ∑ 𝑧̂𝑡+
[ ] = [ −3/2 ] [ −1 ]
𝑇(ϒ ̂ 𝑇 − ϒ)
++
𝑇 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡′
𝑇 ∑ 𝑦2𝑡 𝑧̂𝑡+ − ℵ ̂𝑇
𝐿 𝑣1
→ 𝜎1+ [𝑣 ]
2
Donde:
−1
𝑣1
1 {∫[𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22
∗′
[𝑣 ] ≡ [ ]
2 ∗
𝑃22 ∫ 𝑊2+ (𝑟)𝑑𝑟 ∗
𝑃22 {∫[𝑊2+ (𝑟)]. [𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22
∗′
[ ]
𝑊1+ (1)
𝑥[ ∗ ]
𝑃22 {∫ 𝑊2+ (𝑟)𝑑𝑊1+ (𝑟)}
𝐻≡[ ]
∗
𝑃22 ∫ 𝑊2+ (𝑟)𝑑𝑟 ∗
𝑃22 {∫[𝑊2+ (𝑟)]. [𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22
∗′
Además, [19.3.49] sugiere que una estimación consistente de (𝜎1+ )2 es proporcionada por:
̂ 11
(𝜎̂1+ )2 = ∑ ∗
−∑ ̂ ∗22 )−1 ∑
̂ ∗21 (∑ ̂ ∗21
Con ∑ ̂ ∗𝑖𝑗 dado por [19.3.51]. Esto, si multiplicamos la forma Wald usual de la prueba 𝑥 2 de 𝑚
restricciones de la forma 𝑅ϒ = 𝑟 por (𝑠𝑇 /𝜎̂1+ )2, el resultado es una estadística asintóticamente
𝑥 2 (𝑚) bajo hipótesis nula:
−1 −1
′
∑ 𝑦2𝑡
̂ ++ ′ 𝑇 0′ ̂ ++
(𝑠𝑇 /𝜎̂1+ )2 . 𝑥𝑇2 = {𝑅ϒ 𝑇 − 𝑟} {(𝜎̂1+ )2 [0 𝑅] [ ′ ] [ ′ ]} {𝑅ϒ 𝑇 − 𝑟}
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 𝑅
𝐿 ′ −1
→ (𝜎1+ )2 (𝑅𝑣2 )′ {(𝜎1+ )2 [0 𝑅]𝐻 −1 [ 0 ′ ]} (𝑅𝑣2 )~𝑥 2 (𝑚)
𝑅
Esta descripción ha supuesto que no había derivada en ningún elemento del sistema. Hansen (1992)
demostró que el procedimiento se modifica fácilmente si 𝐸(∆𝑦2𝑡 ) = 𝛿2 ≠ 0, simplemente
reemplazando 𝑢̂2𝑡 en [19.3.52] con;
𝛿̂2 = 𝑇 −1
∑ ∆𝑦2𝑡
𝑇=1
Hansen también demostró que una tendencia temporal podría agregarse a la relación de
cointegracion como en:
𝛼̂ 𝑇++ 𝑇 ′
∑ 𝑦2𝑡 ∑ 𝑡 −1 ∑ 𝑦̂1𝑡 +
̂ ++
[ϒ 𝑇 ] = [∑ 𝑦2𝑡 ′
∑ 𝑦2𝑡 𝑦2𝑡 +
∑ 𝑦2𝑡 𝑡] [∑ 𝑦2𝑡 𝑦̂1𝑡 − 𝑇ℵ+𝑇 ]
′ ∑ 𝑡2
𝛿̂𝑇++ ∑𝑡 ∑ 𝑡𝑦2𝑡 ++
∑ 𝑡𝑦̂1𝑡
̂ ++
Recogiendo estas estimaciones en un vector 𝑏𝑇++ = (𝛼̂ 𝑇++ , [ϒ ̂ ++ ′
𝑇 ], 𝛿𝑇 ) , una hipótesis que implica
𝑚 restricciones sobre 𝛽 de la forma 𝑅𝛽 = 𝑟 puede ser probada por:
−1
𝑇 ′
∑ 𝑦2𝑡 ∑ 𝑡 −1
++ + ′
′ 2
{𝑅𝑏𝑇 − 𝑟} {(𝜎̂1 ) 𝑅 [∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑡] 𝑅 ′ } {𝑅𝑏𝑇++ − 𝑟}
∑𝑡 ′
∑ 𝑡𝑦2𝑡 ∑ 𝑡2
𝐿
→ 𝑥 2 (𝑚)
[19.A.1]
Para:
ʌ∗ ≡ 𝛹 ∗ (1). 𝑃
𝑧𝑡∗
𝛤1∗′ ≡ 𝐸 [ ] [𝑧 ∗ ′
𝑢2,𝑡+𝑣 ]
𝑢2𝑡 𝑡+𝑣
Se deduce de [19.A.1] que:
𝑇 𝑇 𝑇
𝑦̅ 𝑦̅ 𝑧∗
𝑇 −1
∑ [ 1𝑡 ] [𝑧𝑡∗ ′ ]
𝑢2𝑡 =𝑇 −1
∑ [𝑦1,𝑡−1 ] [𝑧𝑡∗ ′ ]
𝑢2𝑡 + 𝑇 −1
∑ [ 𝑡 ] [𝑧𝑡∗ ′ ]
𝑢2𝑡
𝑦̅2𝑡 2,𝑡−1 𝑢2𝑡
𝑡=1 𝑡=1 𝑡=1
[19.A.2]
1 ∞
𝐿
∗ [𝑊(𝑟)][𝑑𝑊(𝑟)]′
→ ʌ . {∫ } . ʌ + ∑ 𝛤𝑣∗′
∗′
0 𝑣=0
De manera similar, los resultados (a), (g), y (i) de la proposición 18.1 implican:
𝑇
−1/2 𝑧𝑡∗ 𝐿 ∗
𝑇 ∑[ ] → ʌ . 𝑊(1)
𝑢2𝑡
𝑡=1
[19.A.3]
𝑇
−3/2 𝑦̅1𝑡 𝐿 ∗ 1
𝑇 ∑[ → ʌ . ∫ 𝑊(𝑟)𝑑𝑟 [19. 𝐴. 4]
𝑦2𝑡 ] 0
𝑡=1
𝑇 1
−2 𝑦̅1𝑡 ′ ]
𝐿
𝑇 ∑[ [𝑦̅ 𝑦2𝑡 → ʌ∗ . {∫ [𝑊(𝑟)]. [𝑊(𝑟)]′ 𝑑𝑟} . ʌ∗
𝑦2𝑡 ] 1𝑡 0
𝑡=1
[19.A.5]
Observe que las desviaciones de las estimaciones MCO en [19.2.12] de los valores poblacionales α y
ϒ que describen la relación de cointegracion [19.2.9] están dadas por:
′ −1
𝛼̂ 𝑇 − 𝛼 𝑇 ∑ 𝑦2𝑡 ∑ 𝑧𝑡∗
[̂ ]=[ ′ ] [ ]
ϒ𝑇 − ϒ ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑧𝑡∗
[19.A.6]
Pero de [19.A.2]:
𝑇
−1 𝑦̅1𝑡 ∗ ′ ] 1
𝑇 ∑ 𝑦2𝑡 𝑧𝑡∗ = [0 𝐼𝑔 ]𝑇 −1
∑[ ] [𝑧 𝑢2𝑡 [ ]
𝑦2𝑡 𝑡 0
𝑡=1
1 ∞
𝐿
∗ [𝑊(𝑟)][𝑑𝑊(𝑟)]′ 1 1
→ [0 𝐼𝑔 ]ʌ . {∫ } . ʌ [ ] + [0 𝐼𝑔 ] ∑ 𝛤𝑣∗′ [ ]
∗′
0 0 0
𝑣=0
[19.A.7]
∞
𝛽̂𝑇 − 𝛽
∗
[ 𝛼̂ 𝑇 ] =
1
̂∗𝑇
𝑇 2ℵ
∗ ∗′ ∗ ∗ ′ −1
𝑇 −1 ∑ 𝑧2𝑡 𝑧2𝑡 𝑇 −1 ∑ 𝑧2𝑡 𝑇 −3/2 ∑ 𝑧2𝑡 𝑦2𝑡 ∗
𝑇 −1 ∑ 𝑧2𝑡 𝑢𝑡
−1 ∗′ −3/2 ∑ ′ −1 ∑
= [ 𝑇 ∑ 𝑧𝑧 1 𝑇 𝑦2𝑡 ] [ 𝑇 𝑢𝑡 ]
∗′ ′ −3/2 ∑
𝑇 −3/2 ∑ 𝑦2𝑡 𝑧2𝑡 𝑇 −3/2 ∑
𝑦2𝑡 𝑇 −2 ∑
𝑦2𝑡 𝑦2𝑡 𝑇 𝑦2𝑡 𝑢𝑡
[19.A.10]
𝑃 𝑃
∗ ∗
Recordando que 𝐸(𝑧2𝑡 𝑢𝑡 ) = 0, se puede demostrar que 𝑇 −1 ∑ 𝑧2𝑡 𝑢𝑡 → 0 y 𝑇 −1 ∑ 𝑢 → 0 por la
𝑃
ley de los grandes números. También, 𝑇 −3/2 ∑ 𝑦2𝑡 𝑢𝑡 → 0 , del argumento dado en [19.A.7].
Además;
′ 3
∗ ∗
𝑇 −1 ∑ 𝑧2𝑡 𝑧2𝑡 ∗
𝑇 −1 ∑ 𝑧2𝑡 𝑇 −2 ∑ 𝑧2𝑡
∗ ′
𝑦2𝑡
′ 3
∗
𝑇 −1 ∑ 𝑧2𝑡 1 𝑇 −2 ∑ 𝑦2𝑡
′
3 ′ 3
− ∗
[𝑇 ∑ 𝑦2𝑡 𝑧2𝑡
2 𝑇 −2 ∑ 𝑦2𝑡 ′
𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 ]
∗ ∗′ )
𝐸(𝑧2𝑡 𝑧2𝑡 0 0
𝐿 0′ 1 {∫[𝑊(𝑟)]′ 𝑑𝑟} ʌ∗′
2
→
0 ʌ∗2 ∫ 𝑊(𝑟)𝑑𝑟 ʌ2∗ {∫[𝑊(𝑟)]. [ 𝑊(𝑟)]′ 𝑑𝑟} ʌ∗′
2
[ ]
[19.A.11]
𝛽̂𝑇 − 𝛽
𝑃 0
[ 𝛼̂ 𝑇∗ ] → [0]
̂∗𝑇
𝑇 1/2 ℵ 0
Una regresión MCO de 𝑦1𝑡 sobre una constante y los otros elementos de 𝑦𝑡 es una simple
transformación de la regresión en [19.A.8]. Para ver esto, observe que [19.A.8] se puede escribir
como:
∑ 11 ∑′ 21
(1𝑥1) (1𝑥𝑔)
ʌʌ′ ≡ [ ]
∑ 21 ∑ 22
(𝑔𝑥1) (𝑔𝑥𝑔)
(n x n) [19.A.14]
Y definir;
Donde:
∑−1 ′
22 = 𝐿22 𝐿22 [19.A.17]
𝐿′ ʌʌ′ 𝐿 = 𝐼𝑛 [19.A.18]
Lo que implica que ʌʌ′ = (𝐿′ )−1 (𝐿)−1 y (ʌʌ′ )−1 = 𝐿𝐿′ ; esto, 𝐿 es el factor de Cholesky de
(ʌʌ′ )−1 referido en la proposición 19.4.
Obsérvese además que los residuos de la estimación de MCO de [19.2.24] son idénticos a los
residuos de la estimación de MCO de:
∗ ∗
𝑦1𝑡 = 𝛼 ∗ + ϒ∗′ 𝑦2𝑡 + 𝑢𝑡∗ [19.A.19]
∗
Para 𝑦1𝑡 ≡ 𝑦1𝑡 − ∑′21 ∑−1
22 𝑦2𝑡
∗
y 𝑦2𝑡 ≡ 𝐿′22 𝑦2𝑡 . Recordar de la ecuación [18.A.21] que:
𝑇 −1/2 𝛼̂ 𝑇∗ /𝛼1∗ 𝐿 ℎ1
[ ]→[ ] [19.A.20]
̂ ∗𝑇 /𝜎1∗
ϒ ℎ2
𝑇∗ ≡ 𝑇 − 1
Prueba de (a). Dado que los residuos de la muestra 𝑢̂𝑡∗ para la estimación de MCO de [19.A.19]
son idénticos a los de la estimación de [19.2.24], tenemos que:
∑𝑇𝑡=2 𝑢̂𝑡−1
∗
𝑢̂𝑡∗
𝑇 ∗ (𝜌̂𝑇 − 1) = 𝑇 ∗ { ∗ )2 − 1}
∑𝑇𝑡=2(𝑢̂𝑡−1
[19.A.21]
Pero:
̂ ∗′
≡ 𝜎1∗ . {[1 − ϒ ∗ ∗
̂ 𝑇∗ /𝜎1∗ )}
𝑇 /𝜎1 ]𝜉𝑡 − (𝛼
Para:
∗
𝑦1𝑡 /𝜎1∗
𝜉𝑡∗ ≡ [ ∗ ] = 𝐿′ 𝑦𝑡 [19.A.23]
𝑦2𝑡
Diferencia [19.A.22] resulta en:
∗ )
(𝑢̂𝑡∗ − 𝑢𝑡−1 = 𝜎1∗ . [1 − 𝑦̂𝑇∗′ /𝜎1∗ ]∆𝜉𝑡 ∗ [19.A.24]
𝑇
1
= (𝜎1∗ )2 . (𝑇 ∗ )−1 ∑{[1 − 𝑦̂𝑇∗′ /𝜎1∗ ]𝜉𝑡−1
∗
− (𝛼̂ 𝑇∗ /𝜎1∗ )} {(∆𝜉𝑡∗′ ) [ ]}
−𝑦̂𝑇∗ /𝜎1∗
𝑡=2
𝑇
1
= (𝜎1∗ )2 . [1 − 𝑦̂𝑇∗′ /𝜎1∗ ]. {(𝑇 ∗ )−1 ∑ 𝜉𝑡−1
∗ (∆𝜉 ∗′ )
𝑡 } [−𝑦 ]
̂𝑇∗ /𝜎1∗
𝑡=2
𝑇
1
−(𝜎1∗ )2 . (𝑇 ∗ )−1/2 (𝛼̂ 𝑇∗ /𝜎1∗ ). {(𝑇 ∗ )−1/2 ∑(∆𝜉𝑡∗′ )} [ ∗ ∗ ]
−𝑦̂𝑇 /𝜎1
𝑡=2
[19.A.25]
𝑇
1
= (1/2) {[1 − 𝑦̂𝑇∗′ /𝜎1∗ ] {(𝑇 ∗ )−1 ∗ (∆𝜉 ∗′ )
∑ 𝜉𝑡−1 𝑡 }[ ]
−𝑦̂𝑇∗ /𝜎1∗
𝑡=2
𝑇
1
+ [1 − 𝑦̂𝑇∗′ /𝜎1∗ ]. {(𝑇 ∗ )−1 ∑(∆𝜉𝑡∗ )(𝜉𝑡−1
∗′ )
} [ ∗ ∗ ]}
−𝑦̂𝑇 /𝜎1
𝑡=2
[19.A.26]
𝑇
′ ∗ )−1 ′ ))
= 𝐿 . {(𝑇 ∑(𝑦𝑡−1 (∆𝑦𝑡′ ) + (∆𝑦𝑡 )(𝑦𝑡−1 }.𝐿
𝑡=2
[19.A.27]
𝐿
→ 𝐿′ . {ʌ. [𝑊(1)]. [𝑊(1)]′ . ʌ′ − 𝐸[(∆𝑦𝑡 )(∆𝑦𝑡′ )]}. 𝐿
𝐿 1 1 1
→ (𝜎1∗ )2 . {2 {[1-ℎ2´ ].[W*(1)].[W(1)]´.[ ]}-ℎ1 .[W*(1)]´. [ ]
ℎ2 −ℎ2
[19.A.30]
1
-(1/2).[1-−ℎ2´ ].{E[∆𝜉𝑡∗ )(∆𝜉𝑡∗′ )]}.[ ]}.
−ℎ2
Pero el resultado (a) implica que (T *) 1/2 (pt) .0, mientras que los otros términos en [19.A.33]
tienen distribuciones convergentes a la luz de [19.A.20] y resultado (a ) Y (e) de la Proposición 18.1
Por lo tanto,
𝑇
𝜌
∗ −1
(𝑇 ) ∑ (𝜌𝑟 − 1)û∗𝑡−1 ∆û∗𝑡−𝑗 → 0.
𝑡=𝑗+2
Similar,
𝑇
𝜌
∗ −1
(𝑇 ) ∑ (𝜌𝑟 − 1)2 û∗𝑡−1 û∗𝑡−𝑗−1 → 0.
𝑡=𝑗+2
=(𝜎1∗ )2 . (𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2(𝜌𝑟 − 1)2 {[1-𝛾𝑟∗′ /𝜎1∗ ]𝜉𝑡−1
∗
− (𝛼𝑟∗ /𝜎1∗ ) }
∗ 𝛼∗
X {[1-𝛾𝑇∗′ /𝜎1∗ ]𝜉𝑡−𝑗−1 − (𝜎𝑟∗ )}
1
∗
𝜉𝑡−1
=(𝜎1∗ )2 . (𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2(𝜌𝑟 − 1)2 [1 − 𝛾𝑟∗′ /𝜎1∗ -(𝑇 ∗ )−1/2 𝛼 𝑇∗ /𝜎1∗ ] [ ]
(𝑇 ∗ )1/2
∗′
X [𝜉𝑡−𝑗−1 (𝑇 ∗ )1/2 ][1 − 𝛾𝑟∗′ /𝜎1∗ - ((𝑇)−1/2) 𝜎𝑇∗ /𝜎1∗ ]′
[19.A.35]
=(𝜎1∗ )2 . [(𝑇 ∗ )1/2 (𝜌𝑟 − 1)]2 .[1-𝛾𝑟∗′ /𝜎1∗ - (𝑇 ∗ )−1/2 𝜎𝑟∗ /𝜎1∗ ]
∗ ∗′ ∗
𝜉𝑡−1 𝜉𝑡−𝑗−1 (𝑇 ∗ )1/2 𝜉𝑡−1
X {(𝑇 ∗ )−2 ∑𝑇𝑡 [ ∗′ ]}
(𝑇 ∗ )−1/2 𝜉𝑡−𝑗−1 𝑇∗
X[1-−𝛾𝛾∗′ /𝜎1∗ −(𝑇 ∗ )−1/2 𝛼 𝑇∗ /𝛼1∗]’
𝜌
→0.
Dado 𝑞𝑢𝑒 (𝑇 ∗ )−2 ∑𝑇𝑡=𝑗+2 𝜉𝑡−1
∗ ∗′
𝜉𝑡−𝑗−1 y (𝑇 ∗ )−3/2 ∑ 𝜉𝑡−𝑠
∗
son 𝑂𝑝 (1) por resultados(i) y (g)
De proposición 18.1 sustituyendo [19.A.35] , y el [19.A.24] dentro [19.A.32] da
𝐿
ĉ𝑗𝑇 → (𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2(∆û∗𝑡 ). (∆û∗𝑡−𝑗 )
′ 1
=(𝜎1∗ )2 .[1-𝛾𝑇∗′ /𝜎1∗ ](𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2(∆𝜉𝑡−𝑗
∗ ∗
). (∆𝜉𝑡−𝑗 )[ ]
−𝛾𝑇∗′ /𝜎1∗
[19.A.34]
𝐿
∗ ∗ ′ 1
→ (𝜎1∗ )2 .[1- ℎ2′ ].E{(∆𝜉𝑡−𝑗 ). (∆𝜉𝑡−𝑗 )} [ ]
ℎ2
′ 1
=(𝜎1∗ )2 .[1- ℎ2′ ].L.E{(∆𝑦𝑡 ). (∆𝑦𝑡−𝑗 )}. 𝐿 [ ].
−ℎ2
En virtud de [19.A.18].
1
=(1/𝜆 𝑇 ) 𝑇 ∗ 𝜎 {ĉ0.𝑇 /𝑠𝑇2 )1/2 𝑇 ∗(𝜌𝑟 − 1) − (1/2). {(𝑇 ∗ )2 . 𝜎𝜌2𝑇 ÷ 𝑆𝑇2 }. {𝜆2𝑇 − ĉ0.𝑇 }}
𝜌𝑟 ÷𝑆𝑇
[19.A.40]
Pero desde
Resulta que
𝑝 1
𝑍𝑡.𝑇 → (1/𝜆𝑟 ) 𝑍𝑝.𝑇
𝑇 ∗ 𝜎𝜌𝑟 ÷ 𝑆𝑇
𝐿 1
→𝜎 ′ 1/2 . (𝜎1∗ . √𝐻𝑛 )𝑍𝑛 ,
1 (1+ℎ2 . ℎ2 )
Con la última línea siguiente de [19.A.37], [19.A.38], y [19.2.37]
19.1 Dejemos
∆𝑦1𝑟 𝛿 𝑢1𝑡
[ ] + [ 1 ] = [𝑢 ],
∆𝑦2𝑟 𝛿2 2𝑡
Fueron y. puede no ser cero. Supongamos que u, para un vector i.i.d (2x1) con media cero, varianza
PP', y finitos cuartos momentos. Supongamos además que {𝑆. 𝛹𝑠 }𝑠=0 es absolutamente sumable y
que Ψ(1).P no es singular. Defina 𝜉1𝑡 ≡ ∑𝑡𝑠=1 𝑢1𝑠 , 𝜉2𝑡 ≡ ∑𝑡𝑠=1 𝑢2𝑠 , y 𝛾0 ≡ 𝛿1 /𝛿2
(a) Muestre que las estimaciones de MCO de:
1 𝛿2
𝑇 −2 𝛼𝑟 𝜌 1 𝑇 −3/2 ∑(𝜉1𝑡 − 𝑦0 𝜉2𝑡 )
2 -1
Satisface [ 1 ]→[ 2 ] [ ]
𝑇 −2 (𝛼𝑟 − 𝛼𝑟 ) 𝛿2
𝛿2 𝑇 −5/2 ∑ 𝛿2 𝑡(𝜉1𝑡 − 𝑦0 𝜉2𝑡 )
3
Concluir que alfa y Yt tienen la misma distribución asimtótica como coeficientes de una regresión
de (E1r-YoE) en una constante y d2 veces una tendencia en el tiempo .:
(E1t-Yo) = alfa + Y D2 t
19.2. Verifique [19.3.23]
19.3 Verificar [19.3.25]
19.4. Consideremos el modelo de regresión
Y1t = B´wt + α + Y´y2t + St+ ut
Donde
Wt = (Δy´2.t-p, Δy´2.t-p+1, . . . , Δy´2.t-p-1, Δy´2.t-p, Δy´2.t-p+1)´
Sea Δy2.t = u2t
ut ψ 11(L) 0’ ε1t
= ψ (L)εt =
u2t 0 ψ22 (L) ε2t
_
T1/2 (ϒˆT – ϒ) λ_ 11 .V 2
_
T3/2 (δTˆ – δ) λ_11 .V 3
_
1 {∫ [W 2 (r)]dr1} Λ_´22 ½
H≡ _ _
Λ22 ∫ W 2 (r) dr Λ22{∫ [W 2 (r)]dr} Λ_ ´22 _Λ22 ∫ rW 2
(r) dr _
_
_
½ {∫ r[W2 (r)]´dr} Λ
_ ´22 1/3
Razón como en [19.3.12] que condiciona W2 (.), El vector (V1, v2) es Gaussiana con media cero y
varianza H-1. Utilice esto para mostrar que la forma Wald de la prueba OLS X2 de cualquier
restricción m que involucra alfa, gama o d converge a (alfa) veces una variable X2.
19.5. Consideremos el modelo de regresión
Donde
Wt = (Δy´2.t-p, Δy´2.t-p+1, . . . , Δy´2.t-p-1, Δy´2.t-p, Δy´2.t+p)´
Suponiendo que
Δ y 2, = S2 + u2t,
Donde al menos uno de los elementos de S 2es distinto de cero. Dejando queut yu2tsatisfagan las
mismas condiciones que en el ejercicio 19.4.
y 2 = ( y 2 t , y3 t ,…, y nt )´ y S 2= (S 2, S 3, . . . , Sn)', y suponiendo que los elementos de
E(Δynt) = Sn ≠ 0. Observe que los valores ajustados para la regresión son idénticos a los de
Y1t = B´wt* + α* + Y*ty*2t + S*tynt + ut
donde
Wt* = [(Δy2.t-p - S 2)', [(Δy2.t-p+1 - S 2)’, …, (Δy2.t+p = S 2)']
Y
.
2
Y* = Y
.
Y
5
Α* = α + B’ (1 x S2).
Con 1 a [(2p + 1) x 1] columnas de 1s.
Demuestre que las propiedades asintóticas de la regresión transformada son idénticas a las de la
regresión de tendencia temporal en el ejercicio 19.4. Concluya que cualquier prueba F que involucre
Y en la regresión original puede multiplicarse por (S2T/ λ211) y compare con las tablas F habituales
para una prueba asintóticamente válida.
Capítulo 19 Referencias
Ahn, S. K., and G. C. Reinsel. 1990. "Estimation for Partially Nonstationary Multivariate
Autoregressive Models." Journal of the American Statistical Association 85:813-23.
Anderson, T. W. 1958. An Introduction to Multivariate Statistical Analysis.New York: Wiley.
Andrews, Donald W. K., and J. Christopher Monahan. 1992. "An Improved Heteroske-dasticity
and Autocorrelation Consistent Covariance Matrix Estimator." Econometrica 60:953-66.
Baillie, Richard T., and David D. Selover. 1987. "Cointegration and Models of Exchange Rate
Determination." International Journal of Forecasting 3:43-51.
Campbell, John Y., and Robert J. Shiller. 1988a. "Interpreting Cointegrated Models." Journal of
Economic Dynamics and Control 12:505-22.
------and ------. 1988b. "The Dividend-Price Ratio and Expectations of Future Dividends
and Discount Factors."Review of Financial Studies 1:195-228.
Clarida, Richard. 1991. "Co-Integration, Aggregate Consumption, and the Demand for Imports: A
Structural Econometric Investigation." Columbia University.Mimeo.
Corbae, Dean, and Sam Ouliaris. 1988. "Cointegration and Tests of Purchasing Power Parity."
Review of Economics and Statistics 70:508-11.
Davidson,-James E. H., David F. Hendry, Frank Srba, and Stephen Yeo. 1978."Econometric
Modelling of the Aggregate Time-Series Relationship between Consumers' Expenditure and
Income in the United Kingdom."Economic Journal 88:661-92.
Engle, Robert F., and C. W. J. Granger. 1987. "Co-Integration and Error Correction:
Representation, Estimation, and Testing." Econometrica 55:251-76.
--------and Byung Sam Yoo. 1987. "Forecasting and Testing in Co-Integrated Systems/1
Journal of Econometrics 35:143-59.
Granger, C. W. J. 1983."Co-Integrated Variables and Error-Correcting Models."Unpublished
University of California, San Diego, Discussion Paper 83-13.
— ---- and Paul Newbold. 1974. "Spurious Regressions in Econometrics." Journal of Econometrics
2:111-20.
Hansen, Bruce E. 1990. "A Powerful, Simple Test for Cointegration Using Cochrane-
Orcutt."University of Rochester.Mimeo.
--------. 1992. "Efficient Estimation and Testing of Cointegrating Vectors in the Presence
of Deterministic Trends." Journal of Econometrics 53:87-121.
Haug, Alfred A. 1992. "Critical Values for the Zc-Phillips-Ouliaris Test for Cointegration." Oxford
Bulletin of Economics and Statistics 54:473-80.
Johansen, S0ren. 1988. "Statistical Analysis of Cointegration Vectors." Journal of Economic Dynamics
and Control 12:231-54.
--------. 1991. "Estimation andJHypothesis Testing of Cointegration Vectors in Gaussian
Vector Autoregressive Models."Econometrica 59:1551-80.
King, Robert G., Charles I. Plosser, James H. Stock, and Mark W. Watson. 1991. "Stochastic
Trends and Economic Fluctuations." American Economic Review 81:819-40. Kremers, Jeroen J. M.
Por estas razones, existe cierto valor en el uso de la máxima verosimilitud de información completa
(FIML) para estimar el espacio lineal generado por los vectores de cointegracióna1, a2, a3,…, ah.
Este capítulo describe la solución a este problema desarrollado por Johansen (1988, 1991), cuyo
trabajo está estrechamente relacionado con el de Ahn y Reinsel (1990), y más distantemente con el
de Stock y Watson (1988). Otra ventaja de FIML es que nos permite probar el número de
relaciones de cointegración. El enfoque de Phillips y Ouliaris (1990) descrito en el capítulo 19 puso
a prueba la hipótesis nula de que no hay relaciones de cointegración. Este capítulo presenta pruebas
más generales de la hipótesis nula de que hay relaciones h0 cointegrantes, donde h0 podría ser 0,
1,2,…, o n - 1.
Para desarrollar estas ideas, la Sección 20.1 comienza con una discusión del análisis de correlación
canónica. La Sección 20.2 desarrolla las estimaciones FIML, mientras que la Sección 20.3 describe
las pruebas de hipótesis en sistemas cointegrados. La Sección 20.4 ofrece un breve resumen de las
raíces unitarias en el análisis de series de tiempo.
nt = H´yt
£t = A´xt.
Aquí H 'y A´ son (n x nl) y (n x n2) matrices, respectivamente. Las matrices H ' y A ´ se eligen de
manera que se mantengan las siguientes condiciones.
(1) Los elementos individuales de t \ r tienen una varianza unitaria y no están corregidos entre sí:
(2) Los elementos individuales tienen una varianza unitaria y no están corregidos con unos y otros:
(3) El i-ésimo elemento dent, no está correlacionado con el j-ésimo elemento de£t i ≠ j; para i = j,
lacorrelación es positiva y viene dada por ri:
Donde
𝑟1 0 ⋯ 0
𝑅 = [0 𝑟2 ⋯ 0 ]
0 0 ⋯ 𝑟𝑛
(4) Los elementos de i y gr están ordenados de tal manera que:
(1 ≥r1≥r2≥ . . . ≥ rn ≥ 0).
La correlación rise conoce como la i-ésima población correlación canónica entre yt y xt.
Las correlaciones canónicas de la población y los valores deHy Ase pueden calcular a partir deΣYY,
ΣXX y ΣXY usando cualquier programa de computadora que genere autovalores y autovectores,
como describimos ahora.
Sea (λ1, λ2,..., λn1) los valores propios de la matriz (n1 x n1)
Ordenado como
(λ1≥λ2 ≥ ...≥λn1),
Con vectores propios asociados (kl, k2, ..., kn1). Recuérdese que el par de valores propios (λi,ki)
satisface
Observe que si k, satisface [20.1.10], entonces también lo hace cki para cualquier valor de c. La usual
normalización para elegir с y por lo tanto para determinar "el" eigenvector ki´ asociarse con λ, es
establecer к / к, - = 1. Sin embargo, para el análisis de correlación canónica es más conveniente
elegir с para asegurar que
Si un programa informático ha calculado los vectores propios (k1, k2,..., kni) de la matriz en [20.1.8]
normalizada por (ki´ 'ki) = 1, es trivial cambiar estos a vectores propios (k1, k2,..., kni) normalizado
por la condición [20.1.11] mediante el ajuste
ki = ki÷(ki´ΣYYki)(1/2)
Podemos además multiplicar k, por -1 para satisfacer una convención de signo determinada que se
detallará en los párrafos que siguen a la proposición siguiente.
Las correlaciones canónicas (r1, r2,..., rn) resultan dadas por las raíces cuadradas de los
correspondientes primeros n valores propios (λ1, λ2, λ3,..., λn) de [20.1.8]. Los vectores propios
asociados (n1 x 1) k1, k2,…, kn, cuando se normalizan por [20.1.11] y una convención de signos, se
convierten en las filas de la matriz (n x n1) que aparece en [20.1.1] La matriz A' en [20.1.2 ] Se
pueden obtener a partir de los vectores propios normalizados de una matriz estrechamente
relacionada con [20.1.8]. Estos resultados se desarrollan en la siguiente proposición, demostrada en
el apéndice 20. A al final de este capítulo.
Σ
=
(𝑛1 + 𝑛2 )×(𝑛1 + 𝑛2 )
Σ𝑌𝑌 (𝑛 Σ𝑌𝑋 (𝑛
1 𝑥𝑛1 ) 1 𝑥𝑛2 )
[Σ Σ𝑋𝑋 (𝑛
]
𝑋𝑌 (𝑛2 𝑥𝑛1 ) 2 𝑥𝑛2 )
Sea una matriz simétrica definida positiva y sea (λ1, λ2,..., λn1) los valores propios de la matriz en
[20.1.8], ordenada λ1≥λ2 ≥ ...≥λn1. Sea (k1, k2,…, kn) los vectores propios asociados (n1 x 1) como
normalizados por [20.1.11]. Sea (μ1, μ2,…, μn2) los valores propios de la matriz (n2 x n2)
ΣXX-1, ΣXY-1, ΣYY-1 y ΣYX-1 [20.1.12]
Normalizado por
aiΣxxai. = 1 para i = 1, 2, . . . , n2. [20.1.14]
Sea n el menor de n1 y n2, y recoger los primeros n vectores ki y los primeros n vectores ai en
matrices.
H = [k1 k2 k3 … kn ] (n1 x n)
H = [a1 a2 a3 … an ] (n2 x n)
Si Σ denota la matriz de varianza-covarianza del vector (yt ', xt')´, los resultados (c) y (d) son la
caracterización de las correlaciones canónicas dadas en [20.1.3] a [20.1.5]. Así, la proposición
establece que los cuadrados de las correlaciones canónicas (r12, r22,…, rn2) se pueden encontrar a
partir de los primeros n valores propios de la matriz en [20.1.8]. El resultado (b) indica que estos
son los mismos que los primeros n valores propios de la matriz en [20.1.12]. Las matricesH y Aque
Para interpretar esta expresión, recuerde de la ecuación [4.1.15] que el error cuadrático medio de
una proyección lineal de yt en xf está dado por
−1
𝑀𝑆𝐸 = 𝛴𝑌𝑌 − 𝛴𝑌𝑋 𝛴𝑋𝑋 𝛴𝑋𝑌
y entonces
−1
𝛴𝑌𝑌 𝛴𝑌𝑋 𝛴𝑋𝑋 𝛴𝑋𝑌 𝑀𝑆𝐸
1 – 𝑟12 = – =
𝛴𝑌𝑌 𝛴𝑌𝑌 𝛴𝑌𝑌
Así, para este caso simple, r12 es la fracción de la varianza de la población que se explica por la
proyección lineal; Es decir, r12 es el coeficiente de correlación múltiple al cuadrado de la población,
comúnmente denominado R2.
Otra interpretación de las correlaciones canónicas también es a veces útil. Las primeras variantes
canónicas n1t y £ lt pueden interpretarse como aquellas combinaciones lineales de yt yxt,
respectivamente, de manera que la correlación entre n1t y £ ltsea lo más grande posible (véase el
ejercicio 20.1). Las variadas n2t y £2tdan aquellas combinaciones lineales de yt y xt, que no están
corregidas con n1t y £ lty aun así producen la mayor correlación restante entre n2t y £2t, y así
sucesivamente.
t =1
t =1
t =1
Para la matriz (n x n) a estimarse a partir de los datos. La tarea será elegir H ´para que la i-ésima
serie generada (nit) tenga una varianza muestral unitaria y sea ortogonal a la serie generada:
Cada una de las variables £itr tiene una varianza de muestra unitaria y es ortogonal a £jtpara i ≠ j:
Finalmente, nites ortogonal a £jt para i ≠ j, mientras que la correlación de la muestra entre nity ξit Se
denomina coeficiente de correlación canónica de la muestra:
Donde la última línea sigue de [20.1.16]. La expresión [20.1.25] es idéntica a [20.1.3] con las
variables fuera. Similarmente, sustituyendo [20.1.21] dentro [20.1.22] 𝐴̂′ ∑ 𝑥𝑥 𝐴̂= 𝐼𝑛 ,
corresponden para [20.1.4]. La ecuación [20.1.23] se convierte 𝐴̂′̂𝑥𝑦 𝐾 ̂ = 𝑅̂ , como en [20.1.5]. Así
que, podemos reemplazar 𝑘̂, con -𝑘̂, si cualquiera de 𝑅̂ debería ser negativo.
Además, para calcular las correlaciones simples, el producto describe en proporción 20.1 es
simplemente postulados en ( ̂YY,
̂YX, and ̂XX) radios que para los momentos máximos. En
particular, the cuarto de esta simple correlación es dado por la matriz autoevaluada.
̂ esdado por los autovalores asociados con los autovalores, normalizados en 𝑎̂′𝑖
La columna de 𝐾
Por ejemplo, supone que, esto es escalar (n = n1 = 1). Luego [20.1.26] es una ecuación escalar tiene
2 autovalores. Así, la ecuación correlaciona entre la y escalar, y un n2 variables xt is dado por
−1
{𝑇 −1 ∑ 𝑦𝑡 𝑥′𝑡 }{𝑇 −1 ∑ 𝑥𝑡 𝑥′𝑡 } {𝑇 −1 ∑ 𝑥𝑡 𝑦𝑡 }
𝑟̂12 = {𝑇 −1 ∑ 𝑦12 }
E(𝜀𝑡 ) = 0
Ω para t = T
E(𝜀𝑡 𝜀𝑇 ′ = {0 de otra manera
Supongamos que cada variable individual y it es I(1), Aunque h combinaciones lineales de y t son
estacionarias. Vimos en las ecuaciones [19.1.35] y [19.1.40] que esto implica que £ 0 se puede
escribir en la forma
0 BA´ [20.2.2]
0 657
- 0 yt-1)tx Ω-1 (∆yt - 1 ∆yt-1- 2 ∆yt-2 - - p-1 ∆yt-p+1- - 0 yt-1)].
El objetivo es elegir (Ω, 1, 2 , ..., p-1, , 0 ) para maximizar [20.2.3] sujeto a la restricción de que
£ 0 puede escribirse en la forma de [20.2.2 ].
Primero resumiremos el algoritmo de Johansen y luego verificaremos que efectivamente calcula las
estimaciones de máxima verosimilitud.
Donde , denota una matriz (n x n) de estimaciones del coeficiente OLS y Û , denota el vector (n x
1) de los residuos OLS. También estimamos una segunda batería de regresiones, regresando el
escalar yi.t-1 en una constante y ∆yt-1, ∆yt-2,…, ∆yt-p+1 para i = 1, 2,. . . n. Escribir este segundo
conjunto de regresiones MCO como1
∑ 𝑣𝑣 ≡< 1/𝑇) )▒ ∑ 𝑣, 𝑣 ;
1=1
^^ 𝑡
∑ 𝑢𝑢 ≡< 1/𝑇) )▒ ∑ Û, Û;
1=1
^^ 𝑡
∑ 𝑢𝑣 ≡< 1/𝑇) )▒ ∑ Û, v;
1=1
^^
∑ 𝑣𝑢 ≡ ∑ Û, v;
1
Johansen (1991) describió su procedimiento como cálculo v, en lugar de v, Donde v, es el residuo OLS de una regresión
de yt-p sobre una constante y ∆yt-1, ∆yt-2,…, ∆yt-p+1. Dado que yt-p = yt-1- ∆yt-1-∆yt-2- -∆yt-p+1, el residual v, es
numéricamente idéntico a v, descrito en el texto.
Dejar ã1, ã2….ãn Denotan el (n x 1) vectores propios de (20.2.9) Asociado con los h más altos
valores propios. Estos constituyen una base para el espacio de relaciones de cointegración; Es decir,
la estimación de probabilidad máxima es que cualquier vector de cointegración puede escribirse en
la forma.
Para alguna elección de escalas ( b1 ,b2 …….bn) Johansen sugirió normalizar estos vectores ã, asi que ã; ∑^ 𝑣𝑣ã,
= 1. Por ejemplo, si los vectores propios ã¡ of (20.2.9) Se calculan a partir de un programa
informático estándar que normalice ã;ã1 = 1, Johansen’s estima es ã, - ã, + √𝑎; 𝑛 = ∑^^ 𝑢𝑣 ã.
Recoger los primeros h vectores normalizados en (n x h) matriz Ã:
ξ0 = 𝐼𝐼𝑖 - ξ0 X1 [20.3.13]
y la MLE de x es x = π0 - ξ0 ô [20.2.14]
El MLE de Ω es
T
Ω = (1/T)
t 1
[( Û1 - 0 vt)( Û1 - 0 vt)´]. [20.2.15]
Pero observe que los residuos OLS Û , en [20.2.4] y v, en [20.2.5] satisfacen este requisito de
ortogonalidad, y por lo tanto el vector Û , - 0 v, también tiene una muestra media cero y es
ortogonal a ∆yt-1, ∆yt-2,…, ∆yt-p+1. Además, Û , - 0 v, es de la forma de expresión [20.2.16],
Û , - 0 v1 =(∆yt- -
0 1∆yt-1- 2∆yt-2-…- p-1∆yt-p+1)
Continuando con la concentración un paso más allá, recuerda del análisis de [11.1.25] que el valor
de Ω que rnaximiza [20.2.19] (todavía con respecto a £ 0 como fijo) está dado por
2
Véase Koopmans y Hood (1953, pp. 156-58) para más información sobre la concentración de funciones de
verosimilitud.
Como en la expresión [11.1.32], el valor obtenido para [20.2.19] cuando se evalúa en [20.2.20] es
entonces
û, = 𝑛̂𝑡
𝑣̂𝑡 = 𝜉̂𝑡 ,
Con
𝑟̂1 0 … 0
0 𝑟̂2 … 0
𝑅̂ = [ ] [20.2.26]
⋮ ⋮ ⋯ ⋮
0 0 … 𝑟̂𝑛
Uppose que para estos datos canónicos se nos pidió elegir ζ_0 para minimizar
Donde ei, denota la ith columna de In. Por lo tanto, incluso si todos los n elementos de t ,
aparecieran en la regresión, sólo el elemento it tendría un coeficiente no nulo en la regresión usada
para explicar it . El promedio cuadrado residual para esta regresión sería
T T T T
{(1/T)
t 1
( it )2}-{(1/T) ( it t )}{(1/T) ( t t )}-1{(1/T) ( t it )}
t 1 t 1 t 1
= 1-ri .ei .In .ri .ei
= 1 – ri2.
Por otra parte, las condiciones [20.2.23] a [20.2.25] implican que el residuo de la ith regresión, it - ri
it , sería ortogonal al residuo de la regla, it - ri it para i ≠ j. Por lo tanto, si 0 no fuera
restringido, el valor óptimo para la matriz en [20.2.27] sería una matriz diagonal con (1 - ri2) en la
fila i, columna i posición y cero en otra parte.
Supongamos ahora que estamos limitados a usar sólo h combinaciones lineales de 1 , como
regresores.
Del análisis precedente, podríamos adivinar que lo mejor que podemos hacer es utilizar los
elementos h de t que tienen las correlaciones más altas con los elementos de t , es decir, elegir (
1t , 2t ,..., h1 ) como regresores .3 Cuando este conjunto de regresores se utiliza para explicar it
para i ≤ h, el residuo cuadrático promedio será (1 - ri2), como antes. Cuando este conjunto de
regresores se utiliza para explicar it para i ≥h, todos los regresores son ortogonales a 77 y
recibirían coeficientes de regresión de cero. El residuo cuadrático promedio para la última regresión
es simplemente (l / t) 1 T =1 it =1 para i = h + 1, h + 2, ..., n) Por lo tanto, si estamos limitados a
usar solamente h combinaciones lineales De t el valor optimizado de [20.2.27] será
T
І(1/T)
t 1
[( t - 0 * t )( t - 0 * t )1] І
1− r12 0 … 0 0 …
| |
= 0 1− rh 2 … 0 0 … [20.2.28]
| |
0 0 … 1− rh 2 1
=∏ℎ𝑖=1(1 − 𝑟𝑖2 ).
Por supuesto, los datos reales µt ,yt No estará en forma canónica exacta
Sin embargo, la sección anterior describía cómo encontrar (n x b) matrices ĸ y Ȃ tal que :
ň=ĸ’ŭ [20.2.29]
3 Véase Johansen (1988) para una demostración más formal de esta afirmación.
Las columnas de 𝒜̂ están dados por los vectores de la matriz en [20.2.29], normalizada por la
̂ 𝑣𝑣 𝒜̂ = 𝐼𝑛 . Los vectores propios de [20.2.29] da los cuadros de las correlaciones
condición 𝒜̂ ′ ∑
canonícas:
𝜆𝑖 = 𝑟̂𝑖2 [20.2.31]
𝑇
′
̂ ′ )−1 𝜂̂ 𝑡 − 𝜁0 (𝒜̂′ )−1 𝜉̂′ ] [(𝒦
= |(1/𝑇) ∑ [[(𝒦 ̂ ′ )−1 𝜂̂ 𝑡 − 𝜁0 (𝒜̂ ′ )−1 𝜉̂𝑡 ] ]|
𝑡=1
𝑇
′
= |(𝒦 )̂ ′ −1 (1/𝑇) ̂ ′ 𝜁0 (𝒜̂′ )−1 𝜉̂𝑡 ] [𝜂̂ 𝑡 − 𝒦
∑ [[𝜂̂ 𝑡 − 𝒦 ̂ ′ 𝜁0 (𝒜̂′ )−1 ] ] (𝒦
̂ )−1 |
𝑡=1
𝑇
′
̂ ′ −1 ̂ 𝜉̂𝑡 ][𝜂̂ 𝑡 − ∏
= |(𝒦 ) | |(1/𝑇) ∑ [[𝜂̂ 𝑡 − ∏ ̂ 𝜉̂𝑡 ] ]| |(𝒦
̂) | −1
𝑡=1
̂ 𝜉̂𝑡 ]′ ]| ÷ |𝒦
̂ 𝜉̂𝑡 ][𝜂̂ 𝑡 − ∏
= |(1/𝑇) ∑𝑇𝑡=1 [[𝜂̂ 𝑡 − ∏ ̂ |2 [20.2.32]
Donde:
∏ ̂ ′ 𝜁0 (𝒜̂′ )−1
̂ ≡𝒦 [20.2.33]
Recordemos que maximizar la función de verosimilitud logarítmica concentrada para los datos
reales [20.2.21] equivale a elegir 𝜁0 para minimizar la expresión en [20.2.32] sujeto al requisito de
que 𝜁0 puede escribirse como 𝐵𝐴′ para algunas matrices (𝑛𝑥ℎ) de 𝐵 y 𝐴. Pero 𝜁0 puede escribirse
en esta forma si y solo si ∏ ̂ en [20.2.33] puede escribirse en la forma 𝛽𝛾 ′ para algunas (𝑛𝑥ℎ)
matrices 𝛽 y 𝛾. Por lo tanto, la tarea se puede describir como la elección de ∏ ̂ para minimizar
[20.2.32] sujeto a condición.
Pero este es precisamente el problema resuelto en [20.2.28] --la solución es utilizar como regresores
los primeros elementos ℎ de 𝜉̂𝑡 . El valor de [20.2.32] en el óptimo es dado por:
2
̂|
∏ℎ𝑖=1(1 − 𝑟̂𝑖2 ) ÷ |𝒦 [20.2.34]
̂ satisface
Además, la matriz 𝒦
̂ ′ 𝑢̂𝑡 𝑢̂𝑡′ 𝒦
:𝐼𝑛 = (1/𝑇) ∑𝑇𝑡=1 𝜂̂ 𝑡 𝜂̂ 𝑡′ = (1/𝑇) ∑𝑇𝑡=1 𝒦 ̂ =𝒦 ̂ 𝑈𝑈 𝒦
̂ ′∑ ̂ [20.2.35]
1 = |𝒦 ̂ 𝑈𝑈 ||𝒦
̂ ′ ||∑ ̂|
O;
Comparando [20.2.32] con [20.2.21], se deduce que el valor máximo obtenido para la función de
verosimilitud de log es dado por:
ℎ
̂ 𝑈𝑈 |𝑥 ∏(1 − 𝑟̂𝑖2 )}
ℒ = 𝒩(𝜁̂0 ) = −(𝑇𝑛/2) log(2𝜋) − (𝑇𝑛/2) − (𝑇/2) log {|∑
∗
𝑖=1
Para algunos (𝑛𝑥ℎ) matriz 𝐵. Esto comprueba la afirmación de que 𝐴̂ es la estimación de máxima
verosimilitud de una base para el espacio de vectores de cointegracion.
Dado que queremos elegir 𝑊 ̂𝑡 ≡ 𝐴̂′ 𝑉̂𝑡 como regresores, el valor de 𝐵 para el cual se maximizara la
función concentrada se obtendrá a partir de las regresiones MCO de 𝑢̂𝑡 en 𝑊̂𝑡 :
𝑇 𝑇 −1
[20.2.37]
̂𝑡 está compuesto de ℎ variables canónicas, lo que significa que:
Pero 𝑊
̂𝑡 𝑊
[(1/𝑇) ∑𝑇𝑡=1 𝑊 ̂𝑡′ ] = 𝐼ℎ [20.2.38]
Además;
𝑇 𝑇
̂𝑡′ ] = [(1/𝑇) ∑ 𝑢𝑡 𝑉𝑡′ 𝐴̂]
[(1/𝑇) ∑ 𝑢̂𝑡 𝑊
𝑡 𝑡=1
̂ 𝑈𝑉 𝐴̂
=∑ [20.2.40]
𝛼 = 𝐵𝑢1∗
Para maximizar la función de verosimilitud sujeto a las restricciones de que hay relaciones de
cointegración h y no hay tendencias de tiempo deterministas en ninguna de las series, el primer
paso de Johansen (1991) fue concentrar ξ1, ξ2,… Y ξp-1(pero no α). Para α y ξ0, esto se logra
mediante la regresión OLS de (ΔYT-α-ξ0YT-1) en (ΔYT-1, ΔYT-2,… ΔYT-P+1). Los residuos de esta
regresión están relacionados con la Residuos de tres regresiones separadas:
(3) Una regresión de 𝑦𝑡−1 en (Δ𝑦𝑡−1 , Δ𝑡−2 , … , Δ𝑡−𝑝+1 sin termino constante
𝒩(𝛼, 𝜉0)
Imponiendo las limitaciones 𝛼 = Β𝑢1∗ y 𝜉0 = −ΒΑ´, la magnitud en [20.2.44] puede ser escrito
Donde
𝑤𝑡
𝑤𝑡(𝑛+𝑎)𝑥1 = [ 𝑣 ]
𝑡
Pero establecer ξ0 = -BA 'en [20.2.21] produce una expresión de exactamente la misma forma que
[20.2.45], con A en [20.2.21] reemplazado por A y Vt, reemplazado por Wt , Por lo tanto, la
probabilidad de registro restringido se maximiza simplemente reemplazando Vt, en el análisis de
[20.2.21] con Wt.
En resumen construye
𝑇
Ordenado λ1>λ2>… >λn+1 El valor máximo alcanzado para la función de probabilidad de log sujeto
a la restricción de que hay relaciones h cointegrantes y no hay tendencias de tiempo deterministas
−(𝑇⁄2) ∑ log(1 − 𝜆𝑡 )
𝑡=1
BA’=[-Bu1* BA’]
[𝛼 𝜉0 ] = Σ𝑢𝑤 ΑΑ´
asintóticas, siempre que se tenga en cuenta la asignación adecuada Para la correlación serial en los
datos. Estos resultados generalizan al análisis FIML. La distribución asintótica de una prueba del
número de reintegraciones de cointegración no es estándar, pero las pruebas sobre el vector de
cointegración son a menudo 𝑥 2
Bajo la hipótesis nula Ho que hay exactamente h cointegrando las relaciones entre los elementos
de yt, este VAR está restringido por el requisito deξ0 que se pueda escribir en la forma ξ0= -BA ',
para B en (n x h) matriz y A' en (h x n) matriz. Otra forma de describir esta restricción es que sólo h
combinaciones lineales de los niveles de Yt-1 , pueden utilizar en las regresiones en [20.3.1]. El
mayor valor que se puede lograr para la función de probabilidad de log bajo esta restricción fue
dado por [20.2.10];
−(𝑇⁄2) ∑ log(1 − 𝜆𝑡 )
𝑡=1
0 667
Si la hipótesis involucraba sólo I (0) variables, se esperaría dos veces el log ratio de verosimilitud,
𝑇
2(𝑙𝐴∗ − 𝑙0∗ ) = − ( 2𝑛 ) ∑𝑛𝑖=𝑛+1 𝑙𝑜𝑔 (1 − λ̂𝑖 ) [20.3.4]
Para ser asintóticamente distribuido como X2 . En el caso de H0, sin embargo, la hipótesis implica
el coeficiente de yt-1 que, a partir de la representación de tendencias comunes de Stock-Watson,
depende del valor de g = (n - h) Separar paseos aleatorios Vamos W (r) sea g-dimensional
estándar de movimiento browniano. Supongamos que el valor verdadero del término constante a en
[20.3.1] es cero, lo que significa que no hay intercepto en ninguna de las relaciones de cointegración
y ninguna tendencia temporal determinista en ninguno de los elementos de h. Supongamos además
que no se incluye ningún término constante en las regresiones auxiliares [20.2.4] y [20.2.5] que se
utilizaron para construir Ut, y Vt. Johansen (1988) mostró que bajo estas condiciones la
distribución asintótica de la estadística en [20.3.4] es la misma que la de la siguiente matriz:
1 ′ 1 −1 1
𝑄 = [∫0 𝑊(𝑟) 𝑑𝑊(𝑟)′ ] [∫0 𝑊(𝑟) 𝑊(𝑟)′ 𝑑𝑟] [∫0 𝑊(𝑟) 𝑑𝑊(𝑟)′ ]. [20.3.5]
Percentiles para la traza de la matriz en [20.3.5] se informan en el caso 1 porción de la Tabla B.10.
Estos se basan en simulaciones de Monte Carlo
1 2 1 2
{∫0 𝑊(𝑟) 𝑑𝑊(𝑟)} {(2)2 [𝑤(1)]2 −1}
𝑄= 1 = 1 [20.3.6]
{∫0 [𝑊(𝑟)]2 𝑑𝑟} {∫𝑛 [𝑊(𝑟)]2 𝑑𝑟}
Otro enfoque sería probar la hipótesis nula de las relaciones de cointegración h frente a la
alternativa de las relaciones de cointegración h + 1. Dos veces la razón de probabilidad de log para
este caso es dada por
De nuevo, bajo la suposición de que el valor trie de α = 0 y que no se incluye término constante
en [20.2.4] o [20.2.5], la distribución asintótica de la estadística [20.3.5]. Las estimaciones de Monte
Carlo de esta distribución se informan en la sección de caso 1 de la Tabla B.11.
Normalmente, las relaciones de cointegración podrían incluir intercepciones no nulas, en cuyo caso
querríamos incluir constantes en las regresiones auxiliares [20.2.4] y [20.2.5]. Como se podría
adivinar a partir del análisis del capítulo 18, la distribución asintótica en este caso depende de si
alguna de las series presenta o no tendencias de tiempo deterministas. Suponga que el valor
verdadero de α es tal que no hay tendencias deterministas en ninguna de las series, de modo que el
verdadero α satisface α = Βμ1∗ como en [20.2.40]. Suponiendo que no se imponen restricciones al
término constante en la estimación de las regresiones auxiliares [20.2.4] y [20.2.5], entonces la
distribución asintótica de [20.3.4] se da en el caso 2 de la Tabla B. 10, mientras que la distribución
asintótica de [20.3.7] se da caso 2 panel de la Tabla B.11. Por el contrario, si alguna de las variables
presenta tendencias de tiempo deterministas (uno o más elementos de 𝛂 − 𝚩𝛍∗𝟏 son distintos de
Cuando g = 1 y α ≠ Βμ1∗ , la caminata aleatoria única que es común a yt está dominada por una
tendencia temporal determinista. En esta situación, Johansen y Juselius (1990, p.180) señalaron que
el caso 3 análogo de [20.3.6] tiene una distribuciónx 2 (1), por razones similares a las observadas por
West (1988) y discutido en el capítulo 18. Las modestas diferencias entre la primera fila del caso 3
parte de la Tabla B.10 o B.11 y la primera fila de la Tabla B.2 se deben probablemente al error de
muestreo implícito en el procedimiento de Monte Carlo utilizado para generar los valores en las
Tablas B .10 y B.11.
𝜆̂1 = 0.1105
𝜆̂2 = 0.05603
𝜆̂3 = 0.03039
Con
4
Los cálculos se basaron en dígitos más significativos que los reportados, por lo que el lector puede encontrar
discrepancias al intentar reproducir estos resultados de las cifras reportadas.
El vector propio â1 de la matriz en [20.2.9] asociado con 𝜆̂1 , normalizado de manera que
â′1 Σ̂𝑣𝑣 â1 = 1, está dado por
Por ejemplo, podríamos estar interesados en saber si el coeficiente medio en [20.3.9] es cero, es
decir, si la relación de cointegración involucra únicamente los niveles de precios de Estados Unidos
e Italia. Para este ejemplo h = 1, q = 2 y n = 3. En general debe ser el caso de que h 5 q n. Puesto
que h las combinaciones lineales de las q variables incluidas en las relaciones de cointegración son
estacionarias, si q = h, entonces todas las q de las variables incluidas tendrían que ser estacionarias
en niveles. Si q=n, entonces la hipótesis nula no impone restricciones sobre las relaciones de
cointegración.
𝜁0 𝑦𝑡−1 = −𝑩𝑨′𝑫′𝒚𝒕−𝟏 ,
Donde B es ahora una matriz (n x h) y A 'es una matriz (h x q). La estimación de máxima
verosimilitud procede exactamente como en la sección anterior, donde 𝑣̂𝑡 en [20.2.5] es recolocados
por los residuos MCO de las regresiones de 𝐷’𝑌𝑡−1 una constante (ΔYT-1, ΔYT-2,… ΔYT-P+1) Esto
̂ 𝑣𝑣 en [20.2.6] y ∑
equivale a reemplazar ∑ ̂ 𝑢𝑣 en [20.2.8] con
̂ 𝑣𝑣 ≡ 𝐷′∑
∑ ̂ 𝑣𝑣 𝐷 [20.3.11]
̂ 𝑢𝑣 ≡ ∑
∑ ̂ 𝑢𝑣 𝐷 [20.3.12]
En este caso, la hipótesis nula implica sólo coeficientes sobre las variables I(0) (el término de
corrección de errores 𝑧𝑡 = 𝐴′𝑦𝑡 ), y la teoría de distribución asintótica estándar resulta aplicable.
Johansen (1988, 1991) demostró que la relación de proporción estadística [20.3.14] tiene una
distribución asintótica 𝑋 2 con grados de libertad ℎ ∙ (𝑛 − 𝑞).
Por ejemplo, considere la restricción representada por [20.3.10] que el tipo de cambio tiene un
coeficiente de cero en el vector de cointegración [20.3.9]. De [20.3.11] y [20.3.12], calculamos
̂ 𝑣𝑣 = [427.366 805.812]
∑
805.812 1525.45
−0.484857 −0.837701
̂ 𝑢𝑣 = [ −1.81401
∑ −2.46896 ]
−1.80836 −3.58991
Los valores propios para la matriz en [20.3.13] son entonces
=0.97
ℎ ∙ (𝑛 — 𝑞) = 1 ∙ (3 — 2) = 1;
La hipótesis nula impone una única restricción al vector de cointegración. El valor crítico del 5%
para una variable 𝑥 2 (1) se ve en la Tabla B.2 como 3.84. Desde 0.97 <3.84, se acepta la hipótesis
nula de que el tipo de cambio no aparece en la relación de cointegración. El vector de cointegración
restringido (normalizado con el coeficiente del nivel de precios de los Estados Unidos como
unidad) es
∑ 𝑣𝑣 = 88.5977
−0.145914
∑ 𝑢𝑣= [ 3.61422 ]
0.312582
En este caso, la matriz [20.3.13] es el escalar 0.0424498, y así = 0.0424498 Y T log (1 – λ1) = - 8.20.
Por lo tanto, la prueba de razón de verosimilitud de la hipótesis nula de que el vector de
cointegración es proporcional a (1, -1, -1)'es
= 13.92
h •(n — q) = 1 (3— 1) = 2.
El valor crítico del 5% para una variable X2(2) es 5.99. Desde 13.92> 5.99, Se rechaza la hipótesis
de que el vector de cointegración es proporcional a (1, - 1, - 1) es rechazado.
No todas las pruebas de hipótesis sobre los coeficientes en el marco de Johansen son
asintóticamente
Por ejemplo r, denotan el tipo de interés nominal sobre la deuda corporativa a 3 meses, i, el tipo
de interés nominal sobre la deuda pública a 3 meses y la tasa de inflación a 3 meses. Supongamos
que estas tres variables parecen ser I(1) y presentan dos relaciones de cointegración. Una visión
natural es que estas relaciones de cointegración representan dos relaciones estabilizadoras. La
primera refleja las fuerzas que mantienen la prima de riesgo esta-
Con z2t* ~ I(0) Una segunda fuerza es el efecto de Fisher, que tiende a mantener el real Tasa de
interés estacionaria:
0 673
Una opción es ignorar totalmente la no estacionabilidad y simplemente estimar. La VAR en niveles,
basándose en las distribuciones estándar t y F para probar cualquier hipótesis Esta estrategia tiene
las siguientes características para recomendarla. (1) Los parámetros que describen la dinámica del
sistema son estimados consistentemente. (2) Incluso si el modelo verdadero es un VAR en las
diferencias, ciertas funciones de los parámetros y las pruebas de hipótesis basadas en un VAR en
niveles tienen la misma distribución asintótica que las estimaciones basadas en datos diferenciados.
(3) Se puede dar una motivación bayesiana para las distribuciones t o F habituales para las
estadísticas de prueba incluso cuando la teoría asintótica clásica para estas estadísticas no es
estándar.
(0)
𝜁
Donde la matriz (4 x 3) [ 1(0) ]está restringida a la forma ba ', donde b es (4 x 1) y a' es (1 x 3). Tal
𝜁2
sistema puede entonces estimarse adaptando los métodos descritos en la Sección 20.2, y la mayoría
de las pruebas de hipótesis sobre este sistema deben ser asintóticamente X2.
La desventaja del tercer enfoque es que, a pesar del cuidado que se ejerce, las
restricciones impuestas pueden ser inválidas; el investigador puede haber aceptado una
hipótesis nula, aunque sea falsa, o rechazado una hipótesis nula que es realmente verdadera.
Además, las pruebas alternativas para las raíces unitarias y la cointegración pueden producir
resultados contradictorios, y el investigador puede no estar seguro de cuál debe ser seguido.
Los expertos difieren en los consejos ofrecidos para el trabajo aplicado. Una solución
práctica es emplear partes de los tres enfoques. Esta estrategia ecléctica comenzaría por estimar el
VAR en niveles sin restricciones. El siguiente paso es hacer una evaluación rápida en cuanto a qué
series son probablemente no estacionarias. Esta evaluación podría basarse en gráficos de los datos,
información previa sobre la serie y sus probables relaciones de cointegración, o cualquiera de las
pruebas más formales discutidas en el Capítulo 17. Cualquier serie no estacionaria puede entonces
ser diferenciada o expresada en forma de corrección de errores y una Entonces se podría estimar la
VAR estacionaria. Por ejemplo, para estimar una VAR que incluya el log de ingresos (Yt) y el log de
a. Primero mostramos que λ, <1 para i = 1, 2,. . . , n1 Cualquier valor propio A de [20.1.8]
satisface
|∑YY-1∑YX∑XX-1∑XY−𝜆𝐼n1|= 0
Si λ> 1, entonces el lado derecho de la expresión [20.A.3] sería la suma de dos matrices definidas
positivas y así sería positiva definida. El lado izquierdo de [20.A.3] sería entonces definido positivo,
lo que implica que el determinante en [20.A.1] no podría ser cero para λ> 1. Por lo tanto, λ> 1 no
es consistente con [20.A .1].
(B) Sea k, un vector propio asociado con un valor propio distinto de cero A, de [20.1.8]
∑YY-1∑YX∑XX-1∑XYKi= 𝜆 𝑘 I [20.A.4]
∑YY-1∑YX∑XX-1∑XYKi= 𝜆 𝑘 i [20.A.7]
Para encontrar el valor de ai’ ∑XYKipara i = j, premultiplicamos [20.1.13] por ai’∑XXhaciendo uso
de [20.1.14]:
ai’∑XY∑YY∑XXai= 𝜆I [20.A.12]
Supongamos por ejemplo que n, es el menor de n, y n2; Es decir, n = n1. Entonces la matriz de
vectores propios K es (n x n) y no singular. En este caso, [20.1.3] implica q
ai’∑XY𝐾𝐾’∑XXai= 𝜆i [20.A.14]
Nuevo
CAPÍTULO 20 Ejercicios
20.1. En este problema se le pide que verifique la afirmación en el texto de que las primeras
variantes n1 canónicas y ξ1 representan las combinaciones lineales de Yt y Xt con la máxima
correlación posible. Considere el siguiente problema de maximización:
Sujeto a
E (Kt’,ytyt’a1) = 1
E (at’,XtXt’a1) = 1
Demuestre que el valor máximo obtenido para este problema viene dado por la raíz cuadrada del
autovalor más grande de la matriz ∑XX-1∑YX∑XX-1∑XY y que a1 es el vector propio asociado
normalizado como se indica. Demuestre que K1 , es el autovector normalizado de ∑YY-1∑YX∑XX-
1∑XY, asociado con este mismo autovalor.
20.3. Se afirmó en el texto que la función de probabilidad de log maximizada bajo la hipótesis
alternativa de n relaciones de cointegración fue dada por [20.3.3]. Este caso implica la regresión de
∆Yt, en una constante, Yt-1 y ΔYT-1, ΔYT-2,… ΔYT-P+1 sin restricciones. Sean g1 , denotan los
residuos de esta regresión sin restricción, con ΣGG =(1/T)∑t=1Tgtgt’. La ecuación [11.1.32]
entonces afirmaría que la maximizada log función de verosimilitud debe ser:
CAPÍTULO 20 Referencias
Alin, S. K. y G. C. Reinsel. 1990. "Estimación para modelos autoregresivos multivariantes
parcialmente no estacionarios". Diario de la American Asociación Estadistica 85: 813 - 23.
Christiano, Lawrence J., y Lars Ljungqvist. 1988. "El dinero hace Granger-causa resultado en la
relación de dinero-salida bivariado". Diario Monetario y Económico: 217-35. Johansen, Selren.
1988. "Análisis Estadístico de Vectores de Cointegración". Diario de Dinámica Económica y
Control 12: 231-54.
1991. "Estimación y Pruebas de Hipótesis de Vectores de Cointegración en Gauss Vector
AutoregressiveModels. "Econometrica 59: 1551-80.
1992. "Cointegración en Sistemas Parciales y la Eficiencia de la Ecuación Única Análisis. "Revistas
de Econometría” 52: 389-402. Y KatarinaJuselius. 1990.
"Estimación e inferencia de máxima verosimilitud sobre Cointegración-con Aplicaciones a la
Demanda de Dinero. "Oxford Boletín de Economía y Estadística 52: 169-210.
Koopmans, Tjalling C. y William C. Hood. 1953. "La estimación de las relaciones económicas
lineales simultáneas", en William C. Hood y Tjalling C. Koopmans, eds., Estudios en Método
Econométrico
. Nueva York: Wiley.
Mosconi, Rocco, y Carlo Giannini.1992. "No causalidad in Sistemas Cointegrados: Representación,
Estimación y Pruebas, " Oxford Bulletin de Economía y Estadística. 54:399¬417.
Park, Joon Y. 1990. “Estimación de Máxima Probabilidad de Modelos Cointegrados
Simultáneos." Universidad de Aarhus. Mimeo.
1992. "Canonical Cointegrando Regresiones”. Econométrica.60:119-43.and Masao Ogaki. 1991.
" Inferencia en Modelos Cointegrados UsandoVAR Prewhi Estimación de la dinámica de Shortrun
". de Rochester. Mimeo. Phillips, Peter C. B. 1990. "
Regresión espectral para Cointegrada Series de tiempo en” William Barnett, James Powell, and
George Tauchen, eds., Métodos no paramétricos y semiparamétricos en economía y estadística.
Nueva York: Cambridge UniversityPress.
1991a. " Inferencia Óptima en Sistemas Cointegrados." Econométrica 59:283-306.
1991b "Componentes no identificados en la regresión de rango reducido “
E(ut) = 0 [21.1.2]
2
E(utur) = { 𝜕 𝑝𝑎𝑟𝑎 𝑡 = 𝜏 [20.1.3]
0 𝑑𝑒 𝑜𝑡𝑟𝑎 𝑚𝑎𝑛𝑒𝑟𝑎
El proceso es covarianza-estacionario siempre que las raíces de
Mientras que la media condicional de y, cambia con el tiempo según [21.1.4], siempre que el
proceso sea covarianza-estacionaria, la media incondicional de y, es constante:
A veces nos interesa predecir no sólo el nivel de la serie Yt , sino también su varianza. Por ejemplo,
la figura 21.1 representa la tasa de los fondos federales, que es una tasa de interés aplicada a los
préstamos overnight de un banco a otro. Esta tasa de interés ha sido mucho más volátil en algunos
momentos que en otros. Los cambios en la varianza son muy importantes para comprender los
mercados financieros, ya que los inversionistas requieren retornos esperados más altos como
compensación por poseer activos más riesgosos. Una variación que cambia con el tiempo también
tiene implicaciones para la validez y eficacia de la inferencia estadística sobre los parámetros (c , Ø1 ,
Ø2 , …Øp) que describen la dinámica del nivel de Yt .
Aunque [21.1.3] implica que la varianza incondicional de ut es la constante s2, la varianza
condicional de ut podría cambiar con el tiempo. Un enfoque consiste en describir el cuadrado de 𝑢𝑡
como sí mismo siguiendo un proceso de AR (m):
2 2
𝑢𝑡2 = 𝜉 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 2
+ ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 + 𝑤𝑡 [21.1.5]
Puesto que 𝑢𝑡 es el error en pronosticar 𝑦𝑡 , la expresión [21.1.5] implica que la proyección lineal del
error cuadrado de una predicción de 𝑦𝑡 sobre los errores de pronóstico cuadrados anteriores m está
dada por
2 2 2 2
É(𝑢𝑡2 |𝑢𝑡−1 , 𝑢𝑡−2 , … ) = 𝜉 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 2
+ ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 [21.1.6]
Puesto que 𝑢𝑡 es aleatorio y 𝑢𝑡2 no puede ser negativo, esto puede ser una representación
sensible sólo si [21.1.6] es positivo y [21.1.5] es no negativo para todas las realizaciones de {𝑢𝑡 }.
Esto puede garantizarse si 𝑤𝑡 está limitado por debajo de – 𝜉con 𝜉 > 0 y si 𝛼𝑗 ≥ 0 para 𝑗 =
1,2, … , 𝑚. Para que 𝑢𝑡2 sea covarianza-estacionario, también requiere que las raíces están fuera del
círculo de la unidad. Si los 𝛼𝑗 son todos no negativos, esto es equivalente al requisito de que
𝛼1 + α2 + … + αm < 1. [21.1.7]
para j = 1, 2, . . . , s donde
2
𝑢̂𝜏|𝑡 = 𝑢𝜏2 𝑓𝑜𝑟 𝜏 ≤ 𝑡.
2
El pronóstico lineal del periodo s adelantado 𝑢̂𝑡−𝑠|𝑡 converge en probabilidad a σ2 como s →∞,
asumiendo que wt tiene una varianza finita que [21.1.7] es satisfecha.
A menudo es conveniente utilizar una representación alternativa para proceso ARCH(m) que
impone suposiciones ligeramente más fuertes sobre la dependencia serial de wt.
ut = √ℎ ∙ vt [21.1.9]
E(v t ) = 0 E(vt2 ) = 1.
si h, evoluciona según
2 2 2
ht = ζ + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 + ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 [21.1.10]
Por lo tanto, si u, es generada por [21.1.9] y [21.1.10], entonces ut sigue un proceso ARCH (m) en
el que la proyección lineal [21.1.6] también es la expectativa condicional.
ℎ𝑡 ∙ 𝑣𝑡2 = ℎ𝑡 + 𝑤𝑡 .
1 Bollerslev, Chou y Kroner (1992) proporcionaron un buen estudio de los modelos relacionados con ARCH,
𝐸(𝑤t2 ) = 𝜆2 [21.1.13]
Tomando la especificación ARCH (1) como ilustración, encontramos con una pequeña
manipulación de las fórmulas para la media y varianza de un proceso AR (1) que
2
E(h2t ) = E(ζ + 𝛼1 𝑢𝑡−1 )2
= E{(𝛼12 ∙ 𝑢𝑡−1
4 ) 2 )
+ (2α1 ζ ∙ 𝑢𝑡−1 + ζ2 }
= 𝛼12 ∙ [𝑉𝑎𝑟(𝑢𝑡−1
2 )
+ [E(u2t )]2 ] + 2α1 ζ ∙ E(u2t−1 ) + ζ2 [21.1.15]
𝜆2 𝜉2 2α1 ζ2
= 𝛼12 ∙[ + ]+ + ζ2
1 − 𝛼12 (1 − 𝛼1 )2 1 − 𝛼1
𝛼12 𝜆2 𝜉2
= +
1 − 𝛼12 (1 − 𝛼1 )2
Incluso cuando |α1| < 1, la ecuación [21.1.16] puede no tener ninguna selección real para λ. For
por ejemplo, si v t ~ N(0, 1), luego E(vt2 – l)2 = 2 y [21.1.16] requiere que
(1 − 3𝛼12 )𝜆2 2𝜉 2
=
1 − 𝛼12 (1 − 𝛼1 )2
1
Esta ecuacion no tiene solucion real para λ cuando 𝛼12 ≥ 3 . asi, si u t ~ ARCH(1) con las
innovaciones v t en [21.1.9] Procedente de una distribución gaussiana, entonces el segundo
1
momento de wt (o el cuarto momento de ut) no existe a menos que 𝛼12 < .
3
Supongamos que nos interesa estimar los parámetros de un modelo de regresión con
perturbaciones ARCH. Sea la ecuación de regresión.
𝑦𝑡 = 𝑥𝑡1 𝛽 + 𝑢𝑡 [21.1.17]
donde
′ ′
ℎ𝑡 = 𝜉 + 𝛼1 (𝑦𝑡−1 − 𝑥𝑡−1 𝛽)2 + 𝛼2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽)2 + ⋯
′
+ 𝛼𝑚 (𝑦𝑡−𝑚 − 𝑥𝑡−𝑚 𝛽)2 [21.1.19]
= [𝑧𝑡 (𝛽)]′𝛿
para
𝛿 ≡ (𝜉, 𝛼1 , 𝛼2 , … 𝛼𝑚 )′
′
[𝑧𝑡 (𝛽)]′ 𝛿 ≡ [1, (𝑦𝑡−1 − 𝑥𝑡−1 ′
𝛽)2 , (𝑦𝑡−2 − 𝑥𝑡−2 𝛽)2 , … , (𝑦𝑡−𝑚 − 𝑥𝑡−𝑚
′
𝛽)2 ].
Recolectar los parámetros desconocidos para ser estimados en un (α × 1) vector θ:
𝜃 ≡ (𝛽 ′ , 𝛿′)′
La probabilidad de logaritmo de la muestra condicional en las primeras m observaciones es
entonces:
𝜏
∇ℒ(θ) = ∑ st (θ),
t=1
El mismo enfoque básico puede utilizarse con distribuciones no gaussianas. Por ejemplo, Bollerslev
(1987) propuso que vt en [21.1.9] podría extraerse de una distribución t con v grados de libertad,
donde v es considerado como un parámetro que se estima por máxima verosimilitud. Si u, tiene una
distribución t con v grados de libertad y el parámetro de escala Mt, entonces su densidad viene dada
por
−(𝑣+1)/2
Γ[(𝑣+1)/2] −1/2 𝑢2
f(ut ) = (𝜋𝑣)1/2 Γ(𝑣/2)
𝑀𝑡 [1 + 𝑀 𝑡𝑣] [21.1.22]
𝑡
donde Γ(∙) Es la función gamma descrita en la discusión siguiendo la ecuación [12.1.18]. If v > 2,
luego v, tiene cero medio y varianza2
Mt = ht(v – 2)/v,
2
Ver el ejemplo, DeGroot (1970, p. 42).
Esta densidad puede utilizarse en lugar de la especificación gaussiana [21.1.18], junto con la misma
especificación de la media condicional y la varianza condicional utilizada en [21.1.17] y [21.1.19]. La
probabilidad de log de muestra condicionada a las primeras reservas de m obtiene entonces
𝜏
donde
′ ′
ℎ𝑡 = 𝜉 + 𝛼1 (𝑦𝑡−1 − 𝑥𝑡−1 𝛽)2 + 𝛼2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽)2 + ⋯ + 𝛼𝑚 (𝑦𝑡−𝑚 − 𝑥𝑡−𝑚
′
𝛽)2
= [𝑧𝑡 (𝛽)]′𝛿
La probabilidad de logaritmos [21.1.24] Se maximiza numéricamente con respecto a v, β, y δ sujeto
a la restricción v > 2.
El mismo enfoque se puede utilizar con otras distribuciones para vt. Otras distribuciones que se
han empleado con modelos relacionados con ARCH incluyen una distribución de la mezcla
Normal-Poisson (Jorion, 1988), distribución exponencial del poder (Baillie y Bollerslev, 1989),
mezcla normal-log normal (Hsieh, 1989), generalizada ex (Nelson, 1991), y la mezcla en serie de las
variables Normals (Cai, next) o t (Hamilton y Susmel, próximamente).
Sin embargo, los errores estándar deben ajustarse. Dejar 𝜃̂𝑇 [21.1.20], y sea θ el valor verdadero que
caracteriza a las representaciones lineales [21.1.9], [21.1.17] y [21.1.19]. Entonces, incluso cuando vt
Es en realidad no gaussiana, bajo ciertas condiciones de regularidad
𝐿
√𝑇(𝜃̂𝑇 − 𝜃) → 𝑁(0, 𝐷 −1 𝑆𝐷 −1 ),
donde
donde
donde 𝑠𝑡 (𝜃̂𝑇 ) indica el vector dado en [21.1.21] evaluado en 𝜃̂𝑇 . De forma similar, la matriz D
puede ser estimada consistentemente por
𝑚
𝑇
∑ − 2𝛼̂𝑗 𝑢̂𝑡−𝑗 𝑥𝑡−𝑗
̂𝑇 = 𝑇 −1 ∑ [1(2ℎ̂𝑡2 ) ]
𝐷 𝑗=1
𝑡=1
{ [ 𝑧𝑡 (𝛽̂ ) ]
𝑇
𝑥 𝑥′ 0
× [∑ − 2𝛼̂𝑗 𝑢̂𝑡−𝑗 𝑥′𝑡−𝑗 [𝑧𝑡 (𝛽̂ )]′] + (1/ℎ̂𝑡 ) [ 𝑡 𝑡 ]}
0 0
𝑗=1
Errores estándar para 𝜃̂𝑇 que son robustos a la especificación errónea de la familia de densidades
pueden obtenerse así a partir de la raíz cuadrada de elementos diagonales de
̂ 𝑇̅ −1 𝑆̂𝑇 𝐷
𝑇 −1 𝐷 ̂ 𝑇̅ −1
Recuérdese que si el modelo está correctamente especificado para que los datos fueran realmente
generados por un modelo gaussiano, entonces S = D, y esto se simplifica a la matriz de varianza
asintótica habitual para la estimación de máxima verosimilitud.
𝑬[(𝒖𝟐𝒕 − 𝒉𝒕 )𝒛𝒕 ] = 𝟎.
Como lo señalan Bates y White (1988), Mark (1988), Ferson (1989), Simon (1989), o Rich,
Raymond y Butler (1991), esto significa que los parámetros de un modelo ARCH podrían ser
estimados por generalizados Método de los momentos3, eligiendo θ = (β', δ')' para minimizar
donde
𝑇
−1
𝑇 ∑(𝒚𝒕 − 𝒙′𝒕 𝜷)𝒙𝒕
𝑗=1
𝑔(𝜃; 𝔉 𝑇 ) = 𝑇
Los errores estándar de la matriz 𝑆̂𝑇 para parametros estimados, Y las pruebas del
modelo pueden ser construidos utilizando los métodos descritos en el Capítulo 14. Cualquier otra
variable que se creía no estar correlacionada con u, o con (𝑢𝑡2 − ℎ𝑡 ) Podrían utilizarse como
instrumentos adicionales
Pruebas de ARCH
Afortunadamente, es sencillo probar si los residuos u, de un modelo de regresión exhiben
heteroscedasticidad variable en el tiempo sin tener que estimar realmente los parámetros ARCH.
Engle (1982, p.1000) derivó la siguiente prueba basada en el principal multiplicador de Lagrange.
En primer lugar, la regresión de [21.1.17] es estimada por OLS para las observaciones t = -m + 1, -
m + 2, . . . , T Y los residuos de la Muestra OLS 𝑢̂𝑡 se salvaron. Siguiente, 𝑢̂𝑡2 Se regula en una
constante y m de sus propios valores rezagados :
2 2
𝑢̂𝑡2 = 𝜁 + 𝛼1 𝑢̂𝑡−1 + 𝛼2 𝑢̂𝑡−2 2
+ ⋯ + 𝛼𝑚 𝑢̂𝑡−𝑚 [21.1.26]
Recordando que el ARCH(m) la especificación puede considerarse AR(m) proceso para u j , otro
enfoque desarrollado por Bollerslev (1988) es usar el Box-Jenkins métodos descritos en la sección
4.8 para analizar las autocorrelaciones u j . otras pruebas para ARCH se describen en Bollerslev,
Chou, and Kroner (1992, p. 8).
3
Como se señala en la sección 14.4, la estimación de la máxima verosimilitud puede considerarse como una estimación
por GMM en la que la condición de ortogonalidad es que la puntuación esperada es cero.
𝑢𝑡 = √ht ∙ vt ,
donde v, is i.i.d. con media cero y desviación unitaria donde h, evolves according to
2 2 2
ht = 𝜁 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 + ⋯ + 𝛼𝑚 𝑢𝑡−𝑚
Más generalmente, podemos imaginar un proceso para el cual la varianza condicional es un
número infinito de rezagos de
ht = 𝜁 + 𝜋(𝐿)𝑢𝑡2 , [21,2,1]
donde
𝑥
𝜋(𝐿) = ∑ 𝜋𝑗 𝐿𝑗 .
𝑗=1
Una idea natural es parametrizarla π(L) como la relación de dos polinomios de orden finito:
𝛼(𝐿) 𝛼1 𝐿1 + 𝛼2 𝐿2 + ⋯ + 𝛼𝑚 𝐿𝑚
𝜋(𝐿) = = [21.2.1]
1 − 𝛿(𝐿) 1 − 𝛿1 𝐿1 − 𝛿2 𝐿2 − ⋯ − 𝛿𝑚 𝐿𝑟
Donde 1 – δ(z) = 0 arco fuera del círculo unitario. Si [21.2.1] se multiplica por 1 – 𝛿(𝐿), el
resultado es
o
2 2 2
ht = 𝑘 + 𝛿1 ℎ𝑡−1 + 𝛿2 ℎ𝑡−2 + ⋯ + 𝛿𝑟 ℎ𝑡−𝑟 [21.2.3]
La primera suposición de las expresiones [21.2.2] y [21.2.3] podría ser eso δ(L) Describe los
términos “autoregresivos” de la varianza mientras α(L) captura los términos del “promedio móvil”.
Sin embargo este no es el caso. La manera más fácil de saber el porqué es agregar u2t a ambos lados
de [21.2.3] y reescribir la expresión resultante como:
2 2
ht + 𝑢𝑡2 = 𝑘 − 𝛿1 (𝑢𝑡−1 − ℎ𝑡−1 ) − 𝛿2 (𝑢𝑡−2 − ℎ𝑡−2 ) − ⋯
2 2 2
− 𝛿𝑟 (𝑢𝑡−𝑟 − ℎ𝑡−𝑟 ) + 𝛿1 𝑢𝑡−1 + 𝛿2 𝑢𝑡−2 +⋯
2 2 2
+ 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 + ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 + 𝑢𝑡2
o
2 2
𝑢𝑡2 = 𝑘 + (𝛿1 + 𝛼1 )𝑢𝑡−1 + (𝛿2 + 𝛼1 )𝑢𝑡−2 + … [21.2.4]
Donde w t ≡ u2𝑡 – h, y p ≡ max{m, r}. Hemos definido δj ≡ 0 for j > r y αj ≡ 0 for j > m. Darse
cuenta de h t es el pronóstico de u2𝑡 basado en sus propios valores rezagados y w t ≡ u2𝑡 – h, es el
error asociado con esta previsión. Así, w t es un proceso de ruido blanco que es fundamental para
u2𝑡 . Expresión [21.2.4] será reconocido como un ARMA(p, r) proceso para u2𝑡 en el que la jth
coeficiente autoregresivo es la suma de δj plus αj mientras que la jth el coeficiente medio móvil es el
negativo de δj. If u t es descrito por un GARCH(r, m) proceso, entoncesu2𝑡 sigue un ARMA(p, r)
proceso, donde p es el más grande de r y m.
Están fuera del círculo de la unidad. Dada la restricción de no negatividad, esto significa que u2𝑡 es
covarianza – estacionaria si
Nelson y Cao (1992) observe que las condiciones αj ≥ 0 y δj ≥ 0 son suficientes pero no son
necesarios para garantizar la no h t . Por ejemplo, para GARCHK(1, 2) proceso, El n(L) operador
implicado por [21.2.2] es dado por
El pronóstico de u2𝑡+𝑠 basado en u2𝑡 , u2𝑡−1 , …, denotado û2𝑡−𝑠|𝑡 , …, Puede calcularse como en
[4.2.45] iterando en
2 2
{+ ⋯ + (𝛿𝑝 + 𝛼𝑝 )(û𝑡−𝑠−𝑝𝑡 − 𝜎 ) for s = r + 1, r + 2, …
̂𝜏 = û2𝜏 − û2𝜏|𝜏−1
𝑤 𝑓𝑜𝑟 𝜏 = 𝑡, 𝑡 − 1, … , 𝑡 − 𝑟 + 1.
Ver Baillie y Bollerslev (1992) Para una mayor discusión de los pronósticos y errores cuadrados
para GARCH procesos.
donde
𝜏
2 −1
𝜎̂ = 𝑇 ∑(𝑦𝑡 − 𝑥𝑡′ 𝛽)2 .
𝑡=1
La secuencia {ℎ𝑡 }𝑇𝑡−1 puede utilizarse para evaluar la probabilidad de registro a partir de la
expression dada en [21.1.20], Esto se puede maximizar numéricamente con respecto a β y en los
parámetrosk, δ1, …, δr , α1,…,αm del GARCH proceso; para detalles, más información sobre
Bollerslev (1986).
GARCH integrado
Suponer que 𝑢𝑡 = √ℎ ∙ 𝑣𝑡 donde v, es i.i.d. con media cero y desviación unitaria y donde h t
obedece el GARCH(r, m) especificación
Vimos en [21.2.4] que esto implica un ARMA proceso de u2t donde el jth coeficiente autoregresivo
esta dado por (δ j + α j ). Este proceso Arma para u2t tendría una raiz unitaria si
𝑟 𝑚
∑ δj + ∑ αj [21.2.5]
𝑗=1 𝑗=1
Engel y Bollerslev (1986) referido a un modelo que satisface [21.2.5] como un GARCH proceso,
denotado IGARCH.
Si u, sigue una IGARCH proceso, entonces la varianza incondicional de ut es infinita, así que
ninguno u t ni u2t satisface la definición de una función de covarianza estacionaria. Sin embargo,
todavía es posible u t vienen de un proceso estrictamente estacionario en el sentido de que la
densidad incondicional u t es el mismo para todos t; ver referencia Nelson (1990).
r t = μt + ut
Entonces, la teoría sugiere que el rendimiento medio (μt) estaría relacionada con la varianza del
rendimiento (h t ). En general, el ARCH-in-mean, o ARCH-M, modelo de regresión introducido
por Engel, Lilien, and Robins (1987) es caracterizado por
𝑢𝑡 = √ℎ𝑡 ∙ 𝑣𝑡
2 2 2
ℎ𝑡 = 𝜁 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 + ⋯ + 𝛼𝑚 𝑢𝑡−𝑚
para v t i.i.d. con media cero y varianza unitaria. El efecto que una mayor variabilidad percibida ut
tiene el nivel de y t es capturado por el parámetro δ.
Exponencial GARCH
Como antes, dejamos 𝑢1 = √ℎ1 . 𝑣1 donde v, es i.i.d Con media cero y varianza unitaria. Neison
(1991) propuso el siguiente modelo para la evolución de la varianza condicional de 𝑢1 :
El parámetro N permite que este efecto sea asimétrico. Es N=0, luego una sorpresa positiva
(𝑣𝑖−1 > 0)) Tiene el mismo efecto sobre la volatilidad que una sorpresa negativa de la misma
magnitud. If – 1 < N < 0, Una sorpresa positiva reduce realmente la volatilidad mientras que una
sorpresa negativa aumenta la volatilidad. Una serie de investigadores han encontrado evidencia de
asimetría en el comportamiento de precios de las acciones - las sorpresas negativas parecen
aumentar la volatilidad más que las sorpresas positivas.4 Dado que un menor precio de las acciones
reduce el valor de las acciones en relación con la deuda corporativa, una fuerte caída en el precio de
las acciones reduce el valor o la equidad en relación con la deuda corporativa, una fuerte
disminución de los precios de las acciones aumenta el apalancamiento corporativo y podría
aumentar el riesgo de mantener las acciones. Por esta razón, el hallazgo aparente de que N <0 se
describe a veces como el efecto de apalancamiento.
Una de las principales ventajas de la especificación de Nelson es que desde (21.2.6) se describe el
log de h1, la varianza misma (h1) Será positivo independientemente de si los coeficientes 𝜋𝑖 son
positivos. Por lo tanto, en contraste con el modelo GARCH, no se deben imponer restricciones
(21.2.6) para la estimación. Este fabricante de optimización numérica más simple y permite una
clase más flexible de posibles modelos dinámicos para la varianza. Nelson (1991, p. 351) mostro
que (21.2.6) implica que log h1, h2, y u1 son estrictamente estacionarios siempre que ∑∝ 2
𝑗−1 𝜋𝑗 < ∞.
Una parametrización natural es modelar 𝜋(𝐿) como la relación de dos polinomios de orden finito
como en la especificación GARCH (r, m):
4
Véase Pagan y Schwert (1990), Engle y Ng. (1991 (y los estudios citados en Bollerslev, Chow y Kroner (1992, p.24).
𝜆. 21/𝑣 Γ(2/𝑣)
𝐸|𝑣1 | =
Γ(1/𝑣)
Para el caso Normal estándar (v=2), Esto se convierte
𝐸|𝑣1 | = √2/𝜋
Como una ilustración de cómo este modelo podría ser utilizado, considere el análisis de Nelson de
los datos de retorno de stock. Para 𝑟𝑖 la rentabilidad diaria de las acciones menos la tasa de interés
diaria de las letras del Tesoro, Nelson estimó un modelo de regresión del formulario
𝑟1 = 𝑎 + ℎ𝑟𝑡−1 + 𝛿ℎ1 + 𝜇1
El residuo u1 es modelado como √ℎ𝑖 . 𝑣𝑖 , donde vi es I.i.d: con densidad (21.2.8) y donde hi
evoluciona según
Nelson permite 𝜁𝑖 , la media incondicional del log hi, para ser una function de tiempo:
𝜉𝑡 = 𝜉 + log(1 + 𝑝𝑁)
Donde Nt denota el número de días no comerciales entre las fechas t-1 y t y 𝜁 y son parámetros a
estimar por máxima verosimilitud. La probabilidad de log de muestra es entonces
ℎ1 = 𝑘 + 𝛿1 ℎ𝑡−1 + 𝛼1𝑢𝑡−1
2 . 𝐼𝑡−1 [21.2.10]
Una variedad de otras formas funcionales no lineales, ht para {𝑢𝑡−1 , 𝑢𝑡−2 ,… } ha sido propuesto.
Geweke (1986), Pantula (1986), y Mithj (1987) sugirió una especificación en la que el log de ht
Depende linealmente de los registros anteriores de los residuos retorcidos. Higgins y Bera (1992)
propusieron una transformación de poder de la forma
2 ).𝛿 2 ).𝛿
ℎ𝑡= ⌊𝜁 𝛿 + 𝛼1 (𝑢𝑡−1 + 𝛼2 (𝑢𝑡−2 2
+ ⋯ + 𝛼𝑚 (𝑢𝑡−𝑚 ).𝛿 ⌋.1/8
Con ζ > 0, > 0, y ∝𝑖 ≥ 0 para I = 1, 2, …, m. Gourieroux y Monfort (1992) utilizó una cadena de
Markov para modelar la varianza condicional como una función gradual general de las realizaciones
pasadas.
𝑌𝑡 = 𝜋 . 𝑋𝑟 + 𝑈𝑡
Donde x, es un vector de variables explicativas y ut es un vector de ruido blanco residual. Sea H, la
matriz de varianza condicional condicional (n x n) de los residuos:
Otro enfoque popular introducido por Bollerslev (1990) supone que las correlaciones condicionales
(𝑡)
entre los elementos de ut son constantes en el tiempo. Dejar ℎ𝑖𝑡 denotar la fila i, columna i
(𝑡)
elemento de H1. Luego, ℎ𝑗𝑡 representa la varianza condicional del elemento ith de ut:
(𝑡) 2
ℎ1𝑡 = 𝐸 (𝑢𝑖𝑡 |𝑌𝐼−1 , 𝑌𝐼−2 ,…, 𝑋𝐼 , 𝑋𝐼−1 ,…,)
Podemos postular n tales especificaciones GARCH (i=1, 2, …., n), uno para cada elemento de ut. la
covarianza condicional entre 𝑢𝑖𝑡 y 𝑢𝑗𝑡 , o la fila I, columna j elemento de Hi, es tomado para ser una
correlacion constante 𝜌𝑡𝑗 las desviaciones estándar condicionales de 𝑢𝑖𝑡 and 𝑢𝑗𝑡 :
La estimación de máxima verosimilitud de esta especificación resulta ser bastante manejable: véase
Bollrslev (1990) para más detalles.
Otros modelos multivariados incluyen una formulación para vech (Ht) propuesta por Bollerslev,
Engle y Wooldridge (1988) y el factor ARCH de Dieboid y Nerlove (1989) y Engle, Ng y
Rothschild (1990).
Estimaciones no paramétricas
Pagan y Hong (1990) exploraron una estimación no paramétrica de kernet del valor esperado de 𝑢𝑡2 .
La estimación se basa en un valor medio de esas 𝑢𝑡2 . Cuyos valores precedentes de
n𝑢𝑟−1 , 𝑢𝑟−2 , … . , 𝑢𝑟−𝑚 están “cerca” de los valores que precedieron a 𝑢𝑡2 :
𝑡
ℎ𝑡 = ∑ 𝑤𝑡 (𝑡). 𝑢𝑡2
𝑟=1
Los pesos {𝑤𝑟 (𝑡)}𝑇𝑖=1,− ∝1 Son un conjunto de números (T - 1) que suman a unidad. Si los valores
de 𝑢𝑟−1 , 𝑢𝑟−2 , … . , 𝑢𝑟−𝑚 que es precedido ut, luego 𝑢𝑡2 Se considera que proporciona información
útil sobre ℎ𝑡 = (𝐸𝑢𝑡2 |𝑢𝑟−1 , 𝑢𝑟−2 , … . , 𝑢𝑟−𝑚 ). En este caso, el peso wt(t) debe ser largo. Si Los
valores que la precedieron son muy diferentes de los que precedieron 𝑢𝑟 , el 𝑢𝑡2 Se ve como dando
poca información sobre ht y entonces w-(t) es pequeño. Una especificación popular para el peso w-
(t) es utilizar un núcleo Gauwssian:
La dificultad clave para construir esta estimación es elegir el parámetro de ancho de banda 𝜆𝑗 . Un
enfoque se conoce como validación cruzada. Para ilustrar este enfoque, suponga que el mismo
ancho de banda se selecciona para cada retraso (𝜆𝑗 = 𝜆 para j = 1, 2, …., m). Entonces, la
estimación no paramétrica de ht es implicidad una función del parámetro de ancho de banda
impuesto y, en consecuencia, podría denominarse ht(𝜆). Podemos entonces elegir λ para minimizar
∑[𝑢𝑡2 − ℎ𝑡 (𝜆)].2
𝑡=1
Estimaciones semiparamètricas
Otros enfoques para describir la varianza condicional de 𝑢𝑡 incluyen expansiones de series
generales para la función ℎ𝑡 = ℎ(𝑢𝑡−1 , 𝑢𝑡−2 , … . ) Como en Pagan y Schwert (1990, p. 278) o para
la densidad 𝑓(𝑣1 )como en Gallant y Tauchen (1989) y Gallant, Hsieh y Tauchen (1989). Engle y
González-Rivera (1991) combinaron una especificación paramétrica para ℎ𝑡 con una estimación no
paramétrica de la densidad de 𝑢1 en (21, 1, 9).
Otro enfoque consiste en calcular varias pruebas de especificación del modelo ajustado. Las
pruebas pueden construirse a partir del principio multiplicador de Lagrange como en Engle. Lilien y
Robins (1987) o Higgins y Bera (1992), en pruebas momentáneas y análisis de valores atípicos como
en Nelson (1991), o en la igualdad de matriz de información como en Bera y Zuo (1991). Bollerslev
y Wooldridge (1992) desarrollaron diagnósticos robustos relacionados. Otros diagnósticos se
ilustran en Hsieh (1989). Engle y Ng (1991) sugirieron algunas pruebas particularmente sencillas de
la forma funcional de ht relacionadas con las pruebas de multiplicador de Lagrange, de las cuales
concluyeron que la especificación de EGARCH de Nelson o la modificación de GARCH de
Gloger, Jagannathan y Runkle0 describe mejor (21.2.10) La asimetría en la volatilidad condicional
de los rendimientos bursátiles japoneses.
Engle y Mustafa (1992) propusieron otro enfoque para evaluar la utilidad de una especificación
dada de la varianza condicional de los precios observados para las opciones de seguridad. Estos
instrumentos financieros dan a un inversionista el derecho a comprar o vender el valor en algún
momento en el futuro a un precio acordado hoy. El valor de tal opción aumenta con la variabilidad
percibida de la seguridad. Si el término para el cual se aplica la opción es suficientemente corto para
que los precios de las acciones puedan ser aproximados por un movimiento browniano con una
varianza constante, una fórmula bien conocida desarrollada por Black y Scholes (1973) relaciona el
precio de los precios de las opciones La percepción implícita del mercado de ht, que puede
compararse con la especificación implicada por un modelo de serie temporal dado. Los resultados
de tales comparaciones son bastante favorables a las especificaciones sencillas de GARCH y
EGARCH. Los estudios de Day y Lewis (1992) y Lamoureux y Lastrapes (1993) sugieren que los
modelos GARCH (1, 1) o EGARCH (1, 1) pueden mejorar la evaluación implícita del mercado de
ht. Engle, Hong, Kane y Noh (1991) y West, Edison y Cho (1993) proporcionaron evidencia
relacionada con la formulación de GARCH (1.1).
Pero
𝜕(𝑦𝑡 −𝑥𝑡 𝛽).2 −2𝑥𝑡 𝑢𝑡
=| | [21.A.2]
𝜕𝜃 0
y
𝜕ℎ𝑡 𝜕(𝜉 + ∑𝑚 2
𝑗=1 𝛼𝑗 𝑢𝑡−𝑗
=
𝜕𝜃 𝜕𝜃
𝑚 𝑚
𝜕𝜉 2 2
= + ∑(𝜕𝛼1 𝐼𝜕𝜃). 𝑢𝑡−𝑗 + ∑ 𝛼𝑗 . (𝜕𝑢𝑡−𝑗 𝐼𝜕𝜃) [21. 𝐴. 3]
𝜕𝜃
𝑗=1 𝑖=1
0 0 0 −2𝑢𝑡−𝑗 𝑥𝑡−𝑗
1 0 0 0
0 2
𝑢𝑡−1 0 𝑚
0
= . + . + ⋯+ . + ∑ 𝛼𝑗 .
. . . 𝑗=1 .
. . . .
[0] [ 0 ] 2
[𝑢𝑡−𝑚 ] [ 0 ]
𝑚
De la expresión (21.A.2)
Capítulo 21 Referencias
Baillie, Richard T y Tim Bollerslev. 1989. El mensaje en los tipos de cambio diarios; Un cuento de
variación condicional. “Journal of business and economic statistics” 7; 297-305 -y-1992. "predicción
en modelos dinámicos con variaciones condicionales dependientes del tiempo". Revista de
econometría 52; 91-113.
Bates, Charles, and Halbert White, 1988. “efficient instrumental variables estimation of systems of
implicit heterogeneous nonlinear dynamic equations with nonspherical errors,” in William A.
Barnett, Ernst R. Berndt, and Halbert White,eds.,dynamic econometric modeling. Cambridge,
England: Cambridge university press.
22.1. Introducción
Muchas variables experimentan episodios en que el comportamiento de la serie parece cambiar muy
drásticamente. Un ejemplo notable es proporcionado por la Figura 22.1, tomada del estudio de
Roger (1992) quien llevo a cabo el estudio del volumen de las cuentas en dólares en los bancos
mexicanos. El gobierno mexicano adoptó diversas medidas en 1982 para tratar de desalentar el uso
de dichas cuentas, y los efectos son bastante dramáticos en una parte de la serie.
Pausas dramáticas similares se verán si uno siguiera casi cualquier serie de tiempo macro-
económica o financiera para un período suficientemente largo. Tales cambios aparentes en el
proceso de series de tiempo pueden ser resultado de acontecimientos tales como guerras, los
pánicos financieros, o cambios significativos en las políticas gubernamentales.
¿Cómo deberíamos modelar un cambio en el proceso seguido por una determinada serie de
tiempo? Para los datos representados en la Figura 22.1, una idea simple podría ser que, el término
constante para la autorregresión cambiada en 1982. Para los datos anteriores a 1982 podríamos
utilizar un modelo como
𝑦𝑡 − µ1 = ф(𝑦𝑡−1 − µ1 ) + ℰ𝑡 ∗ [22.1.1]
mientras que los datos después de 1982 pueden ser descritos por
𝑦𝑡 − µ2 = ф(𝑦𝑡−1 − µ2 ) + ℰ𝑡 ∗ [22.1.2]
donde µ2 < µ1.
La especificación en (22,1,1) y (22,1,2) parece una descripción plausible de los datos en la Figura
22.1, pero no es del todo satisfactoria como un modelo de serie temporal. Por ejemplo,
¿Cómo vamos a pronosticar una serie que se describe por (22,1,1) y (22,1,2)? Si el proceso ha
cambiado en el pasado, es evidente que también podría cambiar de nuevo en el futuro, y esta
perspectiva debe tenerse en cuenta en la formación de un pronóstico. Por otra parte, el cambio en
el régimen de seguridad no debe ser considerado como el resultado perfectamente previsible, de un
evento determinista. Más bien, el cambio de régimen es en sí mismo una variable aleatoria. Por
tanto, un modelo de series de tiempo completo incluiría una descripción de la ley de probabilidades
que rige el cambio de µ1 a µ2.
Estas observaciones sugieren que podríamos considerar el proceso para ser influenciado por una
variable aleatoria no observada St , que se llama el estado o régimen en el que el proceso se encontraba
en la fecha t. Si St = 1, entonces el proceso se encuentra en régimen de 1, mientras que St = 2
significa que el proceso se encuentra en régimen 2. Ecuaciones (22,1,1) y (22.1.2) pueden entonces
escribirse equivalente como
𝑦𝑡 − µ𝑠𝑡∗ = ф(𝑦𝑡−1 − µ𝑠𝑡−1
∗ ) + ℰ𝑡 ∗ [22.1.3]
Figura 22.1: Logaritmo de la relación (división) del valor en pesos de cuentas bancarias denomina-
das en dólares y cuentas bancarias denominadas en pesos en México, mensual, 1978-85 (Rogers,
1992)
Entonces, necesitamos una descripción del proceso de series de tiempo para la variable no
observada St∗. Desde que St∗ toma sólo valores discretos (en este caso, St∗ es 1 ó 2), este será un
modelo de series de tiempo ligeramente diferente de los de las variables aleatorias considerando que
poseen valores continuos en otra parte de este libro.
El modelo de series de tiempo más simple de una variable aleatoria de valores discretos es una
cadena de Markov. La teoría de las cadenas de Markov se revisa en la Sección 22.2. En la Sección
22.4 de esta teoría se combinará con un modelo convencional de series de tiempo tal como un
autoregresivo que es asumido para caracterizar cualquier régimen dado.
Antes de hacerlo, sin embargo, será útil considerar un caso especial de tales procesos, a saber, que
para los que
φ = 0 en (22,1,3) y St son valorados como variables aleatorias discretas i.i.d. Tal especificación
describe, como una simple mezcla de diferentes distribuciones, la teoría estadística para el que se
revisa en la Sección 22.3.
Dejemos que St sea una variable aleatoria que puede asumir solamente un valor entero
{1, 2,…, N}. Supongamos que la probabilidad de que St iguale un particular valor j depende
solamente del pasado más reciente de St−1:
0 699
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡−1 = 𝑖, 𝑠𝑡−1 = 𝑘, . . . } = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡−1 = 𝑖} = 𝑝𝑖𝑗 . [22.2.1]
Tal proceso se describe como una cadena de Markov de N-estados con probabilidades de
transición {pij}i,j=1,2,··· ,N . La probabilidad de transición pij da la probabilidad de que el estado i
será seguido por el estado ij. Tenga en cuenta que
Esto es a menudo conveniente para recoger las probabilidades de transición en una matriz
Donde
La expresión [22.2.6] tiene la forma de un vector autorregresivo de primer orden para el ℰ𝑡 ; tenga
en cuenta que [22.2.7] implica que la innovación vt, es una secuencia en diferencias martingala.
Aunque el vector vt puede tomar sólo un conjunto finito de valores, en promedio
vt, es cero. Por otra parte, el valor de vt, es imposible de predecir sobre la base de los estados
anteriores del proceso.
De nuevo, desde el jth elemento de g, será la unidad si sf = j y cero en caso contrario, el elemento
del JTH (N x 1) Vector 𝐸(ℰ𝑡+𝑚 |ℰ𝑡 , ℰ𝑡−1 , … )indica la probabilidad que tiene el valor
de j, condicional sobre el estado del sistema en la fecha t. Por ejemplo, si el proceso está
en estado i en la fecha t y, a continuación, [22.2.9] afirma que
P{St+m = 1|St = i}
P{St+m = 2|St = i}
[ ] = P m . ei , [22.2.10].
⋮
P{St+m = N|St = i}
Donde e indica la columna de ITH. Expresión [22.2.10] indica que la m-P por sí m veces.
Concretamente, la probabilidad de que un obseri será seguida m períodos posteriores por un
régimen de observación desde J, P{está dada por la fila j, la 𝑠𝑡+𝑚 = 𝑗|𝑠𝑡 = 𝑖}, columna i de los
elementos de la matriz 𝑷𝒎 .
p11 1 − p22
P=[ ] [22.2.11].
1 − p11 p22
Supongamos que 𝑝11 = 1, por lo que la matriz P es triangular superior. Entonces, una vez
que el proceso entra en estado 1, no hay ninguna posibilidad de regresar alguna vez a estado
2. En tal caso, diríamos que el estado 1 es un estado absorbente y que la cadena de
Markov es reducible.
De forma triangular, también lo es para cualquier m. Por lo tanto, una vez que un proceso de
ese tipo entra en un estado 𝑷𝒎 tales que j<K, no hay ninguna posibilidad de regresar alguna
vez a uno de los miembros de 𝐾 + 1, 𝐾 + 2, … , 𝑁.
P'i= 1. [22.2.12].
Donde 1 indica una (N x 1) vector de es. Expresión [22.2.12] implica que la unidad es un
eigenvalue de la matriz P' y que 1 es el asociado eigenvector, desde una matriz y su
transposición comparten los mismos valores propios, se deduce que la unidad es una matriz
de transición eigenvalue P para cualquier cadena de Markov.
𝑷𝜋 = 𝜋. [22.2.13].
El eigenvector 𝜋 se normaliza para que sus elementos suma a la unidad (1'w = 1).
Ella puede demostrarse que si P es la matriz de transición para una cadena de Markov
ergódica, entonces
Establecemos [22.2.14] Aquí para el caso cuando todos los vectores propios
de P son distintos: un argumento relacionado sobre la base de la descomposición que Jordania
es válido para las cadenas ergódica con repetidas eigenvalues es desarrollado en Cox y Miller
(1965, págs. 120-23). Para el caso de distintos valores propios. Sabemos desde [A.4.24] que
P siempre puede ser escrito en el formulario
P = TAT-1, [22.2.15].
𝑷𝒎 = 𝑇𝐴𝑚 𝑇 −1 . [22.2.16].
𝒙=𝜋 [22.2.18].
El autovector de P" asociado con la unidad, la cual autovector fue visto sea proporcional al
vector 1 en [22.2.12]:
𝒚=𝛼⋅1 [22.2.19].
Para comprobar [22.2.19], nota de [22.2.15] que la matriz de vectores propios de la matriz T
P es caracterizado.
Para verificar [22.2.19], note de [22.2.15] que la matriz de vectores propios T de la matriz P se
caracteriza por
PT = TA [22.2.20].
Trasponiendo los resultados de [22.2.15] en
𝑃′ = (𝑇 −1 )′𝐴𝑇′𝑌
y postmultiplicando por rendimientos
𝑃′ (𝑇 −1 )′ = (𝑇 −1 )´𝐴 [22.2.21].
Comparando [22.2.21] con [22.2.20] confirma que las columnas de (T-1)" corresponden
a vectores propios de P'. En particular, entonces, la primera columna de (T-1)' es
proporcional a la autovector de P' asociada con la unidad, la cual autovector autovalor
fue visto para ser dada por I en la ecuación [22.2.12]. Desde y se definió como la primera
columna de (T-1)", esto establece la afirmación hecha en la ecuación [22.2.19].
lim 𝑃𝑚 = 𝜋 ⋅ 𝛼1´
𝑛→∞
Resultado [22.2.14] implica que el pronóstico a largo plazo para una cadena de Markov
ergódica es independiente de la situación actual, ya que a partir de [22.2.9]
𝑃
𝐸(ℰ𝑡+𝑚 |ℰ𝑡 , ℰ𝑡−1 , … ) = 𝑃𝑚 ℰ𝑡 → 𝜋 ∙ 1′ℰ𝑡 = 𝜋,
El vector de probabilidades ergódica también pueden ser vistos como una indicación de
la probabilidad de la ONU de cada uno de los N estados diferentes. Para ver esto,
supongamos que habíamos utilizado el símbolo 𝜋𝑗 para indicar la probabilidad
incondicional 𝑠𝑡 = j p{}. Entonces el vector 𝜋 ≡ (𝜋1 , 𝜋2 , . . . , 𝜋𝑁 )′podría ser descrito
como la expectativa incondicional de ℰ𝑡 :
𝜋 = ᴇ(ℰ𝑡 ) [22.2.22]
ᴇ(ℰ𝑡+1 ) = 𝑃 · ᴇ(ℰ𝑡 )
𝑝 −𝜆 1 − 𝑝22
0 = | 11 |
1 − 𝑝11 𝑝22 − 𝜆
= (λ − 1) (λ + 1 − p11 − p22).
Por lo tanto, los valores propios de una cadena de dos estados están dadas por λ1 = 1 y λ2 = −1 +
p11 + p22. El segundo valor propio, λ2, estará en el interior del círculo unidad, siempre y cuando 0
< p11 + p22 < 2. Vimos antes que esta cadena es irreducible, siempre y cuando p11 < 1 y p22 < 1.
Por lo tanto, una cadena de Markov de dos estados es ergódica, siempre que p11 < 1, p22 < 1 y
p11 + p22 > 0.
El vector propio asociado con λ1 para la cadena de dos estados resulta ser
(se invita al lector a confirmar esto y las reivindicaciones que siguen en el Ejercicio 22.1). Por lo
tanto, la probabilidad incondicional de que el proceso estará en el régimen 1 en cualquier fecha está
dada por
(1 − 𝑝22 )
P{𝑠𝑡 = 1}
(2 − 𝑝11 − 𝑝22 )
−1
[ ]
1
Por lo tanto, a partir de [22.2.16], la matriz de probabilidades de transición m-periodos para una
cadena de Markov de dos estados ergódicos está dada por
1 − 𝑝22
−1 1 1
𝑚 2 − 𝑝11 − 𝑝22 1 0 −(1 − 𝑝11 ) 1 − 𝑝22 ]
𝑃 = [ ] [
1 − 𝑝11 0 𝜆𝑚 2
1 2 − 𝑝11 − 𝑝22 2 − 𝑝11 − 𝑝22
[2 − 𝑝11 − 𝑝22 ]
(1 − 𝑝22 ) + 𝜆𝑚 2 (1 − 𝑝11 ) (1 − 𝑝22 ) + 𝜆𝑚 2 (1 − 𝑝22 )
2 − 𝑝11 − 𝑝22 2 − 𝑝11 − 𝑝22
𝑃𝑚 =
(1 − 𝑝11 ) + 𝜆𝑚 2 (1 − 𝑝11 ) (1 − 𝑝11 ) + 𝜆𝑚 2 (1 − 𝑝22 )
[ 2 − 𝑝11 − 𝑝22 2 − 𝑝11 − 𝑝22 ]
Así, por ejemplo, si el proceso se encuentra actualmente en el estado 1, la probabilidad de que m-
períodos más tarde estará en el estado 2 está dada por
Una cadena de Markov de dos estados también puede ser representada por un proceso
simple AR(1) escalar, como sigue. Dejamos a 𝜉1𝑡 denotar el primer elemento del vector𝜉𝑡 ; es
decir 𝜉1𝑡 , es una variable aleatoria que es igual a la unidad cuando st = 1 e igual a cero en caso
contrario. Para la cadena de dos estados, el Segundo de 𝜉𝑡 , es entonces 1 − 𝜉1𝑡 . Por lo tanto,
[22.2.6] puede ser escrito como
La expresión [22.2.23] puede ser reorganizada como un proceso AR(1) con término constante
𝐼 −𝑃
𝐴
⏟ =[𝑁 ].
(𝑁+1)𝑥𝑁
1´
𝜋 = (𝐴´𝐴)−1 𝐴´𝑒𝑁+1 .
0 1
P=[ ].
1 0
Los valores propios de esta matriz de transición son 𝜆1 = 1 y 𝜆2 = −1, de los cuales ambos están
en el círculo unitario. Por lo tanto, la matriz P𝑚 no converge a ningún límite fijo de la forma π ∙ 1´
para este caso. En cambio, si el proceso se encuentra en estado 1 en la fecha t, entonces es seguro
que estará allí de nuevo para los instantes t + 2, t + 4, t + 6, . . . , sin tendencia a converger como
m → ∞. Tal cadena de Markov se dice que es periódica con periodo 2.
En general, es posible mostrar que para cualquier cadena de Markov irreducible de N -estados,
todos los valores propios de la matriz de transición estarán dentro del círculo unitario. Si hay
valores propios K estrictamente en el círculo unidad con K > 1, a continuación, la cadena se dice
que es periódica con periodo K. Estas cadenas tienen la propiedad de que los estados se pueden
clasificar en K clases distintas, de manera que si el Estado en la fecha t es de clase α, entonces el
estado en la fecha t + 1 es seguro que será de la clase α + 1 (donde la clase α + 1 para α = K se
interpreta para ser de clase 1). Por lo tanto, hay una probabilidad cero de volver al estado original st,
y la probabilidad, de hecho cero, de volver a cualquier miembro de la clase original α, excepto en
Dejemos que el régimen de un determinado proceso se encuentre en la fecha t sean inexados por
una variable aleatoria no observada 𝑠𝑡 , donde hay N posible regimens (𝑠𝑡 = 1,2, … , 𝑜𝑟 𝑁). Cuando
el proceso se encuentra en regimen 1, la variable observada 𝑦𝑡 , se presume que ha sido elaborada a
partir de una distribución PN(𝜇1 , 𝜎1 2 ), etcétera. Por lo tanto, la densidad de 𝑦𝑡 condicionada a la
variable st al azar, tomando el valor j es
2
1 −(𝑦𝑡 −𝜇𝑗 )
P𝑓(𝑦𝑡 |𝑠𝑡 = 𝑗, 𝜃) = 𝑒𝑥𝑝 { 2𝜎 2 } [22.3.1]
√2𝜋𝜎𝑗 𝑗
El régimen no observado {𝑠𝑡 } se presume que ha sido generado por alguna distribución de
probabilidad, para los que la probabilidad incondicional que st adquiere en el valor j se denota 𝜋𝐽 :
θ ≡ (𝜇1 , … , 𝜇𝑁 , 𝜎 21 , … , 𝜎 2 𝑁 , 𝜋1 , … , 𝜋𝑁 )´.
Recordemos que para cualquiera de los eventos A y B, la probabilidad condicional de A dado B se
define como
𝑃{𝐴 𝑦 𝐵}
P{𝐴|𝐵} = ,
𝑃{𝐵}
suponiendo que la probabilidad de que el evento B se produzca no es cero. Esta expresión implica
que la probabilidad conjunta de A y B ocurran juntos se puede calcular como
Por ejemplo, si estábamos interesados en la probabilidad del evento conjunto tal que 𝑠𝑡 = 𝑗 𝑦 𝑦𝑡
cae dentro de cierto intervalo [𝑐, 𝑑], esto podria ser encontrada mediante mediante la interrogación
0 707
2
𝜋𝑗 −(𝑦𝑡 −𝜇𝑗 )
p(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃) = 𝑒𝑥𝑝 { }. [22.3.4]
√2𝜋𝜎𝑗 2𝜎𝑗 2
La densidad incondicional de yt se puede encontrar sumando [22.3,4] para todos los valores
posibles para j:
𝑁
−(𝑦𝑡 − 𝜇1 )2
𝜋1
𝑓(𝑦𝑡 ; 𝜃) = ∑ 𝑝(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃) = 𝑒𝑥𝑝 { }
√2𝜋𝜎1 2𝜎1 2
𝑗=1
𝜋2 −(𝑦𝑡 − 𝜇2 )2
+ 𝑒𝑥𝑝 { } +∙∙∙
√2𝜋𝜎2 2𝜎2 2
𝜋𝑁 −(𝑦𝑡 −𝜇𝑁 )2
+ 𝑒𝑥𝑝 { 2𝜎𝑁 2
}∙ [22.3.5]
√2𝜋𝜎𝑁
Funciones de la forma de [22.3.5] puede ser utilizadas para representar una amplia clase de
diferentes densidades. Figura 22.2 proporciona un ejemplo para N = 2. La distribución de densidad
conjunta 𝑝(𝑦𝑡 , 𝑠𝑡 = 1; 𝜃) es 𝜋1 veces una densidad 𝑁(𝜇1 , 𝜎1 2 ), cuando 𝑝(𝑦𝑡 , 𝑠𝑡 = 2; 𝜃) es 𝜋2
veces una densidad 𝑁(𝜇2 , 𝜎2 2 ). La densidad incondicional para la variable observada 𝑓(𝑦𝑡 ; 𝜃) es la
suma de estas dos magnitudes.
Figura 1.2: Densidad de la mezcla de dos distribuciones gausianas con 𝑦𝑡 |𝑠𝑡 = 1~𝑁(0,1), 𝑦𝑡 |𝑠𝑡 =
2~𝑁(0,1), 𝑦𝑡 |𝑠𝑡 = 2~𝑁(4,1) 𝑦 𝑃{𝑠𝑡 = 1} = 0.8.
𝑃(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃) 𝜋𝑗 𝑓(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃)
𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} = = [22.3.7]
𝑓(𝑦𝑡 ; 𝜃) 𝑓(𝑦𝑡 ; 𝜃)
Dado el conocimiento de los parámetros de la población θ, sería posible utilizar (22,3,1) y (22,3,5)
para calcular la magnitud en (22,3,7) para cada observación yt en la muestra. Este número
representa la probabilidad, dados los datos observados, que el régimen no observado responsable
de la observación t sea régimen j. Por ejemplo, para la mezcla representada en la Figura 22.2, si una
observación yt era igual a cero, uno podría estar prácticamente seguro que la observación había
venido de una distribución N (0, 1) en lugar de una distribución N (4, 1), de modo que P {st =
1|yt; θ} para esa fecha podría estar cerca de la unidad. Si en lugar de yt eran alrededor de 2.3, es
igualmente probable que la observación podría haber venido de cualquier régimen, de manera que P
{st = 1|yt; θ} para una observación estaría cerca de 0.5.
Este algoritmo resulta ser un caso especial del principio EM desarrollado por
Dempster, Laird, y Rubin (1977). Se puede demostrar que cada iteración en este algoritmo
aumenta el valor de la función de probabilidad. Es evidente que si las iteraciones llegaron a un
punto tal que 𝜃 (𝑚) = 𝜃 (𝑚+1) , el algoritmo ha encontrado la estimación de máxima
verosimilitud 𝜃̂.
Discusión adicional
La densidad conjunta [22.3.5] tiene la propiedad de que no existe un máximo global del riesgo de
registro [22.3.6]. Surge una singularidad siempre que sea una de las distribuciones se imputa a tener
una media exactamente igual a una de las observaciones (𝜇1 = 𝑦1 digamos) sin varianza (𝜎1 2 → 0).
A tal punto la probabilidad de registro se hace infinita.
Otro enfoque es el de maximizar una función objetivo ligeramente diferente tal como
𝑁 𝑁
𝑎𝑗
𝑄(𝜃) = ʆ(𝜃) − ∑ ( ) 𝑙𝑜𝑔(𝜎𝑗 2 ) − ∑ 𝑏𝑗 /(2𝜎𝑗 2 )
2
𝑗=1 𝑗=1
𝑁
2
− ∑ 𝑐𝑗 (𝑚𝑗 − 𝜇𝑗 ) /(2𝜎𝑗 2 ),
𝑗=1
[22.3.11]
Donde ʆ(𝜃) es la función de verosimilitud de registro se describe en [22.3.6]. Si 𝑎𝑗 /𝑐𝑗 , entonces
[22.3.11] es la forma que la probabilidad log tomaría si, además de los datos, el analista tuviese 𝑎𝑗
observaciones del régimen j cuya media de la muestra fue mj y bj/aj representa la expectativa
previa del analista del valor de 𝜎𝑗 2 . Los parámetros 𝑎𝑗 o 𝑐𝑗 observaciones directas de los datos
conocidos por haber venido del régimen j. Ver Hamilton (1991) para continuar el debate de este
enfoque.
Encuestas de distribuciones conjuntas i.i.d. han sido proporcionados por Everitt y Hand (1981) y
Titterington, Smith y Markov (1985).
¿Por qué una cadena de Markov podría ser una descripción útil del proceso de generar cam- bios en
el régimen? La primera idea podría ser que un cambio de régimen como en Figura 22.1 es un
evento permanente. Tal cambio de régimen permanente puede ser modelado con una cadena de
Markov de dos Estados en los que el estado 2 es un absorbente. La ventaja de utilizar una cadena
de Markov sobre una especificación determinista para dicho proceso es que permite ge- nerar
pronósticos significativos antes del cambio que tengan en cuenta la posibilidad del cambio de
régimen de 1 a 2.
Podríamos también querer un modelo de series de tiempo de cambios en el régimen para tomar en
cuenta eventos de breve duración inusuales como la II guerra mundial. Una vez más, es posible
elegir los parámetros para una cadena de Markov dado 100 años de datos, es muy probable que
observemos un solo episodio de duración del régimen 2 durante 5 años. Una es- pecificación de la
cadena de Markov, por supuesto, implica que dado otros 100 años podríamos ver bien otro tal
evento. Uno podría argumentar que se trata de una propiedad razonable para construirla en un
modelo. La esencia del método científico es la presunción de que el futuro será en algún sentido
como el pasado.
0 711
Mientras que la cadena de Markov puede describir tales ejemplos del régimen de cambios, otra
ventaja es su flexibilidad. Parece un valor especificando una ley de probabilidad consistente con una
amplia gama de resultados diferentes, y elegir parámetros concretos dentro de esa clase en base solo
a los datos.
Para el ejemplo de [22.4.1], 𝑦𝑡 es un escalar (𝑛 = 1), las variables exógenas consisten solo de un
término constante 𝑥𝑡 = 1, y los parámetros desconocidos en 𝛼 compuesto de 𝑐1 , … , 𝑐𝑁 , 𝜙1 , … , 𝜙𝑁 ,
y 𝜎 2 . Con 𝑁 = 2, regímenes las dos densidades representadas por [22.4.2], son
1 −(𝑦𝑡 − 𝑐1 − 𝜙1 𝑦𝑡−1 )2
𝑒𝑥𝑝 { }
𝑓(𝑦𝑡 |𝑠𝑡 = 1, 𝑦𝑡−1 ; 𝛼) √2𝜋𝜎 2𝜎 2
𝑛𝑡 = [ ]= .
𝑓(𝑦𝑡 |𝑠𝑡 = 2, 𝑦𝑡−1 ; 𝛼) 1 −(𝑦𝑡 − 𝑐2 − 𝜙2 𝑦𝑡−1 )2
𝑒𝑥𝑝 { }
[√2𝜋𝜎 2𝜎 2 ]
En [22.4.2] se asume que la densidad condicional depende solamente del actual régimen st y no de
los regímenes anteriores:
𝑠𝑡 = 1 𝑠𝑖 𝑠 ∗𝑡 = 1 𝑦 𝑠 ∗𝑡−1 = 1
𝑠𝑡 = 2 𝑠𝑖 𝑠 ∗𝑡 = 2 𝑦 𝑠 ∗𝑡−1 = 1
𝑠𝑡 = 3 𝑠𝑖 𝑠 ∗𝑡 = 1 𝑦 𝑠 ∗𝑡−1 = 2
𝑠𝑡 = 4 𝑠𝑖 𝑠 ∗𝑡 = 2 𝑦 𝑠 ∗𝑡−1 = 2
Si 𝑝 ∗𝑡𝑗 denota 𝑃{𝑠 ∗𝑡 = 𝑗|𝑠 ∗𝑡−1 = 𝑖}, entonces 𝑠𝑡 sigue una cadena de Markov de cuatro estados
con matriz de transición
𝑝 ∗11 0 𝑝 ∗11 0
𝑝 ∗12 0
𝑃 = [𝑝 ∗12 0
0 𝑝 ∗21 0 𝑝 ∗21 ]
0 𝑝 ∗22 0 𝑝 ∗22
1 −(𝑦𝑡 − µ1 )−𝜙(𝑦𝑡−1 − µ1 )2
𝑓(𝑦𝑡 |𝑦𝑡−1 , 𝑠𝑡 = 1; 𝛼) = 𝑒𝑥𝑝 { }
√2𝜋𝜎 2𝜎 2
1 −(𝑦𝑡 − µ2 )−𝜙(𝑦𝑡−1 − µ1 )2
𝑓(𝑦𝑡 |𝑦𝑡−1 , 𝑠𝑡 = 2; 𝛼) = 𝑒𝑥𝑝 { }
√2𝜋𝜎 2𝜎 2
1 −(𝑦𝑡 − µ3 )−𝜙(𝑦𝑡−1 − µ2 )2
𝑓(𝑦𝑡 |𝑦𝑡−1 , 𝑠𝑡 = 3; 𝛼) = 𝑒𝑥𝑝 { }
√2𝜋𝜎 2𝜎 2
1 −(𝑦𝑡 − µ4 )−𝜙(𝑦𝑡−1 − µ2 )2
𝑓(𝑦𝑡 |𝑦𝑡−1 , 𝑠𝑡 = 4; 𝛼) = 𝑒𝑥𝑝 { }
√2𝜋𝜎 2𝜎 2
Se asume que st evoluciona según una cadena de Markov siendo independiente de las obser-
vaciones anteriores de 𝑦𝑡 o actuales o pasadas de 𝑥𝑡 :
Dejar 𝑃{𝑠𝑡 = 𝑗|𝑌𝑡 ; 𝜃} denotan la inferencia del analista sobre el valor de 𝑠𝑡 en base a datos
obtenidos a través de los t datos y basada en el conocimiento de la parámetros poblacionales 𝜃.
Esta inferencia toma la forma de una probabilidad condicional que el analista asigna a la posi-
bilidad de que la tth observación fue generada por el régimen j. Recopilar estas probabilidades
condicionales 𝑃{𝑠𝑡 = 𝑗|𝑌𝑡 ; 𝜃} para 𝑗 = 1,2, … , 𝑁 en un vector de (𝑁×1) denotado ξ̂𝑡|𝑡 .
También se podría imaginar formando las previsiones de la probabilidad de que el proceso va a ser
en régimen j en period 𝑡 + 1 dadas las observaciones obtenidas hasta la fecha t. Recoger estas
previsiones en un vector (𝑁×1) dado ξ̂𝑡+1|𝑡 , que es un vector cuyo j elemento representa
𝑃{𝑠𝑡+1 = 𝑗|𝑌𝑡 ; 𝜃}.
La inferencia óptima y la previsión para cada fecha t en la muestra pueden encontrarse iterando
sobre el siguiente par de ecuaciones:
Donde
Por lo tanto, el jth elemento de b_t|t−1 también podría ser descrito como
𝑃 {𝑠𝑡 = 𝑗|𝑥𝑡, 𝑌𝑡−1 ; 𝜃}. El jth elemento de nt es 𝑓(𝑦𝑡|𝑠𝑡 = 𝑗, 𝑥𝑡 , 𝑌𝑡−1 ; 𝜃). El jth elemento de el
vector (N ×1) 𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡 es el producto de estas dos magnitudes, cada producto puede ser
interpretado como la distribución de densidad condicional conjunta de 𝑦𝑡 y 𝑠𝑡 :
𝑃 {𝑠𝑡 = 𝑗| 𝑌𝑡 ; 𝜃}
Por lo tanto de [22.4.8],
𝑝(𝑦𝑡 ,𝑠𝑡 = 𝑗| 𝑥𝑡, 𝑌𝑡−1 ; 𝜃)
𝑃 {𝑠𝑡 = 𝑗|𝑥𝑡, 𝑌𝑡−1 ; 𝜃} = [22.4.10]
1′ (𝜉̂𝑡|𝑡−1 ⊙𝑛𝑡 )
𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡
𝜉̂𝑡|𝑡 = ,
1′ (𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡 )
Note que vt+1 es una ecuación diferencial Martingale con respecto a Yt, para [22.4.11] se convierte
en
Iniciando el algoritmo
Dado un valor inicial 𝜉̂1|0 se puede utilizar [22.4.5] y [22.4.6] para calcular 𝜉̂𝑡|𝑡 para cualquier t. Hay
varias opciones disponibles para elegir el valor inicial. Un enfoque consiste en establecer 𝜉̂1|0 igual
al vector de probabilidades incondicionales 𝜋 descrito en la ecuación [22.2.26]. Otra opción es
establecer
𝜉̂𝑡|0 = 𝑝, [22.4.12]
𝜉̂𝑡+𝑚|𝑡 , = 𝑃𝑚 . 𝜉̂𝑡|𝑡 ,
Inferencias suavizadas se pueden calcular utilizando un algoritmo desarrollado por Kim (1993). En
forma vectorial, este algoritmo se puede escribir como
donde el signo (÷) denota la división elemento por elemento. Las probabilidades suavizadas 𝜉̂𝑡|𝑇 se
encuentran iterando [22.4.14] hacia atrás para 𝑡 = 𝑇 − 1, 𝑇 − 2, … ,1. Esta iteración se inicia con
𝜉̂𝑇|𝑇 que se obtiene a partir de [22.4.5] para 𝑡 = 𝑇.Este algoritmo sólo es válido cuando st, sigue
una cadena de Markov de primer orden en [22.4.4], cuando la densidad condicional [22.4.2]
depende de 𝑠𝑡 , 𝑠𝑡−1 , … sólo a través del estado actual de 𝑠𝑡 , y cuando 𝑥𝑡 , el vector de variables
explicativas con excepción de los valores rezagados de y, es estrictamente exógeno, lo que significa
que xt es independiente de 𝑠𝑡 para todo 𝑡 𝑦 𝑇. La base para el algoritmo de Kim se explica en el
Apéndice 22.A al final del capítulo.
Hay N diferentes pronósticos asociado con los N posibles valores para 𝑠𝑡+1 . Tenga en cuenta que
el pronóstico incondicional basado en variables observables reales se relaciona con estos
pronósticos condicionales por
𝐸(𝑦𝑡+1 |𝑥𝑡+1 = 𝑗, 𝑌𝑡 ; 𝜃)
= ∫ 𝑦𝑡+1 {∑𝑁
𝑗=1 𝑝(𝑦𝑡+1 , 𝑠𝑡+1 = 𝑗|𝑥𝑡+1 , 𝑌𝑡 ; 𝜃)𝑑𝑦𝑡+1
= ∫ 𝑦𝑡+1 {∑𝑁
𝑗=1[𝑓(𝑦𝑡+1 |𝑠𝑡+1 = 𝑗|𝑥𝑡+1 , 𝑌𝑡 ; 𝜃)𝑃{𝑠𝑡+1 = 𝑗|𝑥𝑡+1 , 𝑌; 𝜃}]}𝑑𝑦𝑡+1
= ∑𝑁
𝑗=1 𝑃{𝑠𝑡+1 = 𝑗|𝑥𝑡+1 𝑌𝑡 ; 𝜃} ∫ 𝑦𝑡+1 . 𝑓(𝑦𝑡+1 |𝑠𝑡+1 = 𝑗, 𝑥𝑡+1 , 𝑌𝑡 ; 𝜃) 𝑑𝑦𝑡+1
= ∑𝑁
𝑗=1 𝑃{𝑠𝑡+1 = 𝑗|𝑌𝑡 ; 𝜃} 𝐸(𝑦𝑡+1 |𝑠𝑡+1 = 𝑗, 𝑥𝑡+1 , 𝑌𝑡 ; 𝜃).
Así, la Predicción apropiada para el j-ésimo régimen es simplemente multiplicar por la probabilidad
de que el proceso será en el régimen j-ésimo, y los 𝑁 diferentes productos resultantes se suman. Por
ejemplo, si el 𝑗 = 1,2, … , 𝑁 predice en [22.4.15] son recogidos en un vector h0t de (1×𝑁), luego
Tenga en cuenta que aunque la propia cadena de Markov admite la representación lineal [22.2.6], el
pronóstico óptimo de 𝑦𝑡+1 es una función no lineal observable, desde la inferencia 𝜉̂𝑡|𝑡 en [22.4.5]
depende no linealmente de 𝑌𝑡 . Aunque se puede utilizar un modelo lineal para formar predicciones
dentro de un régimen dado, si una observación parece poco probable que han sido generados por el
mismo régimen que las observaciones anteriores, la aparición del valor extremo hace que el analista
para cambiar a una nueva regla para la formación de futuros pronósticos lineales.
Si las probabilidades de transición están restringidas sólo por las condiciones que 𝜌𝑖𝑗 ≥ 0 y
(𝜌𝑖1 + 𝜌𝑖2 + ⋯ + 𝜌𝑖𝑁 ) = 1 para todo i y j, y si la probabilidad inicial 𝜉̂1|0 se toma como un valor
fijo de 𝜌 no relacionado con los otros parámetros, a continuación, se muestra en Hamilton (1990)
que satisfacen a las estimaciones de máxima verosimilitud para las probabilidades de transición.
∑𝑇 ̂
𝑡=2 𝑃{𝑠𝑡 =𝑗,𝑠𝑡−1 =𝑖|𝑌𝑇 ,𝜃}
𝜌̂𝑖𝑗 = 𝑇 ̂
∑𝑡=2 𝑃{𝑠𝑡−1 =𝑖|𝑌𝑇 ,𝜃}
, [22.4.16]
donde 𝜃 denota el vector completo de las estimaciones de máxima verosimilitud. Por lo tanto, la
probabilidad de transición estimada 𝜌̂𝑖𝑗 es esencialmente el número de veces de estado i parece
haber sido seguido por el estado j dividido por el número de veces que el proceso fue en el estado i.
Estos conteos se calculan sobre la base de las probabilidades suavizadas.
𝜌̂ = 𝜉̂1|𝑇 . [22.4.17]
La estimación de máxima verosimilitud del vector α que gobierna la densidad condicional [22.4.2] se
caracteriza por
𝜕𝑙𝑜𝑔𝑛𝑡 ′
∑𝑇𝑡=1( ) 𝜉̂𝑡|𝑇 =0 [22.4.18]
𝜕𝛼 ′
𝑦𝑡 = 𝑧𝑡′ 𝛽𝑠𝑡 + 𝜀𝑡 ,
donde 𝜀𝑡 i.i.d.N(0, 𝜎 2 ) y donde zt es un vector de variables explicativas que podría incluir valores
rezagados de y. El El vector de coeficientes de esta regresión es 𝛽1 cuando el proceso es un
régimen 1, 𝛽2 cuando el proceso es un régimen 2,etc.
1 −(𝑦𝑡 − 𝑧𝑡′ 𝛽1 )2
exp{
√2𝜋𝜎 2𝜎 2
𝑛𝑡 = ⋮
1 −(𝑦𝑡 − 𝑧𝑡′ 𝛽𝑁 )2
exp{
[√2𝜋𝜎 2𝜎 2 ]
y para α= (𝛽1′ , 𝛽2′ ,..., 𝛽3′ , 𝜎 2 )′ la condición [22.4.18] se convierte en
∑𝑁 ′ ̂ 2 ̂
𝑗=1(𝑦𝑡 − 𝑧𝑡 𝛽𝑡 ) 𝑧𝑡 . 𝑃{𝑠𝑡 = 𝑗|𝑌𝑇 , 𝜃 } = 0 𝑝𝑎𝑟𝑎 𝑗 = 1, 2, … 𝑁 [22.4.20]
donde
1
La estimación de σ2 en [22.4.21] es sólo veces la suma combinada de los residuos al cuadrado de
𝑇
estos N diferentes regresiones.
Una vez más, esto sugiere un algoritmo atractivo para encontrar estimaciones de máxima
verosimilitud. Para el caso cuando 𝑝 se fija apriori, dada una estimación inicial para el vector de
parámetros 𝜃 (0) uno puede evaluar [22.4.16], [22.4.22] y [22.4.21] para generar una nueva
estimación 𝜃 (1) . Uno entonces itera de la misma manera que se describen en las ecuaciones [22.3.8]
a través de [22.3.10] para calcular 𝜃 (2) , 𝜃 (3),… Esto convierte de nuevo a ser una aplicación del
algoritmo EM. Alternativamente, si 𝑝 es estimado por máxima verosimilitud, la ecuación [22.4.17] se
sumaría a las ecuaciones que se vuelven a evaluar en cada iteración. Ver Hamilton (1990) para obtener más
información.
con εt ∼ i.i.d.N (0, 𝜎 2 ) y con 𝑠 ∗𝑡 presume que seguir una cadena de Markov de dos estados con
probabilidades de transición p∗ij . Estimaciones de máxima verosimilitud de los parámetros se
presentan en la Tabla 22.1. En el régimen representado por 𝑠 ∗𝑡 = 1 la tasa de crecimiento
promedio es de 𝜇1 = 1,2 por trimestre, mientras que cuando 𝑠 ∗𝑡 = 2 la tasa de crecimiento
promedio es de 𝜇2 = −0,4%. Cada Régimen es muy persistente. La probabilidad de que la
expansión será seguido de otro trimestre de expansión es 𝑝 ∗11 = 0,9, por lo que este régimen se
mantendrá en promedio para 1/(1 − 𝑝 ∗11 ) = 10 trimestres. La probabilidad de que una
contracción será seguido por contracción es 𝑝 ∗22 = 0,75, episodios que típicamente persistir
durante 1/(1 − 𝑝 ∗22 ) = 4 trimestres.
(b) Tasa trimestral de crecimiento del PBI real de Estados Unidos, 1952-1984.
Escrito en orden [22.4.24] en una forma donde yt depende solo del valor actual de un
régimen, una variable st se definió que se lleva en uno de los 32 valores diferentes que representan a
los 32 posibles combinaciones para 𝑠 ∗𝑡 , 𝑠 ∗𝑡−1 , … , 𝑠 ∗𝑡−4 , Por ejemplo, 𝑠𝑡 = 1 cuando
𝑠 ∗𝑡 , 𝑠 ∗𝑡−1 , … , 𝑠 ∗𝑡−4 todos igual a 1, etc. El vector ξ̂𝑡|𝑡 calculado desde [22.4.5] es pues, un vector
(32 × 1) que contiene las probabilidades de cada uno de estos 32 eventos conjuntos condicionales
en los datos observados a través de la fecha t.
La inferencia acerca del valor de 𝑠 ∗𝑡 para una fecha única t se obtiene sumando juntos las
probabilidades conjuntas pertinentes. Por ejemplo, la inferencia
Una inferencia probabilística en forma de [22.4.25] puede ser calculada por cada fecha t en la
muestra. La serie resultante se representa como una función de t en el panel (a) de la figura 22.4.
Las líneas verticales en la figura indican las fechas en las recesiones estaban decididos a comenzar y
terminar de acuerdo a la Oficina Nacional de Investigación Económica.Estas determinaciones se
realizan de manera informal sobre la base de un gran número de series de tiempo y por lo general se
hacen un poco de tiempo después del evento. Aunque estas fechas del ciclo económico no se
utilizaron en forma alguna para estimar parámetros o forma de inferencias acerca de s∗t, es
interesante que las fechas tradicionales del ciclo económico se corresponden muy de cerca a las
fases de expansión y contracción según lo descrito por el modelo en [22.04.24].
Y la derivada respecto de 𝜃 igual a cero. De [22.3.6], la derivada de log verosimilitud viene dada por
𝑇
𝜕𝐿(𝜃) 1 𝜕𝑓(𝑦𝑡 ; 𝜃)
=∑ ×
𝜕𝜃 𝑓(𝑦𝑡 ; 𝜃) 𝜕𝜃
𝑖=1
[22.A.2]
observe de [22.3.5] que
2
𝜕𝑓(𝑦𝑡 ; 𝜃) 1 −(𝑦𝑡 − 𝜇𝑗 )
= 𝑒𝑥𝑝 { }
𝜕𝜋𝑗 √2𝜋𝜎𝑗 2𝜎 2𝑗
𝜕𝑓(𝑦𝑡 ; 𝜃) 𝑦𝑡 − 𝜇𝑡
= ×𝑝(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃)
𝜕𝜇𝑗 𝜎 2𝑗
[22.A.4]
Y
2
𝜕𝑓(𝑦𝑡 ; 𝜃) 1 (𝑦𝑡 − 𝜇𝑗 )
2
= {− 𝜎 −2𝑗 + } ×𝑝(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃)
𝜕𝜎 𝑗 2 2𝜎 4𝑗
[22.A.5]
Ajuste de la derivada del lagrangiano en [22.A.1] con respecto a µj igual a cero significa establecer
[22.A.10] igual a cero, de la que
𝑇 𝑇
La ecuación [22.3.8] sigue inmediatamente de esta condición. Del mismo modo, las condiciones de
primer orden para la maximización con respecto a 𝜎𝑗 2 se encuentran ajustando [22.A.11] igual a
cero:
𝜕𝐽(𝜃)
= 𝜋𝐽 −1 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} − 𝜆 = 0,
𝜕𝜋𝑗
de los cuales
𝑇
o
𝑇
∑{1} = 𝜆 ∙ (1),
𝑡=1
Derivación de [22.4.14]. Recordemos primero que bajo los supuestos mantenidos, el régimen st
depende de observaciones pasadas 𝑌𝑡−1 sólo a través del valor de st−1. Similarmente, st depende de
las observaciones futuras sólo a través del valor de 𝑠𝑡+1:
La validez de [22.A.13] se estableció formalmente como sigue (la dependencia implícita en θ será
suprimido para simplificar la notación). Observe que
siempre que
siempre que
𝑝(𝑦𝑡+2 |𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 ) = 𝑓(𝑦𝑡+2 |𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 ) [22.A.19]
Note lo siguiente
donde el vector 𝑃𝑗 𝑡 de (1 × N ) denota la fila j-ésima de la matriz 𝑃´ y el signo (÷) indica la división
elemento por elemento. Cuanto la ecuación representada por [22.A.22] para j = 1, 2, ..., N se
recogen en un vector de (N × 1), el resultado es
como se reivindica.
Capítulo 22 Referencias
Andrews, Donald W.K., y Werner Ploberger. 1992. Pruebas Öptimal cuando una molestia el
Parametro está presente sólo en el marco de la Alternativa.Ÿale Universidad. Mimeografiado.
Cox, D.R., y H.D. Miller. 1965. La Teoría de procesos estocásticos.Londres: Methuen.
Davies, R.B.1977.H¨ ypothesis prueba cuando una molestia parámetro está presente sólo en
el alternativas iometrika.B¨¨64:247-54.
Dempster, A.P.,N.M. Laird, y D.B. Rubin.1977. M¨ áximo probabilidad de
InIncomplete datos mediante el algoritmo EM.¨oficial de la Real Sociedad de Estadística Serie B,
39:1-38.
Diebold, Francis X., Joon-Haeng Lee y Gretchen C. Weinbach. Próxima. R¨egime conmutar
con probabilidades de transición,en Tiempo-Variando C. Hargreaves, ed., Nonstationary análisis de
series de tiempo y de cointegración. Oxford: Oxford University Press.
Durland, J. Michael y Thomas H. McCurdy.1992.M¨ odelling duración la dependencia de datos
cíclicos
Mediante un proceso Semi-Markovrestringido.Q¨ ueen's University, en Kingston, Ontario.
Mimeografiado.
Engel, Charles y James D. Hamilton. 1990. L¨ong vaivenes del dólar: Están en los datos y hacer los
mercados lo saben?Ämerican Economic Review 80:689-713.
Everitt, B. S., y D. J. Mano. 1981. Mezcla finita distribuciones. Londres: Chapman y Hall. Filardo,
Andrew J. 1992. B¨ Ciclo usiness Phasesand su dinámica transitoria.f¨ederal Reserve Bank of
Kansas City. Mimeografiado.
Goodwin, Thomas H. 1993. B¨ usiness análisis del ciclo con un modelo Markov-
Switching.¨oficial de bu-
Siness y estadísticas económicas 11:331-39.
James D. Hamilton, 1989. Ä nuevo enfoque para el análisis económico de Nonstationary y series de
tiempo del ciclo de negocio.Ëconometrica57:357-84.
--.1990. “Analysis en series de tiempo sujeto a cambios de regimen.”
oficial de EconEconometrics
45:39-70.
--.1991. “A Quasi-Bayesian Approachto estimar parámetros para mezclas de NorNormalDistri-
butions.” oficial de negocios y EconomicStatistics 9:27-39.
--.1993a. “Markov-Switching epecificacion de pruebas en modelos de series de tiempo.”
University de California, en San Diego. Mimeografiado.
--.1993b. Estimación, inferencia y predicción de series temporales sujetas a cambios de régimen,m¨
G. S. Maddala, 320 241R. Rao, y H. D. Vinod, eds., Handbook of Statistics, Vol 11. Nueva York:
North-Holland.
--.1993c. State-SpaceModels,ïn Robert Engle y Daniel McFadden, eds., mano-bookn de Econo-
Métricas, vol 4. Nueva York: North-Holland.
Este libro asume alguna familiaridad con elementos trigonométricos, números complejos, cálculos,
álgebra matricial y probabilidad. Instrucciones a los tres primeros temas por Chiang (1974) y
Thomas (1972) son adecuadas: Marsden (1974) trataron estos temas con mayor profundidad. No se
requiere de algebra matricial más allá del nivel de textos de econometría estándar como Theil
(1971) o Johnston (1984); para tratamientos más detallados ver a O” Nan (1976), Strang (1976) y
Magnus y Neudecker (1988).Los conceptos de probabilidad y etadistica de textos de econometría
estándar también son suficientes para obtener este libro; para presentaciones más completas ver
Lindgren (1976) y Hoel “Puerto y piedra” (1971).
Este apéndice revisa los conceptos y resultados matemáticos necesarios. El lector familiarizado con
estos temas está invitado a omitir este material o consultar las subpartidas para la cobertura
deseada.
A.1. Trigonometría
Definición
La figura A.1 muestra un círculo con un radio centrado en el origen (x,y) y espacio.
Denote (xₒ, yₒ) un punto en ese círculo unitario y considere el ángulo entre este punto y el eje
x. El seno de ɵ se define como la coordenada del punto y; y el coseno es la coordenada:
𝑠𝑒𝑛 (ɵ) = 𝑦ₒ [A.1.1]
cos(ɵ) = 𝑥ₒ [A.1.2]
Este texto siempre mide ángulos en radianes. La medida radiana del ángulo 𝜃 se define
como la distancia recorrida en sentido contrario a las agujas del reloj a lo largo del círculo
unitario que comienza en el eje x antes de alcanzar (xₒ, yₒ).
La circunferencia de un círculo con un radio de unidad es 2𝜋. Una rotación de un cuarto
del recorrido alrededor del círculo unitario correspondería, por lo tanto, a una medida de
radian de
1
𝜃 = (2𝜋) = 𝜋/2
4
𝜋
Un ángulo cuya medida de radian es 2 es más comúnmente descrito como un ángulo recto o un
𝜋
ángulo de 90°. Un ángulo de 45° tiene una medida de radian de 4 , un ángulo de 180°tiene una
medida de radian de 𝜋, y así sucesivamente.
C1
(ᵡ₁, ʸ₁)
𝜃
X₀ Y0
Y₁
₀
𝜃 x
c
ᵡ₁
X0
(xₒ, yₒ)La radio de cualquiera de los dos lados de un triángulo menor será la misma que
para el triángulo más grande:
ʸ₁ [A.1.3]
⁄ 1
𝐶 = ʸ˳⁄1
ᵡ₁ [A.1.4]
⁄ 1
𝐶 = ᵡ˳⁄1
Comparando [A.1.3] con [A. 1.1], la coordenada ʸ de cualquier punto tal como (ᵡ₁, ʸ₁)en (𝑥, 𝑦)
espacio puede expresarse como:
Donde C₁ es la distancia desde el origen a (x₁, y₁) y 𝜃 es el ángulo que hace el punto (x₁, y₁) con el
eje x. Comparando [A.1.4] con [A.1.2], la coordenada x de (x₁, y₁) puede expresarse como:
X₁ = c₁. Cos (ɵ) [A.1.6]
Recuerde además que la magnitud c₁, que representa la distancia del origen al punto (x₁, y₁), es
dado por la fórmula:
Tomando un punto en (x, y) y escribiéndole como (c.cos (ɵ), c.sin (ɵ)) se llama describir
el punto en los términos de sus coordenadas polares c y ɵ.
Propiedades de las funciones seno y coseno
Las funciones sen (ɵ) y cos (ɵ) se denominan funciones trigonométricas o sinusoidales. Vista
como una función de ɵ, la función seno comienza en cero:
Sen (ɵ) = 0
La función seno sube a 1 como ɵ aumenta a 𝜋⁄2 y luego vuelve a cero cuando ɵ aumenta más a
𝜋; Véase el panel (a) de la Figura A.2. La función alcanza su valor mínimo de -1 en ɵ= 3𝜋⁄2 y
luego empieza a subir de nuevo.
Si viajamos una distancia de 2π radianes alrededor del círculo unitario, estamos de vuelta donde
empezamos y la función se repite:
La función volvería a repetirse si realizáramos dos revoluciones completas alrededor del círculo
unitario. De hecho para cualquier entero j,
0.5
0 𝜃
-1
-1.5
-2 (a) sen (𝜃 )
1.5
0.5
0 𝜃
-1
-1.5
-2 (b) cos (𝜃 )
La función es así periódica y es por esta razón útil para describir una serie de tiempo que se repite
en un ciclo particular.
La función del coseno sobresale en la unidad y cae a cero cuando 𝜃 aumenta a π / 2; Vea el panel
(b) de la Figura A.2. Resulta que simplemente es un desplazamiento horizontal de la función seno:
𝜋
Cos (𝜃 ) = sen ( 𝜃 + 2 ) [A.1.9]
La función sinusoidal o coseno también se puede evaluar para valores negativos de 𝜃 definidos
como una rotación en sentido horario alrededor del círculo unitario desde el eje ᵡ. Claramente:
Sen (-𝜃 ) = - sen (𝜃 ) [A.1.10]
Cos (-𝜃 ) = cos (𝜃 ) [A.1.11]
0.5
0 𝜃
-1
-1.5
-2
Definiciones
Considere la siguiente expresión:
𝑥2 = 1 [A.2.1]
Hay dos valores de 𝑥 que satisfacen [A.2.1] es decir 𝑥 = 1 y 𝑥 = −1. Supongamos en cambio que
se nos dio la siguiente ecuación:
𝑥 2 = −1 [A.2.2]
Ningún número real satisface [A.2.2]. Sin embargo consideremos un número imaginario
(denotado(𝑖)) que hace:
𝑖 2 = −1 [A.2.3]
Asumimos que (𝑖) puede ser multiplicado por el número real y manipulado usando reglas
estándares del álgebra. Por ejemplo:
2𝑖 + 3𝑖 = 5𝑖
Y
Los números complejos se manipulan usando reglas estándar del álgebra. Dos números
complejos se añaden de la siguiente manera:
(𝑎𝑖 + 𝑏𝑖 𝑖 ) + (𝑎2 + 𝑏2 𝑖 )= (𝑎2+ 𝑎2 ) + (𝑏1 + 𝑏2 ) 𝑖
Numeros complejos:
(𝑎𝑖 + 𝑏𝑖 𝑖 ) ∗ (𝑎2 + 𝑏2 𝑖 )=
Tenga en cuenta que las expresiones resultantes se simplifican siempre separando el componente
real (como [𝑎𝑖 𝑎2 − 𝑏1 𝑏2]) del componente imaginario (por ejemplo [𝑎𝑖 𝑏2 + 𝑏1 𝑎2 ] 𝑖)
El círculo unitario complejo es el conjunto de todos los números complejos cuyo módulo es
1. Por ejemplo, el número real +1 está en el círculo unitario complejo (representado por el
punto A en la Figura A.4)
a A
Así son el número imaginario −𝑖 (punto B) y el número complejo (-0.6 -0.8𝑖) (punto C).
A menudo estaremos interesados en si un número complejo es menor que 1 en módulo, en cuyo
caso se dice que el número está dentro del círculo unitario. Por ejemplo, (-0.3 +0.4𝑖) tiene módulo
0,5 por lo que se encuentra dentro del círculo unitario, mientras que (3 + 4𝑖), con el módulo 5, se
encuentra fuera del círculo unitario.
Coordenadas polares
Conjugados complejos
Ecuaciones cuadráticas
Una ecuación cuadrática
𝛼𝑥 2 + 𝛽𝑥 + 𝛾 =0 [A.2.9]
−𝛽−(𝛽 2 −4𝛼𝛾)1/2
𝑥2 = [A.2.11]
2𝛼
Cuando (𝛽 2 − 4𝛼𝛾) ≥ 0 , ambas raíces son reales, mientras que cuando (𝛽 2 − 4𝛼𝛾)˂ 0 , las
raíces son complejas. Notar que cuando las raíces son complejas aparecen como un par conjugado:
1/2
𝑥1 = {- 𝛽 / [2α]} + {(-1 /2 α]) (4𝛼𝛾 − 𝛽 2) }𝑖
2) 1/2
𝑥2 = {- 𝛽 / [2α]} - {(-1 /2 α]) (4𝛼𝛾 − 𝛽 }𝑖
A.3 Cálculo
Continuidad
Se dice que una función 𝑓(𝑥) es continua en 𝑥 = 𝑐 si 𝑓(𝑐)es finita y si para cada 𝜀 > 0 hay
un 𝛿 > 0 tal que |𝑓(𝑥) − 𝑓(𝑐)| < 𝜀 siempre que | 𝑥 − 𝑐| < 𝛿
𝑑𝑓 [𝑥+∆]2 −𝑥 2
= lim
𝑑𝑥 ∆→0 ∆
2
[𝑥 +2𝑥∆+ ∆2 ]−𝑥2
= lim
∆→0 ∆
= lim {2𝑥 + ∆}
∆→0
= 2𝑥
Y en general
𝑑𝑥 𝑘
𝑑𝑥
=𝑘𝑥 𝑘−1 [A.3.1]
𝑑𝑓(𝑥)
|
𝑑𝑥 𝑥=𝑐
Por ejemplo
𝑑𝑥 2
| = 2𝑥|𝑥=3 = 6
𝑑𝑥 𝑥=3
Tenga en cuenta que esta notación se refiere a hablar de la derivada primero y luego evaluar la
derivada en un punto particular como 𝑥 = 3
Cadena de reglas
La regla de cadena establece que para funciones compuestas tales como
𝑔 (𝑥) = 𝑓(𝑢(𝑥)),
El derivado es
𝑑𝑔(𝑥) 𝑑𝑓 𝑑𝑢
𝑑𝑥
=𝑑𝑢.𝑑𝑥 [A.3.4]
Por ejemplo para evaluar
𝑑(𝛼+ 𝛽𝑥)𝑘
𝑑𝑥
Dejamos 𝑓(𝑢) = 𝑢𝑘 y 𝑢(𝑥) = 𝛼 + 𝛽𝑥. Entonces
𝑑𝑓 𝑑𝑢
.
𝑑𝑢 𝑑𝑥
=𝑘𝑢𝑘−1 . 𝛽
Así,
𝑑 (𝛼+𝛽𝑥)𝑘
𝑑𝑥
= 𝛽𝑘(𝛼 + 𝛽𝑥)𝑘−1
A.3.Cálculos 735
𝑑 2 𝑓(𝑥) 𝑑 𝑑𝑓 (𝑥)
𝑑𝑥 2
= 𝑑𝑥 [ 𝑑𝑥
]
Por ejemplo,
𝑑2 𝑥 𝑘 𝑑 [𝑘𝑥 𝑘−1 ]
𝑑𝑥 1
= 𝑑𝑥
= 𝑘(𝑘 − 1)𝑥 𝑘−2
Y
𝑑 2 𝑠𝑒𝑛 (𝑥) 𝑑 cos(𝑥)
𝑑𝑥 2
= 𝑑𝑥
= −𝑠𝑒𝑛 (𝑥) [A.3.5]
Series geometricas
Considerando la sumatoria:
𝑆𝑇 = 1 + ∅ + ∅2 + ∅3 … … ∅𝑇 [A.3.6]
Multiplicando ambos lados de [A.3.6] por ∅
∅ 𝑆𝑇 = 1 + ∅ + ∅2 + ∅3 … … ∅𝑇 / ∅𝑇+1 [A.3.7]
Para cualquier ∅ ≠ 1, ambos lados de [A.3.8] se puede dividir por (1- ∅), por lo tanto, la suma en [
A.3.6] es igual a:
1− ∅𝑇+1
∅≠1
𝑆𝑇 = { 1− ∅ ∅= 1
[A.3.9]
𝑇+1
De [ A.3.9]
1
lim 𝑆𝑇 = |∅| < 1
𝑇→∞ 1− ∅
Y asi
1
(1 + ∅ + ∅2 + ∅3 … … ) = |∅| < 1 [A.3.10]
1− ∅
1 𝑑 𝑟+1 𝑓
𝑅𝑟 (𝑐, 𝑥) = (𝑟+1)! 𝑑𝑥 𝑟+1 | . ∆𝑟+1
𝑥=𝛿
𝑅𝑟 (𝑐,𝑥)
lim ∆𝑟
=0
∆→0
Serie de potencia
Si el resto 𝑟 (𝑐, 𝑥) en [A.3.11] converse a cero para todo 𝑥 como 𝑟 → 𝑥 , se puede usar una serie
de potencias para caracterizar la funcion 𝑓(𝑥) . Para econtrar una serie de potencia elegimos uhn
valor particular 𝑐 alrededor del cual centrar la expansion, como 𝑐 = 0. A continuacion, utilizamos
[A.3.12] con 𝑟 → 𝑥 , por ejemplo, consideremos la funcion seno.las dos primeras derivadas se dan
en [A.3.2] y [A.3.3], con las siguientes derivadas de orden superior:
Funciones exponenciales
Un número 𝛾 elevado a la potencia 𝑥
𝑓(𝑥) = 𝛾 𝑥
A.3.Cálculos 737
Por ejemplo:
(𝛾 2 ).(𝛾 3 ) = (𝛾. 𝛾). (𝛾. 𝛾. 𝛾) = 𝛾 5
[𝛾 𝑥 ]𝑘 = 𝛾 𝑥𝑘 [A.3.16]
Por ejemplo:
[𝛾 𝑥 ]𝑘 = [𝛾 2 ]. [𝛾 2 ]. [𝛾 2 ]= 𝛾 6
𝛾0 = 1 [A.3.18]
(𝛾 𝑥 ). (𝛾 −𝑥 ) = 𝛾 0
Y
𝛾𝑥
(𝛾 𝑥 ). (𝛾 −𝑥 ) = 𝛾𝑥 = 1
El numero
La base para los logaritmos naturales se denota 𝑒. El número 𝑒 tiene la propiedad de una funcion
exponencial con base 𝑒 igual a su propia derivada:
𝑑𝑒 𝑥
𝑑𝑥
= 𝑒𝑥 [A.3.19]
𝑑𝑟 𝑒 𝑥
𝑑𝑥 𝑟
= 𝑒𝑥 [A.3.20]
exp [𝑥]=𝑒 𝑥
Si 𝑢(𝑥) denota función separada de 𝑥, la derivada de la función compuesta 𝑒 𝑢(𝑥) puede ser
evaluada usando la regla de la cadena
𝑑𝑒 𝑢(𝑥) 𝑑𝑒 𝑢 𝑑𝑢 𝑑𝑢
= . = 𝑒 𝑢(𝑥) [A.3.21]
𝑑𝑥 𝑑𝑢 𝑑𝑥 𝑑𝑥
𝑑𝑟 𝑓
𝑑𝑥 𝑟
= 𝑒 𝑥,
Y asi, desde [A.3.18]
𝑑𝑟 𝑓
| = 𝑒0 = 1 [A.3.22]
𝑑𝑥 𝑟 𝑥=0
Para todo 𝑟 .substituimos [A.3.22] en [A.3.12] con 𝑐 = 0 por ende una potencia para la función
𝑓(𝑥) = 𝑒 𝑥 :
𝑥2 𝑥3 𝑥4
𝑒 𝑥 =1 + 𝑥 + + -
2! 3! 4!
+…… [A.3.23]
Para elevar un número complejo (𝑎 + 𝑏𝑖) una potencia 𝑘, el número complejo se escribe en forma
de coordenadas polares como en [A.2.6]
Utilizando [A.3.25] esto puede ser tratado como una función exponencial de 𝜃:
𝑎 + 𝑏𝑖 = 𝑅 ∗ 𝑒 𝑖𝜃 [A.3.27]
Ahora levantan ambos lados de [A.3.27] a la quinta potencia, recordando [A.3.17] y [A.3.16]
A.3.Cálculos 739
Finalmente, usa [A.3.25] en inverso
log 𝑒 𝑥 = 𝑥
Propiedades de logaritmos
Para todo 𝑥 > 0, es también el caso :
𝑥 = 𝑒 log(𝑥) [A.3.30]
Para [A.3.30] y [A.3.15] vemos que el log del producto de dos números es igual a la suma del log
Tomando registros de ambos lados de [A.3.31] revela que el log de un número elevado a la
potencia 𝑎 es igual a 𝑎 veces el logaritmo del número
a
log 𝑥 𝑎 = 𝑎. log(𝑥)
𝑑𝑥 𝑑𝑙𝑜𝑔(𝑥)
= 𝑒 log(𝑥) .
𝑑𝑥 𝑑𝑥
así
𝑑𝑙𝑜𝑔(𝑥)
1=𝑥.
𝑑𝑥
Entonces:
Logaritmos y elasticidades
A veces también es útil diferenciar una función𝑓(𝑥) con respecto a la variable log(𝑥). Para hacerlo
escriba 𝑓(𝑥) como 𝑓(𝑢(𝑥)) donde:
𝑢(𝑥) = exp[log(𝑥)]
Logaritmos Y Porcentajes:
Una aproximación a la función natural de registro se obtiene a partir de una serie de Taylor de
imprimación orden alrededor de c=1
𝑑 log(𝑥)
log(1 + ∆) ≅ log(1) + |∆ [A. 3.35]
𝑑𝑥
A.3.Cálculos 741
2
𝑑(𝑥 ⁄2)
= 𝑋 [A. 3.38]
𝑑𝑥
2
La función (𝑥 ⁄2) no es la única función que satisface [𝐴. 3.38] la función
(𝑋 2 ⁄2) + 𝐶
También funciona para cualquier constante C el termino C se denomina la constante de integración.
Integrales definidos
Considerarse la función f(x) continua trazado en la figura A.5 Definir la función A(x) Si el área bajo
f(x) entre a y x, visto como una función de x. Así, un b; a) Sería el área entre a y b. Supongamos que
aumentamos b por una pequeña cantidad. Esto es aproximadamente el mismo que agregar un
rectángulo de altura f(b) y anchura ∆∆ a la zona A (B;a).
𝐴(𝑏 + ∆; 𝑎) ≅ 𝐴(𝑏; 𝑎) + 𝑓(𝑏). ∆
O
𝐴(𝑏 + ∆; 𝑎) − 𝐴(𝑏; 𝑎)
≅ 𝑓(𝑏)
∆
En el límite como ∆→ 0.
𝑑𝐴(𝑥;𝑎)
⌊= 𝑓(𝑏) [A. 3.44]
𝑑𝑥
Ahora [𝐴. 3.44] tiene que mantener para cualquier valor de 𝑏 > 𝑎 que podríamos haber elegido
𝜋/2
∫ sin(𝑥) 𝑑𝑥 = [− cos(𝑥)] |𝑥=𝜋/2 − [− cos(𝑥)]|𝑥=𝜋/0
0
𝜋
= [− cos ( )] + [cos(0)]
2
=0+1
= 1.
Para encontrar el área entre 0 y 2𝜋, tomamos
2𝜋
∫ sin(𝑥) 𝑑𝑥 = [− cos(2𝜋)] + cos(0)
0
= −1 + 1
= 0.
Los valores positivos de sin(x) entre 0 y 𝜋 anular exactamente los valores negativos entre 𝜋 y 2𝜋.
Definición
Una matriz (m x n) es un arreglo de números ordenados en m filas y n columnas:
𝑎11 𝑎12 𝑎1𝑛
𝑎 𝑎 ⋯ 𝑎
𝑨 21 22 2𝑛
=[ ⋮ ⋮ ⋯ ⋮ ].
(𝑚 𝑥 𝑛)
𝑎𝑚1 𝑎𝑚2 ⋯ 𝑎𝑚𝑛
Si sólo hay una columna (n=1), se describe como un vector columna. Mientras que con una sola fila
(m=1), se denomina un vector fila. Única número (n=1 y m=1) se llama escalar de la ONU.
Si el número de filas es igual al número de columnas (m=n). La matriz se dice que es
cuadrada. La diagonal que recorre desde el principio hasta el fin (𝑎11 , 𝑎22 , …, 𝑎𝑛𝑛 ) es una matriz
Suma y multiplicación
Dos (m x n) matrices se agregan el elemento por elemento:
𝑎11 𝑎12 𝑎1𝑛 𝑏11 𝑏12 𝑏1𝑛
𝑎21 𝑎22 ⋯ 𝑎2𝑛 𝑏21 𝑏22
⋯
𝑏2𝑛
[ ⋮ ⋮ ⋯ ⋮ ]+[ ⋮ ⋮ ]
⋯ ⋮
𝑎𝑚1 𝑎𝑚2 ⋯ 𝑎𝑚𝑛 𝑏𝑚1 𝑏𝑚2 ⋯ 𝑏𝑚𝑛
𝑎11 + 𝑏11 𝑎12 + 𝑏12 𝑎1𝑛 + 𝑏1𝑛
⋯
𝑎21 + 𝑏21 𝑎22 + 𝑏22 𝑎2𝑛 + 𝑏2𝑛
=[ ];
⋮ ⋮ ⋯ ⋮
𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 ⋯ 𝑎𝑚𝑛 + 𝑏𝑚𝑛
O, de forma más compacta,
𝑨 𝐵
+ = [𝑎𝑖𝑗 + 𝑏𝑖𝑗 ].
(𝑚 𝑥 𝑛) (𝑚 𝑥 𝑛)
El producto de una matriz (𝑚 𝑥 𝑛) y una matriz (𝑛 𝑥 𝑞) es una matriz (𝑚 𝑥 𝑞):
𝑨 𝐵 𝐶
+ = ,
(𝑚 𝑥 𝑛) (𝑚 𝑥 𝑞) (𝑚 𝑥 𝑞)
𝑛
Donde la fila i, columna j elemento de C está dada por ∑𝑘=1 𝑎𝑖𝑗 𝑏𝑖𝑗 . la multiplicación de Pará se
requiere que el número de columnas, la misma que el número de filas de B.
Para multiplicar por un escalar una anu α, Cañada elemento de anu es multiplicado por α:
𝜶 𝐴 𝐶
(1 𝑥 1) + (𝑚 𝑥 𝑛) = (𝑚 𝑥 𝑛),
Con:
[𝐶 = [𝛼𝑎𝑖𝑗 ].
Es fácil demostrar que la adición es conmutativo:
𝐴 + 𝐵 = 𝐵 + 𝐴:
Mientras que la multiplicación no:
𝐴𝐵 ≠ 𝐵𝐴.
El producto BA no existirá a menos que 𝑚 = 𝑞 , e incluso donde existe. AB sería igual a BA sólo
en casos muy especiales.
Tanto la suma y la multiplicación son asociativas:
(𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶)
−(𝐴𝐵)𝐶 = 𝐴(𝐵𝐶).
Matriz de identidad
La matriz identidad de orden n (denotado 𝐼𝑛 ) es una matriz (𝑛 𝑥 𝑛) con los elementos de la
diagonal principal igual a 1 y 0 en otros lugares:
1 0 0
⋯
𝐼𝑛 = [0 1 ⋯ 0].
⋮
⋮ ⋮
0 0 ⋯ 1
Para cualquier matriz(𝑚 𝑥 𝑛) A.
𝐴 𝑥 𝐼𝑛 = 𝐴
Y also
𝐼𝑛 𝑥 𝐴 = 𝐴.
Potencias de matrices
Transposición
𝑎𝑖𝑗 Denotan la fila i, columna j de los elementos de una matriz :
𝐴 = [𝑎𝑖𝑗 ].
La transposición de una (denotada A') está dado por
𝐴′ = [𝑎𝑗𝑖 ].
Por ejemplo, la transpuesta de
2 4 6
[3 5 7]
1 2 3
Es
2 3 1
[4 5 2].
6 7 3
La transposición de un vector fila es un vector columna.
Es fácil comprobar lo siguiente:
(𝐴′)′ = 𝐴 [A.4.1]
(𝐴 + 𝐵)′ = 𝐴′ + 𝐵′ [A.4.1]
(𝐴𝐵)′ = 𝐵′ 𝐴′ . [A.4.3]
Matrices simétricas
Anu matriz cuadrada si satisface 𝐴 = 𝐴′, se dice que es simétrica.
Matrices particionadas
Definición de la determinante
El determinante de una matriz de 2 x 2 está dado por la siguiente: escalares
|𝐴| = 𝑎11 𝑎22 − 𝑎12 𝑎21 [A.4.4]
El determinante de una matriz n x n puede ser definida recursivamente. La matriz 𝐴𝑖𝑗 denotada por
(n-1) x (n-1) es formada suprimiendo la fila i y la columna j de A. El determinante de A es dado
por:
|𝐴| = ∑𝑛𝑗=1(−1)𝑗+1 𝑎1𝑗 |𝐴1𝑗 |. [A.4.5]
Por ejemplo, el determinante de una matriz 3 x 3.
𝑎11 𝑎12 𝑎13 𝑎22 𝑎23 𝑎21 𝑎23 𝑎21 𝑎22
|𝑎21 𝑎22 𝑎23 | = 𝑎11 |𝑎 𝑎 | − 𝑎12 |𝑎 𝑎 | + 𝑎13 |𝑎 |
32 33 31 33 31 𝑎32
𝑎31 𝑎32 𝑎33
a11 0 0 … 0
a a22 0 … 0
𝐴 = [ 21 ]
⋮ ⋮ ⋮ … ⋮
a𝑛1 a𝑛2 0 ⋯ a𝑛𝑛
Por el contrario, si una sola fila de ANU se multiplica por la constante α (en contraposición
a la multiplicación de la matriz completa por α), entonces el determinante se multiplica por α.Si la
fila que se multiplica por α es la primera fila y, a continuación, este resultado es inmediatamente
evidente desde [A.4.5]. Si sólo la fila de i se multiplica por α, el resultado puede ser mostrada por
aplicar de forma recursiva [A.4.5] unitil los elementos de la i-ésima fila aparecen explícitamente en la
fórmula.
Supongamos que algunas veces constante c de la segunda fila de una matriz de 2 x 2 se
agrega a la primera fila. Esta operación ha o efecto sobre el determinante:
𝑎 + 𝑐𝑎21 𝑎12 + 𝑐𝑎22
| 11 𝑎 𝑎22 | = (𝑎11 + 𝑐𝑎21 )𝑎22 − (𝑎12 + 𝑐𝑎22 )𝑎21
21
= 𝑎11 𝑎22− 𝑎12 𝑎21
De manera parecida, si algunas veces constante c la tercera fila de una matriz de 3 x 3 se añade a la
segunda fila, el factor determinante será nuevamente sin cambios:
𝑎11 𝑎12 𝑎13
|𝑎21 + 𝑐𝑎31 𝑎22 + 𝑐𝑎32 𝑎23 + 𝑐𝑎33 |
𝑎31 𝑎32 𝑎33
𝑎22 + 𝑐𝑎32 𝑎23 + 𝑐𝑎33 𝑎21 + 𝑐𝑎31 𝑎23 + 𝑐𝑎33
= 𝑎11 | 𝑎32 𝑎33 | − 𝑎12 | 𝑎31 𝑎33 |
En general, si una fila de una matriz de n x n se multiplica por c y se añade a otra fila, la nueva
matriz tendrá la misma determinante como el original. Asimismo, multiplicar cualquier columna por
c y añadiendo la rsult a otra columna no cambiará el determinante.
Esto puede ser visto como un caso especial de los siguientes resultados. Si A y B son dos
matrices n x n, entonces
Añadiendo c veces la segunda columna de una matriz de 2 x 2 a la primera columna puede ser
pensado como un post multiplicado por la matriz siguiente:
|𝐴𝐵| = |𝐴|
Así, el hecho de que la adición de un múltiplo de una columna a otra alteran el determinante se
puede ver como una implicación de [A.4.9].
Si dos filas de una matriz están cambiadas, el determinante cambia de signo. Para cambiar
la fila la i con la columna j, multiplicar la i-ésima fila por -1; esto cambia el signo del determinante.
A continuación, reste la fila i de la fila j, agregar el nuevo j a i, y resta i a j anu Vélez más. Estas
últimas operaciones completan el cambio y no afectan el determinante más. Por ejemplo, vamos a
ser una matriz de ANU (4 x 4) escrito en forma particionada como
𝑎1′
𝑎′
𝐴 = 2′ ,
𝑎3
[𝑎4′ ]
′
Cuando el vector 𝑎𝑖 [1 x 4] representanuna el vector fila de i de A. El determinante cuando las
filas 1 y 4 están conmutadas pueden calcularse a partir de:
𝑎1′ −𝑎1′ −𝑎1′ −𝑎4′ 𝑎4′
′
𝑎2′
𝑎2′
𝑎2′
𝑎2 𝑎2′
| ′ | = −= | ′ | = − | | = − | | = − | |
𝑎3 𝑎3 𝑎3′ 𝑎3′ 𝑎3′
𝑎4′ 𝑎4′ 𝑎1′ + 𝑎4′ 𝑎1′ + 𝑎4′ 𝑎1′
Este resultado permite calcular el determinante de la ANU en referencia a cualquier fila de
una matriz n x n):
|𝐴| = ∑𝑛𝑗=1(−1)𝑖+𝑗 𝑎𝑖𝑗 |𝐴𝑖𝑗 | [A.4.10]
∗
Para derivar [A.4.10], definir 𝐴 como
𝑎𝑖′
𝑎1′
𝑎2′
⋮
𝐴∗ = ′
𝑎𝑖−1
′
𝑎𝑖+1
⋮
[ 𝑎𝑛′ ]
Luego, a partir de [A.4.5]
𝑛 𝑛
∗ ∗
|𝐴∗ | = ∑(−1) 𝑗+1
𝑎1𝑗 |𝐴1𝑗 | = ∑(−1)𝑗+1 𝑎𝑖𝑗 |𝐴𝑖𝑗 |
𝑗=1 𝑗=1
Además, 𝐴∗ se obtiene a partir de un por el cambio de las filas (i-1), cuentos como
cambiando 𝑖 con 𝑖 − 1, 𝑖 − 1𝑖 − 2, . . ., y 2 a 1. Por lo tanto,
|𝐴| = (−1)𝑖−1 |𝐴∗ | = (−1)𝑖−1 ∑𝑛𝑗=1(−1)𝑗+1 𝑎𝑖𝑗 |𝐴𝑖𝑗 |,
Como se afirma en [A.4.10]
Una consecuencia inmediata" de [A.4.10] es que si cualquier fila de una matriz contiene
todos los ceros, entonces el determinante de la matriz es cero.
También se ha demostrado que la transposición de una matriz tiene el mismo factor
determinante como la matriz original:
|𝐴′ | = |𝐴| [A.4.11]
Esto significa que si, por ejemplo, la k columna de una matriz consta enteramente de ceros,
entonces el determinante de la matriz es cero. También implica que el determinante de una matriz
triangular superior (uno para el que es el producto𝑎𝑖𝑗 = 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑗 < 𝑖) de los términos sobre los
principales diagonal.
Se dice que existe una matriz cuyo inverso no es singular. Anu matriz cuyo determinante es cero es
singular y no tiene inversa.
Cuando existe un inverso
AxA−1 = In . [A.4.14]
Dependencia lineal
x1 , x2 … . xk Un conjunto de vectores de mar diferentes(n x 1). Se dice que los vectores son
linealmente dependientes si existe un conjunto de escalares (c1 , c2 … , ck ), de los cuales no todos
son cero, tal que
c1 x1 +c2 x2 + ⋯ + ck xk = 0
Si no existe tal conjunto de números distintos de cero (c1 , c2 , … , ck ). Entonces se dice que los
vectores son linealmente independientes (x1 , x2 … . xk )
Supongamos que los vectores (x1 , x2 , … . xk )se recogen en una matriz (n x k) T.
Escrito en forma particionada como
T = [x1 x2 … xk ].
Si el número de vectores (k es igual a la dimensión de cada vector (n), entonces existe una relación
simple entre la noción de dependencia lineal (n x ) y el determinante de la
La Descomposición Jordan
La descomposición en [A.4.24] requerido (n x n) una matriz que tiene n vectores propios
linealmente independientes. Este será un verdadero siempre tiene n valores propios distintos, y aún
podría ser cierto si una tiene algunos repiten valores propios. En el caso general completamente
cuando una tiene s ≤ n vectores propios linealmente independientes, siempre existe una
descomposición similar a [A.4.24]. Conocida como la descomposición de Jordania.
Específicamente. De esa matriz A, existe una (n x n) matriz M nonsingular tal que
A = MΛM−1 . [A.4.25]
Donde la (n x n) matriz J toma la forma
J1 0 … 0
0 J2 … 0
J=[ ] [A.4.26]
⋮ ⋮ … ⋮
0 0 ⋯ Js
Con
valores propios son los elementos de su diagonal principal. Pero J′ J tienen el mismo significado
que la Diagonal, principal A′ y A tienen los mismos valores propios.
ST = In + A + A2 + A3 + ⋯ + AT [A.4.29]
Para A una (n x n) matriz. Ambos lados de Premultiplying [A.4.29] por una, vemos que
AST = A + A2 + A3 + ⋯ + AT + AT+1 . [A.4.30]
Restando [A.4.30] FROM [A.4.29], encontramos que
(In − A)ST = In + AT+1 . [A.4.31]
Aviso de [A.4.18 grupo] que si |In − A| = 0, entonces λ = 1 sería un eigenvalue de A. suponiendo
que ninguno de los valores propios de una es igual a la unidad. La matriz (In − A) es nonsingular y
[A.4.31] implica que
ST = (In − A)−1 (In + AT+1 ). [A.4.32]
Si no eigenvalue de A es igual a 1. Si todos los valores propios de una son estrictamente inferior a 1
en módulo, puede demostrarse que como , sugiriendo queAT+1 → 0T → ∞
(In + A + A2 + A3 + ⋯ ) = (In − A)−1 [A.4.33]
Suponiendo que los valores propios de una unidad son todos dentro de un círculo.
(A + B) ⊗ C = (A ⊗ C) + (B ⊗ C) [A.4.36]
C ⊗ (A + B) = (C ⊗ A) + (C ⊗ B) [A.4.37]
Que es.
a11 B a12 B … a1n B c11 D c12 D … c1n D
a21 B a22 B … a2n B c21 D c22 D … c2n D
[ ][ ]
⋮ ⋮ … ⋮ ⋮ ⋮ … ⋮
am1 B am2 B ⋯ amn B cm1 D cm2 D ⋯ cmn D
𝐴(𝑛×𝑛) Y 𝐵(𝑝×𝑝) ambas matrices nonsingular podemos establecer 𝐶 = 𝐴−1 y D = B ' [A.4.38]
para deducir que
(A ⊗ B)−1 = (𝐴−1 ⊗ 𝐵−1 ) = (𝐴𝐴−1 ) ⊗ (𝐵𝐵−1 ) = 𝐼𝑛 ⊗ 𝐼𝑝 = 𝐼𝑛𝑝 .
La (MA ⊗ MB ) inversa ha dado por (MA −1 ⊗ MB −1 ). Por otra parte, sabemos desde [A.4.28] que
los valores propios de (A ⊗ B) la misma como los autovalores de
= JA ⊗ JB .
Pero JA JB son ambos triangular superior, lo que significa que (JA ⊗ JB ) es triangular superior
Como bien. Los valores propios de (JA ⊗ JB ) son, por lo tanto, sólo los términos de la diagonal
principal
De las (JA ⊗ JB ) cuales son dadas por .λi μj
Henee, cualquier matriz definida positiva también podría decirse que | semidefinite
positivo.Vamos a ser un eigenvalue del asociado con el eigenvector x:
Ax = λx.
Esta ecuación Premultiplying por x' resulta en
x´Ax = λx´x.
Desde un eigenvector x no te el vector cero, x'X > 0. Por lo tanto, para obtener un resultado
positivo.
Una matriz semidefiníte, cualquier eigenvalue λ de debe ser mayor o igual que cero. Para
obtener un resultado positivo definitivo, todos los valores propios son estrictamente mayor que
cero. Desde el determinante de A es el producto de los valores propios, el determinante de una
matriz definida positiva es estrictamente positivo.
Vamos a ser positivas definidas (nxn) y deje que la matriz b denotan
una nonsingular (n x n) matrix.Entonces B'AB es f positivo definitivo. Para ver esto,
sea x cualquier vector distinto de cero. Define.
𝑥̅ = 𝐵𝑥
El 𝑥̅ no puede ser el vector cero, porque si lo fuera, esta ecuación indicaría que existe un valor
distinto de cero vector x tal que
𝐵𝑥 = 0 ∙ 𝑥,
Transpone Conjúgate
Vamos a denotar una (m x n) matriz de (posiblemente) los números complejos:
= ∑(𝑎12 + 𝑏12 𝑖) ≥ 0
𝑖=1
Para B anu matriz real (m×n) y x un vector complejo(n×1) vector
(Bx)H = x H B′
Más generalmente, si tanto B y x hijo complejos
Derivadas parciales
Derivada parcial 𝑓 Con respecto a la de 𝑥𝑖 es definido por
𝜕𝑓 Δ−1 . {𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑖−1 . 𝑥𝑖 + Δ, 𝑥𝑖+1 , … , 𝑥𝑛 )
= lim [A.4.42]
𝜕𝑥 ′
Δ→0 −𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑖−1 𝑥𝑖 , 𝑥𝑖+1 , … , 𝑥𝑛 )}
̅̅̅̅̅̅̅̅̅̅̅̅̅̅
𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡𝑒
Si recogemos las 𝑛 derivadas parciales en [A.4.42] la obtenemos 𝑔𝑟𝑎𝑑𝑖𝑒𝑛𝑡𝑒 de la
función 𝑓, denotada 𝛻
𝜕𝑓⁄𝜕𝑥1
𝜕𝑓⁄𝜕𝑥2
𝛻 =[ ] [A.4.43]
⋮
(𝑛×1)
𝜕𝑓⁄𝜕𝑥𝑛
Por ejemplo, supongamos 𝑓 es una funcion lineal
𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑎1 𝑥1 + 𝑎2 𝑥2 + ⋯ + 𝑎𝑛 𝑥𝑛 [A.4.44]
𝑎1
𝑎2
𝑎=[ ⋮ ] [A.4.45]
𝑎𝑛
𝑥1
𝑥2
𝑥=[ ⋮ ] [A.4.46]
𝑥𝑛
𝑓(𝐱) = 𝐚′𝐱
Y la gradiente es
𝑎1
𝑎2
𝛻=[ ⋮ ]=𝐚
𝑎𝑛
∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 𝑑𝑥
𝑎 𝑐
Indica la siguiente operación: primera intregral
𝑑
∫ 𝑓(𝑥, 𝑦) 𝑑𝑦
𝑐
Con respecto a 𝑦, con 𝑥 mantenido fijo, e integrar la función resultante con respecto a 𝑥. Por
ejemplo,
1 2
1
∫ ∫ 𝑥 4 𝑦 𝑑𝑦 𝑑𝑥 = ∫ 𝑥 4 [(22 /2) − (02 /2)]𝑑𝑥 = 2[15 /5 − 05 /5] = 2/5
0
0 0
Siempre que f(x,y) es continuo, el orden de integración puede invertirse . Por ejemplo.
2 1
2
4
15 1 22
∫ ∫ 𝑥 𝑦 𝑑𝑥𝑑𝑦 = ∫ ( ) 𝑦 𝑑𝑦 = ( ). ( ) = 2/5.
0 5 5 5
0 0
Densidades y distribuciones
Una variable aleatoria o estocástica X se dice ser discreto valorar si puede adoptar sólo uno
de K valores particulares; llame a estos su distribución de probabilidad esx1 , x2 … . xk . un conjunto
de números que dan la probabilidad de cada resultado:
P{X=}= probabilidad de quexk x toma el valor 𝑥𝑘 . K=1, … ,K.
La suma de las probabilidades de la unidad:
𝑘
∑ 𝑃{𝑋 = 𝑥𝑘 } = 1
𝑘=1
Suponiendo que los posibles resultados son ordenados 𝑥1 < 𝑥2 < ⋯ < 𝑥𝑘 , la probabilidad de que
x tomé un valor tan menos o igual que el valor es dado por𝑥𝑗
𝑗
𝑃{𝑋 ≤ 𝑥𝑗 } = ∑ 𝑃{𝑋 = 𝑥𝑘 }.
𝑘=1
Si x es igual a una constante c con probabilidad 1, entonces X es nonstochastic.
La ley de la probabilidad para una variable aleatoria continua X valorado a menudo puede
ser descrito por la función de densidad con𝑓𝑥 (𝑥)
∞
∫−∞ 𝑓𝑥 (𝑥)𝑑𝑥 = 1. [A.5.1]
El subíndice X 𝑓𝑥 (𝑥) indica que se trata de densidad de la variable aleatoria X; el argumento x
de 𝑓𝑥 (𝑥) índices la integración en [A.5.1]. La función de distribución acumulativa de x
(denotada 𝐹𝑥 (𝑎)) da la probabilidad de que x tomé un valor inferior o igual a :
𝐹𝑥 (𝑎) = 𝑃{𝑋 ≤ 𝑎}
∞
= ∫ 𝑓𝑥 (𝑥)𝑑𝑥.
−∞
Muestra momentos
Un ejemplo de momento es una estimación de una población particular momento de base
de conjunto de datos observados, por ejemplo, { x1 , x2 … . xT }. momento es simple la media
simple,
1
𝑥̅ = ( ) . (x1 + x2 + ⋯ + xT ),
𝑇
Que es una manera natural de estimación de la media poblacional µ. La varianza simple,
El sesgo y la eficiencia
Deje 𝜃̂ ser un cálculo simple de un vector de parámetros de población θ. Por ejemplo,
podría𝜃̂ ser la media simple 𝑥̅ y θ la media poblacional µ. La estimación se dice que es imparcial
si 𝐸(𝜃̂ ) = θ.
Supongamos que es una estimación imparcial. La estimación 𝜃̂ se dice que es eficaz si se da
el caso de que por cualquier otra estimación objetiva 𝜃̂ ∗, la siguiente matriz es semidefinite positivo:
′ ′
𝑃 = 𝐸 [(𝜃̂ ∗ − θ). (𝜃̂ ∗ − θ) ] − 𝐸 [(𝜃̂ − θ). (𝜃̂ ∗ − θ) ].
Distribuciones conjuntas
Para dos variables aleatorias X e Y con la densidad conjunta 𝑓𝑥, 𝑦(𝑥, 𝑦), calculamos la
probabilidad de la actividad conjunta que ambas 𝑋 ≤ 𝑎 y 𝑌 ≤ 𝑏 desde
𝑎 𝑏
𝑃{𝑋 ≤ 𝑎, 𝑌 ≤ 𝑏} = ∫ ∫ 𝑓𝑥, 𝑦(𝑥, 𝑦)𝑑𝑦 𝑑𝑥.
−∞ −∞
Esto puede ser representado en términos de la función de distribución acumulativa
conjunta:
𝐹𝑥, 𝑦(𝑎, 𝑏) = 𝑃{𝑋 ≤ 𝑎, 𝑌 ≤ 𝑏}.
La probabilidad de que, por sí solo,𝑋 ≤ 𝑎 puede calcularse a partir de
𝑎 𝑏
𝑃{𝑋 ≤ 𝑎, 𝑌 𝑎𝑛𝑦} = ∫−∞[∫−∞ 𝑓𝑥, 𝑦(𝑥, 𝑦)𝑑𝑦] 𝑑𝑥. [A.5.5]
Comparación de [A.5.5] con [A.5.2] revela que la densidad marginal se obtiene mediante la
integración de la densidad conjunta con respecto a𝑓𝑥(𝑥)𝑓𝑥, 𝑦(𝑥, 𝑦) y.
∞
𝑓𝑥 (𝑥) = [∫−∞ 𝑓𝑥. 𝑦(𝑥, 𝑦)𝑑𝑦]. [A.5.6.]
Distribuciones condicionales
La densidad condicional de Y DADO X está dada por
𝑓𝑥,𝑦 (𝑥,𝑦)
𝑦 𝑖𝑓 𝑓𝑥 (𝑥) > 0
𝑓 𝑌 (𝑥 ) ={ 𝑓𝑥 (𝑥) [A.5.7]
𝑋
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒.
Observe que esta cumpla con el requisito de una densidad [A.5.1]:
∞ 𝑓𝑥,𝑦 (𝑥, 𝑦)
𝑦
∫ 𝑓𝑌 ( ) 𝑑𝑦 = 𝑑𝑦
−∞ 𝑋 𝑥 𝑓𝑥 (𝑥)
∞
1
= ∫ 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦
𝑓𝑥 (𝑥) −∞
𝑓𝑥 (𝑥)
= 1.
𝑓𝑥 (𝑥)
Otra consecuencia evidente de definición en [A.5.7] es que anu densidad conjunta puede
ser escrita como el producto de la densidad y la densidad marginal condicional:
𝑦
𝑓𝑥. 𝑦(𝑥, 𝑦) = 𝑓𝑌 (𝑥 ) . 𝑓𝑥 (𝑥). [A.5.8]
𝑋
La expectativa de la condicional y dado que la variable aleatoria X toma el valor particular
de x es
La covarianza
Deje que 𝜇𝑋 denotan E(X) y 𝜇𝑌 denoote E(Y).La población la covarianza entre X e Y es
dado por
∞ ∞
𝐶𝑜𝑣(𝑋, 𝑌) ≡ ∫−∞ ∫−∞(𝑥 − 𝜇𝑋 )(y − 𝜇𝑌 ). 𝑓𝑌,𝑋 (𝑦, 𝑥)dydx. [A.5.13]
Correlación
La correlación poblacional entre X e Y viene dada por:
𝐶𝑂𝑉 (𝑋, 𝑌)
𝑐𝑜𝑟𝑟(𝑋, 𝑌) =
√𝑉𝑎𝑟(𝑥) . √𝑉𝑎𝑟(𝑦)
Si la covarianza (s) correlación entre X e Y es cero. Entonces se dice que X e Y no están
correlacionados.
Ortogonalidad
Considerarse una muestra de tamaño T en dos variables
aleatorias, {(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑇 } y {𝑦1 , 𝑦2,⋯ , 𝑦𝑇 }. las dos variables se dice que son ortogonales si
∑ 𝑥𝑡 𝑦𝑡 = 0
𝑡=1
Por lo tanto, la ortogonalidad es el análogo de ausencia de correlación muestral.
Por ejemplo, dejar 𝑥𝑡 = 1 .denotan una secuencia de constantes y dejar 𝑦𝑡 = 𝑤𝑡 − 𝑤 ̅,
1 𝑇
Dónde 𝑤 ̅̅̅ ≡ ( ) ∑𝑡=1 𝑤𝑡 , es la media muestral de la variable W. entonces x e y son ortogonales:
𝑇
𝑇 𝑇
∑ 1. (𝑤𝑡 − 𝑤 ̅ =0
̅ ) = ∑ 𝑤𝑡 − 𝑇𝑊
𝑡=1 𝑡=1
∞ ∞ ∞ ∞
= 𝑎 ∫ 𝑥. 𝑓𝑥 (𝑥)𝑑𝑥 + 𝑏 ∫ 𝑦. 𝑓𝑦 (𝑦)𝑑𝑦
−∞ −∞
Y entonces
𝐸(𝑎𝑋 + 𝑏𝑌) = 𝑎𝐸(𝑋) + 𝑏𝐸(𝑌) [A. 5.14]
La varianza de (𝑎𝑋 + 𝑏𝑌) es.
∞ ∞
2
𝑣𝑎𝑟(𝑎𝑋 + 𝑏𝑌) = ∫ ∫ [(𝑎𝑥 + 𝑏𝑦) − (𝑎𝜇𝑥 + 𝑏𝜇𝑦) ] . 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥
−∞ −∞
∞ ∞
= ∫ ∫ [(𝑎𝑥 − 𝑎𝜇𝑥 )2 + 2(𝑎𝑥 − 𝑎𝜇𝑥 )(𝑏𝑦 − 𝑏𝜇𝑦 ) + (𝑏𝑦 − 𝜇𝑦 )2 . 𝑓𝑥.𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥 ]
−∞ −∞
∞ ∞ ∞ ∞
= 𝑎2 ∫−∞ ∫−∞(𝑥 − 𝜇𝑥 )2 . 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥 2𝑎𝑏 ∫−∞ ∫−∞(𝑥 − 𝜇𝑥 )(𝑦 −
∞ ∞ 2
𝜇𝑦 ). 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥 + 𝑏 2 ∫−∞ ∫−∞(𝑦 − 𝜇𝑦 ) . 𝑓𝑥.𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥
= 𝑣𝑎𝑟(𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑛 𝑋𝑛
= 𝑎12 𝑣𝑎𝑟(𝑥1 ) + 𝑎22 𝑣𝑎𝑟(𝑥2 ) + ⋯ + 𝑎𝑛2 𝑣𝑎𝑟(𝑥𝑛 ) + 2𝑎1 𝑎2 . 𝑐𝑜𝑣(𝑥1 , 𝑥2 )
+ 2𝑎1 𝑎3 . 𝑐𝑜𝑣(𝑥1, 𝑥3 ) + ⋯ + 2𝑎1 𝑎𝑛 . 𝑐𝑜𝑣(𝑥1 , 𝑥𝑛 ) + 2𝑎2 𝑎3 . 𝑐𝑜𝑣(𝑥2 , 𝑥3 )
+ 2𝑎2 𝑎4 . 𝑐𝑜𝑣(𝑥2 , 𝑥4 ) + ⋯ + 2𝑎𝑛−1 𝑎𝑛 . 𝑐𝑜𝑣(𝑥𝑛−1 , 𝑥𝑛 ) [A. 5.17]
Si las X no están correlacionadas, la [𝐴. 5.17] simplifis a
𝑉𝑎𝑟(𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑛 𝑋𝑛 ) [A.5.18]
2 2 2
= 𝑎1 . 𝑉𝑎𝑟(𝑋1 ) + 𝑎2 . 𝑉𝑎𝑟(𝑋2 ) + ⋯ + 𝑎𝑛 . 𝑉𝑎𝑟(𝑋𝑛 )
−1 ≤ 𝐶𝑜𝑟𝑟(𝑋, 𝑌) ≤ 1. [A.5.19]
𝑋 − 𝜇𝑋 𝑌 − 𝜇𝑋
𝑍= −
√𝑉𝑎𝑟(𝑋) √𝑉𝑎𝑟(𝑌)
(𝑋 − 𝜇𝑋 ) (𝑌 − 𝜇𝑌 ) 2
𝐸[ − ] ≥ 0.
√𝑉𝑎𝑟(𝑋) √𝑉𝑎𝑟(𝑌)
𝐸(𝑋 − 𝜇𝑋 )2 𝐸(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 ) 𝐸(𝑌 − 𝜇𝑌 )2
−2 + ≥ 0.
𝑉𝑎𝑟(𝑋) √𝑉𝑎𝑟(𝑋)√𝑉𝑎𝑟(𝑌) 𝑉𝑎𝑟(𝑌)
1 − 2. 𝐶𝑜𝑟𝑟(𝑋, 𝑌) + 1 ≥ 0,
𝐶𝑜𝑟𝑟(𝑋, 𝑌) ≥ −1
1 −(𝑦 −𝜇)2
𝑓𝑌𝑡 (𝑦𝑡 ) = . exp [ 𝑡 2 ]. [A.5.20]
√2𝜋𝜎 2𝜎
𝑌𝑡 ~𝑁(𝜇, 𝜎 2 )
Para indicar que la densidad de Yt es dada por [A.5.20]
𝐸(𝑌𝑡 − 𝜇)𝑟 = 0 Para 𝑟 = 1,3,5, …
El cuarto momento centrado es
𝐸(𝑌𝑡 − 𝜇)4 = 3𝜎 4 .
De sesgo y curtosis
El sesgo de una variable y, con media 𝜇 es representada por
𝐸(𝑌𝑡 − 𝜇)3
.
[𝑉𝑎𝑟(𝑌𝑡 )]3/2
Una variable con un sesgo negativo es más probable que sea muy por debajo de la media de lo que
va a ser muy por encima de la media. La curtosis es
𝐸(𝑌𝑡 − 𝜇)4
.
[𝑉𝑎𝑟(𝑌𝑡 )]2
Una distribución cuya curtosis excede 3 tiene más masa en las colas de una distribución gaussiana
con la misma varianza.
Función de probabilidad
Supongamos que hemos observado una muestra de tamaño T sobre algunas variables aleatorias YT.
Vamos 𝑓𝑦1 .𝑦2 …,𝑦𝑇 (𝑦1 . 𝑦2 … , 𝑦𝑇 ; 𝜃) denotan la densidad conjunta de Y1, Y2,…,YT
La notación subraya que esta densidad conjunta se presume que depende de un parámetro de la
población de vectores 𝜃. Si queremos ver este conjunto como una función de la
densidad 𝜃 (teniendo en cuenta los datos en Y), el resultado se denomina función de probabilidad
de la muestra.
Por ejemplo, considere una muestra de T i.i.d sacar de una de las variables 𝑁(𝜇, 𝜎 2 ) es el producto
de los términos individuales como [A.5.20]:
𝑇
2)
𝑓𝑦1 .𝑦2 …,𝑦𝑇 (𝑦1 . 𝑦2 … , 𝑦𝑇 ; 𝜇, 𝜎 = ∏ 𝑓𝑦1 (𝑦1 : 𝜇, 𝜎 2 ).
𝑡=1
El registro la densidad conjunta es la suma de los registros de estos términos.
𝑙𝑜𝑔𝑓𝑦1 .𝑦2 …,𝑦𝑇 (𝑦1 . 𝑦2 … , 𝑦𝑇 ; 𝜇, 𝜎 2 )
= ∑𝑇𝑖=1 log 𝑓𝑌1 (𝑦𝑇 ; 𝜇, 𝜎 2 ) [A.5.21]
𝑇
𝑇 𝑇 (𝑦1 − 𝜇)2
= (− ) log(2𝜋) − ( ) log( 𝜎 2 ) − ∑ .
2 2 2 𝜎2
𝑡=1
Así, para una muestra de T variables aleatorias gaussiana con media 𝜇 y varianza 𝜎 2 , el registro de
muestra likelinood función, denotada 𝐿( 𝜇, 𝜎 2 ; 𝑦1 . 𝑦2 , … , 𝑦𝑇 ), viene dada por:
(𝑦 −𝜇)2
𝐿(𝜇, 𝜎 2 ; 𝑦1 . 𝑦2 , … , 𝑦𝑇 ) = 𝑘 − (𝑇/2)log( 𝜎 2 ) − ∑𝑇𝑡=1 21 𝜎2 [A.5.22]
En el cálculo de la muestra para el logaritmo de verosimilitud, función, cualquier término constante
que no implique el parámetro 𝜇 o 𝜎 2 puede ser ignorado en la mayoría de los propósitos. En
[A.5.23], este término es constante
𝑘 − (𝑇/2)log(2𝜋).
1
𝜎̂ 2 = (𝑇) ∑𝑇𝑡=1(𝑦1 − 𝜇̂ )2 . [A.5.25]
Así, la media de la muestra es el MLE de la media de la población y la
muestra de Gaussian variables.
1/ 𝜎 21 0 ⋯ 0
Ω −1
= 0 1/ 𝜎 2 2 ⋯ 0 [A.5.28]
⋮ ⋮ … ⋮
[ 0 0 … 1/ 𝜎 2 𝑛 ]
Límite de probabilidad
Deje que (𝑋1 . 𝑋2 , … , 𝑋𝑇 ) denotan una secuencia de variables aleatorias. A menudo estamos
interesados en lo que sucede a esta secuencia como T se convierte en grande. Por ejemplo, XT
puede denotar la media muestral de T observaciones:
𝑋𝑇 = (1/𝑇) ∙ (𝑌1 + 𝑌2 +∙∙∙ +𝑌𝑇 ) [A.5.29]
En cuyo caso podríamos querer conocer las propiedades de la muestra meam como el tamaño de la
muestra T crece.
La secuencia {𝑋1 . 𝑋2 , … , 𝑋𝑇 } se dice que convergen en la probabilidad de c si para todo ℰ >
0 y 𝛿 > 0 existe un valor n tal que para todo .𝑇 ≥ 𝑁
𝑃{|𝑋𝑇 − 𝑐| > 𝛿} < ℰ. [A.5.30]
Cuando [A.5.30] está satisfecho, el número c se llama la probabilidad de limitar o plim, de la
secuencia 𝑋1 , 𝑋2 , … , 𝑋𝑇 . Esto es a veces indicado como
𝑃
𝑋𝑇 → 𝑐.
Apéndice A Referencias
Chiang, Alpha C. 1974 métodos fundamentales de economía matemática 2d ed. Nueva
York: MacGraw-Hill.
Hoel, Paul G. Sidney C. Puerto, y Charles J. Stone 1971 Introducción a la teoría de la probabilidad
de Boston: Houghton Mifflin.
J. Johnston 1984 métodos econométricos, 3ª ed.: McGraw-Hill de Nueva York.
Lindgren, Bernard W. 1976 teoría estadística 3d ed. Nueva York: Macmillan.
Magnus, Jan R. y Heinz Neudecker 1988: matriz Cálculo Diferencial con
aplicaciones las estadísticas de la onu y econometría. New York: Wiley.
Marsden, Jerrold E. 1974. Análisis clásico elemental. San Francisco: Freeman.
O'Nan, Michael 1976. Álgebra lineal 2D, ed. NewYork: Harcourt Brace Jovanovich.
Strang, Gilbert 1976. Álgebra lineal y sus aplicaciones. New York: Academic Press.
Henri Theil, 1971. Principales de Econometría. New York: Wiley.
Tomás, George B., Jr. 1972 Cálculo y geometría analítica, ed. alternativo Leer Mas.:Addison-
Wesley Publishing Company, Inc.
Cuadros estadísticos
Cuadro B.1
Distribución normal estándar
Ar ea = P rob (Z≥ 𝑧0 )
0 Zo
Segundo decimal de 𝑧0
𝑧0 .00 .01 .02 .03 .04 .05 0,06 .07 .08 0,09
0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
0.1 .4602 .4562 .4.522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
0.7 .2420 .2389 .2358 .2327 .2296 .2766 .2236 .2206 .2177 .2148
0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
1.4 .0808 .0793 .077S .0764 .0749 .0735 .0722 .0708 .0694 .0681
(Continúa en la página siguiente).
Segundo decimal de la 𝑧𝑜
Zo .00 .01 .02 .03 .04 .05 0,06 .07 .08 0,09
1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559
1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
1.8 .0359 .0352 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
2.1. .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
2.7 0,0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
2.9 .0019 .0018 .0017 .0017 .0016 .0016 .0015 .0015 .0014 .0014
3.0 .00135
3.5 .000 233
4.0 .000 031 7
4.5 .000 003 40
5.0 .000 000 287
Las entradas de la tabla de la probabilidad de que dé un N
(0, 1) la variable toma un valor mayor que o igual a z".
Por ejemplo, si Z ~ N (0, 1), la probabilidad de que Z > 1,96
= 0.0250. Por la simetría, las entradas de la tabla
También podría interpretarse como la probabilidad de
que N(0. 1) la variable toma un valor inferior o igual a - 𝑧𝑜 .
Fuente: Thomas H. Wonnacott y Ronald
J. Wonnacott. Introducción a la estadística. 2d ed., pág.
480. Copyright © 1972 por John Wiley & Sons, Inc., de
Nueva York. Reimpreso con permiso de John Wiley & Sons.
Inc.
1 161 200 216 225 230 234 237 239 241 242
4052 4999 5403 5625 5764 5859 5928 5981 6022 6056
2 18.51 19.00 19.16 19.25 19.30 19,33 19.36 19.37 19,38 19.39
98.49 99.00 99.17 99.25 99.30 99.33 99.34 99.36 99.38 99.40
3 10.13 9.55 9.28 9.12 9.01 8.94 8.88 8.84 8.81 8.78
34.12 30.82 29.46 28.71 28.24 19.9 27.67 27.49 27.34 27.23
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.54
5 6.61 5,79 5.41 5.19 5.05 4.95 4.88 4.82 4.78 4.74
16.26 13.27 12.06 11.39 10.97 10.67 10.45 10.27 10.15 10.05
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
13.74 10.92 9,78 9.15 8.75 8.47 8.26 8.10 7.98 7.87
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.63
12.25 9.55 8.45 7.85 7.46 7.19 7.00 6.84 6.71 6.62
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.34
11.26 8.65 7.59 7.01 6.63 6.37 6.19 6.03 5.91 5.82
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.13
10.56 8.02 6.99 6.42 6.06 5.80 5.62 5.47 5.35 5.26
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.97
10.04 7.56 6.55 5.99 5.64 5.39 5.21 5.06 4.95 4.85
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.86
9.65 7.20 6.22 5.67 5.32 5.07 4.88 4.74 4.63 4.54
12 4.75 3.88 3.49 3.26 3.11 3.00 2.92 2.85 2.80 2.76
9.33 6.93 5.95 5.41 5.06 4.82 4.65 4.50 4.39 4.30
13 4.67 3.80 3.41 3.18 3.02 2.92 2.84 2.77 2.72 2.67
9.07 6.70 5.74 5.20 4.86 4.62 4.44 4.30 4.19 4.10
14 4.60 3.74 3.34 3.11 2.96 2.85 2.77 2.70 2.65 2.60
8.86 6.51 5.56 5.03 4.69 4.46 4.28 4.14 4.03 3.94
15 4.54 3.68 3.29 3.06 2.90 2.79 2.70 2.64 2.59 2.55
8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49
8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69
17 4.45 3.59 3.20 2.96 2.81 2.70 2.62 2.55 2.50 2.45
8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41
8.28 6.01 5.09 4.58. 4.25 4.01 3.85 3.71 3.60 3.51
19 4.38 3.52 3.13 2.90 2.74 2.63 2.55 2.48 2.43 2.38
243 244 245 246 24S 249 250 251 252 253 253 254 254 254
6081 6106 6142 6169 6203 6234 6258 6286 6302 6323 6334 6352 6361 6366
19.40 19.41 17.85 19.43 19.44 19.45 19.46 19.47 19.47 19.48 19.49 19.49 19.50 19.50
99.41 99.42 99.43 99.44 99.45 99.46 99.47 99.48 99.48 99.49 99.49 99.49 99.50 99.50
8.76 8.74 8.71 8.69 8.66 8.64 8.62 8.60 8.58 8.57 8.56 8.54 8.54 8.53
27.13 27.05 26.92 26.83 26.69 26.60 26.50 26.41 26.35 26.27 26.23 26.18 26.14 26.12
5.93 5.91 5.87 5.84 5.80 5.77 5.74 5.71 5.70 5.68 5.66 5.65 5.64 5.63
14.45 14.37 14.24 14.15 14.02 13.93 13.83 13.74 13.69 13.61 13.57 13.52 13.48 13.46
4.70 4.68 4.64 4.60 4.56 4.53 4.50 4.46 4.44 4.42 4.40 4.38 4.37 4.36
9.96 9.89 9.77 9.68 9.55 9.47 9.38 9.29 9.24 9.17 9.13 9.07 9.04 9.02
4.03 4.00 3.96 3.92 3.87 3.84 3.81 3.77 3.75 3.72 3.71 3.69 3.68 3.67
7.79 7.72 7.60 7.52 7.39 7.31 7.23 7.14 7.09 7.02 6.99 6.94 6.90 6.88
3.60 3.57 3.52 3.49 3.44 3.41 3.38 3.34 3.32 3.29 3.28 3.25 3.24 3.13
6.54 6.47 6.35 6.27 6.15 6.07 5.98 5.90 5.85 5.78 5.75 5.70 5.67 5.65
3.31 3.28 3.23 3.20 3.15. 3.12 3.08 3.05 3.03 3.00 2.98 2.96 2.94 2.93
5.74 5.67 5.56 5.48 5.36 5.28 5.20 5.11 5.06 5.00 4.96 4.91 4.88 4.86
3.10 3.07 3.02 2.98 2.93 2.90 2.86 2.81 2.80 2.77 2.76 2.73 2.72 2.71
5.18 5.11 5.00 4.92 4.80 4.73 4.64 4.56 4.51 4.45 4.41 4.36 4.33 4.31
2.94 2.91 2.86 2.82 2.77 2.74 2.70 2.67 2.64 2.61 0.59 .56 2.55 2.54
4.78 4.71 4.60 4.52 4.41 4.33 4.25 4.17 4.12 4.05 4.01 3.96 3.93 3.91
2.82 2.79 2.74 2.70 2.65 2.61 2.57 2.53 2.50 2.47 2.45 2.42 .41 2.40
4.46 4.40 4.29 4.21 4.10 4.02 3.94 3.86 3.80 3.74 3.70 3.66 3.62 3.60
2.72 2.69 2.64 2.60 2.54 2.50 2.46 2.42 2.40 2.36 .35 2.32 2.31 2.30
4.22 4.16 4.05 3.93 3.86 3.78 3.70. 3.61 3.56 3.49 3.46 3.41 3.38 3.36
2.63 2.60 2.55 2.51 2.46 2.42 2.38 2.34 .32 2.28 2.26 2.24. 2.22 2.21
4.02 3.96 3.85 3.78 3.67 3.59 3.51 3.42 3.37 3.30 3.27 3.21 3.18 3.16
2.56 2.53 2.48 2.44 2.39 .35 2.31 2.27 2.24 2.21 2.19 2.16 2.14 2.13
3.86 3.80 3.70. 3.62 3.51 3.43 3.34 3.26 3.21 3.14 3.11 3.06 3.02 3.00
2.51 2.48 2.43 2.39 2.33 2.29 2.25 2.21 2.18 2.15 2.12 2.10 2.08 2.07
3.73 3.67 3.56 3.48 3.36 3.29 3.20 3.12 3.07 3.00 2.97 2.92 2.89 2.87
2.45 2.42 2.37 2.33 2.28 2.24 2.20 2.16 2.13 2.09 2.07 2.04 2.02 2.01
3.61 3.55 3.45 3.37 3.25 3.18 3.10 3.01 2.96 2.89 2.86 2.80 2.77 2.75
2.41 2.38 2.33 2.29 2.23 2.19 2.15 2.11 2.08 2.04 2.02 1.99 1.97 1.96
3.52 3.45 3.35 3.27 3.16 3.08 3.00 2.92 2.86 2.79 2.76 2.70 2.67 2.65
2.37 2.34 2.29 2.25 2.19 2.15 2.11 2.07 2.04 2.00 1.98 1.95 1.93 1.92
3.44 3.37 3.27 3.19 3.07 3.00 2.91 2.83 2.78 2.71 2.68 2.62 2.59 2.57
2.34 2.31 2.26 2.21 2.15 2.11 2.07 2.02 2.00 1.96 1.94 1.91 1.90 1.88
3.36 3.30 3.19 3.12 3.00 2.92 2.84 2.76 2.70 2.63 2.60 2.54 2.51 2.49
Denominador
Grados de
Libertad Grados de libertad del numerador (𝑚1 )
()𝑚2 1 2 3 4 5 . 6 7 8 9 10
20 4.35 3.49 3.10 2.87 2.71 2.60 2.52 2.45 2.40 2.35
8.10 5.85 4.94 4.43 4.10 3.87 3.71 3.56 3.45 3.37
21 4.32 3.47. 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32
8.02 5.78 4.87 4.37 4.04 3.81 3.65 3.51 3.40 3.31
22 4.30 3.44 3.05 2.82 2.66 2.55 2.47 2.40 2.35 2.30
7.94 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26
23 4.28 3.42 3.03 2.80 2.64 2.53 2.45 2.38 2.32 2.28.
7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21
24 4.26 3.40 3.01 2.78 2.62 2.51 2.43 2.36 2.30 2.26
7,82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.25 3.17
25 4.24 3.38 2.99 2.76 2.60 2.49 2.41 2.34 2.28. 2.24
7.77 5.57 4.68 4.18. 3.86 3.63 3.46 3.32 3.21 3.13
26 4.22 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22
7.72 5.53 4.64 4.14 3.82. 3.59 3.42 3.29 3.17 3.09
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.30 2.25 2.20
7.68 5.49 4.60 4.11 3.79 3.56 3.39 3.26 3.14 3.06
28 4.20 3.34 2.95 2.71 2.56 2.44 2.36 2.29 2.24. 2.19
7.64 5.45 4.57 4.07 3.76 3.53 3.36 3.23 3.11 3.03
29 4.18 3.33 2.93 2.70 2.54 2.43 2.35 2.28. 2.22 2.18
7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.08 3.00
30 4.17 3.32 2.92 2.69 2.53 2.42 2.34 2.27 2.21 2.16
7.56 5.39 4.51 4.02 3.70. 3.47. 3.30 3.17 3.06 2.98
32 4.15 3.30 2.90 2.67 2.51 2.40 2.32 .15 2.19 2.14
7.50 5.34 4.46 3.97 3.66 3.42 3.25 3.12 3.01 2.94
34 4.13 3.28 2.88 2.65 2.49 2.38 2.30 2.23 2.17 2.12
7.44 5.29 4.42 3.93 3.61 3.38 3.21 3.08 2.97 2.89
36 4.11 3.26 2.86 2.63 2.48 2.36 2.28. 2.21 2.15 2.10
7.39 5.25 4.38 3.89 3.58 3.35 3.18 3.04 2.94 2.86
38 4.10 3.25 2.85 2.62 2.46 2.35 2.26 2.19 2.14 2.09
7.35 5.21 4.34 3.86 3.54 3.32 3.15. 3.02 2.91 2.82
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.07
7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.88 2.80
42 4.07 3.22 2.83 1.59 2.44 2.32 2.24. 2.17 2.11 2.06
7.27 5.15 4.29 3.80 3.49 3.26 3.10 2.96 2.86 2.77
44 4.06 3.21 2.82 2.58 2.43 2.31 2.23 2.16 2.10 2.05
7.24 5.12 4.26 3.78 3.46 3.24 3.07 2.94 2.84 2.75
46 4.05 3.20 2.81 2.57 2.42 2.30 2.22 2.14 2.09 2.04
7.21 5.10 4.24 3.76 3.44 3.22 3.05 2.92 2.82 2.73
48 4.04 3.19 2.80 2.56 2.41 2.30 2.21 2.14 2.08 2.03
7.19 5.08 4.22 3.74 3.42 3.20 3.04 2.90 2.80 2.71
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.02
7.17 5.06 4.20 3.72 3.41 3.18 3.02 2.88 2.78 2.70
55 4.02 3.17 2.78 2.54 2.38 2.27 2.18 2.11 2.05 2.00
7.12 5.01 4.16 3.68 3.37 3.15. 2.98 2.85 2.75 2.66
Denominador
Grados de
Libertad Grados de libertad del numerador (𝑚1 )
(𝑚2 ) 1 2 3 4 5 • 6 7 8 9 10
60 4.00 3.15. 2.76 2.52 2.37 2.25 2.17 2.10 2.04 1.99
7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63
65 3.99 3.14 2.75 2.51 2.36 2.24. 2.15 2.08 2.02 1.98
7.04 4.95 4.10 3.62 3.31 3.09 2,93 2.79 2.70 2.61
70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.01 1.97
7.01 4.92 4.08 3.60 3.29 3.07 2.91 2.77 2.67 2.59
80 3.96 3.11 2.72 2.48 2.33 2.21 2.12 2.05 1.99 1.95
6.96 4.88 4.04 3.56 3.25 3.04 2.87 2.74 2.64 2.55
100 3.94 3.09 2.70 2.46 2.30 2.19 2.10 2.03 1.97 1.92
6.90 4.82 3.98 3.51 3.20 2.99 2.82 2.69 2.59 2.51
125 3.92 3.07 2.68 2.44 2.29 2.17 2.08 2.01 1.95 1.90
6.84 4.78 3.94 3.47. 3.17 2.95 2.79 2.65 2.56 2.47
150 3.91 3.06 2.67 2.43 2.27 2.16 2.07 2.00 1.94 1.89
6.81 4.75 3.91 3.44 3.14 2.92 2.76 2.62 2.53 2.44
200 3.89 3.04 2.65 2.41 2.26 2.14 2.05 1.98 1.92 1.87
6.76 4.71 3.88 3.41 3.11 2.90 2.73 2.60 2.50 2.41
400 3.86 3.02 2.62 2.39 2.23 2.12 2.03 1.96 1.90 1.85
6.70 4.66 3.83 3.36 3.06 2.85 2.69 2.55 2.46 2.37
1000 3.85 3.00 2.61 2.38 2.22 2.10 2.02 1.95 1.89 1.84
6.66 4.62 3.80 3.34 3.04 2.82 2.66 2.53 2.43 2.34
∞ 3.84 2.99 2.60 2.37 2.21 2.09 2.01 1.94 1.88 1.83
6.64 4.60 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32
La tabla describe la distribución de una variable F con m, m2
numerador y grados de libertad del denominador. Entradas en el tipo de
letra estándar proporcionan el 5% de valor crítico, y entradas en negrita
dar el 1% de valor crítico para la distribución. Por ejemplo. Hay un 5% de
probabilidad de que una variable F con 2 numerador y 50 grados de
libertad del denominador superaría 3.18; sólo hay un 1% de probabilidad
de que superaría el 5,06.
Fuente: George W. Snedecor y William G. Cochran, métodos estadísticos, 8th
ed. Copyright 1989 por Iowa State University Press. Reimpreso con
permiso de Iowa State University Press.
1.95 1.92 1.86 1.81 1.75 1.70 1.65 1.59 1.56 1.50 1.48 1.44 1.41 1.39
2.56 2.50 2.40 2.32 2.20 2.12 2.03 1.93 1.87 1.79 1.74 1.68 1.63 1.60
1.94 1.90 1.85 1.80 1.73 1.68 1.63 1.57 1.54 1.49 1.46 1.42 1.39 1.37
2.54 2.47 2.37 2.30 2.18 2.09 2.00 1.90 1.84 1.76 1.71 1.64 1.60 1.56
1.93 1.89 1.84 1.79 1.72 1.67 1.62 1.56 1.53 1.47 1.45 1.10 1.37 1.35
2.51 2.45 2.35 2.28 2.15 2.07 1.98 1.88 1.82. 1.74 1.69 1.62 1.56 1.53
1.91 1.88 1.82. 1.77 1.70 1.65 1.60 1.54 1.51 1.45 1.42 1.38 1.35 1.32
2.48 2.41 2.32 2.24 2.11 2.03 1.94 1.84 1.78 1.70 1.65 1.57 1.52 1.49
1.88 1.85 1.79 1.75 1.68 1.63 1.57 1.51 1.48 1.42 1.39 1.34 1.30 1.28
2.43 2.36 2.26 2.19 2.06 1.98 1.89 1.79 1.73 1.64 1.59 1.51 1.46 1.43.
1.86 1.83 1.77 1.72 1.65 1.60 1.55 1.49 1.45 1.39 1.36 1.31 1.27 1.25
2.40 2.33 2.23 2.15 2.03 1.94 1.85 1.75 1.68 1.59 1.54 1.46 1.40 1.37
1.85 1.82. 1.76 1.71 1.64 1.59 1.54 1.47 1.44 1.37 1.34 1.29 1.25 1.12
2.37 2.30 2.20 2.12 2.00 1.91 1.83 1.72 1.66 1.56 1.51 1.43 1.37 1.33
1.83 1.80 1.74 1.69 1.62 1.57 1.52 1.45 1.42 1.35 1.32 1.26 1.22 1.19
2.34 2.28. 2.17 2.09 1.97 1.88 1.79 1.69 1.62 1.53 1.48 1.39 1.33 1.28
1.81 1.78 1.72 1.67 1.60 1.54 1.49 1.42 1.38 1.32 1.28 1.22 1.16 1.13
2.29 2.23 2.12 2.04 1.92 1.84 1.74 1.64 1.57 1.47 1.42 1.32 1.24 1.19
1.80 1.76 1.70 1.65 1.58 1.53 1.47 1.41 1.36 1.30 1.26 1.19 1.13 1.08
2.26 2.20 2.09 2.01 1.89 1.81 1.71 1.61 1.54 1.44 1.38 1.28 1.19 1.11
1.79 1.75 1.69 1.64 1.57 1.52 1.46 1.40 1.35 1.28 1.24 1.17 1.11 1.00
2.24. 2.18 2.07 1.99 1.87 1.79 1.69 1.59 1.52 1.41 1.36 1.25 1.15 1.00
Caso 1.
25 -11.9 -9.3 -7.3 -5.3 1.01 1.40 1.79 2.28
50 -12.9 -9.9 -7.7 -5.5 0.97 1.35 1.70 2.16
100 -13.3 10.2 - 7.9 -5.6 0.95 1.31 1.65 2.09
250 -13.6 -10.3 -8.0 -5.7 0.93 1.28 1.62 2.04
500 -1.37 -10 .4 - 8.0 -5.7 0.93 1.28 1.61 2.04
-13.8 10.5 -8.1 -5.7 0.93 1.28 1.60 2.03
Caso 2
25 -17.2 -14.6 -12.5 10.2 -0. 76 0.01 0.65 1.40
50 -18.9 -15.7 -13.3 -10.7 -0.81 -0.07 0.53 1.22
100 -19.8 -16.3 -1.37 -11 .0 -0.83 -0.10 0.47 1.14
250 -20.3 -16 .6 -14.0 -11.2 -0.84 -0.12 0.43 1.09
500 -20.5 -16.8 -14 .0 -11.2 -0.84 -0.13 0.42 1.06
-20.7 -16.9 -14.1 -11.3 -0.85 -0.13 0.41 1.04
Caso 4
25 -22.5 -19.9 -17.9 15 .6 -3.66 -2.51 -1.53 -0.43
50 -25.7 -22.4 -19.8 -16.8 -3.71 -2.60 -1. 66 0.65
100 -27.4 -23 .6 -20.7 17.5 -3.74 -2.62 -1.73 -0.75
250 -28.4 -24.4 -21.3 -18.0 -3.75 -2.64 -1.78 -0.82
500 -28.9 -24.8 -21.5 -18.1 -3.76 -2.65 -1.78 -0.84
-29.5 -25.1 -21.8 -18.3 -3.77 -2.66 -1.79 -0.87
La probabilidad indicada en la cabecera de la columna es el área en la parte izquierda de la cola.
Fuente: Wayne A. Fuller. Introducción a la Estadística de la serie de tiempo. Wiley. Nueva York, 1976, pág. 371.
Caso 1
25 - 2.66 - 2.26 - 1.95 - 1.60 0.92 1.33 1.70 2.16
50 -2.62 -2.25 - 1.95 - 1.61 0.91 1.31 1.66 2.08
100 - 2.60 -2.24 -1.95 - 1.61 0.90 1.29 1.64 2.03
250 -2.58 -2.23 -1.95 -1.62 0.89 1.29 1.63 2.01
500 -2.58 -2.23 - 1.95 -1.62 0.89 1.28 1.62 2.00
-2.58 -2.23 -1.95 -1.62 0.89 1.28 1.62 2.00
Caso 2
25 -3.75 -3.33 -3.00 -2.63 -0.37 0.00 0.34 0.72
50 -3.58 -3.22 -2.93 -2.60 -0.40 -0.03 0.29 0.66
100 -3.51 -3.17 -2.89 -2.58 -0.42 -0.05 0.26 0.63
250 - 3.46 3.14 - 2.88 - 2.57 -0.42 -0.06 0.24 0.62
500 -3.44 -3.13 -2.87 -2.57 -0.43 -0.07 0.24 0.61
-3.43 -3.12 -2.86 -2.57 -0.44 -0.07 0.23 0.60
Caso 4
25 -4.38 -3.95 -3.60 -3.24 -1.14 -0.80 -0,50 -0,15
50 -4.15 -3.80 -3.50 -3.18 -1,19 - 0.87 -0.58 - 0.24
100 -4.04 -3.73 -3.45 - 3.15. -1.22 -0,90 -0.62 -0.28
250 - 3.99 - 3.69 - 3.43 -3.13 -1.23 -0.92 -0.64 0.31
500 - 3.98 -3.68 -3.42 -3.13 -1.24 -0,93 0.65 - 0.32
-3.96 -3.66 -3.41 -3.12 -1.25 -0.94 0.66 -0.33
La probabilidad indicada en la cabecera de la columna es el área en la parte izquierda trasera,
Fuente: Wayne A. Fuller, Introducción a la Estadística de la serie de tiempo, Wiley, Nueva York, 1976, pág. 373
esto es
(j)
ψj = f11
3.4 De [2.1.6],
ψ(L)c = (ψ0 + ψ1 + ψ2 + ψ3 + ⋯ ). c
Pero el sol (ψ0 + ψ1 + ψ2 + ψ3 + ⋯ ) puede ser visto como el polinomio ψ(z) evaluado
en z = 1:
ψ(L)c = ψ(1). c
Además, desde [3.4.19]
ψ(1) = 1/(1 − ϕ1 − ϕ2 )
El operador invertible es
(1 + 0.4z)(1 + 0.5z) = (1 + 0.9z + 0.2z 2 )
So the invertible representation is
Yt = (1 + 0.9𝐿 + 0.2𝐿2 )𝜀𝑡
E(ε2t ) = 4
Capítulo 4. Predicción
1 0 0 1 0 0 1 −2 3
4.3 [−2 1 0] [0 2 0] [0 1 1]
3 1 1 0 0 1 0 0 1
7.1 Por continuidad, |g(XT , cT ) − g(ε, c)| > δ solo si |XT − ε| + |cT − c| > η para
algunos η. Pero cT → c y XT → ε s ignifica que podemos encontrar un N tal que
|cT − c| < η⁄2 para todo T ≥ N y tal que P{|XT − ε| > η⁄2} < ε para todo T ≥ N. Por
lo tanto P{|XT − ε| + |cT − c| > η} es menor que ε para todo T ≥ N, implicando esto
P{|g(XT , cT ) − g(ε, c)| > δ} < ε
7.2 (a) Para un proceso AR(1), ψ(z) = 1/(1 − ϕz) y g y (z) = σ2 /(1 − ϕz)(1 −
ϕz −1 ), con
̅t = Yt − μ. Pero
donde Y
T T
̅t + μ)( ̅
[1/(T − k)] ∑ Yt Yt−k = [1/(T − k)] ∑ (Y Yt−k + μ)
t=k+1 t=k+1
T T
̅t Y
= [1/(T − k)] ∑ Y ̅t−k + μ [1/(T − k)] ∑ Y
̅t−k
t=k+1 t=k+1
T
̅t + μ2
+μ[1/(T − k)] ∑ Y
t=k+1
̅t Y
→ E(Y ̅t−k ) + 0 + 0 + μ2
= E(Y̅t + μ)(E(Y ̅t−k + μ)
= E(Y ̅t ̅
Yt−k )
t=1 t=1
2
8.2 El valor crítico del 5% para una variable x (2) es 5.99. Una variable F(2, N) endrá
un valor crítico que se aproxima a 5.99/2 = 3.00 como N → ∞. Se necesita N de alrededor
de 300 observaciones antes de que el valor crítico de una variable F(2, N) alcance 3.03, o
dentro del 1% del valor límite.
8.3 Cuatro momentos de xt ut son la forma E(ε4t ). E(yt−i yt−j yt−m ). El primer término
está limitado bajo la suposición 8.4, y el segundo término está limitado como es el Ejemplo
7.14. Además, un elemento típico de (1/T) ∑Tt=1 u2t xt xt ′ es de la forma
T T T
(1/T) ∑ ε2t yt−i yt−j = (1/T) ∑(ε2t − σ )yt−i yt−j + σ (1/T) ∑(ε2t − σ2 )yt−i yt−j
2 2
(1 + θ2 )σ2ε h1 θσ2ε
10.2 (a) Γ0 = [ ]
h1 θσ2ε (1 + θ2 )σ2ε + σ2u
θσ2ε 0
Γ1 = [ 2 ]
h1 (1 + θ )σε h1 θσ2ε
2 2
0 0
Γ2 = [ 2 ]
h1 θσε 0
Γ−1 = Γ1′ Γ−2 = Γ2′
π sYX(ω) iωk π
(d) (2π)−1 ∫−π s e dω = (2π)−1 ∫−π h1 eiωk e−iωk dω
XX(ω)
T T T
(1/T) ∑ εt yt−i yt−j = (1/T) ∑(ε2t − σ )yt−i yt−j + σ (1/T) ∑(ε2t − σ2 )yt−i yt−j
2 2
T T T
(1/T) ∑ ε2t yt−i yt−j = (1/T) ∑(ε2t − σ2 )yt−i yt−j + σ2 (1/T) ∑(ε2t − σ2 )yt−i yt−j
t=1 t=1 t=1
donde
zt ≡ {εj1 }
P
Proposición 7.10. Por lo tanto, (1/T) ∑Tr=1 zr → 0. Además,
T
P
(1/T) ∑ yj1 .r−ι1 yj2 .r−ι2 → E(yj1 .r−ι1 yj2 .r−ι2 )
r=1
En virtud de la Proposición 10.2(d).
𝚿s Diverge como s → ∞.
(c) y1.1+2 − E(y1.r+2|y0 yr−1 , … ) = ε1.r+2 + 0.3ε1.r+1 + 0.8ε2.r+1
MSE = 1 + (0.3)2 + (0.8)2 (2) = 2.37.
La fracción debida a ε1 = 1.09/2.37 = 0.46.
Además, desde[13.3.9],
θ̅ε̅r|1 = {θ̅σ ̅2 + θ̅2 p̅r ]} . {yr − μ − θ̅ε̅r−1|r−1 }
̅2 /[σ
= {θ−1 θ2 σ2 /[σ2 + θ2 pr ]} . {yr − μ − θ̅ε̅r−1|r−1 }
= {θσ2 /[σ2 + θ2 pr ]} . {yr − μ − θ̅ε̅r−1|r−1 }
Cuál es la misma ecuación de diferencia que genera {θ̅ε̅r|1 }, con ambas secuencias, por
supuesto comenzando con θε̂0|0 = θ̅ε̅0|0 = 0. Con las secuencias (𝚮 ′ 𝚸𝐫+𝟏|𝐫 𝚮 + 𝐑) y
𝚨′ xr+1 + 𝚮 ′ ξ̂r+1|r Idénticas para las representaciones, la probabilidad en [13.4.1] a [13.4.3]
debe ser idéntica.
13.6 La innovación εr en [13.5.22] será fundamental cuando |ϕ − K| < 1. De
[13.5.25], vemos que
ϕ − K = ϕσ2W / (σ2W + P).
Dado que P es una variance, se deduce que P ≥ 0, y así |ϕ − Κ| ≥ |ϕ|, que se especifica
que es menor que la unidad. Esto surge como consecuencia del resultado general en la
Proposición 13.2 que el autovalor de 𝐅 − 𝐊𝐇 ′ está dentro del círculo unitario.
De [13.5.23] y la expresión precedente para ϕ − K,
−(ϕ − K)E(ε12 ) = −(ϕ − K)(σ2W + P) = −ϕσ2W
Como se afirma. Además,
[1 + (ϕ − K)2 ]E(ε2r ) = (σ2W + P) + (ϕ − K)ϕσ2W
= (1 + ϕ2 )σ2W + P − Kσ2W
Pero de [13.5.24] y [13.5.25],
P = Kϕσ2W + σ2W
Y entonces
[1 + (ϕ − K)2 ]E(ε2r ) = (1 + ϕ2 )σ2W + σ2W
Para entender estas fórmulas desde la perspectiva de las fórmulas del Capítulo 4, observe
que el modelo añade un proceso en AR(1):
(1 − ϕL)yr+1 = vr+1 + (1 − ϕL)wr+1
La primera autocovariancia del proceso MA(1) en el lado derecho si esta expresión es
−ϕσ2W , mientras que la varianza es (1 + ϕ2 )σ2W + σ2W .
T. E ((1⁄T) ∑[λ1 + λ2 (t⁄T)]2 ε2r − (1⁄T) ∑ σ2 [λ12 + 2λ1 λ2 (t⁄T) + λ22 (t⁄T)2 ])
r=1 r=1
→ M. E(ε2r − σ 2 )2
<∞
Por lo tanto
(1⁄T) ∑Tr=1[λ1 + λ2 (t⁄T)]2 ε2r
m.s
→ (1⁄T) ∑Tr=1 σ2 [λ12 + 2λ1 λ2 (t⁄T) + λ22 (t⁄T)2 ]
→ σ2 λ1 Qλ
16.2 Recordemos que la varianza de bT viene dada por
−1
E(bT − β)(bT − β)′ = σ2 (∑Tr=! xr xr′ )
−1
2 T T(T + 1)/2
=σ [ ]
T(T + 1)/2 T(T + 1)(2T + 1)/6
Pre- y post multiplicar por YT resultando
E[YT (bT − β)(bT − β)′ YT ]
−1
T T(T + 1)/2
= σ2 YT [ ] YT
T(T + 1)/2 T(T + 1)(2T + 1)/6
−1
2 −1 T T(T + 1)/2 −1
= σ . {YT [ ]Y }
T(T + 1)/2 T(T + 1)(2T + 1)/6 T
1 −1
1
→ σ2 [ 2]
1 1
2 3
El elemento (2,2) de esta expresión matriz sostiene que
2
E[T 3/2 (δ̂T − δ)] → 12σ2
y entonces
m.s.
T(δ̂T − δ) → 0
16.3 Nótese que
T 2
[T −1 ∑(t/T)yt ]
t=1
= T −2 [(1/T)y1 + (2/T)y2 + ⋯ + (T/T)yT ]x[(1/T)y1 + (2/T)y2 + ⋯
+ (T/T)yT ]
que tiene expectativas
12 2
T−1 ∑ yr−1 ur L 2{λ .[W(1)] −γ0 }
17.2 (a) T(ρ̂T − 1) = →
T−2 ∑ y2r−1 λ2 .∫[W(r)]2 dr
De la Proposición 17.3(e) y (h)
(b) ̂2pT = T 2 . sT2 ÷ (∑ yT−1
T2σ 2 )
= sT2 ÷ (T −2 ∑ yT−1
2 )
L
→ γ0 ÷ λ2 . ∫[W(r)]2 dr
De la Proposición 17.3(h) y [17.6.10]
1/2
(c) t T = T(ρ̂T − 1) ÷ (T 2 . σ
̂2pT )
1
L {λ2 .[W(1)]2 −γ0 }
→ 2 λ2 .∫[W(r)]2 dr ×(λ2 . ∫[W(r)]2 dr)1/2 ÷ (γ0 )1/2
1 1 2
{[W(1)]2 − 1
L
→ { 2 + 2 (λ − γ0 ) }
{∫[W(r)]2 dr}1/2 λ2 . {∫ W(r)]2 dr}1/2
T −1/2 ∑ ui λ. W(1)
L 1 2. 2
(b) [T −1 ∑ ξr−1 ui ] → [ (2) {λ [W(1)] − γ0 ]
T −3/2 ∑ tui λ. {W(1) − ∫[W(r) dr}
(c) Esto se deduce de la expresión [17.4.52] y las respuestas (a) y (b)
(d) Los cálculos son prácticamente idénticos a los de [17.4.54]
P
(e) t T = T(p̂T − 1) ÷ {T 2 . σ2pT }1/2 → T(p̂T − 1) ÷ {ST2 /λ2. ). Q}1/2
(f) La respuesta (c) establece que
T(p̂T − 1)
−1
1 ∫[W(r) dr 1/2
W(1)
L 1/2{[W(1)]2 − 1}
→ [0 1 0] ∫[W(r) dr ∫[W(r)2 dr ∫ rW(r) dr
W(1) − ∫[W(r) dr
[ ]
1/2 ∫ rW(r) dr 1/3
{ [ ] }
1
= T(p̂T − 1) − (Q/λ2 )(λ2 − γ0 )/λ} ÷ √Q
2
L
→ V ÷ √Q
Del análisis de (f)
Para estimar γ0 y λ, se podría utilizar
γ̂j = T −1 ∑Tr=j+1 ur ur−1 para j=0,1,……….,q
q j
λ2 = γ0 + 2 ∑j=1 [1 − ⁄(q + 1)] γ̂j
Donde û es la muestra PLS residual y q es el número de autovariancias utilizadas para
aproximar ψ (L)Er . El estaditico en (f) se puede comparar con el caso 4 entradas de las
Tablas B.5, mientras que la estática en (g) se puede comparar con las entradas del caso 4 de
la Tabla B.6
17.4 (b) El caso 1 del cuadro B.5 es asintótico.
(C) El caso 1 del cuadro B.6 es asintótico.
Dónde
1 σ1 . ∫ W1 (r)dr σ2 . ∫ W2 (r)dr
−1 1/2
L σ2 0′
→ σ−2
2 h1 ÷ {σ2T e1′ [ 2
e1 } ]
0 Q
= h1 /(σ3 . σ2 ) ~ N(0,1)
(c) ̂
Recordar que δT = η̂T − γ̂T , donde n̂T es Op (T −1 ) y ̂
YT es Op (T −1/2 ). Bajo la
hipótesis nula, los tres valores y cero; por lo tanto,
P
T1/2 δ̂T → −T1/2 γ̂T
que es asintóticamente gaussiana. La prueba t de δ = 0 es asintóticamente equivalente a la
prueba t de γ = 0.
y
−1/2 αT
̂
[T 0 ][ ]=
0 T 1/2 γ̂T − γ0
−1/2
0 ][ T Σy2r −1 T −3/2 −1
[T 1/2 Σy 2 ] [ 0 ]
0 T 2r Σy2r 0 T −5/2
× [T
−3/2
0 ] [ Σ(y1r − γ0 y2r ) ]
0 T Σy2r (y1r − γ0 y2r )
−5/2
−1
= {[T
−3/2
0 ][ T Σy2r T −1/2
] [ 0 ]}
2
0 T −5/2 Σy2r Σy2r 0 T1/2
× [T
−3/2
0 ] [ Σ(y1r − γ0 y2r ) ]
−5/2 Σy (y − γ y )
0 T 2r 1r 0 2r
−1
1 T −2 Σy2r T −3/2 Σ(y1r − γ0 y2r )
= [ −2 2 ] [ −5/2 ]
T Σy2r T −3 Σy2r T Σy2r (y1r − γ0 y2r )
Pero
Σy2r = Ty
⏟ 2r + δ
⏟2 Σt + ⏟
Σξ2r
Op (T) Op (T2 ) Op (T3/2 )
p p
2
and thus T −2 Σy2r → T δ2 . Σt → δ2 /2. Similarly, T −3 Σy2r
−2
→ T −3 δ22 . Σt 2 →
2
δ2 /2. Además Σ(y1r − γ0 y2r ) = T(y ⏟ 1r − γ0 ξ2r )
⏟ 1,0 − γ0 y2,0 ) + Σ(ξ
Op (T) Op (T3.2
p
estableciendo que T −3/2 Σ(y1r − γ0 y2r ) → T −3/2 Σ(ξ1r − γ0 ξ2r ). similar
p
Σy2r (y1r − γ0 y2r ) → Σ(y2.0 + δ2 t + ξ2r ) (y1.0 + ξ1r − γ0 y2,0 −
γ0 ξ2r )
p
y T −5/2 Σy2r (y1r − γ0 y2r ) → T −5/2 Σδ2 t(ξ1r − γ0 ξ2r )
(b) Δûr = (y1r − α̂T − γT y2r ) − (y1,r−1 − α ̂T − γT y2,r−1 )
= Δy1r − γ̂T Δy2r
p
→ Δy1r − γ0 Δy2r
p
ya que γ̂T → γ0
19.2 La Proposición 18.1 es usado para mostrar que
T1/2 (β̂T − β)
[T1/2 (α
̂T − α)] =
T(γ̂T − γ)
′ −1
T −1 ∑ wr wr′ T −1 ∑ wr T −3/2 ∑ wr y2r T −1/2 ∑ wr z̅r
[ T −1 ∑ wr′ 1 ′
T −3/2 ∑ y2r ] [ T −1/2 ∑ z̅r ]
T −3/2 ∑ y2r wr′ T −3/2 ∑ y2r T −2 ∑
y2r y2r′
T −1 ∑ y2r z̅r
19.3 Nótese como en [19.3.13] que bajo la hipótesis nula xT2 = {R γ . T(γ̂T −
−1
−1 ∑ ′ −1
T wr wr′ T −1 ∑
wr T−3/2 ∑
wr y2r 0
γ)}′ {sT2 [0 0 R γ ]x [ T −1 ∑ wr′ 1 T −3/2 ∑ ′
y2r ] [ ] 0′ {R γ . T(γ̂T −
T −3/2 ∑ y2r wr′ T −3/2 ∑ y2r T −2 ∑ ′
y2r y2r R′γ
{ }
γ)}
−1
−1
Q 0 0 0
p
→ [R γ λ̅11 ν2 ]′ {sT2 [0 0 R γ ]x [0′ 1 ′
{∫[W2 (r)]. [W2 (r)]′dr}Λ 22 ] [ 0′ ] [R γ λ̅11
0 ̅ ̅ 22 {∫[W2 (r)]. [W2 (r)]′dr}Λ′22
Λ 22 ∫ W2 (r)dr Λ R′γ
{ }
De donde [19.3.25] sigue inmediatamente.
19.4
3
1 T −1 ∑ wr wr′ T −1 ∑ wr T −2 ∑ wr y2r
′
T −2 ∑ wr t
T 2 (β̅T − β) 3
1 T −1 ∑ wr′ 1 T −2 ∑ y2r
′
T −2 ∑ t
T 2 (α
̅T − α) =
3 3 5
T(γ̅T − γ) T −2 ∑ y2r wr′ T −2 ∑ y2r ′
T −2 ∑ y2r y2r T −2 ∑ y2r t
3
[T 2 (δ̅T − δ) ] 5
−2
[ T ∑ twr
′
T −2 ∑ t T −2 ∑ y2r
′
T −3 ∑ t 2 ]
T −1/2 ∑ wr ur
T −1/2 ∑ ur
x −1
T ∑ y2r ur
[ T −3/2 ∑ t ur ]
Q 0 0 0
3
L 0′ 1 T ∑ y2r ′ −
2 1/2
→
0 Λ ̅ 22 ∫ W2 (r)dr Λ̅ 22 {∫[W2 (r)]. [W2 (r)]′dr}Λ̅′22 ̅ 22 ∫ rW2 (r)dr
Λ
[0′ 1/2 {∫ r[W2 (r)]′dr}Λ̅′22 1/3 ]
h1
λ̅11 W1 (1)
x ̅ ̅11
Λ 22 {∫[W2 (r)]. dW1 (r)}Λ
̅11 {W1 (1) − ∫[W1 (r)]. dr}]
[Λ
como se confirma.
|In − Σ̂UU
−1 ̂
ΣUV Σ̂VV
−1 ̂
ΣVU |k i = (1 − λi )k i
−1 ̂
Asi que θi = (1 − λi ) es un valor propio de In − ΣUU ΣUV Σ̂VV
−1 ̂
ΣVU y
|Σ̂GG | = |Σ̂UU | . ∏ni=1(1 − λi ).
Por lo tanto, las dos expresiones son equivalentes.
20.4 Aqui, λi es el escalar