Hamilton

1
Ecuaciones Diferenciales
1.1. Ecuaciones de Diferencia de Primer Orden

Este libro se ocupa de las consecuencias dinámicas de los acontecimientos en el tiempo. Digamos
que estamos estudiando una variable cuyo valor en la fecha t está denotado * Supongamos que se
nos da una ecuación dinámica que relaciona que el valor toma en la fecha con otra variable y
con el valor y asumido en el período anterior:
[1.1.1]
La ecuación [1.1.1] es una ecuación lineal de diferencias de primer orden. Una ecuación de
diferencia es una expresión que relaciona una variable con sus valores anteriores. Es una
ecuación de diferencia de primer orden porque sólo aparece el primer retardo de la variable
en la ecuación. Obsérvese que expresa como una función lineal de y .
Un ejemplo de [1.1.1] es la función estimada de demanda de dinero de Goldfeld (1973) para los
Estados Unidos. El modelo de Goldfeld relacionó el registro de las tenencias de dinero real del
público con el logaritmo del ingreso real agregado ( ), el logaritmo del tipo de interés de las
cuentas bancarias ( ), y el logaritmo de la tasa de interés en papel comercial ( ):
0.27 0.72 0.19 0.045 0.019 [1.1.2]
Éste es un caso especial de [1.1.1] con , 0.72, y
0.27 0.19 0.045 0.019

A efectos de analizar la dinámica de dicho sistema, esto simplifica un poco el álgebra para resumir
los efectos de todas las variables de entrada (It, rbty rct) en términos de escalar wt como aquí.
En el Capítulo 3 la variable de entrada wt será considerada como una variable aleatoria, y las
implicaciones de [1.1.1] para las propiedades estadísticas de la serie de resultados yt serán
exploradas. En preparación para esta discusión, es necesario primero entender la mecánica de las
ecuaciones de las diferencias. Para la discusión en los capítulos 1 y 2, los valores para la variable de
entrada {w1, w2, …} simplemente se considerarán como una secuencia de números deterministas.
Nuestro objetivo es responder a la siguiente pregunta: Si un sistema dinámico es descrito por
[1.1.1], ¿cuáles son los efectos sobre y de los cambios en el valor de w?
Solución de una Ecuación de Diferencia por Sustitución Recursiva

La presunción es que la ecuación dinámica [1.1.1] gobierna el comportamiento de para
todas las fechas de . Por lo tanto, para cada fecha tenemos una ecuación que relaciona el valor de
1.1 Ecuaciones de Diferencia de Primer Orden 1
para esa fecha al valor anterior y el valor actual de .
Fechas Ecuación
0 [1.1.3]
1 [1.1.4]
2 [1.1.5]
⋮ ⋮
t [1.1.6]
Si se conoce el valor inicial de y para la fecha 1 y el valor si w se ajusta a las fechas

0,1,2, . .. entonces es posible simular este sistema dinámico para encontrar el valor de para
cualquier fecha. Por ejemplo, si conocemos el valor de para 1 y el valor de para 0,
podemos calcular el valor de para 0 directamente de [1.1.3]. Dado este valor de el valor de
para 1, podemos calcular el valor de para 1 de [1.1.4]:
,
O
Dado este valor de y y el valor de w para 2, podemos calcular el valor de y para 2 de

[1.1.5]
,
O
Continuando recursivamente en la moda, el valor que y toma en la fecha t puede describirse como
una función de su valor inicial yy la historia de w entre la fecha 0 y la fecha t:
⋯ [1.1.7]
Este procedimiento se conoce como resolver la ecuación de diferencia [1.1.1] por sustitución recursiva.
Multiplicadores dinámicos
Notar que [1.1.7] expresa como una función lineal del valor inicial los valores
históricos de . Esto hace que sea muy fácil calcular el efecto de en . Si cambiaba con y
, ,…, ... tomado como no afectado, el efecto en sería dado por

∅ [1.1.8]
Tenga en cuenta que los cálculos serían exactamente los mismos si la simulación dinámica se
iniciara en la fecha t (tomando y dado); Entonces y podría describirse como una función de yt-1 y wt,
wt+1, …, wt+j:
2 Capítulo 1 | Ecuaciones Diferenciales
[1.1.9]
⋯
El efecto de wt en yt+j está dado por

∅ . [1.1.10]
Así, el multiplicador dinámico [1.1.10] sólo depende de j, el tiempo que separa la perturbación de la
entrada (wt) y el valor observado de la salida (yt+j). El multiplicador no depende de t; esto es, no
depende de las fechas de la observación, esto es cierto para cualquier ecuación de diferencia lineal.
Como ejemplo de cálculo de un multiplicador dinámico, considere nuevamente las
especificaciones de demanda de dinero de Goldfeld [1.1.2]. Supongamos que queremos saber qué
pasará con la demanda de dinero dos trimestres a partir de ahora si los ingresos actuales It fueran a
aumentar en una unidad hoy con los ingresos futuros It + 1yIt + 2no afectados:

∅ .
De [1.1.2], un aumento de una unidad en It, aumentará wt en 0.19 unidades, lo que significa que
/ 0.19 Desde ∅ = 0.72, calculamos
0.72 0.19 0.098.
Debido a que es el registro de ingresos, un aumento en de 0.01 unidades corresponde a un
aumento del 1% en los ingresos. Un aumento en de (0.01) (0.098) ≅ 0.001 corresponde a un
aumento del 0.1% en las tenencias de dinero. Por lo tanto, se espera que el público aumente sus
tenencias de dinero por un poco menos de 0.1% dos trimestres después de un aumento del 1% en
los ingresos.
Diferentes valores de ∅ en [1.1.1] pueden producir una variedad de respuestas dinámicas de y a w.

Si 0 <∅<1, el multiplicador / en [1.1.10] se desintegra geométricamente hacia cero. El
panel (a) de la figura 1.1 representa ∅ como función de j para ∅ = 0.8. Si -1 < ∅ <0, el
multiplicador / alternará en signo como en el panel (b). En este caso, un aumento de wt
hará que ytsea mayor, yt+1 sea menor, yt+2 sea mayor, y así sucesivamente. Nuevamente el valor
absoluto del efecto se desintegra geométricamente hacia cero. Si ∅ >1, el multiplicador dinámico
aumenta exponencialmente con el tiempo como en el panel (c). Un aumento dado en wt tiene un
efecto más grande cuanto más lejos en el futuro uno va. Para ∅<-1, el sistema [1.1.1] presenta una
oscilación explosiva como en el panel (d).
Así, si |∅|<1, el sistema es estable; las consecuencias de un cambio dado en wt

eventualmente desaparecerán. Si |∅|> 1, el sistema es explosivo. Una posibilidad interesante es el
caso del límite o borde, ∅ = 1. En este caso, la solución [1.1.9] se convierte en
⋯ [1.1.11]
Aquí la variable de salida y es la suma de las entradas históricas . Un aumento de una unidad en
causará un aumento permanente de un minuto en :
También podríamos estar interesados en el efecto de w sobre el valor presente de la corriente de

realizaciones futuras de . Para una corriente dada de valores futuros , , ,…
(a) Ø = 0.8 (b) Ø = - 0.8
(c) Ø = 1.1 (d) Ø = - 1.1

FIGURA 1.1 Multiplicador dinámico para la ecuación de diferencias de primer orden para
diferentes valores de Ø (trazado de (  ) como función del retardo lag j).
Y una tasa de interés constante1 r> 0, el valor actual de la corriente en el tiempo t viene dado por
+ + + +…. [1.1.12]
Sea "β" el factor de descuento:
β ≡ 1/(1 + r).
Note que 0 <β< 1. Luego el valor presente [1.1.12] puede escribirse como
Considere lo que sucedería si hubiera un aumento de una unidad en w_t con w_ (t + 1), w_
(t + 2), ... inalterado. Las consecuencias de este cambio para el valor presente de y se encuentran
diferenciando [1.1.13] con respecto a w_t y luego usando [1.1.10] para evaluar cada derivada:

1 La tasa de interés se mide aquí como una fracción de 1; r = 0.1 corresponde a un tipo de interés del 10%.
Ø 1/ 1 Ø ,
[1.1.14]
Siempre que βØ< 1.
Al calcular los multiplicadores dinámicos [1.1.10] o [1.1.14], preguntamos qué pasaría si

aumentara en una unidad con , ,…, inafectado. Estamos encontrando así el efecto
de un cambio puramente transitorio . El panel (a) de la figura 1.2 muestra la trayectoria temporal
de Asociado con esta pregunta, y el panel (b) muestra el camino implícito para y. Debido a que
el multiplicador dinámico [1.1.10] calcula la respuesta de y a un solo impulso en , también se
conoce como la función impulso-respuesta.
(
TIEMPO
(a) Valor de
TIEMPO
(b) Valor de
FIGURA 1.2 Caminos de la variable de entrada ( ) Y variable de salida ( ) Para los cálculos
del multiplicador dinámico y del valor presente.
A veces podríamos estar interesados en las consecuencias de un cambio permanente . Un

cambio permanente en significa que en , , … ,y aumentarían en una unidad, como
en la figura 1.3. de la fórmula [1.1.10], el efecto sobre de un cambio permanente in
comenzando en el período está dado por
⋯ ∅ ∅ ∅ ⋯ ∅ 1
CuandoØ< 1, El límite de esta expresión como va al infinito se describe a veces como el efecto
de "largo plazo" de en :
lim ⋯ 1 ∅ ∅ ⋯
→
1
1 ∅
[1.1.15]
TIEMPO
(a) Valor de
TIEMPO
(a) Valor de
FIGURA 1.3 Caminos de variables de entrada ( ) y variable de salida ( ) para los cálculos del
efecto a largo plazo.
Por ejemplo, la elasticidad del ingreso a largo plazo de la demanda de dinero en el sistema [1.1.2]
está dada por
0.19
0.68.
1 0.72
Un aumento permanente del 1% en los ingresos llevará eventualmente a un aumento de 0,68% en
la demanda de dinero.
Otra cuestión relacionada se refiere a las consecuencias acumuladas para y de un

cambio . Aquí consideramos una perturbación transitoria como en el panel (a) de la Figura 1.2,
Pero desean calcular la suma de las consecuencias para todos los valores futuros de y. Otra manera
de pensar en esto es como el efecto sobre el valor presente dey [1.1.13] Con la tasa de descuentoβ =
1. Sejuntandoβ = 1 in [1.1.14] muestra que este efecto acumulativo es igual a [1.1.16]
1/ 1 Ø
[1.1.16]
Dado que Ø< 1. Obsérvese que el efecto acumulativo sobre y de un cambio transitorio en
(expresión [1.1.16]) es el mismo que el efecto a largo plazo sobre y de un cambio permanente
en (expresión [1.1.15]).
1.2. Ecuaciones diferenciales de orden p

Ahora generalizamos el sistema dinámico [1.1.1] permitiendo que el valor de y en la fecha t dependa
de p de sus propios retornos junto con el valor actual de la variable de entrada :
∅ ∅ ⋯ ∅ [1.2.1]
Ecuación [1.2.1] es una ecuación lineal de diferencia de orden p.
A menudo es conveniente reescribir la ecuación de diferencia de orden p [1.2.1] en el

escalar como una ecuación de diferencia de primer orden en un vector t . Definir el vector (p x
1)t por
. [1.2.2]
.
.
Es decir, el primer elemento del vector En la fecha t es el valor y tomó en la fecha t. El segundo
elemento de t Es el valor y tomó en la fecha t - 1, y así sucesivamente. Defina la matriz (p x p) F
por
∅ ∅ ∅ ...∅ ∅
1 1 1 ... 0 0
0. 0. 0. ... 0 0
. . [1.2.3]
...
. . . . .
...
. . . . .
...
0 0 0 1 0
Por ejemplo, para p = 4, F se refiere a la siguiente matriz 4 x 4:
∅ ∅ ∅ ∅
1 0 0 0
0 1 0 0
0 0 1 0
Para p = 1 (la ecuación de diferencia de primer orden [1.1.1]), F es sólo el escalar Ø. Finalmente,
defina el vector (p x 1) vt por
1.2 Ecuaciones diferenciales de Orden p 7
0
0
. [1.2.4]
.
.
0
Considere la siguiente ecuación de diferencia vectorial de primer orden:
t t - 1 vt [1.2.5]
∅ ∅ ∅ ...∅ ∅
1 0 0 ... 0 0 0
0 1 0 ... 0 0 0
. . . . ... . . . .
. . . . ... . . . .
. . . . ... . . . .
0 0 0 ... 1 0 0
Este es un sistema de p ecuaciones. La primera ecuación en este sistema es idéntica a la ecuación
[1.2.1]. La segunda ecuación es simplemente la identidad
= ,
Debido al hecho de que el segundo elemento de t es el mismo que el primer elemento de t --1 . La
tercera ecuación en [1.2.5] establece que = ; La ecuación pth indica que =
.
Por lo tanto, el sistema vectorial de primer orden [1.2.5] es simplemente una representación
alternativa del sistema escalar de orden p. [1.2.5] es que los sistemas de primer orden suelen ser más
fáciles de trabajar que los sistemas de orden p.
Un multiplicador dinámico para [1.2.5] se puede encontrar exactamente de la misma

manera que se hizo para el sistema escalar de primer orden de la sección 1.1. si supiéramos el valor
del vector  para la fecha t = - 1 y de v para la fecha t = 0, podríamos encontrar el valor de para
la fecha 0 de
 = Ft --1 + v0 .
El valor de  para fecha 1 es
t 0 -1 -1
Proceder recursivamente de esta manera produce una generalización de [1.1.7]:
t -1 ⋯ [1.2.6]
Escribir esto en términos de las definiciones de y v,
0 0
0 0
. . . . ⋯
. . . .
. . . .
0 0
0 0
0 0
. . [1.2.7]
. .
. .
0 0
Considera la primera ecuación del sistema, la cual caracteriza el valor de . Sea denotar que (1,
1) como elemento de , el (1, 2) elemento de , y así. Entonces la primera ecuación de [1.2.7]
afirma que:
⋯ [1.2.8]
Esto describe el valor de y en fecha t como una función linear de p valores iniciales dey ( , ,
…, )y la historia de la variable de entrada desde 0 ( , , … , ). Tenga en cuenta que
mientras que sólo un valor inicial para y (el valor ) En el caso de una ecuación de diferencias de
primer orden, p valores iniciales para y (los valores , ,…, ) Son necesarios en el caso de
una ecuación de diferencias de orden p.
La generalización obvia de [1.1.9] es
t+j t-1 ⋯ [1.2.9]
A partir del cual
⋯ [1.2.10]
Así, para una ecuación de diferencias de orden p, el multiplicador dinámico viene dado por
[1.2.11]
Donde denota que (1, 1) elemento de . Para j = 1, esto es simplemente el elemento (1, 1)
de F, o el parámetro Ø1 . Por lo tanto, para cualquier sistema de orden, el efecto en de un
aumento de una unidad en Está dada por el coeficiente to en la ecuación [1.2.1]:
Ø .
1.2 Ecuaciones diferenciales de orden p 9
La multiplicación directa de [1.2.3] revela que el (1, 1) elemento de es (Ø + Ø ), entonces
Ø Ø
en un sistema de orden p.
Para valores mayores de j, y la manera fácil de obtener un valor numérico para el

multiplicador dinámico ⁄ es simular el sistema. Esto se hace de la siguiente manera.
Establece = =…= = 0, = 1, Y establece el valor de w para todas las otras
fechas a 0.A continuación, utilice [1.2.1] para calcular el valor de for t = 0 (llámese, = 1).
Sustituir este valor junto con , ,…, de regreso en [1.2.1] para calcular ,Y
continuar recursivamente de esta manera. El valor de y en el paso t da el efecto de un cambio de
una unidad en en .
Aunque la simulación numérica puede ser adecuada para muchas circunstancias, también es
útil tener una caracterización analítica simple de ⁄ , que, sabemos de [1.2.11], está dada
por el (1, 1) elemento de . Esto es bastante fácil de obtener en términos de los valores propios
de la matriz F. Recordemos que los valores propios de una matriz F Son los números λ para los
cuales
|F - λI | = 0. [1.2.12]
Por ejemplo, para p = 2 los valores propios son las soluciones a
∅1 ∅2 λ 0
- 0
1 0 0 λ
O
∅ λ ∅
∅ ∅ [1.2.13]
1 λ
Los dos valores propios de F para una ecuación de diferencia de segundo orden están dados por
∅ ∅ ∅
[1.2.14]
∅ ∅ ∅
[1.2.15]
Para un sistema de orden p-general, el determinante en [1.2.12] es un polinomio de orden p en λ

cuyas soluciones p caracterizan los p valores propios de F. Este polinomio resulta tomar una forma
muy similar a [1.2.13] . El siguiente resultado se demuestra en el Apéndice 1.A al final de este
capítulo.
Proposición 1.1: Los valores propios de la matriz F definida en la ecuación [1.2.3] son los valores de λ que
satisfacen
∅ ∅ ⋯ ∅ ∅ [1.2.16]
Una vez que conocemos los autovalores, es fácil caracterizar el comportamiento dinámico
del sistema. Primero consideramos el caso cuando los autovalores de F son distintos; Por ejemplo,
requerimos que y en [1.2.14] y [1.2.15] Ser números diferentes.
Solución general de una ecuación de diferencia de orden p con valores
propios distintos
Recordar2que Si los valores propios de una matriz (p x p) F son distintos, existe un no
singular (p x p) matriz T tal que
F = TΛ [1.2.17]
Donde Λ es una matriz (p x p) con los valores propios de F a lo largo de la diagonal principal y
ceros en otra parte:
1 0 0... 0
0 20
... 0
. . . ... . [1.2.18]
. . . ... .
. . . ... .
0 0 0...
Esto nos permite caracterizar el multiplicador dinámico (el (1, 1) elemento de iN

[1.2.11]) muy fácilmente. Por ejemplo, a partir de [1.2.17] podemos escribir como
La estructura diagonal de Λ implica que Es también una matriz diagonal cuyos elementos son
cuadrados de los valores propios de F:
2
1
0 0... 0
2 ... 0
0 20
. . . ... .
. . . ... .
. . . ... .2
0 0 0...
En términos más generales, podemos caracterizar En términos de los valores propios de

F como
j términos
…
Que simplifica
=T [1.2.19]

2 Ver la ecuación [A.4.24] en la Revisión Matemática (Apéndice A) al final del libro.
Donde
1
0 0... 0
... 0
0 20
. . . ... .
. . . ... .
. . . ... .
0 0 0...
Dejar denotar la fila i, columna j elemento de T y dejan Denotan la fila i, columna j elemento
de . La ecuación [1.2.19] escrita se convierte explícitamente en
... t 0 0... 0 ...

...t 0 0... 0 ...
. . ... . . . . ... . . . ... .
. . ... . . . . ... . . . ... .
. . ... . . . . ... . . . ... .
...t 0 0 0... ...

... t ...
...t ...
. . ... . . . ... .
. . ... . . . ... .
. . ... . . . ... .
... ...
t
Del cual (1, 1) elemento de está dado por
⋯
O
⋯ [1.2.20]
donde
=[ ]. [1.2.21]
Tenga en cuenta que la suma de los Términos tiene la siguiente interpretación:
⋯ ⋯ , [1.2.22]
Que es el elemento (1, 1) de T. . Dado que T. Es sólo la matriz de identidad (p x p), [1.2.22]
implica que el Términos suma a unidad:
+ +…+ = 1. [1.2.23]
Sustituyendo [1.2.20] en [1.2.11] se obtiene la forma del multiplicador dinámico para una
ecuación de diferencia de orden p:
⋯ [1.2.24]
La ecuación [1.2.24] caracteriza el multiplicador dinámico como una media ponderada de cada uno
de los p valores propios elevados a la potencia j.
El siguiente resultado proporciona una expresión de forma cerrada para las constantes
( , , …, ).
Proposición 1.2: Si Los valores propios , ,…, de la matriz F en [1.2.3] son distintos, entonces
se puede escribir la magnitud c_i en [1.2.21].
∏
[1.2.25]
En resumen, la ecuación de diferencia de orden p [1.2.1] implica que
⋯ [1.2.26]
Ψ Ψ ⋯ Ψ Ψ
El multiplicador dinámico
[1.2.27]
Está dada por el (1, 1) elemento de :
. [1.2.28]
Una expresión de forma cerrada para se puede obtener mediante la búsqueda de los valores
propios de F, o los valores de λ satisfacer [1.2.16]. Denotando estos valores p por ( , , … , ) y
suponiendo que son distintos, el multiplicador dinámico viene dado por
ψ λ λ ⋯ λ [1.2.29]
Donde ( , , …, ) es un conjunto de constantes que suman a la unidad dada por la expresión

[1.2.25].
Para un sistema de primer orden (p = 1), esta regla nos obligaría a resolver [1.2.16],
λ + Ø = 0,
Que tiene la solución única
λ =Ø . [1.2.30]
Según [1.2.29], el multiplicador dinámico está dado por
1 λ1 . [1.2.31]
De [1.2.23], c_1 = 1. Sustituyendo este y [1.2.30] en [1.2.31] da
Ø1 ,
O el mismo resultado encontrado en la Sección 1.1.
Para sistemas de orden superior, [1.2.29] permite una variedad de dinámicas más
complicadas. Supongamos primero que todos los valores propios de F (o soluciones a [1.2.16]) son
reales. Este sería el caso, por ejemplo, si p = 2 y 4 0 en las soluciones [1.2.14] y [1.2.15]
para el sistema de segundo orden. Si, además, todos los valores propios son menores que 1 en valor
absoluto, entonces el sistema es estable y su dinámica se representa como un promedio ponderado
de exponenciales decrecientes o exponenciales decrecientes oscilando en signo. Por ejemplo,
considere la siguiente ecuación de diferencia de segundo orden:
0.6 0.2
A partir de las ecuaciones [1.2.14] y [1.2.15], los valores propios de este sistema están dados por
0.6 0.6 4 0.2

0.84
2
0.6 0.6 4 0.2

0.24
2
De [1.2.25], tenemos
/ 0.778
/ 0.222
El multiplicador dinámico para este sistema,
= λ + λ ,
Se representa como una función de j en el panel (a) de la figura 1.43. Tenga en cuenta que a medida
que j se hace más grande, el patrón está dominado por el valor propio más grande ( ),
aproximándose a un decaimiento geométrico simple a una tasa .
Si los valores propios (las soluciones a [1.2.16]) son reales, pero al menos uno es mayor que
la unidad en valor absoluto, el sistema es explosivo. Si Denota el autovalor que es mayor en valor
absoluto, el multiplicador dinámico es eventualmente dominado por una función exponencial de
ese valor propio:
1
lim .
→ λ
Otras posibilidades interesantes surgen si algunos de los valores propios son complejos.
Cuando este es el caso, aparecen como conjugados complejos. Por ejemplo, si p = 2 y 4
0, entonces las soluciones y Son conjugados complejos, escritos como
λ = a + bi [1.2.32]
λ = a – bi [1.2.33]
Para el caso p = 2 de [1.2.14] y [1.2.15], habría
∅ ⁄2 [1.2.34]

3
Una vez más, si el propósito de uno solo es generar un gráfico numérico como en la Figura 1.4, el enfoque más fácil es la simulación
numérica del sistema.
∅ 4∅ [1.2.35]
Nuestro objetivo es caracterizar la contribución al multiplicador dinámico cuando
es un número complejo como en [1.2.32]. Recordemos que para elevar un número complejo a una
potencia, reescribimos [1.2.32] en forma de coordenadas polares:
λ . cos . sin [1.2.36]
Donde θ y R se definen en términos de ayb mediante las siguientes ecuaciones:
cos ⁄
sin ⁄
Obsérvese que R es igual al módulo del número complejo .
El autovalor en [1.2.36] puede escribirse como4
λ = R[eiθ],
Y así
λ cos . sin [1.2.37]
Análogamente, si es el complejo conjugado de , entonces
λ cos . sin ,
Que puede escribirse5
Por lo tanto
λ cos . sin [1.2.38]
(a) Ø = 0.6, Ø = 0.2

4 Ver la ecuación [A.3.25] en la Revisión Matemática (Apéndice A) al final del libro.
5 Véase la ecuación [A.3.26].
(b) Ø = 0.5, Ø = -0.8
FIGURA 1.4 Multiplicador dinámico para la ecuación de diferencias de segundo orden para
diferentes valores deØ y Ø (trazado de ⁄ como una función del retardo ).
La sustitución de [1.2.37] y [1.2.38] en [1.2.29] da la contribución de los conjugados complejos al

multiplicador dinámico ⁄ :
λ λ cos . sin cos . sin

. . cos . . sin [1.2.39]
La aparición del número imaginario i en [1.2.39] puede parecer un poco preocupante.

Después de todo, este cálculo pretendía dar el efecto de un cambio en la variable de valor real en
la variable de valor real Como predijo el sistema de valores reales [1.2.1], y sería extraño, de
hecho, si la respuesta correcta implicaba el número imaginario i! Afortunadamente, de [1.2.25]
resulta que si y Son conjugados complejos, entonces y son conjugados complejos; Es decir,
pueden escribirse como
= α + βi
= α – βi
Para algunos números reales α y β. Sustituyendo estas expresiones en rendimientos [1.2.39]
λ λ ∙ cos ∙ ∙ sin
2 ∙ cos ∙ 2 ∙ sin
2 cos 2 sin
Que es estrictamente real.
Así, cuando algunos de los valores propios son complejos, aportan términos
proporcionales a Rj cos(Ø ) y Rj sen(Ø ) al multiplicador dinámico . Obsérvese que si R = 1 -
es decir, si los autovalores complejos tienen módulo unitario - los multiplicadores son funciones
seno y coseno periódicas de j. Un aumento dado en aumenta para algunos rangos de j y
disminuye sobre otros rangos, con el impulso nunca muriendo como j → ∞. Si los valores
propios complejos son menores que 1 en módulo (R <1), el impulso sigue de nuevo un patrón
sinusoidal aunque su amplitud decae a la velocidad R j. Si los autovalores complejos son mayores
que 1 en módulo (R> 1), la amplitud de los sinusoides explota a la velocidad R j.
Para un ejemplo de comportamiento dinámico caracterizado por sinusoides en
descomposición, considere el sistema de segundo orden
0.5 0.8 .
Los valores propios para este sistema se dan de [1.2.14] y [1.2.15]:
0.5 0.5 4 0.8
0.25 0.86
2
0.5 0.5 4 0.8

0.25 0.86
2
Con modulo
0.25 0.86 0.9.
Puesto que R <1, el multiplicador dinámico sigue un patrón de oscilación amortiguada trazada en el
panel (b) de la Figura 1.4. La frecuencia 6 De estas oscilaciones está dada por el parámetro θ en
[1.2.39], que fue definido implícitamente por
cos ⁄ 0.25 ⁄ 0.9 0.28 o
θ = 1.29.
Los ciclos asociados con la función multiplicadora dinámica [1.2.39] tienen así un período de
2π 2 3.14159
4.9;
θ 1.29
Es decir, los picos en el patrón en el panel (b) de la Figura 1.4 aparecen aproximadamente cinco
períodos separados.
Solución de una ecuación de diferencia de segundo orden con valores

propios distintos
La ecuación de diferencias de segundo orden (p = 2) aparece con suficiente frecuencia
como para resumir las propiedades de la solución como una función general de Ø y Ø ,), que
ahora hacemos.7
Los valores propios λ y λ ) en [1.2.15] son complejos cuando
Ø + 4Ø < 0,
O cuando (Ø , Ø ) esté por debajo de la parábola indicada en la figura 1.5. Para el caso de
autovalores complejos, el módulo R satisface
R2 = a2 + b2,
O, a partir de [1.2.34] y [1.2.35],
⁄2 4 ⁄4 .
Así, un sistema con autovalores complejos es explosivo siempre que Ø < -1. Además, cuando los
valores propios son complejos, la frecuencia de oscilaciones viene dada por
cos ⁄ cos ⁄2 ,
Donde cos ” denota la inversa de la función coseno, o la medida de radian de un ángulo cuyo
coseno es x.

6 Vea la Sección A.1 de la Revisión Matemática (Apéndice A) al final del libro para una discusión de la frecuencia y el período de una
función sinusoidal.
7 Esta discusión sigue de cerca Sargent (1987, pp. 188-89).
FIGURA 1.5 Resumen de la dinámica para una ecuación de diferencia de segundo orden.
Para el caso de los valores propios reales, el valor propio aritméticamente mayor ( ) será mayor
que la unidad siempre que
4
1
2
o
4 2 .
Suponiendo que λ es real, el lado izquierdo de esta expresión es un número positivo y la
desigualdad sería satisfecha para cualquier valor de (Ø > 2). Si, por otro lado, Ø < 2 podemos
cuadrar a ambos lados para concluir que excederá la unidad siempre que
4 4 4
o
Ø >1-Ø .
Así, en la región real, λ será mayor que la unidad si (Ø > 2) o si ((Ø , Ø )) se encuentra al noreste
de la línea (Ø = 1 – Ø ) en la Figura 1.5. Del mismo modo, con valores propios reales, el valor
propio aritméticamente más pequeño (λ ) será menor que -1 siempre que
4
1
2
4 2
2 .
Una vez más, si (Ø < – 2), esto debe ser satisfecho, y en el caso cuando (Ø > – 2), podemos
cuadrar ambos lados:
4 4 4
1 .
Así, en la región real, (λ ) será menor que -1 si Ø < – 2 o (Ø , Ø )se encuentra al noroeste de la
línea (Ø = 1 + Ø ) en la Figura 1.5.
El sistema es así estable siempre que (Ø , Ø ) se encuentra dentro de la región triangular de
la figura 1.5.
Solución general de una ecuación de diferencia de orden p con valores

propios repetidos
En el caso más general de una ecuación de diferencias para la cual F tiene valores propios
repetidos y s <p vectores propios linealmente independientes, el resultado [1.2.17] se generaliza
utilizando la descomposición de Jordan,
F = MJM-1 [1.2.40]
Donde M es una matriz (p x p) y J toma la forma
0 … 0
0 … 0
⋮ ⋮ … ⋮
0 0 …
con
1 0 … 0 0
0 1 … 0 0
0 0 … 0 0
… ⋮
⋮ ⋮ ⋮ ⋮
… 1
0 0 0
…
0 0 0 0
[1.2.41]
Para (λ ) un autovalor de F. Si [1.2.17] es reemplazado por [1.2.40], entonces la ecuación [1.2.19] se
generaliza a
Fj = MJjM-1 [1.2.42]
donde
0 … 0
0 … 0
⋮ ⋮ … ⋮
0 0 …
Además, a partir de [1.2.41], si es de dimensión ( x ), entonces 8

…
1 2 1
0 …
1 2
⋮ ⋮ ⋮ … ⋮

0 0 0 …
Donde
1 2 ⋯ 1

1 ⋯ 3.2.1

0
La ecuación [1.2.43] puede ser verificada por inducción multiplicando [1.2.41] por [1.2.43] y
1
notando que ( ) + ( )=( ).). Por ejemplo, considere de nuevo la ecuación de diferencia
1
de segundo orden, esta vez con raíces repetidas. Entonces
0
De modo que el multiplicador dinámico tome la forma

8 Esta expresión se toma de Chiang (1980, p.444)
.
Cálculos de largo plazo y valor actual

Si los valores propios son todos menos de 1 en módulo, entonces (Fj) en [1.2.9] pasa a cero
cuando j se hace grande. Si todos los valores de w y y se toman como limitados, podemos pensar en
una "solución" de ( ) en términos de la historia infinita de w,
⋯, [1.2.44]
Donde ( ) viene dado por el elemento (1, 1) de (Fj) y toma la forma particular de [1.2.29] en el
caso de valores propios distintos.
También es sencillo calcular el efecto sobre el valor actual de y de un aumento transitorio
en w. Esto es más sencillo de encontrar si consideramos primero el problema ligeramente más
general de las consecuencias hipotéticas de un cambio en cualquier elemento del vector (t +j ) sobre
cualquier elemento de ( ) en un sistema general de la forma de [1.2.5] . La respuesta a este
problema más general puede deducirse inmediatamente de [1.2.9]:
. [1.2.45]
El verdadero multiplicador dinámico de interés, (  ) es sólo el (1, 1) elemento de la matriz

(p x p) en [1.2.45]. El efecto sobre el valor presente de de un cambio en v viene dado por
∑
,
[1.2.46]
Siempre que los valores propios de F sean todos menos que (β-1) en módulo. El efecto sobre el
valor presente de y de un cambio en w,
∑
,
Es así el elemento (1, 1) de la matriz (p x p) en [1.2.46]. Este valor viene dado por la siguiente
proposición.
Proposición 1.3: Si los valores propios de la matriz (pxp) F definida en [1.2.3] son todos menores que
en módulo, entonces existe la matriz ,y el efecto de w sobre el valor presente de y viene dado por
su 1, 1) elemento:
1⁄ 1 ϕ β ϕ β ⋯ ϕ β ϕ β
Tenga en cuenta que la Proposición 1.3 incluye el resultado anterior para un sistema de primer
orden (ecuación [1.1.14]) como un caso especial.
El efecto acumulativo de un cambio único en + , …) puede considerarse un caso
especial de la Preposición 1.3 sin descuento. El ajuste (β = 1) en la Preposición 1.3 muestra que,
siempre que los valores propios de F sean todos menos de 1 en módulo, el efecto acumulativo de
un cambio de una vez en w en y viene dado por
∑ 1⁄ 1 ⋯ . [1.2.47]
Observe nuevamente que [1.2.47] puede interpretarse alternativamente como dando el eventual
efecto a largo plazo sobre y de un cambio permanente en w:
lim ⋯ 1⁄ 1 ⋯ .
→ ð
APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1

Prueba de Proposición d 1.1. Los autovalores de F satisfacen
|F - λ | = 0 [1.A.1]
Para la matriz F definida en la ecuación [1.2.3], este determinante sería

⋯ 0 0 ⋯ 0 0
1 0 0 ⋯ 0 0 0 0 ⋯ 0 0
0 1 0 ⋯ 0 0 0 0 ⋯ 0 0
⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋮ ⋯ ⋯ ⋮ ⋮
0 0 0 ⋯ 1 0 0 0 ⋯ ⋯ 0
…
1 0 ⋯ 0 0
0 1 ⋯ 0 0 . [1.A.2]
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
0 0 0 ⋯ 1
Recordemos que si multiplicamos una columna de una matriz por una constante y añadimos el
resultado a otra columna, el determinante de la matriz no cambia. Si multiplicamos la p-ésima
columna de la matriz en [1.A.2] por 1⁄ y añadimos el resultado a la (p - 1) th columna, el
resultado es una matriz con el mismo determinante que en [1. A.2]:
⋯ ⁄
1 0 ⋯ 0 0 0
| | 0 1 0 0 0 0 .
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
0 0 0 1 1 0
0 0 0 0 0 0
A continuación, multiplique la columna (p - 1) por (1/λ) y añada el resultado a la columna (p - 2):
|F - λ |
⋯ ⁄ ⁄ ⁄
1 0 ⋯ 0 0 0
0 1 ⋯ 0 0 0
⋮ ⋮ ⋮ ⋯
⋯ ⋮ ⋮ ⋮
0 0 0 0 0
0 0 0 ⋯ 0 0
Continuar de esta manera muestra [1.A.1] que es equivalente al determinante de la siguiente matriz
triangular superior:
|F - λ |
⋯ ⁄ ⁄ ⁄
1 0 ⋯ 0 0 0
0 1 ⋯ 0 0 0
⋮ ⋮ ⋮ ⋯
⋯ ⋮ ⋮ ⋮
0 0 0 0 0
0 0 0 ⋯ 0 0
APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1 21
Pero el determinante de una matriz triangular superior es simplemente el producto de los términos
a lo largo de la diagonal principal:
| | ⁄ ⁄ … ⁄ .

1 . ⋯ .
[1.A.3]
Los valores propios de F son, por lo tanto, los valores de λpara los cuales [1.A.3] es cero, o para los
cuales
⋯ 0,
Como se afirma en la Proposición 1.1.
 Prueba de Proposición 1.2. Suponiendo que los valores propios (λ , λ , … , λ )) son

distintos, la matriz T en la ecuación [1.2.17] puede construirse a partir de los vectores
propios de F. Sea ( ) el siguiente vector (p x 1)
[1.A.4]
⋮
1
Donde denota el i-ésimo valor propio de F. Aviso
⋯
1 0 0 ⋯ 0 0
0 1 0 ⋯ 0 0
⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮
0 0 0 ⋯ 1 0
1
[1.A.5]
⋯
Since (λ ) is an eigenvalue of F, it satisfies [1.2.16]:

⋯ 0
[1.A.6]
Sustituyendo [1.A.6] en [1.A.5] se revela
⋮ ⋮
1
.
o
F =λ . [1.A.7]
Así ( ) es un vector propio de F asociado con el valor propio (λ ).
Podemos calcular la matriz T combinando los vectores propios ( , ,…, ) en una matriz (p x
p)
T=[ … ]. [1.A.8]
Para calcular los valores particulares de en la ecuación [1.2.21], recuerde que se caracteriza
por
T T-1 = , [1.A.9]
Donde T está dado por [1.A.4] y [1.A.8]. Escribiendo explícitamente la primera columna de la
matriz sistema de ecuaciones [1.A.9], tenemos
⋯
1
⋯ 0
0
⋯ ⋮ ⋮
⋮ ⋮ ⋯ ⋮
⋯ . 0
⋯ 0
1 1 1
Esto da un sistema de p ecuaciones lineales en las p incógnitas (t 11, t 21,…, t p1). Siempre que el ( )
son todos distintos, la solución se puede demostrar que es9
1
⋯
1
⋯
⋮
1
⋯
Sustituyendo estos valores en [1.2.21] se obtiene la ecuación [1.2.25].
 Prueba de Proposición 1.3. La primera afirmación de esta proposición es que si los

valores propios de F son menores que (β -1) en módulo, entonces existe la inversa de ( –
βF). Supongamos que la inversa de ( – βF) no existe. Entonces el determinante | –
βF| tendría que ser cero. Pero
| | | . | | |,
De modo que |F – β -1 | tendría que ser cero cuando la inversa de (( – βF)) no existiera. Pero
esto significaría que (β -1) es un autovalor de F, que se descarta por la suposición de que todos los
valores propios de F son estrictamente menores que (β -1) en módulo. Por lo tanto, la matriz ( –
βF) debe ser no singular.
Dado que existe, satisface la ecuación
[1.A.10]

9 Véase Lemma 2 de Chiang (1980, p.144).
APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1 23
Sea ( ) la fila i, columna j elemento de ([ – βF]-1), y escriba [1.A.10] como
⋯ 1 ⋯
⋯ 1 ⋯ 0 0 [1.A.11]
⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮
⋯ 0 0 ⋯ 1 1
1 0 ⋯ 0
0 1 ⋯ 0
⋮ ⋮ ⋯ ⋮
0 0 ⋯ 1
La tarea consiste entonces en encontrar el elemento (1, 1) de ([ – βF]-1), es decir, encontrar el
valor de ( .). Para hacer esto solo necesitamos considerar la primera fila de ecuaciones en
[1.A.11]:
1 …
… 1 …
… 0 0
⋮ ⋮ ⋮ ⋮
…
0 0 1
1 0 … 0 0 [1.A.12]
Consideremos la posibilidad de multiplicar este sistema de ecuaciones por una matriz con 1s a lo
largo de la diagonal principal, β en la fila p, columna p - 1 y 0s en otra parte:
1 0 ⋯ 0 0
0 1 ⋯ 0 0
⋮ ⋮ ⋯ ⋮ ⋮
0 0 ⋯ 1
El efecto de esta operación es multiplicar la p° columna de una matriz por β y agregar el resultado a
la 1 columna:
1 …
… 1 …
… 0 0
⋮ ⋮ ⋮ ⋮
…
0 0 0 1
1 0 … 0 0
Luego, multiplique la 1 ª columna por β y añada el resultado a la 2 ª columna.

Procediendo de esta manera, llegamos a
… [1.A.13]
1 ⋯ ⋯ …
0 1 …
… 0 0
⋮ ⋮ ⋮ ⋮
…
0 0 0 1
La primera ecuación en [1.A.13] establece que
x11 · (1 ̶ βø1 – β2ø2 ̶ ··· ̶ βƿ-1øƿ-1 ̶ βƿøƿ) = 1
x11 = 1/(1 ̶ βø1 – β2ø2 ̶ ··· ̶ βƿøƿ),
Como se afirma en la Proposición 1.3.
Capítulo 1 Referencias
Chiang, Chin Long. 1980. An introduction to Stochastic Processes and Their Applications.
Huntington, N.Y.: Krieger.
Goldfeld, Stephen M. 1973. “The Demand for Money Revisited,” Brookings Papers on Economic
Activity 3:577-638.
Sargent, Thomas J. 1987. Macroeconomic Theory, 2da ed. Boston: Academic Press.

Capítulo 1 Referencias 25
2
Operadores de retardo
2.1. Introducción
El capítulo anterior analizó la dinámica de las ecuaciones de diferencia lineal usando álgebra
matricial. Este capítulo desarrolla algunos de los mismos resultados usando operadores de series de
tiempo. Empezaremos con algunas observaciones introductorias sobre algunos operadores de series
temporales útiles.
Una serie cronológica es una colección de observaciones indexadas por la fecha de cada
observación. Por lo general, hemos recogido datos que comienzan en una fecha determinada
(digamos, t = 1) y terminamos en otra (digamos t = T):
(y1, y2,……, yT).
A menudo imaginamos que podríamos haber obtenido observaciones anteriores ( , , , …)

o observaciones posteriores ( , , …) si se hubiera observado el proceso durante más
tiempo. La muestra observada ( , , … , ) podría entonces ser vista como un segmento finito
de una secuencia doblemente infinita, denotada = -∞:
{yt}tx= ~ x = { …., y-1, y0, y1, y2, …, yT, yT+1, yT+2 …}.
Muestra observada
Normalmente, una serie de tiempo = -∞ se identifica describiendo el elemento t-
ésimo. Por ejemplo, una tendencia temporal es una serie cuyo valor en la fecha es simplemente la
fecha de la observación:
= t.
También podríamos considerar una serie temporal en la que cada elemento es igual a una constante
independientemente de la fecha de la observación :
= c.
Otra serie de tiempo importante es un proceso de ruido blanco gaussiano, denotado
=ε ,
Donde = -∞ es una secuencia de variables aleatorias independientes, cada una de las cuales
tiene una distribución N(0, ).
Estamos acostumbrados a pensar en una función tal (y = ) o (y = , ) como una

operación que acepta como entrada un número (x) o un grupo de números (x, w) y produce la
26 Capítulo 2 І Operadores de retraso
salida (y). Un operador de series temporales transforma una serie temporal o un grupo de series
temporales en una nueva serie temporal. Acepta como entrada una secuencia tal como ( = -∞)
o un grupo de secuencias como ( = -∞, = -∞) y tiene como salida una nueva secuencia
( = -∞). Una vez más, el operador se resume describiendo el valor de un elemento típico de
( = -∞) en términos de los elementos correspondientes de ( = -∞).
Un ejemplo de un operador de series de tiempo es el operador de multiplicación, representado

como
= . [2.1.1]
Aunque se escribe exactamente de la misma manera que la simple multiplicación escalar, la ecuación
[2.1.1] es en realidad una abreviatura para una secuencia infinita de multiplicaciones, una para cada
fecha t. El operador multiplica el valor x toma en cualquier fecha t por alguna constante β para
generar el valor de y para esa fecha.
Otro ejemplo de un operador de series temporales es el operador de suma:
= + .
Aquí el valor de y en cualquier fecha t es la suma de los valores que x y w adoptan para esa fecha.
Puesto que los operadores de multiplicación o adición equivalen a la multiplicación o adición

elemento por elemento, obedecen todas las reglas estándar del álgebra. Por ejemplo, si
multiplicamos cada observación de ( = -∞) por β y cada observación de ( = -∞) por β y
añadimos los resultados,
β +β ,
El resultado es el mismo que si hubiéramos añadido ( )a( ) y luego multiplicado cada

elemento de la serie resultante por β:
β( + ).
Un operador muy útil es el operador de retraso. Supongamos que comenzamos con una secuencia
( = -∞) y generamos una nueva secuencia ( = -∞), donde el valor de y para la fecha t es
igual al valor x tomado en la fecha t - 1:
= , [2.1.2]
Esto se describe cómo aplicar el operador de retraso a ( = -∞). La operación se representa

con el símbolo L:
= [2.1.3]
Considere el resultado de aplicar el operador lag dos veces a una serie:
L(Lxt) = L(xt ̶ 1) = xt ̶ 2.
Esta doble aplicación del operador de retardo se indica mediante “L2”:
L2xt = xt ̶ 2.
En general, para cualquier número entero k,
Lkxt = xt ̶ k. [2.1.4]
Observe que si primero aplicamos el operador de multiplicación y después el operador de

retraso, como en
2.1 Introducción 27
xt → βxt → βxt ̶ 1,
El resultado será exactamente el mismo que si hubiéramos aplicado primero el operador de retraso
y luego el operador de multiplicación:
xt → xt ̶ 1 → βxt ̶ 1.
Así, el operador lag y el operador de multiplicación son conmutativos:
L(βxt) = β· Lxt.
De manera similar, si primero añadimos dos series y luego aplicamos el operador de retraso al
resultado,
(xt, wt) → xt + wt → xt ̶ 1 + wt ̶ 1,
El resultado es el mismo que si hubiéramos aplicado el operador lag antes de añadir:
(xt, wt) → (xt ̶ 1, wt ̶ 1) → xt ̶ 1 + wt ̶ 1 .
Por lo tanto, el operador de retraso es distributivo sobre el operador de adición:
L(xt + wt) = Lxt + Lwt.
Así vemos que el operador de retraso sigue exactamente las mismas reglas algebraicas que
el operador de multiplicación. Por esta razón, es tentador usar la expresión "multiplicar ( ) por L"
en lugar de "operar en ( = -∞) por L." Aunque la última expresión es técnicamente más
correcta, este texto utilizará a menudo la expresión taquigráfica anterior para Facilitar la exposición.
Cara con una serie temporal definida en términos de operadores compuestos, somos libres de usar
las leyes algebraicas conmutativas, asociativas y distributivas estándar para la multiplicación y la
adición para expresar el operador compuesto en una forma alternativa. Por ejemplo, el proceso
definido por
Yt =(a + bL)Lxt
Es exactamente lo mismo que
Yt = ( aL +bL2)xt = axt ̶ 1 + bxt ̶ 2.
Para tomar otro ejemplo,
(1 – λ1L)(1 – λ2L)xt = (1 ̶ λ1L ̶ λ2L + λ1 λ2L2)xt
= (1 ̶ [λ1 + λ2]L + λ1 λ2L2)xt

[2.1.5]
= xt – (λ1 + λ2) xt ̶ 1 + ( λ1 λ2)xt ̶ 2
Una expresión como (aL + bL2) se denomina polinomio en el operador de retardo. Es
algebraicamente similar a un polinomio simple (az + bz2) donde z es un escalar. La diferencia es que
el polinomio simple (az + bz2) se refiere a un operador que se aplicaría a una serie temporal
( = -∞) para producir una nueva serie temporal ( = -∞).
Observe que ( = -∞) es sólo una serie de constantes,
=c Para todo t,
Entonces el operador de retraso aplicado a ( ) produce la misma serie de constantes:
Lxt = xt ̶ 1 = c.
Así, por ejemplo,
( αL+ βL2+ γL3)c = (α + β + γ) · c. [2.1.6]
2.2. Ecuaciones Diferenciales de Primer Orden

Volvamos ahora a la ecuación de diferencias de primer orden analizado en la Sección 1.1:
Yt = øyt ̶ 1 + wt. [2.2.1]
La ecuación [2.2.1] se puede volver a escribir usando el operador de retardo [2.1.3] como
Yt = øLyt + wt.
Esta ecuación, a su vez, puede ser reordenada usando álgebra estándar,
Yt ̶ øLyt = wt,
(1 ̶ øL)yt = wt. [2.2.2]
A continuación, considere la posibilidad de "multiplicar" ambos lados de [2.2.2] por el siguiente

operador:
(1 + øL+ ø2L2 + ø3L3 + ··· + øtLt ). [2.2.3]
El resultado sería
(1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )(1 – øL )yt [2.2.4]
= (1+ øL + ø2L2 + ø3L3 + ··· + øtLt )wt.
Expandir el operador compuesto en el lado izquierdo de [2.2.4] da como resultado
(1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )(1 – øL )
= (1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )
̶ (1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )øL [2.2.5]
= (1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )
̶ (øL+ ø2L2 + ø3L3 + ··· + øtLt+ øt+1Lt+1)
= (1 ̶ øt+1Lt+1).
2.2. Ecuaciones Diferenciales de Primer Orden 29
Sustituyendo [2.2.5] en rendimientos [2.2.4]
(1 ̶ øt+1Lt+1)yt = (1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )wt. [2.2.6]
Escribir [2.2.6] explícitamente utilizando [2.1.4] produce
Yt ̶ øt+1yt ̶ (t+1) = wt + øwt ̶ 1 + ø2wt ̶ 2 + ø 3 wt ̶ 3 + ··· + øtwt ̶ t
Yt = øt+1y ̶ 1 + wt + øwt ̶ 1 + ø 2 wt ̶ 2 + ø3wt ̶ 3 + ··· + øtw0. [2.2.7]
Observe que la ecuación [2.2.7] es idéntica a la ecuación [1.1.7]. La aplicación del operador [2.2.3]
está realizando exactamente el mismo conjunto de sustituciones recursivas que se emplearon en el
capítulo anterior para llegar a [1.1.7].
Es interesante reflexionar sobre la naturaleza del operador [2.2.3] a medida que t se hace grande.
Vimos en [2.2.5] que
(1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )(1 – øL )yt = yt ̶ øt+1y ̶ 1.
Es decir, difiere de ( ) por el término (∅ ). Si (|Ø|< 1) y si ( ) es un número finito, este

residuo (∅ ) llegará a ser insignificante a medida que t sea grande:
∅ ∅ ∅ ⋯ ∅ ∅ ≅ .
Se dice que una secuencia = -∞) está limitada si existe un número finito ( ) tal que
| | .
Así, cuando (|Ø|< 1 y cuando estamos considerando aplicar un operador a una secuencia acotada,
podemos pensar en:
∅ ∅ ∅ ⋯ ∅
Como aproximando el inverso del operador (1 – ØL), con esta aproximación hecha arbitrariamente
exacta eligiendo j suficientemente grande:
∅ ∅ ∅ ∅ ⋯ ∅ . 2.2.8
→
Este operador (1 – ØL)-1 tiene la propiedad
∅ ∅ ,
Donde "1" denota el operador de identidad:
1 = .
El siguiente capítulo discute las secuencias estocásticas en lugar de las secuencias
determinísticas, aunque el significado práctico de [2.2.8] será poco cambiado.
Siempre que (Φ<1) y nos limitamos a secuencias acotadas o estocástico estacionario procesado,
ambos lados de [2.2.2] pueden ser "divididos" por 1 ΦL para obtener:
∅
O
∅ ∅ ∅ ⋯. 2.2.9
Debe enfatizarse que si no estuviéramos restringidos a considerar secuencias acotadas o procesos

estocásticos estacionarios ( = -∞) y ( = -∞), entonces la expresión [2.2.9] no sería una
implicación necesaria de [2.2.1]. La ecuación [2.2.9] es consistente con [2.2.1], pero añadiendo un
término (a0øt),
∅ ∅ ∅ ∅ ⋯, 2.2.10
Produce otra serie consistente con [2.2.1] para cualquier constante (a0). Para verificar que [2.2.10] es
consistente con [2.2.1], multiplique [2.2.10] por ( ∅ ):
∅ ∅ ∅ ∅ ∅
∅ ∅∙ ∅
,
De modo que [2.2.10] es consistente con [2.2.1] para cualquier constante (a0).
Aunque cualquier proceso de la forma de [2.2.10] es consistente con la ecuación de diferencia

[2.2.1], observe que ya que (|ø|<1),
| ∅ | → ∞ → ∞.
Así, incluso si ( = -∞) es una secuencia acotada, la solución ( = -∞) dada por [2.2.10] es
ilimitada a menos que (a0=0) en [2.2.10]. Por lo tanto, hubo una razón particular para definir el
operador [2.2.8] como el inverso de ( ∅ ) - a saber, ∅ definido en [2.2.8] es el único
operador que satisface
∅ ∅
Que mapea una secuencia acotada ( = -∞) en una secuencia acotada ( = -∞).
La naturaleza de ∅ cuando (|ø|≥ 1) se discutirá en la Sección 2.5.
2.3. Ecuaciones Diferenciales de Segundo Orden

Consideremos a continuación una ecuación de diferencia de segundo orden:
∅ ∅ . [2.3.1]
Reescribir esto en forma de operador de retraso produce
∅ ∅ , [2.3.2]
2.3. Ecuaciones Diferenciales de Segundo Orden 31
El lado izquierdo de [2.3.2] contiene un polinomio de segundo orden en el operador de retardo L.
Supongamos que tenemos en cuenta este polinomio, es decir, números de aleta ( ) y ( ) tales que
∅ ∅ ̶ ̶ ̶ . [2.3.3]
Esta es sólo la operación en [2.1.5] a la inversa. Valores dados para (∅ ) y (∅ ), buscamos los
números ( ) y ( ) con las propiedades que:
∅ .
Por ejemplo, si (∅ . ) y (∅ . ), entonces debemos elegir ( . )y( . ):
. . . . . [2.3.4]
Es muy fácil ver que estos valores de ( ) y ( ) funcionan para este ejemplo numérico, pero
¿cómo se encuentran ( ) y ( ) en general? La tarea es elegir ( ) y ( ) para asegurar que el
operador en el lado derecho de [2.3.3] es idéntico al del lado izquierdo. Esto es verdad cuando las
siguientes representan las funciones idénticas de z:
∅ ∅   . [2.3.5]
Esta ecuación simplemente sustituye al operador de retraso L en [2.3.3] por un escalar z.
¿Cuál es el punto de hacerlo? Con [2.3.5], no podemos preguntar, ¿Para qué valores de z es el lado
derecho de [2.3.5] igual a cero? La respuesta es, si z = (λ1̶ 1) o z = (λ2̶ 1), entonces el lado derecho
[2.3.5] sería cero. No habría tenido sentido hacer una pregunta análoga de [2.3.3] - L denota un
operador particular, no un número, y L = (λ1̶ 1) no es una afirmación sensata.
¿Por qué deberíamos preocuparnos de que el lado derecho de [2.3.5] sea cero si z = (λ1̶ 1) o z = (λ2̶
1)? Recordemos que el objetivo era elegir (λ ) y (λ ) de modo que los dos lados de [2.3.5]
1 2
representaran el polinomio idéntico en z. Esto significa que para un valor particular z las dos
funciones deben producir el mismo número. Si encontramos un valor de z que establece el lado
derecho a cero, ese mismo valor de z debe establecer el lado izquierdo también. Pero los valores de
z que ponen el lado izquierdo a cero,
∅ ∅ , [2.3.6]
Se dan por la fórmula cuadrática:
∅ ∅ ∅
[2.3.7]
∅
∅ ∅ ∅
[2.3.8]
∅
El ajuste z = ( ) o ( ) hace que el lado izquierdo de [2.3.5] sea cero, mientras que z = ( )o
( ) fija el lado derecho de [2.3.5] en cero. Así
 [2.3.9]
 [2.3.10]
Volviendo al ejemplo numérico [2.3.4] en el cual ∅ = 0.6 y ∅ = ̶ 0.08, calcularíamos
. . .
.
.
. . .
.
.
Y así
 / . .
 / . . ,
Como se encontró en [2.3.4]
Cuando (ø12 + 4ø2 < 0), los valores ( ) y ( ) son conjugados complejos, y sus inversos (λ1) y (λ2)
se pueden encontrar escribiendo primero el número complejo en forma de coordenadas polares.
Específicamente, escriba

Como
.
Entonces
En realidad, existe un método más directo para calcular los valores de (λ1) y (λ2) de (∅ ) y (∅ ).
Divide ambos lados de [2.3.5] por ( ):
  . [2.3.11]
Y define (λ) como la variable (z ̶ 1):
≅ . [2.3.12]
La sustitución de [2.3.12] en [2.3.11] produce
 ∅  ∅     . [2.3.13]
De nuevo, [2.3.13] debe mantenerse para todos los valores de (λ) para que los dos lados de [2.3.5]
representen el mismo polinomio. Los valores de (λ) que establecen el lado derecho a cero son (
 ) y (  ). Estos mismos valores también deben poner el lado izquierdo de [2.3.13] a cero:
 ∅  ∅ . [2.3.14]
Por lo tanto, para calcular los valores de ( ) y ( ) que factor el polinomio en [2.3.3], podemos
encontrar las raíces de [2.3.14] directamente de la fórmula cuadrática:
∅ ∅ ∅

[2.3.15]
2.3 Ecuaciones Diferenciales de Segundo Orden 33
∅ ∅ ∅

[2.3.16]
Para el ejemplo de [2.3.4], calcularíamos
. . .
 .
. . .
 .
Es instructivo comparar estos resultados con los del Capítulo 1. Allí se resumió la dinámica de la
ecuación de diferencias de segundo orden [2.3.1] calculando los valores propios de la matriz F dada
por
∅ ∅
, [2.3.17]
Los valores propios de F se consideraron los dos valores de (λ) que satisfacen la ecuación [1.2.13]:
 ∅  ∅
Pero este es el mismo cálculo que en [2.3.14]. Este hallazgo se resume en la siguiente proposición.
Proposición 2.1: Factoring el polinomio ( ∅ ∅ ) como
∅ ∅   [2.3.18]
Es el mismo cálculo que encontrar los valores propios de la matriz F en [2.3.17]. Los valores
propios ( ) y ( ) de F son los mismos que los parámetros ( ) y ( ) en [2.3.18], y están dados
por las ecuaciones [2.3.15] y [2.3.16].
La correspondencia entre calcular los valores propios de una matriz y factorizar un

polinomio en el operador de retardo es muy instructiva. Sin embargo, introduce una fuente menor
de posible confusión semántica sobre la cual debemos tener cuidado. Recordemos del capítulo 1
que el sistema [2.3.1] es estable si ambos ( ) y ( ) son inferiores a 1 en módulo y explosivos si
( ) o ( ) es mayor que 1 en módulo. A veces esto se describe como el requisito de que las raíces
de
 ∅  ∅ [2.3.19]
Dentro del círculo de la unidad. La posible confusión es que a menudo es conveniente trabajar
directamente con el polinomio en la forma en que aparece en [2.3.2],
∅ ∅ , [2.3.20]
Cuyas raíces, hemos visto, son los recíprocos de los de [2.3.19]. Así, podríamos decir con igual
exactitud que "la ecuación de diferencia [2.3.1] es estable siempre que las raíces de [2.3.19] estén
dentro del círculo unitario" o que "la ecuación de diferencias [2.3.1] sea estable cuando la Las raíces
de [2.3.20] están fuera del círculo unitario ". Las dos afirmaciones significan exactamente lo mismo.
Algunos estudiosos se refieren simplemente a "las raíces de la ecuación de diferencia [2.3.1]",
aunque esto plantea la posibilidad de confusión entre [2.3.19] y [2.3.20]. Este libro seguirá la
convención de usar el término "valores propios" para referirse a las raíces de [2.3.19]. Siempre que
se utilice el término "raíces", se indicará explícitamente la ecuación cuyas raíces se describen.
A partir de aquí en esta sección, se supone que la ecuación de diferencia de segundo orden es
estable, con los valores propios ( ) y ( ) distintos y ambos dentro del círculo unitario. En este
caso, las inversas
    …
    …
Están bien definidos para secuencias acotadas. Escribir [2.3.2] en la forma factorizada:
  ⁼
Y operar en ambos lados por   :
˭   ˙ [2.3.21]
Siguiendo a Sargent (1987, p.184), cuando (  ), podemos usar el siguiente operador:
 
  .
 
[2.3.22]
Observe que esto es simplemente otra forma de escribir al operador en [2.3.21]:
 
 
 
   
 
 
 
Así, [2.3.21] puede escribirse como:
 
 
 

   ⋯
 

   ⋯
 
O
   
  …, [2.3.23]
Donde
 /   [2.3.24]
̶  /   [2.3.25]
De [2.3.23] el multiplicador dinámico se puede leer directamente como:
2.3 Ecuaciones Diferenciales de Segundo Orden 35
  ,
El mismo resultado obtenido en las ecuaciones [1.2.24] y [1.2.25]
2.4. Ecuaciones Diferenciales de orden p

Estas técnicas generalizan de manera directa a una ecuación de diferencia de orden p de la forma
∅ ∅ ⋯ ∅ [2.4.1]
Escribir [2.4.1] en términos de operadores de retardo como

∅ ̶ ∅ ̶ ̶ ∅ . [2.4.2]
Factorice al operador en el lado izquierdo de [2.4.2] como
∅ ̶ ∅ ̶ ̶ ∅    . [2.4.3]
Esto es lo mismo que encontrar los valores de (λ1, λ2, ···, λƿ) tales que los siguientes polinomios son
los mismos para todo z:
∅ ∅ ⋯ ∅    .
̶ ƿ
Como en el sistema de segundo orden, multiplicamos ambos lados de esta ecuación por (z )y
definimos ():
 ∅  ∅  ∅  ∅
      . [2.4.4]
Claramente, el ajuste (λ = λi) para 1, 2. …, o p hace que el lado derecho de [2.4.4] sea igual a cero.
Así, los valores (λ1, λ2, ···, λƿ) deben ser los números que ponen el lado izquierdo de la expresión
[2.4.4] a cero también:
λƿ ̶ ∅  ∅  ∅  ∅ = 0. [2.4.5]
Esta expresión es idéntica a la dada en la Proposición 1.1, que caracterizó los valores propios (λ1, λ2,
···, λƿ) de la matriz F definida en la ecuación [1.2.3]. Así, la Proposición 2.1 generaliza fácilmente.
Proposición 2.2: Factorizando un polinomio de orden p en el operador de retraso,
∅ ̶ ∅ ̶ ̶ ∅    .
Es el mismo cálculo que encontrar los valores propios de la matriz F definida en [1.2.3]. Los valores propios ( λ1,
λ2, ···, λƿ ) de F son los mismos que los parámetros ( λ1, λ2, ···, λƿ ) en [2.4.3] y están dados por las soluciones a la
ecuación [2.4.5].
La ecuación de diferencia [2.4.1] es estable si los valores propios (las raíces de [2.4.5]) están dentro
del círculo unitario, o equivalentemente si las raíces de
∅ ∅ ⋯ ∅ [2.4.6]
Fuera del círculo de la unidad.
Suponiendo que los valores propios están dentro del círculo unitario y que nos estamos limitando a
considerar secuencias acotadas, las inversas 1 , 1 , … , 1 existen,
permitiendo que la ecuación de diferencias.
1 1 1
Ser escrito como
1 1 1 . [2.4.7]
A condición además de que los valores propios (λ1, λ2, ···, λƿ) sean todos distintos, el polinomio
asociado con el operador en el lado derecho de [2.4.7] puede ampliarse de nuevo con fracciones
parciales:
1
1 1 1
⋯ 2.4.8
1 1 1
Siguiendo a Sargent (1987, pp. 192-93), los valores de (c1, c2, ···, cƿ) que hacen [2.4.8] verdaderos se
pueden encontrar multiplicando ambos lados por 1 1 1 :
1 1 1 … 1
1 1 … 1 ⋯
1 1 … 1
. 2.4.9
La ecuación [2.4.9] debe mantenerse para todos los valores de z. Puesto que se trata de un
polinomio de (p - 1) orden, si (c1, c2, ···, cƿ) son elegidos para que [2.4.9] se mantenga para p
valores distintos distintos de z, entonces [2.4.9] debe mantenerse para todo z. Para asegurar que
[2.4.9] se mantenga en ( ) se requiere que
1 1 1 1

˙
[2.4.10]
Para [2.4.9] mantener , ,…, requiere

[2.4.11]
.
.
.

1 2 1
[2.4.12]
2.4 Ecuaciones Diferenciales de orden p 37
Nótese nuevamente que éstos son idénticos a la expresión [1.2.25] en el Capítulo 1. Recuerda de la
discusión allí que ⋯ 1.
Para concluir, [2.4.7] puede escribirse
⋯
1 1 1
1 ⋯ 1 ⋯ ⋯
1 ⋯
⋯ ⋯
⋯ ⋯
⋯ 2.4.13
Donde (C1,C2,…Cp) están dadas por las ecuaciones [2.4.10] a [2.4.12]. De nuevo, el multiplicador
dinámico se puede leer directamente [2.4.13]:
= [C1λi1+C2λi2+⋯+Cpλip], [2.4.14]
Reproduciendo el resultado del Capítulo 1.
Hay una manera muy conveniente de calcular el efecto de w sobre el valor presente de y usando la
representación del operador de lag. Escribir [2.4.13] como
Yt=ѱ0wt+ ѱ1wt-1+ ѱ2wt-2+ ѱ3wt-3+… [2.4.15]
Dónde
Ѱi = [C1λi1+C2λi2+⋯+Cpλip]. [2.4.16]
Siguiente reescribir [2.4.15] en la notación de operador lag como
Yt = ѱ (L) wt, [2.4.17]
Donde ѱ (L) denota un polinomio de orden infinito en el operador de retraso:
Ѱ(L)=ѱ0+ ѱ1L+ ѱ2L2+ ѱ3L3+… .
Observe que Ѱi es el multiplicador dinámico [2.4.14]. El efecto de wt sobre el valor presente de y

viene dado por
∑ i i

[2.4.18]
=∑ Ѱi.
Pensando en Ѱ (Z) como un polinomio en un número real z,
Ѱ (Z)=ѱ0+ ѱ1Z+ ѱ2Z2+ ѱ3Z3+…,
Parece que el multiplicador [2.4.18] es simplemente este polinomio evaluado en :
∑
Ѱ ѱ ѱ ѱ ѱ ⋯,
[2.4.19]
Pero comparando [2.4.17] con [2.4.7], es evidente que
Ѱ (L) = [(1-λ1L)(1-λ2L)…(1-λpL)]-1 ,
Y de [2.4.3] esto significa que
Ѱ (L) = [1 - Ø1L – Ø2L2 - …- ØpLp)]-1.
Concluiríamos en que
Ѱ (Z) = [1 - Ø1Z – Ø2Z2 - …- ØpZp)]-1
Para cualquier valor de z, así, en particular,
Ѱ ( ) = [1 - Ø1 – Ø2 2 - …- Øp p)]-1. [2.4.20]
La sustitución de [2.4.20] en [2.4.19] revela que
∑
Ø – Ø … Ø
, [2.4.21]
Reproduciendo la afirmación de la Proposición 1.3. De nuevo, el multiplicador de largo plazo se

obtiene como el caso especial de [2.4.21] con =1:
1
lim ⋯ .
→ Ø – Ø … Ø
2.5. Condiciones iniciales y secuencias sin consolidar

La sección 1.2 analizó el siguiente problema. Dada una ecuación de diferencia de orden p
Yt=Ø1 t-1+ Ø2 t-2+…+ Øp t-p+ , [2.5.1]
P valores iniciales de y,
Y-1, Y-2,…, Y-p, [2.5.2]
Y una secuencia de valores para la variable de entrada w,
{W0, w1,…, wt}, [2.5.3]
Se buscó calcular la secuencia de valores para la variable de salida y:
{Y0, Y1,…, Yt}Ciertamente hay sistemas donde la pregunta se plantea precisamente en esta forma.
Podemos conocer la ecuación de movimiento para el sistema [2.5.1] y su estado actual [2.5.2] y
deseamos caracterizar los valores que {Y0, Y1,…, Yt} podría asumir para diferentes especificaciones
de {W0, w1,…, wt}.
Sin embargo, hay muchos ejemplos en economía y finanzas en los que una teoría especifica sólo la
ecuación del movimiento [2.5.1] y una secuencia de las variables de conducción [2.5.3]. Claramente,
estas dos piezas de información por sí solas son insuficientes para determinar la secuencia {Y0,
Y1,…, Yt} y se necesita alguna teoría adicional más allá de la contenida en la ecuación de diferencia
0 39
[2.5.1] para describir completamente la dependencia de y en w. Estas restricciones adicionales
pueden ser de interés en su propio derecho y también ayudar a dar una idea de algunos de los
detalles técnicos de la manipulación de las ecuaciones de diferencia. Por estas razones, esta sección
analiza en profundidad un ejemplo del papel de las condiciones iniciales y sus implicaciones para
resolver ecuaciones de diferencias.
Sea Pt el precio de una acción y Dt su pago de dividendos. Si un inversionista compra la acción a la

fecha t y la vende a t + 1, el inversor obtendrá un rendimiento de Dt/Pt del dividendo y un
rendimiento de (Pt+1-Pt)/Pt en ganancias de capital. La rentabilidad total del inversor (r t+1) es
r t+1= (Pt+1-Pt)/Pt+Dt/Pt.
Un modelo muy simple de la bolsa postula que el inversionista de retorno gana en acciones en
constante a través de períodos de tiempo:
r = (Pt+1-Pt)/Pt+Dt/Pt r >0. [2.5.4]
La ecuación [2.5.4] puede parecer demasiado simplista para ser de mucho interés práctico;
Asume entre otras cosas que los inversores tienen una previsión perfecta sobre los precios de las
acciones y los dividendos futuros. Sin embargo, un modelo ligeramente más realista en el que los
rendimientos esperados de las acciones son constantes implica un conjunto muy similar de
cuestiones técnicas. La ventaja del modelo de perfección perfecta es que puede ser discutido usando
las herramientas que ya están en la mano para obtener alguna información adicional sobre el uso de
operadores de retraso para resolver ecuaciones de diferencia.
Multiplicar [2.5.4] por Pt para llegar a
r Pt = Pt+1-Pt +Dt
Pt+1= (1+r) Pt - Dt. [2.5.5]
La ecuación [2.5.5] se reconocerá como una ecuación de diferencia de primer orden de la forma de
[1.1.1] con Yt =Pt+1,Ø= (1+r) y wt= - Dt. De [1.1.7], sabemos que [2.5.5] implica que
Pt+1= (1+r)t+1P0 - (1+r)tD0 - (1+r)t-1D1- (1+r)t-2D2 [2.5.6]
_... _ (1+r)Dt-1 . _ Dt.
Si se dio la secuencia { D0 , D1 ,…, Dt } y el valor de P0, entonces [2.5.6] podría determinar los
valores de { P1, P2,… Pt+1}. Pero si sólo se dan los valores { D0 , D1 ,…, Dt }, entonces la ecuación
[2.5.6] no sería suficiente para fijar { P1, P2,… Pt+1}. Hay infinidad de secuencias posibles { P1, P2,…
Pt+1} consistentes con [2.5.5] y con un dado { D0 , D1 ,…, Dt }. Este número infinito de
posibilidades se indexa por el valor inicial P0.
Otra suposición simplificadora ayuda a aclarar la naturaleza de estos diferentes caminos para { P1,
P2,… Pt+1}. Supongamos que los dividendos son constantes en el tiempo:
D1=D para todo t.
Entonces [2.5.6] se convierte
Pt+1= (1+r)t+1P0 – [(1+r)t+ (1+r)t-1
+…+ (1+r)+1] D

= (1+r)
t+1P
0 – D [2.5.7]

= (1+r) [P0 –(D/r)]+(D/r)
t+1
Consideremos primero la solución en la que P0 =D/r. Si el precio inicial de la acción llegara

a tomar el valor, el [2.5.7] implica que
Pt=D/r [2.5.8]
Para todo t. En esta solución, los dividendos son constantes en D y el precio de las acciones es
constante en D/r. Sin cambios en los precios de las acciones, los inversores nunca tienen ganancias
o pérdidas de capital, y su retorno es únicamente el rendimiento de dividendos D/P=r. En un
mundo sin cambios en los dividendos, esto parece ser una expresión sensata de la teoría
representada por [2.5.4]. La ecuación [2.5.8] se describe a veces como la solución de los
"fundamentos del mercado" a [2.5.4] para el caso de los dividendos constantes.
Sin embargo, incluso con dividendos constantes, la ecuación [2.5.8] no es el único resultado
consistente con [2.5.4]. Supongamos que el precio inicial excedió D/r:
P0 >D/r.
Los inversionistas parecen estar valorando las acciones más allá del potencial de su flujo constante
de dividendos. De [2.5.7] esto podría ser consistente con la teoría de precios de activos [2.5.4]
siempre que Pt supere D/r una cantidad aún mayor. Mientras todos los inversionistas crean que los
precios seguirán aumentando con el tiempo, cada uno ganará el retorno requerido r de la ganancia
de capital realizada y [2.5.4] será satisfecho. Este escenario ha recordado muchas economías de una
burbuja especulativa en los precios de las acciones.
Si tales burbujas han de ser descartadas, se requiere un conocimiento adicional sobre el

proceso para ∞ más allá de lo contenido en la teoría de [2.5.4]. Por ejemplo, podríamos
argumentar que los recursos finitos ponen un límite superior a los precios de las acciones factibles,
como en
| |<P para todo t. [2.5.9]
Entonces la única secuencia para ∞ consistente con ambos [2.5.4] y [2.5.9] sería la
solución de los fundamentos del mercado [2.5.8].
Relajemos ahora la hipótesis de que los dividendos son constantes y lo reemplazamos con
el supuesto de que ∞ es una secuencia acotada. ¿Cuál es el camino para regresar a la
ecuación de diferencia [2.5.5.]. Llegamos a la forma [2.5.6] sustituyendo recursivamente esta
ecuación hacia atrás. Es decir, utilizamos el hecho de que [2.5.5] mantenido para las fechas t, t-1,t-
2,…,0 y recursivamente sustituido para llegar a [2.5.6] como una implicación lógica de [2.5.5]. La
ecuación [2.5.5] también podría ser resuelta recursivamente hacia delante. Para ello, la ecuación
[2.5.5] se escribe como

Pt= [Pt+1+Dt]. [2.5.10]

Una ecuación análoga debe mantenerse para la fecha t + 1:

Pt+1= [Pt+2+Dt+1]. [2.5.11]

Sustituir [2.5.11] en [2.5.10] para deducir

Pt+1= [Pt+2+Dt+1]+Dt] [2.5.12]

= .

Usando [2.5.10] para la fecha t + 2,
2.5 Condiciones iniciales y secuencias sin consolidar 41

Pt+2= [Pt+3+Dt+2],

Y la sustitución en [2.5.12] da

.

Siguiendo con esta moda T períodos en el futuro produce

[2.5.13]

⋯ .

Si la secuencia ∞ debe satisfacer [2.5.9], entonces
lim 0.
→
Si ∞ es igualmente una secuencia acotada, entonces existe el siguiente límite:
lim ∑ 0.
→
Así, si ∞ debe ser una secuencia acotada, entonces podemos tomar el límite de [2.5.13]
como → ∞ para concluir
1
,
1
[2.5.14]
Que se conoce como la solución de los "fundamentos del mercado" de [2.5.5] para el caso general
de los dividendos que varían en el tiempo. Observe que [2.5.14] produce [2.5.8] como un caso
especial cuando para todo t.
Describir el valor de una variable en el tiempo t como una función de realizaciones futuras
de otra variable como en [2.5.14] puede parecer un artefacto de asumir un modelo de previsión
perfecta de los precios de las acciones. Sin embargo, un conjunto análogo de operaciones resulta ser
apropiado en un sistema similar [2.5.4] en el cual los retornos esperados son constantes. En tal
sistema [2.5.14] se generaliza a
1
,
1
Donde Et denota una expectativa de una cantidad futura desconocida basada en la información
disponible para los inversionistas en la fecha t.
La expresión [2.5.14] determina el valor particular para el precio inicial P0 que es

consistente con la condición limitada [2.5.9]. Ajustando t = 0 en [2.5.14] y sustituyendo en [2.5.6]
produce

⋯ ⋯

- (1+r)t-1D1- (1+r)t-2D2-…-(1+r)Dt-1-Dt

⋯.

Por lo tanto, establecer la condición inicial P0 para satisfacer [2.5.14] es suficiente para asegurar que
se cumple para todo t. La elección de P0 igual a cualquier otro valor haría que las consecuencias de
los dividendos de cada período se acumularan con el tiempo, de manera que pudiera llegar a una
violación de [2.5.9] eventualmente.
Es útil discutir estos mismos cálculos desde la perspectiva de los operadores de retraso. En
la Sección 2.2 la sustitución recursiva hacia atrás que llevó de [2.5.5] a [2.5.6] se representó
escribiendo [2.5.5] en términos de los operadores de retardo como
[1-(1+r)L ]Pt+1= - Dt [2.5.15]
Y multiplicando ambos lados de [2.5.15] por el siguiente operador:
[1+ (1+r)L+(1+r)2L2+…+(1+r)t Lt ]. [2.5.16]
Si (1 + r) fuera menor que la unidad, sería natural considerar el límite de [2.5.16] como → ∞:
[1- (1+r) L]-1=1+ (1+r) L+(1+r)2L2 +… .
En el caso de la teoría de los rendimientos de las existencias discutidos aquí, sin embargo, r>0 y
este operador no está definido. En este caso, se puede buscar una representación de operador de
retardo para la sustitución recursiva que conduce de [2.5.5] a [2.5.13]. Esto se logra utilizando el
inverso del operador de retraso,
L-1 Wt=Wt+1,
Que extiende el resultado [2.1.4] a valores negativos de k. Tenga en cuenta que L-1 es, de hecho, la
inversa del operador L:
L-1(Lwt)=L-1wt-1=wt.
En general,
L-kLj=Lj-k,
Con L0 definido como el operador de identidad:
L0 wt=wt .
Ahora considere multiplicar [2.5.15] por
[1+ (1+r)-1L-1+ (1+r)-2L-2+…+ (1+r)-(T-1) L-(T-1) ] [2.5.17]
x [-(1+r)-1L-1]
Para obtener
[1+ (1+r)-1 L-1 + (1+r)-2L-2+…+(1+r)-(T-1) L-(T-1) ]
x [1-(1+r)-1L-1] Pt+1
= [1+ (1+r)-1 L-1 + (1+r)-2L-2+…
+ (1+r)-(T-1) L-(T-1) ] x (1+r)-1Dt+1

⋯ ,

Que es idéntica a [2.5.13] con t en [2.5.13] sustituido por t + 1.
Cuando r> 0 y ∞ es una secuencia acotada, el lado izquierdo de la ecuación

precedente se aproximará Pt+1 a medida que T se hace grande. Por lo tanto, cuando r> 0 y
∞y ∞ son secuencias acotadas, el límite del operador en [2.5.17] existe y podría ser
visto como el invertido del operador en el lado izquierdo de [2.5.15]:
[1- (1+r) L]-1 = - (1+r)-1L-1
x [1+(1+r)-1L-1+(1+r)-2 L-2+… ].
Aplicar este operador limitador a [2.5.15] equivale a resolver la ecuación de diferencia hacia delante
como en [2.5.14] y seleccionar la solución de los fundamentos del mercado entre el conjunto de
trayectorias de tiempo posibles para ∞ dada una trayectoria temporal específica para los
dividendos ∞.
Así, dada una ecuación de diferencia de primer orden de la forma
(1-ØL)Yt = Wt, [2.5.18]
El consejo de Sargent (1987) era resolver la ecuación "hacia atrás" cuando│<1 multiplicando por
[1-ØL]-1= [1+ØL+Ø2L2+Ø3L3+…] [2.5.19]
Y para resolver la ecuación "adelante" cuando │Ø│<1 multiplicando por

Ø
[1-ØL]-1=
Ø
= - Ø-1L-1 [1+Ø-1L-1+Ø-2L-2+Ø-3L-3+…] . [2.5.20]
Definir la inversa de [1- ØL] de esta manera equivale a seleccionar un operador [1- ØL]-1 con las
propiedades que
[1- ØL]-1 x [1- ØL] =1(el operador de identidad)
y que, cuando se aplica a secuencia acotada ∞
[1- ØL]-1 Wt,
el resultado es otra secuencia limitada.
La conclusión de esta discusión es que al aplicar un operador como [1- ØL]-1, estamos
imponiendo implícitamente una suposición limitada que excluye a priori fenómenos como las
burbujas especulativas de la ecuación [2.5.7]. Donde esa es nuestra intención, tanto mejor, aunque
no deberíamos aplicar las reglas [2.5.19] o [2.5.20] sin alguna reflexión sobre su contenido
económico.
Sargent, Thomas J. 1987. Macroeconomic Theory, 2ª ed. Boston: Academic Press
Whiteman, Charles H. 1983. Linear Rational Expectations Models: A User´s Guide. Minneapolis:
University of Minnesota Press.
3
Procesos estacionarios ARMA

Este capítulo presenta los procesos ARMA univariados, que proporcionan una clase muy útil de
modelos para describir la dinámica de una serie temporal individual. El capítulo comienza con
definiciones de algunos de los conceptos clave utilizados en el análisis de series de tiempo. Las
secciones 3.2 a 3.5 luego investigan las propiedades de varios procesos ARMA. La sección 3.6
introduce la función generadora de autocovarianza, que es útil para analizar las consecuencias de
combinar series temporales diferentes y para comprender el espectro de la población. El capítulo
concluye con una discusión de la invertibilidad (Sección 3.7), que puede ser importante para
seleccionar la representación ARMA de una serie temporal observada que sea apropiada dada las
aplicaciones que se van a hacer del modelo.
3.1. Expectativas, Estacionariedad y Ergodicidad
Expectativas y Procesos Estocásticos

Supongamos que hemos observado una muestra de tamaño T de alguna variable aleatoria
t:
{ 1, 2,…, T}. [3.1.1]
Por ejemplo, considere una colección de variables independientes e idénticamente distribuidas

(i.i.d.) εT,
{ε1, ε2,…, εT}, [3.1.2]
con
ε ~ 0, .
Esto se conoce como una muestra de tamaño T de un proceso de ruido blanco gaussiano.
La muestra observada [3.1.1] representa T números particulares, pero este conjunto de

números T es sólo un posible resultado del proceso estocástico subyacente que generó la fecha. De
hecho, incluso si hubiéramos imaginado haber observado el proceso durante un período de tiempo
infinito, llegando a la secuencia
. . . , γ , γ , γ , γ , … , γ , γ ,γ ,..
La secuencia infinita ∞ todavía se vería como una realización única de un proceso de

series de tiempo. Por ejemplo, podríamos establecer una computadora para trabajar generando una
secuencia infinita de i.i.d. 0, , ε ∞, y una segunda computadora que genera una
secuencia separada, ε ∞ .A continuación, ver estos como dos realizaciones independientes
de un Gaussiano ruido blanco proceso.
46 Capítulo 3 | Procesos Estacionarios ARMA
Imagine una batería de I tales computadoras generando secuencias y ∞, y
∞,…, y ∞ y considere seleccionar la observación asociada con la fecha t de cada
secuencia:
{ t (1), t ,…,
( 2)
t
(I) }.
Esto se describiría como una muestra de I realizaciones del variable aleatorio t. Esta variable
aleatoria tiene cierta densidad, denotada fyt( t), que se denomina densidad incondicional de t. Por
ejemplo, para el proceso de ruido blanco gaussiano esta densidad viene dada por
exp .
√
La expectativa de la t-ésima observación de una serie de tiempo se refiere a la media de esta

distribución de probabilidad, siempre que exista:
E Y ≡ . [3.1.3]
Podríamos ver esto como el límite de probabilidad del promedio del conjunto:
E Y p lim 1/ ∑ . [3.1.4]
→
Por ejemplo, si ∞ representa la suma de una constante μ más un proceso de ruido

blanco gaussiano ε ∞,
Yt =μ+ εt [3.1.5]
Entonces su media es
E (Yt)=μ+E (εt)= μ. [3.1.6]
Si Yt es una tendencia temporal más el ruido blanco gaussiano,
Yt = t+ εt , [3.1.7]
La media es
E (Yt)= t. [3.1.8]
A veces para el énfasis la expectativa E (Yt) se llama la media incondicional de Yt. La media
incondicional es denotada μ t:
E (Yt)=μ t
Obsérvese que esta notación permite la posibilidad general de que la media pueda ser una función
de la fecha de la observación t. Para el proceso [3.1.7] que implica la tendencia temporal, la media
[3.1.8] es una función del tiempo, mientras que para el ruido blanco constante más Gaussiano, la
media [3.1.6] no es una función del tiempo.
La varianza de la variable aleatoria Yt (denotada ) es similarmente definida como
. [3.1.9]
Por ejemplo, para el proceso [3.1.7], la varianza es
ε σ .
3.1 Expectativas, Estacionariedad y Ergodicidad 47
Autovarianza
Dada una realización particular como ∞ en un proceso de series temporales,
considere construir un vector asociado con la fecha t. Este vector consta de las observaciones
más recientes [j + 1] sobre y a partir de la fecha t para esa realización:
Xt(1)≡ .
⋮
Pensamos en cada realización ∞ como generando un valor particular del vector Xt y

queremos calcular la distribución de probabilidad de este vector a través de las realizaciones i.
Esta distribución se denomina distribución conjunta de (Yt,Yt-1,…,Yt-j). A partir de esta distribución
podemos calcular la j-ésima autocovariancia de Yt (denotada Yjt):
γjt= … Yt μt Yt j μt j
ƒyt,yt-1,…,yt-j(yt,yt-1,…,yt-j)dytdyt-1…dyt-j [3.1.10]
=E(Yt-μt) (Yt-j-μt-j).
Obsérvese que [3.1.10] tiene la forma de una covarianza entre dos variables X e Y:
Cov(X,Y)=E(X-μx)(Y-μy).
Así [3.1.10] podría ser descrito como la covarianza de Yt con su propio valor retrasado; Por
lo tanto, el término "autovarianza". Observe más lejos de [3.1.10] que la autocovariancia 0 es sólo la
varianza de Yt, como anticipó la notación Y0t en [3.1.9].
La autocovariancia Yjt se puede ver como el elemento (1, j + 1) de la matriz de varianza-

covarianza del vector xt. Por esta razón, las autocovariancias se describen como los segundos
momentos del proceso para Yt.
Una vez más, puede ser útil pensar en la j-ésima autocovariancia como el límite de
probabilidad de un promedio de conjunto:
γjt= lim 1/ ∑ (Yt(i)- μt]. [Y(i)t-j- μ t-j]. [3.1.11]

→
Como ejemplo de cálculo de autocovariancias, tenga en cuenta que para el proceso en

[3.1.5] las autocovariancias son todas cero para j≠0:
γjt=E (Yt- μ) (Yt-j- μ)=E(εtεt-j)=0 para j≠0.
Estacionariedad
Si ni la media μ ni las autocovarianzas Yjt dependen de la fecha t, entonces se dice que el
proceso para Yt es covarianza-estacionario o débilmente estacionario:
E (Yt)=μ para toda t
E (Yt- μ) (Yt-j- μ)=γj para toda t y algunas j.
Por ejemplo, el proceso en [3.1.5] es covarianza-estacionaria:
E(Yt)=μ

E(Yt- μ) (Yt-j- μ)=
0
Por el contrario, el proceso de [3.1.7] no es covarianza-estacionario, porque su media, Bt, es una
función del tiempo.
Obsérvese que si un proceso es covarianza-estacionario, la covarianza entre Yt y Yt - j

depende sólo de , del tiempo que separa las observaciones, y no de t, la fecha de la observación. Se
deduce que para un proceso de covarianza-estacionario, Yj y Y-j representarían la misma magnitud.
Para ver esto, recuerde la definición
γj =E(Yt-μ) (Yt-j-μ). [3.1.12]
Si el proceso es covarianza-estacionario, entonces esta magnitud es la misma para cualquier valor de

que podríamos haber elegido; Por ejemplo, podemos reemplazar por :
γj =E (Yt+j-μ) (Y[t+j]-j-μ)- E(Yt+j-μ) (Yt-μ).= E(Yt-μ) (Yt+j-μ).
Pero refiriéndose de nuevo a la definición [3.1.12], esta última expresión es sólo la definición de γ-j.
Así, para cualquier proceso de covarianza-estacionario,
γj= γ-j [3.1.13]
Un concepto diferente es el de estricto estacionario. Se dice que un proceso es

estrictamente estacionario si, para cualquier valor de j1,j2,…,jn, la distribución conjunta de (yt,yt+j1,
yt+j1,…,yt+jn) depende solamente de los intervalos que separan las fechas (j1,j2,…,jn) y no en la fecha
misma (t). Obsérvese que si un proceso es estrictamente estacionario con segundos segundos
finitos, entonces debe ser covarianza estacionaria - si las densidades sobre las que estamos
integrando en [3.1.3] y [3.1.10] no dependen del tiempo, entonces los momentos μt y yjt no
dependerán del tiempo. Sin embargo, es posible imaginar un proceso que es covarianza:
estacionario, pero no estrictamente estacionario; La media y las autocovariancias no podían ser
funciones del tiempo, pero tal vez momentos superiores tales como E( ) son.
En este texto el término "estacionario" por sí mismo se toma para significar "covarianza-
estacionario".
Se dice que un proceso {Yt} es Gaussiano si la densidad de unión
ƒyt.yt+j1,…,yt+jn(yt,yt+j1,…,yt+jn)
Es Gaussiano para cualquier j1,j2,…,jn. Dado que la media y la varianza son todo lo que se necesita
para parametrizar una distribución Gaussiana multivariable completamente un proceso Gaussiano
estacionario de covarianza es estrictamente estacionario.
Ergodicidad
Hemos visto las expectativas de una serie de tiempo en términos de promedios de conjunto
como [3.1.4] y [3.1.11]. Estas definiciones pueden parecer un poco artificiales, ya que por lo general
todo lo que uno tiene disponible es una realización única del tamaño T del proceso, que antes
denotamos { , ,…, }. A partir de estas observaciones se calcula la media muestral ȳ.
Esto, por supuesto, no es un promedio de conjunto, sino un promedio de tiempo:
ȳ 1/ .
[3.1.14]
3.1 Expectativas, Estacionariedad y Ergodicidad 49
Si los promedios de tiempo como [3.1.14] eventualmente convergen al concepto de conjunto E(Yt)
para un proceso estacionario tiene que ver con la ergodicidad. Se dice que un proceso covarianza-
estacionario es ergódico para la media si [3.1.14] converge en probabilidad a E(Yt) como → ∞.
Un proceso será ergódico para la media siempre que la autocovariancia vaya a cero lo
suficientemente rápido como j se hace grande. En el capítulo 7 veremos que si la autocovariancia
para un proceso de covarianza-estacionario satisface
[3.1.15]
Entonces { } es ergódico para la media.
Del mismo modo, se dice que un proceso de covarianza-estacionario es ergódico para los segundos
momentos si
[1/(T-j)]∑ μ (Yt-j-μ) p→yj
Para todos j. Las condiciones suficientes para la ergodicidad de segundo momento se presentarán
en el capítulo 7. En el caso especial donde { } es un proceso estacionario Gaussiano, la condición
[3.1.15] es suficiente para asegurar la ergodicidad para todos los momentos.
Para muchas aplicaciones, la estabilidad y la ergodicidad resultan ser las mismas. Sin
embargo, con el propósito de aclarar los conceptos de estacionario y ergodicidad, puede ser útil
considerar un ejemplo de un proceso que es estacionario pero no ergódico. Supongamos que la
media μ(i) para la i-ésima realización ∞ se genera a partir de una distribución N(0, )
digamos
Y t (i)= μ(i)+εt . [3.1.16]
Aquí {εt} es un proceso de ruido blanco gaussiano con media cero y varianza que es
independiente de μ(i). Darse cuenta de
μ t=E (μ (i))+E (εt) = 0.
También,
Y(t)=E (μ(i)+εt)2 =λ2+σ 2
Yj(t)=E (μ(i)+εt)( μ(i)+εt-j)=λ2 para j≠0.
Así, el proceso de [3.1.16] es covarianza-estacionario. No satisface la condición suficiente [3.1.15]

para ergodicidad para la media, sin embargo, y de hecho, el tiempo promedio
(1/T)∑ = (1/T) ∑ εt μ i 1/T ∑ εt
Converge a μ(i) en lugar de a cero, la media de .
3.2. Ruido Blanco

El bloque básico para todos los procesos considerados en este capítulo es una secuencia ε
∞ cuyos elementos tienen cero y varianza σ2,
E(εt) = 0 [3.2.1]
E(ε2t) = σ2, [3.2.2]
Y para los cuales los ’s no están correlacionados a lo largo del tiempo:
E (εt, εT) = 0 para t ≠ τ. [3.2.3]
Un proceso que satisface [3.2.1] a [3.2.3] se describe como un proceso de ruido blanco.
En ocasiones queremos reemplazar [3.2.3] por la condición ligeramente más fuerte de que los ’s
son independientes a través del tiempo:
ε t , εT [3.2.4]
Obsérvese que [3.2.4] implica [3.2.3] pero [3.2.3] no implica [3.2.4]. Un proceso que satisface [3.2.1]
a [3.2.4] se denomina proceso de ruido blanco independiente.
Finalmente, si [3.2.1] a [3.2.4] se mantiene junto con

ε t ~ N(0, σ2), [3.2.5]
Entonces tenemos el proceso de ruido blanco gaussiano.
3.3. Procesos de Media Móvil
El proceso de media móvil de primer orden

Sea εt el ruido blanco como en [3.2.1] a [3.2.3], y considere el proceso
Yt= μ+εt+θεt-1 , [3.3.1]
Donde μ y θ podrían ser constantes. Esta serie temporal se denomina proceso de media móvil de
primer orden, denominado MA (1). El término "promedio móvil" proviene del hecho de que Yt se
construye a partir de una suma ponderada, similar a una media, de los dos valores más recientes de
ε.
La expectativa de Yt viene dada por
E (Yt)=E (μ+εt+θεt-1)= μ+E (εt)+θ.E (εt-1) = μ. [3.3.2]
Utilizamos el símbolo para el término constante en [3.3.1] en previsión del resultado que este
término constante resulta ser la media del proceso.
La varianza de Yt es
2 ² [3.3.3]
1 .
La primera autocovariancia es
3.3 Procesos de Media Móvil 51

0 0 0. [3.3.4]
Las autocovarianzas más altas son todas cero:
0 1. [3.3.5]
Dado que la media y las autocovarianzas no son funciones del tiempo, un proceso MA (1) es
covarianza-estacionario independientemente del valor de . Además, [3.1.15] está claramente
satisfecho:
1 .
Así, si es ruido blanco gaussiano, entonces el proceso MA (1) [3.3.1] es ergódico para todos los
momentos.
La j-ésima autocorrelación de un proceso covarianza-estacionario (denotado se define como su j-

ésima autocovariancia dividida por la varianza:
≡ [3.3.6]
Una vez más, la terminología surge del hecho de que es la correlación entre y :
,
,
Puesto que es una correlación, 1 para todo , por la desigualdad de Cauchy-Schwarz.

Observe también que la 0ª autocorrelación es igual a la unidad para cualquier proceso
covarianza-estacionario por definición.
A partir de [3.3.3] y [3.3.4], la primera autocorrelación para un proceso MA (1) está dada
por
²
[3.3.7]
²
Las autocorrelaciones más altas son todas cero.
La autocorrelación se puede trazar como una función de como en la figura 3.1. El panel (a)
muestra la función de autocorrelación para el ruido blanco, mientras que el panel (b) da la función
de autocorrelación para el proceso MA (1):
0.8
Para diferentes especificaciones de obtendríamos diferentes valores para la primera

autocorrelación en [3.3.7]. Los valores positivos de inducen autocorrelación positiva en la
serie. En este caso, es probable que un valor excepcionalmente grande de sea seguido por un
valor mayor que el promedio para , de la misma manera que menor que el promedio puede
ser seguido por un valor menor que el promedio . Por el contrario, los valores negativos de
implican autocorrelación negativa - un gran podría ser seguido por un pequeño valor para .
Los valores para implicados por diferentes especificaciones de representados en la

figura 3.2. Observe que el mayor valor posible para es 0.5; Esto ocurre si 1. El valor más
pequeño para es - 0.5, que ocurre si 1. Para cualquier valor de entre -0,5 y 0,5, hay dos
valores diferentes de que podrían producir esa autocorrelación. Esto se debe a que el valor de
⁄ 1 no cambia si es reemplazado por 1/ :
1/ . 1/
1 1 ² 1 1/ 1
Por ejemplo, los procesos
0.5
2
Tendría la misma función de autocorrelación:
2 0.5
0.4.
1 2 1 0.5
Tendremos más que decir acerca de la relación entre dos procesos MA (1) que comparten la misma
función de autocorrelación en la Sección 3.7.
(a) Ruido Blanco: (b) MA(1) : 0.8
(c) MA(4): 0.6 0.3 (d) AR(1) : 0.8

0.5 0.5
(e) AR(1): 0.8

FIGURA 3.1 Funciones de autocorrelación para diversos procesos ARMA.
El Proceso de Media Móvil de Orden “q-nésima”
Donde el proceso de media móvil denotado MA(q), se caracteriza por:
⋯ ,
[3.3.8]
Satisface [3.2.1] a [3.2.3] y , ,…, podría ser cualquier número real. La media de [3.3.8] es
nuevamente dada por :
. . ⋯ .
La varianza de un proceso de MA (q) es
. . . [3.3.9]
FIGURA 3.2 La primera autocorrelación para un proceso MA (1) es posible para diferentes
valores de .
Dado que los ′ no están correlacionados, la varianza [3.3.9] es 1
⋯ 1 ⋯ . [3.3.10]
Para for j = 1,2,….q,
..
⋯
⋯ . [3.3.11]
Los términos que implican ′ en diferentes fechas han sido eliminados porque su producto tiene
una expectativa cero, y se define como unidad. Para j> q, no hay con fechas comunes en la
definición de y así la expectativa es cero.
Así,
⋯ . 1,2, … ,
[3.3.12]
0

1 Ver la ecuación [A.5.18] en el Apéndice A al final del libro.
Por ejemplo, para un proceso MA (2)
1 .
⋯ 0
Para cualquier valor de , ,…, , el proceso MA (q) es, por tanto, covarianza-
estacionario. Condición [3.1.15] se satisface, por lo que para gaussiana el proceso MA (q) es
también ergódico para todos los momentos. La función de autocorrelación es cero después de
retrasos q, como en el panel (c) de la figura 3.1.
El proceso de media móvil de orden infinito

El proceso MA (q) puede escribirse
Con 1. Considere el proceso que resulta como → ∞:
∑ ⋯ [3.3.13]
Esto podría ser descrito como un proceso MA∞. Para preservar la flexibilidad de la notación
posteriormente, usaremos para los coeficientes de un proceso de media móvil de orden infinito y
′ para los coeficientes de un proceso de media móvil de orden finito.
El Apéndice 3.A de este capítulo muestra que la secuencia infinita en [3.3.13] genera un proceso
estacionario de covarianza bien definido, siempre que
∝
∝.
[3.3.14]
A menudo es conveniente trabajar con una condición ligeramente más fuerte que [3.3.14]:
∞.
[3.3.15]
Se dice que una secuencia de números 0 que satisface [3.3.14] es sumatoria
cuadrada, mientras que una secuencia que satisface [3.3.15] se dice que es absolutamente sumatoria.
La sumabilidad absoluta implica la suma cuadrada, pero la inversa no se sostiene. Hay ejemplos de
secuencias cuadradas-sumábles que no son absolutamente sumables (véase también el Apéndice
3.A).
La media y las autocovariancias de un proceso MA ∞ con coeficientes absolutamente
sumables se pueden calcular a partir de una simple extrapolación de los resultados para el proceso
MA (q):2
lim ⋯ [3.3.16]
→
lim ⋯ ² lim ⋯ . ²
→ →
[3.3.17]
⋯ .
[3.3.18]
Además, un proceso MA ∞ con coeficientes absolutamente sumables tiene autocovariancias

absolutamente sumables:
∝
∝.
[3.3.19]
Por lo tanto, un proceso MA ∞ que satisface [3.3.15] es ergódico para la media (véase el Apéndice
3.A). Si el ′ es Gaussiano, entonces el proceso es ergódico para todos los momentos
3.4. Procesos Autorregresivos
Proceso autorregresivo de primer orden

Una autorregresión de primer orden, denotado AR (1), satisface la siguiente ecuación de diferencia:
. [3.4.1]
De nuevo, { }es una secuencia de ruido blanco que satisface [3.2.1] a [3.2.3]. Observe que [3.4.1]
toma la forma de la ecuación de diferencia de primer orden [1.1.1] o [2.2.1] en la que la variable de
entrada está dada por . Sabemos por el análisis de las ecuaciones de diferencias de

2 Sumabilidad absoluta y existencia del segundo momento son condiciones suficientes para permitir intercambiar el orden
de integración y suma. Específicamente, si es una secuencia de variables aleatorias tales que
∞,
Entonces
Ver Rao (1973, p. 111).
primer orden que if 1, las consecuencias de ′ para Y se acumulan en lugar de morir a lo
largo del tiempo. Por lo tanto, no es sorprendente que cuando no existe un proceso de
covarianza-estacionario para Y con una varianza finita que satisface [3.4.1]. En el caso en que
1, existe un proceso de covarianza-estacionario para Y que satisface [3.4.1]. Se da por la
solución estable a [3.4.1] caracterizada por [2.2.9:]
. . . ⋯
/ 1 ⋯. [3.4.2]
Esto puede ser visto como un proceso MA ∞ como en [3.3.13] con dado por Cuando
1, se satisface la condición [3.3.15]:
∝ ∝
Que es igual a 1/ 1 siempre que 1 . El resto de esta discusión de procesos

autorregresivos de primer orden asume que 1 Esto asegura que la representación MA ∞
existe y puede ser manipulada de manera obvia, y que el proceso AR (1) es ergódico para la media.
Tomando las expectativas de [3.4.2], vemos que
/ 1 0 0 ⋯,
De manera que la media de un proceso estacionario AR (1) es
/ 1 . [3.4.3]
La varianza es
⋯ [3.4.4]
1 ⋯
^2/ 1 ^2 .
Mientras que la autocovariancia j-ésima es
⋯ ⋯ [3.4.5]
⋯ .
1 ⋯ .
/ ^
.
Se deduce de [3.4.4] y [3.4.5] que la función de autocorrelación,
3.4 Procesos Autorregresivos 57
/ , [3.4.6]
Sigue un patrón de decaimiento geométrico como en el panel (d) de la figura 3.1. De

hecho, la función de autocorrelación [3.4.6] para un proceso estacionario AR (1) es idéntica al
multiplicador dinámico o la función impulso-respuesta [1.1.10]; El efecto de un incremento de una
unidad en en es igual a eh correlación entre Y y . Un valor positivo de , como un
valor positivo de para un proceso MA (1), implica una correlación positiva entre y . Un
valor negativo de implica una autocorrelación de segundo orden negativa de primer orden pero
positiva, como en el panel (e) de la figura 3.1.
La figura 3.3 muestra el efecto sobre la aparición de la serie temporal { } de la variación

del parámetro . Los paneles muestran realizaciones del parámetro autorregresivo . El panel (a)
muestra ruido blanco 0 . Una serie sin autocorrelación parece agitada y sin patrones para el
ojo; El valor de una observación no da ninguna información sobre el valor de la siguiente
observación. Para = 0,5 (panel (b)), la serie parece más suave, con observaciones por encima o
por debajo de la media que a menudo aparecen en grupos de duración modesta. Para = 0,9
(panel (c)), las desviaciones de la media pueden ser bastante prolongadas; Los choques fuertes
toman un tiempo considerable para morir.
Los momentos para un AR estacionario (1) se obtuvieron arriba al verlo como un proceso MA ∞ .
Una segunda forma de llegar a los mismos resultados es asumir que el proceso es covarianza-
estacionario y calcular los momentos directamente a partir de la ecuación de diferencia [3.4.1].
Tomando las expectativas de ambos lados de [3.4.1],
. . [3.4.7]
Asumiendo que el proceso es covarianza-estacionario,
. [3.4.8]
Sustituyendo [3.4.8] en [3.4.7],
0
o
/ 1 ,
Reproduciendo el resultado anterior [3.4.3].
Observe que la fórmula [3.4.9] claramente no está generando una declaración sensata si
| | 1. Por ejemplo, si c>0 y 1, entonces Y en [3.4.1] es igual a una constante positiva más
un número positivo multiplicado por su valor retrasado más una variable aleatoria de media-cero.
Sin embargo, [3.4.9] parece afirmar que Y sería negativo en promedio para tal proceso! La razón de
que la fórmula [3.4.9] no es válida cuando | |≥1 es lo que asumimos en [3.4.8] que Y es
covarianza-estacionaria, suposición que no es correcta cuando | |≥1.
Para encontrar los segundos momentos de Y de una manera análoga, utilice [3.4.3] para
reescribir [3.4.1.] Como
1
o
. [3.4.10]
Ahora cuadrados ambos lados de [3.4.10] y tomar las expectativas:
2 . [3.4.11]
(a) ∅ = 0 (ruido blanco)
(b) ∅ = 0.5
(c) ∅= 0.9
FIGURA 3.3 Realizaciones de un proceso AR (1), para valores alternativos de
.
Recordemos de [3.4.2] que es una función lineal de , , …:
⋯,
Pero no está correlacionada con , , … así que no debe estar correlacionada con
. Así, el término medio en el lado derecho de [3.4.11] es cero:
0 [3.4.12]
De nuevo, suponiendo covarianza-estacionaria, tenemos
. [3.4.13]
Sustituyendo [3.4.13] y [3.4.12] en [3.4.11],
0 ²
/ 1 ,
Reproduciendo [3.4.4].
Del mismo modo, podríamos multiplicar [3.4.10] por y tomar las expectativas:
. . [3.4.14]
Pero el término será una función lineal de , , .., que, para j> 0, no se
correlacionará con . Por lo tanto, para j> 0, el último término en el lado derecho en [3.4.14] es
cero. Obsérvese, además, que la expresión que aparece en el primer término en el lado derecho de
[3.4.14],
μ ,
Es la autocovariancia de las observaciones sobre Y separadas por j - 1 períodos:
Así, para j> 0, [3.4.14] se convierte en
[3.4.15]
La ecuación [3.4.15] toma la forma de una ecuación de diferencias de primer orden,
En el que la autocovariancia Y toma el lugar de la variable Y y en la que el subíndice j (que indiza el

orden de la autocovariancia) sustituye t (que indiza el tiempo). La entrada w en [3.4.15] es
idénticamente igual a cero. Es fácil ver que la ecuación de diferencia [3.4.15] tiene la solución
Que reproduce [3.4.6]. Ahora vemos por qué la función de impulso-respuesta y la función
de autocorrelación para un proceso AR (1) coinciden - ambas representan la solución a una
ecuación de diferencia de primer orden con un parámetro autorregresivo , un valor inicial de
unidad y ningún choque subsiguiente.
El Proceso Autorregresivo de Segundo Orden
Una autorregresión de segundo orden, denotada AR (2), satisface
, [3.4.16]
O, en la notación del operador de retraso,
1 . [3.4.17]
La ecuación de diferencia [3.4.16] es estable siempre que las raíces de
1 0 [3.4.18]
Fuera del círculo de la unidad. Cuando esta condición se cumple, el proceso AR (2) resulta ser
covarianza-estacionario, y el inverso del operador autorregresivo en [3.4.17] está dado por
1 ¯ ⋯. [3.4.19]
Recordando [1.2.44], el valor de se puede encontrar desde el elemento (1, 1) de la matriz F

elevado a la potencia j, como en la expresión [1.2.28]. Cuando las raíces de [3.4.18] son distintas,
una expresión de forma cerrada para está dada por [1.2.29] y [1.2.25]. El ejercicio 3.3 al final de
este capítulo discute algoritmos alternativos para calcular .
La multiplicación de ambos lados de [3.4.17] por (L) da
. [3.4.20]
Es fácil demostrar que
/ 1 [3.4.21]
y
∝
∝;
[3.4.22]
Se invita al lector a probar estas afirmaciones en los ejercicios 3.4 y 3.5. Puesto que [3.4.20] es un
proceso absolutamente sumable MA∞, su media está dada por el término constante:
/ 1 [3.4.23]
Un método alternativo para calcular la media es asumir que el proceso es covarianza-estacionario y

tomar las expectativas de [3.4.16] directamente:
,
Implicando
0,
Reproduciendo [3.4.23].
Para encontrar segundos momentos, escriba [3.4.16] como
o
. [3.4.24]
Multiplicando ambos lados de [3.4.24] por y tomando expectativas produce
1,2, … .. [3.4.25]
Por lo tanto, la autocovariancia sigue la misma ecuación de diferencia de segundo orden que el
proceso para con la ecuación de diferencia para indexada por el retardo j. Las autocovariancias
para el mismo se comportan igual que las soluciones a la ecuación de diferencia de segundo orden
analizada en la Sección 1.2. Un proceso AR (2) si covariancia-estacionario siempre que y se
encuentren dentro de la región triangular de la Figura 1.5.
Cuando y se encuentran dentro de la región triangular pero por encima de la parábola en esa
figura, la función de autocovariancia es la suma de dos funciones exponenciales decrecientes de j.
Cuando y caen dentro de la región triangular pero debajo de la parábola, es una función
sinusoidal amortiguada.
Las autocorrelaciones se encuentran dividiendo ambos lados de [3.4.25] por :
1,2, … .. [3.4.26]
En particular, el ajuste j = 1 produce
/ 1 . [3.4.27]
Para j = 2
La variación de una autorregresión de segundo orden covarianza-estacionaria se puede encontrar

multiplicando ambos lados de [3.4.24] por y tomando las expectativas:
. [3.4.28]
El último término en [3.4.29] viene de darse cuenta de que
. .
,
La ecuación [3.4.29] puede escribirse
. [3.4.29]
Sustituyendo [3.4.27] y [3.4.28] en [3.4.30] se obtiene
.0 .0 .
o
. [3.4.30]
El Proceso Autoregresivo de Orden P
Una autorregresión de orden P, denotada AR (p), satisface
⋯ . [3.4.31]
Siempre que las raíces de
1 ⋯ 0 [3.4.32]
Todos se encuentran fuera del círculo unitario, es fácil verificar que la representación estacionaria
covarianza de la forma
[3.4.33]
Existe donde
1 ⋯ ¯¹
Y ∑ ∞. Suponiendo que se cumple la condición de estacionariedad, una manera de

encontrar la media es tomar las expectativas de [3.4.31]:
⋯ ,
/ 1 ⋯ . [3.4.34]
Usando [3.4.34], la ecuación [3.4.31] puede escribirse
⋯
. [3.4.35]
Las autocovariancias se encuentran multiplicando ambos lados de [3.4.35] por y
tomando las expectativas:
⋯ 1,2, . .
⋯ 0,
[3.4.36]
Usando el hecho de que , el sistema de ecuaciones en [3.4.36] para j = 0, 1, ..., p puede ser
resuelto para , , … como funciones de , , , … , . Se puede demostrar que el vector
1 , ,… está dado por los primeros p elementos de la primera columna de la
matriz ¯¹ donde F es la matriz (pxp) definida en la ecuación [1.2.3] Y x indica el
producto Kronecker.
Dividir [3.4.36] por produce las ecuaciones de Yule-Walker:
⋯ [3.4.37]
Por lo tanto, las autocovariancias y autocorrelaciones siguen la misma ecuación de diferencia de

orden p que el propio proceso [3.4.31]. Para raíces distintas, sus soluciones toman la forma
⋯ , [3.4.38]
Donde los valores propios ,…. son las soluciones a
⋯ 0
3.5. Procesos Mixtos de Media Móvil Autorregresiva
Un proceso de ARMA (p, q) incluye términos de media autorregresiva y móvil:
⋯ [3.5.1]
⋯ ,
O, en forma de operador de retardo,
1 ⋯
1 ⋯ . [3.5.2]
1 ⋯ 0 [3.5.3]
Fuera del círculo unitario, ambos lados de [3.5.2] se pueden dividir 1 ⋯

por para obtener
donde
1 ⋯
1 ⋯
∝
/ 1 ⋯
Así, la estacionariedad de un proceso ARMA depende enteramente de los parámetros

autorregresivos , ,…, y no de los parámetros de la media móvil , ,…, .
A menudo es conveniente escribir el proceso ARMA [3.5.1] en términos de desviaciones de la

media:
⋯ . [3.5.4]
Las autocovariancias se encuentran multiplicando ambos lados de [3.5.4] por y

tomando las expectativas. Para j> q, las ecuaciones resultantes toman la forma
⋯ [3.5.5]
Así, después de q las la función de autocovariancia (y la función de autocorrelación )

siguen la ecuación de diferencia de orden p gobernada por los parámetros autorregresivos.
Tenga en cuenta que [3.5.5] no se mantiene para for j≤q, debido a la correlación entre
y . Por lo tanto, un proceso ARMA (p, q) tendrá autocovariancias más complicadas para
los retornos 1 a q que el correspondiente proceso AR (p). Para j>q con raíces autorregresivas
distintas, las autocovariancias serán dadas por
⋯ [3.5.6]
Esto toma la misma forma que las autocovariancias para un proceso AR (p) [3.4.38], aunque debido
a que las condiciones iniciales , , … , difieren para los procesos ARMA y AR, los parámetros
en [3.5.6] no Ser los mismos que los parámetros en [3.4.38].
Existe la posibilidad de una parametrización redundante con procesos ARMA. Considere, por
ejemplo, un simple proceso de ruido blanco,
. [3.5.7]
Supongamos que ambos lados de [3.5.7] se multiplican por 1 :
1 1 , [3.5.8]
Claramente, si [3.5.7] es una representación válida, entonces también es [3.5.8] para cualquier valor
de p. Así, [3.5.8] podría ser descrito como un ARMA (1, 1) proceso, con y . Es
importante evitar esta parametrización. Puesto que cualquier valor de p en [3.5.8] describe los datos
igualmente bien, obviamente nos meteremos en problemas tratando de estimar el parámetro p en
[3.5.8] por máxima verosimilitud. Además, las manipulaciones teóricas basadas en una
representación tal como [3.5.8] pueden pasar por alto cancelaciones clave. Si estamos usando un
modelo ARMA (1, 1) en el que está cerca de - entonces los datos podrían ser mejor
modelados como simple ruido.
Una sobreparametrización relacionada puede surgir con un modelo ARMA (p, q). Consideremos el
factoraje de los operadores polinomiales de lag en [3.5.2] como en [2.4.3]
1 1 … 1
1 1 … 1 . [3.5.9]
Asumimos que 1 para toda i para que el proceso sea covarianza-estacionario. Si el

operador autorregresivo 1 ⋯ y el operador del promedio móvil 1
⋯ tienen raíces comunes, digamos, λ para algunos y , entonces
ambos lados de [3.5.9] pueden dividirse por 1 :
1 1
1 ⋯
1 ⋯ , [3.5.10]
donde
1 ⋯
1 1 … 1 1 … 1
1 ⋯
3.5 Procesos Mixtos de Media Móvil Autorregresiva 65
1 1 … 1 1 … 1 .
El proceso estacionario ARMA (p, q) que satisface [3.5.2] es claramente idéntico al proceso
estacionario ARMA (p - 1, q - 1) que satisface [3.5.10].
3.6. La función de generación de autocovarianza

Para cada uno de los procesos estacionarios de covarianza para considerados hasta ahora, se
calcula la secuencia de autocovariancias . Si esta secuencia es absolutamente sumatoria,
entonces una manera de resumir las autocovariancias es a través de una función escalar-valorada
llamada función autocovariante-generadora:

[3.6.1]
Esta función se construye tomando la autovarianza j-ésima y multiplicándola por un número z
elevado a la potencia j, y luego sumando sobre todos los valores posibles de j. El argumento de esta
función (z) se toma como un escalar complejo.
De particular interés como argumento para la función generadora de autocovariancia es

cualquier valor de z que se encuentra en el complejo círculo unitario,
cos sin
Donde √ 1 y w es el ángulo radiano que z hace con el eje real. Si la función de generación de
autocovariancia se evalúa en y se divide por 2 , la función resultante de ,
1 1
,
2 2

Se denomina espectro de población de Y. El espectro de población se analizará en detalle en el

Capítulo 6. Allí se demostrará que para un proceso con autocovariancias absolutamente sumables,
existe la función y puede usarse para calcular toda la función generadora de autocovariancia,
entonces los dos procesos Exhiben la secuencia idéntica de autocovariancias.
Como ejemplo de cálculo de una función generadora de autocovariancia, considere el proceso MA

(1). De las ecuaciones [3.3.3] a [3.3.5], su función generadora de autocovariancia es
1 . 1 .
Obsérvese que esta expresión podría escribirse alternativamente
1 1 [3.6.2]
La forma de expresión [3.6.2] sugiere que para el proceso MA (q)
1 ⋯ ,
La función de generación de autocovariancia podría calcularse como
1 ... [3.6.3]
1 ... .
Esta conjetura puede ser verificada realizando la multiplicación en [3.6.3] y recopilando términos
por potencias de z:
1 ... 1 ...
... . . . [3.6.4]
1 ...
. . . ... .
La comparación de [3.6.4] con [3.3.10] o [3.3.12] confirma que el coeficiente de en [3.6.3] es, en
efecto, el j-ésimo autocovarianza.
Este método para encontrar se extiende al caso ∞ . Si
[3.6.5]
con
. .. [3.6.6]
∞,
[3.6.7]
Entonces
[3.6.8]
Por ejemplo, el proceso estacionario AR (1) puede escribirse como
1 ∅ ,
Que está en la forma de [3.6.5] con 1/ 1 ∅ ,. Por lo tanto, la función de

generación de autocovariancia para un proceso AR (1) podría calcularse a partir
[3.6.9]
∅ ∅
Para verificar directamente esta afirmación, expanda los términos de [3.6.9]:
1 ∅ ∅ ∅ ...
1 ∅ 1 ∅
(1 ∅ ∅ ∅ . . . ,
Del cual el coeficiente de es
∅ ∅ ∅ ∅ ∅ . . . ∅ / 1 ∅ .
3.6 La función de generación de autocovarianza 67
De hecho, esto produce la autocovariancia j-ésimo, tal como se calculó anteriormente en la
ecuación [3.4.5].
La función de generación de autocovariancia para un proceso ARMA (p, q) estacionario

puede escribirse
. . . . . .
∅ ∅ . . . ∅ ∅ ∅ . . . ∅
[3.6.10]

Filtros
A veces los datos son filtrados, o tratados de una manera particular antes de ser analizados,
y nos gustaría resumir los efectos de este tratamiento en las autocovariancias. Este cálculo es
particularmente sencillo utilizando la función de generación de autocovariancia. Por ejemplo,
supongamos que los datos originales se generaron a partir de un proceso MA (1)
1 , [3.6.11]
Con función generadora de autocovariancia dada por [3.6.2]. Digamos que los datos como
realmente analizados, , representan el cambio en sobre su valor del período anterior:
1 . [3.6.12]
Sustituyendo [3.6.11] en [3.6.12], los datos observados se pueden caracterizar como el siguiente
proceso MA (2)
1 1 1 1 1 , [3.6.13]
Con ≡ 1 y ≡ . La función generadora de autocovariancia de los datos

observados se puede calcular aplicando directamente [3.6.3]:
1 1 . [3.6.14]
A menudo es instructivo, sin embargo, mantener el polinomio 1 en su forma

factorizada de la primera línea de [3.6.13],
1 1 1 ,
En cuyo caso [3.6.14] podría escribirse
1 1 1 1
1 1 . . [3.6.15]
Por supuesto, [3.6.14] y [3.6.15] representan la función idéntica de z, y la forma en que elegimos
escribirla es simplemente una cuestión de conveniencia. La aplicación del filtro (1 - L) a da como
resultado la multiplicación de su función de generación de autocovariancia por (1 - z) 1 .
Este principio fácilmente generaliza. Supongamos que la serie de datos originales satisface
[3.6.5] a [3.6.7]. Digamos que los datos se filtran según
[3.6.16]
Con

∞.
Sustituyendo [3.6.5] en [3.6.16], los datos observados son generados por

∗ ∗
1 ≡ ,
Donde ∗ ≡ 1 y ∗
≡ . La secuencia de coeficientes asociados con el operador
∗
compuesto resulta ser absolutamente sumatoria, and La función de generación de
autocovariancia de puede ser calculada como
∗ ∗
. 3.6.17
Aplicando el filtro h (L) a una serie esto resulta en multiplicar su función de generación de
autocovariancia por .
3.7. Invertibilidad
Invertibilidad para el proceso MA(1)

Considere un proceso MA(1) p,
1 , [3.7.1]
Con

0
Siempre que | | 1, ambos lados de [3.7.1] se puedan multiplicar por 1 para obtener 3
Que podría ser visto como una representación AR ∞ . Si una representación de media
móvil tal como [3.7.1] puede ser reescrita como una representación AR ∞ . tal como [3.7.2]
simplemente invirtiendo el operador de media móvil 1 , entonces la representación del
promedio móvil se dice que es invertible. Para un proceso MA (1), la Invertibilidad requiere | |
1; si | | 1, entonces la secuencia infinita en [3.7.2] no estaría bien definida.
Vamos a investigar lo que significa invertibilidad en términos del primer y segundo momentos del
proceso. Recordemos que el proceso MA (1) [3.7.1] tiene una función media y generadora de
autocovariancia
1 1 . [3.7.3]
Ahora considere un proceso MA aparentemente diferente (1)
1 ̅ , [3.7.4]

3 Nota de [2.2.8]
0 69
Con

0
Tenga en cuenta que tiene la misma media que . Su función de autocovariancia es
1 ̅ 1 ̅
̅ 1 ̅ ̅ 1 ̅ [3.7.5]

1 ̅ 1 ̅
Supongamos que los parámetros de [3.7.4], ̅, , están relacionados con los de [3.7.1] mediante
las siguientes ecuaciones:
̅ [3.7.6]
̅ [3.7.7]
Entonces las funciones generadoras de autocovariancia [3.7.3] y [3.7.5] serían las mismas, lo que
significa que y tendrían idénticos momentos primero y segundo.
Note de [3.7.6] que | | 1; entonces | | 1, En otras palabras, para cualquier

representación inversa MA (1) [3.7.4] con los mismos primeros y segundos momentos que la
representación invertible. Por el contrario, dada una representación no inversa con 1⁄ ̅ ,
existe una representación invertible con 1 que tiene los mismos momentos primero y
segundo que el no inversible.
No sólo las representaciones invertibles y no reversibles comparten los mismos momentos,

ya sea la representación [3.7.1] o [3.7.4] podría utilizarse como una descripción igualmente válida de
cualquier proceso dado MA (1)! Supongamos que una computadora generó una secuencia infinita
de ´ de acuerdo con [3.7.4] con ̅ 1. Por lo tanto, sabemos que los datos se generaron a partir
de un proceso MA (1) expresado en términos de una representación no reversible. ¿En qué sentido
podrían estos mismos datos ser asociados con una representación invertible MA (1)?
Imagínese calcular una serie definida por
⋯, [3.7.8]
Donde 1⁄ ̅ es el parámetro de la media móvil asociado a la representación inversa MA (1)

que comparte los mismos momentos que [3.7.4]. Tenga en cuenta que, dado que | | 1, esto
produce una serie convergente cuadrada media bien definida .
Además, la secuencia así generada es ruido blanco. La forma más sencilla de verificar esto es
calcular la función generadora de autocovariancia de y confirmar que el coeficiente de (la j-
ésima autocovariancia) es igual a cero para cualquier 0. De [3.7.8] y [3.6.17], la función de
generación de autocovariancia para viene dada por
1 1 . [3.79]
1 1 ̅ 1 ̅ 1 ̅ [3.7.10]
̅ ,
Donde la última igualdad se deriva del hecho de que ̅ . Dado que la función generadora de
autocovarianza es una constante, se deduce que es un proceso de ruido blanco con
varianza ̅ .
Multiplicando ambos lados de [3.7.8] por 1 ,
Es una representación de MA (1) invertible perfectamente válida de datos que en realidad se

generaron a partir de la representación no reversible [3.7.4].
La proposición inversa es también verdadera - supongamos que los datos fueron realmente
generados a partir de [3.7.1] con | | 1, una representación invertible. Entonces existe una
representación no inversa con ̅ 1⁄ que describe estos datos con igual validez. Para caracterizar
esta representación no reversible, considere el operador propuesto en [2.5.20] como la inversa
apropiada de 1 ̅ :
1 ̅ ̅ ̅ ⋯
1 ⋯ .
Defina ̅ como la serie que resulta de aplicar este operador a ,
̅ ≡ ⋯, [3.7.11]
Observando que esta serie converge para | | 1. Otra vez esta serie es ruido blanco:
1 ⋯
1 ⋯ 1 1
El coeficiente de es cero para 0, ̅ es el ruido blanco según lo reivindicado. Además, por

construcción,
1 ̅ ̅
De modo que hemos encontrado una no reversible MA (1) representación de los datos que fueron
realmente generados por la inversible MA (1) representación [3.7.1].
O bien la representación invertible o no reversible podría caracterizar cualquier dato dado

igualmente bien, aunque hay una razón práctica para preferir la representación invertible. Para
encontrar el valor de para la fecha t asociada a la representación invertible como en [3.7.8],
necesitamos conocer los valores actuales y pasados de Y. Por contraste, para fin el valor de ̅ para la
fecha t asociada Con la representación no reversible como en [3.7.11], necesitamos usar todos los
valores futuros de Y! Si la intención es calcular el valor actual de usando datos del mundo real,
será factible trabajar con la representación invertible. Además, como se observará en los Capítulos 4
y 5, algunos algoritmos convenientes para estimar parámetros y pronósticos son válidos sólo si se
usa la representación invertible.
El valor de asociado a la representación invertible se denomina a veces innovación fundamental

para . Para el caso límite cuando| | 1 , el proceso es no reversible, pero la innovación para
tal proceso será descrita como la innovación fundamental para .
3.7 Invertibilidad 71
Invertibilidad para el proceso MA (q)
Consideremos ahora el proceso MA (q)
1 ⋯ [3.7.12]

0
1 ⋯ 0 [3.7.13]
Fuera del círculo unitario, [3.7.12] se puede escribir como un ∞ simplemente invirtiendo el
operador MA,
1 ⋯ ,
Donde
1 ⋯ 1 ⋯
En este caso, la representación MA (q) [3.7.12] es invertible.
Factor el operador de media móvil como
1 ⋯ 1 1 ⋯ 1 . [3.7.14]
Si | | 1 para todos , entonces las raíces de [3.7.13] están todas fuera del círculo unitario y la
representación [3.7.12] es invertible. Si en cambio algunos de los están fuera (pero no en) el
círculo unitario, Hansen y Sargent (1981, p.102) sugirieron el siguiente procedimiento para
encontrar una representación invertible. La función de autocovariancia de puede escribirse
. 1 1 ⋯ 1 [3.7.15]
1 1 ⋯ 1
Ordene el de modo que , ,⋯, esté dentro del círculo de unidad y , ,⋯,
esté fuera del círculo de unidad. Supongamos que en [3.7.15] es reemplazado por
. . ⋯ ; Ya que el complejo aparece como pares conjugados, este es un número
real positivo. Supongamos además que , ,⋯, son reemplazados por sus inversos,
. ⋯ . La función resultante sería
. . ⋯ 1 1
1 1
1 1
1 1
1 1
1 1
1 1
Que es idéntica a [3.7.15].
La implicación es la siguiente. Supongamos que una representación no reversible para un proceso

MA (q) se escribe en la forma
∏ 1 ̅, [3.7.16]
Donde
| | 1 1,2, . . . ,
| | 1 1, 2, … ,

0
Entonces la representación invertible es dada por
∏ 1 ∏ 1 , [3.7.17]
Donde
⋯
0
Entonces [3.7.16] y [3.7.17] tienen la misma función de autocovariancia-generación, aunque sólo
[3.7.17] satisface la condición de invertibilidad.
De la estructura del argumento precedente, está claro que hay una serie de representaciones
alternativas de MA (q) de los datos asociadas a todos los posibles "flips" entre y . Sólo uno
de estos tiene todos los en o dentro del círculo de la unidad. Las innovaciones asociadas con
esta representación se dice que son las innovaciones fundamentales para .
3.7 Invertibilidad 73
APÉNDICE 3.A. Convergencia de Resultados para Procesos
de media móvil de orden infinito
Este apéndice demuestra las declaraciones hechas en el texto sobre la convergencia para el proceso
∞ [3.3.13].
Primero mostramos que la sumabilidad absoluta de los coeficientes de la media móvil

implica la suma cuadrada. Supongamos que 0 es absolutamente sumable. Entonces existe
un ∞ tal que 1 para todos , lo que implica para todos .
Entonces
Pero ∑ es finito, ya que N es finito, y ∑ es finito, ya que es absolutamente

sumable. Por lo tanto ∑ , estableciendo que [3.3.15] implica [3.3.14].
A continuación mostramos que la soma cuadrada no implica una summabilidad absoluta. Para un
ejemplo de una serie que es cuadrada-sumatoria pero no absolutamente sumable, considere
1⁄ para j=1,2,…. Observe que1⁄ 1⁄ para todos , lo que significa que
1⁄ 1⁄
Y así
1⁄ 1⁄ log 1 log 1 log 1 .
Que diverge a ∞ como → ∞. Por lo tanto 1 no es absolutamente sumable. Es, sin

embargo, cuadrada-sumable, ya que 1⁄ 1⁄ para todos , lo que significa
1⁄ 1⁄
Y así
1/ 1 1⁄ 1 1 2 1⁄ ,
1
Que converge a 2 como N → ∞. Por lo tanto 1 es de suma cuadrada.

A continuación mostramos que la suma cuadrada de los coeficientes de media móvil implica que la
representación ∞ en [3.3.13] genera una variable aleatoria convergente cuadrática media.
Primero recuerde lo que se entiende por convergencia de suma determinística tal como ∑
donde es sólo una secuencia de números. Un criterio para determinar si ∑ converge a
algún número finito como → ∞ es el criterio de Cauchy. El criterio de Cauchy establece
que ∑ converge si y sólo si, para cualquier 0, existe un entero N adecuadamente grande
tal que, para cualquier entero M> N,
.
En palabras, una vez que hemos sumado N términos, calcular la suma a un número M más grande
no cambia el total por más de un número arbitrariamente pequeño .
Para un proceso estocástico como [3.3.13], la pregunta comparable es si ∑

converge en cuadrado medio a alguna variable aleatoria como → ∞. En este caso, el criterio de
Cauchy establece que ∑ converge si y sólo si, para cualquier 0 , existe un número entero
N adecuadamente grande tal que para cualquier entero M> N
∑ ∑ [3.A.1]
En palabras una vez que se han sumado N términos, la diferencia entre esa suma y la
obtenida de la suma a M es una variable aleatoria cuya media y varianza son arbitrariamente
cercanas a cero.
Ahora, el lado izquierdo de [3.A.1] es simplemente
⋯ . [3.A.2]
Pero si ∑ converge según lo requerido por [3.3.14] entonces por el criterio de Cauchy el
lado derecho de [3.A.2] puede hacerse tan pequeño como se desee mediante la elección de un N
adecuadamente grande. Así, la serie infinita en [3.3.13] converge en cuadrado medio siempre que
[3.3.14] se cumpla.
Finalmente, se muestra que la sumabilidad absoluta de los coeficientes de media móvil

implica que el proceso es ergódico para la media. Escriba [3.3.18] como
Entonces
Una propiedad clave del operador de valor absoluto es que
| | | | | | | |
.
Por tanto
APÉNDICE 3.A. Convergencia de Resultados para Procesos de media móvil de orden infinito 75
.| | | | .
Pero existe un → ∞ tal que ∑ , y por lo tanto ∑

0,1,2, …, significando que
| |. ∞
Capítulo 3 Ejercicios
3.1 ¿Es el siguiente MA (2) proceso de covarianza-estacionario?
1 2.4 0.8
1
0
Si es así, calcule sus autocovariancias.
3.2. ¿Es el siguiente AR (2) proceso de covarianza-estacionario?
1 1.1 0.18
1

0
Si es así, calcule sus autocovariancias.
3.3 Un proceso de covarianza-estacionario AR (p)
1 ∅ ∅ ⋯∅ ,
Tiene una ∞) representación dada por
Con
1⁄ 1 ∅ ∅ ⋯∅
1 ∅ ∅ ⋯∅ ⋯ 1.
Para que esta ecuación sea verdadera, el coeficiente implícito en ° debe ser unidad y los
coeficientes en , , , … deben ser cero. Anote estas condiciones de forma explícita y muestre
que implica un algoritmo recursivo para generar los pesos ∞ , , … Muestre que esta
recursividad es algebraicamente equivalente a establecer igual al (1, 1) elemento de la matriz F
elevado a El j-ésimo poder como en la ecuación [1.2.28].
3.4. Deriva [3.4.21].
3.5. Verificar [3.4.22].
3.6. Sugerir un algoritmo recursivo para calcular los pesos ∞ ,
1 ⋯
Asociado a un proceso inversible MA(q),
1 ⋯ .
Dar una expresión de forma cerrada para como una función de las raíces de
1 ⋯ 0,
Suponiendo que estas raíces son todas distintas.
3.7. Repita el ejercicio 3.6 para un proceso no reversible MA (q). (SUGERENCIA: Recuerde la
ecuación [3.7.17].)
3.8. Demuestre que el proceso MA (2) en el ejercicio 3.1 no es invertible. Encuentre la

representación invertible para el proceso. Calcule las autocovariancias de la representación
invertible usando la ecuación [3.3.12] y verifique que éstas son las mismas que las obtenidas en el
ejercicio 3.1.
Anderson, Brian D. O., y John B. Moore. 1979. Optimal Filtering. Englewood Cliffs.
N.J.: Pretince-Hall.
Hannan, E. J. 1970. Multiple Time Series. New York: Wiley
Hansen, Lars P., y Thomas J. Sargent. 1981. “Formulating and Estimating Dynamic Linear
Rational Expectations Models”. In Robert E. Lucas, Jr. and Thomas J. Sargent, eds.,
Rational Expectations and Econometric Practice, Vol I. Minneapolis: University of Minnesota
Press.
4
Previsión
Este capítulo discute cómo pronosticar series temporales. La sección 4.1 revisa la teoría de la
predicción e introduce la idea de una proyección lineal, que es un pronóstico formado a partir de
una función lineal de observaciones rápidas. La sección 4.2 describe el pronóstico que se utilizaría
para los modelos ARMA si se dispone de un número infinito de observaciones pasadas. Estos
resultados son útiles en las manipulaciones teóricas y en la comprensión de las fórmulas de la
Sección 4.3 para una predicción óptima aproximada cuando sólo un número finito de
observaciones están disponibles.
La sección 4.4 describe cómo lograr una factorización triangular y la factorización de Cholesky de
una matriz de varianza-covarianza. Estos resultados se usan en esa sección para calcular el
pronóstico óptimo exacto basado en un número finito de observaciones. También se utilizarán en
el Capítulo 11 para interpretar las autorregresiones vectoriales, en el Capítulo 13 para derivar el
filtro de Kalman, y en una serie de otros cálculos teóricos y métodos numéricos que aparecen a lo
largo del texto. La factorización triangular se utiliza para derivar una fórmula para actualizar un
pronóstico en la Sección 4.5 y establecer en la Sección 4.6 que para los procesos gaussianos la
proyección lineal es mejor que cualquier pronóstico no lineal.
La sección 4.7 analiza qué tipo de proceso resulta cuando se agregan dos procesos ARMA
diferentes. La sección 4.8 indica la descomposición de Wold, que proporciona una base para usar
una representación MA () para caracterizar la regla de pronóstico lineal para cualquier proceso
covarianza-estacionario. La sección también describe un enfoque empírico popular para encontrar
una aproximación razonable a esta representación que fue desarrollada por Box y Jenkins (1976).
4.1. Principios de la Previsión
Pronóstico basado en la expectativa condicional

Supongamos que estamos interesados en predecir el valor de una variable Yt + 1 basada en un
conjunto de variables X, observadas en la fecha t. Por ejemplo, podríamos querer pronosticar Yt + 1
sobre la base de sus m valores más recientes. En este caso, X, consistiría en una constante más Yt,
Yt-1,..., y Yt-m + 1.
Sea Y*t+1|t una predicción de Yt + 1 basada en Xt. Para evaluar la utilidad de esta previsión,
necesitamos especificar una función de pérdida, o un resumen de cómo estamos preocupados si
nuestro pronóstico está desactivado por una cantidad determinada. Se obtienen resultados muy
convenientes si se asume una función de pérdida cuadrática. Una función de pérdida cuadrática
significa elegir el pronóstico Y*t+1|t para minimizar.
E (Yt + 1 - Y*t+1|t)2 [4.1.1.]
La expresión [4.1.1.] Se conoce como el error cuadrático medio asociado con el pronóstico Y*t+1|t
denotado.
MSE (Y*t+1|t) ≡ E (Yt + 1 - Y*t+1|t)2
78 Capítulo 4 | Previsión
El pronóstico con el error cuadrático medio más pequeño resulta ser la expectativa de Yt + 1
condicional en Xt;
Y*t+1|t=E(Yt+1|Xt) [4.1.2.]
Para verificar esta afirmación, considere basar Y*t+1|t en cualquier función g (Xt) que no sea la
expectativa condicional.
Y*t+1|t=g(Xt) [4.1.3.]
Para esta regla de previsión de los candidatos, la MSE sería
E [Yt + 1 – g (Xt)]2 = E [Yt + 1 – E (Yt + 1|Xt) + E (Yt + 1|Xt) - g (Xt)]2
= E [Yt + 1 - E (Yt + 1|Xt)]2 [4.1.4]
+ 2E {[Yt + 1 - E (Yt + 1|Xt)] E (Yt + 1|Xt) - g (Xt)]}
+ E {[E (Yt + 1|Xt) - g (Xt)]2}
Escriba el término medio en el lado derecho de [4.1.4.] Como
2E [nt+1] [4.1.5.]
Donde
nt+1 ≡ {[ Yt + 1 - E (Yt + 1|Xt)][ E (Yt + 1|Xt) - g (Xt)]}
Considere primero la expectativa de nt+1 condicional a Xt. Condicionados a Xt, los términos E (Yt +
1|Xt) y g (Xt) son constantes conocidas y pueden ser factorizados de esta expectativa:1
E [nt+1| Xt] = [E (Yt + 1|Xt) - g (Xt)] X E ([Yt + 1 - E (Yt + 1|Xt)]| Xt)
= [E (Yt + 1|Xt) - g (Xt)] X 0
=0
Por una aplicación directa de la ley de expectativas repetidas, la ecuación [A.5.10], se sigue que
E [nt+1] = EXt (E [nt+1| Xt]) = 0
Sustituyendo esto en [4.1.4.] Da
E [Yt + 1 – g (Xt)]2 = E [Yt + 1 - E (Yt + 1|Xt)]2 + E ([E (Yt + 1|Xt) - g (Xt)]2) [4.1.6.]
El segundo término del lado derecho de [4.1.6.] No puede ser menor que cero, y el primer término
no depende de g (Xt). La función g (Xt) que hace que el error cuadrático medio [4.1.6.] Sea lo más
pequeño posible es la función que establece el segundo término en [4.1.6.] A cero:
E (Yt + 1|Xt) = g (Xt) [4.1.7.]
Por lo que el pronóstico g (Xt) que minimiza el error cuadrático medio es la expectativa condicional
E (Yt + 1|Xt), tal como se reivindica.

La expectativa de predicción E (Yt + 1|Xt) representa el momento de la población condicional de
11
la variable aleatoria Yt + 1 y no es una función de la variable aleatoria Yt + 1 en sí misma. Por ejemplo,

si Yt + 1|Xt ~ N (α´ Xt, Ω) entonces, que no depende de Yt + 1.
4.1 Principios de la Previsión 79
El MSE de esta previsión óptima es
E [Yt + 1 – g (Xt)]2 = E [Yt + 1 - E (Yt + 1|Xt)]2 [4.1.8.]
Pronóstico basado en la proyección lineal

Ahora restringimos la clase de pronóstico considerada al requerir que el pronóstico Y*t + 1|r sea una
función lineal de Xt:
Y*t + 1|r = α´ Xt [4.1.9.]
Supongamos que deberíamos encontrar un valor para α tal que el error de pronóstico (Yt + 1|r - α´
Xt) no esté correlacionado con Xt
E [(Yt + 1|r - α´ Xt) Xt´] = 0 [4.1.10]
Si [4.1.10] se mantiene, entonces el pronóstico α´ X, se denomina proyección lineal de Yt + 1 en Xt
La proyección lineal resulta producir el error cuadrático medio más pequeño entre la clase de reglas
de pronóstico lineal. La prueba de esta afirmación es paralela a la demostración de la óptima de la
expectativa condicional entre el conjunto de todas las previsiones posibles. Sea g´X, cualquier regla
de predicción lineal arbitraria. Tenga en cuenta que su MSE es
E [Yt + 1 – g´ (Xt)]2
= E [Yt + 1 - α´ Xt + α´ Xt – g´ Xt]2
= E [Yt + 1 - α´ Xt]2 + 2E {[Yt + 1 - α´ Xt] [α´ Xt - g´ Xt]} [4.1.11]
+ E [α´ Xt - g´ Xt]2
Como en el caso de [4.1.4], el término medio en el lado derecho de [4.1.11] es cero:
E ([Yt + 1 - α´ Xt] [α´ Xt - g´ Xt]) = (E [Yt + 1 - α´ Xt] X´t) [α – g] = 0 [α – g]
En virtud de [4.1.10]. Esto [4.1.11] simplifica a
E [Yt + 1 – g (Xt)]2 = E [Yt + 1 - α´ Xt]2 + E [α´ Xt – g´ Xt]2 [4.1.12]
El pronóstico lineal óptimo g´X, es el valor que establece el segundo término en [4.1.12] igual a
cero:
g´ Xt = α´ Xt
Donde α´ Xt, satisface [4.1.10]
Para α´ Xt, satisfaciendo [4.1.10], usaremos la notación
(Yt + 1|Xt) = α´ Xt
O a veces simplemente
Ŷ Yt + 1|r = α´ Xt
Para indicar la proyección lineal de Yt + 1 sobre Xt. Obsérvese que
MSE [ (Yt + 1|Xt)] ≥ MSE [E (Yt + 1|Xt),
Ya que la expectativa condicional ofrece la mejor previsión posible.
Para la mayoría de las aplicaciones se incluirá un término constante en la proyección. Utilizaremos

el símbolo Ê para indicar una proyección lineal sobre un vector de variables aleatorias Xt, junto con
un término constante:
Ê (Yt + 1|Xt) ≡ (Yt + 1|1, Xt)
Propiedades de la proyección lineal

Es fácil utilizar [4.1.10] para calcular el coeficiente de proyección α en función de los momentos de
Yt + 1 y Xt:
E (Yt+1X´t) = αÉ (XtX´t)
α´=E(Yt+1X´t)[E(XtX´t)]-1 [4.1.13.]
Suponiendo que E (XtX´t) es una matriz no singular. Cuando E (XtX´t) es singular, el vector de
coeficientes α no está determinado exclusivamente por [4.1.10], aunque el producto de este vector
con las variables explicativas, α´ Xt, está determinado de forma única por [4.1.10]2
El MSE asociado con una proyección lineal está dado por
E(Yt+1-α´Xt)2=E(Yt+1)2–2E(α´XtYt+1)+E(α´XtX´tα) [4.1.14]
La sustitución de [4.1.13] en [4.1.14] produce
E (Yt + 1 - α´ Xt)2 = E (Yt + 1)2 – 2E (Yt + 1X´t) [E (XtX´t)]-1E (Xt Yt + 1)
+E(Yt+1X´t)[E(XtX´t)]-1 [4.1.15.]
E (XtX´t) [E (XtX´t)]-1 E (Xt Yt + 1)
= E (Yt + 1)2 – E (Yt + 1X´t) [E (XtX´t)]-1 E (Xt Yt + 1)
Obsérvese que si X, incluye un término constante, entonces la proyección de (a Yt + 1 + b) sobre Xt

(donde a y b son constantes deterministas) es igual a
[(a Yt + 1 + b)| Xt] = a (Yt + 1| Xt) + b
Para ver esto, observe que a (Yt + 1| Xt) + b es una función lineal de Xt. Además, el error de
pronóstico,
[a Yt + 1 + b] – [a (Yt + 1| Xt) + b] = a [Yt + 1 - (Yt + 1| Xt)]

2
Si E (XtX´t) es singular, existe un vector no nulo e tal que e´. E (XtX´t).e = E (e´Xt)2 = 0, de modo
que alguna combinación lineal E, es igual a cero para todas las realizaciones.
Por ejemplo, si Xt consiste en dos variables aleatorias, la segunda variable debe ser una versión
escalonada de la primera: X2t = cX1t. Podría simplemente eliminar las variables redundantes de
dicho sistema y calcular la proyección lineal de Yt+1 en X*t, donde X*t, Es un vector que consiste en
los elementos no redundantes de Xt. Esta proyección lineal *´X*t se puede calcular de forma única
a partir de [4.1.13] con X, en [4.1.13.] Reemplazada por X*t. Cualquier combinación lineal de las
variables originales ´X, [4.1.10] representa esta misma variable aleatoria; Que es ´Xt = *´X*t,
para todos los valores de  consistentes con [4.1.10]
No está correlacionada con Xt, como se requiere de una proyección lineal
Proyección lineal y regresión de mínimos cuadrados ordinarios

La proyección lineal está estrechamente relacionada con la regresión de mínimos cuadrados
ordinarios. Esta subsección discute la relación entre los dos conceptos.
Un modelo de regresión lineal relaciona una observación sobre yt-1 con xt:
yt-1 = ´xt + ut [4.1.16.]

Dada una muestra de las observaciones T en y & x, la suma muestral de los residuos cuadrados se define
como
´
[4.1.17.]
El valor de  que minimiza [4.1.17], denota b, es la estimación de mínimos cuadrados ordinarios (MCO)
de. La fórmula de b resulta ser.
[4.1.18.]
Que equivalentemente se puede escribir
1 1
´
[4.1.19.]
Al comparar la estimación del coeficiente MCO b en la ecuación [4.1.19] con el coeficiente de

proyección lineal  en la ecuación [4.1.13.], Vemos que b se construye a partir de los momentos de
la muestra (1/T)XtX’t y (1/T)xtyt+1 mientras que  se construye a partir de los momentos de la
población E (XtX´t) y E (XtYt+1). Así, la regresión MCO es un resumen de las observaciones de las
muestras particulares (x1, x2,… xT) y (y1, y2,… yt), mientras que la proyección lineal es un resumen
de las características de la población del proceso estocástico {Xt, Yt+1} = -
Aunque la proyección lineal describe momentos de la población y los mínimos cuadrados

ordinarios describen momentos de muestreo, existe un sentido matemático formal en el que las dos
operaciones son las mismas. El Apéndice 4.A de este capítulo discute este paralelo y muestra cómo
las fórmulas para una regresión MCO pueden verse como un caso especial de las fórmulas para una
proyección lineal.
Obsérvese que si el proceso estocástico {Xt, Yt+1} es covarianza estacionaria y ergocida para los
segundos instantes, entonces los momentos muestrales convergerán a los momentos de la
población a medida que el tamaño de la muestra T pase al infinito:
1
´ → ´
1
→
Implicando eso
→
[4.1.20.]
Así, la regresión MCO de Y sobre X, produce un coeficiente de proyección lineal coherente.

Obsérvese que este resultado sólo requiere que el proceso sea ergódico durante segundos
momentos. Por el contrario, el análisis econométrico estructural requiere suposiciones mucho más
fuertes sobre la relación entre X e Y. La diferencia surge porque el análisis estructural busca el
efecto de X sobre Y. En el análisis estructural, los cambios en X están asociados con un evento
estructural particular como un cambio En la política de la Reserva Federal, y el objetivo es evaluar
las consecuencias para Y. Dado que es el objetivo, si es muy importante considerar la naturaleza de
la correlación entre X e Y antes de confiar en las estimaciones de MCO. En el caso de la proyección
lineal, sin embargo, la única preocupación es la predicción, para lo cual no importa si es X el que
causa Y o Y que causa X. Sus connotaciones históricas observadas (resumidas por E) son todo lo
que se necesita para Calcular un pronóstico. El resultado [4.1.20] muestra que la regresión por
mínimos cuadrados ordinarios proporciona una base sólida para la predicción bajo suposiciones
muy suaves.
No obstante, debe observarse una posible violación de estos supuestos.
El resultado [4.1.20] se obtuvo suponiendo un proceso ergonómico estacionario y de covarianza.
Sin embargo, los momentos de los datos pueden haber cambiado en el tiempo de formas
fundamentales, o el futuro ambiente puede ser diferente a la que en el pasado.
Cuando este es el caso, los mínimos cuadrados ordinarios pueden ser indeseables, y mejores
pronósticos pueden surgir de un análisis estructural cuidadoso.
Vectores de pronóstico
Los resultados anteriores pueden ser extensores para predecir un vector (nx1) Yt + 1 sobre la base de una
función lineal de un vector (m x 1) Xt:
(Yt + 1| Xt) = α´Xt ≡ Ŷt+1|r [4.1.21.]
Entonces α´ denotaría una matriz (n x m) de coeficientes de proyección que satisface
E [(Yt+1 - α´Xt) X´t] = 0 [4.1.22]
Es decir, cada uno de los n elementos de (Yt+1 - Ŷt+1|r) en no correlacionados con cada uno de los
m elementos de Xt. Por consiguiente, el j-ésimo elemento del vector Ŷt+1|r, da la predicción mínima
MSE del escalar Yj, t+1. Además, predecir cualquier combinación lineal de los elementos De Yt+1,
zt+1 = h´ Yt+1 el pronóstico mínimo de MSE de zt+1 requieres (zt+1 - žt+1|r) no está correlacionado
con Xt, claramente h´ (Yt+1 - Ŷt+1|r) también está des correlacionado con Xt. Así, cuando Ŷt+1|r
satisface [4.1.22], entonces h´ Yt+1|r, es el pronóstico mínimo de MSE de h´ Yt+1 para Cualquier
valor de h.
Forma [4.1.22], la matriz de coeficientes de proyección está dada por
α´ = [E (Yt+1X´t)] [E (XtX´t)]-1 [4.1.23]
La generalización matricial de la fórmula para el error cuadrático medio [4.1.15] es
MSE (α´Xt) ≡ E {[Yt+1 - α´Xt] [Yt+1 - α´Xt]´}
= E (Yt+1 Y´t+1) – [E (Yt+1 X´t)] [E (X´tXt)]-1 [E (Xt Y´t+1)] [4.1.24]
4.2. Pronóstico basado en un número infinito de

observaciones
Predicción basada en retrasos ε´s

Considerar un proceso con una representación MA ()
(Yt – μ) = ψ (L) εt [4.2.1]
Con εt, ruido blanco y
ψ L ψ
ψ 1
∑ |ψ| ∞ [4.2.2]
Supongamos que tenemos un número infinito de observaciones sobre ε a través de la fecha t, {εt, εt-
1, εt-2…}, y conocemos además los valores de μ ya {ψ1, ψ 2…}. Digamos que queremos pronosticar
el valor de Yt+s, y es decir, el valor que Y tomará en s periodos a partir de ahora. Tenga en cuenta
que [4.2.1] implica.
Yt+1 = μ + εt+s + ψ1εt+s-1 + … + ψs-1εt+1 +ψsεt + ψs+1εt-1 + … [4.2.3]
El pronóstico lineal óptimo toma la forma
Ê [Yt+s| εt, εt-1, …] = μ + ψsεt + ψs+1εt-1 + ψs+2εt-2 + … [4.2.4]
Es decir, el futuro desconocido ε´s se establece en su valor esperado de cero. El error asociado con
esta previsión es
Yt+1 - Ê [Yt+s| εt, εt-1,…] = εt+s + ψ1εt+s-1 +… + ψs-1εt+1 [4.2.5]
Para que [4.2.4] sea el pronóstico lineal óptimo, la condición [4.1.10] requiere que el error de
previsión tenga una media de cero y no se correlacione con E. Se confirma fácilmente que el error
de [4.2.5] Estas propiedades, por lo que [4.2.4] debe ser la proyección lineal, como se afirma. El
error cuadrático medio asociado con esta previsión es
E (Yt+1 - Ê [Yt+s| εt, εt-1,…])2 = (1 + ψ21 + ψ22 +… + ψ2S-1) σ2 [4.2.6]
Por ejemplo, para un proceso MA (q)
ψ (L) = 1 + θ1L + θ2L2 + … + θqLq
El pronóstico lineal óptimo es
Ê [Yt+s| εt, εt-1,…] [4.2.7]
⋯ 1,2, …
1, 2, …
El MSE es
σ para s 1
1 θ θ ⋯ θ σ para s 2,3, … q
1 θ θ ⋯ θ σ para s q 1, q 2
El MSE aumenta con el horizonte de previsión s hasta s = q. Si tratamos de pronosticar un MA (q)

más allá de q períodos en el futuro, el pronóstico es simplemente la media incondicional de la serie
(E (Yt) = u) y el MSE es la varianza incondicional de la serie (Var (Yt) = (1 + θ21 + θ22+…+ θ2q) σ2).
Estas propiedades también caracterizan el caso de MA () como el horizonte de previsión s va al

infinito. Es fácil establecer a partir de [4.2.2] que como s  , la predicción en [4.2.4] converge en
cuadrado medio a μ, la media incondicional. El MSE [4.2.6] también converge a σ2j=0ψ2j, que es la
varianza incondicional del proceso MA () [4.2.1]
Una expresión compacta del operador del lag para la predicción en [4.2.4] adentro usado a veces.
Considere tomar el polinomio ψ (L) y dividir por Ls:
⋯ ⋯
El operador de aniquilación3 (indicado por [•]+), sustituye las potencias negativas de L por cero; por
ejemplo,
⋯ [4.2.8]
Comparando [4.2.8] con [4.2.4], el pronóstico óptimo podría escribirse en la notación de operador
de lag como
Ê | , ,…
O utilizando [4.2.11]
Ê | , … [4.2.16]
La ecuación [4.2.16] se conoce como la fórmula de predicción de Wiener-Kolmogorov. Siguen

varios ejemplos de uso de esta regla de pronóstico.
Previsión de un proceso AR (1)

Para el proceso de covarianza-estacionario AR (1) [4.2.14], tenemos
1 ⋯ [4.2.17]

3 3
La discusión de la predicción basada en el operador de aniquilación es similar a la de Sargent
(1987)
4.2 Pronóstico basado en un número infinito de observaciones 85
Y
⋯ / 1 [4.2.18]
Si se sustituye [4.2.18] por [4.2.16], se obtiene el pronóstico lineal óptimo para un proceso AR (1)
estacionario:
Ê | , ,… 1
1
[4.2.19]
El pronóstico se desintegra geométricamente de (Yt – μ) hacia μ a medida que aumenta el horizonte

de previsión s. A partir de [4.2.17], el peso medio móvil ψj, está dado por ϕj, por lo que a partir de
[4.2.6], el error de pronóstico promedio cuadrado s-período por delante es
1 ⋯
Observe que esto crece con s y asintóticamente se aproxima a σ2/ (1 – ϕ2), la varianza incondicional
de Y.
Pronosticar un proceso AR (p)

A continuación, considere la previsión del proceso estacionario AR (p) [4.2.12]. La fórmula de
Wiener-Kolmogorov en [4.2.16] expresa esencialmente el valor de (Yt – μ) en términos de valores
iniciales {(Yt – μ), (Yt-1 – μ),…} y valores subsiguientes de {εt+1, εt+2,… εt+s} y luego deja caer los
términos que implican futuros “ε”. Una expresión de esta forma fue proporcionada por la ecuación
[1.2.26], que describió el valor de la variable sujeto a una ecuación differente de orden p en
términos de condiciones iniciales y choques posteriores:
⋯
⋯
[4.2.20]
Donde
[4.2.21]
Recordemos que f (j) 11 representa el elemento (1,1) de Fj, f (j) 12 representa el elemento (1,2) de Fj, y
así sucesivamente, donde F es la matriz siguiente (p x p):
…
1 0 0 … 0 0
0 1 0 … 0 0
⋮ ⋮ ⋮ … ⋮ ⋮
0 0 0 … 1 0
El pronóstico óptimo para el s-período futuro es este
Ŷ | ⋯ [4.2.22]
Obsérvese que para cualquier horizonte de pronóstico s la predicción óptima es una constante más
una función lineal de {Yt, Yt-1,… Yt-p+1}. El error de pronóstico asociado es
Ŷ | ⋯ [4.2.23]
La forma más fácil de calcular la predicción en [4.2.22] es a través de una recursión simple. Esta
recursión se puede deducir independientemente de un principio conocido como la ley de
proyecciones iteradas, que se demostrará formalmente en la Sección 4.5. Supongamos que a la fecha
t queríamos hacer un pronóstico de Yt+1. El pronóstico óptimo es claramente
Ŷ | ⋯ [4.2.24]
Considere la siguiente previsión de dos periodos por delante. Supongamos que en la fecha t + 1
deberíamos hacer una previsión de Yt+2. Si reemplazamos t con t + 1 en [4.2.24] se obtiene la
predicción óptima como
Ŷ | ⋯ [4.2.25]
La ley de proyecciones iteradas afirman que si esta fecha t + 1 pronostica de Yt+2 se proyecta en la
fecha t información, los resultados son la fecha t pronostica de Yt+2. A la fecha t se conocen los
valores Yt, Yt-1,…Yt-p+2 en [4.2.25]. Así,
Ŷ | Ŷ | ⋯ [4.2.26]
Sustituyendo [4.2.24] en [4.2.26] entonces produce el pronóstico de dos periodos por delante para
el proceso AR (p):
Ŷ | ⋯
⋯
⋯
´
La previsión de un s-proceso de AR (p) de tiempo por delante se puede obtener iterando
Ŷ | Ŷ | Ŷ | ⋯ Ŷ | [4.2.27]
Para j = 1,2,…s donde
Ŷ | Para r ≤ t
Previsión de un proceso MA (1)

A continuación, considere una representación inversa de MA (1),
1 [4.2.28]
Con |θ|<1. Reemplazando ψ (L) en la fórmla Wiener-Kolmogorov [4.2.16] con (1+θL) obtenemos
Ŷ | [4.2.29]
Para prever un proceso MA (1) un período en el futuro (s = 1)
Y así
Ŷ | [4.2.30]
Es a veces útil escribir [4.2.28] como
1
ἕ
1
Y ver εt, como el resultado de una recursión infinita,
ἕ ἕ [4.2.31]
El pronóstico de un período futuro [4.2.30] podría entonces ser escrito como
Ŷ | ἕ [4.2.32]
La ecuación [4.2.31] es, de hecho, una caracterización exacta de εt, deducida del simple
reordenamiento de [4.2.28]. La notación de "sombrero" (ἕt) se introduce en este punto en
anticipación de las aproximaciones a εt, que será introducido en la siguiente sección y sustituido en
[4.2.31] y [4.2.32]
Para predecir un proceso MA (1) para s = 2,3,... períodos en el futuro,
0 Para s = 2,3,…
Y así, de [4.2.29]
Ŷ | Para s = 2,3,…
[4.2.33]
Previsión de un proceso MA (q)

Para un proceso de MA (q) invertible,
1 ⋯
El pronóstico [4.2.16] se convierte en
⋯
Ŷ | [4.2.34]
⋯
Ahora
1 ⋯
, ,…
⋯
0 1, 2, …
Así, para horizontes de s = 1,2,... q, la previsión viene dada por
Ŷ | ⋯ ἕ [4.2.35]
Donde ἕt, se puede caracterizar por la recursividad
ἕ ἕ ἕ ⋯ ἕ [4.2.36]
Una predicción más allá de los períodos q en el futuro es simplemente la media incondicional μ.
Previsión de un proceso ARMA (1,1)

Para un proceso ARMA (1,1) 1 1
Que es estacionario (|ϕ|<1) e invertible (|θ|<1)
1 1
Ŷ |
1 1
[4.2.37]
Aquí
1
1
1 ⋯ 1 ⋯
⋯ ⋯
[4.2.38]
1 ⋯
Reemplazando [4.2.38] en [4.2.37] tenemos
1
Ŷ |
1 1

1
[4.2.39]
Tenga en cuenta que para s = 2,3, ... la previsión [4.2.39] obedece a la recursión
Ŷ | Ŷ |
Por lo tanto, más allá de un período, el pronóstico se desintegra geométricamente a la tasa φ hacia la
media incondicional μ. El pronóstico de un período futuro (s = 1) está dado por
Ŷ | [4.2.40]
Esto se puede escribir de forma equivalente
Ŷ | ἕ [4.2.41]
Donde
1
ἕ
1
ἕ ἕ Ŷ | [4.2.42]
Previsión de un proceso ARMA (p, q)

Finalmente, considere la posibilidad de pronosticar un proceso ARMA (p, q) estacionario e
invertible:
1 ⋯ 1 ⋯
Las generalizaciones naturales de [4.2.41] y [4.2.42] están
Ŷ | ⋯ ⋯ ἕ ἕ ⋯
ἕ [4.2.43]
Con {ἕt} generado recursivamente desde
ἕ Ŷ | [4.2.44]
Las s-previsiones serán [4.2.45]
Ŷ | Ŷ | ⋯ Ŷ |
ἕ ἕ ⋯ ἕ 1,2, …
Ŷ | Ŷ | ⋯ Ŷ | 1, 2, …
Donde
Ŷ |
Así, para un horizonte de previsión s mayor que el orden medio móvil q, los pronósticos siguen una
ecuación de diferenciación de orden P gobernada únicamente por los parámetros autorregresivos.
4.3. Pronósticos basados en un número finito de

observaciones
Las fórmulas de la sección anterior supusieron que teníamos un número infinito de observaciones
pasadas sobre Y, {Yt, Yt-1,…}, y conocíamos con certeza parámetros poblacionales tales como, μ, ϕ
y θ. Esta sección continúa asumiendo que los parámetros de población se conocen con certeza,
Pero desarrolla pronóstico basado en un número finito de observaciones {Yt, Yt-1,…Yt-m+1}
Para pronosticar un proceso de AR (p), un pronóstico lineal de s-período óptimo basado en un

número infinito de observaciones {Yt, Yt-1,…} de hecho hace uso de sólo los p valores más
recientes {Yt, Yt-1,…Yt-p+1}. Para un proceso MA o ARMA, sin embargo, en principio
requeriríamos todos los valores históricos de Y para implementar las fórmulas de la sección
precedente.
Aproximaciones al pronóstico óptimo

Una aproximación a la predicción basada en un número finito de observaciones es actuar como si la
pre demostración ε fuera igual a cero. La idea es usar la aproximación
Ê | , ,… ≡ Ê Ŷ | , ,… , 0, ,… [4.3.1]
Por ejemplo, considere la posibilidad de pronosticar un proceso MA (q). La recursión [4.2.36] se

puede iniciar configurando
ἕ ἕ ⋯ ἕ 0 [4.3.2]
Y luego iterar en [4.2.36] para generar E. Allí los cálculos producen ἕt-m+1, ἕt-m+2,…ἕt
ἕ
ἕ ἕ
ἕ ἕ ἕ
Y así. El resultante para (ἕt, ἕt-1,…, ἕt-q+s) se sustituye entonces directamente en [4.2.35] para
producir el pronóstico [4.3.1]. Por ejemplo. Para s = q = 1, la previsión sería
Ŷ | ⋯ 1
[4.3.3]
Que se va a utilizar como una aproximación a la AR () pronóstico.
[4.3.4]
Para m grande y |θ| Pequeño, esto da claramente una aproximación excelente. Para |θ| Más cerca
de la unidad, la aproximación puede ser más pobre. Tenga en cuenta que si el operador de media
móvil no es invertible, el pronóstico [4.3.1] es inapropiado y no debe utilizarse.
Pronóstico exacto de la muestra finita
Un enfoque alternativo es calcular la proyección exacta de Yt + 1 sobre estos m valores más

recientes. Dejar
4.3 Pronósticos basados en un número finito de observaciones 91
1
Por lo tanto, buscamos un pronóstico lineal de la forma
 ´
   ⋯ 
[4.3.5]
El coeficiente que relaciona Yt + 1 a Yt en una proyección de Yt + 1 sobre los m valores más recientes
de Y se denomina (m)1 en [4.3.5]. Esto será en general diferente del coeficiente que relaciona Yt + 1
a Yt, en una proyección de Yt + 1 sobre los m + 1 valores más recientes de Y; El último coeficiente
se denotaría (m+1)1
Si Y, es covarianza-estacionaria, entonces E (YtYt-j) = j + μ2. Estableciendo Xt = (1, Yt, Yt-1,…..Yt-

m+1) en [4.1.13] implica
 ´
≡    … 
[4.3.6]
1 ⋯
  ⋯ 
  …    ⋯ 
⋮ ⋮ ⋮ ⋯ ⋮
  ⋯ 
Cuando se incluye un término constante en Xt, es más conveniente expresar variables en

desviaciones de la media. Entonces podríamos calcular la proyección de (Yt+1 – μ) en Xt = [(Yt
– μ), (Yt-1 – μ),……, (Yt+m+1 – μ)] ´:
Ŷ |   ⋯ 
[4.3.7]
Para esta definición de X, los coeficientes pueden calcularse directamente a partir de [4.1.13] para
   ⋯  
  ⋯  
ser  ⋮ ⋮ ⋯ ⋮ ⋮ [4.3.8]
⋮
  ⋯  

En la Sección 4.5 demostraremos que los coeficientes ((m)1, (m)2,… (m)m) en las ecuaciones [4.3.8] y
[4.3.6] son idénticos. Esto es análogo a un resultado familiar para los coeficientes de regresión-
pendiente de los mínimos cuadrados ordinarios que no cambiarían si todas las variables se expresan
en desviaciones de sus medias de la muestra y el término constante es eliminado de la regresión
Para generar un pronóstico de tiempo s por delante deberíamos usar
, , ,
Ŷ |   ⋯ 
Donde
,
   ⋯  
,   ⋯  
 [4.3.9]
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
,   ⋯  

El uso de expresiones como [4.3.8] requiere invertir una matriz (m x m).
Varios algoritmos pueden ser utilizados para evaluar [4.3.8] utilizando cálculos relativamente
simples. Un enfoque se basa en el filtro de Kalman discutido en el capítulo 13, que puede generar
predicciones exactas de muestras finitas para una amplia clase de procesos incluyendo cualquier
especificación ARMA. Un segundo enfoque se basa en factorización triangular de la matriz en
[4.3.8]. Este segundo enfoque se desarrolla en las dos secciones siguientes. Este enfoque resultará
útil para la cuestión inmediata del cálculo del pronóstico de las muestras finitas y también es un
dispositivo útil para establecer una serie de resultados posteriores.
4.4. La factorización triangular de una matriz simétrica

definida positiva
Cualquier matriz  positiva definida simétrica (n x n) tiene una representación única de la forma
 = ADA´ [4.4.1]
Donde A es una matriz triangular inferior con 1 a lo largo de la diagonal principal
1 0 0 ⋯ 0
1 0 ⋯ 0
1 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
⋯ 1
Y D es una matriz diagonal,
0 0 ⋯ 0
0 0 ⋯ 0
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯
Donde dii > 0 para todo i. Esto es conocido como la factorización triangular 
Para ver cómo se puede calcular la factorización triangular, considere
   ⋯ 
   ⋯ 
    ⋯  [4.4.2]
⋮ ⋮ ⋮ ⋯ ⋮
   ⋯ 
Suponemos que  es positivo definido, lo que significa que x´x > 0 para cualquier no nulo (n x 1)
vector x. También suponemos que  es simétrica, de modo que ij = ji.
4.4. La Factorización triangular de una matriz simétrica definida positiva 93
La matriz  se puede transformar en una matriz con cero en la posición (2, 1) multiplicando la
primera fila de  por 2111-1 y restando la fila resultante de la segunda. Se puede poner un cero en
la posición (3,1) multiplicando la primera fila por 3111-1 y substrayendo la fila resultante de la
tercera. Procedemos en este cuadro en la primera columna.. Este conjunto de operaciones puede
resumirse como pre multiplicación  por la siguiente matriz:

1 0 0 ⋯ 0
  1 0 ⋯ 0
   1 ⋯ 0 [4.4.3]
⋮ ⋮ ⋮ ⋯ ⋮
  0 0 ⋯ 1
Esta matriz siempre existe, provee que 11  0. Esto se asegura en el caso presente, porque 11 es
igual a e´1e1, donde e´1 = [1 0 0… 0]. Como  es positivo definido, e´1e1, debe ser mayor que
cero.
Cuando  es pre multiplicado por E1 y post multiplicado por E´1 el resultado es
´ [4.4.4]
Donde
0 0 ⋯ 0
0 ⋯
0 ⋯ [4.4.5]
⋮ ⋮ ⋮ ⋯ ⋮
0 ⋯
 0 0 ⋯ 0
0         ⋯    
0         ⋯    
⋮ ⋮ ⋮ ⋯ ⋮
0         ⋯    
A continuación procedemos exactamente de la misma manera con la segunda columna de H. El

enfoque ahora será multiplicar la segunda hilera de H por h32h22-1 y restar el resultado de la tercera
fila. Similarmente multiplicamos la segunda fila de H por h42h22-1 y restamos el resultado de la
cuarta fila, y así sucesivamente a través de la segunda columna de H. Las operaciones pueden ser
representadas como pre multiplicando H por la siguiente matriz:
1 0 0 ⋯ 0
0 1 1 ⋯ 1
0 1 ⋯ 1
⋮ ⋮ ⋮ ⋯ ⋮
0 1 ⋯ 1
[4.4.6]
Esta matriz siempre existe siempre que h22  0. Pero h22 puede calcularse como h22 = e´2He2, donde
e´2 = [0 1 0…0]. Además. H = E1E´1, donde  es positivo definido y E1 dado por [4.4.3].
Puesto que E1 es triangular inferior, su determinante es el producto de términos a lo largo de la
diagonal principal, que son toda la unidad. Así, E1 es no singular, lo que significa que H = E1E´1
es positivo definido y así h22 = e´2He2 debe ser estrictamente positivo. Por lo tanto, la matriz en
[4.4.6] siempre se puede calcular.
Si H es pre multiplicado por la matriz en [4.4.6] y post multiplicado por la transposición, el
resultado es
Donde
0 0 ⋯ 0
0 0 ⋯ 0
0 0 ⋯
⋮ ⋮ ⋮ ⋯ ⋮
0 0 ⋯
De nuevo, dado que H es positivo definido y dado que E2 es no singular, K es positivo definido y
en particular k33 es positivo. Procediendo a través de cada una de las columnas con el mismo
enfoque, vemos que para cualquier matriz  simétrica definida positiva existen matrices E1,
E2,…En-1 tales que
´ ´ ´
…  … [4.4.7]
Donde
 0 0 ⋯ 0
0     0 ⋯ 0
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯ . . .
Con todas las entradas diagonales de D estrictamente positivas. Las matrices E1 y E2 en [4.4.7] están
dadas por [4.4.3] y [4.4.6]. En general, Ej es una matriz con valores distintos de cero en la j-ésimo
columna por debajo de la diagonal principal, 1 a lo largo de la diagonal principal, y ceros por todas
partes.
Así, cada Ej es triangular inferior con determinante unitario. Por tanto existe Ej-1, y existe la
siguiente matriz:
⋯ … [4.4.8]
Si [4.4.7] es pre multiplicado por A y post multiplicado por A´, el resultado es:
 = ADA´ [4.4.9]
Recordemos que el E1 representa la operación de multiplicar la primera fila de  por ciertos

números y restar los resultados de cada una de las filas subsiguientes. Su inversa E1-1 deshace esta
operación, lo que se lograría multiplicando la primera fila por estos números de nombre y
añadiendo los resultados a las filas subsiguientes.
Así
4.4 La factorización triangular de una matriz simétrica definida positiva 95
1 0 0 ⋯ 0
  1 0 ⋯ 0
  0 1 ⋯ 0 [4.4.10]
⋮ ⋮ ⋮ ⋯ ⋮
  0 0 ⋯ 1
Como puede comprobarse directamente multiplicando [4.4.3] por [4.4.10] para obtener la matriz de
identidad. Similar.
1 0 0 ⋯ 0
0 1 0 ⋯ 0
0 1 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 ⋯ 1
Y así. Debido a esta estructura especial, la serie de multiplicaciones en [4.4.8] resulta ser trivial para
llevar a cabo:
1 0 0 ⋯ 0
  1 0 ⋯ 0
  0 1 ⋯ 0 [4.4.11]
⋮ ⋮ ⋮ ⋯ ⋮
  ⋯ 1
Es decir, la j-ésimo columna de A es sólo la j-ésimo columna de Ej-1.
Cabe destacar que la sencillez de realizar multiplicaciones matriciales se debe no sólo a la estructura
especial de las matrices Ej-1, sino también al orden en que se multiplican. Por ejemplo, A-1 = En-1 En-
2… Ei no se puede calcular simplemente usando la j-ésimo columna de Ej-1para la j-ésimo columna
de A-1.
Puesto que la matriz A en [4.4.11] es triangular inferior con 1 a lo largo de la diagonal principal, la
expresión [4.4.9] es la factorización triangular de 
Por ejemplo, la factorización triangular  = ADA´ de una matriz (2 x 2) es
  1 0  0 1  
    1 0     0 1
[4.4.12]Mientras que la de una matriz (3 x 3) es
  
  
  
1 0 0  0 0 1    
  1 0 0 0 0 1  [4.4.13]
  1 0 0 0 0 1
Donde h22 = (22 - 2111-112).h33 = (33 - 3211-113) y h23 = h32 = (23 - 2111-113)
Unicidad de la factorización triangular.

A continuación se establece que la factorización triangular es única. Suponer que
´ ´
 [4.4.14]
Donde A1 y A2 son ambos triangulares inferiores con 1 a lo largo de la diagonal principal y D1 y D2

son diagonales con entradas positivas a lo largo de la diagonal principal.
Entonces todas las matrices tienen inversas. Pre multiplicación [4.4.14] por D1-1A1-1 y post
multiplicación por [A2´]-1 produce
´ ´
[4.4.15]
Como A'2 es triangular superior con 1 a lo largo de la diagonal principal, [A'2]-1 también debe ser
triangular superior con 1 a lo largo de la diagonal principal. Como A'1 es también de esta forma, el
lado izquierdo de [4.4.15] es triangular superior con 1 a lo largo de la diagonal principal. Por un
razonamiento similar, el lado derecho de [4.4.15] debe ser triangular inferior. La única manera en
que una matriz triangular superior puede igualar una matriz triangular inferior es si todos los
términos fuera de la diagonal son cero. Además, puesto que las entradas diagonales en el lado
izquierdo de [4.4.15] son todas unidades, esta matriz debe ser la matriz de identidad:
´ ´
La post-multiplicación por A'2 establece que A'1 = A'2. La pre-multiplicación [4.4.14] por A-1 y la
post-multiplicación por [A']-1 produce entonces D1 = D2
La factorización Cholesky
Una factorización estrechamente relacionada de una matriz definida positiva simétrica  se obtiene
como sigue. Defina D1/2 como la matriz diagonal (n x n) cuyas entradas diagonales son las raíces
cuadradas de los elementos correspondientes de la matriz D en la factorización triangular:
0 0 ⋯ 0
0 0 ⋯ 0
/
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯
Puesto que la matriz D es única y tiene entradas diagonales estrictamente positivas, la matriz D1/2
existe y es única. Entonces la factorización triangular puede ser escrita
 / / ´ / /
´
o
Ω ꞊ РР´, 4.4.16
Dónde:
/
Р≡A
1 0 0 ⋯ 0 0 0 ⋯ 0
1 0 … 0 0 0 … 0
= 1 … 0 0 0 … 0
⋮ ⁞ ⁞ … ⋮
⋮ ⁞ ⁞ … ⋮
… 1
0 0 0 ⋯
4.4 La factorización triangular de una matriz simétrica definida positiva 97
0 0 ⋯ 0
0 … 0
= … 0
⋮ ⁞ ⁞ … ⋮
⋯
La expresión 4.4.16 es conocida como la factorización de Cholesky de Ω. Obsérvese que P,

como A, es triangular inferior, mientras que A es a lo largo de la diagonal principal, el factor de
Cholesky tiene las raíces cuadradas de los elementos de D a lo largo de la diagonal principal.
4.5. Actualización de una Proyección Lineal
Factorización Triangular de una Matriz de Segundo Momento y

Proyección Lineal
Sea Y = ( , , … , ´ de un ( x 1) vector de variables aleatorias cuya matriz de segundo

momento viene dada por
Ω ꞊ E(YY´). 4.5.1
Sea Ω ꞊ ADA´ por la factorización triangular de Ω, y defina
Ῡ≡Α 4.5.2
La matriz de segundo momento de estas variables transformadas viene dada por
E(ῩῩ´) = E( YY´[Α´ )=Α E ´ [ ´ . [4.5.3
Sustituyendo 4.5.1 en [4.5.3 , la matriz de segundo momento de Ῡ se ve que es diagonal:
E(ῩῩ´) = Ω[ ´ = ´ [ ´ D. 4.5.4
Es decir,
d
E( Ȳ Ȳ ) = 4.5.5
0 .
Así, la forma de una serie de variables aleatorias que no están correlacionadas entre sí4. Para ver la
implicación de esto, pre multiplicar 4.5.2 por :
Ȳ = Y. 4.5.6
La expresión [4.4.11] se puede utilizar para escribir [4.5.6] explícitamente como:

4
⁴Utilizaremos “ y que son no estaremos correlacionado” para significar " E( ) = 0." La terminología será
correcta si y tiene cero medios o si un término constante se concluye en la proyección lineal.

1 0 0 ⋯ 0 Ȳ Y
1 0 … 0 Ȳ Y
1 … 0 Ȳ = Y . [4.5.7]
⋮ ⁞ ⁞ … ⋮ ⋮ ⋮
⋯ 1 Ȳ Y
La primera ecuación en [4.5.7] indica que

Ȳ , [4.5.8]
por lo que los primeros elementos de los vectores Y y Ȳ representan la misma variable aleatoria.
La segunda ecuación en [4.5.7] afirma que
Ω Ω Ȳ Ȳ Y ,
O, utilizando [4.5.8],
Ȳ Ȳ ≡
4.5.9
donde hemos definido ≡ . El hecho de que Ȳ no está correlacionado con Ȳ implica
E(Ȳ Ȳ 0 , [4.5.10]
Pero, recordando [4.1.10], el valor de que satisface [4.5.10] esta definido como el coeficiente de la
proyección lineal de en . Por lo tanto, la factorización triangular de Ω se puede utilizar para
inferir que el coeficiente de una proyección lineal de en esto se da por = , lo que
confirma el resultado anterior [4.1.13]. En general, la fila , la columna 1 es la entrada de A es
, que es el coeficiente de una proyección lineal de en .
Dado que Ȳ es la interpretación como el residuo de una proyección de Y en , de [4.5.5] da

la MSE de esta proyección:
Esto confirma la fórmula para el MSE de una proyección lineal derivada (ecuación [4.1.15] ).
La tercera ecuación en [4.5.7] indica que
Ȳ Ȳ Ȳ Y .
Sustitución de [4.5.8] y [4.5.9] y reordenamiento.

Ȳ Y Ȳ Y . [4.5.11]
Así Ȳ es el residuo de restar una combinación lineal particular de y de . A partir de [4.5.5],

este residuo no está correlacionado con Ȳ o Ȳ :
E[Y Ȳ Ȳ 0 Para j = 1 ó 2.
Así, este residuo no está correlacionado con uno o , lo que significa que Ȳ tiene la
interpretación como el residuo de una proyección lineal de Y en Y y Y . De acuerdo con [4.5.11],
la proyección lineal se da por:
Y ⎹ Y , Y Ȳ Y . [4.5.12]
El MSE de la proyección lineal es la varianza de, que de [4.5.5] se da por:
E[Y Y ⎹ Y , Y h , [4.5.13]
4.5 Actualización de una Proyección Lineal 99
La expresión [4.5.12] da una fórmula conveniente para actualizar una proyección lineal.
Supongamos que estamos interesados en predecir el valor de Y . Sea Y una cierta información
inicial sobre la cual este pronóstico podría ser basado. Una previsión de Y sobre la base de Y solo
toma la forma
Y ⎹ Y Y
Sea Y representada sobre alguna nueva información con la cual podríamos actualizar este
pronóstico. Si se nos pidiera adivinar la magnitud de esta segunda variable sobre la base deY solo,
la respuesta sería
Y ⎹ Y Y
La ecuación [4.5.12] establece que:
Y ⎹ Y , Y Y ⎹ Y Y Y ⎹ Y . [4.5.14]
Así pues, actualizamos de manera óptima el pronóstico inicial añadiéndole un múltiplo () del
componente imprevisto de la nueva información [].
Este múltiplo () también se puede interpretar como el coeficiente sobre en una proyección lineal de
on y.
Para entender la naturaleza del multiplicador (), defina el vector (n x 1) (1) mediante:
Ȳ ≡ E Y, [4.5.15]
Donde E está la matriz dada en [4.4.13]. Observe que la matriz de segundo momento de Ȳ(1) está
dada por:
E{Ȳ(1)[ Ȳ(1)]´} = E{E YYÉ´ E ΩE´ .
Pero desde [4.4.4] esto es sólo la matriz H. Así H tiene la interpretación como matriz de segundo
momento de Ȳ(1). Sustituyendo [4.4.3] en [4.5.15],
Y
Y
Ȳ(1) = Y .
⁞
Y
El primer elemento de Ȳ(1) es, por tanto, sólo él mismo, mientras que el i-ésimo elemento de Ȳ(1).
para i = 2,3, ...., n es el residuo de una proyección de on. La matriz H es, pues, la matriz de segundo
momento de los residuos de las proyecciones de cada una de las variables. En particular, es el MSE
de una proyección de en:
Y Y ⎹ Y ,
Mientras que es el producto esperado de este error con el error de una proyección de sobre:
Y Y ⎹ Y Y Y ⎹ Y
Así, la ecuación [4.5.14] establece que una proyección lineal puede actualizarse utilizando la
siguiente fórmula:
Y ⎹ Y , Y Y ⎹ Y
+ {E Y Y ⎹ Y Y Y ⎹ Y
x Y Y ⎹ Y x Y Y ⎹ Y [4.5.16]
Por ejemplo, supongamos que es un término constante, por lo que es justo, la media de, mientras
que =. La ecuación [4.5.16] afirma entonces que
Y ⎹ Y , 1 = , . Y .( Y .
El MSE asociado con esta proyección lineal actualizada también se calcula a partir de la
factorización singular. A partir de [4.5.5], el MSE a partir de una proyección lineal de en Y y
Y se puede calcular a partir de
E[Y Y ⎹ Y , 1 = E(Ȳ
=
= .
En general, para 2, el coeficiente sobre en una proyección lineal de on y es dado por el i-ésimo
elemento de la segunda columna de la matriz A. Para cualquier i> j, los coeficientes sobre una
proyección lineal de on se da Por la fila i, columna j elemento de A. La magnitud gices el MSE para
una proyección lineal de on.
Aplicación: Exacto finito - Ejemplo de pronóstico para una MA (1)

Proceso
Como ejemplo de aplicación de estos resultados, supongamos que sigue un proceso MA (1):
Donde es un proceso de ruido blanco con varianza y es irrestricto. Supongamos que

queremos pronosticar el valor de sobre la base de los 1 valores anteriores (Y , Y , Y , … , Y ).
Dejar
Y denote la matriz de varianza-covarianza de Y:
1 0 ⋯ 0
1 … 0
Ω = E ( Y Y´) = 0 1 … 0 [4.5.17]
⋮ ⁞ ⁞ … ⋮
0 0 0 ⋯ 1
El apéndice 4.B de este capítulo muestra que la factorización triangular de Ω es:
1 0 ⋯ 0
1 … 0

A= 0 1 … 0 [4.5.18]

⋮ ⁞ ⁞ … ⋮
…
0 0 0 ⋯ 1
…
1 0 ⋯ 0

0 … 0

D== 0 0 … 0 [4.5.19]

⋮ ⁞ ⁞ … ⋮
…
0 0 0 ⋯
…
Para utilizar la factorización triangular para calcular las predicciones exactas de las muestras finitas,
recordemos que el ith elemente de, tiene la interpretación como la frontera residual de una
proyección lineal de una constante y es valores previos:
Ȳ ⎹ , ,…, .
El sistema de ecuaciones Ȳ puede ser escrito explícitamente como
Ȳ Ȳ
1
1
Ȳ Ȳ
1
⁞
1 …
Ȳ Ȳ .
1 …
Resolviendo las últimas ecuaciones para ,

– ⎹ , ,…,
1 …
– ⎹ , ,…, .
1 …
Reticente
⎹ , ,…, [4.5.20]
1 …
– ⎹ , ,…,
1 …
.
El MSE de este principio está dado por :
…
MSE[ ⎹ , ,…, . [4.5.21]
…
Es interesante observar el comportamiento de esta predicción óptima a medida que el número de

obsevaciones (n) se hace grande. En primer lugar, supongamos que la representación del promedio
móvil es invertible (⎹ ⎹<1). En este caso, como ⟶ ∞, el coeficiente en [4.5.20] tiende a ∞:
1 …
⟶
1 …
Mientras que el MSE [4.5.21] tiende a, la varianza de la innovación fundamental. Así, el pronóstico
óptimo para un número finito de observaciones [4.5.20] eventualmente tiende a la regla de
pronóstico utilizada para un número infinito de observaciones [4.2.32].
96
Alternativamente, los cálculos que producen [4.5.20] son igualmente válidos para una
representación no reversible con > 1. En este caso, el coeficiente de [4.5.20] tiende a :
1 … 1 / 1

1 … 1 / 1

⟶
1
Por lo tanto, el coeficiente en [4.5.20] tiende a en este caso, que es el coeficiente de media
móvil con la representación invertible.
El MSE [4.5.21] tiende a :
1 / 1
⟶ ,
1 / 1
Que será reconocido a partir de [3.7.7] como la varianza de la innovación asociada con la
representación fundamental.
Esta observación explica el uso de la expresión "fundamental" en este contexto. La innovación

fundamental tiene la propiedad de
. .
Yt - ⎹ , ,…, [4.5.22]
. .
Como m → ∞ donde denota la convergencia cuadrática media. Así, cuando | | > 1, el

coeficiente en la aproximación en [4.3.3] debería ser reemplazado por . Cuando esto se hace,
la expresión [4.3.3] se acercará a la previsión correcta como m → ∞
También es instructivo considerar el límite = q. La predicción óptima de la muestra finita para un
proceso MA (1) con = 1 se ve desde [4.5.20] dada por
1
⎹ , ,…, ⎹ , ,…, ,
Que, después de la sustitución recursiva, se convierte en

⎹ , ,…,
[4.5.23]
3
… 1 .
El MSE de esta previsión viene dado por [4.5.21]
1 / →

Así, la varianza del error de pronóstico tiende de nuevo hacia la de. Por lo tanto la innovación es
otra vez fundamental para este caso en el sentido de [4.5.22]. Obsérvese el contraste entre el
pronóstico óptimo [4.5.23] y un pronóstico basado en una aplicación ingenua de [4.3.3],
⋯ 1 . [4.5.24]
La aproximación [4.3.3] se obtuvo bajo el supuesto de que la representación del

promedio móvil era invertible, y el caso de borde = 1 no es invertible. Para esto la razón [4.5.24]
no converge al pronóstico óptimo [4.5.23] a medida que n crece. Cuando y [4.5.24] se pueden
escribir como

⋯ 1 1 .
La diferencia entre esto y , el valor que se pronostica, es 1 , que tiene MSE 2

para todo . Así, mientras que [4.5.23] converge a la predicción óptima como → ∞, [4.5.24] no
está.
Bloque Factorización Triangular
Supongamos que tenemos observaciones sobre dos conjuntos de variables. El primer conjunto
de variables se recoge en un 1 vector y el segundo conjunto en un 1 vector . Su
matriz de segundo momento se puede escribir en forma particionada como.
E YY´ E YY´ Ω Ω
Ω ≡
E YY´ E YY´ Ω Ω
Donde Ω es una matriz ( x ), es una Ω matriz ( x ), Ω y la matriz ( x ) es la

transposición de la ( x ) matriz Ω .
Podemos poner ceros en la parte inferior izquierda ( x ) bloque de Ω por pre multiplicando Ω
por la siguiente matriz:
I 0
E
Ω Ω I
.
Si Ω es pre multiplicado por E y post multiplicado por E´ , el resultado es
I 0 Ω Ω I 0
[4.5.25]
Ω Ω I Ω Ω Ω Ω I
= .

Definiendo
I 0
A ≡ E = .
Ω Ω I
Si [4.5.25] se pre multiplicado por A y post multiplicado por A´ , el resultado es
Ω Ω I 0

Ω Ω Ω Ω I
Ω 0 I Ω Ω

0 Ω Ω Ω Ω 0 I
[4.5.26]
Esto es similar a la factorización triangular Ω = ADA´, excepto que D es una matriz diagonal de
bloques en lugar de una matriz verdaderamente diagonal:
.

Como en el caso anterior, D se puede interpretar como la matriz de segundo momento del vector
= ;
Que es Y Y y Ω Ω Y . El i-ésimo elemento de está dado por menos una

combinación lineal de los elementos de Y . El bloque - diagonalidad de D implica que el producto
de cualquier elemento de Y con cualquier elemento de Y tiene expectativa cero. Así Ω Ω se
da la matriz de coeficientes asociados con la proyección lineal del vector Y sobre el vector Y ,
Y ⎹ Y Ω Ω Y
[4.5.27]
Como se reivindica en [4.1.23]. La matriz MSE asociada con esta proyección lineal es
E{[ ⎹ ⎹ ´
= [4.5.28]
=
Como se afirma en [4.1.24].
Los cálculos para una matriz (3 x 3) se extienden de manera similar a una matriz de bloques (3 x 3)
sin complicaciones. Let Y , Y y Y por ( x 1), ( x 1), y ( x 1) vectores. Una factorización
triangular en bloques de su matriz de segundo momento se obtiene a partir de una simple
generalización de la ecuación [4.4.13]:
[4.5.29]
Dónde , y ´

Esto nos permite generalizar el resultado anterior [4.5.12] al actualizar una proyección lineal. El
pronóstico óptimo de condicional en y se puede leer en la última fila de bloque de A :
⎹ , [4.5.30]
⎹ ⎹ ,
Dónde
⎹ ⎹ ´
⎹ ⎹ ´.
El MSE de esta previsión es la generación matricial de [4.5.13],

⎹ , ⎹ , ´ [4.5.31]
Dónde
H E Y Y ⎹ Y Y Y ⎹ Y ´
Ley de Proyecciones Iteradas

Otro resultado útil, la ley de las proyecciones iteradas, puede deducirse inmediatamente de [4.5.30].
¿Qué sucede si la proyección se prejuzga? Esa ley de proyecciones iteradas dice que esta proyección
es igual a la simple proyección de Y en Y :
P P Y ⎹ Y Y P Y ⎹ Y H H Y Y ⎹ Y , [4.5.32]
Para verificar esta afirmación, necesitamos mostrar que la diferencia entre P Y ⎹ Y Y y

P Y ⎹ Y no está correlacionada con Y . Pero desde [4.5.30], esta diferencia está dada por
Y ⎹ Y
P Y ⎹ Y Y Y ⎹ Y H H Y Y ⎹ Y ,
Que en realidad no está correlacionada con Y por la definición de la proyección lineal Y ⎹ Y .
4.6. Pronóstico Optimo para Procesos Gaussianos
Las reglas de predicción desarrolladas en este capítulo son óptimas dentro de la clase de
funciones lineales de las variables en las que se basa la predicción. Para los procesos gaussianos,
podemos afirmar con mayor fuerza que mientras se incluya un término constante entre las variables
en las que se basa la predicción, el pronóstico no resuelto óptimo resulta tener una forma lineal y,
por lo tanto, está dado por la proyección lineal.
Para verificar esto, sea Y un vector 1 con media , y Y un vector 1 con media,
donde la matriz varianza - covarianza es dada por
´ ´
.
´ ´
Si Y y Y son Gaussianos, entonces la densidad de probabilidad conjunta es
/
, /

[4.6.1]
´ ´ .
El inverso de Ω se encuentra fácilmente invirtiendo [4.5.26]:
´
´
[4.6.2]

Del mismo modo, el determinante de se puede encontrar tomando el determinante de [4.5.26]:
|Ω| | |. | |. | ´|
Pero es una matriz triangular inferior. Por lo tanto, su determinante es dado por el producto de
términos a lo largo de la diagonal principal, todos los cuales son unidad. Por lo tanto | | 1 y:
| | | |:5

[4.6.3]
| . | |.
Sustituyendo [4.6.2] y [4.6.3] en [4.6.1], la densidad de la articulación puede escribirse
/ /
/
| | .| |
x ´ ´
| | .| |
´ ´
[4.6.4]

–
| | .| |
x ´

Escriba |
5 5
en forma Jordana como M1J1 M1 -1 donde es triangular superior con algunos valores de a lo largo de la diagonal
principal. Escribir como M2J2 M2 -1 . Entonces dónde
M= J=
Así Ω tiene el mismo determinante que J . Porque J es triangular superior, su determinante es el producto de términos a lo largo del
principal, o |J| = | | . | |. Por lo tanto | Ω| = | | . |

4.6 Pronóstico Optimo para Procesos Gaussianos 107
´ – .
Donde
≡ .
[4.6.5]
La densidad condicional de Y dado Y se encuentra dividiendo la densidad de la junta [4.6.4] por la

densidad marginal:
| |-1/2 x exp{- ´ ].
El resultado de la división es
. ,
| ,
= – /
exp ( ´ – ,
Dónde
H≡ [4.6.6]
En otras palabras,
| ~ ,
~ , .
[4.6.7]
Vimos en la Sección 4.1 que el pronóstico óptimo no restringido es dado por la expectativa
condicional. Para un proceso gaussiano, el pronóstico óptimo es
E( | ( .
Por otra parte, para cualquier distribución, la proyección lineal del vector sobre un vector un
término constante está dada por
E( | ( .
Por lo tanto, para un Proceso Gaussiano, la proyección lineal da la predicción óptima sin
restricciones.
4.7. Suma de los procesos ARMA

Esta sección explora la naturaleza de las series que resultan de la adición de dos procesos ARMA
diferentes juntos, comenzando con un ejemplo instructivo
Suma de un MA (1) Proceso Plus Ruido Blanco

Supongamos que una serie sigue una media de cero MA (1) PROCESO:
, [4.7.1]
¿Dónde está el ruido blanco?:
E( para j 0
0
Las autocovarianzas de son:
1 0
E( para j 1 [4.7.2]
0 .
Indicar una serie de ruido blanco por separado:
para j 0
0
[4.7.3]
Supongamos, además, que y no están correlacionados en todas las derivaciones y rezagos:
E( 0 ,
Reticente
E( 0 , [4.7.4]
Sea una serie observada Y la suma del MA (1) y el ruido blanco del proceso:
+
= + . [4.7.5]
La pregunta que ahora se plantea es: ¿Cuáles son las propiedades de la serie temporal de Y?
Claramente, , tiene cero medio, y sus auto covarianzas se pueden deducir de [4.7.2] a
través de [4.7.4]:
E( + )( +
= +
1 0
para j 1
0 .
[4.7.6]
Así, la suma + es covarianza - estacionaria, y sus autocovariancias son cero más allá de un
retraso, al igual que las de un MA (1). Naturalmente, podríamos preguntarnos si existe una media
MA media (1) representación para Y,
, [4.7.7]
Con
E( para j 0
0
Cuyas auto covarianzas matemáticas son las que implican [4.7.6]. Las auto covarianzas de [4.7.7]
serían dadas por
4.7 Suma de los procesos ARMA 109
1 0
E( para j 1
0 .
Con el fin de ser coherente con [4.7.6], tendría que ser el caso de que
1 1 [4.7.8]
y
. [4.7.9]
La ecuación [4.7.9] se puede resolver por ,
σ δσ / θ , [4.7.10]
Y luego sustituido en [4.7.8] para deducir
1 δσ / θ = 1
1 δ = [ 1 / ] θ
δ 1 / ] θ δ 0 [4.7.11]
Para valores dados de y, dos valores de que satisfacen [4.7.11] se pueden encontrar de la fórmula
cuadrática:

= [4.7.12]
Si, eran iguales a cero, la ecuación cuadrática en [4.7.11] sería simplemente
1 0, [4.7.13]
Cuyas soluciones son = , y el parámetro de avrage móvil de las representaciones invertible e

ininversible, respectivamente. La figura 4.1 representa la ecuación [4.7.11] y [4.7.13] como funciones
de suponer una autocorrelación positiva para (> 0). Para> 0 y> 0, la ecuación [4.7.11] es por todas
partes menor que [4.7.13] por la cantidad (), lo que implica que [4.7.11] tiene dos soluciones reales
para,
∗| | |,
0<| [4.7.14]
Y una solución no reversible caracterizada por

∗
1 | | | |
Tomando los valores asociados a la representación invertible ( ∗ , ∗ ), consideremos si [4.7.7]

podría de hecho caracterizar los datos generados por [4.7.5]. Esto requeriría
∗
1 1 ,
[4.7.15]
O
∗
1 1 ,
∗ ∗ ∗
= +…)
∗ ∗ ∗
+ +…)
∗ ∗ ∗
+( +…) [4.7.16]
La serie definida en [4.7.16] es un retraso distribuido en valores pasados de y, por lo que podría
parecer que posee una estructura de autocorrelación rica. De hecho, resulta ser
FIGURA 4.1 Gráficos de las ecuaciones [4.7.13] y [4.7.11]
¡Ruido blanco! Para ver esto, tenga en cuenta desde [4.7.6] que la función de autocovariancia de Y
puede escribirse
∗
1 1 , [4.7.17]
De manera que la función generadora de autocovariancia si

∗ ∗
[4.7.18]
∗
Pero fueron elegidos para hacer que la función de autocovariancia de (1 + ), es decir,
∗ ∗
1 1
Idéntico al lado derecho de [4.7.17]. Así, [4.7.18] es simplemente igual a

∗
,
una serie de ruido blanco.
En resumen, la adición de un proceso MA (1) a una serie de ruido blanco con la cual no
está correlacionada en todos los conductores y retardos produce un nuevo proceso MA (1)
caracterizado por [4.7.7].
Obsérvese que la serie en [4.7.16] no podría ser pronosticada como una función lineal
de Y rezagada o rezagada. Claramente, podría ser pronosticada, a partir de retrasado retrasado .
Las historias { y contener más información que O { . La predicción óptima de sobre la
base de { , , … . . sería
⎹ , ,… = ∗
Con errores de cuadrados medios asociados. Por el contrario, el pronóstico lineal óptimo de
sobre la base de { , ,…, , , … sería
⎹ , ,…, , ,… =
Con el error cuadrático medio asociado +. Recordando de [4.7.14] que | ∗ | <| , se desprende de
[4.7.9] que( ∗ ∗ < | ∗ | <| | , que significa desde [4.7.8] que> +. En otras palabras, los
valores pasados de Y contienen menos información que los valores pasados de .
Este ejemplo puede ser útil para pensar sobre las consecuencias de diferentes conjuntos de
información. Uno siempre puede hacer un pronóstico razonable sobre la base de lo que uno sabe,
{ , , … aunque por lo general hay otra información que podría haber ayudado más. Una
característica importante de tales ajustes es que aunque,, y, son todo el ruido blanco, hay
correlaciones complicadas entre estas series blancas del ruido.
Otro punto a destacar es que todo lo que se puede estimar sobre la base de son los dos parámetros
y, mientras que el verdadero modelo "estructural" [4.7.5] tiene tres parámetros (,, y). Por lo tanto,
los parámetros del modelo estructural no están identificados en el sentido en que los
econometristas usan este término --- existe una familia de configuraciones alternativas de, y con <1
que produciría el valor idéntico para la función de verosimilitud del observado de la data { .
Los procesos que se sumaron para este ejemplo, ambos tenían una media cero.
La adición de términos constantes a los procesos no cambiará los resultados de ninguna manera
interesante --- si es un proceso MA (1) con la media dada por . Por lo tanto, no se pierde
nada al restringir la discusión subsiguiente a sumas de procesos de significación cero.
Adición De Dos Procesos de Media Móvil

Supongamos a continuación que es un proceso MA () de media cero:
{ 1 ⋯ ≡
Con
E( para j 0
0
Sea un proceso MA ( ) de media cero:
1 ⋯ ≡
Con
E( para j 0
0
Así, X tiene autocovariancias , , ,…, , de la forma de [3.3.12] mientras que tiene
,
autocovariancias , ,…, ,de la misma estructura básica. Supongamos que X y W no están
correlacionados entre sí en todas las derivaciones y rezagos:
E( 0 para todo j;
Y supongamos que observamos
.
Defina q como el mayor de 1o 2:
q = max{q1, q2}.
Entonces, la j-ésima autocovariancia de Y viene dada por
E(
0, 1, 2, … ,
=
0
Por lo tanto, las autocovariancias son cero más allá de retrasos q, lo que sugiere que podría ser
representado como un proceso de MA (q).
¿Qué más debemos mostrar para estar completamente convencido de que es de hecho un
proceso de MA (q)? Esta pregunta puede plantearse en términos de funciones generadoras de
autocovariancia. Ya que
,
Resulta que
Pero estas son sólo las definiciones de las respectivas funciones de auto covarianza,
.
[4.7.19]
La ecuación [4.7.19] es un resultado bastante general --- si se suman dos procesos de covarianza -
estacionarios que no están correlacionados entre sí ay todos los conductores y retardos, el 106
La función generadora de auto covarianza de la suma es la suma de las funciones generadoras de
auto covarianza de la serie individual.
Si, se expresa como un proceso MA (q)
1 ⋯ ≡
Con
E( para j 0
0
Entonces, la función de generación de auto covarianza sería
.
La cuestión es, por tanto, si siempre existen valores de ( , , ,…, , ) tales que [4.7.19]
Está satisfecho:
. [4.7.20]
Resulta que sí. Por lo tanto, la conjetura resulta ser correcto que si dos procesos de media móvil que
no están correlacionados entre sí en todas las derivaciones y rezagos se suman, el resultado es un
nuevo proceso de media móvil cuyo orden es el mayor de las dos series originales:
MA( MA max{q1, q2}). [4.7.21]
Una prueba de esta afirmación, junto con un algoritmo constructivo para lograr la factorización en
[4.7.20], se proporcionará en el capítulo 13.
Adición de Dos Procesos Autorregresivos

Supongamos ahora que y son dos procesos AR (1):
(1 – [4.7.22]
(1 – [4.7.23]
Donde y son cada ruido blanco con No correlacionado con para todo .
Supongamos nuevamente que observamos

Y quieren pronosticar sobre la base de sus propios valores rezagados. Si, por casualidad, X y
W comparten el mismo parámetro autorregresivo, o
Entonces [4.7.22] podría simplemente agregarse directamente a [4.7.23] para deducir
(1 – 1 –
(1 –
Pero la suma + es ruido blanco (como un caso especial de resultado [4.7.21]), lo que significa que
tiene una representación AR (1)
En el caso más probable de que los parámetros autorregresivos y p sean diferentes, entonces
[4.7.22] se puede multiplicar por (1 – :
(1 – ) (1 – 1 – ; [4.7.24]
Y similar, [4.7.23] podría ser multiplicado por (1 – :
(1 – 1 – (1 – ; [4.7.25]
La adición de [4.7.24] a [4.7.25] produce
(1 – 1 – 1 – (1 – ; [4.7.26]
De [4.7.21], el lado derecho de [4.7.26] tiene una representación MA (1). Así, el podría escribir
1 ∅ ∅ 1 ,
Dónde
(1 - ∅ ∅ 1 – (1–
1 1 – (1 – ;
En las palabras,
AR(1) + AR(2) = ARMA(2,1).

[4.7.27]
En general, la adición de un proceso AR (p1)
Para un proceso AR (p2) con el que no está correlacionado en todos los conductores y retardos,

Produce un proceso ARMA (p1+p2, max{ p1,p2}),
∅ = )p(L)
Y
∅ = p L + ) .
4.8. Descomposición de Wold y la caja – Jenkins Filosofía de

modelado
Descomposición de Wold
Todos los procesos de covarianza - estacionarios considerados en el Capítulo 3 pueden escribirse en
la forma
∑ , [4.8.1]
¿Dónde está el error de ruido blanco que se haría en el pronóstico como una función lineal de Y
retrasado y donde <con = 1?
Uno podría pensar que fuimos capaces de escribir todos estos procesos en la forma de
[4.8.1] porque la discusión se restringió a una conveniente clase de modelos. Sin embargo, el
4.8. Descomposición de Wold y la caja – Jenkins Filosofía de modelado 115
siguiente resultado establece que la representación [4.8.1] es de hecho fundamental para cualquier
serie temporal de covarianza – estacionaria.
Proposición 4.1: (descomposición de Wold). Cualquier proceso estacionario de covariación cero

puede representarse en la forma
∑ [4.8.2]
Donde =1 y ∑ <∞. El término, es ruido Blanco y representa el error hecho i
pronosticando sobre la base de una función lineal de Y rezagada:
| , ,… . [4.8.3]
El valor de kt no está correlacionado con para cualquier j, aunque k puede ser predicho
arbitrariamente bien a partir de una función lineal de valores pasados de Y:
| , ,…
El término kt se llama el componente linealmente determinista de, mientras que se llama el

componente linealmente infeterministic. Si, entonces el proceso se llama puramente linealmente
indeterminista.
Esta proposición fue probada por primera vez por Will (1938)6. La proposición se basa en
segundos segundos estables de Y, pero no hace uso de momentos superiores. Por lo tanto, describe
sólo el pronóstico lineal óptimo de Y.
Encontrar la representación de Wold en principio requiere el ajuste de un número infinito de

parámetros (....) A los datos. Con un número finito de observaciones sobre (…), esto nunca será
posible. Como cuestión práctica, por lo tanto, tenemos que hacer algunas suposiciones adicionales
sobre la naturaleza de (....). Una suposición típica en el capítulo 3 es que se puede expresar como la
relación de dos polinomios de orden finito:
1 1 1 ⋯
≡
1 1 ⋯
[4.8.4]
Otro enfoque, basado en la supuesta "suavidad" del espectro poblacional, se explorará en el
capítulo 6.
La caja - Filosofía de modelado de Jenkins

Muchos pronosticadores están persuadidos de los beneficios de la parsimonia, o usando
como pocos parámetros como sea posible. Box y Jenkins (1976) han sido partidarios influyentes de
este punto de vista. Observaron que en la práctica, los analistas terminan reemplazando a los
verdaderos operadores (L) y (L) por estimaciones y (L) basadas en los datos. Los parámetros
más a estimar, más espacio hay que ir mal.
Aunque los modelos complicados pueden rastrear los datos muy bien sobre el período
histórico para el cual se calculan los parámetros, a menudo se desempeñan mal cuando se usan los
pronósticos del foro para la muestra. Por ejemplo, los años sesenta vieron el desarrollo de una serie
de grandes modelos macroeconométricos que pretendían describir la economía utilizando cientos
de variables macroeconómicas y ecuaciones. Parte de la desilusión con tales esfuerzos fue el
descubrimiento de que los modelos ARMA univariados con valores pequeños de p o q a menudo

6
6 Véase Sargent (1987, pp. 286-90) para un bonito dibujo de la intuición detrás de este resultado.
producían mejores pronósticos que los grandes modelos (véase, por ejemplo, Nelson, 1972).7 Como
veremos en capítulos posteriores, el gran tamaño por sí solo no era la única responsabilidad de
estos modelos macroeconómicos a gran escala. Aun así, la afirmación de que los modelos más
simples ofrecen pronósticos más sólidos tiene muchos creyentes en todas las disciplinas.El enfoque
de pronóstico propuesto por Box y Jenkins puede desglosarse en cuatro pasos:
(1) Transforme los datos, si es necesario, de manera que la asunción de covarianza - estacionariedad
sea razonable.
(2) Hacer una estimación inicial de valores pequeños para p yq para un modelo ARMA (p, q) que
podría describir la serie transformada.
(3) Estime los parámetros en (L) y (L).
(4) Realizar análisis de diagnóstico para confirmar que el modelo es de hecho coherente con las
características observadas de los datos.
El primer paso, la selección de una transformación adecuada de los datos, se discute en el capítulo
15. Por ahora simplemente observar que para las series económicas que crecen con el tiempo,
muchos investigadores utilizan el cambio en el logaritmo natural de los datos brutos. Por ejemplo,
si Xt es el nivel de PNB real en el año t, entonces
log [4.8.5]
Podría ser la variable que un modelo ARMA pretende describir.
El tercer y cuarto pasos, la estimación y las pruebas de diagnóstico, se discutirán en el

capítulo 5 y 14. El análisis de la dinámica estacional también puede ser una parte importante del
paso 2 del procedimiento; Esto se discute brevemente en la Sección 6.4. El resto de esta sección se
dedica a una exposición del segundo paso en el procedimiento Box - Jenkins sobre datos no
estacionales, a saber, la selección de valores candidatos para p y q.8
Autocorrelaciones de muestra
Una parte importante de este procedimiento de selección es formar una estimación de la
autocorrelación de la población. Recordemos que se definió como
≡ /
Dónde
Una estimación natural de la autocorrelación de la población es proporcionada por los momentos

muestrales correspondientes:
̂ ≡ / ,
Dónde
∑ 0,1,2,3, … . , 1 [4.8.6]

7
7 Para obtener evidencias pesimistas más recientes sobre modelos actuales a gran escala, véase Ashley (1988).
88
Box y Jenkins se refieren a esta etapa como "identificación" del modelo apropiado. Anulamos la terminología de Box y
Jenkins, porque la "identificación" tiene un significado muy diferente para los econometristas.
4.8 Descomposición de Wold y la caja – Jenkins Filosofía de modelado 117
1

Obsérvese que aunque sólo se usan las observaciones T - j para construir , el denominador en
[4.8.6] es T en lugar de T - j. Por lo tanto, para j grande, la expresión [4.8.6] reduce las estimaciones
hacia cero, ya que de hecho las autocovariancias de la población van a ero como j, asumiendo
covarianza - estacionariedad. Además, se utiliza la muestra completa de observaciones para
construir .
Recuerde que si los datos realmente siguen un proceso MA (q), entonces será cero para j> q. Por el
contrario, si los datos siguen un proceso AR (p), entonces se descompondrá gradualmente hacia
cero como una mezcla de exponenciales o sinusoides amortiguados. Una guía para distinguir entre
las representaciones MA y AR, entonces, sería las propiedades de desintegración de. A menudo,
estamos interesados en una evaluación rápida de si = 0 para j = q + 1, q + 2, ... Si los datos fueron
realmente generados por un proceso Gaussian MA (q), entonces la varianza de la estimación podría
ser aproximada por9
Var( ̂ ≅ 1 2∑ 1, 2, … .. 4.8.8
Por lo tanto, en particular, si sospechamos que los datos fueron generados por el ruido Gaussian
White, entonces para cualquier j 0 debería estar alrededor del 95% del tiempo.
En general, si hay autocorrelación en el proceso que generó los datos originales {}, la estimación se
correlacionará con i j.10Así, los patrones en el estimado pueden representar errores de muestreo en
lugar de patrones en el verdadero.
Autocorrelacion Parcial
Otra medida útil es la autocorrelación parcial. La m-ésima autocorrelación parcial de la
población (denotada) se define como el último coeficiente en una proyección lineal de Y en sus m
valores más recientes (ecuación [4.3.7]):
̂+ +….+ + ,
Vimos en la ecuación [4.3.8] que el vector se puede calcular a partir de
…
…
⋮ ⁞ … ⁞ ⁞ .
⁞
…
Recuerde que si los datos fueran realmente generados por un proceso AR (p), sólo los p valores
más recientes de Y serían útiles para la predicción. En este caso, los coeficientes de proyección en Y
más de p períodos en el pasado son igual a cero:
0 para m= p + 1, p + 2,……
Por el contrario, si los datos realmente fueron generados por un proceso MA (q) con q 1,
entonces la autocorrelación parcial se aproxima asintóticamente a cero en lugar de cortar
abruptamente.
Una estimación natural de la m-ésima autocorrelación parcial es el último coeficiente en una
regresión OLS de y sobre una constante y sus m valores más recientes:
̂+ +….+ + ,

99
Véase Box y Jenkins (1976, pág. 35)
10 10
Otra vez, véase Box y Jenkins (1976, p.35).
Donde denota la regresión OLS residual. Si los datos fueron realmente generados por un proceso
AR (p), entonces la muestra estimada ( ) tendría una varianza alrededor del valor verdadero (0)
que podría ser aproximado por 11
Var ( )= 1/T para m = p + 1, p + 2, ...
Por otra parte, si los datos fueran realmente generados por un proceso AR (p), entonces y
serían asintóticamente para , .
Ejemplo 4.1
Ilustramos el enfoque de la Caja - Jenkins con datos trimestrales desestacionalizados sobre el PNB real
estadounidense de 1947 a 1988. Los datos brutos fueron convertidos para registrar cambios como en
4,8,5 . El panel (a) de la figura 4.2 representa las autocorrelaciones de la muestra de ̂
0, 1, … , 20 , mientras que el panel (b) muestra las autocorrelaciones parciales de la muestra
0, 1, … , 20 . Las bandas de confianza del noventa y cinco por ciento 2/√ se trazan
en ambos paneles; para el panel (a), estos son apropiados bajo la hipótesis nula de que los datos son
realmente ruido blanco, mientras que para el panel (b) son apropiados si los datos son realmente generados
por un proceso AR (p) para p sea menor que m.
FIGURA 4.2 Autocorrelaciones muestrales y autocorrelaciones parciales para el crecimiento real

del PIB real en los Estados Unidos, 1947: II a 1988: IV. Los intervalos de confianza del 95% se
representan como 2/√
Las dos primeras autocorrelaciones parecen no nulas, lo que sugiere que 2 sería necesario
describirlas como procedentes de un proceso de media móvil. Por otro lado, el patrón de autocorrelaciones
parece coherente con la simple descomposición geométrica de un proceso AR (1),
con ≅ 0.4. Las autocorrelaciones parciales también podrían ser vistas como moribundas después de un
retraso, también consistentes con la hipótesis AR (1). Por lo tanto, su conjetura inicial para un modelo
parsimonioso podría ser que el crecimiento del PNB sigue un proceso AR (1), con MA (2) como otra
posibilidad a considerar.

11 11
Box y Jenkins (1976, pág. 65).
4.8 Descomposición de Wold y la caja – Jenkins Filosofía de modelado 119
APÉNDICE 4.A. Paralelo entre la Regresión MCO y la
Proyección Lineal
Este apéndice discute el paralelismo entre la regresión de mínimos cuadrados ordinarios y la proyección
lineal. Este paralelo se desarrolla introduciendo una variable aleatoria artificial construida específicamente
para tener momentos de población idénticos a los momentos muestrales de una muestra particular.
Digamos que en alguna muestra en particular sobre la cual pretendemos realizar MCO hemos observado
valores T particulares para el vector explicativo, denotado , , . . . , . Consideremos una variable
aleatoria artificial discreta que puede tomar sólo uno de estos valores T particulares, cada uno con
Probabilidad (1/T):
1/
1/
.
:
1/
.
Por lo tanto, es una variable aleatoria construida artificialmente cuya distribución de probabilidad de
población está dada por la función empírica de . La media de población de la variable aleatoria es
1
. .
Por lo tanto, la media de la población de es igual a la media de la muestra observada de la variable

aleatoria verdadera . El segundo momento de la población de es
1

4. A. 1
que es el segundo momento de la muestra de , ,…, .
Podemos construir de manera similar una segunda variable artificial X que puede tomar uno de
los valores discretos , ,…, . Supongamos que la distribución conjunta de y viene dada por
, 1/ para t = 1,2,…, T.
(b) Autocorrelaciones parciales de muestra
Luego
Log (m)
1
4. A. 2
El coeficiente para una proyección lineal de en es el valor de que minimiza
1
.
4. A. 3
Esto es algebraicamente el mismo problema que elegir para minimizar 4.1.17 . Así, la regresión de
mínimos cuadrados ordinarios (elegir para minimizar 4.1.17 ) puede verse como un caso especial de
proyección lineal (elegir para minimizar 4. A. 3 ).
El valor de que minimiza 4. . 3 puede ser encontrado sustituyendo las expresiones por los
momentos de población de las variables aleatorias artificiales (las ecuaciones 4. A. 1 y 4. A. 2 en la
fórmula para una proyección lineal (ecuación 4.1.13 ):
1 1
.
Por lo tanto la fórmula MCO para la estimación en 4.1.18 se puede obtener como un caso
especial de la fórmula para el coeficiente de proyección lineal en 4.1.13 .
Debido a que las proyecciones lineales y las regresiones MCO comparten la misma estructura
matemática, las declaraciones sobre una tienen un paralelo en la otra. Esto puede ser un dispositivo útil
para recordar los resultados conforme el álgebra. Por ejemplo, la declaración sobre los momentos de la
población,
,
tiene la muestra analógica 4. A. 4
1 1
4. A. 5
con
1/ .
Como segundo ejemplo, supongamos que estimamos una serie de regresiones MCO, con la
variable dependiente para la i-ésima regresión y un 1 vector de las variables explicativas comunes
a cada regresión. Sea , ,…, y escriba el modelo de regresión como
Π′
Para Π una matriz de coeficientes de regresión. Entonces, la matriz de varianza-covarianza de la

muestra de los residuos OLS se puede inferir a partir de 4.1.24
1 1 1 1 1
̂ ̂ . 4. A. 6
Donde ̂ ∏′ y la i-ésima fila de X está dada por
1 1
.
APÉNDICE 4.B. Factorización triangular de la matriz de

covarianza para un proceso MA (1)
Este apéndice establece que la factorización triangular de Ω en 4.5.17 está dada por 4.5.18 y
4.5.19 .
La magnitud es simplemente un término constante que terminará multiplicando cada término

en la matriz D. Reconociendo esto, podemos inicialmente resolver la factorización suponiendo que
Apéndice 4.B. Factorización triangular de la matriz de covarianza para un proceso MA (1)
121
1, y luego multiplicar la matriz D resultante por para obtener el resultado para el caso general.
El elemento 1,1 de D (ignorando el factor ) está dado por el elemento 1,1 de Ω: 1 .
Para poner un cero en la posición 2,1 de Ω, multiplicamos la primera fila de Ω por / 1 y
restamos el resultado del segundo; por lo tanto / 1 . Esta operación cambia el elemento
2,2 de Ω a
1 1
1 .
1 1 1
Para poner un cero en el elemento 3,2 de Ω, la segunda fila de la nueva matriz debe ser multiplicada por
/ y luego restada de la tercera fila; por lo tanto,
1
.
1
Esto cambia el elemento 3,3 a
1
1
1
En general, para la i-ésima fila

1 ⋯
.
1 ⋯
Poner un cero en la posición 1, , multiplicado por
2 4 2 1
1 ⋯
. 2 4 2
1 ⋯
Y restar de la fila 1 , produciendo
2 4 2 1
1 ⋯
. 1 2 4 2
1 ⋯
2 4 2 2 4 2
1 ⋯ 1 ⋯
2 4 2
1 ⋯
2 4 2 1
1 ⋯
2 4 2
1 ⋯
2 4 2 1
1 ⋯
2 4 2
.
1 ⋯
4.1. Utilice la fórmula 4.3.6 para demostrar que para un proceso estacionario de covarianza, la
proyección de en una constante y , está dada por
‫׀‬ 1
dónde y Υ /Υ .
(a) Muestran que para el proceso AR (1), esto reproduce la ecuación 4.2.19 para 1.
(b) Muestran que para el proceso MA (1), esto reproduce la ecuación 4.5.20 para 2.
(c) Muestran que para el proceso AR (2), el pronóstico implícito es
/ 1 .
¿Es el error asociado con esta previsión correlacionada con ? ¿Está correlacionada con ?
4.2. Verificar la ecuación 4.3.3 .
4.3. Encontrar la factorización triangular de la siguiente matriz:
1 2 3
2 6 4
3 4 12
.
4.4. ¿Puede el coeficiente de a partir de una proyección lineal de en , y ser encontrado
desde el elemento 4,2 de la matriz A de la factorización triangular de Ω ?
4.5. Supongamos que sigue un proceso AR (p) y es un proceso de ruido blanco que no está
correlacionado con para todo . Muestre que la suma
Sigue un proceso ARMA ,
4.6. Generalizar el ejercicio 4.5 para deducir si se añade un proceso con un proceso y si
estos dos procesos no están correlacionados entre sí en todos los conductores y rezagos, entonces el
resultado es un proceso , .
Ashley, Richard. 1988. “Sobre el Valor Relativo de las Recientes Previsiones Macroeconómicas”. Revista
internacional de previsión 4:363-76.
Box, George E.P., and Gwilym M. Jenkins. 1976. Análisis de series temporales: previsión y control, rev. Ed. ed. S
Francisco: Holden-Day.
Nelson Charles R. 1972. “El rendimiento de predicción del modelo F.R.B.-M.I.T.-PENN de la economía de
los EE.UU.” Revisión económica americana 62:902-17.
Sargent, Thomas J. 1987. Teoría Macroeconómica, 2d ed. Boston: Prensa académica.
Wold, Herman. 1938 (2d ed. 1954). Un estudio en el análisis de series temporales estacionarias.
Uppsala, Sweden: Almqvist y Wiksell.

5
Estimación de Máxima
Verosimilitud
5.1. Introducción
Considere un modelo ARMA de la forma

⋯ ⋯ [5.1.1]
Con ruido blanco:

0 [5.1.2]
[5.1.3]
0
Los capítulos anteriores supusieron que los parámetros de población , , … , , , … , ,

eran conocidos y mostraron cómo los momentos de la población como y los
pronósticos lineales
‫ ׀‬, , … podrían ser calculados como funciones de estos parámetros de población. Éste
capítulo explora cómo estimar los valores de , , … , , , … , , sobre la base de las
observaciones sobre Y.
El principio primario en el cual se basará la estimación es la máxima verosimilitud. Sea
, , … , , , … , , el vector de los parámetros de población. Supongamos que hemos
observado una muestra de tamaño , , … , . El enfoque será calcular la densidad de
probabilidad.
. ….. , ,…, ; , [5.1.4]
que se podría considerar libremente como la probabilidad de haber observado esta muestra
particular. La estimación de máxima verosimilitud (MLE) de es el valor para el cual esta muestra
es más probable que se haya observado; es decir, es el valor de que maximiza 5.1.4 .
Este enfoque requiere especificar una distribución particular para el proceso de ruido
blanco . Normalmente asumiremos que es ruido blanco gaussiano:
∼ . . . 0, . [5.1.5]
Aunque esta suposición es fuerte, las estimaciones de que resultan de ella a menudo resultarán ser
sensibles también para los procesos no gaussianos.
Encontrar estimaciones de máxima verosimilitud implica conceptualmente dos pasos. En
primer lugar, se debe calcular la función de verificación 5.1.4 . En segundo lugar, se deben
encontrar valores de que maximicen esta función. Este capítulo se organiza en torno a estos dos
pasos. Las secciones 5.2 a 5.6 muestran cómo calcular la función de verosimilitud para diferentes
especificaciones de ARMA gaussiano, mientras que las secciones subsiguientes revisan las técnicas
generales de optimización numérica.
124 Capítulo 5 | Estimación de Máxima Verosimilitud

5.2. La función de verosimilitud para un proceso Gaussiano
AR (1)
Evaluación de la Función de Verosimilitud
Un proceso 1 gaussiano toma la forma
, [5.2.1]
Con ∼ . . . 0, . Para este caso, el vector de parámetros de población a estimar se
compone de , ,
Consideremos la distribución de probabilidad de , la primera observación en la muestra.

A partir de las ecuaciones 3.4.3 y 3.4.4 , esta es una variable aleatoria con una media
/ 1
y varianza
/ 1
Puesto que gaussiano, es también Gaussiano. Por lo tanto, la densidad de la primera

observación toma la forma
; ; , ,
1 / 1
.
√2 / 1 2 / 1
[5.2.2]
Luego consideremos la distribución de la segunda observación condicionada a la observación de
. A partir de 5.2.1 ,

. [5.2.3]
Acondicionamiento en significa tratar la variable aleatoria como si fuera la constante
determinista . Para este caso, 5.2.3 da como la constante más la 0, la
variable . Por lo tanto,
‫׀‬ ∼ , ,
en el sentido
1
‫׀‬ ‫׀‬ ; .
√2 2
[5.2.4]
La densidad conjunta de las observaciones 1 y 2 es entonces el producto de 5.2.4 y 5.2.2 :
. ‫; ׀‬ ‫׀‬ ‫; ׀‬ . ;
.
5.2 La función de verosimilitud para un proceso Gaussiano AR (1) 125

Del mismo modo, la distribución de la tercera conservación condicional a las dos primeras es
1
‫׀‬ . ‫׀‬ , ; ,
√2 2
a partir del cual
, . , , ; ‫ ׀‬. ‫ ׀‬, ; . . ‫; ׀‬
.
En general, los valores de , , … , importan para sólo a través del valor de , y la
densidad de observación condicional a las observaciones precedentes de 1 es dada por
‫׀‬ , ,…. ‫׀‬ , ,…, ;
‫׀‬ ‫׀‬ ;
5.2.5
1
.
√2 2
La densidad conjunta de las primeras observaciones es entonces
. …., , 1, … , 1;
5.2.6
‫׀‬ ‫׀‬ ; . , …., , …., ; .
La probabilidad de que la muestra completa se pueda calcular así

. …., , ,…, ; ; .∏ ‫׀‬ ‫׀‬ ; . [5.2.7]
La función de probabilidad de log (denotada ) se puede encontrar tomando registros de

5.2.7 :
; ‫׀‬ ‫׀‬ ; .
[5.2.8]
Claramente, el valor de que maximiza 5.2.8 es idéntico al valor que maximiza 5.2.7 .
Sin embargo, la sección 5.8 presenta una serie de resultados útiles que se pueden calcular como un
subproducto de la maximización si uno siempre plantea el problema como maximización del Log
función de verosimilitud 5.2.8 en lugar de la función de verosimilitud 5.2.7 .
Al sustituir 5.2.2 y 5.2.5 en 5.2.8 , se considera que la probabilidad de log para una
muestra de tamaño T de un proceso AR (1) gaussiano
1 1 2/ 1 2
2
2 2
/ 1
1 /2 log 2
2
1
[5.2.9]
1
2 2
Una expresión alternativa para la Función de Verosimilitud
A veces es útil una descripción diferente de la función de verosimilitud para una muestra de
tamaño T de un proceso AR (1) gaussiano. Recopilar el conjunto completo de observaciones en un
vector 1 ,
≡ , ,…,
.
Este vector podría ser visto como una realización única a partir de una distribución Gaussiana T-
dimensional. La media de este vector 1 es
, [5.2.10]
⋮ ⋮
Donde, como antes, / 1 . En forma vectorial, 5.2.10 podría escribirse
Donde denota el vector 1 en el lado derecho de 5.2.10 . La matriz de varianza-covarianza

de está dada por
Ω, [5.2.11]
dónde
…
…
Ω … [5.2.12]
⋮ ⋮ ⋮
…
Los elementos de esta matriz corresponden a autocovariancias de . Recuerde que la j-ésima
autocovariancia para un proceso AR (1) está dada por
.
1
[5.2.13]
Por lo tanto, 5.2.12 puede escribirse como
Ω , [5.2.14]
dónde
1 …
1
…
…
V 1 [5.2.15]
⋮ ⋮
⋮ ⋮
… ⋮
1
Viendo la muestra observada como un único sorteo de una distribución , Ω , la

probabilidad de muestra podría anotarse inmediatamente de la fórmula para la densidad Gaussiana
multivariable:

/ |Ω | /
; 2 Ω , [5.2.16]
Con probabilidad de registro
/2 log 2 |Ω | Ω . [5.2.17]
Evidentemente, 5.2.17 y 5.2.9 deben representar la función idéntica de , ,…, . Para

verificar que éste es realmente el caso, defina
1 0 0 … 0 0
1 0 … 0 0
… 0
≡ 0 1 0 . [5.2.18]
… ⋮
⋮ ⋮ ⋮ ⋮
…
0 0 0 1
Es fácil demostrar que1
, [5.2.19]
Implicando desde 5.2.14 que

Ω [5.2.20]
Sustituyendo 5.2.20 por 5.2.17 se convierte en
⁄2 log 2 | | . [5.2.21]
Definir el 1 vector , para ser
1 0 0 … 0 0
… 0 0
1 0 …
0 1 0 0 [5.2.22]
… ⋮ ⋮
⋮ ⋮ ⋮ ⋮
…
0 0 0 1
1
.
⋮
Sustituyendo / 1 , se convierte en

1
Por multiplicación directa, se calcula

1 1 1
… 1
0 1 1 …
… 1
LV 0 0 1 1 .
…
⋮ ⋮ ⋮ … ⋮
0 0 0 1

Y pre multiplicando esto por produce la matriz de identidad . Por tanto, que confirma 5.2.19
1 / 1
El último término en 5.2.21 puede escribirse así
1
1/ 2
2
1/ 2 1 / 1 [5.2.23]
1/ 2 .
El término medio en 5.2.21 es similarmente

1 1
| | .| |
2 2
| | [5.2.24]
/2 | |
Donde se ha hecho uso de las ecuaciones A. 4.8 , A. 4.9 y A. 4.11 en la Revisión Matemática
(Apéndice A) al final del libro. Además, dado que L es triangular inferior, su determinante viene
dado por el producto de los términos a lo largo de la diagonal principal: | | 1 . Así,
5.2.24 afirma que
| | /2 1 . [5.2.25]
La sustitución de 5.2.23 y 5.2.25 en 5.2.21 reproduce 5.2.9 . Por lo tanto, las ecuaciones
5.2.17 y 5.2.9 son sólo dos expresiones diferentes para la misma magnitud, como se afirma.
Cualquier expresión describe con precisión la función de log verosimilitud.
La expresión 5.2.17 requiere invertir una matriz , mientras que 5.2.9 no lo hace.
Por lo tanto, la expresión 5.2.9 es claramente preferible para los cálculos. Evita invertir una
matriz , escribiendo como la suma de un pronóstico y un error de
pronóstico por . El error de pronóstico es independiente de las observaciones anteriores de la
construcción, de modo que el log de su densidad se añade simplemente a la probabilidad de las
observaciones precedentes. Este enfoque se conoce como una descomposición del error de predicción de la
función de verosimilitud.
Estimaciones de Máxima Verosimilitud Exacta para el Proceso

Gaussiano AR (1)
El MLE es el valor para el cual se maximiza 5.2.9 . En principio, esto requiere

diferenciar 5.2.9 y establecer el resultado igual a cero. En la práctica, cuando se intenta realizar
esto, el resultado es un sistema de ecuaciones no lineales en y , ,…, para las cuales no
existe una solución simple para en términos de , ,…, . La maximización de 5.2.9
requiere por lo tanto procedimientos iterativos o numéricos descritos en la sección 5.7.

Estimaciones de Máxima Verosimilitud Condicional
Una alternativa a la maximización numérica de la función de verosimilitud exacta es
considerar el valor de como determinista y maximizar la probabilidad condicionada por la
primera observación,
. …., ‫׀‬ , ,…, ‫; ׀‬ ; .∏ ‫׀‬ ‫׀‬ ; , [5.2.26]
el objetivo entonces es maximizar

. 1 …., 2 ‫ ׀‬1
, 1
,…, 2
‫ ׀‬1;
1 /2 2 1 /2 [5.2.27]
.
2
La maximización de 5.2.27 con respecto a c y es equivalente a la minimización de
[5.2.28]
que se logra mediante una regresión de mínimos cuadrados ordinarios (MCO) de en una
constante y su propio valor retardado. Las estimaciones máximas de verosimilitud de c y por lo
tanto, dadas por
̂ 1∑ ∑
∑ ,
∑ ∑
Donde Ʃ denota la suma sobre 2, 3, … , .

La estimación de probabilidad máxima condicional de la varianza de innovación se
encuentra diferenciando 5.2.27 con respecto a y poniendo el resultado igual a cero:
1 1
0,
2 2
o
1
.
1
En otras palabras, el MLE condicional es el cuadrado medio residual OLS de la regresión 5.2.28 .
A diferencia de las estimaciones de máxima verosimilitud exacta, las estimaciones de
máxima verosimilitud condicional son, por tanto, triviales para calcular. Además, si el tamaño de la
muestra T es suficientemente grande, la primera observación hace una contribución insignificante a
la probabilidad total. El MLE exacto y el MLE condicional resultan tener la misma distribución de
gran tamaño, siempre que | | 1. Y cuando | | 1, el MLE condicional continúa
proporcionando estimaciones consistentes, mientras que la maximización de 5.2.9 no lo hace.
Esto se debe a que 5.2.9 se deriva de 5.2.2 , que no describe con precisión la densidad de
cuando| | 1. Por estas razones, en la mayoría de las aplicaciones los parámetros de una
autoregresión son estimados por MCO (probabilidad máxima condicional) en lugar de la máxima
verosimilitud exacta.
5.3. La Función de Verosimilitud para un Proceso Gaussiano
AR (p)
En esta sección se analiza un proceso AR (p) Gaussiano,
⋯ , [5.3.1]
Con ∼ . . . 0, . En este caso, el vector de parámetros de población a ser estimado es

, , ,…, , .
Evaluación de la Función de Verosimilitud
Una combinación de los dos métodos descritos para el caso AR (1) se utiliza para calcular
la función de verosimilitud para una muestra de tamaño T para un proceso AR (p). Las primeras p
observaciones en la muestra , ,…, se recogen en un 1 vector , que se ve como la
realización de una variable Gaussiano p-dimensional. La media de este vector es , que denota un
vector 1 cada uno de cuyos elementos está dado por
/ 1 … . [5.3.2]
Sea la matriz de varianza-covarianza de , ,…, :
…
…
… [5.3.3.]
⋮ ⋮ ⋮
…
Por ejemplo, para una autoregresión de primer orden 1 , es el escalar 1/ 1 .

Para una autoregresión general de orden p-iésima,
…
⋯
⋯
⋮ ⋮ ⋮ … ⋮
…
dónde , la j-ésima autocovariancia para un proceso AR (p), se puede calcular usando los métodos
del capítulo 3. La densidad de las primeras p observaciones es entonces la de una variable
, :
. …., , ,…, ;
/ /
2 [5.3.4]
/ / / 1
2
2
,
dónde se ha hecho uso del resultado A. 4.8 .

Para las observaciones restantes en la muestra, , ,…, , puede usarse la
descomposición del error de predicción. Condicionada a las primeras observaciones 1, la
observación t-iésima es Gaussiana con la media
5.3 La Función de Verosimilitud para un Proceso Gaussiano AR(p) 131
⋯
y la varianza . Sólo las p observaciones más recientes son importantes para esta distribución.
Por lo tanto, para ,
‫׀‬ . ….. ‫׀‬ , ,…, ;
‫׀‬ . ….. ‫׀‬ , ,…, ;

…
.
√
La función de verosimilitud para la muestra completa es entonces
. …., , ,…, ;
.
, 1
,…, 1
; [5.3.5]
1 …., 1
‫׀‬ 1. 2 …..
‫׀‬ 1, 2, … , ; ,
y la probabilidad de registro es por lo tanto
. …., , ,…, ;
2 [5.3.6]
1 1
2 2
…

2 2
1 1
2 2
…
.
2 2
La evaluación de 5.3.6 requiere invertir la matriz . Denota el elemento de la

fila i, columna j de por . Galbraith y Galbraith (1974, ecuación 16, p.70) mostró que
1 ,
[5.3.7]
Donde 1. Valores de para pueden deducirse del hecho que es simétrico

. Por ejemplo, para un proceso AR (1), es un escalar cuyo valor se
encuentra tomando 1:
1 .
por lo tanto, / 1 , que de hecho reproduce la fórmula para la varianza de un

proceso AR(1). Para 2, la ecuación 5.3.7 implica
1
,
1
Del que se calcula fácilmente
1
1 1 1
1
Y
1
1
1
1 1 2 1
.
La probabilidad de registro exacta para un proceso AR (2) gaussiano es así dada por
1
2 1 1
2 2 2
1 2 1 [5.3.8]
,
2
dónde / 1 .
Estimaciones Condicionales de Probabilidad Máxima

La maximización de la probabilidad de registro exacta para un proceso AR (p) de 5.3.6
debe realizarse numéricamente. En cambio, el log de la probabilidad condicional a las primeras p
observaciones asume la forma simple
log . …., ‫׀‬ ,…, , ,…, ‫׀׀‬ ,…, ;
2 [5.3.9]
⋯
.
2
Los valores de , , ,…, que maximizan 5.3.9 son los mismos que los que minimizan
5.3 La Función de Verosimilitud para un Proceso Gaussiano AR (p) 133

⋯
[5.3.10]
Así, los parámetros de las estimaciones de máxima verosimilitud condicional pueden obtenerse a
partir de una regresión OLS de sobre una constante y p de sus propios valores rezagados.
La estimación de probabilidad máxima condicional de resulta ser el promedio del cuadrado
residual de esta regresión
1
̂ ⋯ .
Las estimaciones de máxima verosimilitud exacta y las estimaciones de probabilidad máxima

condicional vuelven a tener la misma distribución de grandes muestras.
Estimación de Máxima Verosimilitud para Series Temporales No

Gaussianas
Observamos en el capítulo 4 que una regresión MCO de una variable sobre una constante y
p de sus retrasos daría una estimación consistente de los coeficientes de la proyección lineal,
‫׀‬ , ,…, ,
Siempre que el proceso sea ergódico durante los segundos momentos. Esta regresión MCO
también maximiza la probabilidad de logaritmos condicional gaussiana 5.3.9 . Por lo tanto, incluso
si el proceso es no gaussiano, si erróneamente formamos una función de verosimilitud logarítmica
gaussiana y la maximizamos, las estimaciones ̂ , , ,…, resultantes proporcionarán
estimaciones consistentes de los parámetros de población en 5.3.1 .
Una estimación que maximiza una función de verosimilitud no especificada (por ejemplo,
una MLE calculada bajo el supuesto de un proceso gaussiano cuando los datos verdaderos no son
gaussianos) se conoce como estimación de probabilidad casi máxima. A veces, como resulta ser el caso
aquí, la estimación de probabilidad casi máxima proporciona estimaciones consistentes de los
parámetros de población de interés. Sin embargo, los errores estándar para los coeficientes
estimados que se calculan bajo la hipótesis de gaussianidad no necesitan ser correctos si los datos
verdaderos no son gaussianos2.
Alternativamente, si los datos en bruto no son gaussianos, a veces una simple

transformación, como tomar registros, producirá una serie de tiempo gaussiana. Para una variable
aleatoria positiva , Box y Cox (1964) propusieron la clase general de transformaciones
1
0.
log 0
Una aproximación es escoger un valor particular de y maximizar la función de verosimilitud para

bajo la suposición de que es un proceso ARMA gaussiano. El valor de que está
asociado con el valor más alto de la probabilidad máxima se toma como la mejor transformación.

2
Estos puntos fueron planteados por primera vez por White (1982) y se discuten más adelante en la sección 5.8 y 14.4.
Sin embargo, Nelson y Granger (1979) reportaron resultados desalentadores de este método en la
práctica
Li y McLeod (1988) y Janacek y Swift (1990) describieron enfoques de estimación de máxima
verosimilitud para algunos modelos no Gaussianos ARMA. Martin (1981) discutieron datos
robustos de la serie de tiempo para los datos contaminados.
5.4. La Función de Verosimilitud para un Proceso Gaussiano

MA (1)
Función de probabilidad condicional
El cálculo de la función de verosimilitud para una autoregresión resultó ser mucho más
simple si
‫׀‬ ‫׀‬ ;
5.4.4
1 2
.
2 2 2 2
La probabilidad de la muestra sería entonces el producto de estas densidades individuales:
. …. ‫׀‬ , ,…, ‫׀‬ 0 ;
‫ ׀‬0 0 1‫ ׀‬0 0 ; ‫׀‬ 1, 2, … , 1, 0 0 ; .

‫׀‬ 1. 2 …. 1 . 0 0
2
La probabilidad de log condicional es

. …., ‫׀‬ , ,…, ‫׀‬ 0; [5.4.1]
2 .
2 2 2
Para un valor numérico particular de , calculamos la secuencia de implicada por los
datos 5.4.3 . La probabilidad de log condicional 5.4.5 es entonces una función de la suma de
cuadrados de estos . Aunque es simple programar esta iteración por computadora, la probabilidad
de log es una función no lineal bastante complicada de y , de modo que no se calcula fácilmente
una expresión analítica para las estimaciones de máxima verosimilitud de y . Por lo tanto,
incluso las estimaciones de máxima verosimilitud condicional para un proceso MA (1) se deben
encontrar por optimización numérica.
La iteración en 5.4.3 a partir de un valor de inicio arbitrario de dará lugar a
⋯
1 1 .
Si | | es sustancialmente menor que la unidad, el efecto de la imposición de 0 se desprenderá

rápidamente y la probabilidad condicional 5.4.4 dará una buena aproximación a la probabilidad
incondicional de un tamaño de muestra razonablemente grande. Por el contrario, si| | 1, las
consecuencias de la imposición de 0 se acumulan con el tiempo. El enfoque condicional no
es razonable en tal caso. Si la optimización numérica de 5.4.5 resulta en un valor de que excede
1 en valor absoluto, los resultados deben ser descartados. La optimización numérica debe ser
5.4 La Función de Verosimilitud para un Proceso Gaussiano MA (1) 135
intentada de nuevo con el recíproco de utilizado como valor inicial para el procedimiento de
búsqueda numérica.
Función de Probabilidad Exacta

Dos algoritmos convenientes están disponibles para calcular la función de verosimilitud
exacta para un proceso MA (1) Gaussiano. Un enfoque es utilizar el filtro de Kalman discutido en
el capítulo 13. Un segundo enfoque utiliza la factorización triangular de la matriz de varianza-
covarianza. El segundo enfoque se describe aquí.
Como en la sección 5.2, las observaciones sobre pueden ser recogidas en un
1 vector ≡ , ,…, con una matriz de media de ≡ , , … , y una matriz de
varianza y covarianza
Ω .
La matriz de varianza-covarianza para T dibujos consecutivos de un proceso MA (1) es
1 0 … 0
1 … 0
… 0
Ω 0 1
⋮ ⋮ ⋮ … ⋮
… 1
0 0 0
La función de verosimilitud es entonces
/ |Ω| /
; 2 Ω . [5.4.6]
Una descomposición del error de predicción de la probabilidad se proporciona a partir de
la factorización triangular de Ω.
Ω ADA . [5.4.7]
dónde A es la matriz triangular inferior dada en 4.5.18 y D es la matriz diagonal en 4.5.19 .

Sustituyendo 5.4.7 en 5.4.6 se obtiene
/ |ADA | /
; 2
A D A . [5.4.8]
Pero A es una matriz triangular inferior con 1 a lo largo de la diagonal principal. Por lo tanto, |A|
1y
|ADA | |A|. |D|. |A | |D|.
Definición adicional
≡ . [5.4.9]
La probabilidad 5.4.9 puede escribirse

/ |D| /
; 2 D . [5.4.10]
Observe que 5.4.9 implica
La primera fila de este sistema indica que , mientras que la r-ésima fila implica que
1 ⋯
.
1 ⋯
[5.4.11]
El vector puede ser calculado por iteración en 5.4.11 para 2 , 3, … , partiendo de

. La variable tiene la interpretación como el residuo de una proyección lineal de sobre
una constante y , , … , , mientras que el elemento diagonal r-iésima de D da el MSE de
esta proyección lineal:
1 ⋯
.
1 ⋯
[5.4.12]
Puesto que D es diagonal, su determinante es el producto de los términos a lo largo de la diagonal
de la principal,
| | ,
[5.4.13]
Mientras que la inversa de D se obtiene tomando términos recíprocos a lo largo de la diagonal

principal. Por lo tanto,
[5.4.14]
Sustituyendo 5.4.13 y 5.4.14 en 5.4.10 , la función de verosimilitud es
/
/
1
; 2
2
[5.4.15]
La probabilidad de registro exacta para un proceso MA (1) Gaussiano es por lo tanto
1 1
; log 2 log .
2 2 2
Dados los valores numéricos para , y , la secuencia se calcula iterando en [5.4.11]

comenzando por , mientras que está dado por 5.4.12 .
En contraste con la función de verosimilitud logarítmica condicional 5.4.5 , la expresión

5.4.16 será válida independientemente de si está asociada con una representación invertible
MA (1). El valor de 5.4.16 en ̅, será idéntico a su valor en ̅ , ̅ ;
véase el Ejercicio 5.1.
5.5. La Función de Verosimilitud para un Proceso MA (q)

Gaussiano
Función de Probabilidad Condicional

Para el proceso MA (q),
5.5 La Función de Verosimilitud para un Proceso Gaussiano MA (q) 137
⋯ , [5.5.1]
un enfoque simple es condicionar en el supuesto de que los primeros valores de q para eran todos
cero:
⋯ 0, [5.5.2]
A partir de estos valores iniciales podemos iterar en
⋯ [5.5.3]
Para 1 , 2, … , . Sea denotado por 1 vector , ,…, . La probabilidad de

log condicional es
. …., ‫׀‬ , ,…, ‫׀‬ 0; [5.5.4]
log 2 log ,
2 2 2
Donde , , ,…, , . De nuevo, la expresión 5.5.4 sólo es útil si todos los valores
de z para los cuales
1 ⋯ 0
fuera del círculo de la unidad.

Función de Probabilidad Exacta
La probabilidad exacta es dada por
/ |Ω| /
; 2 Ω , [5.5.5]
dónde como antes ≡ , ,…, y , , … , . Aquí Ω representa la matriz de

varianza-covarianza de T trazos consecutivos de un proceso MA (q):
El elemento de la fila i, columna j de Ω está dado por | | , dónde es la k-ésima autocovariancia

de un proceso MA (q):
⋯ 0,1, … ,
[5.5.7]
0 ,
Donde ≡ 1. De nuevo, la función de verosimilitud exacta 5.5.5 puede evaluarse utilizando el

filtro de Kalman del Capítulo 13 o la factorización triangular de Ω,
Ω ADA . [5.5.8]
dónde A es la matriz triangular inferior dada por 4.4.11 y D es la matriz diagonal dada por
4.4.7 . Obsérvese que la estructura de bandas de Ω en 5.5.6 hace que A y D sean simples de
calcular. Después de las primeras filas 1 , todas las entradas subsiguientes en la primera
columna de Ω ya son cero, por lo que no es necesario agregar un múltiplo de la primera fila para
hacerlas cero. Por lo tanto, 0 1. De manera similar, más allá de las primeras
2 filas de la segunda columna, no es necesario añadir un múltiplo de la segunda fila para
hacer estas entradas cero, lo que significa que 0 2. Así A es una matriz de
banda triangular inferior con 0 :
1 0 0 0 0
…
1 0 0 0
1 …
… 0 0
⋮ ⋮ ⋮ … ⋮ ⋮
… 0
. . . 0
…
0 . . … 0 0
⋮ ⋮ ⋮
⋮ ⋮ …
0 0 0 . 1
Una computadora puede ser programada para calcular estas matrices rápidamente para un valor
numérico dado para .
Al sustituir 5.5.8 en 5.5.5 , la función de verosimilitud exacta para un proceso
Gaussiano de MA (q) se puede escribir como en 5.4.10 :
/ /
1
; 2 |D| D
2
dónde
[5.5.9]
Los elementos de se pueden calcular recursivamente trabajando en las filas de 5.5.9 :

⋮
. . ⋯ . .
La función de verosimilitud logarítmica exacta se puede calcular como en 5.4.16 :
[5.5.10]
1 1
log ; 2 log
2 2 2
5.6. La Función de Verosimilitud para un proceso Gaussiano

ARMA (p, q)
Función de Probabilidad Condicional

Un proceso Gaussiano ARMA (p, q) toma la forma
5.6 La Función de Verosimilitud para un Proceso Gaussiano ARMA (p,q) 139
⋯ [5.6.1]
Dónde ~ . . . 0. . El objetivo es estimar el vector de los parámetros de población

, , ,…, , , ,…, , .
La función de aproximación a la verosimilitud para una autorregresión condicionada a los valores
iniciales de la y’s. La función de aproximación a la verosimilitud para un proceso de media móvil
condicionada a los valores iniciales de la . Una aproximación común a la función de
verosimilitud para una ARMA (p, q) las condiciones del proceso y’s y .
Tomando valores iniciales para ≡ , ,…, ′ y ≡ , ,…, ′ como se

indica, la secuencia {ε1, ε2,…, εT} puede calcularse a partir de {y1, y2, …, yT} iterando en
⋯ [5.6.2]
⋯
Para t = 1, 2, …, T. La probabilidad de log condicional es entonces
, ,…, ǀ ∗ , ,…, ǀ , ; [5.6.3]
log 2 log
2 2 2
Una opción es y’s y iguales a sus valores esperados. Es decir, conjunto / 1

⋯ para s = 0, -1, … , -p+1 y establecer εs = 0 para s = 0, -1, … , -q+1, y luego proceder con
la iteración en [5.6.2] para t = 1, 2, … ,T. Alternativamente, Box y Jenkins (1976, p. 211) ajuste
recomendado a cero pero y`s iguales a sus valores reales. Por lo tanto, iteración en [5.6.2] se
inicia en la fecha t = p+1 con y1,y2, … ,yp ajustado a los valores observados y
⋯ 0.
Entonces la probabilidad condicional calculada es
,…, ǀ , … , , 0, … , 0
log 2 log
2 2 2
Como en el caso de los procesos de media móvil. Estas aproximaciones sólo deben utilizarse si los
valores de satisfacción
1 ⋯ 0
Fuera del círculo de unidad
Algoritmos alternativos
El método más sencillo para calcular la función de verosimilitud exacta para un proceso
Gaussiano ARMA es utilizar el filtro de Kalman descrito en el Capítulo 13. Para más detalles sobre
estimación exacta y aproximada de máxima verosimilitud de modelos ARMA, ver Galbraith y
Galbraith (1974). Box y Jenkins (1976. Capítulo 6). Hannan y Rissanen (1982), y Koreisha y Pukkila
(1989).
5.7. Optimización Numérica
Las secciones anteriores del capítulo han mostrado cómo calcular la función de probabilidad de
logaritmos
, ,…, , ,…, ; [5.7.1]
Para varias especificaciones oh el proceso que ha generado los datos observados y1, y2, …, yT. Dar
los datos observados, las fórmulas dadas se podrían utilizar para calcular el valor de L (θ) para
cualquier valor numérico dado de θ.
Esta sección discute cómo encontrar el valor de que maximiza L (θ) dado que no tiene más
conocimiento que esta capacidad para calcular el valor de L (θ) para cualquier valor particular de θ.
El enfoque general es escribir un producto que pueda utilizar una computadora para calcular el
valor numérico de L (θ) para cualquier valor numérico particular para θ y los datos observados y1,
y2, …, yT. Podemos pensar en este procedimiento como una "caja negra" que nos permite adivinar
algún valor de θ y ver cuál es el valor resultante de L (θ) seria:
Entrada Procedimiento Salida

Calcula
L (θ)
La idea será hacer una serie de suposiciones diferentes para θ, comparar los valores de L (θ) el valor
para lo cual L (θ) es el más grande. Tales métodos se describen como maximización numérica.
Búsqueda de cuadrícula
El enfoque más simple para la maximización numérica se conoce como el método de
búsqueda de cuadrícula. Para ilustrar este enfoque, supongamos que tenemos datos generados por
un proceso AR (1), para el cual se consideró que la probabilidad de logar estaba dada por [5.2.9].
Para mantener el ejemplo muy sencillo, se supone que se sabe que la media del proceso es cero
(c = 0) y que las innovaciones tienen una varianza unitaria ( 1). El único parámetro
desconocido es el coeficiente autorregresivo , y [5.2.9] simplifica a
log 2 log 1 [5.7.2]

1 1
1
2 2
Supongamos que la muestra observada consiste en lo siguiente T = 5 , observaciones:
0.8 0.2 1.2 0.4 0.0
Si hacemos una suposición arbitraria al valor de , en =0.0, y conectar esta suposición en la

expresión [5.7.2], calculamos que 5.73 a 0.0 . intentando otra suposición =0.1),
calculamos 5.71, en =0.1 - la probabilidad de log es mayor en =0.1 que en 0.0.
Continuando de esta manera, podríamos calcular el valor de para cada valor para entre -0.9
y +0.9 en incrementos de 0.1. Los resultados se presentan en la Figura 5.1. De estos cálculos se
desprende que la función de probabilidad de log se comporta bien con un máximo único en
algún valor de entre 0.1 y 0.3. Podríamos centrarnos en esta subregión del espacio de parámetros
0 141
y evaluar () en una cuadrícula más fina, calculando el valor de para todos los valores de
entre 0.1 y 0.3 en el incremento de 0.02. Procediendo de esta manera, debe ser posible acercarse
arbitrariamente al valor de que maximiza haciendo la cuadrícula más fina y más fina.
Tenga en cuenta que este procedimiento no encuentra el MLE exacta, pero en su lugar
se aproxima con cualquier precisión deseada. En general, este será el caso con cualquier algoritmo
de maximización numérica. Para utilizar estos algoritmos, por lo tanto, tenemos que especificar un
criterio de convergencia, o algunos dicen manera de decidir cuándo estamos lo suficientemente
cerca de la máxima real. Por ejemplo, supongamos que queremos una estimación que difiera de la
verdadera MLE por no más de ±0.0001. Entonces continuaríamos refinando la rejilla hasta que los
incrementos estén en pasos de 0.0001, y la mejor estimación entre los elementos de esa rejilla sería
el MLE numérico de .
Para el ejemplo AR (1) simple en la Figura 5.1, la función de probabilidad de log es

unimodal - hay un valor único θ para el cual / 0. Para un problema de maximización
numérica general, esto no tiene por qué ser el caso. Por ejemplo, supongamos que estamos
interesados en estimar un parámetro escalar θ para el cual la función de verosimilitud de log es tal
como se muestra en la Figura 5.2. El valor θ=-0.6 es un máximo local, lo que significa que la
función de verosimilitud es más alta allí que para cualquier otro θ en un vecindario alrededor de θ =
-0.6. Sin embargo, el máximo global se produce alrededor de θ = 0.2. El método de búsqueda de
cuadrícula debería funcionar bien para una probabilidad unimodal siempre y cuando sea
continua. Cuando hay múltiples máximos locales, la cuadrícula debe ser suficientemente fina para
revelar todas las "colinas" locales sobre la superficie de probabilidad.
Subida más empinada

La búsqueda de cuadrícula puede ser un método muy bueno cuando hay un solo
parámetro desconocido para estimar. Sin embargo, rápidamente se vuelve intratable cuando el
número de elementos de θ Se hace grande. Un método numérico alternativo que a menudo tiene
éxito en maximizar una función continuamente diferenciable de un gran número de parámetros se
conoce como subida más pronunciada.
FIGURA 5.1 Probabilidad de log para un proceso AR (1) para varias guías de ϕ.
FIGURA 5.2 Función de probabilidad de registro bimodal
Para entender este enfoque, vamos a desestimar temporalmente la naturaleza de la "caja negra" de la
investigación y en su lugar examinar cómo proceder analíticamente con un problema particular de
maximización. Supongamos que tenemos una estimación inicial del vector de parámetro, denotada
, y deseamos llegar a una mejor estimación . Imaginemos que estamos obligados a elegir
para que la distancia al cuadrado entre y sea un número fijo k:
El valor óptimo para elegir para sería entonces la solución al siguiente problema de
maximización restringida:
max ′sujeto a ’
Para caracterizar la solución a este problema, forma el Lagrangeano.
k ’ [5.7.3]
Donde Denota un multiplicador de Lagrange. Diferenciando [5.7.3] con respecto a Y fijar el
resultado igual a cero rendimientos
2 0
[5.7.4]
Sea g(θ) el vector gradiente de la función de verosimilitud logarítmica:
5.7 Optimización Numérica 143

Si hay elementos de θ, entonces es un vector (a x 1) cuyo elemento representa la derivada de
la probabilidad de log con respecto al elemento de θ.
Utilizando esta notación, expresión [5.7.4] se puede escribir como
1/ 2λ ∗ [5.7.5]
La expresión [5.7.5] afirma que si se nos permite cambiar sólo por una cantidad fija, se obtendrá
el mayor incremento en la función de probabilidad de log si se elige el cambio en (la magnitud
) como constante 1/(2λ) a veces el vector de gradiente . Si estamos
contemplando un paso muy pequeño (de modo que k es cercano a cero), el valor se
aproximará . En otras palabras, el vector gradiente da la dirección en la que la
función de probabilidad de log aumenta más abruptamente desde .
Por ejemplo, supongamos que (a = 2) y que la probabilidad de registro sea
1.5 2 . [5.7.6]
Podemos ver fácilmente analíticamente este ejemplo de que el MLE está dado por 0,0 ′.
Utilicemos, sin embargo, este ejemplo para ilustrar cómo funciona el método del ascenso más
empinado. Los elementos del vector de gradiente son
3 4 [5.7.7]
Supongamos que la conjetura inicial es 1,1 . Entonces
3 4
Un aumento en aumentaría la probabilidad, mientras que un aumento en disminuiría la
probabilidad. El vector de gradiente evaluado en es
3
4
De manera que el paso óptimo debería ser proporcional a (3,-4)’. Por ejemplo, con k =
1 elegiríamos
3
5
4
;
5
Es decir, las nuevas suposiciones serían 0.4 y 0.2. Para aumentar la probabilidad
en la mayor cantidad, queremos incrementar y disminuir con respecto a sus valores en la
conjetura inicial . Puesto que un cambio de una unidad en tiene un efecto mayor sobre
que un cambio de una unidad en , el cambio en es mayor en valor absoluto que el cambio en
.
Volvamos ahora a la perspectiva de la caja negra, donde la única capacidad que tenemos es calcular
el valor de para un valor numérico especificado de θ. Podríamos comenzar con una
estimación inicial arbitraria del valor de θ, denotado . Supongamos que entonces calculamos el
valor del vector de gradiente en .
[5.7.8]
Este gradiente podría, en principio, ser calculado analíticamente, diferenciando la expresión general
de con respecto a θ y escribiendo un procedimiento informático para calcular cada elemento
de dados los datos y un valor numérico para θ. Por ejemplo, expresión [5.7.7] podría utilizarse
para calcular para cualquier valor particular de θ. Alternativamente, si es demasiado difícil
diferenciar analíticamente, siempre podemos obtener una aproximación numérica al
gradiente viendo cómo cambia para un pequeño cambio en cada elemento de θ. En particular,
el i-ésimo elemento de podría ser aproximado por
≅ , ,…, , ∆, , ,…, [5.7.9]

∆
, ,…, , , , ,…, .
Donde ∆ representan arbitrariamente escogió un pequeño escalar tal como ∆ 10 . Mediante el

cálculo numérico del valor de en y en (a) diferentes valores de θ que corresponden a
pequeños cambios en cada uno de los elementos individuales de , se puede descubrir una
estimación del vector completo .
Resultado [5.7.5] sugiere que deberíamos cambiar el valor de () en la dirección del
gradiente, eligiendo
∗
Para algunos escalares positivos s. Una opción adecuada para s podría encontrarse por una
adaptación del método de búsqueda de graduación. Por ejemplo, podríamos calcular los valores de
∗ para s = 1/16, 1/8 , ¼, ½, 1, 2, 4, 8y 16 y elegir como nueva estimación
el valor de ∗ para el cual es mayor. Valores menores o mayores de s
también podrían ser explorados si el máximo parece estar en uno de los extremos. Si ninguno de los
valores de s mejora la probabilidad, entonces se debe probar un valor muy pequeño para s tal como
el valor ∆ 10 utilizado para aproximar la derivada.
Podemos repetir el proceso, tomando ∗ como punto de partida,

evaluando el gradiente en la nueva ubicación , y generando una nueva estimación de
acuerdo con
∗
Para la mejor elección de s. El proceso es iterado, calculando
∗
Para m = 0, 1, 2, … hasta que se cumpla algún criterio de convergencia, como por ejemplo que el
vector gradiente esté dentro de una tolerancia especificada de cero, la distancia entre
y sea menor que un cierto umbral especificado o el cambio entre y
sea menor que Alguna cantidad deseada.
Figure 5.3 ilustran el método del ascenso más empinado cuando θ contiene a = 2 elementos. La
figura muestra las curvas de nivel para la probabilidad de log ; A lo largo de un contorno
dado, la probabilidad de log es constante. Si la iteración se inicia en la estimación inicial ,
el gradiente describe la dirección del ascenso más pronunciado.
Encontrar el paso óptimo en esa dirección produce la nueva estimación . El gradiente en ese
punto determina entonces una nueva dirección de búsqueda en la que se basa una nueva
estimación , hasta que se alcanza la parte superior de la colina.
La figura 5.3 también ilustra una generalización multivariante del problema con múltiples máximos
locales, visto anteriormente en la Figura 5.2. El procedimiento debe converger a un máximo local,
∗
que en este caso es diferente del máximo global θ*. En la figura 5.3, parece que si se usaron
para iniciar la iteración en lugar de , el procedimiento convergería al máximo global real θ*.
Practico la única manera de asegurar que se encuentra un máximo global es comenzar la iteración a
partir de un número de valores iniciales diferentes para y continuar la secuencia desde cada
valor inicial hasta que se descubre la parte superior de la colina asociada con ese valor inicial.

FIGURA 5.3 Continuidad y maximización de la lisilla.
Newton-Raphson
Un inconveniente para el método de ascenso más pronunciado es que puede requerir un
número muy grande de iteración para cerrar en el máximo local. Un método alternativo conocido
como Newton-Raphson a menudo converge más rápidamente siempre y cuando (1) las segundas
derivadas de la función de probabilidad de log exista y (2) la función sea cóncava, lo que
significa que -1 veces la matriz de las segundas derivadas está en todas partes positivo definitivo.
Supongamos que θ es un vector (a x 1) del parámetro a estimar. Sea el vector gradiente de
la función de probabilidad de log en .
y deja denotar -1 veces la matriz de las segundas derivadas de la función log verosimilitud
.
′
Considere aproximar con una serie de Taylor de segundo orden alrededor de :
≅ θ θ θ . [5.7.10]
La idea detrás del método de Newton-Raphson es elegir θ para maximizar [5.7.10]. Establecer la
derivada de [5.7.10] con respecto a θ igual a cero resulta en
θ 0
[5.7.11]
Deje denotan una conjetura inicial en cuanto al valor de θ. Se puede calcular la derivada de la
probabilidad de log en esa estimación inicial ( ) ya sea analíticamente, como en [5.7.7], o
numéricamente, como en [5.7.9]. También se pueden utilizar métodos analíticos o numéricos para
calcular el negativo de la matriz de las segundas derivadas en la conjetura inicial . La
expresión [5.7.11] sugiere que una estimación mejorada de θ (denote ) satisface
o

[5.7.12]
Uno podría calcular el gradiente siguiente y Hessian en y usarlos para encontrar una nueva
estimación y continuar iterando de esta manera. El paso mth en la iteración actualiza la
estimación de θ utilizando la fórmula

[5.7.13]
Si la función de probabilidad de log pasa a ser una función cuadrática perfecta, entonces [5.7.10] se
mantiene exactamente y [5.7.12] generará el MLE exacto en un solo paso:
Si la aproximación cuadrática es razonablemente buena, Newton - Raphson debe converger

al máximo local más rápidamente que el método de ascenso más pronunciado. Sin embargo, si la
función de verosimilitud no es cóncava, Newton -Raphson se comporta bastante mal. Por lo tanto,
el ascenso más pronunciado es a menudo más lento para converger, pero a veces demuestra ser más
robusto en comparación con Newton - Raphson.
Dado que [5.7.10] normalmente es sólo una aproximación a la verdadera función de
verosimilitud, la iteración en [5.7.13] se modifica a menudo como sigue. La expresión [5.7.13] se
toma para sugerir la dirección de búsqueda. A continuación, se calcula el valor de la función de
verosimilitud de log en varios puntos en esa dirección, y el mejor valor determina la longitud del
paso. Esta estrategia requiere reemplazar [5.7.10] por

[5.7.14]
Donde s es un escalar que controla la longitud del paso. Uno calcula y el valor asociado
para la probabilidad de log para varios valores de s en [5.7.14] y elige como estimación
el valor que produce el mayor valor para la probabilidad de log.
Davidon - Fletcher - Powell

Si θ contiene parámetros desconocidos, entonces la matriz simétrica H(θ) tiene a (a + 1) / 2
elementos separados. El cálculo de todos estos elementos puede requerir mucho tiempo si a es
grande. Un enfoque alternativo razona de la siguiente manera. La matriz de las segundas derivadas
(-H(θ)) corresponde a las primeras derivadas del vector gradiente (g(θ)), que nos dicen cómo g(θ)
cambia a medida que θ cambia. Obtenemos información independiente acerca de esto comparando
con . Esto es suficiente información no y por sí mismo para estimar
H(θ), pero es información que podría utilizarse para actualizar una estimación inicial sobre el valor
de H(θ). Por lo tanto, en lugar de evaluar H(θ) directamente en cada iteración, la idea será comenzar
con una conjetura inicial sobre H(θ) y actualizar la conjetura únicamente sobre la base de cuánto θ
cambia entre iteraciones, dada la magnitud del cambio en θ. Tales métodos se describen a veces
como Newton-Raphson modificado.
Uno de los métodos Newton - Raphson modificados más populares fue propuesto por
Davidon (1959) y Fletcher y Powell (1963). Puesto que es H en lugar de H que aparece en la
fórmula de actualización [5.7.14], el algoritmo Davidon-Fletcher-Powell actualiza una estimación de
H en cada paso sobre la base del tamaño del cambio en g(θ) relativo al cambio en θ.

Específicamente, denotan una estimación de θ que se ha calculado en la iteración m, y
una estimación de . La nueva estimación está dada por

[5.7.15]
Para s el escalar positivo que maximiza . Una vez y el gradiente

en se han calculado, se obtiene una nueva estimación de
∆ ∆ ′

∆ ′ ∆
[5.7.16]
∆ ∆ ′
∆ ′ ∆
donde
∆ ≡
∆ ≡
En qué sentido debe ser calculado de [5.7.16] como una estimación de la inversa de
?. Consideremos primero el caso cuando θ es un escalar (a = 1). Entonces [5.7.16]
simplifica a
∆ ∆
∆ ∆ ∆
∆
∆
∆
∆
en este caso,
∆
∆
Que es la aproximación natural discreta a
Más generalmente (para a> 1), una estimación de la derivada de g (·) debería estar relacionada con
el cambio observado en g (·) de acuerdo con
≅
′
es decir,
o
∆ ≅ ∆
De ahí una estimación de debe satisfacer
∆ ∆
[5.7.17]
Después de la multiplicación de [5.7.16] por ∆ confirma que [5.7.17] está realmente
satisfecho por la estimación de de Davidon - Fletcher – Powell.
∆ ∆
∆ ∆ ′ ∆
∆ ′ ∆
∆ ∆ ′ ∆
∆ ′ ∆
∆ ∆ ∆
∆
Así, el cálculo de [5.7.16] produce una estimación de que es consistente con la
magnitud del cambio observado entre y dado el tamaño del cambio entre
y .
La siguiente proposición (demostrada en el Apéndice 5. A al final del capítulo) establece algunas
otras propiedades útiles de la fórmula de actualización [5.7.16].
Proposición 5.1: (Fletcher y Powell (1963)). Considere , donde : → tiene continuas primeras
derivadas denotadas
.
Supongamos que algún elemento de es distinto de cero y de una matriz simétrica definida (a x a)
positiva. Entonces, lo siguiente.
(a) Existe un escalar s > 0 tal que > para
[5.7.18]
(b) Si s en [5.7.18] se elige para maximizar , entonces las condiciones de primer orden para un
máximo interior implican que
′ 0 [5.7.19]
(c) Siempre que [5.7.19] se mantenga y que algún elemento de sea distinto de cero,
entonces descrito por [5.7.16] es una matriz simétrica definida positiva.
El resultado (a) establece que mientras no se encuentre ya en un óptimo ( 0),

existe un paso en la dirección sugerida por el algoritmo que aumentará la probabilidad adicional,
siempre que sea una matriz definida positiva.
El resultado (c) establece que siempre que la iteración se comience con una matriz definida
positiva, entonces la secuencia de matrices debe ser definida positiva, lo que significa
que cada paso de la iteración debe aumentar la función de verosimilitud. Un procedimiento
estándar es iniciar la iteración con , la (a x a) matriz de identidad.
Si la función )es exactamente cuadrática, de modo que

1
′θ θ θ .
2
Con definido positivo, entonces Fletcher y Powell (1963) mostraron que la iteración en [5.7.15] y
[5.7.16] convergerá al máximo global verdadero en a pasos
;
Y la matriz de ponderación convergerá a la inversa de -1 veces la matriz de las segundas derivadas:

De manera más general, es bien aproximado por una función cuadrática, entonces el
procedimiento de búsqueda Davidon - Fletcher - Powell debe acercarse al máximo global más
rápidamente que el método de ascenso más pronunciado,
≅
Para el N grande, mientras que debería converger al negativo de la matriz de las segundas
derivadas de la función de verosimilitud:
≅
′
[5.7.20]
En la práctica, sin embargo, la aproximación en [5.7.20] puede ser algo pobre, y es mejor evaluar la
matriz de derivadas secundarias para calcular errores estándar, como se analiza en la Sección 5.8.
Si la función no es globalmente cóncava o si el valor inicial está lejos del máximo real, el
procedimiento de Davidon - Fletcher - Powell puede hacer muy mal.
Si se encuentran problemas, a menudo ayuda a probar un valor de inicio diferente ,a
cambiar la escala de los datos o parámetros para que los elementos de θ estén en unidades
comparables, o para reescalar la matriz inicial por ejemplo estableciendo
1 10
Otros métodos de Optimización Numérica

Está disponible una variante de otros métodos de Newton - Raphson modificados que
utilizan técnicas alternativas para actualizar una estimación de o su inversa. Dos de los
métodos más populares son los de Broyden (1965, 1957) y Berndt, Hall, Hall y Hausman (1974). El
Juez, Griffiths, Hill y Lee (1980, págs. 719-72) y Quandt (1983) proporcionan una serie de
encuestas sobre éstos y una variedad de otros enfoques.
Obviamente, estos mismos métodos se pueden usar para minimizar una función Q(θ) con
respecto a θ. Simplemente multiplicamos la función objetivo por -1 y luego maximizamos la
función -Q(θ).
5.8. Inferencia Estadística con Estimación de Máxima

Verosimilitud
La sección anterior discutió maneras de encontrar la máxima probabilidad como dado sólo la
habilidad numérica para evaluar la función de probabilidad de log . Esta sección resume los
enfoques generales que pueden usarse para probar una hipótesis acerca de θ. La sección resume
simplemente una serie de resultados útiles sin proporcionar ninguna prueba. Volveremos a estos
temas con mayor profundidad en el Capítulo 14, donde se desarrollará la base estadística detrás de
muchas de estas reivindicaciones.
Sin embargo, antes de detallar estos resultados, vale la pena llamar la atención sobre dos de
los principales supuestos detrás de las fórmulas presentadas en esta sección. En primer lugar, se
supone que los datos observados son estrictamente estacionarios. En segundo lugar, se supone que
ni la estimación ni el valor verdadero caen en un límite del espacio de parámetro permisible.
Por ejemplo, supongamos que el primer elemento de θ es un parámetro que corresponde a la
probabilidad de un evento particular, que debe estar entre 0 y 1. Si el evento no ocurrió en la
muestra, la estimación de probabilidad máxima de la probabilidad podría ser Ero Este es un
ejemplo donde la estimación cae en el límite del espacio de parámetro permisible, en cuyo caso
las fórmulas presentadas en esta sección no serán válidas.
Errores Estándar Asintóticos para Máxima Verosimilitud

Si el tamaño de la muestra T es suficientemente grande, a menudo resulta que la
distribución de la estimación de máxima verosimilitud puede aproximarse bien mediante la
distribución siguiente:
, j
[5.8.1]
Donde denota el vector de parámetro verdadero. La matriz j se conoce como matriz de
información y se puede estimar de dos maneras.
La segunda estimación derivada de la matriz de información es
̂
′
[5.8.2]
Aquí denotan la probabilidad de registro
log | | ;
Y , denota la historia de las observaciones sobre y obtenidas hasta la fecha t. La matriz de

segundas derivadas de la probabilidad de log se calcula a menudo numéricamente. Sustituyendo
[5.8.2] en [5.8.1], los términos que implican el tamaño de la muestra T se anulan para que la matriz
de varianza-covarianza de pueda ser aproximada por
′≅
′
[5.8.3]
Una segunda estimación de la matriz de información j en [5.8.1] se denomina estimación del

producto exterior:
̂ , , ′
[5.8.4]
Aquí , denota el vector (a x 1) de las derivadas del log la densidad condicional de la
observación t- iésima con respecto a los elementos a del vector de parámetros θ, con esta derivada
evaluada en la estimación de máxima verosimilitud :
log | , ,…;
, |
5.8 Inferencia Estadística con Estimación de Máxima Verosimilitud 151

En este caso, la matriz de varianza - covarianza de es aproximada por
′≅ , , ′
Como una ilustración de cómo se pueden utilizar aproximaciones, supongamos que la

probabilidad de log es dada por la expresión [5.7.6]. Para este caso, se puede ver analíticamente que
3 0
,
′ 0 4
Y por tanto el resultado [5.8.3] sugiere que la varianza de la estimación de máxima verosimilitud
puede ser aproximada por 1/4. El MLE para este ejemplo fue 0. Así, una el intervalo de
confianza aproximado del 95% para está dado por
0 2 1/4 1.
Tenga en cuenta que a menos que los elementos fuera de la diagonal de ̂ sean cero, en
general uno necesita calcular todos los elementos de la matriz ̂ e invertir esta matriz completa para
obtener un error estándar para cualquier parámetro dado.
¿Qué estimación de la matriz de información, ̂ o ̂ , es mejor utilizar en la práctica? La
expresión [5.8.1] en sólo una aproximación a la distribución de , y ̂ y ̂ son a su vez sólo
aproximaciones al verdadero valor de j. La teoría que justifica estas aproximaciones no da ninguna
orientación clara a la cual es mejor usar, Y típicamente, los investigadores dependen de cuál sea la
estimación de la matriz de información más fácil de calcular. Si las dos estimaciones difieren
mucho, esto puede significar que el modelo está mal especificado. White (1982) desarrolló una
prueba general de las bases de especificación del modelo sobre esta idea. Una opción para construir
errores estándar cuando las dos estimaciones difieren significativamente es usar los errores
estándares de "casi-máxima verosimilitud" discutidos al final de esta sección.
Prueba de Razón de Verosimilitud

Otro método popular para probar hipótesis sobre parámetros que se estiman por máxima
verosimilitud es la prueba de razón de verosimilitud. Supongamos que una hipótesis nula implica un
conjunto de m diferentes restricciones sobre el valor del vector de parámetros (a x 1). Primero,
maximizamos la función de verosimilitud ignorando estas restricciones para obtener la estimación
de máxima verosimilitud sin restricciones θ. A continuación, encontramos una estimación que
hace que la probabilidad sea lo más grande posible mientras se siguen satisfaciendo todas las
restricciones. En la práctica, esto se logra generalmente definiendo un nuevo [(a – m) x 1] vector
en términos del cual todos los elementos de θ se pueden expresar cuando se cumplen las
restricciones. Por ejemplo, si la restricción es que los últimos m elementos de θ son cero, entonces λ
consiste en los primeros elementos a-m de θ. Deja denotar el valor de la función de
verosimilitud de log en la estimación no restringida, y deja ̅ denotan el valor de la función de
probabilidad de log en la estimación restringida. Claramente ̅ , y a menudo demuestra
ser el caso de que
2 ̅ [5.8.5]
Por ejemplo, supongamos que a = 2 y nos interesa probar la hipótesis de que 1. Bajo
esta hipótesis nula el vector , ′ puede ser escritas como (λ, λ+1)’, donde λ= . Suponga que
la probabilidad de log es dada por la expresión [5.7.6]. Se puede encontrar el MLE restringido
reemplazando por 1y maximizando la expresión resultante con respecto a :
̅ 1.5 2 1
La condición de primer orden para la maximización de ̅ es
3 4 1 0
o 4/7. El MLE restringido es así ̅ , ′, y el valor máximo alcanzado para la
probabilidad de log mientras que satisface la restricción es
̅ .
3∗4 / 2∗7∗7 4 3
6/7
El MLE sin restricciones es ̅ 0, atr que . Por lo tanto, [5.8.5] sería
12
2 ̅ 1.71
7
La prueba aquí implica una sola restricción, por lo que m = 1. En la Tabla B.2 del Apéndice B, la
probabilidad de que una variable (1) exceda a 3.84 es 0.05. Desde 1,71 <3,84, aceptamos la
hipótesis nula de que 1 en el nivel de significación del 5%.
Prueba multiplicadora lagrange

Con el fin de utilizar los errores estándar de [5.8.2] o [5.8.4] para probar una hipótesis sobre θ, sólo
tenemos que encontrar el MLE sin restricciones. Para utilizar la prueba de razón de verosimilitud
[5.8.5], es necesario encontrar tanto el MLE como el MLE restricto. La prueba del
multiplicador de Lagrange proporciona un tercer principio con el cual probar una hipótesis nula
que requiere solamente el MLE limitado ̅ . Esta prueba es útil cuando es más fácil calcular la
estimación restringida ̅ que la estimación no restringida .
log | , ,…;
̅, ̅
La prueba del multiplicador de Lagrange de la hipótesis nula de que las restricciones son verdaderas
viene dada por el siguiente estadístico:
̅, ′ ̅,
[5.8.6]
Si la hipótesis nula es verdadera, entonces para T grande debería tener aproximadamente una
distribución (m). La matriz de información j se puede estimar nuevamente como en [5.8.2] o
[5.8.4] con reemplazar por ̅
Errores estándar de casi máxima probabilidad

Se mencionó anteriormente en esta sección que si los datos fueron realmente generados a partir de
la densidad asumida y el tamaño de la muestra es suficientemente grande, la estimación de la
segunda derivada ̂ y la estimación del producto externo ̂ de la matriz de información deberían
ser razonablemente claras El uno al otro. Sin embargo, la estimación de máxima verosimilitud
puede ser una forma razonable de estimar parámetros incluso si los datos no fueron generados por
la densidad asumida. Por ejemplo, observamos en la sección 5.2 que el MLE condicional para un
proceso de Gaussiano AR(1) se obtiene a partir de una regresión OLS de on . Esta
regresión OLS es a menudo una manera muy sensible para estimar el parámetro de un proceso
AR(1), incluso si las innovaciones verdaderas no son i.i.d. Gaussiano Aunque la máxima
verosimilitud puede arrojar una estimación razonable de θ, cuando las innovaciones no son i.i.d.
Gaussiano, los errores estándar propuestos en [5.8.2] o [5.8.4] ya no pueden ser válidos. Una matriz
de varianza - covarianza aproximada para que a veces es válida incluso si la densidad de
probabilidad es mal especificada es dada por
5.8 Inferencia Estadística con Estimación de Máxima Verosimilitud 153

′≅ , [5.8.7]
Esta matriz de varianza - covarianza fue propuesta por White (1982), quien describió este enfoque
como la estimación de casi máxima verosimilitud.
5.9. Restricciones de desigualdad
Una trampa común con maximización numérica

Supongamos que deberíamos aplicar uno de los métodos discutidos en la Sección 5.7 como
el ascenso más pronunciado a la probabilidad AR(1) [5.7.2]. Comenzamos con una suposición
inicial arbitraria, digamos 0.1. Calculamos el gradiente en este punto, y encontramos que es
positivo. La computadora entonces se programa para intentar mejorar esta estimación evaluando la
probabilidad de log en los puntos descritos por ∗ para varios valores de
s., Viendo lo que funciona bests. Pero si el coputer intentara un valor para s tal que
∗ 1.1, el cálculo de [5.7.2] implicaría encontrar el log de (1-1.1 )=-0.21. Intentar
calcular el registro de un número negativo normalmente sería un error de ejecución fatal, causando
que el procedimiento de búsqueda se bloquee.
A menudo tales problemas se pueden evitar usando procedimientos de Newton-Raphson

modificados, siempre que la estimación inicial se elija sabiamente y siempre que el área de
búsqueda inicial se mantenga bastante pequeña. Esto último se puede lograr estableciendo la matriz
de ponderación inicial en [5.7.15] y [5.7.16] igual a un pequeño múltiplo de la matriz de
identidad, como 1 10 ∗ . En iterariones posteriores el algoritmo debe utilizar la
forma de la función de verosimilitud en la vecindad del máximo para mantener la búsqueda
conservadora. Sin embargo, si el verdadero MLE está cerca de uno de los límites (por ejemplo, si
0.998 en el ejemplo AR (1), será prácticamente imposible mantener un algoritmo
numérico para explorar lo que sucede cuando es mayor que la unidad, lo que sería inducir un
accidente fatal.
Resolviendo el Problema Reparametrizando la Función de Verosimilitud

Una manera simple de asegurar que una búsqueda numérica permanezca siempre dentro de
ciertos límites especificados es reparameterizar la función de verosimilitud en términos (a x 1)de un
vector λ para el cual , donde la función : → incorpora las restricciones deseadas.
El esquema es entonces como sigue
Ejecutar Procedimiento Salida

Θ = g(λ);
calcula (θ) g(λ)
Por ejemplo, para asegurar que ϕ es siempre entre ±1, podríamos tomar
| |
[5.9.1]
El objetivo es encontrar el valor de λ que produce el mayor valor para la probabilidad de log.
Comenzamos con una conjetura inicial como λ=3. El procedimiento para evaluar la función de
probabilidad de log calcula primero
3/ 1 3 0.75
Y luego encuentra el valor para la probabilidad de log asociada con este valor de ϕ de [5.7.2]. No
importa qué valor para λ la computadora adivina, el valor de ϕ en [5.9.1] siempre será menor que 1
en valor absoluto y la verosimilitud función será bien definido. Una vez que hemos encontrado el
valor de que maximiza la función de verosimilitud, la estimación de máxima verosimilitud de ϕ es
entonces dada por
1
Esta técnica de reparameterizar la función de verosimilitud de forma que los estimados siempre
satisfacen las restricciones necesarias a menudo es muy fácil de implementar. Sin embargo, se debe
mencionar una nota de precaución. Si un error estándar se calcula a partir de la matriz de las
segundas derivadas de la probabilidad de log como en [5.8.3], y representa el error estándar de ,
no el error estándar de . Para obtener un error de stardard para ., el mejor enfoque es primero
reparameterizar en términos de λ para calcular la matriz de derivadas secundarias evaluadas en .
para obtener el error estándar final para . del error estándar para Sobre la fórmula para una
prueba de Wald de una hipótesis no lineal descrita en el Capítulo 14
Parametrizaciones para una matriz de Varianza - covarianza

Otra restricción común que se necesita imponer es que un parámetro de varianza sea positivo.
Una manera obvia de lograr esto es parametrizar la verosimilitud en términos de λ que representa
±1 veces la desviación estándar. El procedimiento para evaluar la probabilidad de log entonces
comienza cuando este parámetro λ:
Y si la desviación estándar se llama, se calcula como
Más generalmente, Ω denotan una matriz de varianza-covarianza (n x n):
⋯
⋯
Ω ⋮ ⋮ ⋯ ⋮
⋯
Aquí es necesario imponer la condición de que Ω es positiva definida y simétrica. El mejor enfoque
es parametrizar Ω en términos de n(n+1) /2 elementos distintos de la descomposición de Cholesky
de Ω:
Ω PP′ [5.9.2]
donde
0 0 ⋯ 0
0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
⋯
5.9 Restricciones de desigualdad 155

Sin importar los valores que el ordenador adivine para , ,…, la matriz Ω calculada a
partir de [5.9.2] será simétrica y semidefinida positiva.
Parametrizaciones para probabilidades

Algunas veces el parámetro desconocido son las probabilidades , ,…, que deben satisfacer
las restricciones
0 1 para i 1, 2, … , k.
⋯ 1
En este caso, un enfoque es parametrizar las probabilidades en términos de , ,…, , donde
/ 1 ⋯ P ara i 1, 2, … , k 1
1/ 1 ⋯
Restricciones de desigualdad más generales

Para las restricciones de desigualdad más complicadas que no admiten una reparameterización
simple, un enfoque que a veces funciona es poner una declaración de ramificación en el
procedimiento para evaluar la función de probabilidad de log. El procedimiento primero
comprueba si la restricción está satisfecha. Si lo es, entonces la función de verosimilitud se evalúa
de la manera habitual. Si no es así, el procedimiento devuelve un número negativo grande en lugar
del valor de la función de verosimilitud de log. A veces, tal enfoque permitirá que un MLE que
satisface las condiciones especificadas se encuentre con simples procedimientos de búsqueda
numérica.
Si estas medidas resultan inadecuadas, algoritmos más complicados están disponibles. El juez
Griffiths, Hill y Lee (1980, pp. 747-49) describió algunos de los posibles enfoques.
APENDICE 5.A. Pruebas de las proposiciones del capítulo 5

Pruebas de proposiciones 5.1
(a) Teorema de Taylor,

≅ ,
[5.A.1]
Sustituyendo [5.7.18] dentro [5.A.1]
,
[5.A.2]
Puesto que es definida positiva y puesto que 0, la expresión [5.A.2] establece que
,
Donde 0. Además ∗ , → 0 como s → 0. Por lo tanto, existe un s tal

que 0, como se reivindica.
(b) La diferenciación directa revela
[5.A.3]
Con la última línea que sigue a [5.7.18]. Las condiciones de primer orden estabelecidas [5.A.3]
iguales a cero, lo que implica
0
Con la última línea siguiendo de nuevo desde [5.7.18]. Esto establece la reclamación en [5.7.19]
(c) Sea y cualquier vector (a x 1) distinto de cero. La tarea es mostrar que ′ 0
′ ∆ ∆ ′
′ ′
∆ ′ ∆
′ ∆ ∆ ′

∆ ′ ∆
[5.A.4]
Puesto que es definida positiva, existe una matriz no singular P tal que
PP′
Definir
∗
≡ ′
∗
≡ ′∆
Entonces [5.A.4] se puede escribir
′ ′ ∆ ∆ ′ ′
′ ′ ′
∆ ′ ′ ∆
′ ∆ ∆ ′

∆ ′ ∆
[5.A.5]
∗ ∗ ∗ ∗
∗ ∗
∆ ∆
∗ ∗ ∆ ∆
Recordando la ecuación [4.A.6], los dos primeros términos de la última línea de [5.A.5] representan
la suma de los cuadrados de una regresión OLS de ∗ sobre ∗ . Esto no puede ser negativo.
∗ ∗ ∗ ∗
∗ ∗
∗ ∗
0
[5.A.6]
Sería igual a cero sólo si la regresión OLS tiene un perfecto ∗ ∗

o ′ ∆ para
algunos β. Dado que P es no singular, la expresión [5.A.6] sólo sería cero si ∆ para
algunos β. Considere dos casos.
Caso 1. No hay β tal que ∆ . Si este caso, la desigualdad [5.A.6] es estricta y [5.A.5]
implica
′ ∆
′ 0
∆ ′ ∆
Desde ′ ∆ 0, se sigue que ′ 0, siempre que

∆ ∆ 0 [5.A.7]
Pero de [5.7.19],
∆ ∆ ′ ∆
′ ∆ [5.A.8]
′
Apéndice 5.A. Pruebas de las Proposiciones del Capítulo 5 157
Con la última línea que sigue a [5.7.18]. Pero el término final en [5.A.8] debe ser negativo, en virtud
de los hechos que es positivo definido, s> 0, amd 0. Por lo tanto, [5.A.7] tiene, lo
que significa que es positivo definido para este caso.
Caso 2. No hay β tal que ∆ . Si este caso, [5.A.6] es cero, de modo que [5.A.6] se
convierte
′ ∆ ∆ ′
′
∆ ′ ∆
∆ ′ ∆ ∆ ′ ∆
∆ ′ ∆
∆ ∆ ′ 0,
como en [5.A.8]
5.1 Muestran que el valor de [5.4.16] en ̅, es idéntico a su valor en ̅ ,
̅
5.2 Verifique que la expresión [5.7.12] calcule el máximo de [5.7.6] en un solo paso desde la
estimación inicial 1,1 .
5.3 Dejar (y1, y2, …, yT.) ser una muestra de tamaño T dibujar a partir de un i.i.d. N ( , )
distribución
(a) Muestran que las estimaciones de máxima verosimilitud son dadas por
(b) Muestran que la matriz ̂ en [5.8.2] es
1 0
̂ 1
0 2
(c ) Muestran que para este resultado de muestra [5.8.1] sugiere
̂ 0
,
0 2
Anderson, Brian D.O., y John B, Moore. 1979. Filtrado óptimo. Englewood Cliffs, N.J .: Prentice-
Hall.
Berndt, E.K., B. H. Hall, y J. A. Hausman. 1974. “Estimación e inferencia en modelos estructurales
no lineales”. De la medición económica y social 3:653-65.
Box, George E P y D R Cox 1964. “Un análisis de las transformaciones”. Diario de la serie real de
la sociedad estadística B, 26: 211-52
Y Gwilym M Jenkins. 1976. Análisis de series temporales: pronóstico y control, rev. Ed. San
francisco: Día de Holden
Broyden. C. G. 1965. "Una clase de métodos para resolver ecuaciones simultáneas no lineales".
Matemáticas de Computación 21: 368-81.
Chiang, Alpha C. 1974. Métodos Fundamentales de la Economía Mhematical, 2d ed. Nueva York:
McGraw-Hill.
Davidon, W.C. 1959. "Métodos Metálicos Vaeiable de Minimización". A.E.C. Informe de
investigación y desarrollo ANL-5990 (rev.).
Fletcher, R. y M. J. D. Powell. 1963. "Un Método de Descenso Rapidamente Convergergente para
la Minimización". Computer Journal 6: 163 - 68.
Galbraith, R.F., y J.I. Galbraith. 1974. "Sobre las inversiones de algunas matrices modeladas que
surgen en la teoría de series de tiempo estacionarias". Revista de Probabilidad Aplicada11: 63-71
Nelson, Harold L., y C. W. J. Granger. 1979. "Experiencia con el uso de la transformación de Box-
Cox cuando se pronostican series de tiempos económicos". Journal of Econometrics 10: 57-69.
Quandt, Richard E. 1983. "Computacional problemas y métodos", en Zvi Griliches y Michael D.
Intriligator, eds. Manual de Econometría, Vol. 1. Amsterdam: Norte de Holanda.White. Halbert.
1982. "Estimación de Máxima Verosimilitud de Modelos Perdidos". Econometrica 50: 1-25.
6
Análisis Espectral
Hasta este punto en el libro, el valor de una variable 𝑌𝑡 , en compañía de t ha sido típicamente
descrito en términos de una secuencia de innovaciones {𝜀}∞
𝑡=−∞ en modelos de la forma.
∞
𝑌𝑡 = 𝜇 + ∑ 𝜓𝑗 𝜀𝑡−𝑗
𝑗=0
El enfoque se ha centrado en las implicaciones de tal representación para la covarianza entre 𝑌𝑡 ,y
𝑌𝜏 con distintos acompañantes como t y 𝜏 . Esto es conocido como el análisis de propiedades de
{𝑌𝑡 }∞
𝑡=−∞ en el dominio temporal.
Este capítulo, en cambio describe el valor de 𝑌𝑡 , como una suma ponderada de funciones periódicas
de la forma cos(𝜔𝑡) y 𝑠𝑒𝑛(𝜔𝑡) , donde 𝜔 denota una frecuencia particular:
𝜋 𝜋
𝑌𝑡 = 𝜇 + ∫ 𝛼(𝜔). cos(𝜔𝑡) 𝑑𝜔 + ∫ 𝛿(𝜔). 𝑠𝑒𝑛(𝜔𝑡)𝑑𝜔
0 0
El objetivo será determinar cómo los ciclos importantes de frecuencias
diferentes están en explicar el comportamiento de 𝑌𝑡 . Esto es conocido como dominio de la
frecuencia o análisis espectral. Como veremos, los dos tipos de análisis no son mutuamente
exclusivos. Cualquier proceso de covarianza estacionaria tiene una representación de dominio
temporal y una de dominio frecuencial, y cualquier función de los datos que puedan ser descritos
por una representación, puede ser igualmente bien descrita por la otra representación. Para algunas
funciones, la descripción del dominio temporal puede ser más sencilla, mientras para otras
funciones la descripción del dominio frecuencial es la más sencilla.
La sección 6.1 describe las propiedades del espectro poblacional e introduce el teorema de la
representación espectral, mientras puede ser considerado como una versión del dominio
frecuencial de la teoría de Wold. La sección 6.2 presenta el modelo análogo del espectro
poblacional y utiliza un marco de regresión de Mínimos Cuadrados Ordinarios (MCO) para
provocar el teorema de la representación espectral y explicar el sentido en el cual el modelo
espectral identifica las contribuciones a la varianza de los datos observados de componentes
periódicos con ciclos diferentes. La sección 6.3 habla de estrategias para estimar el espectro
poblacional. La sección 6.4 presenta un ejemplo de la aplicación de técnicas espectrales y comenta
sobre algunas de las maneras en que pueden ser utilizadas en la práctica. Las discusiones más
detalladas sobre análisis espectral son proporcionadas por Anderson (1971), Bloomfield (1976) y
Fuller (1976).
6.1. Espectro poblacional
El espectro poblacional y sus propiedades

Sea {𝑌𝑡 }∞
𝑡=−∞ un modelo de covarianza estacionaria con significado 𝐸(𝑌𝑡 ) = 𝜇 y j-ésimo
autocovarianza.
160 Capitulo 6 | Análisis Espectral

𝐸(𝑌𝑡 − 𝜇)(𝑌𝑡−𝑗 − 𝜇) = 𝑌𝑗
Asumiendo que estas autocovarianzas son absolutamente sumatorias, la función de autocovarianza

generada es dada por:
∞
𝑔𝛾 (𝑧) = ∑ 𝛾𝑗 𝑧 𝑗
𝑗=−∞
[6.1.1]
Donde z denota un escalar complejo. Si [6.1.1] es dividido por 2𝜋 y valorado en algún z
representado 𝑧 = ℯ −𝑖𝜔 para 𝑖 = √−1 y 𝜔 un escalar real , el resultado es llamado espectro
poblacional de Y:
∞
1 −𝑖𝜔
1
𝑆𝛾 (𝜔) = 𝑔 (ℯ ) = ∑ 𝛾𝑗 ℯ −𝑖𝜔𝑗
2𝜋 𝛾 2𝜋
𝑗=−∞
[6.1.2]
Tomando en cuenta que el espectro es una función de 𝜔: dado cualquier valor en particular de 𝜔 y
una secuencia de autocovarianza {𝑌𝑗 }∞
𝑗=−∞ , podríamos calcular en un principio el valor de
𝑆𝛾(𝜔) .
El teorema de De Moivre nos permite escribir ℯ −𝑖𝜔𝑗 como:
ℯ −𝑖𝜔𝑗 = cos(𝜔𝑗) − 𝑖. 𝑠𝑒𝑛(𝜔𝑗) [6.1.3]

Sustituyendo [6.1.3] en [6.1.2], parece que el espectro puede ser equivalentemente escrito
∞
1
𝑆𝛾 (𝜔) = ∑ 𝛾𝑗 [cos(𝜔𝑗) − 𝑖. 𝑠𝑒𝑛(𝜔𝑗)]
2𝜋
𝑗=−∞
[6.1.4]
Tome en cuenta que por un proceso de covarianza estacionaria, 𝛾𝑗 = 𝛾−𝑗 .Por consiguiente, [6.1.4]
implica
∞
1 1
𝑆𝛾 (𝜔) = 𝛾 [cos(0) − 𝑖. 𝑠𝑒𝑛(0)] + {∑ 𝛾𝑗 [ cos(𝜔𝑗) + cos(−𝜔𝑗) − 𝑖. 𝑠𝑒𝑛(𝜔𝑗)
2𝜋 0 2𝜋
𝑗=1
− 𝑖. 𝑠𝑒𝑛(−𝜔𝑗)]}
[6.1.5]
A continuación, podemos hacer uso de los siguientes resultados de trigonometría: 1

cos(0) = 1
𝑠𝑒𝑛(0) = 0
𝑠𝑒𝑛(−𝜃) = −𝑠𝑒𝑛(𝜃)
cos(−𝜃) = cos(𝜃)
Usando estas relaciones, [6.1.5] simplifica a:
∞
1
𝑆𝛾 (𝜔) = {𝛾 + 2 ∑ 𝛾𝑗 cos(𝜔𝑗)}
2𝜋 0
𝑗=1
[6.1.6]
Asumiendo que la secuencia de autocovarianza {𝑦𝑗 }∞ 𝑗=−∞ es absolutamente sumatoria, la expresión
[6.1.6] implica que el espectro poblacional persiste y que 𝑆𝛾 (𝜔) es continuo, función de valor real
de 𝜔. Es posible ir un poco más allá y demostrar que si el 𝑦𝑗 ′𝑠 representa autocovarianzas de un
modelo de covarianza estacionaria, entonces 𝑆𝛾 (𝜔)será un valor no negativo para toda 𝜔.2 Dado
cos(𝜔𝑗 ) = cos(−𝜔𝑗 ) para cualquier, 𝜔 el espectro es simétrico en torno a 𝜔 = 0. Finalmente,
dado cos[(𝜔 + 2𝜋𝑘). 𝑗] = cos(𝜔𝑗 )para cualquier número entero k y j , se deduce de [6.1.6] que
6.1 Espectro poblacional 161

𝑠𝛾 (𝜔 + 2𝜋𝑘) = 𝑠𝛾 (𝜔) para cualquier numero entero k. Por lo tanto, el espectro es una función
periódica de 𝜔 .Si conocemos el valor de 𝑆𝛾 (𝜔) para toda 𝜔 entre 0 y 𝜋, podemos inferir el valor
de 𝑆𝛾 (𝜔) para cualquier 𝜔.
1Analizados en la sección A.1 del Análisis Matemático (Apéndice A) al final del libro
2Consultar, por ejemplo, Fuller (1976, p.110)
Calculando el espectro poblacional por diversos modelos

Sea Y, cumple un proceso MA(∞):
𝑌𝑡 = 𝜇 + 𝜓(𝐿)𝜀𝑡 6.1.7]
Dónde:
∞
𝜓(𝐿) = ∑ 𝜓𝑗 𝐿𝑗
𝑗=0
∞
∑ |𝜓𝑗 | < ∞
𝑗=0
2
𝐸(𝜀𝑡 𝜀𝜏 ) = { 𝜎 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
Recordar de la expresión [3.6.8] que la función de autocovarianza generada para Y es dada por:
𝑔𝛾 (𝑧) = 𝜎 2 𝜓(𝑧)𝜓(𝑧 −1 )
Entonces, de [6.1.2],el espectro poblacional para un modelo MA (∞)es dado por :
𝑆𝛾 (𝜔) = (2𝜋)−1 . 𝜎 2 𝜓(ℯ −𝑖𝜔 )𝜓(ℯ 𝑖𝜔 ) [6.1.8]

Por ejemplo, para un modelo de ruido blanco, 𝜓(𝑧) = 1 y el espectro poblacional es una
constante para toda 𝜔:
𝜎2
𝑆𝛾 (𝜔) = 2𝜋 [6.1.9]
Entonces, considera un modelo MA(1) :
𝑌𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1
Aquí, 𝜓(𝑧) = 1 + 𝜃𝑧 y el espectro poblacional es:
𝑆𝛾 (𝜔) = (2𝜋)−1 . 𝜎 2 (1 + 𝜃ℯ −𝑖𝜔 )(1 + 𝜃ℯ 𝑖𝜔 )

= (2𝜋)−1 . 𝜎 2 (1 + 𝜃ℯ −𝑖𝜔 + 𝜃ℯ 𝑖𝜔 + 𝜃 2 ) [6.1.10]
Pero tenga en cuenta que:
ℯ −𝑖𝜔 + ℯ 𝑖𝜔 = cos(𝜔) − 𝑖. 𝑠𝑒𝑛(𝜔) +cos(𝜔) + 𝑖. 𝑠𝑒𝑛(𝜔) = 2. cos(𝜔) [6.1.11]
Por lo que [6.1.10] se convierte en:
𝑆𝛾 (𝜔) = (2𝜋)−1 . 𝜎 2 [1 + 𝜃 2 + 2𝜃. cos(𝜔)] [6.1.12]
Recuerde que cos(𝜔)va de 1 a-1 como 𝜔 va de 0 a 𝜋. Por ello, cuando 𝜃 > 0 el espectro 𝑆𝛾 (𝜔) es
una función monótonamente decreciente de 𝜔 para 𝜔 en [0,𝜋], mientras que cuando 𝜃 < 0, el
espectro es monótonamente creciente.
Para un modelo AR(1):
𝑌𝑡 = 𝑐 + 𝜙𝑌𝑡−1 + 𝜀𝑡
1
Tenemos 𝜓(𝑧) = (1−𝜙𝑧) mientras que | 𝜙 |< 1 .De modo que, el espectro es:
1 𝜎2
𝑆𝛾 (𝜔) =
2𝜋 (1 − 𝜙ℯ −𝑖𝑤 )(1 − 𝜙ℯ −𝑖𝑤 )

1 𝜎2
=
2𝜋 (1 − 𝜙ℯ −𝑖𝑤 − 𝜙ℯ −𝑖𝑤 + 𝜙 2 )
1 𝜎2
=
2𝜋 [1 + 𝜙 2 − 2𝜙. cos(𝜔)]
[6.1.13]
Cuando 𝜙 > 0, el denominador es monótonamente creciente en 𝜔 sobre [0,𝜋], significa que

𝑆𝛾 (𝜔)es monótonamente decreciente. Cuando 𝜙 < 0, el espectro 𝑆𝛾 (𝜔)es una función
monótonamente creciente de 𝜔.
En general, para un modelo ARMA (p, q):
𝑌𝑡 = 𝑐 + 𝜙1 𝑌𝑡−1 + 𝜙2 𝑌𝑡−2 + ⋯ + 𝜙𝑝 𝑌𝑡−𝑝 + 𝜀𝑡 + 𝜃1 𝜀𝑡−1
+𝜃2 𝜀𝑡−2 + ⋯ + 𝜃𝑞 𝜀𝑡−𝑞
El espectro poblacional es dado por:

𝜃 2 (1 + 𝜃1 𝑒 −𝑖𝑤 + 𝜃2 𝑒 −𝑖2𝑤 + ⋯ + 𝜃𝑞 𝑒 −𝑖𝑞𝑤 )
𝑆𝛾 (𝜔) =
2𝜋 (1 − 𝜙1 ℯ −𝑖𝑤 − 𝜙2 ℯ −𝑖2𝑤 − ⋯ − 𝜙𝑝 ℯ −𝑖𝑝𝑤 )
(1 + 𝜃1 𝑒 𝑖𝑤 + 𝜃2 𝑒 𝑖2𝑤 + ⋯ + 𝜃𝑞 𝑒 𝑖𝑞𝑤 )
𝑋
(1 − 𝜙1 ℯ 𝑖𝑤 − 𝜙2 ℯ 𝑖2𝑤 − ⋯ − 𝜙𝑝 ℯ 𝑖𝑝𝑤 )
[6.1.14]
Si la media móvil y los polinomios regresivos se calculan de la siguiente manera:
1 + 𝜃1 𝑧 + 𝜃2 𝑧 2 + ⋯ + 𝜃𝑞 𝑧 𝑞 = (1 − 𝜂1 𝑧)(1 − 𝜂2 𝑧) … (1 − 𝜂𝑞 𝑧)
1 − 𝜙1 𝑧 + 𝜙2 𝑧 2 + ⋯ + 𝜙𝑝 𝑧 𝑝 = (1 − 𝜆1 𝑧)(1 − 𝜆2 𝑧) … (1 − 𝜆𝑝 𝑧)
Entonces la densidad espectral en [6.1.14] puede ser escrita

𝑞
𝜎 2 ∏𝑗=1[ 1 + 𝜂𝑗2 − 2𝜂𝑗 . cos(𝜔)]
𝑆𝛾 (𝜔) = 𝑝
2𝜋 ∏𝑗=1[1 + 𝜆𝑗2 − 2𝜆𝑗 . cos(𝜔)]
Calculando la autocovarianza del espectro poblacional

Si conocemos la secuencia de autocovarianzas{𝛾𝑗 }∞ 𝑗=−∞ , en un principio podemos calcular el
valor de 𝑆𝛾 (𝜔)para cualquier 𝜔 de [6.1.2] o [6.1.6]. Lo contrario también es verdadero: si
conocemos el valor de 𝑆𝛾 (𝜔)para toda 𝜔 en [0,𝜋], podemos calcular el valor de la kth
autocovarianza 𝛾𝑘 para cualquier k dada. Esto significa que el espectro poblacional 𝑆𝛾 (𝜔)y la
secuencia de autocovarianzas contienen exactamente la misma información – ni uno ni otro puede
decirnos nada sobre el proceso que no es posible deducir del otro.
La siguiente proposición (demostrada en el apéndice 6.A al final de este capítulo) proporciona
una fórmula para calcular cualquier autocovarianza del espectro poblacional.
Proposición 6.1: Sea {𝛾𝑗 }∞

𝑗=−∞ una secuencia absolutamente sumable de autocovarianzas, y definir
𝑆𝛾 (𝜔)como un [6.1.12] .Entonces:
𝜋
∫−𝜋 𝑆𝛾 (𝜔)𝑒 𝑖𝑤𝑘 𝑑𝜔 = 𝛾𝑘
[6.1.15]
El resultado [6.1.15] puede ser equivalentemente escrito como:
𝜋
∫−𝜋 𝑆𝛾 (𝜔)cos(𝜔𝑘)𝑑𝜔 = 𝛾𝑘
[6.1.16]
6.1 Espectro poblacional 163

Interpretando el espectro poblacional
El siguiente resultado se obtiene como un caso especial de la proposición 6.1 estableciendo k=0
𝜋
∫ 𝑆𝛾 (𝜔)𝑑𝜔 = 𝛾0
−𝜋
[6.1.17]
En otras palabras, el área bajo el espectro poblacional entre ±𝜋 da 𝛾0 , la varianza de 𝛾𝑡 .
De manera más general – dado que 𝑆𝛾 (𝜔) es no negativo - si tuviéramos que calcular:
𝜔1
∫ 𝑆𝛾 (𝜔)𝑑𝜔
−𝜔1
Para cualquier 𝜔1 entre 0 y 𝜋 , el resultado podría ser un número positivo que podríamos interpretar
como una porción de la covarianza de 𝑌𝑡 , esto es asociado con frecuencias 𝜔 que son menores que
𝜔1 en valor absoluto. Recordando que 𝑆𝛾 (𝜔)es simétrico, la afirmación es:
𝜔1
2. ∫ 𝑆𝛾 (𝜔)𝑑𝜔
0
[6.1.18]
Representa la porción de la varianza de Y que podría ser atribuida a componentes aleatoriamente
periódicos con frecuencia menor o igual a. 𝜔1
¿Qué significa atribuir cierta porción de la varianza de Y a modelos con una frecuencia menor o
igual a 𝜔1? Para explorar esta pregunta, vamos a considerar el siguiente modelo estocástico
bastante especial. Supongamos que el valor de Yen compañía de t está determinado por:
𝑀
𝑌𝑡 = ∑[𝛼𝑗 . cos(𝜔𝑗 𝑡) + 𝛿𝑗 . 𝑠𝑒𝑛(𝜔𝑗 𝑡)]

𝑗=1
[6.1.19]
Aquí 𝛼𝑗 y 𝛿𝑗 son variables aleatorias de media cero, significa que E(𝑌𝑡 )=0 para toda t. Las secuencias
{𝛼𝑗 }𝑀 𝑀
𝑗=1 y {𝛿𝑗 }𝑗=1 son no correlacionados en serie y mutuamente no correlacionados:
𝜎𝑗2 𝑝𝑎𝑟𝑎 𝑗=𝑘

E(𝛼𝑗 𝛼𝑘 ) = { 0 𝑝𝑎𝑟𝑎 𝑗≠𝑘
𝜎𝑗2 𝑝𝑎𝑟𝑎 𝑗=𝑘
E(𝛿𝑗 𝛿𝑘 ) = { 0 𝑝𝑎𝑟𝑎 𝑗≠𝑘
E(𝛼𝑗 𝛿𝑘 ) = 0 para toda j y k

La varianza de 𝑌𝑡 , es entonces:
E(𝑌𝑡2 ) = ∑𝑀 2 2 2 2
𝑗=1[𝐸(𝛼𝑗 ). 𝑐𝑜𝑠 (𝜔𝑗 𝑡) + 𝐸(𝛿𝑗 ). 𝑠𝑒𝑛 (𝜔𝑗 𝑡)
=∑𝑀 2 2 2
𝑗=1 𝜎𝑗 [ 𝑐𝑜𝑠 (𝜔𝑗 𝑡) + 𝑠𝑒𝑛 (𝜔𝑗 𝑡)
=∑𝑀𝑗=1 𝜎𝑗
2
[6.1.20]
Con la última línea denota a la ecuación [A.1.12].Por lo tanto, para este modelo la porción de la
varianza de Y que es debido a los ciclos de frecuencia 𝜔𝑗 que son dados por 𝜎𝑗2 .
Si las frecuencias son ordenadas 0<𝜔1 <𝜔2 <…<𝜔𝑀 <𝜋, la porción de la varianza de Y que es
2
debido a los ciclos de una frecuencia menor o igual a 𝜔𝑗 es dada por 𝜎12 +𝜎𝑗2 +…+𝜎𝑗2 .
La kth autocovarianza de Y es:
E(𝑌𝑡 𝑌𝑡−𝑘 ) = ∑𝑀 2
𝑗=1{𝐸(𝛼𝑗 ). 𝑐𝑜𝑠(𝜔𝑗 𝑡). cos[𝜔𝑗 (𝑡 − 𝑘)]

+𝐸(𝛿𝑗2 . 𝑠𝑒𝑛(𝜔𝑗 𝑡). sen[𝜔𝑗 (𝑡 − 𝑘)]}
𝑀
= ∑ 𝜎𝑗2 {𝑐𝑜𝑠(𝜔𝑗 𝑡). cos[𝜔𝑗 (𝑡 − 𝑘)]

𝑗=1
+𝑠𝑒𝑛(𝜔𝑗 𝑡). sen[𝜔𝑗 (𝑡 − 𝑘)]}
[6.1.21]
Recuerde la identidad trigonométrica3
Cos(A-B)= cos(A).cos(B)+sen(A).sen(B).
[6.1.22]
Para A= 𝜔𝑗 𝑡 y B= 𝜔𝑗 (𝑡 − 𝑘), tenemos A-B = 𝜔𝑗 𝑘, así que [6.1.21] se convierte en:
E(𝑌𝑡 𝑌𝑡−𝑘 ) = ∑𝑀 2
𝑗=1 𝜎𝑗 . 𝑐𝑜𝑠(𝜔𝑗 𝑘).
[6.1.23]
Ya que la media y las autocovarianzas de Y no son funciones del tiempo, el modelo descrito por
[6.1.19] es una covarianza estacionaria, aunque [6.1.23] implica que la secuencia de autocovarianzas
∞
E{𝛾𝑘 } 𝑘=0 son absolutamente sumatorias.
Fuimos capaces de atribuir cierta porción de la varianza de 𝑌𝑡 a ciclos menores que una frecuencia
dada por el modelo en [6.1.19] porque ese es un modelo bastante especial de covarianza
estacionaria. Sin embargo, hay un resultado general conocido como el teorema de la representación
espectral que dice que cualquier modelo de covarianza estacionaria 𝑌𝑡 , puede ser expresado en
términos de una generalización de [6.1.19].Para cualquier frecuencia fija 𝜔 en [0,𝜋], definimos
variables aleatorias 𝛼(𝜔)y 𝛿(𝜔), y propone escribir un proceso estacionario con autocovarianzas
absolutamente sumatorias en la forma.
𝜋
𝑌𝑡 = 𝜇 + ∫ [ 𝛼(𝜔). cos(𝜔𝑡) + 𝛿(𝜔). 𝑠𝑒𝑛(𝜔𝑡)]𝑑𝜔
0
El proceso aleatorio representado por 𝛼(.) y 𝛿(. ) tiene media cero y las propiedades adicionales
𝜔
que para cualquiera de las frecuencias 0<𝜔1 <𝜔2 <𝜔3 <𝜔4 <𝜋, la variable ∫𝜔 2 𝛼(𝜔)𝑑𝜔 no está
1
𝜔 𝜔 𝜔
correlacionada con ∫𝜔 4 𝛼(𝜔)𝑑𝜔y la variable ∫𝜔 2 𝛿(𝜔)𝑑𝜔no es correlativa con ∫𝜔 4 𝛿(𝜔)𝑑𝜔 ,
3 1 3
𝜔
mientras para cualquier 0<𝜔1 <𝜔2 <𝜋 y 0<𝜔3 <𝜔4 <𝜋, la variable ∫𝜔 2 𝛼(𝜔)𝑑𝜔 no tiene ningún
1
𝜔
vínculo con∫𝜔 4 𝛿(𝜔)𝑑𝜔. Para tal proceso ,uno puede calcular una parte de la varianza de Y ,que
3
se debe a los ciclos con una frecuencia menor o igual a algún valor especificado 𝜔1 a través de una
generalización del procedimiento utilizado para analizar [6.1.19] .Además, esta magnitud resulta ser
dada por la expresión en [6.1.18].
No intentaremos hacer una prueba de la representación del teorema espectral aquí, por lo cual para
detalles el lector es referido a Cramer y Leadbetter (1997, pp.128-38).
En cambio, la siguiente sección proporciona una derivación formal de una versión de muestreo
preciso de estos resultados, mostrando el sentido en el cual el modelo análogo de [6.1.18] da la
porción muestreada de la varianza de series observadas que puede ser atribuidas a ciclos con
frecuencias menores o iguales a 𝜔1 .
6.2. Periodograma muestral
Para un proceso de covarianza estacionaria 𝑌𝑡 con autocovarianzas absolutamente sumatorias,

hemos definido el valor del espectro poblacional en la frecuencia 𝜔 para ser:
6.2. Periodograma muestral 165

∞
1
𝑆𝛾(𝜔) = ∑ 𝛾𝑗 𝑒 −𝑖𝜔𝑗
2𝜋
𝑗=−∞
[6.2.1]
Donde
𝛾𝑗 ≡ 𝐸(𝑌𝑡 − 𝜇)(𝑌𝑡−𝑗 − 𝜇)
∞
Y 𝜇 = 𝐸(𝑌𝑡 ) .Tome en cuenta que el espectro poblacional es expresado en términos de {𝛾𝑗 } 𝑗=0 , el
cual representa segundos momentos poblacionales.
Dada una muestra observada de T observaciones denotaron 𝑦1 , 𝑦2 , … , 𝑦𝑇 , que podemos calcular
hasta T-1 autocovarianzas muestrales de las formulas.
𝑇
−1
𝑇 ∑ (𝑦𝑡 − 𝑦̅) 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑇 − 1
𝛾̂ =
𝑖=𝑗+1
{𝛾̂−𝑗 𝑝𝑎𝑟𝑎 𝑗 = −1, −2, … , −𝑇 + 1
[6.2.2]
Donde 𝑦̅ es la media de la muestral
𝑇
−1
𝑦̅ = 𝑇 ∑ 𝑦𝑡
𝑖=1
[6.2.3]
Para cualquier 𝜔 dada, entonces podemos construir el modelo análogo de [6.2.1], el cual es
conocido como periodograma muestral.
1
𝑠̂𝑦 (𝜔) = ∑𝑇−1 𝛾̂ 𝑒 −𝑖𝜔𝑗
2𝜋 𝑗=−𝑇+1 𝑗
[6.2.4]
Como en [6.1.6] el ejemplo de periodograma puede ser expresado equivalentemente como:

𝑇−1
1
𝑠̂𝑦 (𝜔) = [𝛾̂ + 2 ∑ 𝛾̂𝑗 cos(𝜔𝑗)]
2𝜋 0
𝑗=1
[6.2.5]
Los mismos cálculos que comandaron a [6.1.17] pueden ser utilizados para demostrar que el área
bajo el periodograma es la muestra de la varianza de y:
𝜋
∫ 𝑠̂𝑦 (𝜔)𝑑𝜔 = 𝑦̂0
−𝜋
Como el espectro poblacional, el modelo de periodograma es simétrico en torno a 𝜔=0, de modo
que podríamos escribir equivalentemente:
𝜋
𝑦̂0 = 2 ∫ 𝑠̂𝑦 (𝜔)𝑑𝜔
0
También resulta ser un modelo análogo al teorema de representación espectral, el cual
desarrollamos ahora. En particular, veremos que dada cualquier observación de T en un proceso
(𝑦1, 𝑦2, … , 𝑦𝑇 ), existen frecuencias 𝜔1 ,𝜔2 ,…,𝜔𝑀 y coeficientes 𝜇̂ , 𝛼̂1 , 𝛼̂2 , … , 𝛼̂𝑀 , 𝛿̂1 , 𝛿̂2 , … , 𝛿̂𝑀 tales
que el valor de y en compañía de t puede ser expresado como
𝑀
𝑌𝑡 = 𝜇̂ + ∑{ 𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿̂𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]}

𝑗=1

[6.2.6]
donde la variable 𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] es ortogonal en el ejemplo de 𝛼̂𝑘 . cos[𝜔𝑘 (𝑡 − 1)] para 𝑗 ≠ 𝑘,
la variable 𝛿̂𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]es ortogonal a 𝛿̂𝑘 . 𝑠𝑒𝑛[𝜔𝑘 (𝑡 − 1)] para 𝑗 ≠ 𝑘 , y la variable
𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)]es ortogonal a 𝛿̂𝑘 . 𝑠𝑒𝑛[𝜔𝑘 (𝑡 − 1)] para toda j y k.
La muestra de varianza de y es 𝑇 −1 ∑𝑇𝑡=1(𝑦𝑡 − 𝑦̅)2 ,y la porción de esta varianza que puede ser
atribuida a ciclos con frecuencia 𝜔𝑗 que puede ser inferida de la muestra de periodograma 𝑠̂𝑦 (𝜔𝑗 ).
Desarrollaremos esta afirmación para el caso, cuando el tamaño de muestra T sea un número impar.
En este caso 𝑦𝑡 , será expresado en términos de funciones periódicas M=(T-1)/2 con frecuencias
diferentes en [6.2.6].Las frecuencias 𝜔1 ,𝜔2 ,…,𝜔𝑀 son especificadas de la siguiente forma:
𝜔1 = 2𝜋/𝑇
𝜔2 = 4𝜋/𝑇
.
.
.
𝜔𝑀 = 2𝑀𝜋/𝑇
[6.2.7]
De este modo, la mayor frecuencia considerada es:
2(𝑇 − 1)𝜋
𝜔𝑀 = <𝜋
2𝑇
Considere la posibilidad de una regresión de Mínimos Cuadrados Ordinarios (MCO) del valor de 𝑦𝑡
en una constante y en los diversos términos de seno y coseno,
𝑀
𝑌𝑡 = 𝜇 + ∑{ 𝛼𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]} + 𝜇𝑡

𝑗=1
Esto puede ser visto como un modelo de regresión estándar de la forma

𝑌𝑡 = 𝛽´𝑥𝑡 + 𝜇𝑡
[6.2.8]
Donde
𝑋𝑡 = [1 cos[𝜔1 (𝑡 − 1)] 𝑠𝑒𝑛[𝜔1 (𝑡 − 1)] cos[𝜔2 (𝑡 − 1)] 𝑠𝑒𝑛[𝜔2 (𝑡 − 1)
[6.2.9]
… cos[𝜔𝑀 (𝑡 − 1)] 𝑠𝑒𝑛[𝜔𝑀 (𝑡 − 1)]]´
𝛽´ = [𝜇 𝛼1 𝛿1 𝛼2 𝛿2 … 𝛼𝑀 𝛿𝑀 ]
[6.2.10]
Tenga en cuenta que 𝑥𝑡 tiene (2M+1)=T elementos, por lo tanto hay tantas variables explicativas
como observaciones. Demostraremos que los elementos de 𝑥𝑡 son independientes de manera lineal,
lo que significa que una regresión de Mínimos Cuadrados Ordinarios (MCO) de 𝑦𝑡 en 𝑥𝑡 da un
encaje perfecto. De este modo, los valores correspondientes para esta regresión son de la forma de
[6.2.6] con ningún término de error 𝜇𝑡 . Además, los coeficientes de esta regresión tienen la
1
propiedad de que (𝛼̂𝑗2 + 𝛿̂𝑗2 ) representa la porción de la muestra de varianza de y que puede ser
2
1
atribuida a ciclos con frecuencia 𝜔𝑗 . Esta magnitud (𝛼̂𝑗2 + 𝛿̂𝑗2 ) asimismo resulta ser proporcional
2
al periodograma muestral evaluado en 𝜔𝑗 . En otras palabras, cualquiera de las series observadas
𝑦1, 𝑦2,..., 𝑦𝑇, pueden ser expresadas en términos de función periódica como en [6.2.6],y la porción de
la muestra de varianza que se debe a los ciclos con frecuencia 𝜔𝑗 pueden ser encontrados de la
muestra de periodograma. Estos puntos son establecidos formalmente en la siguiente proposición,
la cual es provista en el apéndice 6.A al final de este capítulo.
6.2 Periodograma muestral 167

2𝜋𝑗
Proposición 6.2: Que T denote un entero impar y que M=(T-1)/2. Deje que 𝜔𝑗 = 𝑇
𝑝𝑎𝑟𝑎 𝑗=
1,2, … , 𝑀 y que 𝑥𝑡 sea el vector (Tx1) en [6.2.9].Entonces:
𝑇
𝑇 0′
∑ 𝑥𝑡 𝑥𝑡′ = [ 𝑇 ]
0 ( ⁄2). 𝐼𝑡−1
𝑡=1
[6.2.11]
Además, sea {𝑦1, 𝑦2, … , 𝑦𝑇 } cualquier número de T. Entonces , las siguientes son verdaderas:
a. El valor de 𝑦𝑡 puede ser expresado como:
𝑀
𝑦𝑡 = 𝜇̂ + ∑{ 𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿̂𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]}

𝑗=1
Con 𝜇̂ = 𝑦̅ (la media de la muestra de 6.2.3) y
𝛼̂𝑗 = 2⁄𝑇 ∑𝑇𝑡=1 𝑦𝑡 . cos[𝜔𝑗 (𝑡 − 1)] 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑀 [ 6.2.12]
𝛿̂𝑗 = (2⁄𝑇) ∑𝑇𝑡=1 𝑦𝑡 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)] 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑀 [ 6.2.13]
b. La muestra de la varianza de 𝑦𝑡 puede ser expresada como

𝑇 𝑀
(1⁄𝑇) ∑(𝑦𝑡 − 𝑦̅)2 = (1⁄2) ∑(𝛼̂𝑗2 + 𝛿̂𝑗2 )

𝑡=1 𝑗=1
[ 6.2.14]
y la porción de la muestra de la varianza y que puede ser atribuida a ciclos de frecuencia 𝜔𝑗 es dada por
1
2
(𝛼̂𝑗2 + 𝛿̂𝑗2 )
c. La porción de la varianza mostrada de y que puede ser atribuida a ciclos de la frecuencia 𝜔𝑗 puede ser
expresada equivalentemente como
1 2 4𝜋
(𝛼̂𝑗 + 𝛿̂𝑗2 ) = ( ) . 𝑠̂𝑦 (𝜔𝑗 )
2 𝑇
[6.2.15]
donde 𝑠̂𝑦 (𝜔𝑗 ) el periodograma muestral en la frecuencia 𝜔𝑗
El resultado 6.2.11 establece que ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ es una matriz diagonal, lo que significa que las variables
explicativas contenidas en 𝑥𝑡 son mutuamente ortogonales. La proposición afirma que cualquier
serie de tiempo observada
(𝑦1, 𝑦2, … , 𝑦𝑇 ), con T impar puede ser escrito como una constante más una suma ponderada de
funciones periódicas (T-1) con (T-1)/2 frecuencias diferentes; un resultado relacionado puede
también ser desarrollado cuando aunque T sea un entero. Por lo tanto, la proposición da una
muestra análoga finita del teorema de la representación espectral. La proposición muestra además
que el modelo de periodograma captura la porción de la muestra de varianza de y que puede ser
atribuida a ciclos de diferentes frecuencias.
Tenga en cuenta que las frecuencias 𝜔𝑗 en términos de los cuales la varianza de y es explicada en
[0, 𝜋]. ¿Por qué no se emplean frecuencias negativas en también? Suponga que la información fue
actualmente generada por un caso especial del proceso en [6.1.19],

𝑌𝑡 = 𝛼. cos(−𝜔𝑡) + 𝛿. 𝑠𝑒𝑛(−𝜔𝑡)
[6.2.16]
Donde -𝜔 < 0 representa alguna frecuencia particular negativa y donde 𝛼 y 𝛿 son media cero de
variables aleatorias. Ya que, cos(−𝜔𝑡) = cos(𝜔𝑡)y sen(−𝜔𝑡) = −sen(𝜔𝑡), el proceso [6.2.16]
puede ser escrito equivalentemente
𝑌𝑡 = 𝛼. cos(𝜔𝑡) − 𝛿. 𝑠𝑒𝑛(𝜔𝑡)
[6.2.17]
De este modo no hay manera de usar información observada en y para decidir si la información es
generada por un ciclo de frecuencia −𝜔 como en [6.2.16] o por un ciclo con frecuencia
2
1.5
cos[(p/2)t] cos[(3p/2)t]
1
.5
0
2 4 6 8 t
-.5 -1
-1.5
-2
0 2 4 6 8 10
𝜋 3𝜋x
Gráfico 6.1 Aliasing: trazos de cos[( ) 𝑡] y cos[( ) 𝑡]como funciones de t
2 2
+ 𝜔 como en [6.2.17] es simplemente una cuestión de convención que elige enfocarse solo en
frecuencias positivas
¿Por qué es 𝜔 = 𝜋 la mayor frecuencia considerada? Considere que la información fue generada de
una función periódica con frecuencia 𝜔 > 𝜋, 𝜔 = 3𝜋/2 para este ejemplo
3𝜋 3𝜋
𝑌𝑡 = 𝛼. cos[( ) 𝑡] + 𝛿. 𝑠𝑒𝑛[( ) 𝑡]
2 2
[6.2.18]
Nuevamente, las propiedades de la función del seno y coseno implican que [6.2.18] es equivalente a
𝜋 𝜋
𝑌𝑡 = 𝛼. cos[(− ) 𝑡] + 𝛿. 𝑠𝑒𝑛[(− ) 𝑡]
2 2
[6.2.19
3𝜋
De esta forma, por previo argumento, una representación con ciclos de frecuencia ( )es
2
𝜋
observacionalmente indistinguible de alguno con ciclos de frecuencia( 2 ).
Para resumir, si el proceso de información generada actualmente incluye ciclos con frecuencias
negativas o con frecuencias mayores a 𝜋, estás serán atribuidas a ciclos con frecuencias entre 0 y 𝜋.
Esto es conocido como aliasing.
Otra forma de entender sobre aliasing es lo que cumple. Recuerde que el valor de la función
2𝜋
cos(𝜔𝑡)se repite cada 𝜔 periodos, por lo tanto, una frecuencia de 𝜔 es asociada con un periodo de

2𝜋 1
𝜔
. Nosotros hemos argumentado que el mayor ciclo de frecuencia que uno puede observar es
𝜔 = 𝜋. Otra forma de expresar esta conclusión es que el periodo más corto que uno puede
𝜋 3𝜋
observar es una que se repite cada 2𝜋=2 periodos. Si 𝜔 = 2 =2, el ciclo se repite cada 4/3
periodos. Pero, si la información es observada solo en datos de números enteros, la información
mostrada se exhibirá en ciclos que son repetidos cada cuatro periodos, correspondientes a la
frecuencia xxx. Esto es ilustrado en la Gráfica 6.1, la cual traza cos[(𝜋/2)𝑡] y cos[(3𝜋/2)𝑡] como
funciones de t. Cuando se muestrean a valores enteros de t, estas dos funciones parecen idénticas.
Aunque la función cos[(3𝜋/2)𝑡] se repita cada vez que xxx se incremente por 4/3, uno podría
tener que observar en cuatro datos distintos 𝑦𝑡 , 𝑦𝑡+1 , 𝑦𝑡+2 , 𝑦𝑡+3 ) antes de que uno pueda ver el
valor de cos[(3𝜋/2)𝑡] repetirse un valor entero de t.
Tenga en cuenta que en una muestra particularmente finita, la menor frecuencia utilizada para
explicar la variación en y es 𝜔1 = 2𝜋/𝑇, la cual corresponde a un periodo de T. Si un ciclo toma
más tiempo que T periodos a repetirse, no hay mucho que uno pueda inferir sobre esto si uno solo
tiene T observaciones válidas.
Como resultado (C) de la Proposición 6.2 indica que la porción de la muestra de varianza de y que
puede ser atribuida a ciclos de frecuencia 𝜔𝑗 que son proporcionales al muestreo de periodograma
evaluado en 𝜔𝑗 con 4 𝜋/𝑇 la constante de proporcionalidad. Por tanto, la proposición desarrolla el
fundamento formal de la afirmación que el muestreo de periodograma refleja de la porción de la
muestra de varianza y que puede ser atribuida a ciclos de frecuencias distintas.
¿Por qué la constante de proporcionalidad es igual a 4 𝜋/𝑇 en [6.2.15]? El espectro poblacional
𝑆𝛾 (𝜔) podría ser estimado en cualquier 𝜔 en la serie continua de puntos entre 0 y 𝜋.En este
sentido, es muy parecido a una probabilidad de densidad 𝑓𝑥 (𝑥), donde X es una variable aleatoria
continua .Aunque podríamos pensar ligeramente en el valor de 𝑓𝑥 (𝑥), como la ‘’probabilidad ‘’
𝑥
donde 𝑋 = 𝑥, es preciso decir que el cálculo integral ∫𝑥 2 𝑓𝑥 (𝑥) 𝑑𝑥 representa la probabilidad que
1
X toma como valor entre 𝑥1 y 𝑥2 .
A medida que 𝑥2 −𝑥1 se reduce, la probabilidad de que X será observada para presentarse entre
𝑥1 y 𝑥2 se reduce y la probabilidad de que X pueda tomar con exactitud el valor x es efectivamente
igual a cero. De la misma forma, aunque podamos pensar de forma general sobre el valor de
𝑠𝛾(𝜔)como la contribución que estos ciclos con frecuencia 𝜔 hacen a la varianza de Y , es más
preciso decir que el cálculo integral
𝜔1 𝜔1
∫ 𝑠𝛾 (𝜔)𝑑𝜔 = ∫ 2𝑠𝛾 (𝜔)𝑑𝜔
−𝜔𝑡 0
Representa la contribución que ciclos de frecuencia menor o igual a 𝜔1 hacen a la varianza de Y, y

𝜔
∫𝜔 2 2𝑠𝛾 (𝜔)𝑑𝜔 que representa la contribución que ciclos con frecuencias entre 𝜔1 y 𝜔2 hacen a la
1
varianza de Y .Asumiendo que 𝑠𝛾 (𝜔)es continua, la contribución que un ciclo de cualquier
frecuencia particular 𝜔 hace es técnicamente cero.
Aunque el espectro poblacional 𝑠𝛾 (𝜔)es definido en cualquier 𝜔 en [0, 𝜋] ,la representación en
[6.2.6] atribuye todas las muestras de varianza de y a las frecuencias
particulares𝜔1, 𝜔2, , … 𝜔𝑀, .Cualquier variación en Y que es en realidad debido a ciclos con
frecuencias distintas a estos valores particulares M es atribuida por [6.2.6] a uno de estas
frecuencias M .Si estamos reflexionando sobre la regresión [6.2.6] como diciéndonos algo sobre el
1
espectro poblacional ,podríamos interpretar 2 (𝛼̂𝑗2 + 𝛿̂𝑗2 )no como la porción de la varianza de Y
que se debe a ciclos con frecuencia a exactamente igual a 𝜔𝑗, ,más bien como la porción de la
varianza de Y que es debido a ciclos con frecuencia cercana a 𝜔𝑗, .De este modo [6.2.15] no es una
1 4Veala sección A.1 del análisis matemático (Apéndice A) al final del libro a través de una
discusión de este punto.

estimación de la altitud del espectro poblacional ,pero si una estimación del área bajo el espectro
poblacional .
1
Esto es ilustrado en el Grafico 6.2.Supongamos que pensamos en (𝛼̂𝑗2 + 𝛿̂𝑗2 )como una
2
estimación de la porción de la varianza de Y que es debido a los ciclos con una frecuencia entre
𝜔𝑗−1, y 𝜔𝑗, , esto es una estimación 2 veces el área bajo 𝑠𝛾(𝜔)entre 𝜔𝑗−1, y 𝜔𝑗, .Puesto que 𝜔𝑗 =
2𝜋/𝑇, la diferencia 𝜔𝑗 − 𝜔𝑗−1, y es igual a 2𝜋/𝑇. Si 𝑠̂ 𝛾(𝜔𝑗 )es una estimación de 𝑠𝛾(𝜔), entonces
el área bajo 𝑠𝛾(𝜔)entre 𝜔𝑗−1,y 𝜔𝑗 podría ser aproximadamente estimado por el área de un
rectángulo con una anchura de 2𝜋/𝑇 y 𝑠̂ 𝛾(𝜔𝑗 )de altura .El área de tal rectángulo es
2𝜋 1
( ). 𝑠̂ 𝛾(𝜔𝑗 ).Dado que , (𝛼̂𝑗2 + 𝛿̂𝑗2 )es una estimación de 2 veces el área bajo 𝑠𝛾(𝜔)entre 𝜔𝑗−1,y
𝑇 2
1 4𝜋
𝜔𝑗 ,tenemos 2 (𝛼̂𝑗2 + 𝛿̂𝑗2 ) = ( 𝑇 ). 𝑠̂ 𝛾(𝜔𝑗 ).como afirmación en la ecuación [6.2.15]
La proposición 6.2 también ofrece una formula conveniente para calcular el valor del periodograma
2𝜋
muestral en la frecuencia 𝜔𝑗 = ( 𝑇 )para j=1,2,…,(T-1)/2,
Grafico 6.2 El área bajo el periodograma muestral y la porción de la varianza de y atribuible a

ciclos de diferentes frecuencias.
Por ejemplo:
𝑇
𝑠̂𝛾 (𝜔𝑗 ) = [ ] ( 𝛼̂𝑗2 + 𝛿̂𝑗2 )
8𝜋
Donde
𝑇
𝛼̂𝑗 = 2⁄𝑇 ∑ 𝑦𝑡 . cos[𝜔𝑗 (𝑡 − 1)]

𝑡=1
𝛿̂𝑗 = (2⁄𝑇) ∑ 𝑦𝑡 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]

𝑡=1
Que es,
1 2
𝑠̂𝛾 (𝜔𝑗 ) = {[∑𝑇𝑡=1 𝑦𝑡 . cos[𝜔𝑗 (𝑡 − 1)]] +[∑𝑇𝑡=1 𝑦𝑡 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]]2 }
2𝜋𝑇

6.3. Estimando el espectro poblacional
La sección 6.1 introdujo el espectro poblacional 𝑠𝛾 (𝜔),el cual indica la porción de la varianza
poblacional de Y que puede ser atribuida a ciclos de frecuencias 𝜔.
Esta sección aborda la siguiente pregunta: Dada una muestra de observación
{𝑦1, 𝑦2, … , 𝑦𝑇 },,¿Cómo podría ser estimado 𝑠𝛾 (𝜔)?
Propiedades de muestra amplia del periodograma muestral

Un enfoque obvio, podría ser estimar el espectro poblacional 𝑠𝛾 (𝜔)por el periodograma
muestral 𝑠̂𝛾 (𝜔). Sim embargo, este enfoque resulta tener algunas severas limitaciones.
Supongamos que
∞
𝑌𝑡 = ∑ 𝜓𝑗 𝜀𝑡−𝑗
𝑗=0
Donde {𝜓𝑗 }∞ 𝑗=0 es absolutamente sumatorio y donde {𝜀𝑡 }∞
𝑡=−∞ es una secuencia i.i.d
(independiente e idénticamente distribuida)con 𝐸(𝜀𝑡 ) = 0 y 𝐸(𝜀𝑡 ) = 𝜎 2 . Sea 𝑠𝛾 (𝜔)el espectro
2
poblacional definido en [6.1.2],y considere a 𝑠𝛾 (𝜔) > 0para toda 𝜔. Sea también 𝑠̂𝛾 (𝜔). el
periodograma muestral definido en [6.2.4].Fuller (1976,p.280) mostro que para 𝜔 ≠ 0 y una
muestra suficientemente grande como el tamaño de T,dos veces el radio del periodograma muestral
al espectro poblacional tiene aproximadamente la siguiente distribución :
2. 𝑠̂𝛾 (𝜔)
≈ 𝑋 2 (2)
𝑠𝛾 (𝜔)
[6.3.1]
Además, si 𝜆 ≠ 𝜔, la cantidad
2. 𝑠̂𝛾 (𝜆)
𝑠𝛾 (𝜆)
[6.3.2]
También tiene una distribución aproximada 𝑋 2 (2), con la variable en [6.3.1] aproximadamente
independiente de esto en [6.3.2] .
Como la variable 𝑋 2 (2)xxx tiene una media de 2, el resultado [6.3.1] sugiere que:
2. 𝑠̂𝛾 (𝜔)
𝐸[ ]≅2
𝑠𝛾 (𝜔)
O mientras que 𝑠𝛾 (𝜔)es una magnitud poblacional en lugar de una variable aleatoria,
𝐸[𝑠̂𝛾 (𝜔)] ≅ 𝑠𝛾 (𝜔)
De este modo, si el tamaño dela muestra es suficientemente mayor, el periodograma muestral
permite una estimación aproximadamente imparcial del espectro poblacional.
Tenga en cuenta en la tabla B.2 que el 95% del tiempo, una variable 𝑋 2 (2)caerá entre 0.05 y 7.4.
Por tanto, en [6.3.1], 𝑠̂𝛾 (𝜔)es poco probable que sea pequeña como 0.025 veces en verdadero valor
de 𝑠𝛾 (𝜔), y 𝑠̂𝛾 (𝜔)cualquiera sea mayor a 3.7 veces tan grande como 𝑠𝛾 (𝜔), Dado el gran intervalo
de confianza, podríamos decir que no es una estimación totalmente satisfactoria de 𝑠𝛾 (𝜔)
Otra característica del resultado [6.3.1] es que la estimación 𝑠̂𝛾 (𝜔) no es tan exacta como el
aumento del tamaño de la muestra T. Típicamente, uno supone una econometría estimada cada vez
mejor mientras la muestra de tamaño crece .Por ejemplo, la varianza para el coeficiente de

autocorrelación de la muestra 𝜌̂𝑗 dada en [4.8.8] va de cero como 𝑇 → ∞ por lo que dada una
muestra suficientemente mayor, podríamos ser capaces de inferir el verdadero valor de 𝜌̂𝑗 con la
certeza virtual . La estimación 𝑠̂𝛾 (𝜔) definida en [6.2.4] no tiene esta propiedad porque hemos
tratado de estimar tantos parámetros (𝑦0 , 𝑦1 , … , 𝑦𝑇−1 )como observaciones que tuvimos en
(𝑦1 , 𝑦2 , … , 𝑦𝑇 ).
Estimación paramétrica del espectro poblacional
Supongamos que esta información podría ser representada con un modelo ARMA (p,q)
𝑌𝑡 = 𝜇 + 𝜙1 𝑌𝑡−1 + 𝜙2 𝑌𝑡−2 + ⋯ + 𝜙𝑝 𝑌𝑡−𝑝 + 𝜀𝑡 + 𝜃1 𝜀𝑡−1
+𝜃2 𝜀𝑡−2 + ⋯ + 𝜃𝑞 𝜀𝑡−𝑞 [6
Donde 𝜀𝑡 , es ruido blanco con varianza 𝜎 2 .Entonces un excelente enfoque para estimar el espectro
poblacional es primero estimar los parámetros 𝜇, 𝜙1 , … , 𝜙𝑝 , 𝜃1 , … , 𝜃𝑞 y 𝜎 2 por un máximo de
probabilidades como se describió en el capítulo anterior.
La máxima probabilidad de estimaciones (𝜙̂1 , … , 𝜙̂𝑝 , 𝜃̂1 , … , 𝜃̂𝑞 , 𝜎̂ 2 )podría entonces ser
introducida en una formula tal como [6.1.14] para estimar el espectro poblacional 𝑠𝛾 (𝜔)en
cualquier frecuencia 𝜔. Si el modelo es correctamente especificado, la máxima probabilidad
estimada (𝜙̂1 , … , 𝜙̂𝑝 , 𝜃̂1 , … , 𝜃̂𝑞 , 𝜎̂ 2 )se acercara más y más a los valores verdaderos mientras el
tamaño de muestra crece; por lo tanto, el resultado estimado del espectro poblacional debería tener
la esta misma propiedad.
Incluso si el modelo es especificado de manera incorrecta, si las autocovarianzas del verdadero

proceso son razonablemente cercanas a esas por una especificación ARMA (p,q),este
procedimiento debería proporcionar una estimación útil del espectro poblacional.
Estimaciones No Paramétricas del Espectro Poblacional

La suposición en [6.3.3] es que 𝑌𝑡 , puede ser razonablemente aproximada por un proceso
ARMA (p,q)con p y q reducidos .Una suposición alternativa es que 𝑠𝛾 (𝜔)estará cerca de
𝑠𝛾 (𝜆)cuando 𝜔 está cerca de 𝜆. Esta suposición forma la base para otras clases de estimación del
espectro poblacional conocido como no paramétrico o estimador kernel.
Si 𝑠𝛾 (𝜔)está cerca de 𝑠𝛾 (𝜆)cuando 𝜔 está cerca de 𝜆, esto sugiere que 𝑠𝛾 (𝜔)podría ser estimado
con un peso promedio del valor de los valores de 𝑠̂𝛾 (𝜆)para valores de 𝜆 en una vecindad en torno
de 𝜔, donde los pesos dependen de la distancia entre 𝜔 y 𝜆. Denote 𝑠̂𝛾 (𝜔)como una estimación de
𝑠𝛾 (𝜔)y sea 𝜔𝑗 = 2𝜋𝑗/𝑇 .La sugerencia es tomar
ℎ
𝑠̂𝛾 (𝜔𝑗 ) = ∑ 𝑘(𝜔𝑗+𝑚 , 𝜔𝑗 ). 𝑠̂𝛾 (𝜔𝑗+𝑚 )

𝑚=−ℎ
[6.3.4]
Aquí, h es un parámetro bandwidth (ancho de banda)indicando cuantas frecuencias diferentes

{𝜔𝑗±1 , 𝜔𝑗±2 , … , 𝜔𝑗±ℎ } son vistas como útiles para estimar 𝑠𝛾 (𝜔𝑗 ).El estimador kernel
k(𝜔𝑗+𝑚 , 𝜔𝑗 ) indica cuanto es el peso que debe ser dado a cada frecuencia .Los pesos kernel suman
a la unidad :
ℎ
∑ 𝑘(𝜔𝑗+𝑚 , 𝜔𝑗 ) = 1
𝑚=−ℎ
6.3 Estimando el espectro poblacional 173

Un método es tomar k(𝜔𝑗+𝑚 , 𝜔𝑗 ) para ser proporcional a ℎ + 1 − |𝑚|.Uno puede demostrar esto
5
ℎ
∑ [ℎ + 1 − |𝑚|] = (ℎ + 1)2
𝑚=−ℎ
Por lo tanto, en orden de satisfacer la propiedad que los pesos suman a la unidad, la propuesta
kernel es:
ℎ+1−|𝑚|
k(𝜔𝑗+𝑚 , 𝜔𝑗 ) = (ℎ+1)2
[6.3.5]
5Tenga en cuenta que
ℎ ℎ ℎ
∑ [ℎ + 1 − |𝑚|] = ∑ [ℎ + 1] − ∑ |𝑚|
𝑚=−ℎ 𝑚=−ℎ 𝑚=−ℎ
ℎ ℎ ℎ
= (ℎ + 1) ∑ 1 − 2 ∑ 1 − 2 ∑ 𝑠
𝑚=−ℎ 𝑚=−ℎ 𝑠=0
= (2ℎ + 1)(ℎ + 1) − 2ℎ(ℎ + 1)/2
= (ℎ + 1)2
Y la estimación [6.3.4] se convierte en

ℎ
ℎ + 1 − |𝑚|
𝑠̂𝛾 (𝜔𝑗 ) = ∑ [ ] 𝑠̂𝛾 (𝜔𝑗+𝑚 )
(ℎ + 1)2
𝑚=−ℎ
[6.3.6]
Por ejemplo, para h=2, esto es
1 2 3 2 1
𝑠̂𝛾 (𝜔𝑗 ) = 𝑠̂𝛾 (𝜔𝑗−2 ) + 𝑠̂𝛾 (𝜔𝑗−1 ) + 𝑠̂𝛾 (𝜔𝑗 ) + 𝑠̂𝛾 (𝜔𝑗+1 ) + 𝑠̂𝛾 (𝜔𝑗+2 )
9 9 9 9 9
Recuerde de [6.3.1] y [6.3.2] que las estimaciones 𝑠̂𝛾 (𝜔 )y 𝑠̂𝛾 ( 𝜆)son aproximadamente
independientes en muestras grandes para 𝜔 ≠ 𝜆 .Porque el estimador kernel promedia sobre
números de diferentes frecuencias, esto podría dar una mejor estimación en comparación a lo que
el periodograma hace.
Promediando 𝑠̂𝛾 (𝜔 )sobre diferentes frecuencias puede equivalentemente ser representada
como el multiplicar la jth muestra de autocovarianza 𝛾̂𝑗 para j>0 en la formula el periodograma
muestral [6.2.5] por un peso 𝑘𝑗∗ .Por ejemplo,considere una estimacion del espectro en la frecuencia
xxx que es obtenida por tomar un promedio simple del valor de 𝑠̂𝛾 ( 𝜆)para 𝜆 entre 𝜔 –v y 𝜔 +v:
𝜔+𝑣
𝑠̂𝛾 (𝜔 ) = (2𝑣)−1 ∫ 𝑠̂𝛾 ( 𝜆)𝑑𝜆
𝜔−𝑣
[6.3.7]
Sustituyendo [6.2.5] en [6.3.7], tal estimación podría ser equivalentemente expresada como:
𝜔+𝑣 𝑇−1
−1
𝑠̂𝛾 (𝜔 ) = (4𝑣𝜋) ∫ [𝛾̂0 + 2 ∑ 𝛾̂𝑗 cos(𝜆𝑗)]𝑑𝜆
𝜔−𝑣 𝑗=1
𝑇−1
1
= (4𝑣𝜋)−1 (2𝑣)𝛾̂0 + (2𝑣𝜋𝜋)−1 ∑ 𝛾̂𝑗 ( ) . [sen(λj)]𝜔+𝑣
𝜆=𝜔−𝑣
j
𝑗=1
𝑇−1
1
= (2𝜋)−1 𝛾̂0 + (2𝑣𝜋)−1 ∑ 𝛾̂𝑗 ( ) . {sen[( 𝜔 + 𝑣)𝑗] − 𝑠𝑒𝑛[(𝜔 − 𝑣)𝑗]}
j
𝑗=1
[6.3.8]

Usando la identidad trigonométrica 6
Sen(A+B)- Sen(A-B)= 2.Cos(A).Sen(B)
[6..3.9]
La expresión [6.3.8] puede ser escrita
𝑇−1
1
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 𝛾̂0 + (2𝑣𝜋) −1
∑ 𝛾̂𝑗 ( ) . [2cos(ωj). sen(vj)]
j
𝑗=1
𝑇−1
sen(vj)
= (2𝜋)−1 {𝛾̂0 + 2 ∑ [ ] 𝛾̂𝑗 cos(ωj)}
𝑣𝑗
𝑗=1
[6.3.10]
Note que la expresión [6.3.10] es de la siguiente forma:
𝑇−1
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 {𝛾̂0 + 2 ∑ 𝑘𝑗∗ 𝛾̂𝑗 cos(ωj)}

𝑗=1
[6.3.11]
Donde
sen(vj)
𝑘𝑗∗ = 𝑣𝑗
[6.3.12]
El periodograma muestral puede ser visto como un caso especial de [6.3.11] cuando 𝑘𝑗∗ = 1.La
expresión [6.3.12] no puede exceder a 1 en valor absoluto, por lo tanto la estimación [6.3.11]
esencialmente reduce 𝛾̂𝑗 en comparación al periodograma muestral
6 Vea, por ejemplo, Thomas (1972, pp.174-75)
Recuerde que 𝑠𝑒𝑛(𝜋𝑗) = 0 para cualquier entero j .Por ello, si 𝑣 = 𝜋, entonces 𝑘𝑗∗ = 0 para toda j
y [6.3.11]se convierte en
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 𝛾̂0
[6.3.13]
En este caso, todas las autocovarianzas aparte de 𝛾̂0podrían ser reducidas a cero Cuando 𝑣 = 𝜋 la
estimación [6.3.7] es un promedio no ponderado de 𝑠̂𝛾 (𝜆)sobre todos los valores de 𝜆,y el
resultado de estimación podría ser el espectro amplio y plano para un proceso de ruido blanco.
La especificación de una función kernel k(𝜔𝑗+𝑚 , 𝜔𝑗 )en [6.3.4] puede ser equivalentemente descrita
en términos de una secuencia ponderada {𝑘𝑗∗ }𝑇−1 𝑗=1 en [6.3.11].Por el hecho de que solo son 2
∗
representaciones para la misma idea, el peso 𝑘𝑗 es a veces también llamado kernel .Valores pequeños
de 𝑘𝑗∗imponen más homogeneidad en el espectro.
Los esquemas homogéneos tampoco podrían ser elegidos porque ellos ofrecen una especificación
adecuada para k(𝜔𝑗+𝑚 , 𝜔𝑗 )o porque ellos ofrecen una especificación adecuada para 𝑘𝑗∗.
Una estimación popular del espectro emplea el modificado Bartlett kernel, el cual es dado por
𝑗
1− 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑞
𝑘𝑗∗ ={ 𝑞+1
0 𝑝𝑎𝑟𝑎 𝑗 > 𝑞
[6.3.14]
La estimación Barlett del espectro es por consiguiente
𝑞
𝑗
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 {𝛾̂0 ∑[1 − ]𝛾̂ cos(𝜔𝑗)}
𝑞+1 𝑗
𝑗=1
[6.3.15]
6.3 Estimando el espectro poblacional 175

Las autocovarianzas 𝛾̂𝑗 para j>q son tratadas como si fueran ceros, o como si Y siguió un proceso
MA(q) .Para j<q ,las autocovarianzas 𝛾̂𝑗 estimadas son reducidas a cero con la mayor reducción
cuanto mayor sea el valor de j .
¿Cómo elegir el parámetro bandwidth (ancho de banda) h en [6.3.6] o q en [6.3.15]?
El periodograma por sí mismo, es asintóticamente imparcial pero tiene una gran varianza. Si uno
construye una estimación basada en promediar el periodograma en diferentes frecuencias, esto
reduce la varianza pero introduce algunos sesgos .La severidad de los sesgos depende de la
pendiente del espectro poblacional y el tamaño del bandwidth. Una guía práctica es trazar una
estimación del espectro usando varias bandwidth diferentes y depender de un juicio subjetivo para
elegir la bandwidth que produce la estimación más viable.
6.4. Usos del Análisis Espectral
Ilustramos algunos de los usos de análisis espectral con la información en manufacturera en los
Estados Unidos .Los datos fueron trazados en la Grafica 6.3. Las series son los índices mensuales
desajustados estacionalmente del Comité Federal de la Reserva desde Enero de 1947 a Noviembre
de 1989.Las recesiones económicas en 1949,1954,1958,1960,1970,1974,1980 y 1982 aparecen como
episodios aproximadamente de un año entero de producción decreciente. También hay fuertes
modelos estacionales en estas series; por ejemplo, la producción casi siempre disminuye en Julio y
se recupera en Agosto.
El periodograma muestral para los datos básicos es trazado en la Grafica 6.4,los cuales demuestran
𝑠̂𝛾 (𝜔𝑗 )como una función de j donde 𝜔𝑗 = 2𝜋𝑗/𝑇.La contribución de la muestra de varianza de los
componentes de la menor frecuencia (j cerca de cero) es varias veces superior a las contribuciones
de recesiones económicas o los factores estacionales. Esto es debido a la clara tendencia al alza de la
serie en la Grafica 6.3
160
140
120
100
80
60
40
1 23 45 67 89 111 133 155 177 199 221 243

Grafica 6.3 El índice de producción industrial mensual desajustado estacionalmente del Comité
Federal de la Reserva por la manufactura de los Estados Unidos, mensualmente desde Enero de
1947 a Noviembre de 1989 .

30000
25000
20000
15000
10000
5000
1 23 45 67 89 111 133 155 177 199 221

Grafica 6.4 Periodograma 243 Muestral para los datos trazados en la Grafica 6.3. La gráfica traza
ŝy (ωj ) como una función de j, donde ωj = 2πj ∕ T .
Grafica 6.5 Estimación del espectro para la tasa de crecimiento mensual de la industria de
producción o espectro de 100 veces la primera diferencia del registro de la serie en el Grafico 6.3
Representa la serie trazadas en el Grafico 6.3. Si uno tratara de describir esto con una función seno
yt = δ ⋅ sin( ωt),
La suposición tendría que ser ω es tan menor que incluso en la información t = T la magnitud ωT
sería aún menor que π ∕ 2. El gráfico 6.4 que indica que la tendencia o componentes de menor
frecuencia sin duda son los determinantes más importantes de la muestra de la varianza de y.
La definición del espectro poblacional en la ecuación [6.1.2] asumió que el proceso es
covarianza estacionaria, la cual no es una buena suposición para los datos en el Grafico 6.3. En
cambio podríamos intentar analizar el crecimiento mensual de la tasa definido por
xt = 100. [log(yt ) − log(yt−1 )] [6.4.1]
El Grafico 6.5 traza la estimación del espectro poblacional de X como se describió en la e

en la ecuación [6.3.6] con h = 12 .En la interpretación un trazo tal como en el Grafico 6.5 es más
conveniente con frecuencia pensar en términos del periodo de una función cíclica en lugar de su
frecuencia. Recuerde que si la frecuencia de un ciclo es ω , el periodo del ciclo es 2πj ∕ T. Por lo
tanto, una frecuencia de ωj = 2πj ∕ T corresponde a un periodo de 2πj ⁄ωj = 𝑇 ∕ 𝑗 . El tamaño de
la muestra observada es T=513, y el primer punto más alto en el Grafico 6.5 sucede en torno de
j=18. Esto corresponde a un ciclo con un periodo de 513/18 = 28.5 meses, o en torno de 24 años.
Dado los datos de la recesión económica reconocida previamente, esto es a veces descrito como
una “Frecuencia del ciclo de negocio”, y el área bajo esta cuesta podría ser vista como diciéndonos
cuanta de la variabilidad en las tasas de crecimiento mensuales se debe a recesiones económicas.
El segundo punto más alto en el Grafico 6.5 ocurre en j=44 y corresponde al periodo de
513/44 = 11.7 meses. Esto es naturalmente visto como un ciclo de 12 meses asociados con efectos
estacionales y efectos calendarios.
6.4 Usos del Análisis Espectral 177

Ya que la manufacturación suele fallar temporalmente en julio, el crecimiento de la tasa es
negativo en julio y positivo en agosto. Esto induce una correlación en serie de primer orden
negativo a la serie en el [6.4.1]y una variedad de los patrones del calendario para x, que podrían
contar para los picos de alta frecuencia en el Grafico 6.5. Una estrategia alternativa para
detrending(eliminación de tendencias) podría usar año a año tasas de crecimiento, o el porcentaje
cambia entre yt y su valor por el mes correspondiente en el año previo:
wt = 100. [log(yt ) − log(yt−12 )] [6.4.2]
La estimación del espectro muestral para esta serie esta trazado en el Grafico 6.6. Cuando
los datos de tendencia son eliminados de esta manera, virtualmente toda la varianza que denota es
atribuida a componentes asociados con las frecuencias de ciclos de negocios.
Filtros
Aparte del parámetro escala, la tasa de crecimiento mensual xt en [6.4.1] es obtenida de
log(yt ) por aplicar el filtro
xt = (1 − L) log(yt ), [6.4.3]
Donde L es el operador de retraso. Para discutir tales transformaciones en términos generales, sea
Yt cualquier serie de covarianza estacionaria con autocovarianzas absolutamente sumatorias.
90
80
70
60
50
40
30
20
10 1 21 41 61 81 101 121 141 161 181 201 221
Grafica 6.6 Estimación del espectro para la tasa de crecimiento año a año de la producción
industrial mensual y espectro de 100 veces la diferencia estacionaria del registro de la serieen el
Grafico 6.3
Denote la función de autocovarianza generada de Y por 𝑔𝑌 (𝑧) , y denote el espectro poblacional de
Y por sy (ω) . Recuerde que
sY (ω) = (2π)−1 g Y (e−iω) [6.4.4]
Suponga que transformamos Y de acuerdo a
X t = h(L)Yt
Donde
∞
h(L) = ∑ hj Lj
j= −∞
Y

∞
∑ |hj | < ∞
j=−∞
Recuerde de la ecuación [3.6.17] que la función de autocovarianza generada de X puede ser
calculada de la función de autocovarianza generada de Y usando la formula
g X (z) = h(z)h(z −1 )g Y (z) [6.4.5]
El espectro poblacional de X es por lo tanto
sX (ω) = (2π)−1 g X (e−iω ) = (2π)−1 ℎ(e−iω )ℎ(eiω )g Y (e−iω ) [6.4.6]
Sustituyendo [6.4.4] en [6.4.6] rebela que el espectro poblacional X está relacionado al espectro
poblacional de Y de acuerdo a
sX (ω) = ℎ(e−iω )ℎ(eiω )sY (ω) [6.4.7]
Operando en una serie Yt con el filtro h(L) tiene el efecto de multiplicar el espectro por la función
ℎ(e−iω )ℎ(eiω ).
Para el operador diferente [6.4.3], el filtro es h(L) = 1 − L y la función ℎ(e−iω )ℎ(eiω )
podría ser
ℎ(e−iω )ℎ(eiω ) = (1 − e−iω )(1 − eiω )
= 1 − e−iω − eiω + 1 [6.4.8]
= 2 − 2 ⋅ cos(𝜔)
Donde la última línea que cumple [6.1.11].Si 𝑋𝑡 = (1 − 𝐿)𝑌𝑡 , entonces , para encontrar el valor del
espectro poblacional de 𝑋 en cualquier frecuencia ω nosotros primero encontramos el valor del
espectro poblacional de Y en ω y entonces multiplicar por 2 − 2 ⋅ cos(𝜔).Por ejemplo, el
espectro en frecuencia es multiplicado por cero , el espectro en la frecuencia ω = π ∕ 2 es
multiplicado por 2, y entonces el espectro en la frecuencia ω = π es multiplicado por 4
diferenciando la información elimina los componentes de menor frecuencia y acentúa los
componentes de frecuencia alta.
Por supuesto, este cálculo asume que el proceso original Y es una covarianza estacionaria,
por lo tanto sY (ω)existe. Si el proceso original no es estacionario, como parece ser el caso en el
Grafico 6.3, la información diferenciada (1 − L)Yt en general podría no tener un espectro
poblacional que es cero en frecuencia cero.
El filtro de diferencia estacional usado en [6.4.2] es ℎ(𝐿) = 1 − 𝐿12 , para el cual
ℎ(e−iω )ℎ(eiω ) = (1 − e−12iω )(1 − e12iω)

= 1 − e−12iω − e12iω + 1
= 2 − 2 ⋅ cos(𝜔)
Esta función es igual a cero cuando ω = 2π, 4π, 6π, 8π, 10π, 𝑜 12π es decir esto es cero en las
frecuencias de ω = 0, 2π⁄12 , 4π⁄12 , 6π⁄12 , 8π⁄12 , 10π⁄12 y π es decir,
Por lo tanto, la diferencia estacional no solo elimina los componentes (ω = 0)de menor frecuencia
de un proceso estacionario, pero más allá de eso elimina cualquier contribución de los ciclos con
periodos de 12,6,4,3,2.4, o 2 meses.
Procesos Estocásticos Compuestos

Sea 𝑋𝑡 una covarianza estacionaria con autocovarianzas absolutamente sumatorias, función
de autocovarianza generada g x (z) , y espectro poblacional sX (ω) .Sea Wt una serie de covarianza
estacionaria diferente con autocovarianza absolutamente sumatoria ,función de autocovarianza
generada g w (z) y espectro poblacional sX (ω) ,donde 𝑋𝑡 no e s correlativo con Wt ,para toda t y τ.
Supongamos que observamos la suma de estos dos procesos
Yt = 𝑋𝑡 + Wt
Recuerde de [4.7.19] que la función de autocovarianza generada de la suma es la suma de las
funciones de autocovarianza generada:
g y (z) = g x (z) + g w (z)
6.4 Usos del Análisis Espectral 179

Cumple de [6.1.2] que el espectro de la suma es la suma del espectro:
sy (ω) = sx (ω) + sw (ω) [6.4.9]
2
Por ejemplo, una serie de ruido blanco Wt con varianza σ es agregada a la serie 𝑋𝑡 y si 𝑋𝑡 no es
correlativa con Wt , para toda t y τ ,el efecto es cambiar el espectro poblacional en todas partes por
la constante σ 2⁄2π. De la manera más general ,si 𝑋 tiene un pico o punto más alto en su espectro
en la frecuencia 𝜔1 y si W tiene un punto más alto en su espectro en 𝜔2 ,entonces típicamente la
suma 𝑋 + W tendrá los puntos más altos en ambos 𝜔1 y 𝜔2 .
Como otro ejemplo, suponga que
∞
Yt = c + ∑ hj Xt−j + εt ,
j=−∞
donde 𝑋𝑡 es covarianza estacionaria con autocovarianzas absolutamente sumatorias y el espectro
∞
sw (ω).Suponga que la secuencia {hj } es absolutamente sumatoria y que εt es un proceso de
j=−∞
ruido blanco con varianza σ2 donde ε no es correlativo con 𝑋𝑡 en todos los adelantos y retrasos.
∞ ∞
Seguido de [6.4.7] que la variable aleatoria ∑ hj Xt−j {hj } hX tiene espectro
j=−∞ j=−∞ j t− j
ℎ(e−iω )ℎ(eiω )sx (ω), por lo tanto, de [6.4.9], el espectro de Y es sy (ω) =

ℎ(e−iω )ℎ(eiω )sX (ω) + σ 2⁄2π.
APENDICE 6.A. Prueba de las proposiciones del Capítulo 6

𝜋 ∞
π
1
∫ sy (ω)eiωk ⅆω = ∫ ∑ 𝛾𝑗 𝑒 −iωj 𝑒 −iωk ⅆω
−π 2𝜋
−𝜋 𝑗=−∞
∞
1 𝜋
=2𝜋 ∑ 𝛾𝑗 ∫−𝜋 𝑒 𝑖𝑤(𝑘−𝑗) ⅆω
𝑗=−∞
∞
1 𝜋
= ∑ ∫−𝜋{cos[𝑤(𝑘 − 𝑗)] + 𝑖. sin[ω(k − j)]} ⅆω
2𝜋 𝑗=−∞
[6.A.1]
Considere el cálculo integral en [6.A.1] .Para k = j, esto podría ser

𝜋 𝜋
∫ {cos[𝑤(𝑘 − 𝑗)] + 𝑖. sin[ω(k − j)]} ⅆω = ∫ {cos(0) + 𝑖. sin(0)} ⅆω
−𝜋 −𝜋
π
= ∫−π ⅆω [6.A.2]
= 2π
Para k ≠ j,el cálculo integral en [6.A.1] podría ser
𝜋
∫ {cos[𝑤(𝑘 − 𝑗)] + 𝑖. sin[ω(k − j)]} ⅆω
−𝜋
sin[ω(k−j)] π cos[ω(k−j)] π
= | − 𝑖 | [6.A.3]
k−j wm−π k−j wm−π
= (k − j)−1 {sin[π(k − j)] − sin[−π(k − j)] −i. cos[π(k − j)] + i. cos[−π(k − j)]}
Pero la diferencia entre las frecuencias π(k − j) y –π(k − j),es 2π(k − j)la cual es un entero
múltiplo de 2π. Ya que las funciones seno y coseno son periódicas, la magnitud en [6.A.3 ] es cero.
Por tanto, solo el termino para𝑗 = 𝑘 en la suma en [6.A.1] es distinto a cero, y usando [6.A.2], esta
suma es vista como
π 1 𝜋
∫ sy (ω)eiωk ⅆω = 2𝜋 𝛾𝑘 ∫−𝜋{cos(0) + 𝑖. sin(0)} ⅆω = 𝛾𝑘 ,
−π
Como afirmación en [6.1.15]
Para derivar [6.1.16], note que como sy (ω) es simétrica en torno a ω = 0,

0
π π
∫ sy (ω)eiωk ⅆω = ∫ sy (ω)eiωk ⅆω + ∫ sy (ω)eiωk ⅆω
−π 0
−π
π π
= ∫ sy (−ω)e−iωk ⅆω + ∫ sy (ω)eiωk ⅆω
0 0
π
= ∫ sy (ω)(e−iωk + eiωk ) ⅆω
0
π
= ∫ sy (ω). 2. 𝑐𝑜𝑠(ωk) ⅆω
0
Donde la última línea cumple [6.1.11].Nuevamente haciendo un llamamiento a la simetría de
sy (ω),
π π
∫ sy (ω). 2. 𝑐𝑜𝑠(ωk) ⅆω = ∫ sy (ω)𝑐𝑜𝑠(ωk) ⅆω
0 −π
,
Por lo tanto
π π
∫ sy (ω)eiωk ⅆω = ∫ sy (ω)𝑐𝑜𝑠(ωk) ⅆω,
−π −π
Como afirmación
Derivación de la Ecuación [6.2.11] en la proposición 6.2. Empezamos estableciendo el

siguiente resultado:
T
2πs T =0
∑ 𝑒𝑥𝑝 [i( )(t − 1)] = { [6.A.4]
t=1 T O = ±1, ±2, … . , ±(T − 1)
Lo que [6.A.4]sostiene para s=0 es una consecuencia inmediata del hecho que exp(0) = 1.Para ver
lo que sostiene para otros casos en [6.A.4], define
2πs
z=𝑒𝑥𝑝 [i( T
)] [6.A.5]
Luego la expresión a ser evaluada en [6.A.4] puede ser escrita

𝑇 𝑇
∑𝑡=1 exp[𝑖(2𝜋𝑠⁄𝑇)(𝑡 − 1) = ∑𝑡=1 𝑧 (𝑡−1) [6.A.6]
Ahora mostramos que para cada N,

𝑁 1−𝑧 𝑁
∑𝑡=1 𝑧 (𝑡−1) = [6.A.7]
1−𝑧
Previsto que z ≠ 1, cuando es el caso que 0 < |s| < T. Expresión [6.A.7] puede ser verificado por
inducción. Claramente esto llega a N=1, para luego
𝑁
∑𝑡=1 𝑧 (𝑡−1) = 𝑧 (0) = 1
Dado que [6.A.7] llevada para N, vemos que

𝑁+1 𝑁
∑𝑡=1 𝑧 (𝑡−1) = ∑𝑡=1 𝑧 (𝑡−1) + 𝑧 𝑁
1−𝑧 𝑁
= + 𝑧𝑁
1−𝑧
1 − 𝑧 𝑁 + 𝑧 𝑁 (1 − 𝑧)
=
1−𝑧
1 − 𝑧 𝑁+1
=
1−𝑧
Como aclaración en [6.A.7]
Tenemos N=T en [6.A.7] y sustituyendo el resultado dentro[6.A.6], vemos que
Apéndice A Pruebas de Proposiciones de capítulo 6 181

𝑇 1−𝑧 𝑇
∑𝑡=1 exp[𝑖(2𝜋𝑠⁄𝑇)(𝑡 − 1) = 1−𝑧
[6.A.8]
Para 0 < |s|< T . Pero este sigue para la definición de z en [6.A.5] dado
𝑧 𝑇 = exp[𝑖(2𝜋𝑠⁄𝑇). 𝑇]
= exp[𝑖(2𝜋𝑠)]
=𝑐𝑜𝑠(2𝜋𝑠) + 𝑖. sin(2𝜋𝑠) [6.A.9]
=1 para s=±1, ±2, … . , ±(T − 1)
Como aclaramos en [6.A.4]
Para ver como[6.A.4] puede ser usado para deducir la expresión [6.2.11], la cual tiene la
T
primera columna de ∑z=1 xt xt′ esta dada por
T
∑ 𝐶𝑂𝑆[ω1 (𝑡 − 1)]
∑ sin[ ω1 (𝑡 − 1)]
.
[6.A.10]
.
.
∑ cos[ωM (𝑡 − 1)]
[ ∑sin[ωM (𝑡 − 1)] ]
T
Donde Σ indica sumatoria acerca de t desde 1 hasta T. La primera fila de ∑t=1 xt xt′ es la
traspuesta de [6.A.10]. Para mostrar que todos los términos en [6.A.10] otros dan que el primer
elemento es cero,
Podemos mostrar que
T
∑ 𝑐𝑜𝑠[ωj (𝑡 − 1)] = 0 para j = 1,2, … . , M [6.A.11]
t=1
T
∑ 𝑠𝑖𝑛[ωj (𝑡 − 1)] = 0 para j = 1,2, … . , M [6.A.12]
t=1
Para ωj la frecuencia especificada en [6.2.7]. Pero [6.A.4] establecido que

𝑇
0 = ∑𝑡=1 exp[𝑖(2𝜋𝑗⁄𝑇)(𝑡 − 1) [6.A.13]
𝑇 𝑇
= ∑ cos[(2𝜋𝑗⁄𝑇)(𝑡 − 1)] + ∑ sin[(2𝜋𝑗⁄𝑇)(𝑡 − 1)]

𝑡=1 𝑡=1
Para j = 1, 2, …. ,M. Para [6.A.13] igualar a cero, tanto el componente real e imaginario se igualan a
cero. Desde ωj = 2𝜋𝑗⁄𝑇 , resultando [6.A.11] y [6.A.12] seguido inmediatamente de [6.A.13].
T
El resultado [6.A.4] puede ser usado para calcular los otros elementos ∑t=1 xt xt′ . Para ver como
resultado
1 𝑖𝜃 1
[𝑒 + 𝑒 −𝑖𝜃 ] = [cos(𝜃) + 𝑖. 𝑠𝑖𝑛(𝜃) + 𝑐𝑜𝑠(𝜃) − 𝑖. 𝑠𝑖𝑛(𝜃)] [6.A.14]
2 2
Y similarmente
1 1
2𝑖
[𝑒 𝑖𝜃 + 𝑒 −𝑖𝜃 ] = 2𝑖 [cos(𝜃) + 𝑖. 𝑠𝑖𝑛(𝜃) − {𝑐𝑜𝑠(𝜃) − 𝑖. 𝑠𝑖𝑛(𝜃)}] [6.A.15]
T
Por ejemplo los elementos ∑t=1 xt xt′ correspondiendo al producto de los términos de coseno que
pueden ser calculados como

𝑇
∑ cos[ωj (𝑡 − 1)]. cos[ωk (𝑡 − 1)]

𝑡=1
T
1
=4 ∑ {exp[𝑖wj (t − 1)] + exp[−𝑖wj (t − 1)]}𝑥
t=1
{exp[𝑖wk (t − 1)] + exp[−𝑖wj (t − 1)]}

T
1
= ∑{exp[𝑖(wj + wk )(t − 1)] + exp[𝑖(−wj + wk )(t − 1)]}
4
t=1
+ {exp[𝑖(wj − wk )(t − 1)] + exp[𝑖(−wj − wk )(t − 1)]}
T
1
∑{exp[𝑖(2𝜋/𝑇)(𝑗 + 𝑘)(t − 1)] + exp[𝑖(2𝜋/𝑇)(𝑘 − 𝑗)(t − 1)]}
4
t=1
+ {exp[𝑖(2𝜋/𝑇)(𝑗 − 𝑘)(t − 1)] + exp[𝑖(2𝜋/𝑇)(−𝑗 − 𝑘)(t − 1)]}
Para cada j= 1, 2, . . . , M y para cada k ≠ j, expresión [6.A.16] es cero por virtud de [6.A.4]. Para
cada k=j la primera y la ultima sumatoria en la ultimas línea de[6.A.16] son cero, entonces el total es
igual a (1 ∕ 4) ∑Tt=1(1 + 1) = T ∕ 2.
T
Del mismo modo, elementos de ∑t=1 xt xt′ correspondientes a productos cruzados de los
términos del seno pueden ser encontrados de
T
∑ 𝑠𝑖𝑛[ωj (𝑡 − 1)]. sin[ωk (𝑡 − 1)
t=1
T
= −1/4 ∑ {𝑒𝑥𝑝[𝑖ωj (𝑡 − 1)] − exp[−iωj (𝑡 − 1)]} 𝑥 {exp[𝑖ωk (𝑡 − 1)] −
t=1
{exp[−𝑖ωk (𝑡 − 1)]}
T
1 2𝜋 2𝜋
= − ∑ {exp [𝑖 ( ) (𝑗 + 𝑘)(t − 1)] − exp [𝑖 ( ) (𝑘 − 𝑗)(t − 1)]}
4 𝑇 𝑇
t=1
− {exp[𝑖(2𝜋/𝑇)(𝑗 − 𝑘)(t − 1)] + exp[𝑖(2𝜋/𝑇)(−𝑗 − 𝑘)(t − 1)]}
T⁄2 Para j = k
={
0 ⅆe otra manera
T
Finalmente, elementos de ∑t=1 xt xt′ correspondientes a productos cruzados de términos del seno
y coseno son dados por
T
∑ 𝑐𝑜𝑠[ωj (𝑡 − 1)]. sin[ωk (𝑡 − 1)
t=1
T
= 1/4𝑖 ∑ {𝑒𝑥𝑝[𝑖ωj (𝑡 − 1)] + exp[−iωj (𝑡 − 1)]} 𝑥 {exp[𝑖ωk (𝑡 − 1)] −
t=1
{exp[−𝑖ωk (𝑡 − 1)]}
T
1 2𝜋 2𝜋
= − ∑ {exp [𝑖 ( ) (𝑗 + 𝑘)(t − 1)] + exp [𝑖 ( ) (𝑘 − 𝑗)(t − 1)]}
4i 𝑇 𝑇
t=1
− {exp[𝑖(2𝜋/𝑇)(𝑗 − 𝑘)(t − 1)] − exp[𝑖(2𝜋/𝑇)(−𝑗 − 𝑘)(t − 1)]}
los cuales son iguales a cero para todas j y k. Esto completa la derivación de [6.2.11]
Apéndice A Pruebas de Proposiciones de capítulo 6 183

Prueba de la Proposición 6.2 (a). Sea b la estimación de β basada en una estimación de regresión
de Mínimos Cuadrados Ordinarios (MCO) en [6.2.8]
T T
𝑏 = {∑ xt xt′ }−1 {∑ xt yt }
t=1 t=1
−1
T 0′
=[ ] {∑Tt=1 xt yt } [6.A.17]
0 [T ∕ 2]. 𝐼𝑡−1
−1
𝑇 −1 0′
=[ ] {∑Tt=1 xt yt }
0 [2 ∕ T]. 𝐼𝑡−1
Pero la definición de xxx en [6.2.9] implica que
∑Tt=1 xt yt = [𝛴𝑦 , 𝛴𝑦 , cos[𝜔1 (𝑡 − 1)] 𝛴𝑦 , sin[𝜔1 (𝑡 − 1)] 𝛴 𝑦 , cos[𝜔2 (𝑡 −
1)] 𝛴𝑦 , sin[𝜔2 (𝑡 − 1)] . . . … .. 𝛴𝑦 , cos[𝜔𝑀 (𝑡 − 1)] 𝛴𝑦 , sin[𝜔𝑀 (𝑡 − 1)] ] [6.A.18]
Prueba de la proposición 6.2(b). Recuerde de la expresión [4.A.6] que la suma residual de
cuadrados asociados con la estimación de Mínimos Cuadrados Ordinarios (MCO) de [6.2.8] es
T T T −1
∑t=1 û2i = ∑t=1 yt2 − [∑Tt=1 yt xt′ ] [∑t=1 xt xt′ ] [∑Tt=1 xt yt ] [6.A.19]
Puesto que hay tantas variables explicativas como observaciones y ya que las variables explicativas
son linealmente explicativas, los MCO residuales ût son todos cero.Por lo tanto, , [6.A.19] implica
que
T T −1
∑t=1 yt2 = [∑Tt=1 yt xt′ ] [∑t=1 xt xt′ ] [∑Tt=1 xt yt ] [6.A.20]
Pero [6.A.17] nos permite escribir
𝑇 0′
∑Tt=1 xt yt = [ ]𝑏 [6.A.21]
0 [T ∕ 2]. 𝐼𝑡−1
Sustituyendo [6.A.21] y [6.2.11] en establece que
T −1
𝑇 0′ T 0′ 𝑇 0′
∑ yt2 = 𝑏 ′ [ ][ ] [ ]𝑏
0 [T ∕ 2]. 𝐼𝑡−1 0 [T ∕ 2]. 𝐼𝑡−1 0 [T ∕ 2]. 𝐼𝑡−1
t=1
𝑇 0′
= 𝑏′ [ ]𝑏
0 [T ∕ 2]. 𝐼𝑡−1
𝑀
𝑇
2
̂2j + δ̂2 )
= 𝑇. 𝜇̂ + ( ) ∑(α
2
𝑗=1
Por tanto
𝑇 𝑀
1 1
(𝑇) ∑ (yt2 ) = 𝜇̂ 2 + ( ) ∑
2
̂2j + δ̂2 )
(α [6.A.22]
𝑡=1 𝑗=1
Finalmente, observe de [4.A.5] y el hecho de que 𝜇̂ 2 = 𝑦̅ que
𝑇
𝑀
1 1
( ) ∑(yt2 ) − 𝜇̂ 2 = ( ) ∑(yt − y̅τ )2
𝑇 𝑇
𝑗=1
𝑡=1
Permitiendo [6.A.22] ser escrito como
𝑇
𝑀
1 1
̂2j + δ̂2 )
( ) ∑(yt − y̅τ )2 = ( ) ∑(α
𝑇 2
𝑗=1
𝑡=1
Como afirmación en [6.2.14] .Como los regresores son todos ortogonales, el termino 1/2(α ̂2j +
δ̂2 ) puede ser interpretado como la porción de la muestra de la varianza que puede ser atribuida a
los regresores [ωj (𝑡 − 1)] y sinωj (𝑡 − 1).

Prueba de la Proposición 6.2(c). Note que
̂2j + δ̂2 ) = (𝛼̂𝑗 + 𝑖. 𝛿̂𝑗 )(𝛼̂𝑗 − 𝑖. 𝛿̂𝑗 )
(α
[6.A.23]
Pero del resultado (a) de la Proposición 6.2.
𝑇
𝑇
2 2
𝛼̂𝑗 = ( ) ∑ yt . cos[ωj (𝑡 − 1)] = ( ) ∑ (yt − y̅τ ). cos[ωj (𝑡 − 1)], [6.A.24]
𝑇 𝑇 𝑡=1
𝑡=1
Q donde la segunda igualdad cumple [6.A.11].Asimismo,
𝑇
2
𝛿̂𝑗 = (𝑇) ∑ (yt − y̅τ ). sin[ωj (𝑡 − 1)]
𝑡=1
[6.A.25]
Esto cumple [6.A.24] y [6.A.25] que
𝑇 𝑇
2
(𝛼̂𝑗 + 𝑖. 𝛿̂𝑗 ) = (𝑇) {∑ (yt − y̅τ ). cos[ωj (𝑡 − 1)] + 𝑖. ∑ (yt − y̅τ ). sin[ωj (𝑡 − 1)]}
𝑡=1 𝑡=1
𝑇
2
= (𝑇) ∑ (yt − y̅τ ). exp[iωj (𝑡 − 1)] [6.A.26]
𝑡=1
Asimismo,
𝑇
2
𝛼̂𝑗 − 𝑖. 𝛿̂𝑗 = (𝑇) ∑ (yt − y̅τ ). exp[iωj (𝑡 − 1)] [6.A.27]
𝑡=1
Sustituyendo [6.A.26] y [6.A.27] en [6.A.23] produce

𝑇 𝑇
4
̂2j
α ̂2
+ δ = ( 2 ) {∑(yt − y̅τ ). exp[iωj (𝑡 − 1)]} 𝑥 {∑(yt − y̅τ ). exp[−iωj (𝜏 − 1)]}
𝑇
𝑡=1 𝑡=1
𝑇
𝑇
4
= ( 2 ) ∑ ∑(yt − 𝑦̅) (yt − 𝑦̅). 𝑒xp[iωj (𝑡 − 𝜏)]
𝑇
𝑡=1
𝑡=1
4 𝑇 𝑇−1
= ( 2 ) {∑𝑡=1(yt − 𝑦̅)2 + ∑𝑡=1 (yt − 𝑦̅)(yt+1 − 𝑦̅).exp[iωj ]
𝑇
𝑇
+∑𝑡=2(yt − 𝑦̅)(yt−1 − 𝑦̅).exp[iωj ]
𝑇−2
+ ∑𝑡=1 (yt − 𝑦̅)(yt+2 − 𝑦̅).exp[−2iωj ]
𝑇
+ ∑𝑡=3(yt − 𝑦̅)(yt−2 − 𝑦̅).exp[2iωj ] + …. [6.A.28]
+(y1 − 𝑦̅)(y𝜏 − 𝑦̅)].exp[-(T-1) iωj ]
+(y𝜏 − 𝑦̅)(y1 − 𝑦̅)].exp[(T-1) iωj ]
4
= ( ) {𝛾̂0 + 𝛾̂1 . exp[−iωj ] + 𝛾̂−1 . exp[−iωj ]
T
+𝛾̂2 . exp[−2iωj ]+𝛾̂−2 . exp[2iωj ]+ . . .
+𝛾̂𝑡−1 . exp[−(𝑇 − 1)iωj ]+𝛾̂−𝜏+1 . exp[(𝑇 − 1)iωj ]}
4
= ( ) (2𝜋)𝑠̂𝑦 (𝑤𝑗 ),
𝑇
6.1 Derivar [6.1.12] directamente de la expresión [6.1.6] y las fórmulas para las
autocovarianzas de un proceso MA(1)
6.2 Integrar [6.1.9]para confirmar independientemente que [6.1.17] sostiene para un ruido
blanco y un proceso MA (1).
Capítulo 6 Ejercicios 185

Anderson.T.W.1971.El análisis estadístico de la serie de tiempo. Nueva York: Wiley
Bloomfield, Peter.1976. Análisis de Fourier de la serie de tiempo: Una introducción. Nueva
York :Wiley

7
Teoría de distribución asintótica

Suponga que una muestra de T observaciones (Y1 , Y2,,… , Yn ) ha sido usada para construir θ̂ , una
estimación del vector de parámetros poblacionales . Por ejemplo, el vector de parámetro θ =
(c, ϕ1 , ϕ2,…, ϕp , σ2 )´para un proceso AR(p) podría haber sido estimado de una regresión MCO de
y, por retraso y’s. Nos encantaría saber hasta qué punto esta estimación θ̂ es probablemente del
valor real θ y como probar la hipótesis sobre el verdadero valor basado en la muestra observada de
y’s.
Gran parte de la teoría de distribución utilizada para responder a estas preguntas es asintótica: es
decir, esto describe las propiedades de estimadores como el tamaño de la muestra (T) va hasta el
infinito. Este capítulo desarrolla los resultados asintóticos básicos que serán usados en capitulo
subsecuentes. La primera sección resume la herramienta clave de análisis asintótico y presenta
teorías limite por la media de la muestra de una secuencia de i.i.d. variables aleatorias. La sección 7.2
desarrolla la teoría del límite por variables en serie dependientes con distribuciones marginales
variable en el tiempo.
7.1. Revisión de la Teoría de la Distribución Asintótica
Límites de Secuencias Determinísticas

Sea {CT }∞
T=1 una secuencia de números deterministas. La secuencia dice para converger a c
si para cualquier ε > 0, aquí existe una N tal que |cT − c| < ε cuando T ≥ N ;en otras palabras, cT
estará tan cerca como T siempre y cuando sea suficientemente mayor. Esto es indicado como
𝑙𝑖𝑚 𝑐𝑡 = 𝑐
𝑇→∞
O equivalentemente,
cT → c
Por ejemplo, CT = 1 ∕ T denota la secuencia {1,1/2,1/3…} para lo cual
𝑙𝑖𝑚 𝐶𝑡 = 0
𝑇→∞
Una secuencia de matrices (m x n) deterministas {CT }∞

T=1 converge a C si cada elemento de CT
converge a los elementos correspondientes de C.
7.1. Revisión de la Teoría de la Distribución Asintótica 187

Convergencia en Probabilidad
Considerada una secuencia de variables aleatorias escalares, {XT }∞ T=1 Se dice que la
secuencia converge en probabilidad a c para cualquier ε > 0 y cualquier δ > 0 existe un valor N tal
que, para cada T ≥ N,
P{|XT – c| > δ } < Ꜫ [7.1.2]
En otras palabras, si vamos lo suficientemente lejos en la secuencia, la probabilidad que X T difiere
de c por más de δ puede ser hecha arbitrariamente pequeña para cualquier δ.
Cuando [7.1.2] es satisfecha, el numero c es llamado la propiedad limite o plim,de la secuencia {XT}.
Esto es indicado como
Plim XT = c,
O equivalentemente
P
X𝑇 → 𝑐
Recuerde que si {cT}wT-1 es una secuencia determinista que converge a c, entonces existe un N tal
que |cT – c|< δ para todo T ≥ N. Entonces P{|cT – c|< δ } = 0 para todo T ≥ N .Por tanto ,si una
secuencia determinista converge a c ,entonces podremos también decir que ct  c.
Una secuencia de matrices (m x n) de variable aleatorias {XT} converge en probabilidad a la (m x n)
matriz C si cada elemento de XT converge en probabilidad al elemento correspondiente de C.
De manera más general, si {XT} y {YT} son secuencias de (m x n) matrices, usaremos la notación
P
XT → YT
Para indicar que la diferencia entre las dos secuencias converge en probabilidad a cero:
P
XT - YT → 0
Un ejemplo de una secuencia de variables aleatorias de interés es lo siguiente. Supongamos tener
una muestra de observaciones T en unas variables aleatoria {Y1, Y2, . . . .,YT). Considere la media de la
muestra,
1
𝑌̅𝑇 = (𝑇) ∑𝑇𝑡=1 𝑌𝑡 [7.1.3]
Como un estimador de la media poblacional,
μ̂𝑡 = 𝑌̅𝑇
Añadiremos el subíndice T, a este estimador para enfatizar que esto describe la media de una
muestra de tamaño T. El objetivo primario estará en el comportamiento de este estimador cuando
T aumenta de tamaño. Entonces, estaremos interesados en las propiedades de la secuencia {μ̂ 𝑇 }∞
𝑇=1
Cuando el plim de una secuencia de estimadores (tal como {μ̂ 𝑇 }∞ 𝑇=1 ) es igual al parámetro
poblacional real (en este caso μ),se dice del estimador que es constante.Si un estimador es
constante, entonces existe una muestra suficientemente grande tal que podamos estar seguros con
una probabilidad muy alta que la estimación será en cualquier banda de tolerancia deseada en torno
al valor real.
El siguiente resultado es de mucha ayuda encontrando plims; unas pruebas de esto y algunas de las
otras proposiciones de este capítulo son ofrecidas en el Apéndice 7.A en el final de este capítulo.
Proposición 7.1 Sea{XT} una secuencia de (n x 1) vectores aleatorios con plim c, y sea g(c) una función de vector
valuado, 𝑔: 𝑅 𝑛 → 𝑅 𝑚 , donde g(.) es continua en c y no depende en T.
188 Capítulo 7 | Teoria de distribución Asintótica

Entonces
P
g(xT ) → g(c)
La idea básica detrás de esta proposición es que, ya que g(.) es continua, g(X T) estará cerca
de g(c) siempre que XT esté cerca de eligiendo un valor suficientemente mayor de T, la probabilidad
que este cerca de c (y así que g(XT) esta tan cerca de g(c)) puede ser llevado tan cerca de la unidad
como se desee.
Tenga en cuenta que g(XT) depende del valor de XT pero no puede depender del propio índice T.
Ya que, g(X T . T) = T ⋅ X 2T no es una función cubierta por la Proposición 7.1.
Ejemplo 7.1
P P P
Si X1t → C1 y Si X2t → C2, entonces Si (X1t + X2T) →(C1 + C2). Esto cumple inmediatamente, ya
que g(X1T,X2T) = (X1T,X2T) es una función continua de (X1T,X2T)
Ejemplo 7.2
P
Sea X1t una secuencia de (m x n) matrices aleatorias con X1t → C1 , una matriz no singular. Sea X2t
P P
una secuencia de (n x 1) vectores aleatorios con X2t → C2.Al final [X1T]-1X2t → [C1]-1c2 .Para ver esto
,tenga en cuenta que los elementos de la matriz [X1T]-1son funciones continuas de los elementos de
P
X1T en X1T =C1,ya que [C1]-1 existe. Por tanto, [X1T]-1→[C1]-1. Similarmente, los elementos de [X1T]-
1X2t son sumas de elementos de productos de[X1T]-1 con los de X2t. Ya que cada suma es
nuevamente una función continua de X1T y X2T,
plim[X1T]-1X2t=plim[X1T]-1plim X2T =[C1]-1c2.
La proposición 7.1 también sostiene que si alguno de los elementos de XT son
deterministas con limites convencionales como en la expresión [7.1.1]. Especialmente, sea 𝑋𝑇′ =
′
(𝑥1𝑇 ′ ),
, 𝑋2𝑇 donde X1T es un vector estocástico (n1 x 1) y c2t es un vector determinista (n2 x 1). Si
P
plim X1t=c1 y limt∞c2t =c2 entonces g(X1t,c2t) → g(c1,c2). (ver el ejercicio 7.1.)
Ejemplo 7.3
Considere un estimador alternativo de la media dada por 𝑌̅𝑇∗ ≡ [1 ∕ (𝑇 − 1)] x ∑𝑇𝑡=1 𝑌𝑡 Esto puede
1
ser escrito como 𝑐1𝑇 𝑌̅𝑇 donde 𝑐1𝑡 = (𝑇 ∕ (𝑇 − 1)) y 𝑌̅𝑇 = (𝑇) ∑𝑇𝑡=1 𝑌𝑡 . Bajo condiciones generales
detalladas en la Sección 7.2, la media muestral es un estimador constante de la media poblacional,
P
implicando que 𝑌̅𝑇 → u. Es también fácil de verificar que c1t1. Ya que 𝑐1𝑇 𝑌̅𝑇 es una función
P
continua de c1t y 𝑌̅𝑇 , cumple que 𝑐1𝑡 𝑌̅𝑇 → 1.u = u. Por lo tanto 𝑌̅𝑇∗ como 𝑌̅, es un estimador
constante de u.
Convergencia en Media cuadrática y desigualdad de Chebyshev

Una condición más fuerte que la convergencia en probabilidad es una convergencia de
media cuadrática. Se dice que la secuencia aleatoria {XT} converge en media cuadrática a c, indicada
m.s.
como 𝑋𝑡 → c
Si para todo ε > 0 existe un valor N tal que, para toda 𝑇 ≥ 𝑁
𝐸(𝑋𝑇 − 𝐶)2 < 𝜀 [7.1.4]
Otro resultado útil en la secuencia

Proporción 7.2. (Desigualdad generalizada de Chebyshev). Sea una variable aleatoria con 𝐸(|𝑥|𝑟 ) límite para
algún r >0. Entonces, para cualquier 𝛿 > 0 y cualquier valor de c.
E|x−C|r
P[ |x − C| > δ] ≤ δr
[7.1.5]
m.s. p
Una implicación de desigualdad Chebyshev es que si 𝑋𝑡 → c, entonces 𝑋𝑡 → c. Para ver esto,
m.s.
note que si 𝑋𝑡 → c, entonces para cualquier ε > 0 y 𝛿 > 0 existe un N tal que 𝐸(𝑋𝑇 − 𝐶)2 δ2 ε
para todo 𝑇 ≥ 𝑁. Esto podría comprobar que
E(XT − C)2
<ε
δ2
Para todo 𝑇 ≥ 𝑁. Por desigualdad Chebyshev, esto tambien implica
P{|XT − C| > δ} < ε
p
Para todo 𝑇 ≥ 𝑁, o 𝑋𝑇 → c
Ley de los grandes números para variables independientes e idénticamente

distribuidas
1
Permítanos ahora considerar el comportamiento de la media muestral 𝑌̅𝑇 = (𝑇) ∑𝑇𝑡=1 𝑌𝑡 donde {Yt}
es i.i.d con media μ y varianza σ2 . Para este caso, 𝑌̅𝑇 tiene expectativa matemática μ y varianza
T T
̅t − μ) = (1 ∕ T
E(Y 2 2 )Var
(∑ Yt ) = (1⁄T 2)
(∑ Yt ) 𝑉𝑎𝑟(Yt ) = σ2 ∕ T
t=1 t=1
m.s.
Entonces σ2 ∕ T como T → ∞, esto significa que 𝑌̅𝑇 → μ , implicando también que
p
𝑌̅𝑇 → μ .
La Grafica 7.1 traza un ejemplo de la densidad de la media muestral f̅̅̅ Y′ r (y
̅ T ) para tres valores
diferentes de T. Mientras T se vuelve más larga, la densidad se vuelve más concentrada en un pico
centrado en μ.
El resultado de que la media muestral es una estimación consistente de la media poblacional es
conocida como la ley de los grandes números1. Esto fue probado por el caso especial de variables i.i.d
con varianza finita. De hecho, resulta ser cierto también para cualquier secuencia de variables i.i.d
con media finita μ.2 La sección 7.2 explica algunas de las circunstancias bajo la cuales también son
válidas para variables dependientes en serie con distribuciones marginales de variables en el tiempo.
Convergencia en Distribución
Sea {X T }∞
T=1 una secuencia de variables aleatorias, y sea FxT (x) la función de distribución
acumulable de XT. Suponga que existe una función de distribución acumulable Fx (x) tal que
lim FxT (x) = Fx (x)
T→∞
1Esto es con frecuencia descrito como Ley débil de grandes números .Un resultado análogo conocido como la ley fuerte de grandes
números se refiere una convergencia casi segura en lugar de convergencia en probabilidad de la media muestral.
2 Esto es conocido como el teorema Khinchine .Ver, por ejemplo, Rao (1973,p.112

T=100
T=10
T=2
Grafica 7.1 Densidad de la media muestral para una muestra de tamaño T.

En cualquier valor x en el cual 𝐹𝑥 (⋅) es continuo. Entonces se dice que X T que converge en la
distribución(o en ley) para que x denote
L
XT → X
Cuando 𝐹𝑥 (𝑥) es de la forma común, tal como la función de distribución acumulativa para
una variable N(μ, σ2 ), escribiremos equivalentemente
L
X T → N(μ, σ2 )
Las definiciones son iguales si el escalar X T es reemplazado con un vector (n x 1). Una
manera simple para verificar la convergencia en distribución de un vector es lo siguiente. 3 Si el
escalar (λ1 X1T + λ2 X2T + ⋯ + λn XnT) converge en distribución para (λ1 X1 + λ2 X2 + ⋯ +
λn Xn) para cualquier valor real de (λ1 , λ2,…, λn ), entonces el vector X T ≡
[(𝑋1𝑇 , 𝑋2𝑇 , … , 𝑋𝑛𝑇 )]ćonverge en distribución al vector 𝑋 ≡ [(𝑥1 , 𝑥2 , … , 𝑥𝑛 )]´.
Los siguientes son resultado del limite de una distribución determinada.4
Proposición 7.3
𝐿
(a)Sea {𝑌𝑇 } una secuencia de (𝑛 𝑥 1) vectores aleatorios con 𝑌𝑇 → 𝑌. Suponga que {𝑋𝑇 } es una secuencia
𝑝 𝐿
de(𝑛 𝑥 1) vectores aleatorios tales que(𝑋𝑇 − 𝑌𝑇 ) → 0 . Entonces 𝑋𝑇 → 𝑌 , que es 𝑋𝑇 y 𝑌𝑇 tienen la
misma distribución limitada .
𝑝
(b)Sea {𝑋𝑇 } una secuencia de (𝑛 𝑥 1) vectores aleatorios con 𝑋𝑇 → 𝑐, y sea {𝑌𝑇 } una secuencia de
𝐿
𝑛 𝑥 1 vectores aleatorios con 𝑌𝑇 → 𝑌. Entonces la secuencia construida de la suma {𝑋𝑇 + 𝑌𝑇 } converge en
distribución a c + Y y la secuencia construida del producto {𝑋𝑇′ 𝑌𝑇 } converge en distribución a c’Y.
3 Esto es conocido como el teorema Cramer-Wold ,Vea ,Rao (1973,p.123

4 Vea Rao (1973, pp.122-24)

𝐿
(c)Sea {𝑋𝑇 } una secuencia de (𝑛 𝑥 1) vectores aleatorios con con 𝑋𝑇 → 𝑋 ,y sea 𝑔(𝑋), una función continua
(no depende de T). Entonces la secuencia de variable aleatorias {𝑔(𝑋𝑇 )} converge en distribución a 𝑔(𝑋).
T=2
T=10
T=100
̅T − μ)
Grafica 7.2 Densidad de √T(Y
Ejemplo 7.4
p L
Suponga que X T → c y YT → Y, donde Y~N(μ, σ2 ). Entonces, por la Proposición 7.3 (b), la
secuencia X T YT tiene la misma ley de probabilidad limitada como la de c veces una variable
L
N(μ, σ2 ). En otras palabras, X T YT → N(cμ, c 2 σ2 ).
Ejemplo 7.5
Generalmente el resultado previo, sea {XT } una secuencia de (mxn) matrices aleatoria y {YT } una
p L
secuencia de (n x 1) vectores aleatorios con X T → c y YT → Y, con Y~N(μ, Ω) Entonces la
L
distribución limitada de X T YT es la misma que CY; esto es, X T YT → N, (Cμ , CΩC ′ ).
Ejemplo 7.6
L
Suponga que X T → N(0,1). Entonces la Proposición 7.3 (c) implica que el cuadrado de X T se
p
comporta asintóticamente como el cuadrado de una N(0,1) variable: X T2 → X 2 (1)
Teorema del límite central

Hemos visto que la media muestral Y ̅T para una secuencia i.i.d tiene una densidad de probabilidad
degenerada como T → ∞, cayendo hacia una masa del punto en μ ya que el tamaño de la muestra
crece. Para una perturbación estadística nos gustaría describir la distribución de 𝑌̅𝑇 en mayor detalle.
̅T − μ) tiene media cero y varianza dada por
Para este propósito, note que la variable aleatoria √T(Y
2
(√T) Var(Y ̅T ) = σ2 para toda T, y por lo tanto, en contraste para ̅ ̅T −
YT ,la variable aleatoria √T(Y
μ)podría esperarse convergir a una variable aleatoria no degenerada como T va al infinito.

El teorema del límite central es el resultado que, como T aumenta, la secuencia √T(Y ̅T − μ)
converge en distribución a una variable aleatoria Gaussianas. La más familiar, aunque restrictiva, la
versión del teorema del límite central establece que si ̅ YT es i.i.d .con media μ y varianza σ2 ,
entonces 55
L
̅T − μ) → N(0, σ2 )
√T(Y [7.1.6]
El resultado [7.1.6] también sostiene bajo muchas más condiciones generales, algunas de las cuales
son exploradas en la siguiente sección.
L
̅T − μ) → para 3 diferentes valores de T.
Grafica 7.2 traza un ejemplo de la densidad de √T(Y
Valores de T. Cada una de estas densidades tiene media cero y varianza 𝜎 2 . A medida que T se hace
grande, la densidad converge a la de una variable N (0, 𝜎 2 ).
Un resultado final útil es el siguiente.
Proposición 7.4: Sea 𝑋𝑡 una secuencia de vectores aleatorios (n x 1) tales que √𝑇(𝑋𝑡 – c) 𝜇 X y tenga g: 𝑅 𝑛
→ 𝑅 𝑚 primeros derivados continuos con G denotando la matriz (m x n) de derivadas evaluadas en c:
𝜕𝑔
G≡ ⃒𝑥=𝑐
𝜕𝑥ʹ
𝐿
Entonces √𝑇 [g(𝑋𝑇 ) – g(c) → GX.
Ejemplo 7.7
Sea {𝑌1 , 𝑌2 , . . . , 𝑌𝑇 } una muestra i.i.d del tamaño T dibujado de una distribución con media 𝜇 ≠ 0
y varianza 𝜎 2 . Considere la distribución del recíproco de la media muestral, 𝑆𝑇 = 1⁄ ̅ , donde 𝑌̅𝑇
𝑌𝑇
𝐿
≡ (1⁄𝑇)∑𝑇𝑡=1 𝑌𝑡 . Conocemos del teorema del límite central que √𝑇(𝑌̅𝑇 - 𝜇) → 𝑌, donde 𝑌 ~
N(0, 𝜎 2 ). También, g(𝑦) = 1⁄𝑦 es continua en 𝑦 = 𝜇. Sea G ≡ (∂g/∂𝑦)⃒𝑦= 𝜇 = (−1⁄𝜇2 ).
𝐿 𝐿
Entonces √𝑇[𝑆𝑇 − (1⁄𝜇)] → G.Y ; en otras palabras, √𝑇[𝑆𝑇 − (1⁄𝜇)] → N(0, 𝜎 2 ⁄𝜇4 ) .
7.2. Teorema de límites para observaciones dependientes en

serie
La sección previa expresó la ley de grandes números y el teorema del límite central para variables
independientes e idénticamente aleatorias distribuidas con segundos momentos finitos. Esta sección
desarrolla resultados análogos para variables heterogéneamente distribuidas con varias formas de
dependencia en serie. Primero desarrollamos una ley de grandes números para un proceso general
de covarianza estacionaria.
Ley de grandes números para un proceso de covarianza estacionaria

Represente (𝑌1 , 𝑌2 , . . . , 𝑌𝑇 ) una muestra de tamaño T de un proceso de varianza
estacionaria con
5 5Vea, por ejemplo. White (1984, pp.108-9)

E(𝑌𝑡 ) = 𝜇 para toda t [7.2.1]
E(𝑌𝑡 − 𝜇)(𝑌𝑡−𝑗 − 𝜇) = 𝛾𝑗 para toda t [7.2.2]
∑∝
𝑗=0|𝛾𝑗 | < ∝ [7.2.3]
Considere las propiedades de la media muestral:
𝑌̅𝑇 ≡ (1⁄𝑇)∑𝑇𝑡=1 𝑌𝑡 [7.2.4]

Teniendo en cuenta las expectativas de [7.2.4] revela que la media muestral ofrece una estimación
imparcial de la media poblacional,
E(𝑌̅𝑇 ) = 𝜇,
Mientras la varianza de la media muestral es

𝐸(𝑌̅𝑇 − 𝜇)2
𝑇 2
= 𝐸 ⌊(1⁄𝑇) ∑(𝑌𝑡 − 𝜇)⌋

𝑡=1
= (1⁄𝑇 2 )𝐸{[(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇) ] 𝑥 [(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯

+ (𝑌𝑇 − 𝜇) ]}
= (1⁄𝑇 2 ) 𝐸{[(𝑌1 − 𝜇) [(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇)]
+ (𝑌2 − 𝜇) [(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇) ]
+ (𝑌3 − 𝜇)[(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇) ] + ⋯
+ (𝑌𝑇 − 𝜇) [(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇) ] ]}
= (1⁄𝑇 2 ) {[𝛾0 + 𝛾1 + 𝛾2 + 𝛾3 + ⋯ + 𝛾𝑇−1 ] + [𝛾1 + 𝛾0 + 𝛾1 + 𝛾2 + ⋯ + 𝛾𝑇−2 ]
+ [𝛾2 + 𝛾1 + 𝛾0 + 𝛾1 + ⋯ + 𝛾𝑇−3 ] + [𝛾𝑇−1 + 𝛾𝑇−2 + 𝛾𝑇−3 + ⋯ + 𝛾0 ]}
Por lo tanto,
2
𝐸((𝑌̅𝑇 − 𝜇)) = (1⁄ 2 ) {𝑇𝛾0 + 2(𝑇 − 1)𝛾1 + 2(𝑇 − 2)𝛾2 + 2(𝑇 − 3)𝛾3 + ⋯ + 2𝛾𝑇−1 }
𝑇
o
2 1 (𝑇 − 2)
𝐸((𝑌̅𝑇 − 𝜇)) = ( ) {𝑌0 + [(𝑇 − 1)/𝑇]2𝑌1 + [ ] (2𝑌2 ) + [(𝑇 − 3)/𝑇](2𝑦3 ) + ⋯
𝑇 𝑇
+ [1/𝑇](2𝑦𝑇−1 )}
[7.2.5]
Es fácil ver que la expresión va a cero mientras el tamaño de la muestra crece, es decir, que ‘’𝑦̅𝑇
𝑚.𝑆
→ 𝜇: ’’:
2 (𝑇−1) (𝑇−2) (𝑇−3) 1
T.E(𝑌𝑇 − 𝜇) = |𝑌0 + [ 𝑇
] (2𝑌1 ) + [ 𝑇
] (2𝑌2 ) + [ 𝑇
] (2𝑌3 ) + ⋯ + [𝑇] (2𝑦𝑇−1 )|
(𝑇−1) (𝑇−2) (𝑇−3) 1
≤{|𝑌0 | + [ 𝑇
] . 2|𝑌1 | + [ 𝑇
] . 2|𝑌2 | + [ 𝑇
] . 2|𝑌3 | + ⋯ + [𝑇] . 2|𝑌𝑇−1 |}

≤{|𝑌0 | + 2|𝑌1 | + 2|𝑌2 | + 2|𝑌3 | + ⋯ }
2 2
Por consiguiente, T.E(𝑌𝑇 − 𝜇) <∝, por [7.2.3], y así E(𝑌𝑇 − 𝜇) → 0 , como afirma.
2
Es también de interés calcular el valor limitado de TE(𝑌𝑇 − 𝜇) . El resultado [7.2.5] expresa esta
varianza para T finito como una media ponderada de las primeras T-1 autocovarianzas 𝑦𝐽 . Para j
mayores, estas autocovarianzas se aproximan a cero y no afectarán la suma. Para j, menores, las
autocovarianzas son dadas a un peso que aproxime a la unidad mientras el tamaño de la muestra
crece. Por consiguiente, podríamos suponer que
∞
2
lim 𝑇. 𝐸(𝑌 𝑇 − 𝜇) = ∑ 𝑦𝑓 = 𝑌0 + 2𝑌1 + 2𝑌2 + 2𝑌3 + ⋯
𝑇→∞
𝐽=−∞
[7.2.7]
Esta conjetura es verdaderamente correcta. Para verificar esto, tenga en cuenta que la suposición
[7.2.3] significa que para cualquier ℰ > 0 existe una q tal que:
2|𝑌𝑞+1 | + 2|𝑌𝑞+2 | + 2|𝑌𝑞+3 | + ⋯ < 𝜀/2
Ahora
∝ 2
|∑ 𝑌𝐽 − 𝑇. 𝐸(𝑌 𝑇 − 𝜇) |
𝐽=−∝
=|{𝑌0 + 2𝑌1 + 2𝑌2 + 2𝑌3 + ⋯ } − {𝑦0 + [(𝑇 − 1)/𝑇]. 2𝑦1 + [(𝑇 − 2)/𝑇]. 2𝑦2 + [(𝑇 − 3)/
1
𝑇]. 2𝑦3 + ⋯ + [𝑇] . 2𝑦𝑇−1 }|
1 2 3 𝑞
≤ ( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ⋯ + ( ) . 2|𝑦𝑞 | + 2|𝑌𝑞+1 | + 2|𝑌𝑞+2 | + 2|𝑌𝑞+3 |
𝑇 𝑇 𝑇 𝑇
+⋯
1 2 3 𝑞
≤ ( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ( ) . 2|𝑌𝑞 | + 𝜀/2.
𝑇 𝑇 𝑇 𝑇
Además, para esto, dado q, podemos encontrar una N tal que
1 2 3 𝑞
( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ⋯ + ( ) . 2|𝑌𝑞 | < 𝜀/2
𝑇 𝑇 𝑇 𝑇
Para toda 𝑇 ≥ 𝑁, asegurar que
∞
2
| ∑ 𝑌1 − 𝑇. 𝐸(𝑌 𝑇 − 𝜇) | < 𝜀
𝑗=−∞
como fue mostrado estos resultados pueden ser resumidas en lo siguiente

Proposición 7.5:
Sea Y, un proceso de covarianza estacionaria con momentos dados por [7.2.1] y [7.2.2] y con autocovarianzas
absolutamente sumables como [7.2.3]. entonces la media muestral [7.2.4] satisface
𝑚.𝑠
(a)𝑌𝑇 → 𝜇
7.2 Teorema de límites para observaciones dependientes en serie 195

2
(b) lim {𝑇. 𝐸(𝑌𝑇 − 𝜇) } = ∑∞
𝑗=−∞ 𝑌𝑗
𝑇→∞
Recuerde del capítulo tres la condición [7.2.3] si es satisfecho por cualquier proceso de
covarianza estacionaria ARMA(p,q)
(1 − ∅1 𝐿 − ∅2 𝐿2 − ⋯ − ∅𝑃 𝐿𝑃 )𝑌𝑡 = 𝜇 + (1 − 𝜃1 𝐿 − 𝜃2 𝐿2 − ⋯ 𝜃𝑞 𝐿𝑞 )𝜀𝑡
Con bases de (1 − 𝜙1 𝑧 − 𝜙2 𝑧 2 − ⋯ 𝜙𝑃 𝑧 𝑃 ) = 0 fuera del círculo de la unidad.
Expresiones alternativas para la varianza en el resultado (b) de la proposición 7.5 son utilizadas en
ocasiones. Recuerden que la función de autocovarianza generada para Y es definida como
∞
𝑔𝑌 (𝑍) = ∑ 𝑌𝑗 𝑍𝑗
𝑗=−∞
Muestras el espectro es dado por

1
𝑆𝑌 (𝜔) = 𝑔 (𝑒 −𝑖𝜔 )
2𝜋 𝑌
Por ello, el resultado (b) podría ser equivalentemente descrito como la función de autocovarianza
generada evaluada en Z=1
∞
∑ 𝑌𝐽 = 𝑔𝑌 (1)
𝐽=−∞
O como 2𝜋 veces el espectro en la frecuencia 𝜔 = 0

∞
∑ 𝑌𝐽 = 2𝜋𝑆𝑌 (0)
𝐽=−∞
El último resultado viene del hecho que 𝑒 0 = 1. Por ejemplo, considera el proceso MA(∞)
∞
𝑌1 = 𝜇 + ∑ 𝛹𝑖 𝜀𝑖−𝐽 ≡ 𝜇 + 𝜓(𝐿)𝜀𝑡
𝐽=0
Con E(𝜖𝑗 𝜀𝑡 ) = 𝜎 si t=T y cero en caso contrario y con ∑∞

2
𝑗=0|𝜓𝑗 | < ∞. Recuerde que sus
funciones de autocovarianza generada son dadas por
𝐺𝑌 (𝑍) = 𝜓(𝑍)𝜎 2 𝜓(𝑍 −1 )
Evaluando esto en Z=1,
∞
∑ 𝑌𝐽 = 𝜓(1)𝜎 2 𝜓(1) = 𝜎 2 [1 + 𝜓1 + 𝜓2 + 𝜓3 + ⋯ ]2
𝑗=−∞
[7.2.8]
Secuencia de diferencia de Martingala

Algunos teoremas del límite muy útiles pertenecen a la secuencia de diferencia de
Martingala.

Denote Let{𝑌𝑇 }∞𝑡=1 una secuencia de escalares aleatorios con E(𝑌1 ) = 0 para toda t. Denote Ω
6
información válida en la información t, donde esta información incluye valores actuales y retrasados
de Y.7 Por ejemplo, podríamos tener
Ω𝑡 = {𝑌𝑡 , 𝑌𝑡−1 , . . . , 𝑌1 . 𝑋𝑡 , 𝑋𝑡−1 , . . . , 𝑋1 }
Donde 𝑋𝑡 es una segunda variable aleatoria. Si
E (𝑌𝑡 ⃒ Ω𝑡−1 ) = 0 t= 2,3,…. [7.2.9]
Entonces se dice de {𝑌𝑡 } que es una secuencia de diferencia de Martingala con respecto a {Ω𝑡 }
Donde ninguna información es específica, se presume de Ω𝑡 que consiste únicamente de valores
actuales y retardados de 𝑌
Ω𝑡 = {𝑌𝑡 , 𝑌𝑡−1 , . . . , 𝑌1 }
Por tanto si una secuencia de escalares {𝑌𝑡 }∝
𝑡=1 conforme E(𝑌𝑡 ) para toda 𝑡 y
𝐸 (𝑌𝑡 ⃒ 𝑌𝑡−1 , 𝑌𝑡−2 . . . , 𝑌1 ) = 0, [7.2.10]
Para t= 2,3,…., entonces diremos simplemente que {𝑌𝑡 } es una secuencia de diferencia Martigala.
Tenga en cuenta que [7.2.10] es implicado por [7.2.9] por la ley de valores esperados iterados.
Una secuencia de (n x 1) vectores {𝑌𝑡 }∝

𝑡=1 conformando E (𝑌𝑡 ) = 0 y E (𝑌𝑡 ⃒ 𝑌𝑡−1 , 𝑌𝑡−2 . . . , 𝑌1 )= 0
se dice que forman un vector de secuencia de diferencia Martingala
Tenga en cuenta que la condición [7.2.10] es mucho más fuerte que la condición que Y es
no correlacionado en serie. Una secuencia no correlacionada en serie no se puede pronosticar
sobre las bases de una función lineal de sus valores pasados .Ninguna función de valores pasados,
lineal o no lineal, puede pronosticar una secuencia de diferencia de Martingala .Mientras más fuerte
que la falta de una correlación en serie, la condición de diferencia de Martingala es más débil que la
independencia, entonces esto no descarta la posibilidad que momentos más altos tales como
E(𝑌2𝑡 ⃒ 𝑌𝑡−1 , 𝑌𝑡−2 . . . , 𝑌1 ) puedan depender en el pasado de 𝑌ʹ𝑠.
Ejemplo 7.8
Si 𝜀𝑡 ~ i.i.d N (0, 𝜎 2 ), entonces 𝑌𝑡 = 𝜀𝑡 𝜀𝑡−1 es una secuencia de diferencia de Martingala, pero no
independiente en serie
L1-Mixingalas
Una clase más general del proceso conocido como L1-mixingalas fue introducido por
Andrews (1988). Considere una secuencia de variables aleatorias {𝑌𝑡 }∝
𝑡=1 con E(𝑌𝑡 )= 0 para t=
1,2,….. Denote Ω𝑡 información valida al tiempo t, como antes, donde Ω𝑡 , incluye valores actuales y
retrasados de Y. Supongamos que podemos encontrar secuencias de constantes deterministas no
negativas {𝐶𝑡 }∝ ∝
𝑡=1 y {𝜀𝑚 }𝑚=0 tales que lim 𝜀𝑚 = 0 y
𝑚→∝
𝐸 |𝐸 (𝑌𝑡 ⃒Ω𝑡−𝑚 )| ≤ 𝑐𝑡 𝜀𝑚
[7.2.11]
6 6Donde quiera que una expectativa sea indicada, es tomado como implícito que el integral existe, eso es, que E|𝑌 | es finito
𝑡
7 7Formalmente {Ω }∝ denota una secuencia en aumento del campo (Ω

𝑡 𝑡=1 𝑡−1 ⊂ Ω𝑡 ) con 𝑌𝑡 medible con respecto a Ω𝑡 . Vea, por
ejemplo. White (1984, p.56)

Para toda 𝑡 ≥ 1 y toda 𝑚 ≥ 0. Entonces se dice que {𝑌𝑡 } sigue una L1-mixingala con respecto a
{Ω𝑡 }.
Por tanto, un proceso de media cero para las cuales el pronóstico del futuro inmediato m
𝐸 (𝑌𝑡 ⃒Ω𝑡−𝑚 ) converge (en valor previsto absoluto) a la incondicional media de cero es descrita
como una L1-mixingala.
Ejemplo 7.9
Sea {𝑌𝑡 } una secuencia de diferencia de Martingala. Sea 𝑐𝑡 = 𝐸|𝑌𝑡 |, y elija 𝜀0 = 1 y 𝜀𝑚 = 0 para
𝑚 = 1,2, …. Entonces [7.2.11] es satisfecha por Ω𝑡 = {𝑌𝑡 , 𝑌𝑡−1 . . . , 𝑌1 }, entonces {𝑌𝑡 } podría ser
descrita como una secuencia L1-mixingala.
Ejemplo 7.10
Sea 𝑌𝑡 , donde ∑∞ ∞
𝐽=0 𝛹𝑖 𝜀𝑖−𝐽 y ∑𝐽=0|𝛹𝑗 | < ∞ es una secuencia de diferencia de Martingala con
𝐸|𝜀𝑡 | < 𝑀 para toda t para alguna 𝑀 <∝ . Entonces {𝑌𝑡 } es una L1-mixingala con respecto a
Ω𝑡 = {𝜀𝑡 , 𝜀𝑡−1 . .. }. Vea esto, y tenga en cuenta que
𝐸 |𝐸 (𝑌𝑡 ⃒𝜀𝑡−𝑚 , 𝜀𝑡−𝑚−1 . . . )|= 𝐸|∑∞ ∞

𝐽=𝑚 𝛹𝑖 𝜀𝑖−𝐽 | ≤ 𝐸 {∑𝐽=𝑚 ⃒𝛹𝑖 𝜀𝑖−𝐽 ⃒}
Entonces {𝛹𝑖 }∝ 𝑗=0 es absolutamente sumable y 𝐸|𝜀𝑡−𝑗 | < 𝑀, podemos intercambiar el orden de
expectativa y suma.
∝ ∝
𝐸 {∑∞
𝐽=𝑚 ⃒𝛹𝑖 𝜀𝑖−𝐽 ⃒} = ∑𝑗=𝑚|𝛹𝑖 | . 𝐸|𝜀𝑡−𝑗 | ≤ ∑𝑗=𝑚|𝛹𝑖 | . 𝑀
Además [7.2.11] es satisfecha con 𝑐𝑡 = 𝑀 y 𝜀𝑚 = ∑∝

𝑗=𝑚|𝛹𝑖 |. Por otra parte, lim 𝜀𝑚 = 0, debido a
𝑚→∝
∝
la absoluta sumabilidad de {𝛹𝑗 }𝑗=0 .Por ende, {𝑌𝑡 } es una L1-mixingala
Ley de Grandes Numero para L1-mixingalas

Andrews (1988) aplico la siguiente ley de grandes números para L1-mixingalas8
Proposición 7.6: Sea {𝑦𝑡 } una L1-mixingala. Si (a) {𝑦𝑡 } es uniformemente integrable y en (b) existe
una elección para {𝑐𝑡 } tal que
𝑇
lim (1⁄𝑇) ∑ 𝑐𝑡 <∝
𝑇→∝ 𝑡=1
𝑃
Entonces (1⁄𝑇)∑𝑇𝑡=1 𝑌𝑡 → 0
Para aplicar este resultado, necesitamos verificar que una secuencia {𝑌𝑡 } este uniformemente
integrable si para toda 𝜀 > 0 existe un número 𝑐 > 0 tal que
𝐸(|𝑌𝑡 |. 𝛿[|𝑌𝑡 |≥𝑐] ) < 𝜀
[7.2.12]
Para toda t donde 𝛿[|𝑌𝑡 |≥𝑐] =1 si |𝑌𝑡 | ≥ 𝑐 y en caso contrario 0. La siguiente proposición da
condiciones suficientes para la integralidad uniforme.
̅̅̅̅̅𝑟→∞ (1⁄ ) ∑𝑇𝑡=1 𝑐𝑡 <∝.

8 8 Andrews sustituyo la parte de la proposición con la condición más débil 𝑙𝑖𝑚
𝑇
Vea,Royden (1968,p.36)en la relación entre lim y ̅̅̅̅̅
𝑙𝑖𝑚

Proposición 7.7 :(a) Suponga que existe una r > 1 y una 𝑀ʹ >∝ tal que 𝐸(|𝑌𝑡 |𝑟 ) < 𝑀ʹ para toda t.
Entonces {𝑌𝑡 } es uniformemente integrable. (b) Suponga que existe una r > 1 y una 𝑀ʹ >∝ tal que
𝐸(|𝑋𝑡 |𝑟 ) < 𝑀ʹ para toda t. Si ∑∝ ∝
𝑗=−∝ ℎ𝑗 𝑋1−𝑗 con ∑𝑗=−∝ ℎ𝑗 <∝, entonces {𝑌𝑡 } es uniformemente integrable.
Condición (a) nos requiere para encontrar un momento más alto que el primero que existe.
Típicamente, podríamos usar r = 2. Sin embargo, aunque si una variable tiene varianza infinita, esto
aún puede ser uniformemente integrable siempre y cuando 𝐸|𝑌𝑡 |𝑟 exista para alguna r entre 1 y 2.
Ejemplo 7.11
Sea 𝑌̅𝑇 la media muestral de una secuencia de diferencia de Martingala, 𝑌̅𝑇 = (1⁄𝑇) ∑𝑇𝑡=1 𝑌𝑡 con
𝐸|𝑌𝑡 |𝑟 < 𝑀ʹ para alguna r > 1 y 𝑀ʹ <∝. Tenga en cuenta que esto también implica que exista una
𝑀 < ∞ tal que 𝐸|𝑌𝑡 | < 𝑀. De la proposición 7.7(a), {𝑌𝑡 } es uniformemente integrable. Por otra
parte, del ejemplo 7.9, {𝑌𝑡 } puede ser vista como una L1-mixingala con 𝑐𝑡 = 𝑀. De esta manera,
𝑃
lim (1⁄𝑇) ∑𝑇𝑡=1 𝑐𝑡 = 𝑀 <∝ y así, de la Proposición 7.6, 𝑌̅𝑇 → 0
𝑇→∝
Ejemplo 7.12
Sea 𝑌𝑡 =∑∝ ∝
𝑗=0 𝛹𝑖 𝜀𝑡−𝑗 , donde ∑𝑗=0 𝛹𝑖 <∝ y {𝜀𝑡 } es una secuencia de diferencia de Martingala con
𝐸|𝜀𝑡 |𝑟 < 𝑀ʹ <∝ para alguna r > 1 y algunas 𝑀ʹ <∝. Entonces, de la proposición 7.7(b), {𝑌𝑡 } es
uniformemente integrable. Asimismo, del ejemplo 7.10. {𝑌𝑡 } es una L1-mixingala con 𝑐𝑡 = 𝑀,
donde M representa el mayor valor de 𝐸|𝜀𝑡 | para algún t. Entonces lim (1⁄𝑇) ∑𝑇𝑡=1 𝑐𝑡 = 𝑀 <∝ ,
𝑇→∝
𝑃
establece nuevamente que 𝑌̅𝑇 → 0.
La Proposición 7.6 puede ser aplicada a la doble matriz indexada {𝑌𝑡.𝑇 }; que es cada
muestra de tamaño T pude ser asociado con una secuencia diferente {𝑌1.𝑇 , 𝑌2.𝑇 … . . 𝑌𝑇.𝑇 }. Se dice de
la matriz que es una L1-mixingala con respecto a una información contenida en Ω𝑡.𝑇 que incluye
{𝑌1.𝑇 , 𝑌2.𝑇 … . . 𝑌𝑇.𝑇 } si existen constantes no negativas 𝜀𝑚 y 𝑐𝑡.𝑇 tales que lim 𝜀𝑚 = 0 y
𝑚→∝
𝐸 |𝐸 (𝑌𝑡.𝑇 ⃒Ω𝑡−𝑚.𝑇 )| ≤ 𝑐𝑡.𝑇 𝜀𝑚
Para toda 𝑚 ≥ 0,𝑇 ≥ 1 y 𝑡 = 1,2, ….,T. Si la matriz es uniformemente integrable con

𝑃
lim (1⁄𝑇) ∑𝑇𝑡=1 𝑐𝑡 . 𝑇 < ∞, entonces (1⁄𝑇) ∑𝑇𝑡=1 𝑌𝑡.𝑇 → 0
𝑇→∝
Ejemplo 7.13
Sea {𝜀𝑡 }∝ 𝑟
𝑡=1 una secuencia de diferencia de Martingala con 𝐸|𝜀𝑡 | < 𝑀ʹ para alguna 𝑟 > 1 y 𝑀ʹ <
∞ , y definir 𝑌𝑡.𝑇 ≡ (𝑡⁄𝑇)𝜀𝑡 . Entonces la matriz {𝑌𝑡.𝑇 } es una L1-mixingala uniformemente
integrable con 𝑐𝑡.𝑇 = 𝑀, donde M denota el máximo valor para 𝐸|𝜀𝑡 |, y 𝜀0 = 1 para 𝑚 > 0. Por
𝑃
esto, (1⁄𝑇) ∑𝑇𝑡=1(𝑡⁄𝑇) 𝜀𝑡 → 0.
Estimación Coherente de Segundos Momentos

A continuación, se consideran las condiciones bajo la cual
𝑇
𝑃
(1⁄𝑇) ∑ 𝑌𝑡 𝑌𝑡−𝑘 → 𝐸(𝑌𝑡 𝑌𝑡−𝑘 )
𝑡=1

(por simplicidad notativa, asumimos aquí que la muestra consiste de T + 𝑘 observaciones en Y).
Suponga que 𝑌𝑡 = ∑∝ ∞
𝑗=0 𝜓𝑖 𝜀𝑡−𝑗 , donde ∑𝑗=0|ψ𝑗 | < ∞ y {𝜀𝑡 } es una secuencia i.i.d con 𝐸|𝜀𝑡 |
𝑟
para alguna r> 2. Tome en cuenta que el segundo momento poblacional puede ser escrito9
∞ ∞
𝐸(𝑌1 𝑌1−𝐾 ) = 𝐸 (∑ 𝜓𝑢 𝜀𝑡−𝑢 ) (∑ 𝜓𝑣 𝜀𝑡−𝑘−𝑣 )

𝑢=0 𝑣=0
∞ ∞
= 𝐸 (∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )
𝑢=0 𝑣=0
[7.2.13]
∞ ∞
= ∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )
𝑢=0 𝑣=0
Defina 𝑋𝑡.𝑘 para ser la siguiente variable aleatoria

𝑋𝑡.𝑘 ≡ 𝑌𝑡 𝑌𝑡−𝑘 − 𝐸(𝑌𝑡 𝑌𝑡−𝑘 )
∞ ∞ ∞ ∞
= (∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 ) − (∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 ))

𝑢=0 𝑣=0 𝑢=0 𝑣=0
∞ ∞
= ∑ ∑ 𝜓𝑢 𝜓𝑣 . [𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )]

𝑢=0 𝑣=0
Considere un pronóstico de 𝑋𝑡.𝑘 en las bases de Ω𝑡−𝑚 ≡ {𝜀𝑡−𝑚 𝜀𝑡−𝑚−1 … . } para 𝑚 > 𝑘
∞ ∞
𝐸(𝑋𝑡.𝑘 |Ω𝑡−𝑚 ) = ∑ ∑ 𝜓𝑢 𝜓𝑣 . [𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )]

𝑢=𝑚 𝑣=𝑚−𝑘
El valor expectativo absoluto de este pronóstico está delimitado por
∞ ∞
𝐸|𝐸(𝑋𝑡.𝑘 |Ω𝑡−𝑚 )| = 𝐸 | ∑ ∑ 𝜓𝑢 𝜓𝑣 . [𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )]|

∞ ∞
≤ 𝐸(∑ ∑ |𝜓𝑢 𝜓𝑣 |. |𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )|)

∞ ∞
≤ ∑ ∑ |𝜓𝑢 𝜓𝑣 |. 𝑀
Para algunos M< ∞ .Define

∞ ∞ ∞ ∞
𝜉𝑚 ≡ ∑ ∑ |𝜓𝑢 𝜓𝑣 | = ∑ |𝜓𝑢 | ∑ |𝜓𝑣 |

𝑢=𝑚 𝑣=𝑚−𝑘 𝑢=𝑚 𝑣=𝑚−𝑘
∞
Entonces {𝜓𝐽 }𝑗=0 es absolutamente sumatorio, lim ∑∞
𝑢=𝑚|𝜓| = 0 Y lim 𝜉𝑀 = 0. Esto cumple
𝑚→∞ 𝑚→∞
que 𝑋𝑡.𝑘 es una L1-mixingala con respecto a Ω ,con coeficiente 𝐶𝑡 = 𝑀.Por otra parte , 𝑋𝑡.𝑘 es
9 9Tenga en cuenta que
∞ ∞ ∞ ∞
∑ ∑|𝜓𝑢 𝜓𝑣 | = ∑|𝜓𝑢 | ∑ 𝜓𝑣 < ∞

𝑢=0 𝑣=0 𝑢=0 𝑣=0
Y 𝐸|𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 | < ∞, permitiéndonos mover el operador expectativo dentro de los signos de sumatoria en la última línea de [7.2.13]

uniformemente integrable ,de una adaptación simple del argumento en la Proposicion 7.7(b)
(Revise el ejercicio 7.5).Por tanto
𝑇 𝑇
1 1 𝑃
( ) ∑ 𝑋𝑡.𝑘 = ( ) ∑[𝑌𝑡 𝑌𝑡−𝑘 − 𝐸(𝑌𝑡 𝑌𝑡−𝑘 )] → 0
𝑇 𝑇
𝑡=1 𝑡=1
Del cual
𝑇
1 𝑃
( ) ∑ 𝑌𝑡 𝑌𝑡−𝑘 → 𝐸(𝑌𝑡 𝑌𝑡−𝑘 )
𝑇
𝑡=1
[7.2.14]
Esto es evidente de deducir de [7.2.14] que la j-ésima autocovarianza muestral para una muestra de
tamaño T da una estimación constante de la autocovarianza poblacional
𝑇
1 𝑃
( ) ∑ (𝑌𝑡 −𝑌𝑇 ) (𝑌𝑡−𝑘 −𝑌𝑇 ) → (𝑌𝑡 − 𝜇) (𝑌𝑡−𝑘 − 𝜇)
𝑇
𝑡=𝐾+1
[7.2.15]
Donde 𝑌𝑇 = (1/𝑇) ∑𝑇𝑡=1 𝑌𝑡 ; vea el ejercicio 7.6
Teorema del límite central para una secuencia de diferencia de Martingala

A continuación consideraremos la distribución asintótica de √𝑇 veces la media muestral. La
siguiente versión del teorema del límite central puede con frecuencia ser aplicado
Proposición 7.8: (White, 1984, Collary 5.25, p.130). Sea {𝑌𝑡 }∞
𝑡=1 una secuencia escalar de diferencia de
Martingala con 𝑌𝑇 = (1/𝑇) ∑𝑇𝑡=1 𝑌𝑡 . Suponga que (𝑎)𝐸(𝑌𝑇2 ) = 𝜎𝑡2 > 0 con (1/𝑇) ∑𝑇𝑡=1 𝜎𝑡2 → 𝜎 2 >
𝑃 𝐿
0, (𝑏)𝐸|𝑌𝑡 |𝑟 < ∞ para alguna r> 2 y toda t, y (𝑐)(1/𝑇) ∑𝑇𝑡=1 𝑌12 → 𝜎 2 . Entonces √𝑇 𝑌 𝑇 → 𝑁(0, 𝜎 2 ).
Nuevamente, la proposición 7.8 puede ser extendida para formar {𝑌𝑡.𝑇 } como sigue. Sea
{𝑌𝑡.𝑇 }𝑇𝑡=1 2 )
una secuencia de diferencia de Martingala con 𝐸(𝑌𝑡.𝑇 2
= 𝜎𝑡.𝑇 > 0. Sea{𝑌𝑡.𝑇+1 }𝑇+1
𝑡=1 una
2 2
secuencia de diferencia Martingala diferente potencialmente con 𝐸(𝑌𝑡.𝑇+1 ) = 𝜎𝑡.𝑇+1 > 0. Si (a)
(1/𝑇) ∑𝑇𝑡=1 𝜎𝑡.𝑇
2
→ 𝜎 2 , (𝑏)𝐸|𝑌𝑡.𝑇 |𝑟 < ∞ para alguna r> 2 y toda t, y T y (𝑐)(1/𝑇) ∑𝑇𝑡=1 𝑌1.𝑇2
𝑃 𝐿
→ 𝜎 2 . Entonces √𝑇 𝑌 𝑇 → 𝑁(0, 𝜎 2 ).
La proposición 7.8 también generaliza fácilmente a secuencias de vectores de diferencias de
Martingala.
Proposición 7.9 :sea {𝑌𝑡 }∞
𝑡=1 una secuencia de diferencia de martingala de un vector n-dimensional con 𝑌 𝑇 =
(1/𝑇) ∑𝑇𝑡=1 𝑌𝑇 .Suponga que (a) 𝐸(𝑇𝑡 𝑌𝑡1 ) = 𝛺,una matriz de definición positiva con (1/𝑇) ∑𝑇𝑡=1 𝛺1 →
𝛺,una matriz de definición positiva ;(b) 𝐸(𝑌𝑖𝑡 𝑌𝐽𝑡 𝑌𝑙𝑡 𝑌𝑚𝑡 ) < ∞ para toda t y toda i,j,l y m (incluyendo i=j =l
𝑝 𝐿
=m),donde 𝑌𝑖𝑡 es el ith elemento del vector𝑌𝑖𝑡 ; y (c) (1/𝑇) ∑𝑇𝑡=1 𝑇𝑡 𝑌𝑡1 → 𝛺. Entonces √𝑇 𝑌 𝑇 → 𝑁(0, 𝛺)
Nuevamente, la proposición 7.9 sostiene para matrices {𝑌𝑡 }∞
𝑡=1 conformando las
condiciones establecidas.
Para aplicar la proposición 7.9, necesitaremos con frecuencia asumir que un cierto proceso
tiene momentos de cuarto orden finitos .El siguiente resultado puede ser útil para este fin.

Proposición 7.10: sea X, un proceso estocástico estacionario estrictamente con 𝐸(𝑋𝑡4 ) = 𝜇4 < ∞. Sea 𝑌𝑡 =
∑∞ ∞
𝑗=0 ℎ𝑗 𝑥𝑡−𝑗 , donde∑𝑗=0|ℎ𝑗 | < ∞ . Entonces Y, es un proceso estocástico estacionario estrictamente con
𝐸|𝑌𝑡 𝑌𝑠 𝑌𝑢 𝑌𝑉 | > ∞ para toda t,s,u y v.
Ejemplo 7.14
Sea Y1 =∅1 𝑌𝑡−1 + ∅2 𝑌𝑡−2 + ⋯ + ∅𝑝 𝑌𝑡−𝑝 + 𝜀𝑡𝑠 ,donde {𝜀𝑡 } es una secuencia i.i.d y donde bases de
(1 − 𝜙1 𝑧 − 𝜙1 𝑧 2 − ⋯ − 𝜙𝑝 𝑧 𝑝 ) = 0 se encuentran fuera del circulo de la unidad .Vimos en el
Capítulo 3 que Y puede ser escrita como ∑∞ ∞
𝑗=0 𝜓𝑗 𝜀𝑡−𝑗 con∑𝑗=0|𝜓𝑗 | < ∞ ,la Proposición 7.10
establece que si 𝜀𝑡 ,tiene momentos de cuarto orden finitos ,entonces 𝑌𝑡 también lo hace .
Ejemplo 7.15
Sea Yt =∑∞ ∞ 2 2 4
𝑗=0 0𝜓𝑗 𝜀𝑡−𝑗 con ∑𝑗=0|𝜓𝑗 | < ∞ y 𝜀 i.i.d,con E(𝜀𝑡 ) = 0,(𝜀𝑡 ) = 𝜎 ,y 𝐸(𝜀𝑡 ) < ∞.
Considere la variable aleatoria X, definida por 𝑋𝑡 ≡ 𝜀𝑡 𝑌𝑡−𝑘 para 𝑘 > 0. Entonces X es una
secuencia de diferencia de martingala con varianza 𝐸(𝑋𝑡2 ) = 𝜎 2 . 𝐸(𝑌𝑡2 ) y con momento de cuarto
orden 𝐸(𝜀𝑡4 ). 𝐸(𝑌𝑡4 ) < ∞, por ejemplo 7.14.Por ende, si podemos demostrar que
𝑇
𝑝
(1/𝑇) ∑ 𝑋𝑡2 → 𝐸(𝑋𝑡2 )
𝑡=1
[7.2.16]
Entonces la proposición 7.8 puede ser aplicada para deducir que
𝑇
𝐿
(1/√𝑇) ∑ 𝑋𝑡 → 𝑁(0, 𝐸(𝑋𝑡2 ))
𝑡=1
O
𝑇
𝐿
(1/√𝑇) ∑ 𝜀1 𝑌𝑡−1 → 𝑁(0, 𝜎 2 . 𝐸(𝑋𝑡2 ))
𝑡=1
[7.2.17]
Para verificar [7.2.16], tenga en cuenta que
𝑇 𝑇
2
(1/𝑇) ∑ 𝑋𝑡2 = (1/𝑇) ∑ 𝜀𝑡2 𝑌𝑡−𝑘
𝑡=1 𝑡=1
𝑇 𝑇
(1/𝑇) ∑(𝜀𝑡2 2 2
= − 𝜎 2 )𝑌𝑡−𝑘 + (1/𝑇) ∑ 𝜎 2 𝑌𝑡−𝑘
𝑡=1 𝑡=1
[7.2.18]
2
Pero (𝜀𝑡2 − 𝜎 2 )𝑌𝑡−𝑘 es una secuencia de diferencia de martingala con momento de segundo finito,
así que, del Ejemplo 7.11
𝑇
𝑝
2
(1/𝑇) ∑(𝜀𝑡2 − 𝜎 2 )𝑌𝑡−𝑘 →0
𝑡=1

Adicionalmente sigue del resultado [7.2.14] que
𝑇
1 2
𝑝
( ) ∑ 𝜎𝑡2 𝑌𝑡−𝑘 → 𝐸(𝑌𝑡2 )
𝑇
𝑡=1
Por tanto, [7.2.18] implica
𝑇
1 𝑝
( ) ∑ 𝑋𝑡2 → 𝜎 2 𝐸(𝑌𝑡2 )
𝑇
𝑡=1
Como se afirmó en [7.2.16]
Teorema del limite central para procesos estocásticos estacionarios

Ahora presentamos un teorema de limite central para una secuencia correlacional en seria
Recuerde de la proposición 7.5 que la media muestral tiene varianza asitotica dada por
(1⁄𝑇) ∑∝ ̅
𝑗=−∝ 𝑦𝑗 . Por ello, esperaríamos que el teorema de limite central tome la forma √𝑇 (𝑌𝑇 −
𝐿
𝜇) → 𝑁 (0, ∑∝
𝑗=−∝ 𝑦𝑗 ) . La siguiente proposición da como resultado de su tipo.
Proposición 7.11 (Anderson ,1971,p.429) Sea

𝑌𝑇 − 𝜇 + ∑∝
𝑗=0 𝜓𝑗 𝜀1−𝑗 ∗
Donde {𝜀𝑡 } es una secuencia de i.i.d variables aleatorias con (𝜀𝑡∝ ) < ∞, entonces
𝐿 ∝
√𝑇(𝑌̅𝑇 − 𝜇) → 𝑁 (0, ∑ 𝑦𝑗 )
𝑗=−∝
[7.2.19]
Una versión de [7.2.19] puede también ser desarrollada por {𝜀𝑡 } una secuencia de diferencia
de martingala satisfaciendo ciertas restricciones,ver Phillips y Solo (1992)
APENDICE 7.A. Prueba de la proposiciones del capítulo 7

Prueba de la proposición 7.1 Denote 𝑔𝑗 (𝑐) el 𝑗𝑡ℎ elemento de 𝑔(𝑐). 𝑔𝑗 : 𝑅 𝑛 → 𝑅 ’ . Necesitamos
demostrar que para cualquier 𝛿 > 0 y 𝜀 > 0 existe una N tal que para toda 𝑇 ≥ 𝑁
{⃒𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)⃒ > 𝛿} < 𝜀
[7.A.1]
La continuidad de 𝑔𝑗 (. ) implica que existe una ƞ tal que ⃒𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)⃒ > 𝛿 solo si
[(𝑋1𝑇 − 𝑐1 )2 + (𝑋2𝑇 − 𝑐2 )2 + ⋯ + (𝑋𝑛𝑇 − 𝑐𝑛 )2 ] > ƞ2
[7.A.2]
Este seria el caso solo si (𝑋1𝑇 − 𝑐1 )2 para alguna i. Pero por el hecho que 𝑋𝑖𝑇 − 𝑐𝑖 para cualquier t
y valores especificados de 𝜀 y ƞ podemos encontrar un valor de N tal que
𝑃{|𝑋𝑖𝑇 − 𝑐𝑖 | > ƞ⁄√ƞ < 𝜀 ⁄ƞ}
Apéndice 7.A Prueba de las proposciones del capítulo 7 203

Para toda 𝑇 > 𝑁
Recuerde la norma de adicion elemental para la probabilidad de cualquier evento A y B
𝑃{𝐴 𝑜 𝐵} ≤ 𝑃{𝐴 } + 𝑃{𝐵}
De la cual sigue que
𝑃{|𝑋𝑖𝑇 − 𝑐𝑖 | > ƞ⁄√ƞ o (|𝑋2𝑇 − 𝑐2 | > ƞ⁄√ƞ) o . . . (|𝑋𝑛𝑇 − 𝑐𝑛 | > ƞ⁄√ƞ)}
Por tanto,
{[(𝑋1𝑇 − 𝑐1 )2 + (𝑋2𝑇 − 𝑐2 )2 + . . . + (𝑋𝑛𝑇 − 𝑐𝑛 )2 ] > ƞ2 } < 𝜀
Para toda 𝑇 ≥ 𝑁. Ya que [7.A.2] fue una condición necesaria para que |𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)| sea
mucho más grande que 𝛿, de ello se desprende que la probabilidad que |𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)| es
mucho más grande que 𝛿 es menos que 𝜀 el cual fue para ser mostrado
Prueba de la Proposición 7.2: Denote S el conjunto de toda x tal que |𝑥 − 𝑐| > 𝛿 y denote S su
complemento (toda 𝑥 tal que |𝑥 − 𝑐| < 𝛿). Entonces, para 𝑓𝑥 (𝑥) la densidad de 𝑥,
𝐸|𝑋 − 𝑐|𝑟 = ∫|𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑙 𝑙
= ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥 + ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆 𝑆
𝑙
≥ ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆
𝑙
≥ ∫ 𝛿 𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆
𝛿 𝑟 𝑃{|𝑥 − 𝑐| < 𝛿}
A fin de que
𝐸|𝑋 − 𝑐|𝑟 ≥ 𝛿 𝑟 𝑃{|𝑥 − 𝑐| > 𝛿}
Prueba de la proposición 7.7: La parte (a) es establecida como en Andrews (1988,p.463) usando
la desigualdad de Holder ( ver ,por ejemplo ,White 1984,p.30), la cual establece que para r> 1,si
𝐸[|𝑌|1 ] < ∞ y 𝐸[|𝑊|𝑟𝑡(𝑟−1) ] < ∞ ,entonces
1/𝑟 (𝑟−1)/𝑡
𝐸|𝑌𝑊| ≤ {𝐸{|𝑌|𝑟 }} 𝑥{𝐸[(𝑊)𝑟𝑡(𝑟−1) ]}
Esto implica que
𝑟𝑡(𝑟−1) (𝑟−1)/𝑡
1/𝑟
𝐸 (|𝑌1 |. 𝛿||𝑌1 |≥𝑒| ) ≤ {𝐸{|𝑌1 |𝑟 } } 𝑥 {𝐸 [(𝛿||𝑌1 |≥𝑒| ) ]}
[7.A.4]

Ya que 𝛿||𝑌1 |≥𝑒| es también 0 o 1, sucede que
𝑟𝑡(𝑟−1)
(𝛿||𝑌1 |≥𝑒| ) = 𝛿||𝑌1 |≥𝑒|
Y asi
𝑟𝑡(𝑟−1) 𝐸|𝑌1 |
𝐸 [(𝛿||𝑌1 |≥𝑒| ) ] = 𝐸 [𝛿||𝑌1 |≥𝑒| ] = ∫ 1. ∫ 𝑟𝑡 (𝑌𝑡 )𝑑𝑦 = 𝑃{|𝑌1 | ≥ 𝑒} ≤
|𝑌1 |≥𝑒 𝐶
[7.A.5]
Donde el ultimo resultado sigue desde la desigualdad de Chebyshev .Sustituyendo [7.A.5] en [7.A.4].
1/𝑟 𝐸|𝑌1 |
𝐸 (|𝑌1 |𝛿||𝑌1 |≥𝑒| ) ≤ {𝐸{|𝑌𝑡 |𝑟 }} 𝑋{ }
𝐶
[7.A.6]
Recuerde que 𝐸{|𝑌𝑡 |𝑟 } < 𝑀, para toda t, Implicando que ahí también existe una M< ∞ tal que
𝐸|𝑌1 | < 𝑀 para toda t. Así pues 𝐸 (|𝑌1 |𝛿||𝑌1 |≥𝑒| ) ≤ (𝑀𝑙)1/𝑟 𝑥(𝑀/𝐶)(𝑟−𝑡)/𝑟
Esta expresión puede ser hecha tan pequeña como sea deseada por elegir a el suficientemente
mayor c .Por ende, la condición [7.2.112] establece asegurar que {𝑌𝑡 } es uniformemente integrable
Para establecer (b), tenga en cuenta que
𝐸 (|𝑌1 |𝛿||𝑌1 |≥𝑒| ) = 𝐸 |∑∞

𝑗=−∞ ℎ𝑗 𝑋𝑡−𝑗 . 𝛿||𝑌1 |≥𝑒| | ≤
𝐸 {∑∞
𝑗=−∞|ℎ𝑗 |. |𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| } [7.A.7]
𝑟
Ya que 𝐸[|𝑋𝑡−𝑗 | ] < 𝑀, y como𝛿||𝑌1 |≥𝑒| ≤ 1, esto demuestra que 𝐸 {|𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| } es
∞
delimitada. Ya que {ℎ𝑗 } es absolutamente sumatorio, podemos traer el operador de la
𝑗=−∞
expectativa dentro de la suma en la última expresión de [7.A.7] para deducir que
∞ ∞
𝐸 { ∑ |ℎ𝑗 |. |𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| } = ∑ |ℎ𝑗 |. 𝐸 {|𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| }

𝑗=−∞ 𝑗=−∞
∞ (𝑟−1)𝑟
𝑟 𝑡/𝑟 𝐸|𝑌𝑡 |
≤ ∑ |ℎ𝑗 |. {𝐸{|𝑋𝑡−𝑗 | } } 𝑥{ }
𝑐
𝑗=−∞
Donde la última desigualdad demuestra los mismos argumentos como en [7.A.6].Por consiguiente,
[7.A.7] se convierte en
∞ (𝑟−1)𝑟
, 𝑡/𝑟
𝐸|𝑌𝑡 |
𝐸 (|𝑌𝑡 |. 𝛿||𝑌1 |≥𝑒| ) ≤ ∑ |ℎ𝑗 |𝑥(𝑀 ) 𝑥{ }
𝑐
𝑗=−∞
[7.A.8]
Pero ciertamente, 𝐸|𝑌𝑡 | es delimitada
∞ ∞
𝐸|𝑌𝑡 | = 𝐸 | ∑ ℎ𝑗 𝑋𝑗−1 | ≤ ∑ |ℎ𝑗 |. 𝐸|𝑋𝑡−𝑗 | = 𝑘 < ∞

𝑗=−∞ 𝑗=−∞
Por este motivo, de [7.A.8]
Apéndice 7.A Prueba de las proposciones del capítulo 7 205

∞
𝑡 𝐾 (𝑟−1)𝑟
𝐸 (|𝑌𝑡 |. 𝛿||𝑌1 |≥𝑒| ) ≤ (𝑀, )𝑟 ( ) ∑ |ℎ𝑗 |
𝑐
𝑗=−∞
[7.A.9]
Ya que∑∞ 𝑗=−∞|ℎ𝑗 | es finito, [7.A.9] puede nuevamente ser hecho tan pequeño como sea deseado
por elegir el suficientemente mayor c
Prueba de la proposición 7.9 Considere Y, ≡ 𝜆, 𝑌 para 𝜆 cualquier vector real (𝑛𝑥1). Entonces
𝑌𝑡 es una secuencia de diferencia de martingala. A continuación verificaremos que cada una de las
condiciones de la proposición..
7.8 Este satisfecha , (a) E(𝑌12 ) = 𝜆, Ω𝑡 𝜆 ≡ 𝜎𝑡2 > 0 ,por determinaciones positivas de Ω,.Del mismo
modo,
𝑇 𝑇
(1/𝑇) ∑ 𝜎𝑡2 = 𝜆 `(1/𝑇) ∑ Ω, 𝜆 → 𝜆`Ω𝜆 ≡ 𝜎 2
𝑡=1 𝑡=1
Con 𝜎 > 0 , por determinaciones positivas de Ω .(b) 𝐸(𝑌𝑡4 )es una suma finita de términos de la
2
forma 𝜆𝑖 𝜆𝑗 𝜆𝑙 𝜆𝑚 𝐸(𝑌𝑖𝑡 𝑌𝑖𝑗 𝑌𝑖𝑙 𝑌𝑖𝑚 ) y así es delimitada para toda t por condición (b) de la Proposición
7.9;por tanto ,Y, satisface la condición (b) de la Proposición 7.8 Para r=4.(c) Define
𝑆 𝑇≡(1/𝑇)𝑋 ∑𝑇𝑡=1 𝑌12 y 𝑆 𝑇≡(1/𝑇) ∑𝑇𝑡=1 𝑌1 𝑌11 ,tengiendo en cuenta que 𝑆𝑇 = 𝜆`𝑆𝑇 𝜆.Ya que , ST es una
función continua de ST, conocemos que plim ST =𝜆`Ω𝜆 ≡ 𝜎 2 ,donde Ω es dada como el plim de ST
.Por ello, Y satisface las condiciones (a) a través de (c) de la proposicion 7.8 y asi √𝑇 𝑌𝑇
𝐿 𝐿
→ 𝑁(0, 𝜎 2 ) o √𝑇𝑌𝑇 → 𝜆`𝑌,donde Y~(0, Ω).Ya que esto es verdad para cualquier 𝜆,esto confirma
𝐿
la afirmación que √𝑇 𝑌 𝑇 → 𝑁(0, 𝜎 2 )
Prueba de la Proposición 7.10: Sea Y≡ 𝑋𝑇 𝑋𝑆 y W≡ 𝑋𝑈 𝑋𝑉 . Entonces la desigualdad Holder
implica que para r> 1
(𝑟−1)/𝑟
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ {𝐸|𝑥𝑡 𝑥𝑠 |𝑟 }1/𝑟 𝑥{𝐸|𝑥𝑡 𝑥𝑠 |𝑟/(𝑟−1) }
Para r=2, esto significa
1 1
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ {𝐸(𝑥𝑡 𝑥𝑠 )2 }2 𝑥{𝐸(𝑥𝑡 𝑥𝑠 )2 }2 ≤ 𝑚𝑎𝑥{𝐸(𝑥𝑡 𝑥𝑠 )2 , 𝐸(𝑥𝑢 𝑥𝑣 )2 }
Una segunda aplicación de la desigualdad Holder con 𝑦 ≡ 𝑋 2 y 𝑦 ≡ 𝑋 2 revela que
(𝑟−1)/𝑟
𝐸(𝑥𝑡 𝑥𝑠 )2 = 𝐸( 𝑥𝑡 2 , 𝑥𝑠 2 ) ≤ {(𝐸(𝑥𝑡 2 ))𝑟 }1/𝑟 𝑥{(𝐸(𝑥𝑠 2 ))𝑟(𝑟−1) }
Nuevamente para r=2, esto implica desde el estricto estacionario de {𝑥𝑡 } que
𝐸(𝑥𝑡 𝑥𝑠 )2 ≤ 𝐸(𝑥𝑡 4 )
Por tanto, si {𝑥𝑡 } es estrictamente estacionaria con momento de cuarto orden finito ,entonces
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ 𝐸(𝑥𝑡 4 ) = 𝜇4
Para todo t,s,u y v
Observe más allá que
∞ ∞ ∞ ∞
𝐸|𝑌𝑡 𝑌𝑠 𝑌𝑢 𝑌𝑣 | = 𝐸 |∑ ℎ𝑖 𝑋𝑡−𝑖 ∑ ℎ𝑗 𝑋𝑠−𝑗 ∑ ℎ𝑙 𝑋𝑢−𝑙 ∑ ℎ𝑚 𝑋𝑣−𝑚 |

𝑖=∞ 𝑗=∞ 𝑡=∞ 𝑚=∞
∞ ∞
∞
∞
= 𝐸 ||∑ ∑ ∑ ∑ ℎ𝑖 ℎ𝑗 ℎ𝑙 ℎ𝑚 𝑋𝑡−𝑖 𝑋𝑠−𝑗 𝑋𝑢−𝑙 𝑋𝑣−𝑚 ||

𝑚=0
𝑙=0
𝑖=0 𝐽=0

∞ ∞
∞
∞
≤ 𝐸{∑ ∑ ∑ ∑ |ℎ𝑖 ℎ𝑗 ℎ𝑙 ℎ𝑚 |. |𝑋𝑡−𝑖 𝑋𝑠−𝑗 𝑋𝑢−𝑙 𝑋𝑣−𝑚 |}

𝑚=0
𝑙=0
𝑖=0 𝐽=0
Pero
∞ ∞ ∞
∞
∞ ∞ ∞ ∞
∑ ∑ ∑ ∑ |ℎ𝑖 ℎ𝑗 ℎ𝑡 ℎ𝑚 | = ∑ |ℎ𝑖 | ∑ |ℎ𝑗 | ∑ |ℎ𝑙 | ∑ |ℎ𝑚 | < ∞

𝑚=0 𝑗=0 𝑙=0 𝑚=0
𝑙=0
𝑖=0 𝐽=0 𝑖=0
Y
𝐸|𝑋𝑡−𝑖 𝑋𝑠−𝑗 𝑋𝑢−𝑙 𝑋𝑣−𝑚 | < 𝜇4
Para cualquier valor de cualquier de los índices, Por consiguiente,
∞ ∞
∞
∞
𝐸|𝑌𝑡 𝑌𝑠 𝑌𝑢 𝑌𝑣 | < ∑ ∑ ∑ ∑ |ℎ𝑖 ℎ𝑗 ℎ𝑙 ℎ𝑚 |. 𝜇4 < ∞

𝑚=0
𝑙=0
𝑖=0 𝐽=0
7.1 Denote {𝑋t } una secuencia de escalares aleatorios con plim 𝑋t = 𝜉. Sea. {𝑐t } Denote una
secuencia de escalares deterministas con IimT→∞ ct = 𝑐. Sea 𝑔: ℝ2 → ℝ1 continuo en (𝜉, 𝑐) .
𝑃
Demuestre que 𝑔(𝑋t , ct ) → 𝑔(𝜉, 𝑐).
7.2 Sea Yt = 0.8Yt−1 +𝜀𝑡 con 𝐸(𝜀𝑡 𝜀𝑇 ) = 1 para 𝑡 = 𝑇 y de lo contrario cero

(a)Calcular lim 𝑇. 𝑉𝑎𝑟(𝑌̅𝑇 ).
𝑇→𝑥
(b)¿Cuán grande sería la muestra mayor que podríamos necesitar en orden de tener 95% de confían
que 𝑌̅𝑇 difiera del verdadero valor por no más de 0.1?
7.3 ¿Una secuencia de diferencia de martingala tiene que ser covarianza estacionaria?
7.4 Sea Yt =∑𝑥𝑗=0 𝜑𝑗 𝜀𝑡−𝑗 , donde ∑𝑥𝑗=0|𝜑𝑗 | < ∞ y {𝜀t } es una secuencia de diferencia de martingala
con 𝐸(𝜀𝑡2 ) = 𝜎 2 . ¿Es Yt una covarianza estacionaria?
7.5 Defina X t,k ≡ ∑𝑥𝑢=0 ∑𝑥𝑣=0 𝜑𝑢 𝜑𝑣 [𝜀𝑡−𝑢 𝜀𝑡−𝑘−1 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 ] ,donde 𝜀𝑡 es una secuencia
i.i.d con 𝐸|𝜀𝑡 | < 𝑀´´ para algún 𝑟 > 2 y 𝑀´´ < ∞ con ∑𝑥𝑗=0|𝜑𝑗 | < ∞.Demuestre que X t,k es
uniformemente integrable.
7.6 Derive el resultado de [7.2.15]
7.7 Sea Yt , sigue un proceso 𝐴𝑅𝑀𝐴 (𝑝. 𝑞), (1 − 𝜙1 𝐿 − 𝜙2 𝐿2 − ⋯ 𝜙𝑃 𝐿𝑃 )(Yt − 𝜇) con bases de
(1 − 𝜙1 𝑧 − 𝜙2 𝑧 2 − ⋯ 𝜙𝑃 𝑧 𝑃 ) = 0 y (1 − 𝜃1 𝑧 − 𝜃2 𝑧 2 − ⋯ 𝜃𝑞 𝑧 𝑞 ) = 0 fuera del circulo de la
unidad .Suponga que 𝜀𝑡 ,,tiene media cero y es independiente de 𝜀𝜏 ,para 𝑡 = 𝜏 con 𝐸(𝜀𝑡2 ) = 𝜎 2 y
𝐸(𝜀𝑡4 ) < ∞ para toda 𝑡.P ruebe lo siguiente
𝑇
𝑝
(a) (1⁄𝑇) ∑ 𝑌𝑡 → 𝜇
𝑡=1
𝑇
𝑝
(b)[1⁄(𝑇 − 𝑘)] ∑ 𝑌𝑡 𝑌𝑡−𝑘 → 𝐸(𝑌𝑡 𝑌𝑡−𝑘)
𝑡=𝑘+1
Anderson,T.W.1971.El análisis estadísticos de series de tiempo.Nueva York:Willey.

Andrews,Donald W.K.1988’’Leyes de grandes números para variables aleatorias distribuidas no
idénticamente dependientes ‘’ Teoria Econometrica 4:458-67
Hoel,Paul G,Sidney C.Port ,y Charles J Stone.1971.Introduccion a pa teoria de probabilidad
.Boston: Houghton Mifflin.
Marsden,Jerrold E . 1974.Analisis Clasico Primario .San Francisco :Hombre Libre
Phillips,Peter C.B,y Victor Solo ,1992.’’Asintoticos para procesos lineales’’. Análisis de Estadística
20:971-1001
Rao ,C Radhakrishna,1973.Inferencia estadística lineal y su saplicaciones,2ª ed.Nueva York:Wiley
Royden,H.L1968.Analisis Real,2ª ed.Nueva York:Macmillan
Theil,Henri.1971.Principos de la economía .Nueva York: Wiley
White,Halbert.1984.Teoria asintótica para econométricos.Orlando,Fla:Academia de prensa

8
.
Modelo de Regresión Lineal
Nosotros tenemos un camino conveniente para estimar los parámetros de una autoregresión con la
regresión de mínimos cuadrados ordinarios, una técnica de estimación que que también es usada para
un gran número de modelos. Este capítulo revisa las propiedades de la regresión lineal. La sección 8.2
da resultados análogos de la estimación de los mínimos cuadrados ordinarios de más modelos generales
como las autoregresiones y regresiones en la cual los disturbios son no Gaussianos, heterocedásticos y
autocorrelacionados. Los modelos de regresión lineal también pueden ser estimados por los mínimos
cuadrados ordinarios, los cuales son descritos en la sección 8.3.
8.1. Revisión de los mínimos cuadrados ordinarios con

regresores determinísticos i.i.d y perturbaciones Gaussianas.
Suponemos que un escalar y, es relatado para un (𝑘 𝑥 1) vector 𝑥𝑡 y un término de perturbación 𝑢𝑡
acorde al modelo de regresión.
𝑦𝑡 = 𝑥𝑡′ 𝜷 + 𝑢𝑡 [8.1.1]
Esta relación puede ser usada para describir cada una de las variables aleatorias o su realización. En
modelos de regresión discutidas, esto resulta engorroso de distinguir notacionalmente entre las variables
aleatorias y su realización, en la practica estándar esta para usar las letras pequeñas para cada uno.
Esta sección revisa estimaciones e test de hipótesis de 𝜷 bajo la certeza que 𝒙𝒕 es

determinístico y 𝑢𝑡 es i.i.d Gaussiano. La siguiente sección discute algunos aspectos bajo la lógica del
modelo de regresión lineal. Primero resumimos los mecanismos de la regresión lineal y presentamos
algunas fórmulas que llevan a ser independientes del supuesto estadístico.
El Algebra de las Regresiones Lineales

Dado un ejemplo observado de (y1 y2 ,. . . , yτ ) de los Minímos cuadrados ordinarios
estimados de 𝜷 esto minimiza la suma de los residuos al cuadrado (RSS):
T
RSS = ∑t=1(yt − 𝐱𝐭′ 𝜷)2 [8.1.2]
Vimos en el apéndice 4.A el capítulo 4 que la estimación MCO es dada por

T −1 T
𝒃= [∑ xt xt′ ] [∑ xt yt ] [8.1.3]
t=1 t=1
8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 209
T
Asumiendo que la (k x k) matriz [∑t=1 xt xt′ ] es no singular. La muestra residual MCO para la
observación t es
𝑢̂ = yt − xt′ 𝒃 [8.1.4]
Con frecuencia el modelo en [8.1.1] es escrito en matriz notativa como
y = 𝐗𝜷 + u, [8.1.5]
Donde
y1 x1′ u1
y2 x2′ u2
y ≡ . X ≡ . u ≡ .
(𝑡𝑥1) (𝑡𝑥1)
(𝑡𝑥1) . . .
[yT ] [xT′ ] [uT ]
Luego las estimaciones de los MCO estimada en [8.1.3] pueden ser escritas como
−1
x1′ y1
x2′ y2
𝒃 = [𝑥1 𝑥2 . . . 𝑥𝑇 ] . [𝑥1 𝑥2 . . . 𝑥𝑇 ] . [8.1.6]
. .
{ [xT′ ] } { [yT ] }
= ((𝑿′ 𝑿)−𝟏 𝑿′ 𝒚
Similarmente el vector de muestras residuales MCO [8.1.4] puede ser escrito como
̂ = y − 𝐗𝐛 = y − 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ 𝑦 = [𝐈𝐓 − 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ ]𝑦 = 𝑴𝐗 𝒚

𝐮 [8.1.7]
Donde 𝑴𝐗 es definida como la siguiente (T × T) matriz:
𝑴𝐗 = 𝐈𝐓 − 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ [8.1.8]
Uno puede verificar fácilmente que 𝑴𝐗 es simétrica: 𝑴𝐗 = 𝐌𝐱′ ;
Idempotente: 𝑴𝐗 𝑴 𝐗 = 𝑴𝐗 ;
Y ortogonal a las columnas de X: 𝑴𝐗 𝑿 = 𝟎 [8.1.9]
Por tanto, de [8.1.7], las muestras residuales MCO son ortogonales a las variables explicativas en X:
̂ ´ 𝐗 = 𝑦 ′ 𝐌𝐱′ 𝑿 = 0′
𝐮 [8.1.10]
La muestra residual MCO (𝑢 ̂𝑡 ) xxx podría ser distinguida de la población residual ut . La muestra
̂ = yt − xt′ 𝒃) (mientras la población residual
residual es construida de la estimación de la muestra b(𝑢
es una construcción hipotética basada en el verdadero valor poblacional 𝜷(𝑢 = yt − xt′ 𝜷). La relación
entre la muestra mientras la población residual es una construcción hipotética basada en el verdadero
valor poblacional xxx. La relación entre la muestra y la población residual puede ser encontrada
sustituyendo [8.1.5] en [8.1.7]:
𝑢 = 𝑴𝒙 (𝑿𝜷 + 𝒖) = 𝑴𝒙 𝒖 [8.1.11]
210 Capítulo 8 | Modelo de Regresión Lineal

La diferencia entre la estimación MCO b y el verdadero parámetro poblacional β es encontrado
sustituyendo [8.1.5] en [8.1.6]
𝒃 = (𝑿′ 𝑿)−𝟏 𝑿′[𝑿𝜷+𝒖] = 𝜷 + (𝑿′ 𝑿)−𝟏 𝑿′𝒖 [8.1.12]

La adaptación de una regresión MCO es a veces descrita en términos de la muestra del
coeficiente de correlación múltiple, o 𝑅 2. La no centrada 𝑅 2 (denotada por 𝑅𝑢2 ) es definida como la suma
de cuadrados de los valores ajustados (𝒙′𝒕 𝒃) de la regresión como una fracción de la suma de cuadrados
de 𝑦:
∑𝑇𝑡=1( 𝒃′ 𝒙, 𝒙′ , 𝒃) 𝒃′𝑿′𝒙𝒃 𝑦′𝑿(𝑿′ 𝑿)−𝟏 𝑿′𝒚 [8.1.13]

𝑅𝑢2 = = =
∑𝑇𝑡=1 𝑦𝑡2 𝑦′𝑦 𝑦′𝑦
Si la variable explicativa en la regresión fue un término constante (𝒙𝒕 = 1), luego el valor
ajustado para cada observación podría solo ser la media muestral 𝑦̅ ya la suma de cuadrados de valores
ajustados podría ser 𝑇𝑦̅ 2 . Esta suma de cuadrados es con frecuencia comparada con la suma de
cuadrados cuando un vector de variables xxx es incluido en la regresión. La centrada 𝑅 2 (denotada por
𝑅𝑐2) es definida como
𝒚′ 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ 𝒚 − 𝑇𝑦̅ 2 [8.1.14]

𝑅𝑐2 =
𝑦 ′ 𝑦 − 𝑇𝑦̅ 2
La mayoría de regresión de paquetes de software reporta la centrada 𝑅 2 en vez de la no centrada 𝑅 2. Si

la regresión incluye un término constante luego 𝑅𝑐2 debe estar entre cero y la unidad. Sin embargo, si la
regresión no incluye un término constante, entonces 𝑅𝑐2puede ser negativo
La suposición de regresión clásica

La inferencia estadística requiere suposiciones sobre las propiedades sobre las variables explicativas 𝑥𝑡 y
los residuales de la población 𝑢𝑡 . El caso más simple para analizar es el siguiente
Suposición 8.1: (a) xt es un vector de variables determinativas (por ejemplo, xt podría incluir un
término constante y funciones determinativas de t); (b) ut es i. i. d con media cero y varianza 𝜎 2 ; (c)
ut es Gaussiana.
Para resaltar el rol de cada una de estas suposiciones, primero notamos las implicaciones de la
suposición de 8.1 (a) y (b) solos, y luego el comentario sobre las implicaciones añadidas que siguen de
(c).
Propiedades del vector del coeficiente MCO estimado

bajo la suposición 8.1 (a) y (b)
En forma vectorial, la suposición 8.1 (b) podría ser escrita 𝐸(𝑢) = 0 𝑦 𝐸(𝑢𝑢′ ) = 𝜎 2 𝐼𝑇 .
Tomando expectativas de [8.1.12] y usando estas condiciones establece que xxx es imparcial,
𝐸(𝑏) = 𝜷 + (𝑿′ 𝑿)−𝟏 𝑋 ′ [𝐸(𝑢)] = 𝜷 [8.1.15]

Con matriz covarianza- varianza dado por
𝐸[(𝑏 − 𝛽)(𝑏 − 𝛽)′ ] = 𝐸[(𝑿′ 𝑿)−1 𝑋 ′ 𝑢𝑢′ 𝑿(𝑿′ 𝑿)−𝟏 ] [8.1.16]
= (𝑋 ′ 𝑋)−1 𝑋 ′ [𝐸𝑢𝑢′ )]𝑋(𝑋′𝑋)−1
= 𝜎 2 (𝑿′ 𝑿)−𝟏 𝑿′𝑿(𝑿′ 𝑿)−𝟏
= 𝜎 2 (𝑿′ 𝑿)−1
La estimación del coeficiente MCO 𝑏 es imparcial y es una función lineal de 𝑦. El teorema

de Gauss-Markov establece que la matriz covarianza-varianza de cualquier estimador alternativo de β, si
es estimador es también imparcial y una función lineal de β, difiere de la matriz covarianza-varianza de
𝑦 por una matriz semidefinida positiva.1 Esto significa que una inferencia basada en 𝑏 sobre una
combinación lineal de los elementos de β tendrá una muy menor varianza que la inferencia
correspondiente basada en cualquier estimador imparcial lineal alternativo. El teorema Gauss-Markov
así establece la óptima estimación MCO dentro de cierta clase limitada
Propiedades del coeficiente vectorial estimado bajo la suposición 8.1 (a) a

través de (c)
Cuando es Gausseana, [8.1.12] implica que b es Gaussiana. Por ende, resultados anteriores
implican
𝒃~𝑁(𝛽, 𝜎 2 (𝑿′ 𝑿)−1 [8.1.17]
Esto puede ser demostrado más allá que bajo la suposición 8.1 (a) a través de (c), ningún estimador
imparcial de β es más eficiente que el estimador MCO 𝑏.2 Por consiguiente, con residuos Gausseanos,
el estimador MCO es óptimo
Propiedades de la varianza residual estimada bajo la suposición 8.1 (a) y (b)

La estimación MCO de la varianza de las perturbaciones 𝜎 2 es
𝑅𝑆𝑆 𝑢̂′ 𝑢̂ [8.1.18]

𝑠2 = = = 𝒖′𝑴´ 𝒙 𝑴𝒙 𝒖/(𝑇 − 𝑘)
𝑇−𝑘 𝑇−𝑘
Para 𝑀𝑥 la matriz en [8.1.8]. Recuerde que 𝑴𝒙 es simétrica e idempotente, [8.1.18] se convierte en
𝑠 2 = 𝒖′𝑴𝒙 𝒖/(𝑇 − 𝑘) [8.1.19]
También, ya que, 𝑀𝑥 es simétrica, existe una xxx matriz P tal que3

𝑴𝒙 = 𝑷Ʌ𝑷′ [8.1.20]
Y
𝑷′ 𝑷 = 𝑰𝑻 [8.1.21]
Donde Ʌ es una 𝑇 𝑋 𝑇 matriz con los valores propios de 𝑀𝑥 en la diagonal principal y ceros en otros
lugares. Tenga en cuenta de [8.1.9] que 𝑴𝒙 𝒗 = 𝟎 si 𝑣 podría ser dado por una de las 𝑘 columnas de X.
Asumiendo que las columnas de X son independientemente lineales, las 𝑘 columnas de X de esta
manera representan 𝑘 diferentes valores propios de 𝑿 cada uno asociado 𝑴𝒙 con un valor propio igual
a cero. También de [8.1.8] , 𝑀𝑥 𝑣 = 𝑣 para cualquier vector 𝑣 que es ortogonal a las columnas de 𝑋
1 1 Ver, por ejemplo, Theil (1971, pp. 119-20)

2
Ver, por ejemplo, Theil (1971, pp. 390-91
3 3 Ver, por ejemplo,, Theil (1976, p.296)

(que es ,cualquier vector 𝑋 ′ 𝑣 = 0) tal que (𝑇 − 𝑘); (𝑇 − 𝑘) tales vectores que son linealmente
independientes pueden ser encontrados, asociados con (𝑇 − 𝑘) valores propios iguales a la unidad.
De este modo, Ʌ contiene 𝑘 ceros y (𝑇 − 𝑘) en su diagonal principal. Tenga en cuenta de [8.1.20] que
𝑢′𝑀𝑥 𝑢 = 𝒖′𝑷Ʌ𝑷′𝒖 [8.1.22]

= (𝑷′ 𝒖)′Ʌ(𝑷′ 𝒖)
= 𝒘′Ʌ𝐰
= 𝑤12 𝛾1 + 𝑤22 𝛾2 + ⋯ + 𝑤𝑇2 𝛾𝑇
Donde
𝒘 = 𝑷′𝒖
Asimismo,
𝐸(𝑤𝑤′) = 𝐸(𝑃′ 𝑢𝑢′ 𝑃) = 𝑃′ 𝐸(𝑢𝑢′ )𝑃 = 𝜎 2 𝑃′ 𝑃 = 𝜎 2 𝐼𝑇
De este modo, los elementos de 𝑤 no son correlativos, con la media cero y varianza 𝜎 2 . Ya que 𝑘 de la
𝛾 son cero y el restante 𝑇 − 𝑘 son unidades, [8.1.22] se convierte en
2
𝑢′𝑀𝑥 𝑢 = 𝑤12 + 𝑤22 + ⋯ + 𝑤𝑇−𝑘 [8.1.23]
Igualmente, cada 𝑤𝑡2 2
tiene expectativa 𝜎 , para que
𝐸(𝑢′𝑀𝑥 𝑢) = (𝑇 − 𝑘)𝜎 2
Y de [8.1.19] , 𝑠 2 da una estimación imparcial de 𝜎 2

𝐸(𝑠 2 ) = 𝜎 2
Propiedades de la varianza residual estimada bajo la suposición 8.1 (a) a través

de (c)
Cuando 𝑢𝑡 es Gaussiana, 𝑤𝑡 es también Gaussiana y la expresión [8.1.23] es la suma de cuadrados de
(𝑇 − 𝑘) variables 𝑁(0, 𝜎 2 ) independientes. De este modo,
𝑅𝑆𝑆 [8.1.24]
= 𝒖′𝑴𝒙 𝒖/𝜎 2 ~𝑋 2 (𝑇 − 𝑘)
𝜎2
Nuevamente, es posible mostrar bajo la suposición 8.1(a) a través de (c) , Ningún otro estimador
imparcial de 𝜎 2 tiene mucho menor varianza como hace 𝑠 2 4
Tenga en cuenta también de [8.1.11] y [8.1.12] que 𝑏 y 𝑢̂ no son correlativas:
𝐸[𝑢̂(𝑏 − 𝛽′)] = 𝐸[𝑴𝒙 𝒖𝒖′𝑿(𝑿′𝑿)−1 = 𝜎 2 𝑴𝒙 𝑿(𝑿′ 𝑿)−𝟏 = 0

[8.1.25]
Bajo la suposición 8.1(a) a través de (c), ambos xx y xxx son Gaussinos, para que indique ausencia de la
correlación implica que 𝑏 y 𝑢̂ son independiente. Esto significa que 𝑏 y 𝑠 2 son independientes
Prueba de 𝑡 acerca de β bajo la suposición 8.1(a) a través de (c)

Suponga que deseamos probar la hipótesis nula que 𝜷𝒊 , el elemento 𝒊 de 𝜷,es igual a algún
valor en particular 𝜷𝟎𝒊 .La estadística MCO 𝑡 para probar esta hipótesis nula es dada por
4 4
See Rao (1973, p. 319)
(𝒃𝒊 −𝜷𝟎𝒊 ) (𝒃 −𝜷𝟎 ) [8.1.26]
𝑡= ̂𝑏
𝜎
= 𝑠(𝜀𝒊𝑖𝑖)1/2
𝒊
,
𝑖
Donde 𝜀 𝑖𝑖 denota la fila 𝑖, columna 𝑖 elemento de (𝑋 ′ 𝑋)−1 y 𝜎̂𝑏𝑖 es el error estándar de la estimación
MCO del 𝜎̂𝑏𝑖 ≡ √𝑠 2 𝜀 𝑖𝑖 coeficiente. La magnitud en [8.1.26] tiene una exacta 𝑡 distribución con 𝑇 − 𝑘
grados de libertad siempre y cuando 𝑥 es determinativa y 𝑢𝑡 es 𝑖. 𝑖. 𝑑. Gausseana. Para verificar esta
afirmación tenga en cuenta [8.1.17] que bajo la hipótesis nula 𝑏𝑖 ~𝑁(𝜷𝟎𝒊 , 𝜎 2 𝜀 𝑖𝑖 ), lo que significa que
(𝑏𝑖 − 𝜷𝟎𝒊 )/√𝜎 2 𝜀 𝑖𝑖 ~𝑁(0,1)
Por lo tanto, si [8.1.26] es escrito como
(𝒃𝒊 − 𝜷𝟎𝒊 )/√𝜎 2 𝜀 𝑖𝑖
𝑡=
√𝜎 2 /𝜎 2
El numerador es 𝑁(0,1) mientras de [8.1.24] es denominador es el cuadrado base de una 𝑋 2 (𝑇 − 𝑘)

variable dividida por estos grados de libertad. Recuerde [8.1.25], el enumerador y el denominador son
independientes confirmando la exacta 𝑡 distribución afirmada por [8.1.26]
Prueba de F acerca de β bajo la suposición 8.1 (a) a través (c)

De manera más general, suponga que queremos una prueba conjunta de 𝑚 restricciones
lineales diferentes acerca de β, representado por
𝐻0 : 𝑅𝛽 = 𝑟 [8.1.27]
Aquí 𝑅 es una matriz (𝑚×𝑘) conocida representando las combinaciones lineales particulares de β
sobre la cual consideramos hipótesis y r es un vector (𝑚×1) conocido de los valores que creemos que
estas combinaciones lineales toman. Por ejemplo, para representar la hipótesis simple 𝛽𝑖 = 𝜷𝟎𝒊 usada
previamente, podríamos tener 𝑚 = 1, 𝑅 𝑎(1×𝑘) vector con unidad en la 𝜷𝟎𝒊 posición y ceros en otros
lugares, y 𝑟 el escalar 𝑘 = 4. Como un segundo ejemplo, considere una regresión con variables
explicativas y la hipótesis conjunta que 𝛽1 + 𝛽2 = 1 y 𝛽3 = 𝛽4. En este caso, 𝑚 = 2 y
1 1 0 0 1 [8.1.28]
𝑅=⌈ ⌉ 𝑟=[ ]
0 0 1 −1 0
Tenga en cuenta de [8.1.17] que bajo 𝐻0 ,
𝑅𝑏~𝑁(𝑟, 𝜎 2 𝑅(𝑋 ′ 𝑋)−1 𝑅′ [8.1.29]
Una prueba Wald de 𝐻0 es basada en el siguiente resultado
Proposición 8.1: considere un (𝑛×1) vector 𝑧~𝑁(0, Ω), con Ω no singular.

Entonces 𝑧′Ω−1 𝑧~𝑋 2 (𝑛).
Para el caso escalar (𝑛 = 1), observe que si 𝑧~𝑁(0, 𝜎 2 ), entonces (𝑧/𝜎)~𝑁(0,1) y 𝑧 2 /

2 2
𝜎 ~𝑋 (1) como afirma una proposición.
Para verificar la proposición para el caso vectorial, ya que Ω es simétrico, existe una matriz P
como en [8.1.20] y [8.1.21], tal que Ω = 𝑃Ʌ𝑃′ y 𝑃′ 𝑃 = 𝐼𝑛 con Ʌ contienen los valores propios de Ω. Ya
que Ω es definitivamente positivo, los elementos diagonales de Ʌ son positivos. Entonces
𝑧′Ω−1 𝑧 = 𝑧 ′ (𝑃Ʌ𝑃′)−1 𝑧 [8.1.30]

= 𝑧 ′ [𝑃′]−1 Ʌ−1 P−1 z
= [𝑃−1 𝑧]′Ʌ−1 P−1 z
= 𝑤′Ʌ−1 w
𝑛
= ∑ 𝑤𝑖2 /𝛾𝑖 ,
𝑖=1
Donde 𝑤 ≡ 𝑃−1 𝑧. Tenga en cuenta que 𝑤 es Gaussiana con media cero y varianza
𝐸(𝑤𝑤 ′ ) = 𝐸(𝑃−1 𝑧𝑧 ′ [𝑃′ ] = 𝑃−1 Ω[𝑃′ ]−1 = 𝑃−1 𝑃Ʌ𝑃′ [𝑃′ ]−1 = Ʌ
De este modo [8.1.30] es la suma de cuadrados de 𝑛 variables normales independientes, cada uno
divido dividido por su varianza 𝛾𝑖 . Esto por consecuencia tiene una 𝑋 2 (𝑛) distribución, como esta
afirmado.
Aplicando la Proposición 8.1 directamente a [8.1.29], bajo 𝐻0 ,
(𝑅𝑏 − 𝑟)′ [𝜎 2 𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟)~𝑋 2 (𝑚) [8.1.31]
Reemplazando 𝜎 2 con la estimación 𝑠 2 y dividiendo por el número de restricciones da la forma Wald

de la prueba MCO de una hipótesis lineal:
𝐹 = (𝑅𝑏 − 𝑟)′ [𝑠 2 𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟)/𝑚 [8.1.32]
Note que [8.1.32] puede ser escrito
(𝑅𝑏 − 𝑟)′ [𝜎 2 𝑅(𝑋 ′ 𝑋)−1 𝑅 ′ ]−1 (𝑅𝑏 − 1)/𝑚

𝐹=
[𝑅𝑆𝑆/(𝑇 − 𝑘)]/𝜎 2
El numerador es una 𝑥 2 (𝑚) variable dividida por su grado de libertad, mientras el denominador es una
𝑥 2 (𝑇 − 𝑘) variable dividida por su grado de libertad .Nuevamente, ya que 𝑏 y 𝑢̂ son independientes, el
numerador y el denominador son independientes de cada otro .Por lo tanto, [8.1.32] tiene una exacta
𝐹(𝑚, 𝑇 − 𝑘) distribución bajo 𝐻0 cuando 𝑥𝑡 no es estocástica y 𝑢𝑡 es 𝑖. 𝑖. 𝑑 Gaussiana.
Tenga en cuenta que la prueba 𝑡 de la hipótesis simple 𝛽𝑖 = 𝜷𝟎𝒊 es un caso especial de la
formula general [8.1.32], para la cual
′ −1 [8.1.33]
𝐹 = (𝛽 − 𝜷𝟎 ) [𝑠 2 𝜀 𝑖𝑖 ] (𝛽 − 𝜷𝟎 )
𝑖 𝒊 𝑖 𝒊
Este es el cuadrado de la 𝑡 estadística en [8.1.26].Ya que una 𝐹(1, 𝑇 − 𝑘) variable es solo el cuadrado
de una 𝑡(𝑇 − 𝑘) variable, la respuesta idéntica resulta de (1) calculando [8.1.26] y usando 𝑡 tablas para
encontrar la probabilidad de un valor absoluto tan grande para una 𝑡(𝑇 − 𝑘) variable ,o (2) calculando
[8.1.33] y usando 𝐹 tablas para encontrar la probabilidad de un valor tan grande para una 𝐹(1, 𝑇 − 𝑘)
variable.
Una expresión alternativa conveniente para la Prueba 𝑭

Esto es frecuentemente sencillo para estimar el modelo en [8.11] sujeto a las restricciones en
[8.1.27], Por ejemplo, para imponer una limitación 𝛽𝑖 − 𝜷𝟎𝒊 en el primer elemento de 𝛽, solo
podríamos hacer una regresión de mínimos cuadrados ordinarios de 𝑦𝑡 𝜷𝟎𝒊 = 𝒙𝟏𝒕 𝒆𝒏 𝒙𝟐𝒕 , 𝒙𝟑𝒕 , ⋯ , 𝒙𝒌𝒕 .
El resultado estima 𝑏2∗ , 𝑏3∗ , ⋯ , 𝑏𝑘∗ minimiza ∑𝑇𝑡 = 1 [(𝑦𝑡 − 𝜷𝟎𝒊 𝑥1𝑡 ) − 𝒃∗𝟐 𝑋2𝑡 − 𝒃∗𝟑 𝑋3𝑡 − ⋯ − 𝒃∗𝒌 𝑋𝑘𝑡 ]2
con respecto a 𝑏2∗ , 𝑏3∗ , ⋯ , 𝑏𝑘∗ y de este modo minimiza la suma residual de cuadrados [8.1.2] sujeto a la
distracción que 𝛽𝑖 − 𝜷𝟎𝒊 . Alternativamente, para imponer la restricción en [8.1.28] podríamos regresar
𝑦𝑡 − 𝑥2𝑡 en (𝑥1𝑡 − 𝑥2𝑡 ) y (𝑥3𝑡 − 𝑥4𝑡 ):
𝑦𝑡 − 𝑥2𝑡 = 𝛽1 (𝑥1𝑡 − 𝑥2𝑡 ) + 𝛽3 (𝑥3𝑡 − 𝑥4𝑡 ) + 𝑢𝑡
La MCO estima 𝑏1∗ y 𝑏3∗ minimiza

𝑇 [8.1.34]
∑[(𝑦𝑡 − 𝑥2𝑡 ) − 𝑏1∗ (𝑥1𝑡 − 𝑥2𝑡 ) − 𝑏3∗ (𝑥3𝑡 − 𝑥4𝑡 )]2
𝑡=1
𝑇
= ∑[𝑦𝑡 − 𝑏1∗ 𝑥1𝑡 − (1 − 𝑏1∗ )𝑥2𝑡 − 𝑏3∗ 𝑥3𝑡 − 𝑏3∗ 𝑥4𝑡 ]2

𝑡=1
Y por lo tanto minimiza [8.1.2] sujeto a [8.1.28]

Siempre que las contradicciones en [8.1.27] puedan ser impuestas a través de una regresión
MCO en variables transformadas, hay una manera fácil de calcular la estadística 𝐹 [8.1.32] solo por
calcular la suma residual de cuadrados para las regresiones limitadas y no limitadas. El siguiente
resultado es establecido en el Apéndice 8.A en el final de este capitulo
Proposición 8.2: Denote b la estimación MCO no limitada [8.1.6] y Sea RSS la suma residual de cuadrados
resultados del uso de esta estimación
𝑇 [8.1.35]
𝑅𝑆𝑆1 = ∑(𝑦𝑡 − 𝑥𝑡′ 𝑏)2
𝑡=1
Denote 𝑏 ∗ la estimación MCO delimitada y 𝑅𝑆𝑆0 la suma residual de cuadrados de estimación MCO
delimitada
𝑇 [8.1.36]
𝑅𝑆𝑆0 = ∑(𝑦𝑡 − 𝑥𝑡′ 𝑏)2
𝑡=1
Ya que la forma Wald de la prueba MCO F de una hipótesis lineal ○18.1.32] puede equivalentemente
ser calculada como
(𝑅𝑆𝑆0 − 𝑅𝑆𝑆1 )/𝑚 [8.1.37]
𝐹=
𝑅𝑆𝑆1 /(𝑇 − 𝑘)
Las expresiones [8.1.37] y [8.1.32] generaran exactamente el mismo número, independientemente de si

la hipótesis nula y el modelo son válidos o no.
Por ejemplo, suponga que la muestra de la talla es 𝑇 = 50 observaciones y la hipótesis nula es
𝛽3 = 𝛽4 = 0 en una regresión MCO con 𝐾 = 4 variables explicativas. Primer retroceso 𝑦𝑡 en
𝑥1𝑡 , 𝑥2𝑡 , 𝑥3𝑡 , 𝑥4𝑡 y llamar a la suma residual de estos cuadrados de esta regresión 𝑅𝑆𝑆1 . A
continuación, retroceso 𝑦𝑡 en solo 𝑥1𝑡 y 𝑥2𝑡 y llamar a la suma residual de cuadrados de esta regresión
restringida 𝑅𝑆𝑆0 . Si
(𝑅𝑆𝑆0 − 𝑅𝑆𝑆1 )/2

𝑅𝑆𝑆1 /(50 − 4)
Es mayor que 3.20 (el valor crítico del 5 % para una 𝐹(2,46) variable aleatoria), entonces la hipótesis
nula debería ser rechazada.

8.2. Mínimos cuadrados ordinarios bajo condiciones más
generales
La sección previa analizo el modelo de regresión
𝑦𝑡 = 𝑥𝑡′ 𝛽 + 𝑢𝑡
Bajo la suposición sostenida 8.1 (𝑥 es determinativa y 𝑢𝑡 es 𝑖. 𝑖. 𝑑 Gaussiana)
Nos referiremos a continuación a esta suposición como ‘’caso 1 ‘’ .Esta sección generaliza esta
suposición para describir especificaciones probable que surjan en el análisis de series de tiempo.
Algunos de los resultados claves son resumidos en la Tabla 8.1
Caso 2. Termino de error 𝑖. 𝑖. 𝑑 Gaussiano e Independiente de Variables

Explicatorias
Considere el caso en el cual X es estocástica pero completamente independiente de u.
Suposición 𝟖. 𝟐:𝟓 5 (a) 𝑥𝑡 estocástico e independiente de 𝑢𝑠 para toda 𝑡, 𝑠 ;(b) 𝑢𝑡 𝑖. 𝑖. 𝑑 𝑁(0, 𝜎 2 .
Esto podría ser reemplazado con la suposición 𝑢 𝑋~𝑁(0, 𝜎 2 𝐼𝑇 ) con todos los resultados para seguir
sin cambios
Muchos de los resultados para represores determinativos continúan aplicando para este caso. Por
ejemplo, tomando expectativas de [8.1.12] y explotando la suposición independiente,
𝐸(𝑏) = 𝛽 + {𝐸[(𝑋 ′ 𝑋)−1 𝑋′]}{𝐸(𝑢)} = 𝛽 [8.2.1]
Para que el coeficiente MCO permanezca imparcial.
La distribución de las pruebas estadísticas para este caso puede ser encontrada por un procedimiento de
2 pasos .El primer paso evalúa la distribución condicional la distribución condicional en X; es decir,
esto trata a X como deterministas ,justo como el análisis más temprano .El segundo paso multiplica
por la densidad de X y se integra a lo largo de X para encontrar la verdadera distribución incondicional.
Por ejemplo , [8.1.17] implica que
𝑏𝑋 = ~𝑁(𝛽, 𝜎 2 (𝑋 ′ 𝑋)−1 ) [8.2.2]
Si la densidad es multiplicada por la densidad de X e integrada a lo largo de X, el resultado ya no es una

distribución Gaussiana; por lo tanto, b no es Gaussiana bajo la suposición 8.2.Por otro lado, [8.1.24]
implica que
𝑅𝑆𝑆 𝑋~𝜎 2 𝑥 2 (𝑇 − 𝑘)
Pero esta densidad es la misma para toda X. Por ello, cuando multiplicamos la densidad de RSS/X por
la densidad de X y se integran, obtendremos exactamente la misma densidad. Por tanto,[8.1.24]
continua dando la distribución incondicional correcta para la suposición 8.2.
55
This could be replace with the assumption with all the results to follow unchanged.
8.2 Mínimos cuadrados ordinarios bajo condiciones más generales 217

Lo mismo es verdadero para las estadísticas 𝑡 y 𝐹 en [8.1.26] y [8.1.32].La condicional en 𝑋, (𝑏𝑖 −
1/2
𝛽𝑖0 / [𝜎(𝜀 𝑖𝑖 ) ] ~𝑁(0,1) y 𝑠/𝜎 es la raíz cuadrada de una variable [1/(𝑇 − 𝑘)] ∙ 𝑥 2 (𝑇 − 𝑘)
independiente .Por ende, condicional en X, la estadística en [8.1.26] tiene una 𝑡(𝑇 − 𝑘)
distribución .Ya que es cierto para cualquier X, cuando multiplicamos por la densidad de X y se integra
en X obtenemos la misma distribución.
Caso 3. Termino de error no Gaussiano e independiente de variables

explicativas
A continuación, considere la siguiente especificación
Suposición 8.3: (a) 𝑥𝑡 estocástica e independiente de 𝑢𝑠 para toda 𝑡, 𝑠;(b) 𝑢𝑡 no gaussiana pero 𝑖. 𝑖. 𝑑 con media
cero, varianza 𝜎 2 y 𝐸(𝑢𝑡4 ) = 𝜇4 < ∞; (𝑐)𝐸(𝑥, 𝑥𝑡′ ) = 𝑄, una matriz definida positiva con (1/𝑇) ∑𝑇𝑡=1 𝑄𝑡 →
𝑝
𝑄, una matriz definida positiva ;(d) 𝐸(𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑙𝑡 𝑥𝑚𝑡 ) < ∞ para toda 𝑖, 𝑗, 𝑙, 𝑚 y 𝑡;(e) (1/𝑇) ∑𝑇𝑡=1(𝑥𝑡 𝑥𝑡′ ) → 𝑄.
Ya que el resultado [8.2.1] requirió solo la suposición independiente, b continúa siendo

imparcial en este caso. Sin embargo, para pruebas de hipótesis, la distribución de pequeñas muestras de
𝑠 2 y la 𝑡 y 𝐹 estadísticas ya no son las mismas que cuando los residuos poblacionales son Gaussianos.
Para justificar las reglas de inferencia MCO habituales, tendremos que apelar a resultados asintótico,
para los cual es el propósito de la Suposición 8.3 incluye condiciones (c) a través de (e). Para entender
estas condiciones, tenga en cuenta que si 𝑥 es covarianza estacionaria, entonces 𝐸(𝑥𝑡 𝑥𝑡′ ) no depende de
𝑡. Entonces 𝑄𝑡 = 𝑄 para toda 𝑡 y condición (e) simplemente requiere que 𝑥 sea ergodica para segundos
momentos. La Suposición 8.3 también permite procesos más generales en los que 𝐸(𝑥𝑡 𝑥𝑡′ ) podría ser
diferente para diferentes t, mientras puede ser consistentemente estimado por (1/𝑇) ∑𝑇𝑡=1(𝑥𝑡 𝑥𝑡′ )

Tabla 8.1
Propiedades estimadas de MCO y Prueba de Suposiciones diversas bajo estadísticas
Coeficiente 𝒃 Varianza 𝒔𝟐 𝒕 estadística 𝑭 estadística
Caso 1 Imparcial Imparcial Exacta Exacta

𝑏~𝑁(𝛽, 𝜎 2 (𝑋 ′ 𝑋)−1 ) (𝑇 − 𝑘)𝑠 2 /𝜎 2 ~𝑥 2 (𝑇 − 𝑘) 𝑡(𝑇 − 𝑘) 𝐹(𝑚, 𝑇 − 𝑘)
Caso 2 Imparcial Imparcial Exacta Exacta

No Gaussiana (𝑇 − 𝑘)𝑠 2 /𝜎 2 ~𝑥 2 (𝑇 − 𝑘) 𝑡(𝑇 − 𝑘) 𝐹(𝑚, 𝑇 − 𝑘)
Caso 3 Imparcial Imparcial 𝐿 𝐿

𝐿 𝐿 𝑡𝑇 → 𝑁(0,1) 𝑚𝐹𝑇 → 𝑥 2 (𝑚)
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ) √𝑇(𝑠𝑇2 − 𝜎 2 ) → 𝑁(0, 𝜇4 − 𝜎 4 )
Caso 4 Parcial Parcial 𝐿 𝐿

𝐿 𝐿 𝑡𝑇 → 𝑁(0,1) 𝑚𝐹𝑇 → 𝑥 2 (𝑚)
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ) √𝑇(𝑠𝑇2 − 𝜎 2 ) → 𝑁(0, 𝜇4 − 𝜎 4
El modelo de regresión es 𝑦 = 𝑥𝛽 + 𝑢, 𝑏 es dado por [8.1.6], 𝑥 2 por [8.1.18], estadística 𝑡 por [81.26], y estadística 𝐹 por [8.1.32]; 𝜇4 denota 𝐸(𝑢𝑡4 ).
Caso 1: X no estocástico, 𝑢~𝑁(0, 𝜎 2 𝐼𝑇 )
Caso 2: X estocástico, 𝑢~𝑁(0, 𝜎 2 𝐼𝑇 ),X independiente de 𝑢.
𝐿
Caso 3: X estocástico, 𝑢~ No Gasussiana (0, 𝜎 2 𝐼𝑇 ), X independiente de 𝑢, 𝑇 −1 ∑ 𝑥𝑡 𝑥𝑡′ → 𝑄.
Caso 4: autoregresion estacionaria con errores independientes, Dado 𝑄 por [8.2.27]
8.2. Mínimos cuadrados ordinarios bajo condiciones más generales 219

Para describir los resultados asintóticos, denotamos el estimador MCO [8.1.3] por 𝑏𝑇 para enfatizar
que está basado en una muestra de la talla 𝑇. Nuestro interés está en el comportamiento de 𝑏𝑇
mientras 𝑇 se hace grande .Primero establecemos que el coeficiente estimador MCO es constante
𝐿
bajo la Suposición 8.3, es decir, que 𝑏𝑇 → 𝛽.
Tenga en cuenta que [8.1.12] implica
𝑏𝑇 − 𝛽 𝑇 −1 [8.2.3]
𝑇
′
= [∑ 𝑥𝑡 𝑥𝑡 ] [∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1
𝑡=1
𝑇 −1 𝑇
= [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]

𝑡=1 𝑡=1
Considere el primer término en [8.2.3]. La Suposición 8.3 (e) y la Suposición 7.1 implican que
𝑇 −1 [8.2.4]
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] →𝑄 −1
𝑡=1
Considerando después, el segundo término en [8.2.3], note que 𝑥, 𝑢 es una secuencia de diferencia
de martingala con matriz varianza-covarianza dada por
𝐸(𝑥𝑡 𝑢𝑡 𝑥𝑡′ 𝑢𝑡 ) = {𝐸(𝑥𝑡 𝑥𝑡′ )} ∙ 𝜎 2 ,
La cual es finita.Por eso, del Ejemplo 7.11,
𝑇 [8.2.5]
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 ] → 0 .
𝑡=1
Aplicando el ejemplo 7.2 a [8.2.3] a través de [8.2.5],

𝑝
𝑏𝑇 − 𝛽 → 𝑄 −1. 0 = 0,
Verificando que el estimador MCO es constante

A continuación, nos dirigimos a la distribución asintótica de b. Observe de [8.2.3] que
𝑇 −1 𝑇 [8.2.6]
√𝑇(𝑏𝑇 − 𝛽) = [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1 𝑡=1
Vimos en [8.2.4] que el primer término converge en probabilidad a 𝑄 −1.. El segundo término es √𝑇
veces la media muestral de 𝑥𝑡 𝑢𝑡 ,donde 𝑥𝑡 𝑢𝑡 es una secuencia de diferencia de martingala con
varianza 𝜎 2 𝑄𝑡 y (1/𝑇) ∑𝑇𝑡=1 𝜎 2 𝑄𝑡 → 𝜎 2 𝑄. Observe que bajo la Suposición 8.3 podemos aplicar la
Proposición 7.9:
𝑇 [8.2.7]
1 𝐿
2
[( ) ∑ 𝑥𝑡 𝑢𝑡 ] → 𝑁(0, 𝜎 𝑄).
√𝑇 𝑡=1
Combinando [8.2.6],[8.2.4], y [8.2.7], vemos como en el Ejemplo 7.5 que
𝐿 [8.2.8]
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, [𝑄 −1. (𝜎 2 𝑄) ∙ 𝑄 −1 = 𝑁(0, 𝜎 2 𝑄 −1 ).
En otras palabras, podemos actuar como si
𝑏𝑇 ≈ 𝑁(𝛽, 𝜎 2 𝑄 −1 /𝑇) [8.2.9]
Donde el símbolo ≈ significa “es aproximadamente distribuida’’. Recuerde de la Suposición 8.3

(e) , en muestras grandes Q debería estar cerca a (1/𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ . Por lo tanto 𝑄 −1 /𝑇 debería

estar cerca de [∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ ] = (𝑋𝑇′ 𝑋𝑇 )−1 para 𝑥𝑡 la misma (𝑇×𝑘) matriz que fue representada en
[8.1.5] simplemente por 𝑋 (nuevamente ,el subíndice 𝑇 es añadido en este punto para enfatizar que
las dimensiones de la matriz dependen de 𝑇).
De esta manera, [8.2.9] pue estar aproximado por
𝑏𝑇 ≈ 𝑁(𝛽, 𝜎 2 (𝑋𝑇′ 𝑋𝑇 )−1
Esto, por supuesto, es el mismo resultado obtenido en [8.1.17],el cual asumió perturbaciones
Gaussianas .Con perturbaciones no Gaussianas la distribución no es exacta, pero ofrece una
aproximación cada vez más buena mientras la muestra del tamaño crece .
A continuación, considere consistencia de la varianza estimada 𝑠𝑇2 .Tenga en cuenta que el residuo
poblacional suma cuadrados que pueden ser escritos:
(𝑦𝑇 − 𝑋𝑇 𝛽)′ (𝑦𝑇 − 𝑋𝑇 𝛽)

= (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 + 𝑋𝑇 𝑏𝑇 − 𝑋𝑇 𝛽)′ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 + 𝑋𝑇 𝑏𝑇 − 𝑋𝑇 𝛽) [8.2.10]
= (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) + (𝑋𝑇 𝑏𝑇 − 𝑋𝑇 𝛽)′ (𝑋𝑇 𝑏𝑇 − 𝑋𝑇 𝛽)
Donde términos de producto cruzado han desaparecido, ya que
(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′𝑋𝑇 (𝑏𝑇− 𝛽) = 0,
Por la condición de ortogonalidad MCO [8.1.10] Dividiendo [8.2.10] por 𝑇,
(1/𝑇)(𝑦𝑇 − 𝑋𝑇 𝛽)′(𝑦𝑇 − 𝑋𝑇 𝛽)
1 1 1 ′
= ( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) + ( ) ( ) (𝑏𝑇 − 𝛽)′𝑋𝑇 𝑋𝑇 (𝑏𝑇 − 𝛽),
𝑇 𝑇 𝑇
O
1
( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )
𝑇
1 [8.2.11]
= ( ) (𝑢′𝑇 𝑢 𝑇 ) − (𝑏𝑇− 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇− 𝛽).
𝑇
1 1
Ahora ( ) (𝑢′𝑇 𝑢 𝑇 ) = ( ) ∑𝑇𝑡=1 𝑢𝑡2 , donde {𝑢𝑡2 } es una secuencia 𝑖. 𝑖. 𝑑 con media 𝜎 2 .De este
𝑇 𝑇
modo, por la ley de grandes números
1 𝑃
( ) (𝑢′𝑇 𝑢 𝑇 ) → 𝜎 2 .
𝑇
𝑝 𝑝
Para el segundo término en [8.2.11],tenemos (𝑋𝑇′ 𝑋𝑇 /𝑇) → 𝑄 y (𝑏𝑇− 𝛽) → 0, por lo tanto, de la
Proposición 7.1,
𝑋𝑇′ 𝑋𝑇 𝑝
(𝑏𝑇− 𝛽)′ ( ) (𝑏𝑇− 𝛽) → 0′ 𝑄0 = 0.
𝑇
Sustituyendo estos resultados en [8.2.11],
1 𝑝 [8.2.12]
= ( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) → 𝜎 2 .
𝑇
Ahora, [8.2.12] describe una estimación de la varianza, la cual denotamos 𝜎̂𝑇2 :
𝜎̂𝑇2 ≡ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) [8.2.13]
El estimado MCO dado en [8.1.18],
𝑠𝑇2 = [1/(𝑇 − 𝑘)](𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ), [8.2.14]
Difiere de 𝜎̂𝑇2 por un término que desaparece como 𝑇 → ∞,

𝑠𝑇2 = 𝑎𝑇 ∙ 𝜎̂𝑇2 ,
Donde 𝑎𝑇 = [𝑇/(𝑇 − 𝑘)] con 𝑙𝑖𝑚𝑇→∞ 𝑎𝑇 = 1. Por lo tanto, de la Proposición 7.1

𝑝𝑙𝑖𝑚𝑠𝑇2 = 1 ∙ 𝜎 2
2
Estableciendo consistencia de 𝑠𝑇 .
Para encontrar la distribución asintótica de 𝑠𝑇2 , considere primero √𝑇(𝜎̂𝑇2 − 𝜎 2 ). De [8.2.11], esto
equivale a
1 [8.2.15]
√𝑇(𝜎̂𝑇2 − 𝜎 2 ) = ( ) (𝑢′𝑇 𝑢 𝑇 )√𝑇𝜎 2 − √𝑇(𝑏𝑇 − 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇
√𝑇
− 𝛽).
Pero
1 1 𝑇
( ) (𝑢′𝑇 𝑢 𝑇 ) − √𝑇𝜎 2 = ( ) ∑ 𝑢𝑡2 − 𝜎 2 ),
√𝑇 √𝑇 𝑡=1
Donde {𝑢𝑡2 − 𝜎 2 } es una secuencia de variables 𝑖. 𝑖. 𝑑 con media cero y varianza 𝐸(𝑢𝑡2 − 𝜎 2 )2 =
𝐸(𝑢𝑡4 ) − 2𝜎 2 𝐸(𝑢𝑡2 ) + 𝜎 4 = 𝜇4 − 𝜎 4 . Así pues, por el teorema de límite central,
1 𝐿 [8.2.16]
( ) (𝑢′𝑇 𝑢 𝑇 ) − √𝑇𝜎 2 → 𝑁(0, (𝜇4 − 𝜎 4 ))
√𝑇
𝐿 𝑋′ 𝑋 𝑝
Para el ultimo termino en [8.2.15], tenemos √𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ), ( 𝑇𝑇 𝑇 ) → 𝑄, y (𝑏𝑇 −
𝑝
𝛽) → 0. Por consiguiente,
𝑝 [8.2.17]
√𝑇(𝑏𝑇 − 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇 − 𝛽) → 0
Poniendo [8.2.16] y [8.2.17] en [8.2.15] concluimos

𝐿 [8.2.18]
√𝑇(𝜎̂𝑇2 − 𝜎 2 ) → 𝑁(0, (𝜇4 − 𝜎 4 )
Para ver que 𝑠𝑇2 , tiene esta mismadistribucion limitada, tenga en cuenta que
√𝑇(𝑠𝑇2 − 𝜎 2 ) − √𝑇(𝜎̂𝑇2 − 𝜎 2 ) = √𝑇{[𝑇/(𝑇 − 𝑘)]𝜎̂𝑇2 − 𝜎̂𝑇2 }

= [(𝑘√𝑇)/(𝑇 − 𝑘)]𝜎̂𝑇2
Pero 𝑙𝑖𝑚𝑇 → ∞[(𝑘√𝑇)/(𝑇 − 𝑘)] = 0 , estableciendo que

𝑃
√𝑇(𝑠𝑇2 − 𝜎 2 ) − √𝑇(𝜎̂𝑇2 − 𝜎 2 ) → 0 ∙ 𝜎 2 = 0
Y por ello,de la Proposicion 7.3 (a),

𝐿 [8.2.19]
√𝑇(𝑠𝑇2 − 𝜎 2 ) → 𝑁(0, (𝜇4 − 𝜎 4 )
Observe que si nos estamos basando en justificaciones asintóticas para pruebas estadísticas, la teoría
no nos ofrece ninguna orientación para elegir entre 𝑠 2 y 𝜎̂ 2 como estimaciones de 𝜎 2 , ya que ellos
tienen la misma distribución limitada.
Luego considere la distribución asintótica de la prueba MCO t de la hipótesis nula 𝛽𝑖 = 𝛽𝑖0 ,
(𝑏𝑖𝑇 − 𝛽𝑖0 ) √𝑇(𝑏𝑖𝑇 − 𝛽𝑖0 ) [8.2.20]

𝑡𝑇 = = ,
𝑆𝑇 √𝜀𝑇𝑖𝑖 𝑆𝑇 √𝜀𝑇𝑖𝑖

Donde 𝜀𝑇𝑖𝑖 denota la fila 𝑖, columna 𝑖 elemento de (𝑋𝑇′ 𝑋𝑇 )−1 .Hemos visto que √𝑇(𝑏𝑖𝑇 −
𝐿
𝛽𝑖0 ) → 𝑁(0 ∙ 𝜎 2 𝑞𝑖𝑖 ), donde 𝑞 𝑖𝑖 denota la fila 𝑖, columna 𝑖 elemento de 𝑄 −1 .Similarmente, 𝑇𝜀𝑇𝑖𝑖 es la
𝐿
fila 𝑖, columna 𝑖 elemento de (𝑋𝑇′ 𝑋𝑇 )−1 y converge en probabilidad a 𝑞 𝑖𝑖 . También, 𝑆𝑇 → 𝜎. Por
ende, la 𝑡 estadística [8.2.20] tiene una distribución limitada que es la misma mientras una variable
𝑁(0 ∙ 𝜎 2 𝑞𝑖𝑖 ) dividida por √𝜎 2 𝑞𝑖𝑖 ; eso es ,
𝐿 [8.2.21]
𝑡𝑇 → 𝑁(0,1).
Ahora, bajo las condiciones más restringidas de la Suposición 8.2, vimos que 𝑡𝑇 tendría una 𝑡
distribución con (𝑇 − 𝑘) grado de libertad. Recuerde que una 𝑡 variable con 𝑁 grados de
libertad tiene la distribución de la relación de una variable 𝑁(0,1) a la raíz cuadrada de 𝑁(0,1)
veces una variable xxx independiente. Pero una 𝑋 2 (𝑁) variable a su vez es la suma de 𝑁 cuadrados
de variables 𝑁(0,1) independientes.
Por tanto, imponiendo 𝑍 denota una 𝑁(0,1) variable, una variable 𝑡 con 𝑁 grados de libertad tiene
la misma distribución como
𝑍
𝑡𝑁 =
{(𝑍1 + 𝑍2 + ⋯ + 𝑍𝑁2 )/𝑁}1/2
2 2
Por la ley de grandes números

𝑃
(𝑍12 + 𝑍22 + ⋯ + 𝑍𝑁2 )/𝑁 → 𝐸(𝑍12 ) = 1,
𝐿
y así 𝑡𝑁 → 𝑁(0,1). Por consiguiente, el valor crítico para una variable 𝑡 con 𝑁 grados de libertad
estará arbitrariamente cerca de esto para una 𝑁(0,1) variable mientras 𝑁 se hace grande.
A pesar de que la estadística calculada en [8.2.20] no tiene una distribución 𝑡(𝑇 − 𝑘) exacta bajo la
Suposición 8.3, si nosotros la trataramos como si lo hiciera, entonces no estaremos tan equivocados
si nuestra muestra es lo suficientemente grande.
Lo mismo es cierto de [8.1.32], la prueba 𝐹 de 𝑚 restricciones diferentes:
𝐹𝑇 = (𝑅𝑏𝑇 − 𝑟)′ [𝑠𝑇2 𝑅(𝑋𝑇′ 𝑋𝑇 )−1 𝑅′ ]−1 (𝑅𝑏𝑇 − 𝑟)/𝑚 [8.2.22]
= √𝑇(𝑅𝑏𝑇 − 𝑟)′ [𝑠𝑇2 𝑅(𝑋𝑇′ 𝑋𝑇 )−1 𝑅′ ]−1 √𝑇(𝑅𝑏𝑇 − 𝑟)/𝑚.

𝐿 𝑃
Aquí, (𝑠𝑇2 → 𝜎 2 , 𝑋𝑇′ 𝑋𝑇 /𝑇) → 𝑄, bajo la hipótesis nula
√𝑇(𝑅𝑏𝑇 − 𝑟) = [𝑅√𝑇(𝑏𝑇 − 𝛽)]
𝐿
→ 𝑁(0, 𝜎 2 𝑅𝑄 −1 𝑅′ )
Esta es una función cuadrática de un vector Normal del tipo descrito por la Proposición 8.1,de la
cual
𝐿
(𝑚𝐹𝑇 → 𝑥 2 (𝑚))
Por tanto, una inferencia asintótica puede estar basada en la aproximación
(𝑅𝑏𝑇 − 𝑟)′ [𝑠𝑇2 𝑅(𝑋𝑇′ 𝑋𝑇 )−1 𝑅′ ]−1 √𝑇(𝑅𝑏𝑇 − 𝑟) = 𝑥 2 (𝑚) [8.2.23]
Esto es conocido como la forma Wald de la prueba MCO 𝑋 2

Como en el caso de la 𝑡 y distribuciones normales limitadas, viendo [8.2.23] como 𝑋 2 (𝑚) y viendo
[8.2.22] como 𝐹(𝑚, 𝑇 − 𝑘) aumenta asintóticamente a la prueba de muestra. Recuerde que una
𝑋 2 (𝑚) variable es una relación una 𝐹(𝑚, 𝑁) variable a una 𝑋 2 (𝑁) independiente, cada uno
dividido por sus grados de libertad. Por ello, si 𝑍1 denota una 𝑁(0,1) variable y 𝑋 una 𝑋 2 (𝑚)
variable,

𝑋/𝑚
𝐹𝑚,𝑁 =
(𝑍12 + 𝑍22 + ⋯ + 𝑍𝑁2 )/𝑁)
Para el denominador
𝑃
(𝑍12 + 𝑍22 + ⋯ + 𝑍𝑁2 )/𝑁 → 𝐸(𝑍𝑡2 ) = 1,
Implicando
𝐿
→
𝐹𝑚,𝑁 𝑋/𝑚.
𝑁→∞
Por lo tanto, comparando [8.2.23] con un valor critico o comparando [8.2.22] con un valor
𝐹(𝑚, 𝑇 − 𝑘) critico resultara en la prueba idéntica suficientemente grande para 𝑇 (vea el ejercicio
8.2)
Para una muestra de tamaño 𝑇 dada, la distribución de muestras pequeñas (la distribución 𝑡 o 𝐹)
implica intervalos de confianza más amplia que la distribución de muestra grande (Normal o
distribución 𝑋 2 ). Aun cuando la justificación para usar la distribución 𝑡 o 𝐹 es solo asintótica,
muchos investigadores prefieren usar las tablas 𝑡 o 𝐹 en lugar de la normal o tablas 𝑋 2 con los
fundamentos que los más antiguos eran más conservadores y puede representar una mejor
representación de la distribución de muestra pequeña.
Si nos basamos solo en la distribución asintótica, la prueba estadística Wald [8.2.23] puede ser
generalizada para permitir una prueba de un conjunto de restricciones no lineales en 𝛽.
Considere una hipótesis nula que consta de m restricciones no lineales separadas de la forma
𝑔(𝛽) = 0 donde 𝑔: ℝ𝑘 → ℝ𝑚 y 𝑔(∙) tiene derivados primeros continuos, El resultado de [8.2.8] y
la Proposición 7.4 implica que
𝐿 𝜕𝑔
√𝑇[𝑔(𝑏𝑇 ) − 𝑔(𝛽0 )] → [(𝜕𝛽 ′ | 𝛽−𝛽0 )] 𝑧,
Donde 𝑧~𝑁(0, 𝜎 2 𝑄 −1 ) y
𝜕𝑔
( ′ | 𝛽=𝛽0 )
𝜕𝛽
Denota la matriz (𝑚×𝑘) de derivadas de 𝑔(∙) con respecto a 𝛽, evaluada en el valor real 𝛽0 .Bajo
la hipótesis nula que 𝑔(𝛽0 ) = 0. Esto sigue de la Proposición 8.1 que
−1
𝜕𝑔 𝜕𝑔 𝐿
{√𝑇 ∙ 𝑔(𝑏𝑇 )}′ {(𝜕𝛽 ′ | 𝛽=𝛽0 ) 𝜎 2 𝑄 −1 (𝜕𝛽 ′ | 𝛽=𝛽0 ) ′} {√𝑇 ∙ 𝑔(𝑏𝑇 )} → 𝑥 2 (𝑚)
1 𝜕𝑔 𝐿
Recuerde que 𝑄 es el plim de ( )(𝑋𝑇′ 𝑋𝑇 ). Ya que es continua y ya que 𝑏𝑇 → 𝛽0 , sigue de la
𝑇 𝜕𝛽 ′
proposición 7.1 que
𝜕𝑔 𝐿 𝜕𝑔
( ′ | 𝛽=𝑏𝑇 ) → ( ′ | 𝛽=𝛽0 )
𝜕𝛽 𝜕𝛽
Por esto un conjunto de 𝑚 restricciones no lineales sobre 𝛽 de la forma 𝑔(𝛽) = 0 puede ser
probada con la estadística
−1
𝜕𝑔 −1 𝜕𝑔 𝐿
′{( ′ | 𝛽=𝑏 )𝑆𝑇2 (𝑋𝑇′ 𝑋𝑇 ) ( ′ | 𝛽=𝑏 )′} {𝑔(𝑏𝑇 )}→𝑥 2
{𝑔(𝑏 )} 𝜕𝛽 𝑇 𝜕𝛽 𝑇
(𝑚).
𝑇
Vea que la prueba Wald para restricciones lineales [8.2.23] puede ser obtenida como un caso
especial de esta forma más general estableciendo 𝑔(𝛽) = 𝑅𝛽 − 𝑟.
Una desventaja de la prueba Wald para restricciones no lineales, es que la repuesta que uno tiene
puede ser dependiente de como las restricciones 𝑔(𝛽) = 0 son parametradas. Por ejemplo, las
𝛽
hipótesis 𝛽1 = 𝛽2 y 𝛽1 = 1 son equivalentes, y asintóticamente una prueba Wald basada también en
2

parametrización debería dar la misma respuesta. Sin embargo, en una muestra particular finita las
respuestas pueden ser completamente diferentes. En efecto, la prueba Wald no lineal aproxima la
restricción 𝑔(𝑏𝑇 ) = 0 por la restricción lineal
𝜕𝑔
𝑔(𝛽0 ) ( ′ | 𝛽=𝑏𝑇 ) (𝑏𝑇 − 𝛽0 ) = 0.
𝜕𝛽
Debe tenerse cuidado para asegurar que la linealizacion es razonable en el rango de valores factibles
para 𝛽. Ver a Gregory y Veall (1985). Lafontaine y White (1986), y Phillips y park (1988) para una
discusión más detallada
Caso 4. Estimando parámetros para una autoregresión

Considere ahora estimación de los parámetros de un orden de autoregresion 𝑝 por MCO.
Suposición 8.4: El modelo de regresión es

𝑦𝑡 = 𝑐 + 𝜑1 𝑦𝑡−1 + 𝜑2 𝑦𝑡−2 + ⋯ + 𝜑𝑝 𝑦𝑡−𝑝 + 𝜀𝑡 [8.2.24]
Con bases de (1 − 𝜑1 𝑧 − 𝜑2 𝑧 2 − ⋯ − 𝜑𝑝 𝑧 𝑝 ) = 0 fuera del circulo de la unidad y con {𝜀𝑡 }una

secuencia 𝑖. 𝑖. 𝑑 con media cero, varianza 𝜎 2 , y momento de cuarto orden finito 𝜇4 .
Una autoregresion tiene la forma del modelo de regresión estándar 𝑦𝑡 = 𝑋𝑡′ 𝛽 + 𝜇𝑡 con 𝑋𝑡′ =
(1. 𝑦𝑡−1 , 𝑦𝑡−2 , ⋯ , 𝑦𝑡−𝑝 ) y 𝜇𝑡 .Tenga en cuenta, sin embargo, que una autoregresion no puede
satisfacer la condición (a) de la Suposición 8.2 o 8.3. Aunque 𝜇𝑡 .es independiente de 𝑥 bajo la
suposición 8.4, este no será el caso que 𝜇𝑡 . sea independiente de 𝑥𝑡+1 . Sin esta independencia,
ninguno de los resultados de muestra pequeña aplica para el caso 1. Especificamente, aun si 𝜀𝑡 , es
gaussina, el coeficiente MCo 𝑏 da una estimación parcial de 𝛽 por una autoregresion, y las
estadísticas estándar 𝑡 y 𝐹 pueden solo estar justrificadas asintóticamente.
Sin embargo,los resultados asinoticos para el caso 4 son los mismos como para el caso 3 y son
derivados en la misma manera esencialmente. Para adaptar la notación temprana, suponga que la
muestra consiste de 𝑇 + 𝑝 observaciones en 𝑦𝑡 enomeradas (𝑦−𝑝+1 , 𝑦−𝑝+2 , ⋯ 𝑦0 , 𝑦1 ⋯ , 𝑦𝑇 );la
estimación CO por lo tanto usara observaciones 1 a través de 𝑇. Entonces como en [8.2.6]
𝑇 −1 𝑇 [8.2.25]
√𝑇(𝑏𝑇 − 𝛽) = [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1 𝑡=1
El primer término en [8.2.25] es
𝑇 −1 −1
1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−𝑝
[(/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ]
2
𝑡=1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−1 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−1 𝑦𝑡−𝑝
= 2
𝑇 −1 ∑ 𝑦𝑡−2 𝑇 −1 ∑ 𝑦𝑡−2 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−2 𝑦𝑡−𝑝
⋮ ⋮ ⋮ ⋯ ⋮
−1 −1 −1 −1 2
[𝑇 ∑ 𝑦𝑡−𝑝 𝑇 ∑ 𝑦𝑡−𝑝 𝑦𝑡−1 𝑇 ∑ 𝑦𝑡−𝑝 𝑦𝑡−2 ⋯ 𝑇 ∑ 𝑦𝑡−𝑝 ]

Donde ∑ denota sumatoria en 𝑡 = 1 a 𝑇.Los elementos en la primera fila o columna son la
forma 𝑇 −1 ∑ 𝑦𝑡−𝑖 y convergen en probabilidad a 𝜇 = 𝐸(𝑦𝑡 ), por la porposicion 7.5 .Otro
selementos son de la forma 𝑇 −1 ∑ 𝑦𝑡−𝑖 𝑦𝑡−𝑗 ,los cuales ,de [7.2.14],converge en probabilidad a
𝐸(𝑦𝑡−𝑖 − 𝑦𝑡−𝑗 ) = 𝛾|𝑖−𝑗| + 𝜇2

Por tanto
𝑇 −1 [8.2.26]
𝑃
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] → 𝑄 −1
𝑡−1
Donde
1 𝜇 𝜇 ⋯ 𝜇 [8.2.27]
𝜇 𝛾0 + 𝜇2 𝛾1 + 𝜇2 ⋯ 𝛾𝑝−1 + 𝜇2
𝑄≡ 𝜇 𝛾1 + 𝜇2 𝛾0 + 𝜇2 ⋯ 𝛾𝑝−2 + 𝜇2
⋮ ⋮ ⋮ ⋯ ⋮
[𝜇 𝛾𝑝−1 + 𝜇2 𝛾𝑝−2 + 𝜇2 ⋯ 𝛾0 + 𝜇2 ]
Para el segundo término en [8.2.25], observe que 𝑥𝑡 𝑢𝑡 es una secuencia de diferencia de martingala
con matriz de varianza-covarianza definida positiva dada por
𝐸(𝑥𝑡 𝑢𝑡 𝑢𝑡 𝑥𝑡′ ) = 𝐸(𝑢𝑡2 ) ∙ 𝐸(𝑥𝑡 𝑥𝑡′ ) = 𝜎 2 𝑄
Usando un argumento similar a este en el ejemplo 7.15, puede ser demostrado que
1 𝑇 𝐿 [8.2.28]
[( ) ∑ 𝑥𝑡 𝑢𝑡 ] → 𝑁(0, 𝜎 2 𝑄)
𝑇 𝑡−1
(ver el ejercicio 8.3).Sustituyendo [8.2.26] y [8.2.28] en [8.2.25]

𝐿 [8.2.29]
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 )
Es sencilla de verificar más allá de que 𝑏𝑇 y 𝑠𝑇2 son constantes para este caso .De [8.2.26],la matriz
varianza-autocovarianza asintótica de √𝑇(𝑏𝑇 − 𝛽) puede ser estimada constantemente por
𝑠𝑇2 (𝑋𝑇′ 𝑋𝑇 /𝑇)−1 , lo que significa que estadísticas estándar 𝑡 y 𝐹 que trata 𝑏𝑇 como si fuera
𝑁(𝛽, 𝑠𝑇2 (𝑋𝑇′ 𝑋𝑇 )−1 producirá asintóticamente pruebas validas de hipótesis sobre los coeficientes de
una autoregresion
Como un caso especial de [8.2.29], considere la estimación MCO de autoregresion de primer
orden,
𝑦𝑡 = 𝜑𝑦𝑡−1 + 𝜀𝑡
2 )
Con 𝜑 < 1. Entonces 𝑄 es el excalar 𝐸(𝑦𝑡−1 = 𝑦0 , la varianza de un proceso AR(1).Vimos en
2 2
el capítulo 3 que esto es dado por 𝜎 /(1 − 𝜑 ). Por ello, para 𝜑 el coeficiente MCO,
∑𝑇𝑡−1 𝑦𝑡−1 𝑦𝑡
𝜑̂𝑇 =
∑𝑇𝑡−1 𝑦𝑡−1
2
El resutado de [8.2.29] implica que

−1 [8.2.30]
𝐿 𝜎2
2∙
√𝑇(𝜑̂𝑇 − 𝜑) → 𝑁 (0, 𝜎 [ ] ) = 𝑁(0,1 − 𝜑2 )
1 − 𝜑2

Si resultados más precisos que la aproximación asintótica en la ecuación [8.2.29] son deseados, la
distribución exacta de muestra pequeña de 𝜑̂𝑇 puede ser calculada también en dos maneras.Si los
errores en la autoregresion [8.2.24] son 𝑁(0, 𝜎 2 ),entonces para cualquier valor numérico
especificado para 𝜑1 , 𝜑2 ⋯ 𝜑𝑝 , y 𝑐 la distribución exacta de muestra pequeña puede ser calculada
usando rutinas numéricas desarrolladas por Imhof (1961);para ilustraciones de este método,vea
Evans y SAvin (1981) y Flavin (1983).Una alternativa es aproximar la distribución de muestra
pequeña por métodos de Monte Carlo .Aquí la idea de usas una computadora genera variables
pseudo-aleatorias 𝜀1 , ⋯ , 𝜀𝑇 , cada xxx distribuida por algoritmos numéricos tales como esta descrito
en Kinderman y Ramage (1976).Para fijar valores iniciales 𝑁(0, 𝜎 2 ), los valores para 𝑦−𝑝+1 , ⋯ 𝑦1 ,
pueden entonces ser calculados por iteración en [8.2.24].
Para entonces se estima parámetros de [8.2.24] con una regresión MCO en esta muestra
artificial .Una nueva muestra es generada por la cual una nueva regresión es estimada. Mediante la
realización, suponga, 10.000 tales regresiones, una estimación de la distribución exacta de muestra
pequeña de las estimaciones MCO pueden ser obtenidas.
Para el caso de la autoregresion de primer orden, es conocido como cálculos que 𝜙̂𝑡 es imparcial
hacia abajo en muestras pequeñas, con las tendencias convirtiéndose cada vez más severas como 𝜙
se acerca a la unidad .Por ejemplo, para una muestra de tamaño T=25 generada por [8.2.24](con un
término constante incluido ) será menos que el valor real de 1 en el 95% de las muestras , y aun
caerán bajo 0.6 en 10% de las muestras.
Caso 5. Errores Gaussianos con matriz Varianza-Covarianza conocida

A continuación considere el siguiente caso
Suposición 8.5 (a) Xt estocástica ;(b) condicional en la matriz completa X vector u es 𝑁(0, 𝜎 2 𝑉), ; (c) es una
matriz definida positiva conocida .
Cuando los errores para diferentes informaciones tienen diferentes varianzas pero no
son correlativas con cada una (Eso es V diagonal) ,se dice que los errores son autocorrelativos.
Escribiendo la matriz varianza-covarianza como el producto de algún escalar xxx y una matriz V es
una convención que ayudara a simplificar el álgebra y la interpretación para algunos ejemplos de
heteroscedasticidad y autocorrelacion .Tenga en cuenta nuevamente que la suposición 8.5(b) no
podría mantener una autoregresion ,entonces una condicional en xt+1=(1, yt, yt-1, ……., yt-p+1)’ y xt ,el
valor de ut es conocido con certeza.
Recuerde de [8.1.12] que

′
(b - 𝛽) = (𝑋 ´ 𝑋)−1 𝑋 ′ 𝑢
Tomando expectativas condicionales en X,
𝐸[(𝑏 − 𝛽)/𝑋] = (𝑋 ′ 𝑋)−1 𝑋 ′ . 𝐸(𝑢) = 0
Y por la ley de expectativas iteradas
𝐸[(𝑏 − 𝛽)] = [𝐸𝑋 𝐸[(𝑏 − 𝛽)/𝑋]] = 0
Por tanto, la estimación del coeficiente MCO es imparcial

La varianza de b condicional en X es
[8.2.31]
𝐸{(𝑏 − 𝛽)(𝑏 − 𝛽)}/𝑋 = 𝐸{[(𝑋 ′ 𝑋)−1 𝑋 ′ 𝑢𝑢′ 𝑥(𝑋 ′ 𝑋)−1 ]𝑋}
De este modo, condicional en X

𝑏/𝑋 𝑁(𝛽, 𝜎 2 (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑉𝑋(𝑋 ′ 𝑋)−1
Alternativamente, uno puede generar el valor inicial para y con un dibujo de la distribución
incondicional apropiada. Específicamente, genera un (px1) vector v ¬ 𝑁(0. 𝐼𝑃 ) y establece ( Y-P+1,
……,Y0)´= 𝜇. 1 + 𝑃. 𝑣, uno denota un 𝜇 = 𝑐/(1 − ∅1 − ⋯ … . −∅𝑝 ) vector de (Px1), y P es el
factor CHolesky tal que P.P= r .r para la ( p x p)matriz de quien sus columnas apiladas en un (𝑝2 x
1 )vector incluye la primera columna de la matriz , donde F es la , 𝜎 2 [𝐼𝑃2− (𝐹 𝑋 𝐹)] -1matriz
definida en la ecuación [1.2.3] capítulo 1.
*estos valores pueden ser inferidos de la Tabla B.5
A menos que 𝑉 = 𝑰 𝑇 , esta no es la misma matriz de varianza como en [8.1.17], para que la
estadística MCO 𝑡 [8.1.26] no tengan la interpretación como una variable Gaussiana dividida por
una estimación de su propia derivación estándar. Por lo tanto [8.1.26] no tendrán una
t (𝑇 − 𝑘) distribución en muestras pequeñas, ni siquiera será asintóticamente 𝑁(0, 1). Una prueba
válida de la hipótesis que 𝛽𝑖 = 𝛽𝑖0 para el caso 5 no sería basado en [8.1.26] pero mas bien
(𝑏𝑖 − 𝛽𝑖0 )
𝑡∗ = [8.2.32]
s √𝑑𝑖𝑖
Donde 𝑑𝑖𝑖 indica la fila 𝑖, columna 𝑖 elemento de (𝑿′ 𝑿)−𝟏 𝑿′𝑽𝑿(𝑿′ 𝑿)−𝟏 . Esta estadística será
asintóticamente 𝑁(0, 1).
Aunque uno podría formar una inferencia basada en [8.2.32], en este caso el cual 𝑽 es conocida, un
estimador superior y un proceso de prueba son descritos en la sección 8.3.
Primero, sin embargo, consideramos un caso más general en el cual 𝑽 es de forma desconocida.
Caso 6. Errores no correlativos en serie pero con heteroscedasticidad

general
Podría ser posible posible diseñar asintóticamente pruebas válidas aun en el proceso de
heteroscedasticidad de una forma completamente desconocida. Este punto fue primero observado
por Eicker(1967) y White (1980) y se extendió el tiempo de regresiones en serie por Hansen (1982)
y Nicholls y Pagan (1983).
Suposicion 8.6: (𝑎) 𝑥𝑡 estocástico, incluyendo valores tal vez retrasados de 𝑦; (𝑏) 𝑥𝑡 𝑢𝑡 es una secuencia de
diferencia de Martingala ; (𝑐) 𝐸(𝑢𝑡2 𝑥𝑡 𝑥𝑡′ ) = Ω𝑡 , una matriz definida positiva, con (1/
𝑝
𝑇) ∑𝑇𝑡=1 Ω𝑡 convergiendo a la matriz definida positiva Ω y (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡2 𝑥𝑡 𝑥𝑡′ → Ω ;
(𝑑) 𝐸(𝑢𝑡 𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑙𝑡 𝑥𝑚𝑡 < ∞ para toda 𝑖, 𝑗, 𝑙, 𝑚 y 𝑡; (𝑒) plims de (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑖𝑡 𝑥𝑡 𝑥𝑡′ y (1/
4
𝑝
𝑇) ∑𝑇𝑡=1 𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑡 𝑥𝑡′ existen y son finitas para toda 𝑖 y 𝑗 y (1/𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ → 𝑸 , una matriz no
singular.
La Suposición 8.6(𝑏) requiere 𝑢𝑡 para no ser correlativa con su propio valor de retraso y su
valor actual y de retraso de 𝑥. Aunque los errores son presumido de ser seriamente no correlativos,
la suposición 8.6(𝑐) permite una amplia clase de heteroscedasticidad condicional para los errores
.Como un ejemplo de tal heteroscedasticidad, considere una regresión con una variable singular
explicativa i.i.d 𝑥 con 𝐸(𝑥𝑡2 ) = 𝜇2 y 𝐸(𝑥𝑡4 ) = 𝜇4 .Suponga que la varianza residual de la
información 𝑡 es dada por 𝐸(𝑢𝑡2 ⁄𝑥𝑡 ) = 𝑎 + 𝑏𝑥𝑡2 . Entonces 𝐸( 𝑢𝑡2 𝑥𝑡2 ) = 𝐸𝑥 [𝐸(𝑢𝑡2 ⁄𝑥𝑡 ). 𝑥𝑡2 ] =
𝐸𝑥 [(𝑎 + 𝑏𝑥𝑡2 ). 𝑥𝑡2 ] = 𝑎𝜇2 + 𝑏𝜇4 . Por tanto, Ω𝑡 = 𝑎𝜇2 + 𝑏𝜇4 = Ω para toda 𝑡. Por la ley de
números grandes, (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡2 𝑥𝑡2 convergirá al momento poblacional Ω. La suposición 8.6(𝑐)
permite heteroscedasticidad condicional más general en esta 𝐸( 𝑢𝑡2 𝑥𝑡2 ) podría ser una función de 𝑡

siempre que el tiempo promedio de (𝑢𝑡2 𝑥𝑡2 ) converja .La suposición 8.6(𝑑) y (𝑒) impone límites
en momentos altos de 𝑥 y 𝑢.
La constante de 𝑏 es establecida usando el mismo argumento como en el caso 3 .La varianza
asintótica es encontrada del escribir.
𝑇 −1 𝑇
√𝑇 (𝑏𝑇 − 𝛽) = [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]

𝑡=1 𝑡=1
La suposición 8.6 (e) asegura que
𝑇 −1
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] → 𝑸−𝟏
𝑡=1
Para algunas matrices 𝑄 no singulares .Asimismo, 𝑥𝑡 𝑢𝑡 satisface las condiciones de la Proposición

7.9,de la cual
𝑇
𝐿
[(1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ] → 𝑁(0, Ω)
𝑡=1
La distribución asintótica de la estimación MCO es asi dada por

𝐿
√𝑇 (𝑏𝑇 − 𝛽) → 𝑁(0, 𝑄 −1 Ω𝑄 −1 ) [8.2.33]
El propósito de White fue estimar la matriz de la varianza asintótica sistemáticamente por

sustitución 𝑄̂𝑇 = (1/𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ y Ω̂𝑇 = (1/𝑇) ∑𝑇𝑡=1 ̂ 𝑢𝑡2 𝑥𝑡 𝑥𝑡′ en [8.2.33], donde 𝑢
̂𝑡
denota el residual MCO en [8.1.4]. El siguiente resultado es determinado en el Apéndice 8.A de
este capitulo
Proposición 8.3: Con heteroscedasticidad de forma desconocida satisfaciendo la Proposición 8.6, la matriz
varianza-covarianza asintótica del coeficiente vectorial MCO puede ser sistemáticamente estimada por
−1 𝑃
𝑄̂𝑇 Ω ̂𝑇 𝑄̂𝑇 −1 → ( 𝑄 −1 Ω𝑄 −1 ) [8.2.34]
Recuerde [8.2.33], La estimación MCO 𝑏𝑇 puede ser tratada como si
̂𝑇 ⁄𝑇)
𝑏𝑇 ≈ 𝑁(𝛽, 𝑉
Donde
̂𝑇 = 𝑄̂𝑇 −1 Ω
𝑉 ̂𝑇 𝑄̂𝑇 −1
= (𝑋𝑇′ 𝑋𝑇 ⁄𝑇)−1 [(1/𝑇) ∑𝑇𝑡=1 ̂

𝑢𝑡2 𝑥𝑡 𝑥𝑡′ ](𝑋𝑇′ 𝑋𝑇 ⁄𝑇)−1 [8.2.35]
𝑇
= 𝑇. (𝑋𝑇′ 𝑋𝑇 )−1 [∑ ̂
𝑢𝑡2 𝑥𝑡 𝑥𝑡′ ] (𝑋𝑇′ 𝑋𝑡 )−1
𝑡=1
̂𝑇 ⁄𝑇 es conocida como un error estándar de

La raíz cuadrada de la fila 𝑖, columna 𝑖 elemento de 𝑉
heteroscedasticidad constante para la estimación MCO 𝑏𝑖 . Podemos, por supuesto, también usar
̂𝑇 ⁄𝑇) para probar una hipótesis conjunta de la forma 𝑅𝛽 = 𝑟 ,donde 𝑅 es una (𝑚 ×𝑘) matriz
(𝑉
resumiendo 𝑚 hipótesis separadas sobre 𝛽 .Específicamente,

̂𝑇 ⁄𝑇)𝑅 ′ ]−1 (𝑅𝑏𝑇 − 𝑟)
(𝑅𝑏𝑇 − 𝑟)′ [𝑅( 𝑉 [8.2.36]
Tiene la misma distribución asintótica como

′
[√𝑇 (𝑅𝑏𝑇 − 𝑟)] (𝑅𝑄−1 Ω𝑄 −1 𝑅′ )−1 [√𝑇 (𝑅𝑏𝑇 − 𝑟)] ,
La cual, de [8.2.33], es una forma cuadrática de un vector (𝑚 ×1) asintóticamente normal

√𝑇 (𝑅𝑏𝑇 − 𝑟) con matriz de ponderación la inversa de su matriz varianza-
covarianza, (𝑅𝑄 −1 Ω𝑄 −1 𝑅′ ) .Por lo tanto, [8.2.36] tiene una distribución asintótica 𝑥 2 con
𝑚 grados de libertad.
ES posible desarrollar una estimación de la matriz varianza-covarianza de 𝑏𝑇 que es sólida con
respecto a ambas heteroscedasticidades y autocorrelación:
̂𝑇 ⁄𝑇)
(𝑉
= (𝑋𝑇′ 𝑋𝑇 )−1 [∑ ̂
𝑢𝑡2 𝑥𝑡 𝑥𝑡′
𝑡=1
𝑞 𝑇
𝑣
+ ∑ [1 − ] ∑(𝑥𝑡 𝑢̂𝑡 𝑢̂ ′
𝑡−𝑣 𝑥𝑡−𝑣 + 𝑥𝑡−𝑣 𝑢
̂ ̂𝑡 𝑥𝑡′ ] (𝑋𝑇′ 𝑋𝑇 )−1
𝑡−𝑣 𝑢
𝑞+1
𝑣=1 𝑡=1
Aquí 𝑞 es un parámetro representando el número de autocorrelaciones utilizadas para aproximar las

dinámicas para 𝑢𝑡 .La raíz cuadrada la fila 𝑖,columna 𝑖 ,elemento de ( 𝑉̂𝑇 ⁄𝑇) es conocida como el
error estándar de heteroscedasticidad y autocorrelación constante Newey West (1987) para el
estimador MCO. La base para esta expresión y maneras alternativas para calcular errores estándar
de heteroscedasticidad y autocorrelación constantes serán discutidas en el Capitulo 10.
8.3. Mínimos Cuadrados Generalizados

La sección previa evaluó la estimación MCO bajo una variedad e suposiciones, incluyendo
𝐸(𝑢𝑢′ ) ≠ 𝜎 2 𝐼𝑇 . Aunque el MCO puede ser usado en este último caso , la mínima cuadrática
generalizada (MCG) es usualmente preferida .
MCG con matriz de covarianza conocida

Permitanos reconsiderar información generada de acuerdo a la Suposicion 8.5,bajo la cual
𝑢|𝑋 ~ 𝑁(0, 𝜎 2 𝑉) con 𝑉 una matriz (𝑇 × 𝑇) conocida.Ya que 𝑉 es simétrica y definida positiva
,existe una matriz (𝑇 × 𝑇) no singular 𝐿 de tal manera que6
𝑉 −1 = 𝐿′ 𝐿. [8.3.1]
Imagine el transformar los residuos de la población 𝑢 por 𝐿:
𝑢̂ ≡ 𝐿𝑢
(𝑇 ×1)
6
Conocemos que existe una matriz no singular 𝑃 tal que 𝑉 = 𝑃𝑃 ′ y asi 𝑉 −1 = [𝑃 ′ ]−1 𝑃 −1
Tome 𝐿 = 𝑃 −1 para deducir [8.3.1]

Esto generaría un nuevo conjunto de residuos o residuales 𝑢̂ con media 0 y varianza condicional en
𝑋 dada por
𝐸(𝑢̂𝑢̂′ |𝑋) = 𝐿. 𝐸(𝑢𝑢′ |𝑋)𝐿′ = 𝐿𝜎 2 𝑉𝐿′
−1 −1
Pero 𝑉 = [𝑉 −1 ] = [𝐿′ 𝐿] , es decir
−1
𝐸(𝑢̂𝑢̂′ |𝑋) = 𝜎 2 𝐿[𝐿′ 𝐿] 𝐿′ = 𝜎 2 𝐼𝑇 [8.3.2]
Podemos por lo tanto tomar la ecuación matriz que caracteriza el modelo de regresión básica,
𝑦 = 𝑋𝛽 + 𝑢,
Y premultiplicada ambos lados por 𝐿:
𝐿𝑦 = 𝐿𝑋𝛽 + 𝐿𝑢
Para producir un nuevo modelo de regresión
𝑦̂ = 𝑋̂𝛽 + 𝑢̂ [8.3.3]
donde
𝑦̂ ≡ 𝐿𝑦 𝑋̂ ≡ 𝐿𝑋 𝑢̂ ≡ 𝐿𝑢 [8.3.4]
Con 𝑢̂|𝑋 ~𝑁(0, 𝜎 2 𝐼𝑇 ). Por eso ,el modelo transformado [8.3.3] satisface la Suposición 8.2,es decir
que los resultados para este caso aplicado a [8.3.3].Específicamente ,el estimador
−1
𝑏̂ = (𝑋̂ ′ 𝑋̂ ) 𝑋̂ ′ 𝑦̂ = (𝑋 ′ 𝐿′ 𝐿𝑋)−1 𝑋 ′ 𝐿′ 𝐿𝑦 = (𝑋 ′ 𝑉 −1 𝑋)−1 𝑋 ′ 𝑉 −1 𝑦 [8.3.5]
−1
Es Gaussiano con media 𝛽 y varianza 𝜎 2 (𝑋̂ ′ 𝑋̂ ) = 𝜎 2 (𝑋 ′ 𝑉 −1 𝑋)−1 condicional en 𝑋 y es el
estimador condicional imparcial de varianza mínima en 𝑋.El estimador [8.3.5] es conocido como el
estimador mÍnimo cuadrático generalizado (MCG).Igualmente,
𝑠̂2 = [1⁄(𝑇 − 𝑘)] ∑𝑇𝑡=1(𝑦̂ ̂𝑡′ 𝑏̂)2

𝑡 − 𝑥 [8.3.6]
Tiene una distribución exacta [𝜎 2 ⁄(𝑇 − 𝑘)]. 𝑥 2 (𝑇 − 𝑘) bajo la Suposicion 8.5, mientras
′ −1
(𝑅𝑏̂ − 𝑟) [ 𝑠̂
2 𝑅(𝑋 ′ 𝑉 −1 𝑋)−1 𝑅 ′ ] (𝑅𝑏̂ − 𝑟)⁄𝑚
Tiene una distribución 𝐹(𝑚, 𝑇 − 𝑘) exacta bajo la hipótesis nula 𝑅𝛽 = 𝑟
Ahora discutimos varios ejemplos para hacer estas ideas concretas.
Heteroscedasticidad
Un caso simple para analizar es uno para el cual la varianza de 𝑢𝑡 es presumida para ser
2
proporcional al cuadrado de una de las variables explicativas para esta ecuación, dice 𝑥1𝑡 :
2
𝑥11 0⋯ 0
𝐸(𝑢𝑢′ |𝑋) = 𝜎 2 [ ⋮ ⋱ ⋮ ] = 𝜎2𝑉
2
0 0⋯ 𝑥1𝑇
Luego esto es fácil de ver que
1⁄|𝑥11 | 0 ⋯ 0
𝐿=[ ⋮ ⋱ ⋮ ]
0 0 ⋯ 1⁄|𝑥1𝑇 |
8.3. Mínimos cuadrados generalizados 231

Condiciones satisfactorias de [8.3.1] y [8.3.2]. Por lo tanto, si regresamos 𝑦𝑡 ⁄|𝑥1𝑡 | en 𝑥𝑡 ⁄|𝑥1𝑡 |,toda
la producción estándar estándar MCO de la regresión será válida.
Autocorrelacion
Como un segundo ejemplo, considere
𝑢𝑡 = 𝜌𝑢𝑡−1 + 𝜀𝑡
[8.3.7]
Donde |𝜌| < 1 y 𝜀, es un ruido blanco Gaussiano con varianza 𝜎 2 . Entonces
𝜎2 1 𝜌 𝜌2 ⋯ 𝜌𝑇−1
′ |𝑋)
𝐸(𝑢𝑢 = [ ⋮ ⋱ ⋮ ] = 𝜎2𝑉
1 − 𝜌2 𝑇−1 𝑇−2 𝑇−3
𝜌 𝜌 𝜌 ⋯ 1
[8.3.8]
Tenga en cuenta de la expresión [5.2.18] que la matriz
√1 − 𝜌2 0 0 ⋯0 0
𝐿= [ ⋮ ⋱ ⋮]
0 0 0 ⋯−𝜌 1
[8.3.9]
Satisface [8.3.19]. Las estimaciones MCG son encontradas de una regresión MCO de 𝑦̂ = 𝐿𝑦 en
𝑋̂ = 𝐿𝑋 ; eso es retroceso 𝑦1 √1 − 𝜌2 en 𝑥1 √1 − 𝜌2 y 𝑦𝑡 − 𝜌𝑦𝑡−1 en 𝑥𝑡 − 𝜌𝑥𝑡−1 para 𝑡 =
2,3, … . . , 𝑇.
MCG y estimación de probabilidad máxima

La suposición 8.5 afirma que 𝑦|𝑋 ~𝑁(𝑋𝛽, 𝜎 2 𝑉. Por ello, el registro de la probabilidad de 𝑦
condicionada en 𝑋 es dada por
(− 𝑇⁄2) log(2𝜋) − (1⁄2) log|𝜎 2 𝑉| − (1⁄2)(𝑦 − 𝑋𝛽)′ ( 𝜎 2 𝑉)−1 (𝑦 − 𝑋𝛽)

[8.3.10]
Tenga en cuenta que [8.3.1] puede ser usada para escribir el ultimo termino en [8.3.10] como
− (1⁄2)(𝑦 − 𝑋𝛽)′ ( 𝜎 2 𝑉)−1 (𝑦 − 𝑋𝛽)
= −[1⁄(2𝜎 2 )](𝑦 − 𝑋𝛽)′ (𝐿′ 𝐿)(𝑦 − 𝑋𝛽)

= −[1⁄(2𝜎 2 )](𝐿𝑦 − 𝐿𝑋𝛽)′ (𝐿𝑦 − 𝐿𝑋𝛽)
[8.3.11]
′
= −[1 (𝑦̂ − 𝑋̂ 𝛽) (𝑦̂ − 𝑋̂𝛽)
⁄(2𝜎 2 )]
Igualmente, el término medio en [8.3.10] puede ser escrito como en [5.2.24]:
−(1⁄2) log|𝜎 2 𝑉| = −(𝑇⁄2) log( 𝜎 2 ) + log|det(𝐿)| , [8.3.12]
Donde |det(𝐿)| denota el valor absoluto de la determinante de 𝐿. Sustituyendo [8.3.11] y [8.3.12]

en [8.3.10],la probabilidad de registro condicional puede ser escrita como
′
(− 𝑇⁄2) log(2𝜋) − (𝑇⁄2) log(𝜎 2 ) + log|det(𝐿)| − [1⁄(2𝜎 2 )](𝑦̂ − 𝑋̂𝛽) (𝑦̂ − 𝑋̂𝛽) [8.3.13]

De este modo ,la probabilidad de registro es maximizada con respecto a 𝛽 por una regresión MCO
de 𝑦̂ en 𝑋̂,9 es decir que la estimación MCG [8.3.5] es también la máxima probabilidad estimada
bajo la suposición 8.5.
La estimación MCG 𝑏̂ es todavía probable ser razonable aunque los residuales 𝑢 no son
Gaussianos .Específicamente ,los residuales de la regresión [8.3.3] tiene media 0 y varianza 𝜎 2 𝐼𝑇 , y
asi esta regresión satisface las condiciones del teorema de Gauss Markov-incluso si los residuales no
son Gaussianos, 𝑏̂ tendrá varianza mínima (condicional en 𝑋) entre la clase de todos los
estimadores imparciales que son funciones lineales de 𝑦.Por lo tanto , la maximización de [8.3.13] o
estimación de probabilidad casi máxima ,podría ofrecer un principio de estimación útil incluso para
no gaussiano 𝑢.
MCG cuando la matriz de varianza de residuales debe ser estimada de la

información
Hasta este punto hemos estado asumiendo que los elementos de 𝑉 son conocidos a
priori .Comúnmente, 𝑉 es propuesta a ser de una forma particular de 𝑉(𝜃) ,donde 𝜃 es un vector
de parámetros que debe ser estimado de la información. Por ejemplo, con la correlación en serie de
primer orden de residuales como en [8.3.7], 𝑉 es la matriz en [8.3.8] y 𝜃 es el escalar 𝜌.Como un
segundo ejemplo, podríamos suponer que la varianza de observación 𝑡 depende de las variable
explicativas de acuerdo a
2 2 ).
𝐸(𝑢𝑡2 |𝑥𝑡 ) = 𝜎 2 (1 + 𝛼1 𝑥1𝑡 + 𝛼2 𝑥2𝑡
En cuyo caso 𝜃 = (𝛼1 , 𝛼2 )′

Nuestra labor es entonces el estimar 𝜃 y 𝛽 conjuntamente de la información .Un enfoque es usar
como estimadores los valores de 𝜃 y 𝛽 que maximizan [8.3.13].Entonces uno puede siempre formar
[8.3.13] y maximizar esto numéricamente , este enfoque tiene la apelación de ofrecer una sola regla
de seguir siempre que 𝐸(𝑢𝑢′ |𝑋) no sea de la forma simple 𝜎 2 𝐼𝑇 .
Esto con frecuencia resulta ser el caso que
−1 −1 −1
√𝑇 (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑋𝑇 ) (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑦𝑇 )
𝑝 −1 −1 −1
→ √𝑇 (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑋𝑇 ) (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑦𝑇 ),
Donde 𝑉𝑇 (𝜃0 ) denota la varianza verdadera de errores y 𝜃̂𝑇 es cualquier estimación constante
de 𝜃.Ademas ,una estimación constante de 𝜃 puede con frecuencia ser obtenida de un análisis
simple de residuos MCO.Por tanto,una estimación viene de unas MCO simples y regresiones
MCG que pueden tener la misma distribución asintótica como el estimador de probabilidad
máxima .Entonces las regresiones son mucho más fáciles de implementar que una maximización
numérica, las estimaciones más simples son utilizadas con frecuencia.
Estimación con auto correlación de primer orden de residuos de la

regresión y variables endógenas no retrasadas
Ilustramos estos temas considerando una regresión cuyos residuales siguen el proceso
AR(1) [8.3.7].Por ahora mantenemos la suposición que 𝑢|𝑋 tiene media cero y varianza
𝜎 2 𝑉(𝜌),observando que esto descarta variables endógenas retrasadas ;es decir, asumimos que 𝑥𝑡 no
es correlativa con 𝑢𝑡−𝑠 .Los siguientes comentarios de subsección en la importancia de esta
suposición .Recuerde que el determinante de una matriz triangular inferior es solo el producto de

los términos en la diagonal principal, vemos de [8.3.9] que det(𝐿) = √1 − 𝜌2 . Por tanto, la
probabilidad de registro [8.3.13] para este caso es
(− 𝑇⁄2) log(2𝜋) − (𝑇⁄2) log(𝜎 2 ) + (1⁄2) log(1 − 𝜌2 )
−[(1 − 𝜌2 )⁄(2𝜎 2 )](𝑦1 − 𝑥1′ 𝛽)2

𝑇
′
−[1⁄(2𝜎 )] ∑[(𝑦𝑡 − 𝑥𝑡′ 𝛽) − 𝜌(𝑦𝑡−1 − 𝑥𝑡−1
2
𝛽)]2 .
𝑡=2
[8.3.14]
Un enfoque ,entonces, es maximizar [8.3.14] numéricamente con respecto a 𝛽, 𝜌 y 𝜎 2 . El lector
podría reconocer [8.3.14] como la función de probabilidad de registro exacto para un proceso
𝐴𝑅(1) ( ecuación [5.2.9]) con (𝑦𝑡 − µ) sustituido por (𝑦𝑡 − 𝑥1′ 𝛽)
Solo como en el caso 𝐴𝑅(1), estimaciones mas simples ( con la misma distribución asintótica ) son
obtenidas si condicionamos en la primera observación ,buscando maximizar
−[(𝑇 − 1)/2] log(2𝜋) − [(𝑇 − 1)⁄2)]𝑙𝑜𝑔(𝜎 2 )
−[1⁄(2𝜎 2 )] ∑𝑇𝑡=2[(𝑦𝑡 − 𝑥𝑡′ 𝛽) − 𝜌(𝑦𝑡−1 − 𝑥𝑡−1

′
𝛽)]2 . [8.3.15]
Si conocimos el valor de 𝜌 ,entonces el valor de 𝛽 que maximiza [8.3.15] podría ser encontrado por
una regresión MCO de (𝑦𝑡 − 𝜌𝑦𝑡−1 ) en (𝑥𝑡 − 𝜌𝑥𝑡−1 ) para 𝑡 = 2,3, … 𝑇
(llame a esta regresión A). En cambio, si conocimos el valor de 𝛽 ,entonces el valor de 𝜌 que
maximiza [8.3.15] seria encontrado por una regresión MCO de (𝑦1 − 𝑥1′ 𝛽) en (𝑦𝑡−1 − 𝑥𝑡−1 ′
𝛽)
para 𝑡 = 2,3, … 𝑇 (llame a esta regresión B).Podemos por lo tanto empezar una estimación inicial
para 𝜌 (con frecuencia 𝜌 = 0), y presentar la regresión A para obtener una estimación inicial de
𝛽 .Para 𝜌 = 0, esta estimación inicial de 𝛽 solo sería la estimación MCO 𝑏. Esta estimación de 𝛽
puede ser utilizada en la regresión B para obtener una estimación de 𝜌, por ejemplo, regresando el
residuo MCO 𝑢 ̂𝑡 = 𝑦𝑡 − 𝑥𝑡′ 𝑏 en su propio valor de retraso. Esta nueva estimación de 𝜌 puede ser
utilizada para repetir las dos regresiones .
Zigzagueando hacia adelante y hacia atrás entre A y B es conocido como el método iterado
Cochrane Orcutt y convergirá a un máximo local de [8.3.15]
Alternativamente, considere la estimación de 𝜌 que resulta de la primera iteración sola,
(1⁄𝑇) ∑𝑇 ̂𝑡−1 𝑢
𝑡=1 𝑢 ̂𝑡
𝜌̂ = (1⁄𝑇) ∑𝑇 2
̂𝑡−1
, [8.3.16]
𝑡=1 𝑢
Donde 𝑢̂𝑡 = 𝑦𝑡 − 𝑥𝑡′ 𝑏 y 𝑏 es la estimación MCO de 𝛽. Para simplificar expresiones, hemos

renormalizado el número de observaciones en la muestra original a 𝑇 + 1, denotado
𝑦0 , 𝑦1 , … , 𝑦𝑇 , a fin de que observaciones 𝑇 sean utilizadas en la estimacion de probabilidad
máxima condicional, tenga en cuenta que
̂𝑡 = (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 + 𝛽 ′ 𝑥𝑡 − 𝑏 ′ 𝑥𝑡 ) = 𝑢𝑡 +( 𝛽 − 𝑏)′ 𝑥𝑡 ,
𝑢
Permitiendo que el numerador de [8.3.16] sea escrito
𝑇
(1⁄𝑇) ∑ 𝑢̂𝑡 𝑢̂𝑡−1

𝑡=1
= (1⁄𝑇) ∑𝑇𝑡=1[𝑢𝑡 +( 𝛽 − 𝑏)′ 𝑥𝑡 ] [𝑢𝑡−1 +( 𝛽 − 𝑏)′ 𝑥𝑡−1 ] [8.3.17]
= (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 ) + ( 𝛽 − 𝑏)′ (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑥𝑡−1 + 𝑢𝑡−1 𝑥𝑡 )

𝑇
′ ′
+ ( 𝛽 − 𝑏) [(1⁄𝑇) ∑ 𝑥𝑡 𝑥𝑡−1 ] ( 𝛽 − 𝑏).
𝑡=1
Siempre y cuando 𝑏 sea una estimación constante de 𝛽 y condiciones limitadas aseguren que plims
de (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡−1 , (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡 , y (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1
′
existen ,entonces
𝜌
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡 𝑢̂𝑡−1 → (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 )
= (1⁄𝑇) ∑𝑇𝑡=1(𝜀𝑡 + 𝜌𝑢𝑡−1 )𝑢𝑡−1 [8.3.18]

𝜌
→ 𝜌𝑉𝑎𝑟(𝑢).
Un análisis similar establece que el denominador de [8.3.16] converge en probabilidad a 𝑉𝑎𝑟(𝑢),

𝜌
para que 𝜌̂ → 𝜌.
Si 𝑢 no es correlativa con 𝑥𝑠 para 𝑠 = 𝑡 − 1, 𝑡,y 𝑡 + 1 puede hacer la afirmación más fuerte que
una estimación de 𝜌 basada en una auto regresión de residuales MCO 𝑢̂𝑡 (expresión [8.3.16])que
tiene la misma distribución asintótica como una estimación de 𝜌 basada en los residuos
poblacionales verdaderos 𝑢𝑡 . Específicamente ,si el plim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡−1 ] =
𝑝lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑥𝑡 ] = 0, entonces multiplicando [8.3.17] por √𝑇, encontramos
𝑇
(1⁄√𝑇) ∑ 𝑢̂𝑡 𝑢̂𝑡−1

𝑡=1
= (1⁄√𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 ) + √𝑇( 𝛽 − 𝑏)′ (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑥𝑡−1 + 𝑢𝑡−1 𝑥𝑡 )
+√𝑇( 𝛽 − 𝑏)′ [(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1

′ ](
𝛽 − 𝑏) [8.3.19]
𝜌
→ (1⁄√𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 ) + √𝑇( 𝛽 − 𝑏)′ 0
+ √𝑇( 𝛽 − 𝑏)′ 𝑝 lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1

′ ]0
= (1⁄√𝑇) ∑(𝑢𝑡 𝑢𝑡−1 ).

𝑡=1
Por lo tanto
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡−1 𝑢̂𝑡 𝜌 (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑢𝑡
√𝑇 [ ] → √𝑇 [ ] [8.3.20]
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡−1
2
(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1
2
La estimación MCO de 𝜌 basada en los residuales poblacionales tendría una distribución asintótica
dada por [8.2.30]:
(1⁄𝑇) ∑𝑇 ̂𝑡−1 𝑢
̂𝑡 𝐿
𝑡=1 𝑢
√𝑇 [ (1⁄𝑇) ∑𝑇 2
̂𝑡−1
− 𝜌] → 𝑁(0, (1 − 𝜌2 )). [8.3.21]
𝑡=1 𝑢
El resultado [8.3.20] implica que una estimación de 𝜌 tiene la misma distribución asintótica cuando
se basa en cualquier estimación constante de 𝛽. Si las iteraciones Cochrane-orcutt son detenidas
después de una sola evaluación de 𝜌̂,la estimacion resultada de 𝜌 tiene la misma distribución
asintótica como la estimacion de 𝜌 emergiendo de cualquier paso subsecuente de la iteración.
Lo mismo también resulta ser cierto de la estimación MCG 𝑏̂.

Proposición 8.4: Asuma que la suposición 8.5 (a) y (b) cuenta con 𝑉 dada por [8.3.8] y |𝜌| < 1. En adicion
𝜌
suponga que (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑢𝑠 → 0 para toda 𝑠 y que (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ y (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1 ′
tienen
̂
plims finitos .Entonces la estimación MCG 𝑏 construida de 𝑉(𝜌̂) para 𝜌̂ dada por [8.3.16] tine la misma
distribución como 𝑏̂ construida de 𝑉(𝜌) para el verdadero valor de 𝜌.
Correlación en serie con Variables endógenas retardadas
Una variable endógena es una variable que es correlacionada con el termino de error de la regresión
𝑢𝑡 .Muchos de los resultados precedentes sobre errores correlacionados en serie ya no sostienen si la
regresión contiene variables endógenas retardadas. Por ejemplo, considere una estimación de
𝑦𝑡 = 𝛽 𝑦𝑡−1 + 𝛾𝑥𝑡 + 𝑢𝑡 , [8.3.22]
Donde 𝑢𝑡 sigue un proceso 𝐴𝑅(1) como en [8.3.7].Entonces (1) 𝑢𝑡 es correlativa con 𝑢𝑡−1 y (2)
𝑢𝑡−1 es correlativa con 𝑦𝑡−1 , esto cumple que 𝑢𝑡 es correlativa con la variable explicatoria 𝑦𝑡−1 . En
consecuencia ,este no es el caso que 𝑝 lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑢𝑡 ] = 0. La condición clave requerida
para la consistencia del estimador MCO 𝑏. Por tanto, 𝜌̂ en [8.3.16] no es una estimación constante
de 𝜌.
Si uno a pesar de ello itera en el procedimiento Cochrane-Orcuttt, entonces el algoritmo convergirá
a un máximo local de [8.3.15].Sin embargo, la estimación MCG resultante 𝑏̂ no tiene que ser una
estimación constante de 𝛽.No obstante ,el máximo global de [8.3.15] debería ofrecer una
estimación constante de 𝛽. Por medio de la experimentación con valores de inicio para Cochrane –
Orcutt iterado además de 𝜌 = 0, uno podría encontrar este máximo global.10
Una estimacion simple de 𝜌 que es constante en la presencia de variables endógenas retardadas fue
propuesta por Durbin (1960).Multiplicando [8.3.22] por (1 − 𝜌𝐿) da
𝑦𝑡 = ( 𝜌 + 𝛽) 𝑦𝑡−1 − 𝜌𝛽𝑦𝑡−2 + 𝛾𝑥𝑡 − 𝜌𝛾𝑥𝑡−1 + 𝜀𝑡 [8.3.23]
Esto es una versión restringida del modelo de regresión
𝑦𝑡 = 𝛼1 𝑦𝑡−1 + 𝛼2 𝑦𝑡−2 + 𝛼3 𝑥𝑡 + 𝛼4 𝑥𝑡−1 + 𝜀𝑡 , [8.3.24]
Donde los cuatro coeficientes de regresión (𝛼1 , 𝛼2 , 𝛼3 , 𝛼4 ) son restringidos para no se funciones
lineales de tres parámetros subyacentes (𝜌, 𝛽, 𝛾).Reduccion de la suma de 𝜀 ′ s cuadrada en [8.3.23]
es equivalente a un acondicionamiento de la estimacion de probabilidad máxima en las primeras
dos observaciones. Además ,el termino de error en la ecuación [8.3.24] no es correlativa con las
variables explicativas, por lo tanto la 𝛼 ′ s puede ser estimada sistemáticamente por la estimación
MCO de [8.3.24] . Entonces − 𝛼 ̂4 ⁄𝛼
̂3 ofrece una estimación constante de 𝜌 a pesar de la presencia
de variables endógenas retardadas en [8.3.24]
Aun si estimaciones sistematizadas de 𝜌 y 𝛽son obtenidas ,Durbin (1970) enfatiza que con
variables endógenas retardadas esto aun no será el caso que una estimacion de 𝜌 basada en (𝑦𝑡 −
𝑥𝑡′ 𝛽̂) tiene la misma distribución asintótica como una estimación basada en (𝑦𝑡 − 𝑥𝑡′ 𝛽̂ ). Para ver
esto, tenga en cuenta que si 𝑥 contiene variables endógenas retardadas, entonces [8.3.19] no seria
valida .Si 𝑥 incluye 𝑦𝑡−1 por ejemplo, entonces 𝑥 y 𝑢𝑡−1 serán correlativas y
𝑝 lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑥𝑡 ] ≠ 0, incluye variables endógenas retardadas.
Nuevamente , un proceso de uso múltiple que trabajara como es maximizar la función de
probabilidad de registro [8.3.15] numéricamente.
Correlación en serie de orden superior11

A continuación considere el caso cuando la distribución de 𝑢|𝑋 puede ser descrita por una
regresión de 𝜌 orden
𝑢𝑡 = 𝜌1 𝑢𝑡−1 + 𝜌2 𝑢𝑡−2 + ⋯ + 𝜌𝑝 𝑢𝑡−𝑝 + 𝜀𝑡
La condicional de probabilidad de registro en 𝑋 para este caso llega a ser

(− 𝑇⁄2) log(2𝜋) − (𝑇⁄2) log(𝜎 2 ) − (1⁄2) log |𝑉𝜌 |
′
−[1⁄(2𝜎 2 )](𝑦𝑝 − 𝑋𝑝 𝛽) 𝑉𝜌−1 (𝑦𝑝 − 𝑋𝑝 𝛽)
−[1⁄(2𝜎 2 )] ∑𝑇𝑡=𝜌+1 [(𝑦𝑡 − 𝑥𝑡′ 𝛽) − 𝜌1 (𝑦𝑡−1 − 𝑥𝑡−1

′
𝛽) [8.3.25]
′ ′
−𝜌2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽) − ⋯ − 𝜌𝑝 (𝑦𝑡−𝑝 − 𝑥𝑡−𝑝 𝛽)] ,
Donde el (𝜌×1) vector 𝑦𝜌 denota la primera 𝜌 observación en 𝑦, 𝑋𝑝 es la matriz (𝜌×𝑘) de las

variables explicatorias asociadas con estas primeras 𝜌 observaciones, y 𝜎 2 𝑉𝑝 es la (𝜌×𝜌) matriz
varianza-covarianza de (𝑦𝑝 |𝑋𝑝 ).La fila 𝑖 ,la columna 𝑗 elmento de 𝜎 2 𝑉𝑝 es dado por 𝛾|𝑖−𝑗| ,la 𝛾𝑘
autocovarianza de un proceso 𝐴𝑅(𝜌) con parámetros autoregresivos 𝜌1, 𝜌2, … , 𝜌𝜌 y varianza
innovación 𝜎 2 . Dejando que 𝐿𝑝 denote una (𝜌×𝜌) matriz tal que 𝐿𝑝 ′ 𝐿𝑝 = 𝑉𝑝 −1,MCG pueda ser
obtenida por regresión 𝑦̂𝜌 = 𝐿𝑝 𝑦𝑝 en 𝑋̂𝜌 = 𝐿𝑝 𝑋𝑝 y 𝑦̂𝑡 = 𝑦𝑡 − 𝜌1 𝑦𝑡−1 − 𝜌2 𝑦𝑡−2 − ⋯ − 𝜌𝑝 𝑦𝑡−𝑝
en 𝑥̂𝑡 = 𝑥𝑡 − 𝜌1 𝑥𝑡−1 − 𝜌2 𝑥𝑡−2 − ⋯ − 𝜌𝑝 𝑥𝑡−𝑝 para 𝑡 = 𝜌 + 1, 𝜌 + 2, … , 𝑇. En la ecuación
[8.3.14] es un caso especial de [8.3.25] con 𝜌 = 1, 𝑉𝑝 = 1⁄(1 − 𝜌2 ), y 𝐿𝑝 = √1 − 𝜌2 .
Si estamos dispuestos a condicionas en la primera 𝜌 observación, la función es elegir 𝛽 y 𝜌1, 𝜌2, …
, 𝜌𝜌
con el fin de minimizar

𝑇
′ ′
∑ [(𝑦𝑡 − 𝑥𝑡′ 𝛽) − 𝜌1 (𝑦𝑡−1 − 𝑥𝑡−1 𝛽) − 𝜌2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽)
𝑡=𝜌+1
′ 2
− … − 𝜌𝑝 (𝑦𝑡−𝑝 − 𝑥𝑡−𝑝 𝛽)]
Nuevamente, en la ausencia de variables endógenas retardadas podemos iterar como en Cochrane-

Orcutt, primero tomando la 𝜌𝑖 ‘s tal como se indica y regresión 𝑦̂𝑡 en 𝑥̂𝑡 y luego tomar 𝛽 como se
indica y regesion 𝑢̂𝑡 en 𝑢̂𝑡−1, 𝑢̂𝑡−2 , … , 𝑢̂𝑡−𝑝 .
Cualquier proceso de covarianza estacionaria para los errores siempre puede estar aproximada por
una autoregresion finita, siempre que el orden de la aproximación de la regresión (𝜌) es
suficientemente mayor. Amemiya (1973) demostró que dejando a 𝜌 ir al infinito en una taza más
lenta que el tamaño de la muestra 𝑇, esta estimación MCG iterada tendrá la misma distribución
asintótica como lo haría la estimacion MCG para el caso cuando 𝑉 es conocida.Alternativamente,si
la teoría implica una estructura 𝐴𝑅𝑀𝐴 (𝑝, 𝑞) para los errores con 𝜌 y 𝑞 conocidos ,uno puede
encontrar estimaciones de probabilidad máxima aproximadas o exactas adaptando los métodos en
el capítulo 5, reemplazando 𝜇 en las expresiones del capítulo 5 con 𝑥𝑡′ 𝛽.
Comentarios adicionales en heteroscedasticidad

La heteroscedasticidad puede surgir de una variedad de recursos y la solución depende de la
naturaleza del problema identificado .Usando registros en vez de niveles de variables, permitiendo a
las variables explicatorias entrar no linealmente en la ecuación de regresión, o añadiendo variables
explicatorias omitidas previamente a la regresión podría ser todo útil. Judge,Griffiths,Hill y Lee
(1980) discutieron una variedad de soluciones cuando la heteroscedasticidad se cree que es
relacionada a las variables explicatorias .
En regresiones en serie de tiempo, las variables explicatorias exhiben a sí mismas un
comportamiento dinámico , y tales especficaciones entonces implican una estructura dinámica para

la varianza condiciona. Un ejemplo de tal modelo es la especificación de heteroscedasticidad
condicional autoregresiva de Engle (1982). Modelos dinámicos de heteroscedasticidad serán
discutidos en el Capítulo 21.
Apéndice 8.A Pruebas de las Proposiciones del Capítulo 8

Prueba de la Proposición 8.2: La estimación restringida 𝑏 ∗ que minimiza[8.1.2] sujeta a [8.1.27]
puede ser calculada usando el método Lagrangiano :
𝑇
𝐽 = (1⁄2) ∑ (𝑦𝑡 − 𝑥𝑡′ 𝛽)2 + 𝜆′ (𝑅𝛽 − 𝑟).

𝑡=1
[8.A.1]
Aquí 𝜆 denota un (𝑚×1) vector de multiplicadores Lagrangianos; 𝜆𝑖 , es asociado con la restricción

1
representada por la fila de 𝑅𝛽 = 𝑟. El termino es una contante de normalización para simplificar
2
las expresiones que continúan. La restricción minima es encontrada por permitirla derivativa de
[8.A.1] con respecto a 𝛽 igual a cero:12
𝑇
𝜕𝐽 ′
𝜕(𝑦𝑡 − 𝑥𝑡′ 𝛽) ′
= (1 ⁄ 2) ∑ 2(𝑦𝑡 − 𝑥𝑡 𝛽) +𝜆 𝑅
𝜕𝛽 ′ 𝜕𝛽 ′
𝑡=1
= − ∑ (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 )𝑥𝑡′ + 𝜆′ 𝑅 = 0′ ,
𝑡=1
O
𝑇 𝑇
∗
𝑏 ′∑ 𝑥𝑡 𝑥𝑡′ = ∑ 𝑦𝑡 𝑥𝑡′ − 𝜆′ 𝑅.
𝑡=1 𝑡=1
Tomando transposiciones,
𝑇 𝑇
[∑ 𝑥𝑡 𝑥𝑡′ ] 𝑏 = ∑ 𝑥𝑡 𝑦𝑡 − 𝑅 ′ 𝜆
∗
𝑡=1 𝑡=1
𝑏 ∗ = [∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ ]−1 [∑𝑇𝑡=1 𝑥𝑡 𝑦𝑡 ] − [∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ ]−1 𝑅′ 𝜆 [8.A.2]
= 𝑏 −(𝑋 ′ 𝑋)−1 𝑅′ 𝜆 ,
Donde 𝑏 denota la estimacion MCO no restringida. Premultiplicando [8.A.2] por 𝑅 (y recordando

que 𝑏 ∗ satisface 𝑅𝑏 ∗ = 𝑟),
𝑅𝑏 − 𝑟 = 𝑅(𝑋 ′ 𝑋)−1 𝑅′ 𝜆
O
𝜆 = [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟).
[8.A.3]
Sustituyendo [8.A.3] en [8.A.2],
𝑏 − 𝑏 ∗ = (𝑋 ′ 𝑋)−1 𝑅′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟) [8.A.4]

Note de [8.A.4] que
(𝑏 − 𝑏 ∗ )′ (𝑋 ′ 𝑋)(𝑏 − 𝑏 ∗ ) = {(𝑅𝑏 − 𝑟)′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 𝑅(𝑋 ′ 𝑋)−1 }(𝑋 ′ 𝑋)
×{(𝑋 ′ 𝑋)−1 𝑅 ′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟)}
= (𝑅𝑏 − 𝑟)′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]

[8.A.5]
×[𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟)
= (𝑅𝑏 − 𝑟)′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟).
Por tanto, la magnitud en [8.1.32] es numéricamente idéntica a
(𝑏 − 𝑏 ∗ ) ′ 𝑋′𝑋(𝑏 − 𝑏 ∗ )/𝑚 (𝑏 − 𝑏 ∗ ) ′ 𝑋′𝑋(𝑏 − 𝑏 ∗ )/𝑚

F = =
𝑆2 𝑅𝑆𝑆1 /(𝑇 − 𝑘)
Comparando esto con [8.1.37], Habremos completado la demostración de la equivalencia de

[8.1.32] con [8.1.37] si esto es el caso que
𝑅𝑆𝑆𝑆0 − 𝑅𝑆𝑆1 = (𝑏 − 𝑏 ∗ ) ′(𝑋′𝑋)(𝑏 − 𝑏 ∗ )

[8.A.6]
Ahora, tenga en cuenta que
𝑅𝑆𝑆𝑆0 = (𝑦 − 𝑋𝑏 ∗ ) ′ (𝑦 − 𝑋𝑏 ∗ )
= ( 𝑦 – 𝑋𝑏 + 𝑋𝑏 − 𝑋𝑏 ∗ ) ′ ( 𝑦 – 𝑋𝑏 + 𝑋𝑏 − 𝑋𝑏 ∗ )
[8.A.7]
= (𝑦 – 𝑋𝑏) ′ ( 𝑦 – 𝑋𝑏) + (𝑏 − 𝑏 ∗ )′𝑋′𝑋 (𝑏 − 𝑏 ∗ )
Donde el termino de producto cruzado o vectorial ha desaparecido, ya que ( 𝑦 – 𝑋𝑏) ′𝑋 = 0 por

la ultima propiedad de minimos cuadrados [8.1.10], La ecuación [8.A.7] establece que
𝑅𝑆𝑆𝑆0 = 𝑅𝑆𝑆1 + (𝑏 − 𝑏 ∗ ) ′𝑋′𝑋(𝑏 − 𝑏 ∗ )

[8.A.8]
Confirmando [8.A.6] ∎
𝑃
∎ Prueba de la proposición 8.3: Suposición 8.6 (e) garantiza que 𝑄̂𝑇 → 𝑄 asi que el asunto es si
̂ ̂
Ω𝑇 da una estimación constante de Ω. Defina Ω𝑇 ≡ (1/T)∑𝑡=1 𝑢𝑡 𝑥𝑡 𝑥𝑡′ , observe que Ω∗𝑇 converge
∗ 𝑇 2
𝑃
̂𝑇 − Ω∗𝑇 → 𝟎,
en probabilidad a Ω por la suposición 8.6(c ).Por tanto ,si podemos mostrar que Ω
𝑃
̂𝑇 → Ω . Ahora
entonces Ω
̂𝑇 − Ω∗𝑇 = (1/T)∑𝑇𝑡=1(ȗ2𝑡 𝑢𝑡2 )𝑥𝑡 𝑥𝑡′

Ω [8.A.9]
Pero
(ȗ2𝑡 − 𝑢𝑡2 ) = (𝑢̂𝑡 + 𝑢𝑡 )(𝑢̂𝑡 + 𝑢𝑡 )

= [(𝑦𝑡 − 𝑏𝑇′ 𝑥𝑡 ) + (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 )][(𝑦𝑡 − 𝑏𝑇′ 𝑥𝑡 ) − (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 )]
= [2(𝑦𝑡 − 𝛽 ′ 𝑥𝑡 ) − (𝑏𝑇 − 𝛽)′ 𝑥𝑡 ][−(𝑏𝑇 − 𝛽)′ 𝑥𝑡 ]
= −2𝑢𝑡 (𝑏𝑇 − 𝛽)′ 𝑥𝑡 + [(𝑏𝑇 − 𝛽)′ 𝑥𝑡 ]2 ,
Dando [8.A.9] para ser escrita como
𝑇 𝑇
̂𝑇 −
Ω Ω∗𝑇 = (− 2/𝑇) ∑ 𝑢𝑡 (𝑏𝑇 − 𝛽) ′
𝑥𝑡 (𝑥𝑡 𝑥𝑡′ ) + (1/T) ∑[(𝑏𝑇 − 𝛽)′ ]2 (𝑥𝑡 𝑥𝑡′ ).
𝑡=1 𝑡=1
[8.A.10]
El primer término en [8.A.10] puede ser escrito
(− 2/𝑇) ∑𝑇𝑡=1 𝑢𝑡 (𝑏𝑇 − 𝛽)′ 𝑥𝑡 (𝑥𝑡 𝑥𝑡′ ) = −2 ∑𝑘𝑖=1(𝑏𝑖𝑇 − 𝛽𝑖 )[(1/T) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑖𝑡 (𝑥𝑡 𝑥𝑡′ )] [8.A.11]
𝑝
El segundo término en [8.A.11] tiene un 𝑝𝑙𝑖𝑚 finito por la suposición 8.6 (e),y (𝑏𝑖𝑇 − 𝛽𝑖 ) → 0 para
cada 𝑖. Por tanto, la probabilidad limita de [8.A.11] es cero.
Pasando al siguiente termino en [8.A.10]
(1/𝑇) ∑𝑇𝑡=1[(𝑏𝑇 − 𝛽)′ 𝑥𝑡 ] 2 (𝑥𝑡 𝑥𝑡′ ) = ∑𝑘𝑖=1 ∑𝑘𝑖=1(𝑏𝑖𝑇 − 𝛽𝑖 )(𝑏𝑖𝑇 − 𝛽𝑖 )[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑖𝑡 𝑥𝑗𝑡 (𝑥𝑡 𝑥𝑡′ )] .
El cual nuevamente tiene plim cero.Por tanto de [8.A.10],

𝑃
̂𝑇 − Ω∗𝑇 → 0. ∎
Ω
∎Prueba de la Proposicion 8.4. Recuerde de [8.2.6] que
𝑇 −1 𝑇
√𝑻 (𝑏̂𝑇 − 𝛽) = [(1⁄𝑇) ∑ 𝑥̂𝑡 𝑥̂𝑡′ ] [(1⁄√𝑇) ∑ 𝑥̂𝑡 𝑢̂𝑡 ]

𝑡=1 𝑡=1
= [(1⁄𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )′ ]−1 [8.A.12]
×[(1⁄√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑢𝑡 − 𝜌̂𝑢𝑡−1 )′ ].
Ahora mostraremos que [(1⁄𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )′ ] tiene el mismo 𝑝𝑙𝑖𝑚 como
[(1⁄𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑥𝑡 − 𝜌𝑥𝑡−1 )′ ] y que [(1⁄√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑢𝑡 − 𝜌̂𝑢𝑡−1 )] tiene
la misma distribución asintótica como [(1⁄√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑢𝑡 − 𝜌𝑢𝑡−1 )].
Considere el primer término en [8.A.12]

𝑇
(1/T) ∑(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )´
𝑡=1
𝑇
= (1/T) ∑[𝑥𝑡 − 𝜌𝑥𝑡−1 + (𝜌 − 𝜌̂)𝑥𝑡−1 ][𝑥𝑡 − 𝜌𝑥𝑡−1 + (𝜌 − 𝜌̂)𝑥𝑡−1 ]´

𝑡=1
=(1/T) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑥𝑡 − 𝜌𝑥𝑡−1 )´
+(𝜌 − 𝜌̂). (1/T) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )𝑥𝑡−1

´
+(𝜌 − 𝜌̂). (1/T) ∑𝑇𝑡=1 𝑥𝑡−1 (𝑥𝑡 − 𝜌𝑥𝑡−1 )´

[8.A.13]
+(𝜌 − 𝑝̂ )2 . (1/T) ∑𝑇𝑡=1 𝑥𝑡−1 𝑥𝑡−1
´
𝜌
Pero (𝜌 − 𝑝̂ ) → 0 y los plims de (1/T) ∑𝑇𝑡=1 𝑥𝑡−1 𝑥𝑡−1 ´
y (1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1
´
son tomados como
existentes .Por ello [8.A.13] tiene el plim de muestra como
𝑇
(1/T) ∑(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑥𝑡 − 𝜌𝑥𝑡−1 )´
𝑡=1
A continuacion considere el segundo término en [8.A.12]
𝑇
(1/√𝑇) ∑(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑢𝑡 − 𝜌̂𝑢𝑡−1 )

𝑡=1
𝑇
= (1/√𝑇) ∑[𝑥𝑡 − 𝜌𝑥𝑡−1 + (𝜌 − 𝜌̂)𝑥𝑡−1 ][𝑢𝑡 − 𝜌𝑢𝑡−1 + (𝜌 − 𝜌̂)𝑢𝑡−1 ]

𝑡=1
= (1/√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )( 𝑢𝑡 − 𝜌𝑢𝑡−1 )
+√𝑇(𝜌 − 𝜌̂). [(1/T) ∑𝑇𝑡=1 𝑥𝑡−1 (𝑢𝑡 − 𝜌𝑢𝑡−1 )]

[8.A.14]
𝑇
+ √𝑇(𝜌 − 𝜌̂). [(1/T) ∑(𝑥𝑡 − 𝜌𝑥𝑡−1 )𝑢𝑡−1 ]

𝑡=1
𝑇
2
+ √𝑇(𝜌 − 𝜌̂) . [(1/T) ∑ 𝑥𝑡−1 𝑢𝑡−1 ]
𝑡=1
Pero [8.3.21] establecio que √𝑇(𝜌 − 𝜌̂) converge en distribución a una variable aleatoria
estable.Entonces, 𝑝𝑙𝑖𝑚(1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑢𝑡 = 0los tres últimos términos en [8.A.14] desaparecen
asintóticamente
Por lo tanto,
𝑇 𝑇
𝜌
(1/√𝑇) ∑(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )( 𝑢𝑡 − 𝜌̂𝑢𝑡−1 ) → (1/√𝑇) ∑(𝑥𝑡 − 𝜌𝑥𝑡−1 )( 𝑢𝑡 − 𝜌𝑢𝑡−1 )
𝑡=1 𝑡=1
El cual fue mostrado.
8.1 Indique que la 𝑅𝑢2 [8.1.13]puede estar escrita equivalentemente como
𝑇 𝑇
𝑅𝑢2 =1− [(∑ 𝑢̂𝑡2 ) + (∑ 𝑦𝑡2 )]

𝑡=1 𝑡=1
Para 𝑢̂ la muestra residual MCO [8.1.4]. Muestra que el 𝑅𝑡2 centrado puede ser escrito como
𝑇 𝑇
𝑅𝑡2 =1− [(∑ 𝑢̂𝑡2 ) + (∑(𝑦𝑡 − 𝑦̂)2 )]

𝑡=1 𝑡=1
8.2 Considere una hipótesis nula 𝐻0 involucrando 𝑚 = 2 restricciones lineales en 𝛽 . ¿Cuán grande
es necesario un tamaño de muestra T antes del 5% del valor critico basado en la forma Wald de la
prueba MCO F de 𝐻0 dentro del 1% del valor critico de la forma Wald de la prueba MCO 𝑥 2 de
𝐻0 ?

8.3Derive el resultado [8.2.28]
8.4Considere un proceso de covarianza estacionaria dado por
𝑇
𝑦𝑡 = 𝜇 + ∑ 𝜑𝑗 𝜀𝑡−1
𝑡=1
Donde {𝜀𝑡 } es una secuencia i.i.d con media cero, varianza 𝜎 2 , y momento de cuarto orden finito y
donde ∑𝑥𝑗→0|𝜑| < ∞.Considere el estimar una autoregresion de 𝑝𝑡ℎ orden por MCO:
𝑦𝑡 = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦𝑡−𝑝 + 𝑢𝑡
Indique que los coeficientes MCO dan estimaciones constantes de los parámetros poblacionales
que caracterizan la proyección lineal de 𝑦, en una constante y 𝑝 de su retraso –es decir, los
coeficientes dan estimaciones constantes de los parámetros 𝑐, ∅1 , … … , ∅𝑝 definidos por
𝐸̇ (𝑦𝑡 |𝑦𝑡−1 , 𝑦𝑡−2 , … … . , 𝑦𝑡−𝑝 ) = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦𝑡−𝑝
(Indicación: recuerde que 𝑐, ∅1 , … … , ∅𝑝 son caracterizadas por la ecuación [4.3.6])
Capitulo 8 Referencias
Amemiya ,Takeshi.1973 ‘’Minimos cuadrados generalizados con una matriz de autocovarianza
estimada’’Econometrica 41:729-32
Anderson ,T.W.1971.El análisis estadístico de series de tiempo .Nueva York : Wiley.
Betancourt,Roger,y Harry Kelejian.1981.Variables endógenas retardadas y el procedimiento
Cochrane-Occurt’’Econometrica 49:1073-78
Brillinger,David R.1981 .Series de Tiempo :Datos de Analisis y Teoria ,expandida ed.San
Franciso:Dia-Holden
Durbin,James,1960.’’Estimacion de parámetros en modelos de regresión en series de tiempo
‘’.Diario Series de la sociedad estadística del Royal B,22:139-53
1970 ‘’Prueba para correlacion en serie en Regresión de minimos cuadrados cuando algunos de
los regresores son variables dependientes retardadas’’ .Econometria 38:410-21.
Eicker,F,1967,’’Teoremas limitados para regresiones con errores dependientes y desiguales’’
Procedimiento del Simposio Berkeleey en quinto orden en estadísticas matemáticas y probabilidad.
Vol1.pp59-62.Berkeley:Universidad de la prensa de california
Engle,Robert F.1982’’Condicional de heteroscedasticidad autoregresiva con estimaciones de la
varianza de la inflacio de Reino Unido.’’Econometria 50:981-1007
Evans.G.B.A y N.E Savin.1981.’’Prueba para Raices de la unidad’’:1.Econometris 49:753-79
Flavin,Marjorie A.1983’’Volativilidad excesica en los mercados finacieros:Un ultimo estudio de la
evidencia empririca’’Diario de economía política 91:929-56
Gregory,Allan W.y Michael R.Veall 1985’’Formulando pruebas de Wald de restricciones no
lineales’’ Econometrica 53:1465-68
Hansen.Lars P,1982.’’ Propiedades de muestra mayor de método generalizado de momentos
estimadores’’ Econometrica 50:1929-54
Harvey,A.C,1981.’’El análisis Economico de series de tiepo ‘’.Nueva York:Wiley Hausman,Jerry A,y
William E.Taylor ,1983.’’Identificacion en modelos de ecuaciones simultaneas lineares Covarianza
Restrictiva :Una interpretación de variables instrumentales ‘’.Econometrica 51:1527-49
Imhof,J.p.1961’’Computando la distribución de fromas cuadráticas en varables normales’’
.Biometrika 48:419-26
Juge,Gerorge G,Willian E. Griffiths,R Carter Hill, y Tsoung –Chao Lee,1980.La teoria y praticas
econometricas,Nueva York:Wiley.
Kinderman,A.J y J.G.Ramage.1976. ‘’Generación de la Computadora de variables aleatorias
Normales’’.Diario de la asociación estadística Americana. 71:893-96
Lafontaine,Fancine and Kenneth J,White.19886.’’Obteniendo cualquier estadística Wald que
quieras’’ Letras de Economia 21:35-40

9
Sistemas lineales de ecuaciones
simultáneas
El capítulo anterior describe un número de posibles salidas del modelo de regresión ideal,
derivando de errores que no son gaussiano, heterocedasticidad o auto correlación. Nosotros
sabemos que mientras los factores puedan hacer una diferencia en la pequeña validez de la muestra
de T y F muestras, bajo cualquiera de los supuestos 8.1 a 8.6. El estimador OLS bt es también
imparcial o coherente. Esto es porque en todos los casos retuvieron el verdadero supuesto u t , el
término de error para la observación T no está correlacionado con xt las variables explicativas para
esa observación desafortunadamente este supuesto crítico es improbable que se satisfagan en
muchas aplicaciones importantes.
La Sección 9.1 Discute porque esta suposición a menudo no se cumple, examinando un concreto
ejemplo de sesgo de ecuaciones simultáneas. Las secciones siguientes discuten una variedad de
técnicas para tratar un problema. Estos resultados se utilizarán en la interpretación estructural de las
autoregresiones vectoriales en el capítulo 11 y para la comprensión del método generalizado de
estimación de momentos en el capítulo 14.
9.1. Sesgo de ecuaciones simultáneas

Para ilustrar las dificultades con los regresores endógenos, considerar una investigación de la
demanda del público para las naranjas, deja que Pt denote el logaritmo del precio de las naranjas en
un año determinado qtd el logaritmo de la cantidad que el público está dispuesto a comprar. Para
mantener el ejemplo muy simple, se supone que el procedimiento y la cantidad son covariaciones
estacionarias y cada uno de ellos se mide como desviaciones de su media de población. Se presume
que la curva de demanda adopta la forma.
𝑞1𝑑 =𝛽𝑝1 + 𝜀1𝑑 [9.1.1]
Con B<0; Un precio más alto reduce la cantidad que el público está dispuesto a comprar. Aquí Etd
representan el factor la influencia de la demanda aparte del precio. Se asume que son
independientes e idénticamente distribuidos con media cero y varianza o2d .
El precio también influye en el suministro de naranjas traídas al mercado.
𝑞1𝑠 =𝛾𝑝1 + 𝜀1𝑠 [9.1.2]
Donde y>0 y Ets y representan factores que influyen en la oferta distinta del precio. Se supone que
estos factores omitidos son i.i.d con significancia cero y varianza o2s , Con la perturbación de la
oferta est sin correlación con la perturbación de la demanda etd.
La ecuación (9.1.1) describe el comportamiento de compradores de naranjas y la ecuación (9.1.2)

describe el comportamiento de vendedores. El equilibrio del mercado requiere 𝑞𝑡𝑑 =𝑞𝑡𝑠 ; o
𝛽𝑝1 + 𝜀𝑡𝑑 = 𝛾𝑝𝑡 + 𝜀𝑡𝑠
9.1 Sesgo de ecuaciones simultáneas 243

Reorganizando,
𝜀1𝑑 −𝜀1𝑠
𝑝1 = 𝛾−𝛽
[9.1.3]
Sustituyendo esto en (9.1.2)
𝜀𝑑1 −𝜀𝑠1
+ 𝜀𝑠1 𝜀𝑑1 = 𝜀𝑠1
𝛾 𝛽
𝑞1 = 𝛾 𝛾−𝛽
= 𝛾−𝛽 𝛾−𝛽
[9.1.4]
Considere las consecuencias de intentar estimar (9.1.1) por OLS. Una regresión de la cantidad sobre
el precio producirá la estimación.
1
( ) ∑𝑇
𝑡=1 𝑝1 𝑞1
𝑇
𝑏𝑟 = 1
[9.1.5]
(( )) ∑𝑇 2
𝑡=1 𝑝1
𝑇
Sustituyendo (9.1.3) y (9.1.4) en el numerador en (9.1.5) resulta en

𝑇 𝑇
1 1 1 1 𝛾 𝛽
∑ 𝑝1 𝑞1 = ∑ [ 𝜀1𝑑 = 𝜀1𝑠 ] [ 𝜀1𝑑 = 𝜀 𝑠]
𝑇 𝑇 𝛾−𝛽 𝛾−𝛽 𝛾−𝛽 𝛾−𝛽 1
𝑡=1 𝑡=1
𝑇
1 𝛾 𝛽 𝛾+𝛽
= ∑[ (𝜀1𝑑 )2 + (𝜀1𝑠 )2 − 𝜀 𝑑 𝜀 𝑠]
𝑇 (𝛾 − 𝛽)2 (𝛾 − 𝛽)2 (𝛾 − 𝛽)2 1 1
1=1
𝑝 𝛾𝜎𝑑2 + 𝛽𝜎𝑠2
→
(𝛾 − 𝛽)2
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑚𝑒𝑛𝑡𝑒 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟,
2
1
𝑇
1
𝑇
1 1 2 𝛾𝜎2𝑑 + 𝛽𝜎𝑠
∑ 𝑝21 = ∑[ 𝜀𝑑1 − 𝜀𝑠1] 𝑃
𝑇
1=1
𝑇
1=1
𝛾−𝛽 𝛾−𝛽 𝜎2𝑑 + 𝜎2𝑠
[9.1.6]
OLS La regresión no da la elasticidad de la demanda β, sino más bien una media de β, y la

elasticidad supone ϒ, con pesos que dependen de los tamaños de las varianzas σd2 y σs2 si el error de
la curva de demanda es depreciable (σ2 → 0), si el término de error en la curva de oferta tiene una
varianza suficientemente varianza (σ2 → ∞), luego en (9.1.6) indica una estimación consistente de
la elasticidad de la demanda β.
Por otro lado, si σd2 → ∞ o (σ2 → 0), los OLS dan una estimación consistente de la elasticidad de
la oferta ϒ, en los casos entre, un economista podría creer que la regresión eliminaba la curva de
demanda (9.1.1) and un segundo economista podría realizar la misma regresión llamando a la curva
de oferta (9.1.2).La actual OLS estima que representaría una mezcla de ambas. Este fenómeno es
conocido como sesgo de ecuaciones simultáneas.
Figura 9.1 representa el problema gráficamente. 1en cualquier fecha de la muestra, hay alguna curva
de demanda (determinada por el valor de εdt ) y una curva de oferta(determinada por εts ), con la
observación en (pt ,qt) dada por la intersección de esas dos curvas. Por ejemplo, fecha 1 puede
haber sido asociado con un pequeño choque a la demanda, produciendo la curva D1, y un largo
choque positivo para la oferta, produciendo S1. La observación de la fecha 1 será entonces (p1,q1).
La fecha 2 podría
244 Capítulo 9 | Sistemas lineales de ecuaciones simultáneas

qt
S1
Oferta promedio
S2
S3
O (p1, q1)
Demanda promedio
(p3, q3)
(p2, q2)
D3
D1 1
D2 1
O Pt
Figura 9.1Observaciones en precio y cantidad implícita por Perturbaciones tanto de las funciones
de oferta como de las funciones de demanda
Haber visto un choque negativo mayor para la demanda y un choque negativo para la oferta,
mientras la fecha 3 como se muestra refleja un modesto choque positivo para la demanda y un largo
choque negativo para la oferta. OLS intenta encajar una línea a través de la dispersión de puntos {pt
, qt }tt=1.
Si se sabe que los choques son conocidos debido a la curva de oferta y ||no a la curva de la
demanda, cuando la dispersión de puntos traza la curva de demanda, como en la figura 9.2.Si se
sabe que los choques son conocidos debido a la curva de demanda en lugar que curva de oferta, la
dispersión trazara la curva de oferta, como en la figura 9.3.
El problema de sesgo de ecuaciones simultáneas es extremadamente extendido en las ciencias

sociales. Es la tasa de la relación que nos gustaría estimar, es la única razón posible por la que
podría haber una correlación entre un grupo de variables.
Estimación consistente de la elasticidad

El análisis anterior sugiere que se podrían obtener estimaciones consistentes de la elasticidad de la
demanda si pudiéramos encontrar una variable que cambie la curva de oferta, pero no la curva de
demanda. Por ejemplo, supongamos que 𝑤1 representa el número de días de temperaturas bajo
cero en Florida durante el año t. Recordando que la perturbación de la oferta 𝜀𝑡𝑠 se definió como
factores que influyen en la oferta que no sea el precio w_1, parece ser un componente importante
de 𝜀𝑡𝑠 . Defina h como el coeficiente de una proyección lineal de 𝜀𝑡𝑠 en 𝑤1 y escriba
𝜀𝑡𝑠 = ℎ𝑤1 + 𝑢𝑡𝑠 [9.1.7]
Así, 𝑢𝑡𝑠 no está correlacionado con 𝑤1 por la definición de h. Aunque es probable que el clima de
la Florida influya en el suministro de naranjas, es natural asumir que el clima.

qt
S1
S2
S3
O (p1, q1)
(p2, q2)
(p3, q3)
Pt
O
FIGURA 9.2 Observations on price and quantity implied by disturbances to supply function only.
qt
O (p3, q3)
(p1, q1)
(p2, q2) D3
1
D1
1
D2
O
Pt
FIGURA 9.3 Observaciones sobre el precio y la cantidad implicadas por perturbaciones a la función de
la demanda solamente
Los asuntos para la demanda pública para las naranjas sólo a través de su efecto sobre el precio.
Bajo este supuesto. Tanto 𝑤1 como 𝑢𝑡𝑠 no están correlacionados con 𝜀1𝑑 .Los cambios en el precio
que se pueden atribuir al tiempo representan desplazamientos de oferta y no cambios de demanda.
Define 𝑝1 .a la proyección lineal de 𝑝1 en 𝑤1 . Sustituyendo [9.1.7] intro [9.1.3]
𝜀1𝑑 −ℎ𝑤1 − 𝑢𝑡𝑠

𝑝1 = 𝛾−𝛽
[9.1.8]
Y por lo tanto,

−ℎ
𝑝1 = 𝑤
𝛾−𝛽 1
[9.1.9]
Puesto que 𝜀1𝑑 y 𝑢𝑡𝑠 no están correlacionados con 𝑤1 .La ecuación [9.1.8] puede escribirse así
𝜀1𝑑 − ℎ𝑤1 − 𝑢𝑡𝑠

𝑝1 =
𝛾−𝛽
Y sustituyendo esta información [9.1.1]
𝜀1𝑑 − 𝑢𝑡𝑠
𝑞1 = 𝛽 {𝑝1 + 𝛾−𝛽
}+ 𝜀𝑡𝑑 = 𝛽𝑝𝑡 + 𝑣𝑡 [9.1.10]
Donde,
−𝛽 𝑢𝑡𝑠 𝛾𝜀1𝑑
𝑣𝑡 = 𝛾−𝛽
+ = 𝛾−𝛽
Dado que 𝑢𝑡𝑠 y 𝜀𝑡𝑑 están ambos no correlacionados con𝑤1 , se sigue que 𝑣1 no está correlacionada
con 𝑝𝑡 .Por lo tanto, si (9.1.10] fueron estimados por mínimos cuadrados ordinarios, el resultado
sería una estimación consistente de β:
(1/𝑇) ∑𝑇1=1 𝑝1 𝑞1
𝛽𝑇
(1/𝑇) ∑𝑇1=1[𝑝𝑡 ]2
(1/𝑇) ∑𝑇1=1 𝑝1 (𝛽𝑝𝑡 + 𝑣𝑡 )

=
(1/𝑇) ∑𝑇1=1( 𝑃𝑇 )2
[9.1.11]
(1/𝑇) ∑𝑇1=1 𝑝1 𝑉𝑇
=
(1/𝑇) ∑𝑇1=1( 𝑃𝑇 )2
𝑝
→ 𝛽.
La sugerencia es, pues, regir la cantidad sobre ese componente de precio que es inducido por el clima, es
decir, regresionar la cantidad en la proyección lineal de precio sobre el tiempo.En la práctica, no se
conocerán los valores de los parámetros de población h, y, y β necesarios para construir 𝑝𝑡 en (9.1.9),
sin embargo, la proyección lineal 𝑝𝑡 puede ser estimada consistentemente por el valor ajustado para la
observación t de un OLS Regresión de p sobre w,
𝑝𝑡 = 𝛿𝑇 𝑤𝑡 [9.1.12]
Donde,
(1/𝑇) ∑𝑇𝑡=1 𝑤𝑡 𝑝𝑡
𝛿𝑟 =
(1/𝑇) ∑𝑇𝑡=1 𝑤𝑡2
El estimador (9.1.11) con 𝑝𝑡 sustituido por 𝑝̆, se conoce como el estimador de coeficientes de mínimos
cuadrados de dos etapas (2SLS):
(1/𝑇) ∑𝑇 ̂𝑇 𝑄𝑡
𝑡=1 𝑃
𝛽̂2𝑆𝐿𝑆 = 𝑇
(1/𝑇) ∑𝑡=1(𝑃̂𝑡 )2
[9.1.13]
̂ ∗𝑻 ,el estimador 2SLS es consistente, como se mostrará en la sección siguiente.

Como 𝜷

9.2 Variables instrumentales y mínimos cuadrados de dos
etapas
Descripción general de los mínimos cuadrados de dos etapas.
Una generalización del ejemplo anterior es la siguiente, supongamos que el objetivo es estimar
el vector en el modelo de regresión
𝛾1 = 𝜷𝟏 𝒛𝟏 + 𝑢𝑡 [9.2.1]
Donde 𝑧𝑡 es un vector (k x 1) de variables explicativas. Se considera que el algún subconjunto 𝑛 ≤

𝑘 de las variables en 𝑧𝑡 es endógeno, es decir, correlacionado con 𝑢𝑡 , se dice que las variables k - n
restantes en 𝑧𝑡 son predeterminadas, lo que significa que no están correlacionadas con 𝑢𝑡 . La
estimación de β requiere variables conocidas Como instrumentos. Para ser un instrumento válido,
una variable debe ser correlacionada con una variable explicativa endógena en 𝑧𝑡 , pero no
correlacionada con la perturbación de regresión 𝑢𝑡 . En el ejemplo de oferta y demanda, la variable
meteorológica 𝑤𝑡 sirvió como un instrumento para el precio. Al menos un instrumento válido debe
ser encontrado para cada variable explicativa endógena.
Recoger las variables explicativas predeterminadas junto con los instrumentos en un vector (r X 1)
x_t. Por ejemplo, para estimar la curva de demanda, no había variables explicativas predeterminadas
en la ecuación [9.1.1] y sólo un solo instrumento; Por lo tanto, r = 1, y 𝑥𝑡 sería el escalar 𝑤𝑡 . Como
segundo ejemplo, supongamos que la ecuación a estimar es.
𝛾𝑡 = 𝛽1 + 𝛽2 𝑧2𝑡 + 𝛽3 𝑧3𝑡 + 𝛽4 𝑧4𝑡 + 𝛽5 𝑧5𝑡 + 𝑢𝑡

En este ejemplo, 𝑧4𝑡 y 𝑧5𝑡 son endógenos (lo que significa que están correlacionados con 𝑢𝑡 ,
𝑧2𝑡 son predeterminados (no correlacionados con 𝑢𝑡 ), 𝑧2𝑡 y 𝑧3𝑡 son predeterminados (no
correlacionados con 𝑢𝑡 ), y 𝜉1𝑡 , 𝜉2𝑡 , y 𝜉3𝑡 son Los instrumentos válidos (correlacionados con 𝑧4𝑡
y 𝑧5𝑡 pero no correlacionados con 𝑢𝑡 Entonces, r = 6 y 𝑥𝑡1 = (1, 𝑧2𝑡 , 𝑧3𝑡 , 𝜉1𝑡 , 𝜉2𝑡 , 𝜉3𝑡 .El
requisito de que haya al menos tantos instrumentos como endógenos explicativos Variables implica
que 𝑟 = ≥ 𝑘.
Considere una regresión OLS de 𝑧2𝑡 (la i-ésima variable explicativa en ⌈9.2.1⌉ en 𝑥𝑡 ∶
𝑧2𝑡 = 𝛿𝑖1 𝑥𝑡 + 𝑒𝑖𝑡 [9.2.2]
Los valores ajustados para la regresión están dados por:
𝑧̂𝑖𝑡 = 𝛿̂𝑡𝑖 𝑥𝑡 [9.2.3]
Donde,
𝑇 −1 𝑇
𝛿̂𝑖 = [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑧𝑖𝑡 ]

𝑡=1 𝑡=1
Si 𝑧𝑖𝑡 es una de las variables predeterminadas, 𝑧𝑖𝑡 es uno de los elementos de 𝑥𝑡 y la ecuación [9.2.3]
se simplifica a.
𝑧̂𝑖𝑡 = 𝑧𝑖𝑡

Esto se debe a que cuando la variable dependiente 𝑧𝑖𝑡 se incluye en los regresores 𝑣𝑡 . Un coeficiente
unitario sobre los coeficientes 𝑧𝑖𝑡 y cero sobre las otras variables produce un ajuste perfecto y
minimiza así la suma residual de cuadrados.
Recopile las ecuaciones en [9.2.3] para i = 1,2 ..., k en una ecuación vectorial (k + 1)
𝑧̂𝑡 = 𝛿̂ 1 𝑥𝑡 [9.2.4]
Donde la matriz (k - r) matriz 𝛿̂ 1 está dada por:
𝛿̂1𝑡
𝛿̂2𝑡
𝛿̂ 1 = . = [∑𝑇𝑡=1 𝑧̂𝑡 𝑥1𝑡 ][∑𝑇𝑡=1 𝑥𝑡 𝑥1𝑡 ]−1 [9.2.5]
.
.
[𝛿̂4𝑡 ]
El estímulo de mínimos cuadrados de dos etapas (2SLS) de β se encuentra en una regresión de OLS
de 𝑦𝑡 en 𝑧̂𝑖 :
𝑇 −1 𝑇
𝛽̂2𝑠𝑙𝑠 = [∑ 𝑧̂𝑡 𝑧̂𝑡1 ] [∑ 𝑧̂𝑡 𝛾𝑡 ]

𝑡=1 𝑡=1
[9.2.6]
Una forma alternativa de escribir [9.2.6] es a veces útil, dejar 𝑒̂𝑖𝑡 denotar la muestra residual de la
estimación OLS de [9.2.2] es decir, dejar.
𝑧𝑖𝑡 = 𝛿̂𝑡𝑖 𝑥𝑡 + 𝑒̂𝑖𝑡 = 𝑧̂𝑖𝑡 + 𝑒̂𝑖𝑡 [9.2.7]
OLS hace que este residuo sea ortogonal a 𝑥𝑡 :

𝑇
∑ 𝑥𝑡 𝑒̂𝑖𝑡 = 0,
𝑡=1
Lo que significa que el residuo es ortogonal a 𝑧̂𝑗𝑡 :

𝑇 𝑇
∑ 𝑧̂𝑗𝑡 𝑒̂𝑖𝑡 = 𝛿̂𝑗𝑖 ∑ 𝑥𝑡 𝑒̂𝑖𝑡 = 0

𝑡=1 𝑡=1
Por lo tanto, si [9.2.7] es multiplicado por 𝑧̂𝑗𝑡 y sumado sobre t, el resultado es:
𝑇 𝑇 𝑇
∑ 𝑧̂𝑗𝑡 𝑧𝑖𝑡 = ∑ 𝑧̂𝑗𝑡 (𝑧̂𝑖𝑡 + 𝑒̂𝑖𝑡 ) = ∑ 𝑧̂𝑗𝑡 𝑧̂𝑖𝑡

𝑡=1 𝑡=1 𝑡=1
Para todo I y j. esto significa que
𝑇 𝑇
∑ 𝑧̂𝑡 𝑧𝑡1 = ∑ 𝑧̂𝑡 𝑧̂𝑡1

𝑡=1 𝑡=1
Para que el estimador 2SLS [9.2.6] pueda ser escrito de manera equivalente como
𝑇 −1 𝑇
𝛽̂2𝑆𝐿𝑆 = [∑ 𝑧̂𝑡 𝑧𝑡1 ] [∑ 𝑧̂𝑡 𝛾𝑡 ]

𝑡=1 𝑡=1
[9.2.8]
9.2 Variables instrumentales y mínimos cuadrados de dos etapas 249

Consistencia estimada de 2 SLS
Sustituyendo [9.2.1] en [9.2.8]
𝑇 −1 𝑇
𝛽̂2𝑆𝐿𝑆 = [∑ 𝑧̂𝑡 𝑧𝑡1 ] [∑ 𝑧̂𝑡 (𝑧𝑡1 𝛽 + 𝑢𝑡 )]

𝑡=1 𝑡=1
[9.2.9]
𝑇 −1 𝑇
= 𝛽+ [∑ 𝑧̂𝑡 𝑧𝑡1 ] [∑ 𝑧̂𝑡 𝑢𝑡 ]

𝑡=1 𝑡=1
Donde se ha añadido el subíndice T para mantener un seguimiento explícito del tamaño de muestra
T en el que se basa la estimación. Se deduce de [9.2.9] que.
𝑇 −1 𝑇
𝛽̂2𝑆𝐿𝑆 − 𝛽 = [(1/𝑇) ∑ 𝑧̂𝑡 𝑧𝑡1 ] [(1/𝑇) ∑ 𝑍𝑡 𝑢𝑡 ]

𝑡=1 𝑡=1
[9.2.10]
La consistencia del estimador 2SLS puede entonces mostrarse como sigue. Primera nota de [9.2.4] y
[9.2.5] que
𝑇 𝑇
(1/𝑇) ∑ 𝑧̂𝑡 𝑧𝑡1 = 𝛿̂𝑡𝑖 (1/𝑇) ∑ 𝑋𝑡 𝑧𝑡1
𝑡=1 𝑡=1
[9.2.11]
𝑇 𝑇 −1 𝑇
= [(1/𝑇) ∑ 𝑍𝑡 𝑥𝑡1 ] [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡1 ] [(1/𝑇) ∑ 𝑥𝑡 𝑧𝑡1 ]

𝑡=1 𝑡=1 𝑡=1
Suponiendo que el proceso (Z1, X1) es covarianza-estacionario y ergódico para los segundos
momentos,
𝑇
𝑝
(1/𝑇) ∑ 𝑧̂ 𝑡 𝑧𝑡1 → 𝑄
𝑡=1
[9.2.12]
Donde,
𝑄 = [𝐸(𝑧𝑡 𝑥𝑡1 )][𝐸(𝑥𝑡 𝑥𝑡1 )]−1 [𝐸(𝑥𝑡 𝑧𝑡1 )] [9.2.13]
Pasando ahora al segundo término en [9.2.10],

𝑇 𝑇
[(1/𝑇) ∑ 𝑧̂𝑡 𝑢𝑡 ] = 𝛿𝑡1 (1/𝑇) ∑ 𝑥𝑡 𝑢𝑡

𝑡=1 𝑡=1
De nuevo, la ergodicidad para los segundos momentos implica de (9.2.5) que
𝑝
𝛿𝑡1 → [𝐸(𝑧𝑡 𝑥𝑡1 )][𝐸(𝑥𝑡 𝑥𝑡1 )]−1 [9.2.14]
Mientras que la ley de grandes números normalmente asegurará que
𝑇
𝑝
(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 → 𝐸(𝑥𝑡 𝑢𝑡 )= 0
𝑡=1
Bajo la supuesta ausencia de correlación entre 𝑥𝑡 y 𝑢𝑡 . Por lo tanto:
𝑝
[(1/𝑇) ∑𝑇𝑡=1 𝑧̂ 𝑡 𝑢𝑡 ] → 0 [9.2.15]
Sustituyendo [9.2.12] y [9.2.15] en [9.2.10], se sigue que

𝑝
𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽 → 𝑄 −1 . 0 = 0
Por lo tanto. El estimador 2SLS es coherente siempre y cuando la matriz Q en (9.2.13) sea no
singular

Obsérvese que si ninguna de las variables predeterminadas está correlacionada con 𝑧𝑖𝑡 entonces la
i-ésima fila de 𝐸(𝑥𝑡 𝑥𝑡1 ) contiene todos los ceros y la fila correspondiente de Q en (9.2.13) contiene
todos los ceros, en cuyo caso 2SLS no es consistente Si 𝑧𝑖𝑡 , se correlaciona con 𝑥𝑡 sólo a través de,
por ejemplo, el primer elemento 𝑥𝑡 y 𝑧𝑗𝑟 , también se correlaciona con x, sólo a través de 𝑥1𝑟 ,
entonces restando sorne mu! Tiple de la i-ésima fila de Q de la fila produce una fila De ceros y Q de
nuevo no es invertible En general, la consistencia del estimador de 2SLS requiere que las filas de
𝐸(𝑧𝑡 𝑥𝑡1 ) sean linealmente independientes, lo cual equivale esencialmente a la necesidad de que
haya una forma de asignar instrumentos a endógenos Variables tales que cada variable endógena
tiene un instrumento asociado con ella, sin ningún instrumento contado dos veces para este
propósito.
Distribución Asintótica del Estimador 2SLS

La ecuación [9.2.10] implica que
√𝑇(𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽) = [(1/𝑇) ∑𝑇𝑡=1 𝑧̂𝑡 𝑧𝑡1 ]−1 [(1/√𝑇)(1/𝑇) ∑𝑇𝑡=1 𝑧̂𝑡 𝑢𝑡 ] [9.2.16]
Donde,
𝑇 𝑇
[(1/√𝑇) ∑ 𝑧̂𝑡 𝑢𝑡 ] = 𝛿̂𝑇𝑖 (1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡

𝑡=1 𝑡=1
Por lo tanto, de [9.2.12] y [9.2.14],

𝑇
𝑝
√𝑇(𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽) → 𝑄 −1 [𝐸(𝑧𝑡 𝑥𝑡1 )][𝐸(𝑥𝑡 𝑥𝑡1 )]−1 [(1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1
[9.2.17]
Supongamos que 𝑥𝑡 es covarianza - estacionaria y que {𝑢𝑡 } es a i.i.d. Secuencia con media cero y
varianza 𝜎 2 con 𝑢𝑡 independiente de 𝑥𝑠 para todo s ≤ t. Entonces {𝑥𝑡 𝑢𝑡 } es una secuencia de
diferencia de martingala con matriz de varianza-covarianza dada por 𝜎 2 𝐸(𝑥𝑡 𝑥𝑡1 ) si 𝑢𝑡 y 𝑥𝑡 tienen
finitos cuartos momentos, entonces podemos esperar de la proposición 7.9 que.
𝑇
𝐿
(1/√𝑇 ∑ 𝑥𝑡 𝑢𝑡 ) → 𝑁(𝜎 2 . 𝐸(𝑥𝑡 𝑥𝑡1 ))
𝑡=1
[9.2.18]
Así [9.2.17] implica que

𝐿
√𝑇(𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽) → 𝑁(𝑂, 𝑉) [9.2.19]
Donde,
𝑉 = 𝑄 −1 [𝐸(𝑧𝑡 𝑥𝑡1 )]𝐸(𝑥𝑡 𝑥𝑡1 )−1 [𝜎 2 . 𝐸(𝑥𝑡 𝑥𝑡1 )][(𝑥𝑡 𝑥𝑡1 )]−1 [𝐸(𝑥𝑡 𝑧𝑡1 )]𝑄 −1 [9.2.20]
= 𝜎 2 𝑄 −1 . 𝑄. 𝑄 −1
= 𝜎 2 𝑄 −1
Para Q dado en [9.2.13]. Por lo tanto
𝛽̂2𝑆𝐿𝑆.𝑇 ≈ 𝑁(𝛽, (1/𝑇) = 𝜎 2 𝑄 −1 ) [9.2.21]
Puesto que 𝛽̂2𝑆𝐿𝑆.𝑇 es una estimación consistente de β, claramente una estimación consistente de la
población residual para la observación t es proporcionada por
9.2 Variables instrumentales y mínimos cuadrados de dos etapas 251

𝑝
𝑢̂𝑡 ≡ 𝑦1 − 𝑧𝑡1 𝛽̂2𝑆𝐿𝑆.𝑇 → 𝑢𝑡 [9.2.22]
Similarmente, es sencillo mostrar que 𝜎 2 puede ser estimado consistentemente por
𝑇
2
𝜎̂𝑇2 = (1/𝑇) ∑(𝑦𝑡 − 𝑧𝑡1 𝛽̂2𝑆𝐿𝑆.𝑇 )
𝑡=1
[9.2.23]
(Véase el ejercicio 9.1). Tenga en cuenta que aunque 𝛽̂2𝑆𝐿𝑆.𝑇 puede calcularse a partir de una
regresión OLS de 𝑦1 en 𝑧̂𝑡 las estimaciones 𝑢𝑡 , y 𝜎 2 en [9.2.22] y [9.2.23] no se basan en la
Residuos de esta regresión
𝑢̂𝑡 ≠ 𝑦𝑡 − 𝑧̂𝑡1 𝛽̂2𝑆𝐿𝑆.𝑇
𝑇
2
𝜎 ≠ (1/𝑇) ∑(𝑦𝑡 − 𝑧𝑡1 𝛽̂2𝑆𝐿𝑆.𝑇 )
2
𝑡=1
Las estimaciones correctas [9.2.22] y [9.2.23] utilizan las variables explicativas reales 𝑧𝑡 , en lugar de
los valores ajustados 𝑧𝑡 .
Una estimación consistente de Q viene dada por [9.2.11]:
𝑇
𝑄̂𝑡 = (1/𝑇) ∑ 𝑧̂𝑡 𝑧̂𝑡1

𝑡=1
𝑇 𝑇 −1 𝑇
= [(1/𝑇) ∑ 𝑧𝑡 𝑥𝑡1 ] [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡1 ] [(1/𝑇) ∑ 𝑥𝑡 𝑧𝑡1 ]

𝑡=1 𝑡=1 𝑡=1
[9.2.24]
Sustituyendo [9.2.23] y [9.2.24] en [9.2.21], la matriz de varianza-covarianza estimada del estimador

2SLS es
𝑇 −1
𝑉̂𝑡 /𝑇 = 𝜎̂𝑡2 (1/𝑇) [(1/𝑇) ∑ 𝑧̂𝑡 𝑧̂𝑡1 ]

𝑡=1
[9.2.25]
−1 −1
𝑇 𝑇 𝑇
= 𝜎̂𝑡2 {[∑ 𝑧𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑧𝑡1 ]}

𝑡=1 𝑡=1 𝑡=1
Una prueba de la hipótesis nula Rβ = r puede basarse así en

1 −1
(𝑅𝛽̂2𝑆𝐿𝑆.𝑇 − 𝑟) [𝑅(𝑉̂𝑇 /𝑇)𝑅1 ] (𝑅𝛽̂2𝑆𝐿𝑆.𝑇 − 𝑟) [9.2.26]
Que, bajo la hipótesis nula. Tiene una distribución asintótica que es x2 con grados de libertad dada
por m, donde m representa el número de restricciones o el número de filas de R.
En el capítulo 14 se discutirán errores estándar consistentes con heterocedasticidad y
autocorrelación para la estimación de 2SLS
Estimación de la variable instrumental

Sustituyendo [9.2.4] y [9.2.5] en [9.2.8], el estimador 2SLS puede escribirse como
𝑇 −1 𝑇
𝛽̂ ̂𝑡 1
2𝑆𝐿𝑆.𝑇 = [∑ 𝛿 𝑥𝑡 𝑧𝑡 ] [∑ 𝛿̂ 𝑡 𝑥𝑡 𝑦𝑡 ]
𝑡=1 𝑡=1
[9.2.27]

−1 −1 −1
𝑇 𝑇 𝑇 𝑇 𝑇 𝑇
= {[∑ 𝑧𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑧𝑡1 ]} {[∑ 𝑧𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑦𝑡 ]}

𝑡=1 𝑡=1 𝑡=1 𝑡=1 𝑡=1 𝑡=1
Consideremos el caso especial en el que el número de instrumentos es exactamente igual al número

de variables explicativas endógenas, de modo que r = k, como fue el caso de la estimación de la
curva de demanda en la Sección 9.1. Entonces ∑𝑇𝑡=1 𝑧𝑡 𝑥𝑡1 es un (k x k)
Matriz y[9.2.27]se convierte en
𝑇 −1 𝑇 𝑇 −1
𝛽̂𝐼𝑉 {[∑ 𝑥𝑡 𝑧𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑧𝑡 𝑥𝑡1 ] }

𝑡=1 𝑡=1 𝑡=1
[9.2.28]
𝑇 𝑇 −1 𝑇
𝑥 {[∑ 𝑧𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑦𝑡 ]}

𝑡=1 𝑡=1 𝑡=1
𝑇 −1 𝑇
= [∑ 𝑥𝑡 𝑧𝑡1 ] [∑ 𝑥𝑡 𝑦𝑡 ]
𝑡=1 𝑡=1
La expresión [9.2.28] se conoce como el estimador de la variable instrumental (IV). Una propiedad
clave del estimador IV se puede ver prenultiplicando ambos lados de [9.2.28] por ∑𝑇𝑡=1 𝑥𝑡 𝑧𝑡1
𝑇 𝑇
∑ 𝑥𝑡 𝑧𝑡1 𝛽̂𝐼𝑉 = 𝛽̂𝐼𝑉 ∑ 𝑥𝑡 𝑦𝑡

𝑡=1 𝑡=1
Implicando eso
𝑇
∑ 𝑥𝑡 (𝑦𝑡 − 𝑧𝑡1 𝛽̂𝐼𝑉 ) = 0

𝑡=1
[9.2.29]
Así. El residuo cuarta muestra (𝑦𝑡 − 𝑧𝑡1 𝛽̂𝐼𝑉 ) tiene la propiedad de que es ortogonal a los
instrumentos 𝑥𝑡 en contraste con la muestra OLS residual 𝑦𝑡 − 𝑧𝑡1 𝑏,, que es ortogonal a las
variables explicativas 𝑧𝑡 El IV Estirnator se prefiere a OLS beca utilizar la población residual de la
ecuación que estamos tratando de estima te (𝑢𝑡 ) se correlaciona con 𝑧𝑡 pero no correlacionado con
𝑥𝑡 .
Dado que el estimador IV es un caso especial de 2SLS, comparte la propiedad de coherencia del
estimador 2SLS. Su varianza estimada con i.i.d. Los residuos se pueden calcular a partir de [9.2.25]:
−1 −1
𝑇 𝑇 𝑇
𝜎̂𝑡2 [∑ 𝑥𝑡 𝑧𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑧𝑡 𝑥𝑡1 ]

𝑡=1 𝑡=1 𝑡=1
[9.2.30]
9.3 Identificación
Observamos en el ejemplo de oferta y demanda en la Sección 9.1 que la elasticidad de la
demanda β no podía ser estimada consistentemente por una regresión OLS de la cantidad sobre el
precio. De hecho, en la ausencia de un instrumento válido como es 𝑤𝑡 , como la elasticidad de la
demanda no se puede estimar por cualquier método! Para ver esto, recuerde que el sistema como
está escrito en [9.1.1] y [9.1.2] implicaba las expresiones [9.1.4] y [9.1.3]:
𝛾 𝛽
𝑞𝑡 = 𝜀𝑡𝑑 − 𝜀𝑠
𝛾−𝛽 𝛾−𝛽 𝑡
0 253
𝜀𝑡𝑑 − 𝜀𝑡𝑠
𝑝𝑡 =
𝛾−𝛽
Si 𝜀𝑡𝑑 y 𝜀𝑡𝑠 son i.i.d. Gaussiana, entonces estas ecuaciones implican que el vector (𝑞𝑡 , 𝑝𝑡 ) es
Gaussiano con media cero y varianza - matriz de covarianza
𝛾 2 𝜎𝑑2 + 𝛽 2 𝜎𝑠2 𝛾𝜎𝑑2 + 𝛽𝜎𝑠2

Ω ≡ [1/(𝛾 − 𝛽)2 ] [ ]
𝛾𝜎𝑑2 + 𝛽𝜎𝑠2 𝜎𝑑2 + 𝜎𝑠2
Esta matriz se describe completamente por tres magnitudes, siendo estas las varianzas de q y p
junto con su covarianza. Dada una muestra suficientemente grande, los valores de estas tres
magnitudes pueden inferirse con considerable confianza, pero eso es todo lo que se puede inferir,
porque estas magnitudes pueden especificar completamente el proceso que generó los datos bajo la
suposición mantenida de media cero i.i.d. Observaciones gaussianas. No hay manera de descubrir
los cuatro parámetros del modelo estructural (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) De estas tres magnitudes. Por ejemplo,
los valores (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) = (1, 2, 3, 4) Implican exactamente las mismas propiedades observables
para los datos que (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) = (2, 1, 4, 3) .
Si dos valores diferentes para un vector de parámetros 6 implican la misma distribución de

probabilidad para los datos observados, entonces se dice que el vector 6 no está identificado.
Cuando se agrega una tercera variable gaussiana de ruido blanco w, al conjunto de observaciones, se
dispone de tres magnitudes adicionales para caracterizar el proceso de observables. Siendo esta la
varianza de w, la covarianza entre w y p. Y la covarianza entre w y q. Si la nueva variable w
introduce tanto la ecuación de demanda como la de oferta, se requerirían tres nuevos parámetros
para estimar el modelo estructural: el parámetro que resume el efecto de w a la demanda, el
parámetro que resume su efecto sobre la oferta y la varianza De w. Con tres magnitudes más
estimables pero tres parámetros más para estimar estaríamos atascados con el mismo problema, no
teniendo base para la estimación de β.
La estimación consistente de la elasticidad de la demanda se logró mediante el uso de mínimos

cuadrados de dos etapas, ya que se asumió que w apareció en la ecuación de la oferta pero fue
excluido de la ecuación de demanda. Esto se conoce como lograr la identificación mediante
restricciones de exclusión.
En la sección 9.2 se mostró que los parámetros de una ecuación podían ser estimados (y por lo
tanto deben ser identificados) si (1) el número de instrumentos para esa ecuación es al menos tan
grande como el número de variables explicativas endógenas para esa ecuación y (2 ) Las filas
de 𝐸(𝑧𝑡 𝑥𝑡1 ) Son linealmente independientes. La primera condición se conoce como condición de
orden para la identificación, y la segunda se conoce como la condición de rango.
La condición de rango para la identificación puede resumirse más explícitamente especificando un

sistema completo de ecuaciones para todas las variables endógenas. Sea y, denote un vector (n x 1)
que contiene todas las variables endógenas en el sistema, y x, denote un vector (m x 1) que contiene
todas las variables predeterminadas. Supongamos que el sistema consiste en n ecuaciones escritas
como
𝐵𝑦1 + 𝑟𝑥1 = 𝑢𝑡 [9.3.1]
Donde B y r son (n x n) y (n x m) matrices de coeficientes, respectivamente, y u, es un vector (n x

1) de perturbaciones. La afirmación de que 𝑥𝑡 está predeterminada se toma para significar que
(𝑥𝑡 𝑢𝑡1 )= O Por ejemplo, las ecuaciones de demanda y oferta consideradas en la Sección 9.1
fueron
𝑞𝑡 = 𝛽𝑝𝑡+ 𝑢𝑡𝑑 (𝑑𝑒𝑚𝑎𝑛𝑑𝑎) [9.3.2]
𝑞𝑡 = 𝛾𝑝𝑡+ ℎ𝑤1 + 𝑢𝑡𝑑 (𝑜𝑓𝑒𝑟𝑡𝑎) [9.3.3]

Para este sistema, hay 𝑛 = 2 variables endógenas, con 𝑦𝑡 = (𝑞𝑡 𝑝𝑡 )𝑡 y 𝑚 = 1 variables
predeterminadas. Entonces tenemos que xt, = 𝑤𝑡 . Este sistema puede ser escrito en la forma [9.3.1]
como
1 −𝛽 𝑞𝑡 0 𝑢𝑑
[ ] [𝑝 ] + [ ] 𝑤𝑡 = [ 𝑡𝑠 ] [9.3.4]
1 −𝛾 𝑡 −ℎ 𝑢𝑡
Supongamos que estamos interesados en la ecuación representada por la primera fila del sistema
vectorial de ecuaciones en [9.3.1.]. Sea 𝑦𝑜𝑡 la variable dependiente en la primera ecuación, y sea 𝑦1𝑡
, denotada por un vector (𝑛1 𝑥 1) que consiste en esas variables endógenas que aparecen en la
primera ecuación como variables explicativas. Similarmente, sea 𝑥1𝑡 denotada por un vector
(𝑚1 𝑥 1) que consiste en esas variables predeterminadas que aparecen en la primera ecuación
como variables explicativas. Luego, la primera ecuación en el sistema es
𝑦𝑜𝑡 + 𝐵𝑜𝑡 𝑦1𝑡 + 𝑟𝑜1 𝑥1𝑡 = 𝑢𝑜𝑡
Aquí 𝐵𝑜1 es un vector (1 𝑥 𝑛1 ) y 𝑟𝑜1 es un vector (1 x 𝑚1 ) .Sea 𝑦2𝑡 denotada por un vector
(𝑛2 x 1) que consiste en esas variables endógenas que no aparecen en la primera ecuación; así,
𝑦𝑡1 = (𝑦𝑜𝑡 , 𝑦𝑡1 , 𝑦𝑡2 ) y 1 + 𝑛1 + 𝑛2 = 𝑛. Similarmente, sea 𝑥2𝑡 denotada por un vector (𝑚2 𝑥 1)
que consiste en esas variables predeterminadas que no aparecen en la primera ecuación. De modo
que 𝑥𝑡1 = 𝑥𝑡1 , 𝑥𝑡2 y 𝑚1 + 𝑚2 = 𝑚.
Luego el sistema [9.3.1] puede ser escrito en forma dividida como
1 𝐵01 01 𝑦𝑜𝑡 𝑟01 01 𝑥 𝑢𝑜𝑡
1𝑡
[𝐵10 𝐵12 𝐵12 ] [ 1𝑡 ] + [𝑟11 𝑟12 ] [𝑥 ] = [𝑢1𝑡 ]
𝑦 [9.3.5]
2𝑡
𝐵20 𝐵21 𝐵22 𝑦2𝑡 𝑟21 𝑟22 𝑢2𝑡
Aquí, por ejemplo,. 𝐵12 es una matriz (𝑛1 𝑥 𝑛2 ) que consiste en filas a través de (𝑛1 + 1) y
columnas (𝑛1 + 2) a n de la matriz B.
Una representación útil alternativa del sistema se obtiene moviendo rx, al lado derecho de [9.3.1] y
pre multiplicando ambos lados por 𝐵−1
𝑦1 = −𝐵−1 𝑟𝑥1 + 𝐵− 𝑢𝑡 = ∏𝑥𝑡 + 𝑣𝑡 [9.3.6]
∏´ = −𝐵− 𝑢𝑡 [9.3.7]
𝑣1 = −𝐵−1 𝑢1 [9.3.8]
La expresión [9.3.6] es conocida como la representación de la forma reducida del sistema estructural
[9.3.1]. En la representación de la forma reducida, cada variable endógena es expresada solamente
como una función de las variables predeterminadas. Por el ejemplo de [9.3.4], la forma reducida es
𝑞𝑡 1 −𝛽 −1 0 1 −𝛽 −1 𝑢𝑡𝑑
[𝑝 ] = [ ] [ ] 𝑤𝑡 + [ ] [ 𝑠]
𝑡 1 −𝛾 −ℎ 1 −𝛾 𝑢𝑡
−𝛾 𝛽 0
= [1/(𝛽 − 𝛾)] [ ][ ]𝑤
−1 1 ℎ 𝑡
−𝛾 𝛽 𝑢𝑡𝑑
+ [1/(𝛽 − 𝛾)] [ ][ ] [9.3.9]
−1 1 𝑢𝑡𝑠
𝐵ℎ −𝑦𝑢𝑡𝑑 + 𝛽𝑢𝑡𝑠
= [1/(𝛽 − 𝛾)] [ ] 𝑤𝑡 + [1/(𝛽 − 𝛾)] [ ]
ℎ −𝑢𝑡𝑑 + 𝑢𝑡𝑠
La forma reducida por un sistema general puede ser escrita de forma dividida como
9.3 Identificación 255

𝑦𝑜𝑡 ∏01 ∏02 𝑣𝑜𝑡
𝑥1𝑡
[𝑦1𝑡 ] = [∏11 ∏12 ] [𝑥 ] + [𝑣1𝑡 ] [9.3.10]
2𝑡
𝑦2𝑡 ∏21 ∏22 𝑣2𝑡
Donde, por ejemplo ∏12 denota una matriz (𝑛1 𝑥 𝑚2 ) que consiste de 2 filas mediante (𝑛1 + 1)
1
y 2 columnas (𝑚1 + 1) mediante m de la matriz ∏'.
Para aplicar la condición de rango por identificación de la primera ecuación indicad anteriormente,
formaríamos la matriz de productos cruzados entre las variables explicativas en la primera ecuación
(𝑥1𝑡 y 𝑦1𝑡 ) y las variables predeterminadas por todo el sistema (𝑥1𝑡 y 𝑥2𝑡 )
1 ) 1 )
𝐸(𝑥1𝑡 𝑥1𝑡 𝐸(𝑥1𝑡 𝑥2𝑡
𝑀= [ 1 ) 1 )] [9.3.11]
𝐸(𝑦1𝑡 𝑥1𝑡 𝐸(𝑦1𝑡 𝑥2𝑡
En la notación anterior, las variables explicativas por la primera ecuación consiste de 𝑧𝑡 = 𝑥1𝑡 𝑦𝑡1
1
mientras las variables predeterminadas por el sistema en su conjunto consisten en 𝑥1= 𝑥1𝑡 𝑥2𝑡 . Así,
1
la condición de rango, que requiere que las filas de 𝐸𝑧𝑡 𝑥𝑡 sean linealmente independientes,
significa que las filas de [(𝑚1 + 𝑛1 )𝑥 𝑚] de la matriz M en (9.3.11] [9.3.11] sean linealmente
independientes. La condición de rango puede ser equivalentemente fijados en términos de la matriz
estructural de parámetros B y Γ o la matriz de parámetros de forma reducida ∏ . La siguiente
proposición es adaptada por Fisher y es demostrada en el Apéndice 9.A al final de este capítulo.
Proposición 9.1: Si la matriz B en [9.3.1] en [9.3.1] y la matriz de segundos momentos de las variables
predeterminadas E(𝑥1 𝑥𝑡1 ) son no singulares, luego las siguientes condiciones son equivalentes:
(a) Las filas de la matriz M [(𝑚1 + 𝑛1 )𝑥 𝑚] en [9.3.11] son linealmente independientes.
(b) Las filas de la matriz [(𝑛1 + 𝑛2 )𝑥 (𝑚2 + 𝑛2 )]

𝑟12 𝐵12
[ ] [9.3.12]
𝑟22 𝐵22
Son linealmente independientes.
(c) Las filas de la matriz∏12 (𝑛1 𝑥 𝑚2 ) son linealmente independientes.
Por ejemplo, para el sistema en [9.3.4], las variables no endógenas son excluidas de la primera
ecuación, y así 𝑦𝑜𝑡 = 𝑞𝑡 𝑦1𝑡 = 𝑝𝑡 y 𝑦2𝑡 no contienen elementos. Las variables no
predeterminadas parecen en la primera ecuación, y así 𝑥1 no contiene elementos y 𝑥2= 𝑤1 . La
matriz en [9.3.12] es luego solo dada por parámetros 𝑟12. Esta representación de coeficientes en 𝑥2𝑡
en la ecuación describe 𝑦1𝑡 y es igual al parámetro escalar -h. Resulta (b) de la proposición 9.1 así
afirma que la primera ecuación es identificada siempre que ℎ ≠ 𝑂. El valor de ∏12 se puede leer
directamente del coeficiente en 𝑤𝑡 en la segunda fila de [9.3.9] y esta dado por ℎ/(𝛽 − 𝛾). Ya que
B se asume es no singular, (𝛽 − 𝛾) () no es cero, y entonces Γ12 es cero si y solo si ∏12 es cero.
Lograr La Identificación Mediante Las Restricciones De Covarianza

Otra forma en que los parámetros pueden ser identificados es mediante restricciones en las
covarianzas de los errores de las ecuaciones estructurales. Por ejemplo, considerar otra vez el
modelo de oferta y demanda., [9.3.2] y [9.3.3]. Decimos que la elasticidad de la demanda β fue
identificada por la exclusión de 𝑤1 de la ecuación de la demanda. Considere ahora la estimación de
la elasticidad de la oferta 𝛾.
Suponiendo primero que sabemos de algún modo el valor de la elasticidad de la demanda β with
certainty. con certeza. Luego, el error en la ecuación de la demanda puede ser construída como
𝑢𝑡𝑑 = 𝑞1− 𝛽𝑝𝑡

Observado que 𝑢𝑡𝑑 sería un instrumento valido de la ecuación de la oferta [9.3.3], ya que 𝑢𝑡𝑑 es
correlacionado con las variables endógenas explicativas para esa ecuación (𝑝𝑡 ) pero 𝑢𝑡𝑑 es no
correlacionada con el error para esa ecuación (𝑢𝑡𝑑 ). Ya que 𝑤𝑡 tampoco es correlacionada con el
error 𝑢𝑡𝑠 :, deduce que los parámetros de la ecuación de la oferta podría ser estimado
consecuentemente por las variables de estimación instrumental con 𝑥𝑡= (𝑢𝑡𝑑 , 𝑤𝑡 )1:
−1
𝛾̂𝑡∗ Σ𝑢̂𝑑 𝑝 Σ𝑢𝑡𝑑 𝑤𝑡 Σ𝑢𝑑 𝑞 𝑝 Υ
[̂ ] = [ 𝑡 𝑡 ] [ 𝑡 𝑡] → [ ] [9.3.13]
ℎ𝑡 Σ𝑤𝑡 𝑝𝑡 Σ𝑤𝑡2 Σ𝑤𝑡 𝑞𝑡 ℎ
Donde Σ indica la sumatoria de 𝑡 = 1,2 … … . , 𝑇

Ya que en la práctica no sabemos el verdadero valor de β, eso puede ser estimado
consecuentemente por 𝐼𝑉 estimación de [9.3.2] con 𝑤𝑡 , como un instrumento:
𝛽̂ = (Σ𝑤𝑡 𝑝𝑡 )−1 (Σ𝑤𝑡 𝑞𝑡 )
Luego el residuo 𝑢𝑡𝑑 puede ser estimado con 𝑢̂𝑡𝑑 = 𝑞𝑡− 𝛽̂ 𝑝𝑡 considere, por lo tanto, el estimador
[9.3.13] con la población residual 𝑢𝑡𝑑 reemplazado por la IV muestra residual:
−1
𝛾̂𝑇 Σ𝑢̂𝑑 𝑝 Σ𝑢𝑡𝑑 𝑤𝑡 Σ𝑢̂𝑡𝑑 𝑞𝑡
[̂ ] = [ 𝑡 𝑡 ] [ ] [9.3.14]
ℎ𝑡 Σ𝑤𝑡 𝑝𝑡 Σ𝑤𝑡2 Σ𝑤𝑡 𝑞𝑡
𝑝
Es sencillo utilizar el hecho que 𝛽̂ =→ 𝛽 deduce que la diferencia entre los estimadores en [9.3.14]
y [9.3.13] convergen en probabilidad a cero. Por consiguiente, el estimador [9.3.14] es también
consistente.
Dos supuestos permiten a los parámetros de la ecuación de la oferta (𝑦 and ℎ) ser estimados.
Primero, una restricción de exclusión permite a β ser estimado. Segundo, una restricción de
covarianza entre 𝑢𝑡𝑑 y 𝑢𝑡𝑠 fueron necesarios. Si 𝑢𝑡𝑑 fuera correlativo con 𝑢𝑡𝑠 luego 𝑢𝑡𝑑 no sería un
instrumento válido para la ecuación de la oferta y el estimado [9.3.13] no sería consistente.
Otros enfoques de identificación

Se puede decir mucho más sobre la identificación. Por ejemplo, lo parámetros pueden ser
identificados también mediante la imposición de ciertas restricciones de parámetros tal como 𝛽1 +
𝛽2 = 1 . Referencias útiles incluyen a Fisher(1966), Rothenberg (1971), y Hausman y Taylor (1983).
9.4 Información Completa De Estimación Máxima De

Probabilidad
Hasta este punto, hemos considerado la estimación de una sola ecuación de la forma 𝛾𝑡 = 𝛽1 +
𝛽2 = 1 . Un enfoque mas general es especificar una ecuación similar para cada una de las variables
endógenas en el sistema, calcular la densidad conjunta del vector de todas las variables endógenas
condicionadas a las variables predeterminadas, y maximizar la función probabilidad conjunta. Esto
se conoce como la información completa de estimación máxima de probabilidad, o FIML.
Para la ilustración, suponemos en [9.3.1] que el vector (n x 1) de trastornos estructurales 𝑢𝑡 para el

dato t tiene distribución N(0,D). Asumimos, que 𝑢𝑡 , es independiente de 𝑢𝜏 para 𝑡 ≠ 1 = 𝑇 y
que 𝑢𝑡 es independiente de 𝑥𝑡 para todo t y 𝜏. Luego, la forma reducida de trastornos 𝑣𝑡 = 𝛽 −1 𝑢,
tiene distribución N(𝑂, 𝛽 −1 𝐷(𝛽 −1 ) y la representación de la forma
) reducida [9.3.6] implica que:
𝛾𝑡/ 𝑥𝑡~𝑁(Π´𝑥 𝐵−1 𝐷(𝐵−1 ))=𝑁(−𝐵−1 r𝑥 ,𝐵−1 𝐷(𝐵−1 ))
𝑡 𝑡
La probabilidad de la condición de logaritmo puede ser:
ℒ(𝐵, Γ, 𝐷)
0 257
𝑇
= ∑ 𝑙𝑜𝑔𝑓(𝑦𝑡 /𝑥𝑡; 𝐵, Γ, 𝐷)
𝑡=1
= −(𝑇𝑛/2) log(2𝜋) −) (𝑇/2)𝑙𝑜𝑔/𝐵−1 𝐷 (𝐵−1 )/ [9.4.1]
𝑇
−(1/2) ∑[𝑦𝑡 + 𝐵−1 Γ𝑥𝑡; ] [𝐵−1 𝐷(𝐵−1 )]−1 [𝑦𝑡 + 𝐵−1 Γ𝑥𝑡; ]
𝑡=1
Pero
[𝑦𝑡 + 𝐵−1 Γ𝑥𝑡; ][𝐵−1 𝐷(𝐵−1 )]−1 [𝑦𝑡 + 𝐵−1 Γ𝑥𝑡; ]
= [𝑦𝑡 + 𝐵−1 Γ𝑥𝑡; ]´[𝐵´𝐷 −1 𝐵][𝑦𝑡 + 𝐵−1 Γ𝑥𝑡 ]
= [𝐵(𝑦𝑡 + 𝐵−1 Γ𝑥𝑡 )]´𝐷−1 [𝐵(𝑦𝑡 + 𝐵−1 Γ𝑥𝑡 )] [9.4.2]
= [𝐵(𝑦𝑡 + Γ𝑥𝑡 )]´𝐷 −1 [𝐵𝑦𝑡 + Γ𝑥𝑡 )]

Además,
|𝐵−1 𝐷(𝐵−1 )´| = |(𝐵−1 )|. |𝐷|. |𝐵−1 |
= |𝐷|/|𝐵|2 [9.4.3]
Sustituyendo [9.4.2] y [9.4.3] en [9.4.1],

ℒ(𝐵, Γ, 𝐷) = −(𝑇𝑛/2) log(2𝜋) + (𝑇/2)𝑙𝑜𝑔|𝐵|2
−(𝑇/2)log|𝐷| − (1/2) ∑𝑇𝑡=1[𝐵𝑦𝑡 + Γ𝑥𝑡; ] ´𝐷 −1 [𝐵𝑦𝑡 + Γ𝑥𝑡 ] [9.4.4]
La estimación FIML será el valor de B, Γ, and D para que[9.4.4] sea máximo.

Por ejemplo, para el sistema de [9.3.4], la estimación FIML de 𝛽, 𝛾, ℎ, 𝜎𝑑2 y 𝜎𝑠2 se encuentran
maximizando:
ℒ(𝛽, 𝛾, ℎ, 𝜎𝑑2 , 𝜎𝑠2 )
1 −𝛽 2 𝜎2 0
= 𝑇𝑙𝑜𝑔(2𝜋) + (𝑇/2)𝑙𝑜𝑔 | | − (𝑇/2)𝑙𝑜𝑔 | 𝑑 |
1 −𝛾 0 𝜎𝑠2
−1
1 𝜎2 0 𝑞𝑡 − 𝛽𝑝𝑡
− 2 ∑𝑇𝑡=1 {[𝑞𝑡 − 𝛽𝑝𝑡 𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 ] [ 𝑑 ] [ ]} [9.4.5]
0 𝜎𝑠2 𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡
= −𝑇𝑙𝑜𝑔(2𝜋) + 𝑇𝑙𝑜𝑔(𝛾 − 𝛽) − (𝑇/2)𝑙𝑜𝑔(𝜎𝑑2 )

𝑇
= −(𝑇/2)𝑙𝑜𝑔(𝜎𝑑2 ) − (1/2) ∑(𝑞𝑡 − 𝛽𝑝𝑡 )2 / 𝜎𝑑2

𝑡=1
𝑇
1
− ∑(𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )2 / 𝜎𝑑2
2
𝑡=1
Las condiciones de primer orden para la maximización son:
𝜕𝐿 𝑇 ∑𝑇
𝑡=1(𝑞𝑡 −𝛽𝑝𝑡 )𝑝𝑡
𝜕𝛽
= 𝛾−𝛽 + 𝜎𝑑2
=0 [9.4.6]
𝑡=1(𝑞𝑡 −𝛾𝑝𝑡 −ℎ𝑤𝑡 )𝑝𝑡
𝜕𝛾
= 𝛾−𝛽 + 𝜎𝑑2
=0 [9.4.7]
𝜕𝐿 ∑𝑇
𝑡=1(𝑞𝑡 −𝛾𝑝𝑡 −ℎ𝑤𝑡 )𝑤𝑡
= =0 [9.4.8]
𝜕ℎ 𝜎𝑠2

𝑡=1(𝑞𝑡 −𝛽𝑝𝑡 )
2
= + =0 [9.4.9]
𝜕𝜎𝑑2 2𝜎𝑑2 𝜎𝑑4
𝑡=1(𝑞𝑡 −𝛾𝑝𝑡 −ℎ𝑤𝑡 )
2
𝜕𝜎𝑠2
= 2𝜎2 + 𝜎𝑠4
=0 [9.4.10]
𝑠
Las 2 últimas ecuaciones caracterizan a la estimación máxima de probabilidad de las varianzas como
el promedio de los residuos al cuadrado.
𝑇
2
𝜎̂𝑑2 = (1/𝑇) ∑(𝑞𝑡 − 𝛽̂ 𝑝𝑡 )
𝑡=1
[9.4.11]
𝑇
2
𝜎̂𝑑2 = (1/𝑇) ∑(𝑞𝑡 − 𝛾̂𝑝𝑡 − ℎ̂𝑤𝑡 )
𝑡=1
[9.4.12]
Multiplicando la ecuacion [9.4.7] por (𝛽 − 𝛾)/𝑇 resulta en

𝑇
0 = −1 + ∑(𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )(𝛽𝑝𝑡 − 𝛾𝑝𝑡 )/ (𝑇𝜎𝑠2 )

𝑡=1
[9.4.13]
𝑇
0 = −1 + ∑(𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )(𝛽𝑝𝑡 − 𝑞𝑡 + 𝑞𝑡 − 𝛾𝑝𝑡 )/ (𝑇𝜎𝑠2 )

𝑡=1
Si [9.4.8] es multiplicado por ℎ/𝑇 y restamos de [9.4.13], el resultado es

𝑇
0 = −1 + ∑(𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )(𝛽𝑝𝑡 − 𝑞𝑡 + 𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )/ (𝑇𝜎𝑠2 )

𝑡=1
𝑇
= −1 + ∑(𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )(𝛽𝑝𝑡 − 𝑞𝑡 )/ (𝑇𝜎𝑠2 )

𝑡=1
+ ∑(𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )2 / (𝑇𝜎𝑠2 )

𝑡=1
= −1 − ∑(𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 )(𝑞𝑡 − 𝛽𝑝𝑡 ) (𝑇𝜎𝑠2 ) + 1

𝑡=1
para virtud de [9.4.12] . Así, la MLEs satisface

𝑇
∑(𝑞𝑡 − 𝛾̂𝑝𝑡 − ℎ𝑤𝑡 )(𝑞𝑡 − 𝛽̂ 𝑝𝑡 ) = 0

𝑡=1
[9.4.14]
Similarmente, multiplicando [9.4.6] por (𝛾 − 𝛽)/𝑇
𝑇
0 = −1 + ∑(𝑞𝑡 − 𝛽𝑝𝑡 )(𝛾𝑝𝑡 − 𝑞𝑡 + 𝑞𝑡 − 𝛽𝑝𝑡 )/ (𝑇𝜎𝑑2 )

𝑡=1
𝑇 𝑇
= −1 + ∑(𝑞𝑡 − 𝛽𝑝𝑡 )(𝑞𝑡 − 𝛾𝑝𝑡 )/ (𝑇𝜎𝑑2 ) + ∑(𝑞𝑡 − 𝛽𝑝𝑡 )2 / (𝑇𝜎𝑑2 )

𝑡=1 𝑡=1
9.4 Información Completa De Estimación Máxima De Probabilidad 259

Usando [9.4.11]
𝑇
∑(𝑞𝑡 − 𝛽̂ 𝑝𝑡 )(𝑞𝑡 − 𝛾̂𝑝𝑡 ) = 0

𝑡=1
[9.4.15]
Restando [9.4.14] de [9.4.15]
𝑇 𝑇
0 = ∑/ (𝑞𝑡 − 𝛽̂ 𝑝𝑡 )(𝑞𝑡 − 𝛾̂𝑝𝑡 ) − (𝑞𝑡 − 𝛾̂𝑝𝑡 − ℎ𝑤𝑡 ) = ∑(𝑞𝑡 − 𝛽̂ 𝑝𝑡 ) 𝑤𝑡

𝑡=1 𝑡=1
Asumiendo que ℎ̂ ≠ 0, la estimación FIML de of 𝛽 así satisface
𝑇
∑(𝑞𝑡 − 𝛽̂ 𝑝𝑡 ) 𝑤𝑡 = 0
𝑡=1
Es decir, se elige la elasticidad de la demanda para hacer que la estimación residual para la ecuación
de la demanda sea ortogonal a 𝑤𝑡 Por lo tanto, la estimación de la variable instrumental 𝛽̂𝐼𝑉 resulta
ser también el estimador FIML. Las ecuaciones [9.4.8] y [9.4.14] afirma que los parámetros para la
ecuación de la oferta (𝛾 and ℎ) se eligen para hacer que el residuo para la ecuación sea ortogonal a
𝑤𝑡 y a la demanda residual 𝑢̂𝑡𝑑 = 𝑞𝑡 − 𝛽̂ 𝑝𝑡 . Por tanto, la estimación FIML para estos parámetros
son igual a la estimación de la variable instrumental sugerido en [9.3.14].
Para este ejemplo, mínimos cuadrados de dos etapas, estimación de variable instrumental e
información completa de estimación máxima de probabilidad todos producen las estimaciones
idénticas. Esto es porque el modelo es solo identificado. Un modelo es llamado solo identificado si por
algún valor admitido para los parámetros de la representación de la forma reducida existe un único
valor para los parámetros estructurales que implique esos parámetros de la forma reducida. Se dice
que un modelo es excesivamente identificado si algunos valores admisibles para los parámetros de la
forma reducida son descartados por las restricciones estructurales. En un modelo excesivamente
identificado, IV, 2SLS, y estimación FIML no son equivalentes, y la FIML típicamente producen
los estimadores más eficientes.
Para un sistema general de ecuaciones simultaneas excesivamente identificadas sin restricciones

sobre la matriz de varianzas y covarianzas, las estimaciones FIML pueden ser calculadas iterando en
un procedimiento conocido como mínimos cuadrados de tres etapas; ver, por ejemplo. Maddala
(1977, pp 482-90). Rothenberg and Ruud (1990) discutieron la estimación FIML con presencia de
restricciones de covarianza. Las estimaciones FIML de modelos dinámicos de serie de tiempo serán
discutidos más adelante en el capítulo 11.
9.5 Estimación Basada En La Forma Reducida

Si un sistema es solo identificado como en [9.3.2] y [9.3.3] con 𝑢𝑡𝑑 no correlacionado con 𝑢𝑡𝑠 . un
enfoque es maximizar la función de probabilidad con respecto a los parámetros de la forma
reducida. Los valores de los parámetros estructurales asociados con esos valores para esos
parámetros de la forma reducida son los mismos como la estimación FIML en un modelo solo
identificado.
El logaritmo de la probabilidad [9.4.1] puede ser expresado en términos de los parámetros de la

forma reducida∏ y Ω como
𝑇
𝐿(∏, Ω) = ∑ 𝑙𝑜𝑔𝑓 2 (𝑦𝑡 |𝑥𝑡; ∏, Ω)

𝑡=1
= −(𝑇𝑛/2)𝑙𝑜𝑔(2𝜋) − (𝑇/2)𝑙𝑜𝑔|Ω| [9.5.1]

𝑇
−(1/2) ∑[𝑦𝑡 − ∏´𝑥𝑡 ]´Ω−1 [𝑦𝑡 − ∏´𝑥𝑡 ]

𝑡=1
Donde Ω = E(𝑣𝑡 𝑣𝑡1 ) = 𝐵−1 𝐷(𝐵−1 )´ El valor

) de Π que maximiza [9.5.1] será mostrado en el
Capítulo 11 dado por
𝑇 𝑇 −1
Π´ = [∑(𝑦𝑡 𝑥𝑡1 ] [∑(𝑥𝑡 𝑥𝑡1 ]

𝑡=1 𝑡=1
En otras palabras, la i-ésima fila de Π´ es obtenido de una regresión OLS de la i-ésima variable
endógena para todas las variables predeterminadas:
𝑇 𝑇 −1
Π𝑡1 = [∑(𝑦𝑖𝑡 𝑥𝑡1 ] [∑(𝑥𝑡 𝑥𝑡1 ]

𝑡=1 𝑡=1
La 𝑀𝐿𝐸 de Ω resulta ser

𝑇
̂ = (1/𝑇) [∑(𝑦𝑡 − Π
Ω ̂ ´𝑥𝑡 )´ ]
̂ ´𝑥𝑡 )(𝑦𝑡 − Π
𝑡=1
Para un modelo solo identificado, las estimaciones FIML son los valores de (𝐵, Γ, 𝐷) para cada
̂ ´ = −𝐵−1 Γ and
Π ̂ = 𝐵−1 𝐷(𝐵−1 )´
Ω
Ahora vamos a mostrar que las estimación de 𝐵, 𝛤, y 𝐷 Inferidos de esta manera de los parámetros
de forma reducida para el ejemplo de oferta y demanda recién identificados son los mismos que las
estimaciones FIML. La estimación Π ̂ 1 ies encontrada por la regresión OLS de 𝑞𝑡 sobre 𝑤𝑡
̂
mientras que Π2 es el coeficiente de una regresión OLS de 𝑝𝑡 sobre 𝑤𝑡 Estas estimaciones
satisfacen:
∑𝑇𝑡=1(𝑞𝑡 − Π ̂ 1 𝑤𝑡 )𝑤1 = 0 [9.5.2]
̂ 2 𝑤𝑡 )𝑤1 = 0
∑𝑇𝑡=1(𝑝𝑡 − Π [9.5.3]
̂
Ω ̂ 12
Ω Σ(𝑞𝑡 − π̂1 𝑤𝑡 )2 ̂1 𝑤𝑡 )(𝑝𝑡 − π
Σ(𝑞𝑡 − π ̂2 𝑤𝑡 )
[ 11 ] = (1/𝑇) [ ] [9.5.4]
̂ 21
Ω ̂
Ω22 Σ(𝑝𝑡 − π
̂ 𝑤
2 𝑡 ) (𝑞 𝑡 − π
̂ 𝑤
1 𝑡 ) Σ(𝑝 𝑡 − π
̂ 2 𝑡)
𝑤 2
̂ ´ = −Γ o
La estimación estructural satisface 𝐵Π
1 −𝛽 𝜋̂1 0
[ ][ ] = [ ] [9.5.5]
1 −𝛾 𝜋̂2 ℎ
Multiplicando [9.5.3] por 𝛽 y restando el resultado de [9.5 .2] resulta

𝑇
̂ 1 𝑤1 − 𝛽𝑝𝑡 + 𝛽𝜋̂ 𝑤1 )𝑤1
0 = ∑(𝑞𝑡 − Π 2
𝑡=1
𝑇 𝑇
= ∑(𝑞𝑡 𝑤1 − 𝛽𝑝𝑡 )𝑤1 = ∑(𝜋̂1 − 𝛽𝜋̂2 )𝑤𝑡2

𝑡=1 𝑡=1
𝑇
= ∑(𝑞𝑡 𝑤1 − 𝛽𝑝𝑡 )𝑤1

𝑡=1
9.5 Estimación Basada En La Forma Reducida 261

En virtud de la primera fila de [9.5.5]. Así. La estimación de β deducida de los parámetros de forma
reducida es la misma que la estimación IV o FIML derivada anteriormente. Similarmente,
multiplicar [9.5.3] por y y sustraer el resultado de [9.5.2] da
𝑇
̂ 1 𝑤1 − 𝛾𝑝𝑡 + 𝛾𝜋̂ 𝑤1 )𝑤1
0 = ∑(𝑞𝑡 − Π 2
𝑡=1
𝑇
= ∑[𝑞𝑡 −𝛾𝑝𝑡 − (𝜋̂1 − 𝛾𝜋̂2 )𝑤𝑡 ]𝑤𝑡

𝑡=1
𝑇
= ∑[𝑞𝑡 𝛾𝜌1 − ℎ𝑤𝑡 ]𝑤1

𝑡=1
En virtud de la segunda fila de [9.5.5], reproduciendo la condición de primer orden [9.4.8] para
FIML. Finalmente. Necesitamos resolver 𝐷 = 𝐵Ω ̂ 𝐵´ para 𝐷 y 𝛾 (el elemento restante de B). Estas
ecuaciones son
𝜎2 0
[ 𝑑 ]
0 𝜎𝑠2
1 −𝛽 Ω ̂ ̂ 12 1 −1
Ω
=[ ] [ 11 ][ ]
1 −𝛾 Ω ̂ 21 Ω ̂ 22 −𝛽 −𝛾
𝑇
1 1 −𝛽 𝑞𝑡 − 𝜋̂1 𝑤1 1 −𝛽
= ∑ {[ ][ ] [𝑞 − 𝜋̂1 𝑤1 𝑝𝑡 − 𝜋̂2 𝑤1 ] [ ]}
𝑇 1 −𝛾 𝑝𝑡 − 𝜋̂2 𝑤1 𝑡 1 −𝛾
𝑡=1
𝑇 ´
1 𝑞 − 𝛽𝑝𝑡 − (𝜋̂1 − 𝛽𝜋̂2 )𝑤1 𝑞𝑡 − 𝛽𝑝𝑡 − (𝜋̂1 − 𝛽𝜋̂2 )𝑤1
= ∑ {[ 𝑡 ][ ]}
𝑇 𝑞𝑡 − 𝛾𝑝𝑡 − (𝜋̂1 − 𝛾𝜋̂2 )𝑤1 𝑞𝑡 − 𝛾𝑝𝑡 − (𝜋̂1 − 𝛾𝜋̂2 )𝑤1
𝑡=1
𝑇
1 𝑞𝑡 − 𝛽𝑝𝑡
= ∑ {[ ] [𝑞 − 𝛽𝑝𝑡 𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 ]}
𝑇 𝑞𝑡 − 𝛾𝑝𝑡 − ℎ𝑤𝑡 𝑡
𝑡=1
Los elementos diagonales de este sistema de ecuaciones matriciales reproducen las fórmulas
anteriores para las estimaciones FIML de los parámetros de varianza. Mientras que el elemento
fuera de la diagonal reproduce el resultado [9.4.14]
9.6 Visión General Del Sesgo De Las Ecuaciones Simultáneas

El problema del sesgo de las ecuaciones simultáneas es muy extendido en la ciencia social. Es raro
que la relación que nos interesa estimar sea la única razón posible por la cual las variables
dependientes y explicativas pudieran estar correlacionadas. Por ejemplo, Considere tratar de estimar
el efecto del servicio militar en los ingresos subsiguientes del individuo. Este parámetro no puede
ser estimado por una regresión de ingresos en medida del servicio militar y otras variables
observadas. El término error en dicha regresión representa otras características del individuo que
influyen en sus ingresos, y estos factores omitidos también pueden haber influido en la
participación militar del individuo. Otro ejemplo, considere tratar de estimar el éxito de largas penas
de cárceles para disuadir el crimen. Esto no puede ser estimado por una regresión de la tasa de
criminalidad en un estado en términos de la prisión promedio de este estado, porque algunos
estados pueden adoptar penas de prisión más duras en respuesta del alto crimen. El término error
en la regresión, que representan a otros factores que influyen en el crimen, es probable que también
este correlacionado con la variable explicativa. Independientemente de si el investigador esta
interesado en los factores que determinan el servicio militar o las penas de prisión o alguna otra
teoría sobre ellos, el sesgo de las ecuaciones simultáneas podría ser reconocido y tratado.

Además, eso no es suficiente para encontrar un instrumento 𝑥𝑡 , que no es correlacionado con el
residuo 𝑢𝑡 . En orden para satisfacer la condición de rango el instrumento 𝑥𝑡 , puede se
correlacionado con las variables endógenas explicativas 𝑧𝑡 . Los cálculos de Nelson y Startz (1990)
sugieren que malas estimaciones pueden resultar si 𝑥𝑡 , es débilmente correlacionado con 𝑧𝑡 .
Encontrar instrumentos válidos es muy difícil y requiere mayor importancia y un poco de buena
suerte. Para la pregunta sobre el servicio militar, Angrist (1990) encontró un instrumento genial
para el servicio militar basado en los detalles institucionales del proyecto en los Estados Unidos
durante la Guerra de Vietnam. La probabilidad de que un individuo fue reclutado en servicio militar
fue determinada por una lotería basada en cumpleaños. Por lo tanto, el cumpleaños de un individuo
durante el año estaría correlacionado con el servicio militar, pero presumiblemente no
correlacionado con otros factores que ponen fin al ingreso. Desafortunadamente. Es raro ser capaz
de encontrar un instrumento tan atractivo para muchas preguntas que uno quisiera hacer de los
datos.
APENDICE 9.A. Pruebas de las Proposiciones del Capítulo 9

Prueba de proposición 9.1. Primero mostramos que (a) implica (e). El bloque medio de [9.3.10]
afirma que
𝑦1𝑡 = Π11 𝑥1𝑡 + Π12 𝑥2𝑡 + 𝑣1𝑡
Por lo tanto,
𝑥1𝑡 ´ ´
𝑀 = 𝐸 {[𝛾 ] [𝑥1𝑡 𝑥2𝑡 ]}
1𝑡
𝐼 0 𝑥1𝑡 0
= 𝐸 {[ 1𝑡 ] [ ] [𝑥 ´ 𝑥 ´ ] + [ ] [𝑥1𝑡
´ ´
𝑥2𝑡 ]} [9.A.1]
Π11 Π12 𝑥2𝑡 1𝑡 2𝑡 𝑣1𝑡
𝐼 0
= 𝐸 {[ 1𝑡 ] 𝐸(𝑥1 𝑥𝑡´ )}
Π11 Π12
Ya que 𝑥𝑡 no está correlacionada con 𝑢𝑡 , y por lo tanto no está correlacionada con 𝑣1
Supongamos que las filas de M son linealmente independientes. Esto significa que [𝜆´𝜇´]𝑀 ≠
0´ para cualquier vector 𝜆 (m1 x 1) y cualquier vector 𝜇 (n1 x 1) que no sean ambos cero. En
particular [−𝜇´𝜋11 𝜇´]𝑀 ≠ 0´ Pero desde el lado derecho de [9.A.1], esto implica que
𝐼 0
[−𝜇´𝜋11 𝜇´] [ 1𝑡 ] 𝐸(𝑥1 𝑥𝑡´ ) = [0´ 𝜇´𝜋12 ]𝐸(𝑥1 𝑥𝑡´ ) ≠ 0´
Π11 Π12
Para cualquier vector no nulo 𝜇 (n1 x 1) Pero esto sólo podría ser verdadero si 𝜇´𝜋12 ≠ 0´. Por lo
tanto, si las filas de M son linealmente independientes, entonces las filas de Π12 son también
linealmente independientes.
Para probar que (c) implica (a), multiplicamos ambos lados de [9.A.1] por un vector
[𝜆´ 𝜇´]diferente de cero. El lado derecho sería
𝐼𝑚𝑡 0
[𝜆´ 𝜇´] [ ] [𝐸(𝑥1 𝑥𝑡´ ) = [𝜆´ 𝜇´𝜋11 ]𝜇´𝜋12 ]𝐸(𝑥1 𝑥𝑡´ ) = 𝑛´ 𝐸(𝑥1 𝑥𝑡´ )
Π11 Π12
Donde 𝑛´ ≡ [(𝜆´ 𝜇´Π11 𝜇´𝜋12 )] Si las filas de 𝜋12 son linealmente independientes. Luego 𝑛´
'no puede ser el vector cero a menos que tanto 𝜇 y 𝜆 sean cero. Para ver esto, tenga en cuenta que si
𝜇 diferente de cero. Entonces 𝜇´𝜋12 no puede ser el vector cero, mientras que si 𝜇 = 0 , entonces
𝑛´ será cero sólo si 𝜆. Es también el vector cero. Además, puesto que 𝐸(𝑥1 𝑥𝑡´ ) es no singular, un
𝑛´ no nulo significa que 𝑛´ 𝐸(𝑥1 𝑥𝑡´ ) no puede ser el vector cero. Por lo tanto, si el lado derecho de
[9.A.1] es premultiplicado por cualquier vector no nulo (𝜆´ 𝜇´), el resultado no es cero. Lo mismo
debe ser cierto para el lado izquierdo: [𝜆´ 𝜇´]𝑀 ≠ 0´ para cualquier no nulo (𝜆´ 𝜇´),
estableciendo que la independencia lineal de las filas de M.

Ver también que (b) implica (c), dado (9.3.7) como
Π01 Π02 Γ01 Γ02
[Π11 Π12 ] = −𝐵−1 [Γ11 Γ12 ] [9.A.2]
Π21 Π22 Γ21 Γ22
También tenemos la identidad
1 0´ 0´ 1 𝐵01 0´
0 𝐼 0 −1 𝐵
[ 𝑛1 ] = −𝐵 [ 10 𝐵11 𝐵12 ] [9.A.3]
0 0 𝐼𝑛2 𝐵20 𝐵21 𝐵22
El sistema de ecuaciones representado por la segunda columna de bloque de [9.A.2] y la tercera
columna de bloque de [9.A.3] se pueden recoger como
Π01 0´ 0´ 0´
[Π12 0 ] = −𝐵−1 [Γ12 B12 ] [9.A.4]
Π22 𝐼𝑛2 Γ22 B22
Si ambos lados de [9.A.4] son multiplicados por la fila del vector [0 𝜇1´ 0´] donde 𝜇1´ es
cualquier vector (n1 x 1), el resultado es
0´ 0´
´ ´ −1 Γ B
Π
[𝜇1 12 0´] = [0 1 𝜇 0´]𝐵 [ 12 12 ]
Γ22 B22
0´ 0´
= [𝜆0 𝜆´1 𝜆12 ] [Γ12 B12 ]
Γ22 B22
Γ12 B12
= [ 𝜆1´ 𝜆12 ] [ ] [9.A.5]
Γ22 B22
Donde
= [𝜆0 𝜆´1 𝜆12 ] ≡ [0 𝜇1´ 0´]𝐵−1
Implicando
[0 𝜇1´ 0´] = [𝜆0 𝜆1´ 𝜆12 ]𝐵 [9.A.6]
Γ B
Supongamos que las filas de la matriz [Γ12 B12 ] son linealmente independientes. Entonces, los
22 22
unicos valores para 𝜆1 y 𝜆2 para el cual el lado derecho de [9.A.5] puede ser cero son 𝜆1 = 0
and 𝜆2 = 0. Sustituyendo estos valores en [9.A.6], El unico valor de 𝜇1 Para el cual lado
izquierdo de [9.A.5] puede ser cero, debe satisfacer que
[0 𝜇1´ 0´] = [𝜆0 0´ 0´]𝐵
= [𝜆0 𝜆0 𝐵01 0´ ]
Hacer coincidir los primeros elementos en estos vectores implica 𝜆0 = 0, y por lo tanto, la
coincidencia de los segundos elementos requiere 𝜇1 = 0. Por lo tanto, si se satisface la condición
(b), entonces el único valor de 𝜇1 para el cual el lado izquierdo de [9.A .5] puede ser cero es 𝜇1 =
0 estableciendo que las filas de Γ12 son linealmente independientes. Por lo tanto. La condición (c)
se cumple cuando alguna vez (b) se cumple.
Por el contrario ver que (c) implica (b). 𝜆1 Y 𝜆2 denotan vectores ( 𝑛1 x 1) and (𝑛2 x 1), y pre
multiplican ambos lados de [9.A.4] por el vector de la fila [0 λ1′ 𝜆′2 ]𝐁:
𝚷𝟎𝟐 𝟎′ 0′ 0′
[0 λ1′ 𝜆′2 ]𝐁 [𝚷𝟏𝟐 𝟎 ] = [0 λ1′ 𝜆′2 ] [−Γ12 𝐁12 ] [9.A.7]
𝚷𝟐𝟐 𝐈𝒏𝟐 −Γ22 𝐁22
O
𝚷𝟎𝟐 𝟎′
−Γ 𝐁12
[𝜇0 μ1′ 𝜇2′ ]𝐁 [𝚷𝟏𝟐 𝟎 ] = [λ1′ λ′2 ] [ 12 ]
−Γ22 𝐁22
𝚷𝟐𝟐 𝐈𝒏𝟐
Donde
[𝜇0 μ1′ 𝜇2′ ] = [0 λ1′ 𝜆′2 ]𝐁 [9.A.8]
Multiplicando ambos lados de la ecuación [9.A.4] por B implica que

1 𝐁𝟎𝟏 0′ 𝚷𝟎𝟐 𝟎′ 0′ 0′
[𝐁𝟏𝟎 𝐁𝟏𝟏 𝐁𝟏𝟐 ] [𝚷𝟏𝟐 𝟎 ] = [−Γ12 𝐁12 ]
𝐁𝟐𝟎 𝐁𝟐𝟏 𝐁𝟐𝟐 𝚷𝟐𝟐 𝐈𝒏𝟐 −Γ22 𝐁22
El elemento superior izquierdo de este sistema matricial afirma que
Π02 + B01 Π12 = 0′ [9.A.9]

Sustituyendo [9.A.9] en [9.A.7],
−𝐁𝟎𝟏 𝚷𝟎𝟐 𝟎′
−Γ 𝐁12
[𝜇0 μ1′ 𝜇2′ ] [ 𝚷𝟏𝟐 𝟎 ] = [λ1′ λ′2 ] [ 12 ] [9.A.10]
−Γ22 𝐁22
𝚷𝟐𝟐 𝐈𝒏𝟐
Para que el lado izquiero de [9.A.10] sea cero, debe ser el caso que 𝜇2 = 0 y que
−𝜇0 B01 Π12 + 𝜇1′ Π12 = (𝜇1′ − 𝜇0 B01 )Π12 = 0′ [9.A.11]
Pero si las filas de Π12 son linealmente independientes, [9.A.11] pueden ser cero solo si
𝜇1′ = 𝜇0 B01 [9.A.12]
Sustituyendo estos resultados en [9.A.8], resulta que [9.A.10] puede ser cero solo si
[0 λ1′ 𝜆′2 ]𝐁 = [𝜇0 𝜇0 𝐵01 0′]
1 𝐁𝟎𝟏 0′
= [𝜇0 0′ 0′] [𝐁𝟏𝟎 𝐁𝟏𝟏 𝐁𝟏𝟐 ] [9.A.13]
𝐁𝟐𝟎 𝐁𝟐𝟏 𝐁𝟐𝟐
= [𝜇0 0′ 0′ ]𝐁.
Ya que B no es singular, amos lados de [9.A.13] pueden ser multiplicados por 𝐁−1 para deducir que
[9.A.10] puede ser cero solo si
[0 λ1′ 𝜆′2 ] = [𝜇0 0′ 0′]
Así que, el lado derecho de [9.A.10] puede ser cero solo si 𝜆1 y 𝜆2 son ambos cero, estableciendo
que las filas de la matriz en [9.3.12] podrían ser linelamente independientes.
Capítulo 9 Ejercicio
9.1. Verificar que [9.2.23] de una estimador consistente de 𝜎 2 .
Angrist, Joshua D. 1990. "Lifetime Earnings and the Vietnam Era Draft Lottery : Evidence from
Social Securitv Administration Records." American Economic Review 80:313-36. Errata. 1990,
80:1284-86 .
Fisher, Franklin M . 1966. The ldentification Problem in Economerrics. New York : McGraw- Hill.
Hausman, Jerry A ., and William E . Taylor . 1983. "ldentification in Linear Simultaneous Equations
Models with Covariance Restrictions : An Instrumental Variables lnterpretation .·· Econometrica
51:1527-49.
Maddala, G . S. 1977. Econometrics . New York : McGraw-Hill.
Nelson, Charles R ., and Richard Startz. 1990. "Sorne Further Results on the Exact Small Sample
Properties of the Instrumental Variable Estimator ... Economezrica 58:967-76. Rothenberg,
Thomas J . 1971. "Identification in Parametric Models." Econometrica 39:577- 91

10
Covarianza estacionaria de
Procesos vectoriales
Este es la primera de dos capítulos introduciendo series de tiempo vectorial. Capítulo 10 está
dedicado a la teoría de sistema dinámico multivariado, mientras capítulo 11 se enfoca en cuestiones
empíricas de estimación e interpretación de autoregresiones vectoriales. Sólo la primera sección del
capítulo 10 es necesario para entender el material en el capítulo 11.
Sección 10.1 introduce algo de las principales ideas en tiempo de análisis de serie.
Sección 10.2 desarrollando algunos resultados de convergencia que son útiles para derivar la
propiedad asintótica de ciertas estadísticas y para caracterizar las consecuencias de filtros
multivariados. Sección 10.3 introduce la función generadora de autocovarianza para procesos
vectoriales el cual es usado para analizar espectro multivariado en la sección 10.4. Sección 10.5
desarrolla una generalización multivariable de la proposición 7.5 describiendo la propiedad de un
proceso vectorial correlacionado en serie. Estos últimos resultados son útiles para derivar
autocorrelación y estimadores consistentes de heterocedasticidad para OLS, para entender las
propiedades de método generalizado de estimadores de momentos discutidos en el capítulo 14 y
para derivar algunas de las pruebas de raíces unitarias discutidas en el capítulo 17.
10.1. Introducción a las autoregresiones vectoriales

En el Capítulo 3 modelando la propuesta de una serie temporal escalar y en términos de
una autoregresión:
𝑦𝑖 = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑛 𝑦𝑡−𝑛 + 𝜀𝑡 [10.1.1]

Donde
𝐸(𝜀𝑡 ) = 0 [10.1.2]
2
𝐸(𝜀𝑡 𝜀𝑇 ) = {𝜎 𝑓𝑜𝑟 𝑡 = 𝑇 [10.1.3]
0 𝑑𝑒 𝑜𝑡𝑟𝑎 𝑚𝑎𝑛𝑒𝑟𝑎
Notar que nosotros continuaremos usando la conversión introducida en el capítulo 8 de usar letra
minúscula para denotar una variable aleatoria o su realización. Este capítulo describe las
interacciones dinámicas entre un conjunto de variables recogidas (n × 1) en un vector 𝑦𝑡 . Por
ejemplo, el primer elemento de 𝑦𝑡 (denotado 𝑦1 ) debe representar el nivel de GNP en año 𝑡1 el
segundo elemento (𝑦2 ) el tipo de interés pagado en la factura del tesoro en el año t, y así. Un pth-
orden autoregresión vectorial, denotado VAR(p), es una generalización vectorial de [10.1.1]
mediante [10.1.3]:
𝑦𝑖 = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦𝑡−𝑝 + 𝜀𝑡 [10.1.4]

Aquí se denota un vector constante (n × 1) y ∅𝑗 una matriz (n × 1) de coeficientes autoregresivos
para j = 1, 2, . . ., p. El vector 𝜀 (n × 1), es una generalización vectorial de ruido blanco:
𝐸(𝜀𝑡 ) = 0 [10.1.5]
266 Capítulo 10 | Covarianza Estacionaria de Procesos Vectoriales

Ω para t = T
E (𝜀𝑡 𝜀𝑇′ )={ [10.1.6]
Ο de otra manera
Con Ω una matriz (n × n) positiva definida simétrica.
Dejar 𝑐𝑖 denotar la ith elemento del vector c y dejar ∅, denotar la fila i y la columna j
elementos de la matriz ∅. Luego la primera fila del sistema vectorial [10.1.4] específico que
(1) (1) (1)

𝑦𝑖 = 𝑐1 + ∅11 𝑦1.𝑡−1 + ∅12 𝑦2.𝑡−1 + . . . +∅1𝑛 𝑦𝑛.𝑡−1
(2) (2) (2)
+∅11 𝑦1.𝑡−2 + ∅12 𝑦2.𝑡−2 + . . . +∅1𝑛 𝑦𝑛.𝑡−2 [10.1.7]
(𝑝) (𝑝) (𝑝)
+. . . +∅11 𝑦1.𝑡−𝑝 + ∅12 𝑦2.𝑡−𝑝 + . . . +∅1𝑛 𝑦𝑛.𝑡−𝑝 +𝜀1𝑡
Así una autoregresión vectorial es un sistema en cual cada variable se regula en una constante y p de
su propio retraso tanto como en p retraso de otras variables en la VAR. Notar que cada regresión
tiene las mismas variables explicativas usando el rezago de la notación de operador, [10.1.4] puede
ser escrito en la forma:
[In − ∅1 𝐿 − ∅2 𝐿2 − −∅𝑝 𝐿𝑝 ]𝑦𝑡 = 𝑐 + 𝜀𝑡
o
𝜓(𝐿)𝑦𝑡 = 𝑐 + 𝜀𝑡
Aquí ∅(L) indica una matriz polinomial (n×𝑛) en el operador de retraso L. La fila i, columna j
elementos de ∅ (L) es un polinomio escalar en L:
(1) (1) 𝑝
∅(L) = [𝛿𝑖𝑗 − ∅𝑖𝑗 𝐿1 − ∅𝑖𝑗 𝐿2 − . . . −∅𝑖𝑗 𝐿𝑝 ],
Donde 𝛿𝑖𝑗 es unidad si i = j y de lo contrario, cero.

Un proceso vectorial 𝑦𝑡 , se dice que es covarianza estacional si su primer y segundo
′
momentos (E [𝑦𝑡 ] y E [𝑦𝑡 𝑦𝑡−1 , respectivamente son independientes de la fecha t. Si el proceso es
covarianza estacionaria, nosotros podemos tomar expectativas de ambos lados de [10.1.4] para
calcular el significado del proceso 𝜇:
𝜇 = 𝑐 + ∅1 𝜇 + ∅2 𝜇+ . . . ∓∅𝑛 𝜇,
o
𝜇 = (I𝑛 − ∅1 − ∅2 − . . . −∅𝑛 )−1 𝑐
Ecuación [10.1.4] puede luego ser escrito en condiciones de variaciones desde el significado como
(𝑦𝑡 − 𝜇) = ∅1 (𝑦𝑡−1 − 𝜇)
+ ∅2 (𝑦𝑡−2 − 𝜇)+ . . . + ∅𝑝 (𝑌𝑡−𝑝 − 𝜇) + 𝜀𝑡 . [10.1.8]
Reescribiendo una VAR(p) como un VAR (1)

Como en el caso del proceso univariante AR (p), es útil para reescribir [10.1.8] en
condiciones de un proceso VAR (1). Con este fin, definir
10.1 Introducción a las autoregresiones vectoriales 267

𝑦𝑡 − 𝜇
𝑦𝑡−1 − 𝜇
𝝃 .
(𝑛𝑝 ×1)𝑡 = . [10.1.9]
.
[ 𝑦𝑡−𝑝+1 ]
𝜙1 𝜙2 𝜙3 … 𝜙𝑝−1 𝜙𝑝
In 0 0 … 0 0
0 In 0 … 0 0
F. = . . . … . . [10.1.10]
(𝑛𝑝 ×𝑛𝑝)
. . . … . .
. . . … . .
[0 0 0 … In 0]
𝜀𝑡
0
𝐕 .
(𝑛𝑝 ×1)𝑡 =
..
[0]
La VAR(p) en [10.1.8] puede luego ser reescrito como el siguiente VAR (1):
𝛏𝑡 = 𝐅𝜉𝑡−1 + 𝐕𝑡 [10.1.11]
Donde
𝑄 𝑝𝑎𝑟𝑎 𝑡 = T
𝐸(𝑣𝑡 𝑉𝑇′ ) = {
Y
Ω 0 … 0
0 0 … 0
𝐐 . . … .
(𝑛𝑝 ×𝑛𝑝). = . . … .
. . … .
[0 0 … 0]
Condiciones para la estacionariedad
Ecuación [10.1.11] implica que
𝛏𝑡+𝛿 = 𝐕𝑡+𝛿 + 𝐅𝑉𝑡+𝛿−1 + 𝐅 2 𝑉𝑡+𝛿−2 + . . . +𝐅 𝛿−1 𝑉𝑡+1 + 𝐅 2 𝛏𝑡 [10.1.12]
En orden para el proceso para ser covarianza estacionaria, las consecuencias de cualquier 𝜀𝑡 debe
eventualmente desaparecer. Si todos los valores propios de F se encuentran dentro del circulo de la
unidad, luego VAR resulta ser covarianza estacionaria.
El siguiente resultado generaliza la proposición 1.1 desde el capítulo 1 (para un apéndice de
prueba 10.A al final de este capítulo).
Proposición 10.1: Los valore propios de la matriz F en [10.1.10] satisfacen
|𝐈𝑛 𝜆𝑝 − 𝛟1 𝜆𝑝−1 − 𝛟2 𝜆𝑝−2 − . . . −𝛟𝑝 | = 0. [10.1.13]
Por lo tanto, una VAR(p) es una covarianza estacionaria mientras |𝜆| < 1 satisfaciendo
[10.1.13]. Equivalentemente, el VAR es covarianza estacionaria si todos los valores de z satisfacen

|𝐈𝑛 − 𝛟1 𝒛 − 𝛟2 𝐳 𝟐 − . . . −𝛟𝑝 𝐳 𝐩 | = 0
Fuera del circulo de unidad.
Representación de Vectores MA (∞)

Las primeras n filas del sistema vectorial representado en [10.1.12] constituye una
generación vectorial de la ecuación [4.2.20]:
𝐲𝑡+𝛿 = 𝛍 + 𝛆𝑡+𝛿 + 𝛙𝟏 𝜀𝑡+𝛿−1 + 𝛙𝟐 𝜀𝑡+𝛿−2 + ⋯ + 𝝍𝛿−1 𝛆𝑡+1

[10.1.14]
(𝛿) (𝛿) (𝛿)
+𝐅11 (𝑦𝑡 − 𝜇) + 𝐅12 (𝑦𝑡−1 − 𝜇)+ . . . +𝐅1𝑝 (𝑦𝑡 − 𝑝 + 1 − 𝜇).
(𝑗) (𝑗)
Aquí 𝜓𝑗 = 𝐅11 y 𝐅11 denota el bloque superior izquierdo de 𝐅𝑗 , donde 𝐅𝑗 es la matriz F elevado a la potencia
(𝑖) (𝑗)
- jth, es decir la matriz (n × n) 𝐅11 indica las filas 1 a n y las columnas 1 a n de la matriz (np ×𝑛𝑝)𝐅11 .
(𝑗)
Similarmente, 𝐅12 denota el bloque de 𝐅𝑗 que consiste en las filas 1 a n y las columnas (n + 1) a 2n, mientras
(𝑗)
que 𝐅1𝑝 representa las filas 1 a n y las columnas [ n(p-1) + 1] a np de 𝐅𝑗 .
Si los valores absolutos de F se encuentran dentro del circulo de la unidad, luego 𝐅𝛿 → 0 como
𝛿 → ∞ y 𝐲𝑡 puede ser expresado como una suma convergente de la historia de 𝜀:
𝐲𝑡 = 𝛍 + 𝛆𝑡 + 𝛙𝟏 𝜀𝑡−1 + 𝛙𝟐 𝜀𝑡−2 + 𝛙𝟑 𝜀𝑡−3 + ⋯ = 𝛍 + 𝛙(𝐋)𝛆𝑡 ,

[10.1.15]
Que es un vector MA(∞) representación.
Nota que 𝐲𝑡−𝑗 es una función lineal de 𝜀𝑡−𝑗 , 𝜀𝑡−𝑗−1 , . . . ., cada de cual es no correlacionado
con 𝜀𝑡−𝑗 para j ≥ 0. Así, el pronóstico lineal de 𝐲𝑡+1 Sobre la base de 𝐲𝑡 , 𝐲𝑡−1 , .. viene dado por
𝑦̂𝑡+1 = 𝛍 + ∅1 (𝑦𝑡 − 𝜇) + ∅𝟐 (𝑦𝑡−1 − 𝜇) + ⋯ + ∅1 (𝑦𝑡−𝑝+1 − 𝜇).
Y 𝜀𝑡+1 puede ser interpretado como la innovación fundamental para 𝑦𝑡+1 en las bases de una
función lineal de una constante y 𝑦𝑡 , 𝑦𝑡−1 .
Mas generalmente seguido desde [10.1.14] que un pronóstico de 𝑦𝑡 , 𝑦𝑡+1 tomará la forma
(𝛿) (𝛿)
𝑦̂𝑡+𝛿⋮1 = 𝜇 + 𝐅11 (𝑦𝑡 − 𝜇) + 𝐅12 (𝑦𝑡−1 − 𝜇)
[10.1.16]
(𝛿)
+ . . .+ 𝐅1𝑝 (𝑦𝑡−𝑝+1
− 𝜇).
Las matrices de movimiento promedio 𝜓, puede equivalentemente ser calculado como
sigue.
Los operadores 𝜙(𝐿) y 𝜓(𝐿) son relacionados por:
𝜙(𝐿) = [𝜙(𝐿)]−1
Requiriendo
|𝐈𝑛 − 𝛟1 𝑳 − 𝛟2 𝐋𝟐 − . . . −𝛟𝑝 𝐋𝐩 ||𝐈𝑛 + 𝛙1 𝑳 + 𝛙2 𝐋𝟐 +. . . | = 𝐈𝑛
Configuración del coeficiente en 𝐋𝛅 igual a la matriz cero, como en el ejercicio 3.3 del capítulo 3,
produce.
10.1 Introducción a las autoregresiones vectoriales 269

𝜓1 − 𝛟1 =0 [10.1.17]
Similarmente configurando el coeficiente en 𝐋𝟐 igual a cero da
𝜓2 = 𝛟1 𝜓1 + 𝛟2 [10.1.18]
Y en general para 𝐋𝟑 ,
𝜓𝛿 = 𝛟1 𝜓𝛿−1 + 𝛟2 𝜓𝛿−2 + . . . +𝛟𝑝 𝜓𝛿−𝑝 para 𝛿 = 1, 2, . .. ., [10.1.19]
Con 𝜓() = 𝐈𝑛 y 𝜓𝛿 = 0 𝑝𝑎𝑟𝑎 𝛿 < 0.
Nota que la innovación en la MA(∞) representado en [10.1.15] es 𝛆𝑡 , la innovación

fundamental para y. Hay una alternativa de movimiento de representación mediana basada en el
proceso de vector de ruido blanco otro que 𝛆𝑡 . Da H representa una no singular matriz (n×𝑛) y
define
𝜇𝑡 = 𝐇𝜀𝑡 [10.1.20]
Entonces ciertamente 𝜇𝑡 , es ruido blanco. Por otra parte, de [10.1.15] podríamos escribir
𝐲𝑡 = 𝛍 + 𝐇 −1 𝐇𝜀𝑡 + 𝛙𝟏 𝐇 −1 𝐇𝜀𝑡−1 + 𝛙𝟐 𝐇 −1 𝐇𝜀𝑡−2
+𝛙𝟑 𝐇−1 𝐇𝜀𝑡−3 + .. .. [10.1.21]
= 𝛍 + 𝐉0 𝐔𝑡 + 𝐉1 𝐔𝑡−1 + 𝐉3 𝐔𝑡−3 + . . . ,
Donde
𝐲𝛿 = 𝛙𝜹 + 𝐇 −1
Por ejemplo, H puede ser cualquier matriz diagonalizada Ω, la matriz de covariación de varianza de
𝜀𝑡 :
HΩ𝐻 ′ = D,
Con D una matriz diagonal. Para esta elección de H, los elementos de 𝜇, no están correlacionados
entre sí:
E (𝜇𝑡 ,𝜇𝑡′ ) = 𝐸( 𝐇𝜀𝑡 𝜀𝑡′ 𝐻′ ) = 𝐷
Por lo tanto, siempre es posible escribir un proceso VAR (p) estacionario como una media móvil
infinito convergente de un vector de ruido blanco 𝜇𝑡 cuyos elementos están mutuamente no
correlacionados.
Sin embargo, hay una diferencia importante entre las representaciones MA (∞) [10.1.15] y
[10.1.2]. En [10.1.15], la matriz de parámetros MA principal 𝛙𝟎 es la matriz de identidad. Para
obtener la representación MA para las innovaciones fundamentales, debemos imponer la
normalización 𝛙𝟎 = 𝐈𝑛 .
Supuestos Implícitos en un VAR

Para un proceso estacionario de covarianza, los parámetros c y 𝛟1 , . . . 𝛟𝑝 en la ecuación
[10.1.4] podrían definirse como los coeficientes de la proyección de 𝐲𝑡 en una constante y 𝐲𝑡−1 , . .
. 𝐲𝑡−𝑝 . Así, 𝛆𝑡 es no relacionada con 𝐲𝑡−1 , . . ., 𝐲𝑡−𝑝 por la definición de 𝛟1 , .. ., 𝛟𝑝 . Los
parámetros de un vector autorregresivo puede por consiguiente ser estimado consistentemete con n
OLS regresiones de la forma de [10.1.7]. La suposición adicional implícita en una VAR es que la 𝛆𝑡 ,

definido por esta proyección es a uno correlacionado con y 𝐲𝑡−𝑝−1 , 𝐲𝑡−𝑝−2 , . .. . La suposición que
𝐲𝑡 sigue un vector de autorregresion es básicamente la suposición que p los retrasos son suficientes
para resumir todo de la correlacion dinámica entre elementos de y.
10.2. Autocovarianzas y resultados de convergencia para el

proceso vectorial
La Matriz de autocovarianza jth
Para una Covariación estacionaria de n-procesos dimensionales vectoriales, la

autocovarianza se define como la siguiente matriz (n × 𝑛):
𝛤𝑗 = 𝐸[(𝑦𝑡 − 𝜇)(𝑦𝑡−𝑗 − 𝜇)′ ] [10.2.1]
Nota que, aunque 𝑦𝑗 = 𝑦−𝑗 por un proceso escalar, el mismo no ocurre con un proceso vectorial:
𝛤𝑗 ≠ 𝛤−𝑗
Por ejemplo, el (1,2) elemento de 𝛤𝑗 da la covariación entre 𝑦1 , y 𝑦2,𝑡−𝑗 .
El (1,2) elemento de 𝛤−𝑗 da la covariancia entre 𝑦1 , y 𝑦2,𝑡+𝑗 . No hay razón que este deba ser
relatado – la respuesta de 𝑦1 , a movimientos previos en que pueda ser completamente diferente
desde la respuesta de 𝑦2 a previos movimientos en 𝑦1 .
En lugar, la correcta relación es
𝛤𝑗′ ≠ 𝛤−𝑗 [10.2.2]
Para darse cuenta que la covariación estacionaria [10.2.2] podría significar que t en [10.2.1] puede
ser reemplazado con 𝑡 + 𝑗 :
𝛤𝑗 = 𝐸[(𝑦𝑡+𝑗 − 𝜇)(𝑦(𝑡−𝑗)−𝑗 − 𝜇)′ ] = 𝐸[(𝑦𝑡+𝑗 − 𝜇)(𝑦𝑡 − 𝜇)′ ]
Tomando transposiciones
𝛤′𝑗 = 𝐸[(𝑦𝑡 − 𝜇)(𝑦𝑡+𝑗 − 𝜇)′ ] = 𝛤−𝑗
Como se reivindicó.
Proceso vectorial MA (q)

Un vector de media móvil toma el orden de la forma del proceso
𝐲𝑡 = 𝛍 + 𝛆𝑡 + 𝛉𝟏 𝜀𝑡−1 + 𝛉𝟐 𝜀𝑡−2 + ⋯ + 𝛉𝐪 𝜀𝑡−𝑞 [10.2.3]
Donde 𝛆𝑡 es un Vector de ruido blanco con proceso satisfactorio [10.1.5] y [10.1.6] y 𝛉 representa
una matriz (n×n) de MA coeficientes para j=1,2 … , q . El principal 𝐲𝑡 , es 𝜇 y la diferencia es
𝛤0 = 𝐸[(𝑦𝑡 − 𝜇)(𝑦𝑡 − 𝜇)′ ]
= 𝑬[𝛆𝒕 𝜺′𝒕 ] + 𝛉𝟏 𝑬[𝜺𝒕−𝟏 𝜺′𝒕−𝟏 ]𝛉′𝟏 + 𝛉𝟐 𝑬[𝜺𝒕−𝟐 𝜺′𝒕−𝟐 ]𝛉′𝟐 [10.2.4]
10.2. Autocovarianzas y resultados de convergencia para el proceso vectorial 271

+ ⋯ + 𝛉𝐪 𝑬[𝜺𝒕−𝒒 𝜺′𝒕−𝒒 ]𝛉′𝐪
= Ω + 𝛉𝟏 𝛀𝛉′𝟏 + 𝛉𝟐 𝛀𝛉′𝟐 + ⋯ + 𝛉𝐪 𝛀𝛉′𝐪
Con Autocovarianzas
𝛉𝐣 𝛀 + 𝛉𝐣+𝟏 𝛀𝛉′𝟏 + 𝛉𝐣+𝟐 𝛀𝛉′𝟐 + ⋯ + 𝛉𝐪 𝛀𝛉′𝐪−𝐣

𝑝𝑎𝑟𝑎 𝑗 = 1, 2, … , 𝑞
𝜞𝒋 = 𝛀𝛉−𝐣 + 𝛉𝟏 𝛀𝛉−𝐣+𝟏 + 𝛉𝟐 𝛀𝛉′−𝐣+𝟐 + ⋯ + 𝛉𝐪+𝐣 𝛀𝛉′𝐪
′ ′
𝑝𝑎𝑟𝑎 𝑗 = −1, −2, … , −𝑞

{ 0 𝑝𝑎𝑟𝑎 |𝑗| > 𝑞
[10.2.5]
Donde 𝛉𝟎 = 𝐈𝐧 . Así algún proceso vectorial MA (q) es covariación estacionaria.
Proceso vectorial MA (∞)

El proceso vectorial MA (∞) es escrito
𝑦𝑡 = 𝜇 + 𝜀𝑡 + Ψ1 𝜀𝑡−1 + Ψ2 𝜀𝑡−2 + ⋯ [10.2.6]
Para 𝜀𝑡 otra vez satisfaciendo [10.1.5] y [10.1.6]
Una secuencia de escalares {ℎ𝛿 }𝛿𝑥∞−Χ se dice que es absolutamente sumatoria si

𝛴𝛿𝑥∞−𝑥 |ℎ𝛿 | < ∞ . Para 𝐻𝛿 , una matriz (n × n), la consecuencia de matrices {𝐻𝛿 }𝛿𝑥∞−Χ es
absolutamente sumatorio si cada de sus formas de elementos una Secuencia escalar absolutamente
(𝑠)
sumatoria. Por ejemplo si 𝜓𝑖𝑗 denota la fila 𝑖 , columna 𝑗 elemento de la matriz de parámetros de
media móvil 𝚿𝑠 asociado con lag 𝑠, luego la secuencia {𝚿𝒔 }𝑠𝑥 es absolutamente sumatorio si
𝑥
𝑠
∑ |𝜓𝑖𝑗 | < ∞ para 𝑖 = 1,2, … , 𝑛 y 𝑗 = 1,2, … , 𝑛
𝑁=( )
[10.2.7]
Algunos de los resultados para procesos escalares MA (𝑥) con absolutamente coeficientes
sumatorios van mediante por procesos vectoriales. Este es resumido por el siguiente teorema
prueba en Apéndice 10. A este capítulo.
Proposición 10.2: Sea 𝑦𝑡 un vector (𝑛×1) satisfactorio:
𝒙
𝑦𝑡 = 𝝁 + ∑ 𝜳𝒌𝜺𝟏−𝒌
𝒌=( )
Donde 𝜀𝑡 es un vector ruido blanco satisfactorio [10.1.5]) y [10.1.6] y {𝜳𝒌 }𝑘𝑥 es absolutamente sumatorio. 𝑦𝑖𝑡 ,
denota el i-ésimo elemento de 𝑦𝑡 y 𝜇𝑡 , denota el i-ésimo elemento de 𝜇 . Luego
(a) La autocovariancia entre el ith variable en el momento t y el i-ésima variable 𝑠 de periodos
anteriores𝐸(𝑦𝑖𝑡 − 𝜇𝑖 )(𝑦𝑖𝑡−𝑠 − 𝜇𝑗 ), existe y es dada por la fila 𝑖 , columna 𝑗 , elemento de
𝑥
𝜞𝑠 = ∑ 𝜳𝑠+𝑣 𝜴𝜳′𝒗
𝑣=( )
𝑥
(b) La Secuencia de matrices {𝜞𝑠 }𝑠=( ) es absolutamente sumatoria.

Si además {ℇ𝒕 }𝒙𝒕=−𝒙 es un i.i.d secuencia con 𝐸|𝜀𝑖1,𝑡 𝜀𝑖2,𝑡 𝜀𝑖3,𝑡 𝜀𝑖4,𝑡 | < ∞ para 𝑖1, 𝑖2 𝑖3 𝑖4, = 1,2, … , 𝑛 luego
también,
(c) 𝐸|𝑦𝑖1 .𝑡1 , 𝑦𝑖2 .𝑡2 , 𝑦𝑖3 .𝑡3 , 𝑦𝑖4 .𝑡4 | < ∞ para 𝑖1, 𝑖2 𝑖3 𝑖4, = 1,2, … , 𝑛
𝑃
(d) (1/𝑇) ∑𝑇𝑡=1 𝑦𝑖𝑡 𝑦𝑗,𝑡−𝑠 → 𝐸(𝑦𝑖𝑡 𝑦𝑗,𝑡−𝑠 ) 𝑝𝑎𝑟𝑎 𝑖, 𝑗 = 1,2, … , 𝑛 𝑦 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑠.
Resulta (a) que implica el segundo momento de un MA (𝑥) un proceso vectorial con
coeficientes absolutamente sumatorias puede ser encontrado por tomando límite de [10.2.5] como
𝑞 → 𝑥 . Resulta (b) es una condición de convergencia en estos momentos que resultara para
asegurar que el proceso vectorial es ergodico para el principal (ver la proposición 10.5 luego en este
capítulo). Resulta(c) dice que y1 ha limitado los cuartos momentos, mientras resulta (d) establece
que 𝑦𝑡 es ergodico por segundos momentos.
Notar que el vector MA (𝑥) representación de un Vector estacionario autoregresivo calculado
desde [10.1.4] satisface La condición de sumatoria absoluta. Para ver este, recordar desde [10.1.14]
que 𝚿𝑠 es un bloque de la matriz 𝐅 𝐬 . Si F tiene np distintos valores absolutos (𝜆1 , 𝜆2 , … , 𝜆𝑛𝑝 )
Luego algún elemento de 𝚿𝑠 puede ser escrito como un promedio ponderado de estos valores
propios como en ecuación [1.2.20]
(𝑠)
𝜓𝑖𝑗 = 𝑐1 (𝑖, 𝑗). 𝜆1𝑠 + 𝑐2 (𝑖, 𝑗). 𝜆2𝑠 + ⋯ + 𝑐𝑛𝑝 (𝑖, 𝑗). 𝜆𝑛𝑝
𝑠
,
Donde 𝑐1 (𝑖, 𝑗) denota una constante que depende en v, i, y j, pero no s. Sumatorio absoluto [10.2.7]
luego seguido de los mismos argumentos como en el Ejercicio 3.5
Filtros Multivariados
Supuesto que el (𝑛×1) vector 𝑦𝑡 sigue un proceso MA (𝑥):
𝑦𝑡 = 𝜇Y + 𝚿(𝐿)𝜀𝑡 ,
[10.2.8]
𝑥 𝑥
Con {𝚿𝒌 }𝑘=( ) absolutamente sumatorio. Sea {𝐇𝒌 }𝑘=−𝑥 una secuencia absolutamente sumatoria
De (𝑟×𝑛) matrices y supuesto que un (𝑟×1) vector 𝑥𝑡 es relacionado a 𝑥𝑡 acordando a

𝑥
𝑥𝑡 = 𝐇(𝐿)𝑦𝑡 = ∑ 𝐇𝑘 𝑦𝑡−𝑘 ,
𝑘=−𝑥
[10.2.9]
Esto es
𝑥𝑡 = 𝐇(𝐿)[𝜇Y + 𝚿(𝐿)𝜀𝑡 ]
= 𝐇(𝑙)𝜇Y + 𝐇(𝐿)𝚿(𝐿)𝜀𝑡 [10.2.10]
= 𝜇𝑋 + 𝐁(𝐿)𝜀𝑡 ,
Donde 𝛍𝑥 ≡ 𝐇(l)𝛍Y y B (L) es el operador compuesto dado por
𝑥
𝐁(𝐿) = ∑ 𝐁𝑘 𝐿𝑘 = 𝐇(𝐿)𝚿(𝐿).
𝑘=−𝑥
[10.2.11]
La siguiente proposición establece que 𝑥𝑡 seguido de un proceso MA(x) sumatorio absoluto de dos
caras.
10.2 Autocovarianzas y resultados de convergencia para el proceso vectorial 273

𝑥
Proposición 10.3: Sea {𝜳𝒌 }𝑘=( ) una secuencia de absolutamente sumatoria de (𝑛×𝑛) matrices y sea
𝑥
{𝑯𝒌 }𝑘=−𝑥 una secuencia absolutamente sumatoria de (𝑟×𝑛) matrices.
𝑥
Luego la secuencia de matrices {𝐁𝒌 }𝑘=−𝑥 asociado con el operador 𝐁(𝐿) = 𝐇(𝐿)𝚿(𝐿) es
absolutamente sumatoria.
Si {𝜀𝑡 } en [10.2.8] es i.i.d. con cuarto momentos finitos, luego {𝑥𝑡 } en [10.2.9] tiene cuartos
momentos finitos y es ergodico por segundo momentos.
Autoregresion Vectorial
A continuación derivamos expresiones para los segundos momentos para 𝑦𝑡 , siguiendo un
𝑉𝐴𝑅 (𝑝).
Sea 𝜉𝑡 ser como definida en ecuación [10.1.9]. Asumiendo que 𝜉 y 𝑦 tienen covariancia estacionaria,
Σ denota la varianza de 𝜉.
∑ = 𝐸(𝜉𝑡 𝜉𝑡′ )
𝑦𝑡 − μ
𝑦𝑡−1 − μ
= 𝐸 {[ ⋮ ] 𝑥 [(𝑦𝑡 − μ)′ (𝑦𝑡 − μ)′ ⋯ (𝑦𝑡−𝑝+1 − μ)′]}
𝑦𝑡−𝑝+1 − μ
Γ0 Γ1 … Γ𝑝−1
Γ1 Γ0 … Γ𝑝−2
= , [10.2.12]
⋮ ⋮ … ⋮
[Γ′𝑝+1 Γ′𝑝−20 … Γ0 ]
Donde Γ𝑗 denota la i-ésima autocovariancia del proceso original y. Multiplicar [10.1.11] por su
propia transposición tomando las expectativas dadas
′
𝐸[𝜉𝑡 𝜉 ′ 𝑡 ] = 𝐸[(𝐅𝜉𝑡−1 + v𝑡 )(𝐅𝜉𝑡−1 + vt )′ ] = 𝐅𝐸(𝜉𝑡−1 𝜉𝑡−1 )𝐅 ′ + 𝐸(v𝑡 v𝑡′ ).
Σ = 𝐅𝚺𝐅 ′ + Q. [10.2.13]
Una solución de forma cerrada [10.2.13] puede ser obtenida en periodos del operador vec. Si A es
una matriz ( 𝑚 𝑥 𝑛), luego vec(𝐴) es un vector (𝑚𝑛 𝑥 1) de columna obtenido apilando las
columnas de A, uno bajo el otro con las columnas ordenadas desde izquierda a derecha. Por
ejemplo, si
𝑎11 𝑎12
𝐴 = [𝑎21 𝑎22 ],
𝑎31 𝑎32
Luego,
𝑎11
𝑎21
𝑎31
vec(𝐀) = 𝑎 [10.2.14]
12
𝑎22
[𝑎32 ]
El apéndice 10.A establece el siguiente resultado fácil.
Proposición 10.4: Sea A, B y C matrices cuyas dimensiones sean tales que el producto ABC existe. Luego
vec(𝐀𝐁𝐂) = (𝐂 ′ ⊗ 𝐀). vec(𝐁) [10.2.15]
Donde el símbolo ⊗ denota el producto Kronecker.
Así el operador vec es aplicado para ambas lados de [10.2.13] el resultado es:

vec(𝚺) = (𝐅 ⊗ 𝐅). vec(𝚺) + vec(𝐐) = 𝓐 vec(𝚺) + vec(𝐐), [10.2.16]
Donde,
𝓐 ≡ (𝐅⨂𝐅). [10.2.17]
Sea 𝑟 = 𝑛𝑝 , De modo que F es un (𝑟𝑥𝑛) matriz y 𝓐 es una matriz (𝑟 2 x 𝑟 2 ).
Ecuación [10.2.16] tiene la solución:
vec(𝚺) = [𝐈𝑟2 − 𝓐]−1 vec(𝐐), [10.2.18]
Previsto que la matiz [𝐈𝑟 2 − 𝓐] es no singular. Este sería cierto mientras la unidad no es un valor
propio de 𝓐. Pero recordemos que los valores propios de 𝐅⨂𝐅 son todos los valores de la forma
𝜆𝑖 𝜆𝑗 , donde 𝜆𝑖 y 𝜆𝑗 son valores propios F. Dado |𝜆𝑖 | < 1 para todo 𝑖, eso resulta que todos los
valores propios de 𝓐 están dentro la unidad circular, significando que [𝐈𝑟2 − 𝓐] es en efecto no
singular.
El primer 𝑝 de matrices de autocovariancia de un proceso VAR (𝑝) pueda ser calculado
por sustitución [10.2.12] dentro de [10.2.18].
Γ0 Γ1 … Γ𝑝−1
Γ1 Γ0 … Γ𝑝−2
vec = [𝐈𝑟2 − 𝓐]−1 vec(𝐐). [10.2.19]
⋮ ⋮ … ⋮
′
[Γ 𝑝+1 Γ ′ 𝑝−20 … Γ0 ]
La i-ésima autocovariancia de 𝜉 (denotado Σ𝑗 ) puede ser encontrado por multiplicar
′
[10.1.11] por 𝜉𝑡−𝑗 y tomando expectactivas
′ ′ ′
𝐸(𝜉𝑡 𝜉𝑡−𝑗 ) = 𝐅. 𝐸(𝜉𝑡−1 𝜉𝑡−𝑗 ) + 𝐸(v𝑡 𝜉𝑡−𝑗 ).
Así,
Σ𝑗 = FΣ𝑗−1 para 𝑗 = 1,2, … [10.2.20]
O
Σ𝑗 = 𝐅𝑗 Σ para 𝑗 = 1,2, … [10.2.21]
La i-ésima autocovariancia Γ𝑗 del proceso original 𝑦𝑡 es dada por la primera n filas y n columnas de
[10.2.20]:
Γ𝑗 = Φ1 Γ𝑗−1 + Φ2 Γ𝑗−2 + Φ3 Γ𝑗−3 + ⋯ + Φ𝑝 Γ𝑗−𝑝 para 𝑗 = 𝑝. 𝑝 + 1, 𝑝 + 2 … [10.2.22]
10.3. La Función de Generación de Autocovariancia para

Procesos Vectoriales
Definición de generación autocovariancia para procesos vectoriales

Recordar que por una covariancia estacionaria proceso univariado 𝑦𝑡 con autocovariancias
absolutamente sumatorios el (valor escalar) Función de generación de autocovariancia g𝑌 (𝑧) es
definido como
𝑥
g𝑌 (𝓏) ≡ ∑ 𝛾𝑗 𝑧 𝑗
𝑗=−𝑥
Con
𝛾𝑗 = 𝐸[(𝑦𝑡 − μ)(𝑦𝑡−𝑗 − μ)]
10.3 La Función de Generación de Autocovariancia para Procesos Vectoriales 275

Y z un complejo escalar. Para un proceso vectorial de covarianza estacionaria 𝑦𝑡 con una secuencia
sumatoria absoluta de matrices de autocovarianza, la función de autocovarianza generada por la
matriz análoga G𝑌 (𝓏) es definida como
𝑥
𝐆𝐘 (z) ≡ ∑ Γ𝑗 𝑧 𝑗
𝑗=−𝑥
[10.3.1]
Donde
𝚪𝑗 ≡ 𝐸[(𝑦𝑡 − 𝛍)(𝑦𝑡−𝑗 − 𝛍)′]
Y z es otra vez un complejo escalar.
Función de generación de autocovariancia para un proceso de movimiento

móvil de vector
Por ejemplo para el proceso de ruido blanco del vector 𝜉𝑡 caracterizado por [10.1.5] y
[10.1.6], la generación de autocovariancia función es
𝐆ε (z) = 𝛀. [10.3.2]
Para el vector MA (q) proceso de [10.2.3] la expresión univariedad [3.6.3] para el generación de
autocovariancia función generalizada para
𝐆𝐘 (z) = (I𝑛 + Θ1 𝑧 + Θ2 𝑧 2 + ⋯ + Θ𝑞 𝑧 𝑞 )𝛀 ×(𝐈𝑛 + Θ1′ 𝑧 −1 + Θ′2 𝑧 −2 + ⋯ + Θ′𝑞 𝑧 −𝑞 ).

[10.3.3]
Este puede ser verificado observando que el coeficiente en 𝑧 𝑗 en [10.3.3] es igual a Γ𝑗 como dado
en [10.2.5]
Para un MA(𝑥) proceso de la forma
𝑦𝑡 = 𝛍 + 𝚿( ) 𝜀𝑡 + 𝚿1 𝜀𝑡−1 + 𝚿2 𝜀𝑡−2 + ⋯ = 𝛍 + 𝚿(𝐿)𝜀𝑡 ,

𝑥
Con {𝚿𝒌 }𝑘=( ) una sumatoria absolutamente [10.3.3] generalizada para
GY (z) = [𝚿(𝑧)]𝛀[𝚿(𝑧 −1 )]′ . [ 10.3.4]
Función de generación de autocovariancia para una autorregresión

vectorial
Considerar la VAR (1) proceso 𝝃𝒕 = 𝐅𝜉𝒕−𝟏 + 𝒗𝒕 , con valores propios de F dentro de la
unidad circular y con 𝜉𝑡 un (𝑟x1) vector y 𝐄(v𝒕 𝒗′ 𝒕 ) = 𝑸. La ecuación [10.3.4] implica que la
función de generación de autocovariancia puede ser expresado como
𝑮𝝃 (𝑧) = [𝐼𝑟 − 𝐹𝑧]−1 𝐐[𝐼𝑟 − 𝐹′𝑧 −1 ]−1
= [𝑰𝒓 + 𝐅𝑧 + 𝐅 2 𝑧 2 + 𝐅 3 𝑧 3 + ⋯ ]𝐐
×[𝐼𝑟 + (𝐹 ′ )𝑧 −1 + (𝐹 ′ )2 𝑧 −2 + (𝐹 ′ )2 𝑧 −2 + ⋯ ] [10.3.5]

Transformaciones de procesos vectoriales
La Función de generación de autocovariancia de la suma de dos univariados procesos que no son
correlacionados con cada otro es igual para la suma de sus funciones de generación de
autocovarianza (ecuación [4.7.19]. este resultado fácilmente generalizado a el caso del vector
𝑥
𝑮𝑿+𝑾 (𝑧) = ∑ 𝐸[(𝑥𝑡 + 𝑤𝑡 − 𝜇𝑋 − 𝜇𝑊 )

𝑗=−𝑥
×(𝒙𝑡−𝑗 + 𝒘𝒕−𝒋 − 𝜇𝑋 − 𝜇𝑊 )′]𝑧 𝑗

𝑥
′
= ∑ 𝐸 [(𝑥𝑡 − 𝜇𝑋 )(𝑥𝑡−𝑗 − 𝜇𝑋 ) 𝑧 𝑗 ]
𝑗=−𝑥
+ ∑ 𝐸[(𝑤𝑡 − 𝜇𝑊 )(𝑤𝑡−𝑗 − 𝜇𝑊 )′𝑧 𝑗 ]

𝑗=−𝑥
= 𝐆𝑋 (𝑧) + 𝐆𝑊 (𝑧).
Nota también que si un vector (𝑟𝑥1) 𝜉𝑡 es pre multiplicado por una matriz no estocástica
(𝑛𝑥𝑟) H. El efecto es pre multiplicar la autocovariancia por H’ y multiplicar por H:
′ ′
𝐸[(𝐻 ′ 𝜉𝑡 − 𝐻 ′ 𝜇𝜉 )(𝐻 ′ 𝜉𝑡−𝑗 − 𝐻 ′ 𝜇𝜉) = 𝐻 ′ 𝐸 [(𝜉𝑡 − 𝜇𝜉 )(𝜉𝑡−𝑗 − 𝜇𝜉 ) ] 𝐇,
Implicando,
𝐆𝑯′ 𝜉 (𝑧) = 𝐇 ′ 𝐆𝛏 (z)𝐇.
Poniendo estos resultados juntos, considerar 𝜉𝑡 la r -dimensional 𝑉𝐴𝑅 (1) proceso 𝜉𝑡 = 𝐅𝛏𝑡−1 +
𝑣𝑡 y un nuevo proceso 𝑢𝑡 , dado por 𝑢𝑡 = 𝑯′ 𝜉𝑡 + 𝑤𝑡 con 𝑤𝑡 Un proceso de ruido blanco que no
es relacionado con 𝛏𝑡−1 para todos 𝑗 . Luego
𝐆U (𝑧) = 𝐇 ′ 𝐆ξ (𝑧)𝐇 + 𝑮𝐖 (𝑧), [10.3.6]
O, si R es la varianza de 𝑤𝑡 ,
𝐆U (𝑧) = 𝐇 ′ [𝐈𝒓 − 𝑭𝑧]−𝟏 𝐐[𝐈𝒓 − 𝑭′𝑧 −1 ]−𝟏 𝐇 + 𝐑.
Mas generalmente, considerar un (𝑛𝑥1) vector 𝑦𝑡 caracterizado por
𝑦𝑡 = 𝜇𝑌 + Ψ(𝐿)𝜀𝑡
Donde 𝜀𝑡 es un proceso de ruido blanco con diferente covariancia matriz dada por 𝛀 y donde
𝑥 𝑘 𝑥
Ψ(𝐿)=Σ𝑘=( ) 𝚿𝒌 𝐿 con {Ψ𝑘 }𝑘=( ) sumatorios absolutamente. Así La Función de generación de
autocovariancia para 𝑦 es
𝐆𝐘 (𝑧) = Ψ(𝑧)Ω[Ψ(𝑧 −1 )]′ [10.3.7]

𝑥
Sea {𝐇𝑘 }𝑘=−𝑥 una secuencia absolutamente sumatoria de (𝑟𝑥𝑛) matrices y suponer que un (𝑟𝑥1)
vector 𝐱𝑡 es construido de 𝑦𝑡 de acuerdo a
𝑥
𝐱𝑡 = 𝐇(𝐿)𝑦𝑡 = ∑ 𝐇𝑘 𝑦𝑡−𝑘 = 𝛍X + 𝐁(𝐿)𝜀𝑡 ,

𝑘=−𝑥
10.3 La Función de Generación de Autocovariancia para Procesos Vectoriales 277

Donde 𝛍X = 𝐇(l)𝛍𝐘 y 𝐁(𝐿) = 𝐇(𝐿)𝚿(𝐿) como en [10.2.10] y] 10.2.11]. Luego, la Función de
generación de autocovariancia para 𝐱 puede ser encontrada desde
𝐆𝐗 (𝑧) = 𝐁(𝑧)𝛀[𝐁(𝑧 −1 )]′ = [𝐇(𝑧)Ψ(𝑧)]𝛀[𝚿𝑧 −1 ]′ [𝐇(𝑧 −1 )]′. [10.3.8]
Comparando [10.3.8] con [10.3.7], el efecto de aplicar el filtro 𝐇(𝐿) para 𝑦𝑡 es para pre multiplicar
La Función de generación de autocovariancia por 𝐇 (𝑧) para mjltiplicar por transponer de
𝐇(𝒛−𝟏 ):
𝐆𝐗 (𝑧) = [𝐇(𝑧)]𝐆𝐘 (𝑧)[𝐇(𝒛−𝟏 )]′ [10.3.9]
10.4. El espectro para procesos vectoriales

Sea 𝑦𝑡 un vector (𝑛𝑥1) 𝐸(𝑦𝑡 ) = 𝛍 y k-ésimo matriz de autocovariancia
𝐸[(𝑦𝑡 − 𝛍)(𝒚𝑡−𝑘 − 𝛍)′ ] = 𝚪𝑘 [10.4.1]

𝑥
Si {Γ𝑘 }𝑘=−𝑥 es un sumatorio absolutamente yc si 𝑧 es un complejo escalar La Función de
generación de autocovariancia de 𝑦 es dada por
𝑥
𝐆𝐘 (𝑧) = ∑ Γ𝑘 𝑧 𝑘
𝑘=−𝑥
[10.4.2]
La función Gy (Z) asociada en (n x n) matriz de números complejos con el complejo escalar Z. Si

[10.4.2] es dividido por 2π y evaluar en 𝑍 = 𝑒 −𝑖𝜔𝑡 . Cuando ω es un escalar real 𝑖 = √−1 el
resultado es la gama de población de un vector Y :
𝑆𝑦(𝜔) = (2𝜋)−1 𝐺𝑦(𝑒 −𝑖𝜔𝑡 ) = (2𝜋)−1 ∑𝑍𝐾=−𝑍 Г𝑒 −𝑖𝜔𝑡 [10.4.3]
La gama de población asociada a (n x n) matriz de números complejos con la escalar real ω. Indica
cualquier elemento único establecido por la proposición 6.1 Se multiplica por ℮(𝑖𝑤𝑘) Y la función
resultante de ω integración de –π a π , el resultado es el elemento correspondiente de la kth matriz
de autocovarianza Y:
𝜋
∫−𝜋 𝑆𝑦(𝜔)℮𝐼𝜔𝐾 𝑑𝜔 = Г𝑘 [10.4.4]
𝑧
Así, como en el caso univariado, la secuencia de autocovarianza {Г𝑘}𝑘=−𝑧 y la función
representada por la gama de población Sy(ω) contiene la misma información
Como un caso especial cuando K= 0 La ecuación [10.4.4] implica

𝜋
∫−𝜋 𝑆𝑦(𝜔)𝑑𝜔 = Г0 [10.4.5]
En otras palabras, el bajo área de la gama poblacional es la matriz de varianza incondicional de la

covarianza de la matriz
El jth elemento de la diagonal de Гk , es 𝐸(𝑌𝑖𝑡 − 𝜇𝑗 )(𝑌𝑖𝑡−𝑘 − 𝜇𝑗 ). La K th autovarianza de 𝑌𝑖𝑡 .

Así el jth elemento diagonal de la gama multivariada 𝑆𝑦 (ω) es solo la gama univariada del escalar
𝑌𝑖𝑡 se deduce de las propiedades de la gama univariante discutido en capítulo 6 los elementos de la
diagonal de 𝑆𝑦 (ω) De valores reales y no negativas para todo ω . Sin embargo lo mismo sucede
con el elemento fuera de la diagonal de 𝑆𝑦 (ω) En general. El elemento fuera de la diagonal de 𝑆𝑦
(ω) será de matriz compleja

Para obtener una mayor comprensión de la gama multivariado. Nos concentramos en el caso de
n=2 las variables denotados
𝑋
𝑦𝑡 = [ 𝑡 ]
𝑌𝑡
La matriz autovarianza está en
(𝑥𝑡 − 𝜇𝑋 )(𝑥𝑡−𝐾 − 𝜇𝑥 ) (𝑥𝑡 − 𝜇𝑥 )(𝑌𝑡−𝐾 − 𝜇𝑌 )

Г𝑘 = 𝐸 [ ] [10.4.6]
(𝑌𝑡 − 𝜇𝑌 )(𝑥𝑡−𝐾 − 𝜇𝑥 ) ( 𝑌𝑡 − 𝜇𝑦 )(𝑌𝑡−𝐾 − 𝜇𝑌 )
(𝑘) (𝑘)
𝑌𝑥𝑥 𝑌𝑥𝑦
≡ [ (𝑘) (𝑘)
]
𝑌𝑦𝑥 𝑌𝑦𝑦
Recordar que eso [10.2.2] por lo tanto Гk=Г-k

(𝑘) (−𝑘)
𝑌𝑥𝑥 = 𝑌𝑥𝑥 [10.4.6]
(𝑘) (−𝑘)
𝑌𝑦𝑦 = 𝑌𝑦𝑦 [10.4.7]
(𝑘) (−𝑘)
𝑌𝑥𝑦 = 𝑌𝑦𝑥 [10.4.8]
Para este caso n=2 la gama de población {10.4.3} seria
𝑆𝑦 (ω)
(𝑘) −𝑖𝜔𝑘 (𝑘) −𝑖𝜔𝑘
1 ∑𝑥𝑘=−𝑥 𝑌𝑥𝑥 ℮ ∑𝑥𝑘=−𝑥 𝑌𝑥𝑦 ℮
=2𝜋 [ (𝑘) −𝑖𝜔𝑘 (𝑘) −𝑖𝜔𝑘
]
∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 ℮ ∑𝑥𝑘=−𝑥 𝑌𝑦𝑦 ℮
(𝑘) (𝑘)
1 ∑𝑥𝑘=−𝑥 𝑌𝑥𝑥 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)} ∑𝑥𝑘=−𝑥 𝑌𝑥𝑦 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)}
= [ (𝑘) (𝑘)
]
2𝜋
∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)} ∑𝑥𝑘=−𝑥 𝑌𝑦𝑦 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)}
[10.4.10]
Usando [10.4.7]y [10.4.8] tanto con hechos sen(-ωk)= - sen(ωk) y sen(0) = 0 . Los componentes
imaginarios desaparecen de los términos diagonales:
𝑆𝑦 (ω)
(𝑘) (𝑘)
1 ∑𝑥𝑘=−𝑥 𝑌𝑥𝑥 cos(𝜔𝑘) ∑𝑥𝑘=−𝑥 𝑌𝑥𝑦 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)}
=2𝜋 [ (𝑘) (𝑘)
]
∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)} ∑𝑥𝑘=−𝑥 𝑌𝑦𝑦 cos(𝜔𝑘)
[10.4.11]
(𝑘) (−𝑘)
Sin embargo. Como en general 𝑦𝑥𝑦 ≠ 𝑦𝑥𝑦 Los elementos fuera de diagonal son típicamente
números complejos.
La gama cruzada. Cogama. Y gama cuadrática

El elemento inferior izquierdo de la matriz en [10.4.11] Se conoce como la gama cruzada de la
población X hasta Y :
(𝑘)
𝑆𝑦𝑥 (𝜔) = (2𝜋)−1 ∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 {cos(𝜔𝑘) − 𝑖. 𝑠𝑒𝑛(𝜔 𝑘)} [10.4.12]
10.4 El espectro para procesos vectoriales 279

La gama cruzada puede escribirse en términos de su componente reales e imaginarios
𝑆𝑦𝑥 (𝜔) = 𝐶𝑦𝑥 (𝜔) + 𝑖. 𝑞𝑦𝑥 (𝜔) [10.4.13]
Los componentes reales de la gama cruzada se conoce como cogama entre “X” y “Y”
(𝑘)
𝐶𝑦𝑥 (𝜔) = (2𝜋)−1 ∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 cos(𝜔𝑘) [10.4.14]
Se puede verificar que [10.4.9] y el hecho de que el cos(-ωk)= cos(ωk) sea
𝐶𝑦𝑥 (𝜔) = 𝐶𝑥𝑦 (𝜔) [10.4.15]
El componente imaginario de la gama cruzada es conocido, es la gama cuadrática de X a Y :

(𝑘)
𝑞𝑦𝑥 (𝜔) = −(2𝜋)−1 ∑𝑥𝑘=−𝑥 𝑌𝑦𝑥 sen(𝜔𝑘) [10.4.16]
Se puede verificar que [10.4.9] y el hecho de que sen(-ωk) que la gama en cuadrática de Y a X. Es el
negativo de la gama cuadrática de x a Y
𝑞𝑦𝑥 (𝜔) = −𝑞𝑥𝑦 (𝜔)
Recordar [10.4.13]. Estos resultados implica que los elementos de 𝑆𝑦 (𝜔) Son conjugados
complejos entre sí; en general, la fila “J” columna “m” elemento de 𝑆𝑦 (𝜔) es el completo
conjugado de la fila “m” columna”J” elemento de 𝑆𝑦 (𝜔) . Tenga en cuenta que tanto 𝐶𝑦𝑥 (𝜔) y
𝑞𝑦𝑥 (𝜔) Son Funciones periódicas de valor real de ω
𝐶𝑦𝑥 (𝜔 + 2𝜋𝑗) = 𝐶𝑦𝑥 (𝜔) Para j = ±1. ±2…
𝑞𝑦𝑥 (𝜔 + 2𝜋𝑗) = 𝑞𝑦𝑥 (𝜔) Para j = ±1.±2…
Esto sigue de [10.4.14] Ese
𝐶𝑦𝑥 (−𝜔) = 𝐶𝑦𝑥 (𝜔)
Mientras [10.4.16] implica que

𝑞𝑦𝑥 (−𝜔) = −𝑞𝑦𝑥 (𝜔) [10.4.17]
Por lo tanto, la cogama y la gama en cuadrática están totalmente especificados por los valores que
asume como rangos entre 0 y π
Resultado [10.4.5] implica que la gama cruzada se integra a la covarianza incondicional entre X e Y:
𝜋
∫ 𝑆𝑦𝑥 (𝜔)𝑑𝜔 = 𝐸(𝑌𝑡 − 𝜇𝑦 )(𝑋𝑡 − 𝜇𝑋 )
−𝜋
Observa desde [10.4.17] que la gama en cuadrática se integra a cero:

𝜋
∫ 𝑞𝑦𝑥 (𝜔)𝑑𝜔 = 0
−𝜋
Por lo tanto. La covarianza entre “X” y “Y” puede calcularse desde la gama del área bajo entre “X”
e “Y”
𝜋
∫−𝜋 𝐶𝑦𝑥 (𝜔)𝑑𝜔 = 𝐸(𝑌𝑡 − 𝜇𝑦 )(𝑋𝑡 − 𝜇𝑋 ) [10.4.18]

La gama entre “X” y “Y” a la frecuencia 𝜔 puede interpretarse asi como la porción de la
covarianza entre “x” y “y” que es atribuible a ciclos con frecuencias ω dado que la covarianza
puede ser positiva o negativa , la gama puede ser positivo o negativo , 𝐶𝑌𝑋 (𝜔) de hecho puede ser
positivo sobre algunas frecuencias y negativo sobre otras
El muestreo periodograma multivariado
Para tener una mayor comprensión de la gama y la gama cuadrática, sea 𝑌1 , 𝑌2 , … . 𝑌𝑇 Y

𝑋1 , 𝑋2 , … . 𝑋𝑇 muestre muestras de T observaciones sobre las dos variables. Si por ejemplo T .Es
una proposición 6.2 indica que el valor “y” , puede expresarse como
𝑌𝑡 = ӯ + ∑𝑀
𝑗=1{ἂ𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 . 𝑠𝑒𝑛(𝑡 − 1)]} [10.4.19]
Donde ӯ es la media muestral de Y. M = (T – 1)/2. 𝜔𝑗 = 2𝜋𝑗/𝑇 y

2
ἂ𝑗 = (𝑇) ∑𝑇𝑖=1 𝑌𝑡 . cos[ 𝜔𝑗 (𝑡 − 1)] [10.4.20]
2
𝛿𝑗 = (𝑇) ∑𝑇𝑖=1 𝑌𝑡 . sen[ 𝜔𝑗 (𝑡 − 1)] [10.4.21]
Una representación análoga, para “x” es
𝑋𝑡 = 𝑋̅ + ∑𝑀
𝑗=1{ἂ𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 . 𝑠𝑒𝑛(𝑡 − 1)]} [10.4.22]
2
ἂ𝑗 = (𝑇) ∑𝑇𝑖=1 𝑋𝑡 . cos[ 𝜔𝑗 (𝑡 − 1)] [10.4.23]
2
𝛿𝑗 = (𝑇) ∑𝑇𝑖=1 𝑋𝑡 . sen[ 𝜔𝑗 (𝑡 − 1)] [10.4.24]
Recordar que [6.2.11] que los regresores periódicos en [10.4.19] todo tiene media de la muestra
ceroy son mutuamente ortogonales, mientras
∑𝑇𝑖=1 𝑐𝑜𝑠 2 [𝜔𝑗 (𝑡 − 1)] = ∑𝑇𝑖=1 𝑠𝑒𝑛2 [𝜔𝑗 (𝑡 − 1)] = 𝑇/2 [10.4.25]
Consideremos la covarianza , demuestra entre “x” e “y”
𝑇 −1 ∑𝑇𝑖=1(𝑌𝑡 − ӯ)( 𝑋𝑡 − 𝑋̅) [10.4.26]
Sustituyendo [10.4.19] y [10.4.22] dentro [10.4.26] y explotando la ortogonalidad muta de de los

regresores periódicos revela que
𝑇 −1 ∑𝑇𝑖=1(𝑌𝑡 − ӯ)( 𝑋𝑡 − 𝑋̅)
= 𝑇 −1 ∑𝑇𝑖=1{ ∑𝑀
𝑗=1{ἂ𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 . 𝑠𝑒𝑛(𝑡 − 1)]}
X ∑𝑀 ̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝑑̂𝑗 . 𝑠𝑒𝑛(𝑡 − 1)]}

𝑗=1{𝑎 [10.4.27]
= 𝑇 −1 ∑𝑇𝑖=1{ ∑𝑀 ̂𝑗 . 𝑐𝑜𝑠 2 [𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 𝑑̂𝑗 . 𝑠𝑒𝑛(𝑡 − 1)]}

𝑗=1{ἂ𝑗 𝑎
= (1/2)∑𝑀 ̂𝑗 + 𝛿𝑗 𝑑̂𝑗 )
𝐽=1( ἂ𝑗 𝑎
Por lo tanto, la porción de covarianza muestral que “x” y “y” . eso se debe a sus dependencias
comunes en los ciclos de frecuencia ω .dada por
(1/2)(ἂ𝑗 𝑎̂𝑗 + 𝛿𝑗 𝑑̂𝑗 ) [10.4.28]
Esta magnitud se puede relacionar a un simple análogo de cogama, con cálculos similares a los
utilizados para establecer el resultado (C) de proposición 6.2. Recordemos que desde

∑𝑇𝑖=1 cos[ 𝜔𝑗 (𝑡 − 1)] =0
La magnitud ἂ𝑗 en [10.4.20] puede expresarse alternativamente como

2
𝛿𝑗 = ( ) ∑𝑇𝑖=1(𝑌𝑡 − ӯ). cos[ 𝜔𝑗 (𝑡 − 1)]
𝑇
Así.
( 𝑎̂𝑗 + 𝑖. 𝑑̂𝑗)( 𝛼̂𝑗 − 𝑖. 𝛿𝑗 )
= (4/𝑇 2 ) {∑𝑇𝑖=1( 𝑋𝑡 − 𝑋̅). 𝑐𝑜𝑠 𝜔𝑗 (𝑡 − 1)] + i. ∑𝑇𝑖=1( 𝑋𝑡 − 𝑋̅). 𝑠𝑒𝑛 𝜔𝑗 (𝑡 − 1) }
X {∑𝑇𝑖=1( 𝑌𝑡 − 𝑌̅). 𝑐𝑜𝑠 𝜔𝑗 (𝑡 − 1)] + i. ∑𝑇𝑖=1( 𝑌𝑡 − 𝑌̅). 𝑠𝑒𝑛 𝜔𝑗 (𝑡 − 1) }
= (4/𝑇 2 ) {∑𝑇𝑖=1( 𝑋𝑡 − 𝑋̅). exp[𝑖. 𝜔𝑗 (𝑡 − 1)]}{∑𝑇𝑖=1( 𝑌𝑡 − 𝑌̅). exp[−𝑖. 𝜔𝑗 (𝑡 − 1)] }
= (4/𝑇 2 ) {∑𝑇𝑖=1( 𝑋𝑡 − 𝑋̅ )(]𝑌𝑡 − 𝑌̅) + ∑𝑇−1 ̅ ̅

𝑖=1 ( 𝑋𝑡 − 𝑋 )( 𝑌𝑡+1 − 𝑌 ). exp[−iω] +
{∑𝑇𝑖=2( 𝑋𝑡 − 𝑋̅)(]𝑌𝑡−1 − 𝑌̅). exp[i𝜔𝑗 ] + ∑𝑇−2 ̅ ̅

𝑖=1 ( 𝑋𝑡 − 𝑋 )( 𝑌𝑡+2 − 𝑌 ). exp[−2iω] +
{∑𝑇𝑖=3( 𝑋𝑡 − 𝑋̅)(]𝑌𝑡−2 − 𝑌̅). exp[2i𝜔𝑗 ] + … + (𝑋𝑡 − 𝑋̅)( 𝑌𝑡 − 𝑌̅).exp [-(T-1)i𝜔𝑗 ] +
(𝑋𝑡 − 𝑋̅)( 𝑌𝑡 − 𝑌̅).exp [(T-1)i𝜔𝑗 ]}
(0)̂ (1) ̂(−1)

= (4/T){𝑦𝑦𝑥 + 𝑦𝑦𝑥 . exp[−𝑖𝜔𝑗 ] + 𝑦𝑦𝑥 . exp[𝑖𝜔𝑗 ]
(2) ̂ (−2)
+ 𝑦𝑦𝑥 exp[−2𝑖𝜔𝑗 ] + 𝑦𝑦𝑥 . exp[2𝑖𝜔𝑗 ] + …
(𝑇−1) ̂ (−𝑇+1)
+ 𝑦𝑦𝑥 exp[−(𝑇 − 1)𝑖𝜔𝑗 ] + 𝑦𝑦𝑥 . exp[(T − 1) 𝑖𝜔𝑗 ]} [10.4.29]
(𝑘)
Donde 𝑦𝑦𝑥 es la varianza muestral entre el valor “y” y el valor que suponía “k” en periodos
anteriores
(𝑘) 1
𝑦𝑦𝑥 = ( ) {∑𝑇−𝑘 ̅ ̅
𝑖=1 ( 𝑋𝑡 − 𝑋)(]𝑌𝑡+𝑘 − 𝑌 ). Para k= 0, 1,2….., T -1
𝑇
1
(𝑇) {∑𝑇−𝑘 ̅ ̅
𝑖=−𝑘+1( 𝑋𝑡 − 𝑋 )(]𝑌𝑡+𝑘 − 𝑌 ). Para k=0,1 ,2,…-T [10.4.30]
Resulta [10.4.29] implica que

(𝑘)
½( 𝑎̂𝑗 + 𝑖. 𝑑̂𝑗)( 𝛼̂𝑗 − 𝑖. 𝛿𝑗 ) = (2/T)∑𝑇−1 ̂
𝐾=−𝑇+1 𝑌𝑦𝑥 . exp[−𝑘𝑖𝜔𝑗 ]
= (4𝜋/T). 𝑆̂𝑥𝑦 (𝜔𝑗 ) [10.4.31]
Donde 𝑆̂𝑥𝑦 (𝜔𝑗 ) es el preiodograma cruzada de la muestra de “x” a “y” a la frecuencia W o el

elemento inferior izquierdo del muestreo periodo gama multivariado
𝑆̂𝑥𝑦 (𝜔𝑗 ) =
∑𝑇−1 ̂ (𝐾) −𝑖𝜔𝑘 ∑𝑇−1
𝐾=−𝑇+1 𝑌𝑥𝑥 ℮
̂ (𝐾) −𝑖𝜔𝑘
𝐾=−𝑇+1 𝑌𝑥𝑦 ℮ 𝑆̂𝑥𝑥 (𝜔) 𝑆̂𝑥𝑦 (𝜔)
−1
(2𝜋) [ ]=[ ]
∑𝑇−1 ̂ (𝐾) −𝑖𝜔𝑘
𝐾=−𝑇+1 𝑌𝑦𝑥 ℮ ∑𝑇−1 ̂ (𝐾) −𝑖𝜔𝑘
𝐾=−𝑇+1 𝑌𝑦𝑦 ℮
𝑆̂𝑦𝑥 (𝜔) 𝑆̂𝑦𝑦 (𝜔)
En la expresión [10.4.31] indica que el muestreo del periodograma cruzado de “x” a “y” en la
frecuencia puede expresarse como

𝑠̂𝑦𝑥 (𝜔) = [𝑇⁄(8𝜋)]. (𝑎̂𝑗 + 𝑖. 𝑑̂𝑗 )(𝛼̂𝑗 − 𝛿̂𝑗 )
= [𝑇⁄(8𝜋)]. (𝑎̂𝑗 𝛼̂𝑗 + 𝑑̂𝑗 𝛿̂𝑗 ) + 𝑖[𝑇⁄(8𝜋)]. (𝑑̂𝑗 𝛼̂𝑗 − 𝑎̂𝑗 𝛿̂𝑗 )
El componente real es el análogo de la muestra del cogama, mientras que el componente imaginario
es el análogo muestral de la gama en cuadrática
𝑠̂𝑦𝑥 (𝜔) = 𝑐̂𝑦𝑥 (𝜔𝑗 ) + 𝑖. 𝑞̂𝑦𝑥 (𝜔𝑗 )

[10.4.32]
Donde
𝑐̂𝑦𝑥 (𝜔𝑗 ) = [𝑇⁄(8𝜋)]. (𝑎̂𝑗 𝛼̂𝑗 + 𝑑̂𝑗 𝛿̂𝑗 ) [10.4.33]

𝑞̂𝑦𝑥 (𝜔𝑗 ) = [𝑇⁄(8𝜋)]. (𝑑̂𝑗 𝛼̂𝑗 − 𝑎̂𝑗 𝛿̂𝑗 ) [10.4.34]
Comparando [10.4.33] con [10.4.28] la gama de la muestra 𝜔𝑗 es proporcional a la proporción

de la covarianza de la muestra entre 𝑦 y 𝑥 esto es atribuible a ciclos con frecuencias 𝜔𝑗 . La gama
poblacional admite una interpretación análoga a la proporción o la proporción de la covarianza
poblacional entre 𝑌 y 𝑋 atribuible a los ciclos de frecuencia de 𝜔. Basado en una versión
multivariable del teorema de la representación gama.
¿Que interpretación debemos atribuir a la gama cuadrática? Considere el uso de los pesos [10.4.22]
para construir una nueva serie 𝑥𝑡∗ desplazando la fase de cada una de las funciones periódicas de un
cuarto de ciclo
𝑀
𝑥𝑡∗ = 𝑥̅ + ∑{𝑎̂𝑗 . cos[𝜔𝑗 (𝑡 − 1) + (𝜋⁄2)]

𝑗=1
+𝑑̂𝑗 . sin[𝜔𝑗 (𝑡 − 1) + (𝜋⁄2)]} [10.4.35]
La variable 𝑥𝑡∗ se conducen por los ciclos que 𝑥𝑡 excepto en la fecha 𝑡 = 1 cada ciclo es
una cuarta parte de camino en lugar de comenzar, como el caso de 𝑥𝑡
Ya que sin[𝜃 + (𝜋⁄2)] = cos(𝜃) y desde cos[𝜃 + (𝜋⁄2)] = − sin(𝜃), la variable 𝑥𝑡∗ se puede
escribir alternativamente como
𝑀
𝑥𝑡∗ = 𝑥̅ + ∑{𝑑̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] − 𝑎̂𝑗 . sin[𝜔𝑗 (𝑡 − 1)]}

𝑗=1
[10.4.36]
Como en [10.4.27], la muestra de covarianza entre 𝑦𝑡 y 𝑥𝑡∗ se encuentra para ser

𝑇 𝑀
𝑇 −1
∑(𝑦𝑡 − 𝑦̅)(𝑥𝑡∗ − 𝑥̅ ) = (1⁄2) ∑(𝛼̂𝑗 𝑑̂𝑗 − 𝛿̂𝑗 𝑎̂𝑖 )
𝑖=1 𝑖=1
Comparando esto con [10.4.34], la gama cuadrática de la muestra 𝑥 a 𝑦 toda la frecuencia 𝜔𝑗 es

proporcional a la muestra de la covarianza entre 𝑥 ∗ e 𝑦 que se debe a ciclos de frecuencias 𝜔𝑗 . Lo
ciclos de frecuencia pueden ser muy importante para ambos 𝑥e 𝑦 individualmente como se deduce
̇
de los grandes valores para 𝑠̇𝑥𝑥 (𝜔) ̇
y 𝑠̇𝑦𝑦 (𝜔) no se produce una covarianza muy contemporánea
entre las variables porque en una fecha dada las dos series están en una fase diferente al ciclo. Por
ejemplo la variable 𝑥 puede responder a una recesión económica como 𝑦. La gama cuadrática busca
evidencias de tales ciclos fuera de fase.

Coherencia, Fase y Ganancia
La coherencia de la población entre 𝑋 e 𝑌 es una medida si el grado en que 𝑋 e 𝑌 son
influenciados conjuntamente por ciclos de frecuencia 𝜔. Esta medida combina las diferencias del co
gama y la gama cuadrática, y se define como
[𝑐𝑌𝑋 (𝜔)]2 + [𝑞𝑌𝑋 (𝜔)]2

ℎ𝑌𝑋 (𝜔) = ,
𝑠𝑌𝑌 (𝜔)𝑠𝑋𝑋 (𝜔)
Asumiendo que 𝑠𝑌𝑌 (𝜔) y 𝑠𝑋𝑋 (𝜔) son diferentes de cero. Si 𝑠𝑌𝑌 (𝜔) o 𝑠𝑋𝑋 (𝜔) es cero. La
coherencia se define como cero. Se puede demostrar que 0 ≤ ℎ𝑌𝑋 (𝜔) ≤ 1 para todo 𝜔 tanto
como 𝑋 e 𝑌 son covarianza estacionaria con matrices de autocovarianza. Si ℎ𝑌𝑋 (𝜔) es largo. Esto
indica que 𝑌 e 𝑋 tienen importante ciclos de frecuencia en común.
El cogama y la gama en cuadrática pueden describirse alternativamente en forma de

coordenadas polares. En esta notación, la gama cruzada de población de 𝑋 a 𝑌 esta escrito como
𝑠𝑌𝑋 (𝜔) = 𝑐𝑌𝑋 (𝜔) + 𝑖. 𝑞𝑌𝑋 (𝜔) = 𝑅(𝜔). 𝑒𝑥𝑝𝜔[𝑖. 𝜃(𝜔)], [10.4.37]
Donde
1
𝑅(𝜔) = {[𝑐𝑌𝑥 (𝜔)]2 + [𝑞𝑌𝑊 (𝜔)]2 }2 [10.4.38]
Y 𝜃(𝜔) representa el ángulo en radianes que satisface
sin[𝜃(𝜔)] 𝑞𝑌𝑋 (𝜔)

=
cos[𝜃(𝜔)] 𝑐𝑌𝑋 (𝜔)
[10.4.39]
La función 𝑅(𝜔) a veces se describe como la ganancia 𝜃(𝜔) mientras se la llama fase.
El espectro poblacional para un proceso vectorial MA y AR

Si 𝑦𝑡 un vector 𝑀𝐴(𝑥) de proceso con coeficientes medios móviles absolutamente sumables
𝑦𝑡 = 𝛍 + 𝚿(𝐿)𝜀𝑡
Donde
𝛀 para 𝑡 = 𝜏
𝐸(𝜀𝑡 𝜀 ′ 𝑡 ) = {
0 para otro
Sustituyendo [10.3.4] dentro [10.4.3] revela que la gama de poblaciones para 𝑦𝑡 se puede calcular
como
𝑠𝑌 (𝜔) = (2𝜋)−1 [Ψ(𝑒 −𝑖𝜔 )]𝛀[𝚿(𝒆𝒊𝝎 )]′ [10.4.40]
Por ejemplo, la gama de población para una VAR(p) estacionario escrita como en [10.1.4] es
−1
𝑠𝑌 (𝜔) = (2𝜋)−1 {𝐼𝑛 − Φ1 𝑒 −𝑖𝜔 − Φ2 𝑒 −2𝑖𝜔 − ⋯ − Φ𝑝 𝑒 −𝑝𝑖𝜔 } Ω
−1
X {𝐼𝑛 − Φ1′ 𝑒 𝑖𝜔 − Φ2′ 𝑒 2𝑖𝜔 − ⋯ − Φ𝑝′ 𝑒 𝑝𝑖𝜔 } [10.4.41]

La estimación de la serie de población
Si una serie temporal observada 𝑦1 , 𝑦2 , … , 𝑦𝑇 puede ser razonablemente descrito por un p-ésimo
autorregresion de orden de vectores. Un buen enfoque para estimar la la poblacion es estimar los
parámetros del vector de autorregresión [10.1.4] por OLS y luego sustituirlo estos parámetros
estimaados en la ecuación [10.4.41].
Alternativamente, el periodograma cruzado muestral de 𝑋 e 𝑌 a la frecuencia 𝜔𝑗 = 2𝜋𝑗/𝑇

se puede calcular a partir de [10.4.32] a [10.4.34], donde 𝛼̂𝑗 , 𝛿̂𝑗 , 𝑎̂𝑗 , y 𝑑̂𝑗 . Estos se definen en [10.4.20]
mediante [10.4.24]. Uno quisiera suavisar esto para obtener una estimación mas útil de la gama
cruzada de la poblacion. Por ejemplo. Una estimación razonable de la poblacion entre 𝑋 e 𝑌 esta la
frecuencia 𝜔𝑖 sería
ℎ
ℎ + 1 − |𝑚|
𝑐̂
𝑌𝑋 (𝜔𝑗 ) = ∑ { } 𝑐̂
𝑦𝑥 (𝜔𝑗+𝑚 ).
(ℎ + 1)2
𝑚=−ℎ
Donde 𝑐̂ 𝑦𝑥 (𝜔𝑗+𝑚 )denota la estimación en [10.4.33] evaluando la frecuencia 𝜔𝑗+𝑚 = 2𝜋(𝑗 +

𝑚)/𝑇 y ℎ es un parámetro de banda ancha que refleja cuantas frecuencias diferentes van a utilizar
en la estimación del cogama a frecuencia 𝜔𝑗 .
Otro enfoque consiste en expresar el suavizado en términos de coeficientes de ponderación

𝐾𝑘∗ para ser aplicado a 𝚪𝑘̇ cuando la poblacion autovarianza en la expresión [10.4.3] se reemplazan
por autocovarianza de muestra tal estimación tomando la forma
𝑇−1
𝑠̂𝑌 (𝜔) = (2𝜋)−1 {Γ0̇ + ∑ 𝐾𝑘∗ [Γ𝑘̇ 𝑒 −𝑖𝜔𝑘 + Γ𝑘̇ ′ 𝑒 𝑖𝜔𝑘 ]}

𝐾=1
Donde
𝑇
Γ𝑘̇ = 𝑇 −1 ∑ (𝑦𝑡 − 𝑦̅)(𝑦𝑡−𝑘 − 𝑦̅)′

𝑡=𝑘+1
𝑇
−1
𝑦̅ = 𝑇 ∑ 𝑦𝑡
𝑡=1
Por ejemplo la estimación BARTLEIT modificada de la gama multivariada es:

𝑞
𝑘
𝑠̂𝑌 (𝜔) = (2𝜋)−1 {Γ0̇ + ∑ [1 − ] [Γ̇ 𝑒 −𝑖𝜔𝑘 + Γ𝑘̇ ′ 𝑒 𝑖𝜔𝑘 ]}
𝑞+1 𝑘
𝑘=1
[10.4.42]
Filtros
Sea x𝑡 , un proceso estacionario de covarianza r-dimensional con autovarianza
𝑥
absolutamente sumables y con (𝑟×𝑟) poblacion de gama denotado s𝑋 (𝜔). Sea {𝐇𝑘 }𝑘=−𝑥 una
secuencia absolutamente sumables de matrices (𝑛×𝑟), y sea y𝑡 denota el numero de procesos
vectorial n-dimensional dado por

𝑥
y𝑡 = 𝐇(𝐿)𝐱𝑡 = ∑ 𝐇𝑘 𝐱𝑡−𝑘
𝑘=−𝑥
Se deduce de [10.3.9] que la gama de poblacion (denotado 𝑠𝑌 (𝜔)) está relacionado con el de x
según
s𝑌 (𝜔) [𝐇(𝑒 −𝑖𝜔 )]𝐬X (𝜔)[𝐇(𝑒 𝑖𝜔 )]′

= [10.4.43]
(𝑛×𝑛) (𝑛×𝑟) (𝑟×𝑟) (𝑟×𝑛)
Como un caso especial de estos resultados, sea 𝑋𝑡 un proceso estocástico estacionario

univariante con gama continuo s𝑌 (𝜔) y sea 𝑢𝑡 un segundo proceso estocástico estacionario
univariante con gama continuo s𝑈 (𝜔), Donde 𝑋𝑡 y 𝑢𝜏 no están correlacionados para todos 𝑡 y 𝜏 asi
la gama de poblacion del vector 𝐱𝑡 ≡ (𝑋𝑡 , 𝑢𝑡 )′ es dado por
s𝑋𝑋 (𝜔) 0
s𝑌 (𝜔) = [ ]
0 s𝑈𝑈 (𝜔)
Definir una nueva serie 𝑌𝑡 de acuerdo a

𝑥
𝑌𝑡 = ∑ ℎ𝑘 𝑋𝑡−𝑘 + 𝑢𝑡 ≡ ℎ(𝐿)𝑋𝑡 + 𝑢𝑡
𝑘=−𝑥
[10.4.44]
𝑥
{ℎ𝑘 }𝑘=−𝑥
Donde es absolutamente sumable. Observese que el vector 𝐲𝑡 ≡ (𝑋𝑡 , 𝑌𝑡 )′ se obtiene a
partir de un vector 𝐱𝑡 por el filtro
y𝑡 = 𝐇(𝐿)𝐱 𝑡
Donde
1 0
𝐇(𝐿) = [ ]
ℎ(𝐿) 1
Se deduce de [10.4.43] que la gama de y es dado por
1 0 𝑆𝑋𝑋 (𝜔) 0 ℎ𝑒 𝑖𝜔 ]
𝑠𝑦 (ω) = [ ][ ] [1 [10.4.45]
ℎ(𝑒 −𝑖𝜔 ) 1 0 𝑆𝑈𝑈 (𝜔) 0 1
( 𝜔)ℎ(𝑒 −𝑖𝜔 )
𝑆𝑋𝑋 𝜔 𝑆𝑋𝑋
=[ ]
ℎ(𝑒 −𝑖𝜔 )𝑆𝑥𝑥 (𝜔) ℎ(𝑒 −𝑖𝜔 )𝑆𝑥𝑥 (𝜔)ℎ(𝑒 𝑖𝜔 ) + 𝑆𝑈𝑈 (𝜔)
Donde
∞
−𝑖𝜔𝑘
h(𝑒 −𝑖𝜔
) = ∑ ℎ𝑘𝑒
𝑘=−∞
[104.46]
El elemento inferior izquierdo de la matriz en [10.4.45] indica que cuando 𝑌𝑡 y 𝑋𝑡 están

relacionados según [10.4.44], la gama cruzado de X y Y se puede calcular multiplicando [10.4.46]
por la gama de X.
También podemos imaginar pasar estos pasos en orden inverso. Específicamente,

supongamos que se nos da un vector observado 𝐲𝑡 ≡ (𝑋𝑡 , 𝑌𝑡 )′ con matrices de autocovariancia
absolutamente sumables y con una gama de poblacion dado por

𝑆𝑋𝑋 (𝜔) 𝑆𝑋𝑌 (𝜔)
𝑆𝑌 (𝜔) = [ ] [10.4.47]
𝑆𝑌𝑋 (𝜔) 𝑆𝑌𝑌 (𝜔)
𝑥
Entonces la proyección lineal de 𝑌𝑡 en {𝑋𝑡−𝑘 }𝑘=−𝑥 existe y es deformada de [10.4.44] donde 𝑢𝑡 se
consideraría ahora como el residuo de la poblacion asociado con la poblacion lineal. La secuencia
𝑥
de coeficientes de proyección lineal {ℎ𝑘 }𝑘=−𝑥 puede resumirse en términos de función de 𝜔 dado
en [10.4.46]. Comparando los elementos inferiores izquierdos de [10.4.47] y [10.4.45], esta función
debe satisfacer
ℎ(𝑒 −𝑖𝜔 )𝑆𝑋𝑋 (𝜔) = 𝑆𝑋𝑌 (𝜔)
En otras palabras, la función ℎ(𝑒 −𝑖𝜔 ) se puede calcular a partir de
𝑆𝑌𝑋 (𝜔)
ℎ(𝑒 −𝑖𝜔 ) =
𝑆𝑋𝑋 (𝜔)
[10.4.48]
Asumiendo que 𝑆𝑋𝑋 (𝜔) no es cero. Cuando 𝑆𝑋𝑋 (𝜔) = 0, establecemos ℎ(𝑒 −𝑖𝜔 ) = 0. Esta
magnitud, la relación entre la gama cruzado de X a Y para la gama de X, se conoce como función de
transferencia de X a Y.
Las principales subyacentes [10.4.4] se puede utilizar además para descubrir coeficientes de
función de transferencia individuales.
𝜋
𝐻𝐾 = (2𝜋)−1 ∫ ℎ( 𝑒−𝑖𝜔 ) 𝑒−𝑖𝜔𝑘 𝑑𝜔
−𝜋
En otras palabras, dado un vector observado (𝑋𝑡 , 𝑌𝑡 )′ con matrices de autocovariancia

absolutamente sumables y con una gama poblacional continuo de la forma de [10.4.47], el
coeficiente de 𝑋𝑡−𝑘 en la poblacion continuo de la forma de “Y”, en…….se puede calcular a partir
de
𝜋
𝑆𝑌𝑋 (𝜔) 𝑖𝜔𝑘
𝐻𝐾 = (2𝜋)−1 ∫ 𝑒 𝑑𝜔
−𝜋 𝑆𝑋𝑋 (𝜔)
[10.4.49]
10.5. La Media Muestral de un Proceso Vectorial
Variación de la media muestral

Supongamos que tenemos una muestra de tamaño 𝑇, {y1 , y2 , … , y𝑇 }, dibujo de un proceso
estacionario de covarianza n-dimensional con
E(y1)=µ [10.5.1]
E(y1-µ) )(y1-µ)=µ [10.5.2]
Consideremos las propiedades de la muestra

1
ӯ𝑡 = (𝑇) ∑𝑇𝑖=1 𝑦𝑡 [10.5.3]
10.5. La Media Muestral de un Proceso Vectorial 287

Como en la discusión en la sección 7.2 de la medida muestral de un proceso escalar esta claro que
𝐸(y̅𝑇 = 𝛍) y
E[(ӯ𝑡 − 𝜇)(ӯ𝑡 − 𝜇)´ ]
=(1/𝑇 2 )𝐸{[(𝑦1 − 𝜇)[(𝑦1 − 𝜇)´ + (𝑦2 − 𝜇)´ + ⋯ + (𝑦𝑇 − 𝜇)´ ]
(𝑦2 − 𝜇)[(𝑦1 − 𝜇)´ + (𝑦2 − 𝜇)´ + ⋯ + (𝑦𝑇 − 𝜇)´ ]
(𝑦3 − 𝜇)[(𝑦1 − 𝜇)´ + (𝑦2 − 𝜇)´ + ⋯ + (𝑦𝑇 − 𝜇)´ ]
+ ⋯ +(𝑦𝑡 − 𝜇)[(𝑦1 − 𝜇)´ + (𝑦2 − 𝜇)´ + ⋯ + (𝑦𝑇 − 𝜇)´ ]}
=(1/𝑇 2 ){[Γ0 + Γ−1 + ⋯ + Γ−(𝑡−1) ] [10.5.4]
+[Γ1 + Γ0 + Γ−1 ⋯ + Γ−(𝑡−2) ]
+[Γ2 + Γ1 + Γ0 + Γ−1 + ⋯ + Γ−(𝑡−3) ]
+ ⋯ +[Γ𝑇−1 + Γ𝑇−2 + Γ𝑇−3 + ⋯ + Γ0 ]
=(1/𝑇 2 ){TΓ0 + (𝑇 − 1)Γ1 + (𝑇 − 2)Γ2 + ⋯ + Γ𝑇−1
+(𝑇 − 1)Γ1 + (𝑇 − 2)Γ2 + ⋯ + Γ−(𝑇−1) }
Asi
𝑇. 𝐸[ӯ𝑡 − 𝜇)(ӯ𝑡 − 𝜇)´ ]
=𝑟0 + [(𝑇 − 1)/𝑇] Γ1 + [(𝑇 − 2)/𝑇] Γ2 + ⋯ [10.5.5]
+[1/𝑇]Γ𝑇−1 + [(𝑇 − 1)/𝑇] Γ−1 + [(𝑇 − 2)/𝑇] Γ−2 + ⋯
+ ⋯ + +[1/𝑇]Γ−(𝑇−1)
Como en el caso univariado los pesos en Γ𝑘 para |𝑘| pequeño ir la unidad como 𝑇 → ∞ y las
autocovarianzas superiores pasan a cero para un proceso estacionario de covariancia. Por lo tanto
tenemos la siguiente generalización de la proposición 7.5.
Proposición 10.5: Sea 𝑦𝑡 un proceso estacionario de covarianza con momentos dados por [10.5.1] y [10.5.2] y
con autocovariancias absolutamente sumables. Entonces, la media muestral [10.5.3]satisface
𝑝
(ɑ) ӯ𝑡 → 𝜇
(b) lim {𝑇. 𝐸[(ӯ𝑡 − 𝜇)(ӯ𝑡 − 𝜇)´ ]} =∑∞

𝑦=−∞ 𝘳𝑟
𝑇→∞
La prueba de la proposición 10.5 virtualmente idéntica a la de la proposición 7.5.
Consideramos la siguiente matriz(𝑛 ×𝑛)

∞ 𝑇−1
´
∑ Γ𝑟 − 𝑇. 𝐸[(ӯ𝑡 − 𝜇)(ӯ𝑡 − 𝜇) ] = ∑ Γ𝑟 + ∑ (|𝑣|/𝑇)Γ𝑟 ]
𝑦=−∞ |𝑣|≥𝑇 𝑌=−(𝑇−1)
[10.5.6]

(𝑃)
Donde la igualdad sigue de [10.5.5]. Sea 𝛾𝑖𝑗 denota la fila 𝑖, columna 𝑗 elemento de Γ𝑟 . La fila 𝑖,
columna 𝑗 elemento de la matriz en [10.5.6] puede escribirse
𝑇−1
(𝑣) (𝑟)
∑ 𝘳𝑖𝑗 + ∑ (|𝑣|/𝑇)𝘳𝑖𝑗
|𝑣|≥𝑇 𝑌=−(𝑇−1)
𝑥
Absolutamente sumabilidad de {Γ𝑟 }𝑟=−𝑥 .implica que para cualquier 𝜀 > 0 existe un 𝑞 tal que
(𝑣)
∑ 𝘳𝑖𝑗 ≤ 𝜀 ⁄2
|𝑟|≥𝑞
Así
𝑇−1 𝑞
(𝑣) |𝑣| (𝑟) (𝑟)
|∑ 𝘳𝑖𝑗 + ∑ ( ) 𝘳𝑖𝑗 | ≤ 𝜀 ⁄2 + ∑ (|𝑣|/𝑇) |𝛾𝑖𝑗 |
𝑇
|𝑣|≥𝑇 𝑌=−(𝑇−1) 𝑌=−𝑞
Esta suma puede hacerse menos que 𝜀 eligiendo T suficientemente grande. Esto establece la
reivindicación (b) de la proposición 10.5 . De este resultado, 𝐸(𝑦̅𝑖.𝑇 − 𝜇𝑖 )2 → 0 para cada i implica
𝑃
que 𝑦̅𝑖.𝑇 → 𝜇𝑖 .
Estimación Consistente de T- veces la Varianza de la Media Muestral

La hipótesis de la media muestra requiere una estima de la matriz en el resultado (b) de
preposiciones 10.5. Luego S representa esta matriz.
S = lim T. E[(ӯ𝑡 − 𝜇)(ӯ𝑡 − 𝜇)´ ] [10.5.7]

T→∞
Si los datos fueron regenerados por el vector de proceso 𝑀𝐴(𝑞), entonces el resultado (b)
habría implicado.
𝑞
S = ∑ 𝑟𝑟
𝑌=−𝑞
[10.5.8]
El estimado natural seria

𝑞
Ŝ = ṙ0 + ∑(ṙ0 + ṙ´𝑣 )
𝑟=1
[10.5.9]
Donde
𝑇
Γ̂𝑣 = (1⁄𝑇) ∑ (𝑦𝑡 − ӯ𝑡 )(𝑦𝑇−1 − ӯ)´
𝑡=𝑣+1
Siempre que y𝑡 sea ergódico por segundo momento, [10.5.9] proporciona una estimación
cómoda de [10.5.8. En efecto, Hansen (1982) y Blanco (1984, Capitulo 6) notaron que [10.5.9] da
una estimación consistente de la varianza asintótica de la media de la muestra para una amplia clase
de procesos que exhiben heteroscedasticidad y autocorrelacion dependientes del tiempo. Para ver
10.5 La Media Muestral de un Proceso Vectorial 289

porque., tenga en cuenta que para un proceso que satisface 𝐸(y𝑡 ) = 𝛍 con segundos momentos
con tiempos variados. La varianza de la media muestral es dada por
E[(y̅T − μ)(y̅T − μ)´]

T T ′
= E [(1⁄T) ∑(yt − μ)] [(1⁄T) ∑(ys − μ)]

t=1 s=1
[10.5.11]
T T
= (1⁄T) ∑ ∑ E[(yt − μ)(ys − μ)´ ]

t=1 s=1
Suponer, primero esto E[(yt − μ)(ys − μ)´ ] = 0 para |t − s| > q, como fue el caso del vector
MA(q) proceso que generalizamos a partir de MA(q) proceso para permitir E[(yt − μ)(ys − μ)´]
ser una función de t para |t − s| ≤ q. Entonces [10.5.11] implica
T ∙ E[(y̅T − μ)(y̅T − μ)´ ]
T
= (1⁄T) ∑ E[(yt − μ)(yt − μ)´]

t=1
T
+ (1⁄T) ∑{E[(yt − μ)(yt−1 − μ)´] + E[(yt−1 − μ)(yt − μ)´]}

t=2
T
+(1⁄T) ∑{E[(yt − μ)(yt−2 − μ)´] + E[(yt−2 − μ)(yt − μ)´]} + ⋯

t=3
T
+(1⁄T) ∑ {E[(yt − μ)(yt−q − μ)´] + E[(yt−q − μ)(yt − μ)´]}

t=q+1
[10.5.12]
El estimado [10.5.9] reemplazar

T
(1⁄T) ∑ E[(yt − μ)(yt − μ)´]
t=v+1
[10.5.13]
En [10.5.12]
T
(1⁄T) ∑ E[(yt − y̅T )(yt−v − y̅T )´]
t=v+1
[10.5.14]
Y por lo tanto [10.5.9] proporciona una estimación consistente del límite de [10.5.12] cuando
[10.5.14] converge en probabilidad a [10.5.13]. Por lo tanto, el estimador propuesto en [10.5.9]
puede dar una estimación consistente de T veces la varianza de la media muestral en presencia de
heteroscedasticidad y autocorrelación hasta el orden q.
Más generalmente, incluso si E[(yt − μ)(ys − μ)´] es distinto de cero para todo t y s. Siempre y
cuando esta matriz vaya a cero lo suficientemente rápido como | t − s| → ∞. Entonces todavía hay
un sentido en el cual ŝT en [10.5.9] puede proporcionar una estimación consistente de S.
Específicamente, si el tamaño de la muestra T crece. Un mayor número de muestras
p
autocovarianzas q se utiliza para formar la estimación, entonces ŝT → S (ver página, 1984, p.155)

El estimador Newey – West
A pesar de que [10.5.9] proporciona un estimado consistente de S. Tiene el inconveniente de
que [10.5.9] no necesitan ser semidefinido positivo en muestas pequeñas. Si ŝT no es semidefinida
positiva, entonces se asevera que una combinación lineal de los elementos de y̅ tiene una varianza
negativa, una desventaja considerable en la formación de una prueba de hipótesis.
Newey and West (1987) sugirió la estimación alternativa

q
v
S̅ = Γ̂0 + ∑ [1 − ] (Γ̂ + Γ̂´v )
q+1 v
v=1
[10.5.15]
Donde Γ̂v es dado por [10.5.10]. Por ejemplo, por q = 2,

2
S̅ = Γ̂0 + (Γ̂1 + Γ̂´1 ) + (Γ̂2 + Γ̂´2 )
3
Newey and Wet mostro que S̅ es semidefinido positivo por construcción y tiene las mismas
propiedades de consistencia que se notaron para Ŝ, a saber, que si q y T ambos van al infinito con
p
q⁄T 1⁄4 → 0 entonces S̅T → S.
Aplicación: autocorrelación y heteroscedasticidad - errores estándar

consistentes para regresiones lineales.
Como una aplicación del uso de la ponderación Newey-West, considere el modelo de
regresión lineal
yt = xt´ β + ut
Para xt una (k×1) vector de variables explicativas. Recordar de la ecuación [8.2.6] que la desviación
de la estimación OLS bT del árbol valor β satisface
T −1 T
√T(bT − β) = [(1⁄T) ∑ xt xt´ ] [(1⁄√T ∑ xt ut )]

t=1 t=1
[10.5.16]
En el cálculo de la distribución asintótica de la estimación OLS bT , por lo general suponemos que

el primer término en [10.5.16] converge en la probabilidad de Q−1
𝑇 −1
𝑝
[(1⁄𝑇) ∑ 𝑥𝑡 𝑥𝑡´ ] → 𝑄 −1
𝑡=1
[10.5.17]
El segundo término en [10.5.16] puede ser visto como √𝑇 veces la media muestral de la (𝑘×1)
vector 𝑥𝑡 𝑢𝑡 :

𝑇 𝑇
[(1⁄√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ] = (√𝑇)(1⁄𝑇) ∑ 𝑦𝑡
𝑡=1 𝑡=1
[10.5.18]
= √𝑇 ∙ 𝑦̅𝑇
Donde 𝑦𝑡 ≡ 𝑥𝑡 𝑢𝑡 . Siempre que 𝐸(𝑢𝑡 |𝑥𝑡 ) = 0, el vector 𝑦, tiene media cero. Podemos permitir la
heterocedasticidad condicional, la autocorrelación y la variación del tiempo en los segundos
momentos de 𝑦𝑡 , siempre y cuando
𝑆 ≡ lim 𝑇 ∙ 𝐸(𝑦̅𝑇 𝑦̅´ 𝑇 )

𝑇→∞
Existe. Bajo condiciones generales,4 entonces resulta que

𝑇
𝐿
[(1⁄√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ] = √𝑇 ∙ 𝑦̅𝑇 → 𝑁(0, 𝑆)
𝑡=1
Sustituyendo esto y [10.5.17] dentro [10.5.16]

𝐿
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝑄 −1 𝑆𝑄 −1 ) [10.5.19]
A la luz del análisis que antecede, podríamos esperar para estimar 𝑆 por
𝑞
𝑣
𝑆̂𝑇 = Γ̂0.T + ∑ [1 − ] (Γ̂ + Γ̂´v.T )
𝑞 + 1 v.T
𝑣=1
[10.5.20]
Esto
𝑇
Γ̂v.T = (1⁄𝑇) ∑ (𝑥𝑡 𝑢̂𝑡.𝑇 𝑢̂𝑡−𝑢.𝑇 𝑥´𝑡−𝑣 )

𝑡=𝑣+1
𝑢̂𝑡.𝑇 es el MCO residual para el dato 𝑡 en una muestra de tamaño 𝑇(𝑢̂𝑡.𝑇 = 𝑦𝑡 − 𝒙´𝒕 𝒃𝑻 ) y 𝑞 es una
longitud de retraso más allá de la cual estamos dispuestos a asumir que la correlación entre 𝑥𝑡 𝑢𝑡 y
𝑥𝑡−𝑣 𝑢𝑡−𝑣 es esencialmente cero. Claramente, 𝑄 es consistentemente estimado por 𝑄̂𝑇 =
(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥´𝑡 . La sustitución de 𝑄̂𝑇 y 𝑆̂𝑇 en [10.5.19], la sugerencia es tratar la estimación de
OLS 𝑏𝑇 como si
𝑏𝑇 ≈ 𝑁 (𝛽, (𝑉̂𝑇 /𝑇))
Donde
𝑉̂𝑇 = 𝑄̂𝑇−1 𝑆̂𝑇 𝑄̂𝑇−1

𝑇 −1
= [(1/𝑇) ∑ 𝑥𝑡 𝑥´𝑡 ] (1
𝑡=1
𝑇 𝑞 𝑇
𝑣
/𝑇) [∑ 𝑢̂𝑡2 𝑥𝑡 𝑥´𝑡 + ∑ [1 − ´
] ∑ (𝑥𝑡 𝑢̂𝑡 𝑢̂𝑡−𝑣 𝑥𝑡−𝑣 + 𝑥𝑡−𝑣 𝑢̂𝑡−𝑣 𝑢̂𝑡 𝑥𝑡´ )]
𝑞+1
𝑡=1 𝑣=1 𝑡=𝑣+1
𝑇 −1
× [(1/𝑇) ∑ 𝑥𝑡 𝑥´𝑡 ]
𝑡=1

Es decir, la varianza de 𝑏𝑇 es aproximada por
(𝑉̂𝑇 ⁄𝑇)
𝑇 −1 𝑇
= [∑ 𝑥𝑡 𝑥´𝑡 ] [∑ 𝑢̂𝑡2 𝑥𝑡 𝑥´𝑡

𝑡=1 𝑡=1
𝑞 𝑇 𝑇 −1
𝑣 ´
+ ∑ [1 − ] ∑ (𝑥𝑡 𝑢̂𝑡 𝑢̂𝑡−𝑣 𝑥𝑡−𝑣 + 𝑥𝑡−𝑣 𝑢̂𝑡−𝑣 𝑢̂𝑡 𝑥𝑡´ )] [∑ 𝑥𝑡 𝑥´𝑡 ]
𝑞+1
𝑣=1 𝑡=𝑣+1 𝑡=1
[10.5.21]
Donde 𝑢̂ es el MCO muestra residual. la raíz cuadrada de la fila 𝑖, columna 𝑖 elemento de 𝑉̂𝑇 /𝑇 se
conoce como heterocedasticidad - consistente de autocorrelación y error estándar para el 𝑖-ésimo
elemento del vector de coeficiente OLS estimado. La esperanza es que los errores estándar basados
en [10.5.21] sean robustos a una variedad de formas de heterocedasticidad y autocorrelación de los
residuos 𝑢, de la regresión.
Estimadores espectral
Una serie de estimaciones alternativas de 𝑆 en [10.5.7] han sido sugeridos en la literatura.
Notar que como en el caso univariante discutido en la sección 7.2, si 𝑦, es covarianza estacionaria,
entonces 𝑆 tiene la interpretación como la función generadora de autocovariancia 𝐺𝑦 (𝑧) =
∑∞ 𝑣
𝑣=−∞ 𝛤𝑣 𝑧 evaluado 𝑧 = 1, o equivalentemente, como 2𝜋 veces el espectro de la población a la
frecuencia cero:
𝑞
𝑆 = ∑ 𝛤𝑣 = 2𝜋𝑠𝑌 (0)
𝑣=−∞
De hecho, el estimador Newey-West [10.5.15] es numéricamente idéntico a 2𝜋 veces la estimación

bartlett del espectro multivariado descrito en [10.4.42] evaluado a la frecuencia 𝜔 = 0. Gallant
(1987, p. 533) propuso un estimador similar basado en un núcleo de Parzen.
𝑞
𝑆̂ = 𝛤̂0 + ∑ 𝑘[𝑣/(𝑞 + 1)](𝛤̂0 + 𝛤̂𝑣′ )

𝑣=1
Donde
1 − 6𝑧 2 + 6𝑧 3 𝑝𝑎𝑟𝑎 0 ≤ 𝑧 ≤ 1
𝑘(𝑧) = { 2(1 − 𝑧)3 1
𝑝𝑎𝑟𝑎 ≤ 𝑧 ≤ 1
2
Por ejemplo, para 𝑞 = 2, tenemos
5 2
𝑆̂ = 𝛤̂0 + (𝛤̂1 + 𝛤̂1′ ) + (𝛤̂2 + 𝛤̂2′ )
9 27
Andrews (1991) examinó una serie de estimadores alternativos y encontró el mejor
resultado para un núcleo espectral cuadrático:

3 sin(6𝜋𝑧/5)
𝑘(𝑧) = 2
[ − cos(6𝜋𝑧/5)]
(6𝜋𝑧/5) 6𝜋𝑧/5
En contraste con los estimadores de Newey-west y Gallant, la sugerencia de Andrews hace uso de
todos los estimadores estimados de autocovariancia 𝑇 − 1
𝑇−1
𝑇 𝑣
𝑆̂ = [𝛤̂0 + ∑ 𝑘 ( ) (𝛤̂𝑣 + 𝛤̂𝑣′ )]
𝑇−𝑘 𝑞+1
𝑣=1
[10.5.22]
Aunque [10.5.22] haga uso de todas las autocovariancias calculadas, todavía hay un parámetro de
ancho de banda Q que se elegirá para construir el núcleo. Por ejemplo, para 𝑞 = 2
𝑇−1
𝛤̂0 + ∑ 𝑘(𝑣 ⁄3)(𝛤̂1 + 𝛤̂𝑣′ ) = 𝛤̂0 + 0.85(𝛤̂1 + 𝛤̂1′ ) + 0.50(𝛤̂2 + 𝛤̂2′ ) + 0.14(𝛤̂3 + 𝛤̂3′ ) + ⋯
𝑣=1
Andrews recomendó multiplicar la estimación por 𝑇⁄(𝑇 − 𝑘), donde 𝑦𝑡 = 𝑥𝑡 𝑢̂𝑡 para 𝑢̂𝑡 , la
muestra OLS residual de una regresión con 𝑘 variables explicativas. Andrews (1991) y Newey-west
(1992) también ofrecieron algunas pautas para elegir un valor óptimo del parámetro de
truncamiento o ancho de banda de retraso 𝑞 para cada uno de los estimadores de S que se han
discutido aquí.
Los estimadores que se han descrito funcionarán mejor cuando 𝑦, tiene una representación
media móvil finita. Andrews y monahan (1992) sugirieron un enfoque alternativo para estimar 𝑆
que también aprovecha cualquier estructura autorregresiva de los errores. Sea 𝑦, un vector de media
cero, y sea 𝑆 la varianza asintótica de la media muestral de 𝑦. Por ejemplo, si queremos calcular
heteroscedasticidad y autocorrelación - errores estándar consistentes para la estimación de OLS,
𝑦 correspondería a 𝑥𝑡 , 𝑢̂𝑡 , donde 𝑥𝑡 , es el inversor de variables explicativas para la regresión y 𝑢̂𝑡 ,
es el residuo de OLS. El primer paso en la estimación de 𝑆 es ajustar un VAR de orden inferior
para 𝑦𝑡 .
𝑦𝑡 = 𝛷1 𝑦𝑡−1 + 𝛷2 𝑦𝑡−2 + ⋯ + 𝑝𝑦𝑡−𝑝 + 𝑣𝑡 [10.5.23]
Donde 𝑣, se supone que tiene alguna autocorrelación residual que no se capta completamente por
el VAR. Tenga en cuenta que dado que 𝑦, tiene cero medios, no se incluye ningún término
constante en [10.5.23]. La i-ésima fila representada en [10.5.23] puede estimarse mediante una
regresión OLS del i-ésimo elemento de 𝑦, de todos los elementos de 𝑦, aunque si cualquier
autovalor de |𝐼𝑛 𝜆𝑝 − 𝛷̂1 𝜆𝑝−1 − 𝛷
̂2 𝜆𝑝−2 − ⋯ − 𝛷 ̂𝑝 | = 0 está demasiado cerca del círculo unitario
(digamos, mayor de 0,97 en módulo). Andrews y monahan (1992, pág. 957) recomendaron
modificar las estimaciones de OLS para reducir el autovalor más grande.
El segundo paso en el procedimiento de Andrews y Monahan es calcular demasiado una

estimación 𝑆 ∗ usando uno de los métodos descritos anteriormente basado en el 𝑣̂ residual ajustado,
de [10.5.23]. por ejemplo
q
v
𝑆̂𝑇∗ = 𝛤̂0∗ + ∑ [1 − ] (𝛤̂ ∗ + 𝛤̂𝑣∗´ )
q+1 𝑣
v=1
[10.5.24]
Donde

𝑇
̂ 1−𝑣
𝛤̂𝑣∗ = (1⁄𝑇) ∑ 𝑣̂𝑡 𝑣´
𝑡=𝑣+1
Y donde 𝑞 es un parámetro que representa el orden máximo de autocorrelación asumido para 𝑣𝑡 . la

matriz 𝑆̂𝑇∗ será reconocida como una estimación de 2𝜋 ∙ 𝑠𝑣 (0). Donde 𝑠𝑣 (𝜔) es la densidad
espectral de 𝑣:
∞
𝑠𝑣 (𝜔) = (2𝜋) −1 ̂ 1−𝑣 )}𝑒 −𝑖𝜔𝑣

∑ {𝐸(𝑣̂𝑡 𝑣´
𝑣=−∞
Observe que la serie original 𝑦, se puede obtener de 𝑣, aplicando el siguiente filtro:

−1
𝑦 = [𝐼𝑛 − 𝛷1 𝐿 − 𝛷2 𝐿2 − ⋯ − 𝛷𝑝 𝐿𝑝 ] 𝑣𝑡
Así, a partir de [10.4.43], la densidad espectral de 𝑦 está relacionada con la densidad espectral de 𝑣
de acuerdo con
−1
𝑠𝑌 (𝜔) = {[𝐼𝑛 − 𝛷1 𝑒 −𝑖𝜔 − 𝛷2 𝑒 −2𝑖𝜔 − ⋯ − 𝛷𝑝 𝑒 −𝑝𝑖𝜔 ]} 𝑠𝑣 (𝜔)
−1
×{[𝐼𝑛 − 𝛷1 𝑒 𝑖𝜔 − 𝛷2 𝑒 2𝑖𝜔 − ⋯ − 𝛷𝑝 𝑒 𝑝𝑖𝜔 ]´}
Por lo tanto, una estimación de 2𝜋 veces la densidad espectral de 𝑦 en la frecuencia cero está dada
por
𝑆̂𝑇 = {[𝐼𝑛 − 𝛷
̂1 − 𝛷 ̂𝑝 ]}−1 𝑆̂𝑇∗ ×{[𝐼𝑛 − 𝛷
̂2 − ⋯ − 𝛷 ̂1 − 𝛷 ̂𝑝 ]´}−1
̂2 − ⋯ − 𝛷 [10.5.25]
Donde 𝑆̂𝑇∗ se calcula a partir de [10.5.24]. La matriz en 𝑆̂𝑇 es la estimación de Andrews Monahan
(1992) de 𝑆, donde
𝑆 = lim 𝑇 ∙ 𝐸(𝑦̅𝑇 𝑦̅´ 𝑇 )

𝑇→∞
APÉNDICE 10.A. Pruebas de las proposiciones del capítulo 10

▪ Prueba de la proposición 10.1 los valores propios de F son los valores de & para los cuales el
siguiente determinante es cero:
(𝛷1 − 𝜆𝐼𝑛 ) 𝛷2 𝛷3 ⋯ 𝛷𝑝−1 𝛷𝑝

𝐼𝑛 −𝜆𝐼𝑛 0 ⋯ 0 0
| |
0 𝐼𝑛 −𝜆𝐼𝑛 ⋯ 0 0 [10.A.1]
| |
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
0 0 0 ⋯ 𝐼𝑛 −𝜆𝐼𝑛
Multiplique cada bloque final de 𝑛 columnas por (1/𝜆) y añada al bloque anterior. Multiplique cada
una de las 𝑛 columnas de este bloque resultante de siguiente a final por (1/𝜆) y añada el resultado
al bloque de columnas tercero a último. Proceder de esta manera revela [10.A.2] que sea el mismo
que
𝑋1 𝑋2
[0 −𝜆𝐼𝑛(𝑝−1) ]
[10.A.2]
Donde 𝑋1 denota el siguiente (𝑛×𝑛) matriz:
Apéndice 10.A. Pruebas de las proposiciones del capítulo 10 295

𝑋1 ≡ (𝛷1 − 𝜆𝐼𝑛 ) + (𝛷2 ⁄𝜆) + (𝛷3 ⁄𝜆2 ) + ⋯ + (𝛷𝑝 ⁄𝜆𝑝−1 )
Y 𝑋2 es una matriz relacionada [𝑛×𝑛(𝑝 − 1)]. Sea S la siguiente matriz (𝑛𝑝×𝑛𝑝):

0 𝐼𝑛(𝑝−1)
𝑆≡[ ]
𝐼𝑛 0
Y observe que su inversa está dada por:
0 𝐼𝑛
𝑆 ´ = [𝐼 0]
𝑛(𝑝−1)
Como puede comprobarse mediante la multiplicación directa. Pre multiplicar una matriz por S y
multiplicar por S no cambiará el determinante. Así [10.A.2] es igual a:
0 𝐼𝑛(𝑝−1) 𝑋1 𝑋2 0 𝐼𝑛 −𝜆𝐼𝑛(𝑝−1) 0
|[
𝐼𝑛 0
][ 0 −𝜆𝐼𝑛(𝑝−1) ] [𝐼𝑛(𝑝−1) 0 ]| = | 𝑋2 𝑋1
|
[10.A.3]
Aplicando la fórmula para calcular un determinante [A.4.5] recursivamente, [10.A.3] es igual a
(−𝜆)𝑛(𝑝−1) |𝑋1 | = (−𝜆)𝑛(𝑝−1) |𝛷1 − 𝜆𝐼𝑛 + (𝛷2 ⁄𝜆) + (𝛷3 ⁄𝜆2 ) + ⋯ + (𝛷𝑝 ⁄𝜆𝑝−1 )|
= (−1)𝑛𝑝 |𝐼𝑛 𝜆𝑝 − 𝛷1 𝜆𝑝−1 − 𝛷2 𝜆𝑝−2 − ⋯ − 𝛷𝑝 |
Poniendo esto a la ecuación producida cero [10.1.13]
▪ Prueba de proposición 10.2. Es útil definir 𝑧𝑡 (𝑖, 𝑗) como el componente de 𝑦𝑖𝑡 que refleja los
efectos acumulativos del elemento 𝑙 de 𝜀:
∞
(0) (1) (2) (𝑣)
𝑧𝑡 (𝑖, 𝑙) = 𝛹𝑖𝑙 𝜀𝑙𝑡 + 𝛹𝑖𝑙 𝜀𝑙.𝑡−1 + 𝛹𝑖𝑙 𝜀𝑙.𝑡−2 + ⋯ = ∑ 𝛹𝑖𝑙 𝜀𝑙.𝑡−𝑣
𝑣=0
[10.A.4]
(𝑣)
Donde 𝛹𝑖𝑙 denota la fila 𝑖. columna 𝑙 elemento de la matriz 𝛹 ,. El valor real de la
Ith variable 𝑦𝑖𝑙 , es la suma de las contribuciones de cada uno de los 𝑙 = 1,2, … 𝑛 componentes de
𝜀:
𝑛
𝑦𝑖𝑙 = 𝜇𝑖 + ∑ 𝑧𝑡 (𝑖, 𝑙)
𝑙=1
[10.A.5]
Los resultados de la Proposición 10.2 se establecen primero demostrando la sumatoria absoluta de

los momentos de 𝑧𝑡 (𝑖, 𝑙) y luego observando que los momentos de 𝑦, se obtienen a partir de sumas
finitas de estas expresiones basadas en 𝑧𝑡 (𝑖, 𝑙)
Prueba de (a). Considere la variable aleatoria𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑣 (𝑗, 𝑚), donde 𝑖, 𝑙, 𝑗 y 𝑚 representan
índices arbitrarios entre 1 y 𝑛 y donde 𝑠 es el orden de la autocovariancia de y que se está
calculando. Nota de que [10.A.4]
∞ ∞
(𝑟) (𝑟)
𝐸{𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚)} = 𝐸 {[∑ 𝛹𝑖𝑙 𝜀𝑙.𝑡−𝑟 ] × [∑ 𝛹𝑗𝑚 𝜀𝑚.𝑡−𝑠−𝑣 ]}
𝑟=0 𝑣=0
[10.A.6]

∞ ∞
(𝑟) (𝑟)
= ∑ ∑ {𝛹𝑖𝑙 𝛹𝑗𝑚 } ∙ 𝐸{𝜀𝑙.𝑡−𝑟 𝜀𝑚.𝑡−𝑠−𝑣 }
𝑟=0 𝑣=0
El operador de la expectativa se puede mover dentro de la sumatoria aquí porque

∞ ∞ ∞ ∞ ∞ ∞
(𝑟) (𝑟) (𝑟) (𝑟) (𝑟) (𝑟)
∑ ∑ |𝛹𝑖𝑙 𝛹𝑗𝑚 | = ∑ ∑ |𝛹𝑖𝑙 | ∙ |𝛹𝑗𝑚 | = {∑ |𝛹𝑖𝑙 |} × {∑ |𝛹𝑗𝑚 |} <∞
𝑟=0 𝑣=0 𝑟=0 𝑣=0 𝑟=0 𝑣=0
Ahora, el producto de # "en el término final en [10.A.6] puede tener una expectativa no nula sólo si
el 𝜀 tiene la misma fecha, es decir, si 𝑟 = 𝑠 + 𝑣. así, aunque [10.A.6] implica una suma sobre un
número infinito de valores de 𝑟, sólo el valor en 𝑟 = 𝑠 + 𝑣 contribuye a esta suma:
∞ ∞
(𝑠+𝑣) (𝑣) (𝑠+𝑣) (𝑣)
𝐸{𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚)} = ∑ {𝛹𝑖𝑙 𝛹𝑗𝑚 } ∙ 𝐸{𝜀𝑙.𝑡−𝑠−𝑣 𝜀𝑚.𝑡−𝑠−𝑣 } = ∑ 𝛹𝑖𝑙 𝛹𝑗𝑚 𝜎𝑙𝑚
𝑣=0 𝑣=0
[10.A.7]
Donde 𝜎𝑙𝑚 representa la covarianza entre 𝜀𝑙.𝑡 y 𝜀𝑚.𝑡 viene dada por la fila 𝑙, columna 𝑚 elemento
de 𝛺.
El elemento de la fila 𝑖, columna 𝑗 de 𝛤, da el valor de

(𝑠)
𝛾𝑛 = 𝐸(𝑦𝑛 − 𝜇𝑖 )(𝑦𝑙.𝑡−𝑠 − 𝜇𝑗 )
Usando [10.A.5] y [10.A.7]. Esto puede expresarse como

𝑛 𝑛
𝐸(𝑦𝑛 − 𝜇𝑡 )(𝑦𝑙.𝑡−𝑣 − 𝜇𝑡 ) = 𝐸 {[∑ 𝑧𝑡 (𝑖, 𝑙)] [ ∑ 𝑧𝑡−𝑣 (𝑗, 𝑚)]}

𝑙=1 𝑚=1
𝑛 𝑛
= ∑ ∑ 𝐸{𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑣 (𝑗, 𝑚)}

𝑙=1 𝑚=1
[10.A.8]
𝑛 𝑛 ∞
(𝑠+𝑣) (𝑣)
= ∑ ∑ ∑ 𝛹𝑖𝑙 𝛹𝑗𝑚 𝜎𝑙𝑚
𝑙=1 𝑚=1 𝑣=0
∞ 𝑛 𝑛
(𝑠+𝑣) (𝑣)
= ∑ ∑ ∑ 𝛹𝑖𝑙 𝛹𝑗𝑚 𝜎𝑙𝑚
𝑣=0 𝑙=1 𝑚=1
(𝑠+𝑣) (𝑣)
Pero ∑𝑛𝑙=1 ∑𝑛𝑚=1 𝛹𝑖𝑙 𝛹𝑗𝑚 𝜎𝑙𝑚 es la fila 𝑖, columna 𝑗 elemento de 𝛹𝑣+𝑠 𝛺𝛹𝑣´ . Así indica [10.A.8]
que la fila 𝑖, columna 𝑗 elemento de 𝛤, está dada por la fila 𝑖, columna 𝑗 elemento de
∑𝑛𝑣=0 𝛹𝑣+𝑠 𝛺𝛹𝑣´ , como se afirma en la parte (a).
La prueba de (b). Define ℎ𝑠 (∙) Como el momento en [10.A.7]

∞
(𝑠+𝑣) (𝑣)
ℎ𝑠 (𝑖, 𝑗, 𝑙, 𝑚) ≡ 𝐸{𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚)} = ∑ 𝛹𝑖𝑙 𝛹𝑗𝑚 𝜎𝑙𝑚
𝑣=0

Y observe que la secuencia {ℎ𝑠 (∙)}∞
𝑣=0 es absolutamente sumatoria:
𝑣 ∞ ∞
(𝑠+𝑣) (𝑣)
∑|ℎ𝑣 (𝑖, 𝑗, 𝑙, 𝑚)| ≤ ∑ ∑ |𝛹𝑖𝑙 | ∙ |𝛹𝑗𝑚 | ∙ |𝜎𝑙𝑚 |
𝑣=0 𝑠=0 𝑣=0
∞ ∞
= |𝜎𝑙𝑚 | ∑ |𝛹𝑗𝑚 | ∑ |𝛹𝑖𝑙(𝑠+𝑣) |

(𝑣)
𝑣=0 𝑠=0
∞ ∞
(𝑣) (𝑠+𝑣)
≤ |𝜎𝑙𝑚 | ∑ |𝛹𝑗𝑚 | ∑ |𝛹𝑖𝑙 |
𝑣=0 𝑠=0
[10.A.9]
<∞
Además, el elemento de la fila 𝑖, columna 𝑗 de 𝛤, se veía en [10.A.8] dado por

𝑛 𝑛
(𝑠)
𝛾𝑖𝑗 = ∑ ∑ ℎ𝑠 (𝑖, 𝑗, 𝑙, 𝑚)
𝑙=1 𝑚=1
Por lo tanto.
𝑣 ∞ 𝑛 𝑛 𝑛 𝑛 ∞
(𝑠)
∑ |𝛾𝑖𝑗 | ≤ ∑ ∑ ∑ |ℎ𝑠 (𝑖, 𝑗, 𝑙, 𝑚)| = ∑ ∑ ∑|ℎ𝑠 (𝑖, 𝑗, 𝑙, 𝑚)|
𝑣=0 𝑠=0 𝑙=1 𝑚=1 𝑙=1 𝑚=1 𝑠=0
[10.A.10]
De [10.A.9], existe un 𝑀 < ∞ tal que

∞
∑|ℎ𝑠 (𝑖, 𝑗, 𝑙, 𝑚)| < 𝑀

𝑠=0
Para cualquier valor de 𝑖, 𝑗, 𝑙 o 𝑚. Por lo tanto, implica

∞ 𝑛 𝑛
(𝑠)
∑ |𝛾𝑖𝑗 | < ∑ ∑ 𝑀 = 𝑛2 𝑀 < ∞
𝑠=0 𝑙=1 𝑚=1
Confirmando que el elemento de la fila 𝑖, columna 𝑗 de {𝛤𝑠 }∞

𝑠=0 es absolutamente sumable, como se
reivindica en la parte (b).
Prueba de (c). Esencialmente el álgebra idéntica como en la prueba de la proposición 7.10

establece que
𝐸|𝑧𝑡1 (𝑖1 , 𝑙1 ) ∙ 𝑧𝑡2 (𝑖2 , 𝑙2 ) ∙ 𝑧𝑡3 (𝑖3 , 𝑙3 ) ∙ 𝑧𝑡4 (𝑖4 , 𝑙4 )|

∞ ∞ ∞
(𝑣 ) (𝑣 ) (𝑣 )
= 𝐸 |{ ∑ 𝛹𝑖1 𝑙11 𝜀𝑙1 .𝑡1 −𝑣1 } ∙ {∑ 𝛹𝑖2 𝑙22 𝜀𝑙2 .𝑡2 −𝑣2 } ∙ { ∑ 𝛹𝑖3 𝑙33 𝜀𝑙3 .𝑡3 −𝑣3 }
𝑣1 =0 𝑣2 =0 𝑣3 =0
∞
(𝑣 )
∙ { ∑ 𝛹𝑖4 𝑙44 𝜀𝑙4 .𝑡4 −𝑣4 }|
𝑣4 =0
[10.A.11]
∞ ∞ ∞ ∞
(𝑣 ) (𝑣 ) (𝑣 ) (𝑣 )
≤ ∑ ∑ ∑ ∑ |𝛹𝑖1 𝑙11 𝛹𝑖2 𝑙22 𝛹𝑖3 𝑙33 𝛹𝑖4 𝑙44 | ×𝐸 |𝜀𝑙1 .𝑡1 −𝑣1 𝜀𝑙2 .𝑡2 −𝑣2 𝜀𝑙3 .𝑡3 −𝑣3 𝜀𝑙4.𝑡4−𝑣4 |
𝑣1 =0 𝑣2 =0 𝑣3 =0 𝑣4 =0
<∞
Ahora
𝐸|𝑦𝑖1 .𝑡1 𝑦𝑖2 .𝑡2 𝑦𝑖3 .𝑡3 𝑦𝑖4 .𝑡4 |

𝑛 𝑛 𝑛 𝑛
= 𝐸 |𝜇𝑖1 + ∑ 𝑧𝑡1 (𝑖1 , 𝑙1 )| ∙ |𝜇𝑖2 + ∑ 𝑧𝑡2 (𝑖2 , 𝑙2 )| ∙ |𝜇𝑖3 + ∑ 𝑧𝑡3 (𝑖3 , 𝑙3 )| ∙ |𝜇𝑖4 + ∑ 𝑧𝑡4 (𝑖4 , 𝑙4 )|
𝑙1 =1 𝑙2 =1 𝑙3 =1 𝑙4 =1
𝑛 𝑛 𝑛
≤ 𝐸 {|𝜇𝑖1 | + ∑ 𝑧𝑡1 (𝑖1 , 𝑙1 )} ∙ {|𝜇𝑖2 | + ∑ 𝑧𝑡2 (𝑖2 , 𝑙2 )} ∙ {|𝜇𝑖3 | + ∑ 𝑧𝑡3 (𝑖3 , 𝑙3 )}

𝑙1 =1 𝑙2 =1 𝑙3 =1
𝑛
∙ {|𝜇𝑖4 | + ∑ 𝑧𝑡4 (𝑖4 , 𝑙4 )}

𝑙4 =1
Pero esta es una suma finita que implica términos de la forma de [10.A.11] que se consideraron
finitos con términos que implican firmes a través de los terceros momentos de 𝑧 que también
deben ser finitos.
Prueba de (d). Darse cuenta de

∞ ∞
(𝑟) (𝑣)
𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚) = ∑ ∑ 𝛹𝑖𝑙 𝛹𝑗𝑚 𝜀𝑙.𝑡−𝑟 𝜀𝑚.𝑡−𝑠−𝑣
𝑟=0 𝑣=0
El mismo argumento que conduce a [7.2.14] puede utilizarse para establecer que
𝑇
𝑝
(1⁄𝑇) ∑ 𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚) → 𝐸{𝑧𝑡 (𝑖, 𝑙) ∙ 𝑧𝑡−𝑠 (𝑗, 𝑚)}
𝑡=1
[10.A.12]
Para ver que [10.A.12] implica ergodicidad para los segundos momentos de y, nota de 10.A.5] que
𝑇 𝑇 𝑛 𝑛
(1⁄𝑇) ∑ 𝑦𝑢 𝑦𝑡 𝑡−𝑠 = (1⁄𝑇) ∑ [𝜇𝑡 + ∑ 𝑧𝑙 (𝑖, 𝑙)] [𝜇𝑙 + ∑ 𝑧𝑡−𝑠 (𝑗, 𝑚)]
𝑡=1 𝑡=1 𝑙=1 𝑚=1

= 𝜇𝑖 𝜇𝑙
𝑛 𝑇
+ 𝜇𝑖 ∑ [(1⁄𝑇) ∑ 𝑧𝑡−𝑠 (𝑗, 𝑚)]

𝑚=1 𝑡=1
𝑛 𝑇
+ 𝜇𝑙 ∑ [(1⁄𝑇 ∑ 𝑧𝑡 (𝑖, 𝑙))]

𝑙=1 𝑡=1
𝑛 𝑛 𝑇
+ ∑ ∑ [(1⁄𝑇) ∑ 𝑧𝑡 (𝑖, 𝑙)𝑧𝑡−𝑠 (𝑗, 𝑚)]

𝑙=1 𝑚=1 𝑡=1
𝑛 𝑛 𝑛 𝑛
𝑝
→ 𝜇𝑖 𝜇𝑗 + 𝜇𝑡 ∑ 𝐸[𝑧𝑡−𝑠 (𝑗, 𝑚)] + 𝜇𝑗 ∑ 𝐸[𝑧𝑡 (𝑖, 𝑙)] + ∑ ∑ 𝐸[𝑧𝑡 (𝑖, 𝑙)𝑧𝑡−𝑠 (𝑗, 𝑚)]
𝑚=1 𝑙=1 𝑙=1 𝑚=1
𝑛 𝑛
= 𝐸 {[𝜇𝑡 + ∑ 𝑧𝑙 (𝑖, 𝑙)] [𝜇𝑙 + ∑ 𝑧𝑡−𝑠 (𝑗, 𝑚)]}

𝑙=1 𝑚=1
= 𝐸[𝑦𝑖𝑡 𝑦𝑖.𝑡−𝑠 ]
Como se afirma.
▪ Prueba de proposición 10.3. Escribiendo [10.2.11] explícitamente

𝐻(𝐿)𝜓(𝐿) = (⋯ + 𝐻1 𝐿1 + 𝐻0 𝐿0 + 𝐻1 𝐿1 + ⋯ )×(𝜓0 𝐿0 + 𝜓1 𝐿1 + 𝜓2 𝐿2 + ⋯ )
Del cual el coeficiente de 𝐿𝜆 es
𝐵𝜆 = 𝐻𝜆 𝜓0 + 𝐻𝜆1 𝜓1 + 𝐻𝜆2 𝜓2 + ⋯ [10.A.13]

(𝜆) (𝜆)
𝑏𝑞 indican la fila 𝑖, columna 𝑗 elemento de 𝐵𝜆 , y ℎ𝑞 y 𝜓𝜆 denotan la fila 𝑖, columna 𝑗 elementos
de 𝐻𝜆 y 𝜓𝜆 , respectivamente. Entonces el elemento la fila 𝑖, columna 𝑗 de la ecuación matricial
[10.A.13] indica que
𝑛 𝑛 𝑛 𝑛
(𝜆) (𝜆) (0) (𝜆−1) (1) (𝜆−2) (2) (𝜆−𝑣) (𝑣)
𝑏𝑞 = ∑ ℎ𝑖𝑚 𝛹𝑚𝑡 +∑ ℎ𝑖𝑚 𝛹𝑚𝑡 + ∑ ℎ𝑖𝑚 𝛹𝑚𝑡 + ⋯ = ∑ ∑ ℎ𝑖𝑚 𝛹𝑚𝑡
𝑚=1 𝑚=1 𝑚−1
Pero dado que () y () son absolutamente sumatorias
Así, () se convierte
Prueba de proposición 10.4. Que A sea (𝑚×𝑛), B sea (𝑛×𝑟), y C sea (𝑟×𝑞). (𝑛×1). Deje que el
vector 𝑏𝑖 y denote el i-ésimo columna de B, y denote 𝑐𝑖𝑗 la fila 𝑖, columna 𝑗 elemento de C.
entonces
c𝟏𝟏 ⋯ 𝒄𝟏𝒒
𝐀𝐁𝐂 = 𝐀[𝒃𝟏 𝒃𝟐 ⋯ 𝒃𝒓 ] [ ⋮ ⋱ ⋮ ]
𝒄𝒓𝟏 ⋯ 𝒄𝒓𝒒
= [{𝑨𝒃𝟏 𝑐11 + 𝑨𝒃𝟐 𝑐21 + ⋯ + 𝑨𝒃𝒓 𝑐𝑟1 }{𝑨𝒃𝟏 𝑐12 + 𝑨𝒃𝟐 𝑐22 + ⋯ + 𝑨𝒃𝒓 𝑐𝑟2 } ⋯ {𝑨𝒃𝟏 𝑐1𝑞
+ 𝑨𝒃𝟐 𝑐2𝑞 + ⋯ + 𝑨𝒃𝒓 𝑐𝑟𝑞 }]
= [{𝑐𝟏𝟏 𝑨𝒃𝟏 + 𝑐𝟐𝟏 𝑨𝒃𝟐 + ⋯ 𝑐𝒓𝟏 𝑨𝒃𝒓 }{𝑐𝟏𝟐 𝑨𝒃𝟏 + 𝑐𝟐𝟐 𝑨𝒃𝟐 + ⋯ 𝑐𝒓𝟐 𝑨𝒃𝒓 } ⋯ {𝑐𝟏𝒒 𝑨𝒃𝟏 + 𝑐𝟐𝒒 𝑨𝒃𝟐
+ ⋯ 𝑐𝒓𝒒 𝑨𝒃𝒒 }]
Aplicando el operador vec da

𝑐𝟏𝟏 𝑨𝒃𝟏 + 𝑐𝟐𝟏 𝑨𝒃𝟐 + ⋯ 𝑐𝒓𝟏 𝑨𝒃𝒓
𝑣𝑒𝑐(𝑨𝑩𝑪) = [𝑐𝟏𝟐 𝑨𝒃𝟏 + 𝑐𝟐𝟐 𝑨𝒃𝟐 + ⋯ 𝑐𝒓𝟐 𝑨𝒃𝒓 ]
⋮
= (𝐶 ′ ⊗ 𝐴) ∙ vec(𝐁)
10.1. Considere un proceso escalar AR (𝑝) (𝑛 = 1). Deducir de la ecuación [10.2.19] que el vector
(𝑝×1) que consiste en la varianza y las primeras (𝑝 − 1) autocovariancias
𝛾0
𝛾1
𝛾2
⋮
[𝛾𝑝−1 ]
Puede calcularse a partir de los primeros elementos p en la primera columna de la matriz(𝑝2 ×𝑝2 )
para 𝐹 la matriz 𝜎 2 [𝐼𝑝2 − (𝐹#𝐹)] definida en la ecuación [1.2.3] en el capítulo 1.10.2 sea dada por
𝑦𝑡 = (𝑋𝑡 𝑌𝑡) ´
𝑋𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1
𝑌𝑡 = ℎ1 𝑋𝑡−1 + 𝑢𝑡
Donde (𝜀𝑡 , 𝑢𝑡 )´ es el ruido del vector thite con la matriz de varianza-covarianza contemporánea
dada por
𝐸(𝜀𝑡2 ) 𝐸(𝜀𝑡 𝑢𝑡) 𝜎𝑢2 0

[ ] = [ ]
𝐸(𝑢𝑡 𝜀𝑡 ) 𝐸(𝑢𝑡2 0 𝜎𝑢2
(a) calcule las matrices de autocovarianza {𝛤𝑘 }∞ 𝑘=−∞ para este proceso
(b) utilice la ecuación [10.4.3] para calcular el espectro de población. Encontrar el cospectrum
entre 𝑋 e 𝑌 y el espectro en cuadratura de 𝑋 a 𝑌
(c) verificar que su respuesta a la parte (b) podría ser calculada equivalentemente a partir de la
expresión [10.4.45]
(d) verificar integrando su respuesta a la parte (b) que [10.4.49] contiene; Eso es demostrar que
𝜋
𝑆𝑌𝑋 (𝜔) 𝑖𝜔𝑡 ℎ 𝑝𝑎𝑟𝑎 𝑘 = 1
(2𝜋) ∫ 𝑒 𝑑𝜔 = { 1
−𝜋 𝑆𝑋𝑋 (𝜔)
0 𝑝𝑎𝑟𝑎 𝑜𝑡𝑟𝑜 𝑒𝑛𝑡𝑒𝑟𝑜 𝑘
Andrews. Donald W. K . 1991. "I-leteroskedasticity and Autocorrelation Consisten! C0- variance
Matrix Estim::nion.·· Econometrica 59:817-58.
--- and J. Christopher Monahan. 1992. "An Improved Heteroskedasticity and Auto- correlation
Consiste!lt Covariance Matrix Estimator." Econometrica 60:953-116.
Fuller. Wayne A. i976 . Jntroduction 10 Srarisrica! Time Series . New York: Wiley .

Gallant. A . Ronald . 1987 . Nor.linear Statisrical Models. New York: Wiley.
Hansen. Lars P. 1982. "Large Sample Properties of Generalized Method of Moments Es-
timators. ·· Economerrica 50: 1029-54.
Newey. Whitney K .. and Kenneth D. West. 1987. "A Simple Positive Semi-Definite. 1-let-
eroskedasticity and Autocorrelation Consisten! Covariance Matrix ... Economerrica 55: 703-8.
--- and ---. 1992. "Automatic Lag Selection in Covariance Matrix Estimation ... University of
Wisconsin. Madison, Mimeo.
Sims. Christopher A. 1980. "Macroeconomics and Reality." Econome1rica 48:1-48 .
White. Halbert. 1984 . Asymptotic Theory for Econometricians. Orlando, Fla. : Academic
Press

11
Autoregresiones Vectoriales
El capítulo anterior introdujo algunas herramientas básicas para describir procesos de series
temporales vectoriales. Este capítulo examina más a fondo las autorregresiones vectoriales, que son
particularmente convenientes para la estimación y la predicción. Su popularidad para analizar la
dinámica de los sistemas económicos se debe al trabajo influyente de Sims (1980). El capítulo
comienza con una discusión de estimación de máxima verosimilitud y pruebas de hipótesis. La
sección 11.2 examina un concepto de causalidad en sistemas bivariados propuesto por Granger
(1969). La sección 11.3 generaliza la discusión de la causalidad de Granger a sistemas multivariantes
y examina la estimación de autoregresiones vectoriales restringidas. Las secciones 11.4 y 11.5
introducen funciones de impulso-respuesta y descomposiciones de varianza, que se utilizan para
resumir las relaciones dinámicas entre las variables en una autorregresión vectorial. Sección 11.6
revisa cómo estos resúmenes pueden ser utilizados para evaluar hipótesis estructurales. La Sección
11.7 desarrolla fórmulas necesarias para calcular errores estándar para las funciones de respuesta al
impulso.
11.1. Estimación de la máxima verosimilitud y prueba de

hipótesis para un autorreversión vectorial sin restricciones
La función de verosimilitud condicional para un autorreversión vectorial

Sea 𝑦, denote un vector (𝑛 𝑥 1) que contiene los valores que n variables suponen en la
fecha 𝑡. Se presume que la dinámica de 𝑦 está gobernada por una autorregresión vectorial
Gaussiana de orden 𝑃,
𝑦𝑡 = 𝑐 + Φ1 𝑦𝑡−1 + Φ2 𝑦𝑡−2 +. . . +Φ𝜌 𝑦𝑡−𝜌 + 𝜀𝑙 [11.1.1]
Con: 𝜀𝑙 ~𝑖. 𝑖. 𝑑. 𝑁(0, Ω)
Supongamos que hemos observado cada una de estas 𝑛 variables para (𝑇 + 𝑝). Como en la
autorregresión escalar, el enfoque más sencillo es condicionar las primeras observaciones
(denotadas 𝑦(− 𝜌 + 1,) , 𝑦(− 𝜌 + 2,) ,…,𝑦0 .) ya la estimación de base en la última 𝑇 observaciones
(denotadas 𝑦1 , 𝑦2 ,…, 𝑦𝑇 ). El objetivo entonces es formar la posibilidad de probabilidad
𝑓𝑌𝑇, 𝑌𝑇−1 ,…𝑌−𝜌+1 (𝑦𝑇, 𝑦𝑇−1 ,. . . , 𝑦1 |𝑦0 , 𝑦−1 ,. . . , 𝑦−𝜌+1 , 𝜃) [11.1.2]
Y maximizar con respecto a 6, donde 0 es un vector que contiene los elementos de

𝑐, Φ1 , Φ2 , … , Φ𝜌 𝑦 Ω . Las autorregresiones vectoriales se invariablemente se estiman sobre la
base de la función de verosimilitud condicional [11.1.2] en lugar de la veracidad incondicional de
toda la muestra. Por brevedad, en lo sucesivo nos referiremos a [13.1.2] simplemente como la
"función de verosimilitud" y el valor de θ que maximiza [11.1.2] como la "estimación de la máxima
probabilidad".
11.1 Estimación de la máxima verosimilitud y prueba de hipótesis 303

La función de verosimilitud se calcula del mismo modo que para una auto -regresión escalar.
Condicionada a los valores de y observados a través de la fecha 𝑡−1 , el valor de 𝑦 para la fecha 𝑡 es
igual a una constante,
𝑐 + Ф1 𝑌𝑡−1 + Ф2 𝑌𝑡−2 + ⋯ + Ф𝑝 𝑌𝑡−𝑝 . [11.1.3]
Más una variable 𝑁 (0, 𝛺). Así, 𝑦𝑡 │𝑦𝑡−1, 𝑦𝑡−2,. . ., 𝑦−𝜌+1
~𝑁 ((𝑐 + Φ1 𝑦𝑡−1 + Φ2 𝑦𝑡−2 +. . . +Φ𝜌 𝑦𝑡−𝜌 ), Ω) [11.1.4]
Será conveniente utilizar una expresión más compacta para la media condicional [11.1.3]. Sea 𝑥,
denote un vector que contiene un término constante y 𝑝 regresiones de cada uno de los elementos
de 𝑦:
1
𝑦𝑡−1
𝑥𝑙 ≡ 𝑦 𝑡−2 [11.1.5]
. ..
[ 𝑦𝑡−𝜌 ]
Así, 𝑥, es un vector [(𝑛𝑝 + 1) 𝑥 1]. Sea 𝜋′ la siguiente matriz [𝑛𝑥 (𝑛𝑝 + 1)]:
Π ′ ≡ [𝑐 Φ1 Φ2 . . . Φ𝜌 ] [11.1.6]
Entonces la media condicional [11.1.3] es igual a 𝜋′𝑥. La j-ésima fila de 𝜋′ contiene los parámetros
de la j-ésima ecuación en el VAR. Usando esta notación, [11.1.4] se puede escribir de forma más
compacta como
′
𝑦𝑡 │𝑦𝑡−1, 𝑦𝑡−2,. . ., 𝑦−𝜌+1 ~𝑁(Π 𝑥𝑙 , Ω) [11.1.7]
Así, la densidad condicional de la observación t es

1
𝑓𝑦 │𝑦 (𝑦𝑡 |𝑦𝑡−1, 𝑦𝑡−2,. . ., 𝑦−𝜌+1 ; 𝜃) = (2𝜋)−𝑛⁄2 │ Ω−1 │1⁄2 𝑒𝑥𝑝 [(− 2) (𝑦𝑡 −
𝑡 𝑡−1, 𝑦𝑡−2,. . ., 𝑦−𝜌+1
Π ′ 𝑥𝑙 )]
[11.1.8]
La densidad conjunta de las observaciones 1 condicionadas a 𝑡 en 𝑦0 , 𝑦−1 , … 𝑦−𝑝+1 satisface

𝑓𝑦 ,𝑦 ,..,𝑦 │𝑦 ,𝑦 ,…,𝑦 (𝑦𝑡 , 𝑦𝑡−1, … , 𝑦1 |𝑦0 , 𝑦−1 , … , 𝑦−𝜌+1 ; 𝜃)
𝑡 𝑡−1 𝑡 0 −1 −𝜌+1
= 𝑓𝑦 (𝑦𝑡−1, … , 𝑦1 |𝑦0 , 𝑦−1 , … , 𝑦−𝜌+1 ; 𝜃)

𝑡−1 ,..,𝑦𝑡 │𝑦0 ,𝑦−1 ,…,𝑦−𝜌+1
𝑥𝑓𝑦 │𝑦 (𝑦𝑡 |𝑦𝑡−1 , … , 𝑦−𝜌+1 ; 𝜃)

𝑡 𝑡−1 ,…,𝑦−𝜌+1
Aplicando esta fórmula recursivamente, la probabilidad para la muestra completa 𝑦𝑇 , 𝑦𝑇−1….. Y,

condicionada a 𝑦0 , 𝑦−1 , … , 𝑦−𝜌+1 es el producto de las densidades condicionales individuales:
𝑓𝑌 (𝑦𝑇 , 𝑦𝑇−1, … , 𝑦1 |𝑦0 , 𝑦−1 , … , 𝑦−𝜌+1 ; 𝜃)

𝑇, 𝑌𝑇−1 ,…𝑌1 │𝑦0 ,𝑦−1 ,…,𝑦−𝜌+1
= ∏𝑇𝑡=1 𝑓𝑦 │𝑦 (𝑦𝑡 |𝑦𝑡−1 , … , 𝑦−𝜌+1 ; 𝜃) [11.1.9]

𝑡 𝑡−1 ,…,𝑦−𝜌+1
304 Capítulo 11 | Autorregresiones Vectoriales

La probabilidad del logaritmo de muestra se obtiene al sustituir [11.1.8] por [11.1.9] y tomar
logaritmos:
ℒ(𝜃) = ∑ log 𝑓𝑦 │𝑦 (𝑦𝑡 |𝑦𝑡−1 , … , 𝑦−𝜌+1 ; 𝜃)

𝑡 𝑡−1 ,…,𝑦−𝜌+1
𝑡=1
= −(𝑇 𝑛⁄2) log(2𝜋) + (𝑇⁄2)log│Ω−1 │
−(1⁄2) ∑𝑇𝑡=1[(𝑦𝑡 − Π ′ 𝑥𝑙 )′Ω−1 (𝑦𝑡 − Π ′ 𝑥𝑙 )] [11.1.10]
Estimación de máxima verosimilitud de H

Consideremos primero el MLE de 11, que contiene el término constante 𝑐 y los coeficientes auto-
regresivos Φ𝑗 . Esto resulta ser dado por:
∧ 𝑇 𝑇 −1
∏ ′ = [∑ 𝑦𝑡 𝑥𝑡 ′] [∑ 𝑥𝑡 𝑥𝑡 ′]
𝑛𝑥(𝑛𝑝+1) 𝑡=1 𝑡=1
[11.1.11]
Que puede ser visto como el análogo muestral de la proyección lineal de población de 𝑦, sobre una
constante y 𝑥, (ecuación [4.1.23]). La j-ésima fila de Π ′ es
∧ 𝑇 𝑇 −1
∏ ′ = [∑ 𝑦𝑗𝑡 𝑥𝑡 ′] [∑ 𝑥𝑡 𝑥𝑡 ′]
[1𝑥(𝑛𝑝+1)] 𝑗 𝑡=1 𝑡=1
[11.1.12]
Que es sólo el coeficiente estimado vector de una regresión OLS de 𝑦𝑗 en 𝑥 ,. Por lo tanto, las
estimaciones de máxima verosimilitud de los coeficientes de la ecuación de un VAR se encuentran
por una regresión OLS de 𝑦𝑗 , en un término constante y 𝑝 regresiones de todas las variables en el
sistema.
Para verificar [11.1.11], escriba la suma que aparece en el último término en [11.1.10] como
𝑇
∑[(𝑦𝑡 − Π ′ 𝑥𝑙 )′Ω−1 (𝑦𝑡 − Π ′ 𝑥𝑙 )]

𝑡=1
𝑇
̂′ 𝑥𝑙 + Π
= ∑[(𝑦𝑡 − Π ̂ ′ 𝑥𝑙 − Π ′ 𝑥𝑙 )′Ω−1 (𝑦𝑡 − Π
̂ ′ 𝑥𝑙 +Π
̂ ′ 𝑥𝑙 Π′ 𝑥𝑙 )]
𝑡=1
̂ − Π)′𝑥𝑙 Ω−1 [(𝜀̂𝑡 + (Π

= ∑𝑇𝑡=1 [(𝜀̂𝑡 + (Π ̂ − Π)′𝑥𝑙 )]]
[11.1.10]
Donde el j-ésimo elemento del vector (𝑛 𝑥 1)𝜀̂ , es la muestra residual para la observación 𝑡de una
regresión OLS de 𝑦𝑗𝑡 , en 𝑥:
̂ ′ 𝑥𝑙
𝜀̂𝑡 ≡ 𝑦𝑡 − Π [11.1.14]

Expresión [11.1.13] puede ser expandida como:
𝑇
∑[(𝑦𝑡 − Π ′ 𝑥𝑙 )′Ω−1 (𝑦𝑡 − Π ′ 𝑥𝑙 )]

𝑡=1
𝑇 𝑇
′
= ∑ 𝜀̂𝑡 Ω 𝜀̂𝑡 + 2 ∑ 𝜀̂𝑡 ′ Ω−1 (Π
′ −1 ̂ − Π) 𝑥𝑙
𝑡=1 𝑡=1
𝑇
′
̂ − Π)Ω−1 (Π
+ ∑ 𝑥𝑙′ (Π ̂ − Π) 𝑥𝑙
𝑡=1
[11.1.15]
Considere el término medio en [11.1.15]. Dado que se trata de un escalar, no se modifica la

estimación mediante la aplicación del operador "traza"
𝑇 𝑇
′
′ −1 ̂ − Π)′ 𝑥𝑙 ]
̂ − Π) 𝑥𝑙 = 𝑡𝑟𝑎𝑧𝑎 [∑ 𝜀̂𝑡 ′ Ω−1 (Π
∑ 𝜀̂𝑡 Ω (Π
𝑡=1 𝑡=1
𝑇
̂ − Π)′ 𝑥𝑙 𝜀̂𝑡 ′ ]
= 𝑡𝑟𝑎𝑧𝑎 [∑ Ω−1 (Π
𝑡=1
𝑇
̂ − Π)′ ∑ 𝑥𝑙 𝜀̂𝑡 ′ ]
= 𝑡𝑟𝑎𝑧𝑎 [Ω (Π −1
𝑡=1
[11.1.16]
Pero los residuos de la muestra de una regresión OLS son por construcción ortogénica a las
variables explicativas, lo que significa que ∑𝑇𝑡=1 𝑥𝑙 𝜀̂𝑡 = 0 para todo j y así ∑𝑇𝑡=1 𝑥𝑙 𝜀̂𝑡 ′ = 0. Por lo
tanto, [11.1 . 16] es idénticamente cero, y [11.1.15] se simplifica a
∑[(𝑦𝑡 − Π ′ 𝑥𝑙 )′Ω−1 (𝑦𝑡 − Π ′ 𝑥𝑙 )]

𝑡=1
𝑇 𝑇
′ −1 ̂ − Π)′ 𝑥𝑙
̂ − Π)Ω−1 (Π
= ∑ 𝜀̂𝑡 Ω 𝜀̂𝑡 + ∑ 𝑥𝑙′ (Π
𝑡=1 𝑡=1
[11.1.17]
Puesto que Ω es una matriz definida positiva. Ω−1 es también. Por tanto, definiendo el vector
(𝑛 ∗ 1) vector 𝑥 ∗ es
̂ − Π)′ 𝑥𝑙
𝑥𝑙 ∗ ≡ (Π
El último término en [11.1.17] toma la forma

𝑇 𝑇
̂
∑ 𝑥𝑙′ (Π − Π)Ω −1 ̂ − Π)′ 𝑥𝑙 = ∑[𝑥𝑙 ∗ ] ′Ω−1 𝑥𝑙 ∗
(Π
𝑡=1 𝑡=1

Esto es positivo para cualquier secuencia {𝑋𝑡∗ }𝑇𝑡=1 otro que 𝑥𝑡∗ = 0 para todo t. Así, el valor más
bajo que [11.1.17] puede asumir se alcanza cuando𝑥𝑡∗ = 0 o cuando Π = Π ̂ . Dado que [11.1.17] se
̂
minimiza estableciendo Π = Π. Se deduce que [11.1.10] se maximiza estableciendo Π = Π ̂.
Estableciendo la afirmación de que las regresiones de MCO proporcionan las estimaciones de
máxima verosimilitud de los coeficientes de una autorregresión vectorial.
Algunos resultados útiles sobre derivados de matriz

La siguiente tarea es calcular la estimación de máxima verosimilitud de fl. Aquí dos resultados del
cálculo de la matriz resultarán útiles. El primer resultado se refiere a la derivada de una forma
cuadrática en una matriz.Que 𝑎𝑖𝑗 Denote la fila i. Columna j elemento de una (n x n) matriz A.
Supongamos que la matriz A es no simétrica y sin restricciones (es decir, el valor de a¡¡ no está
relacionado con el valor de akl cuando i é k o / /). Consideremos una forma cuadrática x'Ax para x
un vector (n x 1). La forma cuadrática se puede escribir explícitamente como
𝑛 𝑛
′
𝑥 𝐴𝑥 = ∑ ∑ 𝑥𝑙 𝑎𝑖𝑗 𝑥𝑗
𝑖=1 𝑗=1
[11.1.18]
a partir del cual
𝜕𝑥 ′ 𝐴𝑥
𝜕𝑎𝑖𝑗
= 𝑥𝑙 𝑥𝑗 [11.1.19]
Recogiendo estos 𝑛2 derivados diferentes en una matriz (n x n), la ecuación [11.1.19] se puede
expresar convenientemente en forma de matriz como
𝜕𝑥′𝐴𝑥
= 𝑥𝑥 ′ [11.1.20]
𝜕𝐴
El segundo resultado se refiere a la derivada del determinante de una matriz. Sea A una matriz
asimétrica no restringida (n x n) con determinante positivo. Entonces
𝜕 log │𝐴│
𝜕𝐴
= 𝑎𝑖𝑗 [11.1.21]
Donde 𝑎𝑖𝑗 Denota el elemento fila j columna i de 𝐴−1 . En forma de matriz,
𝜕 log │𝐴│
𝜕𝐴
= (𝐴′ )−1 [11.1.22]
Para derivar [11.1.22], recuerde la fórmula para el determinante de A (ecuación [A.4.10] en la

Revisión Matemática, Apéndice A. al final del libro):
│𝐴│ = ∑𝑛𝑗=1(−1)𝑖+𝑗 𝑎𝑖𝑗 │𝐴𝑖𝑗
[11.1.23]
Donde A, 7 denota la matriz (n - 1) x (n - 1) formada por supresión de la fila I y la columna j de A.

La derivada de [11.1.23] con respecto 𝑎𝑖𝑗 es

𝜕│𝐴│
= (−1)𝑖+𝑗 │𝐴𝑖𝑗 │
𝜕𝑎𝑖𝑗
[11.1.24]
Ya que el parámetro 𝑎𝑖𝑗 no aparece en la matriz 𝐴−1 Resulta que
𝜕 log │𝐴│
= (1⁄│𝐴│). (−1)𝑖+𝑗 │𝐴𝑖𝑗 │
𝜕𝑎𝑖𝑗
Que se reconocerá de la ecuación [A.4.12] como la fila j columna i element de 𝐴−1 tal como se
reivindica en la ecuación [11.1.22].
La estimación de máxima verosimilitud de 𝜴

Ahora aplicamos estos resultados para encontrar el MLE de ft. Cuando se evalúa en el EL MLE, la
probabilidad de log [11.1.10] es
̂ ) = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω−1 │

ℒ(Ω, Π
−(1⁄2) ∑𝑇𝑡=1 𝜀̂𝑡 ′ Ω−1 𝜀̂𝑡 [11.1.25]
Nuestro objetivo es encontrar una matriz positiva definida simétrica 𝛀 para la cual sea lo más
grande posible. Es instructivo considerar primero la maximización [11.1.25] eligiendo 𝛀 como
cualquier matriz sin restricciones (n x n). Para este propósito, podemos diferenciar [11.1.25] con
respecto a los elementos de 𝜴−𝟏 usando las fórmulas [11.1.20] y [11.1.22]:
𝑇
̂)
𝜕ℒ(Ω, Π 𝜕 log │Ω−1 │ 𝜕 𝜀̂𝑡 ′ Ω−1 𝜀̂𝑡
= (𝑇⁄2) ⁄
− (1 2) ∑
𝜕Ω−1 𝜕Ω−1 𝜕Ω−1
𝑡=1
= (𝑇⁄2)Ω′ − (1⁄2) ∑𝑇𝑡=1 𝜀̂𝑡 𝜀̂𝑡 ′

[11.1.26]
La probabilidad se maximiza cuando esta derivada se establece en cero, o cuando

𝑇
′
Ω = (1⁄𝑇) ∑ 𝜀̂𝑡 𝜀̂𝑡 ′
𝑡=1
[11.1.27]
La matriz Ω que satisface [11.1.27] maximiza la probabilidad entre la clase de todas las matrices
no restringidas (n x n). Tenga en cuenta, sin embargo, que el valor óptimo no restringido para Ω
especificado por [11.1.27] resulta ser simétrico y positivo definido. El MLE., O el valor de Ω
Que maximiza la probabilidad entre la clase de Matrices definidas positivas simétricas, también es
dada por [13.1.27]:
𝑇
̂ = (1⁄𝑇) ∑ 𝜀̂𝑡 𝜀̂𝑡 ′
Ω
𝑡=1
[11.1.28]
̂ está dada por
La fila i, columna j elemento de 𝜴

𝑇
𝜎̂𝑖2 = (1⁄𝑇) ∑ 𝜀̂𝑖𝑗 2

𝑡=1
[11.1.29]
Que es sólo el promedio cuadrado residual de una regresión de la ith variable en el VAR en un
plazo constante y p lags de todas las variables. La fila I, columna j elemento de 𝛀 es
𝑇
𝜎̂𝑖𝑗 = (1⁄𝑇) ∑ 𝜀̂𝑖𝑗 𝜀̂𝑗𝑙

𝑡=1
[11.1.30]
Que es el producto medio del residuo MCO para la variable i y el residuo MCO para la variable j.
Pruebas de Razón de Verosimilitud

Para realizar una prueba de razón de verosimilitud, necesitamos calcular el valor máximo
obtenido para [11.1.25]. Por lo tanto, considere
̂, Π
ℒ(Ω ̂ ) = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω
̂ −1 │
[11.1.31]
𝑇
−(1⁄2) ∑ 𝜀̂𝑡 ′ Ω
̂ −1 𝜀̂𝑡
𝑡=1
̂ dado por [11.1.28]. El último término en [11.1.31] es

Para 𝛀
𝑇 𝑇
′ ̂ −1 ′ ̂ −1
(1⁄2) ∑ 𝜀̂𝑡 Ω 𝜀̂𝑡 = (1⁄2)𝑡𝑟𝑎𝑧𝑎 [∑ 𝜀̂𝑡 Ω 𝜀̂𝑡 ]
𝑡=1 𝑡=1
𝑇
̂ −1 𝜀̂𝑡 ′ 𝜀̂𝑡 ]
= (1⁄2)𝑡𝑟𝑎𝑧𝑎 [∑ Ω
𝑡=1
̂ −1 (𝑇Ω
= (1⁄2)𝑡𝑟𝑎𝑧𝑎 [Ω ̂ )]
= (1⁄2)𝑡𝑟𝑎𝑧𝑎 [𝑇. 𝐼𝑛 ]
= 𝑇 𝑛 ⁄2
Sustituir esto en [11.1.31] produce
̂, Π
ℒ(Ω ̂ ) = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω
̂ −1 │ − (𝑇 𝑛⁄2)
[11.1.32]
Esto hace que las pruebas de razón de verosimilitud sean particularmente sencillas de realizar.
Supongamos que queremos probar la hipótesis nula de que un conjunto de variables se generó a
partir de un VAR Gaussiano con pn rezagada contra la especificación alternativa de 𝜌1 > 𝜌0
Retrasos. Para estimar el sistema bajo la hipótesis nula, realizamos un conjunto de n regresiones
OLS de 'cada variable m del sistema en un término constante y en 𝜌0 lags de todas las variables en

1 ′
̂ 0 = ( ) ∑𝑇𝑡=1 𝜀̂𝑡 (𝜌0 )[𝜀̂𝑡 (𝜌0 )] la matriz de varianza-covarianza de los residuos de
el sistema. Sea Ω
𝑇
estas regresiones, El valor máximo para la probabilidad de log bajo 𝐻0 es entonces
̂ 0 −1 │ − (𝑇 𝑛⁄2)
ℒ0∗ = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω
De forma similar, el sistema se estima bajo la hipótesis alternativa por regresiones OLS que
incluyen p, rezagos de todas las variables. La probabilidad de registro maximizada bajo la alternativa
es
−1
̂1
ℒ1∗ = −(𝑇𝑛⁄2) log( 2𝜋) + (𝑇⁄2) log │Ω │ − (𝑇 𝑛⁄2)
Donde Ω ̂ 1 es la matriz de varianza-covarianza de los residuos de este segundo conjunto de

regresiones. Dos veces la razón de verosimilitud es entonces
−1 −1
̂1
2(ℒ1∗ − ℒ0∗ ) = 2 {(𝑇⁄2) log │Ω ̂0
│ − (𝑇⁄2) log │Ω │}
̂ 1 │) − 𝑇 log(1⁄│Ω
= 𝑇 log(1⁄│Ω ̂ 0 │) [11.1.33]
̂ 1 │) − 𝑇 log(│Ω
= −𝑇 log(│Ω ̂ 0 │)
̂ 0 │ − log(│Ω
= 𝑇{log │Ω ̂ 1 │)}
Bajo la hipótesis nula, esto asintóticamente tiene una distribución 𝑥 2 con grados de libertad igual al
número de restricciones impuestas bajo Ha. Cada ecuación en la especificación restringida por
𝐻0 tiene (𝑝1 − 𝑝0 )menos retrasos en cada una de n variables en comparación con 𝐻1 , 𝐻0 impone
n(𝑝1 − 𝑝0 ) restricciones en cada ecuación. Puesto que hay n tales ecuaciones. 𝐻0 impone 𝑛2
(𝑝1 − 𝑝0 )restricciones. Así, la magnitud calculada en [11.1.33] es asintóticamente 𝑥 2 con 𝑛2
(𝑝1 − 𝑝0 ) grados de libertad.
Por ejemplo, supongamos que una VAR bivariada se estima con tres y cuatro
Retrasos (n=2, 𝑝0 = 3, 𝑝1 = 4). Digamos que la muestra original contiene 50 observaciones sobre
cada variable (denotadas𝑦−3 , 𝑦−2,. . . .,𝑦46 ) y que las observaciones
46 se utilizaron para estimar las especificaciones de tres y cuatro Que T= 46. Sea 𝜀̂𝑖𝑡 (𝑝0 ) el residuo
muestral para la observación t de una OLS Regresión de 𝑦𝑖𝑡 en una constante, tres retrasos de 𝑦𝑖𝑡 y
tres rezagos de 𝑦2𝑡 Suponer que (1⁄𝑇) ∑𝑇𝑡=1[𝜀̂𝑙𝑡 (𝑝0 )]2 = 2.0 (1⁄𝑇) ∑𝑇𝑡=1[𝜀̂2𝑡 (𝑝0 )]2 = 2.5
(1⁄𝑇) ∑𝑇𝑡=1 𝜀̂𝑙𝑡 (𝑝0 )𝜀̂2𝑡 (𝑝0 ) = 1.0
̂ 0 = [2.0 1.0]
Ω
1.0 2.5
̂ 0 │ = log 4 = 1.386 .Supongamos que cuando se agrega un cuarto rezago a cada
Y log │Ω
regresión, la matriz de covarianza residual se reduce a
̂ 1 = [1.8 0.9]
Ω
0.9 2.2
̂ 1 │ = 1.147.Luego
para cual log │Ω
2(ℒ1∗ − ℒ0∗ ) = 46(1.386 − 1.147) = 10.99
Los grados de libertad para esta prueba son 22 (4 − 3) = 4. Dado que 10,99> 9,49 (el valor
crítico del 5% para una variable 𝑥 2 (4), la hipótesis nula es rechazada. La dinámica no es

completamente capturada por un VAR de tres lag, y una especificación de cuatro lag parece
preferible.
Sims (1980, p.17) sugirió una modificación de la prueba de razón de verosimilitud para tener en
cuenta el sesgo de la muestra pequeña. Recomendó reemplazar [11.1.33]
̂ 0 │ − log(│Ω
(𝑇 − 𝐾){log │Ω ̂ 1 │)} [11.1.34]
Donde k = 1 + npx es el número de parámetros estimados por ecuación. La prueba ajustada tiene
la misma distribución asintótica que [11.1.33], pero es menos probable que rechace la hipótesis nula
en pequeñas muestras. Para el presente ejemplo, esta estadística de prueba sería
(46 - 9)(1.386 - 1.147) = 8.84
Y la conclusión anterior sería invertida (𝐻0 sería aceptado).
̂
Distribución asintótica de 𝛱
Las estimaciones de máxima verosimilitud Π ̂ yΩ ̂ darán estimaciones consistentes de los
parámetros de la población incluso si las innovaciones verdaderas no son gaussianas. Los errores
̂ pueden basarse en las fórmulas OLS habituales, como demuestra la siguiente
estándar para Π
proposición.
Proposición 11.1: Dejemos
𝑦𝑡 = 𝑐 + Φ1 𝑦𝑡−1 + Φ2 𝑦𝑡−2 +. . . +Φ𝜌 𝑦𝑡−𝜌 + 𝜀𝑙
Donde εt , es independiente e idénticamente distribuida con la media 0, la varianza Ω y E (εit εjt εlt εmt ) < ∞
para todo i, j, l y m y donde las raíces de
│𝐼1𝑡 − Φ1 𝑧 − Φ2 𝑧 2 − . . . −Φ𝜌 𝑧 𝑝 │ = 0 [11.1.35]
Fuera del círculo de la unidad. Sea k = np + 1, y sea x, 'el vector (1 x k)
𝑥𝑡′ = [1 𝑦𝑡−1 ′ 𝑦𝑡−2 ′ . . . 𝑦𝑡−𝜌 ′ ]
Sea 𝜋
̂𝑡 = 𝑣𝑒𝑐𝑡(𝛱 ̂𝑡 ) el vector (nk x 1) de los coeficientes resultantes de las regresiones OLS de cada uno de los
elementos de y, sobre x, para una muestra de tamaño T:
𝜋̂1.𝑇
𝜋̂2.𝑇
..
𝜋̂ 𝑇 =
.
.
.
[𝜋̂𝑛.𝑇 ]
Donde
𝑇 −1 𝑇
𝜋̂𝑖.𝑇= [∑ 𝑥𝑡 𝑥𝑡 ′] [∑ 𝑥𝑡 ]
𝑡=1 𝑡=1
Y sea 𝜋 denota el vector (nk X 1) de coeficientes vecinales de población. Por último, deje

𝑇
𝛺̂𝑇 = (1⁄𝑇) ∑ 𝜀̂𝑡 𝜀̂𝑡 𝑦𝑖𝑡 ′

𝑡=1
Donde
𝜀̂𝑡′ = [𝜀̂1 , 𝜀̂2 , … , 𝜀̂𝑛𝑡 ]
𝜀̂𝑖𝑡 = 𝑦𝑖𝑡 − 𝑥𝑡 ′𝜋̂𝑖.𝑇

Luego
𝑃
(a) (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡 ′ → 𝑄 DONDE 𝑄 = 𝐸(𝑥𝑡 𝑥𝑡′ )
𝑃
(b) 𝜋̂ 𝑇 → 𝜋
𝑃
̂𝑡 → 𝛺
(c) 𝛺
(d) √𝑇(𝜋̂𝑡 − 𝜋)
𝐿
→ 𝑁(0, (𝛺 ⊗ 𝑄 −1 )) 𝐷𝑂𝑁𝐷𝐸 ⊗ 𝐷𝐸𝑁𝑂𝑇𝐴 𝐸𝐿 𝑃𝑅𝑂𝐷𝑈𝐶𝑇𝑂 𝐾𝑅𝑂𝑁𝐸𝐶𝐾𝐸𝑅
Una prueba de esta proposición se proporciona en el Apéndice 11.A de este capítulo. Si
sólo estamos interesados 𝜋̂𝑖.𝑇 en, los coeficientes de la regresión ITH en el VAR, el resultado (d)
implica que
𝐿
√𝑇(𝜋̂𝑖.𝑇 ~𝜋𝐼 ) → 𝑁(0, 𝜎𝐼2 𝑄 −1 ) [11.1.36]
Donde 𝜎2𝐼 = 𝐸(𝜀2𝑖𝑗 ) Es la varianza de la innovación de la ecuación ith en el VAR. Pero 𝜎2𝐼 es
estimado consistentemente por 𝜎̂ 2𝐼 = (1⁄𝑇) ∑𝑇𝑡=1 𝜀̂2𝑖𝑡 El promedio del cuadrado residual de la
estimación OLS de esta ecuación. Similarmente, 𝑄 −1 es estimado consistentemente por
[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥′𝑡 ]−1 Por lo tanto, [11.1.36] nos invita a tratar 𝜋̂𝑖 approximadamente como
𝑇 −1
𝜋̂𝑖 ≈ 𝑁 (𝜋̂𝑖 , 𝜎̂𝐼2 [∑ 𝑥𝑡 𝑥𝑡 ′] )

𝑡=1
[11.1.37]
Pero esta es la fórmula estándar de OLS para las variaciones de coeficientes con 𝑠 2 𝑖 =
[1⁄(𝑇 − 𝐾)] ∑𝑇𝑡=1 𝜀̂ 2
𝑖𝑡 en la fórmula-estándar-reemplazada por la estimación de máxima
verosimilitud & j en [11.1.37]. Claramente, 𝑠 2 𝑖 y 𝜎 2 𝑖 son asintóticamente equivalentes, aunque
siguiendo el argumento de Sims en [11.1.34], los errores estándar más grandes (y por lo tanto más
conservadores) resultantes de las fórmulas OLS podrían ser preferidos. Por lo tanto. La Propuesta
11.1 establece que las estadísticas OLS t y F estándares aplicadas a los coeficientes de cualquier
ecuación única en la VAR son asintóticamente válidas y pueden evaluarse de la manera habitual.
Una hipótesis más general de la forma 𝑅𝜋 = r que implica coeficientes a través de diferentes
ecuaciones de la VAR puede ser probado usando una generalización de la forma Wald de la prueba
OLS 𝑥 2 (expresión [8.2.23]). El resultado (d) de la Proposición 11.1 establece que
𝐿
√𝑇(𝑅𝜋̂ 𝑇 − 𝑟) → 𝑁(0, 𝑅(Ω ⊗ 𝑄 −1 )𝑅′)
A la luz de los resultados (a) y (c), la distribución asintótica podría describirse equivalentemente
como

𝑃
̂𝑇 ⊗ 𝑄𝑇 −1 )𝑅′)
√𝑇(𝑅𝜋̂ 𝑇 − 𝑟) → 𝑁(0, 𝑅(Ω
Donde Ω ̂ 𝑇 = (1⁄𝑇) ∑𝑇𝑡=1 𝜀̂𝑡 𝜀̂𝑡′ 𝑦 𝑄𝑇 = ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ Por lo tanto la siguiente estadística tiene una
distribucion 𝑥 2 asíntota
−1
̂𝑇 ⊗ 𝑄𝑇 −1 )𝑅′ ) (𝑅𝜋̂ 𝑇 − 𝑟)
𝑋 2 (𝑚) = 𝑇(𝑅𝜋̂ 𝑇 − 𝑟)′ (𝑅(Ω [11.1.38]
−1
̂𝑇 ⊗ (𝑇𝑄𝑇 )−1 )𝑅′ ) (𝑅𝜋̂ 𝑇 − 𝑟)
= (𝑅𝜋̂ 𝑇 − 𝑟)′ (𝑅(Ω
−1 −1
𝑇
̂𝑇 ⊗ (∑ 𝑥𝑡 𝑥𝑡 ′) ] 𝑅′}
= (𝑅𝜋̂ 𝑇 − 𝑟)′ {𝑅 [Ω (𝑅𝜋̂ 𝑇 − 𝑟)
𝑡=1
Los grados de libertad para esta estadística están dados por el número de filas de R. o el número de
restricciones probadas. Por ejemplo, supongamos que queremos probar la hipótesis de que el
término constante en la primera ecuación en el VAR (𝑐1 ) es igual al término constante en la
segunda ecuación (𝑐2 ). Entonces R es un vector (1 x nk) con unidad en la primera posición. - 1 en
la (k + 1) posición, y los ceros en otra parte:
𝑅 = [1 0 0 . . . 0 − 1 0 0 . . . 0]
Para aplicar el resultado [11.1.38], es conveniente escribir R en la forma de producto de Kronecker
como
𝑅 = 𝑅𝑛 ⊗ 𝑅𝑘 [11.1.39]
Donde𝑅𝑛 selecciona las ecuaciones que están involucradas y𝑅𝑘 Selecciona los coeficientes. Para
este ejemplo,
𝑅𝑛 (1𝑋𝑛) = [1 − 1 0 0 0. . . 0]
𝑅𝑘 (1𝑋𝑘) = [1 0 0 0 0. . . 0]
Nosotros calculamos luego

𝑇 −1 𝑇 −1
̂𝑇 ⊗ (∑ 𝑥𝑡 𝑥𝑡 ′) ] 𝑅 ′ = (𝑅𝑛 ⊗ 𝑅𝑘 ) [Ω
𝑅 [Ω ̂𝑇 ⊗ (∑ 𝑥𝑡 𝑥𝑡 ′) ] (𝑅𝑛 ′ ⊗ 𝑅𝑘 ′ )
𝑡=1 𝑡=1
𝑇 −1
̂ 𝑅𝑛 𝑡 ) ⊗ [𝑅𝑘 ](∑ 𝑥𝑡 𝑥𝑡 ′)
= (𝑅𝑛 Ω 𝑅𝑘𝑡
𝑡=1
= (𝜎̂𝑖2 − 2𝜎̂𝑖2
2
+ 𝜎̂22 ) ⊗ 𝜉11
−1
Donde 𝜎̂12 es la covarianza entre 𝜀̂1𝑡 y 𝜀̂2𝑡 y 𝜉11 es el elemento (1, 1) de (∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡 ′) Puesto
que𝜉11 es un escalar, el producto Kronecker anterior es una multiplicación simple. Estadística de
prueba [11.1.38] es entonces
(𝑐̂1 − 𝑐̂2 )2
𝑋 2 (1) =
(𝜎̂𝑖2 − 2𝜎̂12 + 𝜎̂22 )𝜉11

Distribución Asintótica de 𝛺̂
Al considerar la distribución asintótica de las estimaciones de varianzas y covarianzas. Observe que
como il es simétrico, algunos de sus elementos son redundantes. Recordemos que el operador "vec"
transforma una matriz (n x n) en un vector (𝑛2 x 1) apilando las columnas. Por ejemplo,
𝜎11
𝜎21
𝜎31
𝜎11 𝜎12 𝜎13 𝜎12
𝜎
𝑣𝑒𝑐 [ 21 𝜎22 𝜎23 ] = 𝜎22 [11.1.40]
𝜎31 𝜎32 𝜎33 𝜎32
𝜎13
𝜎23
[𝜎33 ]
Un operador "vech" analógico transforma una matriz (n X n) en un vector ([n(n+1) / 2] X 1)
apilando verticalmente esos elementos sobre o debajo del principal diagonal. Por ejemplo:
𝜎11
𝜎21
𝜎31
𝜎11 𝜎12 𝜎13 𝜎12
𝜎
𝑣𝑒𝑐ℎ [ 21 𝜎22 𝜎23 ] = 𝜎22 [11.1.41]
𝜎31 𝜎32 𝜎33 𝜎32
𝜎13
𝜎23
[𝜎33 ]
Proposición 11.2: Sea
𝑦𝑡 = 𝑐 + 𝛷1 𝑦𝑡−1 + 𝛷2 𝑦𝑡−2 +. . . +𝛷𝜌 𝑦𝑡−𝜌 + 𝜀𝑙
Donde 𝜀𝑙 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝛺) Y donde las raíces de
│𝐼𝑛 − 𝛷1 𝑧 − 𝛷2 𝑧 2 − . . . −𝛷𝜌 𝑧 𝑝 │ = 0
Fuera del círculo de la unidad. Sea , 𝜋̂ 𝑇 , 𝛺̂𝑇 , y Q como se define en la Proposición 11.1 Entonces
√𝑇(𝜋̂ 𝑇 − 𝜋) 𝐿 0 (𝛺 ⊗ 𝑄 −1 ) 0
[ ] → 𝑁 ([ ] , [ ])
̂𝑇 ) − 𝑣𝑒𝑐ℎ(𝛺)]
√𝑇[𝑣𝑒𝑐ℎ(𝛺 0 0 𝛴22
Sea 𝜎𝑖𝑗 representa el elemento de la fila i, columna j de Ω por ejemplo, 𝜎11 , es la varianza
de 𝜀𝑖𝑡 .Luego el elemento de Σ22 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑒 𝑎 𝑙𝑎 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝜎̂𝑖𝑗 y 𝜎̂𝑙𝑚 por ejemplo
para n=2 Proposición 11.2 implica que :
2 2
𝜎̂11.𝑇−𝜎11 0 2𝜎11 2𝜎11 𝜎12 2𝜎12
𝐿
2
√𝑇 [𝜎̂12.𝑇 − 𝜎12 ] → 𝑁 ([0] , [2𝜎11 𝜎12 𝜎11 𝜎12 + 𝜎12 2𝜎12 𝜎22 ]) [11.1.42]
𝜎̂22𝑇 − 𝜎22 0 2
2𝜎12 2𝜎12 𝜎22 2
2𝜎22

Así, una prueba de Wald de la hipótesis nula de que no hay covarianza entre 𝜀1 y 𝜀2 es dado por
√𝑇𝜎̂12
2 )1⁄2 ≈ 𝑁(0,1)
(𝜎̂11 𝜎̂22 + 𝜎̂12
Una prueba de Wald de la hipótesis nula de que 𝜀1 y 𝜀2 , tienen la misma varianza es dada por
𝑇(𝜎̂11 − 𝜎̂22 )2 2 (1)

2 2 2 ≈𝑋
2𝜎̂11 − 4𝜎̂12 + 2𝜎̂22
Donde 𝜎̂11 denota el cuadrado de la varianza estimada de la innovación para la primera ecuación.
La matriz ∑22 en la Proposición 11.2 puede expresarse de forma más compacta usando la matriz de
duplicación. Obsérvese que, puesto que Ω es simétrica, los 𝑛2 elementos de vec (H) en [11.1.40]
son duplicaciones simples de los 𝑛(𝑛 + 1)/2 elementos de vech (Ω) en [11.1.41]. Existe una matriz
𝐷Ω única que transforma vech (H) en vec (Ω), es decir, una matriz única que satisface
𝐷𝑛 𝑣𝑒𝑐ℎ(Ω) = 𝑣𝑒𝑐(Ω) [11.1.43]
Por ejemplo, para 𝑛 = 2, la ecuación [11.1.43] es
1 0 0 𝜎 𝜎11
11
0 1 0 𝜎 𝜎21
[ ] [ 21 ] = [𝜎 ] [11.1.44]
0 1 0 𝜎 12
31
0 0 1 𝜎22
Además, se define 𝐷𝑛+ como la siguiente matriz
([𝑛 (𝑛 + 1) / 2 𝑥 𝑛2 ]) ≡ ( 𝐷𝑛′ 𝐷𝑛 )−1 𝐷𝑛′ [11.1.45]
Obsérvese que 𝐷𝑛+ 𝐷n = 𝐼𝑛(𝑛+1)/2. Así, premultiplicar ambos lados de [11.1.43] por 𝐷𝑛+ revela que
𝐷𝑛+ es una matriz que transforma vec (Ω) en vech (Ω) para Ω simétrico;
𝑣𝑒𝑐ℎ(Ω) = 𝐷𝑛+ 𝑣𝑒𝑐(Ω) [11.1.46]
𝜎11
𝜎11 1 0 0 0
1 1 𝜎21
[𝜎21 ] = [0 2 2
0] [𝜎 ] [11.1.47]
12
𝜎31 0 0 0 1 𝜎22
Resulta que la matriz ∑22 descrita en la Proposición 11.2 puede escribirse como
Σ22 = 2𝐷𝑛+ (Ω ⊗ Ω)(𝐷𝑛+ )′ [11.1.48]
1 0 0 0
1 1
2𝐷2+ (Ω ⊗ Ω)(𝐷2+ )′ = 2 [0 0]
2 2
0 0 0 1

1 0 0
𝜎11 𝜎11 𝜎11 𝜎12 𝜎12 𝜎11 𝜎12 𝜎12 1
𝜎11 𝜎21 𝜎11 𝜎22 𝜎12 𝜎11 𝜎12 𝜎21 0 2
0
𝑥 [𝜎 𝜎 𝜎21 𝜎12 𝜎22 𝜎11 𝜎22 𝜎12 ]
21 11 1
𝜎21 𝜎21 𝜎21 𝜎22 𝜎22 𝜎21 𝜎22 𝜎22 0 2
0
[0 0 1]
2 2
2𝜎11 2𝜎11 𝜎12 2𝜎12
= [2𝜎11 𝜎12 2
𝜎11 𝜎12 + 𝜎12 2𝜎12 𝜎22 ]
2 2
2𝜎12 2𝜎12 𝜎22 2𝜎22
Que reproduce [11.1.42].
11.2. Pruebas de causalidad de Granger bivariante

Una de las preguntas clave que se pueden abordar con autorregressiones vectoriales es la utilidad de
algunas variables para pronosticar otras. Esta sección discute un resumen particular de la relación
de pronóstico entre dos variables propuestas por Granger (1969) y popularizadas por Sims (1972).
En la siguiente sección se proporciona una discusión más general de una cuestión relacionada en
sistemas vectoriales más grandes.
Definición de Causalidad de Granger Bivariante

La pregunta investigada en esta sección es si un escalar 𝑦 puede ayudar a pronosticar otra 𝑥 escalar.
Si no puede, entonces decimos que 𝑦 no hace Granger-causa 𝑥. Más formalmente, 𝑦 falla en
Granger-causa 𝑥 si para todo 𝑠 > 0 el error cuadrático medio de una proyección de 𝑥1+𝑠 basado
en (𝑥1, 𝑥𝑡−1 , … ) es el mismo que el MSE de una predicción de 𝑥1+𝑠 que usa tanto (𝑥1, 𝑥𝑡−1 , … )
como (𝑦1, 𝑦𝑡−1 , … ). Si nos limitamos a funciones lineales, y falla en Granger-causa 𝑥 si:
𝑀𝑆𝐸[𝐸̂ (𝑥𝑡+𝑠 |𝑥𝑡 , 𝑥𝑡−1, . . . )] [11.2.1]
= 𝑀𝑆𝐸[𝐸̂ (𝑥𝑡+𝑠 |𝑥𝑡 , 𝑥𝑡−1, . . . , 𝑦𝑡 , 𝑦𝑡−1 ,. . . )]
Equivalentemente, decimos que x es exógena en el sentido de la serie de tiempo con respecto a v si

[11.2.1] se mantiene. Sin embargo, una tercera expresión que significa lo mismo es que 𝑦 no es
linealmente informativo sobre el futuro 𝑥.
La razón de Granger para proponer esta definición fue que, si un evento 𝑌 es la causa de otro
evento 𝑋, entonces el evento 𝑌 debe preceder al evento 𝑋. Aunque uno pueda estar de acuerdo con
esta posición filosóficamente, puede haber serios obstáculos para la implementación práctica de
esta idea utilizando datos agregados de series temporales, como se verá en los ejemplos
considerados más adelante en esta sección. Primero, sin embargo, exploramos las implicaciones
mecánicas de la causalidad de Granger para la representación en serie temporal de un sistema
bivariado.
Implicaciones alternativas de la causalidad de Granger

En un VAR bivariante que describe 𝑥 y 𝑦, 𝑦 no hace Granger-causa 𝑥 si las matrices de coeficientes
Φ𝑗 son triangulares inferiores para todos 𝑗:
(1) (2) (𝜌)
𝑥𝑡 𝑐1 𝜙 0 𝑥𝑡−1 𝜙 0 𝑥𝑡−2 𝜙 0 𝑥𝑡−𝜌 𝜀11
[𝑦 ] = [𝑐 ] + [ 11
(1)
][
(1) 𝑦𝑡−1
] + [ 11
(2)
][
(2) 𝑦𝑡−2
] +. . . + [ 11
(𝜌) (𝜌)
] [𝑦 ] + [𝜀 ]
𝑡 2 𝜙21 𝜙22 𝜙21 𝜙22 𝑡−𝜌 21
𝜙21 𝜙22

[11.2.2]
Desde la primera fila de este sistema, el pronóstico óptimo de un solo período de avance de 𝑥
depende sólo de sus propios valores rezagados de 𝑦:
𝐸̂ (𝑥𝑡+𝑠 |𝑥𝑡 , 𝑥𝑡−1, . . . , 𝑦𝑡 , 𝑦𝑡−1 ,. . . ) = 𝑐 + ϕ11 (1) 𝑥𝑡 + ϕ11 (2) 𝑥𝑡−1 +. . . +ϕ11 (𝜌) [11.2.3]
Además el valor de 𝑥𝑡+2 de [11.2.2] está dado por
𝑥𝑡+2 = 𝑐1 + ϕ11 (1) 𝑥𝑡+1 + ϕ11 (2) 𝑥𝑡 +. . . +ϕ11 (𝜌) 𝑥𝑡−𝜌+2 + 𝜀𝑖𝑡+2
Recordando [11.2.3] y la ley de proyecciones iteradas, es evidente que la fecha /
Pronóstico de esta magnitud sobre la base de (𝑥1, 𝑥𝑡−1 , …, 𝑦1, 𝑦𝑡−1 , … ). Depende también solo
en(𝑥1, 𝑥𝑡−1 , … 𝑥𝑡−𝑝−1 ) - Por inducción, lo mismo es cierto para un pronóstico en el período 𝑠. Por
lo tanto, para el VAR bivariante, y no Granger-causa 𝑥 si es triangular inferior para todos 𝑗, como
se reivindica.
Recordemos de la ecuación [10.1.19] que
Ψ𝑠 = Φ1 Ψ𝑠−1 + Φ2 Ψ𝑠−2 + . . . +Φ𝜌 Ψ𝑠−𝜌 𝑝𝑎𝑟𝑎 𝑠 = 1,2, . . . ..
Con Ψ0 la matriz de identidad y Ψ𝑠 = 0 para 𝑠 < 0. Esta expresión implica que si Φ𝑗 ; es triangular
inferior para todos j, entonces las matrices Ψ𝑠 ,para la representación fun- fundamental serán
triangulares inferiores para todos los 𝑠. Así, si y falla en Granger-causa 𝑥, entonces la
representación MA (∞) puede escribirse
𝑥𝑡 𝜇1 𝜓 (𝐿) 0 𝜀1𝑡
[𝑦 ] = [𝜇 ] + [ 11 ][ ] [11.2.4]
𝑡 2 𝜓21 (𝐿) 𝜓22 (𝐿) 𝜀2𝑡
Donde
𝜓𝑖𝑗 (𝐿) = 𝜓 (0) 𝑖𝑗 + 𝜓 (1) 𝑖𝑗 𝐿1 + 𝜓 (2) 𝑖𝑗 𝐿2 + 𝜓 (3) 𝑖𝑗 𝐿3 + . . .
Con: 𝜓 (0)11 = 𝜓 (0) 22 = 1 𝑌 𝜓 (0) 21 = 0
Sims (1972) enfatizó otra implicación de la causalidad de Granger.
Proposición 11.3: Considere una proyección lineal de 𝑦, sobre pasado, presente y futuro 𝑥′𝑠
∞ ∞
𝑦𝑡 = 𝑐 + ∑ 𝑏𝑗 𝑥𝑡−𝑗 + ∑ 𝑑𝑗 𝑥𝑡+𝑗 + 𝜂𝑡
𝑗=0 𝑗=1
[11.2.5]
Donde 𝑏𝑗 𝑌 𝑑𝑗 se definen como coeficientes de proyección poblacional, es decir, los valores para
los cuales
𝐸(𝜂𝑙 𝑥𝑡 ) = 0 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑙 𝑦 𝑡
Entonces y falla en Granger-causa x si y sólo si 𝑥𝑡 = 0 𝑝𝑎𝑟𝑎 𝑗 = 1,2,3, .. . ..
11.2 Pruebas de causalidad de Granger bivariante 317

Pruebas econométricas para la causalidad de Granger
Las pruebas econométricas de si una determinada serie observada y Granger-causa x
pueden basarse en cualquiera de las tres implicaciones [11.2.2], [11.2.4] o [11.2.5]. El enfoque más
simple y probablemente el mejor utiliza la especificación autorregresiva [11.2.2]. Para implementar
esta prueba, asumimos una longitud de retraso autorregresivo p y una estimación
𝑥𝑡 = 𝑐1 + 𝛼1 𝑥𝑡−1 + 𝛼2 𝑥𝑡−2 + . . . + 𝛼𝜌 𝑥𝑡−𝜌 + 𝛽1 𝑦𝑡−1 + 𝛽2 𝑦𝑡−2 + . . . + 𝛽𝜌 𝑦𝑡−𝜌 + 𝑢𝑡

[11.2.6]
Por OLS. A continuación, realizar una prueba F de la hipótesis nula
𝐻0 : 𝛽1 = 𝛽2 = . . . = 𝛽𝜌 = 0 [11.2.7]
Recordando la Proposición 8.2, una forma de implementar esta prueba es calcular la suma de los
residuos cuadrados de [11.2.6]
𝑇
𝑅𝑆𝑆1 = ∑ 𝑢̂𝑡2
𝑡=1
Y comparar esto con la suma de los residuos cuadrados de una autorregresión univariada para 𝑥𝑡
𝑇
𝑅𝑆𝑆0 = ∑ 𝑒̂𝑡2
𝑡=1
Donde
𝑥𝑡 = 𝑐0 + 𝛾1 𝑥𝑡−1 + 𝛾2 𝑥𝑡−2 + . . . + 𝛾𝜌 𝑥𝑡−𝜌 + 𝑒𝑡 [11.2.8]
También es estimado por OLS. Si

(𝑅𝑆𝑆0 −𝑅𝑆𝑆1 )⁄𝜌
𝑆1 ≡ 𝑅𝑆𝑆 [11.2.9]
1 ⁄(𝑇−2𝑝−1)
Es mayor que el valor crítico del 5% para una distribución de 𝐹(𝑝, (𝑇 − 2𝑝 − 1))entonces
rechazamos la hipótesis nula de que y no hace que Granger cause x \ que es, si 5, es
suficientemente grande, concluimos que Y hace Granger-causa x.
La estadística de prueba [11.2.9] tendría una distribución exacta de F para una regresión con
regresores fijos y perturbaciones gaussianas. Con variables dependientes rezagadas como en las
regresiones de causalidad de Granger, sin embargo, la prueba es válida sólo asintóticamente. Una
prueba asintóticamente equivalente es dada por
𝑇(𝑅𝑆𝑆0 −𝑅𝑆𝑆1 )
𝑆2 ≡ 𝑅𝑆𝑆1
[11.2.10]
Rechazaríamos la hipótesis nula de que y no causa Granger x si 𝑆2 es mayor que los valores críticos
de 5% para una variable 𝑥 2 {𝑝).
Un enfoque alternativo es basar la prueba en la forma Sims [11.2.5] en lugar de la forma Granger
[11.2.2]. Un problema con la forma Sims es que el término de error 77, en general, está

autocorrelacionado. Por lo tanto, una prueba estándar de la hipótesis de que dl = 0 para todo / en
[11.2.5] no dará la respuesta correcta. Una opción es utilizar errores estándar estándar de auto-
correlación para las estimaciones de MCO como se describe en la Sección 10.5. Una segunda
opción es utilizar una transformación generalizada de mínimos cuadrados. La siguiente opción,
sugerida por Geweke, Meese y Dent [1983], es la siguiente. Supongamos que el término de error tj,
en [11.2.5] tiene una representación de 𝜂𝑙 = 𝜓22 (𝐿)𝑣2𝑡 Multiplicando ambos lados de [11.2.5] por
ℎ (𝐿) ≡ [𝑚𝜓22 (𝐿)]−1 𝑝roduce
∞ ∞ ∞
𝑦𝑡 = 𝑐2 − ∑ ℎ𝑗 𝑦𝑙−𝑗 + ∑ 𝑏 ∗𝑗 𝑥𝑙−𝑗 + ∑ 𝑑∗𝑗 𝑥𝑙−𝑗 + 𝑣2𝑡

𝑗=1 𝑗=0 𝑗=0
[11.2.11]
El término de error en [11.2.11] es ruido blanco y no correlacionado con ninguna de las variables
explicativas. Además, 𝑑 𝑗∗ = 0 para todo j si y sólo si 𝑑𝑗 = 0 para todo j;. Así, al truncar las sumas
infinitas en [11.2.11] en algún valor finito, podemos probar la hipótesis nula de que y no hace
Granger-causa x con una prueba F de 𝑑 1∗ = 𝑑 ∗2 = . . . = 𝑑 ∗𝑝 = 0
Se han propuesto una variedad de otras pruebas de causalidad de Granger; Véase Pierce y Haugh
(1977) y Geweke, Meese y Dent (1983) para encuestas selectivas. Bouissou; Laffont, y ^ Vuong
(1986) discutieron las pruebas usando datos de panel discretos. Las simulaciones de Monte Carlo de
Geweke, Meese y Dent sugieren que la prueba más simple y más sencilla, a saber, la basada en
[11.2.10], puede ser la mejor.
Los resultados de cualquier prueba empírica para la causalidad de Granger pueden ser
sorprendentemente Sensibles a la elección de la longitud del retraso (p) oa los métodos utilizados
para no estacionaria de la serie. Para demostraciones de la relevancia práctica del sucr, Véase Feige y
Pearce (1979), Christiano y Ljungqvist y Stocl Y Watson (1989).
Interpretación Granger-Pruebas de Causalidad

¿Cómo está relacionada la "causalidad de Granger" con el significado estándar de
"causalidad"? Exploramos esta cuestión con varios ejemplos
Ejemplo 11.1-Pruebas de causalidad de Granger-Causalidad y comportamiento prospective
El primer ejemplo utiliza una modificación del modelo de precios de las acciones descrito en el
Capítulo 2. Si un inversor compra una acción de una acción por el precio P, en la fecha t, entonces
en t + 1 el inversor recibirá 𝐷𝑡+1 en dividendos y será capaz Para vender las acciones de 𝑃𝑡+1 La
tasa de rendimiento ex post de la acción (denotada 𝑟𝑡+1 ) se define por
(1 + 𝑟𝑡+1 )𝑃𝑡 = 𝑃𝑡+1 + 𝑐 [11.2.12]
Un modelo simple de los precios de las acciones sostiene que la tasa de rendimiento esperada de la
acción es una constante r en todas las fechas
(1 + 𝑟)𝑃𝑡 = 𝐸𝑡 [𝑃𝑡+1 + 𝐷𝑡+1 ] [11.2.13]

Aquí E, denota una expectativa condicionada a toda la información disponible para
los participantes del mercado de valores en el momento t. La lógica detrás de [11.2.13] es que si los
inversionistas tuvieran información en el tiempo t que los llevara a anticipar un retorno más alto de
lo normal a las acciones, ellos querrían comprar más acciones a la fecha t. Tales compras
conducirían P, hasta [11.2.13] fue satisfecho. Este punto de vista se denomina a veces hipótesis de
mercados eficientes.

Como se observó en la discusión de la ecuación [2.5.15] en el capítulo 2, la ecuación [11.2.13] junto
con una condición de limitación implica
∞
1 𝑗 [11.2.14]
𝑃𝑡 = 𝐸𝑡 ∑ [ ] 𝐷𝑡+𝑗
1+𝑟
𝑗=1
Así, según la teoría, el precio de las acciones incorpora la mejor previsión del mercado sobre el
valor presente de los dividendos futuros. Si este pronóstico se basa en más información que los
dividendos pasados, los precios de las acciones causarán dividendos a Granger, ya que los
inversionistas tratarán de anticipar los movimientos de dividendos. Para una simple ilustración de
este punto, supongamos que
𝐷𝑡 = 𝑑 + 𝑢𝑖 + 𝛿𝑢𝑡−1 + 𝑣𝑖 [11.2.15]
Donde u, yv, son independientes Gaussian ruido blanco serie y d es el dividendo medio.
Supongamos que los inversores a tiempo t conocer los valores de {𝑢𝑡 , 𝑢𝑡−1 ,. . . } Y
{𝑣𝑡 , 𝑣𝑡−1 ,. . .}. La predicción de 𝐷𝑙+𝑗 basada en esta información es dada por
𝑑 + 𝛿𝑢𝑡 𝑝𝑎𝑟𝑎 𝑗 = 1
𝐸𝑡 (𝐷𝑡+𝑗 ) = {
𝑑 𝑝𝑎𝑟𝑎 𝑗 = 2,3,. . .
[11.2.16]
Sustituyendo [11.2.16] en [11.2.14], el precio de las acciones sería dado por
𝑃𝑡 = 𝑑⁄𝑟 + 𝛿𝜇𝑡 ⁄(1 + 𝑟) [11.2.17]
Por lo tanto, para este ejemplo, el precio de las acciones es un ruido blanco y no podría ser un
pronóstico sobre la base de los precios de las acciones o dividendos retrasados.
Por otra parte, tenga en cuenta de [11.2.17] que el valor de puede ser descubierto a partir del precio
de las acciones retrasadas
𝛿𝜇𝑡−1 = (1 + 𝑟)𝑃𝑡−1 − (1 + 𝑟) 𝑑⁄𝑟
Recordemos de la sección 4.7 que contiene información adicional acerca de 𝐷𝑡 más allá de lo
contenido en {𝐷𝑡 , 𝐷𝑡−1 , 𝐷𝑡−2 , … . } Así, los precios de las acciones Granger-causa
Dividendos, aunque los dividendos no a Granger-causar precios de las acciones. El VAR bivariado
presenta la forma
𝑃𝑡 𝑑 ⁄𝑟 0 0 𝑃𝑡−1 𝛿𝜇 ⁄(1 + 𝑟)
[ ]=[ ]+[ ][ ]+[ 𝑡 ]
𝐷𝑡 − 𝑑 ⁄𝑟 1+𝑟 0 𝐷𝑡−1 𝜇𝑡 + 𝑣𝑡
Por lo tanto, en este modelo, la causalidad de Granger corre en la dirección opuesta a la verdadera
causalidad. Los dividendos fallan en los precios de "Granger-cause", a pesar de que la percepción de
los inversionistas sobre los dividendos es el único determinante de los precios de las acciones. Por
otro lado, "los precios hacen" Granger-causa "los dividendos, a pesar de que la evaluación del
mercado de la acción en realidad no tiene ningún efecto en el proceso de dividendo.
En general, las series de tiempo que reflejan un comportamiento orientado hacia el futuro,
como los precios de las acciones y las tasas de interés, a menudo son excelentes predictores de
muchas series económicas clave. Esto claramente no significa que estas series hacen que el PNB o
la inflación se muevan hacia arriba o hacia abajo. En su lugar, los valores de estas series reflejan la
mejor información del mercado en cuanto a dónde podría dirigirse el PNB o la inflación. Las

pruebas de causalidad de Granger para tales series pueden ser útiles para evaluar la visión eficiente
de los mercados o para investigar si los mercados están interesados o son capaces de pronosticar el
PNB o la inflación, pero no deben usarse para inferir una dirección de causalidad.
Sin embargo, existen circunstancias en las que la causalidad de Granger puede ofrecer evidencia útil
sobre la dirección de la causalidad verdadera. Como ejemplo de este tema, considere tratar de medir
los efectos de los aumentos de los precios del petróleo en la economía.
Ejemplo 11.2- Pruebas de Exogeneidad Econométrica Estricta7

Todas menos una de las recesiones económicas en los Estados Unidos desde la Segunda Guerra
Mundial han sido precedidas por un fuerte aumento en el precio del petróleo crudo. ¿Significa esto
que los shocks de petróleo son causa de recesiones?
Una posibilidad es que la correlación sea una casualidad -por casualidad- que los choques de
petróleo y las recesiones aparecieron en momentos similares, a pesar de que los procesos reales que
generaron las dos series no están relacionados. Podemos investigar esta posibilidad probando la
hipótesis nula de que los precios del petróleo no causan el PNB de Granger. Esta hipótesis es
rechazada por los datos-los precios del petróleo ayudan a predecir el valor del PNB, y su
contribución a la predicción es estadísticamente significativa. Esto argumenta en contra de ver la
correlación como simplemente una coincidencia.
Para colocar una interpretación causal en esta correlación, se debe establecer que los aumentos de
los precios del petróleo no reflejaban alguna otra influencia macroeconómica que fue la verdadera
causa de las recesiones. Los principales aumentos de los precios del petróleo se han asociado con
claros acontecimientos históricos como la crisis de Suez de 1956-57, la guerra árabe-israelí de 1973-
74, la revolución iraní de 1978-79, el inicio de la guerra Irán-Irak en 1980 , Y la invasión de Kuwait
por el Iraq en 1990. Se podría considerar que estos hechos fueron causados por fuerzas totalmente
ajenas a la economía estadounidense y que eran esencialmente impredecibles. Si esta opinión es
correcta, entonces se podría dar una interpretación causal a la correlación histórica entre los precios
del petróleo y el PNB. La opinión tiene la implicación refutable que ninguna serie debe Granger-
causa los precios de petróleo. Empíricamente, en efecto, se encuentran muy pocas series
macroeconómicas que ayuden a predecir el momento de estos choques petroleros.
El tema de estos dos ejemplos es que las pruebas de causalidad Granger pueden ser una
herramienta útil para probar hipótesis que pueden ser enmarcadas como declaraciones sobre la
predictibilidad de una serie particular. Por otro lado, uno puede ser escéptico acerca de su utilidad
como un diagnóstico general para establecer la dirección de la causalidad entre dos series arbitrarias.
Por esta razón, parece mejor describir estos como pruebas de si y ayuda a pronosticar x en lugar de
pruebas de si y produce x. Las pruebas pueden tener implicaciones para esta última pregunta, pero
sólo en conjunción con otras suposiciones.
Hasta este punto hemos estado discutiendo dos variables, xey, aisladas de otras. Supongamos que
hay otras variables que interactúan con x o y también. ¿Cómo afecta esto a la relación de pronóstico
entre x e y?
Ejemplo 11.3-Rol de la información omitida

Considere el siguiente sistema de tres variables
𝑦1𝑡 1 + 𝛿𝐿 0 0 𝜀1𝑡
[𝑦2𝑡 ] = [ 0 1 0] [𝜀2𝑡 ]
𝑦3𝑡 0 𝐿 1 𝜀3𝑡
Con

𝜎12 0 0
2
𝐸(𝜀𝑡 , 𝜀𝑠′ ) = [ 0 𝜎2 0 ] 𝑝 𝑎𝑟𝑎 𝑡 = 𝑠
0 0 𝜎32
{ 0 𝑜𝑡𝑟𝑜 𝑣𝑎𝑙𝑜𝑟
Así. Ya no puede ofrecer ninguna mejora en un pronóstico de cualquiera de 𝑦1 o 𝑦2 más allá de lo

logrado usando retrasado 𝑦1 𝑦 𝑦2
Examinemos ahora la relación de Granger-causalidad bivariada entre 𝑦1 𝑦 𝑦3 . Primero,

consideremos el proceso para 𝑦𝑙
𝑦𝑙𝑡 = 𝜀𝑙𝑡 + 𝛿𝜀1.𝑡−1 + 𝜀2.𝑡−1
Observe que 𝑦𝑙 es la suma de un proceso MA {1) (𝜀𝑙𝑡 + 𝛿𝜀𝑙𝑡−1) y un proceso de ruido blanco no
corregido (𝜀2.𝑡−1 ). Sabemos por la ecuación [4.7.15] que la representación univariada para 𝑦𝑙 es un
proceso MA {1):
𝑦𝑙𝑡 = 𝑢𝑡 + 𝜃𝑢𝑡−1
De [4.7.16], el error de predicción univariado 𝑢𝑡 puede expresarse como
𝑢𝑡 = (𝜀𝑙𝑡 − 𝜃𝜀1.𝑡−1 + 𝜃 2 𝜀1.𝑡−2 − 𝜃 3 𝜀1.𝑡−3 + . . . )
+𝛿(𝜀1.𝑡−1 − 𝜃𝜀1.𝑡−2 + 𝜃 2 𝜀1.𝑡−3 − 𝜃 3 𝜀1.𝑡−4 + . . . )
+(𝜀2.𝑡−1 − 𝜃𝜀2.𝑡−2 + 𝜃 2 𝜀2.𝑡−3 − 𝜃 3 𝜀2.𝑡−4 + . . . )

El error de predicción univariante u, es, por supuesto, no correlacionado con sus propios valores
lagtied. Observe, sin embargo, que está correlacionada con𝑦3𝑡−1
𝐸(𝑢𝑡 )(𝑦3,𝑡−1 ) = 𝐸(𝑢𝑡 )( 𝜀3.𝑡−1 − 𝜀2.𝑡−2 ) = −𝜃𝜎22
Así. Y3 retardado podría ayudar a mejorar un pronóstico de 𝑦1 , que se había basado en valores
rezagados de 𝑦1 , solo, lo que significa que 𝑦3 Granger-causa 𝑦1 en un sistema bivariado. La razón
es que la 𝑦3 ? Se correlaciona con la variable omitida 𝑦2 , que también es útil para pronosticar 𝑦1
11.3. Estimación de máxima verosimilitud de

autorregressiones vectoriales restringidas
En la Sección 11.1 se discutió la estimación de máxima verosimilitud y las pruebas de hipótesis
sobre autoregressiones vectoriales sin restricciones. En estos sistemas cada ecuación en el VAR
tenía las mismas variables explicativas, a saber, un término constante y retraso de todas las variables
en el sistema. Se mostró cómo calcular una prueba de Wald de restricciones lineales, pero no se
discutió la estimación del sistema sujeto a las restricciones. Esta sección examina la estimación de
un VAR restringido.
Causalidad de Granger en un contexto multivariado

Como ejemplo de un sistema restringido que podríamos estar interesados en estimar,
consideremos una generalización vectorial de las cuestiones exploradas en la sección anterior. . -
Supongamos que las variables de un VAR se clasifican en dos grupos, representados por el
vector𝑦1𝑡 (𝑛1 𝑥 1) 𝑌 𝑦2𝑡 (𝑛2 𝑥 1) . El VAR puede escribirse
𝑦1𝑡 = 𝑐1 + 𝐴1′ 𝑥𝑙𝑡 + 𝐴′2 𝑥2𝑡 + 𝜀1𝑡 [11.3.1]

𝑦2𝑡 = 𝑐2 + 𝐵1′ 𝑥𝑙𝑡 + 𝐵2′ 𝑥2𝑡 + 𝜀2𝑡 [11.3.2]
Aquí 𝑥𝑙𝑡 es un vector [𝑛1 𝑝 x 1) que contiene rezagos de 𝑦𝑙𝑡 y el vector (n2p X 1) 𝑥2𝑡 , contiene
rezagos de 𝑦2𝑡 :
𝑦1.𝑡−1 𝑦2.𝑡−1
𝑦1.𝑡−2 𝑦2.𝑡−2
. .
𝑥1𝑡 ≡ . 𝑥2𝑡 ≡ .
. .
[𝑦1.𝑡−𝜌 ] [𝑦2.𝑡−𝜌 ]
Los vectores (𝑛1 x 1) y (𝑛2 X 1) 𝑐1 y 𝑐2 contienen los términos constantes del VAR, mientras que
las matrices 𝐴1 , 𝐴2 , 𝐵1 , y 𝐵2 Contienen los coeficientes autorregresivos.El grupo de variables
representado por> '] se dice que es exógeno de bloque en el sentido de la serie de tiempo con
respecto a las variables de 𝑦1 si los elementos de 𝑦2 no son de ninguna ayuda para mejorar una
predicción de cualquier variable contenida en y, es decir Basado en valores rezagados de todos los
elementos de 𝑦1 , atone. En el sistema de [11.3.1] y [11.3.2], y, es bloque-exógeno cuando 𝐴2 = 0.
Para discutir la estimación del sistema sujeto a esta restricción, primero notamos una forma
alternativa en la cual la probabilidad sin restricciones puede Ser calculado y maximizado
Una expresión alternativa para la función de verosimilitud

La Sección 11.1 calcula la función de verosimilitud logarítmica para un VAR utilizando la
descomposición de error de predicción
ℒ(𝜃) = ∑𝑇𝑡=1 log 𝑓𝑦 │𝑥 (𝑦𝑡 |𝑥𝑡 ; 𝜃) [11.3.3]

𝑡 𝑡
Donde
𝑦𝑡′ = (𝑦𝑙𝑡′ , 𝑦2𝑡
′ ), ′ ′
𝑥 𝑡 = (𝑦𝑡−1 ′
, 𝑦𝑡−2 ′
,. . . . , 𝑦𝑡−𝜌 ) 𝑦 log 𝑓𝑦 │𝑥 (𝑦𝑡 |𝑥𝑡 ; 𝜃)
𝑡 𝑡
𝑛1 +𝑛2 1 Ω Ω12
=− log(2𝜋) − log | 11 | [11.3.4]
2 2 Ω21 Ω22
1
− [(𝑦𝑙𝑡 − 𝑐1 − 𝐴′𝑙 𝑥𝑙𝑡 − 𝐴′2 𝑥2𝑡 )′ (𝑦2𝑡 − 𝑐2 − 𝐵𝑙′ 𝑥𝑙𝑡 − 𝐵2′ 𝑥2𝑡 )′ ]
2
Ω11 Ω12 −1 𝑦𝑙𝑡 − 𝑐1 − 𝐴′𝑙 𝑥𝑙𝑡 − 𝐴′2 𝑥2𝑡
𝑋[ ] [ ]
Ω21 Ω22 𝑦2𝑡 − 𝑐2 − 𝐵𝑙′ 𝑥𝑙𝑡 − 𝐵2′ 𝑥2𝑡
Alternativamente, la densidad de la junta en [11.3.4] podría escribirse como el producto de una
densidad marginal de𝑦1𝑡 con la densidad condicional de 𝑦2𝑡 dadas 𝑦𝑙𝑡
𝑓𝑌 │𝑥 (𝑦𝑡 |𝑥𝑡 ; 𝜃) = 𝑓𝑌 (𝑦𝑙𝑡 |𝑥𝑡 ; 𝜃). 𝑓𝑌 (𝑦2𝑡 |𝑦1𝑡 , 𝑥𝑡 ; 𝜃) [11.3.5]

𝑡 𝑡 𝑙𝑡 │𝑋𝑡 2𝑡 │𝑥𝑡
Condicionada a 𝑥𝑡 la densidad de𝑦𝑙𝑡 es
𝑓𝑌 (𝑦𝑙𝑡 |𝑥𝑡 ; 𝜃) = (2𝜋)−𝑛1⁄2 |Ω11 |−1⁄2 [11.3.6]

𝑙𝑡 │𝑋𝑡
1
𝑋 𝑒𝑥𝑝 [ [(𝑦𝑙𝑡 − 𝑐1 − 𝐴′𝑙 𝑥𝑙𝑡 − 𝐴′2 𝑥2𝑡 )′ Ω11 −1 𝑋 (𝑦𝑙𝑡 − 𝑐1 − 𝐴′𝑙 𝑥𝑙𝑡 − 𝐴′2 𝑥2𝑡 )]]
2
Mientras que la densidad condicional de 𝑦2𝑡 dada 𝑦1𝑡 , y 𝑥𝑡 es también gaussiana
11.3 Estimación de máxima verosimilitud de autorregressiones vectoriales restringidas

323
𝑓𝑌 (𝑦2𝑡 |𝑦1𝑡 , 𝑥𝑡 ; 𝜃) = (2𝜋)−𝑛2 ⁄2 |Η|−1⁄2 [11.3.7]
2𝑡 │𝑌𝑡 𝑥𝑡
1
𝑋 𝑒𝑥𝑝 [− (𝑦2𝑡 − 𝑚2𝑡 )′Η −1 (𝑦2𝑡 − 𝑚2𝑡 )]
2
Los parámetros de esta distribución condicional se pueden calcular utilizando los resultados de la
Sección 4.6. La varianza condicional viene dada por la ecuación [4.6.6]:
Η = Ω22 − Ω21 Ω11 −1 Ω12
Mientras que la media condicional (𝑚2𝑡 ) puede calcularse a partir de [4.6.5]:
𝑚2𝑡 = 𝐸(𝑦𝑡 |𝑥𝑡 ) + Ω21 Ω11 −1 [𝑦1𝑡 − 𝐸(𝑦1𝑡 |𝑥𝑡 )] [11.3.8]
Aviso de [11.3.1] que
𝐸(𝑦1𝑡 |𝑥𝑡 ) = 𝑐1 + 𝐴′𝑙 𝑥𝑙𝑡 + 𝐴′2 𝑥2𝑡
Aviso de [11.3.2]
𝐸(𝑦2𝑡 |𝑥𝑡 ) = 𝑐2 + 𝐵𝑙′ 𝑥𝑙𝑡 + 𝐵2′ 𝑥2𝑡

Sustituyendo estas expresiones en [11.3.8]
𝑚2𝑡 = (𝑐2 + 𝐵𝑙′ 𝑥𝑙𝑡 + 𝐵2′ 𝑥2𝑡 ) + Ω21 Ω11 −1 [𝑦1𝑡 − (𝑐1 + 𝐴′𝑙 𝑥𝑙𝑡 + 𝐴′2 𝑥2𝑡 )]
= 𝑑 + 𝐷0′ 𝑦1𝑡 + 𝐷1′ 𝑥1𝑡 + 𝐷2′ 𝑥2𝑡
Donde
𝑑 = 𝑐2 − Ω21 Ω11 −1 𝑐1 [11.3.9]
𝐷0′ = Ω21 Ω11 −1 [11.3.10]
𝐷1′ = 𝐵𝑙′ − Ω21 Ω11 −1 𝐴1′ [11.3.11]
𝐷2′ = 𝐵2′ − Ω21 Ω11 −1 𝐴′2 [11.3.12]
El logaritmo de la densidad conjunta en [11.3. 4] puede calcularse equivalentemente como la suma

de los registros de la densidad marginal [11.3.66] y la densidad condicional [11.3.7]:
log 𝑓𝑌𝑡|𝑋𝑡 (𝑦𝑡 |𝑥𝑡 ; 𝜃) = ℓ1𝑡 + ℓ2𝑡 [11.3.13]

Donde
1
ℓ1t = (−n1 ⁄2) log(2π) − 2 log |𝛀𝟏𝟏 | [11.3.14]
1
− [(y1t − c1 − A′1t x1t − A′2 x2t )′ 𝛀11
−1 (y ′ ′
1t − c1 − A1t x1t − A2 x2t )]
2
1
ℓ2t = (−n2 ⁄2) log(2π) − log |𝐇| [11.3.15]
2

1
− [y2t − 𝐝 − 𝐃′𝟎 𝐲𝟏𝐭 − 𝐃′𝟏 𝐱 𝟏𝐭 − 𝐃′𝟐 𝐲𝟐𝐭 )′𝐇 −𝟏
2
×(y2t − 𝐝 − 𝐃′𝟎 𝐲𝟏𝐭 − 𝐃′𝟏 𝐱𝟏𝐭 − 𝐃′𝟐 𝐲𝟐𝐭 )]
La probabilidad de log de muestra se expresaría entonces como

ℒ(𝜃) = ∑𝑇𝑡=1 ℓ1𝑡 + ∑𝑇𝑡=1 ℓ𝑡
[11.3.16]
Las ecuaciones [11.3.4] y [11.3.13] son dos expresiones diferentes para la misma magnitud.
Mientras los parámetros en la segunda representación estén relacionados con los de la primera
como en [11.3.9] a través de [11.3.12], cualquiera de los cálculos produciría el valor idéntico para la
verosimilitud. Si [11.3.3] se maximiza mediante la elección de
(𝐜𝟏 , 𝐀𝟏 , 𝐀𝟐 , 𝐜𝟐 , 𝐁𝟐 , 𝐁𝟐 , 𝛀𝟏𝟏 , 𝛀𝟏𝟐 , 𝛀𝟏𝟐 ), el mismo valor para la probabilidad se verá como
maximizando [11.3.16] por elección de (𝐜𝟏 , 𝐀𝟏 , 𝐀𝟐 , 𝐝, 𝐃𝟎, , 𝐃𝟏 , 𝐃𝟐 , 𝛀𝟏𝟏 , 𝐇).
La segunda maximización es tan fácil de lograr como la primera, ya que los parámetros (c₁,
A₁, A₂) aparecen en [11.3.16] sólo a través de ∑𝑇𝑡=1 ℓ1 los MLEs de estos parámetros pueden
encontrarse mediante regresiones de la OLS de los y₁, sobre valores constantes y rezagados de y₁ y
y₂, es decir, mediante la estimación
y1t = c1 + A′1 x1t + A′2 x2t + 𝛆𝟏𝐭 [11.3.17]
El MLE de 𝛀𝟏𝟏 es la matriz de varianza-covarianza muestral de los residuos de estas regresiones,
̂ 𝟏𝟏 = (𝟏⁄𝟐) ∑𝐓𝐭=𝟏 𝛆̂𝟏𝐭 𝛆̂′𝟏𝐭 .Similarmente, los parámetros (𝐝, 𝐃𝟎, , 𝐃𝟏, , 𝐃𝟐 ) aparecen en [11.3.16]
𝛀
sólo ∑𝑇𝑡=1 ℓ2 , y por lo tanto su MLEs se obtienen a partir de regresiones OLS de los elementos de
𝑦2𝑡 , en una constante, valores actuales y rezagados de 𝑦1 , y valores rezagados de 𝑦2 :
𝐲𝟐𝐭 = 𝐝 + 𝐃′𝟎 𝐲𝟏𝐭 + 𝐃′𝟏 𝐱𝟏𝐭 + 𝐃′𝟐 𝐱𝟐𝐭 + 𝐯𝟐𝐭 [11.3.18]

El MLE de H es la matriz varianza-covarianza de la muestra de los residuos de este segundo
̂ = (𝟏⁄𝐓) ∑𝐓𝐭=𝟏 𝐯̂𝟐𝐭 𝐯̂𝟐𝐭
conjunto de regresiones, 𝐇 ′
Obsérvese que los residuos de la población asociados con el segundo conjunto de

regresiones, 𝑣2𝑡 no están correlacionadas con los residuos poblacionales de las primeras
regresiones.
Esto es porque 𝑣2𝑡 = 𝑦2𝑡 − 𝐸(𝑦2𝑡 |𝑦1𝑡 , 𝑥𝑡 ) no está correlacionada por la construcción con 𝑦1𝑡 y
𝑥𝑡 , mientras 𝜀1𝑡 , es una función lineal de 𝑦1𝑡 y 𝑥𝑡 . De manera similar, los residuos de la muestra
de MCO asociados con las segundas regresiones,
𝐯̂𝟐𝐭 ≡ 𝐲𝟐𝐭 − 𝐝̂ − 𝐃
̂ ′𝟎 𝐲𝟏𝐭 − 𝐃
̂ ′𝟏 𝐱𝟏𝐭 − 𝐃
̂ ′𝟐 𝐱𝟐𝐭
Son ortogonales por construcción a 𝑦1𝑡 , un término constante, y 𝑥𝑡 . Dado que los residuos de la
muestra de OLS asociados con las primeras regresiones, 𝜀̂1𝑡 son funciones lineales de estos mismos
elementos, 𝑣̂2𝑡 es ortogonal por construcción a 𝜀̂1𝑡 .
Estimación de máxima verosimilitud de un VAR caracterizado por

Bloques Exógenos
Considerar la estimación de máxima verosimilitud del sistema sujeto a la restricción que
A2 = 0. Supongamos que vemos (𝐝, 𝐃𝟎 , 𝐃𝟏 , 𝐃𝟐 , 𝐇) más bien que (𝐜, 𝐁𝟏 , 𝐁𝟐 , 𝛀𝟐𝟏 , 𝛀𝟐𝟐 ) como los
parámetros de interés para la segunda ecuación y llevamos nuestro objetivo a ser elegir valores para
(𝐜𝟏 , 𝐀𝟏 , 𝛀𝟏𝟏 , 𝐝, 𝐃𝟎 , 𝐃𝟏 , 𝐃𝟐 , 𝐇) para maximizar la función de verosimilitud. Para esta
parametrización, el valor de 𝐀𝟐 no afecta al valor de ℓ2 , en [11.3.15]. Por lo tanto, las estimaciones
de máxima verosimilitud son 𝐜𝟏 , 𝐀𝟏 y 𝛀𝟏𝟏 puede basarse únicamente en una versión restringida de
las regresiones en [11.3.17]
y1t = c1 + A′1 x1t + 𝛆𝟏𝐭 [11.3.19]
325
̂ 1 (0), Ω
Dejar ĉ1 (0), A ̂ 11 (0) denota las estimaciones de estas regresiones restringidas. Las
estimaciones de máxima verosimilitud de los otros parámetros del sistema
(𝐝, 𝐃𝟎 , 𝐃𝟏 , 𝐃𝟐 , 𝐇) continúan siendo proporcionados por una estimación de OLS sin restricciones
de [11.3.18], con estimaciones denotadas (𝐝̂, 𝐃 ̂ 𝟎, 𝐃
̂ 𝟏, 𝐃
̂ 𝟏, 𝐇
̂) .
El valor máximo alcanzado para la función de verosimilitud se puede encontrar aplicando
[11.1.32] a [11.3.13]:
𝑇 𝑇
ℒ[𝜃̂(0)] = ∑ ℓ1𝑡 [ĉ1 (0), A ̂ 11 (0)] + ∑ ℓ2𝑡 [𝐝̂, 𝐃

̂ 1 (0), Ω ̂ 𝟎, 𝐃
̂ 𝟏, 𝐃
̂ 𝟐, 𝐇
̂]
𝑡=1 𝑡=1
= [−(𝑇𝑛1 ⁄2) log(2𝜋) + (𝑇⁄2) log|𝛀̂ 11
′
| − (𝑇𝑛1 ⁄2)] [11.3.20]
̂ −𝟏
+[−(𝑇𝑛2 ⁄2) log(2𝜋) + (𝑇⁄2) log|𝐇 | − (𝑇𝑛2 ⁄2)]
Por el contrario, cuando el sistema se estima sin restricciones A₂, el valor alcanzado para la
probabilidad de logaritmo es
𝑇 𝑇
ℒ[𝜃̂] = ∑ ℓ1𝑡 [𝒄̂𝟏 , 𝐀

̂ 𝟏, 𝐀 ̂ 𝟏𝟏 ] + ∑ ℓ2 [𝐝̂, 𝐃
̂ 𝟐, 𝛀 ̂ 𝟎, 𝐃
̂ 𝟏, 𝐃
̂ 𝟐, 𝐇
̂]
𝑡=1 𝑡=1
= [−(𝑇𝑛1 ⁄2) log(2𝜋) + (𝑇⁄2) log|𝛀̂ 11
′
| − (𝑇𝑛1 ⁄2)]
[11.3.21]
̂ −𝟏 | − (𝑇𝑛2 ⁄2)]
+[−(𝑇𝑛2 ⁄2) log(2𝜋) + (𝑇⁄2) log|𝐇
̂ 𝟏, 𝐀
Dónde (𝒄̂𝟏 , 𝐀 ̂ 𝟏𝟏 ) denota estimaciones basadas en la estimación de OLS de [11.3.17]. Una
̂ 𝟐, 𝛀
prueba de razón de verosimilitud de la hipótesis nula de que A₂ puede basarse en
2{ℒ[𝜃̂] − ℒ[𝜃̂(0)]} = 𝑇{log|𝛀 ̂ −𝟏 ̂ −𝟏

𝟏𝟏 | − log |𝛀𝟏𝟏 (0)|} [11.3.22]
= 𝑇{log|𝛀̂ 𝟏𝟏 (0)| − log |𝛀
̂ 𝟏𝟏 |}
Esto tendrá un asintótico 𝑋 2 distribución con grados de libertad igual al número de restricciones. Ya
que A2 es un (𝑛1 × 𝑛2 𝑝) matriz, el número de restricciones es 𝑛1 𝑛2 𝑝.
Así, para probar la hipótesis nula de que la n₁ variables representadas por y₁ son exógenos
de bloque con respecto a la 𝑛2 variables representadas por 𝑦2 , realizar las regresiones OLS de cada
uno de los 𝑦1 . En una constante, 𝑝 rezagos de todos los elementos de 𝑦1 , y 𝑝 rezagos de todos los
elementos de 𝑦2 . Dejar 𝜀̂1 , denotan el (𝑛1 ×1) vector de residuos de muestra para la fecha 𝑡 de
estas regresiones y 𝛀 ̂ 𝟏𝟏 , su matriz de varianza-covarianza (𝛀 ̂ 𝟏𝟏 = (1⁄𝑇) ∑𝑇𝑡=1 𝜀̂1𝑡 𝜀̂1𝑡
′
). A
continuación, realizar las regresiones OLS de cada uno de los elementos de 𝑦1 sobre una constante
𝑝 rezagos de todos los elementos de 𝑦1 . Dejar 𝜀̂1 (0) denotan el (𝑛1 ×1) vector de residuos de
muestra de este segundo conjunto de regresiones y 𝛀 ̂ 𝟏𝟏 (0) su matriz de varianza-covarianza
̂ 𝟏𝟏 (0) = (1⁄𝑇) ∑𝑡=1[𝜀̂1𝑡 (0)][𝜀̂1𝑡 (0)] ) .
(𝛀 𝑇 ′
Si
𝑇{log|𝛀 ̂ 𝟏𝟏 (0)| − log |𝛀
̂ 𝟏𝟏 |}
Es mayor que el valor crítico del 5% para un 𝑋 2 (𝑛1 𝑛2 𝑝) variable, entonces la hipótesis nula es
rechazada, y la conclusión es que algunos de los elementos de 𝑦2 son útiles para pronosticar 𝑦1 .
Por lo tanto, si nuestro interés está en la estimación de los parámetros
(𝐜𝟏 , 𝐀𝟏 , 𝛀𝟏𝟏 , 𝐝, 𝐃𝟎 , 𝐃𝟏 , 𝐃𝟐 , 𝐇) o probar una hipótesis sobre la exogeneidad de bloques, todo lo
que es necesario es la regresión OLS en las ecuaciones afectados. Supongamos, sin embargo, que
queríamos estimaciones de máxima verosimilitud de la información completa de los parámetros de
la verosimilitud según se parametrizó originalmente (𝐜𝟏 , 𝐀𝟏 , 𝛀𝟏𝟏 , 𝐜𝟐 , 𝐁𝟏 , 𝐁𝟐 , 𝛀𝟐𝟏 , 𝛀𝟑𝟏 ).
Para los parámetros del primer bloque de ecuaciones (𝐜𝟏 , 𝐀𝟏 , 𝛀𝟏𝟏 ). Las leyes siguen siendo dadas
por OLS estimación de [11.3.19]. Los parámetros del segundo bloque se pueden encontrar a partir
de las estimaciones OLS invirtiendo las ecuaciones [11.3.9] a [11.3.12]:9
̂ 21 (0) = D
Ω ̂ ′0 [Ω
̂ 11 (0)]

ĉ2 (0) = d̂ + [Ω̂ 21 (0)][Ω̂ 11 (0)]−1 [ĉ1 (0)]
̂1 (0)]′ = D
[B ̂ 1′ + [Ω
̂ 21 (0)][Ω̂ 11 (0)]−1 [Â1 (0)]′
̂2 (0)]′ = D
[B ̂ ′2
̂ 22 (0) = H
Ω ̂ + [Ω ̂ 11 (0)]−1 [Ω
̂ 21 (0)][Ω ̂ 12 (0)]
Por lo tanto, las estimaciones de máxima verosimilitud para la parametrización original de [11.3.2]
se encuentran a partir de estas ecuaciones combinando las estimaciones de OLS de [11.3.9] y
[11.3.18]
Medida de la Dependencia Lineal

La subsección anterior modeló la relación entre un (𝑛1 ×1) vector 𝑦1 y un (𝑛2 ×1) vector
y₂ in términos de la VAR de orden p [11.3.1] y [11.3.2], donde las innovaciones tienen una matriz
de varianza-covarianza dada por
𝜀 𝜀 ′ 𝜀1𝑡 𝜀2𝑡 ′
𝛺11 𝛺12
𝐸 [ 1𝑡 1𝑡
′ ′ ] = [𝛺 ]
𝜀2𝑡 𝜀1𝑡 𝜀2𝑡 𝜀2𝑡 21 𝛺22
Para probar la hipótesis nula que 𝑦1 es bloque exógeno con respecto a 𝑦2 , propusimos el cálculo de
la estadística en [11.3.22]
𝑇{log |𝛺̂11 (0)| − log |𝛺̂11 |} ≈ 𝑋 2 (𝑛1 𝑛2 𝑝) [11.3.23]
Donde 𝛺̂11 es la matriz de varianza-covarianza de los residuos de la estimación de OLS de [11.3.1]
y 𝛺̂11 (0)es la matriz de varianza-covarianza de los residuos de la estimación de OLS de [11.3.1]
cuando los valores rezagados de 𝑦2 son omitidos de la regresión (es decir, cuando A₂=0 en
[11.3.1]). Claramente, para probar la hipótesis nula paralela que 𝑦2 ese bloque exógeno con respecto
a 𝑦1 , nosotros calcularíamos
𝑇{log |𝛺̂22 (0)| − log |𝛺̂22 |} ≈ 𝑋 2 (𝑛2 𝑛1 𝑝) [11.3.24]
̂
Donde 𝛺22 es la matriz de varianza-covarianza de los residuos de la estimación de OLS de [11.3.2]
y 𝛺̂22 (0) es la matriz de varianza-covarianza de los residuos de la estimación de OLS de [11.3.2]
cuando los valores rezagados de y₁ son omitidos de la regresión (es decir, cuando 𝐵1 = 0 en
[11.3.2]).
Finalmente, considere la estimación de máxima verosimilitud del VAR sujeto a la restricción
de que no existe relación alguna entre 𝑦1 y 𝑦2 , es decir, sujeto
9 Para ̂ (0) es simétrica y positiva definida,
confirmar que la estimación resultante Ω
̂ 𝟐𝟐 (𝟎) = 𝐇
𝛀 ̂ +𝐃 ̂ 𝟏𝟏 (𝟎)]𝐃
̂ ′𝟎 [𝛀 ̂𝟎
Y entonces
𝜴𝟏𝟏 (𝟎) 𝜴𝟏𝟐 (𝟎) 𝑰 𝒏𝟏 𝟎 ̂ 𝟏𝟏 (𝟎)

𝛀 𝟎 𝑰 𝒏𝟏 ̂𝟎
𝐃
[ ] = [̂′ ][ ][ ]
𝜴𝟐𝟏 (𝟎) 𝜴𝟐𝟐 (𝟎) 𝐃𝟎 𝑰 𝒏𝟐 𝟎 ̂ 𝟎
𝐇 𝑰𝒏𝟐
a las restricciones que A2 = 0, B1 =0 y Ω21 = 0. Para esta especificación más restringida, la

probabilidad de registro se convierte en
𝛵
ℒ(𝜃) = ∑{−(𝑛1 ⁄2) log(2𝜋) − (1⁄2) log|𝛺11 |

𝑇=1
−(1⁄2)(y1t − c1 − A′1 x1t )′ 𝛺11

−1
(y1t − c1 − A′1 x1t )}
𝑇
+ ∑{−(𝑛2 ⁄2) log(2𝜋) − (1⁄2) log|𝛺22 |

𝑡=1
−(1⁄2)(y2t − c2 − B2′ x2t )′ 𝛺22
−1
(y2t − c2 − B2′ x2t )}
Y el valor maximizado es

327
ℒ (𝜃̂(0)) = {−(𝑇𝑛1 ⁄2) log(2𝜋) − (𝑇⁄2) log|𝛺̂11 (0)| − (𝑇𝑛1 ⁄2)}
+{−(𝑇𝑛2 ⁄2) log(2𝜋) − (𝑇⁄2) log|𝛺̂22 (0)| − (𝑇𝑛1 ⁄2)}
Una prueba de razón de verosimilitud de la hipótesis nula de ninguna relación en absoluto entre 𝑦1
y 𝑦2 está así dada por
2{ℒ(𝜃̂) − ℒ (𝜃̂(0))}
𝛺̂ 𝛺̂12
= 𝑇 {log|𝛺̂11 (0)| + log|𝛺̂22 (0)| − log | 11 |}
𝛺̂21 𝛺̂22
[11.3.25]
Donde Ω ̂ 12 es la matriz de covarianza entre los residuos de la estimación de OLS sin restricciones
de [11.3.1] y [11.3.2]. Esta hipótesis nula impuso (𝑛1 𝑛2 𝑝) restricciones que 𝐴2 = 0, restricciones
(𝑛2 𝑛1 𝑝) restricciones 𝐵1 = 0 y las (𝑛2 𝑛1 ) restricciones que 𝛺21 . Por lo tanto, la estadística en
[11.3.25] tiene una 𝑋 2 distribución con (𝑛1 𝑛2 )×(2𝑝 + 1) grados de libertad
Geweke (1982) propuso (1⁄𝑇) veces la magnitud en [11.3.25] como una medida del grado de
dependencia lineal entre 𝑦1 y 𝑦2 . Obsérvese que [11.3.25] puede expresarse como la suma de los
tres términos:
𝛺̂ 𝛺̂12
= 𝑇 {log|𝛺̂11 (0)| + log|𝛺̂22 (0)| − log | 11 |}
𝛺̂21 𝛺̂22
= 𝑇{log|𝛺̂11 (0)| + log|𝛺̂11 |} + {log|𝛺̂22 (0)| + log|𝛺̂22 |} [11.3.26]
𝛺̂11 𝛺̂12
+𝑇 {log|𝛺̂11 | + log|𝛺̂22 | − log | |}
𝛺̂21 𝛺̂22
El primero de estos tres términos, 𝑇{log|𝛺̂11 (0)| + log|𝛺̂11 |} es una medida de la fuerza de la
retroalimentación lineal de 𝑦2 a 𝑦1 y es la 𝑋 2 (𝑛1 𝑛2 𝑝) estadística calculada en [11.3.23]. El segundo
término, 𝑇{log|𝛺̂22 (0)| + log|𝛺̂22 |} es una medida análoga de la fuerza de la retroalimentación
lineal de 𝑦1 a 𝑦2 y es la 𝑋 2 (𝑛1 𝑛2 𝑝) estadística en [11.3.25]. El tercer término.
𝛺̂ 𝛺̂12
𝑇 {log|𝛺̂11 | + log|𝛺̂22 | − log | 11 |}
𝛺21 𝛺̂22
̂
Es una medida de retroalimentación instantánea. Esto corresponde a una prueba de razón de
verosimilitud de la hipótesis nula que 𝛀𝟐𝟏 = 𝟎 con A2 y 𝐁𝟏 , sin restricciones y tiene un 𝑋 2 (𝑛1 𝑛2 )
distribución bajo el nulo.
Así, [11.3.26] se puede utilizar para resumir la fuerza de cualquier relación lineal entre 𝑦1 y
𝑦2 e identificar la fuente de la relación. Geweke demostró cómo estas medidas pueden ser más
descompuestas por la frecuencia.
Estimación de máxima verosimilitud bajo restricciones generales de

coeficientes
Ahora discutimos la estimación de máxima verosimilitud de una autoregresión vectorial en
la que hay restricciones que no pueden expresarse en una forma recursiva en bloque como en el
ejemplo anterior. Un VAR sujeto a restricciones generales de exclusión puede ser visto como un
sistema de "regresiones aparentemente no relacionadas" como analizado originalmente por Zellner
(1962).
Dejar 𝑥1 , ser un (𝑘1 ×1) vector que contiene un término constante y retrasos de las
variables que aparecen en la primera ecuación de la VAR:
′
𝑦1𝑡 = 𝑥1𝑡 𝛽1 + 𝜀1𝑡
Similarmente, x₂ denote un (𝑘1 ×1) vector que contiene las variables explicativas para la segunda
ecuación 𝑥𝑛𝑡 y vector (𝑘𝑛 ×1) que contiene las variables de la última ecuación. Por lo tanto, la
VAR consiste en el sistema de ecuaciones
′
𝑦1𝑡 = 𝑥1𝑡 𝛽1 + 𝜀1𝑡

′
𝑦2𝑡 = 𝑥2𝑡 𝛽2 + 𝜀2𝑡 [11.3.27]
⋮
′
𝑦𝑛𝑡 = 𝑥𝑛𝑡 𝛽𝑛 + 𝜀𝑛𝑡
Dejar 𝑘 = 𝑘1 + 𝑘2 + ⋯ + 𝑘𝑛 denota el número total de coeficientes a estimar, y recogen estos en

un (𝑘×1) vector:
𝛽1
𝛽
𝛃 = [ 2]
⋮
𝛽𝑛
Entonces el sistema de ecuaciones en [11.3.27] Puede escribirse en forma vectorial como
𝑦𝑡 = ℒ𝑡′ 𝛽 + 𝜀𝑡 [11.3.28]
Dónde 𝐿′𝑡 es la matriz siguiente (𝑛×𝑘):
′ ′
𝑥1𝑡 𝑥1𝑡 0′ ⋯ 0′
𝑥′ 0′ ′
𝑥2𝑡 … 0′
ℒ ′ = [ 2𝑡 ] = [ ]
⋮ ⋮ ⋮ ⋱ ⋮
′ ′
𝑥𝑛𝑡 0′ 0′ ⋯ 𝑥𝑛𝑡
′
Así, 𝑥𝑗𝑡 se define como un vector (1×𝑘) que contiene el 𝑘𝑖 variables explicativas para ecuaciones
𝑖, con ceros agregados de manera que sean conformes (𝑘×1) con el vector 𝛃.
El objetivo es elegir 𝛃 y 𝛀 con el fin de maximizar la función de probabilidad de logaritmos
ℒ(𝛃, Ω) = −(𝑻𝒏 ⁄𝟐) 𝐥𝐨𝐠(𝟐𝝅) + (𝑻⁄𝟐) 𝐥𝐨𝐠 |𝛀−𝟏 |
−(𝑇⁄2) ∑𝑇𝑡=1(𝑦𝑡 − ℒ𝑡′ 𝛃)′𝛀−𝟏 (𝑦𝑡 − ℒ𝑡′ 𝛃) [11.3.29]
Esto requiere elegir β para minimizar
∑𝑇𝑡=1(𝑦𝑡 − ℒ𝑡′ 𝛃)′𝛀−𝟏 (𝑦𝑡 − ℒ𝑡′ 𝛃) [11.3.30]
Si 𝛀−𝟏 está escrito como 𝐋′ 𝐋 esto se convierte

𝑇 𝑇
′ ′ 1 (𝑦
∑(𝑦 − ℒ 𝛽) Ω⎺ − ℒ 𝛽) = ∑(𝐿𝑦 − 𝐿ℒ ′ 𝛽)′(𝐿𝑦 − 𝐿ℒ ′ 𝛽)
′
𝑡=1 𝑡=1
= ∑𝑇𝑡=1(𝑦̅ − ℒ̅′𝛽)′(𝑦̅ − ℒ̅ ′ 𝛽) [11.3.31]
Donde 𝑦̅ = 𝐿𝑦, y
𝑥̅1𝑡
𝑥̅
ℒ̅ ′ = 𝐿ℒ ′ = [ 2𝑡 ]
⋮
𝑥̅𝑛𝑡
Pero [11.3.31] es simplemente
𝑇
∑(𝑦̅ − ℒ̅′𝛽)′(𝑦̅ − ℒ̅ ′ 𝛽)
𝑡=1
′ ′ ′
𝑦̅1𝑡 − 𝑥̅1𝑡
𝑇 𝛽 𝑦̅1𝑡 − 𝑥̅1𝑡 𝛽
′ ′
𝑦̅ − 𝑥̅2𝑡 𝛽 𝑦̅ − 𝑥̅2𝑡 𝛽
= ∑ [ 2𝑡 ] [ 2𝑡 ]
⋮ ⋮
𝑡=1 ′ ′
𝑦̅𝑛𝑡 − 𝑥̅𝑛𝑡 𝛽 𝑦̅𝑛𝑡 − 𝑥̅𝑛𝑡 𝛽

329
𝑇
′ ′
= ∑[(𝑦̅1𝑡 − 𝑥̅1𝑡 𝛽)2 + (𝑦̅2𝑡 − 𝑥̅2𝑡 𝛽)2 + ⋯ + (𝑦̅𝑛𝑡 − 𝑥̅𝑛𝑡
′
𝛽)2 ]
𝑡=1
Que se minimiza mediante una regresión MCO de 𝑦̅𝑗𝑡 con 𝑥̅𝑗𝑡 , agrupando todas las ecuaciones (𝑖 =
1, 2, … , 𝑛) en una gran regresión. Por lo tanto, la estimación de máxima probabilidad es dada por
̂ = {∑𝑇𝑡=1[(𝑥̅1𝑡 𝑥̅1𝑡
𝛃 ′ ) ′ )
+ (𝑥̅2𝑡 𝑥̅2𝑡 ′ )]}−1
+ ⋯ + (𝑥̅𝑛𝑡 𝑥̅𝑛𝑡 [11.3.32]
𝑇
× {∑[(𝑥̅1𝑡 𝑦̅1𝑡 ) + (𝑥̅2𝑡 𝑦̅2𝑡 ) + ⋯ + (𝑥̅𝑛𝑡 𝑦̅𝑛𝑡 )]}

𝑡=1
Nada que la varianza del residuo de esta regresión agrupada en unidad por construcción,
10la ̂ puede calcularse a partir de
matriz de varianza-covarianza asintótica de 𝛃
𝑇 −1
′
̂ − 𝛃)(𝛃
𝐸(𝛃 ̂ − 𝛃) = {∑[(𝑥̅1𝑡 𝑥̅1𝑡
′ ) ′ )
+ (𝑥̅2𝑡 𝑥̅2𝑡 ′ )]
+ ⋯ + (𝑥̅𝑛𝑡 𝑥̅𝑛𝑡 }
𝑡=1
Construcción de las variables 𝑦̅ y 𝑥̅ para usar en esta regresión OLS agrupada requiere
conocimiento de L y Ω. Los parámetros en 𝛃 y Ω pueden estimarse conjuntamente por máxima
verosimilitud mediante el siguiente procedimiento iterativo. De las 𝑛 regresiones de OLS de 𝑦𝑗𝑡 y
𝑥𝑗𝑡 , forman una estimación inicial del vector de coeficientes
𝛽̂ (0) = (𝑏1′ 𝑏2′ ⋯ 𝑏𝑛′ )

.
Utilice esto para formar una estimación inicial de la matriz de varianza.
𝑇
′
𝛺̂(0) = (1⁄𝑇) ∑[𝑦𝑡 − ℒ𝑡′ 𝛽̂ (0)][𝑦𝑡 − ℒ𝑡′ 𝛽̂ (0)]
𝑡=1
Encuentra una matriz 𝐋 ̂ (𝟎) tal manera que [𝐋 ̂ (𝟎)′ ]𝐋 ̂ (𝟎)]−𝟏 , digamos, por la factorización
̂ (𝟎) = [𝛀
de Cholesky, y la forma 𝑦̅(0) = 𝐿̂(0)𝑦𝑡 . Una regresión OLS agrupada de 𝑖 = 1, 2, … , 𝑛 produce
la nueva estimación 𝛽̂ (1), desde el cual
′
̂ 𝑻 ̅ ′ ̂ ̅ ′ ̂
𝜴(𝟏) = (𝟏⁄𝑻) ∑𝒕=𝟏[𝒚𝒕 − 𝓛𝒕 𝜷(𝟏)][𝒚 − 𝓛𝒕 𝜷(𝟏)] . Iterar de esta manera producirá las
estimaciones de máxima probabilidad (𝛃 ̂, 𝛀
̂ ) aunque la estimación después de una sola iteración
tiene la misma distribución asintótica que el MLE final (véase Magnus, 1978).
Una expresión alternativa para el MLE en [11.3.32] se utiliza a veces. Darse cuenta de
′ )
[(𝑥̅1𝑡 𝑥̅1𝑡 ′ ) ′ )]
+ (𝑥̅2𝑡 𝑥̅2𝑡 + ⋯ + (𝑥̅𝑛𝑡 𝑥̅𝑛𝑡
′
𝑥̅1𝑡
′
= [𝑥̅1𝑡 𝑥̅2𝑡 … 𝑥̅𝑛𝑡 ] [𝑥̅2𝑡 ]
⋮
′
𝑥̅𝑛𝑡
̅𝐭𝓛
=𝓛 ̅ ′𝐭
̅ 𝐭 𝐋′ 𝐋𝓛
=𝓛 ̅ ′𝐭 [11.3.33]
′
𝒙𝟏𝒕 𝟎 … 𝟎 𝝈𝟏𝟏 𝝈𝟏𝟐 … 𝝈𝟏𝒏 𝒙𝟏𝒕 𝟎′ … 𝟎′
𝟎 𝒙𝟐𝒕 … 𝟎 𝝈𝟐𝟏 𝝈𝟐𝟐 … 𝝈𝟐𝒏 ] 𝟎′ 𝒙′𝟐𝒕 … 𝟎′
=[ ][
⋮ ⋮ … ⋮ ⋮ ⋮ … ⋮ ⋮ ⋮ … ⋮
𝟎 𝟎 … 𝒙𝒏𝒕 𝝈𝒏𝟏 𝝈𝒏𝟐 … 𝝈 𝒏𝒏 [ 𝟎′ 𝟎′ … 𝒙′𝒏𝒕 ]

𝜎 11 𝒙𝟏𝒕 𝒙′𝟏𝒕 𝜎 12 𝒙𝟏𝒕 𝒙′𝟐𝒕 … 𝜎 1𝑛 𝒙𝟏𝒕 𝒙′𝒏𝒕
′
21
= 𝜎 𝒙𝟐𝒕 𝒙𝟏𝒕 𝜎 22 𝒙𝟐𝒕 𝒙′𝟐𝒕 … 𝜎 2𝑛 𝒙𝟐𝒕 𝒙′𝒏𝒕
⋮ ⋮ … ⋮
[𝜎 𝑛1 𝒙𝒏𝒕 𝒙′𝟏𝒕 𝜎 𝑛2 𝒙𝒏𝒕 𝒙′𝟐𝒕 … 𝜎 𝑛𝑛 𝒙𝒏𝒕 𝒙′𝒏𝒕 ]
Donde 𝜎 𝑖𝑗 denota la fila i, columna j elemento de 𝛀−𝟏 . Similar,

[(𝑥̅1𝑡 𝑦̅1𝑡 ) + (𝑥̅2𝑡 𝑦̅2𝑡 ) + ⋯ + (𝑥̅𝑛𝑡 𝑦̅𝑛𝑡 )]
′
𝑦̅1𝑡
′
= [𝑥̅1𝑡 𝑥̅2𝑡 … 𝑥̅𝑛𝑡 ] [𝑦̅2𝑡 ]
⋮
′
𝑦̅𝑛𝑡
=𝓛 ̅ 𝐭 𝐋 𝐋𝒚𝒕
′
𝒙𝟏𝒕 𝟎 … 𝟎 𝝈𝟏𝟏 𝝈𝟏𝟐 … 𝝈𝟏𝒏 𝑦1𝑡

=[
𝟎 𝒙𝟐𝒕 … 𝟎 𝝈𝟐𝟏
][ 𝝈𝟐𝟐 … 𝝈𝟐𝒏 ] [𝑦2𝑡 ] [11.3.34]
⋮ ⋮ … ⋮ ⋮ ⋮ … ⋮ ⋮
𝟎 𝟎 … 𝒙𝒏𝒕 𝝈𝒏𝟏 𝒏𝒏 𝑦𝑛𝑡
𝝈𝒏𝟐 … 𝝈
𝜎 11 𝒙𝟏𝒕 𝑦1𝑡 + 𝜎 12 𝒙𝟏𝒕 𝑦2𝑡 + ⋯ + 𝜎 1𝑛 𝒙𝟏𝒕 𝑦𝑛𝑡
21 22 2𝑛
= 𝜎 𝒙𝟐𝒕 𝑦1𝑡 + 𝜎 𝒙𝟐𝒕 𝑦2𝑡 + ⋯ + 𝜎 𝒙𝟐𝒕 𝑦𝑛𝑡
⋮
[𝜎 𝑛1 𝒙𝒏𝒕 𝑦1𝑡 + 𝜎 𝑛2 𝒙𝒏𝒕 𝑦2𝑡 + ⋯ + 𝜎 𝑛𝑛 𝒙𝒏𝒕 𝑦𝑛𝑡 ]
Sustituyendo [11.3.33] y [11.3.34] en [11.3.32], la MLE satisface
′ ′ −1
𝜎 11 Σx1𝑡 x1𝑡 𝜎 12 Σx1𝑡 x2𝑡 … 𝜎 1𝑛 Σx1𝑡 x𝑛𝑡
′
21 ′ ′
̂ = 𝜎 Σx𝑛𝑡 x1𝑡
𝛃 𝜎 22 Σx2𝑡 x2𝑡 … 𝜎 2𝑛 Σx2𝑡 x𝑛𝑡
′
[11.3.35]
⋮ ⋮ … ⋮
′
[𝜎 𝑛1 Σx𝑛𝑡 x1𝑡 ′
𝜎 𝑛2 Σx𝑛𝑡 x2𝑡 … 𝜎 𝑛𝑛 Σx𝑛𝑡 x𝑛𝑡
′
]
′ ′
Σ(𝜎 11 x1𝑡 x1𝑡 + 𝜎 12 x1𝑡 x2𝑡 + ⋯ + 𝜎 1𝑛 x1𝑡 x𝑛𝑡
′ )
21 ′ 22 ′ 2𝑛 ′
× Σ(𝜎 x𝑛𝑡 x1𝑡 + 𝜎 x2𝑡 x2𝑡 + ⋯ + 𝜎 x2𝑡 x𝑛𝑡 )
⋮
𝑛1 ′ 𝑛2 ′ 𝑛𝑛 ′
[Σ(𝜎 x x
𝑛𝑡 1𝑡 + 𝜎 x 𝑛𝑡 x2𝑡 + ⋯ + 𝜎 x𝑛𝑡 x𝑛𝑡 )]
Donde denota Σ sobre 𝑡 = 1, 2, … , 𝑇.

El resultado de la Sección 11.1 fue cuando no hay restricciones sobre el VAR, la
estimación de máxima verosimilitud se logra mediante ecuación de OLS.
Este resultado puede ser visto como un caso especial de [11.3.35] estableciendo 𝑥1𝑡 = 𝑥2𝑡 = ⋯ =
𝑥𝑛𝑡 para entonces [11.3.35] se convierte
̂ = [𝛀−1 ⊗ (Σx𝑡 x𝑡′ )]−1 Σ[(𝛀−1 𝑦𝑡 ) ⊗ x𝑡 ]
𝛃
= [𝛀 ⊗ (Σx𝑡 x𝑡′ )−1 ]Σ[(𝛀−1 𝑦𝑡 ) ⊗ x𝑡 ]
= [𝐈𝑛 ⊗ (Σx𝑡 x𝑡′ )−1 ]Σ[𝑦𝑡 ⊗ x𝑡 ]
(Σx𝑡 x𝑡′ )−1 0 … 0 Σ𝑦1𝑡 x𝑡

0 (Σx𝑡 x𝑡′ )−1 … 0 Σ𝑦2𝑡 x𝑡
= [ ]
⋮ ⋮ … ⋮ ⋮
[ 0 0 … (Σx𝑡 x𝑡′ )−1 ] Σ𝑦𝑛𝑡 x𝑡

331
𝐛1
𝐛2
=[ ]
⋮
𝐛𝑛
Como se muestra directamente en la Sección 11.1.
La estimación de máxima verosimilitud con restricciones tanto en los coeficientes como en

la matriz de varianza-covarianza fue discutida por Magnus (1978).
11.4. La Función Impulso-Respuesta

En la ecuación [10.1.15] se escribió un VAR en forma de vector 𝑀𝐴(∞) como
𝑦𝑡 = 𝛍 + 𝛆𝑡 + 𝛙𝟏 𝛆𝑡−1 + 𝛙𝟐 𝛆𝑡−2 + ⋯ [11.4.1]
Por lo tanto, la matriz 𝛙𝒔 tiene la interpretación
𝜕𝑦𝑡−𝑠
= 𝛙𝒔
𝜕ε′𝑡
[11.4.2]
Es decir, la fila 𝑖, columna 𝑗 elemento de 𝛙𝒔 identifica las consecuencias de un aumento de una

unidad en la 𝑗th innovación de variables en la fecha 𝑡 (𝜀𝑗𝑡 ) para el valor de la 𝑖th variable en el
tiempo 𝑡 + 𝑠 (𝑦𝑖,𝑡+𝑠 ), manteniendo constantes todas las otras innovaciones en todas las fechas.
Si nos dijeran que el primer elemento de 𝜀𝑡 cambiado por 𝛿1 al mismo tiempo que el
segundo elemento cambió por 𝛿2 , …, y el enésimo elemento por 𝛿𝑛 , entonces el
Efecto combinado de estos cambios en el valor del vector 𝑦𝑡+𝑠 sería dado por
𝜕𝑦𝑡+𝑠 𝜕𝑦𝑡+𝑠 𝜕𝑦𝑡+𝑠
∆𝑦𝑡+𝑠 = 𝛿 + 𝜀 + ⋯+ 𝛿 = 𝜓𝑠 𝛿 [11.4.3]
𝜕𝜀1𝑡 1 𝜕𝜀2𝑡 2 𝜕𝑦𝑛𝑡 𝑛
Donde 𝛿 = (𝛿1 , 𝛿2 , … , 𝛿𝑛 )′
Varias caracterizaciones analíticas de 𝛙𝐬 se dieron en la Sección 10.1. Una forma sencilla de
encontrar estos multiplicadores dinámicos numéricamente es por simulación. Para implementar la
simulación, conjunto 𝑦𝑡−1 = 𝑦𝑡−2 = ⋯ = 𝑦𝑡−𝑝 = 0. Conjunto 𝜀𝑗𝑡 = 1 y todos los demás
elementos de 𝜀𝑡 a cero, y simular el sistema [11.1.1] para las fechas 𝑡, 𝑡 + 1, 𝑡 + 2, … con 𝑐 y
𝜀𝑡+1 , 𝜀𝑡+2 , … todo cero. El valor del vector 𝑦𝑡+𝑠 en la fecha 𝑡 + 𝑠 de esta simulación corresponde a
la columna 𝑗𝑡ℎ de la matriz ψs . Haciendo una simulación separada de los impulsos a cada una de
las innovaciones (𝑗 = 1, 2, … , 𝑛), todas las columnas de 𝛙𝐬 se pueden calcular.
Una trama del elemento fila 𝑖, columna 𝑗 de 𝛙𝐬 ,
𝜕𝑦𝑖,𝑡+𝑠
𝜕𝜀𝑗𝑡
[11.4.4]
Como función de 𝑠 se denomina función impulso-respuesta. Describe la respuesta de 𝑦𝑖,𝑡+𝑠 a un

impulso único en 𝑦𝑗𝑡 con todas las demás variables fechadas 𝑡 o anteriores mantenidas constantes.
¿Existe un sentido en que este multiplicador puede ser visto como la medición del efecto
causal de 𝑦𝑗 en 𝑦𝑖 ? La discusión de las pruebas de Granger-causalidad sugiere que debemos ser
cautelosos de tal afirmación. Estamos en terreno más seguro con un VAR ateorico si nos limitamos
a las declaraciones sobre las previsiones. Consideremos, por lo tanto, la siguiente pregunta. Dejar
′ ′ ′ ′
𝑥𝑡−1 = (𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑝 )

Denotan la información recibida sobre el sistema desde la fecha 𝑡 − 1. Supongamos entonces que
todavía el valor de fecha 𝑡 de la primera variable en la autorregresión, 𝑦1𝑡 fue mayor que el
esperado, de modo que 𝜀1𝑡 es positivo. ¿Cómo nos lleva esto a revisar nuestro pronóstico de
𝑦𝑖,𝑡+𝑠 ? En otras palabras, qué es
𝜕𝐸̂ (𝑦𝑖,𝑡+𝑠 |𝑦1𝑡,𝑥𝑡−1)
? [11.4.5]
𝜕𝑦1𝑡
La respuesta a esta pregunta está dada por [11.4.4] con 𝑗 = 1 sólo en el caso especial cuando
𝐸(𝜀𝑡 𝜀𝑡′ ) = 𝛀 es una matriz diagonal. En el caso más general, cuando los elementos de 𝜀𝑡 están
correlacionados contemporáneamente entre sí, el hecho de que 𝜀1𝑡 es positivo nos da alguna nueva
información útil sobre los valores de 𝜀2𝑡 , … , 𝜀𝑛𝑡 . Esta información tiene implicaciones adicionales
para el valor de 𝑦𝑖,𝑡+𝑠 . Para resumir estas implicaciones, necesitamos calcular el vector
𝜕𝐸̂ (𝜀𝑡 |𝑦1𝑡 , 𝑥𝑡−1)

?
𝜕𝑦1𝑡
Y luego usar [11.4.3] para calcular el efecto de este cambio en todos los elementos de 𝜀𝑡 sobre el
valor de 𝑦𝑖,𝑡+𝑠 .
Otra magnitud que podríamos proponer medir es la revisión de pronóstico resultante de

nueva información sobre, digamos, la segunda variable, 𝑦2𝑡 más allá de la contenida en la primera
variable 𝑦1𝑡 . Así, podríamos calcular
𝜕𝐸̂ (𝑦𝑖,𝑡+𝑠 |𝑦2𝑡 ,𝑦1𝑡 ,𝑥𝑡−1)
? [11.4.6]
𝜕𝑦2𝑡
De manera similar, para la variable designada número 3, podríamos buscar

𝜕𝐸̂ (𝑦𝑖,𝑡+𝑠 |𝑦3𝑡,𝑦2𝑡 ,𝑦1𝑡,𝑥𝑡−1)
? [11.4.7]
𝜕𝑦3𝑡
Y para variable 𝑛.
𝜕𝐸̂ (𝑦𝑖,𝑡+𝑠 |𝑦𝑛𝑡 ,𝑦𝑛−1𝑡 ,…,𝑦1𝑡 ,𝑥𝑡−1)
? [11.4.8]
𝜕𝑦𝑛𝑡
Esta última magnitud corresponde al efecto de 𝜀𝑛𝑡 con 𝜀1𝑡 , … , 𝜀𝑛−1𝑡 , constante y se da
simplemente por el elemento fila 𝑖, columna 𝑛 de 𝛙𝐬 .
El ordenamiento de la información recursiva en [11.4.5] a [11.4.8] es muy comúnmente
utilizado. Para este ordenamiento, los multiplicadores indicados se pueden calcular a partir de los
coeficientes de media móvil (𝛙𝐬 ) y de la matriz de varianza-covarianza de 𝜀𝑡 (𝛺) mediante un
algoritmo simple. Recordemos de la sección 4.4 que para cualquier matriz real definida simétrica
positiva 𝛀, existe una única matriz triangular inferior 𝐀 con es a lo largo de la diagonal principal y
una matriz diagonal única 𝐃 con entradas positivas a lo largo de la diagonal principal que
𝛀 = 𝐀𝐃𝐀′ [11.4.9]
Usando esta matriz 𝐀 podemos construir un vector 𝑛 𝑥 1, de ut
μt ≡ A−1 εt [11.4.10]
Obsérvese que puesto que 𝛆𝐭 no está correlacionada con los retornos propios o con valores
rezagados de 𝑦, se sigue que 𝐮𝐭 . También está sin correlación con los retornos propios o con
valores rezagados de 𝑦.
Los elementos de 𝐮𝐭 no están correlacionados entre sí:
𝐸(𝑢𝑡 𝑢𝑡′ ) = [𝐴−1 ]𝐸(𝜀𝑡 𝜀𝑡′ )[𝐴−1 ]
= [A−1 ]Ω[A′ ]−1
= [A−1 ]AΩA′ [A′ ]−1 [11.4.11]
=𝐃
11.4 La Función Impulso-Respuesta 333

Pero 𝐃 es una matriz diagonal, verificando que los elementos de ut están mutuamente no
correlacionados. El elemento (𝑗, 𝑗) de 𝐃 da la varianza de ut .
Si ambos lados de [11.4.10] son premultiplicados por 𝐀, el resultado es
𝐀𝛍𝐭 = 𝛆𝐭 [11.4.12]
Escribir explícitamente las ecuaciones representadas por [11.4.12].
1 0 0 … 0 u1t 𝜀1𝑡
𝑎21 1 0 … 0 2tu 𝜀2𝑡
𝑎31 𝑎32 1 … 0 u3t = 𝜀3𝑡 [11.4.13]
⋮ ⋮ ⋮ … ⋮ ⋮ ⋮
[𝑎𝑛1 𝑎𝑛2 𝑎𝑛3 … 1] [unt ] [𝜀𝑛𝑡 ]
Así ut , es simplemente 𝜀1𝑡 . La 𝑗th fila de [11.4.13] establece que

𝑢𝑗𝑡 = 𝜀𝑗1 − 𝑎𝑗1 𝑢1𝑡 − 𝑎𝑗2 𝑢2𝑡 − ⋯ − 𝑎𝑗,𝑗−1 𝑢𝑗−1,𝑡
Pero dado que 𝑢𝑗𝑡 no está correlacionada con 𝑢1𝑡 , 𝑢2𝑡 , … , 𝑢𝑗−𝑖,𝑡 , se sigue que 𝑢𝑗𝑡 tiene la
interpretación como el residuo de una proyección de 𝜀𝑗𝑡 sobre 𝑢1𝑡 , 𝑢2𝑡 , … , 𝑢𝑗−1,𝑡 :
𝐸̂ (𝜀𝑗𝑡 |𝑢1𝑡 , 𝑢2𝑡 , … , 𝑢𝑗−𝑖,𝑡 ) = 𝑎𝑗1 𝑢1𝑡 + 𝑎𝑗2 𝑢2𝑡 + ⋯ + 𝑎𝑗,𝑗−1 𝑢𝑗−1,𝑡 [11.4.14]
El hecho de que 𝑢𝑗𝑡 no estén correlacionados implica además que el coeficiente de 𝑢1𝑡 en
una proyección de 𝜀𝐽𝑡 sobre (𝑢1𝑡 , 𝑢2𝑡 , … , 𝑢𝑗−1,𝑡 ) es el mismo que el coeficiente de
𝑢1𝑡 En una proyección de 𝜀𝐽𝑡 sobre 𝑢1𝑡 solo:

𝐸̂ (𝜀𝑗𝑡 |𝑢1𝑡 ) = 𝑎𝑗1 𝑢1𝑡 [11.4.15]
Recordando de [11.4.13] que 𝜀1𝑡 = 𝑢1𝑡 , vemos que nueva información sobre el valor de 𝜀1𝑡 nos
haría revisar nuestra proyección de 𝜀𝐽𝑡 por la cantidad
𝜕𝐸̂ (𝜀𝑗𝑡 |𝜀1𝑡 ) 𝜕𝐸̂ (𝜀1𝑡 |𝑢1𝑡 )
= [11.4.16]
𝜕𝜀1𝑡 𝜕𝑢1𝑡
Ahora 𝜀1𝑡 tiene la interpretación as 𝑦1𝑡 − 𝐸̂ ( 𝑦1𝑡 |𝑥𝑡−1 ) y 𝜀𝑗𝑡 tiene la interpretación as 𝑦𝑗𝑡 −
𝐸̂ ( 𝑦𝑗𝑡 |𝑥𝑡−1 ). De la fórmula para actualizar una proyección lineal [4.5.14], el coeficiente de 𝑦1𝑡 en
una proyección lineal de 𝑦𝑗𝑡 sobre 𝑦1𝑡 y 𝑥𝑡−1 es igual que el coeficiente sobre 𝜀1𝑡 en una
proyección lineal de 𝜀𝑗𝑡 sobre 𝜀1𝑡 . Por lo tanto
𝜕𝐸̂ (𝜀𝑗𝑡 |𝑦1𝑡 , 𝑥𝑡−1 )

= 𝑎𝑗1.
𝜕𝑦1𝑡
[11.4.17]
Combinando estas ecuaciones para 𝑗 = 1, 2, … , 𝑛 en un vector,
𝜕𝐸̂ (𝜀𝑡 |𝑦1𝑡 , 𝑥𝑡−1 )

= 𝑎1.
𝜕𝑦1𝑡
[11.4.18]
Donde 𝑎1. denota la primera columna deA:
1
𝑎21
𝑎1 ≡ 𝑎31
⋮
[𝑎𝑛1 ]
Sustituyendo [11.4.18] en [11.4.3] las consecuencias para 𝑦𝑡+𝑠 de nueva información sobre 𝑦1𝑡 más
allá de lo contenido en 𝑥𝑡−1 están dados por

𝜕𝐸̂ (𝑦𝑡+𝑠 |𝑦1𝑡 , 𝑥𝑡−1 )
= 𝜓𝑎1
𝜕𝑦1𝑡
Del mismo modo, la variable 𝑢2𝑡 representa la nueva información en 𝑦2𝑡 más allá de la
contenida en (𝑦1𝑡 , 𝑥𝑡−1 ). Esta información, por supuesto, no nos llevaría a cambiar nuestra
evaluación de 𝜀1𝑡 (que sabemos con certeza de 𝑦1𝑡 y 𝑥𝑡−1 ), pero de [11.4.14] nos haría revisar
nuestra estimación de 𝜀𝑗𝑡 para 𝑗 = 1, 2, … , 𝑛
𝜕𝐸̂ (𝜀𝑗𝑡 |𝑢2𝑡 , 𝑢1𝑡 )
= 𝑎𝑗2
𝜕𝑢2𝑡
Sustituyendo esto en [11.4.3], concluimos que
𝜕𝐸̂ (𝑦𝑡+𝑠 |𝑦2𝑡 , 𝑦1𝑡 , 𝑥𝑡−1 )
= 𝜓𝑠 𝑎2
𝜕𝑦2𝑡
11Es decir
𝐸̂ (𝑦𝑗𝑡 |𝑦1𝑦 , 𝑥𝑡−1 ) = 𝐸̂ (𝑦𝑗𝑡 | 𝑥𝑡−1 )
+ 𝑐𝑜𝑣{[𝑦𝑗𝑡 − 𝐸̂ (𝑦𝑗𝑡 | 𝑥𝑡−1 )], [𝑦1𝑡 − 𝐸̂ (𝑦1𝑡 | 𝑥𝑡−1 )]}
𝑥{𝑣𝑎𝑟[𝑦1𝑡 − 𝐸̂ (𝑦1𝑡 | 𝑥𝑡−1 )]}⎺¹[𝑦1𝑡 − 𝐸̂ (𝑦1𝑡 | 𝑥𝑡−1 )]
= 𝐸̂ (𝑦𝑗𝑡 |𝑥𝑡−1 ) + 𝑐𝑜𝑣(𝜀𝑗𝑡 , 𝜀1𝑡 ){𝑣𝑎𝑟(𝜀1𝑡 )}⎺¹𝜀1𝑡
Donde
0
1
𝑎32
𝑎2 =
𝑎42
⋮
[𝑎𝑛2 ]
En general,
𝜕𝐸̂ (𝑦𝑡+𝑠 |𝑦𝑗𝑡, ,𝑦𝑗−1𝑡 ,…,𝑦1𝑡 ,𝑥𝑡−1 )
= 𝛙𝐬 𝐚𝐣 [11.4.19]
𝜕𝑦𝑗𝑡
Donde 𝑎𝑗 indica la columna 𝑗th de la matriz 𝐴 definida en [11.4.9].

La magnitud en [11.4.19] es un momento de población, construido a partir de los
parámetros de población 𝛙 y 𝛀 usando [11.4.9]. Para una determinada muestra observada de
tamaño 𝑇, se estima que los coeficientes autorregresivos 𝚽 ̂ 𝟏, … , 𝚽
̂ 𝐩 por OLS y construir 𝛙 ̂𝐬
mediante la simulación del sistema estimado. La estimación MCO también proporcionaría la
estimación 𝛀̂ = (𝟏⁄𝑻) ∑𝑻𝒕=𝟏 𝜺̂𝒕 𝜺̂′𝒕 , donde el i-ésimo elemento de 𝜺̂𝒕 es el residuo de la Muestra
OLS para la i-ésima ecuación en el VAR para la fecha 𝑡. Matrices 𝐀 ̂y𝐃 ̂ =𝐀
̂ satisfactorio 𝛀 ̂𝐃̂𝐀̂′
podría ser construido a partir de 𝛀 ̂ utilizando el algoritmo descrito en la sección 4.4. Observe que
los elementos del vector 𝐮 ̂−𝟏
̂ 𝐭 = 𝐀 𝛆̂𝐭 son entonces mutuamente ortogonales por construcción:
̂−1 ε̂t ε̂′t (A
(1⁄T) ∑Tt=1 ût û′t = (1⁄T) ∑Tt=1 ∑Tt=1 A ̂−1 )′ = Â−1 Ω ̂−1 )′ = D
̂ (A ̂
La estimación de la muestra de [11.4.19] es entonces
̂ 𝐒 𝐚̂𝐭
𝛙 [11.4.20]
Donde ât denota la columna 𝑗th de la matriz 𝐀 ̂.
Un gráfico de [11.4.20] en función de () se conoce como una función de impulso-respuesta
ortogonalizada. Se basa en descomponer las innovaciones VAR originales (𝜀1𝑡 , … , 𝜀𝑛𝑡 ) en un
conjunto de componentes no correlacionados (𝑢1𝑡 , … , 𝑢𝑛𝑡 ) y calcular las consecuencias para 𝑦𝑡+𝑠
de un impulso unitario en 𝑢𝑗𝑡 . Estos multiplicadores describen cómo la nueva información acerca
de 𝑦𝑖𝑗 nos hace revisar nuestro pronóstico de 𝑦𝑡+𝑠 , aunque la definición implícita de "nueva"
información es diferente para cada variable 𝑗.
11.4 La Función Impulso-Respuesta 335

¿Cuál es la justificación para tratando cada variable de manera diferente? Evidentemente, si
la VAR se utiliza como un resumen puramente teórico de la dinámica de un grupo de variables, no
puede haber ninguna - podríamos haber etiquetado fácilmente la segunda variable 𝑦1𝑡 y la primera
variable 𝑦2𝑡 , en cuyo caso Habría obtenido multiplicadores dinámicos diferentes. Por elección un
orden recursivo particular de las variables, el investigador está haciendo implícitamente un conjunto
de preguntas sobre la previsión de la forma de [11.4.5] a través de [11.4.8]. Si debemos
ortogonalizar de esta manera y cómo las variables deben ser ordenadas parecería depender de por
qué queremos hacer tales preguntas sobre la predicción en primer lugar. Vamos a explotar esta
cuestión con mayor profundidad en la Sección 11.6.
Antes de abandonar la ortogonalización recursiva, observamos otra forma popular en la

que se implementa y se reporta. Recordemos que 𝐃 es una matriz diagonal cuyo (𝑗, 𝑗) elemento es
la varianza de 𝑢𝑗𝑡 . Sea 𝐃𝟏⁄𝟐 la matriz diagonal cuyo (𝑗, 𝑗) elemento es la desviación estándar de 𝑢𝑗𝑡 .
Tenga en cuenta que [11.4.9] podría escribirse como
𝛀 = 𝐀𝐃𝟏⁄𝟐 𝐃𝟏⁄𝟐 𝐀′ = 𝐏𝐏 ′ [11.4.21]
donde
𝐏 ≡ 𝐀𝐃𝟏⁄𝟐
La expresión [11.4.21] es la descomposición de Cholesky de la matriz 𝛀. Observe que, como 𝐀, la

matriz (𝑛 ×𝑛) es triangular inferior, aunque donde 𝐀 un tiene a lo largo de su diagonal principal, 𝐏
tiene la desviación estándar de 𝑢𝑡 a lo largo de su diagonal principal.
Lugar de 𝑢𝑡 definido en [11.4.10], algunos investigadores utilizan
𝐯𝐭 ≡ 𝐏 −𝟏 𝛆𝐭 = 𝐃−𝟏⁄𝟐 𝛆𝐭 = 𝐃−𝟏⁄𝟐 𝐮𝐭
Así, 𝑣𝑗𝑡 es simplemente 𝑢𝑗𝑡 dividido por su desviación estándar √𝑑𝑗𝑗 . Un aumento de una unidad
en 𝑣𝑗𝑡 es el mismo que un aumento de una desviación estándar en 𝑐.
En lugar del multiplicador dinámico 𝜕𝑦𝑖,𝑡+𝑠 ⁄𝜕𝑢𝑗𝑡 , estos investigadores informan 𝜕𝑦𝑖,𝑡+𝑠 ⁄𝜕𝑣𝑗𝑡 . La
relación entre estos multiplicadores es claramente
∂yt+s ∂yt+s
= √djj = 𝛙𝐬 𝐚𝐣 √djj .
∂vjt ∂ujt
Pero 𝑎𝑗 √𝑑𝑗𝑗 es sólo la columna 𝑗th de 𝐀𝐃𝟏⁄𝟐 , que es la columna 𝑗th de la matriz del factor
Cholesky 𝐏. Denotando la columna 𝑗th de 𝐏 por pj , tenemos
∂yt+s
∂vjt
= 𝛙𝐬 𝐩𝐣 [11.4.22]
La expresión [11.4.22] es sólo [11.4.19] multiplicada por la constante √𝑉𝑎𝑟(𝑢𝑗𝑡 ).

La expresión [11.4.19] da las consecuencias de un incremento de una unidad en 𝑦𝑗𝑡 , donde las
unidades son aquellas que 𝑦𝑗𝑡 se mide. La expresión [11.4.22] da las consecuencias si 𝑦𝑗𝑡
aumentaran en √𝑉𝑎𝑟(𝑢𝑗𝑡 ) unidades.
11.5. Descomposición de la Varianza

Las ecuaciones [10.1.14] y [10.2.16] identifican el error en la predicción de un VARs períodos en el
futuro como
𝑦𝑡+𝑠 − 𝑦̂𝑡+𝑠|𝑡 = 𝜀𝑡+𝑠 + 𝜓1 𝜀𝑡+𝑠−1 + 𝜓2 𝜀𝑡+𝑠−2 + ⋯ + 𝜓𝑠−1 𝜀𝑡+1 [11.5.1]
El error cuadrático medio de este pronóstico de s-periodo-adelante es así

𝑀𝑆𝐸(𝑦̂𝑡+𝑠|𝑡 ) = 𝐸[(𝑦𝑡+𝑠 − 𝑦̂𝑡+𝑠|𝑡 )(𝑦𝑡+𝑠 − 𝑦̂𝑡+𝑠|𝑡 )′] [11.5.2]
= 𝛀 + 𝛙𝟏 𝛀𝛙′𝟏 + 𝛙𝟐 𝛀𝛙′𝟐 + ⋯ + 𝛙𝐬−𝟏 𝛀𝛙′𝐬−𝟏

Donde
𝛀 = 𝐄(𝛆𝐭 𝛆′𝐭 ). [11.5.3]
Consideremos ahora cómo cada una de las perturbaciones ortogonales (𝑢1𝑡 , … , 𝑢𝑛𝑡 )
contribuye a este MSE. Escriba [11.4.12] como
𝜀𝑡 = 𝐴𝑢𝑡 = 𝑎1 𝑢1𝑡 + 𝑎2 𝑢2𝑡 + ⋯ + 𝑎𝑛 𝑢𝑛𝑡 [11.5.4]
Donde, como antes, 𝑎𝑗 denota la columna 𝑗th de la matriz 𝐴 dada en [11.4.9].

Recordando que el 𝑢𝑗𝑡 no están correlacionados, la ecuación de post-multiplicación [11.5.4] por su
transposición y tomando expectativas produce
𝛀 = 𝐄(𝛆𝐭 𝛆′𝐭 ).
= 𝑎1 𝑎1′ . 𝑉𝑎𝑟(𝑢1𝑡 ) + 𝑎2 𝑎2′ . 𝑉𝑎𝑟(𝑢2𝑡 ) + ⋯ += 𝑎𝑛 𝑎𝑛′ . 𝑉𝑎𝑟(𝑢𝑛𝑡 ). [11.5.5]
Donde Var(ujt ) es el elemento fila 𝑗, columna 𝑗 de la matriz 𝐃 en [11.4.9]. Si se sustituye [11.5.5]

por [11.5.2], la MSE de la previsión del período s-adelante puede escribirse como la suma de 𝑛
términos, uno derivado de cada una de las perturbaciones 𝑢𝑗𝑡 :
𝑀𝑆𝐸(𝑦̂𝑡+𝑠|𝑡 ) = ∑𝑛𝑗=1{𝑉𝑎𝑟( 𝑢𝑗𝑡 ). [𝑎𝑗 𝑎𝑗′ + 𝛙𝟏 𝑎𝑗 𝑎𝑗′ 𝛙′𝟏 [11.5.6]
+𝛙𝟐 𝑎𝑗 𝑎𝑗′ 𝛙′𝟐 + ⋯ + 𝛙𝐬−𝟏 𝑎𝑗 𝑎𝑗′ 𝛙′𝐬−𝟏]}
Con esta expresión, podemos calcular la contribución de la innovación 𝑗th ortogonalizada a la MSE
de la previsión del período s-adelante:
𝑉𝑎𝑟(𝑢𝑗𝑡 ). [𝑎𝑗 𝑎𝑗′ + 𝛙𝟏 𝑎𝑗 𝑎𝑗′ 𝛙′𝟏 + 𝛙𝟐 𝑎𝑗 𝑎𝑗′ 𝛙′𝟐 + ⋯ + 𝛙𝐬−𝟏 𝑎𝑗 𝑎𝑗′ 𝛙′𝐬−𝟏 ]
Una vez más, esta magnitud en general depende del orden de las variables.
Como 𝑠 → ∞ para un VAR de covarianza-estacionario, MSE(𝑦̂𝑡+𝑠|𝑡 ), la varianza
incondicional del vector 𝑦𝑡 . Por lo tanto, [11.5.6] permite calcular la porción de la varianza total de
𝑦𝑖 que se debe a la perturbación 𝑢𝑗 dejando que 𝑠 sea adecuadamente grande.
Alternativamente, recordando que √𝑉𝑎𝑟(𝑢𝑗𝑡 ) es igual a 𝐩𝐣 , la columna 𝑗th del factor de
Cholesky 𝐏, resultado [11.5.6] se puede escribir de manera equivalente como
𝑀𝑆𝐸(𝑦̂𝑡+𝑠|𝑡 ) = ∑𝑛𝑗=1[pj p′j + 𝛙𝟏 pj p′j 𝛙′𝟏 + 𝛙𝟐 pj p′j 𝛙′𝟐 [11.5.7]
+ ⋯ + 𝛙𝐬−𝟏 𝑝𝑗 𝑝𝑗′ 𝛙′𝐬−𝟏 ]
11.6. Autoregresiones Vectoriales y Modelos Econométricos

Estructurales
Errores en la estimación de modelos estructurales dinámicos

La autorreversión vectorial se introdujo en la sección 10.1 como una descripción estadística
de las interrelaciones dinámicas entre 𝑛 diferentes variables contenidas en el vector 𝑦𝑡 . Esta
descripción no hizo uso de las ideas teóricas anteriores acerca de cómo se espera que estas variables
se relacionen y, por lo tanto, no puede utilizarse para probar nuestras teorías o interpretar los datos
en términos de principios económicos. Esta sección explora la relación entre los VAR y los
modelos econométricos estructurales.
Supongamos que nos gustaría estimar una función de demanda de dinero que exprese la
disposición del público a retener efectivo en función del nivel de ingresos y tasas de interés. La
siguiente especificación fue utilizada por algunos investigadores tempranos:
11.6 Autoregresiones Vectoriales y Modelos Econométricos Estructurales 337

𝑀𝑡 − 𝑃𝑡 = 𝛽0 + 𝛽1 𝑌𝑡 + 𝛽2 𝐼𝑡 + 𝛽3 (𝑀𝑡−1 − 𝑃𝑡−1 ) + 𝑣𝑡𝐷 .
[11.6.1]
Aquí, 𝑀𝑡 es el registro de los saldos monetarios nominales en poder del público en la fecha
𝑡, 𝑃𝑡 es el logaritmo del nivel agregado de precios, 𝑌𝑡 es el logaritmo del PNB real y 𝐼𝑡 es un tipo de
interés nominal. Los parámetros 𝛽1 y 𝛽2 representan el efecto de los ingresos y las tasas de interés
en las tenencias de efectivo deseadas. El ajuste de los saldos monetarios a un cambio en los ingresos
debe llevarse a cabo inmediatamente, y los ajustes posteriores se realizarán posteriormente. El
parámetro 𝛽3 caracteriza este ajuste parcial. La perturbación 𝑣𝑡𝐷 representa factores distintos de los
ingresos y las tasas de interés que influyen en la demanda de dinero.
Era una vez la práctica común para estimar tal ecuación de demanda de dinero con el ajuste
de Cochrane-Orcutt para la correlación serial del primer-orden. La suposición implícita detrás de
este procedimiento es que
𝐷
𝑣𝑡𝐷 = 𝜌𝑣𝑡−1 + 𝑢𝑡𝐷 [11.6.2]
𝐷 𝐷 𝐷
Donde 𝑢𝑡 es ruido blanco. Escribir la ecuación [11.6.2] as (1 − 𝜌𝐿)𝑣𝑡 = 𝑢𝑡 y multiplicar ambos
lados de [11.6.1] por (1 − 𝜌𝑙):
𝑀𝑡 − 𝑃𝑡 = (1 − 𝜌)𝛽0 + 𝛽1 𝑌𝑡 − 𝛽1 𝜌𝑌𝑡−1 + 𝛽2 𝐼𝑡 − 𝛽2 𝜌𝐼𝑡−1 [11.6.3]

+(𝛽3 + 𝜌)(𝑀𝑡−1 − 𝑃𝑡−1 ) − 𝛽3 𝜌(𝑀𝑡−2 − 𝑃𝑡−2 ) + 𝑢𝑡𝐷 .
La ecuación [11.6.3] es una versión restringida de
𝑀𝑡 − 𝑃𝑡 = 𝛼0 + 𝛼1 𝑌𝑡 + 𝛼2 𝑌𝑡−1 + 𝛼3 𝐼𝑡 + 𝛼4 𝐼𝑡−1 [11.6.4]

+𝛼5 (𝑀𝑡−1 − 𝑃𝑡−1 ) + 𝛼6 (𝑀𝑡−2 − 𝑃𝑡−2 ) + 𝑢𝑡𝐷
Donde los siete parámetros (𝛼0 , 𝛼1 , … , 𝛼6 ) están restringidos en [11.6.3] a funciones no lineales de
los cinco parámetros subyacentes (𝜌, 𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 ). La suposición de [11.6.2] puede ser probada
comparando el ajuste de [11.6.3] con el de la estimación no restringida de [11.6.4].
Por definición, 𝑣𝑡𝐷 representa factores que influyen en la demanda de dinero para los cuales el
investigador no tiene una teoría explícita. Por lo tanto, parece extraño para poner gran confianza en
una especificación detallada de su dinámica, como [11.6.2], sin probar esta suposición contra los
datos. Por ejemplo, no parece haber razones teóricas claras para descartar una especificación como
𝐷 𝐷
𝑣𝑡𝐷 = 𝜌1 𝑣𝑡−1 + 𝜌2 𝑣𝑡−2 + 𝑢𝑡𝐷
𝐷
O, para el caso, una especificación en la que 𝑣𝑡 se correlaciona con valores rezagados de 𝑌 o 𝐼.
La ecuación [11.6.1] supone además que el multiplicador dinámico que relaciona la
demanda de dinero con el ingreso es proporcional al que relaciona la demanda de dinero con el tipo
de interés:
𝜕(𝑀𝑡+𝑠 − 𝑃𝑡+𝑠 )
= 𝛽1 𝛽3𝑆
𝜕𝑌𝑡
𝜕(𝑀𝑡+𝑠 − 𝑃𝑡+𝑠 )
= 𝛽2 𝛽3𝑆
𝜕𝐼𝑡
Una vez más, parece una buena idea probar esta suposición antes de imponerla, comparando el
ajuste de [11.6.1] con el de un modelo dinámico más general. Por último, la inflación puede tener
efectos sobre la demanda de dinero que no son capturados por los tipos de interés nominales.
La especificación en [11.6.1] incorpora suposiciones muy fuertes sobre la forma en que la demanda
nominal de dinero responde al nivel de precios.
En resumen, una especificación como [11.6.1] y [11.6.2] impone implícitamente muchas
restricciones sobre dinámicas para las cuales hay poca o sobre justificación sobre la base de la teoría
económica. Antes de reflexionar sobre las inferencias de [11.6.1] y [11.6.2], parece una buena idea
probar ese modelo en contra de una especificación más general como

(0) (0) (0)
𝑀𝑡 = 𝑘1 + 𝛽12 𝑃𝑡 + 𝛽13 𝑌𝑡 + 𝛽14 𝐼𝑡
(1) (1) (1) (1)
+𝛽11 𝑀𝑡−1 + 𝛽12 𝑃𝑡−1 + 𝛽13 𝑌𝑡−1 + 𝛽14 𝐼𝑡−1 [11.6.5]
(2) (2) (2) (2)
+𝛽11 𝑀𝑡−2 + 𝛽12 𝑃𝑡−2 + 𝛽13 𝑌𝑡−2 + 𝛽14 𝐼𝑡−2 + ⋯
(𝑝) (𝑝) (𝑝) (𝑝)
+𝛽11 𝑀𝑡−𝑝 + 𝛽12 𝑃𝑡−𝑝 + 𝛽13 𝑌𝑡−𝑝 + 𝛽14 𝐼𝑡−𝑝 + 𝑢𝑡𝐷 .
Al igual que la ecuación [11.6.1], la especificación en [11.6.5] se considera como una ecuación de
(0) (0)
demanda de dinero estructural; 𝛽13 y 𝛽14 se interpretan como los efectos de los ingresos
corrientes y la tasa de interés en las tenencias de dinero deseadas, y 𝑢𝑡𝐷 representa los factores que
influyen en la demanda de dinero aparte de la inflación, los ingresos y las tasas de interés. En
comparación con [11.6.1], la especificación en [11.6.5] generaliza el comportamiento dinámico del
término de error 𝑣𝑡𝐷 , el proceso de ajuste parcial y la influencia del nivel de precios en las tenencias
monetarias deseadas.
Aunque [11.6.5] relaja muchas de las restricciones dudosas sobre la dinámica implícita por
[11.6.1], todavía no es posible estimar [11.6.5] por OLS, debido a las ecuaciones simultáneas sesgo.
OLS estimación de [11.6.5] se resumen la correlación entre el dinero, el nivel de precios, los
ingresos, y la tasa de interés. Los ajustes de la demanda de dinero del público son una razón por la
que estas variables se correlacionan, pero no la única. Por ejemplo, en cada período, el banco
central puede ajustar la tasa de interés 𝐼𝑡 a un nivel compatible con sus objetivos de política, que
puede depender de los valores recurrentes y rezagados del ingreso, del tipo de interés, del nivel de
precios y de la oferta monetaria:
(0) (0) (0)
𝐼𝑡 = 𝑘4 + 𝛽41 𝑀𝑡 + 𝛽42 𝑃𝑡 + 𝛽43 𝑌𝑡
(1) (1) (1) (1)
+𝛽41 𝑀𝑡−1 + 𝛽42 𝑃𝑡−1 + 𝛽43 𝑌𝑡−1 + 𝛽44 𝐼𝑡−1 [11.6.6]
(2) (2) (2) (2)
+𝛽41 𝑀𝑡−2 + 𝛽42 𝑃𝑡−2 + 𝛽43 𝑌𝑡−2 + 𝛽44 𝐼𝑡−2 + ⋯
(𝑝) (𝑝) (𝑝) (𝑝)
+𝛽41 𝑀𝑡−𝑝 + 𝛽42 𝑃𝑡−𝑝 + 𝛽43 𝑌𝑡−𝑝 + 𝛽44 𝐼𝑡−𝑝 + 𝑢𝑡𝐶
(0)
Aquí, por ejemplo, 𝛽42 capta el efecto del nivel de precios actual sobre la tasa de interés que el
banco central intenta lograr. Los disturbios 𝑢𝑡𝐶 reflejan cambios en la política que no pueden
describirse como una función determinista del dinero actual y rezagado, el nivel de precios, los
ingresos y la tasa de interés. Si los trastornos de la demanda de dinero 𝑢𝑡𝐷 son inusualmente
(0)
grandes, esto hará que 𝑀𝑡 sea inusualmente grande. Si 𝛽41 > 0, esto causaría que 𝐼𝑡 fuera
inusualmente grande también, en cuyo caso 𝐼𝑡 estaría positivamente correlacionado con la variable
explicativa 𝐼𝑡 en la ecuación [11.6.5]. Por lo tanto, [11.6.5] no puede ser estimado por OLS.
No es la política del banco central y la endogeneidad de 𝐼𝑡 la única razón para preocuparse
por el sesgo de las ecuaciones simultáneas. Las perturbaciones de la demanda de dinero y los
cambios en la política de los bancos centrales también tienen efectos sobre la producción agregada
y el nivel de precios, de modo que 𝑌𝑡 y 𝑃𝑡 en [11.6.5] también son endógenos. Se podría postular
una ecuación de la demanda agregada, por ejemplo, que relaciona el nivel de producción con la
oferta monetaria, el nivel de precios y la tasa de interés:
(0) (0) (0)
𝐼𝑡 = 𝑘3 + 𝛽31 𝑀𝑡 + 𝛽32 𝑃𝑡 + 𝛽34 𝐼𝑡
(1) (1) (1) (1)
+𝛽31 𝑀𝑡−1 + 𝛽32 𝑃𝑡−1 + 𝛽33 𝑌𝑡−1 + 𝛽34 𝐼𝑡−1
(2) (2) (2) (2)
+𝛽31 𝑀𝑡−2 + 𝛽32 𝑃𝑡−2 + 𝛽33 𝑌𝑡−2 + 𝛽34 𝐼𝑡−2 + ⋯ [11.6.7]
(𝑝) (𝑝) (𝑝) (𝑝)
+𝛽31 𝑀𝑡−𝑝 + 𝛽32 𝑃𝑡−𝑝 + 𝛽33 𝑌𝑡−𝑝 + 𝛽34 𝐼𝑡−𝑝 + 𝑢𝑡𝐴
Con 𝑢𝑡𝐴 representando otros factores que influyen en la demanda agregada. De manera similar, una
curva de oferta agregada podría relacionar el nivel de precios agregado con las otras variables
estudiadas. La conclusión lógica de tal razonamiento es que todas las variables explicativas de fecha
𝑡 en [11.6.5] deben ser tratadas como endógenas.

Relación entre modelos estructurales dinámicos y autoregressiones
vectoriales
El sistema de las ecuaciones [11.6.5] a [11.6.7] (junto con una ecuación de suministro
agregada análoga que describe 𝑃𝑡 ) puede ser recogido y escrito en forma vectorial como
𝐁𝟎 𝐲𝐭 = 𝐤 + 𝐁𝟏 𝐲𝐭−𝟏 + 𝐁𝟐 𝐲𝐭−𝟐 + ⋯ + 𝐁𝐩 𝐲𝐭−𝐩 + 𝐮𝐭
Donde
y𝑡 = (𝑀𝑡 , 𝑃𝑡 , 𝑌𝑡 , 𝐼𝑡 )′
u𝑡 = (𝑢𝑡𝐷 , 𝑢𝑡𝑆 , 𝑢𝑡𝐴 , 𝑢𝑡𝐶 )′
(0) (0) (0)
1 −𝛽12 −𝛽13 −𝛽14
(0) (0) (0)
−𝛽21 1 −𝛽23 −𝛽24
B0 = (0) (0)
−𝛽31 −𝛽32 1 (0)
−𝛽34
(0)
(0)
[−𝛽41 −𝛽42
(0) −𝛽43 1 ]
𝐤 = (𝑘1 , 𝑘2 , 𝑘3 , 𝑘4 )′
(𝑠)
Y 𝐁𝒔 es una matriz (4×4) cuyo elemento fila 𝑖, columna 𝑗 está dado por 𝛽𝑖𝑡 para 𝑠 = 1, 2, … , 𝜌.
Una clase grande de modelos estructurales para un (𝑛×1) vector 𝑦𝑡 se puede escribir en la forma
de [11.6.8].
Generalizando el argumento en [11.6.3], se supone que un número suficiente de retrasos de
() se incluyen y las matrices () se definen de modo que () es el ruido blanco del vector. Si en su
lugar, por ejemplo, 𝑢𝑡 seguido un 𝑟th -orden VAR, con
𝐮𝑡 = F1 𝐮𝑡−1 + 𝐅2 𝐮𝑡−2 + ⋯ + 𝐅𝑟 𝐮𝑡−𝑟 + 𝐞𝑡
Entonces podríamos premultiplicar [11.6.8] por (𝐈𝐧 − 𝐅𝟏 𝐋𝟏 − 𝐅𝟐 𝐋𝟐 − ⋯ − 𝐅𝐫 𝐋𝐫 ) para llegar a

un sistema de la misma forma básica que [11.6.8] con 𝑝 reemplazado por (𝑝 + 𝑟) y con 𝐮𝐭
reemplazado por la perturbación del ruido blanco 𝐞𝐭 .
Si cada lado de [11.6.8] es premultiplicado por 𝐁𝟎−𝟏 , el resultado es
y𝑡 = 𝐜 + 𝚽1 y𝑡−1 + 𝚽2 y𝑡−2 + ⋯ + 𝚽𝑝 y𝑡−𝑝 + 𝜺𝑡 [11.6.9]

donde
c = 𝐁0−1 𝐤 [11.6.10]
Φ𝑠 = 𝐁0−1 𝐁𝑠 Para 𝑠 = 1, 2, … , 𝑝 [11.6.11]
ε𝑡 = 𝐁0−1 u𝑡 [11.6.12]
Suponiendo que [11.6.8] está parametrizado lo suficientemente rico que 𝐮𝐭 es el ruido blanco del
vector, entonces 𝛆𝐭 también será el ruido blanco del vector y [11.6.9] se reconocerá como la
representación vectorial autoregresiva para el sistema estructural dinámico [11.6. 8].
Por lo tanto, un VAR puede ser visto como la forma reducida de un modelo estructural dinámico
general.
Interpretación de las Funciones de Respuesta al Impulso

En la Sección 11.4 se calculó la función impulso-respuesta

𝜕y𝑡+𝑠
𝜕𝜀𝑗𝑡
[11.6.13]
Esta magnitud describe el efecto de una innovación en la variable 𝑗th sobre los valores futuros de
cada una de las variables del sistema. Según [11.6.12], la innovación VAR 𝛆𝐣𝐭 es una combinación
lineal de las perturbaciones estructurales 𝐮𝐭 . Por ejemplo,
Podría resultar que
𝜀1𝑡 = 0.3𝑢𝑡𝐷 − 0.6𝑢𝑡𝑆 + 0.1𝑢𝑡𝐴 − 0.5𝑢𝑡𝐶
En este caso si el efectivo en el poder del público es mayor de lo que se hubiera previsto utilizando
el VAR (𝜀1𝑡 es positivo), esto podría deberse a que la demanda pública de efectivo es mayor que la
que normalmente se asocia con el nivel actual de ingresos y La tasa de interés (es decir, 𝑢𝑡𝐷 es
positiva). Alternativamente, 𝜀1𝑡 puede ser positivo porque el banco central ha elegido facilitar el
crédito (𝑢𝑡𝐶 es negativo), o una variedad de otros factores. En general, 𝜀1𝑡 representa una
combinación de todas las influencias diferentes que importan para cualquier variable en la
economía. Visto de esta manera, no está claro por qué la magnitud [11.6.13] es de particular interés.
Por el contrario, si pudiéramos calcular
𝜕y𝑡+𝑠
𝜕𝑢𝑡𝐶
[11.6.14]
Esto sería de considerable interés. La expresión [11.6.14] identifica las consecuencias dinámicas
para la economía si el banco central endurece el crédito más de lo habitual y es una magnitud clave
para describir los efectos de la política monetaria sobre la economía.
La sección 11.4 también discutió el cálculo de una función de impulso-respuesta
ortogonalizada. Para 𝛀 = 𝐸(𝜀𝑡 𝜀𝑡′ ), encontramos una matriz triangular inferior 𝐀 y una matriz
diagonal 𝐃 tal que 𝛀 = 𝐀𝐃𝐀′ . Entonces construimos el vector para valores futuros de 𝐀−𝟏 𝛆, y
calculo las consecuencias de los cambios en cada elemento de este vector para los valores futuros
de 𝒚.
Recordemos de [11.6.12] que las perturbaciones estructurales 𝐮𝒕 están relacionadas con las
innovaciones VAR 𝜺𝒕 por
𝐮𝒕 = 𝐁𝐨 𝛆𝐭 [11.6.15]
Suponiendo que ocurrió que la matriz de parámetros estructurales 𝐁𝐨 era exactamente igual a la
matriz 𝐀−𝟏 . Entonces las innovaciones ortogonalizadas coincidirían con las verdaderas
perturbaciones estructurales:
𝐮𝒕 = 𝐁𝐨 𝛆𝐭 = 𝐀−𝟏 𝛆𝐭 [11.6.16]
En este caso, el método descrito en la Sección 11.4 podría ser utilizado para encontrar la respuesta a
preguntas importantes como [11.6.14].
¿Hay alguna razón para esperar que 𝐁𝐨 y 𝐀−𝟏 sería la misma matriz? Puesto que 𝐀 es
triangular inferior, esto claramente requiere 𝐁𝐨 para ser triangular inferior. En el ejemplo [11.6.18],
esto requeriría que los valores actuales de 𝑃, 𝑌 y 𝐼 entraran en la curva de suministro agregado, y así
sucesivamente. Tales suposiciones son bastante inusuales, aunque puede haber otra manera de
ordenar las variables de modo que una estructura recursiva sea más aceptable. Por ejemplo, un
keynesiano podría argumentar que los precios responden a otras variables económicas sólo con un
retraso, de modo que los coeficientes de las variables actuales en la ecuación de la oferta agregada
son todos cero. Quizás el dinero y las tasas de interés influyen en la demanda agregada sólo con un
retraso, de modo que sus valores actuales se excluyen de la ecuación de la demanda agregada. Uno
podría tratar de argumentar promover que la tasa de interés afecta el dinero deseado de la
celebración sólo con un retraso también. Debido a que la mayoría de los bancos centrales
monitorean las condiciones económicas actuales con bastante cuidado, tal vez todos los valores

actuales deberían incluirse en la ecuación para 𝐼𝑡 . Estas suposiciones sugieren ordenar las variables
como 𝑦𝑡 = (𝑃𝑡 , 𝑌𝑡 , 𝑀𝑡 , 𝐼𝑡 )′, para las cuales el modelo estructural
Es
0 0 0 0
𝑃𝑡 𝑘1 (0) 𝑃𝑡
𝑌𝑡 𝑘2 𝛽21 0 0 0 𝑌
[ ] = [ ] + (0) (0) [ 𝑡]
𝑀𝑡 𝑘3 𝛽31 𝛽32 0 0 𝑀𝑡
𝐼𝑡 (0)
𝑘4 (0)
[𝛽41
(0)
𝛽42 𝛽43 0] 𝐼𝑡
(1) (1) (1) (1)

𝛽11 𝛽12 𝛽13 𝛽14
𝑃𝑡−1
(1) (1) (1) (1)
𝛽21 𝛽22 𝛽23 𝛽24 𝑌
+ [ 𝑡−1 ] + ⋯ [11.6.17]
(1)
𝛽31
(1)
𝛽32
(1)
𝛽33
(1)
𝛽34 𝑀𝑡−1
(1) (1) (1) (1)
𝐼𝑡−1
[𝛽41 𝛽42 𝛽43 𝛽44 ]
(𝑝) (𝑝) (𝑝) (𝑝)
𝛽11 𝛽12 𝛽13 𝛽14 𝑃𝑡−𝑝 𝑢𝑡𝑆
(𝑝) (𝑝) (𝑝) (𝑝)
𝛽21 𝛽22 𝛽23 𝛽24 𝑌𝑡−𝑝 𝑢𝐴
+ (𝑝) + 𝑡𝐷
𝛽31
(𝑝)
𝛽32
(𝑝)
𝛽33
(𝑝)
𝛽34 𝑀𝑡−𝑝 𝑢𝑡
(𝑝) (𝑝) (𝑝) (𝑝) [ 𝐼𝑡−𝑝 ] [ 𝑢𝑡𝐶 ]
[𝛽41 𝛽42 𝛽43 𝛽44 ]
Supongamos que existe tal ordenación de las variables para las cuales 𝐁𝟎 es triangular inferior.
Escriba el modelo estructural dinámico [11.6.8] as
𝐁(0 ) y𝑡 = −Γ𝐱𝑡 + 𝐮𝒕 [11.6.18]
donde
−Γ
[𝐤 𝐁1 𝐁2 ⋯ 𝐁𝑝 ]
[𝑛×(𝑛𝑝 + 1)] ≡
1
x𝑡 y 𝑡−1
≡ y𝑡−2
[(𝑛𝑝 + 1)×1]
⋮
y
[ 𝑡−𝑝 ]
Supongamos, además, que las perturbaciones de las ecuaciones estructurales no están
correlacionadas y no están correlacionadas entre sí:
𝐃 para 𝑡 = 𝜏
𝐸(u𝑡 u′𝜏 ) = { [11.6.19]
0 de otra manera
Donde 𝐃 es una matriz diagonal. El VAR es la forma reducida del modelo estructural
dinámico [11.6.18] y puede escribirse como
y𝑡 = Π ′ x𝑡 + ε𝑡 [11.6.20]
donde
Π ′ = −𝐁0−1 Γ [11.6.21]
ε𝑡 = 𝐁0−1 𝐮𝑡 [11.6.22]
Dejando 𝛀 denotan la matriz de varianza-covarianza de 𝛆𝐭 [11.6.22] implica
𝛀 = 𝐸(ε𝑡 ε′𝑡 ) = 𝐁0−1 𝐸(𝐮𝑡 𝐮′𝑡 )(𝐁0−1 )′ = 𝐁0−1 𝐃(𝐁0−1 )′ [11.6.23]

Tenga en cuenta que si sólo está restringido en el modelo estructural dinámico es que 𝐁𝟎 es
triangular inferior con coeficientes unitarios a lo largo de la diagonal principal y que 𝐃 es diagonal,
entonces el modelo estructural acaba de ser identificado. Para ver esto, tenga en cuenta que estas
restricciones implican que 𝐁𝟎−𝟏 también debe ser triangular inferior con coeficientes unitarios a lo
largo de la diagonal principal. Recuérdese de la Sección 4.4 que, dada cualquier matriz simétrica
definida positiva 𝛀, existe una matriz triangular inferior única 𝐀 con i 1s a lo largo de la diagonal
principal y una matriz diagonal 𝐃 con entradas positivas a lo largo de la diagonal principal tal que
𝛀 = 𝐀𝐃𝐀′ . Por lo tanto, siempre se puede encontrar valores únicos 𝐁𝟎−𝟏 y 𝐃 de la forma requerida
que satisfagan [11.6.23]. Además, cualquier matriz 𝐁𝟎 de esta forma es no singular, de modo que Γ
en [11.6.21] puede ser Calculado exclusivamente de 𝐁𝟎 y 𝚷 como 𝚪 = −𝐁𝟎 𝚷′ . Por lo tanto, dados
los valores permitidos para los parámetros de forma reducida (𝚷 y 𝛀), existen valores únicos para
los parámetros estructurales (𝐁𝟎 , 𝚪 y 𝐃) de la forma especificada, estableciendo que el modelo
estructural acaba de ser identificado.
Dado que el modelo se acaba de identificar, estimación de máxima verosimilitud de
información (FIML) de (𝐁𝟎 , 𝚪 y 𝐃) se puede obtener primero maximizando la función de
verosimilitud con respecto a los parámetros de forma reducida (𝚷 y 𝛀) y luego usar el mapeo único
de parámetros de forma reducida para encontrar los parámetros estructurales. Las estimaciones de
máxima verosimilitud de 𝚷 se obtienen a partir de las regresiones de MCO de los elementos de 𝑦𝑡
sobre 𝑥𝑡 , y la MLE de 𝛀 se obtiene a partir de la matriz de varianza-covarianza de los residuos de
estas regresiones. Las estimaciones 𝐁 ̂ 𝟎−𝟏 y 𝐃
̂ se encuentran a partir de la factorización triangular de
̂ . Sin embargo, este es precisamente el procedimiento descrito en el cálculo de las innovaciones
𝛀
ortogonalizadas en la Sección 11.4. La estimación 𝐀 ̂ descrita es, pues, la misma que la estimación
−𝟏
FIML de 𝐁𝟎 . El vector de los residuos ortogonalizados 𝐮𝐭 = 𝐀−𝟏 𝛆𝐭) correspondería al vector de
las perturbaciones estructurales y los coeficientes de impulso-respuesta ortogonalizados darían las
consecuencias dinámicas de los sucesos estructurales representados por 𝐮𝐭 , siempre que el modelo
estructural sea triangular inferior como en [11.6. 17].
VAR estructurales no recursivos

Incluso si el modelo estructural no puede ser escrito en forma triangular inferior, puede ser
posible dar una interpretación estructural a un VAR usando una idea similar a la de la ecuación
[11.6.23]. Específicamente, un modelo estructural especifica un conjunto de restricciones sobre 𝐁𝟎
y 𝐃, y podemos tratar de encontrar valores que satisfagan estas restricciones tales que
′
𝐁𝟎−𝟏 𝐃(𝐁𝟎−𝟏 ) = 𝛀. Este punto fue desarrollado por Bernanke (1986). Blanchard y Watson (1986),
y Sims (1986).
Para ilustrar, considere nuevamente el modelo de oferta y demanda discutido en las
ecuaciones [9.3.2] y [9.3.3]. En esa especificación, la cantidad (𝑞𝑡 ) y el precio (𝑝𝑡 ) eran variables
endógenas y el tiempo (𝑤𝑡 ) era exógeno, y se suponía que ambas perturbaciones eran i. i. d. El
enfoque VAR estructural a este modelo permitiría dinámicas bastante general por adiciones una
tercera ecuación para describir el comportamiento dinámica del tiempo. El tiempo
presumiblemente no depende del comportamiento del mercado, por lo que la tercera ecuación sería
para este ejemplo una autoregresión univariable. El modelo sería entonces
(1) (1) (1)
𝑞𝑡 = 𝛽𝑝𝑡 + 𝛽11 𝑞𝑡−1 + 𝛽12 𝑝𝑡−1 + 𝛽13 𝑤𝑡−1
(2) (2) (2)
+𝛽11 𝑞𝑡−2 + 𝛽12 𝑝𝑡−2 + 𝛽13 𝑤𝑡−2 + ⋯ [11.6.24]
(𝑝) (𝑝) (𝑝)
+𝛽11 𝑞𝑡−𝑝 + 𝛽12 𝑝𝑡−𝑝 + 𝛽13 𝑤𝑡−𝑝 + 𝑢𝑡𝑑
qt   p1  hw1   211 qt 1   221 pt 1   231 wt 1
  21  qt  2   22  pt 2   23  wt 2  ...
2 2 2
[11.6.25]
 p  p  p
  21 qt  p   22 pt  p   23 wt  p  u t
s

wt  33  wt 1  33  wt 2  ...  33  wt  p  utu .
1 2 p
[11.6.26]
 d s w

Podríamos entonces tomar ut , ut , ut ' Para ser un vector de ruido blanco con matriz diagonal
de varianza-covarianza dada por D. Este es un ejemplo de un modo estructural [11.6.18] en el cual
1   0
B0  1  h  [11.6.27]
0 0 1 
No hay manera de ordenar las variables para hacer que la matriz B0 Triangular inferior. Sin
embargo, la ecuación [11.6.22] Indica que las perturbaciones estructurales ut Están relacionados
con el VAR residuales  t por  t  B01ut . Así, si B0 Se calcula por máxima verosimilitud,
entonces las funciones impulso-respuesta podrían calcularse como en la sección 11.4 con A
reemplazado por B01 , Y los resultados darían los efectos de cada una de las perturbaciones
estructurales sobre valores posteriores de variables del sistema. Específicamente,
 t
 B01 ,
utt
De modo que el efecto sobre la perturbación estructural j-ésimo u jt es dado por b j , La j-ésima
columna de B01. Así, calcularíamos
yt  s yt  s  t
   sb j
u jt  tt u jt
Para  s el  n  n  Matriz de coeficientes para el j-ésimo retraso de la MA    representación
[11.4.1].
FIML Estimación de una estructura VAR Con dinámica sin

restricciones
FIML La estimación es particularmente simple si no hay restricciones sobre los coeficientes
 Sobre variables rezagadas en [11.6.18]. Por ejemplo, Esto requeriría incluir valores rezagados de
pt  j y qt  j En la ecuación tiempo [11.6.26]. Usando [11.6.23], [11.6.18] Puede escribirse como:
L  B0 , D,     Tn / 2  log  2   T / 2  log B01D  B01  '

[11.6.28]
  1/ 2    yt   ' xt  ' B01D  B01  '
T 1
 yt   ' xt .
t 1
Si no hay restricciones en la dinámica retardada, esto se maximiza con respecto a  por MCO
regresión de yt en xt . Sustituyendo esta estimación [11.6.28] como en [11.1.25] Produce

L B0 , D,  
ˆ   Tn / 2  log  2   T / 2  log B 1D  B 1 t
0 0
1 [11.6.29]
  1/ 2   ˆ  B01D  B01   ˆt .
T t
t
t 1  t

Pero

 
1
 ˆtt  B01D  B01   ˆt   trace B01D  B01  ˆt

T T
t t
t 1   t 1
 t 1 
  trace   B01 D  B01   ˆt ˆt1 
T
t 1   
 
ˆ 
 trace   B01 D  B01   T  
t 1
[11.6.30]
  
 t 1
ˆ 
 T  trace   B01 D  B01   
   

 T  trace  B t D 1 B  
0
ˆ .
0 
Además.
 
log B01D  B01   log B01  D  B01   log B0  log D .
t 2
[11.6.31]
Sustituyendo [11.6.31] y [11.6.30] dentro [11.6.29], FIML Las estimaciones de los parámetros
estructurales se encuentran eligiendo B0 y D con el fin de maximizar.
L  B0 , D,     Tn / 2  log  2   T / 2  log B0  T / 2  log D
2
[11.6.32]

  T / 2  trace  B0t D 1B0  
ˆ . 
Utilizando cálculos similares a los utilizados para analizar [11.1.25], Uno puede mostrar que si
 
t
existen matrices exclusivo B0 y D de satisfacer el formulario requerido. B01D B01 , A
continuación, maximización de [11.6.32] producirá estimaciones B̂0 y D̂ satisfactorio.
 
t
Bˆ01Dˆ Bˆ01 ˆ.
 [11.6.33]
Éste es un sistema no lineal de ecuaciones, y la maximización numérica de [11.6.32] Ofrece un
enfoque general conveniente para encontrar una solución a este sistema de ecuaciones.
Identificación de Estructural VARs

La existencia de un máximo único de [11.6.32] Requiere tanto una condición de orden
como una condición de rango para la identificación. La condición de pedido es que B0 y D No
tienen más parámetros desconocidos que . Ya que  Es simétrico, puede ser resumido por
n  n  1 / 2 Valores distintos. Si D es diagonal, requiere n parámetros, significa que B0 no puede
tener más de n  n  1 / 2 parámetros libres. Para el ejemplo de oferta y demanda de [11.6.24]
mediante [11.6.26], n  3, y la matriz B0 en [11.6.27] tiene 3  3  1 / 2  3 parámetros libres (
 ,  y h). Por lo tanto, ese ejemplo satisface la condición de orden para la identificación.
Incluso si el pedido es satisfecho, el modelo puede todavía no ser identificado. Por ejemplo,
supongamos que
1   0
B0  1  0  .
0 0 1 

Aunque esta especificación satisface la condición de orden, falla en la condición de rango, ya que el
valor de la función de verosimilitud no cambiará si  y  se conmutan junto con  d2 y  s2 .
Para caracterizar la condición de rango, suponga que hay nB elementos de B0 que debe ser
estimado; recoger estos en un  nB 1 vector  B . Los supuestos de identificación pueden
2
  2
 
representarse como un n  nB matriz S B y un conocido n 1 vector sB para cual
vec  B0   SB B  sB . [11.6.34]
Por ejemplo, para el modelo dinámico de oferta y demanda representado por [11.6.27].
1 
1 
 
0 
 
   
vec  B0      B  
 
 
0  
h 

0 
 
 h 
1 
 
0 0 0  1 
0 0 0  1 
   
0 0 0  0 
   
 1 0 0  0 
SB  0 1 0  sB   0 
   
0 0 0  0 
0 0 0  0 
   
0 0 1 0 
0 0  1 
 0   
De manera similar, recoge los elementos desconocidos de D en un  nD 1 vector  D , con

vec  D   SD D  sD [11.6.35]

2
 2
 
Para S D un n  nD matriz y sD un n 1 vector. Para el ejemplo de oferta y demanda:
 d2 
 
 0 
 0 
 
 0   d2 
 
vec  D    s2  D   s2 
 
 0   w2 
 
 0 
 
 0 
 2
 w 

1 0 0 0 
0 0 0  0 
  
0 0 0 0 
   
0 0 0 0 
S D  0 1 0 sD   0 
   
0 0 0 0 
0 0 0 0 
   
0 0 0 0 
0 1  0
 0  
Ya que [11.6.33] Es una ecuación relativa de dos matrices simétricas, hay n*  n  n  1 / 2

condiciones distintas, representadas por
 1
vech     vech   B0  B    D  D    B0  B  


1 t 
.


[11.6.36]

Denote el lado derecho de [11.6.36] por f  B , D  , donde f : RnR  RnP  R n : 
*
vech     f  B , D  . [11.6.37]
El Apéndice 11.B muestra que la  n   nB  nD   matriz de los derivados de esta función está
*
dada por
  vech     vech    
J  
  Bt
 Dt  [11.6.38]
  2 Dn    B01  S B   B0    B0   S D  ,
Dn  1 1
 
 
 
Donde Dn es de n  n matriz definida en [11.1.45].
* 2
Supongamos que las columnas de la matriz en [11.6.38] fueron linealmente dependientes; Es

decir, supongamos que existe un valor no nulo  nB  nD  1 vector  tal que J   0. Esto
significaría que si un pequeño múltiplo de  se añadieron a  Bt ,  Dt  , el modelo implicaría la
t
misma distribución de probabilidad para los datos. No tendríamos ninguna base para distinguir
 
entre estos valores alternativos para  B , D , lo que significa que el modelo no sería identificado.
t t
Así, la condición de rango para la identificación de un VAR estructural requiere que  nB  nD 

columnas de la matriz J en [11.6.38] ser linealmente independiente1. La condición de orden es que el
 
número de filas de J n  n  n  1 / 2 ser al menos tan grande como el número de columnas.
*
Para comprobar esta condición en la práctica, el enfoque más simple es generalmente hacer una
conjetura en cuanto a los valores de los parámetros estructurales y comprobar J numéricamente,
Giannini (1992) Derivó una expresión alternativa para la condición de rango y proporcionó
software para comprobarlo numéricamente.
VAR Estructural con Restricciones 
1
esta condición caracteriza la identificación local: puede ser que incluso si un modelo satisface tanto la condición de
rango como de orden. Hay dos valores no convencionales de (𝜽´𝑩 , 𝜽´𝑫 ) Para los cuales la probabilidad tiene el mismo
valor para todas las realizaciones de los datos. Ver Rothenberg (1971. Teorema 6. p.585)

El ejemplo de oferta y demanda de [11.6.24] a [11.6.26] no satisfacen las suposiciones
detrás de la derivación de [11.6.32], porque [11.6.26] impusieron la restricción de que los valores p y
q no pertenecía a la ecuación tiempo. Cuando se impongan tales restricciones, ya no es FIML
estimaciones fuera  se obtienen por OLS, y los parámetros del sistema tendrían que ser
estimados como se describe en la Sección 11.3. Como alternativa, OLS estimación de [11.6.24]
mediante [11.6.26] aún daría estimaciones consistentes de  , y la matriz de varianza-covarianza de
ˆ . se podría utilizar
los residuos de estas regresiones proporcionaría una estimación consistente 
esta estimación en [11.6.32], y el problema de maximización resultante daría estimaciones
razonables de B0 y D.
VAR Estructurales y Comportamiento Prospectivo

El ejemplo de la oferta y la demanda suponía que los valores retardados de precio y cantidad no
aparecían en la ecuación para el tiempo. El espíritu de los VARs es que tales suposiciones deben ser
probadas antes de ser impuestas. ¿Qué debemos concluir si, contrariamente a nuestras expectativas
previas, el precio de las naranjas resultó en Granger-causa el clima en la Florida? Ciertamente no
puede ser que el precio es una causa del clima. En su lugar, tal conclusión sugeriría un
comportamiento prospectivo por parte de los compradores o vendedores de naranjas: por ejemplo,
puede ser que si los compradores anticipar el mal tiempo en el futuro, que pujas por el precio de las
naranjas de hoy. Si esto resulta ser el caso, la suposición de identificación en [11.6.24] Que la
demanda depende del clima sólo a través de su efecto sobre el precio actual debe ser reexaminada.
El modelado adecuado del comportamiento orientado hacia el futuro puede proporcionar una
forma alternativa de identificar VARs, como explorado por Flavin (1981), Hansen and Sargent
(1981), y Keating (1990), entre otros.
Otros Enfoques para Identificar VARs Estructurales

La identificación se discutió en subsecciones anteriores principalmente en términos de
restricciones de exclusión sobre la matriz de coeficientes estructurales B0 . Blanchard and Diamond
(1989, 1990) Utilizó a priori suposiciones sobre los signos de parámetros estructurales para
identificar una gama de valores de B0 coherente con los datos. Shapiro y Watson (1988) y
Blanchard y Quah (1989) utilizó suposiciones sobre los multiplicadores de largo plazo para lograr la
identificación.
Una Crítica de los VAR Estructurales

Los VAR estructurales tienen atractivo para dos tipos diferentes de investigación. El primer
usuario potencial es alguien que está principalmente interesado en estimar una ecuación estructural
tal como la función de demanda de dinero en [11.6.1]. Si un modelo impone restricciones a la
dinámica de la relación, parece una buena práctica probar estas restricciones contra una
especificación más general como [11.6.5] antes de confiar en el modelo restringido para la
inferencia. Además, para estimar las consecuencias dinámicas de, por ejemplo, los ingresos sobre la
demanda de dinero, debemos tener en cuenta el hecho de que, históricamente, cuando los ingresos
suben, esto se ha asociado típicamente a cambios futuros en los ingresos y las tasas de interés. ¿Qué
horario para estas variables explicativas debe ser asumido para evaluar las consecuencias de la
demanda de dinero en el tiempo t + s de un cambio en el ingreso a tiempo t? A VAR Ofrece un
marco para plantear esta pregunta-usamos el camino del tiempo que históricamente se predijo para
esas variables después de un cambio inesperado en el ingreso.
Un segundo usuario potencial es alguien que está interesado en resumir la dinámica de un vector yt
Imponiendo al mismo tiempo las pocas restricciones posibles. En la medida en que este resumen
incluye el cálculo de las funciones de impulso-respuesta, necesitamos una cierta motivación para lo

que las estadísticas significan. Supongamos que hay una subida temporal de los ingresos después de
una innovación en dinero. Uno está tentado de interpretar este hallazgo como sugiriendo que la
política monetaria expansiva tiene un efecto positivo pero temporal en la producción. Sin embargo,
tal interpretación implica implícitamente que la "innovación monetaria" ortogonalizada es la misma
que el término de perturbación en una descripción de la política del banco central. En la medida en
que las funciones de impulso-respuesta se utilizan para hacer declaraciones que son de naturaleza
estructural, parece razonable tratar de utilizar una ortogonalización que represente nuestra
comprensión de estas relaciones lo mejor posible. Este punto ha sido discutido enérgicamente por
Cooley and LeRoy (1985), Leamer (1985), Bernanke (1986), y Blanchard (1989), entre otros.
Aun así, debe reconocerse que convincentes suposiciones de identificación son difíciles de
conseguir. Por ejemplo, el pedido en [11.6.17] Es claramente algo arbitrario, y las restricciones de
exclusión son difíciles de defender. En efecto, Si hubiese supuestos de identificación convincentes
para tal sistema, los feroz debates entre los macroeconomistas se habrían resuelto hace mucho
tiempo! El sesgo de las ecuaciones simultáneas es muy penetrante en las ciencias sociales, y extraer
inferencias estructurales de las correlaciones observadas debe siempre proceder con gran cuidado.
Seguramente no siempre podemos esperar encontrar suposiciones de identificación creíbles que nos
permitan identificar las relaciones causales entre cualquier conjunto arbitrario de n variables sobre
las que tenemos datos.
11.7. Errores Estándar para las Funciones de Respuesta de

Impulso
Errores Estándar para la Función de Respuesta de Impulso no

Ortogonalizada Basada en Derivados Analíticos
La Sección 11.4 se discutieron cómo  S , la matriz de coeficientes impulso-respuesta a retraso
s, se construirían a partir del conocimiento de los coeficientes autorregresivos. En la práctica, los
coeficientes autorregresivos no se conocen con certeza, sino que deben estimarse OLS regresiones.
Cuando se utilizan los valores estimados de los coeficientes autorregresivos para calcular Es útil
ˆ .2
informar los errores estándar implícitos para las estimaciones  S
Adoptando la notación de la proposición 11.1, deja k  np  1 denota el número de coeficientes

en cada ecuación de la VAR y deja   vec    denotan el  nk 1 vector de parámetros para
todas las ecuaciones: el primer k elementos of  dar el término constante y coeficientes
autorregresivos para la primera ecuación, el siguiente k elementos de  Dar los parámetros para la
segunda ecuación, y así sucesivamente. Dejar  S  vec  S   t
denotan el  n 1
2
vector de
desplazamiento, coeficientes medios asociados con atraso s. Los primeros n elementos de  S son
dados por la primera fila de  S e identificar la respuesta de y1.t  S para  t . los siguientes n
elementos de  y son dados por la segunda fila de  S e identificar la respuesta de y2.t  s para  t ,
y así. Dado los valores de los coeficientes autorregresivos en  , el VAR puede simularse para
calcular  S . Así,  S podría considerarse una función no lineal de  , representado por la
función  S   ,  S : R  R .
2
nk n
2
Los cálculos relacionados con los desarrollados en esta sección Baillie (1987). Lutkepohl (1989). y
Giannini (1992). Giannini proporcionó software informático para calcular algunas de estas magnitudes.
11.7 Errores Estándar para las Funciones de Respuesta de Impulso 349

Los coeficientes impulso-respuesta se estiman reemplazando  con el OLS estimados ˆT ,
ˆ   ˆ  . Recordemos que bajo las condiciones de la
Generando la estimación  s ,T S T
Proposición 11.1, T ˆT    

L
 X , donde
X 
N 0,    Q1  .  [11.7.1]
ˆ puede calcularse aplicando la proposición 7.4:

Errores estándares para  N

ˆ   
T  s ,T S
L
 GS X , 
Donde
 S  
GN  . [11.7.2]
 n nk 
2  t
Es decir,

ˆ   
T  s ,T S
L
 
 N 0, GS    Q1  GSt .  [11.7.3]
Los errores estándares para un coeficiente de impulso-respuesta estimado están dados por la raíz
cuadrada del elemento diagonal asociado de 1/ T  Gˆ s ,T  
ˆ  Qˆ 1 Gt , donde
T T s ,T 
 x  
Gˆ s ,T 
 t  ˆ
t
T
QˆT  1 / T   xt xt1 ,
t 1
ˆ como se define en la proposición 11.1.

Con xt y  T
Para aplicar este resultado, necesitamos una expresión para la matriz GN in [11.7.2]. Apéndice
1l.B En este capítulo se establece que la secuencia GS S 1 puede calcularse iterando en
m
GN   I n   0n1  ts 1 ts 2 ... ts  p     1  I n  Gs 1

[11.7.4]
   2  I n  Gs 2  ...    p  I n  Gs  p .
Aqui 0n1 denota un  n 1 vector de ceros. La iteración se inicia configurando
G0  G1  ...  G p 1  0n2nk. También se entiende qué  0  I n y  N  0nn para s  0. Así,
por ejemplo,
G1   I n   0n1 I n 0nn...0nn  
G2   I n   0n1 1t I n ...0nn     1  I n  G1.
Una solución cerrada para [11.7.4] es dado por

  i 1   0n1  N 1 N i 1... N i  p 1  .

GN    t t t
 [11.7.5]
i 1
Métodos Alternativos para Calcular Errores Estándar para la Función

de Respuesta de Impulso no Ortogonalizada
La matriz de derivados GS Se puede calcular alternativamente numéricamente como sigue.
Primero usamos el OLS estimados ˆ para calcular  N ˆ  para s  1, 2,..., m. Luego

aumentamos el valor del i-ésimo elemento de  por una pequeña cantidad , manteniendo
constantes todos los demás elementos, y evaluar  S ˆ  ei   para s  1, 2,..., m, donde ei
denota la i-ésima columna de I nk . entonces el  n 2 1 vector
 S ˆ  ei     S ˆ 

Da una estimación de la i-ésima columna de GS . Mediante la realización de evaluaciones separadas

de la secuencia  S ˆ  ei   para cada i  1, 2,..., nk , Todas las columnas de G, puede ser
llenado.
Los métodos de Monte Carlo también pueden usarse para inferir la  S ˆ  . Aquí
generaríamos aleatoriamente una  nk 1 
vector sacado de un N ˆ 1/ T    ˆ 1 
ˆ Q 
distribución. Denote este vector por  1 , y calcule  S  1  . Dibujar un segundo vector   2 de
la misma distribución y calcular  S   2  . Repita esto para, digamos, 10,000 simulaciones
separadas. Si 9500 de estas simulaciones resultan en un valor del primer elemento de  S eso es
entre  S 1 y  s1 , entonces  s1 ,  s1  Puede utilizarse como un intervalo de confianza del 95%
para el primer elemento de ˆ .
s
Runkle (1987) empleo un enfoque relacionado basado en bootstrapping. La idea detrás de
bootstrap es obtener una estimación de la distribución de la pequeña muestra de ˆ sin suponer que
las innovaciones  t son gaussianos. Para implementar este procedimiento, primero estime el VAR
y guardar las estimaciones de coeficientes ˆ y los residuos instalados ˆ1 , ˆ2 ,..., ˆT . Luego
considere una variable aleatoria artificial u que tiene probabilidad 1/ T  de asumir cada uno de los
valores particulares ˆ1 , ˆ2 ,..., ˆT . La esperanza es que la distribución u es similar a la distribución
de la verdadera población  ' s. Luego tome un sorteo aleatorio de esta distribución (denotado
u11 ), y usar esto para construir la primera innovación en una muestra artificial; Es decir, establecer
y1   cˆ  
ˆ y 
ˆ y  ...  
ˆ y 1
p  p 1  u1 ,
1
1 0 2 1
Donde y0 , y1 ,..., y y p 1 denotan los valores de pre muestras de y que se observaron realmente
en los datos históricos. Tomando un segundo sorteo u2  , generar
1
y2   cˆ  
ˆ y1  
ˆ y  ...  
ˆ y 1
p  p  2  u2 .
1
1 1 2 0
Tenga en cuenta que este segundo sorteo es con reemplazo; Es decir, hay un (1/T) posibilidad de
que u1  es exactamente lo mismo que u21 . Procediendo de esta manera, una muestra completa
1
 y11 , y21 ,..., yT1  puede ser generado. Un VAR Puede ser montado por OLS a estos datos
simulados (tomando de nuevo los valores de pre muestras y de cómo sus valores históricos),

produciendo una estimación ˆ . De esta estimación, la magnitud  s ˆ 1  puede ser calculado.
1
A continuación, generar un segundo conjunto de T dibujos a partir de la distribución de u,

   2
 
 2
denotado u1 2 , u2 2 ,..., uT 2 , ajuste ˆ a estos datos por OLS, y calcular  s ˆ . Una serie
de 10.000 simulaciones de este tipo podría llevarse a cabo, y un intervalo de confianza del 95% para
i 
Se deduce de la gama que incluye el 95% de los valores para  s1 ˆ .  

Errores Estándar para Parámetros de un VAR estructural
Recordar de la proposición 11.2 y la ecuación [11.1.48] Que si las innovaciones son gaussianas,
  
T  vech 
ˆ
T  vech     

L

 N 0, 2 Dn       Dn  .
t

ˆ)
Las estimaciones de los parámetros de una VAR ( B̂0 y D se determinan como funciones
implícitas de ̂ donde
 
t
ˆ  Bˆ 1D
ˆ Bˆ 1 . [11.7.6]
0 0
Como en la ecuación [11.6.34], los elementos desconocidos de B0 ron resumidos por un  nB 1
vector  B con vec  B0   S B B  sB . Similarmente, como en [11.6.35], se asume que
vec  D   SD D  sD para  D un  nD 1 vector. A continuación se deduce de la proposición
7.4 ese

T ˆB ,T   B 
L
 
 N 0, 2GB Dn       Dn  GBt
t
 [11.7.7]

T ˆD,T   D 
L
 
 N 0, 2GD Dn       Dn  GDt ,
t
 [11.7.8]
Donde
 B
GB  [11.7.9]
 nB n *
   vech     '
 D
GD  [11.7.10]
 nD n *
   vech     '
Y
n*  n  n  1 / 2.
Ecuación [11.6.38] dio una expresión para la  n   nB  nD   matriz:
*
  vech     vech    
J  .
  B
t
 Dt 
Hemos observado que si el modelo va a ser identificado, las columnas de esta matriz deben ser
linealmente independientes. En el caso recién identificado, n*   nB  nD  y J
1
existe de donde
 GB  1
G   J . [11.7.11]
 D
Errores Estándar para Funciones de Respuesta de Impulso

Ortogonalizadas
Sección 11.6 cálculo descrito de los siguientes  n  n  matriz:
H s   s B01. [11.7.12]
El elemento de la fila I, columna j de esta matriz mide el efecto de la perturbación estructural j-
ésima u jt  sobre la i-ésima variable del sistema  y  después de un retraso de s periodos.
i ,t  s
Recoge estas magnitudes en una n 1 vector hs  2

  vec  H  . Así, la primera n elementos de h
t
s s
dan el efecto de ut en y1,t  s , los n elementos dan el efecto de ut en y2,t  s , y así.

ˆ es una function de
Ya que  s
ˆ  
ˆ , Las distribuciones
y desde B̂0 es una función de vech 
de los coeficientes autorregresivos y las varianzas afectan a la distribución asintótica de hˆs . Se

deduce de la proposición 11.2 que con las innovaciones gaussianas,
T hˆ  h  s ,T N 
   Q 1 0  t  
 N  0,  
 L
      [11.7.13]

 0 2 Dn       Dn  '  t  
 

N 0,     Q 1  t  2 Dn       Dn  ' t  , 
Donde apéndice 11.B Demuestra que
  hs /  t   I n   B0t   Gs
1
[11.7.14]
 
hs
   H s   B0t   S B , GB .
1
  [11.7.15]
  vech     '  
Aquí Gs es la matriz dada en [11.7.5], GB es la matriz dada en [11.7.11], y S B , es una matriz
n 2
 nB  que toma los elementos de  B y los coloca en la posición correspondiente para construir
vec  B0t  :
vec  B0t   SB , B  sB ' .
Para los ejemplos de oferta y demanda de [11.6.24] a [11.6.26],
 0 0 0 
 1 0 0 
 
 0 0 0 
 
 0 0 0 
SB '  0 1 0 .
 
 0 0 1
 0 0 0 
 
 0 0 0 
 0 0 
 0 
Experiencia Práctica con Errores Estándar

En la práctica, los errores estándar para inferencias dinámicas basadas en VARs a menudo
resultan ser decepcionantemente grandes (ver Runkle, 1987, y Lütkepohl, 1990).
Aunque una VAR impone pocas restricciones sobre la dinámica, el costo de esta generalidad es que
las inferencias dibujadas no son demasiado precisas. Para obtener mayor precisión, es necesario
imponer nuevas restricciones. Un enfoque es encajar la dinámica multivariante usando un modelo
restringido con muchos menos parámetros, siempre que los datos nos permitan aceptar las
restricciones. Un segundo enfoque consiste en confiar más en las expectativas previas sobre la
dinámica del sistema. Este segundo enfoque se explorará en el próximo capítulo.

APÉNDICE 11.A. Pruebas de las Proposiciones del Capítulo
11
■Prueba de Proposición 11.1. La condición en las raíces de [11.1.35] garantiza que la
representación MA    es absolutamente sumatoria. Así y1 es ergódico para los primeros
momentos, desde proposiciones 10.2(b) y 10.5(a), y es también ergódico para los segundos
momentos, de la Proposición 10.2(d). Establece el resultado 11.1(a).
Las pruebas de los resultados (b) y (c) Son prácticamente idénticos a los de una sola regresión
OLS con regresores estocásticos (Resultados [8.2.5] y [8.2.12]).
Para verificar el resultado (d), darse cuenta de

1
  
  x  
T T
T î ,T   i   1/ T   xi xit   1/ T i it 
 i 1   i 1 
Y entonces
 1
  x  
T
 QT 1 / T t 1t 
 t 1

 1 
 
T
T ˆT      T
Q 1/ T  xt  2t  [11.A.1]
 t 1

 
 
 
T
Q 1 1 / T

T 
t 1
xt  nt 

Donde
 T

QT  1/ T   xt xtt 
 t 1 
Definir  t para el siguiente  nk 1 vector:
 xt 1t 
x  
t   t 2t  .
 
 
 xt  nt 
Darse cuenta de  t es una secuencia de diferencia de martingala con cuartos momentos finitos y
varianza
 E  xt xtt   E  12t  E  xt xtt   E  1t  2t  E  xt xtt   E  1t  nt  

 
 E  xt xtt   E   2t 1t  E  xt xtt   E   22t  E  xt xtt   E   2t  nt  
E tt   
t

 
 
 E  xt xt   E   nt 1t  E  xt xt   E   nt  2t  E  xt xtt   E   nt2  
t t
 E  12t  E  1t  2t  E  1t  nt  

 
 E   2t 1t  E   22t  E   2t  nt  
 
 
 
 E   nt 1t  E   nt  2t  E   nt  
2
   Q.

Se puede demostrar además que
T
1/ T   ttt 
p
  Q [11.A.2]
t 1
(Ver ejercicio IJ.I). De la proposición 7.9 se desprende que
1/  
T
T t 
L
 N  0,    Q   . [11.A.3]
t 1
Ahora, la expresión [11.A.1] puede escribirse

 

t
 1 / T  xt 1t 
0  
t 1
Q 1
0

t
   t
 
0 QT1 0  1 / T  xt  2t  
T ˆt       

t 1

   
 0 0 QT1   
 
t
 1 / T  xt  nt  

 t 1
  I n  Qt1  1 / T    .
T
t
t 1
1
 Q1. Así,
Pero resulta (a) implica que QT 
P
  I 0  Q 1  1/ T    .
T
T ˆt    
P
t
[11.A.4]
t 1
Pero de [11.A.3], esto tiene una distribución que es Gaussiana con media 0 y varianza
I n  Q1     Q   I n  Q1    I nI n   Q1QQ1     Q 1 ,
Como se reivindica. ■
ˆ *  1/ T     ser la estimación de  basado en

T
■Prueba de Proposición 11.2. Definir 
t
T t 1 t t
ˆ tiene la misma distribución asintótica que 
los residuos reales. En primer lugar  ˆ * . Para ver
T T
esto, observa eso
ˆ *  1 / T    y   ' x   y   t x  '
T
 T t t t t
t 1
   
t
ˆ  'x  y  ˆ  x 
T
 1 / T    yt  
t
ˆt x   ˆt x  
t  t t
t 1
 T t T
 T t T

  y  ˆ x 
T t [11.A.5]
 1 / T   yt  
ˆt x
T t t
t
T t
t 1
  1 / T   x x  ˆ 
t T
ˆ 
  '

T t t T
t 1
  1 / T   xt xt'  ˆ T   ,
t T
ˆ 
ˆ  
T T
t 1
Donde los términos de producto cruzado se dejaron caer en la tercera igualdad a la derecha a la luz
de la condición de ortogonalidad OLS 1/ T  t 1 yt  Tt xt xtt  0. Ecuacion [11.A.5] implica
T
 
que
    1/ T   x x  
T
 T 
ˆ   .
t
ˆ * 
T  ˆ ˆ 
  t
T T T
t 1
t t
 T

Apéndice 11.A. Pruebas de las Proposiciones del capítulo 11 355

 ˆ   0, 1/ T  
t
Pero la proposición 11.1 estableció que  p T
xt xtt 
p
 Q, y
T t 1

ˆ 
T T  converge en la distribución. Así, de la proposición 7.3, T  T 
ˆ * 
ˆ
T 
p
0 
significa que T  
ˆ    ˆ  .
 T 
*
T T  p
 
Recordando [11.A.4],

 I n  Q  1 / T     
T
1
 T ˆT     t
[11.A.6]
  
p

t 1

 T  vech 
 
ˆ
T 
 vech     
 

T
1 / T  t   

 t 1 
Donde t   t  xt y
 12t   1t 1t  2t   12 1t  nt   1n 
 
    21  22t   22  2t  nt   2 n 
t  vech  2t 1t
 
 
 nt 1t   n1  nt  2t   n 2    nn 
2
nt
Es fácil demostrar que  ,   '

t
t
t
t
Es una secuencia de martingala diferencia que satisface las
condiciones de la Proposición 7.9, de la cual

    
T
 1/ T
 0   
t
12   [11.A.7]
  
t 1
L
 N    ,  11 ,
   0    21  22 
  
T
 1/ T  t 
 t 1 
Donde
12   E tt  E t tt  
t
 11
   .
 22   E  ttt   21 E  t tt  

Recordemos de la prueba de la proposición 11.1 que
1t  E ttt     Q.
Un elemento típico de 12 es de la forma

E  xt 1t   it  it   ij   E  xt   E  lt it it    ij  E  xt   E  lt  ,
Que es igual a cero para todo i, j y l. Por lo tanto, [11.A.7] se convierte

    
T
 1/ T t
 0    Q 0 
 t 1
 
L
 N    , ,
   22  
   0  0
T
 1/ T


t 1
t 

Y por lo tanto de [11.A.6],
 T ˆT      0     Q 1 0 
  
L
 N    ,  .
 T  vech 
 
ˆ
T  
 vech     

 0 
  0  22  

Por lo tanto, la proposición ll.2 será establecido si podemos demostrar que E t t  t

 está dada por
la matriz  22 descrita en la proposición: es decir, debemos demostrar que
E  it  tt   ij   h mt   lm    il pn   im tt [11.A.8]
Para todo i, j, y m.
Para derivar [11.A.8], permite   PP ' denotar la descomposición de Cholesky de  y
definir
vt  P 1 t . [11.A.9]

Entonces E  vt vtt   P 1  P 1  '  I n . Así, vit es Gaussiana con media cero, varianza unitaria y
cuarto momento dada por E  vit4   3. Además, vit es independiente de vit para i  j.
Ecuación [11.A.9] implica
 t  Pvt . [11.A.10]
Permite pij denotar la fila i, columna j elemento de P. Entonces la i-ésima fila de [11.A.10] establece
que
 it  pit v1t  pi 2v2t  ...  pinvnt [11.A.11]
Y
 it jt   pit vit  p12v2t  ...  pnnvm    pit vit  p12v21  ...  pinvnt  . [11.A.12]
Segundos momentos de  , puede encontrarse tomando las expectativas de [11.A.12], recordando

que E  vit vit   1 si i  j y es cero de lo contrario:
E  it  it   pit pit  p12 p12  ...  pin pin . [11.A.13]
Prueba de Proposición 11.3. Primero supongamos que y falla en Granger-causa x, Para que el
proceso se pueda escribir como en [11.2.4]. Definir v2t ser el residuo de una proyección de  2t en
1t , con b0 definido como el coeficiente de proyección:
v21   21  b01t .
Así, v2t y 1t no están correlacionados y, recordando que  t es ruido blanco, v2t debe estar sin
correlación con 1 para todo t   así como. Desde la primera fila de [11.2.4], esto significa que
v2t y x No están correlacionados para todos t y  . Con esta definición de v2t , La segunda fila de
[11.2.4] puede escribirse como
y1  2   21  L  1t   22  L  v2t  b0 t1 . [11.A.15]
Además, desde la primera fila de [11.2.4],
1
1t  1t  L   xt  t  . [11.A.16]
Sustituyendo [11.A.16] dentro [11.A.15] da
yt  c  b  L  xt  t , [11.A.17]
 
Donde hemos definido b  L     21  L   b0  22  L   11  L 
 
1
, c   2  b 1 1 , y
1   22  L  v2t . Pero t , Construido a partir de v2t , no está correlacionada con xt para todo  .
Además, sólo los valores actuales y rezagados de x, Como lo resume el operador b  L  , aparecen
en la ecuación [11.A.17]. Hemos demostrado que si [11.2.4] sostiene, entonces di  0 para todo i
en [11.2.5].
Para probar lo contrario, supongamos que di  0 para todo j en [11.2.5]. Permite
xt  t  1t  L  1t [11.A.18]

Denotan la representación wold univariada xt ; así, 11  1. Utilizaremos una notación
t
consistente con la forma de [11.2.4] en previsión de la respuesta final que se derivará; Por ahora, el
lector debe ver [11.A.18] como una nueva definición de 1t  L  en términos de la representación
de Wold univariada para x. Existe también una representación de Wold univariada para el término
de error en [11.2.5], denotado
t   22  L  v2t , [11.A.19]

Con  22t   1. Darse cuenta de t cómo se define en [11.2.5] no está corregido con x, para todo t
y s. resulta que v2t no está correlacionada con x o 1 para todo t y  .
Sustituyendo [11.A.18] y [11.A.19] en [11.2.5],
yt  c  b 1 1  b  L  11  L  1t   22  L  v2t . [11.A.20]
Defina
 2t  v2t  b01t [11.A.21]
Para b0 el coeficiente de L of b  L  y
0
2  c  b 1 1. [11.A.22]
Observa eso  1t ,  2t  ' es el ruido blanco del vector. Sustituyendo [11.A.21] y [11.A.22] en
[11.A.20] produce
yt  2  b  L  11  L   b0  22  L  1t   22  L   2t . [11.A.23]
Finalmente, defina
 21  L   b  L  11  L   b0  22  L  ,
Señalando que  21  0. Luego, sustituyendo esto en [11.A.23] produce
1
yt  2   21  L  1t   22  L   2t .
Esto combinado con [11.A.18] completa la demostración de que [11.2.5] implica [11.2.4].■
APÉNDICE 11.B. Cálculo de Derivados Analíticos
Este apéndice calcula las derivadas reportadas en las secciones 11.6 y 11.7.
■Derivación de [11.6.38]. Deje que el escalar  representan un elemento particular de  B o  D , y
deja  /  denotan el n  n  2 2
 matriz que resulta cuando cada elemento de  se diferencia
con respecto a  . Así, la diferenciación [11.6.33] con respecto a  resulta en
 /    B01 /   D  B01  ' B01  D /    B01  '  B01  D   B01  '/   . [11.B.1]
Definir
   B01 /   D  B01  ' [11.B.2]
Y notar que
 '   B01  D   B01  '/   ,
Ya que D es una matriz de varianza-covarianza y por lo tanto debe ser simétrica. Así, [11.B.1] puede
escribirse
 /     B01  D /    B01  '  '. [11.B.3]

Recordemos de la proposición 10.4 que
vec  ABC    C ' A  vec  B  . [11.B.4]
Por lo tanto, si el operador vec se aplica a [11.B.3] el resultado es

 vec   
 vec     '    B01    B01   vec  D /   . [11.B.5]

 
Permite Dn denotar el n  n matriz de duplicación introducida en [11.1.43]. Observe que para
2 *
cualquier  n  n  matriz  , los elementos de Dnt vec    son de la forma  d para elementos
diagonales de  y de la forma   d  u  para elementos fuera de la diagonal. Por lo tanto,
 
1
Dnt vec     Dnt vec   ' . si [11.B.5] es premultiplicado por Dn  Dnt Dn Dnt , el resultado es
así
 vech    [11.B.6]
 B0    B0   vec  D /   ,
 2 Dn vec     Dn  1 1


Ya que desde [11.1.46] Dn vec     vech    .
Diferenciar la identidad B01B0  I n con respecto a  produce
 B 1
0 /   B0  B01  B0 /    0nn
O
B01 /    B01  B0 /   B01. [11.B.7]
Así, [11.8.2] puede escribirse
   B01  B0 /   B01D  B01  '   B0t  B0 /   .
Aplicando el operador vec como en [11.B.4] resulta en

 vec  B0 
vec         B01  .

Sustituyendo esta expresión en [11.8.6] da
 vech     vec  B0   vec  D 

 2 Dn    B01   Dn  B01    B01  
  
 B  D
 2 Dn    B01  S n   Dn  B01    B01   S D .
 
 
Expresión [1l.B.8] es un n 1 vector que da el efecto de un cambio en algún elemento de  B
*
o  D en cada uno de los n elementos de vech    . Si  corresponde al primer elemento de

*
 B , entonces  B /   e1 , la primera columna de la  nB  nB  matriz de identidad, y

 D /   0. Si  corresponde al segundo elemento de  B , entonces  B /   e2 . Si
apilamos los vectores en [11.B.8] asociado con    B,1 ,    B,2 ,...,    B,n lado a lado, el B
resultado es
  vech     vech     vech    
 ...  [11.B.9]
  B ,1  B ,2  B ,nB 
  2 Dn    B01  S B  e1 e2 ... enB 
Es decir,
 vech   
  2 Dn    B01  S B  . [11.B.10]
 B
t

Del mismo modo, dejar que el escalar  en [11.B.8] corresponde a cada uno de los elementos  D
en sucesión y apilar las columnas resultantes horizontalmente da como resultado
 vech   
 Dn  B01    B01   S D . [11.B.11]
 Dt
Ecuación [11.6.38] entonces sigue inmediatamente de [11.B.10] y [11.B.11].
Derivación de [11.7.4]. Recordar la ecuación [10.1.19] que
 s  1 s 1  2  s 2  ...   p  s  p ' [11.B.12]
Tomando transposiciones,
ts  ts 11t  ts 2t2  ...  ts  p tp ' [11.B.13]
Deje que el escalar  denotan algún elemento particular de  , y diferenciar [11.B.13] con respecto
a:
 ts 1t  t2  tp
  ts 1   ts  2  ...   ts  p
   
 ts 1 t  ts  2 t  ts  p t
 1   2  ...  p
  
 c '/  
  t /  
 1 
2 / 
  0n1  s 1 s  2 ... s  p 
t t t
  t

 
 
  tp /  
 
 ts 1 t  ts  2 t  s  p t
t
 1   2  ...  p
  

 0n1  ts 1 ts  2 ... ts  p  [11.B.14]

 ts 1 t  ts  2 t  s  p t t
 1   2  ...   p.
  
Recordar resultado [11.B.4], y observe el caso especial cuando A es el  n  n  matriz de
identidad, B es un matriz de  n  r  , y C es un matriz de  r  q  :
vec  BC    C ' I n  vec  B  . [11.B.15]
Por ejemplo,
  ts 1 t    ts 1    s 1 
vec  1    1  I n  vec     1  I n   . [11.B.16]
        
Otra implicación de [11.B.4] puede obtenerse permitiendo A ser una matriz de  m  q  , B
matriz de  q  n  , y C matriz de identidad  n  n  :
vec  AB    I n  A vec  B  .
[11.B.17]

Por ejemplo,
  
vec  0n1  ts 1 ts  2 ... ts  p  
  
  vec    
  I n   0n1  ts 1 ts  2 ... ts  p    
[11.B.18]
  
  
  I n   0n1  ts 1 ts  2 ... ts  p    .
  
Aplicando el operador vec a [11.B.14] y usando [11.B.18] y [11.B.16] da
 s   
  I n   0n1  ts 1 ts  2 ... ts  p    
   
  s 1    s  2 
  1  I n     2  In   
     
  ts  p 
...    p  I n    .
 
 
[11.B.19]
Dejando  representan sucesivamente cada uno de los elementos  y apilar las ecuaciones
resultantes horizontalmente como en [11.B.9] resulta en
 s
  I n   0n1  ts 1 ts  2 ... ts  p  
 t
  s 1    s  p 
  1  I n   t 
 ...    p  I n   ,
     
t
Como se afirma en [11.7.4].■
■Derivación de [11.7.5]. Aquí la tarea es verificar que si G, es dado por [11.7.5], entonces
[11.7.4] sostiene:
Gs   I n   0n1  ts 1 ts  2 ... ts  p       k  I n  Gs k . [11.B.20]
p
k 1
Observe que para Gs dada por [11.7.5],

p
 
k 1
k  I n  Gs  k
s k
    k  I n    i 1   0n1  ts  k i  ts k i 1... ts k i  p 1  
p
k 1 i 1
sk
   k  i 1   0n1  ts  k i  ts k i 1... ts k i  p 1  .
p
k 1 i 1
Para cualquier valor dado para k y i, define v = k + i. Cuando i = l, entonces v = k + l; cuando
i = 2, entonces v = k + 2; y así:
  0n1  ts i  ts v 1... ts v  p 1 .

p p s
  k  I n  Gsk  
k 1
  
k 1 v  k 1
k v  k 1
Recordando además que  v k 1  0 para v  2,3,..., k , podríamos igualmente escribir

p


   I  G
1
n s 
   k  v  k 1   0n1  ts v  ts v 1... ts v  p 1  

p s
k 1 v  2
[11.B.21]
   k  v  1   0n1  ts v  ts v 1... ts v  p 1  
s p
v  2 k 1
s  
 p 
     k  v  1    0n1  ts v  ts v 1... ts v  p 1  
v  2  k 1  
    v 1   0n1  ts  v  ts  v 1... ts  v  p 1  ,

s
v2
En virtud de [11.8.12]. Si el primer término en el lado derecho de [11.B.20] se añade a [11.B.21], el
resultado es
 I n   0n1  ts 1 ts  2 ... ts  p         I n  Gv  
p
   1
  I n   0n1  ts 1 ts  2 ... ts  p  
   v 1   0n1  ts 1 ts v 1... ts v  p 1 

s
v2
    v 1   0n1  ts 1 ts v 1... ts v  p 1   ,

s
v 1
Que es precisamente la expresión de Gv dada en [11.7.5]. ■
Derivación de [11.7.14] y [11.7.15]. Postmultiplicación [11.7.12] por B0 y la transposición de los

B0t H st  ts . [11.B.22]
Deje que el escalar  denotan algún elemento de  o , y diferenciar [11.8.22] con respecto a
:
 B t
0 /   H st  B0t  H st /    ts /  . [11.B.23]
Aplicando el operador vec a [11.B.23] y usando [11.B.15] y [11.B.17],
 H s  I n    vec  B0t  /     I n  B0t    vec  H st  /     vec  ts  /  ,

Este implica
hs /     I n  B0t   H s  I n    vec  B0t  /     I n  B0t 
1 t
 s / 
[11.B.24]
 
   H s   B0t    vec  B0t  /    I n   B0t    s /  .
t t
   
Notando que B0t no depende de  , si [11.B.24] se apila horizontalmente para   1 ,  2 ,...,  nk ,

el resultado es
hs /  t   n   B0t    s /  t ,
1
 
Como se afirma en [11.7.14]. Similarmente, si  es un elemento de , entonces  no tiene efecto
sobre  s , y su influencia en B0t es dado por

 vec  B0t   B
 SB , .
 
Apilar [11.B.24] horizontalmente con  representando cada uno de los elementos de vech   
produce así
hs  B
   H s   B0t   S B
t
,
  vech     '     vech    '
Como se afirma en [11.7.15]. ■
11.1. Verificar el resultado [11.A.2].

11.2. Considere las siguientes tres variables VAR:
y1t   y1t 1   y2t 1  ...  1t
y2t   y1t 1  ...  ...   2t
y3t   y1t 1   y2t 1   y3t 1   3t
(a) ¿Es y1t bloque-exógeno con respecto al vector  y2t , y3t  '?
(b) ¿Es el vector  y1t , y2t  bloque-exógeno con respecto a y3t ?
(c) ¿Es y3t bloque-exógeno con respecto al vector  y1t , y2t  ?
11.3. Tenga en cuenta las siguientes VAR bivariantes:
y1t  1 y1t 1   2 y1t  2  ...   p y1t  p
 1 y2t 1   2 y2t  2  ...   p y2t  p  1t
y2t  1 y1t 1  2 y1t  2  ...   p y1t  p
1 y2t 1   2 y2t  2  ...   p y2t  p   2t
  11 12 
 for t  
E   t      21
t
 22 
0
 otherwise.
Utilice los resultados de la Sección 11.3 para escribir esto en el formulario
y1t  1 y1t 1  x2 y1t 2  ...   p y1t  p
1 y2t 1  2 y2t  2  ...   p y2t  p  u1t
y2t  1 y1t 1  2 y1t 2  ...   p y1t  p
1 y2t 1   2 y2t  2  ...   p y2t  p  u2t ,
Dónde
  12 0 
  for t  
E  ut ut     0  22 

0 otherwise.
¿Cuál es la relación entre los parámetros de la primera representación i , i ,  i ,  i , il  y
 
los de la segunda representación i ,i , i , i ,  1 ? ¿Cuál es la relación entre  i y ui ?
2

11.4. Escriba el resultado para el ejercicio 11.3 como
 1   L   L    y1t  u1t 
     
 u    L  1    L    y2t  u2t 
o
A  L  yt  ut .
Premultiplicar este sistema por el adjunto de A(L),
 1   L   L 
A*  L    ,
 0    L  1    L  
Deducir eso y1t y y2t cada uno admite un ARMA univariado (2p, p) representación.
Mostrar cómo el argumento se generaliza para establecer que si el  n 1 vector yt sigue
una autorregresión de orden P, y luego cada elemento individual yit sigue una ARMA [np, (n
-1)p] proceso. (Ver Zellner y Palm, 1974).
11.5. Considere la siguiente VAR bivariable:

y1t  0.3 y1,t 1  0.8 y2,t 1  1t ,
y2t  0.9 y1,t 1  0.4 y2,t 1   2t ,
Con E  1t 1   1 para t   y 0 de lo contrario, E  2t  2   2 para t   y 0 de lo
contrario, y E  1t  2   0 para todo t y  .
(a) ¿Es esta covarianza del sistema-estacionaria?
(b) Calcular  s  y1v /  tt para s  0,1, y 2. ¿Cuál es el límite cuando s   ?
(c) Calcular la fracción del MSE del error de pronóstico de dos periodos por delante para la
variable I,
E  y1,t  2  Eˆ  y1,t  2 y1 , yt 1 ,... ,
2
Eso es debido a 1,t 1 y 1,t  2 .
Capítulo 11 Referencia
Ashley, Richard. 1998. “On the Relative Worth of Recent Macroeconomic Forecasts”. International
Journal of Forecasting 4:363-76.
Baillie, Richard T.1987. “Inference in Dynamic Models Containing Surprise Variables” Journal of
Econometric 35:101-17.
Bernanke, Ben. 1986. “Alternative Explanations of the Money-Income Correlation.” Carnegie-
Rochester Conference Series on Public Policy 25:49-100.
Blanchard. Olivier. 1989. “A Traditional Interpretation of Macroeconomic Fluctuations.” American
Economic Review 79:1146-64.
And Peter Diamond. 1989. “The Beveridge Curve.” Brookings Papers on Economic Activity II:
1990, 1-60.
And 1900. “The Cyclical Behavior of the Gross Flows of U.S. Workers.” Brookings Papers
on Economic Activity I: 1989, 85-155.
And Danny Quah. 1989. “The Dynamic Effects of Aggregate Demand and Aggregate Supply
Disturbances.” American Economic Review 79:655-73
And Mark Watson. 1986. “Are Business Cycle. Chicago: Chicago University of Chicago Press.
Bouissou, M. B., J. J. Laffont, and Q. H. Vuong. 1986. “Tests of Noncausality under Makov
Assumptions for Qualitative Panel Data.” Econometrica 54:395-414
Christiano, Lawrence J., and Lars Ljungqvist. 1988. “Money Does Granger- Cause Output in the
Bivariante Money-Output Relation.” Journal of Monetary Economics 22:217-35.

12
Análisis Bayesiano
En el capítulo anterior se observó que, debido a que muchos parámetros se estiman en una
autorregresión vectorial, los errores estándar para inferencias pueden ser grandes. Las estimaciones
se pueden mejorar si el analista tiene información sobre los parámetros más allá de la contenida en
la muestra. La estimación bayesiana proporciona un marco conveniente para incorporar
información previa con tanto peso como el analista considere que merece.
La sección 12.1 introduce los principios básicos que subyacen al análisis bayesiano y los
utiliza para analizar un modelo de regresión estándar o una autorregresión univariable. Las
autorregresiones vectoriales se discuten en la Sección 12.2. Para las especificaciones de las secciones
12.1 y 12.2, los estimadores bayesianos se pueden encontrar analíticamente. Los métodos
numéricos que pueden utilizarse para analizar problemas estadísticos más generales a partir de un
marco bayesiano se examinan en la Sección 12.3.
12.1. Introducción al Análisis Bayesiano

Sea 𝜃 un vector (a x 1) de parámetros a estimar a partir de una muestra de observaciones. Por
ejemplo, si 𝑦𝑡 ~𝑖. 𝑖. 𝑑. (𝜇, 𝜎 2 )entonces 𝜃 = (𝜇, 𝜎 2 )´ debe estimarse sobre la base de 𝑦 =
(𝑦1 , 𝑦2 , … … . , 𝑦𝑇 )´ . Gran parte de la discusión hasta este punto en el texto se ha basado en la
perspectiva estadística clásica de que existe cierto valor verdadero de 𝜃. Este valor verdadero se
considera como un número desconocido pero fijo. Se construye un estimador 𝜃̂ a partir de los
datos, y 𝜃̂ es, por lo tanto, una variable aleatoria. En las estadísticas clásicas, la media y el plim de la
variable aleatoria 𝜃̂ se comparan con el valor verdadero 𝜃. La eficiencia del estimador se juzga por
el error cuadrático medio de la variable aleatoria, 𝐸(𝜃̂ − 𝜃)(𝜃̂ − 𝜃) ´ . Un estimador clásico
popular es el valor 𝜃̂ que maximiza la probabilidad de la muestra, que para este ejemplo sería
1 −(𝑦𝑡 −𝜇)2
𝑓(𝑦; 𝜃) = ∏𝑇𝑡=1 𝑒𝑥𝑝 [ ] [12.1.1]
√2𝜋𝜎 2 2𝜎 2
En las estadísticas bayesianas, por contraste, 𝜃 se considera como una variable aleatoria.
Toda inferencia acerca de 𝜃 toma la forma de declaraciones de probabilidad, tales como "sólo hay
una probabilidad de 0.05 que 𝜃1 es mayor que cero". La opinión es que el analista siempre tendrá
cierta incertidumbre acerca de 𝜃 , y El objetivo del análisis estadístico es describir esta
incertidumbre en términos de una distribución de probabilidad. Cualquier información que el
analista tenía sobre 𝜃 antes de observar los datos está representada por una densidad anterior 𝑓(𝜃)
1. Las declaraciones de probabilidad que el analista pudo haber hecho sobre 𝜃 antes de observar los
datos pueden expresarse como integrales de 𝑓(𝜃) ; Por ejemplo, la sentencia anterior se expresaría
1 A lo largo de este capítulo omitiremos el subíndice que indica la variable aleatoria cuya densidad está siendo descrita; Por ejemplo, 𝑓𝜃 =
(𝜃) simplemente se denotará 𝑓(𝜃). La variable aleatoria cuya densidad se está describiendo siempre debe estar clara desde el contexto y
el argumento de 𝑓(. ).
12.1 Introducción al Análisis Bayesiano 365

∞ ∞ ∞ ∞
como ∫0 𝑓(𝜃1 )𝑑𝜃𝑡 = 0.05 donde 𝑓(𝜃1 ) = ∫−∞ ∫−∞ … … . . ∫−∞ 𝑓(𝜃)𝑑𝜃2 𝑑𝜃3 … … 𝑑𝜃𝑛 . La
probabilidad de la muestra [12.1.1] se considera como la densidad de y condicional en el valor de la
variable aleatoria 𝜃 , denotada 𝑓(𝑦|𝜃). El producto de la densidad previa y la probabilidad de
muestra da la densidad conjunta de 𝑦 y 𝜃.
𝑓(𝑦; 𝜃) = 𝑓(𝑦|𝜃). 𝑓(𝜃) [12.1.2]
Las declaraciones de probabilidad que se harían sobre 𝜃 después de que los datos y se han
observado se basan en la densidad posterior de 𝜃 , que está dada por
𝑓(𝑦,𝜃)
𝑓(𝜃|𝑦) = [12.1.3]
𝑓(𝑦)
∞
Recordando [12.1.2] y el hecho de que 𝑓(𝑦) = ∫−∞ 𝑓(𝑦, 𝜃)𝑑𝜃 la ecuación [12.1.3] puede escribirse
como
𝑓(𝑦|𝜃 ).𝑓(𝜃)
𝑓(𝜃|𝑦) = ∞
∫−∞ 𝑓(𝑦|𝜃 ).𝑓(𝜃)𝑑𝜃
[12.1.4]
Que se conoce como la ley de Bayes. En la práctica, la densidad posterior se puede encontrar a
veces simplemente reorganizando los elementos en [12.1.2] como
𝑓(𝑦; 𝜃) = 𝑓(𝑦|𝜃). 𝑓(𝑦)
Donde 𝑓(𝑦) es una densidad que no implica 𝜃; El otro factor, 𝑓(𝜃|𝑦), es entonces la
densidad posterior.
Estimación de la media de una distribución gaussiana con una varianza

conocida
Para ilustrar el enfoque bayesiano, 𝑦𝑡 ~ 𝑖. 𝑖. 𝑑. 𝑁(𝜇, 𝜎 2 ) como antes y escribir la
probabilidad de la muestra [12.1.1] como
1 1
𝑓(𝑦|𝜇; 𝜎 2 ) = (2𝜋𝜎2 )𝑇⁄2 𝑒𝑥𝑝 {[− 2𝜎2 ] (𝑦 − 𝜇. 1)´ (𝑦 − 𝜇. 1)} [12.1.5]
Donde 1 denota un vector (T x 1) de 1s. Aquí 𝜇 se considera como una variable aleatoria.
Para mantener el ejemplo simple, asumiremos que la varianza 𝜎 2 se conoce con certeza.
Supongamos que la información previa sobre 𝜇 está representada por la distribución anterior
𝜇 ~𝑁(𝑚, 𝜎 2 ⁄𝑣 ):
1 −(𝜇−𝑚)2
𝑓(𝜇; 𝜎 2 ) = (2𝜋𝜎2 ⁄𝑣)1⁄2 𝑒𝑥𝑝 [ ] [12.1.6]
2𝜎2 ⁄𝑣
Aquí m y v son parámetros que describen la naturaleza y calidad de la información previa sobre 𝜇.
El parámetro m se puede interpretar como la estimación de 𝜇 que el analista habría realizado antes
de observar y, con 𝜎 2 ⁄𝑣 la EEM de esta estimación. Expresar este MSE como un múltiplo (1⁄𝑣 )
de la varianza de la distribución para 𝑦𝑡 resulta para simplificar algunas de las expresiones que
siguen. Una mayor confianza en la información previa sería representada por valores mayores de v.
Para hacer la idea de una distribución anterior más concreta, supongamos que antes de observar y el
analista había obtenido anteriormente una muestra de N observaciones separadas 𝑧𝑖 =
{1,2, , … … . , 𝑁}de la distribución 𝑁(𝜇, 𝜎 2 ). Sería entonces natural tomar m como la media de esta
366 Capitulo 12 | Análisis Bayesiano

muestra anterior (𝑚 = 𝑧̅ = (1⁄𝑁) ∑𝑁 2
𝑖−1 𝑧𝑖 ) y 𝜎 ⁄𝑣 ser la varianza de 𝑧̅ , es decir, tomar v = N.
Cuanto mayor es esta muestra anterior (N), Mayor será la confianza en la información previa.
La distribución posterior para 𝜇 después de observar la muestra y se describe mediante la

siguiente proposición.
Proposición 12.1: El producto de [12.1.5] y [12.1.6] puede escribirse en la forma

2 ). 2 ),
𝑓(𝜇|𝑦; 𝜎 𝑓(𝑦; 𝜎 donde
1 −(𝜇−𝑚∗ )2
𝑓(𝜇|𝑦; 𝜎 2 ) = [2𝜋𝜎2 ⁄𝑣+𝑇]1⁄2 𝑒𝑥𝑝 [2𝜎2 ⁄(𝑣+𝑇)] [12.1.7]
1 −1⁄2 −1
𝑓(𝑦; 𝜎 2 ) = (2𝜋𝜎2)𝑇⁄2 |𝐼𝑇 + 1. 1´ ⁄𝑣| . 𝑒𝑥𝑝 {[−1⁄(2𝜎 2 )](𝑦 − 𝑚. 1)´ (𝐼𝑇 + 1. 1´ ⁄𝑣) (𝑦 − 𝑚. 1)}
[12.1.8]
𝑣 𝑇
𝑚∗ = ( )𝑚 + ( ) 𝑦̅ [12.1.9]
𝑣+𝑇 𝑣+𝑇
En otras palabras, la distribución de 𝜇 condicional a los datos (𝑦1 , 𝑦2 , … … . 𝑦𝑇 ) es

𝑁(𝑚 , 𝜎 2 ⁄(𝑣 + 𝑇)), mientras que la distribución marginal de y es 𝑁 (𝑚. 1, 𝜎 2 (𝐼𝑇 + 1. 1´ ⁄𝑣 )).
∗
Con una función de pérdida cuadrática, la estimación bayesiana de 𝜇 es el valor 𝜇̂ que minimiza
𝐸(𝜇 − 𝜇̂ )2 . Aunque esta es la misma expresión que la MSE clásica, su interpretación es diferente.
Desde la perspectiva bayesiana, 𝜇 es una variable aleatoria con respecto a cuya distribución se toma
la expectativa, y 𝜇̂ es un valor candidato para la estimación. El valor óptimo para 𝜇̂ es la media de la
distribución posterior descrita en la Proposición 12.1:
𝑣 𝑇
𝜇̂ = ( )𝑚 + ( ) 𝑦̅
𝑣+𝑇 𝑣+𝑇
Este es el promedio ponderado de la estimación que utilizaría el estadístico clásico (𝑦̅) y una
estimación basada únicamente en información previa (m). Los valores mayores de v corresponden a
una mayor confianza en la información previa, y esto haría que la estimación bayesiana se acercara a
m. Por otra parte, cuando v se aproxima a cero, la estimación bayesiana se aproxima a la estimación
clásica 𝑦̅.El límite de [12.1.6] como 𝑣 → 0 se conoce como densidad anterior difusa o impropia. En
este caso, la calidad de la información previa es tan escasa que la información previa es
completamente ignorada en la formación de la estimación 𝜇̂ .
La incertidumbre asociada con la estimación posterior 𝜇̂ se describe por la varianza de la

distribución posterior. Para utilizar los datos para evaluar la plausibilidad de la afirmación de que
𝜇
𝜇0 < 𝜇 < 𝜇1 , simplemente calcular la probabilidad ∫𝜇 1 𝑓(𝜇|𝑦; 𝜎 2 )𝑑𝜇 . Por ejemplo, el Bayesiano
0
afirmaría que la probabilidad de que 𝜇 esté dentro del rango 𝜇̂ ± 2𝜎⁄√𝑣 + 𝑇 es 0.95.
Estimación de los coeficientes de un modelo de regresión con una variación

conocida

Ahora, considere la siguiente ecuación
𝑦𝑡 = 𝑋𝑡´ 𝐵 + 𝑢𝑡
Donde 𝜇𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎 2 ), 𝑋𝑡 es un (𝐾 ×1) vector de variables explicativas exógenas, y 𝛽 es un

(𝐾 ×1) vector de coeficientes. Dejar
𝑦1 𝑥 ´1
𝑦2 ´
𝑦(𝑇×1) =[ ] 𝑋(𝑇×𝑘) = 𝑥2
⋮ ⋮
𝑦𝑇
[𝑥 ´ 𝑇 ]
Tratamiento 𝛽 como aleatorio pero 𝜎 2 como se conoce, tenemos la probabilidad

𝑇
1 1 2
𝑓(𝑦|𝛽, 𝑋; 𝜎 2 ) = ∏ 𝑒𝑥𝑝 {[− ] (𝑦𝑡 − 𝑋𝑡´ 𝛽) }
(2𝜋𝜎 2 )1⁄2 2𝜎 2
𝑡=1
1 1
= (2𝜋𝜎2 )𝑇⁄2 𝑒𝑥𝑝 {[− 2𝜎2 ] (𝑦 − 𝑋𝛽)´ (𝑦 − 𝑋𝛽)} [12.1.10]
Supongamos que la información previa sobre 𝛽 está representada por una distribución
𝑁(𝑚, 𝜎 2 𝑀):
1 1
𝑓(𝛽; 𝜎 2 ) = (2𝜋𝜎2 )𝑘⁄2 |𝑀|−1⁄2 𝑒𝑥𝑝 {[− 2𝜎2 ] (𝛽 − 𝑚)´ 𝑀−1 (𝛽 − 𝑚)} [12.1.11]
Por lo tanto, antes de la observación de la muestra, la mejor estimación del analista en cuanto al
valor de 𝛽 está representada por (𝑘×1) 𝑒𝑙 𝑣𝑒𝑐𝑡𝑜𝑟 m, y la confianza en esta suposición se resume
(𝑘×𝑘) en la matriz 𝜎 2 𝑀; Menos confianza está representada por mayores elementos diagonales de
M. El conocimiento sobre las variables exógenas X se presume que no tiene ningún efecto sobre la
distribución anterior, de modo que [12.1.11] también describe 𝑓(𝛽|𝑋; 𝜎 2 ).
Proposición 12.1 Se generaliza de la siguiente manera.
Proposición 12.2: El producto de [12.1.10] y [12.1.11] se puede escribir en la forma 𝑓(𝛽|𝑦, 𝑋; 𝜎 2 ). 𝑓

donde:
1 1⁄2
𝑓(𝛽|𝑦, 𝑋; 𝜎 2 ) = (2𝜋𝜎2 )𝑘⁄2 |𝑀−1 + 𝑋 ´ 𝑋| [12.1.12]
×𝑒𝑥𝑝{[−1⁄(2𝜎 2 )](𝛽 − 𝑚∗ )´ (𝑀−1 + 𝑋 ´ 𝑋)(𝛽 − 𝑚∗ )}
1 −1⁄2
𝑓(𝑦|𝑋; 𝜎 2 ) = (2𝜋𝜎2 )𝑇⁄2 |𝐼𝑇 + 𝑋𝑀𝑋 ´ | [12.1.13]
−1
×𝑒𝑥𝑝 {[−1⁄(2𝜎 2 )](𝑦 − 𝑋𝑚)´ (𝐼𝑇 + 𝑋𝑀𝑋 ´ ) (𝑦 − 𝑋𝑚)}

−1
𝑚∗ = (𝑀−1 + 𝑋 ´ 𝑋) (𝑀−1 𝑚 + 𝑋 ´ 𝑦) [12.1.14]
−1
En otras palabras, la distribución de 𝛽 condicionada a los datos observados es 𝑁 (𝑚∗ , 𝜎 2 (𝑀−1 + 𝑋 ´ 𝑋) ) y la
distribución marginal de y dada X es 𝑁 (𝑋𝑚, 𝜎 2 (𝐼𝑇 + 𝑋𝑀𝑋 ´ )).
La información anterior pobre sobre 𝛽 corresponde a una gran varianza M, o equivalentemente un

valor pequeño para 𝑀−1 . La distribución difusa anterior para este problema es a menudo
representada por el límite como 𝑀−1 → 0, para el cual la media posterior [12.1.14] se convierte en
−1
𝑚∗ = (𝑋 ´ 𝑋) 𝑋 ´ 𝑦, el estimador OLS. La varianza de la distribución posterior se convierte en
−1
𝜎 2 (𝑋 ´ 𝑋) . Así, la inferencia de regresión clásica se reproduce como un caso especial de inferencia
bayesiana con una distribución difusa anterior. En el otro extremo, si 𝑋 ´ 𝑋 = 0, la muestra no
contiene información sobre 𝛽 y la distribución posterior es 𝑁(𝑚, 𝜎 2 𝑀), igual que la distribución
anterior.
Si la expectativa previa del analista es que todos los coeficientes son cero (𝑚 = 0) y esta afirmación
se hace con la misma confianza para cada coeficiente (𝑀−1 = 𝜆𝐼𝑘 𝑝𝑎𝑟𝑎 𝜆 > 0), entonces el
estimador bayesiano [12.1.14] es
−1
𝑚∗ = (𝜆. 𝐼𝑘 + 𝑋 ´ 𝑋) 𝑋 ´ 𝑦 [12.1.15]
Que es el estimador de regresión de cresta propuesto por Hoerl y Kennard (1970). El

efecto de la regresión de cresta es reducir las estimaciones de parámetros hacia cero.
Estimación Bayesiana de un Modelo de Regresión con Variación

Desconocida
Las proposiciones 12.1 y 12.2 suponían que la varianza residual 𝜎 2 se conocía con certeza. Por lo
general, ambos 𝜎 2 y 𝛽 se consideran como variables aleatorias, y el análisis bayesiano requiere una
distribución previa para 𝜎 2 . Una distribución previa conveniente para esta aplicación es
proporcionada por la distribución gamma. Sea {𝑍𝑖 }𝑁 2
𝑖−1 una sucesión de 𝑖. 𝑖. 𝑑. 𝑁(0, 𝑇 ) variables.
𝑁 2
Entonces se dice que 𝑊 = ∑𝑖−1 𝑍𝑖 tiene una distribución gamma con N grados de libertad y
parámetro de escala 𝜆, indicado 𝑊~г(𝑁, 𝜆), donde 𝜆= 1⁄𝑇 2. Así, W tiene la distribución de 𝑇 2
veces una variable 𝑋 2 (𝑁). La media de W está dada por
𝐸(𝑊) = 𝑁. 𝐸(𝑍𝑖2 ) = 𝑁𝑇 2 = 𝑁⁄𝜆 [12.1.16]
Y la varianza es
2
𝐸(𝑊 2 ) − [𝐸(𝑊)]2 =N.{𝐸(𝑍𝑖4 ) − [𝐸(𝑍𝑖2 )] } [12.1.17]
= 𝑁. (3𝑇 4 − 𝑇 4 ) = 2𝑁𝑇 4 = 2 𝑁⁄𝜆2
La densidad de W toma la forma

(𝜆⁄2)𝑁⁄2 𝑊 |(𝑁⁄2)−1| 𝑒𝑥𝑝[−𝜆𝑤⁄2]
𝑓(𝑤) = [12.1.18]
г(𝑁⁄2)
Donde г(. )denota la función gamma. Si N es un entero par, entonces
г(𝑁⁄2)=1.2.3…….[(𝑁⁄2) − 1]
Con г(2⁄2) = 1; Mientras que si N es un entero impar, entonces
1 35
г(𝑁⁄2)=√𝜋. . . ……..[(𝑁⁄2) − 1]
2 22
1
Con г(2)=√𝜋.
Siguiendo a DeGroot (1970) y Leamer (1978), es conveniente describir la distribución previa no en

términos de la varianza 𝜎 2 , sino más bien en términos del recíproco de la varianza, 𝜎 −2 , que se
conoce como la precisión. Por lo tanto, supongamos que la distribución anterior se especifica como
𝜎 2 ~г(𝑁, 𝜆), donde N y 𝜆 son parámetros que describen la información previa del analista:
(𝜆⁄2)𝑁⁄2 𝜎 −2|(𝑁⁄2)−1| 𝑒𝑥𝑝[−𝜆𝜎 −2 ⁄2]

𝑓(𝜎 −2 |𝑋) = г(𝑁⁄2)
[12.1.19]
Recordando [12.1.16], la relación 𝑁⁄𝜆 es el valor esperado para 𝜎 −2 sobre la base de información
previa. Como veremos en breve en la Proposición 12.3 si la información previa se basa en una
muestra anterior de observaciones {𝑧1 , 𝑧2 , … … . . , 𝑧𝑁 }, el parámetro N resulta para describir el
tamaño de esta muestra anterior y 𝜆 es la suma anterior de cuadrantes de la muestra. Para una razón
dada de 𝑁⁄𝜆, valores mayores para N implican mayor confianza en la información previa.
La distribución previa de 𝛽 condicionada al valor de 𝜎 −2 es la misma que en [12.1.11]:

1
𝑓(𝛽|𝜎 −2 , 𝑋) = (2𝜋𝜎2 )𝑘⁄2 |𝑀|−1⁄2 [12.1.20]
1
×𝑒𝑥𝑝 {[− ] (𝛽 − 𝑚)´ 𝑀−1 (𝛽 − 𝑚)}
2𝜎 2
Así, 𝑓(𝛽|𝜎 −2 , 𝑋), la densidad previa conjunta para 𝛽 y 𝜎 −2 , está dada por el producto de
[12.1.19] y [12.1.20]. La distribución posterior 𝑓(𝛽, 𝜎 −2 |𝑦, 𝑋), se describe mediante la siguiente
proposición.
Proposición 12.3: Sea la densidad anterior 𝑓(𝛽, 𝜎 −2 |𝑋), dada por el producto de [12.1.19] y
[12.1.20], y deje que la probabilidad de la muestra sea
1 1
𝑓(𝑦|𝛽, 𝜎 −2 , 𝑋)=(2𝜋𝜎2 )𝑇⁄2 𝑒𝑥𝑝 {[− ] (𝑦 − 𝑋𝛽)´ (𝑦 − 𝑋𝛽)} [12.1.21]
2𝜎 2
Entonces lo siguiente es:
(a) La densidad posterior conjunta de 𝛽 y 𝜎 −2 viene dada por
𝑓(𝛽, 𝜎 −2|𝑦, 𝑋)=𝑓(𝛽|𝜎 −2 , 𝑦, 𝑋). 𝑓(𝜎 −2 |𝑦, 𝑋) [12.1.22]
Donde la distribución posterior de 𝛽 condicional a 𝜎 −2 es 𝑁(𝑚∗ , 𝜎 2 𝑀∗ ):

1 1
𝑓(𝛽|𝜎 −2 , 𝑦, 𝑋) = (2𝜋𝜎2 )𝑘⁄2 |𝑀∗ |−1⁄2 𝑒𝑥𝑝 {[− 2𝜎2 ] (𝛽 − 𝑚∗ )´ (𝑀∗ )−1 (𝛽 − 𝑚∗ )} [12.1.23]
con
−1
𝑚∗ = (𝑀−1 + 𝑋 ´ 𝑋) (𝑀−1 𝑚 + 𝑋 ´𝑦 ) [12.1.24]
−1
𝑀∗ = (𝑀−1 + 𝑋 ´ 𝑋) [12.1.25]
Además, la distribución marginal posterior de 𝜎 −2 𝑒𝑠 г(𝑁 ∗ , 𝜆∗ ):

∗ ∗
𝜎 −2|(𝑁 ⁄2)−1| (𝜆∗ ⁄2)𝑁 ⁄2
𝑓(𝜎 −2 |𝑦, 𝑋) = 𝑒𝑥𝑝[−𝜆∗ 𝜎 −2 ⁄2] [12.1.26]
г(𝑁 ∗⁄2)
Con
𝑁∗ = 𝑁 + 𝑇 [12.1.27]
𝜆∗ = 𝜆 + (𝑦 − 𝑋𝑏)´ (𝑦 − 𝑋𝑏) [12.1.28]

−1
+(𝑏 − 𝑚)´ 𝑀−1 (𝑋 ´ 𝑋 + 𝑀−1 ) 𝑋 ´ 𝑋(𝑏 − 𝑚)
−1
Para b= (𝑋 ´ 𝑋) 𝑋 ´ el estimador OLS.
(b) La distribución marginal posterior de 𝛽 es una distribución t de k-dimensional con 𝑁 ∗ grados de libertad, media
𝑚∗ y matriz de escala (𝜆∗⁄𝑁 ∗ ). 𝑀∗ :
г[(𝑘+𝑁 ∗ )⁄2]
𝑓(𝛽|𝑦, 𝑋) = {(𝜋𝑁∗ )𝑘⁄2 |(𝜆∗⁄𝑁 ∗ )𝑀∗ |−1⁄2 ×[1 + (1⁄𝑁 ∗ )(𝛽 − 𝑚∗ )´ [(𝜆∗⁄𝑁 ∗ )𝑀∗ ]−1 (𝛽 −
г(𝑁∗ ⁄2)
−(𝑘+𝑁∗ )⁄2
𝑚∗ )] } [12.1.29]
(c) Sea R una matriz conocida (m x k) con filas linealmente independientes, y defina
−1 ´ −1
[𝑅(𝛽−𝑚∗ )]´ [𝑅(𝑀 ´ +𝑋 ´ 𝑋) 𝑅 ] [𝑅(𝛽−𝑚∗ )]⁄𝑚
𝑄= 𝜆∗ ⁄𝑁 ∗
[12.1.30]
Entonces Q tiene una distribución posterior marginal que es F(𝑚, 𝑁 ∗ ):

∗
𝑚𝑚⁄2 (𝑁∗ )𝑁 ⁄2 г[(𝑁∗ +𝑚)⁄2]𝑞|(𝑚⁄2)−1|
𝑓(𝑞|𝑦, 𝑋) = ∗
г(𝑚⁄2)г(𝑁∗ ⁄2)(𝑁∗ +𝑚𝑞)[(𝑁 +𝑚)⁄2]
[12.1.31]
Recordando [12.1.16], el resultado (a) implica que la estimación bayesiana de la precisión es
𝐸(𝜎 −2 |𝑦, 𝑋) = 𝑁 ∗ ⁄𝜆∗ [12.1.32]
La información anterior difusa se representa a veces como 𝑁 = 𝜆 = 0 y 𝑀−1 = 0. Sustituir estos

valores en [12.1.27] y [12.1.28] implica que 𝑁 ∗ = 𝑇 y 𝜆∗ = (𝑦 − 𝑋𝑏)´ (𝑦 − 𝑋𝑏). Para estos valores,
la media posterior [12.1.31] sería
´
𝐸(𝜎 −2 |𝑦, 𝑋) = 𝑇⁄((𝑦 − 𝑋𝑏)) (𝑦 − 𝑋𝑏)

Que es la estimación de máxima verosimilitud de 𝜎 −2 . Esta es la base de la afirmación anterior de
que el parámetro N para la información previa se basa y que 𝜆 puede ser visto como la suma de
cuadrados de residuos para estas observaciones.
El resultado (b) implica que la estimación bayesiana del vector de coeficientes es

−1
𝐸(𝛽|𝑦, 𝑋) = 𝑚∗ = (𝑀−1 + 𝑋 ´ 𝑋) (𝑀−1 𝑚 + 𝑋 ´ 𝑦) [12.1.33]
Que es idéntico al estimado derivado en la Proposición 12.2 para el caso donde 𝜎 2 es conocido.
Una vez más, para la información anterior difusa, 𝑚∗ = 𝑏, la estimación de MCO.
El resultado (c) describe la perspectiva bayesiana sobre una hipótesis sobre el valor de 𝑅𝛽,
donde la matriz R caracteriza qué combinaciones lineales de los elementos de 𝛽 son de interés. Un
estadístico clásico pondría a prueba la hipótesis de que 𝑅𝛽 = г mediante el cálculo de una
estadística F OLS,
−1 −1
(𝑅𝑏 − г)´ [𝑅(𝑋 ´ 𝑋) 𝑅´ ] (𝑅𝑏 − г)⁄𝑚
𝑠2
Y evaluar la probabilidad de que una variable 𝐹(𝑚, 𝑇 − 𝑘) pueda ser igual o superior a esta
magnitud. Esto representa la probabilidad de que el valor estimado de Rb pueda estar en la medida
en que se observa que es de r dado que el valor verdadero de 𝛃 satisface 𝐑𝛃 = 𝐫. Por el contrario,
un Bayesiano considera 𝐑𝛃 como una variable aleatoria, cuya distribución se describe en el
resultado (c). Según [12.1.30], la probabilidad de que 𝐑𝛃 sea igual a r está relacionada con la
probabilidad de que una variable 𝐹(𝑚, 𝑁 ∗ ) asuma el valor
(𝑟 − 𝑅𝑚∗ )′ [𝑅(𝑀−1 + 𝑋 ′ 𝑋)−1 𝑅′]−1 (𝑟 − 𝑅𝑚∗ )/𝑚

𝜆∗ /𝑁 ∗
La probabilidad de que una variable F(m,N*) pueda exceder esta magnitud representa la
probabilidad de que la variable aleatoria 𝐑𝛃 esté tan alejada de la media posterior 𝐑𝐦∗ como está
representada por el punto Rβ=r. En el caso de una distribución difusa previa, la expresión anterior
simplifica
(𝑟 − 𝑅𝑏)′ [𝑅(𝑋′𝑋)−1 )𝑅′]−1 (𝑟 − 𝑅𝑏)/𝑚

,
(𝑦 − 𝑋𝑏)′(𝑦 − 𝑋𝑏)/𝑇
Que se comparará en este caso con una distribución 𝐹(𝑚, 𝑇). Recordando que
(𝑦 − 𝑋𝑏)′ (𝑦 − 𝑋𝑏)
𝑠2 = ,
𝑇−𝑘
Parece que, aparte de una diferencia menor en los grados de libertad del denominador, el estadístico
clásico y el bayesiano con una distribución anterior difusa calcularían esencialmente el estadístico de
prueba idéntico y lo compararían con el mismo valor crítico al evaluar la plausibilidad de la
hipótesis Representado por Rβ=r.
Análisis Bayesiano de Regresiones con Variables Dependientes

Retrasadas
Al describir la probabilidad de la muestra (expresión [12.1.10] o [12.1.21]), se asumió que el
vector de las variables explicativas 𝑥𝑡 era estrictamente exógeno. Si 𝑥𝑡 contiene valores rezagados
de y, entonces mientras que estamos dispuestos a tratar los valores de presample de y como

deterministas, el álgebra pasa exactamente igual. Los únicos cambios necesarios son algunos
pequeños ajustes en la notación y en la descripción de los resultados. Por ejemplo, considere una
autoregresión de orden рth con con autoregresion 𝑥𝑡 = (1, y𝑡−1 , y𝑡−2 , , , , , 𝑦𝑡−𝑝 )′ En este caso, la
expresión en el lado derecho de [12.1.21] indica la probabilidad de (y1 , y2 , , , , , 𝑦𝑇 )′ condicional en
𝑦0 , 𝑦−1 , , , , , , 𝑦−𝑝+1 ); Es decir, describe 𝑓(𝑦|𝛽, 𝜎 −2 , 𝑥𝑡 ). Se presume que las distribuciones
anteriores [12.1.19] y [12.1.20] describen (t) y (F), y las distribuciones posteriores son todas las
indicadas en la Proposición 12.3.
Obsérvese en particular que los resultados (b) y (c) de la Proposición 12.3 describen las
distribuciones exactas posteriores de la pequeña muestra, incluso cuando (x) contiene variables
dependientes rezagadas. Por el contrario, un estadístico clásico consideraría que las pruebas t y F
habituales sólo son válidas asintóticamente.
Cálculo de la distribución posterior utilizando una regresión GLS

A veces es conveniente describir la información previa en términos de ciertas combinaciones
lineales de coeficientes, tales como
𝑓(𝑦|𝛽, 𝜎 −2 ~ 𝑁(𝑟, 𝜎 2 𝑉). [12.1.34]
Aquí R denota una matriz no singingular conocida (k x k) cuyas filas representan combinaciones
lineales de (β) en términos de las cuales es conveniente describir la información previa del analista.
Por ejemplo, si la expectativa previa es que (𝛽1 = 𝛽2 ) entonces la primera fila de R podría ser (1, -1,
0, ..., 0) y el primer elemento de r sería cero.
El elemento (1, 1) de V refleja la incertidumbre de esta información previa. Si (𝛽)~ 𝑁(𝑚, 𝜎 2 𝑀)Por
lo tanto Rβ~𝑁(𝑅𝑚, 𝜎 2 𝑅𝑀𝑅′) . la relación entre los parámetros para la distribución previa
expresada en [12.1.34] (R, ry V) y los parámetros para la distribución previa expresada en [12.1.20]
(m y M) está dada por
𝑟 = 𝑅𝑚
| [12.1.35]
V=RMR’ , [12.1.36]
La ecuación [12.1.36] implica
𝑉 −1 = (𝑅′)−1 𝑀−1 𝑅−1 [12.1.37]
Si la ecuación [12.1.37] es premultiplicada por R 'y posmultiplicada por R, el resultado es
𝑅′𝑉 −1 𝑅 = 𝑀−1 , [12.1.38]
Usando las ecuaciones [12.1.35] y [12.1.38], la media posterior [12.1.33] puede ser reescrita como
−1 −1
𝑚∗ = (𝑅 ′𝑉 𝑅 + 𝑋 ′ 𝑋) (𝑅′𝑉 −1 𝑟 + 𝑋′𝑣) [ 12.1.39]
Para obtener otra perspectiva en [12.1.39], observe que la distribución anterior [12.1.34] puede
escribirse
𝑟 = 𝑅𝛽 + 𝜖 [12.1.40]
Donde 𝜖~𝑁(0, 𝜎 2 𝑉). Esta es de la misma forma que las ecuaciones de observación del modelo de
regresión,
𝑦 = 𝑋𝛽 + 𝑢 [12.1.41]

Con 𝜖~𝑁(0, 𝜎 2 𝐼𝑇 ). La estrategia de estimación mixta descrita por Theil (1971, pp. 347-49)
considera así la información previa como un conjunto de k observaciones adicionales, con (𝑟𝑖 )
tratada como si fuera otra observación sobre (y), y la i-ésima fila de R Correspondiente a su vector
de variables explicativas (𝑥𝑡𝑡 ). Específicamente, las ecuaciones [12.1.40] y [12.1.41] se apilan para
formar el sistema
𝑦 ∗ = 𝑋 ∗ 𝛽 + 𝑢∗ , [12.1.42]
Donde
𝑦∗ 𝑟 𝑋∗ 𝑅
=[ ] =[ ]
(𝑇 + 𝑘) 𝑥 𝑡 𝑦 (𝑇 + 𝑘) 𝑥 𝑘 𝑋
𝑉 0
𝐸(𝑢∗ 𝑢∗ ′) = 𝜎 2 𝑉 ∗ = 𝜎 2 [ ]
0 𝐼𝑇
El estimador GLS para el sistema apilado es
𝑏̅ = [𝑋 ∗ ′(𝑉 ∗ )−1 𝑋 ∗ ]−1 [𝑋 ∗ ′(𝑉 ∗ )−1 𝑦 ∗ ]

−1
𝑉 −1 0 𝑅 𝑉 −1 0 𝑟
= {[𝑅 ′ 𝑋 ′ ] [ ] [𝑋]} x {[𝑅 ′ 𝑋 ′ ] [ ] [ ]}
0 𝐼𝑇 0 𝐼𝑇 𝑦
= (𝑅 ′ 𝑉 −1 𝑅 + 𝑋′𝑋)−1 (𝑅′ 𝑉 −1 𝑟 + 𝑋′𝑦).

Así, la media posterior [12.1.39] se puede calcular mediante la estimación GLS de [12.1.42]. Para los
conocidos (𝜎 2 ), la fórmula usual para la varianza del estimador GLS,
−1
𝜎 2 [𝑋 ∗ ′(𝑉 ∗ )−1 𝑋 ∗ ]−1 = 𝜎 2 (𝑅′𝑉 𝑅 + 𝑋 ′ 𝑋)−1 ,
Da un cálculo correcto de la varianza de la distribución posterior bayesiana, 𝜎 2 (𝑀−1 + 𝑋 ′ 𝑋)−1
La discusión anterior suponía que R era una matriz no singular (k x k). En algunas ocasiones el
analista puede tener información valiosa sobre algunas combinaciones lineales de coeficientes pero
no sobre otras. Por lo tanto, supongamos que la distribución anterior [12.1.34] se escribe como
𝑅1 𝑟1 𝑉 0
[ ] 𝛽 ~ 𝑁([ ] , 𝜎 2 [ 1 ])
𝑅2 𝑟2 0 𝑉2
Donde (𝑅1 ) es una matriz (m x k) que consiste en aquellas combinaciones lineales para las cuales la
información previa es buena y (𝑅2 ) es una matriz {(k-m) x k}de las combinaciones lineales
restantes. Entonces la información previa difusa sobre aquellas combinaciones lineales descritas por
(𝑅2 ) podría ser representada por el límite como (𝑉2−1 → 0), para el cual
𝑉 −1 0 ′ −1
𝑅 ′ 𝑉 −1 = [𝑅 ′1 𝑅 ′ 2 ] [ 1 −1 ] → [𝑅1 𝑉1 0]
0 𝑉2
La estimación bayesiana [12.1.39] se convierte entonces en
(𝑅1 ′ 𝑉1−1 𝑅1 + 𝑋 ′ 𝑋)−1 (𝑅′ 𝑉1−1 𝑟1 + 𝑋 ′ 𝑦) ,

Que se puede calcular a partir de la estimación GLS de un sistema [(T+m)x1] de la forma de
[12.1.42] en la que se añaden como observaciones las combinaciones lineales para las que hay
información previa útil.
12.2. Análisis bayesiano de autorregressiones vectoriales
Distribución previa de Litterman para la estimación de una ecuación de

una VAR
Esta sección discute información previa que podría ayudar a mejorar las estimaciones de
una sola ecuación de un VAR. Gran parte de la primera investigación econométrica con relaciones
dinámicas se refería a la estimación de las relaciones de retraso distribuido de la forma
𝑦𝑡 = 𝑐 + 𝜔0 𝑥𝑡 + 𝜔𝑡 𝑥𝑡−1 +. . . . . . +𝜔𝑝 𝑥𝑡−𝑝 + 𝑢 , [12.2.1]
Para esta especificación, (𝜔𝑠 ) tiene la interpretación como 𝜕𝑦𝑡 /𝜕𝑥𝑡−𝑠 algunos han argumentado
que esto debería ser una función suave de s; Ver Almon (1965) y Shiller (1973) por ejemplo.
Cualquiera que sea el mérito de esta visión, es difícil justificar la imposición de una condición de
𝑝 𝑝
suavidad en las secuencias {𝜔𝑠 }𝑠=1 𝑜 {𝜙𝑠 }𝑠=1 en un modelo con término autorregresivo como
𝑦𝑡 = 𝑐 + 𝜙1 𝑦𝑡−1 + 𝜙2 𝑦𝑡−2 +. . . . . . +𝜙𝑝 𝑦𝑡−𝑝 + 𝜔0 𝑥𝑡 + 𝜔𝑡 𝑥𝑡−1 +. . . . +𝜔𝑝 𝑥1−𝑝 + 𝑢
Ya que aquí el multiplicador dinámico (𝜕𝑦𝑡 /𝜕𝑥𝑡−𝑠 ) es una función no lineal complicada de
𝜙′𝑠 y 𝜔′𝑠.
Litterman (1986) sugirió una representación alternativa de bases de información previa

sobre la creencia de que el cambio en la serie es imposible de predecir:
𝑦𝑡 − 𝑦𝑡−1 = 𝑐 + 𝜖 [12.2.2]
Donde ϵ, no está correlacionada con valores rezagados de cualquier variable. La teoría económica
predice tal comportamiento para muchas series de tiempo. Por ejemplo, supongamos que (y) es el
logaritmo del precio real de algún activo en el momento t, es decir, el precio ajustado por la
inflación. Entonces 𝑦𝑡 - 𝑦𝑡−1 es aproximadamente la tasa de retorno real de comprar el activo en t -
1 y venderlo en t. En una extensión del argumento de los mercados eficientes de Fama (1965)
descrito en la Sección 11.2, los especuladores habrían comprado más activos en el momento t-1 si
hubieran esperado rendimientos inusualmente altos, impulsando (t-1) en relación con el valor
anticipado de 𝑦𝑡 La trayectoria temporal para (𝑦𝑡 ) que resulta de tal especulación presentaría
cambios de precios que son impredecibles. Por lo tanto, podemos esperar que los precios reales de
artículos tales como acciones, bienes raíces o metales preciosos satisfagan [12.2.2]. Hall (1978)
sostuvo que el nivel de gasto de los consumidores también debe satisfacer [12.2.2], mientras que
Barro (1979) y Mankiw (1987) desarrollaron argumentos relacionados con los impuestos
recaudados y el nuevo dinero emitido por el gobierno. Los cambios en los tipos de cambio también
son impredecibles por muchos; Ver las pruebas revisadas en Diebold y Nason (1990).
Escribe la i-ésima ecuación en un VAR como

(1) (1) (1)
𝑦𝑖𝑡 = 𝑐𝑡 + 𝜙𝑖1 𝑦1 𝑡−1 + 𝜙𝑖2 𝑦2 𝑡−1 + . . . . . +𝜙𝑖𝑛 𝑦1 𝑛−1 [12.2.3]
(2) (2) (2)
+𝜙𝑖1 𝑦1 𝑡−2 + 𝜙𝑖2 𝑦2 𝑡−2 + . . . . . +𝜙𝑖𝑛 𝑦1 𝑛−2 +. . ..
12.2 Análisis bayesiano de autorregresiones vectoriales 375

(𝑝) (𝑝) (𝑝)
+𝜙𝑖1 𝑦1 𝑡−𝑝 + 𝜙𝑖2 𝑦2 𝑡−𝑝 + . . . . . +𝜙𝑖𝑛 𝑦1 𝑛−𝑝 + 𝜖𝑖𝑡 ,
(𝑠) (1)
Donde (𝜙𝑖𝑗 )da el coeficiente relativo (𝑦𝑖 𝑡 ) a (𝑦𝑗 𝑖−𝑠 ). La restricción [12.2.2] requiere (𝜙𝑖𝑗 )
(𝑠)
y todos los demás (𝜙𝑖𝑗 ) .Estos valores (0 o 1) caracterizan entonces la media de la distribución
anterior de los coeficientes. Litterman utilizó una distribución difusa anterior para el término
constante 𝑐𝑖 .
Litterman tomó la matriz de varianza-covarianza para que la distribución anterior fuera diagonal,
(𝑝)
con (𝛾) denotando la desviación estándar de la distribución anterior para 𝜙𝑖1 :
(𝑝)
𝜙𝑖1 ~ 𝑁(1, 𝛾 2 ).
Aunque cada ecuación i=1,2,,,,,,,,n del VAR se estima por separado, típicamente se utiliza el mismo
número (𝛾) para cada i. Un valor menor para (i) representa mayor confianza en la información
previa y obligará a las estimaciones de parámetros a estar más cerca de los valores predichos en
[12.2.2]. Un valor de (𝛾) = 0,20 significa que, antes de ver los datos, el analista tenía 95% de
(𝑠)
confianza de que (𝜙𝑖𝑗 )no es menor que 0,60 y no mayor que 1,40.
Se predice que los coeficientes relativos (𝛾𝑖𝑡 ) a los rezagos posteriores son cero, y Litterman
argumentó que el analista debería tener más confianza en esta predicción cuanto mayor sea el
(𝑠) 𝛾 (𝑝) (𝑝) 𝛾
retraso. Por lo tanto, sugirió tomar (𝜙𝑖𝑗 )~𝑁(0, (3)2 ), 𝜙𝑖𝑗 ,..., y (𝜙𝑖𝑗 )~𝑁(0, (𝑝)2 , endureciendo
la distribución anterior con una serie armónica para la desviación estándar a medida que aumenta el
desfase.
(𝑠)
Obsérvese que los coeficientes 𝜙𝑖𝑗 son invariables en escala; Si cada valor de (𝑦𝑖 𝑡 ) se multiplica por
(𝑝) (𝑝)
100, los valores de 𝜙𝑖𝑗 serán iguales. Lo mismo no ocurre con 𝜙𝑖𝑗 para (i ≠ j); Si la serie i se
(𝑠)
multiplica por 100 pero la serie j no lo es, entonces se multiplicará por (𝜙𝑖𝑗 ). Por lo tanto, al
(𝑠)
calcular el peso que debe darse la información previa sobre (𝜙𝑖𝑗 ), un ajuste para las unidades en las
que los datos son Medido es necesario. Litterman propuso utilizar la siguiente desviación estándar
(𝑠)
de la distribución anterior para (𝜙𝑖𝑗 ):
𝑤. 𝛾. 𝜏̂ 𝑖
𝑠. 𝜏̂𝑗
[12.2.4]
Aquí (𝜏̂ 𝑖 /𝜏̂𝑗 ) es una corrección para la escala de la serie i en comparación con la serie j. Litterman
sugirió que (𝜏̂ 𝑖 ) podría estimarse a partir de la desviación estándar de los residuos de una regresión
OLS de (𝑦𝑖 𝑡 ) sobre una constante y en p de sus propios valores rezagados. Aparte de esta
corrección de escala, [12.2.4] simplemente multiplica (𝛾/𝑠) (que fue la desviación estándar para la
(𝑠)
distribución anterior de (𝜙𝑖𝑗 ) por un parámetro w. La experiencia común con muchas series de
tiempo es que los propios valores rezagados (𝑦𝑖 𝑡−𝑠 ). Probablemente sean de mayor ayuda en la
(𝑠)
predicción 𝜙𝑖𝑗 que los valores de otras variables (𝑦𝑖 𝑡−𝑠 ). Por lo tanto, deberíamos tener más
(𝑠)
confianza en la creencia previa de que 𝜙𝑖𝑗 = 0 que la creencia anterior de que w = 0, lo que sugiere
un valor de w que es menor que 1. Doan (1990) recomendó un valor de w = 0.5 in Concierto con
(𝛾) = 0,20.
Hay que señalar varias precauciones al emplear esta distribución previa. En primer lugar, para
algunas series, la expectativa natural previa podría ser que la serie sea ruido blanco en lugar de una

autoregresión con coeficiente unitario. Por ejemplo, si (𝑦𝑖 𝑡 )es una serie como el cambio en los
(𝑠)
precios de las acciones, entonces la media de (𝜙𝑖𝑗 ) debería ser 0 en lugar de 1. En segundo lugar,
(𝑠)
muchas series de economía muestran comportamiento estacional. En tales casos, (𝜙𝑖𝑗 ) es probable
que no sea cero para s = 12 y 25 con datos mensuales, por ejemplo. La distribución previa de
Litterman no es adecuada para las variables ficticias estacionales en la regresión antes de emplear
esta distribución previa. Finalmente, la distribución previa no es adecuada para sistemas que
exhiben cointegración, tema discutido en detalle en el Capítulo 19.
Información Completa Bayesiana Estimación de un VAR

La aproximación de Litterman a la estimación bayesiana de un VAR consideró una sola
ecuación aisladamente. Es posible analizar todas las ecuaciones en un VAR juntos en un marco
bayesiano, aunque los resultados analíticos son algo más complicados que para el caso de una sola
ecuación; Véase Zellner (1971, capítulo 8) y Rothenberg (1973, pp. 139-44) para la discusión.
12.3. Métodos Numéricos Bayesianos

En los ejemplos anteriores, se escogió cuidadosamente la clase de densidades utilizada para
representar la información previa para obtener una caracterización analítica simple para la
distribución posterior. Sin embargo, para muchas especificaciones de interés, puede ser imposible
encontrar tal clase, o la densidad que mejor refleja la información previa del analista puede no ser
posible representar con esta clase. Por lo tanto, es útil tener un método computarizado para calcular
o aproximar momentos posteriores para una clase bastante general de problemas.
Aproximación de la Media Posterior por el Modo Posterior

Una opción es usar el modo en lugar de la media de la distribución posterior, es decir,
tomar la estimación bayesiana (𝜃̂) como el valor que maximiza 𝑓(𝑦|𝜃).Para las distribuciones
unimodales simétricas, la media y el modo serán los mismos, como resultó ser el caso del vector de
coeficientes (𝛽) en la Proposición 12.2. Cuando la media y el modo difieren, con una función de
pérdida cuadrática el modo es un estimador subóptimo, aunque típicamente el modo posterior se
aproximará a la media posterior a medida que crece el tamaño de la muestra (véase DeGroot, 1970,
p.236).
Recordemos de [12.1.2] y [12.1.3] que la densidad posterior está dada por
𝑓(𝑦|𝜃). 𝑓(𝜃)
𝑓(𝑦|𝜃) =
𝑓(𝑦)
[12.3.1]
Y por lo tanto el registro de la densidad posterior es
log 𝑓(𝑦|𝜃) = log 𝑓(𝑦|𝜃) + log 𝑓(𝜃) − log 𝑓(𝑦) ,

[12.3.2]
Tenga en cuenta que si el objetivo es maximizar [12.3.2] con respecto a (𝜃), no es necesario calcular
𝑓(𝑦), ya que esto no depende de (𝜃). El modo posterior se puede encontrar así maximizando
log 𝑓(𝜃, 𝑦) = log 𝑓(𝑦|𝜃) + log 𝑓(𝜃) [12.3.3]
12.3 Métodos Numéricos Bayesianos 377

Para evaluar [12.3.2], sólo necesitamos ser capaces de calcular la función de verosimilitud 𝑓(𝑦|𝜃) y
la densidad que describe la información previa, 𝑓(𝜃). La expresión [12.3.2] puede maximizarse
mediante métodos numéricos ya menudo los mismos algoritmos particulares que maximizan la
probabilidad de log también maximizarán [12.3.2]. Por ejemplo, la probabilidad de log para un
modelo de regresión gaussiana tal como [12.1.21] puede maximizarse mediante una regresión GLS,
del mismo modo que el modo posterior [12.1.39] se puede calcular con una regresión GLS.
Aproximación de Tierney y Kadane para momentos posteriores

Alternativamente, Tierney y Kadane (1986) observaron que la curvatura de la superficie de
verosimilitud se puede utilizar para estimar la distancia del modo posterior a la media posterior.
Supongamos que el objetivo es calcular
∞
𝐸[𝑔(𝜃)|𝑦] = ∫−∞ 𝑔(𝜃).𝑓(𝑦|𝜃)𝑑(𝜃) , [12.3.4]
Donde (𝜃) es un vector (a x 1) de parámetros y g: 𝑅′′ → 𝑅′ es una función de interés. Por ejemplo,
si 𝑔(𝜃) = 𝜃𝑡 , entonces [12.3.4] es la media posterior del primer parámetro, mientras que 𝑔(𝜃) =
𝜃𝑡 2 ) da el segundo momento. La expresión [12.3.1] se puede utilizar para escribir [12.3.4] como
∞ ∞
∫ 𝑔(𝜃). 𝑓(𝑦|𝜃)𝑑(𝜃) ∫−∞ 𝑔(𝜃). 𝑓(𝑦|𝜃)𝑑(𝜃)
𝐸[𝑔(𝜃)|𝑦] = −∞ = ∞ ,
𝑓(𝑦) ∫ 𝑓(𝑦|𝜃)𝑓(𝜃) 𝑑(𝜃)
−∞
[12.3.5]
Define
ℎ(𝜃) = (1⁄𝑇)log{𝑔(𝜃). 𝑓(𝑦|𝜃)𝑑𝜃}

[12.3.6]
𝑘(𝜃) = (1⁄𝑇)log{𝑓(𝑦|𝜃). 𝑓(𝜃)𝑑𝜃} [12.3.7]
Esto permite [12.3.5] ser escrito

∞
∫−∞ exp[𝑇. ℎ(𝜃)] 𝑑(𝜃)
𝐸[𝑔(𝜃)|𝑦] = ∞
∫−∞ exp[𝑇. 𝑘(𝜃)] 𝑑(𝜃)
[12.3.8]
Sea (𝜃 ∗) el valor que maximice [12.3.6], y considere una aproximación de la serie de Taylor de
segundo orden a ℎ(𝜃) alrededor de (𝜃 ∗):
𝜕ℎ(𝜃) 1 𝜕 2 ℎ(𝜃)
ℎ(𝜃) ≅ ℎ(𝜃 ∗ ) + | . (𝜃 − 𝜃 ∗)
+ (𝜃 − 𝜃 ∗ )′{
| }(𝜃 − 𝜃 ∗ )
𝜕𝜃 ′ 𝜃−𝜃∗ 2 𝜕𝜃𝜕𝜃 ′ 𝜃−𝜃∗
[12.3.9]
Suponiendo que (𝜃 ∗) es un óptimo interior de ℎ(. ) , la primera derivada 𝜕ℎ(𝜃)/𝜕𝜃 ′ es 0. Entonces

[12.3.9] podría expresarse como
1 ∗ −1 ∗
ℎ(𝜃) ≅ ℎ(𝜃 ∗ ) − ( ) (𝜃 − 𝜃 ∗ )′(𝛴 ) (𝜃−𝜃 ) ,
2
[12.3.10]
donde

−1
′
𝜕 2 ℎ(𝜃)
𝛴 =[ | ]
𝜕𝜃𝜕𝜃 ′ 𝜃−𝜃∗
[12.3.11]
Cuando [12.3.10] se sustituye en el numerador de [12.3.8], el resultado es

∞ ∞ 𝑇
∫−∞ exp[𝑇. ℎ(𝜃)] 𝑑(𝜃) ≅ ∫−∞ exp{𝑇. ℎ(𝜃 ∗ ) − (2) (𝜃 − 𝜃 ∗ )′ (𝛴∗ )−1 (𝜃 − 𝜃 ∗ )} 𝑑(𝜃)
∞ T
= exp[𝑇. ℎ(𝜃 ∗ )] ∫−∞ exp{(− )(𝜃 − 𝜃 ∗ )′(𝛴 ∗ )−1 (𝜃 − 𝜃 ∗ )} 𝑑(𝜃)
2
∞ 1 1
= exp[𝑇. ℎ(𝜃 ∗ )](2𝜋)𝑎/2 |𝛴∗ /𝑇|1/2 x ∫−∞ (2𝜋)𝑎/2 |𝛴 ∗ /𝑇|1/2 exp{− 2 (𝜃 − 𝜃 ∗ )′(𝛴 ∗ /𝑇)−1 (𝜃 −
𝜃 ∗ )} 𝑑(𝜃)
= exp[𝑇. ℎ(𝜃 ∗ )](2𝜋)𝑎/2 |𝛴 ∗ /𝑇|1/2

[12.3.12]
La última igualdad sigue porque la expresión que está siendo integrada es una densidad 𝑁(𝜃 ∗ ; Σ ∗ /
𝑇) y por lo tanto se integra a la unidad.
Similarmente, la función 𝑘(𝜃) puede ser aproximada con una expansión alrededor del modo
posterior (𝜃̂),
Donde (𝜃̂) maximiza [12.3.7] y

−1
𝜕 2 𝑘(𝜃)
̂
𝛴 = −[ | ]
𝜕𝜃𝜕𝜃 ′ 𝜃−𝜃∗
[12.3.13]
El denominador en [12.3.8] es entonces aproximado por

1
∞ 𝑎 𝛴̂ 2
∫ exp[𝑇. 𝑘(𝜃)] 𝑑(𝜃) ≅ exp[𝑇. 𝑘(𝜃̂)] (2𝜋)2 | | .
−∞ 𝑇
[12.3.14]
La aproximación de Tierney y Kadane se obtiene al sustituir [12.3.12] y [12.3.14] por [12.3.8]:
exp[𝑇. ℎ(𝜃 ∗ )](2𝜋)𝑎/2 |𝛴 ∗ /𝑇|1/2

𝐸[𝑔(𝜃)|𝑦] = 1/2
exp[𝑇. 𝑘(𝜃̂)](2𝜋)𝑎/2 |𝛴̂ /𝑇|
|𝛴 ∗ |1/2
= 1/2
exp{𝑇. [ℎ(𝜃 ∗ ) − 𝑘(𝜃̂)]}
|𝛴̂ |
. [12.3.15]
Para calcular esta aproximación a la media posterior de 𝑔(𝜃), primero encontramos el valor (𝜃 ∗)
que maximiza (1/𝑇). {𝑙𝑜𝑔𝑔(𝜃) + 𝑙𝑜𝑔𝑓(𝑦|𝜃) + 𝑙𝑜𝑔𝑓(𝜃)}. Entonces ℎ(𝜃 ∗ ) en [12.3.5] es el valor
máximo alcanzado para esta función y (𝛴 ∗ ) es el negativo de la inversa de la matriz de las segundas
derivadas de esta función. A continuación encontramos el valor (𝜃̂) que maximiza (1/
𝑇). {𝑙𝑜𝑔𝑓(𝑦|𝜃) + 𝑙𝑜𝑔𝑓(𝜃)}, con 𝑘(𝜃̂) el valor máximo alcanzado y (𝛴̂) el negativo de la inversa
de la matriz de derivadas secundarias.
12.3 Métodos Numéricos Bayesianos 379

La maximización requerida y las segundas derivadas se pueden calcular analíticamente o
numéricamente. Sustituyendo los valores resultantes en [12.3.15] se obtiene la estimación bayesiana
posterior de 𝑔(𝜃).
Estimación de Monte Carlo de momentos posteriores

Los momentos posteriores pueden estimarse alternativamente utilizando el enfoque de
Monte Carlo sugerido por Hammersley y Handscomb (1964, Sección 5.4) y Kloek y van Dijk
(1978). De nuevo, el objetivo se toma como cálculo de la media posterior de 𝑔(𝜃) . Sea 𝐼(𝜃)una
función de densidad definida en 𝜃con 𝐼(𝜃) > 0 para todos (𝜃). Entonces [12.3.5] se puede escribir
∞
∫−∞ 𝑔(𝜃). 𝑓(𝑦|𝜃)𝑑(𝜃)
𝐸[𝑔(𝜃)|𝑦] = ∞
∫−∞ 𝑓(𝑦|𝜃). 𝑓(𝜃) 𝑑(𝜃)
[12.3.16]
∞
∫−∞{𝑔(𝜃). 𝑓(𝑦|𝜃). 𝑓(𝜃)/𝐼(𝜃)}𝐼(𝜃)𝑑(𝜃)
= ∞
∫−∞ 𝑓(𝑦|𝜃). 𝑓(𝜃)/𝐼(𝜃)}𝐼(𝜃) 𝑑(𝜃)
El numerador en [12.3.16] se puede interpretar como la expectativa de la variable aleatoria

{𝑔(𝜃). 𝑓(𝑦|𝜃). 𝑓(𝜃)/𝐼(𝜃)}, donde esta expectativa se toma con respecto a la distribución
implicada por el densitu 𝐼(𝜃)Si 𝐼(𝜃)es una densidad conocida como s Gaussiana multivariante,
puede ser simple generar N Monte Carlo separado extrae de esta distribución, denotado
{𝜃 (1) , 𝜃 (2) , . . . . . 𝜃 (𝑁) } . Entonces podemos calcular el valor realizado promedio de la variable
aleatoria a través de estos dibujos de Monte Carlo:
𝑁
1
∑ ( ) . {𝑔(𝜃 (𝑖) ). 𝑓(𝑦|𝜃 (𝑖) ). 𝑓(𝜃 (𝑖) )/𝐼(𝜃 (𝑖) )}
𝑁
𝑖=1
[12.3.17]
De la ley de grandes números, como 𝑁 → ∞, esto dará una estimación consistente de

∞
𝐸𝐼(𝜃) {𝑔(𝜃). 𝑓(𝑦|𝜃). 𝑓(𝜃)/𝐼(𝜃)} = ∫−∞{𝑔(𝜃). 𝑓(𝑦|𝜃). 𝑓(𝜃)/𝐼(𝜃)}𝐼(𝜃)𝑑(𝜃) [12.3.18]
Siempre que exista la integral en [12.3.18]. El denominador de [12.3.16] es similarmente estimado

de
𝑁
1
∑ ( ) . {𝑓(𝑦|𝜃 (𝑖) ). 𝑓(𝜃 (𝑖) )/𝐼(𝜃 (𝑖) )}
𝑁
𝑖=1
La integral en [12.3.18] no necesita existir si la densidad de importancia 𝐼(𝜃) va a cero en las colas
más rápido que la probabilidad de muestra 𝑓(𝑦|𝜃). Incluso si [12.3.18] existe, el promedio de
Monte Carlo [12.3.17] puede dar una mala estimación de [12.3.18] para N moderado si (𝜃) es
escasamente elegido. Geweke (1989) proporcionó asesoramiento en la especificación 𝐼(𝜃) .Si el
conjunto de valores admisibles para (𝜃) forma un conjunto compacto, entonces dejar 𝐼(𝜃) la
densidad para la distribución asintótica del estimador de máxima verosimilitud es usualmente un
buen enfoque.

Una buena ilustración de la versatilidad de Bayesiano Monte Carlo métodos para analizar modelos
dinámicos es proporcionado por Geweke (1988a). Este enfoque se extendió a los sistemas
dinámicos multivariados en Geweke (1988b).
APÉNDICE 12.A. Pruebas de las Proposiciones del Capítulo

12
▪ Prueba de Proposición 12.1 Obsérvese que el producto de [12.1.5] y [12.1.6] puede
escribirse
1 1
𝑓(𝑦, 𝜇; 𝜎 2 ) = |𝛴|−1/2 exp {− 𝛼 ′ 𝛴 −1 𝛼}
(2𝜋)(𝑇+1)/2 2
[12.A.1]
Donde
𝛼 𝜇−𝑚
=[ ]
(𝑇 + 𝑡)𝑥𝑡 𝑦 − 𝜇. 1
[12.A.2]
𝛴 𝜎 2/𝑣 0′
=[ ]
(𝑇 + 𝑡)𝑥(𝑇 + 𝑡) 0 𝜎 2 𝐼𝑇
[12.A.3]
El objetivo es reorganizar 𝛼 para que 𝜇 aparezca sólo en el primer elemento. Definir

𝐴 𝑣/(𝑣 + 𝑇) −1′ /(𝑣 + 𝑇)
=[ ]
(𝑇 + 𝑡)𝑥(𝑇 + 𝑡) 1 𝐼𝑡
[12. A. 4]
Desde 𝟏′ 𝟏 = 𝑇 y 𝟏′ 𝑦 = 𝑇𝑦̅, tenemos
𝑣/(𝑣 + 𝑇)(𝜇 − 𝑚) − 1′ 𝑦/(𝑣 + 𝑇) + [𝑇/(𝑣 + 𝑇)]𝜇

𝐴𝛼 = [ ]
𝑦 − 𝑚. 1
[12.A.5]
𝜇 − 𝑚∗
=[ ]
𝑦 − 𝑚. 1
= 𝛼∗
y
1/(𝑣 + 𝑇) −1′ /(𝑣 + 𝑇) 𝑣/(𝑣 + 𝑇) 𝐼′

𝐴𝛴𝐴′ = 𝜎 [ ][ ]
1/𝑣 𝐼𝑡 −1/(𝑣 + 𝑇) 𝐼𝑇
𝜎 2 /(𝑣 + 𝑇) 0′
=[ ]
1/𝑣 𝜎 (𝐼𝑇 + 𝐼. 𝐼 ′ /𝑣)
2
= 𝛴∗
[12.A.6]
Por lo tanto,

′
𝛼′𝛴 −1 𝛼 = 𝛼′𝐴′(𝐴′ )−1 𝛴 −1 𝐴−1 𝐴𝛼 = (𝐴𝛼)′(𝐴𝛴𝐴′ )(𝐴𝛼) = 𝛼 ∗ (𝛴 ∗ )−1 𝛼 ∗ [12.A.7]
Además, observe que A puede expresarse como
1 −1′ /(𝑣 + 𝑇) 1 0′
𝐴=[ ] [ ]
0 𝐼𝑇 1 𝐼𝑇
Cada una de estas matrices triangulares tiene 1s a lo largo de la diagonal principal y por lo tanto
tiene unidad determinante, lo que implica que |𝐴| = 1. Por lo tanto,
|𝛴 ∗ | = |𝐴|. |𝛴|. |𝐴′| = |𝛴|

[12.A.8]
Sustituyendo [12.A.5] a [12.A.8] en [12.A.1] da

1 1
𝑓(𝑦, 𝜇; 𝜎 2 ) = |𝛴 ∗ |−1/2 exp {− 𝛼 ∗′ (𝛴 ∗ )−1 𝛼 ∗ }
(2𝜋)(𝑇+1)/2 2
1
−
𝜎2 2
0′
1 𝑣+𝑇
= 𝑇+1 𝐼. 𝐼 ′
(2𝜋) 2 0 𝜎 2 (𝐼𝑇 + )
[ 𝑣 ]
−1
𝜎2
1 𝜇−𝑚∗ ′ 𝑣+𝑇
0′ ∗
𝜇−𝑚
𝑥 exp {− 2 [𝑦−𝑚.1] [ 𝐼.𝐼′
] 𝑥 [𝑦−𝑚.1 ]}
0 𝜎 2 (𝐼𝑇 + 𝑣
)
−1/2 −1/2
1 𝜎2 2
𝐼. 𝐼 ′ 1(𝜇 − 𝑚∗ )2
= 𝑇+1 [𝑣 + 𝑇 ] . |𝜎 (𝐼𝑇 + 𝑥 exp {−
)|
𝑣 2𝜎 2
(2𝜋) 2
𝑣+𝑇
𝐼. 𝐼 ′
(𝑦 − 𝑚. 1)′(𝐼𝑇 + 𝑣 )(𝑦 − 𝑚. 𝐼)
− }
2𝜎 2
[12.A.9]
De la cual la factorización en la Proposición 12.1 sigue inmediatamente.
▪ Pruena de poposición 12.2. El producto de [12.1.10] y [12.1.11] puede escribirse

como
1 1
𝑓(𝑦, 𝛽|𝑋; 𝜎 2 ) = |𝛴|−1/2 exp {− 𝛼 ′ 𝛴 −1 𝛼}
(2𝜋)(𝑇+𝑘)/2 2
Con
𝛼 𝛽−𝑚
=[ ]
(𝑇 + 𝑡)𝑥𝑡 𝑦 − 𝑋𝛽
𝛴 𝜎2𝑀 0
=[ ]
(𝑇 + 𝑘)𝑥(𝑇 + 𝑘) 0 𝜎 2 𝐼𝑇
Como en la prueba de la Proposición 12.1, defina

−1
𝐴 −(𝑀−1 + 𝑋 ´ 𝑋) 𝑋′] [𝐼𝑘 0
= [𝐼𝑘 ]
(𝑇 + 𝑘)𝑥(𝑇 + 𝑘) 0 𝐼𝑇 𝑋 𝐼𝑇
−1
(𝑀−1 + 𝑋 ´ 𝑋) 𝑀−1 0
=[ ]
2
0 𝜎 𝐼𝑇
Así, A tiene determinante de unidad y
𝛽 − 𝑚∗
𝐴𝛼 = [ ]
𝑦 − 𝑋𝑚
con
−1
𝜎 2 (𝑀−1 + 𝑋 ´ 𝑋) 0
𝐴𝛴𝐴′ = [ ]
0 𝜎 2 (𝐼𝑇 + 𝑋𝑀𝑋′)
Así, como en la ecuación [12.A.9],
−1 −1/2
2)
1 𝜎 2 (𝑀−1 + 𝑋 ´ 𝑋) 0
𝑓(𝑦, 𝛽|𝑋; 𝜎 = (𝑇+𝑘)/2
| |
(2𝜋) 0 2 (𝐼
𝜎 𝑇 + 𝑋𝑀𝑋′)
1 𝛽 − 𝑚∗ ′ 𝜎 2 (𝑀−1 + 𝑋 ´ 𝑋)−1 0 𝛽 − 𝑚∗
x exp {− [ ] | |[ ]} .
2 𝑦 − 𝑋𝑚 0 𝜎 2 (𝐼𝑇 + 𝑋𝑀𝑋′) 𝑦 − 𝑋𝑚
▪ Prueba de proposición 12.3(a). Tenemos que
𝑓(𝑦, 𝛽, 𝜎 2 |𝑋) = 𝑓(𝑦|𝛽, 𝜎 2 , 𝑋). 𝑓(𝛽|𝜎 2 , 𝑋). 𝑓(𝜎 2 |𝑋)

[12.A.10]
Los dos primeros términos del lado derecho son idénticos a [12.1.10] y [12.1.11]. Así, la
Proposición 12.2 puede usarse para escribir [12.A.10] como
𝑓(𝑦, 𝛽, 𝜎 2 |𝑋)
1 1
{ 2 𝑘/2
|𝑀∗ |1/2 exp {[− 2 ] (𝛽 − 𝑚∗ )′(𝑀∗ )−1 (𝛽 − 𝑚∗ )}}
(2𝜋𝜎 ) 2𝜎
1
𝑥{ |𝐼 + 𝑋𝑀𝑋′|−1/2
(2𝜋𝜎 2 )𝑇/2 𝑇
1
x exp {[− ] (𝑦 − 𝑋𝑚)′(𝐼𝑇 + 𝑋𝑀𝑋′)−1 (𝑦 − 𝑋𝑚)}}
2𝜎 2
𝜆 𝑁
−2|( )−1|
(2)𝑁/2 𝜎 2 𝑒𝑥𝑝[−𝜆𝜎 −2 /2]
𝑥{ }
𝑁
𝑇( 2 )
[12.A.11]

Define
𝜆∗ = 𝜆 + (𝑦 − 𝑋𝑚)′((𝐼𝑇 + 𝑋𝑀𝑋 ′ )−1 (𝑦 − 𝑋𝑚);

[12.A.12]
Mostraremos más adelante que este es el mismo que el valor (𝜆∗) descrito en la proposición. Para
𝑁 ∗ = 𝑁 + 𝑇 , la densidad [12.A.11] se puede escribir como
𝑓(𝑦, 𝛽, 𝜎 −2 |𝑋)
1 1
={ 2 𝑘/2
|𝑀∗ |1/2 exp {[− 2 ] (𝛽 − 𝑚∗ )′(𝑀∗ )−1 (𝛽 − 𝑚∗ )}}
(2𝜋𝜎 ) 2𝜎
𝜆
∗ /2)−1|
𝜎 −2|(𝑁 ( )𝑁/2
𝑥{ 2 |𝐼𝑇 + 𝑋𝑀𝑋 ′ |−1/2 𝑒𝑥𝑝[−𝜆∗ 𝜎 −2 /2]}
𝑇 𝑁
(2𝜋)2 𝑇( )
2
1 1
={ 2 𝑘/2
|𝑀∗ |1/2 exp {[− 2 ] (𝛽 − 𝑚∗ )′(𝑀∗ )−1 (𝛽 − 𝑚∗ )}}
(2𝜋𝜎 ) 2𝜎
∗ /2)−1| 𝜆∗
𝜎 −2|(𝑁 ( 2 )𝑁/2
𝑥{ 𝑒𝑥𝑝[−𝜆∗ 𝜎 −2 /2]}
𝑁∗
𝑇( 2 )
𝑁∗ 𝜆
𝑇( 2 )(2)𝑁/2
𝑥{ 𝑇 𝑁 𝜆∗
|𝐼𝑇 + 𝑋𝑀𝑋 ′ |−1/2 }
𝑁 ∗ /2
(2𝜋)2 𝑇( )( )
2 2
[12.A.13]
El segundo término no implica 𝛽, y el tercer término no implica 𝛽 o (𝜎 −2 ). Así, [12.A.13]

proporciona la factorización
𝑁 𝜆∗ ∗
𝑇( 2 )( 2 )𝑁 /2
𝑓(𝑦|𝑋) = { 𝑇 𝑁 𝜆∗
|𝐼𝑇 + 𝑋𝑀𝑋 ′ |−1/2 }
∗
(2𝜋)2 𝑇( )( )𝑁 /2
2 2
𝑇[(𝑁 + 𝑇)/2]𝜆𝑁/2 |𝐼𝑇 + 𝑋𝑀𝑋 ′ |−1/2

={ 𝑇 𝑁 }
𝜋 2 𝑇( 2 ){𝜆 + (𝑦 − 𝑋𝑚)′((𝐼𝑇 + 𝑋𝑀𝑋 ′ )−1 (𝑦 − 𝑋𝑚)}(𝑁+𝑇)/2
Donde 𝑓(𝛽|𝜎 2 , 𝑦, 𝑋) es una 𝑁(𝑚∗ , 𝜎 2 𝑀∗ ) densidad, 𝑓(𝜎 −2 |𝑦, 𝑋) es 𝑇(𝑁 ∗ , 𝜆∗ )densidad, y

𝑓(𝑦|𝑋)se puede escribir como
−1 −(𝑁+𝑇)/2
1 𝜆
𝑐 = {1 + ( )(𝑦 − 𝑋𝑚)′ [( )(𝐼𝑇 + 𝑋𝑀𝑋 ′ )] (𝑦 − 𝑋𝑚)}
𝑁 𝑁
donde
−1/2
𝑁+𝑇 1 𝜆
𝑇[ 2 ](𝑁)𝑇/2 |(𝑁)(𝐼𝑇 + 𝑋𝑀𝑋 ′ )|
𝑐= 𝑇 𝑁
𝜋 2 𝑇( 2 )

Por lo tanto, 𝑓(𝑦|𝑋)es una densidad t de Student en T dimensional con N grados de libertad,
𝜆
media Xm, y matriz de escala (𝑁)(𝐼𝑇 + 𝑋𝑀𝑋 ′ ). Por lo tanto, las distribuciones de (𝛽|𝜎 2 , 𝑦, 𝑋) y
(𝜎 −2 |𝑦, 𝑋) son como se afirma en la Proposición 12.3, siempre que la magnitud 𝜆∗definida en
[12.A.12] sea la misma que en [12.1.28]. Para verificar que este es efectivamente el caso, note que
este es el caso, note que
(𝐼𝑇 + 𝑋𝑀𝑋 ′ )−1 = 𝐼𝑇 − 𝑋(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋 ′ ,

[12.A.14]
Como puede comprobarse mediante premultiplicación [12.1.28]. Para verificar que esto es
realmente el caso, observe que
(𝐼𝑇 + 𝑋𝑀𝑋 ′ )(𝐼𝑇 − 𝑋(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋 ′ )
= 𝐼𝑇 + 𝑋𝑀𝑋 ′ − 𝑋(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋 ′ − 𝑋𝑀(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋′
= 𝐼𝑇 + {𝑋𝑀(𝑋 ′ 𝑋 + 𝑀−1 ) − 𝐼𝑘 − 𝑀(𝑋 ′ 𝑋)}(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋′
= 𝐼𝑇
Como puede comprobarse mediante pre-multiplicación [12.A.14] por (𝐼𝑇 + 𝐗𝐌𝐗′):
(𝑦 − 𝑋𝑚)′(𝐼𝑇 + 𝑋𝑀𝑋 ′ )−1 (𝑦 − 𝑋𝑚)
= (𝑦 − 𝑋𝑚)′ [𝐼𝑇 + 𝑋(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋 ′ ] (𝑦 − 𝑋𝑚)
= (𝑦 − 𝑋𝑏 + 𝑋𝑏 − 𝑋𝑚)′ [𝐼𝑇 + 𝑋(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋 ′ ]𝑋(𝑏 − 𝑚),

Usando [12.A.14], vemos que
(𝑦 − 𝑋𝑚)′( 𝐼𝑇 + 𝑋𝑀𝑋 ′ )−1 (𝑦 − 𝑋𝑚)
= (𝑦 − 𝑋𝑏)′ (𝑦 − 𝑋𝑏) + (𝑏 − 𝑚)′ 𝑀(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋 ′ 𝑋(𝑏 − 𝑚), [12.A.15]
Donde los términos de producto cruzado han desaparecido debido a la condición de ortogonalidad
OLS (𝑦 − 𝑋𝑏)′ 𝑋 = 0′ . Además,
(𝑦 − 𝑋𝑏)′ 𝑋 = 0′
𝑋 ′ [𝐼𝑇 − 𝑋(𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋 ′ ]𝑋
= [𝐼𝑇 − (𝑋′𝑋)(𝑋 ′ 𝑋 + 𝑀−1 )−1 ]𝑋′𝑋
= [(𝑋 ′ 𝑋 + 𝑀−1 )−1 (𝑋 ′ 𝑋 + 𝑀−1 )−1 − (𝑋 ′ 𝑋)(𝑋 ′ 𝑋 + 𝑀−1 )−1 ]𝑋′𝑋
= 𝑀−1 (𝑋 ′ 𝑋 + 𝑀−1 )−1 𝑋 ′ 𝑋,

Esto permite [12.A.15] ser escrito como
(𝑦 − 𝑋𝑚)′ (𝐼𝑇 − 𝑋𝑀𝑋′)−1 (𝑦 − 𝑋𝑚)
= (𝑦 − 𝑋𝑏)′ (𝑦 − 𝑋𝑏) + (𝑏 − 𝑚)′ 𝑀(𝑋 ′ 𝑋 + 𝑀−1 )𝑋 ′ 𝑋(𝑏 − 𝑚),

Estableciendo la equivalencia de [12.A.12] y [12.1.28].
Prueba de (b). La densidad posterior conjunta de (𝛽) y (𝜎 −2 ) viene dada por

𝑓(𝛽, 𝜎 −2 |𝑦, 𝑋) = 𝑓(𝛽|𝜎 −2 , 𝑦, 𝑋). 𝑓(𝜎 −2 |𝑦, 𝑋)
1 1
={ 2 𝑘/2
|𝑀∗ |−1/2 exp {[− 2 ] (𝛽 − 𝑚∗ )′(𝑀∗ )−1 (𝛽 − 𝑚∗ )}}
(2𝜋𝜎 ) 2𝜎
𝑁∗ ∗
−2|( )−1| 𝜆∗ 𝑁
𝜎 2 ( )2
𝑥{ 2 exp[−𝜆∗ 𝜎 −2 /2]}
𝑁∗
𝑇( 2 )
(𝑘+𝑁∗ )
−2|| |−1| (𝑘+𝑁 ∗ )/2
2
𝜎 𝜆∗ ∗ )′(𝜆∗ 𝑀∗ )−1 (𝛽 ∗ )]}
= 𝑥 { . [1 + (𝛽 − 𝑚 − 𝑚
𝑇[𝑘 + 𝑁 ∗ )/2] 2
(
𝜆∗
x exp {− . [1 + (𝛽 − 𝑚∗ )′(𝜆∗ 𝑀∗ )−1 (𝛽 − 𝑚∗ )]𝜎 −2 })
2
𝑇[(𝑘 + 𝑁 ∗ )/2] ∗ −1/2 ∗ ∗ −1 ∗

𝑥{ 𝑘 𝐾 𝑁∗
|𝑀 | [1 + (𝛽 − 𝑚∗ )′(𝜆 𝑀 ) (𝛽 − 𝑚∗ )]−(𝑘+𝑁 )/2 }
(𝜆∗ )2 𝜋 2 𝑇( )
2
= {𝑓(𝜎 −2 |𝛽, 𝑦, 𝑋)}. {𝑓(𝛽|𝑦, 𝑋)}
∗ 𝑀∗ )−1
Donde 𝑓(𝜎 −2 |𝛽, 𝑦, 𝑋) será reconocido como una 𝑇[(𝑘 + 𝑁 ∗ ), 𝜆∗ [1 + (𝛽 − 𝑚∗ )′(𝜆 𝑥(𝛽 −
𝑚∗ )]) densidad, mientras que 𝑓(𝛽|𝑦, 𝑋) se puede escribir como
𝑇[(𝑘 + 𝑁 ∗ )/2]
𝑓(𝛽|𝑦, 𝑋) = { 𝑘 𝐾 𝑁∗
|(𝜆∗ /𝑁 ∗ )𝑀∗ |−1/2 }
(𝑁 ∗ )2 𝜋 2 𝑇( )
2
−1
1 𝜆∗
𝑥 [1 + ( ∗ ) (𝛽 − 𝑚 ) [( ∗ ) 𝑀 ] (𝛽 − 𝑚∗ )]−(𝑘+𝑁)/2 }
∗ ′ ∗
𝑁 𝑁
El cual k-dimensional t density with 𝑁 ∗ degrees of freedom, mean m*, and scale matrix (𝜆∗ /
𝑁 ∗ )𝑀∗ .
Prueba de (c). Observe que condicional a y, X, y 𝜎 2 , la variable
𝑍 = [𝑅(𝛽 − 𝑚∗ )]′𝜎 2 𝑅(𝑀−1 + 𝑋 ′ 𝑋)−1 . [R(−𝑚∗ )]

𝜎2𝑁∗
Se distribuye 𝑋 2 (𝑚), de la Proposición 8.1. La variable Q en [12.1.30] es igual a 𝑍. 𝑚𝜆∗
,y así
condicionada a y, X, y (𝜎 2 ), la variable Q se distribuye 𝑇(𝑚, (𝑚𝜆∗ )/( 𝜎 2 𝑁 ∗ ));
𝑚𝜆∗ 𝑚
|( )−1| 𝑚𝜆∗ 𝑞
[ 2 ∗ ]𝑚/2 𝑞 2 exp[− 2 ∗ ]
𝑓(𝑞|𝜎 2 , 𝑦, 𝑋) = 2𝜎 𝑁 𝑚
2𝜎 𝑁
𝑇( 2 )
[12.A.16]
La densidad posterior conjunta de q y 𝜎 −2 es
𝑓(𝑞, 𝜎 −2 |𝑦, 𝑋) = 𝑓(𝑞|𝜎 −2 , 𝑦, 𝑋). 𝑓(𝜎 −2 |𝑦, 𝑋)

𝑚𝜆∗ 𝑚
|( )−1| 𝑚𝜆∗ 𝑞
[ 2 ∗ ]𝑚/2 𝑞 2 exp[− 2 ∗ ]
= { 2𝜎 𝑁 𝑚
2𝜎 𝑁 }
𝑇( 2 )
𝑁∗ ∗
−2|( )−1| 𝜆∗ 𝑁
𝜎 2 ( ) 2
𝑥{ 2 exp[−𝜆∗ 𝜎 −2 /2]}
𝑁∗
𝑇( 2 )
𝑁∗ +𝑚
[ ]
𝜆∗ 2
{(𝑁 ∗ + 𝑚𝑞). [ ]}
2(2𝑁 ∗ )
= 𝑚
𝑇( 2 )
{ }
𝑚𝜆∗ 𝑚
|( )−1| 𝑚𝜆∗ 𝑞
[ 2 ∗ ]𝑚/2 𝑞 2 exp[− 2 ∗ ]
= { 2𝜎 𝑁 2𝜎 𝑁
𝑁∗ + 𝑚
𝑇[ ]
2
𝑁∗+𝑚
−2||(
2
)|−1| 𝜆∗ 2
xσ exp[−(𝑁 ∗ + 𝑚𝑞)( )𝜎 /2 }
𝑁∗
[12.A.17]
𝜆∗
Donde 𝑓(𝜎 −2 |𝑞, 𝑦, 𝑋)es una densidad (𝑇(𝑁 ∗ + 𝑚𝑞)( ∗ )) y 𝑓(𝑞|𝑦, 𝑋) es una densidad 𝐹(𝑚, 𝑁 ∗ ).
𝑁
12.1 Deduzca la Proposición 12.1 como un caso especial de la Proposición 12.2.
Almon, Shirley. 1965. “The Distributed Lag between Capital Appropriations and Expenditures.”
Econometrica 33: 178-96.
Barro, Robert J. 1979. “On the Determination of the Public Debt”. Jorunal of Political Economy
87:940-71.
Degroot, Morris H. 1970. Optimal Statistical Decisions. New York: McGraw-Hill.
Diebol, Francis X. amd James A. Nason 1990. “Nonparametric Exchange Rate Prediction?” Journal
of International Economics 28:315-32.
Doan, Thomas A. 1990. RATS User’s Manual. VAR Econometrics. Suite 612. 1800 Sherman Ave.,
Evanston, IL 60201.
Fama, Eugene F. 1965. “The Behavior of Stock Market Prices”. Journal of Business 38: 34-105.
Geweke, John. 1988a. “The Secular and Cyclical Behavior of Real GDP in 19 OECD Countries,
1957-1983”. Journal of Business and Economic Statistics 6:479-86.
Capítulo 12Referencias 387

---------. 1988b. “Antithetic Acceleration of Monte Carlo Integration in Bayesian Inference.” Journal
of Econometrics 38: 73-89.
--------. 1989. “Bayesian Inference in Econometric Models Using Monte Carlo Integration.”
Econometrica 57: 1317-39.
Hall, Robert E. 1978. “Stochastic Implications of the Life Cycle-Permanent Income Hypothesis:
Theory and Evidence.” Journal of Political Economy 86: 971-87.
Hammersley, J. M., and D.C. Handscomb. 1964. Monte Carlo Methods, 1st ed. London: Methuen.
Hoerl, A. E., and R. W. Kennard. 1970. “Ridge Regression: Biased Estimation for Nonorthogonal
Problems.” Technometrics 12: 55-82.
Kloek T., and H. K. van Dijk. 1978. “Bayesian Estimates of Equation System Parameters: An
Application of Integration by Monte Carlo.” Econometrica 46:1-19.
Leamer, Edward E. 1978. Specification Searches: Ad Hoc Inference with Nonexperimental Data. New York:
Wiley.

13
El Filtro de Kalman
Este capítulo presenta algunas herramientas muy útiles nombradas para las contribuciones R.E
Kalman (1960-1963). La idea es expresar un sistema dinámico en una forma particular llamada
representación del estado espacial. El filtro de Kalman es un algoritmo para actualizar
secuencialmente una proyección lineal para el sistema. Entre otros beneficios. Este algoritmo
proporciona una forma de calcular los pronósticos exactos de las muestras finitas y la función de
verosimilitud exacta para los procesos Gaussianos ARMA para factorizar la autocovariancia
matricial generando funciones o densidades espectrales y para estimar las autoregresiones
vectoriales con coeficientes que cambian con el tiempo.
La sección 13.1 describe cómo un sistema dinámico puede escribirse en una forma que pueden ser
analizados usando el filtro de Kalman. El filtro en sí se deriva en la Sección 13.2, y su uso en la
predicción se describe en la Sección 13.3. La sección 13.4 explica cómo para estimar los parámetros
de la población por máxima verosimilitud. Sección 13.5 analiza las propiedades del filtro de Kalman
a medida que crece el tamaño de la muestra y explica cómo el filtro de Kalman está relacionado en
el límite a la representación de Wold y factoring una función generadora de autocovarianza. La
Sección 13.6 desarrolla un algoritmo de suavizado Rithm, que es una forma de utilizar toda la
información de la muestra para formar inferencia sobre el estado no observado del proceso en
cualquier fecha histórica. Sección 13.7 describe errores estándar para inferencias suavizadas y
pronósticos. El uso del filtro de Kalman para estimar sistemas con parámetros variables en el
tiempo es en la sección 13.8.
13.1. Representación Estado-Espacio de un sistema dinámico
Supuestos Mantenidos
Sea yt denote un vector (n X 1) de variables observadas a la fecha t. Una clase rica de
modelos dinámicos para y, se puede describir en términos de una posiblemente no observada (r x 1)
vector ξt, conocido como el vector de estado. La representación del espacio la dinámica de y viene
dada por el siguiente sistema de ecuaciones:
𝜉𝑡+1 = 𝐹ξ𝑡 + 𝑣𝑡+1 [13.1.1]

𝑦𝑡 = 𝐴´𝑋𝑡 + 𝐻´ξ𝑡 + w𝑡 [13.1.2]
donde F, A y H' son matrices de parámetros de dimensión (r x r), (n x k), Y (n x r), respectivamente
y xt es un vector (k x 1) de valores exógenos o predeterminados variables. La ecuación [13.1.1] se
conoce como la ecuación de estado, y [13.1.2] se conoce como la ecuación de observación. El
vector (r x 1) v, y el vector (n x 1) wt, son ruido blanco del vector:
𝑄 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
𝐸(𝑉𝑡 𝑉𝜏´ ) = { [13.1.3]
0 𝑜𝑡𝑟𝑜𝑠
0 389
𝑅 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
𝐸(𝑊𝑡 𝑊𝜏´ ) = { [13.1.4]
donde Q y R son (r x r) y (n x n) matrices, respectivamente. Los disturbios vt y wt, se supone que no
están correlacionados en todos los retrasos:
𝐸(𝑊𝑡 𝑊𝜏´ ) = 0 para t y τ [13.1.5]
La afirmación de que xt, es predeterminada o exógena significa que xt no proporciona información

sobre ξt+s o wt+s para s = 0, 1, 2,. . . Más allá de la contenida en yt-1, yt-2…y1. Así, por ejemplo xt
podría incluir valores retardados de y o variables que no están correlacionados con ξr y wr para todo
r.
El sistema de [13.1.1] a [13.1.5] se utiliza típicamente para describir una serie finita de observaciones
{y1, y2, . . . , YT} para todas las suposiciones acerca del valor iniciar del vector de estado ξ1.
Suponemos que ξ1 no está correlacionada con cualquier realización de vt, o wt :
𝐸(𝑉𝑡 𝜉1´ ) = 0 para t=1,2,…T [13.1.6]
𝐸(𝑊𝑡 𝜉𝜏´ ) = 0 para t=1,2,…T [13.1.7]
La ecuación de estado [13.1.1] implica que ξt puede escribirse como una función lineal de
(𝜉1 , 𝑉2 , 𝑉3 , … 𝑉𝑡 ).
𝜉1 = 𝑉1 + 𝐹𝑉𝑡−1 + 𝐹 2 𝑉𝑡−2 +. . . +𝐹 𝑡−2 𝑉2 + 𝐹 𝑡−1 𝜉1 [13.1.8]
Para todo t = 2,3,…,T.
Así, [13.1.6] y [13.1.3] implican que vt no está correlacionada con valores rezagados de ξ:
𝐸(𝑉𝑡 𝜉𝜏´ ) = 0 Para todo 𝞽 = t-1, t-2, …,1 [13.1.9]
De forma similar
𝐸(𝑾𝑡 𝝃´𝜏 ) = 0 Para todo 𝞽 = 1, 2, …, T [13.1.10]
𝐸(𝑾𝑡 𝒚1´ ) = 𝐸[𝑾𝑡 (𝑨´𝑿𝜏 + 𝑯´𝝃𝜏 + 𝑾𝜏 )´]
=0 Para todo 𝞽 = t-1, t-2,…, 1 [13.1.11]
´
𝐸(𝑽𝑡 𝒚𝜏 ) = 0 Para todo 𝞽 = t-1, t-2, …, 1 [13.1.12]
El sistema de [13.1.1] a [13.1.7] es bastante flexible, aunque es sencillo generalizar los

resultados a sistemas en los que vt, se correlaciona con wt1 Las diversas matrices de parámetros (F,
Q, A, H, o R) podrían ser funciones del tiempo como se discutirá en la Sección 13.8. La
presentación será más clara, sin embargo, si nos centramos en la forma básica en [13.1.1]
a[13.1.7].
Ejemplos de Representaciones Estado-Espacio

Consideremos un proceso univariante AR(p)
𝑦𝑡+1 − µ = ∅1 (𝑦𝑡 − µ) + ∅2 (𝑦𝑡−1 − µ) + ⋯ +

+ ∅𝑝 (𝑦𝑡−𝑝+1 − µ) + 𝜉𝑡+1
[13.1.13]
2
𝐸(Ɛ𝑡 Ɛ𝜏 ) = { 𝜎 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
1
Véase, por ejemplo, Anderson y Moore (1979, pp. 105-8).
390 Capítulo 13 | El Filtro de Kalman

Esto podría escribirse en forma de espacio - estado como sigue:
Ecuación de Estado (r = p):
𝑦𝑡+1 − µ
𝑦𝑡 − µ
[ ⋮ ] [13.1.14]
𝑦𝑡−𝑝+2 − µ
Ø1 Ø2 … Ø𝑃−1 Ø𝑃 𝑦1 − µ Ɛ𝑡+1
1 0 … 0 0 𝑦𝑡−1 − µ 0
= 0 1 … 0 0 [ … ][ ]
⋮
⋮ ⋮ … ⋮ ⋮ 𝑦𝑡−𝑝+1 − µ
[0 0
0 … 1 0]
Ecuación de observación (n = 1):
𝑦𝑡+1 − µ
𝑦𝑡 − µ
𝑦𝑡 = µ + [1 0 ⋯ 0] [ ⋮ ] [13.1.15]
𝑦𝑡−𝑝+1 − µ
Es decir, especificaríamos
𝑦𝑡 − µ Ø1 Ø2 … Ø𝑃−1 Ø𝑃
𝑦𝑡−1 − µ 1 0 … 0 0
𝝃𝒕 = [ ⋮ ] 𝑭= 0 1 … 0 0
𝑦𝑡−𝑝+1 − µ ⋮ ⋮ … ⋮ ⋮
[0 0 … 1 0]
Ɛ𝑡+1 σ2 0 … 0
0
𝑽𝑡+1 = [ ] 𝑸=[0 0 … 0]
⋮ ⋮ ⋮ … ⋮
0 0 0 … 0
𝒚𝑡 = 𝑦𝑡 𝑨´ = µ 𝑿𝑡 = 1
𝑯´ = [1 0 ⋯ 0] 𝑾𝒕 = 0 𝑹 = 0.
Tenga en cuenta que la ecuación de estado aquí es simplemente la ecuación de diferencia de vector
de primer orden introducido en la ecuación [1.2.5]; F es la misma matriz que aparece en la ecuación
[1.2.3]. La ecuación de observación aquí es una identidad trivial. Así, ya hemos visto que la
representación del espacio de estado [13.1.14] y [13.1.15] es otra forma de resumir el proceso de
AR(p) [13.1.13]. La razón para reescribir un proceso AR (p) en tal forma era obtener un resumen
conveniente de la dinámica del sistema, y esta es la razón básica para estar interesado en la
representación del espacio de estado de cualquier sistema. El análisis de una autoregresión vectorial
utilizando la ecuación [10.1.11] empleo una representación similar de espacio del
estado.
Como otro ejemplo, considere un proceso univariante MA(1)
𝑦𝑡 = µ + Ɛ𝑡 + 𝜃Ɛ𝑡−1 [13.1.16]
Esto podría escribirse en forma espacio – estado como sigue:

Ecuación de Estado (r = 2);
Ɛ𝑡+1 0 0 Ɛ𝑡 Ɛ
[ ]= [ ][ ] + [ 𝑡+1 ] [13.1.17]
Ɛ𝑡 1 0 Ɛ𝑡−1 0
13.1 Representación Estado-Espacio de un sistema dinámico 391

Ɛ
𝑦𝑡 = µ + [1 𝜃 ] [Ɛ 𝑡 ] [13.1.18]
𝑡−1
es decir,
Ɛ𝑡 0 0 Ɛ
𝝃𝒕 = [ ] 𝑭= [ ] 𝑽𝒕+𝟏 = [ 𝑡+1 ]
Ɛ𝑡−1 1 0 0
0 0
𝐐 = [ ] 𝒚𝑡 = 𝑦𝑡 𝑨´ = µ 𝑿𝑡 = 1
1 0
𝑯´ = [1 𝜃 ] 𝑾𝑡 = 0𝑹 = 0
Hay muchas maneras de escribir un sistema dado en forma de espacio de estado. Por
ejemplo, el MA(1) proceso [13.1.16] también se puede representar de esta manera:
Ecuación de Estado (r = 2):

Ɛ𝑡+1 + 𝜃Ɛ𝑡 0 1 Ɛ𝑡 + 𝜃Ɛ𝑡−1 Ɛ
[ ]=[ ][ ] + [ 𝑡+1 ] [13.1.19]
𝜃Ɛ𝑡+1 0 0 𝜃Ɛ𝑡 𝜃Ɛ𝑡+1

Ɛ𝑡
+ ƟƐ𝑡−1
𝑦𝑡 = µ + [1 0] [ ] [13.1.20]
ƟƐ𝑡
Obsérvese que la representación MA (1) original de [13.1.16], la primera representación del estado-
espacio representado en [13.1.17] y [13.1.18], y la segunda representación de espacio de estado de
[13.1.19] y [13.120] todos caracterizan el mismo proceso. Obtendremos las predicciones idénticas
del proceso o valor de la función de verosimilitud de cualquiera de las tres representaciones y puede
sentirse libre de trabajar con lo que sea más conveniente.
Más en general, un proceso univariable ARMA (p, q) se puede escribir en estado- espacio
mediante la definición de r = max {p, q + 1}:
𝑦𝑡 − µ = ∅1 (𝑦𝑡−1 − µ) + ∅2 (𝑦𝑡−2 − µ)+. . . +∅𝑟 (𝑦𝑡−𝑟 − µ) [13.1.21]

+ ℰ𝑡 + 𝜃1 ℰ𝑡−1 + 𝜃2 ℰ𝑡−2 + . . . + 𝜃𝑟−1 ℰ𝑡−𝑟+1
donde interpretamos ǿi = 0 para j> p y θ= 0 para j> q. Considere la siguiente representación

espacio-estatal;
Ecuación de estado (r = max {p, q + l}):
Ø1 Ø2 … Ø𝑟−1 Ø𝑟
Ɛ𝑡+1
1 0 … 0 0
0
𝜉𝑡+1 = 0 1 … 0 0 𝜉𝑡 + [ ] [13.1.22]
⋮
⋮ ⋮ … ⋮ ⋮
[ 0
[ 0 0 … 1 0 ]]
𝑦𝑡 = µ + [1 𝜃1 𝜃2 ⋯ 𝜃𝑟−1 ]𝜉𝑡 [13.1.23]
Para verificar que [13.122] y [13.123] describen el mismo proceso que [13.1.21], sean ξjt que
denotan el j-ésimo elemento de ξt. Así, la segunda fila de la ecuación del estado afirma ser
𝜉2.𝑡+1 = 𝜉1𝑡
La tercera fila afirma que
𝜉3.𝑡+1 = 𝜉2𝑡 = 𝜉1.𝑡−1
Y en general la j-ésima fila implica que
𝜉𝑗.𝑡+1 = 𝐿𝑗−1 𝜉1.𝑡+1
Así, la primera fila de la ecuación del estado implica que

𝜉1.𝑡+1 = (∅1 + ∅2 𝐿 + ∅3 𝐿2 +. . . +∅𝑟 𝐿𝑟−1 )𝜉1𝑡 + ℰ𝑡+1
Ó
(1 − ∅1 𝐿 − ∅2 𝐿2 − . . . −∅𝑟 𝐿𝑟 )𝜉1.𝑡+1 = ℰ𝑡+1 [13.1.24]
La ecuación de observación indica que

𝑦𝑡 = µ + (∅1 + ∅2 𝐿 + ∅3 𝐿2 +. . . +∅𝑟 𝐿𝑟−1 )𝜉1𝑡 [13.1.25]
Multiplicando [13.1.25] por (1 − ∅1 𝐿 − ∅2 𝐿2 − . . . −∅𝑟 𝐿𝑟 ) y usando [13.1.24] resulta
(1 − ∅1 𝐿 − ∅2 𝐿2 − . . . −∅𝑟 𝐿𝑟 )(𝑦𝑡 − µ)
= (∅1 + ∅2 𝐿 + ∅3 𝐿2 +. . . +∅𝑟 𝐿𝑟−1 )𝜉1𝑡
que de hecho se reproduce en [13.1.21]

La forma de espacio - estado también puede ser muy conveniente para modelar las sumas
de los procesos estocásticos o las consecuencias del error de medida. Por ejemplo, Fama y Gibbons
(1982) querían estudiar el comportamiento de la tasa de interés real ex ante (el tipo de interés
nominal i, menos la tasa de inflación esperada πet). Esta variable no es observable, porque el
econometrista no tiene datos sobre la tasa de inflación anticipado por el mercado de bonos. Así, la
variable de estado para esta aplicación fue el escalar ξt = it - πet - µ, donde µ denota el interés real ex
ante promedio. Fama y Gibbons asumieron que la tasa real ex ante sigue un proceso AR (1)
𝜉𝑡+1 = ∅𝜉𝑡 + 𝑣𝑡+1 [13.1.26]
El econometrista tiene observaciones sobre el tipo real ex post (la tasa de interés nominal i, menos
la inflación real πt), que puede escribirse como
𝑖𝑡 − 𝜋𝑡 = (𝑖𝑡 − 𝜋𝑡𝑒 ) + (𝜋𝑡𝑒 − 𝜋𝑡 ) = µ + 𝜉𝑡 + 𝑤𝑡 [13.1.27]
𝑒
Donde wt = (π𝑡 - πt) es el error que las personas hacen en la predicción de la inflación. Si las
personas forman estos pronósticos de manera óptima, entonces wt debe estar sin correlación con su
propios valores rezagados o con el tipo de interés real ex ante. Así, [13.1.26] y [13.1.27] son la
ecuación de estado y la ecuación de observación para un modelo de espacio de estados con r =n
=1, F= Ø, 𝑦t = it - πt, A´xt = µ, H = 1, and wt = (π𝑒𝑡 - πt).
En otra aplicación interesante del marco de estado-espacio, Stock y Watson (1991) postuló la
existencia de un escalar C no observado, que representa el estado del ciclo económico. Un conjunto
de n diferentes variables macroeconómicas observadas (y1t, y2t, ..., ynt) que supone que cada una de
las variables está influenciada por el ciclo económico y también tienen un componente
idiosincrásico (denotado Xit) que no está relacionado a los movimientos en yjt para i ≠ j. Si el ciclo
económico y cada uno de los componentes crıticos pueden describirse mediante procesos
univariables de AR (1),
[(N + 1) x 1] vector de estado sería
𝐶𝑡
𝑥1𝑡
𝜉𝑡 = 𝑥2𝑡 [13.1.28]
⋮
[𝑥𝑛𝑡 ]
Con ecuación de estado

𝐶𝑡+1 Ø𝑐 𝐶 0 … 0 𝐶𝑡 𝑉𝐶.𝑡+1
𝑋1.𝑡+1 0 Ø1 0 … 0 𝑋1𝑡 𝑉1.𝑡+1
𝑋2.𝑡+1 = 0 0 Ø2 … 0 𝑋2𝑡 + 𝑉2.𝑡+1 [13.1.29]
⋮ ⋮ ⋮ ⋮ … ⋮ ⋮ ⋮
[𝑋𝑛.1+1 ] [ 0 0 0 … Ø𝑛 ] [𝑋𝑛𝑡 ] [𝑉𝑛.𝑡+1 ]
Y ecuación de observación
13.1 Representación Estado-Espacio de un sistema dinámico 393

𝐶𝑡
𝛾1𝑡 µ1 𝛾1 1 0 … 0
𝛾2𝑡 µ2 𝑋1𝑡
𝛾2 0 1 … 0
[ ⋮ ]= [ ⋮ ]+[ ] 𝑋2𝑡 [13.1.30]
⋮ ⋮ ⋮ … ⋮
𝛾𝑛𝑡 µ𝑛 ⋮
𝛾𝑛 0 0 … 1
[𝑋𝑛𝑡 ]
Así, γi es un parámetro que describe la sensibilidad de la i-esima serie del ciclo del negocio. Para
permitir la dinámica de orden Pth, Stock y Watson reemplazaron a Ct y xit en [13.128] con los (p x
1) vectores (Ct, Ct-1, ... , Ct-p+1)' y (xit , Xi.t-1, ... , Xi.t – p+1)´de manera que ξt es un vector [(n + 1) p X
1]. Los escalares ǿ en [13.1.29] son entonces sustituido por (p x p) matrices F i con la estructura de
la matriz F en [13. 1.14] y [n x (p - 1)] bloques de ceros se añaden entre las columnas de H
'en la ecuación de observación [13.1.30].
13.2. Derivación del filtro de Kalman
Visión general del filtro de Kalman

Consideremos el sistema general estado-espacio [1311] a través de [13.1.7], cuya ecuaciones
clave se reproducen aquí por conveniencia:
𝝃𝑡+1 = 𝑭 . 𝝃𝑡 + 𝒗𝑡+1 [13.2.1]
(𝑟𝑥1) (𝑟𝑥𝑟)(𝑟𝑥1) (𝑟𝑥1)
𝒚𝑡 = 𝑨´ . 𝑿𝒕 + 𝑯´. 𝝃𝒕 + 𝒘t [13.2.2]
(𝑛𝑥1) (𝑛𝑥𝑘)(𝑘𝑥1) (𝑛𝑥𝑟)(𝑟𝑥1) (𝑛𝑥1)
𝑸 𝒑𝒂𝒓𝒂 𝒕 = 𝞽
𝐸(𝑽𝑡 𝑽´𝜏 ) = {(𝑟𝑥𝑟) [13.2.3]
𝟎 𝒐𝒕𝒓𝒐𝒔
𝑹 𝒑𝒂𝒓𝒂 𝒕 = 𝞽
𝐸(𝑾𝑡 𝑾´𝜏 ) = {(𝑛𝑥𝑛) [13.2.4]
𝟎 𝒐𝒕𝒓𝒐𝒔
Se presume que el analista ha observado 𝒚1, 𝒚2 , . . . , 𝒚𝑻 , 𝒙1, 𝒙𝟐 , … , 𝒙𝑻 . Uno de los
objetivos finales puede ser estimar los valores de cualquier parámetro en el sistema sobre la base de
estas observaciones. Por el momento, sin embargo, asumiremos que los valores numéricos
particulares de F, Q, A, H y R son conocidos con certeza; la Sección 13.4 dará detalles sobre cómo
estos parámetros pueden ser estimados de los datos.
Hay muchos usos del filtro de Kalman. Se motiva aquí como un algoritmo para calcular
las predicciones lineales de mínimos cuadrados del vector de estado sobre la base de datos
observado hasta la fecha t,
𝜉̂
𝑡+1|𝑡 = Ê(𝜉𝑡+1 |𝑦𝑡 ) [13.2.5]
Donde,
𝒚𝑡 = (𝒚´𝑡 , 𝒚´𝑡−1 , … , 𝒚´1 , 𝒙´𝑡 , 𝒙´𝑡−1 , … , 𝒙´1 )´ [13.2.5]
Y Ê(𝜉𝑡+1 |𝑦𝑡 ) denota la proyección lineal de ξt+1 dado yt, y una constante. Los filtro de Kalman
calculan estos pronósticos recursivamente, generando 𝜉̂ 1|0, 𝜉̂ 2|1…𝜉̂ T|T-1 en la sucesión. Asociado con
(Ir - F) . E(ξt) =0 cada una de estas estimaciones hay una matriz de error cuadrado medio (MSE),
representada por la siguiente matriz (r x r):
𝑷𝑡+1|𝑡 = 𝐸[(𝜉𝑡+1 − 𝜉̂ ̂
𝑡+1|𝑡 )(𝜉𝑡+1 − 𝜉𝑡+1|𝑡 )´] [13.2.6]

Inicio de la recursión
La recursión comienza con 𝝃̂1|0, lo que denota una estimación de 𝝃1, basada en las no
observaciones de y o x. Esta es sólo la media incondicional de 𝝃1.
𝝃̂1|0 = E(𝝃1)
Con la asociación de MSE.

𝑷1|0 = 𝐸{[𝜉1 − 𝐸(𝜉1 )][𝜉1 − 𝐸(𝜉1 )]´}
Por ejemplo, para la representación del espacio de estado del MA(1) dado en [13.1.17] y [13.1.18], el
vector de estado fue
𝜀𝑡
𝜉𝑡 = [𝜀 ],
𝑡+1
Para lo cual,
ℰ 0
𝜉̂ 1|0=𝐸 [ 1 ] = [ ] [13.2.7]
𝜀0 0
ℰ1 𝜀 𝜀0 ]) = [𝜎
2
0]
𝑷1|0=𝐸 ([ ][ [13.2.8]
𝜀0 1 0 𝜎2
Donde 𝜎 2 = 𝐸(𝜀𝑡2 )
De manera más general, si los valores propios de F están todos dentro del círculo unitario,
entonces el proceso de 𝜺𝒕 , en [132.1] tiene covarianza-estacionaria. La media incondicional de 𝜺𝒕
puede encontrarse tomando las expectativas de ambos lados de [13.2.1], produciendo
𝐸(𝜉𝑡+1 ) = 𝑭. 𝐸(𝜉𝑡 )
O, puesto que 𝜀𝑡 tiene covarianza estacionaria,
(𝑰𝑟 − 𝑭). 𝐸(𝜉𝑡 ) = 0
Puesto que la unidad no es un valor propio de F, la matriz (𝑰𝑟 − 𝑭) es no singular, y esta ecuación
tiene la solución única E (𝜀𝑡 ) = 0. La varianza incondicional de 𝝃 puede encontrarse de manera
similar post multiplicando [13.2.1] por su transpuesta y tomando las esperanzas.
𝐸(𝜉𝑡+1 𝜉´𝑡+1 ) = 𝐸[(𝑭𝜉𝑡 + 𝑣𝑡+1 )]
Los términos de productos cruzados han desaparecido a la luz de [13.1.9]. Dejando que Σ denote la
matriz de varianza-covarianza de ξ , esta ecuación implica
∑=F∑F´ + Q
Cuya solución se veía en [10.2.18] dada por
vec (∑) = [I r2 – (F ◙ F)]-1 . vec (Q).
Así, en general, siempre que los valores propios de F estén dentro del círculo unitario, las
iteraciones de los filtros de Kalman se pueden iniciar con ℰ̂ 1|0 = 0 y P1|0, la matriz (r x r) cuyos
elementos expresados como vector columna son dados por
vec (P1|0) = [I r2 – (F ⨂ F)]-1 . vec (Q).
Si los valores propios insensibles de F están dentro o fuera del círculo unitario, o si el estado inicial
ξ1 no se considera un drenaje arbitrario del proceso implicado por [13.2.1], entonces ξ1|0 puede ser
reemplazado con la mejor estimación del analista en cuanto al valor inicial de ξt, donde P1|0, es una
matriz definida positiva que resume la confianza en esta suposición, valores mayores para los
elementos diagonales de P1|0, registran mayor incertidumbre sobre el verdadero valor de ξt
Pronosticar yt
13.2 Derivación del filtro de Kalman 395

Dado los valores iniciales ξt1|0 y P1|0, el siguiente paso es calcular magnitudes análogas para la
siguiente fecha, ξ2|1 y P2|1. Los cálculos para t = 2, 3,…T todos tienen la misma forma básica, por
lo que los describiremos en términos generales para el paso t; dado ξt|t-1 y Pt|t-1, el objetivo es
calcular ξt+1|t, Pt+1|t.
Primero observemos que dado que hemos asumido que xt no contiene información sobre
ξt más allá de la contenida en Yt-1
Ê(ξ1|xt , Yt-1) = Ê(ξt| Yt-1) = ἓt|t-1
A continuación, considere la posibilidad de pronosticar el valor de yt:

ŷt | t-1 ≡ Ê(yt| xt , Yt-1).
Tomando en cuenta de [13.2.2] que
Ê(yt |xt , ξt) ≡ A´xt + H´ξt’
Y así, de la ley de proyecciones iteradas,
Ê(yt|xt ,ξt) = A´xt + H´ξt|xt ,Yt-1) = A´xt + H´ξt|t-1 [13.2.9]
De [13.2.2], el error de esta previsión es:

yt - ŷt|t-1 = A´xt + H´ξt + wt - A´xt - H´ ξt | t-1 = H´( ξt - ξt | t-1) + wt
con MSE
E[(yt - ŷt|t-1)(yt - ŷt|t-1)´] [13.2.10]
= E[H´(ξt - ξt|t-1)(ξt - ξt|t-1)´H] + E[wtw't]

Los términos de productos cruzados han desaparecido
E[wt(ξt - ξt|t-1)´] =0 [13.2.11]
Para justificar [13 2.11], debemos recordar de [13. 1.10] que wt está no correlacionado con ξt.
Además, puesto que ξt|t-1 es una función lineal de Yt-1 dado por [13.1 11] también debe ser no
correlacionado con wt
. Usando [132.4] y [13.2.6], la ecuación [13.2.10] se puede escribir
E[(yt – ŷt|t-1)(yt – ŷt|t-1)’] = H´Pt|t-1 H + R. [13.2.12]
Actualización de la inferencia Acerca de ξt

A continuación la inferencia sobre el valor actual de ξt se actualiza sobre la base de la
observación de yt para producir:
ξt|t = Ê(ξt|yt , xt ,Yt-1) = Ê(ξt|Yt
Se puede evaluar mediante la fórmula para actualizar una proyección lineal, la ecuación [4.5.30]:2
ξt|t = ξt|t-1 + {E[(ξt - ξt|t-1)(yt - ŷt|t-1)']} [13.2.13]
x {E[(yt - ŷt|t-1)(yt - ŷt|t-1)´]}-1 x (yt - ŷt|t-1).
2
Aquí ξt corresponde a Y3 Yt corresponde a Y2 y (x1 Yt) 'corresponde a Yt en la ecuación [4.5.30].

E{(ξt - ἓt|t-1)(yt - ŷt|t-1)´}
= E{[ξt - ἓt|t-1][H´(ξt - ἓt|t-1) + wt]´} [13.2.14]
= E[(ξt - ἓt|t-1)(ξt - ἓt|t-1)´ H]
= Pt|t-1H
En virtud de [132.11] y [13.2.6]. Sustituyendo [13.2.14], [132.12] y [13.2.9] en [13.2.13] se obtiene
ἓt|t = ἓt|t-1+ Pt|t-1 H(H´Pt|t-1H + R)-1 (yt - A´xt - H´ἓt|t-1) [13.2.15]
El MSE asociado con esta proyección actualizada, que se denomina Pt|t , puede se encuentra en
[4.5.31]:
Pt|t ≡ E[(ξt - ἓt|t)(ξt - ἓt|t)´]

= E[(ξt - ἓt|t-1)(ξt – ξt|t-1)´]
– {E[ξt – ἓt|t-1)(yt – ŷt|t-1)´]} [13.2.16]
x {E[yt – ŷt|t-1)(yt – ŷt|t-1)´]}
x {E[yt – ŷt|t-1)(ξt – ἓt|t-1)´]}
= Pt|t-1 – Pt|t-1 H(H´Pt|t-1 H + R)-1 H´Pt|t-1
Producción un Pronóstico de ξt+1

A continuación, se usa la ecuación de estado [13.2.1] para pronosticar ξt+1
ἓt+1|t = Ê(ξt+1 | Yt
[13.2.17]
= F . Ê(ξt |Yt) + Ê(vt+1|Yt)
= Fἓt|t + 0
Sustituyendo [13.2.15] en [132.17],
ἓt + 1|t = Fἓt|t-1 + FPt|t-1 H(H´Pt|t-1 H + R)-1 (yt – A´xt – H´ἓt|t-1). [13.2.18]
La matriz de coeficientes en [13.2.18] se conoce como matriz de ganancia y se denomina Kt:

Kt ≡ FPt|t-1 H(H´Pt|t-1 H + R)-1 [13.2.19]
Permitiendo [13.2.18] se escriba,
ἓt+1|t ≡ Fἓt|t-1 + Kt(yt – A´xt - H´ἓt|t-1) [13.2.20]
El MSE de este pronóstico se puede encontrar de (13.2.17) y la ecuación del estado en (13.2.1):
Pt+1|t = E[(ξt+1 - ἓt+1|t)(H´( ξt+1 - ἓt+1|t)´]
= E[(Fξt + vt+1 - Fἓt|t)( Fξt + vt+1 - Fἓt|t)´] [13.2.21]
= F . E[(ξt - ἓt|t)(ξt - ἓt|t)´] . F´ + E[vt+1 v´t+1]
= FPt|t F´ + Q.
Con términos de productos cruzados de nuevo cero. Sustituyendo [13.2.16] en [13.2.21]
obtenemos:
Pt+1|t = F[Pt|t-1 - Pt|t-1 H(H´Pt|t-1 H + R)-1 H´Pt|t-1] F´ + Q [13.2.22]
Resumen y observaciones
Para resumir, el filtro de Kalman se inicia con la media incondicional y varianza de ξ1.
ἓ 1|0 = E(ξ1)
13.2 Derivación del filtro de Kalman 397

P 1|0 = E{[ξ1 – E(ξ1)][ ξ1 – E(ξ1)]´}.
Por lo general estos son dados por ἓ 1|0 = 0 y vec(P1|0) = [Ir2 – (F ⊗ F)]-1 . vec(Q).
Entonces iteramos en
𝜉̂𝑡+1|𝑡 = 𝐅𝜉̂𝑡|𝑡−1 [13.2.23]
+ FPt|t-1 H(H´Pt|t-1 H + R)-1 (yt
– A´xt – H´ἓt|t-1).
y [13.2.22] para t = 1, 2, 3, ….., T. El valor ξt+1 denota la mejor pronostico basándose en una
función constante y una función lineal de Y. La matriz Pt+1 da la MSE de estestimación. El
pronóstico de yt+1 se da por
E[(yt+1 – ŷt+1|t)(yt+1 – ŷt+1|t)’] = H´Pt+1|t H + R. [13.2.25]
Cabe señalar que la recursión en [13.2.22] podría calcularse sin ser evaluado [132.23]. Los valores de
Pt|t -1 en [13.2.22] y Kt en [13.2.19] no son funciones de los datos, sino que están determinadas
enteramente por la población de parámetros del proceso.
Una forma alternativa de escribir la recursión para Pt+1|t a veces es útil restar la ecuación de
actualización de Kalman [13.2.20] de la ecuación de estado [13.2.1] se obtiene:
ξt+1 - ἓt+1|t = F(ξt - ἓt|t-1) - Kt(yt – A´xt – H´ἓt|t-1) + vt+1. [13.2.26]
La sustitución de la ecuación de observación [13.2.2] en [13226] da lugar a:
ξt+1 - ἓt+1|t ≡ (F - KtH´)(ξt - ἓt+1|t) - Ktwt + vt+1 [13.2.27]
La postmultiplicación [132.27] por su transpuesta y resultado de expectativas,
E[ξt+1 - ἓt+1|t)(ξt+1 - ἓt+1|t)´]

= (F - KtH´)E[(ξt - ἓt+1|t)( ξt - ἓt+1|t)´](F´ - HK´t) + KtRK´ + Q ;
O, recordando la definición de Pt+1|t en la ecuación [13.2.6],
Pt+1|t = (F - KtH´)Pt|t-1 (F´ - HK´t) + KtRK´t + Q . [13.2.28]
La ecuación [13.2.28] junto con la definición de K, en [132.19] resultará en la misma secuencia

generada por la ecuación [13.222].
13.3. Pronósticos basados en el estado-espacio Representación

Los cálculos del filtro de Kalman en '[13.2.22] a [13.2.25] son normalmente calculado por un
ordenador, utilizando los valores numéricos conocidos de F, Q, A, H y R a lo largo con los datos
reales. Sin embargo, para ayudar a que las ideas sean más concretas, exploraremos analíticamente el
resultado de estos cálculos para un ejemplo simple.
Ejemplo: Usar el filtro de Kalman para encontrar estimaciones de

Muestras Finitas para un Proceso MA(1)
Considere nuevamente una representación del espacio de estados para el proceso MA (1):
Ecuación de Estado (r = 2):
Ɛ 0 0 Ɛ𝑡 Ɛ
[ 𝑡+1 ] = [ ][ ] + [ 𝑡+1 ] [13.3.1]
Ɛ𝑡 1 0 Ɛ𝑡−1 0

Ɛ𝑡
yt = µ + [1 Ɵ] [ ] [13.3.2]
Ɛ𝑡−1
Ɛ𝑡
ξt = [ ] [13.3.3]
Ɛ𝑡−1
0 0
F =[ ] [13.3.4]
1 0
Ɛ
vt+1 = [ 𝑡+1 ] [13.3.5]
0
2
Q = [𝜎 0] [13.3.6]
0 0
yt = 𝑦t [13.3.7]
A´ = µ [13.3.8]
xt = 1 [13.3.9]
H´ = [1 Ɵ] [13.3.10]
wt = 0 [13.3.11]
R = 0 [13.3.12]
Los valores iniciales para el filtro se describieron en [13.2.7] y [13.2.8]:
0
𝜉̂1|0 = [ ]
0
2
𝐏1|0 = [𝜎 0]
0 𝜎2
Por lo tanto, a partir de [113.224], el período 1 pronóstico es:
ŷ1|0 = µ + H’𝜉̂1|0 = µ
Con MSE dada por [13.2.25]:
2
E(y1 – ŷ1|0)2 = H’P1|0 + H + R = 1 [1 Ɵ] [𝜎 0 ] [0] + 0 = σ2(1 + σ2)
0 𝜎2 0
Estos, por supuesto, son sólo la media incondicional y la varianza de y.
Para ver la estructura de la recursión para t = 2, 3,. . . , T, considere la forma base de la
ecuación de actualización [13.2.23]. Observe que ya que la primera fila de F conformada de ceros, el
primer elemento del vector ξt+1|t siempre será igual a cero, para todo t. Vemos por qué si
recordamos el significado del vector de estado en [13.3.3]
ε̂𝑡+1|𝑡
𝜉̂𝑡+1|𝑡 = [ ] [13.3.13]
ε̂𝑡|𝑡
Naturalmente, la estimación del futuro ruido blanco, en ε̂𝑡+1|𝑡 es siempre cero. La estimación de
yt+1 está dada por [13.224]:
Ɛ𝑡+1|𝑡
𝑦̂𝑡+1|𝑡 = µ + [1 Ɵ] [ ] = µ + Ɵἓt | r [13.4.14]
ἓ𝑡|𝑡
La ecuación de actualización del filtro de Kalman para el MSE de la ecuación [132.21], para este
ejemplo se convierte en
2
Pt+1|t = FPt|t F´ + Q = [0 0] Pt|t [0 0] + [𝜎 0] [13.3.15]
1 0 1 0 1 0
Así, Pt+1 es una matriz diagonal de la forma:
𝜎2 0
Pt+1|t = [ ] [13.3.16]
0 𝑃𝑡+1
Donde el elemento (2, 2) de Pt+1|1 (que hemos denotado por pt+1) es el mismo que el elemento (1,
1) de Pt|t Recordando [13.2.6] y [133.13], este término tiene el carácter de interpretación como el
MSE de ἓt|t.
13.3 Pronósticos basados en el estado-espacio Representación

reales 399
Pt+1 = E(Ɛt - ἓt | t)2 [13.3.17]
El (1, 1) elemento de Pt+1, tiene la interpretación como el MSE de ἓt +1. Tenemos visto que esta
predicción es siempre cero, y su MSE en [13.31.16] es 0-2 para todo t. Los factores de que Pt+1|t, es
una matriz diagonal cuyo error de pronóstico es (ἓt +1 + ἓt +1|t) es no correlacionado con (ἓt - ἓt|t).
El MSE de la predicción de y, + 1 está dado por [132.25]:
E(yt+1 – ŷt+1|t)2 = H´Pt+1|t H + R
𝜎2 0 1
= [1 Ɵ] [ ][ ] + 0 [13.3.18]
0 𝑃𝑡+1 Ɵ
= σ2 + θ2Pt+1
Una vez más, la intuición puede verse en la naturaleza de la predicción en [13.314]:
E(yt+1 – ŷt+1|t)2 = E[(µ + Ɛt+1 + ƟƐt) – (µ + Ɵἓt | t)]2
= E(Ɛ2𝑡+1 + Ɵ2E(Ɛt - ἓt | t)2 ,
que, a partir de [13.3.17], reproduce [133.18].
A partir de [132.23], la serie para ἓt|t, se genera recursivamente a partir de:

0 0 0 0
[ἓ ] = [ ] [ἓ ]
𝑡|𝑡 1 0 𝑡−1|𝑡−1
0 0 𝜎2 0 1
+[ ][ ] [ ]{1/[σ2 + Ɵ2pt]} . {yt - µ - Ɵἓt-1|t-1}
1 0 0 𝑃𝑡 Ɵ
o
ἓt+1 = { σ2/[ σ2 + Ɵ2pt]} . {yt - µ - Ɵἓt-1|t-1 [13.3.19]
Apartir del valor inicial ἓ0|0. Obsérvese que el valor para ἓt|t1 difiere del valor inicial de la
aproximación sugerida en las ecuaciones [4.2.36] y é. [4 3. 2],
ἓt = yt - µ - Ɵἓt-1 ἓ = 0 ,
En [13.3 19] se reduce la inferencia hacia cero para tener en cuenta el valor distinto de cero en la
varianza pt de ἓ t-1|t-1 alrededor del valor verdadero de Ɛt-1
La matriz de ganancia K en la ecuación [13, 2, 19] está dada por
0 0 𝜎2 0 1 1 0
Kt = [ ][ ] [ ] (𝜎2 +Ɵ2 𝑝𝑡 ) = [ 2 ⁄ 2 ] [13.3.20]
1 0 0 𝑃𝑡 Ɵ 𝜎 [𝜎 + θ2 𝑝𝑡 ]
Finalmente, de la ecuación [132.16] se tiene que
𝜎2 0 1 𝜎2 0 1 𝜎2 0
𝐏t | t =[ ]−( 2 ) [ ] [ ] [ 1 Ɵ] [ ]
0 𝑃𝑡 𝜎 + Ɵ2 𝑝𝑡 0 𝑃𝑡 Ɵ 0 𝑃𝑡
El elemento (1, 1) de Pt|t (que vimos es igual a pt+1) esta dado por:
𝜎 2 Ɵ2 𝑃𝑡 [13.3.21]
𝐏t + 1 = σ2 – {1/[σ2 + Ɵ2pt ]} . σ4 =
𝜎 2 + Ɵ2 𝑝𝑡
La recursión en [133.21] se inicia con p, = (72 y por lo tanto tiene la solución
𝜎 2 Ɵ2𝑡
𝐏t + 1 = [13.3.22]
1 + Ɵ2 + Ɵ4 + . . . + Ɵ2𝑡
Es interesante observar lo que sucede al filtro cuando t se hace grande. Primero considere el caso
cuando |𝜃| ≤ 1. Entonces, de [13.3.22],
lim 𝑃𝑡+1 = 0
𝑡→∞
Y así, de [13.3.17],
𝑝
ἓ𝑡|𝑡 → Ɛ𝑡

Así, dado un número suficiente de observaciones sobre yt la inferencia del filtro de Kalman Ɛt|t
converge al valor verdadero Ɛt y la estimación [13.3.14] converge a la de la representación de Wold
para el proceso. La ganancia de Kalman en [13.320] converge a (0, 1) '.
Alternativamente, considere el caso cuando| Ɵ |> 1. De [13.3.22], tenemos:
𝜎 2 Ɵ2𝑟 (1−Ɵ2 ) 𝜎 2 (1−Ɵ2 )

𝑃𝑡+1 = 1−Ɵ2(𝑟+1)
= Ɵ−2𝑟 − Ɵ2
y
𝜎 2 (1−Ɵ2 )
lim 𝑃𝑡+1 = −Ɵ2 > 0
𝑡→𝑥
No importa cuántas observaciones se obtengan, no será posible conocer con certeza el valor de la
innovación no fundamental Ɛt asociado con la fecha con la base de (y ,, y, _1, ..., y,). La ganancia es
dada por:
𝜎2 𝜎2 1
𝜎 2+ Ɵ2 𝑃𝑡
→ 𝜎2 − 𝜎2 (1− Ɵ2 ) = Ɵ2´
Y la recursión [13.3.19]
ἓt | t = (1/Ɵ2) . (y1 - µ - Ɵἓt-1|t-1)
Ɵἓt | t = (1/Ɵ2) . (y1 - µ - Ɵἓt-1|t-1)

Recordando [13.3.14], tenemos así
ŷt+1|t - µ = (1/Ɵ) . [(y1 - µ) – (ŷt+1|t - µ)

ó
ŷt+1|t - µ = (1/Ɵ) . (y1 - µ) – (1/Ɵ)2 . (yt-1 - µ) + (1/Ɵ)3 . (yt-2 - µ) - . . . ,
Cada nuevo pronosticao de ARGO(∞) asociado con la inversa de MA (1) representado. De hecho,
las estimaciones del filtro de Kalman con Ɵ reemplazado por Ɵ-1 y 𝜎 2 es sustituido por Ɵ2 𝜎 2 será
idéntico para cualquier t; Véase el ejercicio 13.
Cálculo de las previsiones s - período - adelante con el filtro de Kalma

El pronóstico de yt calculado en [13.2.24] es un pronóstico exacto de la muestra finita de yt sobre la
´ ´
base de x y Yt-1= 𝑦𝑡−1 , 𝑦𝑡−2 , . . . , 𝑦1´ , 𝑦𝑡−1
´ ´
, 𝑦𝑡−2 , . . . , 𝑥𝑡´ )´ . Si xt es determinista, también es
fácil de usar el filtro de Kalman para calcular muestras exactas finitas en-período-por delante de las
ya estimadas.
La ecuación de estado [13.2.1] se puede resolver mediante sustitución recursiva para obtener
ξt + s = Fsξt + Fs-1vt+1+ Fs-2vt+2 + . . . + F´vt+s-1 + vt+s [13.2.23]
para s = 1,2, . . . .
La proyección de ξt+s, sobre ξt y Y, está dada por
Ê(ξt+s|ξt , Yt) = F s ξt [13.3.24]
De la ley de proyecciones iteradas
Êt+s|t ≡ Ê(ξt+s|Yt = Fs ἓt|t [13.3.25]
Por lo tanto, a partir de [13.3.23] el s-período de anticipación error de pronóstico para el vector de
estado es
ξt+s - ἓt+s|t = Fs(ξt - ἓt+s) + Fs-1vt+1+ Fs-2vt+2 + . . . + [13.2.26]
F´vt+s-1 + vt+s
con MSE
Pt+s|t = FsPt|t (F´)s + Fs-1Q(F´)s-1+Fs-2 Q(F´)s-2 + . . . + [13.2.27]
FQF´ + Q.
13.3 Pronósticos basados en el estado-espacio Representación
reales 401
Para pronosticar el vector observado Yt+s recordar de la ecuación de observación dada
yt+s = A´xt+s + H´ξt+s + Wt+s [13.3.28]
Hay ventajas si el vector de estado se define de tal manera que x, es determinar, para que la
dinámica de cualquier variable exógena pueda ser representada a través de g. Si xt es determinista, el
pronósticos de periodos posteriores sera
ŷt+s|t ≡ Ê(yt+s|Yt) = A´xt+s + H´ἓt+s|t [13.3.29]
El error de pronóstico es
yt+s – ŷt+s|t = (A´xt+s + H´ἓt+s + Wt+s) – (A´xt+s + H´ἓt+s)
= H´( ξt+s - ἓt+s|t ) + Wt+s
Con MSE
E[(yt+s – ŷt+s|t)( yt+s - ŷt+s|t)´] = H´Pt+s|t H + R [13.3.30]
13.4. Estimación de la máxima verosimilitud de los parámetros
Uso del filtro Kalman para evaluar la función de verosimilitud

El filtro de Kalman fue motivado en la Sección 13.2 en términos de proyecciones lineales.
La previsión 𝛏̂t|t−1 y 𝐲̂t|t−1 are optimo dentro del conjunto de pronósticos que son Lineal en
(𝐱t , 𝓨t−1 )donde 𝓨 ̂ t|t−1 = (𝐲𝑡−1,
′ ′
𝐲𝑡−2, … , 𝐲1,′ 𝐱 ′𝑡−1, 𝐱 ′𝑡−2 , … , 𝐱1′ )′ . Si el estado inicial 𝛏̂𝐭 y las innovaciones
{𝐰𝑡 , 𝐯𝑡 }𝑇𝑡=1 , son multivariables gaussianos, entonces podemos mencionar la afirmación más fuerte
de que las predicciones 𝛏̂t|t−1 y ŷt|t−1 Calculado por el filtro de Kalman son óptimos entre todas las
funciones de (xt , 𝒴t−1 ). Ademas si {𝐰𝑡 , 𝐯𝑡 }𝑇𝑡=1 ,son Gaussian, entonces la distribución de y,
condicional a (xt , 𝒴t−1) es Gaussian Con la media dada por [13.2.24] y la varianza dada por
[13.2.25]:
yt|xt ,𝓨t-1 ~ 𝑵((A'xt + H'𝛏̂t|t−1). (H'𝐏t|t−1 H + R)) que es.
𝑓𝑌𝑖𝑋𝑖,𝒴𝑡−1 (𝐲𝑡 |𝐱𝑖 , 𝒴t−1 )
= (2𝝅)-n/2|H'Pt|t-1H + R|-1/2}
𝟏
×exp{- (yt -(A'xt + H'𝛏̂t|t−1 )' (H'Pt|t-1H+ R)' [13.4.1]
𝟐
× (yt - A'xt - H'𝛏̂t|t−1 )} para t = 1, 2, . . . , T
De [13.4.1], es una cuestión sencilla construir la probabilidad de log de muestra..

𝑇
∑ 𝑙𝑜𝑔 𝑓𝑌𝑖𝑋𝑖,𝒴 (𝐲𝑡 |𝐱𝑖 , 𝓨 )

𝑡−1 t−1
𝑡=1
[13.4.2]
La expresión [13.4.2] puede entonces maximizarse numéricamente con respecto a los parámetros
desconocidos en las matrices F, Q, A, H, y R; Véase Burmeister y Wall (1982) para una aplicación
ilustrativa.
Como lo subrayan Harvey y Phillips (1979), esta representación de la probabilidad es
particularmente conveniente para estimar regresiones que implican términos medios móviles.
Además, [13.4.2] da la función exacta de verosimilitud, independientemente de si la representación
de la media móvil es invertible.

Como ejemplo ilustrativo, supongamos que queremos estimar un modelo de regresión
bivariante cuyas ecuaciones fueron
𝑦1𝑡 = 𝐚′1 𝐱1 + 𝑢𝑡1
𝑦2𝑡 = 𝐚′2 𝐱1 + 𝑢2𝑡
Donde 𝐱𝑡 , es un vector (𝑘 ×1) de variables explicativas exógenas y 𝐚1 y 𝐚2 son (𝑘 ×1) vectores
de coeficientes; Si las dos regresiones tienen diferentes variables explicativas, las variables de ambas
regresiones se incluyen en x, con ceros apropiadamente impuesto sobre 𝐚1 y 𝐚2 . Supongamos que
el vector de perturbación sigue un proceso de MA(1) bivariante:
𝑢1𝑡 𝜀1𝑡 𝜃 𝜃12 𝜀1.𝑡−1
[𝑢 ]= [𝜀 ] + [ 11 ][ ]
2𝑡 2𝑡 𝜃21 𝜃22 𝜀2.𝑡−1
Con (𝜀1𝑡 𝜀2𝑡 )′ ~ i.i.d. N(𝟎, 𝛀). Este modelo se puede escribir en forma de espacio de estado
mediante la definición.
𝜀1𝑡 0 0 0 0 𝜀1.1+1
𝜀2𝑡 0 0 0 0 𝜀2.1+1
𝝃, = [𝜀 ], 𝑭= [ ] 𝑽𝑡+1 = [ ]
1.𝑡−1 1 0 0 0 0
𝜀2.𝑡−1 0 1 0 0 0
𝜎11 𝜎12 0 0
𝜎21 𝜎22 0 0 𝐚′𝟏
Q= 0 0 0 0 A' = [ ]
𝐚′𝟐
0 0 0 0
[ ]
1 0 𝜃11 𝜃12
H' = [ ] R=𝟎
0 1 𝜃21 𝜃22
Donde 𝜎𝑖𝑗 = 𝐸(𝜀𝑖𝑡 𝜀𝑗𝑡 ). La iteración del filtro de Kalman se inicia desde
0 𝜎11 𝜎12 0 0
𝜎21 𝜎22 0 0
𝛏̂1|0 = [0] 𝑃1|0 = [ ]
0 0 0 𝜎11 𝜎12
0 0 0 𝜎21 𝜎22
La maximización de [13.4.2] se inicia haciendo una estimación inicial de los valores numéricos de
los parámetros desconocidos. Una manera obvia de hacer esto es regresar 𝑦1𝑡 sobre los elementos
de 𝐱𝒕 , que aparecen en la primera ecuación para obtener una estimación inicial para 𝐚𝟏 . Una
regresión OLS similar para 𝑦2 da una idea para 𝐚𝟐 . Ajuste 𝜃11 = 𝜃12 =𝜃21 = 𝜃22 = Ο inicialmente,
una primera estimación para Ω podría ser la matriz de varianza-covarianza estimada de los residuos
de estas dos regresiones de MCO. Para estos valores numéricos iniciales para los parámetros de
población. Podríamos construir, F, Q, A, H, y R a partir de las expresiones que acabamos de dar e
iterar en [13.2.22] a [13.2.25] para t= 1, 2….., T – 1. Las secuencias{𝛏̂1|𝑡−1 } 1=1𝑇 y {𝐏1|𝑡−1 } 1=1𝑇
resultante de estas iteraciones podría usarse en [13.4.1] y [13.4.2] para calcular el valor de la función
de verosimilitud de log que resulta de estos valores de parámetros iniciales. Los métodos
numéricos de optimización descritos en la Sección 5.7 pueden ser empleados para hacer mejores
conjeturas en cuanto al valor de los parámetros desconocidos hasta que se maximice [13.4.2]. Como
se señaló en la Sección 5.9, la búsqueda numérica se comportará mejor si Ω está parametrizado en
términos de su factorización de Cholesky.
Como segundo ejemplo, considere un proceso Gaussiano ARMA (1,1) escalar,
𝑦𝑡 − 𝜇 = 𝜙(𝑦𝜄−1 − 𝜇) + 𝜀𝜄 + 𝜃𝜀𝜄−1
Con 𝜀, ~ i.i.d. N(Ο, 𝜎 2 ). Esto puede escribirse en forma de espacio de estado como [13.1.22] y
[13.1.23] con r = 2 y
13.4 Estimación de la máxima verosimilitud de los parámetros 403

𝜙 0 𝜀 2
F=[ ] 𝐯ι+1= [ 𝜄+1 ]
Ο
Q= [𝜎 0]
1 0 0 0
A' = 𝜇 xt = 1 H' = [1 𝜃] R=0
0 𝜎 2 / (1 − 𝜙 2 ) 𝜙𝜎 2 /(1 − 𝜙 2 )
𝝃̂1|0 = [ ] 𝑷1|0 = [ ]
0 𝜙𝜎 2 / (1 − 𝜙 2 ) 𝜎 2 /(1 − 𝜙 2 )
Este valor para 𝐏𝟏|𝟎 estaba obteniendo al reconocer que la ecuación de estado [13.1.22] describe el
comportamiento de 𝛏𝑡 = (𝑧, 𝑧𝑡−1,..., 𝑧𝑡−𝑟+1 )' donde zt = 𝜙1 𝑧𝑡−1 + 𝜙2 𝑧𝑡−2 +… + 𝜙𝑟 𝑧𝑡−𝑟 +…+ εt
sigue un proceso 𝐴𝑅 (𝑟). Para este ejemplo, 𝑟 = 2. De modo que 𝑷1|0 es la matriz de varianza-
covarianza de dos trazas consecutivas de un proceso 𝐴𝑅 (2) con parámetros 𝜙1 = 𝜙 y 𝜙2 = 0.
Las expresiones que acabamos de dar para F, Q, A, H, y R se utilizan entonces en las iteraciones
del filtro de Kalman. Así, la expresión [13.4.2] permite un cómputo fácil es válida
independientemente de la función de verosimilitud exacta para un proceso 𝐴𝑅𝑀𝐴 (𝑝, 𝑞). Este
cálculo es válido independientemente de si los parámetros de la media móvil satisfacen la condición
de invertibilidad. Del mismo modo, la expresión [13.3.29] da la exacta muestra finita s-período de
previsión para el proceso y [13.3.30] su MSE, de nuevo, independientemente de si la representación
invertible se utiliza.
Normalmente, los procedimientos de búsqueda numérica para maximizar [13.4.2] requieren
las derivadas de la probabilidad de log. Éstos se pueden calcular numéricamente o analíticamente.
Para caracterizar las derivadas analíticas de [13.4.2], recoja los parámetros desconocidos a estimar en
un vector θ, y escriba F (𝜽), Q(𝜽), A(𝜽), H(𝜽), y R(𝜽). Implícitamente, entonces 𝛏̂𝑡|𝑡−1 (𝜽), y
𝑷𝑡|𝑡−1 (𝜽) Serán también funciones de θ, y la derivada del log de [13.4.1] con respecto al i-ésimo
elemento de θ como implicara 𝜕𝛏̂𝑡|𝑡−1 (𝛉)/ 𝜕𝜃𝑖 y 𝜕𝑃𝑡|𝑡−1 (𝛉)/ 𝜕𝜃𝑖 Estos derivados también pueden
generarse recursivamente diferenciando la recursión del filtro de Kalman, [13.2.22] an [13.2.23], con
respecto a 𝜃𝑖 ; Véase Caines (1988, pp. 585-86) para ilustración.
Para muchos modelos de estados-espacio, el algoritmo EM de Dempster, Laird y Rubin (1977)
ofrece un medio particularmente conveniente para maximizar [13.4.2], como desarrollado por
Shumway y Stoffer (1982) y Watzon y Engle (1983).
Identificación
Aunque la representación del espacio de estados da una manera muy conveniente de
calcificar la función de verosimilitud exacta, se debe dar una palabra de precaución. En ausencia de
restricciones sobre F, Q, A, H y R, los parámetros de la representación de espacio de estado no
están identificados, más de un conjunto de valores para los parámetros puede dar lugar al valor
idéntico de la función de verosimilitud y Los datos no nos dan ninguna guía para elegir entre estos.
Un ejemplo trivial es el siguiente sistema:
Ecuación de Estado (𝑟 = 2)
𝜀1.𝑡+1
𝝃𝑡+1 = [ 𝜀 ] [13.4.3]
2.+1
Ecuación de observación (n = 1)
𝑦𝑡 = 𝜀1𝑡 + 𝜀2𝑡′ [13.4.4]
𝝈12 O
Aqui. F = 0, Q = [ ], A' = 0, H' = [1 1], y R = 0.
0 σ𝟐𝟐
Este modelo afirma que y, es ruido blanco, con ruido, con cero medio y varianza dada por (𝜎12 +
𝜎22 ). Se invita al lector a confirmar en el ejercicio 13.4 que el registro de la función similar de
[13.4.1] y [13.4.2] se simplifica a

log 𝑓𝑦𝑇 ,𝑦𝑇−1 ,....,𝑦1 ( 𝑦𝑇 ,𝑦𝑇−1 , . . . . , 𝑦1 )
= -(T/2) log(2𝜋) – (T/2) log(σ12 + σ22 ) − ∑𝑇𝑡=1 𝑦12 / [2(𝜎12 + 𝜎22 ].[13.4.5]
Claramente, cualquier valor para σ12 y σ22 Esa suma a una constante dada producirá el valor idéntico
para la función de verosimilitud.
El MA (1). El proceso explorado en la Sección 13.3 proporciona un segundo ejemplo de una
representación de espacio de estado no identificada. Como puede verificar el lector en el ejercicio
13.5, resultaría el valor idéntico para la función de verosimilitud logarítmica [13.4.2] si se sustituye θ
por 𝜃 −1 y 𝜎 2 por 𝜃 2 𝜎 2 .
Estos dos ejemplos ilustran dos formas básicas en las que puede ocurrir la ausencia de
identificación. Siguiendo a Rothenberg (1971), se dice que un modelo se identifica globalmente con
un valor de parámetro particular 𝜃0 Si para cualquier valor de θ existe una posible realización 𝒴T
Para el cual el valor de la probabilidad en θ. Se dice que un modelo se identifica localmente en 𝜃0 Si
existe δ > 0 tal que para cualquier valor de un θ satisfactorio (𝛉 − 𝛉𝟎 )′(𝛉 − 𝛉𝟎 ) < 𝛅 Existe una
posible realización de 𝓨𝐭 para el cual el valor de la probabilidad en 𝛉𝟎 . Por lo tanto, la
identificación global implica la identificación local. El primer ejemplo, [13.4.3] y [13.4.4], no es ni
global ni localmente identificado, mientras que el MA (1) ejemplo está identificado localmente, pero
globalmente no identificado.
La identificación local es mucho más fácil de probar para esa identificación global. Rothenberg
(1971) demostró que un modelo está identificado localmente en 𝛉𝟎 Y sólo si la matriz de
información es no singular en un barrio alrededor 𝛉𝟎 . Por lo tanto, un síntoma común de tratar de
estimar un modelo no identificado es la dificultad de invertir la matriz de derivadas secundarias de
la función de probabilidad de logaritmos. Un enfoque para verificar la identificación local es
traducir la representación del espacio de estado de nuevo en un modelo ARMA vectorial y
comprobar la satisfacción de las condiciones en Hannah. (1971): véase Hamilton (1985) para un
ejemplo de este enfoque. Un segundo enfoque es trabajar directamente con la representación del
espacio de estados. Como se hace en Gevers y Wertz (1984) y pared (1986). Para una ilustración si
el segundo enfoque, véase Burmeister, Wall y Hamilton (1986).
Propiedades asintóticas de estimaciones de máxima verosimilitud

Si se cumplen ciertas condiciones de regularidad, entonces Caines (1988, Capítulo 7) se
demostró que la estimación de máxima verosimilitud 𝛉 ̂ 𝑇 basada en una muestra de tamaño T es
consistente y asintóticamente normal. Estas condiciones incluyen las siguientes: (1) El modelo debe
ser identificado; (2) valores propios de F son todo dentro del círculo unitario; (3) aparte de un
término constante. Las variables 𝐱𝑡 , se comportan asintóticamente como un proceso de covarianza-
estacionario linealmente indeterminista de rango completo; Y (4) el valor verdadero de θ no cae en
un límite del espacio de parámetro permisible. Pagán (1980, Teorema 4) y Gosh (1989) examinaron
casos especiales de modelos de estados-espacio para los cuales
1/2 𝐿
√𝑇  2𝐷.𝑇 (𝛉̂ 𝑇 − 𝜃0 ) N(0,𝑰𝒂 ) [13.4.6]
⟶
Donde a es el número de elementos de θ y  2𝐷.𝑇 es la (a x a) Matriz de información para una muestra
de tamaño T Calculado a partir de las segundas derivadas de la función de verosimilitud logarítmica:
1 ∂2 log 𝑓(𝐲𝐭 |𝐱𝐭 ,𝓨𝒕−𝟏: 𝛉

 2𝐷.𝑇 = − 𝑇 E(∑𝑇1=1 𝜕𝜃 𝜕𝜃′
|𝜃=𝜃0 ) [13.4.7]
Una práctica común es asumir que el límite de 𝒥2𝐷.𝑇 𝑎𝑠 𝑇 ⟶ ∞ Es el mismo que el plim de
1 𝜕2 𝑙𝑜𝑔 𝑓(𝑦𝑡 |𝑥𝑡 ,𝒴1−1: 𝜃
 2𝐷.𝑇 = − 𝑇 ∑𝑇1=1 𝜕𝜃 𝜕𝜃𝑡
|𝜃=𝛉̂7 [13.4.8]
13.4 Estimación de la máxima verosimilitud de los parámetros 405

Que pueden ser calculados analíticamente o numéricamente diferenciando [13.4.2], Errores
̂T Son entonces raíces cuadradas de elementos diagonales de
estándar reportados para 𝛉
−1
(1/T)(𝒥̂2𝐷.𝑇 )
Estimación cuasi-máxima de la probabilidad

Incluso si las perturbaciones v, y w, son no gaussianas, el filtro de Kalman todavía se puede
utilizar para calcular la proyección lineal de y1+s En observables pasados. Además, podemos formar
la función [13.4.2] y maximizarla con respecto a θ incluso para sistemas no gaussianos. Este
procedimiento seguirá produciendo estimaciones uniformes y asintóticas de los elementos de F, Q,
A, H y R, con la matriz de varianza-covarianza construida como se describe en la ecuación [5.8.7],
Watson (1989, Theorem 2 ) Presentaron condiciones bajo las cuales las estimaciones de casi-
máxima verosimilitud satisfacen
−1 −1
√𝑇(𝛉̂ 𝑇 − 𝜃0 ) 𝐿 , 𝑁(𝑜), [    ] [13.4.9]
⟶ 2D OP 2D
Donde  2D Es el plim de [13.4.8] cuando se evalúa al valor verdadero θ0 y  OP Es la estimación del

producto externo de la estimación del producto de la matriz de información de la matriz de información
𝑇
1
 OP = p𝑙𝑖𝑚 ( ) ∑[𝐡(𝜽𝟎 𝓨𝐭 )] [𝒉(𝜽𝟎 𝓨𝐭 )]′
𝑇
1=1
donde
𝜕 2 𝑙𝑜𝑔 𝑓(𝐲𝐭 |𝐱 𝐭 , . 𝓨𝐭−𝟏 ; 𝜽)

𝐡(𝜽𝟎 𝓨𝐭 ) = |𝜽=𝜽𝟎
𝜕𝜽
13.5. El filtro de Kalman en estado estacionario
Propiedades de convergencia del filtro de Kalman

La sección 13.3 es una aplicación de Kalman es un proceso MA (1) y encontró que cuando
|𝜃|≤1,
2
𝐥𝐢𝐦 𝑷𝑡+1|𝑡 [𝜎 O]
𝒕∞ 0 0
0
lim 𝐾𝑡 = [ ]
𝑡∞ 1
Mientras que cuando | θ| > 1.
𝜎2 0
lim 𝐏𝐭+𝟏|𝐭 = [ 𝜎 2 (𝜎 2 − 1)]
↦∞ 0
𝜃2
0
lim 𝐊 𝑡 = [ 1 ]
↦∞
𝜃2

Resulta ser una propiedad de una amplia clase de modelos de estado-espacio que las secuencias
𝑇
{Pt+1|t} y {𝐾𝑡 }𝑇𝑡=1 Converge a matrices fijas, como muestra la siguiente proposición.
𝑡=1
Proposición 13.1: Sea F una matriz (𝑟×𝑟) cuyos valores propios estén todos dentro del círculo unitario,
H'denote una matriz arbitraria (𝑛×𝑟), y que Q y R sean matrices positivas semidefinidas simétricas (𝑟×𝑟) y
(𝑛×𝑛), respectivamente . Dejar {𝑃𝑡+1|𝑡 }𝑇𝑡=1 la secuencia de matrices MSE calculadas por el filtro de Kalman,
P,+ 1|, = F[Pt|,-1 – P t | t - 1 H ( H ' P t | t - 1 H + R )-1H'P,|,-1]F' + Q [13.5.1]

Donde la iteración en [13.5.1] se inicializa al dejar P,|„ Sea la matriz semidefinita positiva (r x r) que satisface
vec(P1|0) - [Ir2 - (F⨂F)]-1·vec(Q). [13.5.2]
T
Entonces {𝐏𝐭+𝟏|𝐭 }t=1 , Es una secuencia monotonicamente no creciente y converge como 𝑇 → ∞ a una matriz de
estado estacionario P que satisface
P = F[P - PH(H'PH + R)-1H'P]F' + Q. [13.5.3]
Por otra parte, el valor de estado estacionario para la matriz de ganancia de Kalman, definida por
K ≡ FPH(H'PH + R ) - 1 [13.5.4]
Tiene la propiedad de que los autovalores de (F — KH') todos se encuentran sobre o dentro del círculo de la
unidad.
La afirmación en la Proposición 13.1 que Pt+1|t < Pt|t-1 significa que para cualquier vector
real (𝑟 × 1) h, la desigualdad escalar h'Pt+1|t h < h' Pt|t-1 h Sostiene.
La Proposición 13.1 supone que el filtro de Kalman se inicia con P(1|0) Igual a la matriz de varianza
incondicional-covarianza del vector de estado Aunque la secuencia {Pt+1|t }Converge a una matriz
P, la solución a [13.5.3] no necesita ser única; Un valor de partida distinto para P,|0 Podría producir
una secuencia que converge a una matriz P diferente satisfaciendo [13.5.3]. Bajo la suposición
ligeramente más fuerte de que Q o R es estrictamente positivo definido, entonces la iteración en
[13.5.1] convergerá a una solución única a [13.5.3], donde el valor inicial para la iteración p, .0 puede
ser cualquiera Matriz semidefinita simétrica positiva.
Proposición 13.2: Sea F una matriz (rxr) cuyos valores propios estén todos dentro del círculo
unitario, que H 'denote una matriz arbitraria (tiX r) y que Q y R sean semidesfinitos positivos
simétricos (rX r) y (nx n) Matrices, respectivamente, con Q o R estrictamente positivo definido.
Entonces, la secuencia de matrices MSE de Kalman {𝐏t + 1|1}Tt=1 Determinada por [13.5.2]
converge a una única matriz semidefinida positiva P de estado estacionario que satisface [13.5.3],
Donde el valor de P es el mismo para cualquier valor de partida simétrico semidefinido positivo
para P, Además, el valor de estado estacionario para la matriz de ganancia de Kalman [13.5.4] tiene
la propiedad de que los valores propios de (F - KH ') están todos estrictamente dentro del círculo
unitario.
A continuación se discute la relevancia de los resultados en las Proposiciones 13.1 y 13.2 con
respecto a los valores propios de (F - KH').
Usando el Filtro de Kalman para Encontrar la Representación Mundial

y Factor una Función de Generación de Autocovariancia
Consideremos un sistema en el que las variables explicativas (xt) consisten únicamente en
un término constante. Sin pérdida de generalidad, simplificamos la notación suponiendo que A'xt ≡
0. Para tales sistemas, el pronóstico del filtro de Kalman del vector de estado se puede escribir
como en [13.2.20]:
𝛏̂t+1|t = 𝑭 𝛏̂t|t−1 + 𝐊 t (yt − 𝐇′𝛏̂t|t−1 ) [13.5.5]
La proyección lineal de yt+1 sobre la muestra finita observada de sus propios valores rezagados se
calcula a partir de
̂(yt+1 |yt , yt−1 , … , yt ) = 𝐇′𝛏̂t+1|t

ŷt+1|t = E [13.5.6]
13.5 El filtro de Kalman en estado estacionario 407

Con MSE dada por [13.2.25]:
𝐸[(𝑦𝑡+1 − 𝑦̂𝑡+1|𝑡 )(𝑦𝑡+1 − 𝑦̂𝑡+1|𝑡 )′] = 𝐇′𝐏t+1|t 𝐇 + 𝐑 [13.5.7]
Considere el resultado de aplicar el filtro de Kalman a un proceso estacionario de covarianza que se

inició en una arbitrariedad de tiempo distante en el pasado. De la Proposición 13.1, la ecuación de
diferencia [13.5.5] convergerá a
𝛏̂t+1|t = 𝑭 𝛏̂t|t−1 + 𝑲t (yt − 𝐇′𝛏̂t|t−1 ) [13.5.8]
Con k dado por [13.5.4]. El pronóstico [13.5.6] se aproximará al pronóstico de yt+1 basado en la
historia infinita de sus propios valores rezagados:
̂(yt+1 |yt , yt−1 , … , yt ) = 𝐇′𝛏̂t+1|t

E [13.5.9]
El MSE de esta previsión viene dado por el valor límite de [13.5.7],
̂(yt+1 |yt , yt−1 , … , yt )][yt+1 - E

E{[yt+1 - E ̂(yt+1 |yt , yt−1 , … , yt )]'}=H'PH+R [13.5.10]
donde P está dado por [13.5.3].

La ecuación [13.5.8] puede escribirse
𝛏̂t+1|t = (F-KH') L𝛏̂t+1|t + Kyt [13.5.11]
Para L el operador de retraso. Siempre que los valores propios de (F - KH') estén todos
dentro del círculo unitario, [13.5.11] puede expresarse como
𝛏̂t+1|t =[Ir – (F- KH')L]-1 Kyt
= [Ir – (F- KH')L]-1 + (F-KH')2 L2 + (F-KH')3 L3 + …] Kyt [13.5.12]
Sustituyendo [13.5.12] en [13.5.9] cinco años una regla de estado estacionario para la predicción
yt 1 Como una función lineal de sus valores rezagados:
̂(yt+1|yt , yt−1 , … )= H'[Ir – (F- KH')L]-1 Kyt

E [13.5.13]
La expresión [13.5.13] implica una representación VAR (∞) para yt de la residencia
𝑦𝑡+1 = 𝐇 ′ [𝐈r – (𝐅 − 𝐊𝐇 ′ )L] − 1 𝐊𝐲t + 𝜀𝑡+1 , [13.5.14]

donde
𝜀𝑡+1≡ 𝑦𝑡+1 - Ê(yt+1 |yt , yt−1 , … ) [13.5.15]
Así, 𝜀𝑡+1 Es la innovación fundamental para 𝑦𝑡+1 . Ya que𝜀𝑡+1 No está correlacionada con yt  j

para cualquier j ≥ 0, También está sin correlación con  t  j = yt  j - E ( yt  j | y t - j-1 , yt  j 2 ,...)
para cualquier j ≥ 0. La matriz de varianza - covarianza de 𝜀𝑡+1 puede calcularse usando [13.5.15]
y [13.5.10]:
̂(yt+1 |yt , yt−1 , … )]
E(𝜀𝑡+1 𝜀′𝑡+1 )=E{[𝑦𝑡+1 - E
̂(yt+1 |yt , yt−1 , … )]'}
× [𝑦𝑡+1 - E
= H'PH+R [13.5.16]
Tenga en cuenta que [13.5.14] puede escribirse como

{I𝑛 - H' [I𝑟 - (F - KH') L]-lKL }yt+1 =  i1 [13.5.17]
El siguiente resultado ayuda a reescribir el VAR(∞) representación [13.5.17en el WoldMA (∞).
Proposición 13.3:: Sea F, H '. y K son matrices de dimensión (rxr), (nxr) y (rxn), respectivamente, tales que
los valores propios de F y de (F-KH ') están todos dentro del círculo unitario, y sea z un escalar del complejo circulo
unitario. Entonces

{In + H'(Ir - Fz)-1Kz}{In- H'[Ir– (F–KH')z]-1Kz} = In.
Aplicando la Proposición 13.3, si ambos lados de [13.5.17] son premultiplicados por (In+
H'(Ir– FL)-1KL), el resultado es la representación de Wold para y
𝑦𝑡+1 ={In + H' (Ir – FL)-1KL}𝜀𝑡+1 [13.5.18]
Para resumir, la representación de Wold se puede encontrar iterando en [13.5.1] hasta
convergencia. El valor de estado estacionario para P se utiliza entonces para construir K en [13.5.4]:
Si los valores propios de (F - KH ') están todos dentro del círculo unitario, entonces la
representación de Wold viene dada por [13.5.18]. La tarea de encontrar la representación de Wold
se plantea alternativamente como la cuestión de factorizar la función generadora de autocovariancia
de y. Aplicando el resultado [10.3.7] a [13.5.16] y [13.5.18], anticipamos que la función de
generación de autocovarancia de y puede escribirse en la forma
Gv(z) = {In+ H'(Ir–Fz)-1Kz}{H'PH + R}
× { In+ K' (Ir – F'z-1)-1 Hz-1}. [13.5.19]
Comparemos [13.5.19] con la función de generación de autocovariancia que habríamos escrito
directamente de la estructura del modelo de espacio de estados. De [10.3.5], la función generadora
de autocovariancia de £ viene dada por.
G  ( z ) = [ Ir - Fz]-1 Q[Ir – F'z-1]-1
Mientras que desde [10.3.6] la función generadora de autocovariancia de yt = H' 1 + wt es
G  ( z ) = H'[Ir–Fz]-1Q[Ir - F'z-1]-1H + R [13.5.20]
Al comparar [13.5.19] con [13.5.20] se sugiere que los valores límite de la ganancia de Kalman y las
matrices MSB K y P pueden utilizarse para factorizar una función generadora de autocovariancia.
La siguiente proposición da una declaración formal de este resultado.
Proposición 13.4: Sea F una matriz (r x r) cuyos valores propios estén todos dentro del círculo
unitario; Que Q y R denotan matrices semidefinidas simétricas positivas de dimensión (rxr) y (nxn),
respectivamente; y H 'denotan una matriz arbitraria (n x r). Sea P una matriz semidefinita positiva
que satisface [13.5.3] y que K sea dada por [13.5.4]. Supongamos que los valores propios de (F -
KH ') están todos dentro del círculo unitario. Entonces
H' [Ir – Fz]-1Q[Ir – F'z-1]-1H + R
= {Ir+ H'(Ir – Fz)-1Kz} {H'PH + R} {Ir+ K'(Ir – F'z-1)-1Hz-1} [13.5.21]
Una demostración directa de esta afirmación se proporciona en el Apéndice 13. A al final de

este capítulo.
Como ejemplo de uso de estos resultados, consideremos las observaciones en un proceso

univariateAR (1) sujeto al error de medición de ruido blanco, como el sistema de espacio de estados
de [13.1.26] y [13.1.27] con µ = 0. Para este sistema .F =  , Q =  V , A = 0, H = 1, y R =  w .
2 2
Las condiciones de la Proposición 13.2 están satisfechas  < 1 estableciendo que

F  KH    K < 1. De la ecuacion [13.5.14], La representación de AR (∞) para este proceso
se puede encontrar de
𝑦𝑡+1 = [1 – (  – K) L]-1 Kyt+ 𝜀𝑡+1 ,
Que puede escribirse
[1 – (  – K)L ] 𝑦𝑡+1 = Kyt +[ 1 – (  – K) L] 𝜀𝑡+1

o
𝑦𝑡+1 =  yt + 𝜀𝑡+1 – (  – K )  t [13.5.22]
Este es un ARMA (1, 1) proceso con AR parámetro dado por  y MA parámetro dado por
−(𝜙 − 𝐾). La varianza de la innovación para este proceso puede calcularse a partir de [13.5.16]:
13.5 El filtro de Kalman en estado estacionario 409

E(  t1 ) =  w  P
2 2
[13.5.23]
El valor de P se puede encontrar iterando en [13.5.1]:
Pt 1 t =  2 [ Pt t 1  Pt t 1 /(  w  Pt t 1 ] +  V
2 2 2
=  Pt t 1 2w / ( 2w  Pt t 1 ) +  V ,
2 2
[13.5.24]
Empezando desde P1 0   V / (1 –  ), Hasta la convergencia. La ganancia de Kalman en estado

2 2
estacionario viene dada por [13.5.4]:

K =  P/ (  w / (  w  P )
2 2
[13.5.25]
Como segundo ejemplo, considere agregar un proceso de MA (q1) a un proceso de MA (q2) con el
cual el primer proceso no está correlacionado en todas las derivaciones y retardos. Esto podría
representarse en forma de espacio de estado como sigue:
Ecuación de Estado (r = q1 + q2 + 2):
 u 11   u t   u t 1 
 u  u   
 t   t 1   0 
    0´ 0 0´ 0       
        [13.5.26]
 u t  q1 1   I q1 0 0 0   u t  q1    0 
 v t 1   0 0 0´ 0   v t   v t 1 
       
 v t   0 0 I q 2 0   v t 1   0 
   ( q1  q 2  2 ) x ( q1  q 2  2 )      
     
 v t  q 2 1   v t  q 2   0 
 ut 
u 
 t 1 
  

y t  1 1 2 ... q1 1 k 1 k 2 ... k q 2  
 u t  q1 
 [13.5.27]
 vt 
 
 u t 1 
  
 
 v t  q 2 
Nótese que todos los valores propios de F son iguales a cero. Escribe la ecuación [13.5.18] en la
forma
yt+1 = {In+ H' (Ir– FL)-1KL} 𝜺𝒕+𝟏 [13.5.28]
= {In + H' (Ir + FL + F2L2 + F3L3+ …) KL} 𝜺𝒕+𝟏
Dejar q  max{q1 , q2}, Y aviso de la estructura de F que Fq+j = 0 for j = 1, 2,… Además, desde
[13.5.4], FqK = Fq+1PH(H'PH + R)-1 = 0. Así [13.5.28] toma la forma
yt+1 = { 1 + H'(Ir + FL + F2L2 + F3L3+ … + Fq-1Lq-1)KL} 𝜀𝑡+1 [13.5.29]
= {1 + 1 L +  2 L2+ … +  q Lq} 𝜀𝑡+1,
donde
j  H'Fj-1K para j = 1, 2 …. q
Esto proporciona una demostración constructiva de la afirmación de M A (q1) proceso más un MA
(q2) Proceso con el que no está correlacionado puede describirse MA(max{ q1, q2}) proceso.
El filtro de Kalman proporciona así un algoritmo general para encontrar la representación de
Wold o factorizar una función generadora de autocovariancia. Simplemente itera en [13.5.1] hasta
convergencia y luego usa la ganancia de estado estacionario de [13.5.4] en [ 13.5.14] (para la forma
AR (  ) o en [13.5.18] (la forma MA(∞)).

Aunque los valores convergentes proporcionan la representación de Wold, para el infinito los
pronósticos del filtro de Kalman tienen la ventaja de calcular la predicción óptima exacta de yt+1
basado en una función lineal de {yt, yt-1, …., yt}.
13.6. Suavizado
El filtro de Kalman fue motivado en la Sección 13.2 como un algoritmo para calcular una previsión
del vector de estado  t Como una función lineal de observaciones anteriores.
𝜉𝑡|𝑡−1 ≡ 𝐸̂ (𝜉𝑡 |𝒴𝑡−1 ) [13.6.1]

Donde 𝒴𝑡−1  ( yt 1 , yt 2 , ... y1 , xt 1 , xt 2 , .... x1 ) . La matriz Pt t 1 representa el MSE de esta
/ / / / /
prevision:
Pt t 1  E [ ( t  t t 1
)  ( t  t t 1
)´ ].
[13.6.2]
Para muchos usos del filtro de Kalman estas son las magnitudes naturales de interés. Sin embargo,
en algunos contextos, el vector de estado recibe una interpretación estructural, en cuyo caso el valor
de esta variable no observada puede ser de interés por sí mismo. Por ejemplo, en el modelo del
ciclo económico de Stock y Watson, sería útil conocer el estado del ciclo económico en cualquier
fecha histórica t. Una meta podría entonces ser formar una inferencia sobre el valor de  t , Basados
en el conjunto completo de datos recogidos, incluidas las yt, yt+1 ….. , yT, xt, xt+1…… xT. Dicha
inferencia se denomina estimación suavizada de  t , denotado
𝜉𝑡|𝑇 ≡ 𝐸̂ (𝜉𝑡 |𝒴𝑇 ) [13.6.3]
Por ejemplo, los datos sobre el PNB de 1954 a 1990 podrían utilizarse para estimar el  tomó en
1960. El MSE de esta estimación suavizada se denota
𝐏t|T ≡ E[(𝛏t − 𝛏̂t|T )(𝛏t − 𝛏̂t|T )′]
[13.6.4]
En general, Pt T  Denota el MSE de una estimación de que se basa en observaciones de y y x a
través de la fecha t.
Para la conveniencia del lector, reproducimos aquí las ecuaciones clave para el filtro de Kalman:
−1
𝛏̂t|t = 𝛏̂t|t−1 + 𝐏t|t−1 + 𝐏t|t−1 𝐇(𝐇′𝐏t|t−1 𝐇 + 𝐑) (yt − 𝐀′xt − 𝐇′𝛏̂t|t−1 [13.6.5]
𝛏̂t+1|t = 𝐅𝛏̂t|t [13.6.6]
𝐏t|t = 𝐏t|t−1 − 𝐏t|t−1 H(H' Pt t 1 H+ R)-1 H'𝐏t|t−1 [13.6.7]
𝐏t+1|t = 𝐅𝐏t|t 𝐅′ + 𝐐 [13.6.8]
Considere la estimación de  t Basado en las observaciones hasta la fecha t,  t t Supongamos que nos
dijeron posteriormente el verdadero valor de  t1 . De la fórmula para actualizar una proyección
lineal, la ecuación [4.5.30], la nueva estimación de  r Podría expresarse como3
𝐸(𝜉𝑡 |𝜉𝑡+1 , 𝒴𝑇 )= 𝛏̂t|t + {E[(𝜉𝑡 − 𝛏̂t|t ) (𝜉𝑡 − 𝛏̂t|t )'´]}

× {E[(𝛏t+1 − 𝛏t+1|t )( 𝛏t+1 − 𝛏t+1|t )' ]}-1 [13.6.9]
× (𝛏t+1 − 𝛏t+1|t ).
El primer término en el producto en el lado derecho de [13.6.9] se puede escribir
3
Aquí. Y3 =𝜉𝑡 Y2=𝜉𝑡+1 y Y1= 𝓨t .
0 411
E[(𝜉𝑡 − ξt|t ) (𝛏t+1 − 𝛏t+1|t)´] = E[(𝜉𝑡 − ξt|t ) (F𝜉𝑡 + 𝑣𝑡+1 − 𝐅ξt|t )´].
En virtud de [13.2.1] y [13.6.6]. además, vt+1, no está correlacionada con 𝜉𝑡 y ξt|t . Asi.
E[(𝜉𝑡 − ξt|t ) (𝛏t+1 − 𝛏t+1|t )´] = E[(𝜉𝑡 − ξt|t ) (𝜉𝑡 + ξt|t )´] = 𝐏t|t 𝐅′ [13.6.10]
Sustituyendo [13.6.10] y la definición de Pt 1 t es [13.6:9] produce

−1
𝐸(𝜉𝑡 |ξt+1 , 𝓨t )= ξt|t + 𝐏t|t 𝐅′𝐏t+1|t (𝛏t+1 − 𝛏t+1|t )
Definiendo
−1
𝗝t ≡ 𝐏t|t 𝐅′𝐏t+1|t [13.6.11]
Tenemos
𝐸̂ (𝜉𝑡 |ξt+1 , 𝓨t )= ξ̂t|t + 𝗝t (𝛏t+1 − 𝛏̂t+1|t ) [13.6.12]
Ahora, la proyección lineal en [13.6.12] resulta ser la misma que
𝐸̂ (𝜉𝑡 |ξt+1 , 𝓨t ); [13.6.13]
Es decir, el conocimiento de yt+j o xt+j para j> 0 No tendría valor añadido si ya conociéramos el
valor de 𝛏t+1. Para ver esto, tenga en cuenta que y t  j Puede escribirse como
y t  j  A´x t  j  H´( Fj1t 1  Fj 2 v t  2  Fj3 v t  3  ...  v t  j )  w t  j
Pero el error
𝜉𝑡 −𝐸̂(𝜉𝑡 |ξt+1 , 𝓨t [13.6.14]
No está correlacionada con 𝛏t+1 Por la definición de una proyección lineal, y sin correlación con
xt+j , wt+j , vt+j , vt+j-1 ,…. Vt+2 bajo las suposiciones mantenidas. Por lo tanto, el error [13.6.14] no
está correlacionado con yt+j or xt+j for j > 0; Lo que significa que [13.6.13] y [13.6.12] son los
mismos, como se afirma:
𝐸̂ (𝜉𝑡 |ξt+1 , 𝓨t ) = ξ̂t|t + 𝗝t (ξt+1 − 𝛏̂t+1|t ) [13.6.15]
Se deduce de la ley de proyecciones iteradas que la estimación suavizada, 𝐸(𝜉𝑡 |𝓨T ), Puede
obtenerse proyectando [13.6.15] en 𝓨T . Al calcular esta proyección, necesitamos pensar
cuidadosamente acerca de la naturaleza de las magnitudes en [13.6.15]. El primer término, 𝛏̂t|t
Indica una función lineal exacta de 𝓨t ; Los coeficientes de esta función se construyen a partir de
momentos de población, y estos coeficientes deben ser vistos como constantes deterministas desde
el punto de vista de realizar una proyección posterior. La proyección de 𝛏̂t|t en 𝓨T Sigue siendo 𝛏̂t|t
este mismo función lineal de 𝓨t — No podemos mejorar en un perfecto fit!4. el termino 𝗝t en[13.6.11Es
44
La ley de proyecciones iteradas establece que
𝐸̂ (𝜉𝑡 |𝒴𝑡 ) =𝐸̂ [𝐸̂ (𝜉𝑡 |𝒴𝑇 )|𝒴𝑡 ]
La ley de las proyecciones iteradas nos permite así pasar de un conjunto de información más amplio a uno mas pequeño.
Por supuesto, la misma operación no funciona a la inversa:
𝐸̂ (𝜉𝑡 |𝒴𝑇 )≠ 𝐸̂ [𝐸̂ (𝜉𝑡 |𝒴𝑡 )|𝒴𝑇 ]

No podemos ir de un conjunto de información más pequeño a un más grande. Un ejemplo puede clarificar este punto.
Dejar y t Ser un i.i.d. Secuencia de media cero con
𝜉𝑡 = µ + 𝑦𝑡+1
Entonces
𝐸̂ (𝜉𝑡 |𝑦𝑡 )=µ

y

también una función de los momentos de la población, y por lo tanto se trata nuevamente como
determinista para propósitos de cualquier proyección lineal. El termino 𝛏̂t+1|t Es otra función lineal
exacta de 𝓨T .
Así, proyectando [13.6.15] en 𝓨T resulta ser trivial:

𝐸̂ (𝜉𝑡 |𝓨T )𝛏̂ t|t + 𝗝t [𝐸̂ (𝜉𝑡+1 |𝓨T ) − 𝛏̂ t+1|t ] ,
O
𝛏̂t|T = 𝛏̂t|t + 𝗝t (𝛏̂t+1|T − 𝛏̂t+1|t ) [13.6.16]
̂ T
Así, la secuencia de estimaciones suavizadas {𝛏t|T }t=1 Se calcula como sigue. En primer lugar, el filtro
de Kalman, [13.6.16] a [13.6.8], se calcula y las secuencias {𝛏̂t|t }Tt=1, {𝛏̂t+1|t }T−1 T T−1
t=0 , {𝐏t|t }t=1 y {𝐏t+1|t }t=0 se
almacenan. La estimación suavizada para la fecha final en la muestra 𝛏̂T|T , es sólo la última entrada en
{𝛏̂t|t }Tt=1 siguiente ,[13.6.11] Se utiliza para generar{𝐉t }𝑇−1
𝑡=1 . A partir de esto, [13.6.16] se utiliza para t =
T-1 para calcular 𝛏̂T−1|T = 𝛏̂T−1|T−1 + 𝐉T−1 (𝛏̂T|T − 𝛏̂T|T−1 )
̂
Ahora eso 𝛏T−1|T Ha sido calculado, [13.6.16] se puede utilizar para t = T-2 para evaluar
𝛏̂T−2|T = 𝛏̂T−2|T−2 + 𝐉T−2 (𝛏̂T|T − 𝛏̂T|T−2 )
Proceder hacia atrás a través de la muestra de esta manera permite el cálculo del conjunto completo
de estimaciones suavizadas, {𝛏̂t|T }Tt=1
A continuación, considere el error cuadrático medio asociado con la estimación suavizada.
Restando ambos lados de [13.6.16] de 𝜉𝑡 produce
𝜉𝑡 − 𝛏̂t|T = 𝜉𝑡 − 𝛏̂t|t − 𝐉t 𝛏̂t+1|T + 𝐉t 𝛏̂t+1|t
O
𝜉𝑡 − 𝛏̂t|T + 𝐉t 𝛏̂t+1|T = 𝜉𝑡 − 𝛏̂t|t + 𝐉t 𝛏̂t+1|t
Multiplicando esta ecuación por su transposición y teniendo expectativas,

𝐸[(𝜉𝑡 − 𝛏̂t|T ) (𝜉𝑡 − 𝛏̂t|T )′] +𝐉t E[𝛏̂t+1|T 𝛏̂′t+1|T )]𝐉′t
=𝐸[(𝜉𝑡 − 𝛏̂t|t ) (𝜉𝑡 − 𝛏̂t|t )′] +𝐉t E[(𝛏̂t+1|t 𝛏̂′t+1|t )]𝐉′t
[13.6.17]
Los términos de producto cruzado han desaparecido del lado izquierdo porque 𝛏t+1|T Es una ̂
función lineal de 𝓨T por lo tanto no está correlacionado con el error de proyección 𝜉𝑡 − 𝛏̂t|T . Similar.
En el lado derecho, 𝛏̂t+1|t No está correlacionada con 𝜉𝑡 − 𝛏̂t|t .La ecuación [13.6.17] establece que
𝐏t|T = 𝐏t|t + 𝐉t {−E[𝛏̂ t+1|T 𝛏̂ ′t+1|T )] + E[(𝛏̂ t+1|t 𝛏̂ ′t+1|t )]}𝐉′t [13.6.18]
El término entre corchetes en [13.6.18] puede expresarse como

E[(𝛏̂t+1|T 𝛏̂′t+1|T )] + E[(𝛏̂t+1|t 𝛏̂′t+1|t )]
= {E[(ξt+1 ξ′ t+1 )] − E[(𝛏̂t+1|T 𝛏̂′t+1|T )]} − {E[(ξt+1 ξ′ t+1 )] − E[(𝛏̂t+1|t 𝛏̂′t+1|t )]}
= {E[(ξt+1 ξ̂t+1|T )(ξt+1 ξ̂t+1|T )′] − {E[(ξt+1 ξ̂t+1|t )(ξt+1 ξ̂t+1|t )′]}
=𝐏t+1|T − 𝐏t+1|t [13.6.19]
La segunda a la última igualdad utilizó el hecho de que
E[ξt+1 𝛏̂′t+1|T ]= E[(ξt+1 − ξ̂t+1|T + ξ̂t+1|T )𝛏̂′t+1|T ]
= E[(ξt+1 − ξ̂t+1|T )𝛏̂′t+1|T ] + E[ξt+1|T 𝛏̂′t+1|T ]
= E[ξt+1|T 𝛏̂′t+1|T ]
Dado que el error de proyección ξt+1 − ξ̂t+1|T no está correlacionada con ξ̂t+1|T. Igual
E[ξt+1 𝛏̂′t+1|T ]= E[ξ̂t+1 𝛏̂′t+1|T ]. Sustituyendo [13.6.19] en [13.6.20] se establece que la estimación
suavizada 𝛏̂t|T Tiene MSE dado por
𝐏t|T = 𝐏t|t + 𝐉t (𝐏t+1|T − 𝐏t+1|t )𝐉′t
[13.6.20]
De nuevo, esta secuencia se genera moviéndose a través de la muestra t=T-1
𝐸̂ [𝐸̂ (𝜉𝑡 |𝑦𝑡 )|𝑦𝑡 , 𝑦𝑡+1 ] = 𝐸̂ [µ|𝑦𝑡 , 𝑦𝑡+1 ] = µ
13.6 Suavizado 413

13.7. Inferencia estadística con el filtro de Kalman
El cálculo del error cuadrático medio
𝐏τ|t = E[( ξτ − ξ̂τ|t )( ξτ − ξ̂τ|t )′]
Descrito anteriormente suponía que los parámetros de las matrices F, Q, A, H y R se conocían
con certeza. La Sección 13.4 mostró cómo estos parámetros podrían estimarse a partir de los datos
por máxima verosimilitud. Habría entonces alguna incertidumbre de muestreo sobre los valores
reales de estos parámetros, y el cálculo de 𝐏τ|t Tendría que ser modificado para obtener los
verdaderos errores cuadráticos medios de las estimaciones y previsiones suavizadas5.
Supongamos que los parámetros desconocidos se recogen en un vector θ para cualquier
valor dado de θ, se podrían usar las matrices F (θ), Q (θ), A (θ), H (θ) y R (θ) para construir ξ̂τ|T
(θ) y𝐏τ|T (θ) En las fórmulas presentadas anteriormente; para τ≤T, Estas son la estimación
suavizada y MSE dada en [13.6.16] y [13.6.20], respectivamente; mientras que para τ>T, Estos son
el pronóstico y su MSE en [13.3.25] y [13.3.27]. Dejar 𝒴𝑇 = 𝑦′ 𝑇 , 𝑦′ 𝑇−1 , … , 𝑦′1 , 𝑥′ 𝑇 , 𝑥′ 𝑇−1 , … , 𝑥′1 )′
Denotan los datos observados y θ0 Denotan el verdadero valor de θ. The Anteriores suponían que
el verdadero valor de θ se utilizó para construir ξ̂τ|T (θ0) y𝐏τ|T (θ0). Recordemos que las fórmulas
para actualizar una proyección lineal y sus MSE, [4.5.30] y [4.5.31], producen la media condicional y
la MSE condicional cuando se aplican a vectores geussianos; Ver la ecuación [4.6.7]. Así; Si {vt},
{wt} y 𝜉𝜏 son verdaderamente gaussianas, entonces la proyección lineal ξ̂τ|T (θ0) Tiene la
interpretación como la expectativa de ξτ Condicionada a los datos,
(θ0) = 𝐸(𝜉𝜏 |𝒴𝑇 ) ; [13.7.1]
Mientras 𝐏τ|T (θ0) Puede ser descrito como el MSE condicional:
𝐏τ|T (θ0) = E {[𝜉𝜏 - ξ̂ τ|T (θ0)][ 𝜉𝜏 - ξ̂ τ|T (θ0)] '|𝒴𝑇 }. [13.7.2]
̂ Denotan una estimación de θ basada en 𝒴𝑇 , y dejar ξ̂ ( 𝛉
dejar 𝛉 ̂) Denote la estimación que
τ|T
̂ Para construir la inferencia suavizada o previsión en [13.6.16].
resulta de usar 𝛉
O [13.3.25]. El error cuadrático medio condicional de esta estimación es
̂ )] [ 𝜉𝜏 - ξ̂ (𝜽
E {[𝜉𝜏 - ξ̂ τ|T (𝜽 ̂ )]'|𝒴𝑇 }
τ|T
= 𝐸{[𝜉𝜏 − ξ̂ τ|T (𝛉0 ) + ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽 ̂)
x[𝜉𝜏 − ξ̂ τ|T (𝛉0 ) + ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽 ̂ )]′|𝒴T} [13.7.3]
= 𝐸{[𝜉𝜏 − ξ̂ τ|T (𝛉0 )][𝜉𝜏 − ξ̂ τ|T (𝛉0 )]′|𝒴T }
+ 𝐸{[ ξ̂ (𝛉0 ) − ξ̂ (𝜽 ̂ ) − ξ̂ (𝛉0 ) − ξ̂ (𝜽 ̂ )]′|𝒴T }
τ|T τ|T τ|T τ|T
Los términos de productos cruzados han desaparecido de [13.7.3], ya que
̂ )][𝜉𝜏 − [ξ̂ (𝛉0 )]′|𝒴T }
[ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽 τ|T
= [ξ̂ (𝛉0 ) − ξ̂ τ|T (𝜽 ̂ )]x 𝐸{[𝜉𝜏 − [ξ̂ (𝛉0 )]′|𝒴T }
τ|T τ|T
̂ )]𝒙 0′
=[ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽
̂) se conocen funciones no estocásticas de 𝒴T, Y
La primera igualdad sigue porque ξ̂ τ|T (θ0) yξ̂ τ|T (𝛉
la segunda igualdad está implícita en [13.7.1]. Sustituyendo [13.7.2] en [13.7.3] resulta en
𝐸[𝜉𝜏 − ξ̂ τ|T (𝜽̂ )] 𝐸[𝜉𝜏 − ξ̂ (𝜽 ̂
τ|T )′]|𝒴T ] [13.7.4]
̂ )][ξ̂ (𝛉0 ) − ξ̂ (𝜽
= 𝐏τ|T (𝛉0 ) + E{[ξ̂ τ|T (𝛉0 ) − ξ̂ τ|T (𝜽 ̂
τ|T τ|T )]′|𝒴T }
La ecuación [13.7.4] descompone el error cuadrático medio en dos componentes
El primer componente 𝐏τ|T (𝛉0 ), puede ser descrito como la "incertidumbre del filtro". Este es el
término calculado a partir de la iteración de suavización [13.6.20] o de la predicción MSE [13.2.27] y
5
La discuación es basad en Hamilton (1986)

representa la incertidumbre acerca de 𝜉𝑇 Que estaría presente incluso si el verdadero valor θ0 Eran
conocidos con certeza. El segundo término en [13.7.4],
E{[ξ̂τ|T (𝛉0 ) − ξ̂τ|T (𝜽̂ )][ξ̂τ|T (𝛉0 ) − ξ̂τ|T (𝜽̂ )]′}

Podría llamarse "incertidumbre de parámetro". Refleja el hecho de que en una muestra típica, (𝜽 ̂)
Será diferente del valor real θ0., A Una forma sencilla de estimular el tamaño de cada fuente de
incertidumbre es mediante la integración de Monte Carlo. Supongamos que adoptamos la
perspectiva bayesiana de que θ misma es una variable aleatoria. Desde esta perspectiva, [13.7.4]
describe el MSE condicional en θ = θ0. Supongamos que la distribución posterior de θ condicionada
a los datos 𝒴T es conocida; La distribución asintótica para el MLE en [13.4.6] sugiere que θ|𝒴T
Puede considerarse como aproximadamente distribuida N ((𝜽 ̂ ), (1/T) ·  1 ), donde (𝜽
̂ ) Denota el
MLE. Podemos entonces generar un gran número de valores de θ decir, θ(1) ,θ(2) ,…,θ(2000), Sacado
de un N( (ˆ) , (1/T) ·  1 ) distribución. Para cada sorteo (j), podríamos calcular la estimación o
previsión suavizada ξ̂τ|T (θ(j)). Las desviaciones de estas estimaciones en Monte Carlo se basan en la
estimación ξ̂τ|T (𝜽̂ ) puede utilizarse para describir la sensibilidad de la estimación ξ̂τ|T (𝜽̂ ) es la
incertidumbre del parámetro sobre θ:
2000
1 (𝐣) (𝐣)
∑ [ξ̂ τ|T (𝛉 ) − ξ̂ τ|T (𝜽
̂ )][ξ̂ ̂
τ|T (𝛉 ) − ξτ|T (𝜽)]′
̂
2000
1
[13.7.5]
Esto da una estimación de
E{[ξ̂τ|T (𝛉) − ξ̂τ|T (𝜽̂ )][ξ̂τ|T − (𝛉)ξ̂τ|T (𝜽̂ )]′|𝒴T }
Cuando se entiende que esta expectativa es con respecto a la distribución de θ condicionada a 𝒴T
For each Monte Carlo realization θ(j), También podemos calcular 𝐏τ|T (θ(j) ) De [13.6.20] o
[13.3.27]. Su valor medio a través de Monte Carlo dibuja
2000
1 (j)
∑ 𝐏τ|T (θ )
2000
1
[13.7.6]
Proporciona una estimación de la incertidumbre del filtro en [13.7.4],

E[𝐏τ|T (θ)|𝒴T ]
Una vez más, esta expectativa con respecto a la distribución de θ|𝒴𝑇
La suma de [13.7.5] y [13.7.6] se propone entonces como una MSE para la estimación 𝜉̂𝑡|𝑇 (ˆ)
alrededor del verdadero valor 𝜉𝑇 .
13.8. Parámetros temporales
Modelo Estado-Espacio con Coeficientes Estocásticamente Variables

Hasta aquí hemos asumido que las matrices F, Q, A, H y R eran todas constantes. El filtro
de Kalman también puede adaptarse a modelos más generales de estados-estacionario en los que los
valores de estas matrices dependen de las variables dependientes exógenas o rezagadas en el vector
x. Considerar
𝜉𝑡+1 = 𝐅(𝐱𝑡 )𝜉𝑡 + 𝐯𝑡+1 [13.8.1]

𝐲𝑡 = a(𝐱𝒕 ) + [H(𝐱𝑡 )]′ 𝜉𝑡 + 𝐰𝑡 [13.8.2]
0 415
Aquí 𝐅(𝐱𝑡 ) representa una matriz (𝑟 ×𝑟) cuyos elementos son funciones de 𝐱𝒕 ; a(𝐱𝒕 ) describe de
forma similar una función de valor vectorial (𝑛 ×1), y H(𝐱𝑡 ) una función matriz (𝑟×𝑛). Se supone
que las condiciones en 𝐱𝒕 , y en los datos observados a través del tiempo 𝑡 − 1, es denotado
′
𝒴𝑡−1 ≡ (𝐲𝒕′ , 𝐲𝒕−𝟏 , … , 𝐲𝟏′ , 𝐱𝒕′ , 𝐱𝒕−𝟏
′
, … , 𝐱𝟏′ )′
′ ′ ′
el vector (𝐯𝒕+𝟏 , 𝐰𝒕 ) tiene la distribución Gaussiana
𝐯𝑡+1 𝟎 𝐐(𝐱𝒕 ) 0
[ 𝐰 |𝐱𝒕 , 𝒴𝑡−1 ] ∼ 𝑁 ( ) , [ ] [13.8.3]
𝑡 𝟎 0 𝐑(𝐱𝒕 )
Obsérvese que, aunque [13.8.1] a [13.8.3] generaliza el marco anterior permitiendo parámetros
estocásticamente variables, es más restrictivo que una distribución gaussiana se asume en [13.8.3]; el
papel requisito Gaussiano será explicado en breve.
Supongamos que tomamos como dado que 𝜉𝑡 |𝒴𝑡−1 ∼ 𝑁(𝜉̂𝑡|𝑡−1 , 𝐏𝑡|𝑡−1 ). Asumiendo
como antes que 𝐱𝒕 , contiene sólo variables estrictamente exógenas o valores rezagados de y, esto
también describe la distribución de 𝜉𝑡 |𝐱𝒕 , 𝒴𝑡−1. Se deduce de los supuestos en [13.8.1] a [13.8.3]
que
𝜉 𝜉̂𝑡|𝑡−1 𝐏𝑡|𝑡−1 𝐏𝑡|𝑡−1 𝐇(𝐱 𝑡 )

[ 𝑡 |𝐱𝒕 , 𝒴𝑡−1 ] ~𝑁 ([ ],[ ′ ])
𝐲𝑡 a(xt ) − [𝐇(x𝒕 )]′𝝃̂𝑡|𝑡−1 𝐇 (x𝒕 )𝐏𝑡|𝑡−1 [𝐇(𝐱𝑡 𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 ) + 𝐑(𝐱𝑡 )]′
[13.8.4]
Condicionada a x𝒕 , los términos a(xt ), 𝐇(𝐱𝑡 ) y 𝐑(𝐱𝑡 ) pueden ser tratados como deterministas. Así,
la fórmula para la distribución condicional de los vectores gaussianos [4.6.7] se puede utilizar, para
deducir que6
𝜉𝑡|𝑡 , x𝒕 , 𝒴𝑡−1 ≡ 𝜉𝑡|𝑡 ∼ 𝑁(𝜉̂𝑡|𝑡 , 𝐏𝑡|𝑡 ) [13.8.5]
donde
−𝟏
𝜉𝑡|𝑡 = 𝜉𝑡|𝑡−1 + {𝐏𝑡|𝑡−1 𝐇(x𝒕 )[[𝐇(x𝑡 )]′ 𝐏t|𝑡−1 𝐇(x𝑡 ) + 𝐑(x𝑡 )] × [y𝑡 − a(xt ) −
[𝐇(x𝒕 )]′𝝃̂𝑡|𝑡−1 ]} [13.8.6]
−𝟏
𝐏𝑡|𝑡−1 = 𝐏𝑡|𝑡−1 − {𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 ) × [[𝐇(𝐱𝑡 ]′ 𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 ) + 𝑹(𝐱𝑡 )][𝐇(𝐱𝑡 )]′ 𝐏𝑡|𝑡−1 }
[13.8.7]
En la continuación de [13.8.1] 𝑦 [13.8.3] 𝑞𝑢𝑒 𝜉𝑡+1 |𝒴 ∼ 𝑁(𝜉̂𝑡+1|𝑡 , 𝐏𝑡+1|𝑡 ), donde
𝜉̂𝑡+1|𝑡 = 𝐅(𝐱𝑡 )𝝃̂𝒕|𝒕 [13.8.8]

′
𝐏𝑡+1|𝑡 = 𝐅(𝐱𝑡 )𝐏𝑡|𝑡 [𝐅(𝐱𝑡 )] + 𝐐(𝐱𝑡 ) [13.8.9]
Las ecuaciones [13.8.6] por [13.8.9] son las ecuaciones del filtro de Kalman [13.2.15],
[13.2.16], [13.2.17] y [13.2.21] con los parámetros de las matrices F, Q, A, H y R sustituidos por sus
análogos varían con el tiempo. Así, como estamos dispuestos a tratar el estado inicial 𝜉𝑡 como
𝑁(𝜉1|0 , 𝐏), las iteraciones del filtro de Kalman pasan por lo mismo que antes. La generalización
obvia de [13.4.1] podrá ser utilizado para evaluar la función de verosimilitud.
Tenga en cuenta, sin embargo, que a diferencia del caso de parámetro constante, la inferencia
[13.8.6] es una función no lineal de 𝐱𝒕 , esto significa que aunque [13.8.6] da la inferencia óptima si
los disturbios y el estado inicial están Gaussianos, no puede interpretarse como la proyección lineal
de 𝜉𝑡 en 𝒴𝑡 con disturbios no gaussiano.
Modelos de regresión lineal con coeficientes variables en el tiempo
Aquí 𝐘1 = 𝐲𝑡 , 𝐘2 = 𝜉𝑡 , 𝛍𝒕= a(xt ) − [𝐇(x𝒕 )]′𝝃̂𝑡|𝑡−1 , 𝛀1𝑡 = {[𝐇(𝐱𝑡 ]′ 𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 ) + 𝐑(𝐱𝑡 )}, 𝛀22 = 𝐏𝑡|𝑡−1 , y 𝛀21 = 𝐏𝑡|𝑡−1 𝐇(𝐱𝑡 )
6

Una aplicación importante del modelo de espacio-estado con estocástico varios parámetros es una
regresión en el que el vector de coeficiente cambia con el tiempo. Tener en cuenta
𝑦𝑡 = 𝐱′𝑡 𝛃𝑡 + 𝑤𝑡 [13.8.10]
donde 𝐱𝒕 es un vector (𝑘 × 1) que puede incluir había quedado valores de y o variables que son
independientes de la regresión disturbio 𝑤𝑡 para todo τ. Los parámetros del vector del coeficiente
se supone que evoluciona con el tiempo según
(𝛃𝑡+1 − 𝛃̅) = 𝐅(𝛃𝑡 − 𝛃 ̅) + 𝐯𝑡+1 [13.8.11]

Si los valores propios de la matriz F (k × k) están dentro el círculo unitario, entonces β ̅ tiene la
interpretación como el valor promedio o de estado estacionario para el vector de coeficiente. Si
además se supone
v𝑡+1 0 𝐐 0
[ 𝑤 |𝐱𝑡 , 𝒴𝑡−1 ] ∼ 𝑁 ([ ] , [ ]) [13.8.12]
𝑡 0 0 𝜎2
Entonces [13.8.10] a [13.8.12] será reconocida como un modelo de espacio de estado de la forma de
[13.8.1] a [13.8.3] con el vector de estado 𝜉𝑡 = 𝛃𝑡 − 𝛃̅. La regresión en [13.8.10] puede escribirse
como
̅ + 𝐱′𝑡 𝝃𝒕 + 𝑤𝑡
𝑦𝑡 = 𝐱′𝑡 𝛃 [13.8.13]
que es una ecuación de observación de la forma de [13.8.2] con 𝐚(𝐱𝑡 ) = 𝐱′𝑡 𝛃 ̅, 𝐇(𝐱𝑡 ) = 𝐱𝑡 y
2
R(𝐱𝑡 ) = 𝜎 . Estos valores entonces se utilizan en las iteraciones del filtro de Kalman [13.8.6] a
[13.8.9]. Un pronóstico por delante un período de [13.8.10] puede ser calculado de [13.8.4] como
̅ + 𝐱′𝑡 𝝃𝑡−𝟏
𝐸(𝑦𝑡 |𝒙𝑡 , 𝒴𝑡−1 ) = 𝐱′𝑡 𝛃
𝑇
donde {𝜉̂𝑡|𝑡−1 } es calculada a partir de [13.8.6] y [13.8.8]. El MSE de este pronóstico puede
𝑡=1
también inferirse de [13.8.4]:
̅ + 𝐱′𝑡 𝝃𝑡−𝟏 )2 |𝐱𝑡 , 𝒴𝑡−1 ] = 𝐱′𝑡 𝐏𝑡|𝑡−1 + 𝜎 𝟐
𝐸 [(𝑦𝑡 − 𝐱′𝑡 𝛃
𝑇
Donde {𝐏𝑡|𝑡−1 } es calculada de log verosimilitud de [13.8.7] y [13.8.9] la muestra es por lo tanto
𝑡=1
𝑇 𝑇
𝑇
∑ log 𝑓(𝑦𝑡 |𝐱𝑡 , 𝒴𝑡−1 ) = − ( ) log(2𝜋) − (1/2) ∑ log( 𝐱′𝑡 𝐏𝑡|𝑡−1 + 𝜎 𝟐 )
2
𝑡=1 𝑡=1
𝑻
̅ + 𝐱′𝑡 𝝃𝑡−𝟏 )2 /(𝐱′𝑡 𝐏𝑡|𝑡−1 + 𝜎 𝟐 )
− (1/2) ∑(𝑦𝑡 − 𝐱′𝑡 𝛃
𝒕=𝟏
La especificación en [13.8.11] puede generalizarse fácilmente para permitir un VAR de la
orden de p por el vector de coeficiente 𝛃, por definición 𝜉′𝑡 = [(𝛃𝑡 − 𝛃 ̅)′ , (𝛃𝑡−1 −
̅)′ … , (𝛃𝑡−𝑝+1 − 𝛃
𝛃 ̅)′] y reemplazando [13.8.11] con
Φ1 Φ2 Φ𝑝−1 Φ𝑝 v𝑡+1
𝐈𝑘 0 ⋯ 0 0 0
𝜉𝑡+1 = 0 Ι𝑘 0 0 𝑡𝜉 + 0
⋮ ⋱ ⋮ ⋮
[ 0 0 ⋯ Ι𝑘 0 ] [ 0 ]
Estimación de un VAR con coeficientes variables en el tiempo

La Sección 12.2 describe el enfoque de Litterman estimación bayesiana de una ecuación de
un vector autorregresivos con coeficientes constantes pero desconocidos. Un enfoque relacionado a
13.8 Parámetros temporales 417

la estimación de un VAR con coeficientes varían con el tiempo fue desarrollado por Doan,
Litterman y Sims (1984). Aunque podría mejorar la eficiencia considerando conjuntamente todas las
ecuaciones del VAR, su propuesta fue inferir los parámetros para cada ecuación en el aislamiento de
los demás.
Supongamos que para la ilustración que la ecuación [13.8.10] describe la primera ecuación
de un VAR, para que la variable dependiente (𝑦𝑡 ) es 𝑦1𝑡 , y el vector (𝑘×1) de variables
′ ′ ′ ′
explicativas es 𝐱𝑡 = (1, 𝐲𝑡−1 , 𝐲𝑡−2 , … , 𝐲𝑡−𝑝 ) , donde 𝐲𝑡 = (𝑦1𝑡 , 𝑦2𝑡 , … , 𝑦𝑛𝑡 )′ y 𝑘 = 𝑛𝑝 + 1. El
vector de coeficiente es
(1) (1) (1) (2) (2) (2) (𝑝) (𝑝) (𝑝)
𝛃𝑡 = (𝑐1.𝑡 , 𝜙11.𝑡 , 𝜙12.𝑡 , … , 𝜙1𝑛.𝑡 , 𝜙11.𝑡 , 𝜙12.𝑡 , … , 𝜙1𝑛.𝑡 , … , 𝜙11.𝑡 , 𝜙12.𝑡 , … , 𝜙1𝑛.𝑡 ) ′
(𝑠)
donde 𝜙1𝑗.𝑡 es el coeficiente relativo 𝑦1𝑡 a 𝑦𝑗.𝑡−𝑠 . Este coeficiente puede ser diferente para cada
fecha de t en la muestra.
Doan, Litterman y Sims especifican una distribución previa bayesiano para el valor inicial
del vector del coeficiente en fecha 1.
𝛃1 ∼ 𝑁(𝛃 ̅, 𝐏1|0 ) [13.8.14]
La distribución anterior es independiente a través de coeficientes, por lo que 𝐏1|0 es la matriz
diagonal. La media de la distribución previa, 𝛃 ̅, es que utiliza un VAR de coeficiente constante de
Litterman (1986). Esta distribución previa sostiene que los cambios en 𝑦1𝑡 son probablemente
difíciles de predecir, por lo que el coeficiente de 𝑦1.𝑡−1 es probable que sea cerca de la unidad y
todos los otros coeficientes se esperan que sean cerca de cero:
̅ = (0,1,0,0, … , 0)′
𝛃 [13.8.15]
(1)
Al igual que en la seccion 12.2 let 𝛾 caracterizan la confianza del analista en la predicción eso 𝜙11.1
está cerca de la unidad:
(1)
𝜙11.𝑡 ∼ 𝑁(1, 𝛾 2 )
(1)
Valores pequeños de 𝛾 implican más confianza en la previa convicción eso 𝜙11.1 está cerca de la
unidad.
(𝑠)
El coeficiente de 𝜙11.1 se relaciona con el valor de la variable 1 en fecha 1 su propio valor x
períodos anteriores.
(𝑠)
Doan, Litterman y Sims tenían más confianza en la convicción previa que 𝜙11.1 es cero mayor será
el rezago, o cuanto mayor sea el valor de s. Esto representan una serie armónica para la varianza.
(𝑠)
𝜙11.1 ∼ 𝑁(0, 𝛾 2 /𝑠) para 𝑠 = 2,3, … , 𝑝
Se toma la distribución previa para la variable relación con coeficiente 1 a rezagos de otras
variables que
(𝑠) 𝑤 2 .𝛾 2 .𝜏̂2 𝑗 = 2,3, … , 𝑛
𝜙1𝑗.1 ∼ 𝑁 (0, 𝑠.𝜏̂2 1 ) [13.8.16]
𝑗 𝑠 = 1,2, … , 𝑝
Como en la expresión [12.2.4], esto incluye una corrección (𝜏̂12 /𝜏̂𝑗2 ) para la escala de respecto 𝑦𝑗𝑡
donde 𝜏̂𝑗2 es la varianza estimada de los residuos de un proceso de 𝐴𝑅(𝑝) de coeficiente fijo
univariado para serie j. La variación en [13.8.16] también incluye un factor 𝑤 2 < 1 que representa
la expectativa previa que quedado valores de 𝑦𝑗 para 𝑗 ≠ 1 no suelen ser de ayuda en el pronóstico
𝑦1 , que serían el retardado valores de 𝑦1 , sí mismo; por lo tanto, un más apretado antes de que se
utiliza para establecer coeficientes de 𝑦𝑗 , a cero.
Finalmente, deje que 𝑔 describir la variación de la distribución previa para el término
constante:
𝑐1.1 ~𝑁(0, 𝑔. 𝜏̂12 )
En resumen, la matriz X se especifica que

𝑔. 𝜏̂12 𝟎′
𝐏1|0 = [ ] [13.8.17]
𝟎 (𝐁⨂𝐂)
donde

𝛾2 0 0 0
2 ⋯
0 𝛾 /2 0 0
𝐁
(𝒑×𝒑) = 0 0 𝛾 2 /3 0
⋮ ⋱ ⋮
[ 0 0 0 ⋯ 𝛾 2 /𝑝]
𝐂
=
(𝒏×𝒏)
1 0 0 0
0 𝑤 2 𝜏̂12 /𝜏̂ 22 0 ⋯ 0
2 2 2
0 0 𝑤 𝜏̂1 /𝜏̂ 3 0
⋮ ⋱ ⋮
[ 0 0 0 ⋯ 𝒘𝟐 𝜏̂12 /𝜏̂ 𝑛2 ]
Para la serie de tiempo económico típico, Doan, Litterman y Sims recomiendan usar 𝛾 2 =
0.07, 𝑤 2 = 1/74, y 𝑔 = 630. Este último valor se asegura de que se da muy poco peso a la
expectativa antes de que el término constante sea cero.
Cada uno de los coeficientes en el VAR se presume entonces que evolucionan según una
autorregresivo de primer orden:
𝛃𝑡+1 = 𝝅𝟖 . 𝛃𝒕 + (1 − 𝜋8 ). 𝛃 ̅ + 𝐯𝑡+1 [13.8.18]
Así, el mismo escalar se utiliza para describir un proceso AR(1) de análisis univariados para cada
elemento de 𝛃𝑡 ; Doan, Litterman y Sims recomiendan un valor de 𝜋8 = 0.999. El disturbio de la
𝐯𝑡 , se supone que tienen una matriz de varianza-covarianza diagonal:
𝐸(𝐯𝒕 𝐯𝒕′ ) = 𝐐 [13.8.9]
Para todos los coeficientes excepto el término constante, la varianza del elemento i de 𝐯𝑡 fue
asumida para ser proporcional al elemento correspondiente de 𝐏1|0 . Así para 𝑖 = 2,3, … , 𝑘, la fila i,
columna i elemento de Q se toma a 𝜋7 veces la fila i, columna i elemento de 𝐏1|0 . El (1, 1)
elemento de Q se toma a 𝝅7 veces el (2, 2) elemento de 𝐏1|0 . Este ajuste se utiliza porque el (1, 1)
elemento de 𝐏1|0 representa una varianza con eficacia infinito correspondiente previa ignorancia
acerca del valor para el término constante. Doan, Litterman y Sims recomiendan 𝜋7 = 10−7 como
un valor adecuado para la constante de proporcionalidad.
Ecuación [13.8.18] puede considerarse como una ecuación de estado de la forma
𝜉𝑡+1 = 𝐅𝜉𝑡 + 𝐯𝑡+1 [13.8.20]
̅
donde el vector del estado se da por 𝜉𝑡 = (𝛃𝑡 − 𝛃) y 𝐅 = 𝜋8 . 𝐈𝑘 . La ecuación de observación es
𝑦1𝑡 = 𝐱′𝑡 𝛃 ̅ + 𝐱′𝑡 𝝃𝑡 + 𝑤1𝑡 [13.8.21]
Uno de los parámetros a especificar es la varianza de 𝑤1𝑡 , el residual en la VAR. Doan, Litterman,
y Sims sugirió tomar esto es 0,9 veces 𝜏̂12 .
𝑇
Así, la secuencia de los vectores de estado estimado {𝜉𝑡|𝑡 } encuentra por iteración en
𝑡=1
[13.8.6] [13.8.9] a partir de 𝜉̂1|0 = 𝟎 y 𝐏1|0 por [13.8.17], con 𝐅(𝐱𝑡 ) = 𝜋8 . Ι𝑘 , 𝐐(𝐱𝑡 ) =
𝜋7 . 𝐏(𝐱𝑡 ) = 𝐱′𝑡 𝛃̅ con 𝛃
̅ de [13.8.15], 𝐇(𝐱𝑡 ) = 𝐱𝑡 , y 𝐑(𝐱𝑡 ) = 0.9. 𝜏̂12 . El vector del coeficiente
Estimado es entonces 𝛃 ̂𝒕|𝒕 = 𝛃̅ + 𝝃̂𝑡|𝑡 . Optimas previsiones por delante un período están dados por
̂𝑡|𝑡 .
𝑦̂1.𝑡+1|𝑡 = 𝐱𝑡′ 𝛃
Óptima s-periodo-anticipada previsiones son difíciles de calcular. Sin embargo, Doan,
Litterman y Sims sugieren una aproximación simple. La aproximación toma las previsiones por
delante un período óptimo para cada una de n variables en el VAR, 𝑦̂𝑡+1|𝑡 , y luego trata estas
previsiones como si fueran las observaciones reales de 𝐲𝑡+1 . Luego de 𝐸(𝐲𝑡+2 |𝐲𝑡 , 𝐲𝑡−1 , … , 𝐲1 ) se
aproxima por 𝐸(𝐲𝑡+2 |𝐲𝑡+1 , 𝐲𝑡 , … , 𝐲1 ) evaluada en 𝐲𝑡+1 = 𝐸(𝐲𝑡+2 |𝐲𝑡 , 𝐲𝑡−1 , … , 𝐲1 ). La ley de
expectativas iteradas no se aplica aquí, ya que 𝐸(𝐲𝑡+2 |𝐲𝑡+1 , 𝐲𝑡 , … , 𝐲1 ) es una función no lineal de
Yt. Sin embargo, Doan, Litterman y Sims argumentaban que el enfoque simple da una buena
aproximación al óptimo pronóstico.
13.8 Parámetros temporales 419

APÉNDICE 13.A Pruebas de proposiciones capítulo 13
∎ Prueba de la Proposición 13.1.7 Recordar que 𝐏𝑡+1|𝑡 , tiene la interpretación como el MSE de
′
la proyección lineal de 𝜉𝑡+1 en 𝒴 ≡ (𝐲𝒕′ , 𝐲𝒕−𝟏 , … , 𝐲𝟏′ , 𝐱 𝒕′ , 𝐱𝒕−𝟏
′
, … , 𝐱𝟏′ )′ .
𝐏𝑡+1|𝑡 ≡ 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡 )] [13.A.1]
Supongamos que por alguna razón hemos tratado en su lugar a la previsión 𝜉𝑡+1 usando sólo las
observaciones 2, 3,..., t, descartando la observación de fecha t=1. Thus, define 𝒴 ≡ (𝐲𝒕′ ,
′
𝐲𝒕−𝟏 , … , 𝐲𝟐′ , 𝐱𝒕′ , 𝐱𝒕−𝟏
′
, … , 𝐱𝟐′ )′ dejó
∗
𝐏𝑡+1|𝑡 ≡ 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ )] [13.A.2]
Entonces claramente, [13.A.2] no puede ser menor que [13.A.1], desde la proyección lineal
𝐸̂ (𝜉𝑡+1 |𝒴𝑡 ) hizo un uso óptimo de 𝒴𝑡∗ , junto con la información agregada en (𝐲𝒕′ , 𝐱𝒕′ )′. En
particular, si h es cualquier vector (𝑟×1), la proyección lineal de 𝑧𝑡+1 ≡ 𝐡′ 𝜉𝑡+1 en 𝒴𝑡 tiene MSE
dada por
2 2
𝐸[𝑧𝑡+1 − 𝐸̂ (𝑧𝑡+1 |𝒴𝑡 )] = 𝐸[𝐡′ 𝜉𝑡+1 − 𝐡′ . 𝐸̂ (𝜉𝑡+1 |𝒴𝑡 )]
′
= 𝐡′ . 𝐸 {[𝜉𝑡+1 − 𝐸̂ (𝜉𝑡+1 |𝒴𝑡 )][𝜉𝑡+1 − 𝐸̂ (𝜉𝑡+1 |𝒴𝑡 )] } . 𝐡
= 𝐡′ 𝐏𝑡+1|𝑡 𝐡
Asimismo, la proyección lineal de 𝑧𝑡+1 sobre 𝒴𝑡∗ tiene MSE 𝐡′ 𝐏𝑡+1|𝑡 𝐡, con
∗
𝐡′ 𝐏𝑡+1|𝑡 𝐡 ≤ 𝐡′ 𝐏𝑡+1|𝑡 𝐡 [13.A.3]
Pero para un sistema de la forma de [13.2.1] y [13.2.2] con valores propios de F dentro del círculo
unitario y coeficientes tiempo-invariante, será el caso que
𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝐲𝑡 , 𝐲𝑡−1 , … , 𝐲2 , 𝐱𝑡 , 𝐱𝑡−1 , … , 𝐱2 )]
= 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝐲𝑡−1 , 𝐲𝑡−2 , … , 𝐲1 , 𝐱𝑡−1 , 𝐱𝑡−2 , … , 𝐱1 )]
que es
∗
𝐏𝑡+1|𝑡 = 𝐏𝑡+1|𝑡
Por lo tanto, [13.A.3] implica que
𝐡′ 𝐏𝑡+1|𝑡 𝐡 ≤ 𝐡′ 𝐏𝑡|𝑡−1 𝐡
7
para cualquier (𝑟×1) vector h. La secuencia de escalares {𝐡′ 𝐏𝑡+1|𝑡 𝐡} es así monótonamente no
𝑡=1
aumenta y limita por debajo de cero. Por lo tanto converge a alguno fijo valor no negativo. Puesto
que esto es cierto para cualquier (𝑟×1) vector h y puesto que la matriz 𝐏𝑡+1|𝑡 es simétrica, se
𝑇
deduce que la secuencia {𝐏𝑡+1|𝑡 } converge a alguna matriz semidefinita positiva fija P.
𝑡=1
Para verificar las afirmaciones acerca de los valores propios de la matriz (𝐅 − 𝐊𝐇′), nota que si P
es un punto fijo de [13.5.3], entonces también debe ser un punto fijo de la ecuación de diferencia
equivalente [13.2.28]:
𝐏 = (𝐅 − 𝐊𝐇 ′ )𝐏(𝐅 − 𝐊𝐇 ′ )′ + 𝐊𝐑𝐊 ′ + 𝐐 [13.A.4]
′ ′
Sean x denota un vector propio de (𝐅 − 𝐊𝐇 ) y 𝜆 su valor propio:
(𝐅 − 𝐊𝐇 ′ )′ 𝐱 = λ𝐱 [13.A.5]
Aunque F, K y H son reales, el valor propio 𝜆 y el vector propio x pueden ser complejas si 𝐱 ′′
denota la transpuesta conjugada de x, entonces
𝐱 ′′ (𝐅 − 𝐊𝐇 ′ )𝐏(𝐅 − 𝐊𝐇 ′ )′ 𝐱 = [(𝐅 − 𝐊𝐇 ′ )′ 𝐱]′′ 𝐏[(𝐅 − 𝐊𝐇 ′ )′ 𝐱]
= [𝜆𝐱]′′ 𝐏[𝜆𝐱]
= |𝜆|𝟐 𝐱′′ 𝐏𝐱
Por lo tanto, si [13.A.4] está premultiplicado por 𝐱 ′′ y postmultiplicado por x, el resultado es
𝐱 ′′ 𝐏𝐱 = |𝜆|𝟐 𝐱 ′′ 𝐏𝐱 + 𝐱 ′′ (𝐊𝐑𝐊 ′ + 𝐐)𝐱
o
7
Los argumentos en las pruebas de proposición 13.1 y 13.2. son adaptadas de Anderson y Moore (1979, pp. 76-82)

(1 − |𝜆|𝟐 )𝐱 ′′ 𝐏𝐱 = 𝐱 ′′ (𝐊𝐑𝐊 ′ + 𝐐)𝐱
Ahora, (𝐊𝐑𝐊 ′ + 𝐐) es positivo semidefinido, así la derecha de [13.A.6] es no negativa. Asimismo,
es positivo P semidefinido, así que 𝐱 ′′ 𝐏𝐱 es no negativo. Expresión [13.A.6] entonces requiere que
|𝜆| ≤ 1, lo que significa que cualquier valor propio de (𝐅 − 𝐊𝐇 ′ ) debe estar dentro del círculo
unitario, o como afirma.
∎ Prueba de la Proposición 13. 2. Primero establecemos la afirmación final de la propuesta, con
respecto a los valores propios de (𝐅 − 𝐊𝐇 ′ ). Sea P denotar cualquier matriz semidefinido positiva
que satisface [13.A.4] y K dado por [13.5.4]. Nótese que si Q es definida positiva, entonces el lado
derecho de [13.A.6] es estrictamente positiva para cualquier x distinto de cero, significado de la
parte izquierda de [13.A.6] que cualquier valor propio 𝜆 de (𝐅 − 𝐊𝐇 ′ ) es estrictamente dentro del
círculo unidad. Por otra parte, si R es positiva definida, entonces la única manera de que la derecha
de [13.A.6] podría no ser estrictamente positivo sería si 𝐊 ′ 𝐱 = 𝟎. Pero, de [13.A.5], esto implica
que 𝐅 ′ 𝐱 = 𝜆𝐱, es que x es un vector propio y 𝜆 es un valor propio de 𝑭′ el. Esto, a su vez, significa
que 𝜆 es un valor propio de F, en cuyo caso |𝜆| < 1, por la asunción de la estabilidad de F el. Por
lo tanto no puede existir un vector propio de x de (𝐅 − 𝐊𝐇 ′ )′ asociado a un valor propio cuyo
módulo es mayor o igual a la unidad si R es positivo definido.
Girando junto al resto de la Proposición 13.2 permite {𝐏𝑡+1|𝑡 } denota la secuencia que
resulta de iterar sobre [13.5.1] a partir de un valor inicial semidefinite positivo arbitrario 𝐏1|0 .
Vamos a mostrar que existen otras dos secuencias de matrices, que denota {𝐏𝑡+1|𝑡 } y {𝐏 ̃𝑡+1|𝑡 } tal
que
𝐏𝑡+1|𝑡 ≤ 𝐏𝑡+1|𝑡 ≤ 𝐏 ̃𝑡+1|𝑡 para todo t
donde
lim 𝐏𝑡+1|𝑡 = lim 𝐏 ̃𝑡+1|𝑡 = 𝐏
𝑡→∝
y donde P no depende de 𝐏1|0 . La conclusión será que {𝐏𝑡+1|𝑡 } converge a P independientemente
del valor de 𝐏1|0 .
Para la construcción de la matriz 𝐏𝑡+1|𝑡 , que es ofrecida como un límite más bajo en
𝐏𝑡+1|𝑡 , considera la secuencia de {𝐏𝑡+1|𝑡 } que resulta de iterar sobre [13.5.1] a partir del valor inicial
𝐏 1|0 = 𝟎. Esto correspondería a tratar el estado inicial 𝜉𝑡 como si sabe con certeza:
𝐏 𝑡+1|𝑡 = 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡 , 𝜉𝑡 )] [13.A.7]
Tenga en cuenta que 𝐲𝑡 y 𝐱𝒕 están correlacionados con 𝜉𝑡+1 para 𝑡 = 1,2, … solo por el valor de 𝜉1 ,
lo que significa que igual podríamos escribir
𝐏 𝑡+1|𝑡 = 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉𝑡 )] [13.A.8]
′
donde 𝒴𝑡∗ ≡ (𝐲𝑡′ , 𝐲𝑡−1 , … , 𝐲2′ , 𝐱𝑡′ , 𝐱𝑡−1
′
, … , 𝐱2′ )′ . Agrega conocimiento 𝜉2 no podría afectar el
pronóstico:
𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉2 , 𝜉1 )] ≤ 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉1 )] [13.A.9]
y de hecho, 𝜉1 se correlaciona con 𝜉𝑡+1 para 𝑡 = 2,3, …, solamente por el valor de 𝜉2 :

𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉2 , 𝜉1 )] ≤ 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉2 )] [13.A.10]
Porque los coeficientes son tiempo-invariantes

𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡∗ , 𝜉2 )] = 𝑀𝑆𝐸[𝐸̂ (𝜉𝑡+1 |𝒴𝑡−1 , 𝜉1 )] = 𝐏 𝑡|𝑡−1 [13.A.11]
Por lo tanto, [13.A.10] y [13.A.11] establecer que la izquierda de [13.A.9] es igual a 𝐏 𝑡|𝑡−1 , mientras
que de [13.A.8] derecho [13.A.9] es igual a 𝐏 𝑡+1|𝑡 . Así, [13.A.9] indica que
𝐏 𝑡|𝑡−1 ≤ 𝐏 𝑡+1|𝑡
son para que { 𝐏 𝑡+1|𝑡 } sea una secuencia monótonamente no decreciente; cuanto más lejos en el
pasado es la información perfecta sobre la 𝜉𝑡 , el menor valor para la predicción 𝜉𝑡+1 .

Además, una previsión basada en información perfecta sobre 𝜉1 , para el cual 𝐏 𝑡+1|𝑡 da la
MSE, debe ser mejor que una basada en información imperfecta sobre la 𝜉1 , para el cual 𝐏 𝑡+1|𝑡 da
la MSE:
𝐏 𝑡+1|𝑡 ≤ 𝐏 𝑡+1|𝑡 para todo t.
Así, 𝐏 𝑡+1|𝑡 pone un límite inferior en como 𝐏 𝑡+1|𝑡 . Por otra parte, puesto que la secuencia
{ 𝐏 𝑡+1|𝑡 } es monótonamente no decreciente y acotada desde arriba, converge a un valor fijo P
satisfacer [13.5.3] y [13.A.4].
Para la construcción de un límite superior de 𝐏 𝑡+1|𝑡 considere una secuencia {𝐏 ̃𝑡+1|𝑡 } que
comienza con 𝐏 ̃1|0 = 𝐏1|0 , el mismo valor inicial que se utilizó para construir {𝐏𝑡+1|𝑡 }. Hay que
recordar que 𝐏𝑡+1|𝑡 dio la MSE de la secuencia 𝜉̂𝑡+1|𝑡 descrito en la ecuación [13.2.20]:
𝜉̂𝑡+1|𝑡 = 𝐅𝜉̂𝑡|𝑡−1 + 𝐊 𝑡 (𝐲𝒕 − 𝐀′ 𝐱𝒕 − 𝐇 ′ 𝜉̂𝑡|𝑡−1 )
Imagine en su lugar mediante una secuencia de inferencias subóptimas {𝜉̂𝑡+1|𝑡 } definido por la
repetición
̅
𝜉𝑡+1|𝑡 ̅
= 𝐅𝜉𝑡|𝑡−1 ̅
+ 𝐊 𝑡 (𝐲𝒕 − 𝐀′ 𝐱𝒕 − 𝐇 ′ 𝜉𝑡|𝑡−1 )
donde K es el valor calculado de [13.5.4] en que se toma el valor de estado estacionario para P ser
̅
el límite de la secuencia {𝐏 𝑡+1|𝑡 }. Tenga en cuenta que la magnitud 𝜉𝑡+1|𝑡 definida por lo tanto es
que una función lineal de 𝒴𝑡 y por lo tanto debe tener un MSE mayor que la inferencia óptima
𝜉̂𝑡+1|𝑡 :
′
𝐏 ̅
̃𝑡+1|𝑡 ≡ 𝐸 [(𝜉𝑡+1 −𝜉𝑡+1|𝑡 ̅
)(𝜉𝑡+1 −𝜉𝑡+1|𝑡 ) ] ≥ 𝐏𝑡+1|𝑡
Por lo tanto, hemos establecido
𝐏𝑡+1|𝑡 ≤ 𝐏𝑡+1|𝑡 ≤ 𝐏 ̃𝑡+1|𝑡
y 𝐏𝑡+1|𝑡 → 𝐏 eso. La prueba estará completa si podemos mostrar más que cálculos 𝐏 ̃𝑡+1|𝑡 → 𝐏.
paralelo que lleva a [13.2.28] revelan que
̃𝑡+1|𝑡 = (𝐅 − 𝐊𝐇 ′ )𝐏
𝐏 ̃𝑡|𝑡−1 (𝐅 − 𝐊𝐇 ′ )′ + 𝐊𝐑𝐊 ′ + 𝐐 [13.A.13]
Aplicar el operador vec a ambos lados de [13.A.13] y recordar la proposición 10.4:
vec(𝐏̃𝑡+1|𝑡 ) = ℬ vec(𝐏 ̃𝑡|𝑡−1 ) + 𝑐 = [Ι𝑟2 + ℬ + ℬ2 + ⋯ + ℬ𝑡−1 ]𝑐 +
ℬ′ vec(𝐏̃1|0 )
donde
ℬ ≡ (𝐅 − 𝐊𝐇 ′ ) ⊗ (𝐅 − 𝐊𝐇 ′ )
𝑐 ≡ vec(𝐊𝐑𝐊 ′ + 𝐐)
Recordemos además que desde R o Q es positivo que definida, el valor de K tiene la
propiedad de que los valores propios de (𝐅 − 𝐊𝐇 ′ ) son estrictamente menor que la unidad en el
módulo. Por lo tanto, los valores propios de ℬ son también estrictamente menor que la unidad en
el módulo, lo que implica que
lim vec(𝐏 ̃𝑡+1|𝑡 ) = (𝚰𝑟2 − ℬ)−1 𝑐
𝑡→∞
el mismo valor independientemente del valor inicial de 𝐏 ̃1|0 . En particular, si la iteración en
[13.A.13] se inicia con 𝐏̃1|0 = 𝐏, este es un punto fijo de la iteración, el resultado sería 𝐏 ̃𝑡+1|𝑡 = 𝐏
para todo t. Por lo tanto,
lim 𝐏̃𝑡+1|𝑡 = 𝐏
𝑡→∞
independientemente del valor de 𝐏 ̃1|0 = 𝐏1|0 de la cual se inicia la iteración para 𝐏
̃𝑡+1|𝑡 .
∎Prueba de la propuesta de 13.3. Observar que
{𝚰𝑛 + 𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐊𝑧}{𝚰𝑛 + 𝐇 ′ [𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧]−𝟏 𝐊𝑧}
= 𝚰𝑛 + 𝐇 ′ [𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧]−𝟏 𝐊z + 𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐊𝑧
−{𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐊𝑧}{𝐇 ′ [𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧]−𝟏 𝐊𝑧} [13.A.14]
= 𝚰𝑛 + 𝐇 ′ {−[𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧]−𝟏 + [𝚰𝑟 − 𝐅𝑧]−𝟏

−[𝚰𝑟 − 𝐅𝑧]−1 𝐊𝐇′ 𝑧[𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧]−1 }𝐊𝑧
El término en corchetes en la última línea de [13.A.14] es efectivamente cero, como puede
verificarse tomando la identidad

−[𝚰𝑟 − 𝐅𝑧] + [𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧] − 𝐊𝐇 ′ 𝑧 = 0
y pre multiplicación por [𝚰𝑟 − 𝐅𝑧]−1 y pos multiplicación por [𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧]−1 :
−[𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧]−𝟏 + [𝚰𝑟 − 𝐅𝑧]−1
−[𝚰𝑟 − 𝐅𝑧]−1 𝐊𝐇′ 𝑧[𝚰𝑟 − (𝐅 − 𝐊𝐇 ′ )𝑧]−𝟏 = 𝟎 [13.A.15]
∎Prueba de la Proposición 13.4. Tenga en cuenta que
{𝚰𝑛 + 𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐊𝑧}{𝐇′ 𝐏𝐇 + 𝐑}{𝚰𝑛 + 𝐊 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇𝑧 −1 }
= {𝐇 ′ 𝐏𝐇 + 𝐑} + 𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐊{𝐇′ 𝐏𝐇 + 𝐑}𝑧
[13.A.16]
′
+{𝐇 𝐏𝐇 + 𝐑}𝐊 ′ (𝚰𝑟 −
𝐅𝑧 ′ −1 )−𝟏
𝐇𝑧 −1
+𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏
𝐊{𝐇 𝐏𝐇 + 𝐑}𝐊 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇
′
Ahora [13. 5.4] requiere que

𝐊{𝐇 ′ 𝐏𝐇 + 𝐑} = 𝐅𝐏𝐇 [13.A.17]
{𝐇 ′ 𝐏𝐇 + 𝐑}𝐊 ′ = 𝐇 ′ 𝐏𝐅 ′ [13.A.18]
𝐊{𝐇 𝐏𝐇 + 𝐑}𝐊 ′ = 𝐅𝐏𝐇{𝐇′ 𝐏𝐇 + 𝐑}−𝟏 𝐇′ 𝐏𝐅 ′
′
= 𝐅𝐏𝐅 −𝟏 − 𝐏 + 𝐐 [13.A.19]
con la última igualdad siguiente de [13.5.3] sustituir [13.A.17] por [13.A.19] en [13.A.16] resultados
en
{𝚰𝑛 + 𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐊𝑧}{𝐇 ′ 𝐏𝐇 + 𝐑}{𝚰𝑛 + 𝐊 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇𝑧 −1 }
= {𝐇 ′ 𝐏𝐇 + 𝐑} + 𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐅𝐏𝐇𝑧 + 𝐇 ′ 𝐏𝐅 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇𝑧 −1
+𝐇 ′ (𝚰𝑟 − 𝐅𝑧)−𝟏 {𝐅𝐏𝐅 ′ − 𝐏 + 𝐐}(𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝐇
= 𝐑 + 𝐇 ′ {𝐏 +(𝚰𝑟 − 𝐅𝑧)−𝟏 𝐅𝐏𝑧 + 𝐏𝐅 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝑧 −1

+(𝚰𝑟 − 𝐅𝑧)−𝟏 {𝐅𝐏𝐅 ′ − 𝐏 + 𝐐}(𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 }𝐇
The result in proposition 13.4 follows provided that
𝐏 + (𝚰𝑟 − 𝐅𝑧)−𝟏 𝐅𝐏𝑧 + 𝐏𝐅 ′ (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 𝑧 −1 + (𝚰𝑟 − 𝐅𝑧)−𝟏 {𝐅𝐏𝐅 ′ − 𝐏}(𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 = 𝟎
[13.A.21] Para verificar que [13.A.21] es verdad, a partir de la identidad
(𝚰𝑟 − 𝐅𝑧)−𝟏 𝐏(𝚰𝑟 − 𝐅 ′ 𝑧 −1 ) + 𝐅𝐏𝑧(𝚰𝑟 − 𝐅 ′ 𝑧 −1 ) + (𝚰𝑟 − 𝐅𝑧)𝐏𝐅 ′ 𝑧 −1 + 𝐅𝐏𝐅 ′ − 𝐏 = 𝟎
[13.A.22]
Premultiplicacion [13.A.22] (𝚰𝑟 − 𝐅𝑧)−𝟏 y postmultiplicacion (𝚰𝑟 − 𝐅 ′ 𝑧 −1 )−𝟏 confirman [13.A.21].
Sustituyendo [13.A.21] en [13.A.20] produce la afirmación de la Proposición 13.4.
Ejercicios del Capítulo 13

13.1. Supongamos que tenemos un indicador de ruido y de un subyacente inadvertido variable
aleatoria 𝜉:
𝑦 =𝜉+𝜀
Supongamos además que el error de medición (𝜀) es 𝑁(0, 𝜏 2 ), mientras que el verdadero valor de
𝜉 es 𝑁(𝜇, 𝜎 2 ), con 𝜀 no correlacionado con 𝜉. Mostrar que la estimación óptima de 𝜉 está dada por
𝜎2
𝐸(𝜉|𝑦) = 𝜇 + (𝑦 − 𝜇)
𝜏2 + 𝜎2
con asociados MSE
𝜎 2 𝜏2
𝐸[𝜉 − 𝐸(𝜉|𝑦)]2 = 𝜏2 +𝜎2
Discuta la intuición de estos resultados como 𝜏 2 → ∞ y 𝜏 2 → 0.
13.2. Deducir la representación del espacio de estados para un modelo 𝐴𝑅(𝑝) en [13.1.14] y
[13.1.15] y la representación del espacio de estados para un modelo MA(1) dado en [13.1.17] y
[13.1.18 ] Como casos especiales del modelo ARMA (𝑟, 𝑟 − 1) de [13.1.22] y [13.1.23].
13.3. ¿Es la siguiente una representación válida del espacio de estados de un proceso MA (1)?
Ecuación de estado:
𝜀𝑡+1 0 0 𝜀𝑡 𝜀𝑡+1
[ 𝜀 ]=[ ][ ]+[ 𝜀 ]
𝑡 0 0 𝜀𝑡−1 𝑡
Ecuación de observación:

𝜀𝑡
𝑦𝑡 − 𝜇 = [1 𝜃 ] [𝜀 ]
𝑡−1
13.4 Deducir la ecuación [13.4.5] como un caso especial de [13.4.1] y [13.4.2] para el modelo
especificado en [13.4.3] y [13.4.4] mediante el análisis de la recursión del filtro de Kalman para este
caso.
13.5 Consideremos una representación MA(1) particular de la forma de [13.3.1] a [13.3.12]
parametrizada por (𝜃, 𝜎 2 ) con |𝜃| < 1. La representación no invertible para el mismo proceso está
parametrizada por (𝜃̃ , 𝜎̃ 2 ) con 𝜃̃ = 1/𝜃. El pronóstico generado por el filtro de Kalman utilizando
la representación no reversible satisface.
𝑦̂𝑡+1|𝑡 = 𝐀′ 𝐱 𝑡+1 + 𝐇 ̃ ′ 𝝃̂𝑡+1|𝑡 = 𝜇 + 𝜃̃ 𝜀̃𝑡|𝑡
donde 𝜀̃𝑡|𝑡 = {𝜎̃ 2 /[𝜎̃ 2 + 𝜃̃ 2 𝑝̃𝑡 ]}. {𝑦𝑡 − 𝜇 − 𝜃̃ 𝜀̃𝑡−1|𝑡−1 }. El MSE de esta previsión es
2
𝐸(𝑦𝑡+1 − 𝑦̂𝑡+1|𝑡 ) = 𝐇 ̃ ′𝐏
̃𝒕+𝟏|𝒕 𝐇 ̃ +𝐑 ̃ = 𝜎̃ 2 + 𝜃̃ 2 𝑝̃𝑡+1
donde 𝑝̃𝑡+1 = (𝜎̃ 2 𝜃̃ 2𝑡 )/(1 + 𝜃̃ 2 + 𝜃̃ 4 + ⋯ + 𝜃̃ 2𝑡 ). Mostrar que este pronóstico y MSE son
idénticos a los del proceso parametrizado usando la representación invertible (𝜃, 𝜎 2 ). Deduzca que
la función de verosimilitud dada por [13.4.1] y [13.4.2] toma el mismo valor en (𝜃, 𝜎 2 ) como lo
hace en (𝜃̃ , 𝜎̃ 2 ).
13.6 Demuestre que 𝜀𝑡 en la ecuación [13.5.22] es fundamental para 𝑦𝑡 . ¿Qué principio del filtro de
Kalman garantiza que este sea el caso? Demuestre que la primera autocovariancia del proceso
implícito de error MA(1) está dada por −(𝜙 − 𝐾)𝐸(𝜀𝑡2 ) =
2
−𝜙𝜎𝑤
Mientras que la varianza es
[1 + (𝜙 − 𝐾)2 ]𝐸(𝜀𝑡2 ) = (1 + 𝜙 2 )𝜎𝑤2 + 𝜎𝑣2
Deducir estas expresiones de forma independiente, utilizando el enfoque de las sumas de los
procesos ARMA en la sección 4.7.
13.7 Considere nuevamente el MA(1) invertible de las ecuaciones [13.3.1] a [13.3.12]. Encontramos
que el valor de estado estacionario de 𝐏𝑡|𝑡−1 está dado por
2
𝑃 = [𝜎 0]
0 0
A partir de esto, deducir que el valor de estado estacionario de P = 0 para S = 0, 1. Dar la intuición
para este resultado.
Referencias del Capítulo 13

Anderson, Brian D.O., and john B.Moore. 1979.optimal filtering. Englewood Cliffs, N,J.: Prentice-
Hall.
Burmeister, Edwin, and Kent D.Wall.1982. Kalman Filtering Estimation of Unobserved Rational
Expectation with an Application to the German Hyperinflation. Journal of econometrics 20:255-84.
_______.________. and James D. Hamilton. 1986. “Estimation of Unobserved Expected Montly
Inflation Using Kalman Filtering”. Journal of Business and Economics Statistics 4:147-60.
Cains. Peter E. 1988. Linear Stochastic Systems. New York: Wiley.
Dempster. A. P., N. M. Laird, and D. B. Rubin. 1977. “Maximum Likelihood from Incomplete
Data via the EM Algorithm”. Econometric Reviews 3:1-100.
Fama. Eugene F., and Michael R. Gibbons. 1982. “Inflation. Real Returns, and Capital
Investement”. Journal of Monetary Economics 9:297-323.
Gevers. M., and V. Wertz. 1984. “Uniquely Identifiable State-Space and ARMA Parameterizations
for Multivariable Linear Systems. “ Automatica 20:333-47.
Ghosh. Damayanti. 1989. “Maximum Likelihood Estimation of the Dynamic Shock-Error Model.
“Journal of Econometrics 41:121-43.
Hamilton.James D. 1985. “Uncovering Financial Market Expectations of Inflation. “Journal of
Political Economy 93:1224-41.
_____. 1986. “A Standard Error for the Estimaed State Vector of a State-Space Model”. Journal of
Econometrics 33:387-97.

Hannan. E. J. 1971. “The Identification Problem for Multiple Equation Systems with Moving
Average Errors”. Econometrica 39:387-97.
Harvey. Andrew. and G. D. A. Phillips. 1979. “Maximium Likelihood Estimation of Regression
Models with Autoregressive-Moving Average Disturbances”. Biometrika 66:49-58.
Kalman. R. E. 1960. “A New Approach to Linear Filtering and Prediction Problems”. Journal of
Basic Engineering, Transactions of the ASME Series D. 82:35-45.
____. 1963. “New Methods in Wiener Filtering Theory”. In Jhon L. Bogdanoff and Frank Kozin.
Eds. Proceedings of the First Symposium of Engineering Applications of Random Function
Theory and Probability. 270-388. New York: Wiley.
Litterman, Robert B. 1986. “ Forecasting with Bayesian Vector Autoregressions – Five Yearsof
Experience. “ Journal of Busines and Economic Statistics 4:25-38.
Meinhold. Richard J., and Nozer D. Singpurwalla. 1983. “Understanding the Kalman Filter”.
American Statistician 3.7:123-27.
Nicholls, D.F., and A. R. Pagan. 1985.”Varying Coefficient Regression”. in E. J. Hannan, P.R.
Krishnaiah, and M. M. Rao, eds., Hanbook of Statistics. Vol. 5. Amsterdam: North-Holland.
Pagan, Adrian. 1980. “Some Identification and Estimation Results for Regression Models with
Stochastically Varying Coefficients”. Journal of Econometrics 13:341-63.
Rothenberg, Thomas J. 1971. “Identification in Parametric Models”. Econometrica 39:577-91.
Shumway. R.H., and D.S. Stoffer. 1982. “An Approach to Time Series Smoothing and Forecasting
Using the EM Algorithm”. Journal of Time Series Analysis 3:253-64.
Sims, Christopher A. 1982. “ Police Analysis with Econometric Models”. Brookings Papers on
Economic Activity 1:107-52.
Stock, James H., and Mark W. Watson. 1991. “ A Probability Model of the Coincident Economic
Indicators”. In Kajal Lahiri and Geoffrey H. Moore. Eds. Leading Economic Indicators: New
Approaches and Forecasting Records. Cambridge. England: Cambridge University Press.
Tanaka, Katsuto. 1983. “Non-Normality of the Lagrange Multiplier Statistic for Testing the
Constancy of Regression Coefficients”. Econometrica 51:1577-82.
Wall, Kent D. 1987. “Identification Theory for Varying Coefficient Regression Models”. Journal of
Time Series Analysis 8:359-71.
Watson, Mark W. 1989.”Recursive Solution Methods for Dynamic Linear Rational Expectations
Models.” Journal Econometrics 41:65-89.
______And Robert F. Engle. 1983. “Alternative Algorithms for the Estimation of Dynamic Factor,
MIMIC, and Varyng Coefficient Regression Models.” Journal of Econometrics 25.

14
Método Generalizado
de Momentos
Supongamos que tenemos un conjunto de observaciones sobre una variable 𝑦𝑡 cuya ley de
probabilidad depende de un vector desconocido de parámetros θ. Un enfoque general para estimar
θ se basa en el principio de máxima verosimilitud - elegimos como estimamos 𝜽 ̂ el valor para el cual
los datos serían más probables de haber sido observados. Un inconveniente de este enfoque es que
nos obliga a especificar la forma de la forma de la función de verosimilitud.
Este capítulo explora un principio alternativo para la estimación de parámetros conocido
como método generalizado de momentos (GMM). Aunque las versiones de este enfoque se han
utilizado durante mucho tiempo, la declaración general de GMM en la que se basa este capítulo fue
desarrollada recientemente por Hansen (1982). La principal ventaja de GMM es que requiere
especificación de ciertas condiciones de momento en lugar de la densidad completa. Esto también
puede ser un inconveniente, ya que GMM a menudo no hace un uso eficiente de toda la
información en la muestra.
La Sección 14.1 introduce las ideas detrás de la estimación de GMM y deriva algunos de los
resultados clave. La sección 14.2 muestra cómo varios otros estimadores pueden ser vistos como
casos especiales de GMM, incluyendo mínimos cuadrados ordinarios, estimación de variables
instrumentales, mínimos cuadrados de dos etapas, estimadores para sistemas de ecuaciones
simultáneas no lineales y estimadores para modelos de expectativas racionales dinámicas. Las
extensiones y la discusión adicional se proporcionan en la Sección 14.3. En muchos casos, incluso
la estimación de máxima verosimilitud puede considerarse como un caso especial de GMM. La
sección 14.4 explora esta analogía y la utiliza para derivar algunas propiedades asintóticas generales
de máxima verosimilitud y estimación de casi máxima verosimilitud.
14.1. Estimación por el Método Generalizado de Momentos
Método Clásico de Momentos

Sería útil introducir las ideas detrás de GMM con un ejemplo concreto. Considere una
variable aleatoria 𝑌𝑡 , dibuje a partir de una distribución t estándar con v grados de libertad, de modo
que su densidad sea
Γ[(𝑣 + 1)/2]
𝑓𝑌𝑡 (𝑦𝑡 ; 𝑣) = [1 + (𝑦𝑡2 /𝑣)]−(𝑣+1)/2 ]
(𝜋𝑣)1/2 Γ(𝑣/2)
[14.1.1]
donde Г (. ) es la función gamma. Supongamos que tenemos un i.i.d. muestra de tamaño
𝑇(𝑦1 , 𝑦2 , … , 𝑦𝑇 ) y desea estimar los grados de libertad parámetro v. Un enfoque es estimar v por
máxima verosimilitud. Este enfoque calcula la probabilidad de log de la muestra
426 Capítulo 14 | Método Generalizado de Momentos

𝑇
ℒ(𝑣) = ∑ log 𝑓𝑌𝑡 (𝑦𝑡 ; 𝑣)

𝑡=1
y elige como estimación V el valor para el cual ℒ(𝑣) es mayor.

Un principio alternativo sobre el cual la estimación v puede estar basada razona como
sigue. Siempre que 𝑣 > 2, una variable t estándar tiene una media poblacional cero y una varianza
dada por
𝜇2 ≡ 𝐸(𝑌𝑡2 ) = 𝑣/(𝑣 − 2) [14.1.2]
A medida que el parámetro v de los grados de libertad va al infinito, la varianza [14.1.2] se aproxima
a la unidad y la densidad [14.1.1] se aproxima a la de una variable estándar N (0,1). Sea 𝜇̂ 2.𝑇 el valor
cuadrado medio de y observado en la muestra real:
𝜇̂ 2.𝑇 ≡ (1/𝑇) ∑𝑇𝑡=1 𝑦𝑡2 [14.1.3]
Para el T grande, el momento muestral (𝜇̂ 2.𝑇 ) debe estar cerca del momento de la población (𝜇2 ):
𝑝
𝜇̂ 2.𝑇 → 𝜇2
Recordando [14.1.2], esto sugiere que un estimador consistente de V puede ser obtenido por
encontrar una solución a
𝑣/(𝑣 − 2) = 𝜇̂ 2.𝑇 [14.1.4]
o
2.𝜇̂ 2.𝑇
𝑣̂𝑇 = 𝜇̂ [14.1.5]
2.𝑇 −1
Esta estimación existe siempre que 𝜇̂ 2.𝑇 > 1, es decir, siempre que la muestra muestre más
variabilidad que la distribución de N (0,1). Si en cambio observamos 𝜇̂ 2.𝑇 ≤ 1, la estimación de los
grados de libertad sería infinita - una distribución de N (0,1) se ajusta mejor a la muestra que al
segundo miembro de la familia t.
El estimador derivado de [14.1.4] se conoce como un método clásico de estimadores de
momentos. Una descripción general de este enfoque es la siguiente. Dado un vector desconocido
(𝑎 𝑥 1) de parámetros 𝜃 que caracteriza la densidad de una variable observada 𝑦𝑡 , supongamos que
A distintos momentos de la población de la variable aleatoria pueden ser calculados como
funciones de θ, tales como
𝐸(𝑌𝑡𝑖 ) = 𝜇𝑖 (𝜃) para 𝑖 = 𝑖1 , 𝑖2 , … , 𝑖𝑎 [14.1.6]
̂
El método clásico de estimación de momentos de θ es el valor 𝜃𝑇 para el cual estos momentos de la
población son equiparados a los momentos observados de la muestra; es decir, 𝜃̂𝑇 es el valor para el
cual
̂ 𝑻 ) = (1/𝑇) ∑𝑇𝑡=1 𝑦𝑡𝑖
𝜇𝑖 (𝜽 para 𝑖 = 𝑖1 , 𝑖2 , … , 𝑖𝑎
Un ejemplo temprano de este enfoque fue proporcionado por Pearson (1894).
Método Generalizado de Momentos

En el ejemplo de la distribución T que acabamos de exponer, se utilizó un único momento
de muestreo (𝜇̂ 2.𝑇 ) para estimar un solo parámetro poblacional (𝑣). También podríamos haber
hecho uso de otros momentos. Por ejemplo, si 𝑣 > 4, el cuarto momento de población de una
variable 𝑡 estándar es
3𝑣 2
𝜇4 ≡ 𝐸(𝑌𝑡4 ) = ,
(𝑣 − 2)(𝑣 − 4)
Y podríamos esperar que esto esté cerca del cuarto momento de la muestra.
14.1 Estimación por el Método Generalizado de Momentos 427

𝑇
𝜇̂ 4.𝑇 = (1/𝑇) ∑ 𝑦𝑡4

𝑡=1
No podemos elegir el único parámetro V para que coincida tanto con el segundo momento de la
muestra como con el cuarto momento de la muestra. Sin embargo, podríamos tratar de elegir V
para estar lo más cerca posible de ambos, minimizando una función de criterio como
𝑄(𝑣; 𝑦𝑇, 𝑦𝑇−1 , … , 𝑦1 ) ≡ 𝐠 ′ 𝐖𝐠 [14.1.7]
donde
𝑣
{𝜇̂ 2.𝑇 − 𝑣−2}
𝐠≡[ 3𝑣 2
] [14.1.8]
{𝜇̂ 4.𝑇 − (𝑣−2)(𝑣−4)}
Aquí W es una matriz de ponderación simétrica definitiva positiva (2×2) que refleja la importancia
dada para hacer coincidir cada momento. Cuanto mayor es el elemento (1.1) de W, mayor es la
importancia de estar lo más cerca posible de satisfacer [14.1.4].
Una estimación basada en la minimización de una expresión tal como [14.1.7] fue llamada un
estimador "chi-cuadrado mínimo" por Cramer (1946, p.425), Ferguson (1958) y Rothenberg (1973)
y una "distancia mínima Estimador "por Malinvaud (1970). Hansen (1982) proporcionó la
caracterización más general de este enfoque y derivó las propiedades asintóticas para procesos
dependientes en serie. La mayoría de los resultados reportados en esta sección fueron desarrollados
por Hansen (1982), quien describió esto como una estimación por el "método generalizado de
momentos".
La formulación de Hansen del problema de la estimación es la siguiente. Sea 𝐰𝐭 un vector (ℎ×1)
de variables que se observan en la fecha 𝑡, vamos θ denotar un vector de coeficientes desconocido
(𝑎×1), y 𝐡(𝛉, 𝐰𝒕 ) una función de valor vectorial (𝑟×1) 𝐡: (ℝ𝒂 ×ℝ𝒉 ) → ℝ𝒓 . Puesto que 𝐰𝐭 es
una variable aleatoria, también lo es 𝐡(𝛉, 𝐰𝒕 ). Sea 𝛉𝟎 el valor verdadero de θ, y supongamos que
este valor verdadero se caracteriza por la propiedad que
𝐸{𝐡(𝛉0 , 𝐰𝒕 )} = 𝟎 [14.1.9]
Las 𝑟 filas de la ecuación vectorial [14.1.9] a veces se describen como condiciones de ortogonalidad.
Sea 𝒴𝑇 ≡ (𝐰𝑇′ 𝐰𝑇−1 ′
, … , 𝐰1′ )′ un vector (𝑇ℎ×1) que contenga todas las observaciones en una
muestra de tamaño T, y la función de valor vectorial (𝑟×1) 𝐠(𝜃; 𝒴𝑇 ) denote la media de la muestra
de 𝐡(𝛉, 𝐰𝒕 ):
𝐠(𝛉; 𝒴𝑇 ) ≡ (1/𝑇) ∑𝑇𝑡=1 𝐡(𝛉, 𝐰𝒕 ) [14.1.10]
Observe que 𝐠: ℝ𝒂 → ℝ𝒓 . La idea detrás de GMM es elegir θ para hacer que el momento de
muestreo 𝐠(𝜃; 𝒴𝑇 ) sea lo más cercano posible al momento de la población de cero, es decir, el
estimador de GMM 𝜽 ̂ 𝑇 es el valor de θ que minimiza el escalar
𝑄(𝛉; 𝒴𝑇 ) = [𝐠(𝜃; 𝒴𝑇 )]′ 𝐖𝑇 [𝐠(𝜃; 𝒴𝑇 )] [14.1.11]
donde {𝐖𝑇 }∞ 𝑇=1 es una secuencia de matrices de ponderación definidas positivas (𝑟×1) que
pueden ser una función de los datos 𝒴𝑇 . A menudo, esta minimización se logra numéricamente
usando los métodos descritos en la sección 5.7.
El método clásico del estimador de momentos de v dado en [14.1.5] es un caso especial de esta
formulación con 𝐰𝑡 = 𝒚𝒕 , 𝛉 = 𝑣, 𝐖𝑡 = 𝟏 y
𝐡(𝛉, 𝐰𝒕 ) = 𝑦𝑡2 − 𝑣/(𝑣 − 2)
1
g(𝛉; 𝒴𝑇 ) = ( ) ∑𝑇𝑡=1 𝑦𝑡2 − 𝑣/((𝑣 − 2)
𝑇

Aquí, 𝑅 = 𝑎 = 1y la función objetivo [14.1.11] se convierte en
𝑇 2
1
𝑄(𝛉; 𝒴𝑇 ) = {( ) ∑ 𝑦𝑡2 − 𝑣/((𝑣 − 2)}
𝑇
𝑡=1
El menor valor se puede lograr para Q (.) Es cero, que se obtiene cuando v es la magnitud dada en
[14.1.5].
La estimación de v obtenida minimizando [14.1.7] es también un estimador GMM con
𝑟 = 2 y
𝑣
{𝑦𝑡2 − 𝑣−2}
𝐡(𝛉, 𝐰𝒕 ) = [ 3𝑣 2
]
{𝑦𝑡4 − (𝑣−2)(𝑣−4)}
Aquí, g(𝛉; 𝒴𝑇 ) y 𝒘𝑻 serían como se describe en [14.1.7] y [14.1.8].

Se puede considerar también una variedad de otros estimadores como ejemplos de GMM,
incluyendo mínimos cuadrados ordinarios, estimación de la variable instrumental, dos mínimos
cuadrados de etapa, estimadores de ecuaciones simultáneas no lineales, estimadores para modelos
de expectativas racionales dinámicas y en muchos casos incluso máxima verosimilitud. Estas
aplicaciones se discutirán en las Secciones 14.2 a 14.4.
Si el número de parámetros a estimar (𝑎) es el mismo que el número de condiciones de
ortogonalidad (𝑟), entonces típicamente la función objetivo [14.1.11] se minimizará ajustando
𝐠(𝛉̂ 𝑇 ; 𝒴𝑇 ) = 𝟎 [14.1.12]
Si 𝑎 = 𝑟, entonces el estimador GMM es el valor 𝛉 ̂ 𝑇 que satisface estas r ecuaciones. Si en cambio
hay más condiciones de ortogonalidad que los parámetros para estimar (𝑟 > 𝑎), entonces [14.1.12]
no se mantendrá exactamente. ¿Qué tan cerca está el elemento i de 𝐠(𝛉 ̂ 𝑇 ; 𝒴𝑇 ) a cero depende de
cuánto peso la condición de ortogonalidad i es dada por la matriz de ponderación W.
Para cualquier valor de 𝜃, la magnitud del vector (𝑟×1) 𝐠(𝛉, 𝐰𝒕 ) es la media simple de las
realizaciones T del vector aleatorio (𝑟×1) 𝐡(𝛉, 𝐰𝒕 ). Si 𝐰𝒕 es estrictamente estacionario y h(. ) Es
continuo, entonces es razonable esperar que la ley de grandes números se mantenga:
𝒑
𝐠(𝛉, 𝐰𝒕 ) → 𝑬{ 𝐡(𝛉, 𝐰𝒕 )}
La expresión 𝑬{ 𝐡(𝛉, 𝐰𝒕 )} denota una magnitud de población que depende del valor de 𝛉 y de la
ley de probabilidad de 𝐰𝒕 . Supongamos que esta función continúa en 𝛉 y que 𝛉0 es el único valor
de 𝛉 que satisface [14.1.9]. Entonces, bajo condiciones de estacionariedad, continuidad y momento
̂ 𝑇 que minimiza [14.1.11] ofrece una estimación consistente de 𝛉𝟎 ;
bastante generales, el valor de 𝛉
Véase Hansen (1982), Gallard y White (1988), y Andrews y Fair (1988) para más detalles.
Matriz óptima de ponderación

Supongamos que cuando se evalúa al valor verdadero 𝛉𝟎, el proceso {𝒉(𝜽𝟎 , 𝒘𝒕 )𝜶𝒕 } = −𝜶 es
estrictamente estacionario con media cero y v matriz de autocovariancia dada por
𝚪𝒗 = E {{[ℎ(θ0, wτ )][ℎ(𝜃0, 𝑤𝑡 )]´} [14.1.13]
Suponiendo que estas autocovariancias son absolutamente sumables, defina

∝
𝑺 ≡ ∑ 𝚪𝟏++
=−∝
[14.1.14]
Recordemos de la discusión en la Sección 10.5 que S es la varianza asintótica de la media muestral
de 𝒉(𝜽𝟎 , 𝒘𝒕 ):
𝑆 = lim 𝑇. 𝐸{[𝑔(𝜽𝟎 : 𝒚𝑻 )][(𝜽: 𝒚𝑻 )]´} .
𝑇−𝑋

El valor óptimo para la matriz de ponderación 𝒘𝑻 en [14.1.11] resulta dado por 𝑺−𝟏 , la
inversa de la matriz de varianza asintótica. Esa es la varianza asintótica mínima para el estimador de
GMM se obtiene 𝜽 ̂ 𝑻 cuando 𝜽 ̂ 𝑻 se elige para minimizar
𝑄(𝜽: 𝒚𝑻 ) = [𝒈(𝜽: 𝒚𝑻 )]´𝑆 −1 [𝒈(𝜽: 𝒚𝑻 )] [14.1.15]

Ver la intuición detrás de esta afirmación. Considerar un modelo lineal simple en el que nosotros
tenemos r diferentes observaciones (𝑦1 , 𝑦1, 𝑦2 … . . … 𝑦𝑟 ) Con una media de población diferente
para cada observación (𝑢1 , 𝑢1, 𝑢2 … . . … 𝑢𝑟 ) .Por ejemplo 𝑦1 , y podría denotar la media en una
muestra de 𝑇1 observación sobre alguna variable, 𝑦2 la media de la muestra de una segunda
muestra, y así sucesivamente. En ausencia de restricciones, las estimaciones serían simplemente
𝜇̂ 𝑖 = 𝑦𝑖 Para i=1,2,……r. En presencia de restricciones lineales a través de la 𝛍´S las mejores
estimaciones que son funciones lineales de los y's se obtendría por mínimos cuadrados
generalizados. Recuerde que la estimación GLS de 𝝁 es el valor que minimiza
(𝒚 − 𝝁), 𝛀−𝟏 (𝒚 − 𝝁) [14.1.16]
Donde y = (𝑦1 , 𝑦1, 𝑦2 … . . … 𝑦𝑟 )´, (𝑢1 , 𝑢1, 𝑢2 … . . … 𝑢𝑟 )´´ ,y 𝛺 es la varianza- Matriz de
covarianza de 𝒚 − 𝝁:
𝛀 = 𝐄[(𝒚 − 𝝁)(𝒚 − 𝝁)´ ]
La matriz de ponderación óptima a utilizar con la forma cuadrática en [14.1.16] se da por
𝛀−𝟏 Así como 𝛀 en [14.1.16] es la varianza de (𝒚 − 𝝁) , sí S en [14.1.15] es la varianza asintótica
de √𝑇 ⋅ 𝒈(⋅).
Si el proceso vectorial {𝑸(𝜽: 𝒀𝑻 )}1𝛼 = −𝛼 estuviera correlacionado en serie, entonces el
matriz S podría ser estimado consistentemente
𝐒𝒕 = (𝟏/𝑻) ∑𝑻𝒕=𝟏[𝒉(𝜽𝒕 𝐰𝛕 )][𝒉(𝜽𝒕 𝒘𝒕 )]´ [14.1.17]

Cálculo de esta magnitud requiere conocimiento de 𝛉𝟎, . Aunque a menudo también resulta que.
𝒑
̂𝑻 = (𝟏/𝑻) ∑𝑻𝒕=𝟏[𝒉(𝜽
𝑺 ̂ 𝒕 𝐰𝛕 )][𝒉(𝜽
̂ 𝒕 𝒘𝒕 )]´ → 𝑺 [14.1.18]
Para 𝜽̂ 𝒕 cualquier estimación consistente de 𝛉𝟎, Suponiendo que 𝒉(𝛉𝟎, 𝐰𝛕 ) está en serie sin
correlación.
Tenga en cuenta que esta descripción de la matriz de ponderación óptima es algo circular -
antes de poder estimar θ. necesitamos una estimación de la matriz S, y antes de poder estimar la
matriz S, necesitamos una estimación de θ. El procedimiento práctico utilizado en GMM es como
sigue. Una estimación inicial 𝜽̂ (𝟎) se obtiene minimizando [14.1.11] con una matriz de ponderación
𝑻
arbitraria tal como 𝑾𝑻 = 𝑰 Esta estimación de θ se utiliza entonces en [14.1.18] para producir una
(0) (0) −1
estimación inicial 𝑆̂𝑇 . Expresión [14.1.11] se minimiza entonces con 𝑾𝑇 = [𝑆̂𝑇 ] para llegar a
(1) ̂𝒋𝒕 ≅ 𝛉
̂𝒋+𝟏
una nueva GMM estimar 𝜃̂𝑇 Proceso se puede iterar hasta 𝛉 𝒕 , aunque la estimación
̂ (𝟎)
basada en una única iteración 𝜽𝑻 tiene la misma distribución asintótica que la basada en un
número arbitrariamente grande de iteraciones. Sin embargo, la iteración ofrece la ventaja práctica de
las estimaciones resultantes. Son invariantes con respecto a la escala de los datos ya la matriz de
ponderación inicial para. 𝐰𝛕
𝛼
Por otro lado, si el proceso vectorial {𝒉(𝛉𝟎, 𝐰𝛕 )}1=−𝛼 está correlacionado en serie
La estimación de Newey-West (1987) de S podría utilizarse:

𝑞
𝑣
̂𝑻 = 𝚪̂0,𝑇 + ∑ {1 − [
𝑺 ]} (𝚪̂𝑣,𝑇 + 𝚪̂𝒗,𝑻
´
)
(𝑞 + 1)
𝑣=1
[14.1.19]
Donde

𝑇
𝚪̂0,𝑇 = (1⁄𝑇) ∑ [𝒉(𝜽 ̂ , 𝒘𝑻 )]´

̂ , 𝒘𝑻 )] [ℎ(𝜽
𝑡=𝑣+1
[14.1.20]
Con 𝜽 ̂ otra vez una estimación consistente inicial de 𝜽𝟎 . Alternativamente, los estimadores
propuestos por Gallant (1987), Andrews (1991). O Andrews y Monahan (1992) que se discutieron
en la Sección 10.5 también podrían aplicarse en este contexto.
Distribución asintótica de las estimaciones de GMM

Sea 𝜽 ̂ 𝑻 el valor que minimiza
̂(−1)
[𝐠(𝜽, 𝒚𝑻 )]´𝑺 𝑇 [(𝜽, 𝒚𝑻 )] [14.1.21]
𝒑
Con 𝑺̂ 𝑇 considerado como fijo con respecto a θ y 𝒔̂𝑻 → 𝐬. Suponiendo un óptimo interior, esta
minimización se logra estableciendo la derivada de [14.1.21] con respecto a θ a cero. Por lo tanto, la
estimación GMM 𝜽 ̂ 𝑻, es típicamente una solución al siguiente sistema de ecuaciones no lineales:
𝝏𝐠(𝜽,𝒚𝑻 ) ´
{ ̂(−𝟏) ×[𝐠 (𝜽
|𝜽=𝜽̂𝑻 } ×𝑺 ̂ 𝑻, 𝒚𝑻 )] =𝟎 [14.1.22]
𝝏𝜽´ 𝑻
Aquí [𝝏𝐠(𝜽, 𝒚𝑻 )⁄𝝏𝜽´]|𝜽=𝜽̂𝑻 Denota la matriz (r x a) de las derivadas de la función, 𝐠 (𝜽𝑻, 𝒚𝑻 ).

donde estos derivados se evalúan en la estimación GMM 𝜽 ̂ 𝑇,
Puesto que 𝐠 (𝜽𝟎, 𝒚𝑻 ) es la media muestral de un proceso cuya media poblacional es cero, g(.)
Debe satisfacer el teorema del límite central dado condiciones tales como estricta estacionariedad
de 𝐰𝐭 , continuidad de h(θ, 𝐰𝛕 ) y restricciones en momentos más altos. Así, en muchos casos,
debería ser el caso de que
𝐋
√𝑇 ⋅ 𝐠(𝛉𝟎 ; 𝒚𝑻 ) → 𝑁(𝟎, 𝑺)
No mucho más que esto es necesario para concluir que el GMM estimador es asintóticamente
Gaussiana y para calcular su varianza asintótica. El seguimiento Propuesta, adaptada de Hansen
(1982), se demuestra en el apéndice 14.A al final de este capítulo.
Proposición 14. 1: Sea 𝒈(𝜽𝟎 ; 𝒚𝑻 ) diferenciable en θ para todo 𝒚𝑻 y 𝜽 ̂ 𝑻, sea la GMM que satisface
𝜶 𝒑
[14.1.22] con r ≥ a. Sea {𝑺 ̂𝑻 } una secuencia de matrices definidas positivas (r x r) tales que 𝒔̂𝑻 → 𝒔, con S
𝑻=𝟏
definida positiva. Supongamos, además, que las siguientes consideraciones:
𝒑
̂ 𝑇 → 𝛉𝟎
(a) 𝜽
L
(b) √𝑇 ⋅ 𝐠(𝛉𝟎 ; 𝒚𝑻 ) → 𝑁(𝟎, 𝑺); y
𝑝
̂ ∗ → 𝛉0
(c) Para cualquier secuencia {𝜽∗𝑇 }𝛼𝑇=1 satisface 𝜽 es el caso que
𝑇
𝝏𝐠(𝜽,𝒀𝑻 ) 𝝏𝐠(𝜽,𝒀𝑻 )
plim { 𝝏𝜽´
|𝜽=𝜽̂𝑻 } = 𝑝𝑙𝑖𝑚 { 𝝏𝜽´
|𝜽=𝜽̂𝟎 } ≡ 𝑫´ [14.1.23]
Con las columnas de D´ 'linealmente independientes.

Entonces
L
√𝑇 (𝜽̂ 𝑇 − 𝛉0 ) → 𝑁(𝟎, 𝑽) [14.1.24]
Donde
𝑽 = {𝑫𝑺−1 𝑫´}−1
̂ 𝑻 aproximadamente como
La Proposición 14.1 implica que podemos tratar 𝜽
̂
̂ 𝑻 ≈ 𝑵 (𝛉0 , 𝑽𝑻 )
𝜽 𝑻
[14.1.25]

Donde
𝑽 𝑇 = {𝑫̂ 𝑇̂
𝑺−1 ̂ ´ −1
𝑇 𝑫𝑇 }
La estimación 𝒔̂𝑻 puede construirse como en [14.1.18] o [14.1.19], mientras que
𝝏𝐠(𝜽, 𝒚𝑻 )
̂ ´𝑇 =
𝑫 |𝜽=𝜽̂𝒕
(𝑟×𝑎) 𝝏𝜽´
Prueba de las restricciones de identificación excesiva

Cuando el número de condiciones de ortogonalidad excede el número de parámetros a
estimar (r > a), el modelo es sobre identificado en que se usaron más condiciones de ortogonalidad
de las que se necesitan para estimar θ. En este caso. Hansen (1982) sugirió una prueba de si todos
los momentos muestrales representados por ̂ 𝑇, 𝒚 𝑇 ) son tan cercanos a cero como se
g (𝜽
esperaría si los momentos de la población correspondientes E {𝒉(𝛉𝟎, 𝐰𝛕 )} fueran verdaderamente
cero.
De la Proposición 8.1 y la condición (b) en la Proposición 14.1, observe que si las condiciones de
ortogonalidad de la población en [14.1.9] eran todas verdaderas, entonces.
𝐋
[√𝑇 ⋅ 𝐠(𝛉𝟎 ; 𝒚𝑻 )]´𝑆 −1 [√𝑇 ⋅ 𝐠(𝛉𝟎 ; 𝒚𝑻 )] → 𝑿𝟐 (𝒓) [14.1.26]
En [14.1.26], la función de momento de muestreo 𝐠(𝛉; 𝒚𝑻 ) se evalúa con el valor verdadero de 𝛉𝟎,
. La primera suposición podría ser que la condición [14.1.26] también se cumple cuando [14.1.26] se
evalúa en la estimación de GMM 𝜽 ̂ 𝑇 . Sin embargo, éste no es el caso. La razón es que [14.1.22]
implica que a combinación lineal diferente del (r x 1) vector 𝐠 (𝜽 ̂ 𝑇; 𝒚 𝑇 ) es idénticamente cero,
̂
siendo estas las combinaciones lineales obtenidas cuando 𝐠 (𝜽𝑇, 𝒚 𝑇 ) es premultiplicada por la
matriz (axr)
´
𝝏𝐠(𝜽, 𝒀𝑻 )
{ ̂−1
|𝜽=𝜽̂𝒕 } ×𝑺 𝑇
𝝏𝜽´
Por ejemplo, cuando a = r. Todas las combinaciones lineales de g (𝜽 ̂ 𝑇, 𝒚 𝑇 ) son idénticamente cero,
̂ 𝑇, fue reemplazado por 𝜽
y si 𝜽 ̂ 𝑇, la magnitud en [14.1.26] sería simplemente igual a cero en todas
las muestras.
Dado que el vector 𝐠 (𝜽 ̂ 𝑻, 𝒚𝑻 ) caninos (r - a) no generan variables aleatorias. Resulta que una
prueba correcta de las restricciones de sobre identificación para el caso cuando r > a se puede basar
en el hecho que
𝐋
̂ 𝑻, 𝒚𝑻 )]´𝑆 −1 [√𝑇 ⋅ 𝐠 (𝜽
[√𝑇 ⋅ 𝐠 (𝜽 ̂ 𝑻, 𝒚𝑻 ) → 𝑿𝟐 (𝒓 − 𝒂)] [14.1.27]
Por otra parte, esta estadística de prueba es trivial para calcular, ya que es simplemente el tamaño de
la muestra T veces el valor alcanzado para la función objetivo [14.1.21] a la estimación de GMM 𝜽 ̂𝑻
𝟐
Lamentablemente, la prueba 𝑿 de Hansen basada en [14.1.27] puede fácilmente no detectar un
modelo mal especificado (Newey, 1985). Por lo tanto, es a menudo aconsejable complementar esta
prueba con otras descritas en la Sección 14.3.
14.2. Ejemplos
Esta sección muestra cómo las propiedades de una variedad de diferentes estimadores se pueden
obtener como casos especiales de los resultados de Hansen para el método generalizado de
momentoEstimación. Para facilitar esta discusión. Primero resumimos los resultados de la sección
anterior.
Resumen de GMM

Se supone que el modelo estadístico implica un conjunto de r condiciones de ortogonalidad
de la forma
𝐸{ℎ(𝛉𝟎, 𝐰𝛕 )} = 0 ] [14.2.1]
(𝑟×1) (𝑟×1)
Donde 𝒘𝒕 es un vector estrictamente estacionario de las variables observadas en la fecha es
el verdadero valor de un vector de parámetros desconocido (a × 1), y h (.) es un vector
diferenciable función vectorial dimensional con r ≥ a. La estimación GMM 𝜽 ̂ 𝑻, es el valor de θ
que minimiza
[𝐠 (𝜽; 𝒚𝑻 )]´ 𝑆̂ −1[𝐠 (𝜽; 𝒚𝑻 )]
(1×𝑟 ) (𝑟×𝑟) (𝑟×1)
[14.2.2]
Dónde
𝑇
𝐠 (𝜽; 𝒚𝑻 ) ≡ ∑ 𝐠( 𝛉, 𝐰𝛕 ).
(𝑟×1)
𝑖=1
(𝑟×1)
[14.2.3]
̂ 𝑇 es una estimación de
Y 𝑺
𝑇 ×
1
𝐒 = lim ( ) ∑ ∑ 𝐸 [𝐡(𝛉𝟎 ; 𝑾𝑻 )]. [𝐠(𝛉𝟎 ; 𝑾𝟏−𝒗 )]´.
(𝑟×𝑟) 𝑇 →× 𝑇 (1×𝑟) (1×𝑟)
𝑖=1 =−𝛼
[14.2.4]
La estimación de GMM se puede tratar como si
̂𝑇
𝜽 ̂ 𝑇 ⁄𝑻)
𝑵(𝛉𝟎 ; 𝑽
≈ [14.2.5]
(𝑎×1) (𝑎×1)(𝑎×𝑎)
Dónde
𝑽̂ 𝑇 = {𝑫 ̂−1
̂𝑇 . 𝑺 ̂ ´ −1
𝑇 . 𝑫𝑇 }
(𝑎×𝑎) (𝑎×𝑟)(𝑟×𝑟)(𝑟×𝑢)
[14.2.6]
Y
̂´ = {𝝏𝐠(𝜽, 𝒚𝑻 ) | ̂ }
𝑫 𝒕 𝜽=𝜽𝒕
(𝒓×𝒂) 𝝏𝜽´
[14.2.7]
Ahora exploramos cómo estos resultados serían aplicados en varios casos especiales.
Mínimos cuadrados ordinarios

Consideremos el modelo de regresión lineal estándar.
𝑦𝑡 = 𝑿′𝒕 𝜷 + 𝑢 𝑇 [14.2.8]
Para x, a (k x I) vector de variables explicativas. La suposición crítica necesaria
Para justificar la regresión OLS es que la regresión residual en 𝒖𝒕 no está correlacionada con las
variables explicativas:
𝐸(𝒙𝒕 𝑢𝑡 ) = 0 [14.2.9]
Bajo estricta estacionariedad, la magnitud
𝐸{[𝐡(𝛉𝟎 ; 𝑾𝑻 )][𝐠(𝛉𝟎 ; 𝑾𝟏−𝒗 )]}´ = 𝛤𝑡
No. Dependen de r, La expresión en el texto es más general de lo necesario bajo el supuesto. Esta
expresión es apropiada para una caracterización de GMM que no asuma estricta estacionaria. La
expresión en el texto también es útil para sugerir estimaciones de S que pueden usarse en varios
casos especiales descritos más adelante en esta sección
14.2 Ejemplos 433

En otras palabras el verdadero valor 𝜷𝟎 se supone que satisface la condición
𝐸[𝒙, (𝑦, −𝑥𝑡´ 𝜷𝟎 )] = 0 [14.2.10]
Expresión [14.2.10] describe k condiciones de ortogonalidad de la forma de [14.2.1], en la que
𝒘𝒕 = (𝑦𝑡 , 𝒙´𝒕 )´ , θ = β y
𝒉(𝜽, 𝒘𝒕 ) = 𝒙𝑡 (𝑦𝑡 − 𝒙´𝒕 𝜷) [14.2.11]
El número de condiciones de ortogonalidad es el mismo que el número de parámetros
desconocidos en β, de modo que r = a = k. Por lo tanto, el modelo de regresión estándar podría
ser visto como una especificación GMM apenas identificada. Puesto que se acaba de identificar, la
estimación de GMM de β es el valor que establece el valor medio simple para [14.2.11] igual a cero:
𝑻
̂ 𝑻)
̂ 𝑻, 𝒚𝑻 ) = (𝟏⁄𝑻) ∑ 𝒙𝒕 (𝑦𝑡 − 𝒙´𝒕 𝜷
0 = 𝐠 (𝜽
𝒕=𝟏
[14.2.12]
Reordenar [14.2.12] resulta en
𝑇 𝑇
∑ 𝑥𝑡 , 𝑦𝑡 = {∑ 𝑥𝑡 𝑥𝑡´ } 𝛽̂𝑡
𝑡=1 𝑡=1
O
𝑇 𝑇
𝛽̂𝑡 = {∑ 𝑥𝑡 , 𝑦𝑡 } −1
{∑ 𝑥𝑡 , 𝑦𝑡 } ,
𝑡=1 𝑡=1
[14.2.13]
Cuál es el estimador OLS habitual. Por lo tanto, OLS es un caso especial de GMM.
Obsérvese que al derivar el estimador GMM en [14.2.13] supusimos que el residuo no
estaba correlacionado con las variables explicativas, pero no hicimos ninguna otra suposición sobre
heteroscedasticidad o correlación serial de los residuos.
En presencia de heteroscedasticidad o correlación serial, OLS no es tan eficiente como GLS.
Porque GMM utiliza la estimación OLS, incluso en presencia de heterosedasticidad o correlación
en serie. GMM en general no es eficiente. Sin embargo, recuerde de la sección 8.2 que todavía se
puede usar OLS en presencia de heteroscedasticidad o correlación serial. Siempre que se cumpla la
condición [14.2.9], la OLS arroja una estimación consistente β, aunque las fórmulas para errores
estándar deben ajustarse para tener en cuenta la heterocedasticidad o autocorrelación.
La expresión de GMM para la varianza de ̂ 𝜷𝑇 está dada por [14.2.6]. Diferenciando [14.2.11],
vemos que
̂𝑇´ =
𝐷 |𝜽=𝜽̂𝒕
𝝏𝜽´
𝑇
𝜕𝒙𝒕 (𝑦𝑡− 𝒛´𝒕 𝜷)
= (1⁄𝑇) ∑ |𝛽=𝛽𝑇
𝜕𝛽 ´
𝑡=1
𝑇
− (1⁄𝑇) ∑ 𝑿𝒕 𝑿´𝒕
𝑖=1
[14.2.14]
Sustituyendo [14.2.11] en [14.2.4] resulta en

𝑥
𝑺 = lim (1⁄𝑇) ∑ 𝐸 {𝒖𝒕 𝒖𝒕−𝒗 𝒙𝒕 𝒙´𝒕−𝒗 }

𝑇→𝑥
𝑣=−𝑥
[14.2.15]

Supongamos que 𝒖𝒕 se considera como condicional homoscedasticidad y serialmente no
correlacionado:
𝟐 ´
𝑬{𝒖𝒕 𝒖𝒕−𝒗 𝒙𝒕 𝒙´𝒕−𝒗 } = { 𝝈 𝑬𝑿𝒕 𝑿𝒕 𝑠𝑖 𝑣 = 0
𝟎 𝑠𝑖 𝑣 ≠ 0
En este caso, la matriz en [14.2.15] debe ser estimada consistentemente por
𝑇
̂𝑇 =
𝑺 𝜎̂𝑇2 (1⁄𝑇) ∑ 𝑿𝒕 𝑿´𝒕
𝑖=1
[14.2.16]
Donde
𝑇
̂ 𝟐𝑻
𝝈 ̂ 𝟐𝒕
= (1⁄𝑇) ∑ 𝒖
𝑖=1
Para 𝒖𝑡 = 𝑦𝑡 − 𝒙´𝒕 𝜷𝑰 el OLS residual. La sustitución de [14.2.14] y [14.2.16] en [14.2.6] produce
una matriz de varianza-covarianza para la estimación de la MCO 𝜷̂ 𝑻 de
𝑇 𝑇 −1 𝑇
̂ 𝑇 = (1⁄𝑇 )
(1⁄𝑇)𝑽 {(1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕 [𝜎̂𝑇2 (1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕 ] (1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕 }−1
𝑖=1 𝑖=1 𝑖=1
𝑇 −1
= 𝜎̂𝑇2 [ ∑ 𝒙𝒕 𝒙´𝒕 ]
𝑖=1
Aparte de la estimación de 𝝈𝟐 , esta es la expresión habitual de la varianza del estimador MCO en
estas condiciones.
Por otro lado, supongamos que es condicionalmente heteroscedástica y correlacionada en
serie. En este caso, la estimación de S propuesta en [14.1.19] sería
𝑞
̂ 𝑇 = 𝚪̂0,𝑇 + ∑{1 − [(𝑞 + 1)]} (𝚪̂𝒗𝑻 + 𝚪𝒗,𝑻

𝑺 ´
)
𝑣=1
Donde
𝑇
𝚪̂𝑣𝑇 = (1⁄𝑇) ∑ 𝑢̂𝑡 𝑢̂𝑡−𝑣 𝒙𝒕 𝒙´𝒕−𝒗

𝑖=𝑣+1
̂𝑻
Bajo estos supuestos, de GMM la aproximacion de la varianza y covarianza de la matriz 𝜷
would be
𝑇 𝑇
̂ 𝒕 − 𝜷)(𝜷
𝑬[(𝜷 ̂ 𝑻 − 𝜷 )´] = (1⁄𝑇) {(1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕 ̂−𝟏
𝑺𝑻 (1⁄𝑇) (1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕 }−1
𝑖=1 𝑖=1
𝑇 −1 𝑇 −1
= 𝐓 [∑ 𝒙𝒕 𝒙´𝒕 ] ̂𝑻 [∑ 𝒙𝒕 𝒙´𝒕 ]
𝑺
𝑖=1 𝑖=1
uál es la expresión derivada anterior en la ecuación [10.5.21]. Los errores estándar de la
heteroscedasticidad de White (1980) en [8.2.35] se obtienen como un caso especial cuando q = 0
Estimación de variable instrumental

Consideremos un médelo lineal
𝑦𝑓 = 𝒛´𝒕 𝜷 + 𝑦𝑡 [14.2.17]
Dónde 𝒛𝒕 está un vector (k x 1) de variables explicativas. Supongamos ahora que algunas de las
variables explicativas son endógenas, de modo que E(𝒛𝒕 𝑢𝑡 ) ≠ 𝟎 Sea xt un vector (r x 1) de
variables explicativas predeterminadas que están correlacionadas pero no correlacionadas con 𝑍𝑡
pero no correlacionados con u t :
𝐸(𝒙𝒕 𝑢𝑡 ) = 0
Las r condiciones de ortogonalidad son ahora
14.2 Ejemplos 435

𝑬[𝒙𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷𝟎 )] = 0 [14.2.18]
Esto también se reconocerá como un caso especial del marco del MMG en el que y
̂𝒕 )´ 𝜽 = 𝜷 , 𝑎 = 𝑘, y
𝒘𝑡 (𝑦𝑡 𝒛̂𝒕 𝒙
𝒉(𝜽, 𝒘𝒕 ) = 𝑥𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷) [14.2.19]
Supongamos que el número de parámetros a estimar es igual al número de condiciones de
ortogonalidad (a  k  r ). Entonces el modelo acaba de identificarse y el estimador de GMM
satisface.
𝑇
̂𝐓 )
̂ 𝑻 ; 𝒚 𝑇 ) = {(1⁄𝑇 ) ∑ 𝒙𝒕 (𝑌𝑡 − 𝐳𝐭´ 𝛃
𝟎 = 𝐠 (𝜽
𝑖=1
[14.2.20]
𝑇 𝑇
̂ 𝑻 = {∑ 𝒙𝒕 𝒛´𝒕 }−1 {∑ 𝒙𝒕 𝒚´𝒕 }−1
𝜷
𝑖=1 𝑖=1
Que es el estimador de variables instrumentales habituales para este modelo. Para calcular los
errores estándar implícitos en los resultados generales de Hansen (1982), diferenciamos [14.2.19]
por encontrar
̂ ´𝑻 = {
𝑫 |𝜽=𝜽̂𝒕 }
𝝏𝜽´
𝑇
𝜕𝑥𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷)
= (1⁄𝑇) ∑ |𝜷=𝜷̂𝒕
𝝏𝜷̂
𝑖=1
[14.2.21]
𝑇
= − (1⁄𝑇 ) ∑ 𝒙𝒕 𝒛´𝒕
𝑖=1
El requisito en la Proposición 14.1 de que el plim de esta matriz tiene columnas linealmente
independientes es la misma condición que se necesitó para establecer la consistencia del estimador
IV en el Capítulo 9. es decir, la condición de que las filas de E(𝒙𝒕 𝒛´𝒕 ) Ser linealmente independientes.
La varianza de GMM para 𝜷 ̂ 𝑻 Se ve frontal [14.2.6] para ser
𝑇 𝑇 −1
̂ 𝑇 = {(1⁄𝑇) [(1⁄𝑇) ∑ 𝒛𝒕 𝒙´𝒕 ] [(1⁄𝑇) ∑ 𝒙𝒕 𝒛´𝒕 ]}

(1⁄𝑇)𝑽
𝑖=1 𝑖=1
Donde 𝑆̂𝑡 es una estimación de
𝑇 𝑥
𝑺 = lim (1⁄𝑇) ∑. ∑ 𝐸 {𝒖𝒕 𝒖𝒕−𝒗 𝒙𝒕 𝒙´𝒕−𝒗 }

𝑇→𝑥
𝑡=1 𝑣=−𝑥
[14.2.23]
Si los residuos de regresión {𝒖𝒕 } están correlacionados en serie y homoscédticos con varianza 𝜎 2 La
estimación natural de S es.
𝑇
𝒔̂𝒕 = 𝜎̂𝑇2 (1⁄𝑇) ∑ 𝒙𝒕 𝒙´𝒕

𝑖=1
[14.2.24]
Para 𝜎̂𝑇2 = (1⁄𝑇) ∑𝑇𝑖=1(𝑌𝑡 − ̂ 𝐓 )2 .
𝐳´𝐭 𝛃 Sustituyendo esta estimación en rendimientos [14.2.22]
𝑇 𝑇 −1 𝑇 −1
̂ 𝒕 − 𝜷)(𝜷
𝑬[(𝜷 ̂ 𝑻 − 𝜷 )´] ≅ 𝜎̂𝑇2 [∑ 𝒛𝒕 𝒙´𝒕 ] [∑ 𝒙𝒕 𝒙´𝒕 ] [∑ 𝒙𝒕 𝒛´𝒕 ]
𝑖=1 𝑖=1 𝑖=1

𝑇 −1 𝑇 𝑇 −1
= 𝜎̂𝑇2 [∑ 𝒙𝒕 𝒛´𝒕 ] [∑ 𝒙𝒕 𝒙´𝒕 ] [∑ 𝒛𝒕 𝒙´𝒕 ]

𝑖=1 𝑖=1 𝑖=1
El mismo resultado derivado anteriormente en [9.2.30]. Por otra parte, una matriz de
heterocedasticidad y autocorrelación-consistencia varianza-covarianza para la estimación IV se da
por.
𝑇 −1 𝑇 −1
̂ 𝒕 − 𝜷)(𝜷
𝑬[(𝜷 ̂ 𝑻 − 𝜷 )´] ≅ 𝑻 [∑ 𝒙𝒕 𝒛´𝒕 ] ̂𝑻 [∑ 𝒛𝒕 𝒙´𝒕 ]
𝑺
𝑖=1 𝑖=1
[14.2.25]
Donde
𝑞
𝑣
̂
𝑺𝑻 = 𝚪̂0,𝑇 + ∑ {1 − [ ´
]} (𝚪𝒗,𝒕 + 𝚪𝒗,𝒕 )
(𝑞 + 1)
𝑣=1
[14.2.26]
𝑇
𝚪̂𝟎,𝑻 = (1⁄𝑇) ∑ 𝒖 ̂ 𝒕−𝒗, 𝒙𝒕 𝒙´𝒕−𝒗

̂𝒕 𝒖
𝑖=1
̂𝑻
̂ 𝑡 = 𝑦𝑡− 𝒛´𝒕 𝜷
𝒖
Dos etapas mínimos cuadrados

Consideremos de nuevo el modelo lineal de [14.2.17] y [14.2.18]. Pero supongamos ahora
que el número de instrumentos válidos r excede el número de variables explicativas k. Para este
modelo excesivamente identificado GMM ya no establecerá todas las condiciones de ortogonalidad
de la muestra a cero como en [14.2.20], sino que será la solución a [14.1.22],
𝝏𝐠(𝜽,𝒚𝑻 ) ´
0 ={ | ̂𝒕 } ×
𝜽=𝜽
̂−𝟏
𝑺 ̂
𝑻 × [𝐠 (𝜽𝑻, 𝒚𝑻 )] [14.2.27]
𝝏𝜽´
𝑇 𝑇
= {− (1⁄𝑇) ∑ 𝒛𝒕 𝒙´𝒕 } ̂
𝑺−𝟏
𝑻 {(1⁄𝑇) ∑ 𝒙𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷}
𝑡=1 𝑡=1
Con la última línea que sigue de [14.2.21] y [14.2.20]. De nuevo, si 𝒖𝒕 está correlacionada en serie y
homoskedasti con varianza 𝝈𝟐 , Una estimación natural de S viene dada por [14.2.24]. Usando esta
estimación, [14.2.27] se convierte en
𝑇 𝑇 −1 𝑇
(1⁄𝜎̂𝑡2 ) × {∑ 𝒛𝒕 𝒙´𝒕 } {∑ 𝒛𝒕 𝒙´𝒕 } ̂ 𝑻 )} = 0

{∑ 𝑥𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷
𝑡=1 𝑡=1 𝑡=1
[14.2.28]
Como en la expresión [9.2.5], defina
𝑇 𝑇 −1
̂´ =
𝛿 {∑ 𝒛𝒕 𝒙´𝒕 } {∑ 𝒙𝒕 𝒙´𝒕 }
𝑡=1 𝑡=1
Esta 𝜹̂´ es una matriz (k x r) cuya fila representa los coeficientes de una regresión OLS
de 𝒛𝒊𝒕 en 𝒙𝒕 ,sea.
̂ ´ 𝒙𝒕
𝒛´𝒕 ≡ 𝜹
El vector (k x 1) de valores ajustados a partir de estas regresiones de 𝒛𝒕 en𝒙𝒕 . Entonces [14.2.28]
implica eso.
𝑻
∑ 𝒛̂𝒕 (𝑦𝑡− 𝒛´𝒕𝜷𝑻) =𝟎

𝒕=𝟏
o
𝑇 −1 𝑇
̂𝑻 =
𝜷 {∑ 𝒛̂𝒕 𝒛´𝒕 } {∑ 𝒛̂𝒕 𝒚𝒕 }
𝑡=1 𝑡=1
14.2 Ejemplos 437

Por lo tanto, el estimador GMM para este caso es simplemente el estimador de mínimos cuadrados
en dos etapas como se escribe en [9.2.8]. La varianza dada en [14.2.6] sería
𝑇 𝑇 −1
̂ 𝑇 = (1⁄𝑇 ) {
(1⁄𝑇)𝑽 ̂−𝟏
[(1⁄𝑇) ∑ 𝒛𝒕 𝒙´𝒕 ] 𝑺 𝑻 [(1⁄𝑇 ) ∑ 𝒙𝒕 𝒛´𝒕 ]}
𝑖=1 𝑖=1
−1 ´ −1
𝑇 𝑇 𝑇
= 𝜎̂𝑇2 { [∑ 𝒛𝒕 𝒙´𝒕 ] [∑ 𝒙𝒕 𝒙´𝒕 ] [∑ 𝒙𝒕 𝒛´𝒕 ]}

𝑖=1 𝑖=1 𝑖=1
Como se derivó anteriormente en la expresión [9.2.25]. Una prueba de las suposiciones sobre-
identificadoras incorporadas en el modelo en [14.2.17] y [14.2.18] está dada por
´
̂ 𝑻, 𝒚𝑻 )]𝑺
𝑻[𝐠 (𝜽 ̂−1 ̂
𝑇 [𝐠 (𝜽𝑻, 𝒚𝑻 )]
𝑇 ´ 𝑇 −1 𝑇
= 𝑻 {(1⁄𝑇) ∑ 𝒙𝑡 (𝑦𝑡 − ̂ 𝑻 )}
𝒛´𝒕 𝜷 {𝜎𝑇2 . (1⁄𝑇 ) ∑ 𝒙𝒕 𝒙´𝒕 } ̂ 𝑻 )}
× {(1⁄𝑇) ∑ 𝒙𝑡 (𝑦𝑡 − 𝒛´𝒕 𝜷
𝑡=1 𝑖=1 𝑡=1
𝑇 𝑇 −1 𝑇
= 𝜎𝑇−2 { [∑ 𝒖
̂ 𝒕 𝒙´𝒕 ] [∑ 𝒙𝒕 𝒙´𝒕 ] ̂ 𝒕 ]}
[∑ 𝒙𝒕 𝒖
𝑡=1 𝑡=1 𝑖=1
𝟐
Esta magnitud tendrá una distribución asintótica 𝒙 con (r-k) grados de libertad si el modelo está
correctamente especificado.
Alternativamente, para permitir la heterocedasticidad y la autocorrelación de los residuos u t , la
estimación 𝒔̂𝒕 en [14.2.24] sería reemplazada por [14.2.26]. Recuerda la condición de primer orden
[14.2.27]:
𝑇 𝑇
̂ ´̂
{(1⁄𝑇) ∑ 𝒛𝒕 𝒙´𝒕 } 𝑺−𝟏
𝑻 {(1⁄𝑇) ∑ 𝒙𝑡 (𝑦𝑡 − 𝒛𝒕 𝜷𝑻 )} = 0
𝑡=1 𝑡=1
[14.2.29]
Si ahora definimos
̂ ´ 𝒙𝒕
𝒛̅𝒕 ≡ 𝜹
𝑇
̂´ ≡ {(1⁄𝑇 ∑ 𝒛𝒕 𝒙´𝒕 } 𝑺
𝜹 ̂−1
𝑇
𝑡=1
Entonces [14.2.29] implica que el estimador GMM para este caso está dado por
𝑇 −1 𝑇
̂𝑇 =
𝜷 {∑ 𝒛̅𝒕 𝒛´𝒕 } {∑ 𝒛̅𝒕 𝒚𝒕 }
𝑡=1 𝑡=1
̂ 𝑻 es circular - para calcular 𝜷
Esta caracterización de 𝜷 ̂ 𝑻 , necesitamos saber 𝒛̅𝒕 y así 𝑺
̂𝑻 mientras que
construir 𝑺𝑻 de [14.2.26] primero necesitamos 𝜷𝑻 saber .La solución es primero estimar 
̂ ̂
usando una matriz de ponderación subóptima como 𝑺 ̂ 𝑇 = (1⁄𝑇) ∑𝑇𝑡=1 𝒙𝒕 𝒛´𝒕 y luego usar esta
estimación de S para reestimar β. La varianza asintótica del estimador GMM está dada por
𝑇 𝑇 −1
̂ 𝒕 − 𝜷)(𝜷
𝑬[(𝜷 ̂ 𝑻 − 𝜷 )´] ≅ 𝑻 {∑ 𝒛𝒕 𝒙´𝒕 } 𝐒̂T−1 {∑ 𝒙𝒕 𝒛´𝒕 }
𝑡=1 𝑡=1
Sistemas no lineales de ecuaciones simultáneas

El GMM de Hansen (1982) también proporciona un marco conveniente para estimar los
sistemas no lineales de ecuaciones simultáneas analizadas por Amemiya (1974), Jorgenson y Laffont
(1974) y Gallant (1977). Supongamos que el objetivo es estimar un sistema de n equiaciones no
lineales de la forma.

𝒚𝑡 =𝒇(𝜽,𝑧𝑡)+𝒖𝒕
Para z, un vector (k x 1) de variables explicativas un θ Un vector (a x 1) de parámetros
desconocidos. Denotemos 𝒙𝒊𝒕 un vector de instrumentos que no están correlacionados con el i
elemento de u t . Las condiciones de ortogonalidad r para este modelo son.
[[𝑦1𝑡 − 𝑓1 (𝜽, 𝒛𝒕 )]𝑥𝑛𝑡 ]
𝒉( 𝜽, 𝒘) = [[𝑦2𝑡 − 𝑓2 (𝜽, 𝒛𝒕 )]𝑥𝑛𝑡 ]
⋮
[ [𝑦𝑛𝑡 − 𝑓𝑛 (𝜽, 𝒛𝒕 )]𝑥𝑛𝑡 ]
´
Donde 𝒇(𝜽, 𝑧𝑡 ) Denota el ith elemento de 𝒇(𝜽, 𝑧𝑡 ) y 𝒘𝒕 = (𝒚´𝒕, 𝒛´𝒕, 𝒙´𝒕, ) La estimación de GMM
θ es el valor que minimiza
𝑇 ´ 𝑇
𝐐(𝛉 ; 𝒚𝒕 ) = [ (1⁄𝑇) ∑ 𝒉 (𝜽, 𝒘𝑻 )] ̂

𝑺−𝟏
𝑻 [(1⁄𝑇) ∑ 𝒉 (𝜽, 𝒘𝒕 )] [14.2.30]
𝑡=1 𝑡=1
Cuando una estimación de S que podría utilizarse con heteroscedasticidad y correlación en serie de
𝒖𝒕 es dado por.
𝑞
̂
𝑺𝑻 = 𝚪̂𝟎,𝑻 + ∑{1 − [𝑣/(𝑞 + 1)]} (𝚪̂𝒗,𝒕 + 𝚪𝒗,𝒕
´
)
𝑣=1
𝑇
̂ 𝒘𝒕−𝒗 )]´
̂ 𝒘𝒕 ) 𝒉(𝜽,
𝚪̂𝟎,𝑻 = (1⁄𝑇) ∑ [𝒉( 𝜽,
𝑡=𝑣+1
La minimización de [14.2.30] puede lograrse numéricamente. Una vez más, para evaluar [14.2.30],
primero necesitamos una estimación inicial de S. Un enfoque es minimizar primero [14.2.30] con
ST  I r , Utilice la estimación resultante 𝛉̂ Construir una mejor estimación de ST , Y recalcular,
el procedimiento 𝛉̂ se puede iterar más, si se desea. La identificación requiere una condición de
orden (r ≥a) y la condición de rango que las columnas del plim de ̂ 𝑫´𝑻 ser linealmente
independientes, donde
𝑇
𝝏𝐡(𝜽, 𝒘𝑻 )
̂ ´𝑻 = (1⁄𝑇) ∑
𝑫 |𝜽=𝜽̂𝒕
𝝏𝜽´
𝑡=1
̂ 𝑻 entonces se calculan fácilmente de [14.2.5] y [14.2.6]
Los errores estándar para 𝜽
Estimación de modelos de expectativas racionales dinámicas

El comportamiento de la gente es a menudo influenciado por sus expectativas sobre el
futuro. Desafortunadamente, normalmente no tenemos observaciones directas de estas
expectativas. Sin embargo, todavía es posible estimar y probar modelos de comportamiento si las
expectativas de las personas son formales radionalmente en el sentido de que los errores que hacen
en la predicción no están correlacionados con la información que tenían disponible en el momento
del pronóstico. Como long como el ecotécnico observa un subconjunto de la información que la
gente realmente ha utilizado, la hipótesis de las expectativas racionales sugiere condiciones de
ortogonalidad que pueden ser usadas en el marco del GMM.
Por Ejemplo, consideramos el estudio de las decisiones de portafolio por Hansen y Singleton
(1982). Denote 𝒄𝒕 el nivel general de gasto en bienes de consumo por un accionista en particular
durante el período t. La satisfacción o utilidad que el accionista recibe de este gasto está
representada por una función u(𝒄𝒕 ), Donde se supone que.
𝜕𝑢(𝑐𝑡 ) 𝜕 2 𝑢(𝑐𝑡 )
> <0
𝜕𝑐𝑡 𝜕𝑐12
Se supone que el accionista desea maximizar
14.2 Ejemplos 439

𝛼
∑ 𝜷𝑻 𝑬{𝑢(𝑐𝑡+𝑇 )𝑿∗𝒕 )}
𝑡=0
[14.2.31]
Donde 𝒙∗𝒕 Es un vector que representa toda la información disponible para el accionista en la fecha
t y β Es un parámetro que satisface 0<β<1. Valores más pequeños de β Significa que el accionista
coloca un peso menor en eventos futuros. A la fecha t, el accionista contempla comprar cualquiera
de los diferentes activos, donde un dólar invertido en el activo i a la fecha t dará un rendimiento
bruto de (1 + 𝑟𝑖,𝑡+1 ) a la fecha t + 1; En general esta tasa de rendimiento no se conoce con certeza
en la fecha t. Suponiendo que el accionista toma una posición en cada uno de estos activos, la
cartera óptima del accionista satisfará
𝒖´ (𝑐𝑡 ) = 𝜷𝑬{(1 + 𝑟𝑖,𝑡+1 )|𝑿∗𝒕 )} para i= 1,2…….m. [14.2.32]

´ (𝑐 )
Donde 𝑢 𝑡 ≡ 𝜕𝑢𝜕𝑐𝑡 Para ver la intuición detrás de esta afirmación, supongamos que la
condición [14.2.32] falló. Digamos, por ejemplo, que el lado izquierdo es más pequeño que el
derecho. Supongamos que el accionista ahorraría un dólar más en la fecha t e invertiría el dólar en el
activo i, utilizando los rendimientos para impulsar el período t + 1 del consumo. Siguiendo esta
estrategia, el consumo a la fecha t disminuiría un dólar (reduciendo [14.2.31] una cantidad dada por
el lado izquierdo de [14.2.32], mientras que el consumo a la fecha t + 1 aumentaría(1 + 𝑟𝑖,𝑡+1 )
Dólares (aumentando [14.2.31] por una cantidad dada por el lado derecho de [14.2.32] se satisface
es el accionista tan bien como fuera posibl𝑒 2 .
Supongamos que la función de utilidad está parametrizada como
1−𝑦
𝑐𝑡
𝒖(𝑐𝑡 ) = {1 − 𝑦 𝑠𝑖 𝑦 > 0 𝑦 𝑦 ≠ 1
log 𝑐𝑡 𝑠𝑖 𝑦 = 1
El parámetro y se conoce como el coeficiente de aversión al riesgo relativo, que para esta clase de
funciones de utilidad es una constante. Para esta función [14.2.32] se convierte en
−𝑦 −𝑦
𝑐𝑡 = 𝜷𝑬{(1 + 𝑟𝑖,𝑡+1 )𝑐𝑡+1 |𝑿∗𝑡 )} [14.2.33]
−𝒚
Dividiendo ambos lados de [14.2.33] por 𝒄𝒕 resultados en
1 = 𝜷𝑬{(1 + 𝑟𝑖,𝑡+1 )(𝑐𝑡+1 /𝑐𝑡 )|𝑿∗𝒕 )} [14.2.34]
Donde 𝒄𝒕 Podría moverse dentro del operador de expectativa condicional, ya que representa una
decisión basada únicamente en la información contenida en 𝒙∗𝒕 , la expresión [14.2.34] requiere que
la variable aleatoria describa por
1 − 𝜷{(1 + 𝑟𝑖,𝑡+1 )(𝑐𝑡+1 /𝑐𝑡 )−𝑦 } [14.2.35]
No se correlaciona con ninguna variable contenida en el conjunto de información 𝒙∗𝒕 , para

cualquier activo i que posea el accionista. Por lo tanto, debe ser el caso de que.
𝑬{[1 − 𝛽{(1 + 𝑟𝑖,𝑡+1 )(𝑐𝑡+1 /𝑐𝑡 )−𝑦 }]𝒙𝒕 } = 𝟎 [14.2.36]
Dónde 𝒙𝒕 está un subconjunto del conjunto de información de accionistas 𝒙∗𝒕 que el econometrícola
también es capaz de observar.
Denotan los parámetros desconocidos que se han de estimar, y permiten, 𝑾𝒕 =
(𝒓𝟏,𝒕+𝟏, 𝒓𝟐,𝒕+𝟏, … … 𝒓𝒎,𝒕+𝟏 /𝒄𝒕+𝟏/ 𝒄𝒕 . 𝑿´𝒕 )´ Denotan el vector de variables observado por el
econométrico para la fecha t. Apilando las equiaciones en [14.2.36] para i = 1, 2 ... ..m produce un
conjunto de r condiciones de ortogonalidad que se pueden utilizar para estimar θ
[1 − 𝛽{(1 + 𝑟1,𝑡+1 )(𝑐𝑡+1 /𝑐𝑡 )−𝑦 }]𝒙𝒕
𝐡(𝜽, 𝒘𝑻 ) = [1 − 𝛽{(1 + 𝑟2,𝑡+1 )(𝑐𝑡+1 /𝑐𝑡 )−𝑦 }]𝒙𝒕 [14.2.37]

(𝒓×𝟏) ⋮
[[1 − 𝛽{(1 + 𝑟𝑚,𝑡+1 )(𝑐𝑡+1 /𝑐𝑡 )−𝑦 }]𝒙𝒕 ]
El valor medio muestral de 𝒉(𝜽, 𝒘) es

𝑻
𝐠 (𝜽; 𝒚𝑻 ) ≡ (1⁄𝑇) ∑ 𝒉 (𝜽, 𝒘𝑻 )

𝒕=𝟏
Y la función objetivo GMM es
̂−𝟏
Q(𝛉) = [𝐠 (𝜽; 𝒚𝑻 )]´ 𝑺𝑻 [(𝐠 (𝜽; 𝒚𝑻 ))] [14.2.38] [14.2.38]
Esta expresión puede ser minimizada numéricamente con respecto a θ.

Según la teoría, la magnitud en [14.2.35] debería. No estar correlacionado con ninguna información
que el accionista tenga disponible en ese momento y que incluya Valores retardados de [14.2.35].
Por lo tanto, el vector en [14.2.37] debe estar sin correlación con sus propios valores rezagados, lo
que sugiere que S puede ser constantemente estimado por
𝑇
̂ 𝒘𝒕 )]´ }
̂ , 𝒘𝒕 )] [𝐡(𝜽,
𝑆̂𝑇 = (1⁄𝑇) ∑ {[𝐡 (𝜽
𝑡=1
Donde 𝜽 ̂ es una estimación consistente inicial. Esta estimación inicial 𝜽
̂ podría obtenerse
̂
minimizando [14.2.38] con 𝑺𝑻 = 𝑰𝒓
Hansen y Singleton (1982) estimaron este modelo utilizando los gastos de consumo real
para el conjunto de los Estados Unidos divididos por la población de los Estados Unidos como su
medida de 𝒄𝒕 de 𝒓𝟏𝒕 Utilizaron la rentabilidad ajustada a la inflación que un inversionista ganaría si
se invirtiera un dólar en cada acción cotizada en la Bolsa de Nueva York, mientras que 𝒓𝟐𝒕 era una
rentabilidad ajustada a la inflación ponderada en función del valor que corresponde al rendimiento
que un inversor obtendría si el inversor poseía la totalidad de las acciones de cada empresa cotizada
en la bolsa. Los instrumentos de Hansen y Singleton consistieron en un plazo constante, tasas de
crecimiento del consumo rezagadas y tasas de rendimiento rezagadas:
´
𝑥𝑡 = (1, 𝑐𝑡 /𝑐𝑡−1 , 𝑐𝑡−1 /𝑐𝑡−2 , … … . . 𝑐𝑡−1 , 𝑟1,𝑡−𝑖+1 𝑟1𝑡 , 𝑟1,𝑡−𝑖……………. 𝑟2,𝑡 , 𝑟2,𝑡−1 𝑟2,𝑡−𝑖+1 )
Cuando  se usan rezagos, hay 3 + 1 elementos en x, y así r = 2 ( 3 + 1) condiciones de
ortogonalidad separadas son representadas por [14.2.37] Dado que a = 2 parámetros son estimados,
la 𝒙𝟐 estadística en [14.1.27] tiene 6 grados de libertad.
14.3. Extensiones
GMM Con datos no estacionarios

La suposición mantenida a lo largo de este capítulo ha sido que el vector (h x 1) de las
variables observadas es estrictamente estacionario. Incluso si los datos brutos parecen tener
tendencia a lo largo del tiempo, a veces el modelo puede ser transformado o reparametrado de
manera que la estacionariedad del sistema transformado sea una suposición razonable. Por ejemplo,
la serie de consumo (𝒄𝒕 ) Utilizado en el estudio de Hansen y Singleton (1982) está aumentando con
el tiempo. Sin embargo, fue posible escribir la ecuación a estimar [14.2.36] de tal forma que sólo la
tasa de crecimiento del consumo (𝒄𝒕+𝟏 /𝒄𝒓 ) Para lo cual el supuesto de estacionariedad es mucho
más plausible. Alternativamente, supongamos que algunos de los elementos del vector observado
𝒘𝒕 Se supone que crecen de forma determinista en el tiempo según.
𝒘𝒕 = 𝜶 + 𝜹𝒕 +𝒘∗𝑻 [14.3.1]
Donde α y δ son (h x 1) Vectores de constantes un 𝒙∗𝒕 Es estrictamente estacionario con cero

media. Supongamos que las condiciones de ortogonalidad pueden expresarse en términos de 𝒙∗𝒕
como:
𝑬{𝒇(𝜽𝟎 , 𝒘∗𝒕 )} = 𝟎
Luego Ogaki (1993) recomendó estimar conjuntamente θ, α y δ usando
0 441
𝑤𝑡 − 𝛼 − 𝜹𝒕
𝐠 (𝜽; 𝒘𝑻 ) = [ ]
𝐟 (𝜽, 𝒘𝑻 − 𝜶 − 𝜹𝒕 )
Para construir la condición de momento en [14.2.3]
Pruebas de Estabilidad Estructural

Supongamos que queremos probar la hipótesis de que el vector de parámetros (a x 1) θ
Que caracteriza a la primera 𝑇0 Observaciones en la muestra es diferente del valor eso caracteriza el
último 𝑻 − 𝑻𝟎 observaciones, donde 𝑻𝟎 es un punto de cambio conocido.Un enfoque consiste en
obtener una estimación 𝜽 ̂ 𝟏,𝑻 basada únicamente en las primeras observaciones. Minimizando
𝟎
𝑸(𝜽𝟏 ; 𝒘𝑻𝟎 , 𝒘𝑻𝟎−𝟏 … … … . . 𝒘𝟏 )

𝑇0 ´ 𝑇0
= [ (1⁄𝑇0 ) ∑ ℎ (𝜽𝟏 , 𝒘𝑻 )] 𝑆̂𝑇−1

0
[(1⁄𝑇0 ) ∑ ℎ (𝜽𝟏 , 𝒘𝑻 )]
𝑡=1 𝑡=1
[14.3.2]
Donde, por ejemplo, si {𝐡 (𝜽𝟎 , 𝒘𝒕 )} está sin correlación en serie.
𝑇0
̂
𝑺𝟏𝑻𝟎 = (1⁄𝑇0 ) ∑ [𝐡 (𝜽 ̂ 𝒘𝒕 )]´
̂1𝑇 , 𝒘𝒕 )] [𝐡(𝜽,
0
𝑡=1
La Proposición 14.1 implica que
𝐋
̂ 𝟏𝑻 , − 𝜽𝟏 ) → 𝑵(𝟎, 𝑽𝟏 )
√𝑻𝟎 (𝜽 [14.3.3]
𝟎
Como T0   , donde V1 Puede ser estimado de

̂1,𝑇 = {𝑫
𝑽 ̂−1 𝑫
̂ 1𝑇 𝑺 ̂ ´ }−1
0 0 1,𝑇0 1,𝑇0
Para
𝑇0
𝜕h(𝜽𝟏 , 𝒘𝑻 )
̂1,𝑇
𝐷 ´
= (1⁄𝑇0 ) ∑ |𝜃1=𝜃̂1,𝑇
0
𝜕𝜃1 ´ 0
𝑡=1
Del mismo modo, una estimación separada 𝜽 ̂ 2.𝑇−𝑇 puede basarse en las últimas 𝑇−
0
̂2,𝑇−𝑇 , 𝑽
𝑇0 observaciones. Con medidas análogas 𝑺 ̂ 2,𝑇−𝑇 , 𝑫
̂ 2,𝑇−𝑇 y
0 0 0
L
√𝑇 − 𝑇0 (𝜽 ̂ 2,𝑇−𝑇 − 𝜽2 ) → 𝑵(𝟎, 𝑽𝟐 ) [14.3.4]
0
Como T→α .Sea   T0 / T Denote la fracción de observaciones contenida en la primera
submuestra. Entonces [14.3.3] y [14.3.4] lo declaran.
L
√𝑇(𝜽 ̂1,𝑇 − 𝜃1 ) → 𝑵(0, 𝑽1 /𝜋)
0
L
̂ 2,𝑇−𝑇 − 𝜽2 ) → 𝑵(0, 𝑽𝟐 /(1 − 𝜋))
√𝑇(𝜽 0
Como. Andrews y Fair (1988) sugirieron usar una prueba de Wald de la hipótesis nula de que 𝜽𝟏 =
𝜽𝟐 , Aprovechando el hecho de que bajo las condiciones de estacionariedad necesarias para justificar
la Proposición 14.1, 𝜃̂1 Es asintóticamente independiente de 𝜃̂2 :
̂1,𝑇 − 𝜽
𝝀 𝑇 = 𝑇(𝜽 ̂ 2,𝑇 −𝑇 )´ ×{𝝅−1 . 𝑽 ̂ 2.𝑇−𝑇 }−1 (𝜽
̂1.𝑇 + (1 − 𝜋)−1 . 𝑽 ̂1,𝑇 − 𝜽
̂ 2,𝑇 −𝑇 )
0 0 0 0 0 0 0 0
𝐋
Entonces 𝝀𝑻 → 𝒙𝟐 Bajo la hipótesis nula de que 𝜽𝟏 = 𝜽𝟐 ,
Uno puede probar más lejos para el cambio estructural en una variedad de diversas fechas
posibles, repitiendo la prueba anterior para todos 𝑻𝟎 Entre, por ejemplo, 0,15T y 0,85T y elegir el
valor más grande para el estadístico de prueba resultante 𝝀𝑻 . Andrews (1993) describió la
distribución asintótica de tal prueba.

Otra prueba simple asocia condiciones de momento separadas con las observaciones antes
y después 𝑻𝟎 Y utiliza el 𝒙𝟐 Prueba sugerido en [14.1.27] para probar la validez de los conjuntos
separados de los conjuntos de condiciones por separado. Específicamente, deja.
1 𝑠𝑖 𝑡 ≤ 𝑇0
𝑑1𝑡 = {
0 𝑠𝑖 𝑡 > 𝑇0
Si 𝒉(𝜽, 𝒘𝒕 ) es un (r x 1) Vector cuya población media es cero un 𝜽𝟎 , definir
𝒉(𝜽, 𝒘𝒕 ). 𝑑1𝑡
𝒉∗ ( 𝜽, 𝑤𝑡 , 𝑑1𝑡 ) = [ ]
(2𝑟×1) 𝒉(𝜽, 𝒘𝒕 ). (1 − 𝑑1𝑡 )
Los elementos de θ pueden entonces ser estimados usando las condiciones de ortogonalidad 2r
dadas por 𝐸{𝒉∗ (𝜽𝟎 , 𝜽𝒕 , 𝜽𝟏𝒕 )} = 0 para t = 1, 2... T, Simplemente reemplazando 𝒉(𝜽, 𝑤𝑡 )
En [14.2.3] con 𝒉∗ (θ, 𝒘𝟏 , 𝒅𝟏𝒕 ) y reducir al mínimo [14.2.2] de la manera habitual. La prueba
estadística de Hansen 𝑿𝟐 se describe en [14.2.27] basado en 𝒉∗ (. )las condiciones del momento
podrían el ser comparado con un 𝑿𝟐 (2𝑟 − 𝑎) valor crítico para proporcionar una prueba de la
hipótesis de que 𝜽𝟏 = 𝜽𝟐 .
Una serie de otras pruebas de cambio estructural se han propuesto por Andrews y Fair (1988) y
Ghysels y Hall (1900a, b).
GMM y Econométrico de identificación

Para la cartera modelo de decisión [14.2.34], se argumentó que cualquier variable sería
válido incluir en el instrumento vector 𝑥𝑡 , mientras que la variable se conoce a los inversores en la
fecha t y sus expectativas se forman racionalmente. Esencialmente, [14.2.34] representa un activo
curva de demanda. A la luz de la discusión de ecuaciones simultáneas, el sesgo en la Sección 9.1,
uno podría estar preocupado por la afirmación de que es posible estimar una curva de demanda sin
necesidad de pensar en la manera en que las variables pueden afectar a la oferta y la demanda de
activos en diferentes maneras.
Tal y como destacó por Garber y King (1984), la cartera modelo de elección evita ecuaciones
simultáneas sesgo, pues postula que la ecuación [14.2.32] sostiene exactamente, sin término de
error. El modelo como por escrito las reclamaciones que si el econometra tenía la misma
información 𝑥𝑡∗ utilizado por los inversores comportamiento puede ser predicho con un 𝑅 2 de la
unidad. Si no existiera el término de error en la demanda de naranjas ecuación [9.1.1], o si el error
en la demanda de naranjas ecuación fueron insignificantes en comparación con el término de error
en la ecuación, entonces nosotros no han tenido que preocuparse de ecuaciones simultáneas sesgo
en ese ejemplo.
Es difícil tomar en serio la sugerencia de que los datos observados son exactamente descrito
por [14.2.32] con ningún error. Existen importantes dificultades en la medición del consumo total,
de la población y las tasas de retorno sobre los activos. Incluso si estos agregados podría, en cierto
sentido, ser medido a la perfección, es cuestionable que son los valores adecuados a utilizar para
poner a prueba una teoría acerca de las preferencias de los inversores. Y aún nos tenían a su
disposición una medida perfecta del consumo de un inversionista individual, la noción de que el
inversor de la utilidad que podría ser representado por una función de este preciso paramétrico de
la forma con y constante a través del tiempo es sin duda difícil de defender.
Una vez que reconocemos que en un término de error debió ser incluido en [14.2.32],
entonces no es satisfactorio decir que cualquier variable de fecha t o antes, es un instrumento
válido. Las dificultades con la estimación se ven agravados por la no linealidad de las ecuaciones de
interés. Si uno quiere tomar en serio la posibilidad.
De un término de error en [14.2.32] y su correlación con otras variables, la mejor aproximación
disponible actualmente parece ser para alinear la dinámica de expectativas racionales modelo. Todas
las variables correlacionadas con el error en la previsión de personas a hacer y el error de
especificación en el modelo podría ser utilizado como un instrumento válido para el instrumental
tradicional de la variable de estimación; ver Alféizar (1992) para una ilustración de este enfoque.
14.3 Extensiones 443

La Elección óptima de los instrumentos
Si uno se suscribe a la idea de que cualquier variable de fecha t o anterior es un instrumento
válido para la estimación de [14.2.32], esto sugiere virtualmente un conjunto infinito de posibles
variables que podrían ser utilizados. El primer pensamiento podría ser que, más ortogonalidad de
las condiciones de utilizarse, la mejor de las estimaciones resultantes podrían ser. Sin embargo, las
simulaciones de Monte Carlo por Tauchen (1986) y Kocherlakota (1990) sugieren fuertemente que
uno debe ser muy parsimonioso en la selección de xt . Nelson y Startz (1990), en particular,
subrayar que, en el lineal de ecuaciones simultáneas modelo 𝑦𝑡 = 𝑧𝑡′ 𝛽 + 𝑢𝑡 , un buen instrumento
no sólo deben ser correlacionados con la 𝑢𝑡 . Pero también debe estar fuertemente correlacionada
con 𝑧𝑡 . Ver Bates y White (1988), Hall (1993) y Gallant y Tauchen (1992) para una mayor discusión
sobre la selección del instrumento.
14.4. GMM y Estimación de Máxima Verosimilitud

En muchos casos, la estimación de máxima verosimilitud de θ también puede ser visto como una
estimación GMM. Esta sección explora esta analogía y muestra cómo las propiedades asintóticas de
máxima verosimilitud puede ser obtenido a partir de los anteriores resultados generales acerca de la
estimación del MGM.
La Puntuación y Sus Propiedades de la Población

Vamos a 𝑦𝑡 denotar un (n × 1) vector de variables observadas en la fecha t, y vamos a Y𝒕 ≡
′
(𝒚′𝒕 , 𝒚′𝒕−𝟏, … . , 𝒚′𝟏 ) denotar el conjunto completo de los datos observados a través de la fecha t.
Suponga que la densidad condicional de la tth observación está dada por
𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝜽). [14.4.1]

Desde [14.4.1] es una densidad, se debe integrar a la unidad:
∫𝐴 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝜽) 𝒅𝒚𝒕 = 1 , [14.4.2]

Donde A denota el juego de valores de posiblemente 𝑦𝑡 podría tomar ∫ dy, denota múltiple
integración:
∫ ℎ( 𝑦𝑡 )𝑑𝑦𝑡 ≡ ∬ … ∫ ℎ(𝑦1𝑡 , 𝑦2𝑡 , … . , 𝑦𝑛𝑡 )𝑑𝑦1𝑡 𝑑𝑦2𝑡 … . 𝑑 𝑦𝑛𝑡
Desde [14.4.2] sostiene que para todos los valores admisibles de θ, podemos diferenciar ambos
lados con respecto a θ a la conclusión de que
∂𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜽)
∫𝐴 𝛛𝛉
𝑑𝑦𝑡 = 0 , [14.4.3]
Las condiciones bajo las cuales el orden de la diferenciación y la integración puede ser revertido
como se supone en llegar a [14.4.3] y las ecuaciones a seguir son conocidos como la "regularidad
condiciones" y se detallan en la Cramer (1946). Suponiendo que éstos llevan a cabo, podemos
multiplicar y dividir el integrando en [14.4.3] por la densidad condicional de 𝑦𝑡 :
∂𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜃) 1
|Y𝑡−1 ; 𝜽) 𝑑𝑦𝑡 = 0,
∫𝐴 𝛛𝛉 ∂𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜃 ) 𝑓(𝑦𝑡
o
∂log𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜃)
∫𝐴 𝛛𝛉
𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜽) 𝑑𝑦𝑡 = 0.
[14.4.4]

Veamos h(θ, Y𝒕 ) denota la derivada del logaritmo de la densidad condicional de la t-ésima
observación:
∂log𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜃)
𝐡(𝛉, 𝐘𝒕 ) = .
∂θ
[14.4.5]
Si hay a elementos en θ, a continuación, [14.4.5] describe un (a x 1) vector para cada fecha t que se
conoce como la puntuación de la tth de la observación. Dado que la puntuación es una función de
Y𝑡 , es una variable aleatoria. Por otra parte, la sustitución de [14.4.5] en [14.4.4] revela que
∫𝐴 𝐡(𝛉, 𝐘𝒕 ) 𝑓(𝑦𝑡 |Y𝑡−1 ; 𝛉) 𝑑𝑦𝑡 = 0 [14.4.6]
La ecuación [14.4.6] indica que si los datos fueron realmente generados por la densety [14.4.1],
entonces el valor esperado de la puntuación condicional de la información observada a través de la
fecha t – 1 debe ser igual a cero:
Ε{ 𝐡(𝛉, 𝐘𝒕 ) |Y𝑡−1 }=0. [14.4.7]
En otras palabras, la puntuación de vectores { 𝐡(𝛉, 𝐘𝒕 )}⨯

𝒕−𝟏 deben formar una martingala diferencia
de la secuencia. Esta observación le pida White (1987) sugieren una especificación general de la
prueba para los modelos estimados por máxima verosimilitud en función de si la muestra de
puntuaciones parecen ser en serie correlacionados. La expresión [14.4.7] implica, además, que la
puntuación ha incondicional expectativa de cero, siempre que el incondicional primer momento
existe:
Ε{ 𝐡(𝛉, 𝐘𝒕 )}= 0. [14.4.8]
Máxima Verosimilitud y GMM

La expresión [14.4.8] puede ser visto como un conjunto de a ortogonalidad condiciones
que podrían ser utilizados para estimar la a elementos desconocidos de la θ. El GMM principio se
sugiere utilizar como una estimación de θ, la solución a
T
0= (1/T) ∑ h(θ, Yt )
T=1
[14.4.9]
Pero este es también el caracterización de la estimación de máxima verosimilitud, el cual se basa
en la maximización de
T
𝐋(θ) = ∑ log𝑓(𝑦𝑡 |Y𝑡−1 ; 𝛉),

T=1
las condiciones de primer orden para que se

T
∂log𝑓(𝑦𝑡 |Y𝑡−1 ; 𝜽)
∑ =0
𝛛𝛉
T=1
[14.4.10]
Suponiendo un interior máximo. Recordando [14.4.5] observar que [14.4.10] y [14.4.9] son idénticas
condiciones que el MLE es el mismo que el GMM estimador basado en la ortogonalidad de las
condiciones en [14.4.8].
El GMM fórmula [14.4.6] sugiere que la varianza-covarianza de la matriz de la MLE se puede
aproximar por
1
𝐸 [(𝜽 ̂ 𝑇 − 𝜽( ) )′ ] ≅ ( ){𝑫
̂ 𝑇 − 𝜽( ) )(𝜽 ̂ −1
̂ ′𝑇 𝑺 ̂ ′ −1
𝑇 𝑫 𝑇} [14.4.11]
𝑇
donde
𝜕𝐠(θ; Y𝑡 )
̂ ′𝑇 =
𝑫 |𝜃=𝜃̂ 𝑇
𝝏𝜽′
14.4 GMM y Estimación de Máxima Verosimilitud 445

𝑇
1 𝜕ℎ(𝜽, Y𝒕 )
= ( )∑ |𝜃=𝜃̂ 𝑇 [14.4.12]
𝑇 𝝏𝜽′
𝑡=1
𝑇
1 ∂log𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝜽)
= ( )∑ |𝜃=𝜃̂ 𝑇
𝑇 𝛛𝛉 𝝏𝜽′
𝑡=1
Por otra parte, la observación en [14.4.7] de que las puntuaciones están en serie correlación sugiere
que la estimación de S por
𝑇
1
̂ 𝑇 = ( ) ∑[ℎ (𝜽,
𝑺 ̂ Y𝒕 )′ ]
̂ Y𝒕 )] [𝒉(𝜽,
T
𝑡=1
[14.4.13]
La Matriz De Información De La Igualdad

La expresión [14.4.12] será reconocido como – 1 veces el segundo derivado de la estimación de la
matriz de información. Del mismo modo, la expresión [14.4.13] es el exterior-producto de la
estimación de la matriz de información. Que estas dos expresiones son, de hecho, la estimación de
la misma matriz, si el modelo está correctamente especificado puede ser visto a partir de cálculos
similares a los que produce [14.4.6]. La diferenciación de ambos lados de [14.4.6] con respecto a las
θ' revela que
𝜕ℎ(𝜽, Y𝒕 ) 𝜕𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉)

0=∫ 𝑓(𝑦𝑡 |Y𝑡−1 ; 𝛉)𝑑𝑦𝑡 + ∫ ℎ(𝜃, Y𝑡 )( 𝑑𝑦𝑡
𝐴 𝝏𝜽′ 𝐴 𝝏𝜽′
𝜕ℎ(𝜽, Y𝒕 )
=∫ 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉)𝑑𝑦𝑡
𝐴 𝝏𝜽′
𝜕 log 𝑓(𝑦𝑡 |Y𝑡−1 ; θ)
+ ∫ 𝒉(𝜽, Y𝒕 )( 𝑓(𝑦𝑡 |Y𝑡−1 ; 𝛉)𝑑𝑦𝑡
𝐴 𝝏𝜽′
or
𝜕ℎ(𝜽, Y𝒕 )
∫[ 𝒉(𝜽, Y𝒕 )][𝒉(𝜽, Y𝒕 )]′ 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉)𝑑𝑦𝑡 = − ∫ 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉)𝑑𝑦𝑡
𝐴 𝝏𝜽′
𝑨
Esta ecuación implica que si el modelo está correctamente especificado, el valor esperado de la
parte externa del producto del vector de primera derivados del registro de probabilidad es igual a la
negativa de que el valor esperado de la matriz de las segundas derivadas:
𝜕 log 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉) 𝜕 log 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉)

𝐸{[ ][ ] ∣ Y𝑡−1 }
𝜕θ 𝜕𝜃 ′
𝜕 log 𝑓(𝑦𝑡 |Y𝒕−𝟏 ; 𝛉) ∣
= −𝐸 { ∣∣ Y𝑡−1 }
𝜕𝛉 𝝏𝜽′
[14.4.14]
≡ 𝝋𝒕 .
La expresión [14.4.14] es conocida como la matriz de información de la igualdad. Suponiendo que
𝑝
(1/T)∑𝑇𝑡=1 𝜑𝑡 → 𝜑, una matriz positiva definida, podemos razonablemente esperar que para
muchos modelos, la estimación de 𝑆̂ 𝑇 en [14.4.13] converge en probabilidad a la matriz de
información φ y la estimación 𝐷 ̂ ′𝑇 en [14.4.12] converge en probabilidad a - φ. Por lo tanto, el
resultado [14.4.11] sugiere que si los datos son estacionarios y las estimaciones no caen en los
límites de la capacidad de espacio de parámetros, es a menudo el caso de que
𝐿
√𝑇(𝜽 ̂ 𝑇 − 𝜽( ) ) → 𝑁(𝜽, 𝝋−𝟏 ) [14.4.15]
̂ ′
Donde la matriz de información φ puede ser estimado consistentemente desde - 𝐷 𝑇 en [14.4.12] o
̂ 𝑻 en [14.4.13].
𝑺

En muestras pequeñas, las estimaciones - 𝑫 ̂ 𝑻 serán diferentes, aunque si que dieren mucho
̂ ′𝑻 y 𝑺
esto sugiere que el modelo puede ser mal especificada. White (1982) desarrolló una especificación
alternativa de la prueba basado en la comparación de estas dos magnitudes.
La Prueba de Wald para el Máximo Estimaciones de Probabilidad

Resultado [14.4.15] sugiere un enfoque general para la comprobación de hipótesis acerca
del valor de un vector de parámetros θ que ha sido estimado por máxima verosimilitud.
Considere la posibilidad de una hipótesis nula que involucran m restricciones en θ representado
como g(θ) = 0 donde g:𝑅 𝑎 𝑅 𝑚 es una función derivable. La prueba de Wald de esta hipótesis está
dada por
𝝏𝐠(𝛉) 𝝏𝐠(𝛉)
̂ 𝑻 )]’{[
T[g𝜽 |𝜃=𝜃̂ 𝑇 ]𝜑̂−1
𝑇 [
̂ 𝑇 )]
| ̂ ]′}−1 [g𝜽 [14.4.16]
𝝏𝜽′ 𝝏𝜽′ 𝜃=𝜃 𝑇
(1 x m) (m x a) (a x a) (a x m) (m x 1)
que converge en distribución a una 𝑿𝟐 (𝑚) variable bajo la hipótesis nula. De nuevo, la estimación
̂ 𝑻 podría basarse en -𝑫
de la matriz de información 𝝋 ̂ 𝑇 en [14.4.13].
̂ ′𝑇 en [14.4.12] o 𝑺
La Prueba del Multiplicador De Lagrange

Hemos visto que si el modelo está correctamente especificado, las puntuaciones
{ 𝐡(𝛉, 𝐘𝒕 )}⨯ 𝒕−𝟏 a menudo a partir de una martingala diferencia de la secuencia. La expresión
[14.4.14] indica que la varianza condicional-matriz de covarianza de los tth la puntuación se da por
𝜑𝑡′ . Por lo tanto, típicamente,
𝑻 𝑻
𝐿
−𝟏
̂ 𝑻 𝑇[(1/𝑇) ∑ 𝒉( 𝜽( ) , Y𝒕 )] →
𝑇[(1/𝑇) ∑ 𝒉( 𝜽( ) , Y𝒕 )]′𝝋 𝑿𝟐 (𝑎).
𝒕=𝟏 𝒕=𝟏
[14.4.17]
̂
La expresión [14.4.17] no se mantienen cuando se 𝜽( ) es reemplazado por 𝜽 𝑇 , ya que, a partir de
[14.4.9], [14.4.17] para ser idéntica a cero.
Sin embargo, supongamos que la probabilidad de la función se maximiza sujeto a m restricciones en
θ, y vamos a 𝜽 ̂ 𝑻 denotar el restringido estimación de θ. Entonces, como en el GMM de prueba
para la sobre identificación restricciones [14.4.27], sería de esperar que
𝑻 𝑻
𝐿
̂
𝑇[(1/𝑇) ∑ 𝐡(𝜽 −𝟏 ̂ 𝑻 , Y𝒕 )] →
̂ 𝑻 𝑇[(1/𝑇) ∑ 𝐡( 𝜽
𝑻 , Y𝒕 )]′𝝋 𝑿𝟐 (𝑚).
𝒕=𝟏 𝒕=𝟏
[14.4.18]
La magnitud en [14.4.18] fue llamado el eficiente sistema de puntuación de estadística por
Rao(1948) y el multiplicador de Lagrange de la prueba por Aitchison y Silvey (1958). Proporciona
una extremadamente útil clase de pruebas de diagnóstico, permitiendo la estimación de un modelo
restringido y prueba contra una especificación más general sin tener que estimar el modelo más
general. Breusch y pagan (1980), Engle(1984), y Godfrey(1988) ilustra las aplicaciones de la utilidad
del multiplicador de Lagrange principio.
Cuasi-Estimación De Máxima Verosimilitud

Incluso si los datos no fueron generados por la densidad 𝑓(𝑦𝑡 |Y𝑡−1 ; θ), las condiciones
de ortogonalidad [14.4.8] todavía podría proporcionar una útil descripción de el vector de
parámetros de interés. Por ejemplo, suponga que se especifica incorrectamente que un escalar serie
y_t vino de una Gaussiana AR(1) proceso:
14.4 GMM y Estimación de Máxima Verosimilitud 447

1
𝐥𝐨𝐠 𝒇(𝒚𝒕 |Y𝒕−𝟏 ; 𝛉) = −2 log (2π) − 12 log(σ2 ) − (yt − ɸyt−1 )2 /(2𝜎 2 ),
Con θ ≡ (ɸ, 𝝈𝟐 )′. La puntuación vector es entonces
(yt − ɸyt−1 )yt−1 /𝜎 2
𝐡(𝛉, 𝐘𝒕 ) = [ ]
−1/2𝜎 2 + (yt − ɸyt−1 )2 /(2𝜎 4 )
que tiene la expectativa de cero cada vez que
𝐸[(yt − ɸyt−1 )yt−1 ] = 0 [14.4.19]

𝐸[(yt − ɸyt−1 )2 ] = 𝜎 2 [14.4.20]
El valor del parámetro ɸ que satisface [14.4.19] se corresponde con el coeficiente de una proyección
lineal de yt en yt−1 independientemente de la serie de tiempo de proceso.
Seguido por yt , mientras que 𝜎 2 en [14.4.20] es una característica general, el error cuadrático
medio de esta proyección lineal. Por lo tanto, el momento en que las condiciones en [14.4.8]
presionado para una amplia clase de procesos posibles, y las estimaciones obtenidas mediante la
maximización de una Gaussiana de probabilidad de la función (es decir, los valores de satisfacciones
[14.4.9]debe dar una estimación razonable de la proyección lineal del coeficiente y su error
cuadrático medio de una forma bastante general de la clase de datos posible-los mecanismos de
generación.
Sin embargo, si los datos no fueron generados por Gauss AR(1), entonces la matriz de información
de la igualdad ya no necesita mantener. Mientras que la puntuación de vector está de serie no
correlacionados, la varianza-covarianza de la matriz de las estimaciones resultantes podrían ser
obtenidos a partir de [14.4.11]. Procediendo de esta manera maximizar la probabilidad de la función
de la forma habitual, pero el uso de [14.4.11] en lugar de [14.4.15] para calcular los errores estándar
- fue propuesto por primera vez por el White (1982), quien describió este enfoque como cuasi-
estimación de máxima verosimilitud.3
APÉNDICE 14.A. Prueba de las Proposiciones del Capítulo 14

La prueba de la Proposición 14.1. Vamos a𝒈𝒊 (𝜽 ̂ 𝑻 ; Y𝒕 ) denota la i-ésima elemento de 𝒈(𝜽, Y𝒕 ), por
𝒂 𝟏
lo que g:𝑹 → 𝑹 . Por la media-teorema del valor.
̂ 𝑻 ; Y𝒕 ) = 𝑔𝑖 (𝜽 ( ) ; Y𝒕 ) + [𝑑𝑖 (𝜽∗𝒊.𝑻 ; Y𝒕 )]′ (𝜽
𝑔𝑖 (𝜽 ̂ 𝑻 − 𝜽( ) ). [14. A. 1]
donde
∗
𝜕𝑔𝑖 (𝜽, Y𝒕 )
𝑑𝑖 (𝜽𝒊.𝑻 ; Y𝒕 ) = ∣𝜃=𝜃𝑖.𝑇
∗
𝜕𝜽
̂ 𝑻 ; observe que 𝑑𝑖 : 𝑹𝒂 → 𝑹𝒂 . 𝐷𝑒𝑓𝑖𝑛𝑖𝑟
Para algunos 𝜽∗𝒊.𝑻 entre 𝜽 () y 𝜽
𝒅𝟏 (𝜽∗𝟏.𝑻 ; Y𝒕 )]′
𝒅 (𝜽∗ ; Y )]′
𝑫 ′𝑻 ≡ ([ 𝟐 𝟐.𝑻 𝒕 ]) [14. A. 2]
⋮
𝒅𝒓 (𝜽∗𝒓.𝑻 ; Y𝒕 )]′
El apilamiento de las ecuaciones [14. A. 1] en un (r x 1) vector que produce

𝒈 (𝜽̂ 𝑻 ; Y𝒕 ) = 𝒈 (𝜽 ( ) ; Y𝒕 ) + 𝑫 ′𝑻 (𝜽
̂ 𝑻 − 𝜽( ) ). [14. A. 3]
Si ambos lados de [14. A. 3] se premultiplican por el (a x r) de la matrix
𝝏𝒈 (𝜽; Y𝒕 )
{ ̂ −1
∣𝜃=𝜃̂ 𝑇 } 𝑥 𝑺 𝑇 ,
𝝏𝜽′
el resultado es

′
𝜕𝑔 (𝜽; Y𝒕 )
{ ̂ −𝟏
∣𝜃=𝜃̂ 𝑇 } x 𝑺 ̂
𝑻 x [𝑔 (𝜽 𝑻 ; Y𝒕 ) ]
𝝏𝜽′
′
𝜕𝑔 (𝜽; Y𝒕 )
={ ∣𝜃=𝜃̂ 𝑇 } x 𝑆̂ −1 ̂
𝑇 x [𝑔 (𝜽 𝟎 ; Y𝒕 )] [14. A. 4]
𝝏𝜽′
′
𝜕𝑔 (𝜽; Y𝒕 ) ′ ̂
+{ ̂ −𝟏
∣𝜃=𝜃̂ 𝑇 } x 𝑺 𝑻 𝐱 𝑫 𝑻 (𝜽 𝑻 − 𝜽( ) )
𝝏𝜽′
3
Para una mayor discusión, ver Gourieroux, Monfort, y Trogon (1984), Gallardo y White (1988), y Wooldridge (1991 a,
b) Pero la ecuación [14.1.22] implica que el lado izquierdo de [14.A.4] es cero, por lo que
′
𝝏𝒈 (𝜽; Y𝒕 )
̂
(𝜽 𝑻 − 𝜽( ) ) = [{ ̂ −𝟏
∣𝜃=𝜃̂ 𝑇 } x 𝑺 ′ −𝟏
𝑻 𝐱 𝑫 𝑻] [14. A. 5]
𝝏𝜽′
′
𝝏𝒈 (𝜽; Y𝒕 )
𝑋 { ∣ ̂ −1
̂ 𝑇} x 𝑺
𝜃=𝜃 𝑇 x [𝒈 (𝜽 ( ) ; Y𝒕 )]
𝝏𝜽′
𝑷
∗
Ahora 𝜽𝒊.𝑻 ̂ 𝑇 para que 𝜽∗𝒊.𝑻 → 𝜽( ) para cada i. Por lo tanto, la
en [14. A. 1] es entre 𝜽( ) y 𝜽
condición (c) se asegura de que cada fila de 𝑫 ′𝑻 converge en probabilidad a la fila correspondiente
de 𝑫 ′ .
𝑃 ͘ ˑ𝒈(𝜽 ; Y )}
√𝑇(𝜽 ̂ 𝑻 − 𝜽( ) ) → −({𝑫𝑺−𝟏 𝑫′ )}−1 𝑥 {𝑫𝑺−𝟏 √𝑇 () 𝑻 [14. A. 6]
define
𝐶 ≡ −{𝑫𝑺−𝟏 𝑫′ }−𝟏 × 𝑫𝑺−𝟏 ,
de modo que [14.A.6] se convierte en
𝑃
√𝑇(𝜽 ̂ 𝑻 − 𝜽( ) ) → 𝐶√𝑇ˑ𝑔(𝜽 ( ) ; Y𝑻 ).
Recordamos la condición (b) de la proposición de que
𝐿
√𝑇ˑ𝑔(𝜽 ( ) ; Y𝑻 ) → 𝑵(𝜽, 𝑺).
Seguimos con el Ejemplo 7.5 del Capítulo 7 que
𝐿
√𝑇(𝜽̂ 𝑻 − 𝜽( ) ) → 𝑵(𝟎, 𝑽). [14. A. 7]
donde
𝑉 = 𝑪𝑺𝑪′ = {𝑫𝑺−𝟏 𝑫′ }−1 𝑫𝑺−𝟏 𝑥 𝑺 𝑥 𝑺−𝟏 𝑫′ {𝑫𝑺−𝟏 𝑫′ }−1 = {𝑫𝑺−𝟏 𝑫′ }−𝟏
Como se indica.
14.1 Considerar el Gaussiano modelo de regresión lineal.
𝑦𝑡 = 𝒙′𝒕 𝜷 + 𝒖𝒕
con 𝑢𝑡 ~ i.i.d. N(0, 𝜎 2 ) y 𝑢𝑡 independiente de 𝑋𝑇 para todo t y τ. Define θ≡ (β, 𝜎 2 )’. El registro de
la probabilidad de (𝑦1 , 𝑦2 , … , 𝑦𝑇 ) condicional en (𝑥1 , 𝑥2 , … , 𝑥𝑇 ) está dada por
T
𝑳(θ) = -(T/2) log(2π) - (T/2) log(𝜎2 ) − ∑(𝑦𝑡 - 𝒙′𝒕 𝜷)𝟐 / (2𝜎2 ).

T=1
̂ ′𝑻 en [14.4.12] está dada por

(a) Mostrar que la estimación 𝑫
𝑇
1
− ∑ 𝒙𝒕 𝒙′𝒕
𝑇
0
̂ ′𝑇 =
𝐷 𝑡=1
𝑇
1 1 ̂2
𝑢
0 ∑{ − 6𝑡}
[ 𝑇] ̂ 4
𝑡=1 2𝜎 𝑇 𝜎
̂𝑇
̂ ′̂ ̂ 𝟐
̂ 𝑻 indicar el máximo de estimaciones de probabilidad.
Donde 𝒖 𝒕 ≡ (𝒚𝒕 − 𝒙𝒕 𝜷 𝑻 ) y 𝜷 𝑻 y 𝝈
̂ 𝑻 en [14.4.13] está dada por
(b) demuestre que la estimación de 𝑺

T
1
𝑇
1 û 3t xt′
∑𝒖 ̂ 4𝑇
̂ 𝟐𝒕 𝒙𝒕 𝒙′𝒕 /𝜎 ∑{ 6}
̂ ′𝑇 =
𝐷
𝑇
𝑡=1 T 2σ̂T
t=1
𝑇 𝑇
1 ̂ 3 𝑥′
𝑢 1 ̂2
𝑢 1 2
∑ { 𝑡 6𝑡 } ∑ { 𝑡4 − }
[ 𝑇
𝑡=1 2𝜎
̂𝑇 𝑇
𝑡=1
̂2
̂ 𝑇 2𝜎
2𝜎 𝑇 ]
̂ 𝑻 = −plim(𝑫
(c) Demuestra que plim 𝑺 ̂ 𝑻 ) = 𝝋, donde
𝑸/𝜎 2 𝟎
𝝋=[ ]
𝟎 1/(2𝜎 4 )
Para Q=plim(1/T) ∑𝑇𝑡=1 𝒙𝒕 𝒙′𝒕

d) Considerar un conjunto de m lineal restricciones sobre β de la forma Rβ = r para R un conocido
̂ 𝑻 , la prueba
̂ 𝑻 = -𝑫
(m x k) de la matriz y r un conocido (m x 1) del vector. Mostrar que para 𝝋
estadística de Wald dado en [14.4.16] es idéntica a la de Wald forma de MCM 𝑿𝟐 prueba en [8.2.23]
con la MCO estimación de la varianza 𝑺𝟐 en [8.2.23] reemplazado por el MLE 𝝈̂𝟐 .
𝑻 𝑻
(e) Muestran que cuando la parte inferior izquierda y superior derecha de los bloques de 𝑆𝑇′ sus
plim de cero, entonces la cuasi-máxima verosimilitud prueba de Wald Rβ = r es idéntica a la
heterocedasticidad coherente con la forma de la MCO 𝟐 prueba dada en [8.2.23].
𝑿
Aitchison. J., and S. d. Silvey., 1958. "Estimación de máxima Verosimilitud de los Parámetros
Sujetos a restricciones de tamaño." Anales de la Estadística matemática 29:813-28..
Amemiya, Takeshi. 1974. "El Estimador No Lineal De Dos Etapas De Mínimos Cuadrados."
Diario de econometría 2:105-10.
Andrews, Donald W. K., 1991, "Heterocedasticidad y Autocorrelación Consistente de la Matriz de
Covarianza de la Estimación." Econometrica 59:817-58
1993 "Pruebas para el Parámetro de la Inestabilidad y el Cambio Estructural con
Desconocidos Cambio Punto." Econometrica 61:821-56
And Ray C. Fair. 1988. "La inferencia en no Lineal de los Modelos econométricos con el
Cambio Estructural." Revisión de Estudios Económico 55:615-40.
And J.Christopher Monahan. 1992. "Una Mejora de la Heterocedasticidad y
Autocorrelación Consistente de la Matriz de Covarianza Estimatior." Econometrica 60:953-66.
Bates, Charles y Halbert White. 1988. "Eficiente Variables Instrumentales Estimación de Sistemas
de Implícito Heterogéneo, Dinámico no Lineal de Ecuaciones con Nonspherical Errores." en
William A. Barnett. Ernst R..Berndt, y Halbert Blanco, eds.. Dinámica de la elaboración de modelos
Econométricos, Cambridge, Inglaterra : Cambridge University Press.
Breusch, T. S., y A. R.. Pagano. 1980. "El Multiplicador de Lagrange de la Prueba y Sus
Aplicaciones a la Especificación del Modelo en la Econometría." Revisión de Estudios Económicos
47:239-253.
Cramér,H. 1946. Métodos matemáticos de Stadistics. Princeton, N. J.:Princeton University Press.
Engle, Robert F. 1984. "Wald, Cociente de Probabilidad, y El Multiplicador de Lagrange de la
Prueba en la Econometría." En Zvi Griliches y Michael D. Intriligator, eds., Manual de
Econometría. Vol.2, Amsterdam: North-Holland.
Ferguson, T. S. 1958. "Un Método de Generación de Mejores Asynptotically Normal de las
estimaciones con Aplicación a la estimación de la densidad Bacteriana."Anales de la Estadística
Matemática 29:1046-62.
Galán, A. Ronald. 1977. "Tres etapas de mínimos Cuadrados, la Estimación de un sistema de
Simultáneas no Lineales, Ecuaciones Implícitas." Diario de Econometría 5:71-88.
,1987. No Lineal De Los Modelos Estadísticos. New York: Wiley.
y George Tauchen. 1992. "El que los Momentos de Partido?" Duke University, Mimeo.
And Halbert white, 1988. Una Teoría unificada de la Estimación y la Inferencia no Lineal de
los Modelos Dinámicos.. Oxford: Blackwell.
Garber, Pedro M.. y Robert G. Rey. 1984. "Estructurales Profundos De La Excavación? Una
Crítica de la Ecuación de Euler los Métodos." La universidad de Rochester. Mimeo.

Ghysels, Eric, y Alastair Hall. 1990a. "Una Prueba para la Estabilidad estructural de Euler
Condiciones de los Parámetros Estimados a través del Método Generalizado de Momentos
Estimador." International Economic Review 31:355-64.
Y .1990b. "Está Basado en el Consumo intertemporal de Activos de Capital de
Precios de los Modelos Estructurales?" Diario de Econometría 45:121-39.
Godfrey, L. G. 1998. Misspecification Pruebas en Econometría: El Multiplicador de Lagrange
Principio y Otros Enfoques. Cambridge, Inglaterra: Cambridge University Pres
Gourieroux,C.,A. Monfort y A. Trognon. 1984. "Pseudo Métodos De Máxima Verosimilitud: La
Teoría". Econometrica 52:681-700.Hall, Alastair.1993. "Algunos Aspectos del Método
Generalizado de Momentos de Estimación." En C. R. Rao,G. S. Maddala y H. D. Vinod,
eds.,Manual de Estadísticas, Vol.11 de la Econometría. Amsterdam: North-Holland.
Hansen, Lars P. 1982. "Las grandes Propiedades de las Muestras de Método Generalizado de
Momentos Estimadores." Econometrica 50:1029-54.
Y Kenneth J. Singleton.1982. "Generalizado Variables Instrumentales de Estimación no
Lineal Racional Expectatios Modelos." Econometrica 50:1269-86, Fe De Erratas:Econometrica
52:267-68.
Jorgenson, D. W. y J. Laffont.1974. "Eficiente Estimación no Lineal de Ecuaciones Simultáneas
con aditivo Disturbios." Anales de la vida Económica y Social de medición 3:615-40.
Kocherlakota, Narayana R. 1990. "En las Pruebas de Consumidores Representativas de los Activos
de Modelos de fijación de Precios." Diario de la Economía Monetaria 26:285-304.
Malinvaud, E. 1970. Estatistical Métodos de Econometría. Amsterdam: North-Holland.
Nelson, Carlos R.. y Richard Startz, 1990. "Algunos de los resultados Más Exactos Pequeña
Muestra Propeties de la Variable Instrumental Estimador." Econometrica 58:967-76.
Newey, Whitney K. 1985. "Método generalizado de Momentos especificaciones de Pruebas."
Diario de econometría 29 :229-56.
Y Kenneth D. West, 1987. "Una Simple Positiva Semi-Definida, Heterocedasticidad y
Autocorrelación Consistente de la Matriz de Covarianza." Econometrica 55:703-8.
Ogaki, Masao, 1993. "Método generalizado de Momentos: las Aplicaciones Econométricas." En G.
S. Maddala, C. R. Rao, y H. D. Vinod, eds., Manual de Estadísticas, Vol.11. La econometría.
Amsterdam: North-Holland.
Pearson, Karl.1984. "Contribución a la Teoría Matemática de la evolución". Philosophical
transactions de la Royal Society de Londres, Serie a, 185:71-110.
Rao, C. R. 1948. "Gran Muestra de las Pruebas Estadísticas las Hipótesis Sobre Varios Parámetros
con Aplicación a los Problemas de Estimación." Actas de la Sociedad Filosófica de Cambridge
44:50 a 57.
Rothenberg, Thomas J. 1987. Estimación eficiente con Información a Priori. New Haven, Conn.:
Yale University Press.
Sargent,Thomas J. 1987 Dinámica De La Teoría Macroeconómica. Cambridge, Mass.: Harvard
University Press.
Umbral,Keith, 1992. Dinero en el Cash-in-Advance Modelo: Una Aplicación Empírica Inédito Tel.
D. tesis doctoral de la Universidad de Virginia.
Tauchen, George, 1986. "Propiedades estadísticas de Método Generalizado de Momentos
Estimadores os Parámetros estructurales Obtenidos a partir de los Datos del Mercado Financiero".
Diario de los Negocios y de las Estadísticas Económicas 4:397-416.
Blanco, Halbert. 1980. "Un Heterocedasticidad Coherentes con la Matriz de Covarianza del
Estimador y Directa de la Prueba de Heterocedasticidad." Econometrica 48:817-38.
. 1982. "Estimación de máxima Verosimilitud de mal especificada Modelos." Econometrica
50:1-25.
. 1987. "Especificaciones de Pruebas en Modelos Dinámicos." En Truman F. Bewley. ed.
los Avances en la Econometría, el Quinto Congreso Mundial, Vol.II. Cambridge, Inglaterra:
Cambridge University Press.
Wooldridge, Jeffrey M. 1991a. "En la Aplicación de los sólidos, Basados en una Regresión de
Diagnóstico de los Modelos de Medio Condicional y Condicional Desviaciones." Diario de
Econometría 47:5-46.
. "Especificaciones de Pruebas y Cuasi-Estimación de Máxima Verosimilitud." Diario de
Econometría 48:29-55.

15 Modelos de Series
de Tiempo
No Estacionarias
Hasta este punto de nuestro análisis ha sido confinado a la procesos estacionarios. Este capítulo
presenta varios enfoques de modelación no estacionaria de series de tiempo y análisis de las
propiedades dinámicas de los diferentes modelos de no estacionariedad. Consecuencias de la no
estacionariedad de la inferencia estadística, se investigó en los capítulos subsiguientes.
15.1. Introducción
Los capítulos 3 y 4 examinó univariado de series de tiempo modelos que se pueden escribir en la
forma
𝑦𝑡 = 𝜇 + 𝜀𝑡 + 𝜓1 𝜀𝑡−1 + 𝜓2 𝜀𝑡−2 + ⋯ = 𝜇 + 𝜓(𝐿)𝜀𝑡 [15.1.1]
donde ∑⨯ 𝑗=0|𝜔𝑗 | < ∞, las raíces de 𝜓(𝑧) = 0 estan fuera del círculo unitario, y {𝜀𝑡 } es una
secuencia de ruido blanco con media cero y varianza 𝜎 2 . Dos características de los procesos de
mérito repetir aquí. En primer lugar, la incondicional, la expectativa de la variable es una constante,
independiente de la fecha de la observación:
𝐸𝑦𝑡 = 𝜇.
Segundo, como se trata de un pronóstico de la serie más en el futuro, la previsión de 𝑦̂ 𝑡+𝑠∣𝑡 ≡
𝐸̂ ( 𝑦𝑡+𝑠 ∣ 𝑦𝑡 , 𝑦𝑡−1 , … . ) Converge a la incondicional significa:
lim 𝑦̂ 𝑡+𝑠∣𝑡 = 𝜇.
𝑆→∞
Estos pueden ser bastante desagradables supuestos para muchos de los aspectos económicos y
financieros de la serie de tiempo encontradas en la práctica. Por ejemplo, en la Figura 15.1 parcelas
el nivel de producto interno bruto nominal por los Estados unidos desde la segunda Guerra
Mundial. No hay duda de que esta serie ha marcado una tendencia ascendente a lo largo del tiempo,
y esta tendencia al alza se debe ser incorporado en cualquier previsiones de esta serie.
Hay dos enfoques para describir tales tendencias. La primera es incluir el determinismo de la
tendencia del tiempo:
𝑦𝑡 = 𝛼 + 𝛿𝑡 + 𝜓(𝐿)𝜀𝑡 . [15.1.2]
Así, la media µ de la estacionario1 proceso [15.1.1] se sustituye por una función lineal de la fecha t.
Dicho proceso se describe a veces como la tendencia estacionaria, porque si uno resta la tendencia
𝛼 + 𝛿𝑡 de [15.1.2], el resultado es un proceso estacionario.
La segunda especificación es una raíz de la unidad de proceso,
(1 − 𝐿)𝑦𝑡 = 𝛿 + 𝜓(𝐿)𝜀𝑡 , [15.1.3]
1
Recordemos que "estacionaria" se refiere a "la covarianza estacionaria."
452 Capítulo 15 | Modelos de Serie de tiempo no estacionarias

5000
4000
3000
2000
1000
0
47 51 55 59 63 67 71 75 79 83 87
FIGURA 15.1 U.S. nominal GNP. 1947-87.
Donde 𝜓(1)≠0. Para una raíz de la unidad de proceso, una estacionaria representación de la forma
de [15.1.1] describe los cambios en la serie. Por razones que serán evidentes en breve, la media de (1
– L) 𝑦𝑡 se denota d en lugar de µ.
El primer operador diferencia (1 – L) vendrá con una frecuencia suficiente que un símbolo especial
(la letra griega ∆) es reservado para ella:
∆𝑦𝑡 ≡ 𝑦𝑡 − 𝑦𝑡−1
El ejemplo prototípico de una unidad de la raíz proceso se obtiene mediante el establecimiento
de 𝜓(L) igual a 1 en [15.1.3]:
𝑦𝑡 = 𝑦𝑡−1 + 𝛿 + 𝜀𝑡 , [15.1.4]
Este proceso es conocido como un paseo aleatorio con deriva δ.
En la definición de una unidad de la raíz proceso en [15.1.3], se asumió que los ω(1) es distinto de
cero, donde ω(1) denota el polinomio
𝜓(𝑧) = 1 + 𝜓𝑧1 + 𝜓2 𝑧 2 + ⋯
Evaluados en z = 1. A ver qué tal restricción debe ser parte de la definición de una unidad de la raíz
proceso, supongamos que la serie original 𝑦𝑡 s, de hecho, inmóvil, con una representación de la
forma
𝑦𝑡 = µ + 𝑋 (𝐿)𝜀𝑡
Si una serie estacionaria es diferenciado, el resultado es
(1 − 𝐿)𝑦𝑡 = (1 − 𝐿)𝒳(𝐿)𝜀𝑡 ≡ 𝜓(𝐿)𝜀𝑡 ,
Donde ω(L) ≡ (1-L)X(L). Esta representación es en la forma de [15.1.3]-si la serie original 𝑦𝑡 es

estacionaria, entonces también lo es ∆𝑦𝑡 . Sin embargo, la media móvil de operador ω(L) que
caracteriza ∆𝑦𝑡 tiene la propiedad de que ω(1)= (1-1)X(1)=0. Cuando nos estipula que ω(1)≠0 en
[15.1.3], se fueron descartando así la posibilidad de que la serie original 𝑦𝑡 es estacionaria.
A veces es conveniente trabajar con algo un poco diferente representación de la unidad raíz
del proceso [15.1.3]. Considere la siguiente especificación
𝑦𝑡 = 𝛼 + 𝛿𝑡 + 𝑢𝑡 [15.1.5]

Donde 𝑢𝑡 sigue a un valor cero ARMA proceso:
(1 − ɸ1 𝐿 − ɸ2 𝐿2 − ⋯ − ɸ𝑃 𝐿𝑃 )𝑢𝑡 [15.1.6]
= (1 + 𝜃1 𝐿 + 𝜃2 𝐿2 + ⋯ + 𝜃𝑞 𝐿𝑞 )
Y donde la media móvil de operador (1 + 𝜃1 𝐿 + 𝜃2 𝐿2 + ⋯ + 𝜃𝑞 𝐿𝑞 ) es invertible. Supongamos

que el proceso autorregresivo en [15.1.6] se factoriza como en la ecuación [2.4.3]:
(1 − ɸ1 𝐿 − ɸ2 𝐿2 − ⋯ − ɸ𝑃 𝐿𝑃 ) = (1 − 𝜆1 𝐿)(1 − 𝜆2 𝐿). . . (1 − 𝜆𝑝 𝐿).

Si todos los autovalores 𝜆1 , 𝜆2 , … … 𝜆𝑝 están dentro del círculo unitario, entonces [15.1.6] se puede
expresar como
1 + 𝜃1 𝐿 + 𝜃2 𝐿2 + ⋯ + 𝜃𝑞 𝐿𝑞
𝑢𝑡 = 𝜀 ≡ 𝜓(𝐿)𝜀𝑡 ,
(1 − 𝜆1 𝐿)(1 − 𝜆2 𝐿). . . (1 − 𝜆𝑝 𝐿) 𝑡
Con ∑⨯ 𝑗=0|𝜔𝑗 | < ∞ y las raíces de ω(z)=0 fuera del círculo unidad. Por lo tanto, cuando |𝜆𝑖 | < 1
para todos los i, el proceso [15.1.5] sería un caso especial de la tendencia estacionaria proceso de
[15.1.2].Supongamos que en lugar de que 𝜆1 = 1 y |𝜆𝑖 | < 1 para i=2,3,….p. Entonces [15.1.6]
estado en el que
(1 − 𝐿)(1 − 𝜆2 𝐿)(1 − 𝜆3 𝐿). . . (1 − 𝜆𝑝 𝐿)𝑢𝑡 [15.1.7]

= (1 + 𝜃1 𝐿 + 𝜃2 𝐿2 + ⋯ + 𝜃𝑞 𝐿𝑞 )𝜀𝑡 ,
Lo que implica que
1 + 𝜃1 𝐿 + 𝜃2 𝐿2 + ⋯ + 𝜃𝑞 𝐿𝑞
(1 − 𝐿)𝑢𝑡 = 𝜀 ≡ 𝜓 ∗ (𝐿)𝜀𝑡 ,
(1 − 𝜆1 𝐿)(1 − 𝜆2 𝐿). . . (1 − 𝜆𝑝 𝐿) 𝑡
Con ∑⨯ 𝑗=0|𝜔𝑗 | < ∞ y las raíces de ω(z)=0 fuera del círculo unidad. Por lo tanto, si [15.1.5] es de
primera diferenciadas, el resultado es
(1 − 𝐿)𝑦𝑡 = (1 − 𝐿)𝛼 + [𝛿𝑡 − 𝛿(𝑡 − 1)] + (1 − 𝐿)𝑢𝑡 = 0 + 𝛿 + 𝜓 ∗ (𝐿)𝜀𝑡 ,
Cual es la forma de la raíz de la unidad de proceso [15.1.3].
La representación en [15.1.5] explica el uso del término "unidad raíz del proceso". Una de las raíces
o valores propios (𝜆1 ) del polinomio autorregresivo en [15.1.6] es la unidad, y todos los demás
valores están dentro del círculo unitario.
Otra expresión que se utiliza a veces es que el proceso [15.1.3] es integrada de orden 1. Esta
indicado como 𝑦𝑡 ~𝐼(1). El término "integrado" viene de cálculo; if dy/dt = x, a continuación y es
la integral de x. En tiempo discreto de la serie, if ∆𝑦𝑡 = 𝑥𝑡 , a continuación, y también podría ser
visto como la integral, o la suma de más de t, de x.
Si un proceso escrito en la forma de [15.1.5] y [15.1.6] tiene dos autovalores 𝜆1 y 𝜆2 que son
iguales a la unidad con los demás, todos dentro del círculo unidad, la segunda a las diferencias de
los datos tienen que ser tomadas antes de llegar a una serie de tiempo estacionaria:
(1 − 𝐿)2 𝑦𝑡 = 𝑘 + 𝜓(𝐿)𝜀𝑡 .
Un proceso se dice ser integrada de orden 2, que se denota 𝑦𝑡 ~𝐼(2).

Un proceso general por escrito en la forma de [15.1.5] y [15.1.6] es llamado un proceso
autorregresivo integrado de media móvil de proceso, que se denota ARIMA(p, d, q). El primer
parámetro (p) se refiere al número de retardos autorregresivos (sin contar la unidad de raíces), el
segundo parámetro (d) se refiere a la orden de la integración, y el tercer parámetro (p) indica el
número de la media móvil de los retrasos. Tomando dth diferencias de un ARIMA(p, d, q), que
produce una estacionario ARMA(p ,q) proceso.

15.2. Por qué el Tiempo Lineal de las Tendencias y de la
Unidad de Raíces
Uno podría preguntarse por qué, por la tendencia estacionaria especificación [15.1.2], la tendencia
es que se especifica como una función lineal de tiempo (dt) en lugar de una función cuadrática
(𝛿𝑡 + 𝛾𝑡 2 ) o exponencial(𝑒 𝛿𝑡 ). De hecho, el PIB de la serie en la Figura 15.1, como muchos
económica y financiera de series de tiempo, me parece mejor que se caracteriza por una tendencia
exponencial de una tendencia lineal. Una tendencia exponencial exposiciones constante crecimiento
proporcional; es decir, si
𝑦𝑡 = 𝑒 𝛿𝑡 , [15.1.7]
Entonces dy/dt = δ. 𝑦𝑡 . Crecimiento proporcional en la población podría surgir en caso de que el
número de niños nacidos fuera una fracción constante de la población actual. Crecimiento
proporcional en los precios (o constante de la inflación) se produciría si el gobierno estuviera
tratando de recoger un nivel constante de los ingresos reales de la impresión de dinero. Estas
historias son a menudo un atractivo punto de partida para la reflexión sobre las fuentes de las
tendencias en el tiempo, y el crecimiento exponencial de la frecuencia es confirmado por el aspecto
visual de la serie como en la Figura 15.1. Por esta razón, muchos de los economistas asumen que el
crecimiento es de la forma exponencial.
Observe que si tomamos el logaritmo natural de la tendencia exponencial [15.2.1], el resultado es
una tendencia lineal
𝑙𝑜𝑔 (𝑦𝑡 ) = 𝑒 𝛿𝑡 .
Por lo tanto, es común tomar los registros de los datos antes de intentar describir con el modelo en
[15.1.2].
Similares argumentos sugieren natural de los registros antes de aplicar [15.1.3]. Para pequeños
cambios, la primera diferencia del logaritmo de una variable es aproximadamente el mismo que el
porcentaje de cambio en la variable:
(1 − 𝐿)𝑙𝑜𝑔(𝑦𝑡 ) = 𝑙𝑜𝑔(𝑦𝑡 /𝑦𝑡−1 )
= 𝑙𝑜𝑔{1 + [(𝑦𝑡 − 𝑦𝑡−1 )/𝑦𝑡−1 ]}
≅ 𝑙𝑜𝑔(𝑦𝑡 − 𝑦𝑡−1 )/𝑦𝑡−1 ,
Donde hemos utilizado el hecho de que para x cercano a cero, log(1+x)≡x2 Por lo tanto, si los
registros de una variable se especifican a seguir a una unidad de una raíz proceso, la presunción es
que la tasa de crecimiento de la serie es un proceso estocástico estacionario. Los mismos
argumentos utilizados para justificar la toma de registros antes de aplicar [15.1.3].
A menudo, las unidades son un poco más cómodo si log(𝑦𝑡 ) se multiplica por 100.
A continuación, los cambios se miden directamente en unidades de porcentaje de cambio. Por
ejemplo, si (1 − 𝐿)[100 𝑥𝑙𝑜𝑔(𝑦𝑡 )]=1. 0, entonces 𝑦𝑡 es 1% mayor que 𝑦𝑡−1 .
15.3. Comparación de Tendencia Estacionaria y la Unidad de

los Procesos de Raíz
Esta sección compara una tendencia-la estacionariedad del proceso [15.1.2] con una raíz de la
unidad de proceso [15.1.3] en términos de las previsiones de la serie, la varianza del error de
2
Ver resultado [A. 3.36] en la Matemática de la Revisión (Apéndice a) al final del libro.
0 455
previsión, la dinámica de los multiplicadores, y de las transformaciones necesarias para lograr la
estacionariedad.
Comparación de las estimaciones

Para estimar un proceso de tendencia estacionaria [15.1.2] , el que determina el componente (𝛼 +
𝛿𝑡) es simplemente agregada a la estocástica estimación estacionaria del componente:
ŷ 𝑡+𝑠|𝑡 = α + δ(t + s) + 𝜓𝑠 𝜀𝑡 + 𝜓𝑠+1 𝜀𝑡−1 + 𝜓𝑠+2 𝜀𝑡−2 + … . [15.3.1]
Aquí ŷ 𝑡+𝑠|𝑡 , denota la proyección linear de 𝑦𝑡+𝑠 una constante 𝑦𝑡 , 𝑦𝑡−1 ……Vea que para un
proceso no estacionario, podríamos seguir una línea de términos “constantes” en una proyección
linear, en este caso α + δ(t + s), pueden ser diferentes cada dato t + s. Como el horizonte
estimado(s) gran incremento, absoluto sumario de {𝜓𝑗 } implica que esta estimación converge en
una tendencia de serie de tiempo.
𝐸[ ŷ 𝑡+𝑠|𝑡 − α − δ(t + s) ]2 → 0 como s → ∞.
Para estimar el proceso de la única raíz [15.1.3] llamado como única raíz Δ𝑦 , es un proceso
estacionario que puede ser estimado usando la fórmula común:
Δŷ 𝑡+𝑠|𝑡 ≡ Ê [(𝑦 𝑡+𝑠 − 𝑦𝑡+𝑠−1 )| 𝑦𝑡 , 𝑦𝑡−1 , . . . . ] [15.3.2]
= δ + 𝜓𝑠 𝜀𝑡 + 𝜓𝑠+1 𝜀𝑡−1 + 𝜓𝑠+2 𝜀𝑡−2 + . . .

El nivel de la cita de la variable 𝑡 + 𝑠 es simplemente la suma de los cambios entre 𝑡 y 𝑡 + 𝑠 :
𝑦𝑡+𝑠 = (𝑦 𝑡+𝑠 − 𝑦𝑡+𝑠−1 ) + (𝑦 𝑡+𝑠−1 − 𝑦𝑡+𝑠−2 ) + . . .
+ (𝑦 𝑡+1 − 𝑦𝑡 ) + 𝑦𝑡 [15.3.3]
= Δ𝑦𝑡+𝑠 + Δ𝑦𝑡+𝑠−1 + . . . + Δ𝑦𝑡+1 + 𝑦𝑡 .
Tomando la proyección lineal de [15.3.3] en una constante 𝑦𝑡 , 𝑦𝑡−1 …… y sustituyendo de [15.3.2]
dado
ŷ 𝑡+𝑠|𝑡 = Δŷ 𝑡+𝑠|𝑡 + Δŷ 𝑡+𝑠−1|𝑡 + . . . + Δŷ 𝑡+1|𝑡 + 𝑦𝑡
= {δ + 𝜓𝑠 𝜀𝑡 + 𝜓𝑠+1 𝜀𝑡−1 + 𝜓𝑠+2 𝜀𝑡−2 + . . .}

+ {δ + 𝜓𝑠−1 𝜀𝑡 + 𝜓𝑠 𝜀𝑡−1 + 𝜓𝑠+1 𝜀𝑡−2 + . . .}
+ . . . + {δ + 𝜓1 𝜀𝑡 + 𝜓2 𝜀𝑡−1 + 𝜓3 𝜀𝑡−2 + . . .} + 𝑦𝑡
ŷ 𝑡+𝑠|𝑡 = 𝑠𝛿 + 𝑦𝑡 + (𝜓𝑠 + 𝜓𝑠−1 + . . . + 𝜓1 ) 𝜀𝑡 [15.3.4]
+ (𝜓𝑠+1 + 𝜓𝑠 + . . . + 𝜓2 ) 𝜀𝑡−1 + . . .
Así en la estimación del proceso de la raíz unitaria es obtenido analizando algunos casos
especiales. Considerar primero el camino aleatorio con deriva [15.1.4], en cuanto 𝜓1 = 𝜓2 = . . . =
0. Luego [15.3.4] se convierte en
ŷ 𝑡+𝑠|𝑡 = 𝑠𝛿 + 𝑦𝑡 .
Un camino aleatorio con deriva δ es llevado a incrementarse el índice constante de δ por periodo de
cualquier valor 𝑦𝑡 , pasa a ser.
Considerar lo siguiente un ARIMA (0,1,1) especificación (𝜓1 = Ѳ, 𝜓2 = 𝜓3 = . . . = 0). Luego
ŷ 𝑡+𝑠|𝑡 = 𝑠𝛿 + 𝑦𝑡 + Ѳ𝜀𝑡 . [15.3.5]

Aquí, el nivel común de las series 𝑦𝑡 solo con común innovación 𝜀𝑡 de nuevo define una fase forma
de cada variable es llevado a incrementarse el índice constante δ.
Nótese que 𝜀𝑡 es el primer periodo ántes de la estimación del error:
𝜀𝑡 = 𝑦𝑡 - ŷ 𝑡|𝑡−1 .
Esto sigue de [15.3.5] que por δ = 0 y 𝑠 = 1,

ŷ 𝑡+1|𝑡 = 𝑦𝑡 + Ѳ(𝑦𝑡 - ŷ 𝑡|𝑡−1 ) [15.3.6]
o
ŷ 𝑡+1|𝑡 = (1+Ѳ) 𝑦𝑡 - Ѳ ŷ 𝑡|𝑡−1 ). [15.3.7]
La ecuación [15.3.7] toma la forma de una primera ecuación diferencial simple, relacionando
ŷ 𝑡+1|𝑡 , para el propio valor disminuido y para introducir una variable (1+Ѳ) 𝑦𝑡 . Aporta que |Ѳ|
<1, expresión [15.3.7] que puede ser escrita usando el resultado [2.2.9] como
ŷ 𝑡+1|𝑡 = [(1+Ѳ) 𝑦𝑡 ] + (-Ѳ)[(1+Ѳ) 𝑦𝑡−1 ]
+ (-Ѳ)2 [(1+Ѳ) 𝑦𝑡−2 ] + (-Ѳ)3 [(1+Ѳ) 𝑦𝑡−3 ] + . . .

[15.3.8]
= (1+Ѳ) ∑𝑥𝑗=0(−Ѳ) j 𝑦𝑡−𝑗 .
La expresión [15.3.7] es algunas veces descrita como expectativas adaptativas, y esta implicación
[15.3.8] es referida como un ligero exponencial; típicas aplicaciones asumen que -1<Ѳ<0. Dejando 𝑦𝑡
denota salario, Friedman (1957) usado la ligera exponencial para construir una de sus permanentes
medidas. Muth (1960) ha notado que las expectativas adaptativas o ligera exponencial corresponde a
una estimación racional del futuro medido solo si 𝑦𝑡 sigue un ARIMA(0, 1, 1) proceso y el peso
ligero (-Ѳ) es elegido para igualar el negativo del movimiento promedio del coeficiente de la data
diferencial (Ѳ).
Por un ARIMA(0, 1, 𝑞) procesa, el valor de 𝑦𝑡 y el 𝑞 del reciente valor más de 𝜀𝑡 influenciado la
estimación ŷ 𝑡+1|𝑡 , ŷ 𝑡+2|𝑡 , . . . , ŷ 𝑡+𝑞|𝑡 , pero a partir de ahí la serie es anticipada para aumentar el
radio δ.
Así, el parámetro δ en el proceso de única raíz [15.1.3] juega un rol similar al de δ en el tiempo de
tendencia determinista [15.1.2]. Con cualquier especificación, la estimada ŷ 𝑡+𝑠|𝑡 en [15.3.1] o
[15.3.4] convergen a función lineal del horizonte estimado 𝑠 con pendiente δ; ver Figura 15.2. La
diferente clave es un intercepto de la línea. Para un proceso de tendencia estacionario, la estimada
converge con la línea cuyo intercepto es el mismo valor de todos modos de 𝑦𝑡 . Por contraste, el
intercepto del límite estimado por un proceso de única raíz está continuamente cambiando con
cada nueva observación en 𝑦.
Comparación de los errores estimados

La tendencia-estacionaria y la única raíz de especificaciones son muy diferentes en sus implicaciones
para la varianza del error estimado. Para la tendencia-estacionaria procesa [15.1.2], la 𝑠-periodo-
delante error estimado es
𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 = {𝛼 + 𝛿(𝑡 + 𝑠) + 𝜀𝑡+𝑠 + 𝜓1 𝜀𝑡+𝑠−1 + 𝜓2 𝜀𝑡+𝑠−2 + . . .
+ 𝜓𝑠−1 𝜀𝑡+1 + 𝜓𝑠 𝜀𝑡 + 𝜓𝑠+1 𝜀𝑡−1 + . . . }

− {α + δ(𝑡 + 𝑠) + 𝜓𝑠 𝜀𝑡 + 𝜓𝑠+1 𝜀𝑡−1 + 𝜓𝑠+2 𝜀𝑡−2 + . . .}
= 𝜀𝑡+𝑠 + 𝜓1 𝜀𝑡+𝑠−1 + 𝜓2 𝜀𝑡+𝑠−2 + . . . + 𝜓𝑠−1 𝜀𝑡+1.
15.3 Comparación de Tendencia Estacionaria y la Unidad de los Procesos de Raíz 457

El significado del error cuadrático (MSE) de esta estimación es
𝐸[𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 ]2 = {1 + 𝜓12 + 𝜓22 + . . . +.𝜓𝑠−1
2
}σ2 .
Note que la limitación MSE es junto la varianza incondicional del componente estacionario ψ(L) 𝜀𝑡 .
Por contraste, de la única raíz [15.1.3], la 𝑠-periodo-delante error estimado es
estimación
95% intervalo de confianza
Tiempo
(a) Proceso tendencia-estacionaria
estimación
95% intervalo de confianza
Tiempo
(b) Única raíz
FIGURA 15.2 Estimación y 95% intervalo de confianza.
𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 = { Δ𝑦 𝑡+𝑠 + Δ𝑦 𝑡+𝑠−1 + . . . + Δ𝑦 𝑡+1 + 𝑦𝑡 }

− { Δŷ 𝑡+𝑠|𝑡 + Δŷ 𝑡+𝑠−1|𝑡 + . . . + Δŷ 𝑡+1|𝑡 + 𝑦𝑡 }
= { 𝜀𝑡+𝑠 + 𝜓1 𝜀𝑡+𝑠−1 + . . . + 𝜓𝑠−1 𝜀𝑡+1 }

+ {𝜀𝑡+𝑠−1 + 𝜓1 𝜀𝑡+𝑠−2 + . . . + 𝜓𝑠−2 𝜀𝑡+1 } + . . . + {𝜀𝑡+1}
= 𝜀𝑡+𝑠 + {1 + 𝜓1 } 𝜀𝑡+𝑠−1 + {1 + 𝜓1 + 𝜓2 } 𝜀𝑡+𝑠−2 + . . .
+ {1 + 𝜓1 + 𝜓2 + . . . +𝜓𝑠−1 }𝜀𝑡+1 ,

Con MSE
𝐸[𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 ]2 = {1 +(1+ 𝜓1 ) 2+ ( {1 + 𝜓1 + 𝜓2 )2 + . . .
+.(1 + 𝜓1 + 𝜓2 + . . . +𝜓𝑠−1 )2}σ2 .

El MSE incrementa con la magnitud de la 𝑠 estimada, sin embargo en contraste con el supuesto
tendencia-estacionario, el MSE no converge a ningún valor fijo como 𝑠 al infinito. En lugar de, esta
función linear asintomática de 𝑠 con pendiente (1 + 𝜓1 + 𝜓2 + . . . +𝜓𝑠−1 )2}σ2 . Por ejemplo, para
un proceso ARIMA(0, 1, 1).
𝐸[𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 ]2 = {1 + (𝑠 − 1)(1 + Ѳ)2}σ2. [15.3.9]
Para sintetizar, el proceso de tendencia-estacionaria el MSE guarda un límite finito como el
horizonte estimado convertido completo, mientras que por un proceso de única raíz el MSE
eventualmente incrementa linealmente con un horizonte estimado. Este resultado es ilustrado
nuevamente en la Figura 15.2.
Note que desde que el MSE incrementa linealmente con el 𝑠 horizonte estimado, la desviación
estándar del incremento del error con la raíz cuadrada de 𝑠. En el otro lado, si δ › 0, luego por sí
mismo incrementa la estimada en 𝑠. Por consiguiente, un 95% intervalo de confianza por 𝑦𝑡+𝑠
expandida, más lentamente que el nivel de la series, significa que la data del proceso de la única raíz
con rumbo positivo son ciertos para mostrar un ascenso de tendencia si es observada
suficientemente en un largo periodo. En ese sentido la tendencia introduce siendo en aumento δ del
control asintomático incrementando en alza la variable prevista del componente de la púnica raíz.
Este resultado es muy importante entender para el estadístico resultado de ser presentado en el
Capítulo 17 y 18.
Figura 15.3 argumenta realizaciones de un camino aleatorio Gaussiano sin rumbo y al
rumbo. El camino aleatorio sin rumbo, muestra en el panel (a), la no tendencia de volver a empezar
el valor o ningún significado. El camino aleatorio sin rumbo, muestra en el panel (b), la no
tendencia de volver a arreglar la tendencia linear determinista, fuerte la serie es asintomática
dominada por un término aleatorio.
Comparación de los errores estimados

Alguna diferencia entre la tendencia-estacionaria y el proceso de la única raíz es la
persistencia y la innovación. Considera las consecuencias de 𝑦𝑡+𝑠 si 𝜀𝑡 incrementa por una unidad
con ε’s por todos los datos afectados. Por el proceso de la tendencia-estacionaria [15.1.2], esta
múltiple dinámica es dado por
∂𝑦𝑡+𝑠
= 𝜓𝑠
𝜕𝜀𝑡
Por un proceso tendencia-estacionaria, luego, el efecto de ningún disturbio eventualmente se

desgasta:
∂𝑦𝑡+𝑠
lim =0
𝑠→∞ 𝜕𝜀𝑡
15.3 Comparación de Tendencia Estacionaria y la Unidad de los Procesos de Raíz 459

0
-2
-4
-6
-8
-10
-12
-14
1 10 19 28 37 46 55 64 73 82 91 100
(a) Camino aleatorio sin deriva
60
50
40
30
20
10
1 10 19 28 37 46 55 64 73 82 91 100
(b)Camino aleatorio con deriva
FIGURE 15.3 Simple realización del proceso de la única raíz Gaussiana.
Por contraste, por el proceso de una única raíz, el efecto de 𝜀𝑡 en 𝑦𝑡+𝑠 es vista en [15.3.4] para ser3.
∂𝑦𝑡+𝑠 ∂𝑦
= 𝜕𝜀𝑡 + 𝜓𝑠 + 𝜓𝑠−1 +. . . + 𝜓1 = 1 + 𝜓1 + 𝜓2 + . . . + 𝜓𝑠 .
𝜕𝜀𝑡 𝑡
Una innovación 𝜀𝑡 tiene un efecto permanente en el nivel de 𝑦 que es capturado por

∂𝑦𝑡+𝑠
lim = 1 + 𝜓1 + 𝜓2 + . . . = ψ(1). [15.3.10]
𝑠→∞ 𝜕𝜀𝑡
3
Este, de acuerdo, contrasta con el múltiplo que describe el efecto de 𝜀𝑡 , en el cambio entre 𝑦𝑡+𝑠 y 𝑦𝑡+𝑠−1 , que es dado por
∂Δ𝑦𝑡+𝑠
= 𝜓𝑠
𝜕𝜀𝑡

Como ejemplo del cálculo de dicho multiplicador, se estimó el siguiente modelo ARIMA (4, 1,
0) modelo estimado para 𝑦𝑡 igual a 100 veces el logaritmo trimestral U.S. real GNP (t = 1952: II a
1984: IV):
Δ𝑦𝑡 = 0.555 + 0.312 Δ𝑦𝑡−1 + 0.122 Δ𝑦𝑡−2 − 0.116 Δ𝑦𝑡−3 − 0.081 Δ𝑦𝑡−4 + 𝜀𝑡 .
Para esta especificación, se estima que el efecto permanente de un cambio de una unidad en 𝜀𝑡 , en
el nivel real PBN es estimado para ser
ψ(1) = 1/ø(1) = 1/(1 – 0.312 – 0.122 + 0.116 + 0.081) = 1.31.
Transformaciones para lograr la estacionariedad
Una diferencia final entre los procesos de tendencias estacionarias y raíces unitarias que
merecen comentarios es la transformación de los datos necesarios para generar series temporales
estacionarias. Si el proceso es realmente estacionario como en [15.1.2], el tratamiento apropiado es
restar δt de 𝑦𝑡 para producir una representación estacionaria de la forma de [15.1.1]. Por el
contrario, si los datos fueran realmente generados por el proceso raíz unitario [15.1.3], sustraer δ t de
𝑦𝑡 tendría éxito en eliminar la dependencia temporal de la media pero no la varianza. Por ejemplo,
si los datos fueron generados por [15.l.4], el paseo aleatorio con deriva, entonces
𝑦𝑡 − δt = 𝑦0 + (𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡 ) ≡ 𝑦0 + 𝑢𝑡 .
La varianza del residual 𝑢𝑡 es tσ2; crece con la fecha de la observación. Por tanto, sustraer una
tendencia temporal de un proceso de raíz unitaria no es suficiente para producir una serie temporal
estacionaria.
El tratamiento correcto para un proceso de raíz unitaria es diferenciar la serie, y por esta
razón un proceso descrito por [15.1.3] a veces se llama un proceso estacionario-de diferencia.
Obsérvese, sin embargo, que si se tratara de diferenciar un proceso estacionario-tendencia [15.1.2],
el resultado sería
Δ𝑦𝑡 = δ + (1 − 𝐿)ψ(𝐿)𝜀𝑡 .
Esta es una serie temporal estacionaria, pero se ha introducido una raíz unitaria en la representación
del promedio móvil. Así, el resultado sería un proceso no reversible sujeto a las dificultades
potenciales discutidas en los Capítulos 3 a 5.
15.4. El Significado de las Pruebas para las Raíces Unitarias

Saber si la no estacionariedad en los datos se debe a una tendencia temporal determinista de una
raíz unitaria parecería ser una cuestión muy importante. Por ejemplo, los macroeconomistas están
muy interesados en saber si las recesiones económicas tienen consecuencias permanentes para el
nivel del PNB futuro, o en su lugar representan caídas temporales con la producción perdida
eventualmente compensada durante la recuperación. Nelson y Plosser (1982) argumentaron que
muchas series económicas están mejor caracterizadas por las raíces unitarias que por tendencias
deterministas del tiempo. Varios economistas han intentado medir el tamaño de las consecuencias
permanentes estimando ψ(1) para varias representaciones en series temporales del crecimiento del
PNB.4
4
Véase, por ejemplo. Watson (1986), Clark (1987), Campbell y Mankiw (1987a, b). Cochrane (1988). Gagnon (1988). Stock y Watson
(1988), Durlauf (1989) y Hamilton (1989).
0 461
Aunque podría ser muy interesante saber si una serie cronológica tiene una raíz unitaria,
varios trabajos recientes han argumentado que la pregunta es inherentemente no responden sobre la
base de una muestra finita de observaciones.5 El argumento toma la forma de dos observaciones.
La primera observación es que para cualquier proceso raíz unitaria existe un proceso
estacionario que será imposible distinguir de la representación de la raíz unitaria para cualquier
tamaño de muestra dado T. Este proceso estacionario se encuentra fácilmente estableciendo uno de
los valores propios cerca de pero No muy igual a la unidad. Por ejemplo, se compone de T =
10,000 observaciones que fueron realmente generadas por una deriva menos aleatoria:
𝑦𝑡 = 𝑦𝑡−1 + 𝜀𝑡 modelo verdadero (raíz unitaria). [15.4.1]
Considere tratar de distinguir esto del siguiente proceso estacionario:
𝑦𝑡 = ø𝑦𝑡−1 + 𝜀𝑡 |ø| <1 modelo falso (estacionario) [15.4.2]
El pronóstico de s-periodo-adelante de [15.4 1] es
ŷ 𝑡+𝑠|𝑡 = 𝑦𝑡 [15.4.3]
Con MSE
𝐸(𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 )2 = 𝑠𝜎 2 . [15.4.4]
El pronóstico correspondiente de [15.4.2] es
ŷ 𝑡+𝑠|𝑡 = ø s 𝑦𝑡 [15.4.5]
Con MSE
𝐸(𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 )2 = (1 + ø2 + ø4 + . . . +ø2(𝑠−1) ). 𝜎 2 . [15.4.6]
Es evidente que existe un valor de ø suficientemente próximo a la unidad tal que las implicaciones
observables de la representación estacionaria ([15.4.5] y [15.4.6]) son arbitrariamente cercanas a las
del proceso raíz unitaria ([15.4.3] y [15.4.4]) en una muestra de toro 10,000.
Más formalmente, la función de verosimilitud condicional para un proceso gaussiano
caracterizado por [15.1.7] es continua en el parámetro λ1. Por lo tanto, dado cualquier tamaño de
muestra fijo T, cualquier pequeño número η y ε, y cualquier especificación raíz de unidad con λ1 =
1, existe una especificación estacionaria con λ1 <1 con la propiedad de que la probabilidad es menor
que ε, uno observa una muestra de tamaño T para la cual el valor de la probabilidad implícita por la
representación de raíz unitaria difiere en más de η del valor de la probabilidad implícita por la
representación estacionaria.
La proposición inversa es también verdadera—para cualquier proceso estacionario y un
tamaño de muestra dado T, existe un proceso de raíz unitaria que será imposible distinguir de la
representación raíz unitaria. Una vez más, considere un ejemplo simple. Supongamos que el
verdadero proceso es ruido blanco:
𝑦𝑡 = 𝜀𝑡 modelo verdadero (estacionario). [15.4.7]
Considere tratar de distinguir esto de
(1 − 𝐿)𝑦𝑡 = (1 + Ѳ𝐿)𝜀𝑡 |Ѳ| <1 modelo falso (raíz unitaria) [15.4.8]
𝑦0 = 𝜀0 = 0.
El pronóstico del período-s-adelante de [15.4.7] es
ŷ 𝑡+𝑠|𝑡 = 0
Con MSE
𝐸(𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 )2 = 𝜎 2 .
5
Ver Blough (1992a. B), Cochrane (1991), Cristiano y Eichenbaum (1990), Stock (1990) y Sims (1989). La afirmación más clara de este
punto de vista, y la perspectiva en la que se basan las observaciones en el texto, es la de Blough.

La estimación de [15.4.8] se obtiene de [15.3.5]:
ŷ 𝑡+𝑠|𝑡 = 𝑦𝑡 + Ѳ𝜀𝑡
= { Δ𝑦𝑡 + Δ𝑦𝑡−1 +. . . +Δ𝑦2 + 𝑦1 } + Ѳ𝜀𝑡

={(𝜀𝑡 + Ѳ𝜀𝑡−1 ) + (𝜀𝑡−1 + Ѳ𝜀𝑡−2 ) + . . . +(𝜀2 + Ѳ𝜀1 ) + (𝜀1 )} + Ѳ𝜀𝑡
= (1 + Ѳ){𝜀1 + 𝜀𝑡−1 + . . . +𝜀1 }.
De [15.3.9], la MSE del estimado s-periodo-adelante es
𝐸(𝑦𝑡+𝑠 − ŷ 𝑡+𝑠|𝑡 )2 = {1 + (𝑠 − 1)(1 + Ѳ)2 }𝜎 2 .
Una vez más, claramente. Dado que existe un tamaño de muestra fijo T, existe un valor de 0
suficientemente pequeño para que la raíz unitaria de la raíz produzca prácticamente las mismas
observables en el proceso estacionario [15.4.7].
La raíz unitaria y los procesos estacionarios difieren en sus implicaciones en horizontes de
tiempo infinitos. Pero para cualquier número finito dado de observaciones sobre las series
temporales, hay un representativo de una clase de modelos que podría explicar todas las
prestaciones observadas de los datos. Por lo tanto, debemos tener cuidado con nuestra elección de
la formulación de palabras, probando si una serie temporal determinada "Contiene una raíz
unitaria", o prueba de si las innovaciones "tienen un efecto permanente sobre el nivel de la serie",
sin embargo, es absolutamente imposible de hacer.
La forma de actuar es lo siguiente. Para un proceso de raíz unitaria dado por [15.1.3], la
función generadora de autocovarianza de (1 – L) 𝑦𝑡 es
𝑔∆𝑌 (𝑧) = 𝜓(𝑧)𝜎 2 𝜓(𝑧 −1 ).
La función generadora de autocovarianza es en evaluada en z = 1 luego
𝑔∆𝑌 (1) = [𝜓(1)]2 𝜎 2 .
Recordando que la variedad de la población de Δ𝑦 con frecuencia ω se define por
1
𝑠∆𝑌 (𝜔) = 2𝜋 𝑔∆𝑌 (𝑒 −𝑖𝜔 ),
La expresión [15.4.9] se puede describir alternativamente como 2𝜋 veces, la variedad de la

frecuencia cero:
1
𝑠∆𝑌 (0) = 2𝜋 [𝜓(1)]2 𝜎 2.
Por el contrario, si el verdadero proceso es la especificación estacionaria de tendencia

[15.1.2], la función generada-autocovarianza de Δ𝑦 puede calcularse a partir de [3.6.15] como
𝑔∆𝑌 (𝑧) = (1 − 𝑧)𝜓(𝑧)𝜎 2 𝜓(𝑧 −1 )(1 − 𝑧 −1 ),
que evaluó en z = 1 es 0. Así, si el verdadero proceso es tendencia-estacionario. La variedad de la
población de Δ𝑦 en la frecuencia cero es cero. Si el proceso se caracteriza por una raíz unitaria. La
variedad de población de Δ𝑦 en frecuencia cero es positiva.
La cuestión de si 𝑦𝑡 sigue un proceso de raíz unitaria puede, por lo tanto, expresarse

equivalentemente como una cuestión de si la variedad de población de 𝛥𝑦 con frecuencia cero es
cero. Sin embargo, no hay información en una muestra de los resultados de T acerca de los ciclos
con un período mayor que T, así como no hay información en una muestra de tamaño T sobre el
multiplicador dinámico para un horizonte 𝑠 > T.
A pesar de estas observaciones, hay varias preguntas muy cercanas y muy interesantes que
son intolerables. Dados suficientes datos, ciertamente se puede preguntar si las innovaciones tienen
un efecto significativo sobre el nivel de la serie en un horizonte finito determinado. Para un
15.4 El Significado de las Pruebas para las Raíces Unitarias 463

horizonte de tiempo fijo (por ejemplo, 𝑠 = 3 años), existe una muestra (por ejemplo, el siglo XVII
de observaciones de la Segunda Guerra Mundial) de tal manera que podemos preguntarnos si
∂𝑦𝑡+𝑠
está, o no, a cero. No puede decir si los datos fueron realmente generados por [15.4.1] o una
∂𝜀𝑡
relatividad relativa del forma de [15.4.2], que puede medir si la innovación tiene mucho que ver con
una incertidumbre (como en [15.4.1] o [15.4.2]) o muy poca persistencia en ese intervalo (como en
[15.4.7] o [15.4.8]).
También podemos llegar a una hipótesis comprobable si estamos dispuestos a restringir la
clase de procesos considerados. Supongamos que la dinámica de una muestra dada { 𝑦𝑡 , . . . . , 𝑦𝑇 }
son modelados usando una autorregresión fija. Conocido de orden p. Por ejemplo, supongamos
que están comprometidos a usar un proceso AR(1):
𝑦𝑡 = ∅𝑦𝑡−1 + 𝜀𝑡 . [15.4.10]
Dentro de las clases de modelos, la restricción
𝐻() : ∅ = 1
es ciertamente comprobable. Si bien es cierto que existen alternativas locales (como ∅ = 0,99999)
contra las cuales una prueba no tendría esencialmente poder, esto es verdad del mayor test de
hipótesis. Existen otras alternativas (como ∅ = 0.3) que conduciría a cierto rechazo de 𝐻0 , dadas
las observaciones bajas. La hipótesis ‘‘{𝑦𝑡 } es un proceso AR (l) con una raíz unitaria”
potencialmente refutable, la hipótesis “{𝑦𝑡 } es un proceso de raíz unitaria general de la forma
[15.1.3]” no lo es.
Puede haber buenas razones para volvernos a representar sólo representaciones

autorregresivas de bajo nivel. Modelos parsimoniosos con la mejor presentación y autorregresiones
son mucho más fáciles de estimar y pronosticar que la media móvil de los procesos, particularmente
los procesos de media móvil con una raíz próxima a la unidad.
Si realmente estamos comprometidos a desertar los datos con una autorregresión baja, saber
si la restricción adicional de una raíz unitaria debería ser imputada fue claramente importan para dos
razones. La primera implica un comercio familiar de la eficacia y la consistencia. Si una restricción
(en este caso, una raíz), es verdad, más eficientes estimaciones resultan de imponerlo. Estimaciones
de los otros coeficientes y múltiples dinámicos serán más precisos, y los pronósticos serán mejores.
Si la restricción es falsa, las estimaciones son irreductibles, no importa cuán grande sea la muestra.
Los investigadores difieren en sus consejos sobre cómo lidiar con esta compensación. Una guía
práctica es la de estimar los modelos con y sin la raíz de la unidad impuesta. Si las claves inferidas
son similares, tanto mejor. Si las diferencias difieren, algunos intentos en la explicación de los
hallazgos contradictorios (como en Chrktiano y Ljungqvivt,1988, o Stock y Watson, 1989) puede
ser deseable.
Además el conocimiento de la familiaridad y de la conspicuidad, la decisión de imponer o no
raíces unitarias a una autorregresión también plantea cuestiones que involucran la teoría de la
distribución asintótica sobre los usos para probar hipótesis sobre el proceso. Este tema se explora
en detalle en capítulos posteriores.
15.5. Otras aproximaciones a la serie temporal tendencial

Aunque la mayor parte del análisis de la no estacionalidad en este libro se dedicará a las raíces
unitarias ya las tendencias temporales, esta discusión abre brevemente dos enfoques alternativos al
modelado de la no estacionariedad: procesos fraccionadamente integrados y procesos ocasionales.
Cambios discretos en la tendencia temporal

Integración Fraccional
Recordemos que un proceso integrado de orden 𝑑 puede ser representado en la forma
(1 – L)d 𝑦𝑡 = ψ(L) 𝜀𝑡 [15.5.1]

Con ∑∝ 𝑗=0 |𝜓𝑡 | < ∞. La asunción normal de que d = 1, o que la primera diferencia de la serie es
estacional. Ocasionalmente se encuentra una serie que puede ser una mejor opción.
Granger y Joyeux (1980) y Hosking (1981) sugirieron que también podrían ser útiles los
valores no íntegros de 𝑑 en [15.5.1] también son útiles. Para entender el significado de [15.5.1] no
entero d, considerar el MA(∞) representación impuesta por [l5.5.l]. Este podría ser el operador
1
inverso (1 - L)d existe en la medida en que d < 2 Multiplicando ambos lados de [15.5.1] por (1 - L)-d
resulta en
𝑦𝑡 = (1 − 𝐿)−𝑑 𝜓(𝐿)𝜀𝑡 [15.5.2]
Por un 𝑧 escalar, define la función
𝑓(𝑧) ≡ (1 − 𝑧)-d.
Esta función tiene derivadas dados por
∂f
∂z
= 𝑑 · (1 − 𝑧)-d-1
∂2 f
= (d+1)·d·(1-z)-d-2
∂𝑧2
∂3 f
∂𝑧 3
= (d+1)·d·(1-z)-d-3
⋮
∂𝑗 f
= (d+j-1)·(d+j-2)···(d+1)·d·(1-z)-d-j.
∂𝑧 𝑗
Una expansión de la serie de potencias para 𝑓(z) alrededor de 𝑧 = 0 es dada por

∂f 1 ∂3 f
(1 − 𝑧)−𝑑 = 𝑓(0) + │
∂z 𝑧=()
· 𝑧 + 3! ∂𝑧3 │𝑧=() · 𝑧 3 + . . .
1 1
=1 + 𝑑𝑧 + (2!) (𝑑 + 1)𝑑𝑧 2 + (3!) (𝑑 + 2)(𝑑 + 1)𝑑𝑧 3 + . . .
El operador sugiere (1 − 𝐿)−𝑑 puede ser representado por el filtro

1 1
(1 − 𝐿)−𝑑 = 1 + 𝑑𝐿 + (2!) (𝑑 + 1)𝑑𝐿2 + (3!) (𝑑 + 2)(𝑑 + 1)𝑑𝐿3 + . . . [15.5.3]
= ∑∝ 𝑗
𝑗=0 ℎ𝑗 𝐿 ,
Donde ℎ0 ≡1 y
1
ℎ𝑗 ≡ (𝑗!) (𝑑 + 𝑗 − 1)(𝑑 + 𝑗 − 2)(𝑑 + 𝑗 − 3) ··· (𝑑 + 1)(𝑑). [15.5.4]
El apéndice 15.A de este capítulo establece que si d <1, ℎ𝑗 puede ser aproximado para grandes
𝑗 por
ℎ𝑗 ≡ (𝑗 + 1) 𝑑−1 . [15.5.5]
Así. El modelo de series de tiempo
15.5 Otras aproximaciones a la serie temporal tendencial 465

𝑦𝑡 = (1 − 𝐿)−𝑑 𝜀𝑡 = ℎ0 𝜀𝑡 + ℎ1 𝜀𝑡−1 + ℎ2 𝜀𝑡−2 +··· [15.5.6]
Describe una representación MA (∞) en la que el coeficiente ℎ𝑗 de respuesta impulso-respuesta se
comporta para grandes 𝑗 como (𝑗 + 1)𝑑−1 . Para la comparación, recuerde que el coeficiente
impulso-respuesta asociado con el proceso AR (1), 𝑦𝑡 = (1 − ø𝐿)−1 𝜀𝑡 está dado por ø𝑗 . Los
coeficientes impulso-respuesta para un proceso ARMA estacionario decaen geométricamente, en
contraste con la decadencia más lenta implicada por [15.5.5]. Debido a esta tasa de disminución más
lenta, Granger y Joyeux propusieron el proceso fraccionadamente integrado como un acercamiento
a modelar memorias largas en una serie de tiempo.
En una muestra finita. Esta memoria larga podría ser aproximada arbitrariamente bien con
una representación apropiada de ARMA de orden grande. El objetivo de la especificación de
diferencia fraccional es capturar parciosamente los multiplicadores que corren muy lentamente.
La secuencia de coeficientes de media móvil límite {ℎ𝑗 } ∞ 𝑗=0 dado [15.5.4] se puede
1 6
demostrar que es cuadrada-sumable siempre que 𝑑 < 2.
1
∑∝ 2
𝑗=0 ℎ𝑗 < ∞ Para 𝑑 < 2.
1 1
Así. [15.5.6] definen un proceso covariante-estacionario siempre que 𝑑 < . Si 𝑑 > el propósito
2 2
es diferenciar los procesos antes descritos en [15.5.2]. Por ejemplo, si 𝑑 = 0.7, Los procesos de
[15.5.1] implica
(1 − 𝐿)−0.3 (1 − 𝐿)𝑦𝑡 = 𝜓(𝐿)𝜀𝑡 ;
1
es decir, Δy, se integra fraccionadamente con el parámetro 𝑑 = −0.3 < 2.
Condición de la agregación de otros procesos que han sido identificados por Granger (1980).
Geweke y Porter-Hudak (1983) y Sowell (1992) propusieron técnicas para estimar 𝑑. Diebold y
Rudebusch (1989) analizaron PNB datos y la densidad de fluctuaciones de búsqueda usando este
enfoque, mientras que Lo (1991) proporcionó una interesante investigación de la persistencia del
movimiento en los valores priores
Pausas ocasionales en la tendencia

Según la especificación de la raíz unitaria [15.1.3], los eventos ocurren todo el tiempo que
permanentemente afectan el curso de 𝑦. Perron (1989) y Rappoport y Reechlin (1989) sostuvieron
que las crisis económicas que tienen grandes efectos permanentes son relativamente raros. La idea
se puede ilustrar con el siguiente modelo, en el que 𝑦𝑡 es estacionario alrededor de una tendencia
con un único descanso:
𝛼 + 𝛿𝑡 + 𝜀𝑡 𝑝𝑎𝑟𝑎 𝑡 < 𝑇0
𝑦𝑡 = { 1 [15.5.7]
𝛼2 + 𝛿𝑡 + 𝜀𝑡 𝑝𝑎𝑟𝑎 𝑡 ≥ 𝑇0
El hallazgo es que esta serie parece exhibir unidad raíz no estacionaria sobre la base de las pruebas
para ser discutido en el capítulo 17.
Otra forma de pensar sobre el proceso en [15.5.7] es el siguiente:
6
Razonamiento como en el apéndice 3.A al capítulo 3.
∝ 𝑁
∑(𝑗 + 1)2(𝑑−1) = ∑ 𝑗 2(𝑑−1)

𝑗=0 𝑗=1
𝑁
<1 + ∫𝑡 𝑥 2(𝑑−1)𝑑𝑥
= 1 + [1/(2𝑑 − 1)]𝑥 2(𝑑−1)│𝑁

𝑥=1
= 1 + [1/(2𝑑 − 1)] · [𝑁 2𝑑−1 − 1],
1
Converge en 1 − [1/(2𝑑 − 1)] como 𝑁 → ∞, siempre que 𝑑 < .
2

Δ 𝑦𝑡 = 𝜉𝑡 + 𝛿 + 𝜀𝑡 − 𝜀𝑡−1 [15.5.8]
Donde 𝜉𝑡 = (𝛼2 − 𝛼1 ) Cuando 𝑡 = 𝑇0 y cero en caso contrario. Supongamos que 𝜉𝑡 es visto como
una variable aleatoria con alguna distribución de probabilidad – decir,
𝛼2 − 𝛼1 𝑐𝑜𝑛 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝜌
𝜉𝑡 = {
0 𝑐𝑜𝑛 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 1 − 𝜌
Evidentemente, 𝜌 debe ser muy pequeña para representar la idea de que esto es un acontecimiento
relativamente raro. Ecuación [15.5.8] entonces podría ser reescrita como
Δ 𝑦𝑡 = 𝜇 + 𝜂𝑡 . [15.5.9]
Donde
𝜇 = 𝜌 (𝛼2 − 𝛼1 ) + 𝛿
𝜂𝑡 = 𝜉𝑡 − 𝜌 (𝛼2 − 𝛼1 ) + 𝜀𝑡 − 𝜀𝑡−1.
Pero 𝜂𝑡 es la suma de un proceso de ruido blanco de media cero [𝜉𝑡 − 𝜌 (𝛼2 − 𝛼1 )] y una
independiente MA(1) proceso [𝜀𝑡 − 𝜀𝑡−1 ]. Por lo tanto, un MA(1) representación para 𝜂𝑡 existe:
Desde esta perspectiva, [15.5.9] puede considerarse como un proceso ARIMA(0, 1, 1),
Δ 𝑦𝑡 = 𝜇 + 𝜈𝑡 − 𝜃𝜈𝑡−1
con una no-distribución gaussiana para las innovaciones 𝜈𝑡 :
𝜈𝑡 = 𝑦𝑡 − Ȇ(𝑦𝑡 |𝑦𝑡−1 , 𝑦𝑡−2 , … ).
La regla de predicción lineal óptimo,
Ȇ(𝑦𝑡+𝑠 |𝑦𝑡 , 𝑦𝑡−1 , … ) = 𝜇𝑠 + 𝑦𝑡 + 𝜃𝜈𝑡 .
se pone un peso diferente a cada innovación. Este peso no desaparece como s → ∞, porque cada
período esencialmente proporciona una nueva observación de la variable 𝜉𝑡 y la realización de
𝜉𝑡 tiene consecuencias permanentes para el nivel de la serie. Desde esta perspectiva, una serie de
tiempo satisfactoria [15.5.7] podría describirse como un proceso de raíz unitaria con innovaciones
de Gauss no.
Lam (1990) estima un modelo muy relacionado con [15.5.7] donde se supone cambios en la
pendiente de la línea de tendencia a seguir una cadena de Markov y donde el PIB real de Estados
Unidos le permitió seguir un autorregresivos de tercer orden inmóvil alrededor de esta tendencia.
Resultados de su estimación de máxima verosimilitud se indican en la figura 15.4.
Estos resultados son muy interesantes para la cuestión de las consecuencias de largo plazo de las
recesiones económicas. Según esta especificación, eventos que definitivamente cambiaron el nivel
del PNB coincidieron con las recesiones de 1957,1973 y 1980.
15.5 Otras aproximaciones a la serie temporal tendencial 467

820
800
780
760
740
720
700
52 55 58 61 64 67 70 73 76 79 82
FIGURA 15.4 Tendencia discreta estimada por U.S PNB real. 1952-84 (Lam, 1990)
APÉNDICE 15.A. Derivación de las ecuaciones seleccionadas

del Capítulo 15
▪ Derivación de la ecuación [15.5.5]. Escribir [15.5.4] como
ℎ𝑗 ≡ (1⁄𝑗!)(𝑑 + 𝑗 − 1)(𝑑 + 𝑗 − 2)(𝑑 + 𝑗 − 3) … (𝑑 + 1)(𝑑)

𝑑+𝑗−1 𝑑+𝑗−2 𝑑+𝑗−3 𝑑−1 𝑑
=[ ][ ][ ]…[ ][ ]
𝑗 𝑗−1 𝑗−2 2 1
𝑗+𝑑−1 𝑗−1+𝑑−1 𝑗−2+𝑑−1
=[ ][ ][ ]×…
𝑗 𝑗−1 𝑗−2
𝑗 − (𝑗 − 2) + 𝑑 − 1 𝑗 − (𝑗 − 1) + 𝑑 − 1
×[ ][ ]
𝑗 − (𝑗 − 2) 𝑗 − (𝑗 − 1) [15.A.1]
𝑑−1 𝑑−1 𝑑−1
= [1 + ] [1 + ] [1 + ]×…
𝑗 𝑗−1 𝑗−2
𝑑−1 𝑑−1
× [1 + ] [1 + ].
𝑗−(𝑗−2) 𝑗−(𝑗−1)
Para grandes 𝑗, Tenemos la aproximación

𝑑−1 1 𝑑−1
[1 + 𝑗
] ≅ [1 + ]
𝑗
[15.A.2]
Para justificar esto formalmente, considere la función 𝑔(𝑥) ≡ (1 + 𝑥)𝑑−1 . Teorema de Taylor
afirma que
𝜕𝑔 1 𝜕2 𝑔
(1 + 𝑥)𝑑−1 = 𝑔(0) + | . 𝑥 + 2 𝜕𝑥 2 | . 𝑥2 [15.A.3]
𝜕𝑥 𝑥=0 𝑥=𝛿

1
= 1 + (𝑑 − 1)𝑥 + 2 (𝑑 − 1)(𝑑 − 2)(1 + 𝛿)𝑑−3 𝑥 2 para algunos
𝛿 entre cero y 𝑥. Para 𝑥 > −1 y 𝑑 < 1, ecuación [15.A.3] implica que
(1 + 𝑥)𝑑−1 ≥ 1 + (𝑑 − 1)𝑥.
Dejando 𝑥 = 1⁄𝑗 da
𝑑−1 1 𝑑−1 1+𝑗 𝑑−1

1+ 𝑗
≤ [1 + 𝑗 ] =[ 𝑗
] [15.A.4]
para todos los 𝑗 > 0 y 𝑑 < 1, con la aproximación [15.A.2] mejorar como j → ∞. Sustituyendo
[15.A.4] en [15.A.1] implica que
1+𝑗 𝑑−1 𝑗 𝑑−1 𝑗−1 𝑑−1 3 𝑑−1 2 𝑑−1

ℎ𝑗 ≅ [ 𝑗
] [ 𝑗−1
] [ 𝑗−2
] … … [ 2
] [ 1] = [𝑗 + 1]𝑑−1 . [15.A.5]
Referencias capítulo 15
Blogh, Stephen R. 1992a. "La relación entre la energía y los nivel para las pruebas de raíz de unidad
genérica en Samoles finito". Diario de la Econometría Aplicada 7:295-308.
______. 1992b." Cerca de equivalencia observacional de la raíz de la unidad y procesos
estacionarios: Teoría e implicaciones. " JHONS Hopkins University. Mimeo.
Caja, G.E.P. y Gwilym M. Jenkins. 1976. time Series Analysis: Forecasting and Control, rev. ed. San
Francisco: Holden-día.
Campbell, John Y. y N. Gregory Mankiw. 1987a. "permanente y transitorio componentes en las
fluctuaciones macroeconómicas." Papeles de revisión económicos americanos y procedimientos
77:111-17.
___and___.1987b. ¿"Son las fluctuaciones de la salida transitoria"? Revista trimestral de economía
102:857-80.
Christiano, Lawrence J. y Martin Eichenbaum. 1990. "raíces de la unidad en el PNB Real: sabemos
y nos importa?" en Allan H. Meltzer, ed., raíces de la unidad, las medidas de inversión y otros
ensayos, 7-61. Serie de conferencia de Carnegie-Rochester en las políticas públicas. Vol. 32.
Amsterdam: Holanda del norte.
___ y Lars Ljungqvist. 1988. "el dinero hace salida Granger-causa en la relación bivariada de la
salida de dinero". Diario de 22:217 económica monetaria-35.
Clark, Peter K. 1987. "El componente cíclico de la actividad económica de Estados Unidos".
Revista trimestral de economía 102:797-814.
Cochrane. Jhon H. 1988." ¿Cuál es la caminata al azar en el PIB?" Diario de la política económica
96:893-920.
______. 1991. «una crítica de la aplicación de pruebas de raíz unitarias». Diario de la dinámica
económica y el Control de la 15:275-84.
Diebold. Francis X. y Glenn D. Rudebusch. 1989. — memoria largo y persistencia en la producción
agregada. Diario de 24:189 económica monetaria-209.
Durlauf. Steven N. 1989. "Persistencia de salida, estructura económica y elección de la política de
estabilización". Papeles de Brookings en actividad económica 2:1989. 69-116.
Friedman, Milton. 1957. teoría de la función de consumo. Princeton. N. J.: Prensa de la Universidad
de Princeton.
Gagnon, José E. 1988. «Corto plazo modelos y previsiones de largo plazo: una nota sobre la
permanencia de las fluctuaciones de la salida.» Revista trimestral de 103:415 económica-24.
Geweke, John y Susan Porter-sorts. 1983. "la estimación y aplicación de modelos de serie de tiempo
de larga memoria". Diario de 4:221 de análisis de Series de tiempo-38.
Granger, C. W. J. 1980. — Relaciones de larga memoria y la agregación de modelos dinámicos.
Diario de la econometría 14:227-38.

___ y Roselyne Joyeux. 1980. "una introducción a modelos de la serie de tiempo de larga memoria y
comparación de fracciones". Diario de la serie de tiempo análisis 1:15-29.
Hamilton, James D. 1989. "Un nuevo enfoque para el análisis económico de Series de tiempo
estacionarios y el ciclo de negocio". Econometrica 57:357-84.
Hosking, J. R. M. 1981. "Comparación de fraccionarios." Biometrika 68:165-76...
Lám. Pok-cantó. 1990. "el modelo de Hamilton con un componente autorregresivo de General.
Estimación y comparación con otros Moders de Series de tiempo económicas." Diario de 26:409
económica monetaria-32.
Lo. Andrew W. de 1991. "Memoria a largo plazo en los precios de mercado de valores." 59:1279 de
Econometrica-1313.
Muth. John F. 1960. "Propiedades óptimas de exponencialmente ponderados pronósticos." Revista
de la Asociación Americana de estadística 55:299-306.
Nelson, Charles R. y L de Charles Plosser. 1982. "tendencias y paseos al azar en Series de tiempo
macroeconómicas: algunas pruebas y consecuencias." Revista de economía monetaria 10:139-62.
Perron, Pierre. 1989. "la gran crisis, el choque de precio del petróleo y la hipótesis de raíz de
unidad." 57:1361 de Econometrica-1401.
Rappoport, Pedro y Lucrecia Reichlin. 1989. «tendencias segmentadas y Series de tiempo
estacionarios». Diario económico suplemento 99:168-77.
Sims, Christopher A. 1989. "Modelado de tendencias". La Universidad de Yale. Mimeo.
Sowell, Fallaw. 1992. "estimación de máxima verosimilitud de univariantes estacionarios
marginalmente integrada modelos de la serie de tiempo". Diario de la econometría 53:165-88.
Acción, James H. 1990. "Raíces de la unidad en el PNB Real: sabemos y nos importa?" Un
comentario. En Allan H. Meltzer. Ed., raíces de la unidad, las medidas de inversión y otros ensayos.
63-82. serie de conferencia de Carnegie-Rochester en las políticas públicas. Vol 32, Amsterdam:
North-Holland.
___ y Mrk W Watson. 1988. "tendencias variables en Series de tiempo económicas." Diario de
perspectivas económicas Vol. 2, núm. 3, 147-74.
______and______. 1989. "interpretación de la evidencia sobre causalidad dinero ingresos." Diario
de la econometría 40:161-81.
Watson, Mark W. 1986. "Métodos robustos univariante con tendencias estocásticas." Diario de la
economía monetaria 18:49-75.

16 Procesos
con tendencias deterministas
del tiempo
Los coeficientes de los modelos de regresión, que implican raíces unitarias o tendencias
deterministas del tiempo, se estiman típicamente por mínimos cuadrados ordinarios. Sin embargo,
las distribuciones asintóticas de las estimaciones de los coeficientes no pueden ser calculadas de la
misma forma que las de los modelos de regresión con variables estacionarias. Entre otras
dificultades, las estimaciones de diferentes parámetros tendrán en general diferentes tasas de
convergencia asintóticas. Este capítulo presenta la idea de diferentes tasas de convergencia y
desarrolla un enfoque general para obtener distribuciones asintóticas sugeridas por Sims, Stock y
Watson (1990)1. Este capítulo trata exclusivamente de procesos que implican tendencias
deterministas del tiempo, pero sin raíces unitarias. Uno de los resultados para tales procesos será
que las estadísticas OLS (“Mínimos Cuadrados Ordinarios” - MCO) t y F habituales, calculadas de
la manera habitual, tienen las mismas distribuciones asintóticas que las regresiones estacionarias.
Aunque las distribuciones limitantes son estándar, las técnicas utilizadas para verificar estas
distribuciones limitantes son diferentes de las utilizadas en el Capítulo 8. Estas técnicas también se
utilizarán para desarrollar las distribuciones asintóticas para procesos que incluyen raíces unitarias
en los Capítulos 7 y 18.
Este capítulo comienza con el ejemplo más simple de innovaciones i.i.d. en torno a una
tendencia temporal determinista. La sección 16.1 deriva las distribuciones asintóticas de las
estimaciones de coeficientes para este modelo e ilustra una reescalonamiento de variables que es
necesaria para acomodar diferentes tasas de convergencia asintóticas. La sección 16.2 muestra que a
pesar de las diferentes tasas asintóticas de convergencia, la norma estadística OLS (“Mínimos
Cuadrados Ordinarios” - MCO) t y F tienen las limitaciones habituales para este modelo. La sección
16.3 desarrolla resultados análogos para una covarianza estacionaria de autorregresión en torno a
una tendencia temporal determinista. Esta sección también introduce la técnica Sims, Stock y
Watson de transformar el modelo de regresión en una forma canónica para la cual la distribución
asintótica es más sencilla de describir.
16.1. Distribución asintótica de las estimaciones de MCO del

Modelo Simple de Tendencia Temporal
Esta sección considera la estimación de MCO de los parámetros de una tendencia temporal
simple.
𝑦𝑡 = 𝛼 + 𝛿𝑡 + 𝜀𝑡 [16.1.1]
Para 𝜀1 un proceso de “sonido blanco”. Si 𝜀𝑡 ~ 𝑁(0, 𝜎 2 ), entonces el modelo [16.1.1] satisface las
hipótesis de regresión clásicas2 y la estadística MCO t o F estándar en las ecuaciones [8.1.26] y
[8.1.32] tendrían pequeñas muestras exactas distribuciones de t o F. Por otra parte, si 𝜀𝑡 es no
gaussiano, entonces una técnica ligeramente diferente para encontrar las distribuciones asintóticas
1 Una versión más simple de este tema apareció en el análisis de un proceso univariado con raíces unitarias de Fuller (1976).
2 Ver suposición 8.1 en el capítulo 8.
0 471
de las estimaciones de MCO de 𝛼 y 𝛿 debería ser utilizada de la empleada para regresiones
estacionarias en el Capítulo 8. Este Capítulo presenta esta técnica, que resultará útil no sólo para
estudiar las tendencias del tiempo, sino también para analizar los estimadores para una variedad de
procesos no estacionarios en los Capítulos 17 y 18.3
Recordemos el método utilizado para encontrar distribuciones asintóticas para la regresión

con variables explicativas estacionarias en el capítulo 8. Escriba (16.1.1) en la forma del modelo de
regresión estándar,
𝑦𝑡 =×1𝑡 𝛽 + 𝜀𝑡 [16.1.2]
En donde,
𝑥𝑡1 ≡[1 𝑡] [16.1.3]

(1 x 2)
𝛼
𝛽 ≡ [ ]. [16.1.4]
(2 x 1) 𝛿
Sea bt la estimación MCO de 𝛽 basada en un tamaño de muestra T:

𝑇 −1 𝑡
𝛼̂ 𝑇
𝑏𝑇 ≡ [ ̂ ] = [∑ 𝑥1 𝑥𝑡1 ] [∑ 𝑥1 𝑦1 ]
𝛿𝑇
𝑡=1 𝑡=1
[16.1.5]
Recordar de la ecuación [8.2.3] que la derivación de la estimación MCO del valor verdadero
puede expresarse como
𝑇 −1 𝑡
(𝑏𝑇 − 𝛽) = [∑ 𝑥1 𝑥𝑡1 ] [∑ 𝑥1 𝑦1 ].
𝑡=1 𝑡=1
[16.1.6]
Para encontrar la distribución límite para una regresión con variables explicativas
estacionarias, el enfoque del Capítulo 8 fue multiplicar [16.1.6] por √𝑇, resultando en
𝑇 −1 𝑡
√𝑇 (𝑏𝑇 − 𝛽) = [(1/𝑇) ∑ 𝑥1 𝑥𝑡1 ] [(1/√𝑇) ∑ 𝑥1 𝜀1 ].

𝑡=1 𝑡=1
[16.1.7]
La hipótesis usual era que (1/𝑇) ∑𝑇𝑡=1 𝑥1 𝑥𝑡1 convergía en la probabilidad a una matriz no
singular Q mientras que(1/√𝑇) ∑𝑡𝑡=1 𝑥1 𝜀1 convergía en la distribución a una 𝑁(0, 𝜎 2 𝑄)
𝐿
variable aleatoria, implicando que √𝑇 (𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ).
3 El enfoque general en estos capítulos sigue Sims, Stock, y Watson (1990).
472 Capítulo 16 | Procesos con tendencias deterministas en el tiempo

Para ver por qué este mismo argumento no puede usarse para una tendencia
temporal determinista, observe que para xt y 𝛽 dadas en ecuaciones [16.1.3] y [16.1.4], las
expresiones [16.1.6] serían
−1
𝛼̂ 𝑇 − 𝛼 ∑1∑𝑡 ∑ 𝜀𝑡
[̂ ]=[ ] [ ],
𝛿𝑇 − 𝛿 ∑𝑡∑𝑡 2
∑ 𝑡𝜀𝑡
[16.1.8]
Donde Σ denota la suma de t = 1 a través de T. Es sencillo mostrar por inducción que4

𝑇
∑ 𝑡 = 𝑇 (𝑇 + 1)/2
𝑡=1
[16.1.9]
𝑇
∑ 𝑡 2 = 𝑇(𝑇 + 1)(2𝑇 + 1)/6 .

𝑡=1
[16.1.10]
Así, el término principal en ∑𝑇𝑡=1 𝑡 es T2/2; esto es,

𝑇
(1/𝑇 2 ) ∑ 𝑡 = (1/𝑇 2 )[(𝑇 2 /2) + (𝑇/2)] = 1/2 + 1/2𝑇 → 1/2
𝑡=1
[16.1.11]
Del mismo modo, el término principal en ∑𝑇𝑡=1 𝑡 2 es T3/3:

𝑇
(1/𝑇 3 ) ∑ 𝑡 2 = (1/𝑇 3 )[(2𝑇 3 /6) + (3𝑇 2 /6) + 𝑇/6]
𝑡=1
= 1/3 + 1/2𝑇 + 1/(6𝑇 2 )
→ 1/3. [16.1.12]
4 Claramente, [16.1.9] y [16.1.10] se mantienen para T = 1. Dado que [16.1.9] se cumple para T,
∑𝑇+1 𝑇
𝑡=1 𝑡 = ∑𝑡=1 𝑡 + (𝑇 + 1 ) = 𝑇(𝑇 + 1)/2 + (𝑇 + 1) = (𝑇 + 1)[(𝑇/2) + 1] = (𝑇 + 1)(𝑇 + 2)/2 + 2)/2 + 2)
Estableciendo que [16.1.9] se cumple para T + 1. De manera similar, dado que [16.1.10] se cumple para T,
𝑇+1
∑ 𝑡 2 = 𝑇(𝑇 + 1) + (2𝑇 + 1)/6 + (𝑇 + 1)2

𝑡=1
= (𝑇 + 1){[𝑇(2𝑇 + 1)/6] + (𝑇 + 1)}

= (𝑇 + 1){[𝑇(2𝑇 + 1)/6] + (𝑇 + 1)}
= (𝑇 + 1)(2𝑇 2 + 7𝑇 + 6)/6
= (𝑇 + 1)(𝑇 + 2)[2(𝑇 + 1) + 1]/6
Estableciendo que [16.1.10] se cumple para T + 1.
16.1 Distribución asintótica de las estimaciones de MCO del Modelo Simple de Tendencia
Temporal 473
Para referencia futura, observamos aquí el patrón general -- el término principal en ∑𝑇𝑡=1 𝑡 𝑣 es Tv-
1/(v+1):
𝑇
(1/𝑇 𝑣+1 ) ∑ 𝑡 𝑣 → 1/(𝑣 + 1).
𝑡=1
[16.1.13]
Para verificar [16.1.13], tenga en cuenta que
𝑇 𝑇
(1/𝑇 𝑣+1 ) ∑ 𝑡 = (1/𝑇) ∑(𝑡/𝑇)𝑣 .
𝑣
𝑡=1 𝑡=1
[16.1.14]
El lado derecho de [16.1.14] puede ser visto como una aproximación al área bajo la curva
f(r)=rv
Para r entre cero y unidad. Para ver esto, observe que (1/T) ∙ (t/T)v representa el área de un
rectángulo con ancho (1/T) y la altura rv evaluada en r = t/T (véase la figura 16.1). Por lo tanto,
[16.1.14] es la suma del área de estos rectángulos evaluados…
1
Figura 16.1 Demostración de que (1/𝑇 ) ∑𝑇𝑡=1(𝑡/𝑇)𝑣 = (1/𝑇) ∑𝑇𝑡=1(𝑡/𝑇)𝑣 → ∫ 𝑟 𝑣 𝑑𝑟 =
0
1/(𝑣 + 1).
… en r = 1/T, 2/T, …, 1. Como T → ∞, esta suma converge al área bajo la curva f(r):
(1/𝑇 ) ∑𝑇𝑡=1(𝑡/𝑇)𝑣 → ∫ 1 𝑟 𝑣 𝑑𝑟 = 𝑟 𝑣+1 /(𝑣 + 1) | 1 =1/(v+1).

0 𝑟=0
[16.1.15]
Para xt dado en [16.1.3], los resultados [16.1.9] y [16.1.10] implican que

𝑇
∑1∑𝑡 𝑇 𝑇(𝑇 + 1)/2
∑ 𝑥𝑡 𝑥𝑡1 = [ ]=[ ].
𝑇(𝑇 + 1)/2 𝑇(𝑇 + 1)(2𝑇 + 1)/6
𝑡=1 ∑ 𝑡 ∑ 𝑡2
[16.1.16]
En contraste con el resultado habitual para regresiones estacionarias, para la matriz en [16.1.16],
(1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡1 diverge. Para obtener una matriz convergente, [16.1.16] tendría que dividirse por
T3 en lugar de T:
𝑇 0 0
𝑇 −3
∑ 𝑥𝑡 𝑥𝑡1 → [ 1].
0
𝑡=1 3
Desafortunadamente, esta matriz limitante no puede ser invertida, ya que (1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡1 puede
estar en el caso habitual. Por lo tanto, se necesitará un enfoque diferente al del caso estacionario
para calcular la distribución asintótica de bT.
Resulta que las estimaciones de MCO 𝛼̂ 𝑇 y 𝛿̂𝑇 tienen diferentes tasas de convergencia
asintóticas. Para llegar a distribuciones limitantes no degeneradas, 𝛼̂ 𝑇 se multiplica por √𝑇 mientras
que 𝛿̂𝑇 debe multiplicarse por 𝑇 3/2 ! Podemos pensar en este ajuste como premultiplicación
[16.1.16] o [16.1.8] por la matriz
𝑌𝑇 ≡ [√𝑇 0 ], [16.1.17]
3/2
0 𝑇
Resultando en
𝑇 −1 𝑇
√𝑇(𝛼̂𝑇 −𝛼)
[ 3 ]= 𝑌𝑇 [∑ 𝑥1 𝑥𝑡1 ] [∑ 𝑥1 𝜀1 ]
𝑇 2 (𝛿̂ − 𝛿 𝑡=1 𝑡=1
𝑇 −1 𝑇
= 𝑌𝑇 [∑ 𝑥1 𝑥𝑡𝑡 ] 𝑌𝑇 𝑌𝑇 − 1 [∑ 𝑥1 𝜀1 ]
𝑡=1 𝑡=1
𝑇 −1 𝑇
= {𝑌 −1 𝑥 𝑥𝑡
𝑇 [∑ 1 𝑡 ]
𝑌𝑇−1 } −1
{𝑌 𝑇 [∑ 𝑥1 𝜀1 ]}
𝑡=1 𝑡=1
[16.1.18]
Considere el primer término en la última expresión de [16.1.18]. Sustituyendo de [16.1.17] y

[16.1.16]
𝑇
1/2 ∑1 ∑𝑡 1/2
−1
{𝑌 𝑇 [∑ 𝑥1 𝑥𝑡𝑡 ] 𝑌𝑇−1 } = {[𝑇 0 ][
3/2
] [𝑇 0 ]}
3/2
0 𝑇 ∑𝑇 ∑ 𝑇2 0 𝑇
𝑡=1
𝑇 −1 ∑ 1 𝑇 −2 ∑ 𝑡
=[ ]
𝑇 −2 ∑ 𝑡 𝑇 −3 ∑ 𝑡 2
Temporal 475
Por lo tanto, se deduce de [16.1.11] y [16.1.12] que
𝑇
−1
{𝑌 𝑇 [∑ 𝑥1 𝑥𝑡𝑡 ] 𝑌𝑇−1 } → 𝑄
𝑡=1
[16.1.19]
1 1/2
Donde 𝑄≡[ ]
1/2 1/3
[16.1.20]
Pasando ahora al segundo término en [16.1.18],
𝑇
1/2 ∑ 𝜀𝑡 (1/√𝑇)𝑡𝜀𝑡
−1
𝑌 𝑇 [∑ 𝑥1 𝑥𝑡𝑡 ] = [𝑇 0 ][
3/2
]=[ ]
0 𝑇 ∑ 𝑡𝜀𝑡 (1/√𝑇) ∑(𝑡/𝑇) 𝜀𝑡
𝑡=1
[16.1.21]
Bajo asunciones estándar sobre 𝜀𝑡 , este vector será asintóticamente gaussiano. Por ejemplo,
supongamos que 𝜀𝑡 es i.i.d. Con media cero, varianza 𝜎 2 , y finito cuarto momento. Entonces el
primer elemento del vector en [16.1.21] satisface
𝑇
1 𝐿
( ) ∑ 𝜀𝑡 → 𝑁(0, 𝜎 2 ),
√𝑇 𝑡=1
Por el teorema del límite central.
Para el segundo elemento del vector en [16.1.21], observe que {(𝑡/𝑇)𝜀1 } es una secuencia
de diferencias de martingala que satisface las condiciones de las Proposiciones 7.8. Específicamente,
su varianza es
𝜎𝑡2 = 𝐸[(𝑡/𝑇)𝜀𝑡 ]2 = 𝜎 2 ∙ (𝑡 2 /𝑇 2 ),
en donde
𝑇 𝑇
(1/𝑇) ∑ 𝜎𝑡2 = 𝜎 2 (1/𝑇 3 )
∑ 𝑡 2 → 𝜎 2 /3
𝑡=1 𝑡=1
𝑝
Más aún, (1/𝑇) ∑𝑇𝑡=1 [(𝑡/𝑇)𝜀𝑡 ]2 → 𝜎 2 /3 Para verificar la última reclamación, observe que
2
𝑇 𝑇
𝐸 ((1/𝑇) ∑[(𝑡/𝑇)𝜀𝑡 ]2 − (1/𝑇) ∑ 𝜎𝑡2 )

𝑡=1 𝑡=1
2
𝑇 𝑇
𝑡
= 𝐸 ((1/𝑇) ∑[(𝑡/𝑇)𝜀𝑡 ]2 − (1/𝑇) ∑ ( )2 𝜎 2 )
𝑇
𝑡=1 𝑡=1

2
𝑇
= 𝐸 ((1/𝑇) ∑(𝑡/𝑇)2 − (𝜀𝑡2 − 𝜎 2 ))

𝑡=1
= (1/𝑇) ∑(𝑡/𝑇)4 𝐸(𝜀𝑡2 − 𝜎 2 )2

2
𝑡=1
[16.1.22]
Pero a partir de [16.1.13] T veces la magnitud en [16.1.22] converge a

𝑇
1
(1/𝑇) ∑(𝑡/𝑇)4 𝐸(𝜀𝑡2 − 𝜎 2 )2 → ( ) ∙ 𝐸(𝜀𝑡2 − 𝜎 2 )2
5
𝑡=1
Lo que significa que [16.1.22] en sí converge a cero:

𝑇 𝑇
𝑚.𝑠.
(1/𝑇) ∑[(𝑡/𝑇)𝜀𝑡 ]2 −(1/𝑇) ∑ 𝜀𝑡2 → 0
𝑡=1 𝑡=1
Pero implica que

𝑇
𝑝
(1/𝑇) ∑[(𝑡/𝑇)𝜀𝑡 ]2 → 𝜎 2 /3
𝑡=1
Como se reivindica. Por lo tanto, a partir de la proposición 7.8, (1/√𝑇) ∑𝑇𝑡=1(𝑡/𝑇)𝜀𝑡 , satisface el
teorema del límite central:
𝑇
𝐿
(1/√𝑇) ∑(𝑡/𝑇)𝜀1 → 𝑁(0, 𝜎 2 /3)
𝑡=1
Finalmente, considere la distribución conjunta de los dos elementos en el vector (2 x 1)

descrito por [16.1.21]. Cualquier combinación lineal de estos elementos toma la forma
𝑇
(1/√𝑇) ∑[𝜆 + 𝜆2 (𝑡/𝑇)]𝜀1

𝑡=1
𝑡
Entonces [𝜆 + 𝜆2 (𝑇)] 𝜀𝑡 también es una secuencia de diferencias de martingala con una varianza
positiva5 dada por 𝜎 2 [𝜆12 + 2𝜆1 𝜆2 (𝑡/𝑇) + 𝜆22 (𝑡/𝑇)2 ] satisfaciendo
𝑇
(1/𝑇) ∑ 𝜎 2 [𝜆21 + 2𝜆1 𝜆2 (𝑡/𝑇) + 𝜆22 (𝑡/𝑇)2 ] → 𝜎 2 [𝜆12 + 2𝜆1 𝜆2 (1/2) + 𝜆22 (1/3) ]
𝑡=1
= 𝜎 2 𝜆1 𝑄𝜆
Para 𝜆 ≡ (𝜆1 𝜆2 )𝑡 y Q la matriz en [16.1.20]. Más aún,
5Más exactamente, un dado no nulo 𝜆1 y 𝜆2 producirá una varianza cero para [𝜆1 + 𝜆2 (𝑡/𝑇)]𝜀𝑡 como máximo un solo valor de t, lo cual
no afecta la validez de la afirmación asintótica.
Temporal 477
𝑇
𝑃
(1/𝑇) ∑ 𝜆1 + 𝜆2 (𝑡/𝑇)2 𝜀12 → 𝜎 2 𝜆1 𝑄𝜆
𝑡=1
[16.1.23]
Ver el ejercicio 16.1. Así, cualquier combinación lineal de los dos elementos en el vector en
[16.1.21] es asintóticamente gaussiana, lo que implica una limitación a la distribución gaussiana
bivariable:
(1/√𝑇) ∑ 𝜀𝑇 1.
[ ] → 𝑁(0, 𝜎 2 𝑄)
(1/√𝑇) ∑(𝑡/𝑇)𝜀𝑇
[16.1.24]
De [16.1.19] y [16.1.24] la distribución asintótica de [16.1.18] puede ser calculada como en

el Ejemplo 7.5 del Capítulo 7:
√𝑇(𝛼̂ 𝑇 − 𝛼) 𝐿
[ 3 ] → 𝑁(0, [𝑄 −1 ∙ 𝜎 2 𝑄 ∙ 𝑄 −1 ]) = 𝑁(0, 𝜎 2 𝑄 ∙ 𝑄 −1 ).
𝑇 2 (𝛿̂𝑇− 𝛿)
[16.1.25]
Estos resultados pueden ser resumidos como sigue:
Proposición 16.1: Sea y1 generado de acuerdo con la tendencia del tiempo determinista simple [16.1.1] donde 𝜀𝑡 es
i.i.d. Con 𝐸(𝜀12 ) = 𝜎 2 y 𝐸(𝜀14 ) < ∞ Entonces,
[16.1.26]
Nótese que el resultado estimado del coeficiente en la tendencia temporal (𝛿̂𝑇 ) es

𝑝
superconsistente – no solo es 𝛿̂𝑇 → 𝛿, pero incluso cuando se multiplica por T , aun obtenemos
𝑝
𝑇(𝛿̂𝑇− 𝛿) → 0;
[16.1.27]
Ver el ejercicio 16.2.
Diferentes tasas de convergencia son algunas veces descritas en términos de orden en

probabilidad. Una secuencia de variables aleatorias {𝑥𝑇 }𝑥𝑇=1 se dice que 𝑂𝑝 (𝑇 −1/2 ) si para cada 𝜀 >
0, existe una M>0 tal que
𝑝{|𝑋𝑇 | > 𝑀/√𝑇} < 𝜀

[16.1.28]
Para todas las T; en otras palabras, la variable aleatoria √𝑇 ∙ 𝑋𝑇 es casi segura que caerá dentro de
±𝑀 por cada T. La mayoría de los estimadores encontrados para las series temporales estacionarias
son 𝑂𝑝 (𝑇 −1/2 ). Por ejemplo, supongamos que XT representa la media de una muestra de tamaño
T,
𝑇
𝑋𝑇 = (1/𝑇) ∑ 𝑌𝑇 ,
𝑡=1

donde {y1} es i.d.d. con media cero y varianza 𝜎 2 . Entonces la varianza de XT es 𝜎 2 /𝑇. But la
desigualdad de Shebyshev’s implica que
𝜎2
𝑃{|𝑋𝑇 | > 𝑀/√𝑇} ≤ 𝑇2 = (𝜎/𝑀)2
𝑀
𝑇
para cada M. Mediante la elección de M para que (𝜎/𝑀)2 < 𝜀 , la condición [16.1.18] está
garantizada. Puesto que la desviación estándar del estimador es 𝜎/√𝑇, eligiendo M para ser un
múltiplo adecuado de 𝜎, la banda 𝑋𝑇 ± 𝑀/√𝑇 puede incluir tanta densidad como se desee.
Como otro ejemplo, el estimador 𝛼̂ 𝑇 en [16.1.26] también se diría que es 𝑂𝑝 (𝑇 −1/2 ).

Dado que √𝑇 veces (𝛼̂ 𝑇 − 𝛼) es asintóticamente gaussiana, existe una banda ±𝑀 alrededor de 𝛼̂ 𝑇
que contiene tanto de la distribución de probabilidad como deseado.
En general, una secuencia de variables aleatorias {𝑥𝑇 }𝑥𝑇=1 se dice que es 𝑂𝑝 (𝑇 −𝑘 ) de por
cada 𝜀 > 0 existe M >0 tal que
𝑃{|𝑋𝑇 | > 𝑀/(𝑇 𝐾 )} < 𝜀

[16.1.29]
Por tanto, por ejemplo, el estimador 𝛿̂𝑇 en [16.1.26] es 𝑂𝑝 (𝑇 −3/2 ) , dado que existe una banda
±𝑀 alrededor de 𝑇 3/2 (𝛿̂𝑇 − 𝛿) que contenga tanta posibilidad de distribución como se desee.
16.2. Pruebas de hipótesis para el Modelo de Tendencia

Simple
Si las innovaciones 𝜀𝑡 para la tendencia simple [16.1.1] son gaussianas, entonces las estimaciones
MCO 𝛼̂ 𝑇 y 𝛿̂𝑇 son Gaussianas y las pruebas MCO t y F habituales tienen distribuciones exactas de t
de muestras pequeñas y F para toda la muestra de los tamaños T. Por lo tanto, a pesar de que 𝛼̂ 𝑇 y
𝛿̂𝑇 tienen diferentes tasas asintóticas de convergencia, los errores estándar 𝜎̂𝛼̂𝑇 y 𝜎̂𝛿̂𝑇
evidentemente tienen comportamiento asintótico asimétrico para que las estadísticas tales como
(𝛿̂𝑇 − 𝛿0 )/𝜎̂𝛿̂𝑇 son Asintóticamente N(0, 1) cuando las innovaciones son gaussianas, por lo que
podríamos conjeturar que las pruebas usuales t y F son asintóticamente válidos también para las
innovaciones no gaussianas. Esta conjetura es de hecho correcta, como verificamos ahora.
Consideremos primero la prueba t de MCO de la hipótesis nula 𝛼 = 𝛼( ) , que puede

escribirse como
𝛼̂𝑡 − 𝛼0
𝑙𝑇 =
1
{𝑆𝑇2 [1 0](𝑋𝑇1 𝑋𝑇 )−1 [ ]}1/2
0
[16.2.1]
Aquí 𝑆𝑇2 denota el estimado MCO de 𝜎 2 :
0 479
𝑇
2
𝑆𝑇2 = [1/(𝑇 − 2) ∑( 𝛾1 − 𝛼̂ 𝑡 − 𝛿̂ 𝑇 𝑡)
𝑡=1
[16.2.2]
y (𝑋𝑇1 𝑋𝑇 ) = ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡1 denota la matriz en la ecuación [16.1.16]. El numerador y denominador de

[16.2.1] pueden más adelante ser multiplicado por √𝑇 resultando en
√𝑇(𝛼̂𝑡 − 𝛼0 )
𝑙𝑇 =
{𝑆𝑇2 [ √𝑇 0](𝑋𝑇1 𝑋𝑇 )−1 [√𝑇]}1/2
0
[16.2.3]
Nótese que más allá de [16.1.17] que
[ √𝑇 0] = [1 0]𝛾𝑇 .
[16.2.4]
√𝑇(𝛼̂𝑡 − 𝛼0 )
𝑡𝑇 =
1
{𝑆𝑇2 [ 1 0]𝑌𝑇 (𝑋𝑇1 𝑋𝑇 )−1 𝑌𝑇 [ ]}1/2
0
[16.2.5]
Pero recuerde de [16.1.19] que
𝑌𝑇 (𝑋𝑇1 𝑋𝑇 )−1 𝑌𝑇 = [𝑌𝑇−1 (𝑋𝑇1 𝑋𝑇 )𝑌𝑇−1 ]−1 → 𝑄 −1

[16.2.6]
𝑝 𝐿
Es sencillo mostrar que 𝑠𝑇2 2
→ 𝜎 . Recuerde además que √𝑇 = (𝛼̂ 𝑇 − 𝛼( ) ) → 𝑁(0, 𝜎 𝑞 2 11
) para
𝑞11el (1, 1) elemento de Q-1. Por lo tanto, de [16.2.5],
𝑃 √𝑇(𝛼̂𝑡 − 𝛼0 ) √𝑇(𝛼̂𝑡 − 𝛼0 )
𝑡𝑇 → =
1 𝜎√𝑞11
{𝜎 2 [1 0]𝑄 −1 [ ]}1/2
0
[16.2.7]
Pero esto es asintóticamente variable gaussiana dividida por la raíz cuadrada de su varianza, y así
asintóticamente tiene una distribución de N (0, 1). Por lo tanto, la prueba usual de MCO t de 𝛼 =
𝛼( ) dará una inferencia asintóticamente válida.
Similarmente, considere la prueba usual de MCO t de 𝛿 = 𝛿( ) :
𝑃 𝛿̂𝑇 − 𝛿0
𝑡𝑇 →
0
{𝑆𝑇2 [0 1](𝑋𝑇1 𝑋𝑇 )−1 [ ] }1/2
1
Multiplicando el numerador y denominador por 𝑇 3/2 ,

𝑇 3/2 ̂
(𝛿𝑇 − 𝛿0 )
𝑡𝑇 =
1
{𝑆𝑇2 [ 0 𝑇 3/0 ](𝑋𝑇1 𝑋𝑇 )−1 [ 3/2 ]}1/2
𝑇
̂𝑇 − 𝛿0 )
𝑇 3/2 (𝛿
=
0
{𝑆𝑇2 [ 0 1]𝑌𝑇 (𝑋𝑇1 𝑋𝑇 )−1 𝑌𝑇 [ ]}1/2
1
𝑃 𝑇 3/2 ̂
(𝛿𝑇 − 𝛿0 )
→
𝜎√𝑞 22
que de nuevo es asintóticamente una variable N(0, 1). Así, aunque 𝛼̂ 𝑇 y 𝛿̂𝑇 convergen a diferentes
velocidades, los errores estándar correspondientes 𝜎̂𝛼̂𝑇 y 𝜎̂𝛿̂𝑇 también incorporan diferentes
órdenes de T, con el resultado de que las pruebas de MCO t habituales son asintóticamente válidas.
Es interesante también considerar una prueba de una sola hipótesis que involucra tanto
𝛼 𝑦 𝛿,
𝐻0 : 𝑟1 𝛼 + 𝑟2 𝛿 = 𝑟
en donde r1, r2 y r son parámetros que describen la hipótesis. Una prueba t de H( ) puede ser
obtenida de la raíz cuadrada de la prueba MCO F (expresión [8.1.32])6:
(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿̂ − 𝑟)
𝑡𝑇 = 𝑟1
{𝑆𝑇2 [ 𝑟1 𝑟2 ](𝑋𝑇1 𝑋𝑇 )−1 [𝑟 ]}1/2
2
En este caso estamos multiplicando numerador y denominador por √𝑇 , la tasa más baja de
convergencia entre los dos estimadores 𝛼̂ 𝑇 y 𝛿̂𝑇 :
√𝑇 (𝑟1 â 𝑇 + 𝑟2 𝛿̂𝑇 − 𝑟)
𝑡𝑇= 𝑟
{𝑠𝑇2 √𝑇[𝑟1 𝑟2 ](𝑋𝑇′ 𝑋𝑇 )−1 [𝑟1 ] √𝑇}1/2
2
√𝑇 (𝑟1 â𝑇 + 𝑟2 𝛿̂𝑇 − 𝑟)
= 𝑟
{𝑠𝑇2 √𝑇[𝑟1 𝑟2 ]𝑌𝑇−1 𝑌𝑇 (𝑋𝑇′ 𝑋𝑇 )−1 𝑌𝑇 𝑌𝑇−1 [𝑟1 ] √𝑇}1/2
2
√𝑇 (𝑟1 â 𝑇 + 𝑟2 𝛿̂ 𝑇 − 𝑟)
=
{𝑠𝑇2 𝑟𝑇′ [𝑌𝑇 (𝑋𝑇′ 𝑋𝑇 )−1𝑌𝑇 ]𝑟𝑇 }1/2
donde
𝑟1 𝑟1 𝑟
𝑟𝑇 = 𝑌𝑇−1 [𝑟 ] √𝑇 = [𝑟 /𝑇] → [ 1]
2 2 0
[16.2.8]
Similarmente, recordar de [16.1.27] que 𝛿̂𝑇 es superconsistente, implicando que
𝑝
√𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿̂ − 𝑟) → √𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿 − 𝑟)
[16.2.9]
6 Con una única restricción lineal como aquí, m = 1 y la expresión [8.1.32] describe una variable F(1, T-K) cuando las innovaciones son
gaussianas. Pero una variable F(1, T-K) es el cuadrado de una variable t(T-K). La prueba se describe aquí en términos de una prueba t en
lugar de una F para facilitar la comparación con los resultados anteriores en esta sección.
16.2 Pruebas de hipótesis para el Modelo de Tendencia Simple 481

donde 𝛿 es el verdadero valor poblacional para el parámetro de tendencia temporal. Nuevamente
aplicando [16.2.6], se sigue que
𝑃 √𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿 − 𝑟) √𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿 − 𝑟)
𝑡𝑇 → 𝑟 =
{𝜎 2 [ 𝑟1 0]𝑄 −1 [ 1 ]}1/2 {𝑟𝑡2 𝜎 2 𝑞11 }1/2
0
[16.2.10]
Pero nótese que
√𝑇(𝑟1 𝛼̂ 𝑇 + 𝑟2 𝛿 − 𝑟) = √𝑇[𝑟1 (𝛼̂ 𝑇 − 𝛼) + 𝑟1 𝛼 + 𝑟2 𝛿 − 𝑟])
= √𝑇[𝑟1 (𝛼̂ 𝑇 − 𝛼)]
bajo la hipótesis nula. Por lo tanto, bajo ésta:
𝑃 ̂ 𝑇 − 𝛼)] √𝑇(𝛼
√𝑇[𝑟1 (𝛼 ̂ 𝑇 − 𝛼)
𝑡𝑇 → =
{𝑟𝑡2 𝜎 2 𝑞11 }1/2 {𝜎 2 𝑞11 }1/2
la cual asintóticamente no tiene una distribución N(0, 1). Por lo tanto, nuevamente, las usuales
pruebas MCO t de H1) son asintóticamente válidas.
Este último ejemplo ilustra el siguiente principio general: Una prueba que implica una
restricción única a través de parámetros con diferentes tasas de convergencia está dominada
asintóticamente por los parámetros con las tasas de convergencia más lentas.
Esto significa que una prueba que implica tanto 𝛼 𝑦 𝛿 que emplea el valor estimado de 𝛿 tendría las
mismas propiedades asintóticas bajo el nulo como una prueba que emplea el valor verdadero de 𝛿.
Finalmente, considerar que una prueba conjunta de hipótesis separadas sobre 𝛼 𝑦 𝛿,

𝛼 𝛼0
𝐻0 : [ ] = [ 𝛿 ] ,
𝛿 0
o, en su forma vectorial,
𝛽 = 𝛽0 .
La forma de Wald de la prueba MCO x2 de H( ) id encontrada de [8.8.23] tomando R = I2:
𝑋𝑇2 = (𝑏𝑇 − 𝛽0 )𝑡 [𝑆𝑇2 (𝑋𝑇1 𝑋𝑇 )−1 ](𝑏𝑇 − 𝛽0 )

−1
= (𝑏𝑇 − 𝛽0 )𝑡 𝑌𝑇 [𝑌𝑇 𝑆𝑇2 (𝑋𝑇1 𝑋𝑇 )−1 𝑌𝑇 ] 𝑌𝑇 (𝑏𝑇 − 𝛽0 )
𝑃 𝑡
→ [𝑌𝑇 (𝑏𝑇 − 𝛽0 ) ] [𝜎 2 𝑄 −1 ]−1 [𝑌𝑇 (𝑏𝑇 − 𝛽0 )].
Recordando [16.1.25], esta es una forma cuadrática en dos vectores bidimensionales gausianos de la
clase considerada en la Proposición 8.1, de la cual
𝐿
𝑋𝑇2 → 𝑋 2 (2).
Por lo tanto, nuevamente, la prueba MCO usual es asintóticamente válida.

16.3. Inferencia Asintótica para un Proceso Autorregresivo
alrededor de una Tendencia de Tiempo Determinista
Los mismos principios pueden ser usados para estudiar un proceso autorregresivo alrededor de una
tendencia de tiempo determinista:
𝑌𝑡 = 𝛼 + 𝛿𝑡 + ∅1 𝑌𝑡−1 + ∅2 𝑌𝑡−2 + ⋯ + ∅𝑝 𝑌𝑡−𝑝 + 𝜀𝑡 [16.3.1]
Se asume a través de esta sección que 𝜀𝑡 es i.i.d con media cero, varianza 𝜎 2 , y un momento cuatro
finito, y la raíz de
1 − ∅1 𝑍 − ∅2 𝑍 2 − ⋯ − ∅𝑝 𝑍 𝑝 = 0
Fuera del círculo de unidad. Considera una muestra de observaciones T + p en y,

̂1.𝑇 , … , ∅
{𝑦−𝑝+1 , 𝑦−𝑝+2 , … , 𝑦𝑇 } y deja 𝛼̂ 𝑇 , 𝛿̂𝑇 , ∅ ̂ 𝑝.𝑇 denotar coeficientes estimados basados en la
estimación de MCO de [16.3.1] para t=,, 2, …, T.
Una Transformación útil de Regresores

Al sumar y restar ∅𝑗 [𝛼 + 𝛿(𝑡 − 𝑗)] para j = 1, 2, …, p al lado derecho, el modelo de
regresión [16.3.1] puede ser equivalentemente escrito como
𝑦𝑡 = 𝛼(1 + ∅1 + ∅2 + ⋯ + ∅𝑝 ) + 𝛿(1 + ∅1 + ∅1 + ⋯ + ∅𝑝 )𝑡
−𝛿(∅1 + 2∅2 + ⋯ + 𝑃∅𝑝 ) + ∅1 [𝑦𝑡−1 − 𝛼 − 𝛿(𝑡 − 1)]
+ ∅2 [𝑦𝑡−2 − 𝛼 − 𝛿(𝑡 − 2)] + ⋯
+∅𝑝 [𝑦𝑡−𝑝 − 𝛼 − 𝛿(𝑡 − 𝑝)] + ⋯ 𝜀𝑡
[16.3.2]
𝑦𝑡 = 𝛼 ∗ + 𝛿 ∗ 𝑡 + ∅1∗ 𝑦 ∗𝑡−1 + ∅1∗ 𝑦 ∗𝑡−1 ∅∗2 𝑦 ∗𝑡−2 + ⋯ + ∅∗𝑝 𝑦 ∗𝑡−𝑝 + 𝜀𝑡
[16.3.3]
donde
𝛼 ∗ ≡ [𝛼(1 + ∅1 + ∅2 + ⋯ + ∅𝑝 ) − 𝛿(∅1 + 2∅2 + ⋯ + 𝑃∅𝑝 )]
𝛿 ∗ = 𝛿(1 + ∅1 + ∅2 + ⋯ + ∅𝑝 )
∅∗𝑗 ≡ ∅𝑗 para 𝑗 = 1, 2, … , 𝑃
𝑦 ∗𝑡−𝑗 ≡ 𝑦 𝑡−𝑗 − 𝛼 − 𝛿(𝑡 − 𝑗) para 𝑗 = 1, 2, … , 𝑃
[16.3.4]
0 483
La idea de transformar la regresión en una forma como [16.3.3] es debido a Sims, Stock y
Watson (1990)7. El objetivo es re-escribir las regresiones de [16.3.1] en términos de media cero
∗
covarianza estacionaria de variables aleatorias (los términos 𝑦𝑡−𝑗 para j = 1, 2, …, p), un término
constante, y una tendencia temporal. Transformando los regresores de esta forma aísla los
coeficientes del coeficiente vector MCO con las diferentes tasas de convergencia y provee una
técnica general para encontrar la distribución asintótica de regresiones involucrando variables no
estacionarias. Un resultado general es que. Si tal ecuación trasformada fuera estimado por MCO, los
coeficientes en media cero variables aleatorias de covarianza estacionaria (en este caso, ∅ ̂1.𝑇
∗
,
̂ ∗ ̂ ∗ ∗ ̂
∅2.𝑇 , … , ∅𝑝.𝑇 ) ) convergerían a una tasa √𝑇 a una distribución gausiana. Los coeficientes 𝛼̂ 𝑇 y 𝛿𝑇 ∗
de la estimación MCO de [16.3.3] resultan comportarse asintóticamente exactamente como 𝛼̂ 𝑇 y 𝛿̂𝑇

por el simple modelo de tendencia temporal analizado en la Sección 16.1 y son asintóticamente
independientes de ∅ ̂ ∗ ’s.
Es útil describir esta transformación en una notación más general que pueda también
aplicar a modelos más complejos en los capítulos siguientes. El modelo de regresión original
[16.3.1] puede ser escrito
𝑦𝑡 = 𝑥𝑡𝑡 𝛽 + 𝜀𝑡 [16.3.5]
donde
𝑦𝑡−1 ∅1
𝑦𝑡−2 ∅2
. .
.
𝑋𝑡
(𝑝+2)𝑥1
≡ . 𝛽
(𝑝+2)𝑥1
≡ .
.
𝑦𝑡−𝑝 ∅𝑝
1 𝛼
[ 𝑡 ] [𝛿]
[16.3.6]
La transformación algebraica al llegar a [16.3.3] puede entonces ser descrita re-escribiendo [16.3.5]
en la forma:
𝑦𝑡 = 𝑥𝑡𝑡 𝐺 1 [𝐺 1 ]−1 𝛽 + 𝜀𝑡 = [𝑋𝑡∗ ]−1 𝛽∗ + 𝜀𝑡 [16.3.7]
Donde
1 0 ⋯ 1 0 0
0 1 ⋯ 0 0 0
𝐺 ⋮ ⋮ ⋮ ⋮ ⋮
= ⋯ 1
(𝑝 + 2)𝑥(𝑝 + 2) 0 0 ⋯ 0 0
−𝛼 + 𝛿 −𝛼 + 𝛿 ⋯ −𝛼 + 𝑝𝛿 1 0
[ −𝛿 ⋯
−𝛿 −𝛿 0 1 ]
1 0 ⋯ 1 0 0
0 1 ⋯ 0 0 0
[𝐺 ′ ]−1 ⋮ ⋮ ⋮ ⋮ ⋮
= ⋯ 1
(𝑝 + 2)𝑥(𝑝 + 2) 0 0 ⋯ 0 0
𝛼−𝛿 𝛼−𝛿 ⋯ 𝛼 − 𝑝𝛿 1 0
[ 𝛿 ⋯
𝛿 𝛿 0 1 ]
[16.3.8]
7 Una versión más sencilla de este tema apareció en el análisis de un proceso univariable con unidades de raíz por Fuller (1976).

𝑦 ∗ 𝑡−1
𝑦 ∗ 𝑡−2
.
∗ .
𝑥𝑡 ≡ 𝐺𝑥𝑡 =
.
𝑦 ∗ 𝑡−𝑝
𝛼∗
[ 𝛿∗ ]
[16.3.9]
∅1∗
∅∗2
.
𝛽 ≡ [𝐺 ] 𝛽 = .
∗ 𝑡 −1
.
∅∗𝑝
𝛼
[𝛿]
[16.3.10]
El sistema de [16.3.7] es justo una representación algebraica equivalente al modelo de

regresión [16.3.5]. Nótese que el estimado de 𝛽 ∗ basado en una regresión MCO de yt en 𝑥𝑡∗ está
dado por
𝑇 −1 𝑇
∗
𝑏 = [∑ 𝑥𝑡∗ [𝑥𝑡∗ ]′ ] [∑ 𝑥𝑡∗ 𝑦 ′ ]
𝑡=1 𝑡=1
𝑇 𝑇
= [𝐺(∑ 𝑥𝑡 𝑥𝑡′ ) 𝐺 ′ ] −1 𝐺(∑ 𝑥𝑡 𝑦𝑡 )

𝑡=1 𝑡=1
𝑇 −1 𝑇
= [𝐺 ′ ] −1 (∑ 𝑥𝑡 𝑥𝑡′ ) 𝐺 −1
𝐺(∑ 𝑥𝑡 𝑦𝑡 )
𝑡=1 𝑡=1
𝑇 −1 𝑇
= [𝐺 ′ ] −1 (∑ 𝑥𝑡 𝑥𝑡′ ) (∑ 𝑥𝑡 𝑦𝑡 )
𝑡=1 𝑡=1
= [𝐺 ′ ] −1 𝑏,
[16.3.11]
donde b denota el coeficiente vector estimado de una regresión MCO de yt en xt. Por lo tanto, la
estimación del coeficiente para la regresión transformada (b*) es una transformación linear simple
de la estimación del coeficiente por el sistema original (b). El valor ajustado para fecha t asociado
con la regresión transformada es
[𝑋𝑡∗ ]𝑏 ∗ = [𝐺𝑥𝑡 ]𝑡 [𝐺 𝑡 ]−1 𝑏 = 𝑥𝑡𝑡 𝑏
Por tanto, los valores ajustados para la regresión transformada son numéricamente idénticos a los
valores ajustados de la regresión original.
16.3 Inferencia Asintótica para un Proceso Autorregresivo alrededor de una Tendencia de

Tiempo Determinista 485
Por supuesto, dados los datos sólo en {yt}, no podríamos de hecho estimar las regresiones
transformadas por MCO, porque la construcción de 𝑥𝑡∗ de x1 requiere conocimiento de los
verdaderos valores de los parámetros 𝛼 y 𝛿. Es, sin embargo, útil resumir las propiedades de la
estimación hipotética MCO de [16.3.7], ya que [16.3.7] es más fácil de analizar que [16.3.5].
Además, una vez que encontremos la distribución asintótica de b*, la distribución asintótica de b
puede ser inferida volcando al revés [16.3.11]:
𝑏 = 𝐺 𝑡 𝑏∗ [16.3.12]
Una Distribución Asintótica de Estimaciones MCO para la Regresión

Transformada
El Apéndice 16.A para este capítulo demuestra que
𝐿
𝑦𝑇 (𝑏𝑇∗ − 𝛽 ∗ ) → 𝑁(0, 𝜎 2 [𝑄 ∗ ]) [16.3.13]
Donde
√𝑇 0 0 ⋯ 0 0 0
0 √𝑇 0 ⋯ 0 0 0
⋮ ⋯ ⋮ ⋮ ⋮
𝛾𝑇
= ⋮ ⋮ ⋯ √𝑇 0 0 [16.3.14]
(𝑝+2)𝑥(𝑝+2)
0 0 0
⋯
0 0 0 0 √𝑇 0
⋯
[0 0 0 0 0 𝑇 3/2 ]
𝛾0∗ 𝛾1∗ 𝛾2∗ 𝛾∗ 0 0
⋯ 𝑝−1
𝛾1∗ 𝛾0∗ 𝛾1∗ ⋯ 𝛾 ∗
𝑝−2 0 0
𝑄∗ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮
= ∗ ∗ ∗ ⋯ 𝛾∗ 0 [16.3.15]
(𝑝+2)𝑥(𝑝+2) 𝛾𝑝−1 𝛾𝑝−2 𝛾𝑝−3 0
⋯ 0
1 1⁄2
0 0 0 ⋯ 0
[ 0 0 0 1⁄2 1⁄3]
0
Para 𝑦𝑗∗ ≡ 𝐸(𝑦𝑗∗ 𝑦𝑡−𝑗

∗
). En otras palabras, la estimación MCO b* es asintóticamente gausiana, con
el coeficiente en la tendencia temporal (𝛿̂ ∗ ) convergiendo a una tasa T3/2 y todos los otros
coeficientes convergiendo a una tasa √𝑇. El resultado más temprano [16.1.26] es un caso especial
de [16.3.13] con p = 0.
Una Distribución Asintótica de Estimaciones MCO para la Regresión

Original
¿Qué implica este resultado sobre la distribución asintótica de b, el coeficiente estimado para la
regresión MCO, que se estima realmente? Escribiendo [16.13.12] explícitamente usando [16.3.8],
tenemos:
̂1 ̂∗
𝜙 1 0 ⋯ 0 0 0 𝜙1
̂2
𝜙 0 1 ⋯ 0 0 0 𝜙̂ 2
∗
⋮ = ⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋮ [16.3.16]
̂𝑝
𝜙 0 0 ⋯ 1 0 0 𝜙̂ ∗
𝑝
𝛼̂ −𝛼 + 𝛿 −𝛼 + 2𝛿 ⋯−𝛼 + 𝑝𝛿 1 0 𝛼̂ ∗
[ −𝛿 ⋯ 0 1 ] [ ̂∗ ]
[ 𝛿̂ ] −𝛿 −𝛿
𝛿

Los estimados MCO ∅ ̂ 𝐽 de la regresión transformada son idénticos a los coeficientes
̂ ∗𝑗 , así que la distribución asintótica de ∅
correspondientes de la regresión transformada ∅ ̂ 𝐽 está dada
inmediatamente por [13.3.13]. La estimación 𝛼̂ 𝑇 es una combinación linear de variables que
convergen en una distribución gausiana de tasa √𝑇, así como 𝛼̂ 𝑇 se comporta del mismo modo.
Específicamente, 𝛼̂ 𝑇 = 𝑔𝛼𝑡 𝑏𝑇∗ , donde
𝑔𝛼𝑡 ≡ [−𝛼 + 𝛿 − 𝛼 + 2𝛿 … − 𝛼 + 𝑝𝛿 1 0],

y así, de [16.3.13]
𝐿
√𝑇(𝛼̂ − 𝛼) → 𝑁(0, 𝜎 2 𝑔𝛼𝑡 [𝑄∗ ]−1 𝑔𝛼 ) [16.3.17]
Finalmente, la estimación 𝛿̂𝑇 es una combinación linear de variables que convergen en diferentes
tasas:
𝛿̂𝑇 = 𝑔𝑔𝑡 𝑏𝑇∗ + 𝛿̂𝑇∗
donde
𝛿̂𝑇 ≡ [−𝛿 − 𝛿 … − 𝛿 0 0]
Sus distribuciones asintóticas están regidas por las variables con las tasas de convergencia más bajas:
√𝑇(𝛿̂𝑇 − 𝛿) = √𝑇(𝛿̂𝑇 + 𝑔𝛿𝑡 𝑏𝑇∗ − 𝛿̂ ∗ − 𝑔𝛿𝑡 𝛽 ∗ )

𝑃
→ √𝑇(𝛿 ∗ + 𝑔𝛿𝑡 𝑏𝑇∗ − 𝛿̂ ∗ − 𝑔𝛿𝑡 𝛽 ∗ )
= 𝑔𝛿𝑡 √𝑇(𝑏𝑇∗ + 𝛽 ∗ )
𝐿
→ 𝑁(0, 𝜎 2 𝑔𝛿𝑡 [𝑄 ∗ ]−1 𝑔𝛼 )
Por tanto, cada uno de los elementos de bt individualmente es asintóticamente gausiano y Op(T-1/2) .
La distribución asintótica del vector completo √𝑇 (𝑏𝑇 − 𝛽) es multivariado gausiano, aunque con
una singular matriz de varianza-covarianza. Específicamente, la particular combinación linear de
elementos de bT que recubre 𝛿̂𝑇∗ , el coeficiente de tendencia temporal de la regresión hipotética:
̂1.𝑇 + 𝛿∅
𝛿̂𝑇∗ = −𝑔𝛿𝑡 𝑏𝑇∗ + 𝛿̂𝑇 = 𝛿∅ ̂ 2.𝑇 … + 𝛿∅
̂ 𝑝.𝑇 + 𝛿̂𝑇
Converge en un punto masa alrededor 𝛿 ∗ incluso cuando es escalado por √𝑇:

𝐿
√𝑇(𝛿̂𝑇∗ − 𝛿 ∗ ) → 0
Sin embargo, [16.3.13] establece que
𝐿
𝑇 3/2 (𝛿̂𝑇∗ − 𝛿 ∗ ) → 𝑁(0, 𝜎 2 (𝑞 ∗ )𝑝+2.𝑝+2 )
Para (q*)p+2.p+2 el elemento inferior derecho de [Q*]-1.
Prueba de Hipótesis
El precedente análisis describe la distribución asintótica de b en términos de las
propiedades de las estimaciones de regresión transformada b*. Esto podría parecer implicar ese
conocimiento de la transformación de la matriz G en [16.3.8] es necesario de modo que pueda
conducir pruebas de hipótesis. Afortunadamente, éste no es el caso. Los resultados de la sección

16.2 resultan aplicarse igualmente bien en el modelo general [16.3.1] - las pruebas usuales t y F
sobre b calculados de la forma usual en el sistema no-trasformado son todas asintóticamente
válidos.
Considera la siguiente hipótesis nula sobre los parámetros de sistemas no-transformados:
𝐻0 : 𝑅𝛽 = 𝑟. [16.3.18]
Aquí R es una matriz conocida [m x (p + 2)], r es un vector conocido (m x 1), y m es el número de

restricciones. La forma de Wald de la prueba MCO x2 de H0 (expresión [8.2.23]) es
𝑥𝑇2 = (𝑅𝑏𝑡 − 𝑅)𝑡 [𝑆𝑇2 𝑅(∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 )−1 𝑅𝑡 ]−1 (𝑅𝑏𝑡 − 𝑟). [16.3.19]
Aquí bT es el estimado de B basado en la observación {y-p+1, y-p+2, …, y0, y1, …, yT} y 𝑆𝑇2 =
[1/(𝑇 − 𝑝 − 2)] ∑𝑇𝑡=1(𝑦𝑡 − 𝑥𝑡1 𝑏𝑇 ) 2 .
Bajo la hipótesis nula [16.3.18], expresión [16.3.19] puede ser rescrita
−1 −1
𝑇
𝑥𝑇2 = [𝑅(𝑏𝑡 − 𝛽)]𝑡 [𝑆𝑇2 𝑅 (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑅𝑡 ] [𝑅(𝑏𝑡 − 𝛽)]

𝑡=1
= [𝑅𝐺 −1 (𝐺 −1 )( 𝑏𝑡 − 𝛽)]−1
−1 −1
𝑇
𝑥 [𝑆𝑇2 𝑅𝐺 𝑡 (𝐺 𝑡 )−1 (∑ 𝑋𝑡 𝑋𝑡𝑡 ) (𝐺)−1 𝐺𝑅𝑡 ] [𝑅𝐺 𝑡 (𝐺 𝑡 )−1 ( 𝑏𝑡 − 𝛽)]

𝑡=1
[16.3.20]
Nótese que
𝑇 −1 𝑇 −1 𝑇 −1
(𝐺)−1 (∑ 𝑋𝑡 𝑋𝑡𝑡 ) (𝐺 )−1 = [𝐺 (∑ 𝐺 𝑡 ) ] = (∑ 𝑥𝑡∗ [𝑋𝑡∗ ])

𝑡=1 𝑡=1 𝑡=1
para 𝑥𝑡∗ dado que [16.3.9]. Similarmente, de [16.3.10] y [16.3.11].
(𝑏𝑇∗ − 𝛽 ∗ ) = (𝐺 𝑡 )−1 ( 𝑏𝑡 − 𝛽)
Definiendo:
R* =RG
𝑥𝑇2 = [𝑅 ∗ (𝑏𝑇∗ − 𝛽 ∗ )]𝑡 [𝑆𝑇2 𝑅∗ (∑𝑇𝑡=1 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 )−1 [𝑅∗ ]𝑡 ]−1 [16.3.21]
La expresión [16.3.21] se reconocerá como la prueba x2 que podría calcularse si hubiéramos

estimado el sistema transformado y querido probar la hipótesis que 𝑅 ∗ 𝛽 ∗ = 𝑟 (recordar que los
valores ajustados para las regresiones ajustadas y no ajustadas son idénticos, así que 𝑆𝑇2 será el
mismo valor para cada representación).
Observa que la regresión transformada no tiene de hecho que ser estimada de modo que pueda
calcular esta estadística, desde [16.3.21] es numéricamente idéntica a la estadística x2
[16.3.20] que es calculada del sistema no-transformado en la forma usual. No obstante, la
expresión [16.3.21] nos da otra forma de pensar sobre la distribución de las estadísticas como de
hecho son calculadas en [16.3.20].
Expresión [16.3.21] puede ser escrita incluso de la siguiente forma:

𝑥𝑇2 = [𝑅 ∗ 𝑌𝑇−1 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]𝑡
𝑇 −1
𝑥= [𝑥𝑇2 𝑅 ∗ 𝑌𝑇−1 𝑌𝑇 (∑ 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 ) 𝑌𝑇 𝑌𝑇−1 [𝑅 ∗ ]𝑡 ]−1

𝑡=1
𝑥 = [𝑅 ∗ 𝑌𝑇−1 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )] [16.3.22]
Para la matriz yt [16.3.14]. Recordar la visión de la Sección 16.2 que las pruebas de hipótesis que
involucran coeficientes con diferentes tasas de convergencia serán regidas por las variables con las
más bajas tasas de convergencia. Esto significa que algunos de los elementos de R* pueden ser
asintóticamente irrelevantes, así que [16.3.22] tiene la misma distribución asintótica que una
expresión más simple. Para describir esta expresión, considerar dos posibilidades:
Caso 1. Cada una de las Hipótesis m Representadas por 𝑅 ∗ 𝛽∗ = 𝑟 involucra un parámetro que
converge en tasa √𝑇
Por supuesto, podemos trivialmente re-escribir cualquier sistema de restricciones para

involucrar los parámetros Op(T-1/2) en cada ecuación. Por ejemplo, la hipótesis nula
𝐻0 : ∅∗2 = 0, 𝛿 ∗ = 0 [16.3.23]
Podría ser re-escrita como
𝐻0 : ∅∗2 = 0, 𝛿 ∗ = ∅∗2 [16.3.24]
Lo que parece incluir ∅∗2 en cada restricción. Con el propósito de implementar una prueba de H0,
no importa cuál representación de 𝐻0 se usa, desde que cualquiera producirá el valor idéntico para
la prueba estadística8. Con el propósito de analizar las propiedades de la prueba, distinguimos una
hipótesis tal como [16.3.23] de una hipótesis que involucra sólo a ∅∗2 y ∅∗3 . Para que esta distinción
sea significativa, asumiremos que H0 se escribiría en la forma de [16.3.23] en lugar de [16.3.24].
8 “Más generalmente, dejar que H sea una matriz no singular (m x m). Entonces la hipótesis nula R β=r puede equivalentemente
escribirse como 𝑅̇ 𝛽 = 𝑟̇ donde 𝑅̇ = 𝐻𝑅 y 𝑟̇ = Hr. La estadística x2 construida de la segunda parametrización es
−1 −1
𝑇
𝑡
𝑋 = (𝑅̇ 𝑏 − 𝑟̇ )
2
[𝑆𝑇2 𝑅̇ (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑅̇ 𝑡 ] (𝑅̇ 𝑏 − 𝑟̇ )
𝑡=1
−1 −1
𝑇
𝑡 𝑡
= (𝑅𝑏 − 𝑟) 𝐻 [𝐻 ] 𝑡 −1
[𝑆𝑇2 𝑅̇ (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑅 ] 𝑡
𝐻 −1 𝐻(𝑅𝑏 − 𝑟)
𝑡=1
−1 −1
𝑇
= (𝑅𝑏 − 𝑟) 𝑡
[𝑆𝑇2 𝑅̇ (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑅 ] 𝑡 (𝑅𝑏 − 𝑟),
𝑡=1
El cual es idéntico a la estadística x2 construida de la primera parametrización. La representación [16.3.24] es un ejemplo de tal
transformación de [16.3.23]. con
1 0
𝐻=[ ].
−1 1

En términos generales, esto significa que R* es “triangular superior”9. “Caso 1”describe la situación
en la cual los primeros elementos p +1 de la última fila R* no son todos cero.
Para el caso 1, aunque algunas de las hipótesis pudieran involucrar 𝛿̂𝑇∗ , una prueba de
hipótesis nula sería asintóticamente equivalente a una prueba que trate a 𝛿 ∗ como si fuera
conocida con certeza. Esta es una consecuencia de 𝛿̂𝑇∗ siendo superconsistente. Para desarrollar este
resultado riguroso, nótese que
∗ ⋯ 𝑟 ∗ /√𝑇 𝑟1.𝑝+2
∗ ∗
/√𝑇 3/2
𝑟11 /√𝑇 𝑟12
1.𝑝+1 /√𝑇
⋯ ∗
∗ ∗ ∗
𝑅 ∗ 𝑌𝑇−1 = 𝑟21 /√𝑇 𝑟22 /√𝑇 ⋯ 𝑟2.𝑝+1 /√𝑇 𝑟2.𝑝+2 /√𝑇
3/2
⋮ ⋮ ⋮ ⋮ ⋮
∗ ∗ ∗
𝑟𝑚1 /√𝑇 𝑟𝑚2 /√𝑇 … 𝑟𝑚.𝑝+1 /√𝑇 𝑟 ∗
𝑚.𝑝+2 /√𝑇
3/2
[ ]
y defina
̅̅̅
𝑌 𝑇
≡ √𝑇𝐼𝑚
(𝑚 𝑥 𝑚)
∗ ∗ ⋯ 𝑟∗ ∗
𝑟1.𝑝+2 /𝑇
𝑟11 𝑟12 1.𝑝+1
∗ ∗ ⋯ ∗ ∗
𝑟 𝑟 𝑟 𝑟2.𝑝+2 /𝑇
𝑅𝑇∗ ≡ 21 22 ⋯ 2.𝑝+1
⋮ ⋮ ⋮ ⋮ ⋮
∗ ∗ ∗ ∗
𝑟 𝑟
[ 𝑚1 𝑚2 … 𝑚.𝑝+1 𝑚.𝑝+2 /𝑇]
𝑟 𝑟
Estas matrices fueron elegidas para que
𝑅 ∗ 𝑌𝑇−1 = 𝑌𝑇−1 𝑅̅𝑇∗ [16.3.25]

La matriz 𝑅̅𝑇∗ tiene la propiedad adicional que
𝑅̅𝑇∗ → 𝑅̅ ∗ [16.3.26]
donde 𝑅̅ ∗involucra solo aquellas restricciones que afectan la distribución asintótica:

∗ ∗ ⋯ 𝑟∗
𝑟11 𝑟12 1.𝑝+1 0
∗ ∗ ⋯ ∗
𝑟 𝑟 𝑟 0
𝑅𝑇∗ ≡ 21 22 ⋯ 2.𝑝+1
⋮ ⋮ ⋮ ⋮ ⋮
∗ ∗ ∗
[𝑟𝑚1 𝑟𝑚2 … 𝑟𝑚.𝑝+10]
Sustituyendo [16.3.25] en [16.3.22]
9 “Triangular superior” significa que si el conjunto de restricciones en H0 envuelve parámetros 𝛽𝑖∗1 , 𝛽𝑖∗2 , …, 𝛽𝑖∗𝑛 con 𝑖1 < 𝑖2 < ⋯ < 𝑖𝑛
entonces los elementos de R* en filas 2 a través de m y columnas, 1 a través de i1, todas son cero. Esto es simplemente una normalización
– cualquier hipótesis R* β*= r puede ser escrita en tal forma seleccionando una restricción que involucre 𝛽𝑖∗1 para ser la primera fila de
R* y así multiplicar la primera fila de este sistema de ecuaciones por una constante adecuada y sustraerla de cada una de las siguientes
filas. Si el sistema de restricciones representada por dos filas a través de m de la matriz resultante que involucra parámetros 𝛽𝑖∗1 , 𝛽𝑖∗2 , …,
𝛽𝑖∗𝑛 con 𝑖1 < 𝑖2 < ⋯ < 𝑖𝑛 , entonces se asume que los elementos en filas 3 a través de m y columnas 1 a través de j1 son todas cero.
Un ejemplo de un sistema triangula superior es
0 𝑟1.𝑡1 𝑟1.𝑡2 0 … 0 𝑟 ∗1.𝑖𝑛

∗
… 𝑟 2.𝑡1
0 0 0 𝑟2.𝑡1 0
∗ . . . . … . .
𝑅 = … .
. . . . .
. . . . … . .
[0 0 0 0 0 𝑟 ∗ 𝑚,𝑘2−1 𝑟 ∗ 𝑚.𝑘 ]
𝑧

𝑇 −1
𝑋𝑇2 = [𝑌̅𝑇−1 𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]′ 𝑥 [𝑠𝑇2 𝑌̅𝑇−1 𝑅̅𝑇∗ 𝑌𝑇 (∑ 𝑥𝑡∗ [ 𝑥𝑡∗ ]′)−1 𝑌𝑇 [𝑌̅𝑇−1 𝑅̅𝑇∗ ]′] [𝑌̅𝑇−1 𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]
𝑡=1
𝑇 −1
= [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]′ 𝑌̅𝑇−1 𝑥 𝑌̅𝑇 [𝑠𝑇2 𝑅̅𝑇∗ 𝑌𝑇 (∑ 𝑥𝑡∗ [ 𝑥𝑡∗ ]′)−1 𝑌𝑇 [𝑅̅𝑇∗ ]′] 𝑌̅𝑇 𝑌̅𝑇−1 [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]
𝑡=1
𝑇 −1
= [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ ∗ ′
− 𝛽 )] 𝑥 [𝑠𝑇2 𝑅̅𝑇∗ 𝑌𝑇 (∑ 𝑥𝑡∗ [ 𝑥𝑡∗ ]′)−1 𝑌𝑇 [𝑅̅𝑇∗ ]′] [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]
𝑡=1
𝑝
→ [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )]′ 𝑥 [𝜎 2 𝑅̅∗ [𝑄 ∗ ]−1 [𝑅̅∗ ]′] −1 [𝑅̅𝑇∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ )] [16.3.27]
En virtud de [16.3.26] y [16.A.4].
Ahora [16.3.13] implica que

𝐿
𝑅̅ ∗ 𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ ) → 𝑁(0, 𝑅̅ ∗ 𝜎 2 [𝑄 ∗ ]−1 [𝑅̅∗ ]𝑡 )
y así [16.3.27] es una forma cuadrática en una variable asintótica gausiana del tipo cubierto en la
Proposición 8.1. Es por lo tanto, asisntóticamente x2(m). Ya que [16.3.27] es
numéricamente idéntica a [16.3.19], la forma de Wald de la prueba MCO x2, calculada en la forma
usual de la regresión [16.3.0], tiene la distribución usual x2(m).
Caso 2. Una de las Hipótesis involucra sólo al Parámetro de tendencia Temporal δ*
Nuevamente, asumiendo a propósito de la discusión que R* es Triangular Superior

, para el caso 2 la hipótesis sobre δ* será la única entrada en la fila mth de R*:
∗ ∗ ⋯ ∗
𝑟1.𝑝+1
∗
𝑟1.𝑝+2
𝑟11 𝑟12 ⋯ ∗
∗ ∗ ∗ 𝑟2.𝑝+2
∗
𝑟21 𝑟22 ⋯ 𝑟2.𝑝+1
𝑅𝑇 ≡ ⋮ ⋮ ⋮ ⋮
⋮ ∗
𝑟𝑚−1.1 𝑟𝑚−1.2 … 𝑟𝑚−1.𝑝+1 𝑟𝑚−1.𝑝+2
∗ ∗ ∗
∗
[ 0 0 … 0 𝑟𝑚.𝑝+2 ]
Para este caso, define

⋯
√𝑇 0 ⋯ 0 0
𝑌𝑇 0 √𝑇⋯ 0 0
≡ ⋮ ⋮ ⋮ ⋮ ⋮
(𝑚𝑥𝑚)
0 0 … √𝑇 0
3/2
[0 0 … 0𝑇 ]
y
∗ ∗ ⋯ 𝑟∗ ∗
𝑟1.𝑝+2 /𝑇
𝑟11 𝑟12 ⋯ 1.𝑝+1
∗
∗ ∗ ∗ 𝑟2.𝑝+2 /𝑇
𝑟21 𝑟22 ⋯ 𝑟2.𝑝+1
̃ ∗
𝑅𝑇 ≡ ⋮ ⋮ ⋮ ⋮
⋮ ∗
∗
𝑟𝑚−1.1 ∗
𝑟𝑚−1.2 𝑟 ∗
… 𝑚−1.𝑝+1 𝑟𝑚−1.𝑝+2 /𝑇
∗
[ 0 0 … 0 𝑟𝑚.𝑝+2 ]
Nótese que estas matrices nuevamente satisfacen [16.3.25] y [16.3.26] con

⋯ 𝑟∗
∗
𝑟11 ∗
𝑟12 1.𝑝+1 0
⋯
∗
𝑟21 ∗ ∗
𝑟22 ⋯ 𝑟2.𝑝+1 0
̃ ∗
𝑅𝑇 ≡ ⋮ ⋮ ⋮ ⋮
⋮
∗
𝑟𝑚−1.1 ∗
𝑟𝑚−1.2 ∗ 0
… 𝑟𝑚−1.𝑝+1 ∗
[ 0 0 0 𝑟𝑚.𝑝+2 ]
…
El análisis de [16.3.27] por lo tanto pasa a través de este caso, también, sin cambio.
Resumen
Cualquier prueba estándar MCO x2 de una hipótesis nula Rβ=r para el modelo de
regresión [16.3.1] puede ser calculado e interpretado en la forma usual. La prueba es
asintóticamente válida para cualquier hipótesis sobre cualquier subconjunto de los parámetros en β.
Los elementos de R no tienen que estar ordenados e expresados en ninguna forma particular para
que sean ciertos.
APÉNDICE 16.A Derivación de Ecuaciones elegidas para

el Capítulo 16
▪ Derivación de [16.3.13]. Como en [16.1.6]
𝑇 −𝟏 𝑇
𝒃∗𝑻 ∗
𝜷 = [∑ 𝑋𝑡 𝑋𝑡∗ [𝑋𝑡∗ ]] [∑ 𝑋𝑡 𝜀𝑡 ]
𝑡=1 𝑡=1
[16.A.1]
Ya que las población residuales 𝜀1 son idénticas para las representaciones transformadas y no-
transformadas. Como en [16.1.18], premultiplicar por YT para escribir
𝑇 −𝟏 𝑇
−𝟏
𝑌𝑇 (𝑏𝑇∗ −𝛽 )= ∗
{𝒀𝑻 ∑ 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 𝒀−𝟏
𝑻 }
−𝟏
{𝒀𝑻 ∑ 𝑋𝑡∗ 𝜀𝑡 }
𝑡=1 𝑡=1
[16.A.2]
De [16.3.9]
∗ ∗ ∗ ∗ ∗ ∗
∑(𝑦𝑡−1 )2 ∑ 𝑦𝑡−1 𝑦𝑡−2 ∑ 𝑦𝑡−1 ∗
𝑦𝑡−𝑝 ∑ 𝑦𝑡−1 ∑ 𝑡𝑦𝑡−1
⋯
∗ ∗ ∗ ∗ ∗ ∗
∑ 𝑦𝑡−2 𝑦𝑡−1 ∑(𝑦𝑡−2 )2 ⋯ ∑ 𝑦𝑡−2 ∗
𝑦𝑡−𝑝 ∑ 𝑦𝑡−2 ∑ 𝑡𝑦𝑡−2
𝑇
⋮ ⋮ ⋯ ⋮ ⋮ ⋮
∑ 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 ≡ ∑ 𝑦 ∗ 𝑦 ∗ ∗ ∗ ⋮ ∗
)2 ∗ ∗
𝑡−𝑝 𝑡−1 ∑ 𝑦𝑡−𝑝 𝑦𝑡−1 …
∑(𝑦𝑡−𝑝 ∑ 𝑦𝑡−𝑝 ∑ 𝑡𝑦𝑡−𝑝
𝑡=1
∗ ∗ ∗
∑ 𝑦𝑡−1 ∑ 𝑦𝑡−2 ∑ 𝑦𝑡−𝑝 ∑1 ∑𝑡
⋯
∗ ∗ ∗
[ ∑ 𝑡𝑦𝑡−1 ∑ 𝑡𝑦𝑡−2 ∑ 𝑡𝑦𝑡−𝑝 ∑𝑡 ∑ 𝑡2 ]

𝑇
𝑌𝑇−1 ∑ 𝑋𝑡∗ [𝑋𝑡∗ ]′ 𝑌𝑇−1

𝑡=1
∗ ∗ ∗ ∗ ∗
𝑇 −1 ∑(𝑦𝑡−1 )2 𝑇 −1 ∑ 𝑦𝑡−1 𝑦𝑡−2 𝑇 −1 ∑ 𝑦𝑡−1 ∗
𝑦𝑡−𝑝 ∗ 𝑇 −2 ∑ 𝑡𝑦𝑡−1
𝑇 −1 ∑ 𝑦𝑡−1
⋯
∗ ∗ ∗ ∗ ∗
𝑇 −1 ∑ 𝑦𝑡−2 𝑦𝑡−1 𝑇 −1 ∑(𝑦𝑡−1 )2 −1 ∗
⋯ 𝑇 ∑ 𝑦𝑡−2 𝑦𝑡−𝑝 𝑇 −1 ∑ 𝑦𝑡−2
∗ 𝑇 −2 ∑ 𝑡𝑦𝑡−2
⋮ ⋮ ⋯ ⋮ ⋮
⋮ ⋮
≡ 𝑇 −1 ∑ 𝑦 ∗ 𝑦 ∗ 𝑇 −1 ∗
∑ 𝑦𝑡−𝑝 ∗
𝑦𝑡−2 −1 ∗
𝑇 ∑(𝑦𝑡−𝑝 ) 2 −2
𝑇 ∑ 𝑡𝑦𝑡−𝑝∗
𝑡−𝑝 𝑡−1 … 𝑇 −1 ∑ 𝑦𝑡−𝑝
∗
∗ ∗
𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−2 𝑇 −1 ∑ 𝑦𝑡−𝑝
∗
𝑇 −1 . 𝑇 𝑇 −2 . ∑ 𝑡
⋯
−2 ∗ ∗ 𝑇 −2 . ∑ 𝑡
[ 𝑇 ∑ 𝑡𝑦𝑡−1 𝑇 −2 ∑ 𝑦𝑡−2 𝑇 −2 ∑ 𝑦𝑡−𝑝
∗
𝑇 −3 . ∑ 𝑡 2 ]
y [16.A.3]
Para la primera fila y columnas p, la fila i, columna j, elemento de esta matriz es

𝑇
−1 ∗ ∗
𝑇 ∑ 𝑦𝑡−1 𝑦𝑡−𝑗
𝑡=1
Pero 𝑦𝑡∗ sigue un proceso estacionarios de media cero AR(p) satisfaciendo las condiciones del
∗
ejercicio 7.7. Por lo tanto, estos términos convergen en la probabilidad de 𝑦|𝑖−𝑗|. Los primeros
elementos p de la fila p +1 (o los primeros elementos p de la columna p +1) son de la forma
𝑇
−1 ∗
𝑇 ∑ 𝑦𝑡−𝑗
𝑡=1
que converge en probabilidad cero. Los primeros elementos p de la fila p +2 (o los primeros
elementos p de la columna p+2) son de la forma
𝑇
−1 ∗
𝑇 ∑(𝑡/𝑇)𝑦𝑡−𝑗
𝑡=1
que pueden converger en probabilidad cero con una adaptación lista a las técnicas del Capítulo 7
(ver ejercicio 16.3). Finalmente, la matriz (2 x 2) en la esquina inferir derecha de [16.A.3] converge a
1 1/2
[ ]
1/2 1/3
Así
𝒑
𝑌𝑇−1 = ∑𝑇𝑡=1 𝑋𝑡∗ [𝑋𝑡∗ ]𝑡 𝒀−𝟏
𝑻 →𝑸
∗
[16.A.4]
Para Q* la matriz en [16.3.15].

Volviéndose al segundo término en [16.A.2]
∗
𝑇 −1/2 ∑ 𝑦𝑡−1 𝜀𝑡
−1/2 ∑ ∗
𝑇 𝑦𝑡−2 𝜀𝑡
⋮
𝑌𝑇−1 ∑𝑇𝑡=1 𝑋𝑡∗ 𝜀𝑡 = 𝑇 −1/2 ∑ 𝑦 ∗ 𝜀 = 𝑇 −1/2 ∑ 𝜉𝑡 [16.A.5]
𝑡−𝑝 𝑡
𝑇 −1/2 ∑ 𝜀𝑡
𝑇 −1/2 ∑(𝑡/𝑇)𝜀𝑡

donde
∗
𝑦𝑡−1 𝜀𝑡
∗
𝑦𝑡−2 𝜀𝑡
⋮
𝜉𝑡 = ∗
𝑦𝑡−𝑝 𝜀𝑡
𝜀𝑡
(𝑡/𝑇)𝜀𝑡
Pero 𝜉𝑡 es una diferencia de secuencia martingala con varianza
𝐸 = (𝜉𝑡 𝜉𝑡𝑡 ) = 𝜎 2 𝑄𝑡∗
Donde
∗ ∗
𝑦0∗ 𝑦1∗ 𝑦1⋯ 𝑦𝑝−1 0 0
𝑦1 𝑦0 𝑦1⋯ 𝑦𝑝−1 0 0
∗ ∗ ∗ ∗
⋮ ⋮ ⋯ ⋮ ⋮
𝑄𝑇∗ ≡ ∗ ∗ 0
𝑦𝑝−1𝑦𝑝−2 𝑦𝑝−3 ⋯ 𝑦0 0
∗ ∗
0 0 0 ⋯ 0 1 𝑡/𝑇
2 2
[ 0 0 0 ⋯ 0 𝑡/𝑇𝑡 /𝑇 ]
Y
𝑇
(1/𝑇) ∑ 𝑄𝑡∗ → 𝑄 ∗
𝑡−1
Aplicando los argumentos utilizados en el Ejercicio 8.3 y en [16.1.24], puede verse que
𝐿
𝑌𝑇−1 ∑𝑇𝑡=1 𝑋𝑡∗ 𝜀𝑡 → 𝑁(0, 𝜎 2 𝑄 ∗ ) [16.A.6]
Se deduce de [16.A.4], [16.A.6], y [16.A.2] que

𝐿
𝑌𝑇 (𝑏𝑇∗ − 𝛽 ∗ ) → 𝑁(0, [𝑄 ∗ ]−1 𝜎 2 𝑄 ∗ [𝑄 ∗ ]−1 ) = 𝑁(𝑄 2 [𝑄∗ ]−1 )
Como se afirma en [16.3.13].
16.1. Verificar el resultado en [16.1.23]
16.2. Verificar la expresión en [16.1.27]
16.3. Dejar que yt sea covarianza estacionaria con media cero autocovarianzas absolutamente
sumatorias:
𝑥
∑ |𝑦𝑗 | < ∞
𝑗𝛼−𝑥
Para yt=E(yt yt-j). Adaptando el argumento de la expresión [7.2.6], mostrar que

𝑇
𝑚.𝑠.
−1/2
𝑇 ∑(𝑡/𝑇)𝑦1 → 0
𝑡=1
Fuller, Wayne A. 1976. Introduction to Statistical Time Series. New York: Wiley.
Sims, Christopher A., James H. Stock, and Mark W. Watson. 1990 “Inference in Linear Time Series
Models with Some Unit Roots.” Econometrica 58: 113-44

17
Procesos Univariados con Raíces
unitarias
Este capítulo discute la inferencia estadística para procesos univariados que contienen una raíz
unitaria. La Sección 17.1 da una breve explicación de por qué las distribuciones asintóticas y las
tasas de convergencia de los coeficientes estimados de los procesos radiculares unitarios difieren de
las de los procesos estacionarios. Las distribuciones asintóticas para los procesos raíz unitarias se
pueden describir en términos de funcional en el movimiento browniano. La idea básica detrás del
movimiento browniano se presenta en la Sección 17.2. Las herramientas técnicas utilizadas para
establecer que las distribuciones asintóticas de ciertas estadísticas que implican procesos raíz
unitarios pueden representarse en términos de tales funcionales se desarrollan en la Sección 17.3,
aunque no es necesario dominar estas herramientas para leer las Secciones 17.4 a 17.9. La sección
17.4 deriva la distribución asintótica del coeficiente estimado para una atutorregresión de primer
orden cuando los procesos verdaderos son una caminata aleatoria. Esta distribución resulta
depender de si una tendencia constante o temporal se incluye en la regresión estimada y si se
incluye una tendencia constante o temporal en la regresión estimada y si la caminata aleatoria
verdadera se caracteriza por deriva no nula.
La sección 17.5 extiende los resultados de la sección 17.3 para cubrir los procesos raíz
unitarios cuyas diferencias exhiben una correlación serial general. Estos resultados se pueden
utilizar para desarrollar dos clases diferentes de pruebas para las raíces unitarias. Un enfoque,
debido a Phillips y Perón (1988), ajusta las estadísticas calculadas a partir de una autorregresión
simple de primer orden para tener en cuenta la correlación serial de los datos diferenciados. El
segundo enfoque, debido a Dickey y Fuller (1979), añade rezagos a la autorregresión. Estos
enfoques se examinan en las secciones 17.6 y 17.7, respectivamente. La sección 17.7 deriva además
las propiedades de todos los coeficientes estimados para la auto-regresión de orden p cuando una
de las raíces es unidad.
Los lectores interesados únicamente en cómo se aplican estos resultados en la práctica

pueden comenzar con los resúmenes de la Tabla 17.2 o la Tabla 17.3 y con las aplicaciones
empíricas descritas en los Ejemplos 17.6 a 17.9.
17.1. Distribución asintótica de las estimaciones de MCO del

Modelo Simple de Tendencia Temporal
Considera las estimaciones MCO para un proceso Gaussiano AR (1)
𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝜇𝑡 [17.1.1]
Donde 𝜇𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎 2 ), y 𝑦0 = 0. La estimación MCO de p está dada por

∑𝑇
𝑡=1 𝑦𝑡−1 +𝑦𝑡
𝑝̂𝑡 = ∑𝑇 2 [17.1.2]
𝑡=1 𝑦 𝑡−1
Vimos en el Capítulo 8 que si el verdadero valor de p es menor a 1 en valor absoluto, entonces:

𝐿
√𝑇(𝑝̂𝑡 − 𝑝) → 𝑁(0, 1 − 𝑝2 )) [17.1.3]
496 Capítulo 17 | Procesos Univariados con Raíces Unitarias

Si [17.1.3] fuera también válido para el caso en el que p = 1, parecería alegar que √𝑇(𝑝̂ 𝑇 − 𝑝) tenga
varianza cero, o que la distribución colapse en un punto masa de cero:
𝑂
√𝑇(𝑝̂𝑡 − 1) → 0. [17.1.4]
Como veremos en breve, [17.1.4] es de hecho un enunciado válido para procesos de raíces unitarias,
pero obviamente no es de mucha ayuda para pruebas de hipótesis. Para obtener una distribución
asintótica no degenerada para 𝑝̂ 𝑇 por T en lugar de √𝑇. Por lo tanto, el coeficiente de raíz unitaria
converge a una tasa más rápida (T) que un coeficiente de regresión estacionaria (que converge en
√𝑇), pero a una tasa más lenta que el coeficiente en una tendencia temporal en las regresiones
analizadas en los capítulos previos (los cuales convergen a T 3/2).
Para tener un mejor sentido de porqué escalando por T es necesario

cuando el verdadero valor de p es la unidad, recordar que la diferencia entre la estimación 𝑝̂ 𝑇 y el
verdadero valor puede ser expresado como en la ecuación [8.2.3]1:
∑𝑇
𝑡=1 𝑦𝑡−1 𝜇𝑡
(𝑝̂𝑡 − 1) = [17.1.5]
∑𝑇 2
𝑡=1 𝑦 𝑡−1
De tal modo que

(1/𝑇) ∑𝑇 𝑦𝑡−1 𝜇𝑡
𝑇(𝑝̂𝑡 − 1) = (1/𝑇 2 ) ∑𝑡=1
𝑇 2 . [17.1.6]
𝑡=1 𝑦 𝑡−1
Considera primero el numerador en [17.1.6]. Cuando el verdadero valor de p es la unidad, la

ecuación [17.1.1] describe un tramo aleatorio con
𝑦𝑡 = 𝜇𝑡 + 𝜇𝑡−1 + ⋯ + 𝜇𝑡
[17.1.7]
Ya que 𝑦0 = 0. Resulta de [17.1.7] que
𝑦𝑡 ~𝑁(0, 𝜎 2 𝑡). [17.1.8]
Nota adicional que para un tramo aleatorio,

2 2
𝑦𝑡2 = (𝑦𝑡−1 + 𝜇𝑡 )2 = 𝑦𝑡−1 + 2𝑦𝑡−1 𝜇𝑡 + ⋯ + 𝜇 2 𝑡
Implicando que
2
𝑦𝑡−1 𝜇𝑡 = (1/2){𝑦𝑡2 − 𝑦𝑡−1 − 𝑦𝑡2 } [17.1.9]
Si [17.1.9] es sumado en t= 1, 2,…, T, el resultado es
∑𝑇𝑡=1 𝑦𝑡−1 𝜇𝑡 = (1/2){𝑦𝑡2 − 𝑦02 } − (1/2) ∑𝑇𝑡=1 𝜇𝑡2

[17.1.10]
Recordando que 𝑦0 = 0, la ecuación [17.1.10] establece que
(1/𝑇) ∑𝑇𝑡=1 𝑦𝑡−1 − 𝜇𝑡 = (1/2) ∙ (1/𝑇)𝑦𝑡2 − (1/2) ∙ (1/𝑇) ∑𝑇𝑡=1 𝜇𝑡2

[17.1.11]
y si cada lado de [17.1.11] es dividido por 𝜎 2 , el resultado es

1 1 𝑦 1 1
(𝜎2 𝑇) ∑𝑇𝑡=1 𝑦𝑡−1 − 𝜇𝑡 = (2)(𝜎 𝑡𝑇)2 − (2𝜎2 )(𝑇) ∙ ∑𝑇𝑡=1 𝜇𝑡2 [17.1.12]
√
1 Esta discusión está basada en Fuller (1976. p. 369).
Temporal 497
Pero [17.1.8] implica que la variable 𝑦𝑇 /(𝜎√𝑇) es N (0, 1), siendo así su cuadrado x2(1):
𝑦
[(𝜎2𝑇𝑇)]2 ~𝑥 2 (1) [17.1.13]
Además, ∑𝑇𝑡=1 𝑢𝑡2 es la suma de T i.i.d. variables aleatorias, cada una con media 𝜎 2 , y así, por la ley
de los números grandes,
𝑝
(1/𝑇) ∙ ∑𝑇𝑡=1 𝑢𝑡2 → 𝜎 2 [17.1.14]
Usando [17.1.13] y [17.1.14], resulta de [17.1.12] que

1 𝐿 1
[𝜎2 𝑇] ∑𝑇𝑡=1 𝑦𝑡−1 − 𝜇𝑡 → (2) ∙ (𝑋 − 1) [17.1.15]
dónde 𝑥~𝑥 2 (1).
Volviendo a seguir al denominador de [17.1.6], considerar
∑𝑇𝑡=1 𝑦𝑡−1
2
[17.1.16]
2 )
Recordar que de [17.1.8] que 𝑦𝑡−1 ~𝑁(0, 𝜎 2 (𝑡 − 1)), así 𝐸(𝑦𝑡−1 = 𝜎 2 (𝑡 − 1). Considera la
media de [17.1.16],
𝐸[∑𝑇𝑡=1 𝑦𝑡−1
2 ]
= 𝜎 2 ∑𝑇𝑡=1(𝑡 − 1) = 𝜎 2 (𝑡 − 1)𝑇/2.
Para construir una variable aleatoria que pudiera tener una distribución convergente, la cantidad en
[17.1.16] tendrá que ser dividida por T2 como fue hecho en el denominador [17.1.6].
Para resumir, si el proceso real es un tramo aleatorio, entonces la

desviación de la estimación MCO del verdadero valor (𝑝̂ 𝑇 − 1) debe ser multiplicado por T en
lugar de √𝑇 para obtener la variable con una distribución asintótica útil. Más aún, esta distribución
asintótica no es la usual distribución Gausiana pero en su lugar es un ratio que involucra a 𝑥 2 (1)
variable en el numerador y separada, distribución no-estandar en el denominador.
La distribución asintótica 𝑇(𝑝̂ 𝑇 − 1) será descrita completamente en la

Sección 17.4. En preparación a esto, la idea del Movimiento Browniano está incluida en la Sección
17.2, seguida por una discusión del Teorema del Límite Central Funcional en la Sección 17.3.
17.2. Movimiento browniano

Considera un tramo aleatorio,
𝑦𝑡 = 𝑦𝑡−1 + 𝜖𝑡 [17.2.1]
En la que las innovaciones son variables estándares normales
𝜀𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 1).
Si el proceso empieza con y0=0, entonces esto sigue como en [17.1.7] y [17.1.8] que
𝑦𝑡 = 𝜀1 + 𝜖2 + ⋯ + 𝜀𝑡
𝑦𝑡 𝑁~(0, 𝑡).
Más aún, el cambio en el valor de y entre los datos t y s,

𝑦𝑠 − 𝑦𝑡 = 𝜀𝑡+1 + 𝜀𝑡+2 + ⋯ + 𝜀𝑠
es en sí misma N (0, (s-t)) y es independiente del cambio entre las fechas r y q para cualquier fecha
𝑡 < 𝑠 < 𝑟 < 𝑞.
Considera el cambio entre 𝑦𝑡−1 y 𝑦𝑡 . Esta innovación 𝜀𝑡 fue tomada

de N (0, 1). Supongamos que vimos 𝜀𝑡 como la suma de dos variables independientes gaussianas:
𝜀𝑡 = 𝑒1𝑡 + 𝑒2𝑡
1
Con 𝑒1𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 2). Nosotros podríamos asociar 𝑒1𝑡 con el cambio entre yt-1 y el valor de y en
algún punto provisional (digamos, y t – (1/2)),
𝑦𝑡−(1/2) − 𝑦𝑡−1 = 𝑒1𝑡 [17.2.2]
y 𝑒2𝑡 con el cambio entre y t – (1/2) y 𝑦𝑡 :
𝑦𝑡 − 𝑦𝑡−(1/2) = 𝑒2𝑡 [17.2.3]
Muestreado en un entero de fecha t=1, 2,…, el proceso de [17.2.2] y [17.2.3] tendrá exactamente las
mismas propiedades que [17.2.1], ya que
𝑦𝑡 − 𝑦𝑡−1 = 𝑒1𝑡 + 𝑒2𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 1).

Adicionalmente, el proceso de [17.2.2] y [17.2.3] está definido también por la fecha no-entera
1 𝑥
{𝑡 + }𝑡=0 y retiene la propiedad para ambas fechas enteras y no enteras que
2
𝑦𝑠 − 𝑦1 ~𝑁(0, 𝑠 − 𝑡)
con 𝑦𝑠 − 𝑦𝑡 independiente del cambio sobre cualquier de los intervalos sin superposición.
Bajo la misma lógica, podríamos imaginar dividir el cambio entre t -1 y

t en N sub periodos separados:
𝑦𝑡 − 𝑦𝑡−1 = 𝑒1𝑡 + 𝑒2𝑡 + ⋯ + 𝑒𝑁𝑡
Con 𝑒1𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0,1/𝑁). El resultado podría ser un proceso con todas las mismas propiedades
de [17.2.1], definidas en una cada vez más fina red de fechas en tanto se incremente N. El límite de
𝑁 → ∞ es un proceso de tiempo continuo conocido como Movimiento Browniano Estándar. El
valor de este proceso en la fecha t está dado por W (t)2. Un proceso de tiempo continuo es una
variable aleatoria que asume un valor número t real no-negativo, distinto a un proceso de tiempo
discreto, el cual solamente está definido en valores enteros de t. Para enfatizar la distinción,
pondremos la fecha en paréntesis cuando se describa el valor de una variable de tiempo continuo de
fecha t (tal como en W (t)) y usaremos subíndices para una variable de tiempo discreto (tal como en
𝑦𝑡 ). Un proceso de tiempo discreto fue representado como una secuencia contable de variables
𝑥
aleatorias, denotadas por {𝑦𝑡 }𝑡=1 . Una realización de un proceso de tiempo continuo puede ser
observada como una función Estocástica, denotada por 𝑊(∙), donde 𝑊: 𝑡 ∈ [0, ∞) → ℝ1 .
Una particular realización del movimiento browniano resulta ser una

función continua de t. Para ver porqué es continua, recuerda que el cambio entre t y 𝑡 + ∆ es
distribuido 𝑁(0, ∆). Tal cambio es esencialmente cierto para ser arbitrariamente pequeño como el
intervalo ∆ va a cero.
2 El movimiento browniano es a veces referido también como proceso Wiener.
17.2 Movimiento browniano 499

Definición: Movimiento Browniano Estándar 𝑊(∙) es un proceso estocástico de tiempo continuo,
asociado a cada fecha t ∈ [0, 1]con el escalar W (t) tal que:
(a) W0=0;
(b) Para cualquier fecha 0 ≤ 𝑡1 < 𝑡2 < ⋯ < 𝑡𝑘 ≤ 1, los cambios [𝑊(𝑡2 ) −
𝑊(𝑡1 )], [𝑊(𝑡3 ) − 𝑊(𝑡2 )], ⋯ , [𝑊(𝑡𝑘 ) − 𝑊(𝑡𝑘−1 )] son multivariables independientes
Gaussianas con [𝑊(𝑠) − 𝑊(𝑡)]~𝑁(0, 𝑠~𝑡);
(c) Para cualquier realización dada, 𝑊𝑡 es continua en t con probabilidad 1.
Hay ventajas para restringir el análisis de fechas t dentro de un

intervalo cerrado. Todos los resultados en este texto refieren al comportamiento del movimiento
browniano para fechas dentro del intervalo unitario 𝑡 ∈ [0, 1] 𝑒𝑛 ℝ1 y en participación de esto
hemos definido W (.) como la función de mapeo t ∈ [0, 1] 𝑒𝑛 ℝ1 .
Otros procesos de tiempo continuo pueden ser generados del

movimiento estándar browniano. Por ejemplo, el proceso
𝑍(𝑡) = 𝜎 ∙ 𝑊(𝑡)
tiene incrementos independientes y está distribuido 𝑁(0, 𝜎 2 𝑡) a través de las realizaciones. Tal
proceso está descrito como Movimiento Browniano con varianza 𝜎 2 . Por tanto, el movimiento
browniano estándar podría también ser descrito como movimiento browniano con varianza
unitaria.
Como por ejemplo,

𝑍(𝑡) = [𝑊(𝑡) ]2 [17.2.4]
Podría estar distribuido como t veces una variable x2 (1) a través de realizaciones.
Aunque W (t) es continua en t, no puede ser diferenciada usando cálculos estándar; la

dirección de cambios en t es probable que sea completamente diferente de en 𝑡 + ∆, no importa
cuán pequeño hagamos ∆3.
17.3. El Teorema del Límite Central Funcional

Uno de los usos del movimiento browniano es para permitir más declaraciones generales del
teorema del límite central que aquellos del Capítulo 7. Recuerda la versión más sencilla del teorema
del límite central: si 𝑢𝑡 ~𝑖. 𝑖. 𝑑. con media cero y varianza 𝜎 2 , entonces la muestra media 𝑢 𝑇 ≡
1
(𝑇) ∑𝑇𝑡=1 𝑢𝑡 satisface
𝐿
√𝑇𝜇̅ 𝑇 → 𝑁(0, 𝜎 2 )
Considera ahora un estimador basado en el siguiente principio: cuando
se da una muestra de tamaño T, calculamos la media de la primera mitad de la muestra y
descartamos el resto de las observaciones:
[𝑇/2]∗
𝜇̅ [𝑇/2]∗ = (1/[𝑡/2]2 ) ∑𝑡=1 𝜇𝑡 .
Aquí [T/2]* denota el entero más largo que es menos que o igual a T/2; esto es, [T/2]*=T/2 para
T par [T/2]* = (T-1)/2 y T par. Este estimador extraño podría satisfacer el teorema de límite
central:
3 Para una introducción a la diferenciación e integración de movimiento Browniano, revisar Milliaris y Brock (1982, Chapter 2).

𝐿
√[𝑇/2]∗ 𝜇̅ [𝑇/2]∗ → 𝑁(0, 𝜎 2 ) [17.3.1]
𝑇→∞
Más aún, este estimador podría ser independiente de un estimador que usa solamente la segunda
mitad de la muestra.
Más generalmente, podemos construir una variable xt(r) de la muestra

promedio de la primera fracción r th de observaciones,𝑟 ∈ [0, 1], definido por
[𝑇/2] ∗
𝑋𝑇 (𝑟) ≡ (1/𝑇) ∑𝑡=1 𝜇𝑡
[17.3.2]
Para cualquier realización dada, Xt(r) es una función de paso en r, con
0 𝑝𝑎𝑟𝑎 0 ≤ 𝑟 < 1/𝑇

𝜇𝑡 /𝑇 𝑝𝑎𝑟𝑎 1/𝑇 ≤ 𝑟 < 2/𝑇
𝑋𝑇 (𝑟) − (𝜇1 + 𝜇2 )/𝑇 𝑝𝑎𝑟𝑎 2𝑇 ≤ 𝑟 < 3𝑇
⋮ ⋮
{(𝜇1 + 𝜇2 + ⋯ + 𝜇𝑡 )/𝑇 𝑝𝑎𝑟𝑎 𝑟 = 1
[17.3.3]
Entonces
1 [𝑇 ]∗ [𝑇]∗
√𝑇 ∙ 𝑋𝑇 (𝑟) = ( 𝑇) ∑𝑡=1
𝑟
𝜇𝑡 = (√[𝑇𝑟 ]∗ /√𝑇) (1/√[𝑇𝑟 ]∗ ) ∑𝑡=1 𝜇𝑡
√
[17.3.4]
Pero
1 [𝑇]∗ 𝐿
( ) ∑𝑡=1 𝜇𝑡 → 𝑁(0, 𝜎 2 )
√[𝑇𝑟 ]∗
√[𝑇𝑟]∗
Por el teorema del límite central como en [17.3.1], mientras ( ) → √𝑟. Por lo tanto, la
√𝑇
distribución asintótica de √𝑟 ∙ 𝑥𝑇 𝑟 en [17.3.4] es que √𝑟 veces una variable aleatoria N (0, 𝜎 2 ) o
𝐿
√𝑇 ∙ 𝑋𝑇 (𝑟) → 𝑁(0, 𝑟𝜎 2 )
y
𝑋𝑇 (𝑟) 𝐿
√𝑇 ∙ [ 𝜎
] → 𝑁(0, 𝑟) [17.3.5]
Si consideráramos el comportamiento de una muestra media basada en

observaciones [𝑇𝑟1 ]∗ a través de [𝑇𝑟2 ]∗ para 𝑟2 > 𝑟1 concluiríamos esto es demasiado
asintóticamente normal,
𝐿
√𝑇 ∙ [𝑋𝑇 (𝑟2 ) − 𝑋𝑇 (𝑟1 )]/𝜎 → 𝑁(0, 𝑟2 − 𝑟1 )
y es dependiente del estimador en [17.3.5], dado que 𝑟 < 𝑟. Esto por lo tanto no debería
𝑋 (∙)
sorprender dado que la secuencia de funciones estocásticas {√𝑇 ∙ 𝑇 }𝑋𝑇=1 tiene una ley de
𝜎
probabilidad asintótica que se describe por el movimiento browniano estándar 𝑊(∙):
𝐿
√𝑇 ∙ [𝑋𝑇 (∙)/𝜎] → 𝑊(∙) [17.3.6]
17.3 El Teorema del Límite Central Funcional 501

Nótese la diferencia entre los enunciados en [17.3.5] y [17.3.6]. La
expresión 𝑋𝑇 (∙) denota una función aleatoria mientras 𝑋𝑇 (𝑟) denota el valor que la función asume
en la fecha r; por lo tanto, 𝑋𝑇 (∙) es una función, mientras que 𝑋𝑇 (𝑟) es una variable aleatoria.
El resultado [17.3.6] es conocido como el teorema del límite central

funcional. La derivación aquí asumió que 𝑢𝑡 era i.d.d. Un enucniado más general será provisto en la
sección 17.5.
Evaluado en r = 1, la función 𝑋𝑇 (𝑟) en [17.3.2] es justo la media de la

muestra:
𝑋𝑇 (1) = (1/𝑇) ∑𝑇𝑡=1 𝜇𝑡

Por lo tanto, cuando las funciones en [17.3.6] son evaluadas en r= 1, el teorema de del límite central
funcional [7.1.6] obtiene como un caso especial de [17.3.6]:
𝑋𝑇 (1) 1 𝐿
√𝑇 ∙ =[ ] ∑𝑇𝑡=1 𝜇𝑡 → 𝑊(1)~𝑁(0, 1) [17.3.7]
𝜎 𝜎√𝑡
Temprano, hemos definido anteriormente la convergencia en la ley de las variables

aleatorias, y bajo tenemos que ampliar la definición para cubrir funciones aleatorias. Sea 𝑆(∙)
representar un proceso estocástico de tiempo continuo con 𝑆(𝑟) representando su valor en una
fecha r para 𝑟 ∈ [0, 1]. Supongamos, además, que para cualquier realización dada, 𝑆(∙) es una
función de continuo de r con probabilidad 1. Para {𝑆𝑇 (∙)}𝑥𝑇=1 una secuencia de tales funciones
𝐿
continuas, decimos que 𝑆𝑇 (∙) → 𝑆 (∙) si todas las siguientes4:
(a) Para una colección finita de fechas particulares k,
0 ≤ 𝑟1 < 𝑟2 < ⋯ < 𝑟𝑘 ≤ 1,
La secuencia de k-dimensional vectores aleatorios {𝐲𝑇 }∞

𝑇=1 converge en la distribución al
vector y, donde
𝑆𝑇 (𝑟1 ) 𝑆 (𝑟1 )
𝑆𝑇 (𝑟2 ) 𝑆 (𝑟2 )
𝑦𝑇 ≡ [ ] 𝑦 ≡[ ];
⋮ ⋮
𝑆𝑇 (𝑟𝑘 ) 𝑆 (𝑟𝑘 )
(b) Para cada 𝜀 > 0, la probabilidad de que 𝑆𝑇 (𝑟1 ) difiera de𝑆𝑇 (𝑟2 ) para cualquier fecha 𝑟1 y
𝑟2 dentro de 𝛿 de cada otra va a cero uniformemente en T como 𝛿 → 0;
(c) 𝑃{|𝑆𝑇 (0)| > 𝜆} → 0 uniformemente en T como 𝜆 → 0.
Esta definición se aplica a secuencias de funciones continuas, aunque la función en [17.3.2]

es una función escalonada discontinua. Afortunadamente, las discontinuidades ocurren en un
conjunto de puntos contable. Formalmente, 𝑆𝑇 (∙) puede ser reemplazado con una función
continua similar, interpolando entre los pasos (como en Hall y Heyde, 1980).
Alternativamente, la definición de convergencia de funciones aleatorias puede generalizarse para

permitir las diferencias de tipo del tipo [17.3.2] (como en el Capítulo 3 de Billingsley, 1968).
También será útil extender la definición anterior de convergencia en probabilidad a secuencias de

funciones aleatorias. Sean {𝑆𝑇 (∙)}𝑥𝑇=1 y {𝑉(∙)}𝑥𝑇=1 denotan secuencias de funciones continuas al
azar con 𝑆𝑇′ : 𝑟 ∈ [0, 1] → 𝑅1 y 𝑉 = 𝑟 ∈ [0, 1] → 𝑅1. Deje que el escalar 𝑌𝑇 represente la mayor
cantidad por la cual 𝑆𝑇 (𝑟) difiere de 𝑉𝑇 (𝑟) para cualquier r:
4La secuencia de medidas de probabilidad inducida por {𝑠𝑇 (. )}∞ 𝑇=1 débilmente converge (en el sentido de Billingsley, 1968) a la medida
de probabilidad inducida por 𝑆𝑇 (∙) si y sólo si las condiciones (a) a (c) mantienen; Ver Teorema A.2, p.275, en Hall y Heyde (1980).

𝑠𝑢𝑝
𝑇 ≡ 𝑟 ∈ [0,1]|𝑆𝑇 (𝑟) − 𝑉𝑇 (𝑟)|
Así, {𝑌𝑇 }𝑥𝑇=1 es una consecuencia de variables aleatorias, y podríamos hablar de su límite de
probabilidad usando la definición estándar dada en [7.1.2]. Si la secuencia de escalares
{𝑌𝑇 }𝑥𝑇=1 converge en probabilidad a cero, entonces decimos que la secuencia de funciones
𝑆𝑇 (∙) converge en probabilidad a 𝑉𝑇 (∙). Es decir, la expresión
𝑝
𝑆𝑇 (∙) → 𝑉𝑇 (∙).
significa que
𝑠𝑢𝑝 𝑝
𝑟 ∈ [0,1]|𝑆𝑇 (𝑟) − 𝑉𝑇 (𝑟)| → 0
Con esta definición, resulta (a) de Proposición 7.3 puede ser

generalizada para aplicar a las secuencias de funciones. Específicamente, si {𝑆𝑇 (∙)}𝑥𝑇=1 y
𝑝 𝑝
{𝑉𝑇 (∙)}𝑥𝑇=1 son secuencias de funciones continuas con 𝑉𝑇 (∙) → 𝑆𝑇 (∙) y 𝑆𝑇 (∙) → 𝑆 (∙) para 𝑆 (∙)
𝑝
una función continua, entonces 𝑉𝑇 (∙) → 𝑆 (∙) ; Véase, por ejemplo, Stinchcombe y White (1993).
Ejemplo 17.1
𝑝
Sea {𝑋𝑇 }𝑥𝑇=1 una secuencia de escalares aleatorios con 𝑋𝑇 → 0, y sea {𝑆𝑇 (∙)}𝑥𝑇=1 una
𝐿
secuencia de funciones continuas aleatorias, 𝑆𝑇 : 𝑟 ∈ [0, 1] → 𝑅1 con 𝑆𝑇 (∙) → 𝑆 (∙)
Entonces la secuencia de funciones {𝑉𝑇 (∙)}𝑥𝑇=1 definida por 𝑉𝑇 (𝑟) ≡ 𝑆𝑇 (𝑟) + 𝑋𝑇 tiene la
𝐿
propiedad 𝑉𝑇 (∙) → 𝑆𝑇 (∙). Para ver esto, tenga en cuenta que 𝑉𝑇 (𝑟) − 𝑆𝑇 (𝑟) = 𝑥𝑇 para
todos los r, por lo que
𝑠𝑢𝑝
𝑟 ∈ [0,1]|𝑆𝑇 (𝑟) − 𝑉𝑇 (𝑟)| = |𝑥𝑇 |
𝑝
que converge en probabilidad a cero. Por lo tanto,𝑉𝑇 (∙) → 𝑆𝑇 (∙), y por lo tanto 𝑉𝑇 (∙)
𝐿
→ 𝑆𝑇 (∙).
Ejemplo 17.2
Sea 𝜂𝑡 una serie temporal estrictamente estacionaria con un cuarto momento finito, y sea
1 𝑝
𝑆𝑇 (𝑟) = ( ) . 𝜂[𝑇𝑟]∗ . Entonces 𝑆𝑇 (∙) → 0. Para ver esto, tenga en cuenta que
√𝑇
𝑠𝑢𝑝
𝑝{ 𝑟𝜖|0.1||𝑆𝑇 (𝑟)| > 𝛿}
= 𝑃{[|(1/√𝑇). ƞ1 | > 𝛿] 𝑜𝑟 [|(1⁄√𝑇). ƞ2 | > 𝛿 𝑜 ….
|(1/√𝑇). ƞ𝑡 | > 𝛿]}
1
≤ 𝑇. 𝑃 {|( ) . ƞ𝑡 | > 𝛿]}
√𝑇
1 4
𝐸{( ).ƞ𝑡 }
√𝑇
≤ 𝑇. 𝛿4
𝐸(ƞ4𝑡 )
=. 𝑇𝛿 4

dónde la línea siguiente a la última parte de la desigualdad de Chebyshev. Dado que 𝐸(𝜂𝑡4 )
𝑝
es finito, esta probabilidad pasa a cero como 𝑇 → ∞, estableciendo que 𝑆𝑇 (∙) → 0, como
se reivindica.
Teorema de Mapeo Continuo

𝐿
En el Capítulo 7, Vimos que {𝑥𝑇 }𝑥𝑇=1 es una secuencia de variables aleatorias con 𝑋𝑇 → 𝑥 y
𝐿
si g: 𝑅1 → 𝑅1 es una función continua, entonces 𝑔(𝑥𝑇 ) → 𝑔(𝑥). Un resultado similar es válido
para secuencias de funciones aleatorias. Aquí, el análogo a la función 𝑔(∙) es un funcional continuo,
que podría asociar una variable aleatoria real y con la función estocástica 𝑆(∙). Por ejemplo, 𝑦 =
1 1
∫0 𝑆(𝑟)𝑑𝑟 y 𝑦 = ∫0 [𝑆(𝑟)]2 𝑑𝑟 representan funcionales continuos5. El teorema del mapeo
𝐿
continuo6 indica que si 𝑆𝑇 (∙) → 𝑆 (∙) y 𝑔(∙) es una función constante, entonces 𝑔(𝑆𝑇 (∙))
𝐿
→ 𝑔(𝑆 (∙)).
El teorema de mapeo continuo también se aplica a un 𝑔(∙) funcional continuo que mapea
una función limitada continua en [0,1] en otra función limitada en [0,1]. Por ejemplo, la función
cuyo valor en r es una constante positiva 𝜎 veces h(r) representa el resultado de aplicar el
funcionamiento continuo g[h(∙)] a h(∙)7. Así, se deduce de [17.3.6] que
𝐿
√𝑇 ∙ 𝑋𝑇 (∙) → 𝜎 ∙ 𝑊(∙) [17.3.8]
Recordando que 𝑤(𝑟)~𝑁(0, 𝑟), el resultado [17.3.8] implica que √𝑇 ∙ 𝑋𝑇 (𝑟) ≈ 𝑁(0, 𝜎 2 𝑟).
Como otro ejemplo, considere la función 𝑆𝑇 (∙) cuyo valor en r viene

dado por
2
𝑆𝑇 (𝑟) ≡ [√𝑇 ∙ 𝑋𝑇 (𝑟)] [17.3.9]
𝐿
Dado que √𝑇 ∙ 𝑋𝑇 (∙) → 𝜎 ∙ 𝑊(∙), resulta que
𝐿
𝑆𝑇 (∙) → 𝜎 2 [𝑊(∙)]2 [17.3.10]
En otras palabras, si el valor Wr de una realización del movimiento browniano estándar en cada
fecha r es cuadrado y luego multiplicado por 𝜎 2 , el proceso de tiempo continuo resultante seguirá
esencialmente la misma ley de probabilidad que el proceso de tiempo continuo definido por
𝑆𝑇 (𝑟)en [17.3.9] para T suficientemente grande.
Aplicaciones de procesos raíz unitaria
5 La continuidad de un 𝑔(∙) funcional en este contexto significa que para cualquier 𝜀 > 0 existe un 𝛿 > 0 tal que si ℎ(𝑟) y 𝑘(𝑟) son
funciones limitadas continuas en [0,1], ℎ: [0,1] → 𝑅1y 𝑘: [0,1] → 𝑅1 tales que 𝑘: [0,1] → 𝑅1 tal que |ℎ(𝑟) − 𝑘(𝑟)| < 𝛿 para todo 𝑟 ∈
[0,1], entonces
|𝑔[ℎ(∙)] − 𝑔[𝑘(∙)]| < 𝜀

6Ver, por ejemplo, el Teorema A.3 en la página 276 en Hall and Heyde (1980).
7 La continuidad de un 𝑔(∙) funcional en este contexto significa que para cualquier 𝜀 > 0 existe un 𝛿 > 0 tal que si ℎ(𝑟) y 𝑘(𝑟) son
funciones limitadas continuas en [0,1], ℎ: [0,1] → 𝑅1y 𝑘: [0,1] → 𝑅1 tales que |ℎ(𝑟) − 𝑘(𝑟)| < 𝛿 para todo 𝑟 ∈ [0,1], entonces
|𝑔[ℎ(𝑟)] − 𝑔[𝑘(𝑟)]| < 𝜀
Para todo 𝑟 ∈ [0,1].

El uso del teorema del límite central funcional para calcular la distribución asintótica de las
estadísticas construidas a partir de procesos de raíces unitarias fue iniciado por Phillips (1986,
1987)8.
La ilustración más simple del enfoque de Phillip es proporcionada por un tramo aleatorio,
𝑦𝑡 = 𝑦𝑡+1 + 𝜇𝑡 [17.3.11]
donde {𝜇𝑡 } es una secuencia i.i.d con media cero y varianza 𝜎 2 . Si 𝑦0 = 0, entonces [17.3.11]
implica que
𝑦𝑡 = 𝜇1 + 𝜇2 + ⋯ + 𝜇𝑡 [17.3.12]
La ecuación [17.3.11] se puede utilizar para expresar la función estocástica 𝑋𝑇 (𝑟) definida en
[17.3.3] como
0 𝑝𝑎𝑟𝑎 0 ≤ 𝑟 < 1/𝑇

𝑦1 /𝑇 𝑝𝑎𝑟𝑎 1/𝑇 ≤ 𝑟 < 2/𝑇
𝑋𝑇 (𝑟) = 𝑦2 /𝑇 𝑝𝑎𝑟𝑎 2𝑇 ≤ 𝑟 < 3𝑇
⋮ ⋮
{𝑦𝑇 /𝑇 𝑝𝑎𝑟𝑎 𝑟 = 1
[17.3.13]
La figura 17.1 representa 𝑋𝑇 (𝑟) en función de r. Tenga en cuenta que el área bajo esta función de
paso es la suma de rectángulos T. El t-ésimo rectángulo tiene anchura 1/T y altura 𝑌𝑇−1 /𝑇, y por lo
tanto tiene área 𝑌𝑇−1 /𝑇 2. La integral de 𝑋𝑇 (𝑟) es equivalente a
FIGURA 17.1 Gráfico de 𝑋𝑇 (𝑟) en función de r.

1 𝑌 𝑌 𝑌𝑇−1
∫0 𝑋𝑇 (𝑟)𝑑𝑟 = 𝑇12 + 𝑇22 + ⋯ + 𝑇2
[17.3.14]
Multiplicando ambos lados de [17.3.14] √𝑇 establece que

1
∫0 𝑋𝑇 (𝑟)𝑑𝑟 = 𝑇 −3/2 ∑𝑇𝑡−1 𝑦𝑡−1 [17.3.15]
Pero sabemos por [17.3.8] y el teorema de la cartografía continua que como 𝑇 → ∞,
8 Resultado [17.4.7] en la siguiente sección para el caso con errores i.i.d. se derivaron primero por White (1958). Phillips (1986, 1987)
desarrolló la derivación general presentada aquí basada en el teorema del límite central funcional y el teorema de la cartografía continua.
Otras contribuciones importantes son Dickey y Fuller (1979), Chan y Wei (1988), Park y Phillips (1988, 1989), Sims, Stocks y Watson
(1990). Y Phillips y Solo (1992).

1 𝐿 1
∫0 𝑋𝑇 (𝑟)𝑑𝑟 → 𝜎 ∙ ∫0 𝑊𝑇 (𝑟)𝑑𝑟
implicando de [17.3.15] que

𝐿 1
𝑇 −3/2 ∑𝑇𝑡−1 𝑦𝑡−1 → 𝜎 ∙ ∫0 𝑊𝑇 (𝑟)𝑑𝑟 [17.3.16]
También es instructivo derivar [17.3.16] de los primeros principios. De

[17.3.12], podemos escribir
𝑇 −3/2 ∑𝑇𝑡=1 𝑦𝑡−1 = 𝑇 −3/2 [𝑢1 + (𝑢1 + 𝑢2 ) + (𝑢1 + 𝑢2 + 𝑢3 )+ . . . . . . . .. + (𝑢1 + 𝑢2 +

𝑢3 +. . . . +𝑢 𝑇−1 )]
𝑇 −3/2 [(𝑇 − 1)𝑢1 + (𝑇 − 2)𝑢2 + (𝑇 − 3)𝑢3 . . . . . . . .. +[𝑇 − (𝑇 − 1)]𝑢 𝑇−1 ]
= 𝑇 −3/2 ∑𝑇𝑡−1(𝑇 − 𝑡)𝑢𝑡
= 𝑇 −1/2 ∑𝑇𝑡−1 𝑢𝑡 − 𝑇 −3/2 ∑𝑇𝑡−1 𝑡 𝑢𝑡

[17.3.17]
Recordar de [16.1.24]
1
𝑇 −1/2 ∑𝑇 𝜇𝑡 𝐿 0 1
[ −3/2 𝑡−1 ] → 𝑁 ([ ] , 𝜎 2 1
[ 2
1])
𝑇 ∑𝑇𝑡−1 𝜇𝑡 0 2
3
[17.3.18]
Así, [17.3.17] implica que 𝑇 −3/2 ∑𝑇𝑡−1 𝑦𝑡−1 es asintóticamente gaussiana con media cero y varianza
igual a
𝜎2
𝜎 2 {1 − 2 ∙ (1/2) + 1/3} =
3
1
Evidentemente, 𝜎 ∫0 𝑊(𝑟)𝑑𝑟 en [17.3.16] describe una variable aleatoria que tiene una distribución
0𝜎 2
𝑁( 3
)
Por lo tanto, si y es una caminata aleatoria sin deriva, la media de la

muestra 𝑇 −1 ∑𝑇𝑡=1 𝑦𝑡 diverge pero 𝑇 −3/2 ∑𝑇𝑡=1 𝑦𝑡 converge a una variable aleatoria gaussiana cuya
distribución puede ser descrita como la integral de la realización del movimiento browniano con
varianza 𝜎 2 .
La expresión [17.3.17] también nos da una manera de describir la distribución asintótica de

𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡 en términos de funcionales sobre el movimiento browniano:
𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡 = 𝑇 −1/2 ∑𝑇𝑡=1 𝑢𝑡 − 𝑇 −3/2 ∑𝑇𝑡=1 𝑦𝑡−1

𝐿 1
→ 𝜎 ∙ 𝑊(1) − 𝜎 ∙ ∫0 𝑊(𝑟)𝑑𝑟
[17.3.19]
Con la última línea que sigue de [17.3.7] y [17.3.16]. Recordando [17.3.18], la variable aleatoria en el
𝜎2
lado derecho de [17.3.19] evidentemente tiene una distribución 𝑁(0, 3
).

Un argumento similar al de [17.3.15] se puede utilizar para describir la distribución
asintótica de la suma de los cuadrados de una caminata aleatoria. La estadística 𝑆𝑇 (𝑟) definida en
[17.3.9].
𝑆𝑇 (𝑟) ≡ 𝑇 ∙ [𝑋𝑇 (𝑟)]2 , [17.3.20]
puede ser escrita usando [17.3.13] como

0 𝑝𝑎𝑟𝑎 0 ≤ 𝑟 < 1/𝑇
𝑦12 /𝑇 𝑝𝑎𝑟𝑎 1/𝑇 ≤ 𝑟 < 2/𝑇
𝑆𝑇 (𝑟) = 𝑦22 /𝑇 𝑝𝑎𝑟𝑎 2𝑇 ≤ 𝑟 < 3𝑇
⋮ ⋮
2 𝑝𝑎𝑟𝑎 𝑟 = 1
{𝑦𝑇 /𝑇
[17.3.21]
Se tiene que
1 𝑦12 𝑦22 2
∫0 𝑆𝑇 (𝑟)𝑑𝑟 = 𝑇
+ 𝑇
+ ⋯ + 𝑦𝑇−1 /𝑇 2
Así, a partir de [17.3.10] y el teorema de mapeo continuo,

𝐿 1
𝑇 −2 ∑𝑇𝑡=1 𝑦𝑡−1
2
→ 𝜎 2 ∙ ∫0 [𝑊(𝑟)]2 𝑑𝑟 [17.3.22]
Dos otros resultados útiles son

𝑡 𝐿 1
𝑇 −5/2 ∑𝑇𝑡=1 𝑡𝑦𝑡−1 = 𝑇 −3/2 ∑𝑇𝑡=1 (𝑇) 𝑦𝑡−1 → 𝜎 ∙ ∫0 𝑟𝑊(𝑟)𝑑𝑟 [17.3.23]
Para 𝑟 = 𝑡/𝑇 y
𝑡 𝐿 1
𝑇 −3 ∑𝑇𝑡=1 𝑡𝑦 2 𝑡−1 = 𝑇 −2 ∑𝑇𝑡=1 (𝑇) 𝑦 2 → 𝜎 2 ∙ ∫0 𝑟 ∙ [𝑊(𝑟)]2 𝑑𝑟 [17.3.24]
𝑡−1
Como otra aplicación útil, considere la estadística en [17.1.11]:

1 1 1 1
𝑇 −1 ∑𝑇𝑡=1 𝑦 𝑡−1 𝑢𝑡 = (2) ∙ (𝑇) 𝑦𝑇2 − (2) ∙ (𝑇) ∑𝑇𝑡=1 𝑢𝑡2
Recordando [17.3.21], esto puede escribirse

1 1 1
𝑇 −1 ∑𝑇𝑡=1 𝑦 𝑡−1 𝑢𝑡 = (2) ∙ 𝑆𝑇 (1) − (2) ∙ (𝑇) ∑𝑇𝑡=1 𝑢𝑡2 [17.3.25]
𝑃 𝐿
Pero (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡2 → 𝜎 2 , por la ley de grandes números, y 𝑆𝑇 (1) → 𝜎 2 [𝑊(1)]2 , por [17.3.10].
De aquí se desprende de [17.3.25] que
𝐿 1
𝑇 −1 ∑𝑇𝑡=1 𝑦 𝑡−1 𝑢𝑡 → (2) 𝜎 2 [𝑊(1)]2 − (1/2)𝜎 2 [17.3.26]
Recordemos que W (1), el valor del movimiento browniano estándar en la fecha r=1, tiene una
distribución N (0,1), lo que significa que [𝑊(1)]2 tiene una distribución 𝑥 2 (1). El resultado
[17.3.26] es, por tanto, sólo otra forma de expresar el resultado anterior [17.1.15] utilizando un
funcional sobre el movimiento browniano en lugar de la distribución 𝑥 2 .

17.4. Propiedades asintóticas de una Autoregresión de Primer
orden cuando el coeficiente verdadero es la unidad
Ahora estamos en una posición para calcular la distribución asintótica de algunas regresiones
simples que implican raíces unitarias. Por conveniencia, los resultados de la Sección 17.3 se recogen
en forma de preposición.
Proposición 17.1: Supongamos que 𝜉𝑡 sigue un tramo aleatorio sin deriva,
𝜉𝑡 = 𝜉𝑡−1 + 𝑢𝑡
Donde 𝜉0 y {𝑢𝑡 } es un i.i.d. Secuencia con media cero y varianza 𝜎 2 . Entonces

𝐿
(𝑎) 𝑇 −1/2 ∑𝑇𝑡=1 𝑢𝑡 → 𝜎. 𝑊(1) [17.3.7];
𝐿
(𝑏) 𝑇 −1 ∑𝑇𝑡=1 𝜉𝑡−1 𝑢𝑡 → (1⁄2) 𝜎 2 . {[𝑊(1)]2 − 1} [17.3.26];
𝐿 𝑡
(𝑐) 𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡 → 𝜎. 𝑊(1) − 𝜎. ∫0 𝑊(𝑟)𝑑𝑟 [17.3.19];
𝐿 𝑡
(𝑑) 𝑇 −3/2 ∑𝑇𝑡=1 𝜉𝑡−1 → 𝜎. ∫0 𝑊(𝑟)𝑑𝑟 [17.3.16];
𝐿 𝑡
(𝑒) 𝑇 −2 ∑𝑇𝑡=1 𝜉𝑡−1 → 𝜎 2 . ∫0 [𝑊(𝑟)]2 𝑑𝑟 [17.3.22];
𝐿 𝑡
(𝑓) 𝑇 −5/2 ∑𝑇𝑡=1 𝑡𝜉𝑡−1 → 𝜎. ∫0 𝑟𝑊(𝑟)𝑑𝑟 [17.3.23];
𝐿 𝑡
(𝑔) 𝑇 −3 ∑𝑇𝑡=1 𝑡𝜉𝑡−1 → 𝜎 2 . ∫0 𝑟[𝑊(𝑟)]2 𝑑𝑟 [17.3.24];
(ℎ) 𝑇 −(𝑣+1) ∑𝑇𝑡=1 𝑡𝑣 → 1/(𝑣 + 1) 𝑝𝑎𝑟𝑎 𝑣 = 0,1, . . . .. [16.1.15].
Las expresiones entre paréntesis indican dónde se derivó anteriormente el resultado

indicado. Aunque las derivaciones anteriores suponían que el valor inicial 𝜉0 era igual a cero, los
mismos resultados se obtienen cuando 𝜉0 es un valor fijo o se extrae de una distribución
especificada como en Phillips (1987).
Las distribuciones asintóticas de la proposición 17.1 están escritas en términos si

funcionales en el movimiento Browniano estándar, denotado W(r). Obsérvese que este es el mismo
movimiento browniano W(r) en cada resultado (a) a (g), de modo que en general las magnitudes de
la Proposición 17.1 están correlacionadas. Si no estamos interesados en capturar estas correlaciones,
entonces hay maneras más simples de describir las distribuciones asintóticas. Por ejemplo, hemos
1
visto que (a) es sólo una distribución 𝑁(0, 𝜎 2 ), (b) es ( ) 𝜎 2 ∙ [𝑥 2 (1) − 1], y (c) y (d) son
2
𝑁(0,𝜎 2 /3). El ejercicio 17.1 da un ejemplo de una aproximación para calcular las covarianzas entre
las variables aleatorias descritas por estos funcionales sobre el movimiento browniano.
La preposición 17.1 puede utilizarse para calcular las distribuciones asintóticas de las
estadísticas a partir de un número de regresiones simples que implican raíces unitarias. En esta
sección se trataron varios casos clave.

Caso 1. Ningún Término Constante o Tiempo Tendencia en la regresión;
El proceso verdadero es un Tramo Aleatorio
Considere la primera estimación de MCO de p basada en una regresión AR (1),
𝑦𝑡 = 𝑝𝑦𝑡 + 𝑢𝑡 [17.4.1]
dónde 𝑢𝑡 es i.i.d. con media cero y varianza 𝜎 2 . Estamos interesados en las propiedades de la
estimación MCO.
∑𝑇
𝑡=1 𝑦𝑡−1 𝑦𝑡
𝑝̂ 𝑇 = ∑𝑇 2 [17.4.2]
𝑡=1 𝑦𝑡−1
cuándo el valor verdadero de p es unidad. De [17.1.6], la desviación de la estimación MCO

del valor verdadero se caracteriza por
𝑇 −1 ∑𝑇
𝑡=1 𝑦𝑡−1 𝑢𝑡
𝑇(𝑝̂ 𝑇 − 1) = [17.4.3]
𝑇 −2 ∑𝑇 2
𝑡=1 𝑦𝑡−1
Si el verdadero valor de p es la unidad, entonces
𝑦𝑡 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢1 . [17.4.4]
Aparte del término inicial 𝑦0 (que no afecta a ninguna de las distribuciones asintóticas), la
variable 𝑦𝑡 es igual a la cantidad etiquetada 𝜉𝑡 en la Proposición 17.1. Del resultado (b) de esa
proposición,
𝐿
𝑇 −1 ∑𝑇𝑡=1 𝑦 𝑡−1 𝑢𝑡 → (1/2)𝜎 2 [𝑊(1)]2 − 1 [17.4.5]
Mientras que del resultado (e),

𝐿 1
𝑇 −1 ∑𝑇𝑡=1 𝑦 2 𝑡−1 → 𝜎 2 ∫0 [𝑊(𝑟)]2 𝑑𝑟 [17.4.6]
Dado que [17.4.3] es una función continua de [17.4.5] y [17.4.6], se deduce de la Proposición 7.3 (c)
que bajo la hipótesis nula de que p=1, la estimación MCO 𝑝̂ 𝑇 se caracteriza por
1
𝐿 ( ){[𝑊(1)]2 −1}
2
𝑇(𝑝̂ 𝑇 − 1) → 1 [17.4.7]
∫0 [𝑊(1)]2 𝑑𝑟
Recuerde que [𝑊(1)]2 es una variable 𝑥 2 (1). La probabilidad de que una variable 𝑥 2 (1)
sea menor que la unidad es 0.68, y como el denominador de [17.4.7] debe ser positivo, la
probabilidad de que 𝑝̂ 𝑇 − 1 sea negativa se acerca a 0.68 cuando T se hace grande. En otras
palabras, en dos tercios de las muestras generadas por una caminata aleatoria, la estimación 𝑝̂ 𝑇 será
menor que el valor verdadero de la unidad. Además, en las muestras para las que [𝑊(1)]2 es
grande, el denominador de [17.4.7] también será grande. El resultado es que la distribución límite de
𝑇(𝑝̂ 𝑇 − 1) está sesgada a la izquierda.
Recuérdese que en el caso estacionario |𝑝| < 1, la estimación 𝑝̂ 𝑇 está inclinada hacia abajo
en muestras pequeñas. Aun así, en el caso estacionario la distribución limitante de √𝑇(𝑝̂ 𝑇 − 𝑝) es
simétrica alrededor de cero. Por el contrario, cuando el valor verdadero de 𝑝 es unidad, incluso la
distribución limitante de 𝑇(𝑝̂ 𝑇 − 1) es asimétrica, con valores negativos dos veces como valores
positivos.
17.4 Propiedades asintóticas de una Autoregresión de Primer orden cuando el coeficiente

verdadero es la unidad 509
En la práctica, los valores críticos para la variable aleatoria en [17.4.7] se encuentran
calculando la distribución exacta de muestras pequeñas de 𝑇(𝑝̂ 𝑇 − 1) para T dado, suponiendo
que las innovaciones {𝑢𝑡 } son gaussianas. Esto puede hacerse usando procedimientos numéricos
exactos descritos en Evans y Savin (1981). Los percentiles de la muestra para 𝑇(𝑝̂ 𝑇 − 1) se
informan en la sección etiquetada como Caso 1 en la Tabla B.5 del Apéndice B. Para el T finito,
éstos son exactos sólo bajo el supuesto de innovaciones gaussianas. A medida que T se hace grande,
estos valores también describen la distribución asintótica para innovaciones no gaussianas.
Se deduce de [17.4.7] que 𝑝̂ 𝑇 es una estimación supersonsistent del verdadero valor (p=1).
Esto se ve fácilmente dividiendo [17.4.3] por √𝑇:
𝑇 −3/2 ∑𝑇𝑡=1 𝑦𝑡−1 𝑢𝑡
√𝑇(𝑝̂ 𝑇 − 1) = 𝑇 −2 ∑𝑇 2 [17.4.8]
𝑡=1 𝑦𝑡−1
De la Proposición 17.1 (b), el numerador en [17.4.8] converge a 𝑇 −1/2 (1/2)𝜎 2 veces (X-1), donde
X es una variable aleatoria 𝑥 2 (1). Dado que una variable 𝑥 2 (1) tiene una varianza finita, la
varianza del numerador en [17.4.8] es de orden 1/T, lo que significa que el numerador converge en
probabilidad a cero. Por lo tanto,
𝑝
√𝑇(𝑝̂ 𝑇 − 1) → 0
El resultado [17.4.7] permite que la estimación puntual 𝑝̂ 𝑇 sea utilizada por sí misma para
probar la hipótesis nula de una raíz unitaria, sin necesidad de calcular su error estándar. Otra
estadística popular para probar la hipótesis nula de que p=1 se basa en la prueba de MCO t usual de
esta hipótesis,
(𝑝̂𝑇 −1) (𝑝̂𝑇 −1)
𝑡= ̂𝑝𝑡
𝜎
= 1/2 [17.4.9]
{𝑆𝑇2 ÷∑𝑇 2
𝑡=1 𝑦𝑡−1 }
Donde 𝜎̂𝑝𝑡 es el error estándar del MCO habitual para el coeficiente estimado,
𝜎̂𝑝𝑡 = {𝑆𝑇2 ÷ ∑𝑇𝑡=1 𝑦𝑡−1

2 }1/2
y 𝑆𝑇2 denota la estimación MCO de la varianza residual:
𝑆𝑇2 = ∑𝑇𝑡=1(𝑦𝑡 − 𝑝̂ 𝑇 𝑦𝑡−1 )2 /(𝑇 − 1)

Aunque el estadístico t [17.4.9] se calcula de la manera habitual, no tiene una distribución gaussiana
limitante cuando el proceso verdadero se caracteriza por P=1. Para encontrar la distribución límite
apropiada, observe que [17.4.9] puede expresarse de manera equivalente como
𝑡𝑇 = 𝑇(𝑝̂ 𝑇 − 1){𝑇 −2 ∑𝑇𝑡=1 𝑦𝑡−1

2 }1/2
÷ {𝑆𝑇2 }1/2 [17.4.10]
o, sustituyendo de [17.4.3],
𝑇 −1 ∑𝑇
𝑡=1 𝑦𝑡−1 𝑢𝑡
𝑡𝑇 = 𝑇 2 }1/2 {𝑆 2 }1/2
[17.4.11]
−2
{𝑇 ∑𝑡=1 𝑦𝑡−1 𝑇
𝑝
Como en la sección 8.2, consistentemente de 𝑝̂ 𝑇 implica 𝑆𝑇2 → 𝜎 2 . Se deduce de [17.4.5] y [17.4.6]
que como 𝑇 → ∞,
𝐿 (1/2)𝜎2 {[𝑊(1)]2 −1} (1/2){[𝑊(1)]2 −1}

𝑡𝑇 → 1 1/2 = 1 1/2 [17.4.12]
{𝜎 2 ∫0 [𝑊(1)]2 𝑑𝑟} {𝜎 2 }1/2 {∫0 [𝑊(1)]2 𝑑𝑟}

Los cuadros estadísticos para la distribución de [17.4.11] para diversos tamaños de muestra T se
informan en la sección denominada Caso 1 en la Tabla B.6; de nuevo, los resultados de la pequeña
muestra asumen innovaciones gaussianas.
Ejemplo 17.3
El siguiente proceso AR (1) para la tasa nominal de tres meses del Tesoro estadounidense
fue ajustado por la regresión de la MCO a los datos trimestrales, 𝑡 = 1947: 𝐼𝐼 a 𝑡 =
1998: 𝐼:
0.99694 𝑖𝑡−1
𝑖= [17.4.13]
(0.010592)
Con el error estándar de 𝑝̂ entre paréntesis. Aquí T=168 y
𝑇(𝑝̂ 𝑇 − 1) = (168)(0.99694 − 1) = −0.51

La distribución de esta estadística se calculó en [17.4.7] bajo la suposición de que el
verdadero valor de p es la unidad. La hipótesis nula es, por tanto, que p=1, y la alternativa
es que 𝑝 < 1 De la Tabla B.5, en una muestra de este tamaño, el 95% del tiempo cuando
realmente existe una raíz unitaria, la estadística 𝑇(𝑝̂ 𝑇 − 1) estará por encima de -7.9. El
valor observado (-0.51) está muy por encima de esto, por lo que la hipótesis nula se acepta
al nivel del 5% y debemos concluir que estos datos podrían describirse bien mediante una
caminata aleatoria.
Para rechazar la hipótesis nula para una muestra de este tamaño. El

coeficiente autorregresivo estimado 𝑝̂ tendría que ser menor que 0.95:
168(0.95 − 1) = −8.4
La prueba t MCO de 𝐻0 : 𝑝 = 1 es
𝑡 = (0.99694 − 1)/0.0010592 = −0.29

Esto está muy por encima del valor crítico del 5% de la Tabla B.6 de -1.95, por lo que la
hipótesis nula de que la tasa de la cuenta del Tesoro sigue un paseo al azar también es
aceptada por esta prueba.
Las pruebas estadísticas [17.4.17] y [17.4.12] son ejemplos de la prueba Dickey-Fuller para
las raíces unitarias, llamada así por la batería generada de pruebas propuesta por Dickey y
Fuller (1979).
Caso 2. Término Constante pero no hay Tendencia Temporal incluida en

la Regresión; el Proceso Verdadero es un Tramo Aleatorio
Para el caso 2, continuamos asumiendo, como en el caso 1, que los datos son generados
por un tramo aleatorio:
𝑦𝑡 = 𝑦𝑡−1 + 𝑢𝑡
Con 𝑢𝑡 i.i.d. Con media cero y varianza 𝜎 2 . Aunque el modelo verdadero es el mismo que en el
caso 1, supongamos ahora que un término constante está incluido en la especificación AR (1) que
debe ser estimada por el MCO:
𝑦𝑡 = 𝛼 + 𝑝𝑦𝑡−1 + 𝑢𝑡 [17.4.14]

La tarea ahora es describir las propiedades de las estimaciones de MCO,
𝛼̂ 𝑇 ∑ 𝑦𝑡−1 −1 ∑ 𝑦𝑡
[ 𝑇] = [ 2 ] [ ] [17.4.15]
𝑝̂ 𝑇 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 𝑦𝑡
Bajo la hipótesis nula de que 𝛼 = 0 y p=1 (aquí ∑ indica sumación sobre 𝑡 = 1, 2, … , 𝑇) Recuerde
la caracterización conocida en [8.2.3] de la desviación de un coeficiente de coeficiente MCO (𝑏𝑇 )
estimado del valor verdadero (𝛽 ),
𝑏𝑇 − 𝛽 = [∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 ]−1 [∑𝑇𝑡=1 𝑋𝑡 𝑢𝑡 ] [17.4.16]
o, en este caso,
̂𝑡
𝛼 𝑇 ∑ 𝑦𝑡−1 −1 ∑ 𝑢𝑡
[ ]=[ 2 ] [ ] [17.4.17]
𝑝̂ 𝑇 − 1 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 𝑢𝑡
Como en el caso 1, 𝑦𝑡 tiene las mismas propiedades que la variable 𝜉𝑡 descrita en la

Proposición 17.1 bajo la hipótesis mantenida. Así, el resultado (d) de esa proposición establece que
la suma ∑ 𝑦𝑡−1 debe dividirse por 𝑇 3/2 antes de obtener una variable aleatoria que converge en la
distribución:
1
𝑇 −3/2 ∑ 𝑦𝑡−1 𝐿𝜎 ∙ ∫0 𝑊(𝑟)𝑑𝑟 [17.4.18]
En otras palabras,
∑ 𝑦𝑡−1 = 𝑂𝑝 (𝑇 −3/2 )
Similarmente, los resultados [17.4.5] y [17.4.6] establecen que
∑ 𝑦𝑡−1 𝑢𝑡 = 𝑂𝑝 (𝑇 )
2
∑ 𝑦𝑡−1 = 𝑂𝑝 (𝑇 2 )
y de la proposición 17.1(a),
∑ 𝑢𝑡 = 𝑂𝑝 (𝑇 1/2 )
Por lo tanto, el orden en la probabilidad de los términos individuales en [17.4.17] es el siguiente:

−1
̂𝑡
𝛼 𝑂𝑝 (𝑇) 𝑂𝑝 (𝑇 3/2 ) 𝑂 (𝑇 1/2 )
[ ]=[ ] [ 𝑝 ]. [17.4.19]
𝑝̂ 𝑇 − 1 𝑂𝑝 (𝑇 3/2 ) 𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 )
Está claro que a partir de [17.4.19] las estimaciones 𝛼̂𝑡 y 𝑝̂𝑡 tienen diferentes tasas de
convergencia, y como en el capítulo anterior, una matriz de escala 𝑦𝑇 es útil para describir su
distribución limitante. Recordemos de [16.1.18] que esta reescalonamiento se logra multiplicando
[17.4.16] por 𝑦𝑇 y escribiendo el resultado como
𝑦𝑇 (𝑏𝑇 − 𝛽) = 𝑦𝑇 [∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 ]−1 𝑦𝑇 𝑦𝑇−1 [∑𝑇𝑡=1 𝑋𝑡 𝑢𝑡 ]
= {𝑦𝑇−1 [∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 ] 𝑦𝑇−1 }−1 {𝑦𝑇−1 [∑𝑇𝑡=1 𝑋𝑡 𝑢𝑡 ]}. [17.4.20]
De [17.4.19], para esta aplicación 𝑦𝑇 debería especificarse para estar en la siguiente matriz:
1/2
𝑦𝑇 ≡ [𝑇 0] [17.4.21]
0 𝑇

para la cual [17.4.20] se convierte
1 1 1 −1
∑ 𝑦𝑡−1
[𝑇 2 0 ] [ 𝛼̂ 𝑇 ] = {[𝑇 −2 0 ] [ 𝑇 ] [𝑇 −2 0 ]}
2
0 𝑇 𝜌̂𝑇 − 1 0 𝑇 −1 ∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 0 𝑇 −1
𝑥 {{[𝑇
−1/2
0 ] [ ∑ 𝑢𝑡 ]}
0 𝑇 −1 ∑ 𝑦𝑡−1 𝑢𝑡
o
−1
𝑇 1/2 𝛼̂ 𝑇 1 𝑇 −3/2 ∑ 𝑦𝑡−1 𝑇 −1/2 ∑ 𝑢𝑡
[ ] = [ −3/2 ] [ −1 ]. [17.4.22]
𝑇(𝜌̂𝑇 − 1) 𝑇 ∑ 𝑦𝑡−1 2
𝑇 −2 ∑ 𝑦𝑡−1 𝑇 ∑ 𝑦𝑡−1 𝑢𝑡
Considera el primer término al lado derecho de [17.4.22]. Los resultados de [17.4.6] y

[17.4.8] establece que
3
1 𝑇 −2 ∑ 𝑦𝑡−1
[ 3 ]
𝑇 −2 ∑ 𝑦𝑡−1 2
𝑇 −2 ∑ 𝑦𝑡−1
𝐿 1 𝜎. ∫ 𝑤(𝑟)𝑑𝑟 1 0 1 ∫ 𝑤(𝑟)𝑑𝑟 1 0
→[ ]=[ ][ ][ ]
𝜎. ∫ 𝑤(𝑟)𝑑𝑟 𝜎 . ∫[𝑤(𝑟)]2 𝑑𝑟
2 0 𝜎 ∫ 𝑤(𝑟)𝑑𝑟 ∫[𝑤(𝑟)]2 𝑑𝑟 0 𝜎
[17.4.23]
Donde el signo integral denota la integración sobre r de 0 a 1. Del mismo modo, el resultado (a) de
la Proposición 17.1 junto con [17.4.5] determina la distribución asintótica del segundo término en
[17.4.22]
𝑇 −1/2 ∑ 𝑢𝑡 𝐿 𝜎 ∙ 𝑊(1)
[ −1 ]→[ ]
𝑇 ∑ 𝑦𝑡−1 𝑢𝑡 1/2𝜎 {[𝑊(1)]2 − 1}
2
1 0 𝑊(1)
=[ ][ ]. [17.4.24]
0 𝜎 1/2{[𝑊(1)]2 − 1}
Sustituyendo [17.4.23] y [17.4.24] in [17.4.22] establece
1 −1
𝐿 1 0 −1 1 ∫ 𝑊(𝑟)𝑑𝑟
[ 𝑇 𝛼̂ 𝑇 ] → 𝜎. [
2
] [ ]
𝑇(𝜌̂𝑇 − 1) 0 𝜎 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟
1 0 −1 1 0 𝑊(1)
𝑥 [ ] [ ][ ]
0 𝜎 0 𝜎 (1⁄2){[𝑊(1)]2 − 1}
−1
𝜎 0 1 ∫ 𝑊(𝑟)𝑑𝑟 0 𝑊(1)
=[ ][ ] 𝑥 [ ]
0 1 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 (1 2){[𝑊(1)]2 − 1}
⁄
[17.4.25]
Nótese que
−1
1 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 − ∫ 𝑊(𝑟)𝑑𝑟
−1
[ ] =∆ [ ],
2
∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)] 𝑑𝑟 − ∫ 𝑊(𝑟)𝑑𝑟 1
[17.4.26]

dónde
∆≡ ∫[𝑊(𝑟)]2 𝑑𝑟 − [∫ 𝑊(𝑟)𝑑𝑟]2 [17.4.27]
Así, el segundo elemento en la expresión vectorial en [17.4.25] establece que

𝐿 1/2{[𝑊(1)]2 −1}−𝑊(1)∙∫ 𝑊(𝑟)𝑑𝑟
𝑇(𝑝̂ 𝑇 − 1) → [17.4.28]
∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2
Ninguna de las estimaciones 𝛼̂ 𝑇 ni 𝑝̂ 𝑇 tiene una distribución gaussiana limitante. Por otra
parte, la distribución asintótica de la estimación de p en [17.4.28] no es lo mismo que la distribución
asintótica en [17.4.7] - cuando un término constante se incluye en la distribución, una tabla
diferente de valores críticos debe ser utilizada.
La segunda sección de la Tabla B.5 registra percentiles para la distribución de 𝑇(𝑝̂ 𝑇 − 1)

para el caso 2. Como en el caso 1, los cálculos asumen innovaciones gaussianas, aunque a medida
que T se hace grande, éstas son válidas también para innovaciones no gaussianas.
Obsérvese que esta distribución es aún más fuertemente sesgada que la del caso 1, de modo que
cuando se incluye un término constante en la regresión, el coeficiente estimado en 𝑦𝑡−1 debe estar
más alejado de la unidad para rechazar la hipótesis nula de una raíz unitaria. De hecho, para 𝑇 >
25, el 95% del tiempo el valor estimado 𝑝̂ 𝑇 será menor que la unidad. Por ejemplo, si el valor
estimado 𝑝̂ 𝑇 es 0.999 ins una muestra de tamaño T = 100, la hipótesis nula de P=1 sería rechazada
en el sentido de la alternativa que 𝑝 > 1!, Si el verdadero valor de p es unidad, no esperamos
obtener una Estimación tan grande como 0.999.
Dickey y Fuller también propusieron una prueba alternativa basada en la prueba t de MCO
de la hipótesis nula de que p=1:
𝑝̂𝑇 −1
𝑡𝑇 = ̂𝑝
[17.4.29]
𝜎 ̂
𝑇
dónde
𝑇 ∑ 𝑦𝑡−1 −1 0
̂𝜎𝑝2̂𝑟 = 𝑆𝑇2 [0 1] [ 2 ] [ ]
∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 1
𝑆𝑇2 = (𝑇 − 2)−1 ∑(𝑦𝑡 − 𝛼̂ 𝑇 − 𝑝̂ 𝑇 𝑦𝑡 − 1)2 [17.4.30]
Observe que si ambos lados de [17.4.30] se multiplican por 𝑇 2 , el resultado se puede escribir como
𝑇 ∑ 𝑦𝑡−1 −1 0
𝑇 2 𝜎̂𝑝2̂𝑟 = 𝑆𝑇2 [0 𝑇] [ 2 ] [ ]
∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 1
𝑇 ∑ 𝑦𝑡−1 −1 0
= 𝑆𝑇2 [0 𝑇]𝑌𝑡 [ 2 ] 𝑌𝑡 [ ] [17.4.31]
∑ 𝑦𝑡−1 ∑ 𝑦𝑡−1 1
por 𝑌𝑡 la matriz en [17.4.21]. Recordemos de [17.4.23] que
𝑇 ∑ 𝑦𝑡 − 1 −1
𝑌𝑇 [ ] 𝑇𝑇
∑ 𝑡 − 1 ∑ 𝑦2 − 1
𝑇 ∑ 𝑦𝑡 − 1 −1 −1
= {𝑌𝑇−1 [ ]𝑌 }
∑𝑡 −1 ∑ 𝑦2 − 1 𝑇

−1
1 𝑇 −3⁄2 ∑ 𝑦𝑡 − 1
= [ −3⁄2 ]
𝑇 ∑ 𝑡 − 1 𝑇 −2 ∑ 𝑦 2 − 1
−1
1 0 −1 1 ∫ 𝑊(𝑟)𝑑𝑟 1 0 −1
→[ ] [ ] [ ] . [17.4.32]
0 𝜎 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 0 𝜎
Por lo tanto, de [17.4.31],

−1
𝑃 1 ∫ 𝑊(𝑟)𝑑𝑟 0
𝑇 2 𝜎̂𝑝2̂𝑟 → 𝑆𝑇2 [0 𝜎 −1 ]
[ ] [ −1 ]. [17.4.33]
∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 𝜎
También es fácil demostrar que

𝑃
𝑆𝑇2 → 𝜎 2 [17.4.34]
del cuál [17.4.33] se convierte en

−1
𝐿 1 ∫ 𝑊(𝑟)𝑑𝑟 0
𝑇 2 𝜎̂𝑝2̂𝑟 → [0 1] [ ] [ ]
∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 1
1
= 2
[17.4.35]
∫ [𝑊(𝑟)] 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2
Por lo tanto, la distribución asintótica de la prueba t MCO en [17.4.29] es
𝑇(𝜌̂𝑇 −1) 𝜌
𝑡𝑇 = 1⁄2 → 𝑇(𝜌̂𝑇 − 1)×{∫[𝑊(𝑟)]2 𝑑𝑟 − [∫ 𝑊(𝑟)𝑑𝑟]2 }1⁄2
̂𝜌2̂ }
{𝑇 2 𝜎
𝑇
1
𝐿 {[𝑊(1)]2 −1}−𝑊(1).∫ 𝑊(𝑟)𝑑𝑟
→ 2
{∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 }1⁄2
[17.4.36]
Los percentiles de muestra para la prueba t de OLS de P=1 se informan para el caso 2 en la
segunda sección de la Tabla B.6. A medida que T crece, estos se aproximan a la distribución en la
última línea de [17.4.36].
Ejemplo 17.4
Cuando se incluye un término constante en la autorregresión estimada para los datos de

tipos de interés del Ejemplo 17.3, el resultado es
0.211 0.96691
𝑖 = (0.112) + (0.019133) 𝑖𝑡−1 [17.4.37]
Con los errores estándar informados entre paréntesis. La prueba Dickey-Fuller basada en el
valor estimado de 𝜌 para esta especificación es

𝑇(𝑝̂ − 1) = (168)(0.96691 − 1) = −5.56
A partir de la Tabla B.5, el valor crítico del 5% se encuentra por interpolación en -13,8.
Desde −5.56 > −13.8, la hipótesis nula de una raíz unitaria (p=1) se acepta al nivel del
5% basado en la prueba Dickey-Fuller 𝑝̂ . La estadística MCO t es
(0.96691 − 1)/0.019133 = −1.73
el cual de la tabla B.6 debe compararse con -2.89. Desde −1.73 > −2.89, la hipótesis nula
de una raíz unitaria es de nuevo aceptada.
Estas estadísticas prueban la hipótesis nula de que p=1. Sin embargo, una hipótesis
mantenida en la que se basa la derivación de [17.4.25] es que el valor verdadero de 𝛼 es cero. Por lo
tanto, podría parecer más natural para probar una raíz unitaria en esta especificación mediante la
prueba de la hipótesis conjunta que 𝛼 = 0 y 𝑝 = 1. Dickey y Fuller utilizaron Monte Carlo para
calcular la distribución de la forma Wald del test MCO F de esta hipótesis (expresión [8.1.23] o
[8.1.37]). Sus valores se indican en el epígrafe "Caso 2" de la Tabla B.7.
Ejemplo 17.5
El MCO Wald F estadística para probar la hipótesis conjunta que 𝛼 = 0 y 𝑝 = 1 para la

regresión en [17.4.37] es de 1,81. Bajo los supuestos clásicos de regresión, esto tendría una
distribución de F (2, 166). En este caso, sin embargo, la estadística usual se ti compara con
los valores del Caso 2 en la Tabla B.7, para los cuales el valor crítico del 5% se encuentra
por interpolación en 4.6. Desde 1.81 < 4.67, la hipótesis conjunta nul que 𝛼 = 0 y 𝑝 = 1
es aceptada al nivel de 5%.
Caso 3. Término Constante pero sin Tendencia Temporal incluida en la

Regresión; El Proceso Verdadero es un Tramo Aleatorio con Deriva
En el caso 3, la misma regresión [17.4.14] se estima como en el caso 2, aunque ahora se
supone que el verdadero proceso es un tramo aleatorio con deriva:
𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡 [17.4.38]
dónde el valor verdadero de 𝛼 no es cero. Aunque esto puede parecer un cambio de espejo, tiene
un efecto radical sobre la distribución asintótica de 𝛼̂ y 𝑝̂ . Para ver por qué, tenga en cuenta que
[17.4.38] implica que
𝑦𝑡 = 𝑦0 + 𝛼𝑡 + (𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 ) = 𝑦0 + 𝛼𝑡 + 𝜉𝑡 [17.4.39]
dónde
𝜉𝑡 ≡ 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … , 𝑇
con 𝜉𝑡 ≡ 0.
Considera el comportamiento de la sumatoria
∑𝑇𝑡=1 𝑦𝑡−1 = ∑𝑇𝑡=1[𝑦0 + 𝛼(𝑡 − 1) + 𝜉𝑡−1 ] [17.4.40]
El primer término en [17.4.40] es sólo 𝑇𝑦0 y si éste es dividido por T, el resultado será un valor fijo.
El segundo término, ∑ 𝛼(𝑡 − 1), debe ser dividido por 𝑇 2 para converger:

𝑇 2 ∑𝑇𝑡=1 𝛼(𝑡 − 1) → 𝛼/2
en virtud de la proposición 17.1 (h). El tercer término converge cuando se divide por 𝑇 3/2:
𝐿 1
𝑇 −3/2 ∑𝑇𝑡=1 𝜉(𝑡 − 1) → 𝜎 ∙ ∫0 𝑊(𝑟)𝑑𝑟
de la Proposición 17.1 (d). El orden en probabilidad de los tres términos individuales en [17.4.40] es
así
∑𝑇𝑡=1 𝑦𝑡 − 1 = ∑𝑇𝑡=1 𝑦0 + ∑𝑇𝑡=1 𝛼(𝑡 − 1) + ∑𝑇𝑡=1 𝜀𝑡−1
𝑂𝑝 (𝑇) 𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 3⁄2 )
La tendencia temporal 𝛼(𝑡 − 1) asintóticamente domina los otros componentes:
𝑇 −2 ∑𝑇𝑡=1 𝑦𝑡−1 = 𝑇 −1 𝑦0 + 𝑇 −2 ∑𝑇𝑡=1 𝛼(𝑡 − 1) + 𝑇 −1/2 {𝑇 −3/2 ∑𝑇𝑡=1 𝜉𝑡−1 }

𝑝
→ 0 + 𝛼/2 + 2 [17.4.41]
Similarmente, tenemos que
∑𝑇𝑡=1 𝑦𝑡−1
2
= ∑𝑇𝑡=1[𝑦0 + 𝛼(𝑡 − 1) + 𝜀𝑡−1 ]2
= ∑𝑇𝑡=1 𝑦0 2 + ∑𝑇𝑡=1 𝛼 2 (𝑡 − 1)2 + ∑𝑇𝑡=1 𝜀𝑡−1

2
𝑂𝑝 (𝑇) 𝑂𝑝 (𝑇 3 ) 𝑂𝑝 (𝑇 2 )
+ ∑𝑇𝑡=1 2𝑦0 𝛼(𝑡 − 1) + ∑𝑇𝑡=1 2𝑦0 𝜀𝑡−1 + ∑𝑇𝑡=1 2𝛼(𝑡 − 1)𝜀𝑡−1
𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 3⁄2 ) 𝑂𝑝 (𝑇 5⁄2 )
cuando se divide por 𝑇 3 , el único término que no desaparece asintóticamente es que debido a la
tendencia temporal 𝛼 2 (𝑡 − 1)2
𝑝
𝑇 −3 ∑𝑇𝑡=1 𝑦2𝑡−1 → 𝛼 2 /3 [17.4.42]
Finalmente, observa que
∑𝑇𝑡=1 𝑦𝑡−1 − 𝑢𝑡 = ∑𝑇𝑡=1[𝑦0 + 𝛼(𝑡 − 1) + 𝜀𝑡−1 ]𝑢𝑡
= 𝑦0 ∑𝑇𝑡=1 𝑢𝑡 + ∑𝑇𝑡=1 𝛼(𝑡 − 1)𝑢𝑡 + ∑𝑇𝑡=1 𝜀𝑡−1 − 𝑢𝑡
𝑂𝑝 (𝑇 1⁄2 ) 𝑂𝑝 (𝑇 3⁄2 ) 𝑂𝑝 (𝑇)
de dónde
𝑝
𝑇 −3/2 ∑𝑇𝑡=1 𝑦𝑡−1 𝑢𝑡 →𝑇 −3/2 ∑𝑇𝑡=1 𝛼(𝑡 − 1)𝑢𝑡 [17.4.43]
Los resultados [17.4.41] a [17.4.43] implican que cuando el verdadero proceso es una
caminata aleatoria con deriva, los coeficientes MCO estimados en [17.4.15] satisfacen
−1
𝛼̂ − 𝛼 𝑂𝑝 (𝑇) 𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 1/2 )
[ 𝑇 ]=[ ] [ ]
𝑝̂ 𝑇 − 1 𝑂𝑝 (𝑇 2 ) 𝑂𝑝 (𝑇 3 ) 𝑂𝑝 (𝑇 3/2 )
Así, para este caso, la matriz de escala de Sims, Stock y Watson sería

1/2
𝑌 ≡ [𝑇 0 ]
0 𝑇 3/2
para los cuales [17.4.20] se convierte
[𝑇
1/2
0 ] [𝛼̂ 𝑇 − 𝛼 ]
0 𝑇3/2 𝑝̂ 𝑇 − 1
−1
−1/2
0 ][ 𝑇 ∑ 𝑦𝑡−1 𝑇 −1/2
= {[𝑇 −3/2 ∑ 𝑦 2 ][
0 ]}
0 𝑇 𝑡−1 ∑ 𝑦𝑡−1 0 𝑇 −3/2
𝑥 {[𝑇
−1/2
0 ] [ ∑ 𝑢𝑡 ]}
0 𝑇 −3/2 ∑ 𝑦𝑡−1 𝑢𝑡
o
−1
𝑇 1/2 (𝛼̂ − 𝛼) 𝑇 𝑇 −2 ∑ 𝑦𝑡−1 𝑇 −1/2 ∑ 𝑢𝑡
[ 3/2 𝑇 ] = [ −2 2 ] [ −1/2 ]
𝑇 (𝑝̂ 𝑇 − 1) 𝑇 ∑ 𝑦𝑡−1 𝑇 −3 ∑ 𝑦𝑡−1 𝑇 ∑ 𝑦𝑡−1 𝑢𝑡
[17.4.44]
De [17.4.41] y [17.4.42], el primer término en [17.4.44] converge a
1 𝑇 −2 ∑ 𝑦𝑡−1 𝑝 1 𝛼/2
[ −2 2 ] → [𝛼/2 ]≡ 𝑄 [17.4.45]
𝑇 ∑ 𝑦𝑡−1 𝑇 −3 ∑ 𝑦𝑡−1 𝛼 2 /2
De [17.4.43] y [17.3.18], el segundo término en [17.4.44] satisface
𝑇 −1⁄2 ∑ 𝑢𝑡 𝜌 𝑇 −1⁄2 ∑ 𝑢𝑡
[ −3⁄2 ] → [ −3⁄2 ]
𝑇 ∑ 𝑦𝑡−1 𝑢𝑡 𝑇 ∑ 𝛼(𝑡 − 1)𝑢𝑡
𝐿 0 1 𝛼 ⁄2
→ 𝑁 ([ ] , 𝜎 2 [ ])
0 𝛼 ⁄2 𝛼 2 ⁄3
= 𝑁(0, 𝜎 2 𝑄) [17.4.46]
Combinando [17.4.44] con [17.4.46], se tiene que

1
𝑇 2 (𝛼̂ 𝑇 − 𝛼) 𝐿
[ 3 ] → 𝑁(0, 𝑄 −1 ∙ 𝜎 2 𝑄 ∙ 𝑄 −1 ) = 𝑁(0, 𝜎 2 𝑄 −1 ). [17.4.47]
𝑇 (𝑝̂ 𝑇 − 1)
2
Así, para el caso 3, ambos coeficientes estimados son asintóticamente gaussianos. De

hecho, las propiedades asintóticas de 𝛼̂ 𝑇 y 𝑝̂ 𝑇 son exactamente las mismas que las de 𝛼̂ 𝑇 y 𝛿̂𝑇 en la
regresión de tendencia temporal determinista analizada en el capítulo 16. La razón de esta
correspondencia es muy simple, el regresor 𝑦𝑡−1 está asintóticamente dominado por la tendencia
temporal 𝛼 ∙ (𝑡 − 1). En muestras grandes, es como si la variable explicativa 𝑦𝑡−1 fuera
reemplazada por la tendencia temporal 𝛼 ∙ (𝑡 − 1). Recordando el análisis de la sección 16.2, se
deduce que para el caso 3, las estadísticas MCO t y F estándar pueden calcularse de la manera
habitual y compararse con las tablas estándar (Cuadros B.3 y B.4, respectivamente).
Caso 4. Término Constante Tendencia de tiempo incluida en la

Regresión; el Proceso Verdadero es un Tramo Aleatorio con o sin la
deriva

Supongamos, como en el caso anterior, que el modelo verdadero es
𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡
Dónde 𝑢𝑡 es i.i.d. Con media cero y varianza 𝜎 2 . Para este caso, el verdadero valor de 𝛼 resulta no
importar para la distribución asintótica. En contraste con el caso anterior, ahora asumimos que una
tendencia temporal se incluye en la regresión que es realmente estimada por el MCO:
𝑦𝑡 = 𝛼 + 𝑝𝑦𝑡−1 + 𝛿𝑡 + 𝑢𝑡 [17.4.48]
Si 𝛼 ≠ 0, 𝑦𝑡−1 sería asintóticamente equivalente a una tendencia temporal. Dado que una tendencia
temporal ya está incluida como una variable separada en la regresión, esto haría que las variables
explicativas collinear en grandes muestras. Describir la distribución asintótica de las estimaciones
requiere, por tanto, no sólo una re escalada de las variables, sino también una rotación del tipo de la
introducida en la Sección 16.3.
Obsérvese que el modelo de regresión de [17.4.48] puede ser escrito de manera equivalente como
𝑦𝑡 = (1 − 𝑝)𝛼 + 𝑝[𝑦𝑡−1 − 𝛼(𝑡 − 1)] + (𝛿 + 𝑝𝛼)𝑡 + 𝑢𝑡
≡ 𝛼 ∗ + 𝑝∗ 𝜉𝑡−1 + 𝛿 ∗ + 𝑢𝑡 [17.4.49]
Donde 𝛼 ∗ ≡ (1 − 𝑝)𝛼, 𝑝∗ ≡ 𝑝, 𝛿 ∗ ≡ ( 𝛿 + 𝑝𝛼) y 𝜉𝑡 ≡ 𝑦𝑡 − 𝛼𝑡 . Además, bajo la hipótesis nula de

que p=1, y 𝛿 = 0,
𝜉𝑡 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡
es decir, 𝜉𝑡 es la caminata aleatoria descrita en la Proposición 17.1. Considere, como en la Sección

16.3, una regresión hipotética de 𝑦1 en contraste, 𝜉𝑡−1 y una tendencia temporal, produciendo las
estimaciones de MCO
𝛼̂ 𝑇∗ 𝑇 ∑ 𝜀𝑡−1 ∑ 𝑡 −1 ∑ 𝑦𝑡
∗
[ 𝜌̂𝑇 ] = [∑ 𝜀𝑡−1 2
∑ 𝜀𝑡−1 ∑ 𝜀𝑡−1 𝑡] [∑ 𝜀𝑡−1 − 𝑦𝑡 ]. [17.4.50]
∗
⏞
𝛿𝑇 ∑𝑡 ∑ 𝑡𝜀𝑡−1 ∑ 𝑡2 ∑ 𝑡𝑦𝑡
La hipótesis mantenida es que 𝛼 = 𝛼0, p=1 y 𝛿 = 0, que en el sistema transformado significaría

𝛼 ∗ = 0, 𝑝∗ = 0 y 𝛿 ∗ = 0. Las derivaciones de las estimaciones de MCO a partir de estos valores
reales están dadas por
𝛼̂ 𝑇∗ 𝑇 ∑ 𝜀𝑡−1 ∑ 𝑡 −1 ∑ 𝑢𝑡
∗
𝜌̂
[ 𝑇−1 ] = [∑ 𝜀𝑡−1 2
∑ 𝜀𝑡−1 ∑ 𝜀𝑡−1 𝑡] [∑ 𝜀𝑡−1 − 𝑢𝑡 ] [17.4.51]
∗
⏞
𝛿 𝑇 − 𝛼0 ∑𝑡 ∑ 𝑡𝜀𝑡−1 ∑ 𝑡2 ∑ 𝑡𝑢𝑡
Consultando las tasas de convergencia en la Proposición 17.1, en este caso la matriz de

escala debe ser
𝑇 1/2 0 0
𝑇=[ 0 𝑇 0 ],
0 0 𝑇 3/2
y [17.4.20] serían
𝑇 1⁄2 0 0 𝛼̂ 𝑇∗
∗
[ 0 𝑇 0 ] [ 𝜌̂𝑇 − 1 ]
0 0 𝑇 3⁄2 𝛿̂𝑇∗ − 𝛼0

𝑇 −1⁄2 0 0 𝑇 ∑ 𝜀𝑡−1 ∑𝑡
∑ 2
∑ 𝜀𝑡−1 ∑ 𝜀𝑡−1 𝑡] ×
= {[ 0 𝑇 −1 𝜀
0 ] [ 𝑡−1
0 0 𝑇 −3⁄2 ∑𝑡 ∑ 𝑡𝜀𝑡−1 ∑ 𝑡2
−1
𝑇 −1⁄2 0 0
[ 0 𝑇 −1 0 ]}
0 0 𝑇 −3⁄2
𝑇 −1⁄2 0 0 ∑ 𝑢𝑡
× {[ 0 𝑇 −1 0 ] [∑ 𝜀𝑡−1 𝑢𝑡 ]}
0 0 𝑇 −3⁄2 ∑ 𝑡2
o
−1
𝑇 1⁄2 𝛼̂ 𝑇∗ 1 𝑇 3⁄2 ∑ 𝜀𝑡−1 𝑇 −2 ∑ 𝑡
[ 𝑇(𝜌̂𝑇∗ − 1) ] = [𝑇 −3⁄2 ∑ 𝜀𝑡−1 2
𝑇 −2 ∑ 𝜀𝑡−1 𝑇 −5⁄2 ∑ 𝜀𝑡−1 𝑡] ×
𝑇 3⁄2 (𝛿̂𝑇∗ − 𝛼0 ) 𝑇 −2 ∑ 𝑡 ⁄
𝑇 −5 2 ∑ 𝑡𝜀𝑡−1 𝑇 −3 ∑ 𝑡 2
−1⁄2 ∑
𝑇 𝑢𝑡
−1
[𝑇 ∑ 𝜀𝑡−1 𝑢𝑡 ]
𝑇 −3⁄2 ∑ 𝑡𝑢𝑡
[17.4.52]
La distribución asintótica se puede encontrar en la Proposición 17.1:
𝑇 1⁄2 𝛼̂ 𝑇∗
[ 𝑇(𝜌̂𝑇∗ ) ]
𝑇 3⁄2 (𝛿̂𝑇∗ − 𝛼0 )
1 −1
1 𝜎 ∫ 𝑊(𝑟)𝑑𝑟 𝜎𝑊(1)
𝐿 2
1 2
→ 𝜎 ∫ 𝑊(𝑟)𝑑𝑟 2
𝜎 ∫ 𝑊(𝑟) 𝑑𝑟 2
𝜎 ∫ 𝑟𝑊(𝑟)𝑑𝑟 ×[ 2
𝜎 {[𝑊(1)]2 − 1} ]
1
[ 1 𝜎 ∫ 𝑟𝑊(𝑟)𝑑𝑟 ] 𝜎{𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟}
3
1 −1
−1 1 ∫ 𝑊(𝑟)𝑑𝑟
1 0 0 2
= 𝜎 [0 𝜎 0] ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑟𝑊(𝑟)𝑑𝑟 ×
0 0 1 1
∫ 𝑟𝑊(𝑟)𝑑𝑟
1
[ 2 3 ]
𝑊(1)
1 0 0 −1 1 0 0 1 2
[0 𝜎 0] [0 𝜎 0] [ 2 {[𝑊(1)] − 1} ]
0 0 1 0 0 1 𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟
1 −1
1 ∫ 𝑊(𝑟)𝑑𝑟 𝑊(1)
𝜎 0 0 2
1
= [0 1 0 ] ∫ 𝑊(𝑟)𝑑𝑟 ∫ [𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑟𝑊(𝑟)𝑑𝑟 ×[ {[𝑊(1)]2 − 1} ]
2
0 0 𝜎 1
∫ 𝑟𝑊(𝑟)𝑑𝑟
1
𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟
[ 2 3 ]
[17.4.53]
Tenga en cuenta que 𝑝̂ 𝑇∗ , la estimación MCO de p basada en [17.4.49], es idéntica a 𝑝̂ 𝑇 la

MCO estimación de p basado en [14.4.48]. Así, la distribución asintótica de 𝑇(𝑝̂ 𝑇 − 1) viene dada
por la fila media de [17.4.53]. Tenga en cuenta que esta duplicación no depende de 𝜎 o 𝛼; En un
particular, no importa si el valor verdadero de 𝛼 es cero o no.

La distribución asintótica de 𝜎̂𝛽𝑇 , el error estándar de MCO para 𝑝̂ 𝑇 , se puede encontrar
usando cálculos similares a los de [17.4.31] y [17.4.32]. Nótese que
𝑇 ∑ 𝜀𝑡−1 ∑ 𝑡 −1 0
𝑇 2 . 𝜎̂𝜌̂2−1 = 𝑇 2 . 𝑠𝑇2 [0 1 0] [∑ 𝜀𝑡−1 2
∑ 𝜀𝑡−1 ∑ 𝜀𝑡−1 𝑡] [1]
∑𝑡 ∑ 𝑡 𝜀𝑡−1 ∑ 𝑡2 0
𝑇 1⁄2 0 0
= 𝑠𝑇2 [0
1 0] [ 0 𝑇 0 ]×
3⁄2
0 0 𝑇
𝑇 ∑ 𝜀𝑡−1 ∑ 𝑡 −1 𝑇 1⁄2 0 0 0
∑ ∑ 2 ∑
[ 𝜀𝑡−1 𝜀𝑡−1 𝜀𝑡−1 𝑡] [ 0 𝑇 0 ] [1]
∑𝑡 ∑ 𝑡 𝜀𝑡−1 ∑ 𝑡2 0 0 𝑇 3⁄2 0
𝑇 1⁄2 0 0
= 𝑠𝑇2 [0 1 0] [ 0 𝑇 0 ]×
3⁄2
0 0 𝑇
−1
1 𝑇 −3⁄2 ∑ 𝜀𝑡−1 𝑇 −2 ∑ 𝑡 0
−3⁄2
[𝑇 ∑ 𝜀𝑡−1 2
𝑇 −2 ∑ 𝜀𝑡−1 𝑇 −5⁄2 ∑ 𝜀𝑡−1 𝑡] [1]
𝑇 −2 ∑ 𝑡 𝑇 −5⁄2 ∑ 𝑡 𝜀𝑡−1 𝑇 −3 ∑ 𝑡 2 0
𝐿 1 0 0 −1 1 0 0 −1 0
2[ ]
→ 𝜎 0 [
1 0 0 𝜎 0] × [ 0 𝜎 0] [ 1]
0 0 1 0 0 1 0
1 −1
1 ∫ 𝑊(𝑟)𝑑𝑟 2 0
= [0 1 0] ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑟𝑊(𝑟)𝑑𝑟 [ 1]
1
∫ 𝑟𝑊8𝑟)𝑑𝑟
1 0
[ 2 3 ]
=𝑄 [17.4.54]
De este resultado se deduce que la distribución asintótica del test t de MCO de la hipótesis
de que P=1 está dada por
𝑝
𝑡𝑇 = 𝑇(𝑝̂ 𝑇 − 1) ÷ (𝑇 ∙ 𝜎̂𝛽𝑇 )1/2 → 𝑇(𝑝̂ 𝑇 − 1) ÷ √𝑄 [17.4.55]
Una vez más, esta distribución no depende de 𝜎 o 𝛼. La distribución de muestras pequeñas de las
estadísticas de MCO i bajo el supuesto de perturbaciones gaussianas se presenta en el caso 4 del
cuadro B.6. Si esta distribución fuera verdaderamente t, cuando un valor por debajo de -2,0 sería
suficiente para rechazar la hipótesis nula. Sin embargo, la Tabla B.6 revela que. Debido a la
distribución no estándar, el estadístico t debe estar por debajo de -3.4 antes de que la hipótesis nula
de una raíz unitaria pudiera ser rechazada.
La suposición de que el valor verdadero 𝛿 es igual a cero es de nuevo una hipótesis auxiliar
sobre la cual dependen las propiedades asintóticas de la prueba. Por lo tanto, como en el caso 2, es
natural considerar la prueba MCO F de la hipótesis nula conjunta que 𝛿 = 0 y P=1. Aunque esta
prueba F se calcula de la manera habitual, su distribución asintótica no es estándar, y la estadística F
calculada debe compararse con el valor del caso 4 en la Tabla B.7.
Resumen de las pruebas de Dickey-Fuller en ausencia de Correlación

Serial
Hemos visto que las propiedades asintóticas de la MCO estiman 𝑝̂ 𝑇 cuando el verdadero
valor unitario de p depende de si o no un término constante o una tendencia temporal se incluye en
la regresión estimada y en sí o no el paseo aleatorio que describe el proceso verdadero para 𝑦𝑡
incluye término de deriva. Estos resultados se resumen en la Tabla 17.1.
¿Cuál es el caso "correcto" para usar para probar la hipótesis nula de una raíz unitaria? La
respuesta depende de por qué nos interesa probar una raíz unitaria. Si el analista tiene una hipótesis
nula específica sobre el proceso que generó los datos, obviamente esto guiaría la elección de la
prueba. En ausencia de tal orientación, un principio general sería ajustar una especificación que sea
una descripción plausible de los datos bajo la hipótesis nula y la alternativa. Este principio sugeriría
usar el caso 4 para una serie con una tendencia obvia y la prueba de caso 2 para series sin una
tendencia significativa.
Por ejemplo, la Figura 17.2 representa la serie de tasas de interés nominal utilizada en los
ejemplos de esta sección. Aunque esta serie ha tendido hacia arriba durante este período de la
muestra, no hay nada en la teoría económica para sugerir que las tasas de interés nominales deben
exhibir una tendencia del tiempo determinista. En términos de enmarcación de una alternativa
plausible, es difícil mantener que estos datos podrían haber sido generados por 𝑖𝑡 = 𝑝𝑖𝑡 + 𝑢𝑡 con
|𝑝| significativamente menor que 1. Si estos datos fueran descritos por un proceso estacionario,
seguramente el proceso tendría una media positiva. Esto argumenta para incluir un término
constante en la regresión estimada, aunque bajo la hipótesis nula el proceso verdadero no contiene
un término constante. Por lo tanto, el caso 2 es un acercamiento inalterable para estos datos, tal
como se analiza en los ejemplos 17.4 y 17.5.
Como segundo ejemplo, la Figura 17.3 muestra el PNB real trimestral de los Estados
Unidos desde 1947: I a 1989: I. Dada la creciente población y las mejoras tecnológicas, se esperaría
que una serie de este tipo exhibiera una tendencia ascendente persistente, y esta tendencia era
inconfundible en la figura. La pregunta es si esta tendencia surge de la tendencia positiva de la
deriva de una caminata aleatoria:
𝐻0 : 𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡 𝛼 > 0,
o de una tendencia temporal determinista estacionaria añadida a la AR(1):

𝐻𝐴 : 𝑦𝑡 = 𝛼 + 𝛿𝑡 + 𝑝𝑦𝑡−1 + 𝑢𝑡 |𝑝| < 1.
Por lo tanto, las estadísticas de prueba recomendadas para este caso son las descritas en el caso 4.
El modelo siguiente para 100 veces el logaritmo del PNB real (denotado 𝑦𝑡 ) fue estimado
por regresión MCO:
27.24 0.96252 0.02753

𝑦𝑡 = + 𝑦𝑡−1 + 𝑡 [17.4.56]
(13.53) (0.019304) (0.01521)
(Error estándar entre paréntesis). El tamaño de la muestra es T = 168. La prueba p de Dickey Fuller
es
𝑇(𝑝̂ 𝑇 − 1) = 168(0.96252 − 1.0) = −6.3
Desde −6.3 > −21.00, la hipótesis nula de que el PNB se caracteriza por una caminata aleatoria
con posible desviación se acepta al nivel del 5%. La prueba Dickey-Fuller t,
0.96252−1.0
𝑡= 0.019304
= −1.94,
excede el valor crítico del 5% de -3,44, de modo que la hipótesis nula de una raíz unitaria es
aceptada también por esta prueba. Finalmente, la prueba F de la hipótesis nula conjunta de que 𝛿 =
0 y p=1 es 2.4. Puesto que esto es menor que el valor crítico del 5% de 6,42 de la Tabla B.7, esta
hipótesis nula se acepta nuevamente.

TABLA 17.1
Resumen de la prueba de Dickey-Fuller para raíces unitarias en ausencia
de correlación serial
Caso 1:
Regresiones estimadas: 𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝑢𝑡
Verdadero proceso: 𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝑢𝑡 𝑢𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎 2 )
𝑇(𝑝̂ 𝑇 − 1) tiene la distribución descrita bajo el encabezamiento Caso 1 en la Tabla B.5.
(𝑝̂ 𝑇 − 1)/𝜎̂𝑝̂𝑇 tiene la distribución descrita en el Caso 1 en la Tabla B.6
Caso 2:
Verdadero proceso: 𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝑢𝑡 𝑢𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎 2 )
𝑇(𝑝̂ 𝑇 − 1) tiene la distribución descrita en el Caso 2 en la Tabla B.6.
(𝑝̂ 𝑇 − 1)/𝜎̂𝑝̂𝑇 tiene la distribución descrita en el Caso 2 del Cuadro B.6
MCO F prueba de hipótesis conjunta que 𝛼 = 0 y p=1 tiene la distribución descrita en el

caso 2 en la Tabla B.7.
Caso 3:
Regresiones estimadas: 𝑦𝑡 = 𝛼𝑦𝑡−1 + 𝑢𝑡
Verdadero proceso: 𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡 𝛼 ≠ 0, 𝑢𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎2 )
Caso 4:
Regresiones estimadas: 𝑦𝑡 = 𝛼𝑦𝑡−1 + 𝛿𝑡 + 𝑢𝑡
Verdadero proceso: 𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡 𝛼 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟𝑎, 𝑢𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎2 )
𝑇(𝑝̂ 𝑇 − 1) tiene la distribución descrita en el Caso 4 en la Tabla B.5.
(𝑝̂ 𝑇 − 1)/𝜎̂𝑝̂𝑇 tiene la distribución descrita en el Caso 4 en la Tabla B.6
La prueba F del MCO de hipótesis conjunta que p=1 y 𝛿 = 0 tiene la distribución descrita
en el caso 4 en la Tabla B.7.
Notas a la tabla 17.1
La regresión estimada indica el valor desde el que se estima la regresión, utilizando las observaciones
𝑡 = 1, 2, … 𝑇 T y el condicionamiento en la observación 𝑡 = 0
El proceso verdadero describe la hipótesis nula bajo la cual se calcula la distribución.
𝑝̂ 𝑇 es la estimación MCO de p a partir de la regresión indicada basada en un tamaño de muestra T.
(𝑝̂ 𝑇 − 1)/𝜎̂𝑝̂𝑇 es la prueba MCO t de p=1.
MCO F prueba de una hipótesis que implica dos restricciones está dando por la expresión [17.3.39].
Si 𝑢𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎 2 ), entonces las Tablas B.5 a B.7 proporcionan estimaciones de Monte Carlo de
la distribución exacta de la muestra. Las tablas también son válidas para T grande cuando 𝑢𝑡 es i.i.d no
Gaussiano. Así como para ciertos procesos heterogéneamente distribuidos en serie sin correlación. Para 𝑢𝑡
correlacionado en serie. Ver Tabla 17.2 o 17.3.

FIGURA 17.2 Tasa de interés nominal de los Estados Unidos sobre los bonos del Tesoro a tres
meses, datos muestreados trimestralmente, pero cotizados a una tasa anual, 1947: I a 1989: I.
FIGURA 17.3 PNB real estadounidense, datos muestreados trimestralmente, pero cotizados a una
tasa anual en miles de millones de dólares de 1982, 1947: I a 1989: I.
De las pruebas discutidas hasta el momento, las desarrolladas para el caso 2 parecen
apropiadas para los datos de tasas de interés y las pruebas desarrolladas para el caso 4 parecen
mejores para los datos PNB. Sin embargo, las pruebas más generales se presentan en las Secciones
16.7 y 16.7 son preferibles para describir cualquiera de estas series. Esto se debe a que la asunción
mantenida a través de esta acción ha sido que el término de perturbación 𝑢𝑡 , en la regresión es i.i.d.
No hay una razón fuerte para esperar esto para cualquiera de estas series de tiempo. La siguiente
sección desarrolla resultados que pueden usarse para probar raíces unitarias en procesos
correlacionados en serie.

17.5. Resultados asintóticos para procesos de raíz unitaria con
correlación serial general
Esta sección generaliza la Proposición 17.1 para permitir la correlación serial. El siguiente resultado
preliminar es bastante útil.
Proposición 17.2: Dado
𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 = ∑𝑥𝑗=0 𝜓𝑗 𝜀𝑡−𝑗 [17.5.1]
dónde
𝐸(𝜀𝑡 ) = 0
2 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
𝐸(𝜀𝑗 𝜀𝑡 ) = {𝜎
0 𝑑𝑒 𝑜𝑡𝑟𝑜 𝑚𝑜𝑑𝑜
∑𝑥𝑗=0 𝑗 ∙ |𝜓| < ∞ [17.5.2]
Entonces
𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 = 𝜓(1) ∙ (𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡 ) + 𝜂𝑡 − 𝜂0 [17.5.3]
dónde 𝜓(1) ≡ ∑𝑥𝑗=0 𝜓, 𝜂𝑡 = ∑𝑥𝑗=0 𝛼𝑗 𝜀𝑡−𝑗 , 𝛼𝑗 = −(𝜓𝑗+1 + 𝜓𝑗+2 + 𝜓𝑗+3 + ⋯ ), y ∑𝑥𝑗=0|𝛼𝑗 | <
∞.
La condición en [17.5.2] es ligeramente más fuerte que la sumatoria absoluta, aunque está
satisfecha con cualquier proceso ARMA estacionario.
Observe que si 𝑦𝑡 es un proceso I(1) cuya primera diferencia viene dada por 𝑢𝑡 , o
∆𝑦𝑡 = 𝑢𝑡
entonces
𝑦𝑡 = 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 + 𝑦0 = 𝜓(1) ∙ (𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡 ) + +𝜂𝑡 − 𝜂0 + 𝑦0

Así, la Proposición 17.2 establece que cualquier proceso I (1) cuya primera diferencia satisface
[17.5.1] y [17.5.2] puede escribirse como la suma de una caminata aleatoria (𝜓(1) ∙ (𝜀1 + 𝜀2 + ⋯ +
𝜀𝑡 )), condiciones iniciales (𝑦0 − 𝜂0 ) y un proceso estacionario (𝜂𝑡 ). Esta observación fue hecha
por primera vez por Beveridge y Nelson (1981), y [17.5.3] a veces se conoce como la
descomposición de Beveridge y Nelson.
Observe que 𝜂𝑡 , es un proceso estacionario. Una implicación importante de esto es que si

1
[17.5.3] se divide por √𝑡 sólo el primer término por ( ) 𝜓(1). (𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡 ), sólo el primer
√𝑡
1
término debería importar para la distribución ( ) . (𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 ) cuando 𝑡 → ∞.
√𝑡
Como ejemplo de cómo se puede utilizar este resultado, supongamos que 𝑋𝑇 (𝑟) se define
como en [17.3.2]
1 |𝑇𝑟|∗
𝑋𝑇 (𝑟) ≡ (2) ∑𝑡=1 𝑢𝑡 , [17.5.4]
dónde 𝑢𝑡 satisface las condiciones de la Proposición 17.2 con i.i.d. Y 𝐸(𝜀𝑡4 ) < ∞.
17.5 Resultados asintóticos para procesos de raíz unitaria con correlación serial general 525
Entonces, el proceso de tiempo continuo √𝑇 ∙ 𝑋𝑇 (𝑟) converge a 𝜎 ∙ 𝜓(1) veces el movimiento
estándar browniano:
𝐿
√𝑇 ∙ 𝑋𝑇 (∙) → 𝜎 ∙ 𝜓(1) ∙ 𝑊(∙). [17.5.5]
Para derivar [17.5.5], anote de la proposición 17.2 que

|𝑇 |∗
√𝑇. 𝑋𝑇 (𝑟) = (1⁄√𝑇) ∑𝑡=1
𝑟
𝑢𝑡
|𝑇 |∗
= 𝝍(𝟏). (𝟏⁄√𝑻). ∑𝑡=1
𝑟
𝜀𝑡 + (1⁄√𝑇). (𝑛|𝑇𝑟|∗ − 𝑛0 )
|𝑇 |∗
= 𝝍(𝟏). (𝟏⁄√𝑻). ∑𝑡=1
𝑟
𝜀𝑡 + 𝑆𝑇 (𝑟), [17.5.6]
1
dónde hemos definido 𝑆𝑇 (𝑟) ≡ ( ) ∙ (𝜂|𝑇𝑟|∗ − 𝜂0 ). Observe como en el Ejemplo 17.2 que
√𝑇
𝑝
𝑆𝑇 (∙) → 0 [17.5.7]
como 𝑇 → ∞ . Más aún, de [17.3.8],
|𝑇𝑟|∗ 𝐿
(1/√𝑇) ∑𝑡=1 𝜀𝑡 → 𝜎 ∙ 𝑊(𝑟). [17.5.8]
Sustituyendo [17.5.7] y [17.5.8] en [17.5.6] produce [17.5.5].
Otra implicación se encuentra evaluando las funciones en [17.5.5] en r = 1:

𝐿
(1/√𝑇) ∑𝑇𝑡=1 𝑢 → 𝜎 ∙ 𝜓(1) ∙ 𝑊(1). [17.5.9]
Como W (1) se distribuye N (0, 1), el resultado [17.5.9] indica que

𝐿
(1/√𝑇) ∑𝑇𝑡=1 𝑢 → 𝑁(0, 𝜎 2 [𝜓(1)]2 ),
que es el teorema del límite central usual de la Proposición 7.11.
La siguiente proposición utiliza esta idea básica para generalizar los otros resultados de la
Proposición 17.1; Para obtener detalles sobre las pruebas, consulte el Apéndice 17.A.
Proposición 17. 3: Dado 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 = ∑𝑇𝑗=0 𝜓𝑗 𝜀𝑡−𝑗 , donde ∑𝑇𝑗=0 𝑗 ∙ |𝜓𝑗 | < ∞ y {𝜀𝑡 } es una
secuencia i.i.d. con media cero, varianza 𝜎 2 , y finito cuarto momento. Definir
𝛾𝑗 ≡ 𝐸(𝑢𝑡 𝑢𝑡−𝑗 ) = 𝜎 2 ∑∞
𝑠=0 𝜓𝑠 𝜓𝑠+𝑗 𝑝𝑎𝑟𝑎 𝑗 = 0,1,2, …
[17.5.10]
𝜆 ≡ 𝜎 ∑∞
𝑗=0 𝜓𝑗 = 𝜎. 𝝍(𝟏)
𝜀𝑡 ≡ 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … , 𝑇 [17.5.11]
con 𝜉0 = 0. Entonces
𝐿
(𝑎) 𝑇 −1⁄2 ∑𝑇𝑡=1 𝑢𝑡 → 𝜆. 𝑊(1)
𝐿
(𝑏) 𝑇 −1⁄2 ∑𝑇𝑇=1 𝑢𝑡−1 𝜀𝑡 → 𝑁(0, 𝜎 2 𝛾0 ) 𝑝𝑎𝑟𝑎 𝑗 = 01,2, …,
𝜌
(𝑐) 𝑇 −1 ∑𝑇𝑡=1 𝑢𝑡 𝑢𝑡−1 → 𝛾𝑗 𝑝𝑎𝑟𝑎 𝑗01,2, …,

𝐿
(𝑑) 𝑇 −1 ∑𝑇𝑡=1 𝜀𝑡−1 𝜀𝑡 → (1⁄2)𝜎. 𝜆. {[𝑊(1)]2 − 1}
(𝑒) 𝑇 −1 ∑𝑇𝑡=1 𝜀𝑡−1 𝑢𝑡−1
𝐿
→ (1⁄2){𝜆2 . [𝑊(1)]2 − 𝛾0 } 𝑝𝑎𝑟𝑎 𝑗 = 0,1,2, …
(1⁄2){𝜆2 . [𝑊(1)]2 − 𝛾0 } + 𝛾0 + 𝛾1 + 𝛾2 + ⋯ + 𝛾𝑗−1 𝑝𝑎𝑟𝑎 𝑗 = 1,2, …
3 𝐿 1
(𝑓) 𝑇 −2 ∑𝑇𝑡=1 𝜀𝑡−1 → 𝜆. ∫0 𝑊(𝑟)𝑑𝑟
3 𝐿 1
(𝑔) 𝑇 −2 ∑𝑇𝑡=1 𝑡𝑢𝑡−1 → 𝜆. {𝑊81) − ∫0 𝑊(𝑟)𝑑𝑟} 𝑝𝑎𝑟𝑎 𝑗 = 0,1,2, …
𝐿 1
(ℎ) 𝑇 −2 ∑𝑇𝑡01 𝜀 2𝑡−1 → 𝜆2 . ∫0 [𝑊(𝑟)]2 𝑑𝑟
5 𝐿 1
(𝑖) 𝑇 −2 ∑𝑇𝑇=1 𝑡𝜀𝑡−1 → 𝜆. ∫0 𝑟𝑊(𝑟)𝑑𝑟
𝐿 1
(𝑗) 𝑇 −3 ∑𝑇𝑇=1 𝑡𝜀 2𝑡−1 → 𝜆2 . ∫0 𝑟. [𝑊(𝑟)]2 𝑑𝑟
(𝑘) 𝑇 −(𝑣+1) ∑𝑇𝑇=1 𝑡 𝑣 → 1⁄(𝑣 + 1) 𝑝𝑎𝑟𝑎 𝑣 = 0,1, …
Una vez más, hay maneras más simples de describir resultados individuales; Por ejemplo, (a) es
una distribución N (0, 𝜆2 ), (d) es (1/2)𝜎𝜆 ∙ [𝑥2 (1) − 1], y (f) y (g) son distribuciones N(0, 𝜆2 /3).
Estos resultados se pueden utilizar para construir pruebas de raíz unitaria para observaciones
correlacionadas en serie de dos maneras. Un enfoque, Phillips (1987) y Phillips y Perron (1988),
consiste en seguir estimando las regresiones exactamente en la forma indicada en la Tabla 17.1, pero
para ajustar las estadísticas de los ensayos para tener en cuenta la correlación oscilatoria y la
heteroscedasticidad potencial en la Perturbaciones. Este enfoque se describe en la Sección 17.6. El
segundo enfoque, debido a Dickey y Fuller (1979), es añadir cambios aplazados de y como variables
explicativas en las regresiones de la Tabla 17.1. Esto se describe en la Sección 17.7
17.6. Pruebas Phillips-Perron para las raíces unitarias
Distribuciones Asintóticas para el Caso 2 Supuestos con Alteraciones

Correlacionadas en Serie
Para ilustrar la idea básica detrás de las pruebas Phillips (1987) y Phillips y Perron (1988)
para las raíces unitarias, discutiremos en detalle el tratamiento que proponen para el análogo del
caso de la Sección 17.4. Después de que este caso haya sido revisado, resultados similares serán
indicados para el caso 1 y el caso 4, con detalles desarrollados en ejercicios al final del capítulo.
El Caso 2 de la Sección 17.4 consideró la estimación MCO de 𝛼 y p en el modelo de

regresión
𝑦𝑡 = 𝛼 + 𝑝𝑦𝑡−1 + 𝑢𝑡 [17.6.1]
0 527
bajo la suposición de que el verdadero 𝛼 = 0, p=1 y u es iid. Phillips y Perron (1988) generalizaron
estos resultados al caso en que 𝑢𝑡 está correlacionado en serie y posiblemente también
heteroscedástico. Por ahora asumiremos que el verdadero proceso es
𝑦𝑡 − 𝑦𝑡−1 = 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡
dónde 𝜓(𝐿) y 𝜀𝑡 satisfacen las condiciones de la Proposición 17.3. Las condiciones más generales
bajo las cuales la misma técnica es válida serán discutidas al final de esta sección.
Si [17.6.1] eran una autorregresión estacionaria con |𝑝| < 1, la estimación MCO 𝑝̂ 𝑇
[17.4.15] no daría una estimación consistente de p cuando 𝑢𝑡 está correlacionada en serie. Sin
𝑝
embargo, si p es igual a 1, la tasa T de convergencia de 𝑝̂ 𝑇 resulta que → 1 incluso cuando 𝑢𝑡 está
correlacionado en serie. Phillips y Perron por lo tanto, propone estimar [17.6.1] por MCO incluso
cuando 𝑢𝑡 es correlacionada en serie y luego modificar las estadísticas en la Sección 17.4 para tener
en cuenta la correlación en serie.
Sea 𝛼̂ 𝑇 y 𝑝̂ 𝑇 las estimaciones MCO basadas en [17.6.1] sin ninguna corrección para la
correlación serial; Es decir, 𝛼̂ 𝑇 y 𝑝̂ 𝑇 las magnitudes definidas en [17.4.15].
Si los valores verdaderos son 𝛼 = 0 y 𝑝 = 1, entonces, como en [17.4.22],

−1
𝑇 1/2 𝛼̂ 𝑇 1 𝑇 3/2 ∑ 𝑦𝑡−1 𝑇 −1/2 ∑ 𝑢𝑡
[ ] = [ 1/2 ] [ −1 ], [17.6.2]
𝑇(𝑝̂ 𝑇 − 1) 𝑇 ∑ 𝑦𝑡−1 𝑇 −2 ∑ 𝑦𝑡−1 𝑇 ∑ 𝑦𝑡−1 𝑢𝑡
donde ∑ denota sumación sobre t de 1 a T. También, bajo la hipótesis nula de que 𝛼 = 0 y p=1,
sigue como en [17.4.4] que
𝑦𝑡 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 .
Si 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 como en la Proposición 17.3, entonces 𝑦 es la variable etiquetada 𝜉𝑡 en la

Proposición 17.3, más el valor inconsequencial 𝑦0 . Usando los resultados (f) y (h) de esa
proposición,
3 −1
−1
1 𝑇 −2 ∑ 𝑦𝑡−1 𝐿 1 𝜆. ∫ 𝑊(𝑟)𝑑𝑟
[ ] →[ ]
3
𝑇 −2 ∑ 𝑦𝑡−1 𝑇 −2 ∑ 𝑦𝑡−1 𝜆. ∫ 𝑊(𝑟)𝑑𝑟 𝜆 . ∫[𝑊(𝑟)]2 𝑑𝑟
2
−1
1 0 −1 1 𝜆. ∫ 𝑊(𝑟)𝑑𝑟 1 0 −1
=[ ] [ ] [ ] , [17.6.3]
0 𝜆 𝜆. ∫ 𝑊(𝑟)𝑑𝑟 𝜆2 . ∫[𝑊(𝑟)]2 𝑑𝑟 0 𝜆
dónde el signo integral indica una integración sobre r de 0 a 1. De manera similar, los resultados (a)
y (e) de las Proposiciones 17.3 dan
𝑇 −1⁄2 𝛴𝜇𝑡 𝐿 𝜆.𝑊(1)

[𝑇 −1⁄2 𝛴𝑦 ] → [1{𝜆2 ]
𝑡−1 𝜇𝑡 2
[𝑤(1)]2 −}𝑦0
𝜆.𝑊(1) 0
= [1{𝜆2 ] + [1{𝜆2 −𝑦 }]
[𝑤(1)]2 −1} 2 0
2
1 0 𝜆.𝑊(1) 0
= 𝜆[ ] [1 ] + [1{𝜆2 −𝑦 }]
0 𝜆 2{𝜆2 [𝑤(1)]2 −1} 2 0
[17.6.4]
Sustituyendo [17.6.3] y [17.6.4] en [17.6.2] produce

−1
̂𝑇 𝐿 1
𝑇 1⁄2 𝛼 0 −1 1 ∫ 𝑊(𝑟)𝑑𝑟
[𝑇(𝜌 ]→[ ] [ ]
̂ 𝑇 −1) 0 𝜆 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟
1 0 −1 1 0 𝑊(1) 0
𝑥[ ] {𝜆 [ ] [1{[𝑤(1)]2 ] + [1{𝜆2 −𝑦 }]}
0 𝜆 0 𝜆 2 −1} 2 0
−1
𝜆 0 1 ∫ 𝑊(𝑟)𝑑𝑟 𝑊(1)
=[ ][ ] [1{[𝑤(1)]2 ]
0 1 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 2
−1}
−1
1 0 1 ∫ 𝑊(𝑟)𝑑𝑟 0
+ {[ −1 ] [ ] [1{𝜆2 −𝑦 ]}. [17.6.5]
0 𝜆 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 2 0 }/𝜆
El segundo elemento de este vector sostiene que

−1
𝐿 1 ∫ 𝑊(𝑟)𝑑𝑟 𝑊(1)
𝑇(𝜌̂𝑟 − 1) → [0 1] [ ] [1{[𝑤(1)]2 ]
∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 2
−1}
−1
{𝜆2 −𝑦0 } 1 ∫ 𝑊(𝑟)𝑑𝑟 0
+(1/2) [0 1] [ ] [ ]
𝜆2 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 1
1
{[𝑤(1)]2 −1}−𝑤(1) ∫ 𝑊(𝑟)𝑑𝑟 (1/2){𝜆2 −𝑦0 }
=2 + 𝜆2 { [17.6.6]
∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 ∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]}
El primer término de la última igualdad en [17.6.6] es el mismo que [17.4.28], que describe
la distribución asintótica que 𝑇(𝑝̂ 𝑇 − 1) tendría si 𝑢𝑡 fueron iid. El término final en [17.6.6] es una
corrección para correlación en serie. Tenga en cuenta que si 𝑢𝑡 no está correlacionado en serie,
entonces 𝜓0 = 1 y 𝜓𝑗 = 0 para j=1, 2,…. Por lo tanto, si 𝑢𝑡 no está correlacionado en serie,
entonces 𝜆 = 𝜎2 ∙ [𝜓(1)]2 = 𝜎2 y 𝑦0 = 𝐸(𝑢𝑡2 ) = 𝜎 2 . Por lo tanto, [17.6.6] incluye el resultado
anterior [17.4.28] como un caso especial cuando 𝑢𝑡 no está correlacionado en serie.
Es fácil usar 𝜎̂𝑝̂𝑡 el error estándar de MCO para 𝑝̂ 𝑇 para construir una estadística de
muestra que se puede usar para estimar la corrección para la correlación serial. Sea 𝑌𝑇 la matriz
dfined en [17.4.21] y sea 𝑆𝑇2 la estimación MCO de la varianza de 𝑢𝑡 :
𝑆𝑇2 = (𝑇 − 2)−1 ∑𝑇𝑡=1(𝑦𝑡 − 𝛼̂ 𝑇 − 𝑝̂ 𝑇 𝑦𝑡−1 )2

2
Entonces la distribución asintótica de 𝑇 2 ∙ 𝜎̂𝑃𝑇 se puede encontrar usando el mismo enfoque que
en [17.4.31] a través de [17.4.33]:
−1
𝑇 𝛴𝑦𝑡−1 0
𝑇 2 . 𝜎̂𝜌𝑇 2 = 𝑠𝑇2 [0 1]𝑌𝑇 [𝛴𝑦 ] 𝑌𝑇 [ ]
𝑡−1 𝛴𝑦 2 𝑡−1 1
−1
𝜌 1 0 −1 1 ∫ 𝑊(𝑟)𝑑𝑟 1 0 −1 0
→ 𝑠𝑇2 [0 1] [ ] [ ] [ ] [ ]
0 𝜆 ∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 0 𝜆 1
−1
1 ∫ 𝑊(𝑟)𝑑𝑟 0
= (𝑠𝑇2 /𝜆2 )[0 1] [ ] [ ]
∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 1
1
= (𝑠𝑇2 /𝜆2 ) [17.6.7]
∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2
Se deduce de [17.6.6] que
17.6 Pruebas Phillips-Perron para las raíces unitarias 529

1
𝑇(𝜌̂𝑟 − 1) − 2 (𝑇 2 . 𝜎̂𝜌𝑇 2 /𝑠𝑇2 )(𝜆2 − 𝑦0 )
𝑃 1 1 1
→ 𝑇(𝜌
̂𝑟 − 1) − ( 2 ) 2 (𝜆2 − 𝑦0 )
2 𝜆 ∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]
1
𝐿 {[𝑤(1)]2 −1}−𝑤(1)∫ 𝑊(𝑟)𝑑𝑟
→2 2 [17.6.8]
∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]
Por lo tanto, la estadística en [17.6.8] tiene la misma distribución asintótica [17.4.28] como la
variable tabulada bajo el encabezado Caso 2 en la Tabla B.5.
El resultado [17.6.8] también se puede utilizar para encontrar la distribución asintótica de la

prueba MCO t de p=1:
(𝜌
̂𝑟 −1) ̂𝑟 −1)
𝑇(𝜌
𝑡𝑇 = 𝜎̂𝜌𝑇
= 1⁄2
̂𝜌𝑇 2 }
{𝑇 2 .𝜎
1
2 1 2
𝑃 {[𝑤(1)]2 −1}−𝑤(1)∫ 𝑊(𝑟)𝑑𝑟 1 ⁄
2
→ {2 2 + 2 (𝑇2 . 𝜎
̂ 𝜌 /𝑠2𝑇 ) (𝜆2 − 𝑦0 )} + {𝑇2 . 𝜎
̂𝜌 }
∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟] 𝑇 𝑇
1
2 1 2
{[𝑤(1)]2 −1}−𝑤(1)∫ 𝑊(𝑟)𝑑𝑟 ⁄ 1
=2 2 ÷ {𝑇2 . 𝜎
̂𝜌 } + { (1/𝑠𝑇2 )(𝜆2 − 𝑦0 )} 𝑥{𝑇 2 . 𝜎̂𝜌𝑇 2 ÷
∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟] 𝑇 2
1⁄2
𝑠𝑇2 }
1 1/2
𝑃 {[𝑤(1)]2 −1}−𝑤(1)∫ 𝑊(𝑟)𝑑𝑟 𝜆2
→{ 2
2 } ( 2) 𝑥 {∫[𝑊(𝑟)]2 𝑑𝑟 − [∫𝑊(𝑟)𝑑𝑟]2 }1/2
∫ [𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟] 𝑠𝑇
1 1⁄2
+ { (1/𝑠𝑇2 )(𝜆2 − 𝑦0 )} 𝑥{𝑇 2 . 𝜎̂𝜌𝑇 2 ÷ 𝑠𝑇2 } [17.6.9]
2
con la última convergencia que sigue de [17.6.7]. Además,

𝑝
𝑆𝑇2 = (𝑇 − 2)−1 ∑𝑇𝑡=1(𝑦𝑡 − 𝛼̂ 𝑇 − 𝑝̂ 𝑇 𝑦𝑡−1 )2 → 𝐸(𝑢𝑡2 ) = 𝑦0 [17.6.10]
Por lo tanto, [17.6.9] implica que
𝑦0 1/2 𝑝 1/2{[𝑊(1)]2 − 1} − 𝑊(1) ∫ 𝑊(𝑟)𝑑𝑟

( 2 ) ∙ 𝑡𝑇 →
𝜆 2 1/2
{[𝑊(𝑟)]2 𝑑𝑟 − [∫ 𝑊(𝑟)𝑑𝑟] }
2
+{1/2(𝜆2 − 𝑦0 )/𝜆}𝑥{𝑇 ∙ 𝜎̂𝑃𝑇 ÷ 𝑆𝑇 }. [17.6.11]
Por tanto,
2
(𝑦0 /𝜆2 )1/2 ∙ 𝑡𝑇 − {1/2(𝜆2 − 𝑦0 )/𝜆}×{𝑇 ∙ 𝜎̂𝑃𝑇 ÷ 𝑆𝑇 }
𝐿 1/2{[𝑊(1)]2 −1}−𝑊(1) ∫ 𝑊(𝑟)𝑑𝑟
→ 2 [17.6.12]
{∫[𝑊(𝑟)]𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟] }1/2
que es la misma distribución límite [17.4.36] obtenida de la variable aleatoria tabulada para el caso 2
en la Tabla B.6.
Las estadísticas en [17.6.8] y [17.6.8] requieren el conocimiento de la población parámetro

𝑦0 y 𝜆 . Aunque estos momentos son desconocidos, son fáciles de estimar consistentemente.
2
Desde 𝑦0 = 𝐸(𝑢𝑡2 ), una estimación consistente está dada por

𝑦0 = 𝑇 −1 ∑𝑇𝑡=1 𝑢̂𝑡2 [17.6.13]
dónde 𝑢̂𝑡 = 𝑦1 − 𝛼̂ 𝑇 − 𝜌̂𝑇 𝑦𝑡−1 es la muestra MCO residual. Phillips y Perron utilizaron la
estimación MCO estándar 𝑦̂0 = (𝑇 − 2)−1 ∑𝑇𝑡=1 𝑢̂𝑡2 = 𝑠𝑡2 . Del mismo modo, a partir del resultado
(a) de la Proposición 17.3, 𝜆2 es la varianza asintótica de la media muestral de u:
𝐿
√𝑇 ∙ 𝑢 = 𝑇 −1/2 ∑𝑇𝑡=1 𝑢1 → 𝑁(0, 𝜆2 ) [17.6.14]
Recordando la discusión de la varianza de la media de la muestra en las secciones 7.2 y 10., esta
magnitud puede describirse equivalentemente como
𝜆2 = 𝜎2 ∙ [𝜓(1)]2 = 𝑦0 + 2 ∑𝑥𝑗=1 𝑦𝑗 = 2𝜋𝑠(0) [17.6.15]
dónde 𝑦𝑗 es la autocovariancia 0 jth de 𝑢𝑡 y 𝑠(0) es el espectro de población de 𝑢𝑡 en la frecuencia

cero. Por lo tanto, cualquiera de las estimaciones de esta magnitud propuestas en la Sección 10.5
podría ser utilizado. Por ejemplo, si sólo se consideran pertinentes la primera q autocovarianzas, se
podría utilizar el estimador de Newey-West:
̂0 + 2 ∑𝑞𝑗=1[1 − 𝑗/(𝑞 + 1)]𝑦

𝜆̂2 = 𝑦 ̂𝑗 [17.6.16]
dónde
𝑦̂𝑗 = 𝑇 −1 ∑𝑇𝑡=𝑗+1 𝑢̂𝑡 𝑢̂𝑡−𝑗 [17.6.17]
y 𝑢̂𝑡 = 𝑦𝑡 − 𝛼̂ 𝑇 − 𝑝̂ 𝑇 𝑦𝑡−1 .
En resumen, bajo la hipótesis nula de que la primera diferencia de 𝑦𝑡 es un proceso de

covariación / estacionario cero / media, el enfoque de Phillips y Perron9 es estimar la ecuación
[17.6.1] por MCO y utilizar las fórmulas estándar MCO para calcular 𝑝̂ y su error estándar 𝜎̂𝑃 junto
con el error estándar de la regresión 𝑠. La autocovariancia jth de 𝑢̂𝑡 = 𝑦𝑡 − 𝛼̂ − 𝑝̂ 𝑦𝑡−1 se calcula
entonces a partir de [17.6.17]. Las estimaciones resultantes 𝑦̂0 y 𝜆̂2 se utilizan entonces en [17.6.8]
para construir una estadística que tiene la misma distribución asintótica que la variable tabulada en
la sección del caso 2 de la Tabla B.5. Los ajustes análogos a la prueba estándar MCO t de p=1
descrita en [17.6.12] producen una estadística que puede compararse con la sección caso 2 de la
Tabla B.6
9El procedimiento recomendado por Phillips y Perron difiere ligeramente de aquel del texto. Para ver la relación, escriba la primera línea
de [17.6.7] como
3 −1
1 𝑇 −2 𝛴𝑦𝑡−1 0
𝑇 2 . 𝜎̂𝜌𝑇 2 ÷ 𝑠𝑇2 = [0 1] [ 3 ] [ ]
1
𝑇 −2 𝛴𝑦𝑡−1 𝑇 −2 𝛴𝑦 2 𝑡−1
1
= −2 2
𝑇 𝛴𝑦 𝑡−1 − 𝑇 −3 (𝛴𝑦𝑡−1 )2
1
=
𝑇 −1 [𝑇 −1 𝛴𝑦 2 𝑡−1 − (𝑇 −1 𝛴𝑦𝑡−1 )2 ]
1
𝑇 −1 [𝑇 −1 𝛴(𝑦𝑡−1 − 𝑦̅−1 )2 ]
Donde 𝑦̅−1 ≡ 𝑇 −1 ∑ 𝑦𝑡−1 y la última igualdad se deduce de [4.A.5]. En lugar de esta expresión, Phillips y Perron utilizaron
1
𝑇 −2 ∑(𝑦1 − 𝑦̅ )2
La ventaja de la fórmula en el texto es que es trivial calcular a partir de la salida producida por los paquetes de regresión estándar y la
fórmula idéntica se puede usar para los casos 1,2 y 4.

Ejemplo 17.6
Sea 𝑢̂𝑡 la muestra MCO residual para la regresión de la tasa de interés [17.4.37] del
ejemplo 17.4:
0.211 0.96691
𝑢̂ = 𝑖 − − 𝑖 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … . 168
(0.112) (0.019133) 𝑡−1
Las autocovariancias estimadas de estos residuos de MCO son
1 1
𝑦̂0 = (𝑇) ∑𝑇𝑡=1 𝑢̂𝑡 2 = 0.630 𝑦̂1 = (𝑇) ∑𝑇𝑡=2 𝑢̂𝑡 𝑢̂𝑡−1 = 0.114
1 1
𝑦̂2 = (𝑇) ∑𝑇𝑡=3 𝑢̂𝑡 𝑢̂𝑡−2 = −0.162 𝑦̂3 = (𝑇) ∑𝑇𝑡=4 𝑢̂𝑡 𝑢̂𝑡−3 = 0.064
Por lo tanto, si la correlación serial de 𝑢𝑡 se ti se describe con q=4 autocovariancias,

1 1 1 1
𝜆̂2 = 0.630 + 2 ( ) + (0.114) + 2 ( ) (−0.162) + 2 ( ) (0.064) + 2 ( ) + (0.047)
3 3 3 3
= 0.688
La fórmula usual de MCO para la varianza de los residuos de esta regresión es
𝑆 2 = (𝑇 − 2)−1 ∑𝑇𝑡=1 𝑢̂𝑡2 = 0.63760
Por lo tanto, el Phillips-Perron 𝜌 es estadística es

2
𝑇(𝑝̂ − 1) − (1/2) ∙ (𝑇 2 ∙ 𝜎̂𝑝2 /𝑆 2 ) ∙ (𝜆̂ − 𝑦̂ 0 )
= 168(0.9661 − 1) − 1/2{[(168)(0.019133)]}2 /(0.63760)}(0.688 − 0.630)
= −6.03
Comparando esto con el valor crítico del 5% para el caso 2 de la Tabla B.5, vemos que
−6.03 > −13.8. Por lo tanto, aceptamos la hipótesis nula de que los datos de la tasa de
interés podrían haber sido generados de forma plural por un simple proceso de raíz
unitaria.
Similarmente, el ajuste a la estadística t del Ejemplo 17.4 descrito en [16.7.2] es
𝑦̂ 1/2 2
( 20 ) 𝑡 − {1/2(𝜆̂ − 𝑦̂0 )(𝑇 ∙ 𝜎̂𝑝 /𝑠} ÷ 𝜆̂
𝜆̂
1
= {(0.630)/(0.688)}2 (0.96691 − 1)/0.019133
1
−{(2) (0.688 − 0.630)[(168)(0.0193133)/√(0.63760)] ÷ √(0.688)}
= −1.80
Desde −1.80 > −2.89, la hipótesis nula de una raíz unitaria es nuevamente aceptada al
nivel del 5%.

Pruebas Phillips-Ferron para los Casos 1 y 4
Las distribuciones asintóticas en [17.6.8] y [17.6.12] se derivaron en la suposición de que el
verdadero proceso para la primera diferencia de 𝑦𝑡 está correlacionada en serie con la media cero. A
pesar de que el verdadero proceso raíz unitaria no mostró ninguna deriva, se asumió que la
regresión estimada de MCO incluyó un término constante como en el caso 2 de la sección 17.4.
Las mismas ideas pueden utilizarse para el caso generalizado 1 o el caso 4 de la Sección
17.4, y las estadísticas [17.6.8] y [17.6.12] pueden compararse en cada una con los valores de
correlación en las Tablas B.5 y B.6. Estos resultados se resumen en la Tabla 17.2. Se invita al lector
a confirmar estas afirmaciones en los ejercicios al final del capítulo.
Ejemplo 17.7
Los residuos de la regresión PNB [17.4.56] tienen las siguientes covariancias estimadas:
𝑦̂0 = 1.136 𝑦̂1 = 0.424 𝑦̂2 = 0.285

𝑦̂3 = 0.006 𝑦̂4 = −0.110
de las cuales
𝜆̂2 = 1.136 + 2{4/5(0.424) + 3/5(0.285) + 2/5(0.006) − 1/5(0.110)} = 2.117
También 𝑠 2 = 1.15627. Por lo tanto, para estos datos la prueba 𝜌 de Phillips-Perron es

2
𝑇(𝑝̂ − 1) − 1/2(𝑇 2 − 𝜎̂𝑝2 /𝑠 2 )(𝜆̂ − 𝑦̂0 )
[(168)(0.019304)]2
= 168(0.96252 − 1) − 1/2 { 1.15627
} (2.117 − 1.136)
= −10.76
Dado −10.76 > −21.0, la hipótesis nula de que log PNG sigue un proceso de raíz
unitaria con o sin deriva se acepta al nivel de 5%.
La prueba de t Phillips-Perron es
𝑦̂ 1/2 2
( 20 ) 𝑡 − {1/2(𝜆̂ − 𝑦̂0 )(𝑇 ∙ 𝜎̂𝑝 /𝑠} ÷ 𝜆̂
𝜆̂
1
= {(1.136)/(2.117)}2 (0.96691 − 1)/0.019133
−{(1/2)(2.117 − 1.136)[(168)(0.019304)/√1.15627] ÷ √(2.117)}
= −2.44
Dado −2.44 > −3.44, la hipótesis nula de una raíz unitaria es nuevamente aceptada.

Más Procesos Generales para 𝑢𝑡
El estimador de Newey-West 𝜆̂2 en [17.6.16] puede proporcionar una estimación
consistente de 𝜆̂2 para un proceso (∞), establece que q, el parámetro de truncamiento lag, va al
infinito a medida que crece el tamaño de la muestra T y siempre que q crezca lo suficientemente
lento Relativo a T. Phillips (1987) estableció tal consistencia suponiendo que 𝑞𝑇 /𝑇 1/4 → 0; Por
ejemplo, 𝑞𝑇 = 𝐴 ∙ 𝑇 1/5 satisface este requerimiento. Los resultados de Phillips justifican el uso de
un valor mayor de 𝑞 en la práctica. Las investigaciones de Monte Carlo han sido proporcionadas
por Phillips y Perron, Schwert (1989) y Kim y Schmidt (1990), aunque ninguna regla simple emerge
de estos estudios. Los procedimientos de Andrew (1991) podrían ser utilizados en este contexto.
También se pueden obtener resultados asintóticos bajo hipótesis más débiles sobre 𝑢𝑡 que
los de la Proposición 17.3. Por ejemplo, el lector puede notar a partir de la prueba del resultado
2
17.3(c) que el parámetro 𝑦0 aparece porque es el plim de 𝑇 −1 × ∑𝑇𝑡=1 𝑢𝑡 . Bajo las condiciones de la
proposición, la ley de grandes números asegura que este plim es sólo el valor esperado 𝑢𝑡2 , cuyo
valor esperado fue denotado 𝑦0 . Sin embargo, incluso si los datos se distribuyen heterogéneamente
2
con 𝐸(𝑢𝑡2 ) = 𝑦0 , puede ser que 𝑇 −1 × ∑𝑇𝑡=1 𝑦0 converja a alguna constante. Si 𝑇 −1 ∑𝑇𝑡=1 𝑢𝑡
también converge a esta constante, entonces esta constante desempeña el papel de 𝑦0 en una
generalización del resultado 173 (e).
Similarmente, 𝑢̂ 𝑇 denote la media muestral de algún proceso heterogeneamente distribuido

con un proceso poblacional con una media de la población cero:
𝑢̂𝑇 ≡ ∑𝑇𝑡=1 𝑢𝑡
y dado que 𝜆̂2𝑇 denota media T veces la varianza de 𝑢̅𝑡 :
𝜆2𝑇 = 𝑇 ∙ 𝑉𝑎𝑟( 𝑢
̅𝑡) = 𝑇 −1
∙ 𝐸(𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 )2 .
La media 𝑢̅𝑡 de la muestra todavía puede satisfacer el teorema del límite central:
𝐿
𝑇 −1/2 × ∑𝑇𝑡=1 𝑢𝑡 → 𝑁(0, 𝜆2 )
o
L
T −1/2 ∑Tt=j+1 ut → λ ∙ W(1) ,
dónde
λ2 ≡ lim λ2T [17.6.18]

T→∞
proporcionando una base para generalizar el resultado 17.3 (a).
Si ut era un proceso de covarianza-estacionario con auto-covarianzas absolutamente

sumables, entonces la Proposición 7.5 (b) implicaría que lim λ2T = ∑xj=−x yj .
T→∞
Recordando [7.2.8], la expresión [17.6.18] sería en este caso simplemente otra manera de
describir el parámetro λ2 en la Proposición 17.3.
Así, los parámetros y0 y λ2 en [17.6.8] y [17.6.12] pueden definirse más generalmente como
y0 ≡ lim T −1 ∑Tt=1 E(u2t ) [17.6.19]

T→∞

TABLA 17.2
Resumen de las pruebas Phillips-Perron para Raíces Unitarias
Caso 1:

Verdadero proceso: 𝑦𝑡 = 𝑦𝑡−1 + 𝑢𝑡
𝑍𝑝 tiene la misma distribución asintótica como la variable descrita en el Caso 1 en la Tabla
B.5.
𝑍𝑡 , tiene la misma distribución asintótica como la variable descrita en el Caso 1 en la Tabla
B.6
Caso 2:
Regresión estimada: 𝑦𝑡 = 𝛼 + 𝑝𝑦𝑡−1 + 𝛿𝑡 + 𝑢𝑡

Verdadero proceso: 𝑦𝑡 = 𝑦𝑡−1 + 𝑢𝑡
B.5.
𝑍𝑡 tiene la misma distribución asintótica como la variable descrita en el Caso 2 en la Tabla
B.6.
Caso 4:
Regresión estimada: 𝑦𝑡 = 𝛼 + 𝑝𝑦𝑡−1 + 𝛿𝑡 + 𝑢𝑡

Verdadero proceso: 𝑦𝑡 = 𝛼 + 𝑦𝑡−1 + 𝑢𝑡 𝛼 cualquiera
B.5.
𝑍𝑡 tiene la misma distribución asintótica como la variable descrita en el Caso 4 en la Tabla
B.6.
La regresión estimada indica la forma en que se estima la regresión, utilizando las observaciones t =
1, 2, … . T, T y el condicionamiento en la observación t=0.
El verdadero proceso describe la hipótesis nula bajo la cual se calcula la distribución. En cada caso,
ut se supone que tiene cero medio, pero puede ser heterogéneamente distribuido y correlacionado en serie
con
lim T −1 ∑Tt=1 E(u2t ) = y0
T→x
lim T −1 E(u1 + u2 + ⋯ + ut )2 = λ2
T→x
Zp es la siguiente estadística:
̂2P + sT2 }(λ̂2T − ŷ 0.T )
Zp ≡ T(p̂T − 1) − (1/2){T 2 ∙ σ
dónde
ŷj.T = T −1 ∑Tt=j+1 ût ût−j
ût = MCO muestra residual de la regresión estimada
q
λ̂2T = ŷ0.T + 2 ∙ ∑j=1[1 − j/(q + 1)}]ŷj.T
sT2 = (T − k)−1 ∑Tt=j+1 û2t
K= número de parámetros en regresión estimada
̂σPT = error estándar MCO para p̂
Zt es la siguiente estadística
1
Zt ≡ (ŷ0.T /λ̂2T )2 ∙ (p̂T − 1)/σ
̂ PT
̂ 2 ̂
−(1/2)(λT − ŷ0.T )(1/λT ){T ∙ σ ̂PT ÷ sT }.

λ2 ≡ lim T −1 ∑Tt=1 E(u1 + u2 + ⋯ + uT )2 [17.6.20]
T→∞
Phillips (1987) y Perron y Phillips (1988) derivan [17.6.8] y [17.6.12] asumiendo que 𝑢𝑡 es un
proceso de media cero pero heterogéneamente distribuido que satisface ciertas restricciones sobre
la dependencia en serie y momentos más altos. Desde esta perspectiva, las expresiones [17.6.19] y
[17.6.20] se pueden utilizar como definiciones de los parámetros 𝑦0 y 𝜆2 . Claramente, los
estimadores [17.6.13] y [17.6.16] continúan siendo apodera para esta interpretación alternativa.
Sobre la Equivalencia Observacional de los Procesos Raíz Unitaria y

Covarianza-Estacionaria
Vimos en la Sección 15.4 que, dado cualquier proceso I (0) para 𝑦𝑡 y cualquier tamaño de
muestra finito T, existe y I (0) proceso que será imposible distinguir de la representación I (0) sobre
la base de la primera y Segundos momentos de y. Sin embargo, los procedimientos de Phillips y
Perron parecen ofrecer una forma de probar la hipótesis nula de que la muestra se generó a partir
de un proceso I (0) arbitrario. ¿Qué significa si la prueba nos lleva a rechazar la hipótesis nula de
que 𝑦𝑡 es I (0) cuando sabemos que existe un proceso I (0) que describe la muestra arbitrariamente
bien?
Se puede obtener una idea de esta cuestión considerando el ejemplo de la ecuación [14.5.8],
(1 − 𝐿)𝑦𝑡 = (1 + 𝜃𝐿)𝜀𝑡 [17.6.21]
dónde 𝜃es ligeramente mayor que -1 y 𝜀𝑡 i.i.d. Con media cero y varianza 𝜎 2 . El modelo [17.6.21]
implica que
𝑦𝑡 = (𝜀𝑡 + 𝜃𝜀𝑡−1 ) + (𝜀𝑡−1 + 𝜃𝜀𝑡−2 ) + ⋯ + (𝜀𝑡 + 𝜃𝜀0 ) + 𝑦0
= 𝜀𝑡 + (1 + 𝜃)𝜀𝑡−1 + (1 + 𝜃)𝜀𝑡−2 + ⋯ + (1 + 𝜃)𝜀𝑡 + 𝜃𝜀𝑡 + 𝑦0
= 𝜀𝑡 + (1 + 𝜃)𝜉𝑡−1 + 𝜃𝜀𝑡 + 𝑦0
dónde
𝜉𝑡−1 ≡ 𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡−1
Para t grande, la variable y, está dominada por el componente raíz unitaria. (1 + 𝜃)𝜉𝑡−1 , y los
resultados asintóticos están regidos por este término. Sin embargo, si 𝜃 es cercano a -1, entonces en
la muestra finita 𝑦𝑡 se comportaría esencialmente como la serie de ruido blanco 𝜀1 más una
constante (𝜃𝜀0 + y0 ). En este caso, es probable que la prueba de Phillips-Perron rechace la
hipótesis nula de una raíz unitaria en muestras finitas aunque sea verdadera10. Por ejemplo, Schwert
(1989) generó muestras Monte Carlo de tamaño T = 1000 según la unidad Modelo raíz [17.6.21]
con 𝜃 = −0.8. La prueba de Phillips-Perron que se supone que rechaza sólo el 5% del tiempo
realmente rechazó la hipótesis nula en prácticamente todas las muestras, ¡aunque la hipótesis nula es
verdadera! Similares resultados fueron reportados por Phillips y Perron (1988) y Kim y Schmidt
(1990).
10 Para una discusión más detallada, véase Phillips y Perron (1988, página 344).

Campbell y Perron (1991) argumentaron que tales falsos rechazos no son necesarios una
cosa mala. Si 𝜃 está cerca de -1, entonces para muchos propósitos un modelo I (0) puede
proporcionar una descripción más útil del proceso en [17.6.21] que el modelo verdadero I (0). En
apoyo de esta afirmación, que generó muestras del proceso [17.6.21] y estimado por MCO, tanto un
proceso autorregresivo en los niveles,
𝑦𝑡 = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦𝑡−𝑝 + 𝜀𝑡
y el proceso autorregresivo en las diferencias,
∆𝑦1 = 𝛼 + 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝 ∆𝑦𝑡−𝑝 + 𝜀𝑡
Encontraron que para 𝜃 cerca de -1, la predicción basada en los niveles 𝑦𝑡 tendía a rendir mejor que
aquellos basados en las diferencias ∆𝑦1 , aunque el verdadero proceso de generación de datos fue
I(0).
Una cuestión relacionada, por supuesto, surge con falsas aceptaciones. Claramente, si el
verdadero modelo es
𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝜀𝑡 [17.6.22]
Con p ligeramente por debajo de 1, entonces la hipótesis nula de que p=1 es probable que sea
aceptada en muestras pequeñas, a pesar de que es falsa. El valor de aceptar una falsa hipótesis nula
en este caso es que la imposición de la condición p=1 puede producir una mejor pronóstico que
uno basado en una estimación 𝑝̂ 𝑇 particularmente dado el sesgo a la baja de la muestra 𝑝̂ 𝑇 . Además,
cuando p está cerca de 1, los valores de la Tabla B.6 podrían dar una mejor aproximación de la
pequeña muestra a la distribución de (𝑝̂ 𝑇 − 1) ÷ 𝜎̂𝑃𝑇 que las tablas tradicionales t11
Esta discusión subraya que el objetivo de las pruebas de raíz unitaria es encontrar una
representación parsimoniosa que proporcione una aproximación razonable al proceso verdadero,
en oposición a determinar si el verdadero proceso es literalmente I (1).
17.7. Propiedades asintóticas de una autoregresión de orden P

y la prueba aumentada de Dickey-Fuller para raíces
unitarias
Las pruebas de Phillips-Perron se basaron en simples regresiones MCO de 𝑦𝑡 en su propio valor
retrasado y posiblemente una tendencia constante o temporal. Las correcciones para la correlación
seriada se hicieron entonces al coeficiente estándar de MCO y t estadística. Esta sección discute un
enfoque alternativo, debido a Dickley y Fuller (1979), que controla la correlación serial incluyendo
términos autorregresivos de orden superior en la regresión.
Una Representación Alternativa de un Proceso AR (p)

Supongamos que los datos realmente se generaron a partir de un proceso AR (p)
(1 − 𝜃1 𝐿 − 𝜃2 𝐿2 − ⋯ − 𝜃𝑝 𝐿𝑝 )𝑦𝑡 = 𝜀𝑡 [17.7.1]
11 Véase Evans y Savin (1981, 1984) para una descripción de las distribuciones de muestras pequeñas.
0 537
Donde {𝜀𝑡 } es una secuencia i.i.d con media cero, varianza 𝜎 2 y finito cuarto momento. Es útil
escribir la autorregresión [17.7.1] en una forma ligeramente diferente. Para ello, defina
𝑝 ≡ ∅1 + ∅2 + ⋯ + ∅𝑝 [17.2.2]
𝜁1 ≡ −[∅𝑗+1 + ∅𝑗+2 + ⋯ + ∅𝑝 ] para 𝑗 = 1, 2, … , 𝑝 − 1. [17.7.3]
Obsérvese que para cualquier valor de 𝜙1 , 𝜙2 , … , 𝜙𝑝 los siguientes polinomios en L son

equivalentes:
(1 − 𝑝𝐿) − (𝜁1 𝐿 + 𝜁2 𝐿2 + ⋯ + 𝜁𝑝−1 𝐿𝑝−1 )(1 − 𝐿)
= 1 − 𝑝𝐿 − 𝜁1 𝐿 + 𝜁1 𝐿2 − 𝜁2 𝐿2 + 𝜁2 𝐿3 − ⋯ − 𝜁𝑝−1 𝐿𝑝−1 + 𝜁𝑝−1 𝐿𝑝
= 1 − (𝑝 + 𝜁1 )𝐿 − (𝜁2 − 𝜁1 )𝐿2 − (𝜁3 − 𝜁2 )𝐿3 − ⋯ − (𝜁𝑝−1 − 𝜁𝑝−2 )𝐿𝑝−1 − (−𝜁𝑝−1 )𝐿𝑝
= 1 − [(∅1 + ∅2 + ⋯ + ∅𝑝 ) − (∅2 + ∅3 + ⋯ + ∅𝑝 )]𝐿
−[−(∅3 + ∅4 + ⋯ + ∅𝑝 ) + (∅2 + ∅3 + ⋯ + ∅𝑝 )]𝐿2 − ⋯
−[−(∅𝑝 ) + (∅𝑝−1 + ∅𝑝 )]𝐿𝑝−1 − (∅𝑝 )𝐿𝑝
= 1 − ∅1 𝐿 − ∅2 𝐿 − ⋯ − ∅𝑝−1 𝐿𝑝−1 − ∅𝑝 𝐿𝑝 [17.7.4]
Así, la autorregresión [17.7.1] puede ser equivalentemente escrita
{(1 − 𝑝𝐿) − (𝜁1 𝐿 + 𝜁2 𝐿2 + ⋯ + 𝜁𝑝−1 𝐿𝑝−1 )(1 − 𝐿)}𝑦1 = 𝜀𝑡 [17.7.5]
𝑦1 = 𝑝𝑦𝑡−1 + 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝜀𝑡 [17.7.6]
Supongamos que el proceso que generó 𝑦1 contiene una sola raíz unitaria; esto es,
supongamos que en la raíz de
(1 − ∅1 𝑧 − ∅2 𝑧 2 − ⋯ − ∅𝑝 𝑧 𝑝 ) = 0 [17.7.7]
es unidad
1 − ∅1 − ∅2 − ⋯ − ∅𝑝 = 0 [17.7.8]
y todas las demás raíces de [17.7.7] están fuera del círculo unitario. Obsérvese que [17.7.8] implica
que el coeficiente 𝜌 en [17.7.2] es unidad. Además, cuando p=1, la expresión [17.7.4] implicaría
(1 − ∅1 𝑧 − ∅2 𝑧 2 − ⋯ − ∅𝑝 𝑧 𝑝 )
= (1 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 2 )(1 − 𝑧) [17.7.9]
De los valores p de z que hacen que el lado izquierdo de [17.7.9] sea cero, uno es z = 1 y se supone
que todas las otras raíces están fuera del círculo unitario. Lo mismo debe ser cierto para el lado
derecho también, lo que significa que todas las raíces de
(1 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑝 𝑧 𝑝−1 ) = 0
fuera del círculo de la unidad. Bajo la hipótesis nula de que p=1, la expresión [17.7.5] podría
escribirse como

(1 − 𝜁1 𝐿 − 𝜁2 𝐿2 − ⋯ − 𝜁𝑝−1 𝐿𝑝−1 )∆𝑦𝑡 = 𝜀𝑡
∆𝑦𝑡 = 𝑢𝑡 [17.7.10]
dónde
𝑢𝑡 = (1 − 𝜁1 𝐿 − 𝜁2 𝐿2 − ⋯ − 𝑝 − 1𝐿𝑝−1 )−1 𝜀𝑡 .
La ecuación [17.7.10] indica que 𝑦𝑡 se comporta como la variable 𝜉𝑡 descrita en la Proposición 17.3,
con
𝜓(𝐿) = (1 − 𝜁1 𝐿 − 𝜁2 𝐿2 − ⋯ − 𝜁𝑝−1 𝐿𝑝−1 )−1.
Una de las ventajas de escribir la autorregresión de [17.7.1] en la forma equivalente de

[17.7.6] es que sólo uno de los regresores en [17.7.6, a saber,𝑦𝑡−1 , es I (1), mientras que todos de los
otros regresores (∆𝑦𝑡−1 , ∆𝑦𝑡−2 , … , ∆𝑦1−𝑝+1 ) son estacionarios. Así, [17.7.6] en la forma canónica
Sims, Stock y Watson, originallu propuesto para este problema por Fuller (1976). Dado que no se
necesita conocimiento de ningún parámetro poblacional para escribir este modelo en esta forma
canónica, en este caso es conveniente estimar los parámetros por estimación directa de MCO de
[17.7.6].
Los resultados que generalizan los del caso 1 en la Sección 17.4 se obtienen cuando la
regresión se estima como se escribe en [17.7.6] sin un término constante. Los casos 2 y 3 se
generalizan al incluir un término constante en [17.7.6], mientras que el caso 4 se generaliza al incluir
un término constante y una tendencia temporal en [17.7.6]. Por ejemplo, la regresión del caso 2 se
discute en detalle. Los resultados comparables para el caso 1, el caso 3 y el caso 4 se resumirán en la
Tabla 17.3 más adelante en esta sección, con detalles desarrollados en ejercicios al final del capítulo.
Caso 2. La Autorregresión Estimada incluye un Término Constante,

pero los datos fueron realmente generados por una Autorregresión de Raíz
Unitaria sin deriva
Siguiendo la convención usual de notación para la estimación de autorregresión de MCO,
suponemos que la muestra inicial es de tamaño T+ p, con observaciones numeradas {𝑦−𝑝+1 +
𝑦−𝑝+2 + ⋯ . 𝑦𝑡 } y condición en las primeras p observaciones. Estamos interesados en las
propiedades de la estimación de MCO de
𝑦𝑡 = 𝜁1 ∆𝑡−1 + 𝜁2 ∆𝑡−2 + ⋯ + 𝜁𝑝 ∆𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝜀𝑡
≡ 𝑥𝑡𝑡 𝛽 + 𝜀𝑡
[17.7.11]
𝑡
dónde 𝛽 ≡ (𝜁1 , 𝜁2 , … , 𝜁𝑝−1 , 𝛼, 𝑝) y 𝑦𝑡 ≡ (∆𝑦𝑡−1 , ∆𝑦𝑡−2 , … , ∆𝑦1−𝑝+1 , 1, 𝑦𝑡−1 ). La derivación de
la estimación MCO 𝑏𝑇 del valor verdadero 𝛃 viene dada por
𝑏 − β = [∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 ][∑𝑇𝑡=1 𝑋𝑡 𝜀𝑡 ] . [17.7.12]
Dejando 𝑢𝑡 ≡ 𝑦𝑡 − 𝑦𝑡−1 los términos individuales en [17.7.12] son
∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 = [17.7.13]
17.7 Propiedades asintóticas de una autoregresión de orden P y la prueba aumentada de

Dickey-Fuller para raíces unitarias 539
2
∑ 𝑢𝑡−1 ∑ 𝑢𝑡−1 𝑢𝑡−2 … ∑ 𝑢𝑡−1 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−1 ∑ 𝑢𝑡−1 𝑦𝑡−1
∑ 𝑢𝑡−2 𝑢𝑡−1 2
∑ 𝑢𝑡−2 … ∑ 𝑢𝑡−1 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−2 ∑ 𝑢𝑡−2 𝑦𝑡−1
⋮ ⋮ … ⋮ ⋮ ⋮
∑ 𝑢𝑡−𝜌+1 𝑢𝑡−1 ∑ 𝑢𝑡−𝜌+1 𝑢𝑡−2 … ∑ 𝑢2 𝑡−𝜌+1 ∑ 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−𝜌+1 𝑦𝑡−1
∑ 𝑢𝑡−1 ∑ 𝑢𝑡−2 … ∑ 𝑢𝑡−𝜌+1 𝑇 ∑ 𝑦𝑡−1
[ ∑ 𝑦𝑡−1 𝑢𝑡−1 ∑ 𝑦𝑡−1 𝑢𝑡−2 … ∑ 𝑦𝑡−1 𝑢𝑡−𝜌+1 ∑ 𝑦𝑡−1 2
∑ 𝑦𝑡−1 ]
∑ 𝑢𝑡−1 𝜀𝑡
∑ 𝑢𝑡−2 𝜀𝑡
⋮
∑𝑇𝑡=1 𝑋𝑡 𝜀𝑡 = ∑ 𝑢 [17.7.14]
1−𝑝+1 𝜀𝑡
∑ 𝜀𝑡
[ ∑ 𝑦𝑡−1 𝜀𝑡 ]
con ∑ denotando sumatoria sobre 𝑡 = 1, 2, … , 𝑇.
Bajo la hipótesis nula de que 𝛼 = 0 y P=1, vimos en [17.7.10] que 𝑦𝑡 se comporta como
𝜉 = 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 en la Proposición 17.3. Consultando las tasas de convergencia en la
Proposición 17.3, para este caso la matriz de escalamiento debe ser
√𝑇 0 ⋯ 0 0
0 √𝑇 ⋯ 0 0
𝑌𝑇
≡ ⋮ ⋮ ⋮ ⋮ ⋮ [17.7.15]
(𝑝 + 1𝑥𝑝 + 1)
0 0 ⋯ √𝑇 0
[0 0 ⋯ 0 𝑇]
Premultiplicar [17.7.12] por 𝑌𝑇 como en [17.4.20] resulta en
𝑌𝑇 (𝑏𝑇 − 𝛽) = {𝑌𝑇−1 [∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 ]𝑌𝑇−1 }−1 {𝑌𝑇−1 [∑𝑇𝑡=1 𝑋𝑡 𝜀𝑡 ]}. [17.7.16]
Consideremos la matriz 𝑌𝑇−1 ∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 𝑌𝑇−1. Los elementos en el bloque (p x q) superior izquierdo
de ∑ 𝑋𝑡 𝑋𝑡𝑡 se dividen por 𝑇 , los primeros elementos p de la fila p+1 o columna (p + 1) se dividen
por 𝑇 3/2 , y la fila (p+1), columna (p+1) de ∑ 𝑋𝑡 𝑋𝑡𝑡 se divide por 𝑇 2 . Además,
𝑝
𝑇 −1 ∑ 𝑢𝑡−𝑗 𝑢𝑡−𝑗 → 𝑦|𝑖−𝑗| del resultado (c) de la Proposición 17.3
𝑝
𝑇 −1 ∑ 𝑢𝑡−𝑗 → 𝐸(𝑢𝑡−𝑗 ) = 0 de la ley de grandes números
𝑃
𝑇 −3/2 ∑ 𝑦𝑡−𝑗 𝑢𝑡−𝑗 → 0 de la Proposición 17.3(e)
𝐿
𝑇 −3/2 ∑ 𝑦𝑡−𝑗 → 𝜆 ∙ ∫ 𝑊(𝑟)𝑑𝑟 de la Proposición 17.3(f)
𝐿
2
𝑇 −2 ∑ 𝑦𝑡−1 → 𝜆2 ∙ ∫ 𝑊(𝑟)2 𝑑𝑟 de la Proposición 17.3(h),
dónde
𝑦 = 𝐸{(∆𝑦𝑡 )(∆𝑦𝑡−1 )}
𝜆 = 𝜎 ∙ 𝜓(1) = 𝜎/(1 − 𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 )
𝜎 2 = 𝐸(𝜀𝑡2 ) [17.7.17]
y el signo integral indica la integración sobre x de 0 a 1. Así,

𝑌 −1 𝑡 −1
𝑇 [𝛴𝑋𝑡 𝑋𝑡 ]𝑌 𝑇
𝛾0 𝛾1 … 𝛾𝑝−2 0 0
𝛾1 𝛾0 … 𝛾𝑝−3 0 0
𝐿 𝜆. ∫𝑊(𝑟)𝑑𝑟 ⋮ … ⋮ ⋮ ⋮
→ 𝛾𝑝−3 𝛾𝑝−3 … 𝛾0 0 0
𝜆. ∫𝑊(𝑟)𝑑𝑟 0 … 0 1 𝜆. ∫𝑊(𝑟)𝑑𝑟
2
[ 0 0 … 𝜆. ∫𝑊(𝑟)𝑑𝑟 𝜆. ∫𝑊(𝑟)𝑑𝑟 𝜆2 . ∫[𝑊(𝑟)] 𝑑𝑟]
𝑉 0
=[ ] [17.7.18]
0 𝑄
dónde
𝑦0 𝑦1 ⋯ 𝑦𝑝−2
𝑦1 𝑦0 ⋯ 𝑦𝑝−3
𝑉≡[ ⋮ ⋮ ⋯ ⋮ ] [17.7.19]
𝑦𝑝−2 𝑦𝑝−3 ⋯ 𝑦0
1 𝜆 ∙ ∫ 𝑊(𝑟)𝑑𝑟
𝑄≡[ 2 2 ] [17.7.20]
𝜆 ∙ ∫ 𝑊(𝑟)𝑑𝑟 𝜆 ∙ ∫ 𝑊(𝑟)] 𝑑𝑟
Siguiente, considerer el Segundo término en [17.7.16],
𝑇 −1/2 ∑ 𝑢𝑡−1 𝜀𝑡
𝑇 −1/2 ∑ 𝑢𝑡−2 𝜀𝑡
⋮
𝑌𝑇−1 [∑ 𝑋𝑡 𝜀𝑡 ] = 𝑇 −1/2 ∑ 𝑢 [17.7.21]
1−𝑝+1 𝜀𝑡
−1/2 ∑
𝑇 𝜀𝑡
−1 ∑
[ 𝑇 𝑦𝑡−1 𝜀𝑡 ]
Los primeros elementos p-1 de este vector son √𝑇 veces la media muestral de una secuencia de
diferencias de martingala cuya matriz de varianza-covarianza es
𝑢𝑡−1 𝜀𝑡
𝑢 𝜀
𝐸 [ 𝑡−2 𝑡 ] [𝑢𝑡−1 𝜀𝑡 𝑢𝑡−1 𝜀𝑡 … 𝑢𝑡−𝑝+1 𝜀𝑡 ]
⋮
𝑢𝑡−𝑝+1 𝜀𝑡
𝑦0 𝑦1 ⋯ 𝑦𝑝−2
𝑦1 𝑦 0 ⋯ 𝑦𝑝−3
= 𝜎2 [ ⋮ ⋮ ⋯ ⋮ ]
𝑦𝑝−2 𝑦𝑝−3 ⋯ 𝑦0
= 𝜎 2 𝑉. [17.7.22]
Así, los primeros términos de P-1 en [17.7.21] satisfacen el teorema del límite central usual,
𝑇 −1/2 ∑ 𝑢𝑡−1 𝜀𝑡
𝑇 −1/2 ∑ 𝑢𝑡−2 𝜀𝑡
𝐿
⋮ → ℎ𝑡 ~𝑁(0, 𝜎 2 𝑉). [17.7.23]
−1/2 ∑
𝑇 𝑢1−𝑝+1 𝜀𝑡
[ ]

La distribución de los dos últimos elementos en [17.7.21] puede obtenerse de los resultados (a) y (d)
de la Proposición 17.3:
𝑇 −1/2 ∑ 𝜀𝑡 𝐿 𝜎 ∙ 𝑊(1)
[ −1 ] → ℎ2 ~ [ 2 ] [17.7.24]
𝑇 ∑ 𝑦𝑡−1 𝜀𝑡 1/2𝜎𝜆 ∙ {[𝑊(1)] − 1}
La sustitución de [17.7.18] por [17.7.24] en [17.7.16] da lugar a
𝐿 𝑉 0 −1 ℎ1 𝑉 −1 ℎ
𝑌𝑇 (𝑏𝑇 − 𝛽) → [ ] [ ] = [ −1 1 ]
0 𝑄 ℎ2 𝑄 ℎ1
[17.7.25]
Coeficientes en ∆𝑦𝑡−𝑗
Los primeros p-1 elementos de β son 𝜁1 , 𝜁2 , … , 𝜁𝑝−1 , que son los coeficientes de los
regresores estacionarios de media cero (∆𝑦𝑡−1 , ∆𝑦𝑡−2 , … , (∆𝑦𝑡−𝑝+1 ). El bloque que consiste en los
primeros elementos p - 1 en [17.7.25] indica que
𝜁1.𝑇 − 𝜁1
𝜁2.𝑇 − 𝜁0 𝐿
√𝑇 [ ⋮ ] → 𝑉 −1 ℎ1 [17.7.26]
𝜁̂𝑝−1.𝑇 − 𝜁𝑝−1
Recordando de [17.7.23] que ℎ1 ~𝑁(0, 𝜎 2 𝑉), se sigue que 𝑉 −1 ℎ1 ~𝑁(0, 𝜎 2 𝑉 −1 ) , o
𝜁1.𝑇 − 𝜁1 0 𝑦0 𝑦1 ⋯ 𝑦𝑝−2 −1
𝜁2.𝑇 − 𝜁2 𝐿 𝑦 𝑦 ⋯ 𝑦𝑝−3
] → 𝑁 [0] , 𝜎 2 [ ⋮
1 0
√𝑇 [ ⋮ ⋮ ⋯ ⋮ ] , [17.7.27]
⋮
𝜁̂𝑝−1.𝑇 − 𝜁𝑝−1 ( 0 𝑦𝑝−2 𝑦𝑝−3 ⋯ 𝑦0 )
dónde 𝑦1 = 𝐸{(∆𝑦𝑡 )(∆𝑦𝑡−1 )}.
Esto significa que una hipótesis nula que implica los coeficientes de los regresores
estacionarios (𝜁1 , 𝜁2 , … , 𝜁𝑝−1 ) en [17.7.11] se puede probar de la manera habitual, con el estándar t
y f estadísticas asintóticamente válido. Para ver esto, supongamos que la hipótesis nula es 𝐻0 : 𝑅𝛽 =
𝑟 para R una matriz conocida [𝑚 𝑥 (𝑝 + 1)] donde m es el número de restricciones. La forma
Wald de la prueba MCO 𝑥 2 [8.2.23] está dada por
𝑋𝑇2 = (𝑅𝑏𝑇 − 𝑟)′{𝑠2𝑇 𝑅[∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 ]−1 𝑅′}−1 (𝑅𝑏𝑇 − 𝑟)

′ −1
= [𝑅√𝑇(𝑏𝑇 − 𝛽)] {𝑠2𝑇 𝑅. √𝑇[∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡𝑡 ]−1 √𝑇. 𝑅′}
𝑥[𝑅. √𝑇(𝑏𝑇 − 𝛽)], [17.7.28]
dónde
𝑆𝑡2 = [𝑇 − (𝑝 + 1)]−1 ∑𝑇𝑡=1(𝑦𝑡 −𝜁̂1.𝑇 ∆𝑦𝑡−1 − 𝜁̂2.𝑇 ∆𝑦𝑡−2 − ⋯ − 𝜁̂𝑝−1.𝑇 ∆𝑦𝑡−𝑝+1 − 𝛼 2 −

𝑃
𝑝̂ 𝑇 𝑦𝑡−1 )2 → 𝐸(𝜀𝑡2 ) = 𝜎
[17.7.29]
Si ninguna de las restricciones implica 𝛼 𝑜 𝑝, entonces las dos últimas columnas de R contienen
todos los ceros:

𝑅 𝑅1 0
|𝑚𝑥(𝑝 + 1)| = [ ]. [17.7.30]
𝑚𝑥(𝑝 − 1) (𝑚 𝑥 2)
En este caso R√𝑇 = 𝑅𝑌𝑇 para 𝑅𝑌𝑇 la matriz en [17.7.15], de modo que [17.7.28] puede escribirse
como
−1
2 𝑡 −1
𝑥𝑡2 = [𝑅𝑌𝑇 (𝑏𝑇 − 𝛽)] {𝑆𝑡2 𝑅𝑌𝑇 [∑𝑇𝑡=1 𝑋𝑡 𝑋𝑡 ] 𝑌𝑇 𝑅𝑡 } [𝑅𝑌𝑇 (𝑏𝑇 − 𝛽)].
De [17.7.18], [17.7.25], [17.7.29] y [17.7.30], esto converge a

𝑡
𝐿 𝑉1ℎ
𝑥𝑡2 → {[𝑅𝑡 0] [ 1 1 ]}
𝑄 ℎ2
−1
𝑉 0 −1 𝑅1𝑡 𝑉1 ℎ
𝑥= {𝜎 2 [𝑅𝑡 0] [ ] [ ]} {[𝑅𝑡 0] [ 1 1 ]}
0 𝑄 0 𝑄 ℎ2
= [𝑅1 𝑉 −1 ℎ1 ]𝑡 [𝜎 2 𝑅1 𝑉 −1 𝑅1𝑡 ]−1 [𝑅1 𝑉 −1 ℎ1 ]. [17.7.31]
Pero desde ℎ1 ~𝑁(0, 𝜎 2 𝑉), se sigue que el (mx1) vector 𝑅1 𝑉 −1 ℎ1 se distribuye 𝑁(0, [𝜎2 𝑅1 𝑉−1 𝑅𝑡1 ]) .
Por lo tanto, las expresiones [17.7.31] es una cuadrática de un vector gaussiano que satisface las
condiciones de la Proposición 8.1:
𝐿
𝑥𝑡2 → 𝑥 2 (𝑚).
Esto verifica que las pruebas t o F habituales aplicadas a cualquier subconjunto del coeficiente
𝜁̂1 , 𝜁̂2 , … , 𝜁̂𝑝−1 tienen las distribuciones limitadoras estándar.
Obsérvese, además, que [17.7.27] es exactamente la misma distribución asintótica que se

obtendría si los datos se diferenciaran antes de estimar la autorregresión:
∆𝑦𝑡 = 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝜀𝑡 .
Por lo tanto, si el objetivo es estimar 𝜁̂1 , 𝜁̂1 , … , 𝜁̂𝑝−1 o probar hipótesis sobre estos coeficientes, no
hay necesidad basada en la teoría de distribución asintótica para diferenciar los datos antes de
estimar la autorregresión. Muchas investigaciones recomiendan la diferenciación de los datos en
primer lugar, pero la razón es reducir el sesgo de la pequeña muestra y el error cuadrático medio de
las muestras pequeñas de las estimaciones, no para cambiar la distribución asintótica.
Coeficiente de término constante y 𝑦𝑡−1

Los últimos dos elementos de β son 𝛼 𝑦 𝑝 con el coeficiente en el término constante y el
l(1) regresor, 𝑦𝑡−1 . De [17.7.25], [17.7.20] y [17.7.24], su distribución limitante está dada por
−1 𝜎. 𝑊(1)
1⁄2
0 ] [ 𝛼̂ 𝑇 ] →
𝐿 1 ∫𝑊(𝑟)𝑑𝑟
[𝑇 [ ] [1 ]
0 𝑇 𝜌̂𝑇 − 1 ∫𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 𝜎𝜆{[𝑊(1)]2 − 1}
2
−1 𝑊(1)
1 0 −1 1 ∫𝑊(𝑟)𝑑𝑟 1 0 −1 1 0 1
= 𝜎[ ] [ ] [ ] 𝑥[ ][ ]
0 𝜆 ∫𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 0 𝜆 0 𝜆 {[𝑊(1)]2 − 1}
2
1 0 1 ∫𝑊(𝑟)𝑑𝑟
−1 𝑊(1)
=[ ][ ] [1 ]. [17.7.32]
0 𝜎⁄𝜆 ∫𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 {[𝑊(1)]2 − 1}
2

El segundo elemento de este vector implica que (𝜆/𝜎) veces𝑇(𝑝̂ 𝑇 − 1)tiene la misma distribución
asintótica que [17.4.28], que describe la estimación de p en una regresión sin retraso ∆𝑦 y con
seriales no correlacionados perturbaciones:
𝐿 1/2{[𝑊(1)]2 −1}−𝑊(1)∙∫ 𝑊(𝑟)𝑑𝑟
𝑇 ∙ (𝜆/𝜎) ∙ (𝑝̂ 𝑇 − 1) → {∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 }
[17.7.33]
Recordemos de [17.7.17] que
∆/𝜎 = (1 − 𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 )−1 [17.7.34]
Esta magnitud es claramente estimada
(1 − 𝜁̂1.𝑇 − 𝜁̂2.𝑇 − ⋯ − 𝜁̂𝑝−1.𝑇 )−1,
dónde 𝜁̂𝑗.𝑇 denota la estimación de 𝜁𝑗 basada en la regresión MCO [17.7.11]. Así, la generalización
de la prueba p de Dickey-Fuller cuando se incluyen los cambios retardados en y en la regresión es
𝑌∙(𝑝̂𝑇 −1) 𝐿 1/2{[𝑊(1)]2 −1}−𝑊(1)∙∫ 𝑊(𝑟)𝑑𝑟

̂ ̂ ̂ → . [17.7.35]
1−𝜁1.𝑇 −𝜁2.𝑇 −⋯− 𝜁𝑝−1.𝑇 ∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2
Esto debe compararse con la sección del caso 2 de la Tabla B.5.
Considere la siguiente prueba de MCO t de la hipótesis nula de que P=1:

(𝑝̂𝑇 −1)
𝑡𝑇 = 1/2 , [17.7.36]
{𝑆𝑡 ∙𝑒𝑝+1 ∙(∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 ∙𝑒𝑝+1 }
2 𝑡
Dónde 𝑒𝑝+1 denota un vector [(𝑝 + 1)𝑥1] con unidad en la última posición y ceros en otra parte.
Multiplicando el numerador y el denominador de [17.7.36] por T resulta en
(𝑝̂𝑇 −1)
𝑡𝑇 = 1/2 . [17.7.37]
{𝑆𝑡 ∙𝑒𝑝+1 ∙𝑌𝑇 (∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 ∙𝑌𝑇 𝑒𝑝+1 }
2 𝑡
Pero
𝑡 −1
𝑒𝑝+1 ∙ 𝑌𝑇 (∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 ∙ 𝑌𝑇 𝑒𝑝+1 = 𝑒𝑝+1
𝑡
{𝑌𝑇−1 (∑ 𝑋𝑡 𝑋𝑡𝑡 ) 𝑌𝑇−1 } 𝑒𝑝+1
𝐿
𝑡 𝑉 −1 0
→ 𝑒𝑝+1 [ ]𝑒
0 𝑄 −1 𝑝+1
1
= 2
𝜆 ∙ {∫[𝑊(𝑟)]2 𝑑𝑟 − [∫ 𝑊(𝑟)𝑑𝑟]2 }
en virtud de [17.7.18] y [17.7.20]. Por lo tanto, de [17.7.37] y [17.7.33],

1
𝐿 {[𝑊(1)]2 −1}−𝑊(1).∫ 𝑊(𝑟)𝑑𝑟
𝑡𝑇 → (𝜎⁄𝜆) 2
∫[𝑊(𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2
1/2
𝜎2
÷{ (𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 }
}
𝜆2 {∫[𝑊
1
{[𝑊(1)]2 −1}−𝑊(1).∫ 𝑊(𝑟)𝑑𝑟
2
[17.7.38]
{∫[𝑊 (𝑟)]2 𝑑𝑟−[∫ 𝑊(𝑟)𝑑𝑟]2 }1/2

Esta es la misma distribución que en [17.4.36]. Por lo tanto, la prueba t usual de p = 1 para la
estimación de MCO de [17.7.11] se puede comparar con la sección de caso 2 de la Tabla B.6 sin
ninguna corrección para el hecho de que los valores rezagados de ∆𝑦 se incluyen en la regresión.
Un resultado similar se aplica a la prueba Dickey-Fuller F de la hipótesis conjunta de 𝛼 = 0

y 𝑝 = 1. Esta hipótesis nula puede representarse como 𝑅𝛽 = 𝑟, donde
𝑅 0 𝐼2
|2𝑥(𝑝 + 1)| = [2𝑥(𝑝 − 1) (2 𝑥 2)
]
y r=(0,1). La prueba F es entonces
𝐹 = (𝑏𝑇 − 𝛽 𝑡 )𝑅𝑡 {𝑆𝑡2 ∙ 𝑅(∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 𝑅𝑡 }−1 𝑅(𝑏𝑇 − 𝛽 𝑡 )/2 [17.7.39]
Defina 𝑌̅𝑇 como la siguiente matriz (2 x 2):

1/2
𝑌̅𝑇 ≡ [𝑇 0 ]. [17.7.40]
0 𝑇
Observe que [17.7.39] puede escribirse
𝐹𝑇 = (𝑏𝑇 − 𝛽 𝑡 )𝑡 𝑅 𝑡 𝑌̅𝑇 {𝑆𝑡2 ∙ 𝑌̅𝑇 𝑅(∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 𝑅𝑡 𝑌̅𝑇 }−1
𝑥 𝑌̅𝑅(𝑏𝑇 − 𝛽 𝑡 )/2 . [17.7.41]
La matriz en [17.7.40] tiene la propiedad de
𝑌̅𝑇 𝑅 = 𝑅 𝑌𝑇
𝐿
para 𝑅 = [0 𝐼2] y 𝑌𝑇 la matriz (p+1) x (p+1) en [17.7.15]. De [17.7.25],𝑅𝑌𝑇 (𝑏𝑇 − 𝛽 ) → 𝑄 −1 ℎ2. Así,
[17.7.41] implica que
−1
′(𝑅𝑌𝑇 )′{𝑆2 ̅ 𝑡 −1 ′
𝑡 ∙𝑌𝑇 𝑅(∑ 𝑋𝑡 𝑋𝑡 ) 𝑌𝑇 𝑅 }
(𝑏𝑇 −𝛽) 𝑅𝑌𝑇 (𝑏𝑇 −𝛽)
𝐹𝑇 =
2
𝐿
→ (𝑄 −1 ℎ2 )′{𝜎 2 𝑄 −1 }−1 (𝑄 −1 ℎ2 )/2 = ℎ2′ 𝑄 −1 ℎ2 /2𝜎 2
1
= [1/(2𝜎 2 )] [𝜎. 𝑊(1) 2
𝜎𝜆{[𝑊(1)]2 − 1}]
−1
1 𝜆. ∫ 𝑊(𝑟)𝑑𝑟 𝜎.𝑊(1)
𝑥[ ] [1 ]
𝜆. ∫ 𝑊(𝑟)𝑑𝑟 𝜆 . ∫ [𝑊(𝑟)]2 𝑑𝑟
2
2
𝜎𝜆{[𝑤(1)]2 −1}
1 1 1 0
= (2𝜎2 ) 𝜎 2 [𝑊(1) {[𝑊(1)]2 − 1}] [ ]
2 0 𝜆
−1
1 0 −1 1 ∫ 𝑊(𝑟)𝑑𝑟 1 0 −1
𝑥[ ] [ ] [ ]
0 𝜆 ∫ 𝑊(𝑟)𝑑𝑟 ∫ [𝑊(𝑟)]2 𝑑𝑟 0 𝜆
1 0 𝑊(1)
𝑥[ ] [1 ]
0 𝜆 2{[𝑊(1)]2 −1}
1 1
= [𝑊(1) {[𝑊(1)]2 − 1}]
2 2

−1
1 ∫ 𝑊(𝑟)𝑑𝑟 𝑊(1)
𝑥[ ] [1{[𝑊(1)]2 ] [17.7.42]
∫ 𝑊(𝑟)𝑑𝑟 ∫ [𝑊(𝑟)]2 𝑑𝑟 2
−1}
Esto es idéntico a la distribución asintótica de la prueba F entonces la regresión no incluye ∆𝑦

rezagado y las perturbaciones son i.i.d. Por lo tanto, la estadística F en [17.7.41] basada en la
estimación de MCO de [17.7.11] se puede comparar con el caso 2 secciones de la Tabla B.7 sin
correcciones.
Finalmente, considere una prueba de hipótesis que implique una restricción12 a través de
𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 y p
𝐻: 𝑟1 𝜁1 + 𝑟2 𝜁2 + ⋯ + 𝑟𝑝−1 𝜁𝑝−1 + 0 ∙ 𝛼 + 𝑟𝑝+1 𝑝 = 𝑟
𝑟𝑡 𝛽 = 𝑟 [17.7.43]
La distribución de la prueba t de esta hipótesis será dominada asintóticamente por los parámetros
con la tasa de convergencia más lenta, a saber 𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 . Dado que estos son
asintóticamente Gaussiana, la estadística de prueba es asintóticamente Gaussiana y por lo tanto se
puede comparar con las tablas t habituales. Para demostrar esto formalmente, tenga en cuenta que
la estadística t habitual para probar esta hipótesis es
𝑟 𝑡 (𝑏𝑇 −𝑟 ) 𝑇 1/2 (𝑟 𝑡 𝑏 −𝑟 )
𝑡𝑇 = 1/2 = {𝑆2 𝑇 1/2 𝑟 𝑡(∑ 𝑋 𝑋𝑇 𝑡)−1 𝑟𝑇 1/2 } [17.7.44]
{𝑆𝑡2 𝑟 𝑡 (∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 𝑟} 𝑡 𝑡 𝑡
Defina 𝑟𝑇 como el vector que resulta cuando el último elemento de r es reemplazado por 𝑟𝑝−1 /√𝑇
𝑟̂𝑇 = [𝑟1 , 𝑟2 , … , 𝑟𝑝−1 0 𝑟𝑝−1 /√𝑡] [17.7.45]
y nótese que
𝑇 1/2 𝑟 = 𝑌𝑇 𝑟̅𝑇 [17.7.46]
para 𝑌𝑇 la matriz en [17.7.15]. Usando [17.7.46] y la hipótesis nula que 𝑟 = 𝑟 𝑡 𝛽, la expresión

[17.7.44] se puede escribir
𝑟̅𝑇 𝑌𝑇 (𝑏𝑇 −𝛽)
𝑡𝑇 = 1/2 [17.7.47]
{𝑆𝑡2 𝑟 𝑡 (∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 𝑌𝑇 𝑟̅𝑇 }
Note de [17.7.45] que
𝑟̅𝑇 = 𝑟̅ ,
dónde
𝑟̅ 𝑡 ≡ [𝑟1 , 𝑟2 , … , 𝑟𝑝−1 0 0 ].
El uso de este resultado junto con [17.7.18] y [17.7.25] en [17.7.47] produce

𝑉−1 ℎ
𝐿 𝑟̅′[ −1 1 ]
𝑄 ℎ2
𝑡𝑇 → −1 1/2
𝑉 0
{𝜎2 𝑟̅′[ ]𝑟̅ }
0 𝑄 −1
12 Puesto que la suposición mantenida es que 𝜌 = 1, ésta es una manera ligeramente antinatural de escribir una hipótesis. Sin embargo, enmarcar la
hipótesis de este modo resultará pronto útil para derivar la distribución asintótica de una autoregresión estimada en la forma usual sin la
transformación Dickey-Fuller.

[𝑟1 ,𝑟2 ,…,𝑟𝑝−1 ]𝑉−1 ℎ1
= 1/2 [17.7.48]
{𝜎2 [𝑟1 ,𝑟2 ,…,𝑟𝑝−1 ]𝑉−1 [𝑟1 ,𝑟2 ,…,𝑟𝑝−1 ]′}
Dado ℎ1 ~𝑁(0, 𝜎 2 𝑉), se sigue que
[𝑟1 , 𝑟2 , … , 𝑟𝑝−1 ]𝑉 −1 ℎ1 ~𝑁(0, ℎ),
dónde
ℎ = 𝜎 2 [𝑟1 , 𝑟2 , … , 𝑟𝑝−1 ]𝑉−1 [𝑟1 , 𝑟2 , … , 𝑟𝑝−1 ]𝑡 .

Así, la distribución límite en [17.7.48] es la de un escalar gaussiano dividido por su desviación
estándar y por lo tanto N (0, 1). Esto confirma la afirmación de que la prueba t de 𝐫 ′ 𝛃 = 𝑟 puede
compararse con las tablas habituales t.
Una implicación interesante de este último resultado se refiere a las propiedades asintóticas
del coeficiente estimado si la autorregresión se estima en los niveles habituales en lugar de la
regresión transformada [17.7.11]. Por lo tanto, supongamos que la siguiente especificación es
estimada por OMC:
𝑦𝑡 = 𝛼 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦1−𝑝 + 𝜀𝑡 [17.7.49]
para algunos 𝑝 ≥ 2. Recordando [17.7.2] y [17.7.3], la relación entre las estimaciones (𝜁̂1 + 𝜁̂2 +
̂1 , ∅
⋯ + 𝜁̂𝑝−1 , 𝑝̂ ) investigadas anteriormente y las estimaciones (∅ ̂2 + ⋯ + ∅̂ 𝑝 ) basadas en la
estimación de OMC de [17.7.49] es
̂ 𝑝 = −𝜁̂𝑝−1
∅
̂1 = 𝜁̂1 − 𝜁̂𝑗−1 para j=2, 3, …, p-1

∅
̂1 = 𝑝̂ + 𝜁̂1.
∅
Así, cada uno de los coeficientes ∅ ̂1 , ∅̂2 + ⋯ + ∅ ̂ 𝑝 es una combinación lineal de los elementos de
(𝜁̂1 + 𝜁̂2 + ⋯ + 𝜁̂𝑝−1 , 𝑝̂ ). El análisis de [17.7.43] establece que cualquier estimación individual ∅̂1
converge a la tasa √𝑇 a una variable aleatoria gaussiana. Recordando la discusión de [16.3.20] y
[16.3.21], una prueba MCO t o F expresada en términos de la representación en [17.7.11]. Por lo
tanto, la prueba t habitual asociada con hipótesis sobre los coeficientes individuales ∅ ̂1 , ∅
̂2 + ⋯ +
̂ 𝑝 en [17.7.49] puede compararse con las tablas estándar t o N (0, 1). De hecho, cualquier hipótesis
∅
sobre combinaciones lineales de los ∅ ̂ ′𝑠 que no sean la suma ∅ ̂1 , ∅
̂2 + ⋯ + ∅ ̂ 𝑝 satisface las
condiciones estándar.
La suma ∅ ̂1 , ∅
̂2 + ⋯ + ∅
̂ 𝑝 , por supuesto, tiene la distribución no estándar de la estimación descrita
en [17.7.33].
Resumen de los resultados asintóticos para una autorregresión estimada

que incluye un término constante
El análisis precedente se aplica a la estimación del MCO de

𝑦𝑡 = 𝜁1 ∆𝑦1−1 + 𝜁2 ∆𝑦1−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝜀𝑡
Bajo el supuesto de que el valor verdadero de 𝛼 es cero y el valor verdadero de p es 1. Los

otros supuestos mantenidos fueron que 𝜀𝑡 es i.i.d. Con media cero, varianza 𝜎 2 y finito
cuarto momento y que las raíces de
(1 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 ) = 0
están fuera del círculo de la unidad. Se observó que las estimaciones 𝜁̂1 + 𝜁̂2 + ⋯ + 𝜁̂𝑝−1
convergen a la velocidad √𝑇 a las variables gaussianas, y las pruebas estándar t o F para la
hipótesis sobre estos coeficientes tienen las distribuciones limitantes habituales de Gauss o
𝑥 2 . Las estimaciones 𝛼̂ y 𝑝̂ convergen a tasas √𝑇 y T, respectivamente, a distribuciones no
estándar. Si la diferencia entre la estimación OMC 𝑝̂ y el valor verdadero hipótesis de la
unidad se multiplica por el tamaño de la muestra y se divide por (1 − 𝜁̂1 + 𝜁̂2 + ⋯ +
𝜁̂𝑝−1 ), la estadística resultante tiene la misma distribución asintótica que la variable tabulada
en la sección caso 2 de la Tabla B.5. El estadístico t habitual de la hipótesis p = 1 no
necesita ser ajustado a partir del tamaño de la muestra o correlación en serie y tiene la
misma distribución asintótica que la variable tabulada en la sección de caso 2 de la Tabla
B.6. La estadística F usual de la articulación La hipótesis 𝛼 = 0 y p=1 tampoco tiene que
ser ajustada para el tamaño de la muestra o la correlación en serie y tiene la misma
distribución que la variable tabulada en la sección del caso 2 de la Tabla B.7.
Cuando la autorregresión incluye cambios rezagados como aquí, las pruebas de raíz
unitaria basadas en el valor indicado, las pruebas t o las pruebas F se describen como
pruebas aumentadas de Dickey-Fuller.
Ejemplo 17.8
El modelo siguiente fue estimado por OMC para los datos de tipo de interés
descritos en el Ejemplo 17.3 (error estándar entre paréntesis):
0.335 0.388 0.276
𝑖𝑡 = ∆𝑖𝑡−1 − ∆𝑖𝑡−2 + ∆𝑖
(0.0788) (0.0808) (0.0800) 𝑡−3
0.107 0.195 0.96904
− ∆𝑖𝑡−4 − + 𝑖
(0.0794) (0.109) (0.018604) 𝑡−1
Fechas t = 1948: II 1989: 1 se utilizaron para la estimación, por lo que en este caso
el tamaño de la muestra es T = 164. Para estas estimaciones, el aumento de Dickey-
Fuller p test [17.7.35] sería:
164
(0.96904 − 1) = −5.74
1−0.335+0.388−0.276+0.107
Desde −5.74 > −13.8, la hipótesis nula de una raíz unitaria es aceptada por la
prueba aumentada de Dickey-Fuller t también. Finalmente, la prueba MCO F de la
hipótesis nula conjunta de p=1 y 𝛼 = 0 es 1.65. Puesto que esto es menor que 4,68,
la hipótesis nula es nuevamente aceptada.
La hipótesis nula de que la autorregresión en niveles requiere sólo cuatro rezagos se
basa en la prueba t de MCO de 𝜁4 = 0:

-0.107/0.0794 = -1.35
A partir de la Tabla B.3, el valor crítico bilateral de 5% para una variable t con 158
grados de grado de libertad es -1,98. Desde −1.35 > −1.98, la hipótesis nula de
que sólo cuatro rezagos son necesarios para la autorregresión en los niveles se
acepta.
Resultados Asintóticos para otras Autorregresiones

Hasta este punto de esta sección, hemos considerado una autorregresión que es una
generalización del caso 2 de la Sección 17.4 - se incluye una constante en la regresión
estimada, aunque se presume que el proceso de la población no exhibe deriva. Las
generalizaciones paralelas para los casos 1, 3 y 4 se pueden obtener de la misma manera. Se
invita al lector a derivar estas generalizaciones en ejercicios al final del capítulo.
Los principales resultados se resumen en la Tabla 17.3.
TABLA 17.3
Resumen de los resultados asintóticos para regresiones conteniendo una raíz unitaria
Caso 1.
Regresión estimada:
𝑦𝑡 = 𝜁𝑡 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝑝𝑦𝑡−1 + 𝜖𝑡
Verdadero proceso: Mismas especificaciones que la regresión estimada con p = 1.

Cualquier prueba t o F que implique 𝜁𝑡 − 𝜁2 , … , 𝜁𝑝−1 puede compararse con las tablas t o F para
una prueba asintótica válida.
𝑍𝐷𝐹 tiene la misma distribución asintótica que la variable descrita en el encabezamiento

Caso 1 del Cuadro B.5.
La prueba MCO t de p = 1 tiene la misma distribución asintótica que la variable descrita en

el Caso 1 de la Tabla B.6.
Caso 2.
𝑦𝑡 = 𝜁𝑡 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝜖𝑡
Verdadero proceso: Mismas especificaciones que la regresión estimada con 𝛼 = 0 y p=1.
Cualquier prueba t o F que implique 𝜁1 , 𝜁2 , … , 𝜁1−𝑝 puede compararse con las tablas t o F
para para una prueba asintótica válida.
𝑍 𝐷𝐹 tiene la misma distribución asintótica que la variable descrita en el encabezamiento

Caso 2 del Cuadro B.6.
La prueba MCO t de p = 1 tiene la misma distribución asintótica que la variable descrita en

el Caso 1 de la Tabla B.6.

La prueba MCO F de una hipótesis conjunta que 𝛼 = 0 y 𝑝 = 1 tiene la misma
distribución asintótica que la variable descrita en el Caso 2 de la Tabla B.7.
Caso 3.
𝑦𝑡 = 𝜁𝑡 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝜖𝑡
Verdadero proceso: Mismas especificaciones que la regresión estimada con 𝛼 ≠ 0 y p=1.
𝑝̂ 𝑇 converge a la tasa 𝑇 3/2 a una variable gaussiana; Todos los demás coeficientes
estimados convergen a la tasa 𝑇 1/2 a las variables gaussianas.
Cualquier prueba t o F que implique cualquier coeficiente de la regresión puede compararse

con las tablas t o F habituales para una prueba asintótica válida.
Caso 4.
𝑦𝑡 = 𝜁𝑡 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝛿𝑇 + 𝜖𝑡
Verdadero proceso: Mismas especificaciones que la regresión estimada con 𝛼 cualquier

valor, p=1 and 𝛿 = 0.
Cualquier prueba t o F que implique 𝜁𝑡 − 𝜁2 , … , 𝜁𝑝−1 puede compararse con las tablas t o
F habituales para una prueba asintóticamente válida.
MCO prueba t de 𝑍 𝐷𝐹 tiene la misma distribución asintótica que la variable descrita en el

encabezamiento Caso 4 del Cuadro B.5.
MCO prueba F de hipótesis conjunta que p=1 y 𝛿 = 0 tiene la misma distribución

asintótica que la variable descrita en el encabezamiento del Caso 4 del Cuadro B.7.
La regresión estimada indica la forma en que se estima la regresión, utilizando las observaciones 𝑡 =
1,2, … , 𝑇 y el condicionamiento en las observaciones 𝑡 = 0, −1, … , −𝑝 + 1.
El proceso verdadero describe la hipótesis nula bajo la cual se calcula la distribución. En cada caso
se supone que las raíces de
(1 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑗 𝑧 𝑝−1 ) = 0
Están todos fuera del círculo de la unidad y que 𝜖𝑡 es i.i.d. Con media cero, varianza 𝜎 2 y cuarto
momento finito.
𝑍𝐷𝐹 en cada caso es la siguiente estadística:
𝑍𝐷𝐹 ≡ 𝑇(𝑝̂ 𝑇 − 1)/(1 − 𝜁̂1𝑇 − 𝜁̂2𝑇 −. . . −𝜁̂𝑝−1.𝑇 )
Donde 𝑝̂ 𝑇 , 𝜁̂1𝑇 , 𝜁̂2𝑇 , … , 𝜁̂𝑝−1.𝑇 son las estimaciones de la CMO de la regresión indicada.
MCO prueba t de p=1 es (𝑝̂ 𝑇 − 1)/𝜎̂𝑃𝑇 , donde 𝜎̂𝑃𝑇 es el estándar de la MCO de error 𝑝̂ 𝑇 .
MCO prueba F de una hipótesis que implica dos restricciones se da por la expresión [17.7.39].
Ejemplo 17.9
La estimación de la autorregresión siguiente fue calculada por la OCM para los datos del
PNB. Figura 17.3 (errores estándar entre paréntesis):
0.329 0.209 0.084
𝑖𝑡 = ∆𝑦𝑡−1 − ∆𝑖𝑡−2 + ∆𝑖
(0.0777) (0.0813) (0.0818) 𝑡−3

0.075 0.195 0.94969 0.0378
− ∆𝑖 − + 𝑖 + 𝑡
(0.0788) 𝑡−4 (13.57) (0.019386) 𝑡−1 0.0152
Aquí, T = 64 y la prueba aumentada de Dickey-Fuller p es:
164
(0.94969 − 1) = −13.3
1 − 0.392 − 0.209 − 0.084 + 0.075
La prueba CMO F de la hipótesis nula conjunta que −13.3 > −21.0, y por lo tanto, el
Dickey-Fuller F aumentado también es coherente con la especificación raíz unitaria.
Unidad raíz AR (p) procesos con p desconocido

Se han propuesto varias sugerencias sobre cómo proceder cuando el proceso se considera
ARIMA (p, 1, 0) con p desconocido pero finito. Un enfoque simple es estimar [17.7.11] con p
tomado como un cierto límite superior pre especificado ̅𝑝. La prueba t de CMO de 𝜉 ̅𝑝−1 puede
entonces compararse con el valor crítico habitual para un estadístico t de la Tabla B.3. Si se acepta
la hipótesis nula, el CMO F de la hipótesis conjunta nula que pueden compararse con la
distribución F (2, T-K) habitual en la Tabla B.4. El procedimiento continúa secuencialmente hasta
que la hipótesis nula conjunta que 𝜉 ̅𝑝−2 = 0, … , 𝜉 ̅𝑝−𝑡 = 0 es rechazada para algunos ℓ. La regresión
recomendada es entonces
𝑦𝑡 = 𝜁𝑡 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝛿𝑇
Si ningún valor de ℓ conduce al rechazo, se utiliza la prueba simple de Dickey-Fuller de la Tabla

17.1. Hall (1991) discutió una variedad de estrategias alternativas para estimar p.
Al igual que en la consideración Phillips-Perron del caso MA (∞), el investigador podría querer
elegir valores más grandes para 𝜌, la longitud del retraso autorregresivo, cuanto mayor sea el
tamaño de la muestra T. Said y Dickey (1984) Hasta el infinito lo suficientemente lento en relación
con T, entonces la prueba t de MCO de 𝜌 = 1 puede continuar comparándose con los valores de
Dickey-Fuller en la Tabla B.6.
De nuevo, vale la pena tener en cuenta que siempre existe un p tal que la representación de ARIMA
(p, 1, 0) puede describir un proceso estacionario arbitrariamente bien para una muestra dada. Por lo
tanto, la prueba Said-Dickey de p podría considerarse como la siguiente. Para un determinado p fijo,
ciertamente podemos preguntar si el ARIMA (p, 0, 0) describen los datos casi tan bien como un
ARIMA (p-1, 1, 0). Imponiendo p = 1 cuando el valor verdadero de p es cercano a la unidad puede
mejorar pronósticos y estimaciones de pequeña muestra de los otros parámetros. El resultado de
Said-Dickey permite al investigador utilizar un valor mayor de p sobre el cual basar esta
comparación cuanto mayor sea el tamaño de muestra T.
17.8. Otros enfoques para probar las raíces unitarias
Esta sección describe brevemente algunos métodos alternativos para probar las raíces unitarias.
Pruebas de Relación de Varianza

Dado
0 551
∆𝑦𝑡 = 𝛼 + 𝑢𝑡
dónde
𝑢𝑡 = ∑𝑥𝑗=0 𝜓𝑗 𝜀𝑡−𝑗 ≡ 𝜓(𝐿) 𝜀𝑡
para 𝜀𝑡 una secuencia de ruido blanco con varianza 𝜎 2 . Recordemos de la expresión [15.3.10] que el
efecto permanente de 𝜀𝑡 en el nivel de 𝑦𝑖+𝑠 está dado por
𝜕𝑦
lim 𝑖+𝑠 = 𝜓(1).
𝑠→𝑥 𝜕𝜀𝑡
Si 𝑦𝑡 es estacionario o estacionario alrededor de una tendencia temporal determinista, una

innovación 𝜀𝑡 , no tiene un efecto permanente en 𝑦 que requiere 𝜓(1) = 0.
Cochrane (1988) y Lo MacKinlay (1988) propusieron una prueba para las raíces unitarias
que explotan esta propiedad. Considere el cambio en y sobre períodos s,
𝑦𝑡+𝑠 − 𝑦𝑡 = 𝑎𝑠𝑡+𝑠 + 𝑢𝑡+𝑠 + 𝑢𝑡+𝑠−1 +. . +𝑢𝑡+1 [17.8.1]
y nótese que
(𝑦𝑡+𝑠 − 𝑦)/𝑠 = 𝛼 + 𝑠 −1 (𝑢𝑡+𝑠 + 𝑢𝑡+𝑠−1 +. . +𝑢𝑡+1 ). [17.8.2]
El segundo término en [17.8.2] podría considerarse como la media muestral de s observaciones

extraídas del proceso seguido por u. Así, la Proposición 7.5 (b) y el resultado [7.8.2] implican que
lim 𝑠 ∙ 𝑉𝑎𝑟[𝑠 −1 (𝑢𝑡+𝑠 + 𝑢𝑡+𝑠−1 +. . +𝑢𝑡+1 )] = 𝜎 2 ∙ [𝜓(1)]2 , [17.8.3]

𝑠→𝑥
Sea 𝛼̂𝑡 el cambio promedio en y en una muestra de observaciones T:
𝛼̂ = 𝑇 −1 ∑𝑇𝑡=1(𝑦𝑡 − 𝑦𝑡−1 ).
Considere la siguiente estimación de la varianza del cambio en y sobre el valor de los valores s
anteriores:
𝐽̂𝑇 (𝑠) = 𝑇 −1 ∑𝑇𝑡=1(𝑦𝑡+𝑠 − 𝑦𝑡 − 𝛼̂ 𝑇 𝑠)2 [17.8.4]
Esto debe converger en la probabilidad de
𝐽(𝑠) = 𝐸(𝑦𝑡+𝑠 − 𝑦𝑡 − 𝛼 𝑠)2 = 𝐸(𝑢𝑡+𝑠 + 𝑢𝑡+𝑠−1 +. . +𝑢𝑡+1 )2 [17.8.5]
ya que el tamaño de la muestra T se hace grande. Comparando estas expresiones con [17.8.3],
lim 𝑠 −1 ∙ 𝑗(𝑠) = 𝜎 2 ∙ [𝜓(1)]2 .

𝑠→𝑥
Por tanto, Cochrane (1988) propuso calcular [17.8.4] en función de s. Si el verdadero

proceso para 𝑦 es estacionario o estacionario alrededor de una tendencia determinista, esta
estadística debe ir a cero. Esta estadística da una medida de la importancia cuantitativa de los
efectos permanentes como se refleja en el multiplicador 𝜓(1) a largo plazo. Sin embargo, la
estadística en [17.8.4] no es confiable a menos que s es mucho menor que T.
Si los datos realmente siguieron una caminata aleatoria de modo que 𝜓(𝐿) = 1, entonces
j(s) en [17.8.5] sería igual a 𝑠 ∙ 𝜎 2 para cualquier 𝑠, donde 𝜎 2 es la varianza de 𝑢𝑡 . Lo y MacKinlay
explotaron esta propiedad para sugerir pruebas de la hipótesis aleatoria basada en valores
alternativos de s. Ver Lo y MacKinlay (1989) y Cecchetti y Lam (1991) para la evidencia sobre las
propiedades de las muestras pequeñas de estas pruebas.

Otras Pruebas para Raíces Unitarias
El enfoque de Phillips-Perron se basó en una representación 𝑀𝐴(∞) para ∆𝑦𝑡 mientras
que el enfoque de Said-Dickey se basó en una representación 𝐴𝑅(∞). Las pruebas nased en una
representación finita de ARMA (p, q) para ∆𝑦𝑡 han sido exploradas por Said y Dickey (1985), Hall
(1989), Said (1989), y Pantula y Hall (1991).
Se han propuesto una serie de otros enfoques para ensayar las raíces unitarias, incluyendo
Sargan y Bhargava (1983), Solo (1984), Barhgava (1986), Dickey y Pantula (1987), Parck y Choi
(1988), Schmidt y Phillips 1992). Véase Stock (1993) para una encuesta excelente. Chan y Wei
(1987), Phillips (1988) y Sowel (1990) han discutido la inferencia asintótica para procesos con un
comportamiento casi de raíz unitaria.
17.9. Análisis bayesiano y raíces unitarias

Hasta este punto en el capítulo hemos adoptado una perspectiva estadística clásica, calculando la
distribución de p condicional en un valor particular de p tal p = 1. Esta sección considera la
perspectiva bayesiana, en la que el valor verdadero de p se considera como una variable aleatoria y el
objetivo es describir la distribución de esta condición variable aleatoria en los datos.
Recordemos de la Proposición 12.3 que si la densidad anterior del vector de coeficientes
desconocidos β y la precisión de innovación 𝜎 −2 es de la forma Normal-gamma de [12.1.9] y
[12.1.20], entonces la distribución posterior de β condicional a los datos Es multivariante t. Este
resultado se ajusta exactamente a una muestra finita y se mantiene independientemente de si el
proceso es estacionario. Por lo tanto, en el caso de la distribución anterior difusa representada 𝑁 =
𝜆 =0 y 𝑀−1 = 0, un bayesiano utilizaría esencialmente las estadísticas t y F habituales de la manera
estándar.
¿Cómo puede la distribución clásica de 𝑝̂ estar fuertemente sesgada mientras que la

distribución bayesiana de p es la de la variable t simétrica? Sims (1988) y Sims y Uhlig (1991)
proporcionaron una discusión detallada de esta pregunta. La prueba clásica de la hipótesis nula p =
1 se basa únicamente en la distribución de 𝑝̂ cuando el valor verdadero de p es la unidad. Por el
contrario, la inferencia bayesiana se basa en la distribución de |𝑝̂ | para todos los valores posibles de
p, con la distribución de |𝑝̂ | ponderada según la probabilidad previa para p. Si la distribución de
|𝑝̂ | tuviera la desviación y la dispersión para cada p como lo hace en p = 1, concluiremos que,
habiendo observado un 𝑝̂ particular, el valor verdadero de p es probablemente algo mayor. Sin
embargo, la distribución de |𝑝̂ | cambia con p- cuanto menor sea el valor verdadero de p, menor
será el sesgo y mayor será la dispersión, ya que desde [17.1.3] la varianza de √𝑇(𝑝̂ − 𝑝) es
aproximadamente (1 − 𝑝2 ). Debido a que los valores inferiores de p implican una mayor
dispersión para 𝑝̂ , en ausencia de sesgo sospechábamos que una observación dada 𝑝̂ = 0.95 fue
más probable que se hayan generado por una distribución centrada en p = 0.90 con dispersión
grande que por distribución ventered en p = 1 Con poca dispersión.
Los efectos de la desviación y la dispersión resultan cancelar, de modo que con una distribución
previa uniforme para el valor de p, habiendo observado 𝑝̂ = 0.95, es igualmente probable que el
valor verdadero de p sea mayor que 0.95 como el valor verdadero de p Menos de 0,95. Los efectos
de la desviación y la dispersión resultan cancelar, de modo que con una distribución uniforme
previa para el valor de p, habiendo observado 𝑝̂ = 0.95, es probable que el valor verdadero de p
sea mayor que 0.95 el valor verdadero de p sea Menor de 0.95 .
17.9 Análisis bayesiano y raíces unitarias 553

Ejemplo 17.10
Para la regresión PNB en el Ejemplo 17.9 la probabilidad de que 𝑝 ≥ 1 condicione a los

datos es la probabilidad de que una variable t con T = 164 grados de libertad13 supere (1 -
0.94969) /0.019386=2.60. A partir de la tabla B.3, esta probabilidad es de alrededor de
0,005. Por lo tanto, aunque el valor de p debe ser grande, es poco probable que sea tan
grande como la unidad.
El contraste entre la inferencia bayesiana en el ejemplo 17.10 y la inferencia clásica en el

ejemplo 17.9 es una de las razones dadas por Sims (1988) y Sim y Uhlig (1991) por preferir los
métodos bayesianos. Obsérvese que la probabilidad calculada en el Ejemplo 17.10 será menor que
0,025 si y sólo si un intervalo de confianza clásico del 95% alrededor de la estimación puntual 𝑝̂ no
contiene unidad. Por lo tanto, una forma alternativa de describir el hallazgo del Ejemplo 17.10 es
que la región de confianza clásica asintótica estándar alrededor de 𝑝̂ no incluye p = 1. Aún así, el
Ejemplo 17.9 mostró que la hipótesis nula de una raíz unitaria es aceptada por el ensayo de Dickey-
Fuler aumentado. La región de confianza asintótica clásica centrada en p=𝑝̂ parece inconsistente
con una raíz unitaria, mientras que la región de confianza asintótica clásica centrada en p = 1
soporta una raíz unitaria. Tales regiones de confianza desconectadas que resultan de la
aproximación clásica pueden parecer un poco problemáticas contraintuitivas14. Por el contrario, el
bayesiano tiene un único resumen coherente de la plausibilidad de diferentes valores de p, que es el
que implica la distribución posterior de p condicional en los datos.
Naturalmente, se podría utilizar una distribución previa que reflejara más confianza en la
información previa sobre el valor de p. Mientras la distribución anterior fuera de la clase Normal-
gamma, esto nos haría desplazar la estimación puntual 0,94969 en la dirección de la media anterior y
reducir el error estándar y aumentar los grados de libertad según lo garantizado por la información
previa. Pero en la distribución todavía se utilizaría para interpretar la estadística resultante.
Aunque es conveniente trabajar con la clase Normal-gamma, puede que no sea

suficientemente flexible para reflejar las verdaderas creencias anteriores del investigador. Sims
(1988, 470) discutió la inferencia bayesiana en la que una masa puntual con probabilidad positiva se
sitúa en la posibilidad de que p = 1. DeJong y Whiteman (1991) usaron métodos numéricos para
calcular distribuciones posteriores bajo un rango de distribuciones previas definidas numéricamente
y concluyeron que la evidencia de raíces unitarias en muchas series de tiempo económico clave es
bastante débil.
Phillips (1991a) señaló que existe una distribución previa para la cual la inferencia bayesiana
imita el enfoque clásico. Argumentó que la distribución difusa anterior de la Proposición 12.3 es en
realidad muy informativa en una regresión de series de tiempo y sugirió en cambio una distribución
previa debido a Jeffresys (1946). Aunque esta distribución previa tiene algunos argumentos teóricos
en su nombre, tiene la propiedad inusual en esta aplicación de que la distribución previa es función
del tamaño de la muestra T-Phillips propondría utilizar una distribución anterior diferente para
𝑓(𝑝) cuando el análisis se va a obtener un tamaño de muestra 50 que el análisis va a obtener un
tamaño de muestra 100. Esto no sería apropiado si la distribución anterior pretende representar la
información real disponible para el analista antes de ver los datos. Phillips (1991b, pp. 468-69)
argumentó que, para ser verdaderamente no-informativo, una distribución previa en este contexto
tendría esta propiedad, ya que cuanto mayor sea el valor verdadero de p, más rápidamente la
información sobre p contenida en la muestra {𝑦1 , 𝑦2 , … , 𝑦𝑇 } va a acumularse con el tamaño de la
muestra T. Sin duda, el concepto de lo que significa que una distribución anterior sea "no-
informativo" puede ser difícil y controversial15.
13 Recordemos de la proposición 12.3 (b) que los grados de libertad están dados por N * = N + T. Por lo tanto, la interpretación
bayesiana no es exactamente idéntica a la estadística t clásica, cuya degress de libertad sería T-k.
14 Stock (1991) ha propuesto recientemente una solución a este problema desde la perspectiva clásica. Otro enfoque consiste en confiar
en la distribución exacta de las muestras pequeñas, tal y como lo analizó Andrews (1993).
15 Ver muchos comentarios acompañando a Phillips (1991a).

La dificultad potencial para persuadir a otros de la validez de la creencia previa de uno
siempre ha sido la debilidad clave de las estadísticas bayesianas, y parece inevitable aquí. Lo mejor
que puede hacer un Bayesiano es tomar una postura explícita sobre la naturaleza y la fuerza de la
información y defenderla lo mejor posible. Si la naturaleza de la información previa es que todos los
valores de p son igualmente probables, entonces es satisfactorio usar los tests MCO t y F estándar
de la manera habitual. Si uno no está dispuesto a asumir tal posición, los Sims y Uhlig instaron a
que los investigadores reporten la prueba de hipótesis clásica de p = 1 y la región de confianza
clásica alrededor de 𝑝̂ y que el lector interprete los resultados como él o ella lo crea conveniente.
APÉNDICE 17.A Pruebas de las proposiciones del capítulo

17
▪ Prueba de proposición 17.2. Observe que
∑𝑡𝑠=1 𝑢𝑠 = ∑𝑡𝑠=1 ∑∞
𝑗=0 𝜓𝑗 𝜀𝑠−𝑗
= {𝜓0 𝜀𝑡 + 𝜓1 𝜀𝑡−1 + 𝜓2 𝜀𝑡−2 + ⋯ + 𝜓1 𝜀0 + 𝜓𝑡+1 𝜀−1 + ⋯ }
+{𝜓0 𝜀𝑡−1 + 𝜓1 𝜀𝑡−2 + 𝜓2 𝜀𝑡−3 + ⋯ + 𝜓𝑡−1 𝜀0 + 𝜓1 𝜀−1 + ⋯ }
+{𝜓0 𝜀𝑡−2 + 𝜓1 𝜀𝑡−3 + 𝜓2 𝜀𝑡−4 + ⋯ + 𝜓𝑡−2 𝜀0 + 𝜓𝑡−1 𝜀−1 + ⋯ }
+ ⋯ + {𝜓0 𝜀1 + 𝜓1 𝜀0 + 𝜓2 𝜀−1 + ⋯ }
= 𝜓0 𝜀𝑡 + (𝜓0 + 𝜓1 )𝜀𝑡−1 + (𝜓0 + 𝜓1 + 𝜓2 )𝜀𝑡−2 + ⋯
+(𝜓0 + 𝜓1 + 𝜓2 + ⋯ + 𝜓𝑡−1 )𝜀𝑡 + (𝜓1 + 𝜓2 + ⋯ + 𝜓𝑡 )𝜀0
+(𝜓0 + 𝜓1 + 𝜓2 + ⋯ + 𝜓𝑡+𝑗 )𝜀−𝑗 + ⋯
= (𝜓0 + 𝜓1 + 𝜓2 + ⋯ )𝜀𝑡 − (𝜓1 + 𝜓2 + 𝜓3 + ⋯ )𝜀𝑡
= (𝜓0 + 𝜓1 + 𝜓2 + ⋯ )𝜀𝑡−1 − (𝜓2 + 𝜓3 + ⋯ )𝜀𝑡−1
= (𝜓0 + 𝜓1 + 𝜓2 + ⋯ )𝜀𝑡−2 − (𝜓2 + 𝜓3 + ⋯ )𝜀𝑡−2 + ⋯
+ (𝜓0 + 𝜓1 + 𝜓2 + ⋯ )𝜀1 − (𝜓𝑡 + 𝜓𝑡+1 + ⋯ )𝜀𝑡

+ (𝜓1 + 𝜓2 + 𝜓3 + ⋯ )𝜀0 − (𝜓𝑡+1 + 𝜓𝑡+2 + ⋯ )𝜀0
+ (𝜓2 + 𝜓3 + 𝜓4 + ⋯ )𝜀−1 − (𝜓𝑡+2 + 𝜓𝑡+3 + ⋯ )𝜀−1 + ⋯
∑𝑡𝑠=1 𝑢𝑠 = 𝜓(1) ∙ ∑𝑡𝑠=1 𝜀𝑠 + 𝑛1 − 𝑛0 [17.A.1]

dónde
𝑛𝑡 = −(𝜓1 + 𝜓2 + 𝜓3 + ⋯ )𝜀𝑡 − (𝜓2 + 𝜓3 + 𝜓4 … )𝜀−1 − (𝜓3 + 𝜓4 + 𝜓5 … )𝜀𝑡−2 − ⋯

𝑛0 = −(𝜓1 + 𝜓2 + 𝜓3 + ⋯ )𝜀0 − (𝜓2 + 𝜓3 + 𝜓4 … )𝜀−1 − (𝜓3 + 𝜓4 + 𝜓5 … )𝜀−2 − ⋯
𝑥
Tenga en cuenta que ∑𝑥𝑗=0 𝛼𝑗 + 𝜀1−𝑗 , donde 𝛼𝑗 = −(𝜓𝑗+1 + 𝜓𝑗+2 + ⋯ ), con {𝛼𝑗 }𝑗=0
absolutamente sumable:
∑∞
𝑗=0|α𝑗 | = |𝜓1 + 𝜓2 + 𝜓3 + ⋯ | + |𝜓2 + 𝜓3 + 𝜓4 + ⋯ | + |𝜓3 + 𝜓4 + 𝜓5 + ⋯ | + ⋯
≤ {|𝜓1 | + |𝜓2 | + |𝜓3 | + ⋯ + |𝜓2 | + |𝜓3 | + |𝜓4 | + ⋯ }
17.9 Análisis bayesiano y raíces unitarias 555

+{|𝜓3 | + |𝜓4 | + |𝜓5 | + ⋯ } + ⋯
= |𝜓1 | + 2|𝜓2 | + 3|𝜓3 | + ⋯
= ∑∞
𝑗=0 𝑗|𝜓𝑗 |
el cual es fundado por los supuestos en la Proposición 17.2.
▪ Prueba de proposición 17.3.
(a) Esto fue mostrado en [17.5.9].

(b) Esto se deduce de [17.2.17] y el primer hecho de que 𝐸(𝑢𝑡2 ) = 𝑦0 .
(c) Esto está implícito en [17.2.14].
(d) Desde 𝜉𝑡 = ∑𝑡𝑠=1 𝑢𝑠 , la Proposición 17.2 afirma que
𝜉𝑡 = 𝜓(1) ∑𝑡𝑠=1 𝜀𝑠 + 𝑛1 − 𝑛0 [17.A.2]
Por tanto,
𝑇 −1 ∑𝑡𝑦=1 𝜉𝑡−1 𝜀𝑡 = 𝑇 −1 ∑𝑡𝑡=2 (𝜓(1) ∑𝑡𝑠=1 𝜀𝑠 + 𝑛1 − 𝑛0 )𝜀𝑡

−1
= 𝜓(1) ∙ 𝑇 ∑𝑡𝑠=1( 𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡−1 )𝜀𝑡
+𝑇 −1 ∑𝑡𝑠=1( 𝑛1 − 𝑛0 ) 𝜀𝑡 . [17.A.3]
Pero [17.3.26] estableció que

𝑡
𝐿
−1
𝑇 ∑( 𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡−1 )𝜀𝑡 → (1/2)𝜎 2 ∙ {[𝑊(1)]2 − 1}
𝑠=1
. [17.A.4]
𝑥
Además, la Proposición 17.2 asegura que {(𝑛𝑡−1 − 𝑛0 )𝜀𝑡 }𝑡=1 es una secuencia de diferencias de
martingala con varianza finita, y así, del Ejemplo 7.11,
𝑝
𝑇 −1 ∑𝑡𝑡=2( 𝑛1 − 𝑛0 ) 𝜀𝑡 → 0 . [17.A.5]
Sustituyendo [17.A.4] y [17.A.5] en rendimientos [17.A.3]

𝐿
𝑇 −1 ∑𝑡𝑡=1 𝜉𝑡−1 𝜀𝑇 → (1/2)𝜎 2 ∙ [𝜓(1)] ∙ {[𝑤(1)]2 − 1}, [17.A.6]
como se reivindica en (d).
(e) Para j=0 tenemos de [17.1.11] que
𝑇 −1 ∑𝑡𝑡=1 𝜉𝑡−1 𝑢𝑇 = (1/2)𝑇 −1 𝜉2𝑇 − (1/2)𝑇 −1 ( 𝑢21 + 𝑢22 + ⋯ + 𝑢2𝑇 ). [17.A.7]
Pero
𝐿 2
𝑇 −1 ∑𝑡𝑡=1 𝜉2𝑇 = [𝑇 −2 (𝑢1 + 𝑢2 +. . +𝑢𝑡 )]2 → 𝜆2 ∙ [𝑊(1)] , [17.A.8]
del resultado (a). También,

𝑝
𝑇 −1 (𝑢1 + 𝑢2 +. . +𝑢𝑡 ) → 𝑦0 ,
del resultado (c). Por lo tanto, [17.A.7] converge a

𝐿 1
𝑇 −1 ∑𝑡𝑡=1 𝜉𝑡−1 𝑢𝑡 → (2) {𝜆2 ∙ [𝑊(1)]2 − 𝑦0 }, [17.A.9]
lo que establece el resultado (e) para j=0.
Para j>0. Observe que
𝜉𝑡−1 = 𝜉𝑡−𝑗−1 + 𝑢𝑡−𝑗 + 𝑢𝑡−𝑗+1 + ⋯ + 𝑢𝑡−1 ,
implicando que
𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 = 𝑇 −1 ∑𝑡𝑡=𝑗+1(𝜉𝑡−1 + 𝑢𝑡−𝑗 + 𝑢𝑡−𝑗+1 + ⋯ + 𝑢𝑡−1 ) 𝑢𝑡−1
= 𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−1
+𝑇 −1 ∑𝑡𝑡=𝑗+1(𝑢𝑡−𝑗 + 𝑢𝑡−𝑗+1 + ⋯ + 𝑢𝑡−1 )𝑢𝑡−1 . [17.A.10]
Pero
𝐿
𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 = [(𝑇 − 𝑗)/𝑇] ∙ (𝑇 − 𝑗)−1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 → (1/2){𝜆2 ∙ [𝑊(1)]2 − 𝑦0 }
como en [17.A.9]. También,

𝑝
𝑇 −1 ∑𝑡𝑡=𝑗+1 (𝑢𝑡−𝑗 + 𝑢𝑡−𝑗+1 + ⋯ + 𝑢𝑡−1 )𝑢𝑡−1 → 𝑦0 + 𝑦1 + 𝑦2 + ⋯ + 𝑦𝑗−1
del resultado (c). Esto, [17.A.10] converge a

𝐿
𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 → (1/2){𝜆2 ∙ [𝑊(1)]2 − 𝑦0 } + {𝑦0 + 𝑦1 + 𝑦2 + ⋯ + 𝑦𝑗−1 }
Claramente, 𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 tiene la misma distribución asintótica, dado que
𝑝
𝑇 −1 ∑𝑡𝑡=𝑗+1 𝜉𝑡−1 𝑢𝑡−𝑗 → 0 .
(f) De la definición de 𝜉𝑡 en [17.5.11] y X(r) en [17.5.4], se deduce como en [17.3.15]

que
1
∫0 √𝑇 ∙ 𝑋(𝑟)𝑑𝑟 = 𝑇 −3/2 ∑𝑇𝑡=1 𝜉𝑡−1 .
El resultado (f) se sigue inmediatamente de [17.5.5].
(g) Primero note que
𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡−1 = 𝑇 −3/2 ∑𝑇𝑡=1(𝑡 − 𝑗 + 𝑗)𝑢𝑡−1 ,

𝑝
dónde 𝑗 ∙ 𝑇 −3/2 ∑𝑇𝑡=1 𝑢𝑡−1 → 0. Por lo tanto
𝑝 𝑝
𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡−1 → 𝑇 −3/2 ∑𝑇𝑡=1(𝑡 − 𝑗)𝑢𝑡−1 → 𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡 .
Pero de [17.3.9],
𝐿 1
𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡 = 𝑇 −3/2 ∑𝑇𝑡=1 𝑡𝑢𝑡 − 𝑇 −3/2 ∑𝑇𝑡=1 𝜉𝑡−1 → 𝜆 ∙ ∫0 𝑊(𝑟)𝑑𝑟 .
En virtud de (a) y (f).
Apéndice 17.A. Prueba de las Proposiciones del capítulo 17 557

(h) Usando el mismo análisis que en [17.3.20] a través de [17.3.22], para 𝜉𝑡 definida
en [17.5.11].
y 𝑋𝑇 (r) definido en [17.5.4], tenemos

𝜉2 𝜉2 𝜉2 1 2 𝐿 1
𝑇 −1 { 𝑇1 + 𝑇
2
+ ⋯+ 𝑇−1
𝑇
} = ∫0 [√𝑇 ∙ 𝑋𝑇 (𝑟)] 𝑑𝑟 → [𝜎 ∙ 𝜓(1)]2 ∙ ∫0 𝑊(𝑟)𝑑𝑟
en virtud de [17.5.5].
(i) Como en [17.3.23],
𝑇 −5/2 ∑𝑇𝑡=1 𝑡 𝜉𝑡−1 = 𝑇 1/2 ∑𝑇𝑡=1(𝑡/𝑇). ( 𝜉𝑡−1 /𝑇2 )

1
= 𝑇 1/2 ∫0 {([𝑇𝑟]∗ + 1)/𝑇}. {(𝑢1 + 𝑢2 + ⋯ + 𝑢|𝑇𝑟 | )/𝑇}𝑑𝑟
1 ([𝑇𝑟]∗ +1)
= 𝑇 1/2 ∫0 { 𝑇
} . 𝑋𝑇 (𝑟)𝑑𝑟
𝐿 1
→ 𝜎. 𝜓(1). ∫0 𝑟𝑊(𝑟)𝑑,
A partir de [17.5.5] y el teorema de mapeo continuo.
(j) Del mismo argumento que en ( i ),
𝑇 −3 ∑𝑇𝑡=1 𝑡 𝜉2 𝑡−1 = ∑𝑇𝑡=1(𝑡/𝑇). ( 𝜉3 𝑡−1 /𝑇2 )

1
= 𝑇 ∫0 {([𝑇𝑟]∗ + 1)/𝑇}. {(𝑢1 + 𝑢2 + ⋯ + 𝑢|𝑇𝑟 |∗ )/𝑇2 } 𝑑𝑟
1 𝐿 1
= 𝑇 ∫0 {([𝑇𝑟]∗ + 1)/𝑇}. [𝑋𝑇 (𝑟)]2 𝑑𝑟 → [𝜎2 . 𝜓(1)]2 . ∫0 𝑟[𝑊(𝑟)]2 𝑑𝑟
(k) Esto es idéntico al resultado (h) de la Proposición 17.1, repetido en esta

proposición para la conveniencia del lector. ◘
17.1 Sea {𝑢𝑡 } una secuencia iid con media cero y varianza 𝜎 2 , y dado 𝑦𝑡 = 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡
con 𝑦0 = 0. Deducir de [17.3.17] y [17.3.18] que
𝑇 −1/2 ∑ 𝑢𝑡 𝑁 0 1 1/2
[ −3/2 ∑ ] → 𝑁 ([ ] , 𝜎 2 [ ])
𝑇 𝑦𝑡−1 0 1/2 1/3
dónde ∑ indica sumación sobre t de 1 a T. Comparando este resultado con la Proposición 17.1,
argumenta que
𝑊(1) 0 1 1/2
[ ] ~𝑁 ([ ] , [ ])
∫ 𝑊(𝑟) 𝑑𝑟 0 1/2 1/3
dónde el signo integral denota integración sobre r de 0 a 1.
17.2 Phillips (1987) generalización del caso 1. Supongamos que los datos se generan a partir del
proceso 𝑦𝑡 = 𝑦𝑡−1 + 𝑢𝑡 , donde 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 , ∑𝑥𝑗 𝑗 ∙ |𝜓𝑗 | < ∞y 𝜀𝑡 es iid con media cero, varianza
𝜎 2 y finito cuarto momento. Considere la estimación MCO de la autorregresión 𝑦𝑡 = 𝑝𝑦𝑡−1 + 𝑢𝑡 .
2
Sea 𝑝̂ 𝑇 = (∑ 𝑦𝑡−1 )−1 (∑ 𝑦𝑡−1 𝑦𝑡 ) la estimación MCO de p, la estimación MCO de la varianza del

−1
error de regresión, 𝜎̂𝑃𝑇 = 𝑠𝑇2 ∙ (∑ 𝑦𝑡−1
2
) la estimación MCO de la varianza de 𝑝̂ 𝑇 y 𝑡𝑇 = (𝑝̂ 𝑇 −
1)/𝜎̂𝑃𝑇 la prueba t de MCO de p = 1 y defina 𝜆 ≡ 𝜎 ∙ 𝜓(1). Utilice la proposición 17.3 para
demostrar que
1 2
𝐿 {𝜆 [𝑊(1)]2 −𝑦0 }
(𝑎) 𝑇(𝑝̂ 𝑟 − 1) → 2
𝜆2 .∫[𝑊(𝑟)]2 𝑑𝑟
𝐿 𝑦
(𝑏) 𝑇 2 . 𝜎̂𝑝̂𝑟 2 → 2 [ (0 )]2
𝜆 .∫ 𝑊 𝑟 𝑑𝑟
1 1 2
𝐿
2 1⁄2 {[𝑊(1)]2 −1} (𝜆 −𝑦0 )
(𝑐) 𝑡𝑇 → (𝜆 /𝑦0 ) { 2
1 + 2
1 };
{ [ ( )]2 } ⁄2
∫𝑊 𝑟 𝑑𝑟 𝜆2 {∫[𝑊(𝑟)]2 𝑑𝑟} ⁄2
1
1 𝐿 {[𝑊(1)]2 −1}
(𝑑) 𝑇(𝑝̂ 𝑟 − 1) − (𝑇 2 . 𝜎̂𝑝̂𝑟 2 ÷ 𝑠2𝑇 )(𝜆2 − 𝑦0 ) → 2 [ ( )]2 ;
2 ∫ 𝑊 𝑟 𝑑𝑟
1⁄ 1 1
(𝜆2 −𝑦0 ) 𝐿 {[𝑊(1)]2 −1}
(𝑒) (𝑦0 /𝜆2 ) 2
. 𝑡 𝑇 − {2 } 𝑥{𝑇 2 . 𝜎̂𝑝̂𝑟 2 ÷ 𝑠2𝑇 } → 2
1
𝜆 { [ ( )]2 } ⁄2
∫𝑊 𝑟 𝑑𝑟
Sugiera estimaciones de 𝑦0 y 𝜆2 que podrían usarse para construir las estadísticas en (d) y
(e), e indicar dónde se podrían encontrar estadísticas de valores críticos.
17.3. Generalización del Caso 4. Phillips y Perron (1988). Supongamos que los datos se generan a partir
del proceso 𝑦𝑡 = 𝛼 + 𝑦𝑡+1 + 𝑢𝑡 donde 𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 y ∑𝑥𝑗 𝑗 ∙ |𝜓𝑗 | < ∞ con media cero, varianza
𝜎 2 y finito cuarto momento, y donde 𝛼 puede ser cualquier valor, incluyendo cero. Considere la
estimación de MCO de
𝑦𝑡 = 𝛼 + py𝑡−1 + 𝛿𝑡 + 𝑢𝑡
Como en [17.4.49], tenga en cuenta que los valores ajustados y la estimación de p de esta
regresión son idénticos a los de y MCO regresión de 𝑦𝑡 en una constante, la tendencia del tiempo, y
𝜉𝑡−1 ≡ y𝑡−1 − 𝛼(𝑡 − 1):
𝑦𝑡 = 𝛼∗ + p∗ 𝜉𝑡−1 + 𝛿∗ 𝑡 + 𝑢𝑡
Donde, bajo el supuesto proceso de generación de datos 𝜉𝑡 staisfies el supuesto de la

Proposición 17.3. Sea (𝛼∗ p∗ 𝛿∗ 𝑡) las estimaciones de MCO dadas por la ecuación [17.4.50], 𝑠𝑇2 =
(𝑡 − 3)× ∑ 𝑢̂𝑡2 la varianza de 𝑝̂ 𝑇 dada en [17.4.54] y 𝑝̂ 𝑇 la prueba t de MCO de p = 1. Recordemos
además que 𝑝̂ 𝑇 y 𝜎̂𝑃𝑇 son numéricamente idénticos a las magnitudes análogas para la egresión
original, 𝑝̂ 𝑇 y 𝜎̂𝑃𝑇 . Finalmente, defina 𝜆 ≡ 𝜎 ∙ 𝜓(1). Utilice la Proposición 17.3 para mostrar que
1 𝑇 −3⁄2 ∑ 𝜀𝑡−1 𝑇 −2 ∑ 𝑡
−3 ⁄2
(𝑎) [𝑇 ∑ 𝜀𝑡−1 𝑇 −2 ∑ 𝜀 2 𝑡−1 𝑇 −5/2 ∑ 𝑡𝜀𝑡−1 ]
−2 ∑
𝑇 𝑇 𝑇 −5/2 ∑ 𝑡𝜀𝑡−1 𝑇 −3 ∑ 𝑡 2
1 0 0 1 ∫ 𝑊(𝑟)𝑑𝑟 1⁄2 1 0 0
𝐿
→ [0 𝜆 0] [∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑊(𝑟)𝑑𝑟] [0 𝜆 0]
0 0 1 1/2 ∫ 𝑟𝑊(𝑟)𝑑𝑟 1/3 0 0 1
𝑇 −1/2 ∑ 𝑢𝑡 𝑊(1)
𝐿 1 0 0 1
2 2
(𝑏) [ 𝑇 −1 ∑ 𝜀𝑡−1 𝑢𝑡 ] → [0 𝜆 0] [2 {𝑊(1) − [𝛾0 ⁄𝜆 ]}]
𝑇 −3/2 ∑ 𝑡𝑢𝑡 0 0 1 𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟
Capiítulo 17 Ejercicios 559

−1
𝑇 1/2 𝛼̂ 𝑇∗ 1 ∫ 𝑊(𝑟)𝑑𝑟 1⁄2
𝐿 1 0 0
(𝑐) [ 𝑇(𝜌̂𝑇∗ − 1) ] → [0 𝜆 ]
0 ∫ [ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑊(𝑟)𝑑𝑟]
𝑇 3/2 (𝛿̂𝑇∗ − 𝛼0 ) 0 0 1 1/2 ∫ 𝑟𝑊(𝑟)𝑑𝑟 1/3
𝑊(1)
1 2
× [ 2 {[𝑤(1)] − [𝛾0 ⁄𝜆2 ]} ]
{{𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟}}
−1
1 ∫ 𝑊(𝑟)𝑑𝑟 1 ⁄2 0
𝜌
2
(𝑑) 𝑇 2 𝜎̂𝜌̂𝑇
→ (𝑠𝑇2 ⁄𝜆2 )[0 1 ]
0 ∫[ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑊(𝑟)𝑑𝑟] [1]
1/2 ∫ 𝑟𝑊(𝑟)𝑑𝑟 1/3 0
≡ (𝑠𝑇2 ⁄𝜆2 ). 𝑄
𝜌
(𝑒) 𝑡𝑇 → (𝜆2⁄𝛾0 )1⁄2 . 𝑇 (𝜌̂𝑇 − 1)⁄√𝑄
1
(𝑓) 𝑇(𝜌̂𝑇 − 1) − (𝑇 2 . 𝜎̂𝜌̂2𝑡 ÷ 𝑆𝑇2 )(𝜆2 − 𝛾0 )
2
−1 𝑊(1)
1 ∫ 𝑊(𝑟)𝑑𝑟 1⁄2
𝐿 1
→ [0 1 ]
0 [∫ 𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ 𝑊(𝑟)𝑑𝑟] ×[ {[𝑊(1)]2 − 1} ]
2
1/2 ∫ 𝑟𝑊(𝑟)𝑑𝑟 1/3 𝑊(1) − ∫ 𝑊(𝑟)𝑑𝑟
≡𝑉
1 𝐿
(𝑔) (𝛾0 ⁄𝜆2 )1⁄2 . 𝑡𝑇 − { (𝜆2 − 𝛾0 )⁄𝜆} ×{𝑇. 𝜎̂𝜌̂𝑡 ÷ 𝑠𝑇 } → 𝑉 ÷ √𝑄
2
Sugerir estimaciones de 𝑦0 y 𝜆2 que podrían utilizarse para construir las estadísticas de (f) y
(g), e indicar dónde se podrían encontrar valores críticos para estas estadísticas.
17.4 Generalización del caso 1 para autorregresiones. Considere la estimación de MCO de
𝑦𝑡 = 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝑝𝑦𝑡−1 + 𝜀𝑡
dónde 𝜀𝑡 es iid con media cero, varianza 𝜎 2 y finito cuarto momento y las raíces de (1 − 𝜁1 𝑧 −
𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 ) = 0 están fuera del círculo unitario. Defina 𝜆 = 𝜎/(1 − 𝜁1 − 𝜁2 − ⋯ −
𝜁𝑝−1 ) y 𝑦𝑡 = 𝐸{(∆𝑦𝑡 )(∆𝑦𝑡−𝑗 )}. Sea 𝜁̂1 ≡ (𝜁̂1.𝑇 , 𝜁̂2.𝑇 , … , 𝜁̂𝑝−1.𝑇 el (p - 1) x 1 vector de los
coeficientes MCO estimados sobre los cambios rezagados en y, y sea 𝜁 el valor verdadero
correspondiente. Demuestre que si el valor verdadero de p es unidad, entonces
−1
𝑉 0
𝑇 1/2 (𝜁̂1 − 𝜁) 𝐿 ℎ1
[ ] → [ 0𝑡 𝜆2 ∙ ∫[𝑊(𝑟)]2 𝑑𝑟
] [ 2 ]
𝑇(𝑝̂ 𝑇 − 1) 1/2𝜎𝜆[𝑊(1)] − 1
dónde V es la matriz [(p-1) x (p-1)] definida en [17.7.19] y ℎ1 ~𝑁(0, 𝜎 2 𝑉). Deducir de esto
que
1 𝐿
(𝑎) 𝑇 2 (𝜁̂1 − 𝜁) → 𝑁(0, 𝜎 2 𝑉 −𝑡 );
1 2
𝐿 2 {[𝑊(1)] − 1}
̂ ̂ ̂
(𝑏) 𝑇(𝑝̂ 𝑇 − 1)/(1 − 𝜁1.𝑇 − 𝜁2.𝑇 − ⋯ − 𝜁𝑝−1.𝑇 ) → ;
∫[𝑊(𝑟)]2 𝑑𝑟

1
𝐿 {[𝑊(1)]2 − 1}
(𝑐) 𝑇(𝑝̂ 𝑇 − 1)/𝜎̂𝜌̂𝑇 → 2 ;
{∫[𝑊(𝑟)]2 𝑑𝑟}1⁄2
¿Dónde podría encontrar valores críticos para las estadísticas en (b) y (c)?
17.5 Generalización del caso 3 para autorregresión. Considere la estimación de MCO de
𝑦𝑡 = 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝜀𝑡
Dónde 𝜀𝑡 es iid con media cero, varianza 𝜎 2 y cuarto momento finito y las raíces de (1 − 𝜁1 𝑧 −
𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 ) = 0 están fuera del círculo unitario.
(a) Muestre que los valores ajustados para esta regresión son idénticos a los de la
siguiente especificación transformada:
𝑦𝑡 = 𝜁1 𝑢𝑡−1 + 𝜁2 𝑢𝑡−2 + ⋯ + 𝜁𝑝−1 𝑢𝑡−𝑝+1 + 𝜇 + 𝑝𝑦𝑡−1 + 𝜀𝑡
Dónde 𝑢𝑡 ≡ ∆𝑦𝑡 − 𝜇 y 𝜇 ≡ 𝛼/(1 − 𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 )
(b) Supongamos que el valor verdadero de p es 1 y el verdadero de 𝛼 es distinto de

cero. Demuestre que bajo estas suposiciones,
𝑢𝑡 = [1/(1 − 𝜁1 𝐿 − 𝜁2 𝐿2 − ⋯ − 𝜁𝑝−1 − 𝐿𝑝−1 )]𝜀𝑡
𝑦𝑡−1 = 𝜇(𝑡 − 1) + 𝜉𝑡−1
dónde
𝜉𝑡−1 ≡ 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡−1
Concluya que para 𝑦0 fijo las variables 𝑢𝑡 y 𝜉𝑡 satisfacen los supuestos de las Proposiciones 17.3 y
que y está dominado asintóticamente por una tendencia temporal.
(C) Sea 𝑦𝑡−1 ≡ 𝐸(𝑢𝑡 𝑢𝑡−1 ) y sea 𝜁̂𝑇 ≡ (𝜁̂1.𝑇 , 𝜁̂2.𝑇 , … , 𝜁̂𝑃−1.𝑇 )1 el (p-1) x 1 vector
de los coeficientes MCO estimados en (𝑢𝑡−1 , 𝑢𝑡−2 , … , 𝑢𝑡−𝑝+1 ); estos, por supuesto, son idénticos
a los coeficientes de (∆𝑦𝑡−1 , ∆𝑦𝑡−2 , … , ∆𝑦𝑡−𝑝+1 ) en la regresión original. Demuestre que si p = 1
y 𝛼 ≠ 0,
𝑇 1/2 (𝜁̂𝑇 − 𝜁) −1
𝑉 0 0 ℎ1
𝑇 1/2 (𝜇̂ 𝑇 − 𝜇) →𝑡
[0 𝑡
1 𝜇/2 ] [ℎ2 ]
3/2
𝑇 (𝑝̂ 𝑇 − 1) 0𝑡 𝜇/2 𝜇2 /3 ℎ3
[ ]
dónde
ℎ1 0 𝑉 0 0
𝑡
[ℎ2 ] ~𝑁 ([0] , 𝜎 [0
2 1 𝜇/2 ])
ℎ3 0 0𝑡 𝜇/2 𝜇2 /3
y V es la matriz en [17.7.19]. Concluya, como en el análisis de la sección 16.3, que cualquier prueba
MCO t o F en la regresión original puede compararse con las tablas estándar t y F de la deducción y
la inferencia asintóticamente válida.
17.6 Generalización del caso 4 para autorregresión. Considere la estimación de MCO de
𝑦𝑡 = 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝛿 𝑡 + 𝜀𝑡

Dónde 𝜀𝑡 es iid con media cero, varianza 𝜎 2 y finito cuarto momento y las raíces de
(1 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 ) = 0 están fuera del círculo unitario.
(a) Muestre que los valores ajustados de esta regresión son numéricamente idénticos
a los de la siguiente especificación:
𝑦𝑡 = 𝜁1 𝑢𝑡−1 + 𝜁2 𝑢𝑡−2 + ⋯ + 𝜁𝑝−1 𝑢𝑡−𝑝+1 + 𝜇∗ ≡ 1(1 − 𝑝)𝜇, 𝜉𝑡−1 ≡ 𝑦𝑡−1 + 𝜀𝑡
Dónde 𝑢𝑡 ≡ ∆𝑦𝑡 − 𝑢, 𝑢 = 𝛼/(1 − 𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−1 ) , 𝜇∗ ≡ (1 − 𝑝)𝜇, 𝜉𝑡−1 ≡ 𝑦𝑡−1 −

𝜇(1 − 𝑡) y 𝛿 ∗ ≡ 𝛿 + 𝑝𝜇 . Obsérvese que el coeficiente estimado 𝜁̂𝑇 y 𝑝̂ 𝑇 y sus errores estándar
serán idénticos para las dos regresiones.
(b) Supongamos que el valor verdadero de p es 1 y el valor verdadero de 𝛿 es 0.

Muestre que bajo estas suposiciones,
𝑢𝑡 = [1/(1 − 𝜁1 𝐿 − 𝜁2 𝐿2 − ⋯ − 𝜁𝑝−1 − 𝐿𝑝−1 )]𝜀𝑡
𝜉𝑡−1 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡−1
Concluya que para 𝑦0 fijo las variables 𝑢1 y 𝜉𝑡 satisfacen los supuestos de la Proposición 17.3.
(c) Sea de nuevo p = 1 y 𝛿 = 0 = 0, y defina 𝑦𝑡 ≡ 𝐸(𝑢1 𝑢𝑡−1 ), y

2
𝜆 = 𝜎/(1 − 𝜁1 𝐿 − 𝜁2 𝐿 − ⋯ − 𝜁𝑝−1 )
muestra esa
1 −1
𝑇 ⁄2 (𝜉̂𝑇 −𝜉) 0𝑉 0 0
1
𝑇 ⁄2 𝜇
̂ 𝑇∗ 𝐿 10′ 𝜆. ∫𝑊(𝑟)𝑑𝑟 1/2
𝑇(𝑝̂ 𝑇 − 1) → 2 2
0′ 𝜆. ∫𝑊(𝑟)𝑑𝑟 𝜆 . ∫[𝑊(𝑟)] 𝑑𝑟 𝜆. ∫𝑊(𝑟)𝑑𝑟
1⁄ 1/2 1/3 ]
[𝑇 2 (𝛿̂𝑇 − 𝛿 )] [0′
∗ ∗ 𝜆. ∫𝑊(𝑟)𝑑𝑟
ℎ1
𝜎.𝑊(𝑟)
𝑥 [ 1 𝜎𝜆{[𝑊(1)]2 − 1}) ]
2
𝜎. {𝑊(1) − ∫𝑊(𝑟)𝑑𝑟}
dónde ℎ~𝑁(0, 𝜎 2 𝑉) y V son como se definen en [17.7.19].
(d) Deduzca de la respuesta c) que:

1⁄ 𝐿
𝑇 ̂
2 (𝜉
𝑇
− 𝜉) → 𝑁(0, 𝜎 2 𝑉 −𝑡 );
𝑇(𝑝̂ 𝑇 − 1)(1 − 𝜁̂1𝑇 − 𝜁̂2𝑇 −. . . −𝜁̂𝑝−1.𝑇 )
1 ∫𝑊(𝑟)𝑑𝑟 1/2 𝑊(1)

𝐿 1 2
∫𝑟𝑊(𝑟)𝑑𝑟] [ 2 {[𝑊(1)] − 1} ]
2
→ [0 1 0] [∫𝑊(𝑟)𝑑𝑟 ∫[𝑊(𝑟)] 𝑑𝑟
1/2 ∫𝑟𝑊(𝑟)𝑑𝑟 1/3 𝑊(1) − ∫𝑊(𝑟)𝑑𝑟
≡ 𝑉;
𝐿
𝑇(𝑝̂ 𝑇 − 1)/𝜎̂𝜌̂𝑇 → 𝑉 ÷ √𝑄
Dónde

−1
1 ∫ 𝑊(𝑟) 𝑑𝑟 1/2 0
𝑄 ≡ [0 1 0] [∫ 𝑊(𝑟) 𝑑𝑟 ∫[𝑊(𝑟)]2 𝑑𝑟 ∫ (𝑟) 𝑑𝑟]
𝑟𝑊 [ 1]
1/3 ∫ 𝑟𝑊(𝑟) 𝑑𝑟 1/3 0
Obsérvese que la distribución de V es la misma que la distribución asintótica de la variable tabulada

para el caso 4 en la Tabla B.5, mientras que la distribución de 𝑉/√𝑄 es la misma que la distribución
asintótica de la variable tabulada para el caso 4 en la Tabla
Capítulo 17. Referencias

Andrews, Donald W: K. 1991. “Heteroskedasticity an Autocorrelation Conssitent Covariance
Matrix Estimation.” Esconometrica 59:817-58.
---------. 1993. “Exactly Median Unbiased Estimation of First Order Autoregresive/Unit Root
Models.” Econometrica 61: 139-65.
Beveridge, Stephen and Charles R. Nelson. 1981. “A New Approach to Descomposition of
Economic Time Series into Permanent and Transitory Componentes with Particular Attention to
Measurement of the Bussines Cycle.” Journal of Monetary Economics 7:151-74.
Bhargava, Alok. 1986. “On the Theory of Testing for Unit Roots in Observed Time Series.” Review
of Economic Studies 53:369-84.
Billingsley, Patrick. 1968. Convergence of Probability Measures. New York: Wiley.
Campbell, John Y., and Pierre Perron. 1991. “Pitfalls and Opportunities: What Macroeconomists
Should Know about Unit Roots.” NBER Macroeconomics Annual. Cambridge. Mass.: MIT Press.
Cecchetti, Stephen G. and Pok-sang Lam. 1991. “WhatDo We Learn from Variance Ratio
Statistics? A Study of Stacionary and Nonstacionary Models with Breaking Trends.” Departament
of Economics, Ohio State University. Mimeo.
Chan, N. H., and C. Z. Wei. 1987. “AsymptoticInference for Nearly Nonstationary Ar(1)
Processes.” Annals of Statistics 15:1050-63.
--------- and ---------. 1988. “ Limiting Distributions of Least Squares Estimates of Unstable
Autoregressive Processes.” Annals of Statistics 16: 367-401.
Cochrane, John H. 1988. “How Big is the Random Walk in GNP?” Journal of Political Economy
96:893-920.
DeJong, David N., and Charles H. Whiteman. 1991. “Reconsidering ‘Trends and Random Walks in
Macroeconomic Time Series’” Journal of Monetary Economics 28:221-54.
Dickey, David A., and Wayne A. Fuller. 1979. “Distribution of the Estimators for Autoregressive
Time Series with a Unit Root.” Journal of the American Statistical Association 74:427-31.
------- and -----. 1981. “Likelihood Ratio Statistics for Autoregressive Time Series with a Unit
Root.” Econometrica 49:1057-72.
------- and S. G. Pantula. 1977. “Determining the Order of Differencing in Autoregressive
Processes.” Journal of Business and Econmic Statistic 5:455-61.
Evans. G. B. A., and N. E. Savin. 1981. “Testing for Unit Roots:1” Econometrica 49:753-79.
------ and --------. 1984. “Testing for Unit Roots:2” Econometrica 52:1241-69.
Fuller, Wayne A. 1976. Introduction to Statistical Time Series. New York: Wiley.
Hall, Alastair. 1989. “Testing for a Unit Root un the Ptesence of Moving Average Erros.”
Biometrika 76:49-56.
-----------. 1991. “Testing for a Unit Root in Times Series with Pretest Data Based Model Selection.”
Departament of Economics. North Carolina State University. Mimeo.
Hall, P., and C. C. Heyde. 1980. Matingale Limit Theory and Its Application. New York: Academic
Press.Hansen, Bruce E. 1992. “Consistentt Covariance Matrix Estimation for Dependent
Heterogeneous Processes.” Econometrica 60:967-72.
Jeffreys, H. 1946. “An Invariant Form for the Prior Probability in Estimation Problems.” Proceedings
of the Royal Society of London Series A. 186:453-61.
Kim, Kiwhan, and Peter Schmidt. 1990. “Some Evidence on the Accuracy of Phillips-Perron Test
Using Alternative Estimates of Nuisance Parameters.” Econmics Letters 34:345-50.
Kwiatkowski, Denis, Peter C. B. Phillips, Peter Schmidt, and Yongcheol Shin. 1992. “Testing the
Null Hypothesis of Stacionarity against the Alternative of a Unit Root: How Sure Are We That
Economic Time Series Have a Unit Root?” Journal of Econometrics 54:159-78.

Lo, Andrw W., and A. Craig MacKinlay. 1988. “Stock Prices Do Not Follow Rndom Walks:
Evidence froma Simple Specification Test.” Review of Financial Studies 1:41-66.
----- and -----. 1989. “The Size and Power of the Vriance Ratio Test in Finite Samples: A Monte
Carlo Investigation.” Journal Of Econometrics 40:203-38.
Malliaris, A. G., and W. A. Brock. 1982. Stochastic Methods in Economics and Finance. Amsterdam:
North- Holland.
Ptula, Sastry G., and Alastair Hall. 1991. “testing for Unit Roots In Autoregressive Moving Average
Models: An Instrumental Variable Approach.” Journal of Econometrics 48:325-53.
Park, Joon Y., and B. Choi. 1988. “A New Approach to Testing for a Unit Root.” Cornell
University. Mimeo.
Park Joon Y., and Peter C. B. Phillips. 1988. “Statistical Inference in Regressions with Integrated
Processes: Part 1.” Econometric Theory 4:468-97.
-------- and -------. 1989. “Statistical Inference in Regressions with Integrated Processes: Part 2.”
Econometric Theory 5:95-131.
Phillips, P. C. B. 1986. “Understanding Spurious Regressions in Econometrics.” Journal of
---------. 1987. “Time Series Regression with a Unit Root.” Econometrica 55:277-301.
---------. 1988. “Regression Theory for Near-Integrated Time Series.” Econometrica 56:1021-43.
--------. 1991a. “To Citricize the Citics: An Objective Bayesian Analysis of Stochastic Trends.”
Journal of Applied Econometrics 6:333-64.
----. 1991b. “Bayesian Routes ans Unit Roots: De Rebus Prioribus Semper Est Diputandum.”
Journal of Applied Econometrics 6:435-73.
------- and Pierre Perron. 1988. “testing for a Unit Root in Time Series Regression.” Biometrika
75:335.46.
------- and Victor Solo. 1992. “Asymptotics for Linear Processes.” Annals of Statistics 20:971-1001.
Said, Said E. 1991. “Unit-Root Tests for Time-Series Data with a Linear Time Lend.” Journal of
------- and David A. Dickey. 1984. “Testing for Unit Roots in Autoregressice-Moving Average
Models of Unknown Order.” Biometrika 71:599-607.
------ and ------. 1985. “Hypothesis Testing in ARIMA (p,1, q) Models.” Journal of the American
Statistical Association 80:369-74.
Sargan J. D., and Alok Bhargava. 1983. “Testing Residuals from Least Squares Regression for Being
Generated by the Gaussian Random Walk.” Econometrica 51:153-74.
Schmidt, Peter, and Peter C.B. Phillips. 1992. “LM Tests for a Unit Root in the Presence of
Deterministic Trends.” Oxford Bulletin of Economics and Statistics 54:257-87.
Schwert, G. William. 1989. “Tests for Unit Roots: A Monte Carlo Investigation.” Journal of Business
and Economic Statistics 7:147-59.
Sims, Christopher A. 1988. “Bayesian Skepticism on Unit Room Econometrics.” Journal of Economics
Dynamics and Control 12:463-74.
-------. James H. Stock, and Mark W. Watson. 1990. “Inference in Linear Time Series Models with
Some Unit Roots.” Econometrica 58:113-44.
------- and Harald Uhlig. 1991. “Understanding Unit Rooters: A Helicopter Tour.” Econometrica
59:1591-99.
Solo, V. 1984. “The Order od Differencing in ARIMA Models.” Journal of the American Statistical
Asspciation 79:916-21.
Sowell, Fallaw. 1990. “The Fractional Unit Root Distribution.” Econometrica 58:495-505.
Strinchcombe, Maxwell, and Halbert White. 1993. “An Approach to Consistent Specification
Testing Using Duality and Banach Limit Theory.” University of California, San Diego. Mimeo.
Stock, James H. 1991. “Confidence Intervals for the Largest Autoregressive Root in U.S.
Macroeconomic Time Series.” Journal of Monetary Economics 28:435-59.
--------. 1993. “Unit Roots and Trend Breaks.” In Robert Engle and Daniel McFaden, eds.,
Handbook of Econometrics. Vol 4. Amsterdam:Noth Holland.
White, J. S. 1958. “The Limiting Distibution of the Serial Correlation Coefficient in the Explosive
Case.” Annals of Mathematical Statistics 29:1188-97.

18
Raíces unitarias
en series temporales
multivariables
El capítulo anterior investigó la inferencia estadística para los procesos univariados que contienen
raíces unitarias. Este capítulo desarrolla resultados comparables para los procesos vectoriales. La
primera sección desarrolla una versión vectorial del teorema de límite central funcional. La Sección
18.2 usó los resultados para generalizar el análisis de la Sección 17.7 a autorregresiones vectoriales.
La sección 18.3 discute un problema importante, conocido como regresión espuria, que puede
surgir si el término de error en una regresión es I (1). Uno debe estar preocupado por la posibilidad
de una regresión espuria siempre que todas las variables en una regresión son I (1) y no hay rezagos
de la variable dependiente se incluyen en la regresión.
18.1. Resultados asintóticos para el proceso vectorial no

estacionario
La sección 17.2 describió el movimiento Browniano estándar univariante W (r) como un proceso
escalar de tiempo continuo (𝑊: 𝑟 ∈ [0 1] → 𝑅1 ). La variable W (r) no tiene distribución N (0, r)
entre realizaciones, y para cualquier realización dada, W (r) es una función continua de la fecha r
con incrementos independientes. Si un conjunto de n procesos independientes, denotados
𝑊1 (𝑟), 𝑊2 (𝑟), … , 𝑊𝑛 (𝑟), se recogen en un vector (n x 1) W (r), el resultado es un movimiento
nacarado estándar de Brownian.
Definición: Norma n-dimensional El movimiento browniano W (∙) es un proceso de tiempo continuo

que asocia cada fecha 𝑟 ∈ [0 1] con el vector (n x 1) xxx satisfaciendo lo siguiente:
(A) W (0) = 0
(B) Para cualquier fecha 0 ≤ 𝑟1 < 𝑟2 < ⋯ 𝑟3 ≤ 1, los cambios [𝑊(𝑟2) − 𝑊(𝑟1)], [𝑊(𝑟3) −
𝑊(𝑟2)], … , [𝑊(𝑟𝑘) − 𝑊(𝑟𝑘 − 1)] son Gaussian multivariado independiente con
[𝑊(𝑠) − 𝑊(𝑠)]~𝑁(0, (𝑠 − 𝑟) ∙ 𝐼𝑛 );
(C) Para cualquier realización dada, W (r) es continua en r con probabilidad 1.
Supongamos que xxx es un proceso de tiempo discreto unidimensional con una media de cero y
una varianza unitaria, y
𝑥̅ 𝑇∗ (𝑟) ≡ 𝑇 −1 (𝑣1 + 𝑣1 + ⋯ + 𝑣[𝑇𝑟]∗ )
Donde [𝑇𝑟]∗ denota el entero mayor que es menor o igual que Tr. El teorema del límite central
funcional indica que como 𝑇 → ∞,
𝐿
√𝑇𝑥̅ 𝑇∗ (∙) → 𝑤(∙)
0 565
𝑥
Esto se generaliza fácilmente. Supongamos que {𝑣}𝑡=1 es un proceso de vector iid n-dimensional
𝑡)
con 𝐸(𝑣𝑡 )=0 y 𝐸(𝑣𝑡 𝑣𝑡 = 𝐼𝑛 y que
𝑥̅ 𝑇∗ (𝑟) ≡ 𝑇 −1 (𝑣1 + 𝑣1 + ⋯ + 𝑣[𝑇𝑟]∗ )
Entonces
𝐿
√𝑇𝑥̅ 𝑇∗ (∙) → 𝑤(∙) [18.1.1]
𝑥
A continuación, considere un proceso iid n-dimensional {𝜀𝑡 }𝑡=1 con media cero y matriz de
varianza-covarianza dada por Ω. Sea P cualquier matriox tal que
Ω = PP𝑡 [18.1.12]
Por ejemplo, P podría ser el factor Cholesky de Ω. Podríamos pensar en xxx como generado a
partir de
𝜀𝑡 = 𝑃𝑣𝑡 [18.1.3]
Para 𝑣𝑡 iid con media cero y varianza 𝐼𝑛 . Para ver por qué, observe que [18.1.3] implica que 𝜀𝑡 es iid
con media cero y varianza dada por
𝐸(𝜀𝑡 𝜀𝑡𝑡 ) = 𝑃 ∙ 𝐸(𝑣𝑡 𝑣𝑡𝑡 ) ∙ 𝑃𝑡 = 𝑃 ∙ 𝐼𝑛 ∙ 𝑃𝑡 = Ω

Dado que
𝑥𝑇∗ (𝑟) ≡ 𝑇 −1 (𝜀1 + 𝜀1 + ⋯ + 𝜀[𝑇𝑟]∗ )
= 𝑃 ∙ 𝑇 −1 (𝑣1 + 𝑣1 + ⋯ + 𝑣[𝑇𝑟]∗ )
= 𝑃 ∙ 𝑥̅ 𝑇∗ (𝑟).
Se deduce entonces de [18.1.1] y el teorema de mapeado continuo que
𝐿
√𝑇𝑥̅ 𝑇∗ (∙) → 𝑃 ∙ 𝑊(∙) [18.1.4]
Para r dado, la variable 𝑃 ∙ 𝑊(𝑟) representa P veces un vector N(0,r∙ 𝐼𝑛 ) y por lo tanto tiene una
distribución 𝑁(0, 𝑟 ∙ 𝑃𝑃𝑡 ) = 𝑁(0, 𝑟 ∙ Ω). El proceso 𝑃 ∙ 𝑊(∙) se describe como movimiento
browniano n-dimensional con matriz de varianza xxx.
El teorema del límite central funcional también puede aplicarse a procesos vectoriales dependientes
en serie usando una generalización de la Proposición 17.21 . Suponer que
𝑢𝑡 = ∑𝑥𝑠=0 𝜓𝑠 𝜀𝑡−𝑠 [18.1.5]

(𝑠)
Donde si 𝜓𝑖𝑗 denota la fila i, columna j elemento de 𝜓𝑠 ,
𝑥
(𝑠)
∑ 𝑠 ∙ |𝜓𝑖𝑗 | < ∞
𝑠=0
Para cada i, j = 2, ..., n. Entonces álgebra prácticamente idéntica a la de la Proposición 17.2 se

puede utilizar para demostrar que
∑𝑡𝑠=1 𝑢𝑠 = 𝜓(1) ∙ ∑𝑡𝑠=1 𝜀𝑠 + 𝑛𝑡 − 𝑛0 [18.1.6]
1 Este es el enfoque usado por Phillips y Solo (1992).
566 Capítulo 18 | Raíces Unitariasen series temporales multivariables

Donde 𝜓(1) ≡ (𝜓0 + 𝜓1 + 𝜓2 + ⋯ ) y 𝑛𝑡 = ∑𝑥𝑠=0 𝛼𝑠 𝜀𝑡−𝑠 , para 𝛼𝑠 = −(𝜓𝑠+1 + 𝜓𝑠+2 +
𝑥
𝜓𝑠+3 + ⋯ ) y {𝛼𝑠 }𝑠=0 es absolutamente sumable. La expresión [18.1.6] proporciona una
generalización multivariante de la descomposición de Beveridge-Nelson.
Si 𝑢𝑡 satisface [18.1.5] donde 𝜀𝑠 es iid con media cero, varianza dada por
Ω = PP𝑡 , y finitos cuartos momentos, entonces es directo generalizar al vector procesar las
afirmaciones de la Proposición 17.3 sobre procesos univariados. Por ejemplo, si definimos
1 [𝑇𝑟]∗
𝑥𝑇 (𝑟) ≡ (7) ∑𝑠=1 𝑢𝑠 [18.1.7]
Entonces se deduce de [18.1.6] que

[𝑇𝑟]∗
√𝑇 ∙ 𝑥𝑇 (𝑟) = 𝑇 −1/2 (𝜓(1) ∑ 𝜀𝑠 + 𝑛[𝑇𝑟]∗ − 𝑛0 )

𝑠=1
Como en el ejemplo 17.2, se puede demostrar que

𝑠𝑢𝑝
𝑝
𝑟 ∈ [0, 1] 𝑇 −1/2 |𝑛𝑖,[𝑇𝑟]∗ − 𝑛𝑖,0 | → 0
𝑖 = 1, 2, … , 𝑛
Entonces se sigue de [18.1.4]
𝑝 𝐿
√𝑇 ∙ 𝑋𝑇 (𝑟) → 𝜓(1) ∙ 𝑃 ∙ √𝑇𝑥̅ 𝑇∗ (∙) → 𝜓(1) ∙ 𝑃 ∙ 𝑊(∙) [18.1.8]
Donde (1) ∙ 𝑃 ∙ 𝑊(∙) se distribuye 𝑁(0, 𝑟[(1)] ∙ Ω ∙ [𝜓(1)]𝑡 ) a través de realizaciones. Además,
para 𝜉𝑡 ≡ 𝑢1 + 𝑢2 + 𝑢1 + ⋯ + 𝑢𝑡 , tenemos como en [17.3.15] que
1 𝐿 1
𝑇 −3/2 ∑𝑇𝑠=1 𝜉𝑇−1 = ∫0 √𝑇 ∙ 𝑋𝑇 (𝑟)𝑑𝑟 → 𝜓(1) ∙ 𝑃 ∙ ∫0 𝑊(𝑟)𝑑𝑟 [18.1.9]
Que generaliza el resultado (f) de la Proposición 17.3.
Generalizar el resultado (e) de la Proposición 17.3 requiere un poco más de cuidado. Considere por
ejemplo el caso más simple, donde 𝑣𝑡 es vector iid (n x 1) con media cero y 𝐸(𝑣𝑡 𝑣𝑡𝑡 ) = 𝐼𝑛 . Definir
𝑣 + 𝑣2 + ⋯ + 𝑣𝑡 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … , 𝑇
𝜉𝑡 ≡ { 1
0 𝑝𝑎𝑟𝑎 𝑡 = 0
∗
Utilizamos los símbolos 𝑣𝑡 y 𝜉𝑇−1 aquí en lugar de 𝑢𝑡 y 𝜉𝑡 para enfatizar que 𝑣𝑡 es idd con matriz
de varianza dada por 𝐼𝑛 . Para el caso de varianza de la unidad iid escalar 𝑛 = 1, 𝜆 = 𝑦0 = 1), el
resultado (e) de la Proposición 17.3 se sostiene que
𝐿
𝑇 −1 ∑𝑇𝑠=1 𝜉𝑇−1
∗
𝑣𝑡 → 1/2{[𝑊(1)]2 − 1} [18.1.10]
Ver el resultado (d) de la Proposición 18.1 a seguir. La expresión [18.1.11] generaliza el resultado
escalar [18.1.10] a una matriz (n x n). La fila i, columna i elemento diagonal de esta expresión matriz
indica que
𝐿
∗ ∗
𝑇 −1 ∑𝑇𝑠=1{𝜉𝑖,𝑡−1 𝑣𝑖𝑡 + 𝑣𝑖𝑡 𝜉𝑖,𝑡−1 } → [𝑊𝑖 (1)]2 − 1 [18.1.12]
∗
Donde 𝜉𝑖,𝑡−1 , 𝑣𝑖𝑡 𝑦 𝑊𝑖 (𝑟) denotan el i-ésimo elemento de los vectores 𝜉𝑡∗ y 𝑊 (𝑟),
respectivamente. La fila i, columna j off-diagonal elemento de [18.1.11] afirma que
𝐿
∗ ∗
𝑇 −1 ∑𝑇𝑡=1{𝜉𝑗,𝑡−1 𝑣𝑖𝑡 + 𝑣𝑖𝑡 𝜉𝑗,𝑡−1 } → [𝑊𝑖 (1)] ∙ [𝑊𝑗(1)] [18.1.13]
18.1 Resultados asintóticos para el proceso vectorial no estacionario 567

Para 𝑖 ≠ 𝑗
∗ ∗
Así, la suma de las variables aleatorias 𝑇 −1 ∑𝑇𝑡=1 𝜉𝑗,𝑡−1 𝑣𝑖𝑡 y 𝑇 −1 ∑𝑇𝑡=1 𝑣𝑖𝑡 𝜉𝑗,𝑡−1 converge en la
distribución al producto de dos variables normales estándar independientes.
∗
A veces es conveniente describir la distribución asintótica de 𝑇 −1 ∑𝑇𝑡=1 𝜉𝑗,𝑡−1 𝑣𝑖𝑡 solo. Resulta que
𝐿 1
∗
𝑇 −1 ∑𝑇𝑡=1 𝜉𝑗,𝑡−1 𝑣𝑖𝑡 → ∫0 𝑊𝑗 (𝑟)𝑑𝑊𝑗 (𝑟) [18.1.14]
Esta expresión hace uso de la diferenciación del movimiento browniano, denotada 𝑑𝑊𝑗 (𝑟).
Una definición formal del 𝑑𝑊𝑗 (𝑟) diferencial y la derivación de [18.1.14] están algo implicados -
vea Phillips (1988) para los detalles. Para nuestros propósitos, simplemente consideraremos el lado
derecho de [18.1.14] como una notación compacta para indicar la distribución limitante de la
secuencia representada por el lado izquierdo. En la práctica, esta distribución se construye mediante
la generación de Monte Carlo de la estadística en el lado izquierdo de [18.1.14] para T
adecuadamente grande.
Es evidente de [18.1.13] y [18.1.14] que

1 1
∫ 𝑊𝑗 (𝑟)𝑑𝑊𝑗 (𝑟) + ∫ 𝑊𝑗 (𝑟)𝑑𝑊𝑗 (𝑟) = 𝑊𝑗 (1) ∙ 𝑊𝑗 (1)
0 0
Mientras que comparar [18.1.14] con [18.1.12] revela que

1 2
∫0 𝑊𝑗 (𝑟)𝑑𝑊𝑗 (𝑟) = 1/2{[𝑊𝑗 (1)] − 1} [18.1.15]
La expresión en [18.1.14] se puede recopilar para 𝑖, 𝑗 = 1, 2, … , 𝑛 en una matriz (n x n)

𝐿 1
∗
𝑇 −1 ∑𝑇𝑡=1 𝜉𝑗,𝑡−1 𝑣𝑡𝑡 → ∫0 [𝑊 (𝑟)][𝑑𝑊 (𝑟)]𝑡 [18.1.16]
La siguiente proposición resume los resultados de convergencia multivariante que se utilizarán en

este capítulo2.
Proposición 18.1: Sea xxx un vector (n x 1) con

𝑇
𝑢𝑡 = 𝜓(𝐿)𝜀𝑡 = ∑ 𝜓𝑠 𝜀𝑡−𝑠
𝑡=1
(𝑠)
Donde {𝑆 ∙ 𝜓𝑠 }∗𝑠=0 es absolutamente sumable, es decir ∑𝑥𝑠=0 𝑠 ∙ |𝜓𝑖𝑗 | < ∞ para cada i, j = 1, 2, ...,
n para 𝜓 (𝑠)
𝑠
la fila i, columna j elemento de 𝜓 𝑠 . Supongamos que {𝜀𝑡 } es una secuencia iid con cero
medio, finito frourth momentos, y 𝐸(𝜀𝑡 𝜀𝑡𝑡 ) = Ω una matriz definida positiva. Sea Ω = PP𝑡 la
factorización de Cholesky de Ω, y defina
𝜎𝑖𝑗 ≡ 𝐸(𝜀𝑡 𝜀𝑡𝑡 ) = 𝑓𝑖𝑙𝑎 𝑖, 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 𝑗, 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜 𝑑𝑒 Ω

𝑇
Γ𝑠 𝑡 )
≡ 𝐸(𝑢𝑡 𝑢𝑡−𝑠 = ∑ 𝜓𝑠+𝑣 Ω𝜓𝑣𝑡 𝑝𝑎𝑟𝑎 𝑠 = 0, 1, 2, …
(𝑛 𝑥 𝑛)
𝑡=1
2Estos resultados o similares se obtuvieron por Phillips y Durlauf (1986), Park y Phillips (1988, 1989), Sims, Stock y Watson (1990) y
Phillips y Solo (1992).

𝑢𝑡−1
Z𝑠 𝑢
≡ [ 𝑡−2 ] 𝑝𝑎𝑟𝑎 𝑎𝑟𝑏𝑖𝑡𝑟𝑎𝑟𝑖𝑜 𝑣 ≥ 1 [18.1.17]
(𝑛𝑣 𝑥 1) ⋮
𝑢𝑡−𝑣
Γ𝑠 Γ1 ⋯ Γ𝑣−1
V Γ Γ2 ⋯ Γ𝑣−2
≡ 𝐸(𝑍𝑡 𝑍𝑡𝑡 ) = [ 𝑠−1 ]
(𝑛𝑣 𝑥 𝑛𝑣) ⋮ ⋮ ⋯ ⋮
Γ−𝑣+1 Γ−𝑣+2 ⋯ Γ0
Λ
≡ 𝜓(1) ∙ 𝑃 = (𝜓0 + 𝜓1 + 𝜓2 + ⋯ ) ∙ 𝑃 [18.1.18]
(𝑛 𝑥 𝑛)
𝜉𝑡
≡ 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 𝑝𝑎𝑟𝑎 𝑡 = 1, 2, … , 𝑇 [18.1.19]
(𝑛 𝑥 1)
Con 𝜉0 ≡ 0. Entonces
𝑇
𝐿
(𝑎) 𝑇 −1⁄2
∑ 𝑢𝑡 → 𝐴. 𝑊(1);
𝑡=1
𝑇
𝑃
(𝑏) 𝑇 −1
∑ 𝑧𝑡 𝑠0 → 𝑁(0, 𝜎0 . 𝑉); 𝑝𝑎𝑟𝑎 𝑖 = 0,1,2 … , 𝑛;
𝑡=1
𝑇
𝑃
(𝑐) 𝑇 −2 𝑡
∑ 𝑢𝑡 𝑢𝑡−𝑠 → Г; 𝑝𝑎𝑟𝑎 𝑠 = 0,1,2 … ;
𝑡=1
𝑇
(𝑑) 𝑇 −1 𝑡
∑(𝜉𝑡−1 𝑢𝑡−𝑠
𝑡=1
𝐴. [𝑤(1)]. [𝑤(1)]′ . 𝐴′ − Г0 𝑝𝑎𝑟𝑎 𝑠 = 0
𝐿 𝑠−1
+ 𝑢𝑡−𝑠 𝜉′𝑡−1 ) → {
𝐴. [𝑤(1)]. [𝑤(1)]′ . 𝐴′ − ∑ Г𝑣 𝑝𝑎𝑟𝑎 𝑠 = 1,2, … ;
𝑣=−𝑠+1
𝑇 1 ∞
𝐿
(𝑒) 𝑇 −1
∑ 𝜉𝑡−1 𝑢𝑡𝑡 → 𝐴. {∫ [𝑊(𝑟)] [𝑑𝑤(𝑟)]′} . 𝐴 + ∑ Г′𝑣 ; ′
𝑡=1 0 𝑡=1
𝑇 1
𝐿
(𝑓) 𝑇 −1
∑ 𝜉𝑡−1 𝜀𝑡𝑡 → 𝐴. {∫ [𝑊(𝑟)] [𝑑𝑤(𝑟)]′} . 𝑃′ ;
𝑡=1 0
𝑇 1
𝐿
(𝑔) 𝑇 −3/2
∑ 𝜉𝑡−1 → 𝐴. ∫ 𝑊(𝑟)𝑑𝑟 ;
𝑡=1 0
𝑇 1
𝐿
(ℎ) 𝑇 −3/2
∑ 𝑡𝑢𝑡−1 → 𝐴. {𝑤(1) − ∫ 𝑊(𝑟)𝑑𝑟} 𝑝𝑎𝑟𝑎 𝑠 = 0,1,2, … ;
𝑡=1 0
𝑇 1
𝐿
−2 ′
(𝑖) 𝑇 ∑ 𝜉𝑡−1 𝜀𝑡−1 → 𝐴. {∫ [𝑊(𝑟)] [𝑊(𝑟)]′𝑑𝑟} . 𝐴′;
𝑡=1 0
18.1 Resultados asintóticos para el proceso vectorial no estacionario 569

𝑇 1
𝐿
(𝑗) 𝑇 −5/2
∑ 𝑡𝜉𝑡−1 → 𝐴. ∫ 𝑟𝑊(𝑟)𝑑𝑟 ;
𝑡=1 0
𝑇 1
𝐿
−3 ′
(𝑘) 𝑇 ∑ 𝑡𝜉𝑡−1 𝜉𝑡−1 → 𝐴. {∫ 𝑟[𝑊(𝑟)] . [𝑊(𝑟)]′𝑑𝑟} . 𝐴′;
𝑡=1 0
𝑇
(𝑘) 𝑇 −(𝑣+1) ∑ 𝑡 𝑣 → 1⁄(𝑣 + 1) 𝑝𝑎𝑟𝑎 𝑣 = 0,1,2, …
𝑡=1
18.2. Autorregressiones vectoriales que contienen raíces

unitarias
Supongamos que un vector 𝑦𝑡 podría ser descrito por una autorregresión vectorial en las diferencias
∆𝑦𝑡 . Esta sección presenta los resultados desarrollados por Park y Phillips (1988, 1989) y Sims,
Stock y Watson (1990) para las consecuencias de estimar el VAR en niveles. Comenzamos
generalizando la transformación de variables Dickey-Fuller que se utilizó para analizar una
autorregresión univariada.
Una representación alternativa de un proceso VAR (p)

Sea 𝑦𝑡 un vector (n x 1) que satisfaga
(𝐼𝑛 − Φ1 𝐿 − Φ1 𝐿2 − ⋯ − Φ𝑝 𝐿𝑝 )𝑦𝑡 = α + ε𝑡 [18.2.1]
Donde 𝑦𝑡 denota una matriz (n x n) para s = 1, 2, ..., p y α y ε𝑡 son (n x1) vectores. El álgebra
escalar en [17.7.4] funciona perfectamente bien para matrices, estableciendo que para cualquier
valor de Φ1 , Φ2 , … , Φ𝑝 los siguientes polinomios son equivalentes:
(𝐼𝑛 − Φ1 𝐿 − Φ1 𝐿2 − ⋯ − Φ𝑝 𝐿𝑝 ) = (I𝑛 − pL) − (𝜁1 𝐿 + 𝜁1 𝐿2 + ⋯ + 𝜁𝑝−1 𝐿𝑝−1 )(1 − 𝐿)
[18.2.2]
Donde 𝑃 ≡ Φ1 , Φ2 , … , Φ𝑝
[18.2.3]
𝜁1 ≡ −[Φ𝑠+1 + Φ𝑠+2 + ⋯ + Φ𝑝 ] 𝑝𝑎𝑟𝑎 𝑠 = 1, 2, … . 𝑝 − 1 [18.2.4]
Que cualquier proceso VAR (p) [18.2.1] siempre puede escribirse en la forma
(𝐼 − 𝑝𝐿)𝑦 − (𝜁1 𝐿 + 𝜁2 𝐿2 + ⋯ + 𝜁𝑝−1 𝐿𝑝−1 )(1 − 𝐿)𝑦𝑡 = 𝛼 + 𝜀𝑡
O 𝑦𝑡 = 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝑝𝑦𝑡−1 + 𝜀𝑡

[18.2.5]
La hipótesis nula considerada a pesar de esta sección es que la primera diferencia de y sigue
un proceso VAR(p-1):
∆𝑦𝑡 = 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 + 𝜀𝑡 [18.2.6]
Requiriendo de [18.2.5] que

𝑝 = 𝐼𝑛 [18.2.7]
O, de [18.2.3],
Φ1 , Φ2 , … , Φ𝑝 = 𝐼𝑛 [18.2.8]
Recordando la Proposición 10.1, se dice que la autorregresión del vector [18.2.1] contiene al menos
una raíz unitaria del siguiente determinante es cero:
|𝐼𝑛 − Φ1 − Φ2 − ⋯ − Φ𝑝 | = 0 [18.2.9]
Tenga en cuenta que [18.2.8] implica [18.2.9] pero [18.2.9] no implica [18.2.8]. Por lo tanto, esta
sección está considerando sólo un subconjunto de la clase de vector autoregresions que contiene
una raíz unitaria, a saber, la clase descrita por [18.2.8]. Las autorregresiones vectoriales para las que
[18.2.9] contiene, pero [18.2.8] no se considerarán en el Capítulo 19.
Esta sección comienza con una generalización vectorial del caso del Capítulo 17.
Una autorregresión vectorial sin deriva en ninguna de las variables

Aquí asumimos que la VAR [18.2.1] satisface [18.2.8] junto con 𝛼 = 0 y consideramos la
consecuencia de estimar cada ecuación en niveles por MCO usando las observaciones t = 1, 2, ..., T
y el condicionamiento en 𝑦0 , 𝑦𝑡−1 , … , 𝑦−𝑝+1 . Se supone que un término constante se incluye en
cada regresión. Bajo la hipótesis mantenida [18.2.8], el proceso generador de datos puede ser
descrito como
(𝐼𝑛 − 𝜁1 𝐿 − 𝜁1 𝐿2 − ⋯ − 𝜁𝑝−1 𝐿𝑝−1 )∆𝑦𝑡 = 𝜀𝑡 [18.2.10]
Suponiendo que todos los valores de z satisfacen
|𝐼𝑛 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 | = 0
Fuera del círculo de la unidad, [18.2.10] implica que
∆𝑦𝑡 = 𝑢𝑡 [18.2.11]
donde
−1
𝑢𝑡 = (𝐼𝑛 − 𝜁1 𝐿 − 𝜁1 𝐿2 − ⋯ − 𝜁𝑝−1 𝐿𝑝−1 ) 𝜀𝑡
Si 𝜀𝑡 es iid con media cero, matriz de varianza-covarianza definida positiva Ω = PP𝑡 , y define
finitos cuartos momentos, entonces 𝑢𝑡 satisface las condiciones de la Proposición 18.1 con
−1
𝜓(𝐿) = (𝐼𝑛 − 𝜁1 𝐿 − 𝜁1 𝐿2 − ⋯ − 𝜁𝑝−1 𝐿𝑝−1 ) [18.2.12]
También de [18.2.11], tenemos
𝑦𝑡 = 𝑦0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡
De modo que 𝑦𝑡 tendrá el mismo comportamiento asintótico que 𝜉𝑡 en la Proposición 18.1.
Recordemos que los valores ajustados de una VAR estimada en los niveles [18.2.1] son idénticos a
los cálculos ajustados para VAR estimados en las formas de [18.2.5]. Considere la ecuación i en
[18.2.5], que escribimos como
18.2 Autorregressiones vectoriales que contienen raíces unitarias 571

′ ′ ′
𝑦𝑖𝑡 = 𝜉𝑡1 𝑢𝑡−1 + 𝜉𝑡2 𝑢𝑡−2 … + 𝜉𝑖,𝑝−1 𝑢𝑡−𝑝+1 + 𝛼𝑖 + 𝜌′ 𝑖 𝑦𝑡−1 + 𝜀𝑖𝑡 , [18.2.13]
𝑡
Donde 𝑢𝑡 = ∆𝑦𝑡 y 𝜁𝑖𝑠 denota la i-ésima fila de 𝜁𝑠 para s = 1,2, ... p-1. Similarmente, 𝑝𝑗𝑡 denota la i-
ésima fila de p. Bajo la hipótesis nula [18.2.7], 𝑝𝑗𝑡 = 𝑒𝑗𝑡 , donde 𝑒𝑗𝑡 es la i-ésima fila de la matriz de
identidad (n x n). Recordemos la expresión usual [8.2.3] para la desviación de la estimación MCO
𝑏𝑇 de su valor real hipotético:
𝑏𝑇 − 𝛽 = (∑ 𝑋𝑡 𝑋𝑡𝑡 )−1 (∑ 𝑋𝑡 𝜀𝑡𝑡 ) [18.2.14]
Donde ∑ denota suma sobre t = 1 a T. En el caso de la estimación MCO de [18.2.13],
𝜁̂ ̂
𝑖1 − 𝜁𝑖1
𝜁̂ ̂
𝑖2 − 𝜁𝑖2
⋮
𝑏𝑇 − 𝛽 = ̂ [18.2.15]
𝜁𝑖𝑝−1 − 𝜁̂ 𝑖𝑝−1
𝛼̂𝑖
[ 𝜌̂𝑖 − 𝑒𝑖 ]
∑ 𝑋𝑡 𝑋𝑡´
´ ´ ´ ´
∑ 𝑢𝑡−1 𝑢𝑡−1 ∑ 𝑢𝑡−1 𝑢𝑡−2 … ∑ 𝑢𝑡−1 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−1 ∑ 𝑢𝑡−1 𝑦𝑡−1
´ ´
… ´ ´
∑ 𝑢𝑡−2 𝑢𝑡−1 ∑ 𝑢𝑡−2 𝑢𝑡−2 ∑ 𝑢𝑡−2 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−2 ∑ 𝑢𝑡−2 𝑦𝑡−1
⋮ ⋮ … ⋮ ⋮ ⋮
= ∑𝑢 ´ ´ ´
… ∑ 𝑢𝑡−𝜌+1 𝑢𝑡−𝜌+1 ´
𝑡−𝜌+1 𝑢𝑡−1 ∑ 𝑢𝑡−𝜌+1 𝑢𝑡−2 ∑ 𝑢𝑡−𝜌+1 ∑ 𝑢𝑡−𝜌+1 𝑦𝑡−1
´ ´ ´ ´
∑ 𝑢𝑡−1 ∑ 𝑢𝑡−2 … ∑ 𝑢𝑡−𝜌+1 𝑇 ∑ 𝑦𝑡−1
´ ´
… ´ ∑ 𝑦𝑡−1 ´
[ ∑ 𝑦𝑡−1 𝑢𝑡−1 ∑ 𝑦𝑡−1 𝑢𝑡−2 ∑ 𝑦𝑡−1 𝑢𝑡−𝜌+1 ∑ 𝑦𝑡−1 𝑦𝑡−1 ]
[18.2.16]
∑ 𝑢𝑡−1 𝜀𝑖𝑡
∑ 𝑢𝑡−2 𝜀𝑖𝑡
⋮
𝑋𝑡 𝜀𝑡𝑡 = ∑ 𝑢 [18.2.17]
𝑡−𝑝−1 𝜀𝑖𝑡
∑ 𝜀𝑖𝑡
[ ∑ 𝑦𝑡−1 𝜀𝑖𝑡 ]
Nuestra convención anterior añadiría un subíndice T al coeficiente estimado xxx en
[18.2.15]. Para esta discusión, el subíndice T será suprimido para evitar una notación excesivamente
engorrosa.
Defina 𝑌𝑇 como la siguiente matriz:
𝑇 −2 ∙ 𝐼𝑛(𝑝−1) 0 0
𝑌𝑇
≡[ 0 𝑇 1/2
0 ] [18.2.18]
(𝑛𝑝 + 1)𝑥 (𝑛𝑝 + 1)
0 0 𝑇 ∙ 𝐼𝑛
Premultuplicación [18.2.14] por 𝑌𝑇 y reordenando como en [17.4.20] resultados es
𝑌𝑇 (𝑏𝑇 − 𝛽) = (𝑌𝑇−1 ∑ 𝑋𝑡 𝑋𝑡𝑡 𝑌𝑇−1 )−1 (𝑌𝑇−1 ∑ 𝑋𝑡 𝜀𝑡 ) [18.2.19]

Usando los resultados (a), (c), (d), (g) e (i) de la Proposición 18.1, encontramos
(𝑌𝑇−1 ∑ 𝑥𝑡 𝑥𝑡´ 𝑌𝑇−1 ) =
𝑇 −1 ∑ 𝑢𝑡−1 𝑢𝑡−1
´
𝑇 −1 ∑ 𝑢𝑡−1 𝑢𝑡−2
´
… 𝑇 −1 ∑ 𝑢𝑡−1 𝑢𝑡−𝜌+1
´
𝑇 −1 ∑ 𝑢𝑡−1 𝑇 −3/2 ∑ 𝑢𝑡−1 𝑦𝑡−1
´
…
𝑇 −1 ∑ 𝑢𝑡−2 𝑢𝑡−1
´
𝑇 −1 ∑ 𝑢𝑡−2 𝑢𝑡−2
´
𝑇 −1 ∑ 𝑢𝑡−2 𝑢𝑡−𝜌+1
´
𝑇 −1 ∑ 𝑢𝑡−2 𝑇 −3/2 ∑ 𝑢𝑡−2 𝑦𝑡−1
´
⋮ ⋮ … ⋮ ⋮ ⋮
𝑇 −1 ´
∑ 𝑢𝑡−𝜌+1 𝑢𝑡−1 𝑇 −1 ´
∑ 𝑢𝑡−𝜌+1 𝑢𝑡−2 … 𝑇 −1 ´
∑ 𝑢𝑡−𝜌+1 𝑢𝑡−𝜌+1 𝑇 −1
∑ 𝑢𝑡−𝜌+1 𝑇 −3/2 ´
∑ 𝑢𝑡−𝜌+1 𝑦𝑡−1
𝑇 −1 ∑ 𝑢𝑡−1
´
𝑇 −1 ∑ 𝑢𝑡−2
´
… 𝑇 −1 ∑ 𝑢𝑡−𝜌+1
´
1 𝑇 −3/2 ∑ 𝑦𝑡−1
´
… 𝑇 −3/2 ∑ 𝑦𝑡−1
[ 𝑇 −3/2 ∑ 𝑦𝑡−1 𝑢𝑡−1
´ ´
∑ 𝑦𝑡−1 𝑢𝑡−2 𝑇 −3/2 ∑ 𝑦𝑡−1 𝑢𝑡−𝜌+1
´
𝑇 −3/2 ∑ 𝑦𝑡−1 𝑦𝑡−1
´
]
𝐿 𝑉 0
→[
0 𝑄
] [18.2.20]
donde
Γ0 Γ1 ⋯ Γ𝑝−2
V Γ Γ ⋯ Γ𝑝−3
≡ [ −1 ] [18.2.21]
(𝑛(𝑝 − 1) 𝑥 𝑛(𝑝 − 1)) ⋮ ⋮ ⋯ ⋮
Γ−𝑝+2 Γ−𝑝+3 ⋯ Γ0
Γ𝑠 ≡ 𝐸(∆𝑦𝑡 )(∆𝑦𝑡−𝑠 )
Q 1 [∫ 𝑊(𝑟)𝑑𝑟]𝑡 ∙ Λ
≡[ ] [18.2.22]
(𝑛 + 1)𝑥 (𝑛 + 1)) Λ ∙ ∫ 𝑊(𝑟)𝑑𝑟 Λ ∙ {∫[𝑊(𝑟)] ∙ [𝑊(𝑟)]𝑡 ∙ Λ𝑡 }
Además, el signo integral denota integración sobre r de 0 a 1, y

−1
Λ ≡ (𝐼𝑛 − 𝜁1 − 𝜁2 − ⋯ − 𝜁𝑝−𝑖 ) 𝑃 [18.2.23]
Con 𝐸(𝜀𝑡 𝜀𝑡𝑡 ) = 𝑃𝑃𝑡 . Del mismo modo, la aplicación de los resultados (a), (b) y (f) de la
Proposición 18.1 al segundo término en [18.2.19] revela
𝑇 −1/2 𝑢𝑡−1 𝜀𝑖𝑡

𝑇 −1/2 𝑢𝑡−2 𝜀𝑖𝑡
⋮ 𝐿 ℎ1
(𝑌𝑇−1 ∑ 𝑋𝑡 𝜀𝑡 ) = 1/2 → [ ] [18.2.24]
𝑇 𝑢𝑡−𝑝−1 𝜀𝑖𝑡 ℎ2
1/2
𝑇 𝜀𝑖𝑡
−1
[ 𝑇 𝑦𝑡−1 𝜀𝑖𝑡 ]
Donde
ℎ1
~𝑁(0, 𝜎𝑖𝑖 𝑉)
[𝑛(𝑝 − 1)𝑥1]
𝜎𝑖𝑖 = 𝐸(𝜀𝑖𝑖2 )
𝑒𝑗𝑡 𝑃𝑊(1)
ℎ2
=[ ]
[𝑛(𝑝 − 1)𝑥1] Λ ∙ {∫[𝑊(𝑟)][𝑑𝑊(𝑟)]𝑡 } ∙ 𝑃𝑡 𝑒𝑗
Para 𝑒𝑗 la i-ésima columna de 𝐼𝑛 . Los resultados [18.2.19], [18.2.20] y [18.2.24] establecen que

𝐿 𝑉 −1 ℎ1
𝑌𝑇 (𝑏𝑇 − 𝛽) → [ ] [18.2.25]
𝑉 −1 ℎ2
Los primeros elementos n (p-1) de [18.2.25] implican que el coeficiente en
∆𝑌𝑡−1 , ∆𝑌𝑡−2 , … , ∆𝑌𝑡−𝑝+1 converge a la velocidad √𝑇 a las variables gaussianas:
𝜁̂𝑖1 − 𝜁𝑖1
𝜁̂𝑖2 − 𝜁𝑖2 𝐿
√𝑇 → 𝑉 −1 ℎ1 ~𝑁(0, 𝜎𝑖𝑖 𝑉 −1 ) [18.2.26]
⋮
𝜁̂
[ 𝑖𝑝−1 𝜁𝑖𝑝−1 ]
−
Esto significa que la forma de Wald de la prueba MCO 𝑥 2 de cualquier hipótesis lineal que
implique sólo los coeficientes en ∆𝑌𝑡−𝑠 tiene la distribución 𝑥 2 asintótica habitual, como se
invita al lector a confirmar en el ejercicio 18.1.
Obsérvese que [18.2.26] es idéntico a la distribución asintótica que caracterizaría las

estimaciones si las VAR se estimaran en diferencias:
∆𝑌𝑖𝑡 = 𝛼𝑖 + 𝜁̂𝑖1 ∆𝑌𝑡−1 + 𝜁̂𝑖2 ∆𝑌𝑡−2 + ⋯ + 𝜁̂𝑖,𝑝−1 ∆𝑌𝑡−𝑝+1 + 𝜖𝑖𝑡 [18.2.27]
Por lo tanto, como en el caso de una autorregresión univariada, si el objetivo es estrimate los
parámetros 𝜁𝑖1 , 𝜁𝑖2 , … , 𝜁𝑖𝑝−1 o probar hipótesis sobre estos coeficientes, no hay necesidad sobre la
base de las distribuciones asintóticas para estimar el VAR en la diferencia forma [18.2.27] más bien
Que en la forma de niveles,
𝑌𝑖𝑡 = 𝜁̂𝑖1 ∆𝑌𝑡−1 + 𝜁̂𝑖2 ∆𝑌𝑡−2 + ⋯ + 𝜁̂𝑖,𝑝−1 ∆𝑌𝑡−𝑝+1 + 𝛼𝑖 + 𝑝𝑗𝑡 𝑦𝑡−1 + 𝜖𝑖𝑡 [18.2.28]
Sin embargo, las distribuciones de muestras pequeñas pueden mejorarse si se estima el VAR en las
diferencias, suponiendo que la restricción [18.2.8] sea válida.
Aunque la distribución asintótica si el coeficiente de 𝑦𝑡−1 es no gaussiana, el hecho de que esta
estimación converge a la tasa T significa que una prueba de hipótesis que implica una combinación
lineal única de 𝑝𝑖 y 𝜁𝑖1 , 𝜁𝑖2 , … , 𝜁𝑖𝑝−1 será dominada asintóticamente por los coeficientes con la tasa
de convergencia más lenta, es decir, 𝜁𝑖1 , 𝜁𝑖2 , … , 𝜁𝑖𝑝−1 y de hecho tendrá la misma distribución
asintótica como si se usara el valor verdadero de p=𝐼𝑛 . Por ejemplo, si la VAR se estima en niveles
de forma [18.2.1], las matrices de coeficientes individuales Φ𝑠 están relacionadas con los
coeficientes para el VAR transformado [18.2.5] por
̂ 𝑝 = −𝜁̂𝑝−1
Φ [18.2.29]
̂ ̂ ̂
Φ𝑠 = 𝜁𝑠 − 𝜁𝑝−1 𝑝𝑎𝑟𝑎 𝑠 = 2, 3, … , 𝑝 − 1 [18.2.30]
Φ̂ 1 = 𝑝̂ − 𝜁̂1 [18.2.31]
Dado que √𝑇(𝜁̂𝑠 − 𝜁𝑠 ) es asintóticamente gaussiano y como 𝑝̂ es 𝑂𝑝 (𝑇 −1), se sigue que √𝑇(Φ ̂𝑠 −
Φ𝑠 ) es asintóticamente gaussiana para s = 1, 2, ..., p suponiendo que 𝑝 ≥ 2. Esto significa que si la
VAR se estima en niveles de la forma estándar, cualquier coeficiente autorregresivo individual
converge a la velocidad √𝑇 a una variable gaussiana y la prueba t usual de una hipótesis que implica
ese coeficiente es asintóticamente válida.
Además, la prueba F que implica una combinación lineal diferente de Φ1 + Φ2 + ⋯ + Φ𝑝
tiene la distribución asintótica usual.
Otro ejemplo importante es probar la hipótesis nula de que los datos siguen un VAR(Po) con 𝑃𝑜 ≥
1 frente a la alternativa de un VAR(P) con 𝑃 > 𝑃𝑜. Considere la estimación MCO de la i-ésima
ecuación de la VAR como se representa en los niveles,
𝑡 𝑡 𝑡
𝑌𝑖𝑡 = 𝛼𝑖 + Φ𝑖1 𝑌𝑡−1 + Φ𝑖2 𝑌𝑡−2 + ⋯ + Φ𝑖𝑝 𝑌𝑡−𝑝 + 𝜖𝑖𝑡 [18.2.32]

𝑡
Donde Φ𝑖𝑠 denota en la i-ésima fila de Φ. Considere la hipótesis nula
𝐻0 : Φ𝑖,𝑃𝑜+1 = Φ𝑖,𝑃𝑜+2 = ⋯ = Φ𝑖𝑃 = 0 [18.2.33]
La forma Wald de la prueba MCO 𝑥 2 de esta hipótesis será numéricamente idéntica a la prueba
de
𝐻: 𝜁𝑖,𝑃𝑜 = 𝜁𝑖,𝑃𝑜+1 = ⋯ = 𝜁𝑖,𝑃−1 = 0 [18.2.34]
Para la estimación de MCO de

𝑡 𝑡 𝑡
𝑦𝑖𝑡 : 𝜁𝑖1 ∆𝑌𝑡−1 + 𝜁𝑖2 ∆𝑌𝑡−2 + ⋯ + 𝜁𝑖,𝑝−1 ∆𝑌𝑡−𝑝+1 + 𝛼𝑖 + 𝑝𝑗𝑡 𝑦𝑡−1 + 𝜖𝑖𝑡 [18.2.35]
Dado que hemos visto que la prueba F usual de [18.2.34] es asintóticamente válida y
dado que una prueba de [18.2.33] se basa en la estadística de prueba idéntica, se sigue
que la prueba de Wald usual para evaluar el número de rezagos a Incluir en la regresión
es perfectamente adecuado cuando la regresión se estima en los niveles de forma como
en [18.2.32].
Por supuesto, algunas pruebas de hipótesis basadas en una VAR estimada en niveles no
tendrán la distribución asintótica habitual. Un ejemplo importante es una prueba de
Granger-causalidad de la hipótesis nula de que algunas de las variables en 𝑦𝑡 no
𝑡 𝑡
aparecen en la regresión explicando 𝑦𝑖𝑡 . Partición 𝑦𝑡 = (𝑦1𝑡 , 𝑦2𝑡 ) donde 𝑦2𝑡 denota el
subconjunto de variables que no afectan xxx bajo la hipótesis nula. Escriba la regresión
en el nivel como
𝑡
𝑦𝑖𝑡 : 𝜔𝑖1 𝑡
𝑌1,𝑡−1 + 𝜔𝑖1 𝑡
𝑌2,𝑡−1 + 𝜔𝑖2 𝑡
𝑌1,𝑡−2 + 𝜔𝑖2 𝑌2,𝑡−2 + ⋯ + 𝜔𝑝𝑡 𝑌1,𝑡−𝑝 + 𝜆𝑡𝑖1 𝑌2,𝑡−𝑝 + 𝛼𝑖 + 𝜖𝑖𝑡
[18.2.36]
Y la regresión transformada como

𝑦𝑖𝑡 = 𝛽1𝑡 Δ𝑌1,𝑡−1 + 𝑌1𝑡 Δ𝑌2,𝑡−1 + 𝛽2𝑡 Δ𝑌1,𝑡−2 + 𝑌2𝑡 Δ𝑌2,𝑡−2 + ⋯ + 𝛽𝑝−1
𝑡
Δ𝑌1,𝑡−𝑝+1 +
𝑡 𝑡
𝑌𝑝−1 Δ𝑌2,𝑡−𝑝+1 + 𝛼𝑖 + 𝜂1,𝑡−1 + 𝛿 𝑌2,𝑡−𝑝 + 𝜖𝑖𝑡 [18.2.37]
La prueba F de la hipótesis nula 𝜆1 = 𝜆2 = ⋯ = 𝜆𝑝 basada en la estimación MCO de [18.2.36] es

numéricamente idéntica a la prueba F de la hipótesis nula basada en la estimación de MCO de
[18.2.37]. Dado que 𝛿̂ tiene una distribución limitante no estándar, una prueba para Granger-
causalidad basada en una VAR estimada en niveles típicamente no tiene la distribución 𝑥 2 limitante
habitual (ver Ejercicio 18.2 y Toda y Phillips, 1993b, para más discusión). Las simulaciones de
Monte Carlo de Ohanian (1988), por ejemplo, encontraron que en una caminata aleatoria
independiente se agrega a una autorregresión vectorial, la caminata aleatoria podría aparecer
espuriosamente a Granger-causa las otras variables en 20% de las muestras si el 5% crítico Valor
para una variable 𝑥 2 es erróneamente utilizado para interpretar la estadística de prueba. Toda y
Phillips (1993a) tienen un tratamiento analítico de esta cuestión.
Una autorregresión vectorial con deriva en algunas de las variables

Aquí consideramos nuevamente la estimación de una VAR escrita en la forma
𝑦𝑡 = 𝜁1 ∆𝑌𝑡−1 + 𝜁2 ∆𝑌𝑡−2 + ⋯ + 𝜁𝑝−1 ∆𝑌𝑡−𝑝+1 + 𝛼 + 𝑝 𝑦𝑡−1 + 𝜖𝑡 [18.2.38]
Como antes, se supone que las raíces de
|𝐼 − 𝜁1 𝑧 − 𝜁2 𝑧 2 − ⋯ − 𝜁𝑝−1 𝑧 𝑝−1 | = 0
Están fuera del círculo unitario, que 𝜖𝑡 es iid con media cero, varianza definida positiva Ω y
cuartos momentos finitos, y que el valor verdadero de p es la matriz de identidad (n x n). Estas
suposiciones implican que

∆𝑌𝑡−1 = 𝛿 + 𝑢 [18.2.39]
donde
−1
𝛿 ≡ (𝐼𝑛 − 𝜉1 − 𝜉2 − ⋯ − 𝜉𝑝−1 ) 𝛼 [18.2.40]
𝑢𝑡 ≡ 𝜓(𝐿)𝜀𝑡
−1
𝜓(𝐿) ≡ (𝐼𝑛 − 𝜉1 𝐿 − 𝜉2 𝐿2 − ⋯ − 𝜉𝑝−1 𝐿𝑝−1 ) [18.2.41]
En contraste con el caso anterior, en el que se asumió que 𝛿 = 0, aquí suponemos que al menos
uno y posiblemente todos los elementos de 𝛿 son distintos de cero.
Puesto que se trata de una generalización vectorial del caso 3 para la autorregresión univariada
considerada en el Capítulo 17, el primer pensamiento podría ser que, debido a la deriva no nula en
los I (1) regresores, si todos los elementos de 𝛿 son no-cero, entonces todos Los coeficientes
tendrán la distribución limitante gaussiana usual. Sin embargo, esto resulta no ser el caso. Cualquier
elemento 𝑌𝑗𝑡 individual del vector 𝑌𝑡 está dominado por una tendencia determinista y si 𝑌𝑗𝑡
apareció solo en la regresión, los resultados asintóticos serían los mismos que si 𝑌𝑗𝑡 fueran
reemplazados por la tendencia temporal t. De hecho, como observó West (1988) en una regresión
en la que hay un único regresor I (1) con deriva no nula y en la que todos los demás regresores son
I (0), todo el coeficiente sería asintóticamente gaussiano y las pruebas F serían Tienen su
distribución límite habitual. Esto puede demostrarse usando esencialmente el mismo álgebra que
en la autorregresión univariada analizada en el caso 3 del capítulo 17. Sin embargo, como lo
señalaron Sims, Stock y Watson (1990), en [18.2.38] hay n diferentes I (1) (Los n elementos de
𝑌𝑡−1 ), y si cada uno de ellos fueron reemplazados por 𝛿𝑗 (𝑡 − 1), los regresores resultantes serían
perfectamente colineales. MCO ajustará n combinaciones lineales separadas de 𝑌𝑡 para intentar
minimizar la suma de los residuos cuadrados, y mientras que una de ellas captará la tendencia
temporal determinista t, las otras combinaciones lineales corresponden a I (1) variables sin deriva.
Para desarrollar la correcta distribución asintótica, es conveniente trabajar con una transformación
de [18.2.38] que aísle estas diferentes combinaciones lineales. Obsérvese que la ecuación de
diferencia [18.2.39] implica que
𝑦𝑡 = 𝑦0 + 𝛿 ∙ 𝑡 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 [18.2.42]
Supongamos, por ejemplo, que la n-ésima variable del sistema presenta una deriva no
nula (𝛿 ≠ 0); Si además 𝛿 ≠ 0 para i=1, 2, …, n resulta ser irrelevante, suponiendo que
[18.2.8] se cumple. Definir
∗
𝑦1𝑡 ≡ 𝑦1𝑡 − (𝛿1 /𝛿𝑛 )𝑦𝑛𝑡
∗
𝑦2𝑡 ≡ 𝑦1𝑡 − (𝛿2 /𝛿𝑛 )𝑦𝑛𝑡
⋮
∗
𝑦𝑛−1.𝑡 ≡ 𝑦𝑛−1,𝑡 − (𝛿𝑛−1 /𝛿𝑛 )𝑦𝑛𝑡
∗
[ 𝑦𝑛𝑡 ≡ 𝑦𝑛,𝑡 ]
Así, para i = 1, 2, ..., n-1,
∗
𝑦1𝑡 = [𝑦𝑖0 + 𝛿𝑖 𝑡 + 𝑢𝑖1 + 𝑢𝑖2 + ⋯ + 𝑢𝑖𝑡 ]
−(𝛿𝑖 /𝛿𝑛 )[𝑦𝑛0 + 𝛿𝑛 𝑡 + 𝑢𝑛1 + 𝑢𝑛2 + ⋯ + 𝑢𝑛𝑡 ]

∗
≡ 𝑦𝑖0 + 𝜉∗𝑖𝑡 ,
Donde hemos definido

∗
𝑦𝑖0 = [𝑦𝑖0 − (𝛿𝑖 /𝛿𝑛 )𝑦𝑛0 ]
𝜉𝑖𝑡∗ = 𝑢𝑖1
∗ ∗
+ 𝑢𝑖2 ∗
+ ⋯ + 𝑢𝑖𝑡
∗ ∗
𝑢𝑖𝑡 = 𝑢𝑖1 − (𝛿𝑖 /𝛿𝑛 )𝑢𝑛𝑡
∗
𝑢𝑛−1,𝑡 𝑒𝑛 [(𝑛 − 1)𝑥1].
Donde 𝜓 ∗ (𝐿) denota el siguiente polinomio de matriz [(𝑛 − 1)𝑥𝑛]:
𝑢𝑡 = 𝜓 ∗ (𝐿)𝜀𝑡
para
1 0 0 … 0 −(𝛿1 /𝛿𝑛 )
𝐻 0 1 0 … 0 −(𝛿2 /𝛿𝑛 )
=[ ]
[(𝑛 − 1)𝑥𝑛] ⋮ ⋮ ⋮ … ⋮ ⋮
0 0 0 … 1 −(𝛿𝑛−1 /𝛿𝑛 )
𝑥 𝑥
Puesto que {𝑆 ∙ 𝜓𝑠 }𝑥=0 es absolutamente sumatable, también lo es {𝑆 ∙ 𝜓𝑠 }𝑥=0 . Por lo tanto, el [n(-
1)x1] vector 𝑦𝑡∗ ≡ (𝑦1∗ , 𝑦2∗ , … , 𝑦𝑛−1
∗
) tiene las mismaspropiedades asintóticas que el vector 𝜉 en la
Proposición 18.1 con la matriz 𝜓(1) en la Proposición 18.1 reemplazada por 𝜓 ∗ (1).
Si tuviéramos observaciones directas sobre 𝑦𝑡∗ y u, los valores ajustados si el VAR estimado a partir
de [18.2.38] sería claramente idéntico a los de la estimación de
∗
𝑦𝑡 = 𝜁1 𝑢𝑡−1 + 𝜁2 𝑢𝑡−2 + ⋯ + 𝜁𝑝−1 𝑢𝑡−𝑝+1 + 𝛼 ∗ + 𝑝∗ 𝑦𝑡−1 + 𝑦 ∙ 𝑦𝑛,𝑡−1 + 𝜀𝑡 [18.2.43]
Donde p denota una matriz [n(-1)x1] de coeficientes mientras que y es un (n x 1) vector de

coeficientes. Esta representación separa los regresores estacionarios de media cero (𝑢1−𝑠 =
∆𝑦𝑡−𝑠 − 𝛿), el término constante 𝛼 ∗ + 𝑝∗ , los regresores I (0) sin deriva (𝑦𝑛,𝑡−1 ) y un término
dominado asintóticamente por la tendencia temporal. Como en la Sección 16.3, una vez analizado
el hipotético VAR[18.2.38], podemos inferir las propiedades del xxx como realmente estimado
VAR de la relación entre los valores ajustados para las diferentes representaciones.
Considere la ecuación i en [18.2.43]

∗
𝑦𝑡 = 𝜁1 𝑢𝑡−1 + 𝜁2 𝑢𝑡−2 + ⋯ + 𝜁𝑝−1 𝑢𝑡−𝑝+1 + 𝛼 ∗ + 𝑝∗ 𝑦𝑡−1 + 𝑦 ∙ 𝑦𝑛,𝑡−1 + 𝜀𝑡
[18.2.44]
𝑡
Donde 𝜁𝑖𝑠 denota la i-ésima fila de 𝜁𝑠 y 𝑝𝑖∗𝑡 es la i-ésima fila de 𝑝∗ . Definir
𝑥𝑡∗ ′ ′ ′ ∗′ ′
≡ (𝑢𝑡−1 , 𝑢𝑡−2 , … , 𝑢𝑡−𝑝+1 , 1, 𝑦𝑡−1 , 𝑦𝑛,𝑡−1 )′
[(𝑛 − 1)𝑥𝑛]
𝑇 1⁄2 𝐼1(𝑝−1) 0 0 0
ϓ𝑇 1⁄2
= 0′ 𝑇 0′ 0
[(𝑛𝑝 + 1)𝑥(𝑛𝑝 + 1)] 0 0 𝑇. 𝐼𝑛−1 0
[ 0′ 0 0′ 𝑇 3/2 ]
𝐴∗
[(𝑛+1)𝑥𝑛] = 𝜓 ∗ (1). 𝑃, [18.2.45]
Donde 𝐸(𝜀𝑡 𝜀𝑡𝑡 ). Luego, a partir de la Proposición 18.1,

𝑇
(𝑌𝑇−1 ∑(𝑥𝑡∗ )(𝑥𝑡∗′ ) 𝑌𝑇−1 )

𝑡=1
𝑉 0 0 0
′
𝐿 0′ 1 [∫ 𝑊(𝑟)𝑑𝑟] . 𝐴∗ ′ 𝛿0 /2
→
0 𝐴∗ ∫ 𝑊(𝑟)𝑑𝑟 𝐴∗ . {∫ [𝑊(𝑟)]. [𝑊(𝑟)]′𝑑𝑟}. 𝐴∗′ 𝛿0 𝐴∗ ∫ 𝑊(𝑟)𝑑𝑟
′
[0′ 𝛿0 /2 𝛿0 . [∫ 𝑊(𝑟)𝑑𝑟] . 𝐴∗ ′ 𝛿 2 0 /3 ]
donde
Г0 Г1 … Г𝑝−2
𝑉 Г−1 Г0 … Г𝑝−3
= [18.2.47]
[𝑛(𝑝−1)𝑥𝑛(𝑝−1)] ⋮ ⋮ … ⋮
[Г0−𝑝+2 Г−𝑝+3 … Г0 ]
Y W(r) denota el movimiento browniano estándar n-dimensional mientras que el signo integral
indica la integración sobre r de 0 a 1. Similarmente,
ℎ1
𝐿 ℎ2
𝑌𝑇−1 ∑𝑇𝑡=1 𝑥𝑡∗ 𝜀𝑖𝑡 → [ ] [18.2.48]
ℎ3
ℎ4
Donde ℎ1 ~𝑁(0, 𝜎𝑖𝑡 𝑉). Las variables ℎ2 y ℎ4 son también gaussianas, aunque ℎ3 no es gaussiana.
Si definimos 𝜔 como el vector de coeficientes en ∆𝑦, rezagado,
𝑡 𝑡 𝑡
𝜔 ≡ (𝜁𝑖1 , 𝜁𝑖2 , … , 𝜁𝑖,𝑛−1 )
Entonces los resultados anteriores implican que
𝑇 1⁄2 (𝜔
̂ 𝑇 − 𝜔)
∗ ∗) 𝑇 (𝛼̂ 𝑡.𝑇 − 𝛼𝑖∗ ) 𝐿 𝑉 −1 ℎ1
1⁄2 ∗
(𝑏
𝑌𝑇 𝑇 − 𝛽 = → [ −1 ] , [18.2.49]
𝑇(𝜌̂∗ 𝑡.𝑇 − 𝜌𝑖∗ ) 𝑄 ƞ
[ 𝑇 3⁄2 (𝛾̂𝑖,𝑇 − 𝛾𝑖 ) ]
Donde 𝜂 ≡ (ℎ2 ℎ3 ℎ4 ) y Q es el [(n+1)x(n+1)] bloque inferior derecho de la matriz en [18.2.46]. Así
como de costumbre, los coeficientes de u en [18.2.43] son asintóticamente gaussianos:
𝐿
̂𝑖𝑡 − 𝜔𝑖 ) → 𝑁(0, 𝜎1𝑖 𝑉 −1 )
√𝑇(𝜔
Estos coeficientes son numéricamente idénticos a los coeficientes de ∆𝑦𝑡−𝑠 en [18.2.38].

Cualquier prueba F que involucre sólo estos coeficientes también es idéntica para las dos
parametrizaciones. Por lo tanto, una prueba F sobre 𝜁1 , 𝜁2 , … , 𝜁𝑝−1 en [18.2.38] tiene la
distribución 𝑥 2 limitante habitual. Esta es la misma distribución asintótica como si [18.2.38]
se estimaran con p = 1 impuesto; Es decir, la misma distribución asintótica si la regresión
se estima en niveles o en diferencias.
Puesto que pt y yt convergen a una velocidad más rápida que 𝜔, la distribución
asintótica de una combinación lineal de estas tres tiene la misma distribución asintótica que
una combinación lineal que usa los valores verdaderos para p y y. Esto significa, por
ejemplo, que los coeficientes originales Φ̂ de la VAR estimados en niveles como en [18.2.1]
son todos individualmente gaussianos y pueden interpretarse usando las pruebas t
habituales. Una prueba de Wald de la hipótesis nula de 𝑝 > 𝑃𝑜 lag contra la alternativa de
𝑥 2 lags de nuevo tiene la distribución habitual xxx. Sin embargo, las pruebas de causalidad
de Granger típicamente tienen distribuciones no estándar.

18.3. Regresiones espurias
Considera la regresión siguiente
𝑦𝑡 = 𝑥𝑡𝑡 𝛽 + 𝑢𝑡
Para qué elementos de 𝑦𝑡 y 𝑥𝑡 podrían no ser estacionarios. Si no hay ningún valor de población
para 𝛽 para el cual 𝑢𝑡 = 𝑦𝑡 − 𝑥𝑡𝑡 𝛽 residual, entonces MCO es muy probable que produzca
resultados espurios. Este fenómeno fue descubierto por primera vez en la experimentación de
Monte Carlo por Granger y Newbold (1974) y posteriormente explicado teóricamente por Phillips
(1986).
La declaración general del problema de regresión espuria se puede hacer de la siguiente
manera. Sea 𝑦𝑡 un vector (n x 1) de variables I (1). Defina 𝑔 ≡ (𝑛 − 1) y divida 𝑦𝑡
como
𝑦1𝑡
𝑦𝑡 = [𝑦 ]
2𝑡
Donde 𝑦2𝑡 denota un vector (g x 1). Considere las consecuencias de una regresión MCO
de la primera variable en la otra y a constante.
𝛼 + 𝑦𝑦2𝑡 + 𝑢𝑡 [18.3.1]
Las estimaciones del coeficiente MCO para una muestra de tamaño T están dadas por
𝛼̂𝑡 𝑇 ∑ 𝑦2𝑡 −1 ∑ 𝑦1𝑡

[ ̂ ] = [∑ ] [ ] [18.3.2]
𝑌𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦1𝑡
Donde ∑ indica sumación sobre t de 1 a T. Resulta que incluso si 𝑦1𝑡 es completamente ajeno a
𝑦2𝑡 es probable que el valor estimado de Y sea significativamente diferente de cero. De hecho,
considere cualquier hipótesis nula de la forma h:Ry=r donde R es una matriz conocida (m x g) que
representa m hipótesis independiente que implica y y r es un vector conocido (m x 1). La prueba
MCO F de esta hipótesis nula es
−1 −1
𝑇 ∑ 𝑦2𝑡
0
𝐹 = {𝑅𝑦 − 𝑟} {𝑆𝑇2 ∙ [0 𝑅] [∑ 𝑦 ] [ ]}
2𝑡
∑ 𝑦2𝑡 𝑦2𝑡 𝑅
𝑋{𝑅𝑌𝑇 − 𝑟} ÷ 𝑚 [18.3.3]
donde
𝑆𝑇2 ≡ (𝑇 − 𝑛)−1 ∑𝑇𝑡=1 𝑢̂𝑡2 [18.3.5]
A menos que haya algún valor para y tal que sea estacionario, la estimación MCO 𝑦1𝑡 − 𝑦𝑦2𝑡
parecerá ser falsamente precisa en el sentido de que la prueba es virtualmente segura de rechazar
cualquier hipótesis nula si el tamaño de la muestra es suficientemente grande, a pesar de que 𝑦̂𝑡 no
proporciona Una estimación consistente de cualquier constante de población bien definida!
La siguiente proposición, adaptada de Phillips (1986), proporciona la base formal para estas
afirmaciones.
Proposición 18.2: Considere un (n x 1) vector 𝑦𝑡 cuya primera diferencia es descrita por
0 579
𝑥
∆𝑦𝑡 = Ψ(𝐿)𝜖𝑡 = ∑ Ψ𝑠 𝜖𝑡−𝑠

𝑠=0
Para 𝜖𝑡 un vector iid (nx1) con media cero, varianza 𝐸(𝜀𝑡 𝜀𝑡𝑡 ) = 𝑃𝑃 y cuartos finitos y donde
𝑥
{𝑆 ∙ Ψ}𝑠=0 es absolutamente sumable. Deje 𝑔 ≡ (𝑛 − 1) y Λ ≡ Ψ(1) ∙ 𝑃. Partición 𝑦𝑡 como 𝑦𝑡 ,
y bastante partición ΛΛ como
𝛴11 𝛴′21
𝐴𝐴′ (1𝑥1) (1𝑥1)
(𝑛𝑥𝑛) = [ 𝛴21 𝛴22 ] [18.3.5]
(𝑔𝑥1) (𝑔𝑥𝑔)
Supongamos que xxx no es singular y define
(𝜎1∗ )2 ≡ (Σ11 − Σ21

𝑡 −1
Σ22 Σ21 ) [18.3.6]
−1
Sea 𝐿22 el factor de Cholesky de Σ22 ; Es decir, 𝐿22 es la matriz triangular inferior que satisface
−1
Σ22 = 𝐿22 𝐿22 [18.3.7]
Entonces la siguiente espera.
(a) Las estimaciones 𝛼̂ 𝑇 y 𝑦̂𝑇 de MCO en [18.3.2] se caracterizan por
𝑇 −1/2 𝛼̂ 𝑇 𝐿 𝜎∗ℎ
[ −1 ]→[ ∗1 1 ] [18.3.8]
𝑦̂𝑇 − Σ22 Σ21 𝜎1 𝐿22 ℎ2
donde
−1
ℎ 1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊1∗ (𝑟) 𝑑𝑟
[ 1] = [ ] ×[ ] [18.3.9]
ℎ2 ∗
∫ 𝑊2 (𝑟) 𝑑𝑟 ∫[𝑊2∗ (𝑟)]. [𝑊2∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊2∗ (𝑟). 𝑊1∗ (𝑟)𝑑𝑟
Y el signo integral indica la integración sobre r de 0 a 1, 𝑊1∗ (𝑟) denota el movimiento escalar
estándar Browniano y 𝑊2∗ (𝑟) denota el movimiento browniano estándar g-dimensional con
𝑊2∗ (𝑟) independiente de 𝑊1∗ (𝑟).
(b) La suma de los residuos cuadrados 𝑅𝑆𝑆𝑇 de la estimación MCO de [18.3.1] satisface
𝐿
𝑇 ∙ 𝑅𝑆𝑆𝑇 → (𝜎1∗ )2 ∙ 𝐻 [18.3.10]
donde
𝐻 = [𝑊2∗ (𝑟)]2 𝑑𝑟 − {[∫ 𝑊1∗ (𝑟)𝑑𝑟 ∫ 𝑊1∗ (𝑟). [𝑊2∗ (𝑟)]´ 𝑑𝑟]×
−1
1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊1∗ (𝑟)𝑑𝑟
[ ] [ ]} [18.3.11]
∫ 𝑊2∗ (𝑟) ∫ 𝑊2∗ (𝑟). [𝑊2∗ (𝑟)]´ 𝑑𝑟 ∫[𝑊2∗ (𝑟)] . [𝑊1∗ (𝑟)]𝑑𝑟
(c) La prueba de MCO [18.3.3] satisface

𝐿
𝑇 −1 . 𝐹𝑇 → {𝜎1∗ . 𝑅 ∗ ℎ2 − 𝑟 ∗ }´
−1 −1
1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 ´
× (𝜎1∗ )2 . 𝐻[0 𝑅 ∗ ]× [ ] [ 0∗´ ]
∫ 𝑊2∗ (𝑟) ∫ 𝑊2∗ (𝑟). [𝑊2∗ (𝑟)]´ 𝑑𝑟 𝑅
{ }
×{𝜎1∗ . 𝑅 ∗ 𝑏2 − 𝑟 ∗ } ÷ 𝑚
[18.3.12]
donde
𝑅 ∗ ≡ 𝑅 ∙ 𝐿22
−1
𝑅 ∗ ≡ 𝑟 𝑅Σ22 Σ21
La ilustración más simple de la Proposición 18.2 se proporciona cuando 𝑦1𝑡 y 𝑦2𝑡 . son
escalares siguiendo caminos aleatorios totalmente no relacionados:
𝑦1𝑡 = 𝑦1,𝑡−1 + 𝜀1𝑡 [18.3.13]
𝑦2𝑡 = 𝑦2,𝑡−1 + 𝜀2𝑡 [18.3.14]
Donde 𝜀1𝑡 es iid con media cero y varianza 𝜎12 es iid con media cero y varianza 𝜎22 y 𝜀1𝑡 , es
independiente de 𝜀2𝑡 para todo t y 𝜏. Para 𝑦𝑡 = ( 𝑦1𝑡 , 𝑦2𝑡 ) esta especificación implica
𝜎1 0
𝑃=[ ]
0 𝜎2
𝜓(1) = 𝐼2
⅀ ⅀21 𝜎1 0
[ 11 ] = 𝜓(1). 𝑃. 𝑃´ . [𝜓(1)]´ = [ ]
⅀21 ⅀22 0 𝜎22
𝜎1 ∗ = 𝜎1
𝐿22 = 1⁄𝜎2
El resultado (a) afirma entonces que una regresión MCO de 𝑦1𝑡 en 𝑦2𝑡 y una constante,
𝑦1𝑡 = 𝛼 + 𝑦𝑦2𝑡 + 𝑢𝑡 [18.3.15]
Produce estimaciones 𝛼̂ 𝑇 y 𝑦̂𝑇 caracterizadas por
𝑇 −1/2 𝛼̂ 𝑇 𝐿 𝜎1 ∙ ℎ1
]→[
[ ]
𝑦̂𝑡 (𝜎1 /𝜎2 ) ∙ ℎ2
Obsérvese el contraste entre este resultado y cualquier distribución asintótica anterior analizada.
𝑝
Normalmente, las estimaciones de MCO son consistentes con 𝑏𝑇 → 0 y deben ser multiplicadas
por alguna función creciente de orden de Ti para obtener una distribución asintótica no degenerada.
Aquí, sin embargo, ninguna de las estimaciones es coherente - diferentes muestras arbitrariamente
grandes tendrán aleatoriamente diferentes estimaciones 𝑦̂𝑡 . De hecho, la estimación del término
18.3 Regresiones espurias 581

constante 𝛼̂ 𝑇 diverge en realidad y debe dividirse por 𝑇 −1/2 para obtener una variable aleatoria con
una distribución bien especificada - es probable que la estimación 𝛼̂ 𝑇 se aleje cada vez más del
verdadero valor cero a medida que el tamaño de la muestra T aumenta.
El resultado (b) implica que la estimación usual de MCO de la varianza de 𝑢̂𝑡 ,
𝑠𝑇2 = (𝑇 − 𝑛)−1 ∙ 𝑅𝑆𝑆𝑇
De nuevo diverge como 𝑇 → ∞. Para obtener una estimación que no crece con el tamaño de la
muestra, la suma residual de cuadrados tiene que ser dividida por 𝑇 2 en lugar de T. En este sentido,
el 𝑢̂𝑡 residual de una regresión espuria se comportan como un proceso raíz unitaria; Si 𝜉 es una
serie escalar I (1), entonces 𝑇 −1/2 diverge y 𝑇 −1/2 Σ converge. Para ver por qué se comporta
como y la serie I (1), observe que el MCO residual es dado por
𝑢𝑡 = 𝑦1𝑡 − 𝛼 − 𝑦̂𝑡
a partir del cual
∆𝑦1𝑡 𝐿
∆𝑢̂𝑡 = ∆𝑦1𝑡 − 𝛾̂𝑇´ . ∆𝑦2𝑡 = [1 −𝛾̂𝑇´ ] [∆𝑦 ] → [1 −ℎ2∗′ ]∆ℎ𝑡∗´ [18.3.16]
2𝑡
−1
Donde ℎ = Σ22 Σ21 + σL−1
22 h2 . Este es un vector aleatorio [1 − h2 ] veces el I (0) vector ∆𝑦𝑡 .
El resultado (c) significa que cualquier prueba MCO t o F basada en la regresión espúrea [18.3.1]
también diverge; La estadística MCO F [18.3.3] debe dividirse por T para obtener una variable que
no crece con el tamaño de la muestra. Dado que una prueba F de una única restricción es el
cuadrado de la prueba t correspondiente, cualquier estadística t tendría que ser dividida por 𝑇 1/2
para obtener una variable convergente. Por lo tanto, a medida que el tamaño de la muestra T se
hace más grande, es cada vez más probable que el valor absoluto de una prueba MCO t exceda
cualquier valor finito arbitrario (tal como el valor crítico usual de t = 2). Por ejemplo, en la
regresión de [18.3.15], parecerá que 𝑦1𝑡 y 𝑦2𝑡 están significativamente relacionados, mientras que en
realidad son completamente independientes.
En regresiones más generales de la forma de [18.3.1], ∆𝑦1𝑡 y ∆𝑦2𝑡 pueden estar

dinámicamente relacionados a través de elementos no nulos fuera de la diagonal de P y 𝜓. Si bien
tales correlaciones influirán en los valores de los parámetros de perturbación 𝜎1 y, siempre que se
cumplan las condiciones de la Proposición 18.2, estas correlaciones no afectan la naturaleza global
de los resultados o las tasas de convergencia de ninguna de las distribuciones de ℎ1 ℎ2 y H en la
Proposición 18.2 dependen solamente del número de variables en la regresión y no de sus
relaciones dinámicas.
La condición en la Proposición 18.2 que Λ ∙ Λ𝑡 es no singular puede parecer algo inocuo es

en realidad bastante importante. En el caso de una variable simple 𝑦1𝑡 con ∆𝑦1𝑡 la matriz Λ ∙ Λ𝑡
sería simplemente el escalar [𝜓(1) ∙ 𝜎]2 y la condición de que Λ ∙ Λ𝑡 es no singular se reduciría al
requisito de que 𝜓(1) sea distinto de cero. Para entender lo que esto significa, supongamos que
𝑦1𝑡 estaba realmente inmóvil con la representación de Wold:
𝑦𝑡 = 𝜀1𝑟 + 𝐶1 𝜀1,𝑡−1 + 𝐶2 𝜀1,𝑡−2 + ⋯ = 𝐶(𝐿)𝜀1𝑟
Entonces la primera diferencia ∆𝑦1𝑡 sería descrita por
∆𝑦1𝑡 = (1 − 𝐿)𝐶(𝐿)𝜀1𝑟 ≡ 𝜓(𝐿)𝜀1𝑟
Donde 𝜓(𝐿) ≡= (1 − 𝐿)𝐶(𝐿), que significa 𝜓(1) = (1 − 1)𝐶(1)0 = 0. Por lo tanto, si 𝑦1𝑡
eran realmente I (0) en lugar de I (0), la condición de que Λ ∙ Λ𝑡 es no singular no sería
satisfecha.

Para el caso general en el que 𝑦𝑡 es un vector (nx1), la condición de que Λ ∙ Λ𝑡 es no singular
no será satisfecha si alguna variable explicativa Λ ∙ Λ𝑡 es I (0) o si alguna combinación lineal de
los elementos de 𝑦𝑡 es I (0). Si 𝑦𝑡 es un vector I (0) pero alguna combinación lineal de 𝑦𝑡 es I
(0), entonces se dice que los elementos de 𝑦𝑡 están co-integrados. Así, la Proposición 18.2
describe las consecuencias de la estimación de MCO de [18.3.1] sólo cuando todos los
elementos de 𝑦𝑡 son I (1) con deriva cero y cuando el vector 𝑦𝑡 no está cointegrado. Una
regresión es espuria sólo cuando el 𝑢𝑡 residual no es estacionario para todos los valores
posibles del vector de coeficientes.
Cura para regresiones espurias

Hay tres maneras en que los problemas asociados con regresiones espurias pueden ser
evitados. El primer enfoque es incluir valores rezagados tanto de la variable dependiente como
independiente en la regresión. Por ejemplo, considere el siguiente modelo como una alternativa a
[18.3.15]:
𝑦𝑡 = 𝛼 + ∅𝑦1,𝑡−1 + 𝑦𝑦2𝑡 + 𝛿𝑦2,𝑡−1 + 𝑢𝑡 [18.3.17]
Esta regresión no satisface las condiciones de la Proposición 18.1, porque existen valores para los
coeficientes, especialmente ∅ = 1 y 𝑦 = 𝛿 = 0, para los cuales el término de error 𝑢𝑡 es I (0). Se
puede demostrar que la estimación de MCO de [18.3.17] produce estimaciones consistentes de
todos los parámetros. Los coeficientes 𝑦𝑡 y 𝛿 cada uno convergen individualmente a la tasa √𝑇 a
una distribución gaussiana y la prueba t de la hipótesis de que xxx es asintóticamente N (0, 1), como
la prueba t para la hipótesis de que 𝛿 = 0. Sin embargo, una prueba F de La hipótesis nula
conjunta de que 𝑦 y 𝛿 son ambos cero tiene una distribución limitante no estándar: ver ejercicio
18.3. Por lo tanto, incluir valores rezagados en la regresión es suficiente para resolver muchos de los
problemas asociados con regresiones espurias, aunque las pruebas de algunas hipótesis seguirán
involucrando distribuciones no estándar.
Un segundo enfoque consiste en diferenciar los datos antes de estimar la relación, como en
∆𝑦1𝑡 = 𝛼 + 𝑦∆𝑦2𝑡 + 𝑢𝑡 [18.3.18]
Claramente, puesto que los regresores y el término de error 𝑢𝑡 son todos I (0) para esta
regresión bajo la hipótesis nula, 𝛼 𝑇 y 𝑦2𝑡 convergen a la tasa √𝑇 a variables gaussianas.
Cualquier prueba t o F basada en [18.3.18] tiene la distribución Gaussiana o xxx de limitación
usual.
Un tercer enfoque, analizado por Blough (1992), es estimar [18.3.15] con el ajuste de
Cochrane-Orcutt para la correlación en serie de primer orden de los residuos. Veremos en la
Proposición 19.4 en el siguiente capítulo que si 𝑢𝑡 denota la muestra residual de la estimación
MCO de [18.3.15], entonces el coeficiente autorregressivo estimado xxx de una regresión MCO
de 𝑢𝑡 en 𝑢𝑡−1 converge en probabilidad a unidad. Blough mostró que la regresión Cochrane-
Orcutt GLS es asintóticamente equivalente a la regresión diferenciada [18.3.18].
Porque si la especificación [18.3.18] evita el problema de regresión espuria así como las
distribuciones no estándar para ciertas hipótesis asociadas con las regresiones de los niveles
[18.3.15], muchos investigadores recomiendan diferenciar rutinariamente las variables
aparentemente no estacionarias antes de estimar las represiones. Si bien esta es la solución ideal
para el problema discutido en esta sección, hay dos situaciones diferentes en las que podría ser
innapropiado. En primer lugar, si los datos son realmente estacionarios (por ejemplo, si el valor
verdadero de ∅ en [18.3.17] es 0.9 en lugar de la unidad), entonces diferenciar los datos puede
resultar en una regresión mal especificada. En segundo lugar, incluso si xxx y xxx son
verdaderamente procesos I (1), hay una clase interesante de modelos para los cuales la relación
dinámica bivariada entre 𝑦1𝑡 y 𝑦2𝑡 será mal especificada si el investigador simplemente
18.3 Regresiones espurias 583

diferencia 𝑦1 y 𝑦2𝑡 Esta clase de modelos, conocidos como procesos cointegrados, se discute
en el siguiente capítulo.
APÉNDICE 18.A. Pruebas de las proposiciones del capítulo

18
▪ Pruebas de proposición 18.1.
(a) Esto se deduce de [18.1.7] y [18.1.8] con r = 1.
(b) La derivación es idéntica a la de [11.A.3].
(c) Esto se deduce de la Proposición 10.2 (d).
(d) Obsérvese primero en una generalización de [17.1.10] y [17.1.11] que
𝑇 𝑇 𝑇
∑ 𝜉𝑡 𝜉𝑡𝑡 = ∑(𝜉𝑡−1 + 𝑢)(𝜉𝑡−1 + 𝑢) = ∑(𝜉𝑡−1 +𝜉𝑡−1 𝑢 + 𝑢 𝜉𝑡−1 + 𝑢𝑢)

𝑡=1 𝑡=1 𝑡=1
así que eso

𝑇 𝑇 𝑇 𝑇
∑(𝜉𝑡−1 𝑢𝑡´ + 𝑢𝑡 𝜉 ´
𝑡−1 ) = ∑ 𝜉𝑡 𝜉𝑡𝑡 − ∑(𝜉𝑡−1 +𝜉 𝑡−1 ) − ∑(𝑢𝑡 𝑢𝑡´ )
´
𝑡=1 𝑡=1 𝑡=1 𝑡=1
= 𝜉𝑇 𝜉𝑇𝑡 − 𝜉0 𝜉0𝑡 − ∑(𝑢𝑡 𝑢𝑡´ )

𝑡=1
= 𝜉𝑇 𝜉𝑇𝑡 − ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡´ ) [18.A.1]
Dividiendo por T,
𝑇 −1 = ∑𝑇𝑡=1(𝜉𝑡−1 𝑢 + 𝑢 𝜉𝑡−1 ) = 𝑇 −1 𝜉𝑡 𝜉𝑡𝑡 − 𝑇 −1 ∑𝑇𝑡=1 𝑢 + 𝑢 18.A.2]
Pero de [18.1.7], 𝜉𝑇 = 𝑇𝑋(1). Por lo tanto, a partir de [18.1.8] y el teorema de la cartografía

continua,
𝐿
𝑇 −1 = ∑𝑇𝑡=1 𝜉𝑡 𝜉𝑡𝑡 = [√𝑇𝑋𝑇 (1)][√𝑇𝑋𝑇 (1)] → Λ[W(1)] ∙ [W(1)] ∙ Λ − Γ0 [18.A.3]
Sustituir esto junto con el resultado (c) en [18.A.2] produce

𝐿
𝑇 −1 = ∑𝑇𝑡=1(𝜉𝑡−1 𝑢 + 𝑢 𝜉𝑡−1 ) → Λ[W(1)] ∙ [W(1)] ∙ Λ − Γ0 [18.A.4]
Que establece el resultado (d) para s = 0.

Para 𝑠 > 0, tenemos
𝑇
−1
𝑇 ∑(𝜉𝑡−1 𝑢 + 𝑢 𝜉 ´ 𝑡−1 )
𝑡=1
𝑇
−1
=𝑇 ∑ [(𝜉𝑡−𝑠−1 + 𝑢𝑡−𝑠 + 𝑢𝑡−𝑠+1 + ⋯ + 𝑢𝑡−1 )𝑢´ 𝑡−1
𝑡=𝑠+1
+ 𝑢𝑡−𝑠 (𝜉 ´ 𝑡−𝑠−1 + 𝑢´ 𝑡−𝑠 + 𝑢´ 𝑡−𝑠+1 + ⋯ + 𝑢´ 𝑡−1 )]
= 𝑇 −1 ∑𝑇𝑡=𝑠+1(𝜉𝑡−𝑠−1 𝑢´ 𝑡−𝑠 + 𝑢𝑡−𝑠 𝜉 ´ 𝑡−𝑠−1 )+

𝑇
−1
𝑇 ∑ [(𝑢𝑡−𝑠 𝑢´ 𝑡−𝑠 ) + (𝑢´ 𝑡−𝑠+1 𝑢𝑡−𝑠 ) + ⋯ + (𝑢𝑡−1 𝑢´ 𝑡−𝑠 ) + (𝑢𝑡−𝑠 𝑢´ 𝑡−𝑠 ) + (𝑢𝑡−𝑠 𝑢´ 𝑡−𝑠+1 )
𝑡=𝑠+1
+ ⋯ + (𝑢𝑡−𝑠 𝑢´ 𝑡−1 )]
𝐿
→ Ʌ. [𝑊(1)]. [𝑊(1]´ . Ʌ´ − г0
+[г0 + г1 + ⋯ + г𝑠−1 + г0 + г−1 + ⋯ + г−𝑠+1 ]
En virtud de [18.A.4] y del resultado (c).
(E) Véase Phillips (1988).
(F) Defina 𝜉𝑡∗ ≡ 𝜀1 + 𝜀2 + ⋯ + 𝜀𝑡 y 𝐸(𝜀𝑡 𝜀𝑡𝑡 ). Obsérvese que el resultado (e) implica que
𝐿 1
𝑇 −1 ∑𝑇𝑡=1 𝜉𝑡 𝜀𝑡𝑡 → 𝑃 ∙ {∫0 [W(r)] ∙ [dW(r)]}∙ 𝑃 [18.A.5]
Para 𝜉𝑡∗ ≡ 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡 la ecuación [18.1.6] establece que

𝑇 −1 ∑𝑇𝑡=1 𝜉𝑡 𝜀𝑡𝑡 = 𝑇 −1 ∑𝑇𝑡=1{Ψ(1) ∙ 𝜉𝑡−1
∗
+ 𝜂𝑡−1 − 𝜂0 } ∙ 𝜀𝑡𝑡 [18.A.6]
𝑡 𝑇
Pero cada columna de {(𝜂𝑡−1 − 𝜂0 ) ∙ 𝜀𝑡 }𝑡=1 es una secuencia de diferencias de martingala con
varianza finita, y así, del ejemplo 7.11 del capítulo 7,
𝑃
𝑇 −1 ∑𝑇𝑡=1(𝜂𝑡−1 − 𝜂0 ) ∙ 𝜀𝑡𝑡 → 0 [18.A.7]
La sustitución de [18.A.5] y [18.A.7] en [18.A.6] produce
𝑇 1
𝐿
𝑇 −1
∑ 𝜉𝑡 𝜀𝑡𝑡 → Ψ(1)P {∫ [W(r)] ∙ [dW(r)]} 𝑃
𝑡=1 0
Como se reivindica.
(g) Esto se demostró en [18.1.9]
(h) Como en [17.3.17] tenemos
𝑇 𝑇 𝑇
𝑇 −3/2 ∑ 𝜉𝑡−1 = 𝑇 −1/2 ∑ 𝑢 − 𝑇 −3/2 ∑ 𝑡𝑢𝑡

𝑡=1 𝑡=1 𝑡=1
o
3 1 3 𝐿 1
𝑇 −2 ∑𝑇𝑡=1 𝑡𝑢 = 𝑇 −2 ∑𝑇𝑡=1 𝑢 − 𝑇 −2 ∑𝑇𝑡=1 𝜉𝑡−1 → ΛW(1) − Λ ∫0 W(r)dr [18.A.8]
A partir de los resultados (a) y (g). Esto establece el resultado (h) para s = 0. La distribución
asintótica es la misma para cualquier s, desde la simple adaptación de la prueba de la Proposición
17.3 (g).
(I) Como en [17.3.22],

𝑇 1
−2
𝑇 ∑ 𝜉𝑡−1 𝜉𝑡−1 = ∫ [√𝑇X 𝑇 (r)] ∙ [√𝑇X 𝑇 (r)] 𝑑𝑟
𝑡=1 0
𝐿 1
→ Λ {∫ [W(r)] ∙ [dW(r)]} ∙ Λ
0
(J), (k), y (l) Proposición paralela 17.3 (i), (j) y (k).◘
▪ Prueba de proposición 18.2. Las distribuciones asintóticas son más fáciles de calcular si
trabajamos con las siguientes variables transformadas:
∗ 1 −1
𝑦1𝑡 ≡ 𝑦1𝑡 − Σ21 Σ22 𝑦2𝑡 [18.A.9]
∗
𝑦2𝑡 = 𝐿𝑡22 𝑦2𝑡 [18.A.10]

−1 (𝜎 ∗ )−1
Tenga en cuenta que las inversas Σ22 , 𝑡 y 𝐿𝑡22 existen todas, ya que ΛΛ es asimétrica
∗ ∗
positiva definida. Una regresión MCO de 𝑦1𝑡 en una constante y 𝑦2𝑡 ,
∗ ∗
𝑦1𝑡 = 𝛼 ∗ + 𝑦𝑦2𝑡 + 𝑢𝑡∗ [18.A.11]
Arrojaría estimaciones
−1
𝛼̂ 𝑇∗ 𝑇 ∗
Σ𝑦2𝑡 Σ𝑦 ∗
[ ̂∗] = [ ∗ ∗ ∗ ] [ ∗ 1𝑡 ∗ ] [18.A.12]
𝑌𝑇 Σ𝑦2𝑡 Σ𝑦2𝑡 𝑦2𝑡 Σ𝑦2𝑡 𝑦1𝑡
Claramente, las estimaciones de MCO para la regresión transformada [18.A.11] se relacionan con
las de la regresión original [18.3.1] por
𝛼̂ 𝑇 = 𝛼̂ 𝑇∗
𝑌̂𝑇∗ = 𝐿22 𝑌̂𝑇∗ + Σ211 −1
Σ22
[18.A.13]
Implicando que
𝑌̂𝑇∗ = 𝐿22 𝑌̂𝑇∗ − 𝐿22 Σ22

−1
Σ21
= 𝐿22 𝑌̂𝑇 − 𝐿22 (𝐿22 𝐿22 )Σ21
∗
= 𝐿22 𝑌̂𝑇∗ − 𝐿22 Σ21

[18.A.14]
La utilidad de esta transformación es la siguiente. Darse cuenta de

−1
𝑦 ∗ /𝜎 ∗ (1/𝜎1∗ ) (1/𝜎1∗ ) ∙ Σ22
−1
Σ21 𝑦1𝑡
[ 𝑇 ∗ 1] = [ ] [𝑦 ] ≡ 𝐿𝑦
𝑌2𝑡 0 𝐿22 2𝑡
Para
(1/𝜎1∗ ) (1/𝜎1∗ ) ∙ Σ22

−1
Σ21
𝐿≡[ ]
0 𝐿22
Más aún,
(1⁄𝜎1∗ ) (−1⁄𝜎1∗ ). ⅀´21 ⅀−122 ⅀11 ⅀21

´ (1⁄𝜎1∗ ) 0´
𝐿´ ɅɅ´ 𝐿 = [ ] [ ] [ ]
0 𝐿´22 ⅀21 ⅀22 (−1⁄𝜎1∗ ). ⅀´21 ⅀−1 22 𝐿´22
(1⁄𝜎1∗ ). (⅀11 − ⅀´21 ⅀−1
22 ⅀21 ) 0´ (1⁄𝜎1∗ ) 0´
=[ ] [ ]
𝐿´22 ⅀21 𝐿´22 ⅀22 (−1⁄𝜎1∗ ). ⅀´21 ⅀−1 22 𝐿´22
(⅀11 − ⅀´21 ⅀−1 ∗ 2
22 ⅀21 )⁄(𝜎1 ) 0´
=[ ]
0 𝐿´22 ⅀22 𝐿22
[18.A.15]
Pero [18.3.7] implica que
Σ22 = (𝐿22 𝐿22 )−1 = (𝐿22 )−1 𝐿−1

22
a partir del cual
𝐿22 Σ22 𝐿22 = 𝐿22 {(𝐿22 )−1 𝐿−1

22 }𝐿22 = 𝐼𝑔

Sustituir este y [18.3.6] en [18.A.15] resultan en
𝐿ΛΛL = 𝐼𝑔 [18.A.16]
Una de las implicaciones es que si W(r) es un movimiento browniano estándar n-

dimensional, entonces el proceso n-dimensional W*(r) definido por
W ∗ (r) ≡ LΛ ∙ W(r) [18.A.17]
Es un movimiento browniano con matriz de varianza LΛΛL = 𝐼𝑛 . En otras palabras, W(r)

también podría describirse como movimiento browniano estándar. Dado que el resultado
(g) de la Proposición 18.1 implica que
𝑇 1
𝐿
−3/2
𝑇 ∑ 𝑦 → Λ ∙ ∫ W(r) 𝑑𝑟
𝑡=1 0
resulta que
𝑇 −3/2 Σ𝑦 ∗ /𝜎 ∗ 𝐿 1 1
[ −3/2 𝑇 ∗ 1 ] = 𝑇 −3/2 ∑𝑇𝑡=1 𝐿𝑦 → LΛ ∙ ∫0 W(r) 𝑑𝑟 = ∫0 W ∗ (r)𝑑𝑟 [18.A.18]
𝑇 Σ𝑦2𝑡
Asimismo, el resultado (i) de la Posición 18.1

∗ )2 ⁄(𝜎 ∗ )2 ∗ ∗´ ⁄ ∗
𝑇 −2 ∑ (𝑦1𝑡 1 𝑇 −2 ∑ 𝑦1𝑡 𝑦2𝑡 𝜎𝑡 𝑇
´ −2
[ ] = 𝐿.𝑇 ∑ 𝑦𝑡 𝑦𝑡´ . 𝐿
∗ ∗ ⁄ ∗ ∗ ∗´
𝑇 −2 ∑ 𝑦2𝑡 𝑦1𝑡 𝜎1 𝑇 −2
∑ 𝑦2𝑡 𝑦2𝑡 𝑡=1
𝐿 1
→ 𝐿´ Ʌ. {∫ [𝑊(𝑟)]. [𝑊(𝑟)]´ 𝑑𝑟} . Ʌ´ 𝐿
0
1
= ∫ [𝑊 ∗ (𝑟)]. [𝑊 ∗ (𝑟)]´ 𝑑𝑟
0
[18.A.19]
Ahora es correcto demostrar las afirmaciones de la Proposición 18.2.
Prueba de (a). Si [18.A.12] es dividido por 𝜎1∗ y premultiplicado por la matriz
𝑇 −1/2 0
[ ]
0 𝐼𝑔
El resultado es
𝑇 −1⁄2 0´ 𝛼̂ 𝑇∗ ⁄𝜎1∗
[ ][ ]
0 𝐼𝑔 𝛾̂𝑇∗ ⁄𝜎1∗
−1
∗´ ∗
−1⁄2 𝑇 ∑ 𝑦2𝑡 −1 ∑ 𝑦1𝑡 ⁄𝜎1∗
𝑇 0´
𝑇 −3⁄2 0´ 𝑇 −3⁄2 0´
=[ ][ ] [ ] [ ][ ]
0 𝐼𝑔 ∗ ∗ ∗´ 0 𝑇 −2 𝐼𝑔 0 𝑇 −2 𝐼𝑔 ∗ ∗
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦1𝑡 ⁄𝜎1∗
−1
∗ ´ ∗
−3⁄2 𝑇 ∑ 𝑦2𝑡 1⁄2 ∑ 𝑦1𝑡 ⁄𝜎1∗
𝑇 0 ´
𝑇 0 ´
𝑇 −3⁄2 0´
= ([ ][ ][ ]) ([ ][ ])
0 𝑇 −2 𝐼𝑔 ∗ ∗ ∗ ´ 0 𝐼𝑔 0 𝑇 −2 𝐼𝑔 ∗ ∗
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦1𝑡 ⁄𝜎1∗

O
−1
−3⁄2 ∗ ´
1 𝑇 ∑ 𝑦2𝑡 𝑇 −3⁄2 ∑ 𝑦1∗⁄𝜎1∗
𝑇 −1⁄2 𝛼̂𝑇∗ ⁄𝜎1∗
[ ] = [ ] [ ]
𝛾̂𝑇∗ ⁄𝜎1∗ 𝑇 −3⁄2 ∑ 𝑦 ∗ ∗
𝑇 −2 ∑ 𝑦2𝑡 ∗ ´
𝑦2𝑡 ∗
𝑇 −2 ∑ 𝑦2𝑡 ∗
𝑦1𝑡 ⁄𝜎1∗
2𝑡
[18.A.20]
Partición W ∗ (r)𝑑𝑟 como
W1∗ (r)
∗ (r) (1𝑥)
W
=
(𝑛𝑥1) W2∗ (r)
[ (𝑔𝑥1)]
La aplicación de [18.A.18] y [18.A.19] a [18.A.20] da lugar a
−1
−1⁄2 ̂𝑇∗ ⁄𝜎1∗ 𝐿 1 ∫[𝑊1∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊1∗ (𝑟)𝑑𝑟
𝑇 𝛼 ℎ
[ ] → [ ] [ ] = [ 1]
𝛾̂𝑇∗ ⁄𝜎1∗ ℎ2
∫ 𝑊2∗ (𝑟)𝑑𝑟 ∫[𝑊2∗ (𝑟)][𝑊1∗ (𝑟)]´ 𝑑𝑟 ∫ 𝑊2∗ (𝑟)𝑊1∗ (𝑟)𝑑𝑟
[18.A.21]
Recordando la relación entre las estimaciones transformadas y las estimaciones originales dadas en
[18.A.14], esto establece que
𝑇 −1/2 𝛼 𝑇∗ /𝜎1∗
𝐿 ℎ
[ 1 ] → [ 1]
−1 1
( ∗ ) ∙ [ 𝐿22 Y𝑇 − 𝐿22 Σ21 ℎ2
𝜎1
Premultiplicación por
𝜎1∗ 0
[ ]
0 𝜎1∗ 𝐿22
Y recordando [18.3.7] produce [18.3.8].
Prueba de (b). Nuevamente explotamos el hecho de que la estimación de MCO de [18.A.11]

produciría los residuos idénticos que resultarían de la estimación de MCO de [18.3.1]. Recordemos
la expresión de la suma residual de cuadrados en [4.A.6]:
−1
∗´ ∗
𝑇 ∑ 𝑦2𝑡 ∑ 𝑦1𝑡
∗ )2 ∗ ∗ ∗´
𝑅𝑆𝑆𝑇 = ∑(𝑦1𝑡 − [∑ 𝑦1𝑡 ∑ 𝑦1𝑡 𝑦2𝑡 ] [ ] [ ]
∗ ∗ ∗´ ∗ ∗
∑ 𝑦2𝑡 ∑ 𝑦1𝑡 𝑦2𝑡 ∑ 𝑦1𝑡 𝑦2𝑡
{ }

∗ )2
= ∑(𝑦1𝑡
1⁄2
∗ ∗ ∗´ 𝑇 0´
− [∑ 𝑦1𝑡 ∑ 𝑦1𝑡 𝑦2𝑡 ] [ ]
0 𝐼𝑔
{
−1
∗´ ∗
−3⁄2 𝑇 ∑ 𝑦2𝑡 1⁄2 ∑ 𝑦1𝑡
𝑇 0 ´
𝑇 0´
𝑇 −3⁄2 0´
× ([ ][ ][ ]) [ ][ ]
0 𝑇 −2 𝐼𝑔 ∗ ∗ ∗´ 0 𝐼𝑔 0 𝑇 −2 𝐼𝑔 ∗ ∗
∑ 𝑦2𝑡 ∑ 𝑦1𝑡 𝑦2𝑡 ∑ 𝑦1𝑡 𝑦2𝑡
}
[18.A.22]
Si ambos lados de [18.A.22] están divididos por (𝑇 ∙ 𝜎1∗ )2 , el resultado es
𝑇 −2 . 𝑅𝑆𝑆𝑇 ⁄(𝜎1∗ )2
∗ ⁄ ∗ )2
= 𝑇 −2 ∑(𝑦1𝑡 𝜎1
− [𝑇 −3⁄2 ∑(𝑦1𝑡
∗ ⁄ ∗ ) −2 (𝑦 ∗ ⁄ ∗ )𝑦 ∗´
𝜎1 𝑇 1𝑡 𝜎1 2𝑡 ]
{
−1
1 𝑇 −3⁄2 ∑ 𝑦2𝑡
∗´
𝑇 −3⁄2 ∑ 𝑦1𝑡
∗ ⁄ ∗
𝜎1
×[ ] [ ]
𝑇 −3⁄2 ∑ 𝑦2𝑡
∗ ∗ ∗´
𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 ∗
𝑇 −2 ∑ 𝑦2𝑡 ∗ ⁄ ∗
𝑦1𝑡 𝜎1
}
𝐿
→ ∫[𝑊1∗ (𝑟)]2 𝑑𝑟
− [∫ 𝑊1∗ (𝑟)𝑑𝑟 ∫[𝑊1∗ (𝑟)][𝑊2∗ (𝑟)]´ 𝑑𝑟]
{
−1
1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 𝑊1∗ (𝑟)𝑑𝑟
×[ ] [ ]
∫[𝑊2∗ (𝑟)][𝑊1∗ (𝑟)]𝑑𝑟
∫ 𝑊2∗ (𝑟)𝑑𝑟 ∫[𝑊2∗ (𝑟)][𝑊2∗ (𝑟)]´ 𝑑𝑟
}
Prueba de (c). Obsérvese que una prueba F de la hipótesis 𝐻0 : 𝑅𝑦 = 𝑟 para la regresión original
[18.3.1] produciría exactamente el mismo valor que una prueba F de 𝑅 ∗ 𝑦 ∗ = 𝑟 ∗ para la estimación
MCO de [18.A.11], donde, de [18.A. 13],
−1
𝑅 − 𝑟 = 𝑅{𝐿22 𝑌 + Σ22 Σ21 } − 𝑟 = 𝑅 ∗ 𝑦 ∗ − 𝑟 ∗
Para
𝑅 ∗ ≡ 𝑅 ∙ 𝐿22 [18.A.23]
−1
𝑟 ∗ ≡ 𝑟 − 𝑅Σ22 Σ21 [18.A.24]
La prueba OMC F de 𝑅 ∗ 𝑦 ∗ = 𝑟 ∗ está dada por
𝐹𝑇 = {𝑅 ∗ 𝑦 ∗ − 𝑟 ∗ }

∗ −1
𝑇 Σy2𝑖 0
𝑋 {{S ∗𝑇 }2 ∙ [0 𝑅] [ ∗ ∗ ∗𝑡 ] [ ∗ ]} {𝑅∗ y𝑇∗ − 𝑟 ∗ } ÷ 𝑚
Σy2𝑖 Σy2𝑖 y2𝑖 𝑅
Del cual
𝑇 −1 . 𝐹𝑇 = {𝑅 ∗ 𝛾̂𝑇∗ − 𝑟 ∗ }´
−1 −1
∗´
𝑇 ∑ 𝑦2𝑡
𝑇 1⁄2 0´ 𝑇 1⁄2 0´ ´
× {𝑇 −1 . [𝑆𝑇∗ ]2 . [0 𝑅∗ ] [ ][ ] ×[ ] [ 0∗´ ]} {𝑅 ∗ 𝑦̂𝑇∗ − 𝑟 ∗ } ÷ 𝑚
0 𝑇. 𝐼𝑔 ∗ ∗ ∗´ 0 𝑇. 𝐼𝑔 𝑅
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡
−1 −1
1 𝑇 −3⁄2 ∑ 𝑦2𝑡
∗´
´
= {𝑅 ∗ 𝛾̂𝑇∗ − 𝑟 ∗ }´ {𝑇 −1 . [𝑆𝑇∗ ]2 . [0 𝑅 ∗ ]× [ ] [ 0∗´ ]} {𝑅 ∗ 𝑦̂𝑇∗ − 𝑟 ∗ } ÷ 𝑚.
𝑇 −3⁄2 ∗
∑ 𝑦2𝑡 𝑇 −3⁄2 ∗ ∗´
∑ 𝑦2𝑡 𝑦2𝑡 𝑅
[18.A.25]
Pero
𝑇 𝑇
{S∗𝑇 }2 = (𝑇 − 𝑛) −1
∑ (𝑢̂𝑡∗ )2 = (𝑇 − 𝑛) −1
∑ 𝑢̂𝑡2
𝑡=1 𝑡=1
Y así, a partir del resultado (b),

𝐿
𝑇 −1 ∙ {S ∗𝑇 }2 = [𝑇/(𝑇 − 𝑛) ∙ 𝑇 −2 ∙ 𝑅𝑆𝑆𝑇 → (𝜎1∗ )2 ∙ 𝐻 [18.A.26]
Además, [18.A.18] y [18.A.19] implican que

−1 −1
1 𝑇 −3⁄2 ∑ 𝑦2𝑡
∗´
𝐿
1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟
[ ] →[ ]
𝑇 −3⁄2 ∑ 𝑦2𝑡
∗ ∗
𝑇 −2 ∑ 𝑦2𝑡 ∗´
𝑦2𝑡 ∫ 𝑊2∗ (𝑟)𝑑𝑟 ∫[𝑊2∗ (𝑟)] [𝑊2∗ (𝑟)]´ 𝑑𝑟
[18.A.27]
Mientras que de [18.A.21],

𝐿
Y𝑇∗ → 𝜎1∗ ∙ [18.A.28]
Sustituyendo [18.A.26] a [18.A.28] en [18.A.25], concluimos que
𝐿
𝑇 −1 . 𝐹𝑇 → {𝜎1∗ 𝑅 ∗ ℎ2 − 𝑟 ∗ }´ × {(𝜎1∗ )2 . 𝐻[0 𝑅 ∗ ]×
−1 −1
1 ∫[𝑊2∗ (𝑟)]´ 𝑑𝑟 ´
[ ∗
] [ 0∗´ ]} {𝜎1∗ 𝑅 ∗ ℎ2 − 𝑟 ∗ } ÷ 𝑚. ◘
∫ 𝑊2 (𝑟)𝑑𝑟 ∫[𝑊2∗ (𝑟)]. [𝑊2∗ (𝑟)]´ 𝑅
18.1. Considera la estimación MCO de
1 1 1
𝑦𝑖𝑡 = 𝜁1𝑠 ∆𝑦𝑡−1 + 𝜁2𝑠 ∆𝑦𝑡−2 + ⋯ + 𝜁1.𝑝 ∆𝑦1−𝑝+1 + 𝛼𝑡 + 𝑝𝑡𝑡 𝑦𝑡−1 + 𝜀𝑖𝑡

Donde 𝑦𝑖𝑡 es el i-ésimo elemento del vector (nx1) 𝑦𝑖𝑡 y 𝜀𝑖𝑡 es el i-ésimo elemento del vector (nx1)
𝜀𝑡 . Supongamos que 𝜀𝑡 es iid con media cero, variante definida positiva Ω, y cuartos momentos
𝑥
finitos y que ∆𝑦1 = 𝜓(𝑙)𝜀, donde la secuencia de (nx1) matrices {𝑆 ∙ 𝜓𝑠 }𝑠=0 es absolutamente
sumatoria y 𝜓(𝑙) es no singular. Sea k = n9 + 1 el número de regresores, y defina
𝑋𝑡 ≡ (∆𝑦𝑡−1 , ∆𝑦𝑡−2 , … , ∆𝑦1−𝑝+1 , 1, 𝑦𝑡−1 )𝑡
Sea 𝑏𝑇 el vector (K x 1) de los coeficientes estimados:
𝑏𝑇 = (Σx𝑡 x𝑡𝑡 )−1 (Σx𝑡 𝑦𝑖𝑡 )
Donde Σ denota sumación sobre t de 1 a T. Considere cualquier hipótesis nula 𝐻0 : 𝑅𝑦 = 𝑟 que

implique sólo los coeficientes en ∆𝑦𝑡−𝑠 que es, R es de la forma
𝑅 𝑅1 0
=[ ]
(𝑚𝑥𝑘) (𝑚𝑥𝑛(𝑝 − 1)) (𝑚𝑥(1 + 𝑛))
Sea x 2𝑇 la forma Wald de la prueba MCO 𝑥 2 de 𝐻0 :
x 2𝑇 ≡ (𝑅𝑏 − 𝑟)1 [ s 2𝑇 𝑅(Σx𝑡 x𝑡𝑡 )−1 R](𝑅𝑏 − 𝑟)

donde
s 2𝑇 ≡ (𝑇 − 𝑘)−1 Σ(y − b𝑖𝑡 x𝑡 )2
Bajo la hipótesis mantenida que 𝛼𝑖 = 0 y 𝑝𝑖 = 𝑒𝑡𝑡 (donde 𝑒𝑡𝑡 denota la i-ésima fila de 𝐼𝑛 ), muestre
𝐿
que x 2𝑇 → 𝑥 2 (𝑚).
18.2. Supongamos que el modelo de regresión

1 1 1
𝑦𝑖𝑡 = 𝜁1𝑠 ∆𝑦𝑡−1 + 𝜁2𝑠 ∆𝑦𝑡−2 + ⋯ + 𝜁1.𝑝 ∆𝑦1−𝑝+1 + 𝛼𝑡 + 𝑝𝑡𝑡 𝑦𝑡−1 + 𝜀𝑖𝑡
Cumple las condiciones de Execise 18.1. Partición esta regresión como en [18.2.37]:
𝑦𝑢 = 𝛽1´ ∆𝑦1𝑡−1 + 𝛾1´ ∆𝑦2𝑡−1 + 𝛽2´ ∆𝑦1𝑡−2 + 𝛾2´ ∆𝑦2𝑡−2 + ⋯

´ ´
+𝛽𝜌−1 ∆𝑦1𝑡−𝜌+1 + 𝛾𝜌−1 ∆𝑦2𝑡−𝜌+1 + 𝛼𝑖 + 𝑛´ 𝑦1𝑡−1
+𝛿 ´ 𝑦2𝑡−1 + 𝜀𝑖𝑡
Donde 𝑦𝑡 es un vector (𝑛1 𝑥 1) y 𝑦2𝑡 es un vector (𝑛2 + 𝑛) = 𝑛. Considere la hipótesis

nula 𝑦1 = 𝑦2 = ⋯ = 𝑦𝑝−1 = 𝛿 = 0. Describa la distribución asintótica de la forma Wald
de la prueba MCO 𝑥 2 de esta hipótesis nula.
18.3. Supongamos que el modelo de regresión
Considere la estimación de MCO de
𝑦𝑖𝑡 = 𝑦∆𝑦𝑡−1 + 𝛼 + ∅𝑦1𝑠−1 + 𝜂𝑦2𝑠−1 + 𝑢𝑡
Donde 𝑦1𝑡 y 𝑦2𝑡 son caminatas aleatorias independientes como se especifica en [18.3.13] y
[18.3.14]. Obsérvese que los valores ajustados de esta regresión son idénticos a los de [18.3.17]
̂ 𝑇 lo mismo para ambas regresiones y 𝛿𝑇 = 𝑛̂ 𝑇 − 𝑦̂𝑇 .
con 𝛼̂ 𝑇 , 𝑌̂𝑇 y ∅
(A) Demuestre que

𝑇 1/2 𝑦̂𝑇 𝑣1
1/2
𝑇 𝑎̂𝑇 𝐿 𝑣2
→ [𝑣 ]
̂
𝑇( ∅ 𝑇 − 1) 3
[ 𝑇 𝑛̂ 𝑇 ] 𝑣4
Donde 𝑣𝑇 ~𝑁(0, 𝜎12 /𝜎22 ) y (𝑣2 , 𝑣3 , 𝑣4 ) tiene una distribución limitante no estándar. Concluye
̂ 𝑇 son estimaciones consistentes de 0, 0, 1 y 0, respectivamente, lo que significa
que 𝛼̂ 𝑇 , 𝑌̂𝑇 y ∅
que todos los coeficientes estimados en [18.3.17] son consistentes.
(B) Demuestre que la prueba t de la hipótesis nula de que y = 0 es asintóticamente N (0, 1).
(C) Demuestre que la prueba t nula hipótesis de que 𝛿 = 0 en el modelo de regresión de

[18.3.17] es también asintotica N (0, 1).
Blough, Stephen R. 1992. “Spurious Regressions with AR(1) Correction and Unit Root Pretest.”
Johns Hopkins University. Mimeo.
Chan N.H., and C. Z. Wei. 1988. “Limiting Distributions of Least Squares Estimates of Unstable
Autoregressive Processes.” Annals of Statistics 16:367-401.
Granger, C. W. J., and Paul Newbold. 1974. “Spurious Regressions in Econometrics.” Journal of
Ohanian, Lee E. 1988. “The Spurious Effects of Unit Roots on Vector Autoregressions: A Monte
Carlo Study.” Journal of Econometrics 39:251-66.
Park, Joon Y., and Peter C. B. Phillips. 1988. “Statistical Inference in Regressions with Integrated
Processes: Part 1.” Econometric Theory 4:468-97.
------- and -------. 1989. “Statistical Inference in Regressions with Integrated Processes: Part 2.”
Econometric Theory 5:95-131.
Phillips, Peter C. B. 1986. “Understanding Spurious Regressions in Econometrics.” Journal of
--------. 1988. “Weak Convergence of Sample Covariance Matrices to Stochastic Integrals via
Martingale Approximations.” Econometric Theory 4:528-33.
------- and S. N. Durlauf. 1986. “Multiple Time Series Regression with Integrated Processes.” Review
of Economic Studies 53:473-95.
------- and Victor Solo. 1992. “Asymptotics for Linear Processes.” Annals of Statistics 20:971-1001.
Sims, Christopher A., James H. Stock, and Mark W. Watson. 1990. “Inference in Linear Time
Series Models with Some Unit Roots.” Econometrica 58:113-44.
Toda, H. Y., and C. B. Phillips. 1993a. “The Spurious Effect of Unit Roots on Exogeneity Tests in
Vector Autoregressions: An Analytical Study.” Journal of Econometrics 59:229-55.
------ and ------. 1993b. “Vector Autoregressions and Causality.” Econometrica forthcoming.
West, Kenneth D. 1988. “Asymptotic Normality, When Regressors Have a Unit Root.” Econometrica
56:1397-1417.

19
Cointegración
Este capítulo es una clase particular fuera de los procesos de la raíz de unidad del vector que se
conocen como procesos centígrados. Tales especificaciones estaban implícitas en los modelos de
“corrección de errores” definidos por Davidson, Hendry, Srba y Yeo (1978). Sin embargo, un
desarrollo formal d elos conceptos claves no llegó hasta el trabajo de Granger (1983) y Engle y
Granger (1987).
La sección 19.1 introduce el concepto de cointegración y desarrolla varias representaciones

alternativas de un sistema cointegrado. La sección 19.2 discute las pruebas de si un proceso
vectorial se cointegra. Estas pruebas se resumen en la tabla 19.1. Los métodos de una sola ecuación
para estimar un vector de cointegración y probar una hipótesis sobre su valor se presentan en la
sección 19.3. La estimación de máxima probabilidad de plena información se discute en el capítulo
20.
19.1. Introducción
Descripcion De Cointegracion
Se dice que una serie 𝑦 de tiempo vectorial (𝑛𝑥1) es cointegrada si cada una de las series
tomadas individualmente es 𝐼(1)es decir, no estacionaria con una raíz unitaria, mientras que alguna
combinación lineal de la serie 𝑎′ 𝑦𝑡 es estacionaria, o 𝐼(0), para algunos no nulos (𝑛𝑥1) vector 𝑎.
Un ejemplo simple de un p roceso vectorial cointegrado es el siguiente sistema bivariado:
𝑦1𝑡 = 𝑦𝑦2𝑡 + 𝑢1𝑡 [19.1.1]
𝑦2𝑡 = 𝑦2,𝑡−1 + 𝑢2𝑡 [19.1.2]
Con 𝑢1𝑡 y 𝑢2𝑡 , procesos de ruido blanco no correlacionados. La representación univariada para
𝑦2𝑡 es una caminata aleatoria,
∆𝑦2𝑡 = 𝑢2𝑡 [19.1.3]
Mientras que la diferenciación [19.1.1] resulta en
∆𝑦1𝑡 = 𝑦∆𝑦2𝑡 + ∆𝑢1𝑡 = 𝑦𝑦2𝑡 + 𝑢1𝑡 − 𝑢1,𝑡−1 [19.1.4]
Recordar de la sección 4.7 que el lado derecho de [19.1.4] tiene una representación MA (1):
∆𝑦1𝑡 = 𝑣𝑡 + 𝜃𝑣𝑡−1 [19.1.5]

2 )
Donde 𝑣𝑡 , es un proceso de ruido blanco y 𝜃 ≠ −1Mientras 𝑦 ≠ 0 y 𝐸(𝑢2𝑡 > 0. Así, tanto y1t, y
y2t, son 𝐼(1) procesos, aunque la combinación lineal (𝑦1𝑡 − 𝑦𝑦2𝑡 ) es estacionario. Por lo tanto,
diríamos que 𝑦𝑡 = (𝑦1𝑡 , 𝑦2𝑡 )′ esta cointegrado con 𝑎′ = (1, −𝑦).
La figura 19.1 muestra una muestra de [19.1.1] y [19.1.21] para 𝑦 = 1y 𝑢1𝑡 y 𝑢2𝑡 independiente
𝑁(0,1) variables. Tenga en cuenta que cualquiera de las series (𝑦1𝑡 𝑜 𝑦2𝑡 ) alejarse arbitrariamente
0 593
del valor de la estrella, aunque 𝑦𝑡 , debe permanecer a una distancia fija de𝑦𝑦2𝑡 , con esta distancia
determinada por la desviación estándar de 𝑢1𝑡 .
Cointegración significa que aunque muchos desarrollos pueden causar cambios permanentes en los
elementos individuales de 𝑦 "hay una relación de equilibrio a largo plazo que une los componentes
individuales, representados por la combinación lineal 𝑎′ 𝑦𝑡 . Un ejemplo de tal sistema es el modelo
de gasto de consumo propuesto por Davidson, Hendry, Srba y Yeo (1978). Sus resultados sugieren
que aunque tanto el consumo como el ingreso presentan una raíz unitaria, a largo plazo el consumo
tiende a ser un consumo aproximado y el logaritmo del ingreso, de modo que la diferencia entre el
logaritmo de consumo y el logaritmo de ingresos parece ser un gasto estacionario proceso.
Otro ejemplo de hipótesis económica que se presta naturalmente a una interpretación de

cointegración es la teoría de la paridad del poder adquisitivo. Esta teoría sostiene que, aparte de los
costos de transporte, los bienes deben venderse por el mismo precio efectivo en dos países. Sea 𝑃𝑡
un índice del nivel de precios en los Estados Unidos (en dólares por bien), 𝑃𝑡∗ .Un índice de precios
para Italia (en liras por producto), y 𝑆𝑡 la tasa de cambio entre las monedas (en dólares por lira).
Entonces, la paridad del poder adquisitivo
𝑃𝑡 = 𝑆𝑡 𝑃𝑡∗
O tomando logaritmos
𝑝𝑡 = 𝑠𝑡 + 𝑝𝑡∗
Donde 𝑝𝑡 ≡ log 𝑃𝑡 , 𝑠𝑡 ≡ log 𝑆𝑡 y 𝑝𝑡∗ ≡ log 𝑃𝑡∗ . En la práctica, los errores en la medición de los
precios, los costos de transporte y las diferencias de calidad impiden que la paridad del poder
adquisitivo se mantenga exactamente en cada fecha 𝑡. Una versión más débil de la hipótesis es que
la variable 𝑧𝑡 , definida por
𝑧𝑡 = 𝑝𝑡 − 𝑠𝑡 − 𝑝𝑡∗ [19.1.6]
FIGURA19.1: Realización de la muestra de las series cointegrantes
es estacionario, aunque los elementos individuales (𝑝𝑡 , 𝑆𝑡 , 𝑜 𝑃𝑡∗ ) son todos I(1). Baillie y Selover
(1987) y Corbae y Ouliaris (1988) han explorado pruebas empíricas de esta versión de la hipótesis
de la paridad del poder puchante.
Se han investigado muchas otras aplicaciones interesantes de la idea de cointegración. Kremers

(1989) sugirió que los gobiernos se ven forzados políticamente a mantener su deuda en un múltiplo
constante del PNB, de modo que el log (deuda) - log (PNB) es estacionario aunque cada
componente no lo sea individualmente. Campbell y Shiller (1988a, b) señalaron que si y2, is 1(1) y y
594 Capítulo 19 | Cointegración

es un pronóstico racional de los valores futuros de y1t entonces y1 y y, Será cointegrada. Otras
aplicaciones interesantes incluyen a King, Plosser, Stock y Watson (1991), Ogaki (1992), Ogaki y
Park (1992) y Clarida (1991).
Se afirmó en el capítulo anterior que si yt es cointegrated, entonces no es a los datos
diferenciados. Ahora verificamos esta afirmación para el ejemplo particular de [19.1.1] y [19.1.2].
Los temas serán discutidos en términos de un sistema general cointegrado que implica n variables
diferentes.
Discusión del ejemplo de [29.1.1] y [19.1.2]
Volviendo al ejemplo de [19.1.1] y [19.1.2], observe que  2 t  u 2 t , Es el error en la

previsión y2t, Sobre la base de valores rezagados de y1 y y2 mientras  2 t  u 2 t  u1t , Es el error en
pronosticar y1t. El lado derecho de [19.1.4] puede escribirse
( u 2t  u1t )  u1.t1  1t ( 1.t1   2.t1 ) ( 1  L )1t  L 2t
Sustituir esto en [19.1.4] y apilarlo en un sistema vectorial junto con [19.1.3] produce la
representación media móvil del vector para (∆𝑦1𝑡 , ∆𝑦2𝑡 )′
y1t  1t 
y    ( L)  , [19.17]
 2t   2t 
donde
1 L L
 ( L)    [19.18]
0 1
Un VAR para los datos diferenciados, si existía, tomaría la forma
( L ) y t   t
 1
Donde e (L) = ( L ) . Pero el polinomio matricial asociado al operador de media móvil para
este proceso, Ilf (z), tiene una raíz en unidad,
(1  1) 
 (1)  0
0 1
Por lo tanto, el operador de la media móvil de la matriz es no reversible, y ninguna autorregresión

vectorial de orden finito podría describir Ayt.
La razón de que un VAR de orden finito en las diferencias proporcione una aproximación pobre al
sistema cointegrado de [19.1.1] y [19.1.2] es que el nivel de y, Contiene información que es útil para
pronosticar y1 más allá de la contenida en un número finito de cambios retardados en y2 solo.
Si estamos dispuestos a modificar el VAR incluyendo los niveles rezagados junto con cambios
retardados, una representación estacionaria similar a un VAR para Ay, es fácil de encontrar.
Recordando u1t 1  y1t 1  y 2.t 1 Si estamos dispuestos a modificar el VAR con los niveles rezagados
junto con los cambios retardados, una representación estacionaria similar a un VAR para Ay, es
fácil de encontrar. Recordando.
y1t   1    y1t 1   yu 2t  y1t 
y    0 0  y    u  [19.19]
 2t     2t 1   2t 
El principio general de que [19.1.9] proporciona una ilustración es que con un sistema cointegrado,
uno debe incluir los niveles rezagados junto con las diferencias rezagadas en un vector

autorregresión explicando Ayt. Los niveles rezagados aparecerán en forma de aquellas
combinaciones lineales de y que son estacionarias.
Caracterización General Del Vector De Cointegración

Recordemos que se dice que un vector (n x 1) y cointegrado si cada uno de sus elementos
es individualmente 1 (1) y si existe un vector a no nulo (n x 1) a tal que a'y, es estacionario. Cuando
este es el caso, a se denomina vector de cointegración.
Evidentemente, el vector de cointegración a no es único, if a'y es estacionario, entonces

también lo es ba'y, Para cualquier escalar no nulo b; Si a es un vector de cointegración, entonces
también es ba. Al hablar del valor del vector de cointegración, debe hacerse una normalización
arbitraria, tal como que el primer elemento de a es la unidad.
Si hay más de dos variables contenidas en y "entonces puede haber dos vectores distintos
de cero (n x 1) a1 y a2 Tal que a1yt Y cualquiera, son ambas estacionarias, donde al a1ytson
linealmente independientes (es decir, no existe un escalar b Tal que a2 = ba1). De hecho, puede
haber vectores h <n linealmente independientes (n x 1) (a1, a„, . , ah) tal que A'y, es un estationarrio
(h x 1) Vector, donde A 'es la siguiente (h x n) matriz1:
a1` 
 `
A`   2 
a
[19.1.10]

 
ah` 
De nuevo, el vector (a1, a2, . . ., ah) No son únicos; Si A'y, es estacionaria, entonces para cualquier
vector no nulo (1 x h) b ', el escalar 13À'y, Es también estacionaria. Entonces el vector (n x 1) 
dada por ' = bÀ`También podría describirse como un vector de cointegración.
Supongamos que existe una matriz (h x n) A 'cuyas filas son linealmente independientes
tales que A'y, es un sstacionario (h x 1) vector. Supongamos además que si e 'es cualquier vector (1
x n) que sea linealmente independiente de las filas de entonces c'y, es un escalar no estacionario.
Entonces decimos que hay exactamente h relaciones cointegrantes entre los elementos de y, y que
(a1, a2,…, ah) Forman una base para el espacio de vectores de cointegración.
Implicaciones De La Cointegración para La Representación Media

Móvil Del Vector
Ahora discutimos las implicaciones generales de la cointegración para la media móvil y las
representaciones vectoriales autorregresivas de un sistema vectorial2. Dado que se supone que y,
esta parado, deja  = E(y,) y definir
ut Ayt - , [19.1.11]
Supongamos que u, tiene la representación de Wold

u t   t  1 t 1  2  t 2  ....  ( L ) t
Donde E (a,) = O y
1Si h = n. Tales vectores linealmente independientes existieron, entonces y, sería por sí mismo 1 (0). Esta claridad se hará
evidente en la representación triangular de un sistema cointegrado desarrollado en [19.1.20] y [19.1.21].
2
Estos resultados fueron derivados primero por Engle y Granger (1987)

 para t 
E (  t t1 ) 
0 otraforma
Sea  (1) denotada por matriz polynomial (n x n)  (z) evaluada en r = 1; que es.
( 1)  In  1   2   3  ...
Primero afirmamos que si A'y, es estacionaria, entonces

A` (1)  0 [19.1.12]
Para verificar esta afirmación, tenga en cuenta que siempre y cuando s. 
s s  0 Es absolutamente
arbitrario, la ecuación de diferencia [19.1.11] implica que
yt  y0   .t  u1  u2  ...  ut
[19.1.13]
 y0  (1) . (1   2  ...   t )  t  0
Donde la última línea se sigue de [18.1.6] para q, un proceso estacionario. Pre multiplicando
[19.1.13] por A 'resulta en
A`yt  A`( y0 o)  A`yt  A` (1) (1   2  ...   t )  A`t [19.1.14]
´`
si E(t,  t ) es no singular, entonces + 2 + … + t ) Es I (1) para cada vector no es cero (n x 1) c.
Sin embargo, para que y, para ser cointegrado con vectores dados por las filas de A ', la expresión
[19.1.14] se requiere para ser stationarv. Esto podría ocurrir sólo si A´(1) = O. Así [19.1.12) Es
una condición necesaria para la cointegración, tal como está claro.
Tal como lo subrayan Engle y Yoo (1987) y Ogaki y Park (1992), la condición [19.1.12] no es por sí
sola suficiente para asegurar que A'y, es estacionaria. De [19.1.14], la estacionariedad requiere
además que
A' = 0. [19.1.15]
Si alguna de las series presenta una deriva no nula (8 O), entonces, a menos que la deriva a través
de la serie satisfaga la restricción de [19.1.15], la combinación lineal A 'yt crecerá de forma
determinista a una velocidad A’yt. Por lo tanto, si la hipótesis subyacente que sugiere la posibilidad
de cointegración es que ciertas combinaciones lineales de y, son estables, esto requiere que ambos
[19.1.12 y [19.1.15] mantengan.
`
Obsérvese que [19.1.12] implica que ciertas combinaciones lineales de las filas de  (1), como a 1 
(1), Son cero, considerando que el determinante (z)  = 0 at z = 1. Esto a su vez significa que el
operador de matriz (L) Es no reversible. Así. Un sistema cointegrado nunca puede ser
representado por una auto-regresión vectorial de orden finito en los datos diferenciados yt.
Para el ejemplo de [19.1.1] y [19.1.2], vimos en [19.1.7] y [19.1.8] que
1  z z
( z)   
 0 1

0  
( 1)   
 0 1
Esta es una matriz singular con A'(1) = 0 de A' = [1 – ].
Representación Triangular De Phillips

Otra representación conveniente para un sistema cointegrado fue introducida por Phillips (1991).
Supongamos que las filas (ℎ𝑥𝑛) de la matriz 𝐴′ forman una base para el espacio de los vectores de
cointegración. Si el elemento (1,1) de 𝐴′ es distinto de cero, podemos convenientemente
normalizarlo a unidad. Si, en cambio, el elemento (1,1) de 𝐴′ es cero, podemos reordenar los
elementos de 𝑦𝑡 , de manera que 𝑦1𝑡 está incluido en la primera relación de cointegración. Por lo
tanto, sin pérdida de generalidad tomamos:
𝑎1′
1 𝑎12 𝑎12 ...𝑎1𝑛
𝑎2′
𝑎21 𝑎22 𝑎23 ......𝑎2𝑛
𝐴′ = .. = .. .. .. ... ..
. . . ... .
. [𝑎 𝑎ℎ2 𝑎ℎ3 ... 𝑎 ℎ𝑛 ]
ℎ1
[𝑎ℎ′ ]
Si 𝑎21 veces la primera fila de 𝐴′ se resta de la segunda fila, la fila resultante es un nuevo vector de
cointegración que es todavía linealmente independiente de 𝑎1 , 𝑎3 , … 𝑎𝑛 3. Del mismo modo
podemos sustraer 𝑎31 veces la primera fila de 𝐴′ de la tercera fila, y 𝑎ℎ1 veces la primera fila de la
fila ℎ𝑡ℎ deducir que las filas de la siguiente matriz también constituyen una base para el espacio de
los vectores de cointegración:
1 𝑎12 𝑎13 ...𝑎1𝑛

∗ ∗ ∗
. 𝑎22 𝑎23 ...𝑎2𝑛
𝐴1′ = .. .. .. ...... ..
0 . . ... .
∗ ∗ ...𝑎 ∗
[0 𝑎ℎ2 𝑎 ℎ3 ℎ𝑛 ]
Luego, supongamos que 𝑎22 no nulo; 𝑎22 = 0, podemos cambiar de nuevo 𝑦2𝑡 con alguna
variable 𝑦3𝑡 , 𝑦4𝑡 , … 𝑦𝑛𝑡 que aparece en la segunda relación de cointegración. Divida la segunda fila
de𝐴1′ por 𝑎22 . La fila resultante se puede multiplicar por 𝑎12 y se restan de la primera fila.
∗ ∗
Similarmente, 𝑎32 veces la segunda fila de 𝐴1′ se puede sustraer de la tercera fila, y 𝑎ℎ2 veces la
3
Dado que el primer y segundo momentos del vector (ℎ𝑥1)
𝑎1′
𝑎2′
. 𝑦
.. 𝑡
[𝑎ℎ′ ]
No dependen del tiempo, tampoco los primeros y segundos momentos de
𝑎1′
𝑎2′ − 𝑎21 𝑎1′
. 𝑦𝑡
..
[ 𝑎ℎ′ ]
Además 𝑎1 , 𝑎2 , … 𝑎ℎ son linealmente independientes significa que ninguna combinación lineal de 𝑎1 , 𝑎2 , … 𝑎ℎ es cero, por lo que no
hay una combinación lineal de 𝑎1 𝑎2 − 𝑎21 𝑎1 … 𝑎ℎ puede ser cero tampoco. Por lo tanto 𝑎1 𝑎2 − 𝑎21 𝑎1 … 𝑎ℎ también constituyen una
base para el espacio de cointegrar vectores.

segunda fila se puede sustraer de la ℎ-ésima. Por lo tanto, el espacio de los vectores de
cointegración también puede ser representado por:
∗∗ ... ∗∗
1 0 𝑎13 𝑎1𝑛
∗∗ ... ∗∗
0 1 𝑎23 ...𝑎2𝑛
𝐴′2 = .. .. .. ... ..
. . . ... .
[0 ∗
𝑎ℎ2 𝑎 ∗∗ ...𝑎∗∗ ]
ℎ3 ℎ𝑛
Procediendo a través de cada una de las h filas de A 'de esta manera, se sigue que dado cualquier (nx
1) vector y, que se caracteriza por e xactly h cointegrating relaciones, es posible ordenar las variables
(y1t, y2t .........., Y nt) de tal manera que las relaciones de cointegración puedan ser presentadas por
una matriz (hxn) A 'de la forma
1 0 … 0 −𝑦1.ℎ+1 −𝑦1.ℎ+2 … − 𝑦1.ℎ+1

0 1 … 0 −𝑦2.ℎ+1 −𝑦2.ℎ+2 … − 𝑦1.ℎ+1
A = .. .. … . .
… . .. .. . [19.1.16]
. . … . . . .
[0 0 … 1 −𝑦1.ℎ+1 −𝑦ℎ.ℎ+2 … − 𝑦.ℎ.𝑛 ]
= [Ih – r’],
Donde I 'es una matriz (h x g) de coeficientes para g ≡ n - h. Sea z, denotan los residuos asociados
con el conjunto de relaciones de cointegración:
Zt ≡ A’ yt° [19.1.17]
(hx1)
Puesto que z, es estacionaria, la media 𝜇1∗ ≡ E (zt) existe, y podemos definir
𝑧1∗ ≡ zt - 𝜇1∗ [19.1.18]

Partición y, como
𝑦𝑙𝑡
𝑦𝑡 (ℎ𝑥1)
(𝑛𝑥1) = [ 𝑦 ] [19.1.19]
2𝑡
(𝑔𝑥1)
Sustituyendo [19.1.16], [19.1.18], y [19.1.19] en [19.1.17] resulta en:
𝑦1𝑡
𝑧1∗ + 𝜇1∗ = [Ih - r’] [𝑦 ]
2𝑡
𝑦𝑡 𝑟′ 𝑦2𝑡 𝜇1∗ 𝑧1∗

(ℎ𝑥1) = . + + [19.1.20]
(ℎ𝑥𝑔) (𝑔𝑥1) (ℎ𝑥1) (ℎ𝑥1)
Una representación para 𝑦2𝑡 está dada por las últimas líneas de g de [19.1.11]:
∆𝑦2𝑡 𝛿2 µ2𝑡
= + (𝑔𝑥1) [19.1.21]
(𝑔𝑥1) (𝑔𝑥1)
Donde 𝛿2 y µ2𝑡 Representan los últimos g elementos de la (n x 1) vectores 𝛿 y µ𝑡

respectivamente. Ecuaciones [19.1.20] y [19.1.21] constituye Philips (1991) representación triangular
de un sistema con exactamente h relaciones cointegrantes. Tenga en cuenta que 𝑧1∗ y µ2𝑡
representan media nula de perturbaciones estacionarias en esta representación.
Si un vector y, se caracteriza por h exactamente cointegrando relaciones con las variables ordenadas

de modo que [19.1.20] y [19.1.21] espera el (g x 1) vector 𝑦2𝑡 es I (1). Sin relaciones de
cointegración. Para verificar esta última afirmación, observe que si alguna combinación lineal c’𝑦2𝑡
estaban estacionarias, esto significaría que (0 ', c') Y, sería estacionario o que (0 ', c') sería un vector
de cointegración para 𝑦𝑡 . Para (0’, c’) es linealmente independiente de las filas de A' en [19.1.16], y
por la suposición de que las filas de A 'constituyen una base para el espacio de los vectores
cointegrantes, la combinación lineal (0’, c’) y, no puede estar parado.
Expresiones [19.1.1] y [19.1.2] son un ejemplo simple de un sistema cointegrado expresado en

triangular. Para el ejemplo de paridad del poder adquisitivo.
En [19.1.6], la representación triangular sería
𝑝𝑡 = 𝑦1 𝑆1 + 𝑦2 𝑝1∗ + µ2𝑡 + 𝑧1∗

∆𝑆1 = 𝛿1 + µ𝑠𝑡
∆ 𝑝1∗ = 𝛿𝑝° + µ𝑝°.𝑡′
Donde los valores hipotéticos son 𝑦1 = 𝑦2 = 1
La Representación De Las Tendencias Comunes De Stock - Watson
Otra representación útil para cualquier sistema cointegrado fue propuesta por Stock y
Watson (1988). Supongamos que un vector (nx1) y, se caracteriza por h exactamente cointegrando
las relaciones con g ≡ n - h. Hemos visto que es posible ordenar los elementos de y, de tal manera
que una representación triangular de la forma de [19.1.21] y [19.1.21] existe con ( 𝑧1∗ ′ , 𝑧2𝑡
∗
)’
Un vector estacionario (nx1) con media cero. Suponer que:
∗
𝑧∗ 𝐻𝜀
[ 1] = ∑ [ 𝑠 𝑡−𝑠 ]
µ2𝑡 𝐽𝜀
𝑠 = 0 𝑠 𝑡−𝑠
para 𝜀𝑡 un (n x 1) proceso de ruido blanco {s∙ 𝐽𝑡 }∗𝑥=0
Secuencias absolutamente sumables de matrices (hxn) y (gxn), respectivamente. Adaptar el

resultado en [18.1.6, ecuación [19.1.21] implica que
𝑡
𝑦2𝑡 = 𝑦2.0 + 𝛿2 ∙ 𝑡 + ∑ µ2𝑡
𝑠=1
= 𝑦2.0 + 𝛿2 ∙ 𝑡 + J (1) ∙ (𝜀1 + 𝜀2 + …+ 𝜀𝑡 ) + 𝜂2𝑡 − 𝑛20, [19.1.22]
Donde J (1) ≡ 𝐽0 + 𝐽1 + 𝐽2 + … ), 𝜂2𝑡 ≡ ∑∗𝑠=0 ∝2𝑠 𝜀𝑡−𝑠 , y ∝2𝑠 ≡ - 𝐽𝑠+1 + 𝐽3+2 +

𝐽𝑠+3 + … . . ). Dado que el vector (n x 1) 𝜀𝑡 es ruido blanco, el (g x 1) vector J(1) ∙ 𝜀𝑡 es
también Ruido Blanco, impidiendo que cada elemento del vector (g x 1) 𝜉2𝑡
definido por
𝜉2𝑡 = J(1) ∙ (𝜀1 + 𝜀2 + ….+ 𝜀𝑡 ) [19.1.23]
Se describe por una caminata aleatoria.

Sustituyendo [19.1.23] en [19.1.22] resultados en
𝑦2𝑡 = µ2 + 𝛿2 ∙ t + 𝜉2𝑡 + 𝜂2𝑡 [19.1.24]
Para µ2 ≡ (𝑦2𝑡 - 𝜂2.0 ). sustituyendo [19.1.24] dentro [19.1.20] produce
𝑦1𝑡 = µ1 + r’ (𝛿2 ∙ t + 𝜉2𝑡 ) + 𝜂1𝑡

[19.1.25]
Para µ1 ≡ r µ2 y 𝜂1𝑡 ≡ 𝑧1∗ + r’ 𝜂2𝑡
Ecuaciones [19.1.24] y [19.1.25] dan a las acciones y la representación de las tendencias comunes
de Watson (1988). Estas ecuaciones muestran que el vector 𝑦𝑡 puede describirse como un
componente estacionario,
µ1 µ1𝑡
[µ ] + [µ ],
2 2𝑡
Más combinaciones lineales de hasta g tendencias deterministas comunes, como se describe por el
vector (g x 1) vector 𝛿2 ∙ 𝑡, y combinaciones lineales de g variables de caminata aleatoria común
como se describe por (g x 1) el vector 𝜉2𝑡
Implicación De La Cointegración Para La Representación Vectorial

Autorregresiva
Aunque un VAR en las diferencias no es coherente con un sistema cointegrado un VAR en
los niveles de ser. Supongamos que el nivel de y, puede ser representado como una autorregresión
no-estacionaria del vector de orden p:
y𝑡 = α + Φ1 y𝑡−1 + Φ2 y𝑡−1 + ….Φ𝑝 y𝑡−𝑝 + ε𝑡 , [19.1.26]

o
Φ (L)y𝑡 = α + ε𝑡 , [19.1.27]
Donde
Φ (L) ≡ I𝑛 - Φ1 𝐿 − Φ2 𝐿2 - … - Φ𝑃 𝐿𝑃 . [19.1.28]
Suponga que ∆𝑦, tiene la representación wold
(1 – L) 𝑦𝑡 = δ + 𝜓 (L)ε𝑡° [19.1.29]
Pre multiplicación [19.1.29] por Φ1 (L) resultando en
(1 – L) Φ (L) 𝑦𝑡 = Φ(1)δ + Φ(L)ε𝑡° [19.1.30]
Sustituyendo [19.1.27] en [19.1.30], tenemos
(1 – L)ε𝑡 = Φ (1)δ + Φ(L)ε𝑡, [19.1.31]
Ya que (1 – L) α = 0. Ahora la ecuación [19.1.31]para todas las realizaciones de ε𝑡° que requiere
que
Φ (1) δ = 0 [19.1.32]
Y que (1-L) I𝑛 y Φ (L) 𝜓 (L) representa los polinomios idénticos en L. Esto significa que

(1 – z )I𝑛 =Φ (z) 𝜓 (z) [19.1.33]
Para todos los valores de z. en particular, para z = 1, ecuación [19.1.33] implica que
Φ (1) 𝜓 (1) = 0 [19.1.34]
Dejar 𝜋’ denotar cualquier fila de Φ (1). Entonces [19.1.34] y [19.1.32] establece que 𝜋’ 𝜓 (1) = 0’ y
𝜋’ δ = 0. Recordando [19.1.12] y [19.1.15], esto significa que 𝜋 es un vector de cointegración. Si a1 ,
a2 ……, aℎ constituyen una base para el espacio de los vectores cointegrantes, entonces debe ser
posible expresar 𝜋como una combinación lineal dea1 , a2 ,….., aℎ , -- es decir, que existe un (h x 1)
Vector b tal que
𝜋 = [a1 , a2 ,…..,aℎ ]𝑏
n’ = b’ A’
para A’ la (h x n) matriz con la misma fila es a′𝑖 . Aplicando este razonamiento a cada una de las filas
de Φ (1), Se deduce que existe una matriz (n x h) B tal que
Φ(1) = BA’ [19.1.35]
Tenga en cuenta que [19.1.34] implica que Φ (1) es un singular (n x n ) matriz – lineal combinación
de columna de Φ(1) o de forma Φ (1) x es cero para x cualquier columna de 𝜓 (1). Así el
determinante | Φ (z) contiene una raíz unitaria:
| I𝑛 - Φ1 𝑧1 - Φ2 𝑧 2 - …….. - Φ𝑝 𝑧 𝑝 | = 0 at z = 1
De hecho, a la luz de la evolución de las tendencias [19.1.24] y [19.1.25], Podríamos decir eso Φ (z)
contiene g = n – h raíces unitarias.
Error - Representación de la corrección

Una representación final para un sistema cointegrado se obtiene recordando de la ecuación
[18.2.5] que cualquier VAR en forma de [19.1.26] se puede escribir de manera equivalente como
y𝑡 = ξ1 Δy𝑡−1 + Δy𝑡−2 + ……… ξ𝑝−1 Δy𝑡−𝑝+1 + α + py𝑡−1 + ε𝑡° [19.1.36]

Donde
p ≡ Φ1 + Φ2 +….. Φ𝑝 [19.1.37]
ξ0 ≡ [ Φ𝑠−1 + Φ𝑠−2 +….. Φ𝑝 ] para s = 1, 2, ……p -1. [19.1.38]
Restando y1−1 de ambos lados de[19.1.36] produce
Δy𝑡 = ξ1 Δy𝑡−1 + ξ2 Δy𝑡−2 + ….. + ξ𝑝−1 Δy𝑡−𝑝+1 + α + ξ0 y𝑡−1 + ε𝑡,

[19.1.39]
Donde
ξ0 ≡ 𝑝 - I𝑛 = - (I𝑛 - Φ1 - Φ2 - … - Φ𝑝 ) = - Φ (1).
[19.1.40]
Obsérvese que si y tiene h relaciones de cointegración, la sustitución de [19.1.35] y [19.1.40] en

[19.1.39] resultando en
Δy𝑡 = ξ1 Δy𝑡−1 + ξ2 Δy𝑡−2 + ….. + ξ𝑝−1 Δy𝑡−𝑝+1 – BA’ y𝑡−1 + ε𝑡°, [19.1.41]

Define z𝑡 ≡ 𝐴′y𝑡 , notando que z, es una estacionaria (h x 1) vector. Entonces [19.1.41] puede
escribirse
Δy𝑡 = ξ1 Δy𝑡−1 + ξ2 Δy𝑡−2 + ….. + ξ𝑝−1 Δy𝑡−𝑝+1 + α – Bz𝑡−1 ε𝑡°, [19.1.42]
Expresión se conoce como la representación de corrección de errores del sistema cointegrado. Por
ejemplo, la primera ecuación toma la forma
(1) (1) (1)

Δy1𝑡 = ξ(11) Δy1.𝑡−1 + ξ(12) Δy2.𝑡−1 + ….+ξ(1𝑛) Δy𝑛.𝑡−1
(2) (2) (2)

+ ξ(11) Δy1.𝑡−2 + ξ(12) Δy2.𝑡−2 + ….+ξ(1𝑛) Δy𝑛.𝑡−2 + …
(𝑝−1) (𝑝−1) (𝑝−1)

+ ξ(11) Δy1.𝑡−𝑝+1 + ξ(12) Δy2.𝑡−𝑝+1 + ….+ξ(1𝑛) Δy𝑛.𝑡−𝑝+1
+ 𝛼1 - 𝑏11 𝑧1.𝑟−1 - 𝑏12 𝑧2.𝑟−1 - …..-𝑏1ℎ 𝑧ℎ.𝑡−1 + ε1𝑟 ,

(𝑠)
Donde ξ𝑖𝑗 se indica la fila i, columna j elemento de la matriz, ξ′𝑠 ,b′𝑖𝑓 indica la ruta i columna j
elemento de la matriz B, y𝑧𝑖𝑡 representa el elemento de. en el formulario de corrección de errores,
los cambios en cada variable son registrados en límites constantes (p - 1) de los cambios propios de
la variable, (p - 1) lugares de cambios en cada una de las otras variables y los niveles de cada uno de
h elementos de 𝑧𝑡−1.
Por ejemplo, recordar de [19.1.9] que el sistema de [19.1.11] y [19.1.2] se puede escribir en la forma
Δy −1 𝛾 y1.𝑡−1 𝛾𝑢2.𝑡 + 𝑢1𝑡

[ 1𝑡 ] = [ ] [y ] + [ 𝑢 ]
Δy1𝑡 0 0 2.𝑡−1 2𝑡
Tenga en cuenta que este es un caso especial de [19.1.39] con p = 1

−1 𝛾
ξ′0 = [ ] ,
0 0
ε1𝑡 = 𝛾𝑢2𝑡 + 𝑢1𝑡 ε2𝑡 = u2𝑡 , y todos los demás parámetros en [19.1.39] igual a cero.
Davidson, Hendry, Srba y Yeo (1978), propusieron una interpretación económica de una
representación de corrección de errores, que examinó una relación entre el logaritmo del gasto de
consumo (denotado c) y el logaritmo del ingreso (y) de la forma
(1 — L4)ct = Pi.(1 L4)Yt + 132(1 L4)Y,- + P3(c,--4 [19.1.43]
Esta ecuación se ajustó a los datos trimestrales, de modo que (1 - 𝐿4 ) c, denota la variación
porcentual del consumo sobre su valor en el trimestre comparable del año anterior. Los autores
argumentaron que las diferencias estacionales (1 - 𝐿4 ) proporcionaban una mejor descripción de
los datos que las simples diferencias trimestrales (1 - L). Su afirmación era que el consumo
diferenciado estacionalmente (1 - 𝐿4 ) c, no podía ser descifrado usando sólo sus propios retrasos
o los de las diferencias estacionalmente diferenciadas. Además de estos factores, [19.1.43] incluye
el término "corrección de errores" P3 (Ct-4 Y r-4) • Se podría argumentar que existe una razón
media histórica de consumo a ingreso, en la que Caso la diferencia entre los log de consumo y de
ingreso, c, -y "sería una variable aleatoria estacionaria, aun cuando el consumo de log o el ingreso
de registro visto por sí mismo exhibe una raíz unitaria. Para p3 <0, la ecuación [19.1.43] afirma
que si el consumo hubiera sido previamente una proporción mayor que la normal del ingreso (de
modo que c, _4 - y, _4 es mayor que lo normal), entonces esto hace que c, sea Menor para
cualquier valor dado de las otras variables explicativas. El término (c, _4 - y, _4) es visto como el
"error" de la relación de equilibrio de largo plazo, y P3 da la "corrección" a c, causada por este
error

Restricciones Sobre El Término Constante En La Representación Var
Observe que todas las variables que aparecen en la representación de corrección de errores [19.1.42]
son estacionarias. Tomando las expectativas de ambos lados de esa ecuación resulta en
(I. — ti — g2 — • ' • — gp-1)6 = a — [19.1.44]
Están fuera del círculo unitario, la matriz (In - t, - g2 - • • - tp _) es no singular. Por lo tanto, para
representar un sistema en el que no hay deriva en ninguna de las variables (8 = 0), tendríamos que
imponer la restricción.
a = 13,4 . [19.1.45].
En ausencia de cualquier restricción sobre a, el sistema de [19.1.42] implica que hay g tendencias de
tiempo separadas que explican la tendencia en el año
Teorema De Representación De Granger

Por conveniencia, algunos de los resultados anteriores se resumen ahora en la forma de una
proposición.
Proposición 19.1: (Teorema de representación de Granger). Considere un vector (𝑛𝑥1) y, donde

𝐴𝑦 , satisface [19.1.29] para Et ruido blanco con matriz de varianza-covarianza definida positiva y
{𝑠. 𝛹𝑠 }𝑠 ∞ es absolutamente sumable. Supongamos que hay exactamente h relaciones cointegrantes
entre los elementos de y ,. Entonces existe una matriz (ℎ𝑥𝑛) A 'cuyas filas son linealmente
independientes de tal manera que el vector (h x 1) z, definido por
𝑍𝑡 ≡ 𝐴′ 𝑦𝑡
Es estacionario. La matriz A 'tiene la propiedad de:
𝐴′ 𝛹(1) = 0
Si, además, el proceso puede representarse como VAR de orden P en niveles como en la ecuación
[19.1.26], entonces existe una matriz (𝑛𝑥ℎ)B tal que
𝜙(1) = 𝐵𝐴′
Y existen además (𝑛𝑥𝑛) matrices 𝜁1 𝜁2 , … , 𝜁𝑝−1 tales como:
∆𝑦𝑡 = 𝜁1 ∆𝑦𝑡−1 + 𝜁2 ∆𝑦𝑡−2 + … + 𝜁𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝛼 − 𝐵𝑧𝑡−1 + 𝜀𝑡
19.2. La Prueba De La Hipótesis Nula De No Integración

En esta sección se analizan las pruebas de cointegración. El enfoque será probar En esta sección se
analiza las pruebas de coientegracion el enfoque será probar la hipótesis nula de que no hay
cointegracion entre los elementos de un (𝑛𝑥1) vector 𝑦𝑡 ; el rechazo nulo se toma entonces como
evidencia de cointegracion
Prueba De Cointegración Cuando Se Conoce El Vector Cointegrando

A menudo cuando las consideraciones teóricas sugieren que ciertas variables serán
cointegradas, o que 𝑎′ 𝑦, es estacionaria para algún (n x 1) vector de cointegración a, la teoría se
basa en un valor conocido particular para a. En el ejemplo de paridad de poder adquisitivo [19.1.6],

𝑎 = (1, −1, −1) ′. La hipótesis de Davidson, Hendry, Srba y Yeo (1978) de que el consumo es
una fracción estable de ingresos implica un vector co-integrador de 𝑎 = (1, −1)′, como lo hizo la
aserción de Kremers (1989) que la deuda pública es múltiplo estable del PNB
Si la hipótesis nula de "𝑍", es 𝐼(1), es rechazada, nosotros concluiríamos que 𝑍𝑡 = 𝑎′ 𝑦𝑡 es

estacionaria, o que "𝑦", es cointegrada con el vector de cointegracion "𝑎". La hipótesis nula de "𝑍",
es 𝐼(1), se puede probar usando cualquiera de los enfoques en capítulo 17.
FIGURA 19.2: 100 veces el registro del nivel deprecios en EEUU (𝑝𝑡 ), tipo de cambio dólar – lira
(𝑆𝑡 ), y el nivel de precios en Italia (𝑝𝑡∗ ), mensualmente 1973-89, Clave: …𝑝𝑡… 𝑆𝑡… 𝑝𝑡∗
Por ejemplo, FIGURA 19.2. Traza datos mensuales desde1973: a 1989:10 para los índices de
precios al consumidor de los Estados Unidos (𝑝𝑡 ) e Italia (𝑝𝑡∗ ).
Junto con el tipo de cambio (𝑆𝑡 ), donde 𝑆𝑡 , es en términos del numero de dólares de EEUU
necesitaba para comprar una lira de Italia. Los registros naturales de los datos brutos tomados y
multiplicados por 100, y el valor inicial para 1973:1 fue el restado (la formula), como en:
𝑝𝑡 = 100[log(𝑝𝑡 ) − log(𝑝1973:1 )]
El propósito de sustentar el constante log (𝑃1973:1) de cada observación es normalizar cada serie
para que será cero (0) para 1973:1 de modo que la grafica sea más fácil de leer. Multiplicando el log
por 100 significa que “p” es aproximadamente la diferencia porcentual ente 𝑃𝑡 y su valor inicial
𝑃1973:1.
La figura 19.3 Trama el tipo de cambio real
𝑍𝑡 ≡ 𝑃𝑡 − 𝑆𝑡 − 𝑃𝑡∗
Parece que las tendencias son eliminadas por esta transformación, aunque las desviaciones del tipo
de cambio real de su media histórica pueden persistir durante varios años.
19.2 La Prueba De La Hipótesis Nula De No Integración 605

Para probar la cointegracion, verificamos primero que 𝑃𝑡 , 𝑃𝑡∗ 𝑦 𝑆𝑡 son individualmente cada uno
𝐼(1).
Ciertamente, anticipamos que la tasa de inflación es positiva, (𝐸(∆𝑃𝑡 ) > 0), de modo que la
hipótesis nula es que 𝑃𝑡 , es un proceso de raíz unitaria con derivada positiva, mientras que la
alternativa es 𝑃𝑡 es estacionaria alrededor de una tendencia temporal determinista. Con los datos
mensuales es una buena idea incluir al menos doce retrasos en la regresión. Por lo tanto, el modelo
siguiente fue estimado por MCO para los datos de EEUU para 𝑡 = 1974: 2.
FIGURA 19.3: E tipo de cambio dólar-lira real, mensual, 1973-89
Mediante 1989:10 (error estándar entre paréntesis)
𝑝𝑡 = 0.55∆𝑝𝑡−1 − 0.06∆𝑝𝑡−2 + 0.07∆𝑝𝑡−3 + 0.06∆𝑝𝑡−4
(0.08) (0.09) (0.06) (0.08)
−0.08∆𝑝𝑡−5 − 0.05∆𝑝𝑡−6 + 0.17∆𝑝𝑡−7 − 0.07∆𝑝𝑡−8
(0.08) (0.07) (0.07) (0.07)
+0.24∆𝑝𝑡−9 − 0.11∆𝑝𝑡−10 + 0.12∆𝑝𝑡−11 + 0.05∆𝑝𝑡−12
(0.07) (0.07) (0.07) (0.07)
+0.14 + 0.99400∆𝑝𝑡−1 + 0.0029𝑡
(0.09 (0.00307) (0.0018) [19.2.1]
El estadístico t para probar la hipótesis nula de que p (el coeficiente de pti) es unidad es

Comparando esto con el valor crítico del 5% de la sección caso 4 de la tabla B.6 para un tamaño
simple de T = 189, vemos que -1,95> -3,44. Por lo tanto, se acepta la hipótesis nula de una raíz
unitaria. El test F de la hipótesis nula conjunta que p = 1 y g = 0 (para p el coeficiente en pt-1 yb el
coeficiente en la tendencia temporal) es de 2,41 comparando esto con el valor crítico de 6,40 de la
sección caso 4 En la tabla B.7 se acepta nuevamente la hipótesis nula, confirmando además la
impresión de que los precios estadounidenses siguen un proceso de raíz unitaria con derivada
Si 𝑝𝑦 en (19.2.1) es reemplazado por 𝑝𝑡 , la prueba aumentada dickey-fuller t y F se calculan como -

0.13 y 4.25 respectivamente, de modo que la hipótesis nula de que el nivel de precios italiano sigue
un proceso I (1) es de nuevo aceptado. Cuando pt en (19.2.1.) Es reemplazado por st el test t y F
son -1.58 y 1.49 de modo que el tipo de cambio también admite una representación ARIMA
(12.1.0). Por lo que cada una de las tres series individualmente podría razonablemente describirse
como un proceso de raíz unitaria con deriva.
El siguiente paso es comprobar si zt = pt-s1-pt es estacionario. Según la teoría, no debería haber

ninguna tendencia en zt y ninguna aparece evidente en la figura 19.3, por lo que podría usarse la
prueba aumentada de Dickey-Fuller sin tendencia. Las siguientes estimaciones fueron obtenidas por
MCO:
El siguiente paso es probar si 2s = 12i – Si - p7 es estacionario. Según la teoría, no debe haber

ninguna tendencia en Zi, y ninguna aparece evidente en la Figura 19.3. Por lo tanto, el aumento de
Dickey-Fuller prueba sin tendencia podría ser utilizado. Las siguientes estimaciones fueron
obtenidas por OLS:
Z, = 0.32 AZ, _1- 0.01 AZ, _2+ 0.01 AZi_3+ 0.02 AZ,4
(0.07) (0.08) (0.08) (0.08)
+ 0.08 AZ, _5- 0.00 AZ, _6+ 0.03 AZ, _7 + 0.08 O2, 8 AZ, _8
(0.08) (0.08) (0.08) (0.08) [19.2.2]
- 0.05 AZ, _9+ 0.08 AZ, _10+ 0.05 AZ, _11 - 0.01 bai_12
(0.08) (0.08) (0.08) (0.08)
+ 0.00 + 0.97124 Zj-1
(0.18) (0.01410)
Aquí la prueba de Dickey-Fuller t aumentada es

t = (0.97124 - 1.0)40.01410) = -2.04.
Comparando esto con el valor crítico del 5% para el caso 2 de la Tabla B.6, vemos que -2,04> -
2,88, por lo que la hipótesis nula de una raíz unitaria es aceptada. La prueba F de la hipótesis nula
conjunta de que p = 1 y que el término constante es cero es 2.19 <4.66, lo que es aceptado
nuevamente. Por lo tanto, podríamos aceptar la hipótesis nula de que las series no están
cointegradas.
Alternativamente, la hipótesis nula de que; Es no estacionario podría ser probado usando las
pruebas de Phillips-Perron. La estimación de OLS
ZI= -0.030 + 0.98654 2.1_1 +𝑢𝑡
(0.178) ( 0.01275)
La prueba Phillips-Perron Z ,, es entonces
2
𝑍𝑝 = 𝑇(𝜌̂ − 1) − 12{𝑇. 𝜎̂𝑝̂ ÷ 𝑠} (𝜆̂2 − 𝑐̂0 )
= (201) (0.98654 - 1)
1
− 2 {(201)(0.01275) + (2.49116)}2 (13.031 − 6.144)
= -6.35.
Desde - 6.35> -13.9, la hipótesis nula de no cointegración es nuevamente aceptada. Del mismo
modo, la prueba Phillips-Perron Z:

1/2 1
𝑍𝑡 = (𝐶̂0 /𝜆̂2 ) (𝜌̂ − 1)/𝜎̂𝜌 − {𝑇. 𝜎̂𝜌 ÷ 𝑆}(𝜆̂2 − 𝐶̂0 )/𝜆̂
2
= (6.144/13.031)1/2 (0.98654 − 1)/(0.01275)
1
− {(201)(0.01275) ÷ (2.49116)}(13.031 − 6.144)/(13.031)1/2
2
= - 1.71
Que, dado que -1.71> -2.88, da la misma conclusión que la otra prueba.
Claramente, los comentarios sobre la equivalencia observacional de los procesos 𝐼(0) y 𝐼(1)
también son aplicables a las pruebas de cointegracion. Existen representaciones 𝐼(0) y 𝐼(1) que
perfectamente describen los datos observados para 𝑧𝑡 representados en la figura 19.3. Otra manera
de describir los resultados es calcular cuánto tiempo es probable que una desviación de la paridad
del poder adquisitivo persista. La regresión de [19.2.2] implica una autoregresion en niveles de la
forma:
𝑍𝑡 = 𝛼 + 𝜙1 𝑍𝑡−1 + 𝜙2 𝑍𝑡−2 + … + 𝜙13 𝑍𝑡−13 + 𝜀𝑡
Por la cual la función impulso – respuesta:

𝜕𝑍𝑡+𝑗
𝜓𝑗 =
𝜕𝜀𝑡
Puede calcularse utilizando los métodos descritos en el capítulo 1. La figura 19.4 representa los
coeficientes de impulso – respuesta estimada en función de j. Un aumento inesperado de 𝑧𝑡 nos
haría revisar hacia arriba nuestra proyección de 𝑍𝑡+𝑗 en un 25% incluso en 3 años . Por lo tanto,
cualquier fuerza que restablezca 𝑧𝑡 a su valor histórico debe operar con relativa lentitud. La misma
conclusión pudo haber sido su norma histórica, puede persistir por un número de años.
Estimación Del Vector De Cointegración

Si el modelo teórico de la dinámica del sistema no sugiere un valor particular para el vector de
cointegración a, entonces un enfoque para probar la cointegración es primero para estimar a por
MCO. Para ver por qué esto produce una estimación inicial razonable.
FIGURA 19.4 Función de respuesta de impulso para el tipo de cambio dólar-lira real. El gráfico
muestra j  ( pt  j  st  j  p *t  j ) / t , en función de j.

Tenga en cuenta que si zt  a ' y es estacionario y ergódico para los segundos momentos, entonces
T T p
T 1  z1  T 1  (a ' yt )2  E ( zt2 )
2
[19.2.3]
t 1 t 1
Por el contrario, si a no es un vector de cointegración, entonces zt  a ' y es I(1) y así, a partir

del resultado (h) de la Proposición 17.3,
T L
T  2  (a ' yt )2  2 .  [W (r )]2 dr
1
[19.2.4]
0
t 1
Donde W(r) es un movimiento browniano estándar λ es un parámetro determinado por las

autocovariancias de zt  a
'
y . Por lo tanto, si a no es un vector de cointegración, la estadística en
[19.2.3] diverge a + = ∞.
Esto sugiere que podemos obtener una estimación consistente de un vector de cointegración
eligiendo a para minimizar [19.2.3] sujeto a alguna condición de normalización en a. De hecho, un
estimador de este tipo resulta ser superconsistente, convergiendo a la tasa T en lugar de T1/2.
Si se sabe con certeza que el vector de cointegración tiene un coeficiente no nulo para el primer
elemento de y, ( a1  0 ), entonces una normalización particularmente convenienteEs establecer
a1  1 y representar entradas posteriores de a (a2, a3……,an) como el Negativos de un conjunto de
parámetros desconocidos ( 2 ,  3 ,.......,  n )
a1  1 
a    
 2  2
 a3     3  [19.2.5]
   
.  . 
a n    n 
 
En este caso, el objetivo es elegir ( 2 ,  3 ,.......,  n ) para minimizar

T T
T 1  (a ' yt ) 2 T 1  ( y1t y2 y2t  y3 y3t  ..........  yn ynt )2 [19.2.6]
t 1 t 1
Esta minimización se logra, por supuesto, mediante una regresión OLS del primer elemento de y,
en todos los demás:
y1t  y2 y2t  y3 y3t  ..........  yn ynt  ut [19.2.7]
Estimaciones consistentes de  2 ,  3 ,.......,  n también se obtienen cuando un término constante se

incluye en [19.2.7], como en
y1t    y2 y2t  y3 y3t  ..........  yn ynt  ut [19.2.8]
y1t    y' y2t  ut

Donde  '  ( 2 ,  3 ,.......,  n ) y  2t  ( 2t ,  3t ,.......,  nt )'
Estos puntos fueron analizados por Phillips y Durlauf (1986) y Stock (1987) y se resumen
formalmente en la siguiente proposición.
Proposición 19.2: Sea  1t un escalar y  2t sea un vector (g x 1). Sea n  g  1 y supongamos que el
vector (n x 1) ( 1t ,  '2t ) se caracteriza por una relación de cointegración (h = 1) que tiene un
coeficiente no nulo sobre el  1t . Deje que el triangular
𝑦1𝑡 = ∝ + 𝛾 ′ 𝑦2𝑡 + 𝑧𝑡∗ [19.2.9]
∆𝑦2𝑡 = 𝑢2𝑡∗ [19.2.10]
Se supone que:
𝑧𝑡∗
[ ] = Ψ ∗ (𝐿)𝜀𝑡 [19.2.11]
𝑢2𝑡
Donde 𝜀𝑡 es un vector (n x 1) i.i.d con media cero, cuartos finitos y matriz de varianza-covarianza
definida positiva 𝐸(𝜀𝑡 𝜀𝑡′ ) = 𝑃𝑃′ . Supongamos, además, que la sucesión de matrices (n x n) es
𝓍
absolutamente sumable y que las filas de {𝑠 ′ Ψ𝑠∗ }𝑠=0 son linealmente independientes. Sea 𝛼̂ 𝑇 y
𝛾̂𝑇 estimaciones basadas en la estimación MCO de [19.2.9]
′ −1
𝛼̂ 𝑇 𝑇 ∑𝑦2𝑡 ∑𝑦1𝑡
[ ]= [ ] [ ], [19.2.12]
𝛾̂𝑡 ∑𝑦2𝑡 ∑𝑦2𝑡 𝑦′2𝑡 ∑𝑦2𝑡 𝑦1𝑡
Donde ∑ indica sumación sobre t forma 1 a T. Partición Ψ ∗ (1) ∙ P es

′
𝜆1∗
∗ (1)
Ψ ∙𝑃 (1𝑥𝑛)
= .
(𝑛𝑥𝑛) Λ∗2
[ (𝑔𝑥𝑛 ]
Entonces
1⁄ −1
− 𝛼)] 𝐿 [ 1 {∫[𝑊(𝑟)]′𝑑𝑟} ℎ1
[𝑇
2 (𝛼
̂𝑇 ] [ ], [19.2.13]
𝑇(𝛾̂𝑇 − 𝛾) ⟶ Λ∗
∙
2 ∫ 𝑊(𝑟)𝑑𝑟 Λ∗2 ∙ {∫[𝑊(𝑟) ∙ [𝑊(𝑟)]′𝑑𝑟} ∙ Λ∗2 ′ ℎ2
Donde W(r) es un movimiento browniano estándar n-dimensional, el signo integral denota

integración sobre r forma 0 a 1, y
ℎ1 ≡ 𝜆1∗ ′ ∙ 𝑊(1)
1
ℎ2 = Λ∗2 ∙ {∫0 [𝑊(𝑟)][𝑑𝑊(𝑟)]′ } ∙ Λ∗1 + ∑∞ ∗
𝑣=0 𝐸(𝑢2𝑡 𝑧𝑡+𝑣 ) .
Obsérvese que la estimación MCO del vector de cointegración es consistente, aunque el término de
error 𝑢𝑡 en [19.2.8] puede ser correlacionado en serie y correlacionado con ∆𝑦2𝑡 , ∆𝑦3𝑡 , .. ∆𝑦𝑛𝑡 .
Esta última correlación contribuiría a un sesgo en la distribución limitante de 𝑇(𝛾̂𝑇 − 𝛾), ya que
entonces la variable aleatoria ℎ2 no tendría una media de cero. Sin embargo, el sesgo en 𝛾̂𝑇 es
𝑂𝑝 (𝑇 −1 ). Dado que las estimaciones de la MCO son consistentes, el promedio de la muestra al
cuadrado residual converge a

𝑇
−1 2 𝑃
𝑇 ∑ 𝑢̂𝑡,𝑇 𝐸(𝑢𝑡2 )
⟶
𝑡=1
Mientras que la varianza muestral de 𝑦1𝑡 ,

𝑇
−1
𝑇 ∑(𝑦1𝑡 − 𝑦̅1 )2
𝑡=1
Se desvía a +∝. Por lo tanto, el 𝑅 2para la regresión de [19.2.8] convergerá a la unidad a medida que
el tamaño simple crece.
La cointegración puede ser vista como un supuesto estructural bajo el cual ciertas relaciones de
comportamiento de interés pueden ser estimadas a partir de los datos por MCO. Consideremos el
ejemplo de oferta y demanda en las ecuaciones [9.1.2] y [9.1.1].
𝑞𝑡𝑠 = γ𝑝𝑡 + 𝜀𝑡𝑠 [19.2.14]
𝑞𝑡𝑑 = 𝛽𝑝𝑡 + 𝜀𝑡𝑑 [19.2.15]
Hemos observado en la ecuación [9.1.6] que si 𝜀𝑡𝑑 son i.i.d. Con 𝑉𝑎𝑟(𝜀𝑡𝑠 ) finito. Entonces, como la
varianza de𝜀𝑡𝑑 va al infinito, la estimación MCO de [19.2.14] produce una estimación consistente de
la elasticidad de la oferta γ a pesar del sesgo de las ecuaciones simultáneas potenciales. Esto se debe
a que los grandes cambios en la curva de demanda trazan efectivamente la curva de oferta de la
muestra; Véase la Figura 9.3. De forma más general, si 𝜀𝑡𝑠 es I(0) y 𝜀𝑡𝑑 es I(1), entonces [19.2.14] y
[19.2.15] implican que(𝑞𝑡 , 𝑝𝑡 )′ es cointegrada con cointegración vector (1, − γ)′ . En este caso, el
vector cointegrado puede ser estimado consistentemente por MCO por esencialmente el mismo
motivo que en la Figura 9.3. La hipótesis de que una determinada relación estructural que involucra
variables I (1) se caracteriza por una perturbación I (0) equivale a una suposición estructural que
puede ayudar a identificar los parámetros de la relación estructural.
Aunque las estimaciones basadas en [19.2.8] son consistentes, a menudo existen

estimaciones alternativas que son superiores. Estas se describirán en la Sección 19.3 La estimación
de MCO de [19.2.8] se propone solamente como una manera rápida de obtener una estimación
inicial del vector de cointegración.
Se asumió en la Proposición 19.2 que ∆𝑦2𝑡 tenía una media cero. Si, en cambio,
𝐸(∆𝑦2𝑡 ) = 𝛿2 , es fácil generalizar la Proposición 19.2 usando una rotación de variables como en
[18.2.43]; Para más detalles, véase Hansen (1992). Mientras no exista una tendencia temporal en la
verdadera relación de cointegración [19.2.9], la estimación γ̂ 𝑇 basada en la estimación de MCO de
[19.2.8] será súper consistente independientemente de si el vector I(1) 𝑦2𝑡 incluye un tiempo
determinístico Tendencia o no.
El Papel de la Normalización
La estimación MCO del vector de cointegración se obtuvo normalizando el primer
elemento del vector de cointegración a ser unidad. La propuesta era entonces regresar el primer
elemento de 𝑦𝑡 en los otros. Por ejemplo, con n = 2, regresaríamos 𝑦1𝑡 en 𝑦2𝑡
𝑦1𝑡 = 𝛼 + γ𝑦2𝑡 + 𝑢𝑡 .
Obviamente, podríamos igualmente haber normalizado 𝑎2 = 1 y usar el mismo argumento para

sugerir una regresión de 𝑦2𝑡 en 𝑦1𝑡 :
𝑦2𝑡 = 𝜃 + ℵ𝑦1𝑡 + 𝑣𝑡 .

La estimación MCO ℵ ̂ no es simplemente la inversa de γ̂, lo que significa que estas dos regresiones
darán diferentes estimaciones del vector de cointegración
1 ̂
[ ] ≠ −γ̂ [−ℵ].
γ̂ 1
Sólo en el caso límite donde 𝑅 2 es 1, las dos estimaciones coinciden.
Por lo tanto, elegir que llamar 𝑦1 y que llamar 𝑦2 podría terminar haciendo una diferencia
material para la estimación de a así como para la evidencia que se encuentra para la cointegración
entre las series. Un enfoque que evita este problema de normalización es la estimación de máxima
verosimilitud de información completa propuesta por Johansen (1988, 1991). Esto se discutirá en
detalle en el Capítulo 20.
¿Cuál es la regresión que estima cuando hay más de una relación de cointegración?
La distribución limitante de la estimación de MCO en la Proposición 19.2 se obtuvo bajo la

suposición de que existe una sola relación de cointegración (h = 1). En el caso más general con h>
1, la estimación de MCO de [19.2.8] debería proporcionar una estimación consistente de un vector
de cointegración en virtud del argumento dado en [19.2.3] y [19.2.4]. Pero, ¿qué vector de
cointegración es?
Consideremos la representación triangular general de un vector con h relaciones de cointegración

dadas en [19.1.20] y [19.1.21]:
𝑦1𝑡 = 𝜇1∗ + Γ ′ 𝑦2𝑡 + 𝑧𝑡∗ [19.2.16]
Δ𝑦2𝑡 = 𝛿2 + 𝑢2𝑡 , [19.2.17]
Donde el vector (h x 1) 𝑦1𝑡 contiene los primeros h elementos de 𝑦𝑡 en 𝑦2𝑡 contiene los restantes
∗ ∗ ∗ )′
elementos g. Como𝑧𝑡∗ ≡ (𝑧1𝑡 , 𝑧2𝑡 , . . . , 𝑧ℎ𝑡 es covarianza-estacionaria con media cero, podemos
definir 𝛽2 , 𝛽3, . . . , 𝛽ℎ , para ser los coeficientes de población asociados con una proyección lineal de
∗ ∗ ∗ ∗
𝑧1𝑡 sobre 𝑧2𝑡 , 𝑧3𝑡 , . . . , 𝑧ℎ𝑡 :
∗ ∗ ∗ ∗
𝑧1𝑡 = 𝛽2 𝑧2𝑡 + 𝛽3 𝑧3𝑡 + ∙∙∙ +𝛽ℎ 𝑧ℎ𝑡 + 𝑢𝑡 [19.2.18]
∗ ∗ ∗
Donde 𝑢𝑡 por construcción tiene cero y no está correlacionado con 𝑧2𝑡 , 𝑧3𝑡 , . . . , 𝑧ℎ𝑡 .
La siguiente proposición, adaptada por Wooldridge (1991), muestra que la muestra residual 𝑢̂𝑡
resultante de la estimación de MCO de [19.2.8] converge en probabilidad al residuo residual 𝑢𝑡
asociado con la proyección lineal en [19.2.18]. En otra Palabra, entre el conjunto de posibles
relaciones de cointegración, la estimación MCO de [19.2.8] selecciona la relación cuyos residuos no
están correlacionados con ninguna otra combinación lineal I(1) de (𝑦2𝑡 , 𝑦3𝑡 , . . . , 𝑦n𝑡 ).
Proposición 19.3: Dejamos que 𝑦𝑡 = (𝑦 ′1𝑡 , 𝑦 ′ 2𝑡 )′ satisfagan [19.2.16] y [19.2.17] con𝑦1𝑡 y (h x 1) vector
con h> 1, y dejemos 𝛽2 , 𝛽3, . . . , 𝛽ℎ denotan los coeficientes de proyección lineal en [19.2.18]. Suponer que
∝
𝑧∗
[ 𝑡 ] = ∑ Ψ𝑠∗ 𝜀𝑡−𝑠
𝑢2𝑡
𝑠=0
Donde {𝑠 ∙ 𝛹𝑠∗ }∝ 𝑠=0 es absolutamente sumable y 𝜀𝑡 es un i.i.d. (n x 1) vector con media cero, la varianza ΡΡ ', y
finito cuartos momentos. Supongamos además que los elementos de 𝛹 ∗ (1) ∙ 𝛲 son linealmente independientes. Las
estimaciones de coeficientes asociadas con la estimación de MCO de
𝑦1𝑡 = 𝛼 + γ2 𝑦2𝑡 + γ3 𝑦3𝑡 + ∙ ∙ ∙ +γ𝑛 𝑦𝑛𝑡 + 𝑢𝑡 [19.2.19]
Converge en probabilidad a

𝑃
𝛼̂ 𝑇 → [1 − Β ′ ]𝜇1∗ [19.2.20]
Donde
Β
≡ (𝛽2 , 𝛽3, . . . , 𝛽ℎ )′
(ℎ − 1)𝑥1
Y
γ̂2.𝑇
γ̂ 𝑃 Β
[ 3𝑇 ] → [ ] [19.2.21]
⋮ γ2
γ̂𝑛.𝑇
Donde
γ2 1
(g 𝑥1) ≡ Γ [−Β]
La Proposición 19.3 establece que los residuos simples asociados con la estimación de
MCO de [19.2.19] convergen en probabilidad a
𝑦1𝑡 − 𝛼̂ 𝑇 − γ̂2,𝑇 𝑦2𝑡 − γ̂3,𝑇 𝑦3𝑡 − ∙ ∙ ∙ − γ̂𝑛,𝑇 𝑦𝑛𝑡

𝑦2𝑡 𝑦ℎ+1.𝑡
𝑃 𝑦 𝑦
→ 𝑦1𝑡 − [1 − Β ′ ]𝜇1∗ − Β ′ [ 3𝑡 ] − [1 − Β ′ ]Γ′ [ ℎ+2.𝑡 ]
⋮ ⋮
𝑦𝑛𝑡 𝑦𝑛𝑡
= [1 − Β ′ ] ∙ {𝑦1𝑡 − 𝜇1∗ − Γ ′ 𝑦2𝑡 }
= [1 − Β ′ ] ∙ 𝑧𝑡∗
Con la última igualdad que sigue a la forma [19.2.16] Pero a partir de [19.2.18] estos son los mismos
∗ ∗ ∗ ∗
que los residuos de la población asociados con la proyección lineal de 𝑧1𝑡 en 𝑧2𝑡 , 𝑧3𝑡 , . . . , 𝑧ℎ𝑡
Esto es una ilustración de una propiedad general observada por Wooldridge (1991).
Considere un modelo de regresión de la forma
𝑦𝑡 = 𝛼 + 𝑥′𝑡 Β + 𝑢𝑡 [19.2.22]
Si 𝑦𝑡 y 𝑥𝑡 son I(0), entonces se dice que 𝛼 + 𝑥′𝑡 Β es la proyección lineal de 𝑦𝑡 en 𝑥𝑡 y una

constante si la población residual 𝑢𝑡 = 𝑦𝑡 − 𝛼 − 𝑥′𝑡 Β tiene Significa cero y no está correlacionado
con 𝑥𝑡 . Vimos que en tal caso la estimación de MCO de [19.2.22] normalmente produciría
estimaciones consistentes de estos coeficientes de proyección lineal. En el caso más general en el
que 𝑦𝑡 puede ser I(0) o I(1) y los elementos de 𝑥𝑡 puede ser I(0) o I(1), la condición análoga es que
el residuo 𝑢𝑡 = 𝑦𝑡 − 𝛼 − 𝑥′𝑡 Β es un proceso estacionario medio cero que no está correlacionado
con todas I(0) combinaciones lineales de 𝑥𝑡 . Entonces 𝛼 + 𝑥′𝑡 Β puede ser visto como la
generalización I(1) de una proyección lineal de población de 𝑦𝑡 sobre una constante y 𝑥𝑡 . Mientras
haya un valor para Β tal que 𝑦𝑡 − 𝑥′𝑡 Β sea I(0), existe tal proyección lineal 𝛼 + 𝑥′𝑡 Β, y la estimación
MCO de [19.2.22] debería dar Consistente de esta proyección.
¿Cuál es la estimación de la regresión cuando no hay relación de

cointegración?
Hemos visto que si existe al menos una relación de cointegración que implica 𝑦1𝑡 , la
estimación MCO de [19.2.19] da una estimación consistente de un vector de cointegración. Ahora
consideramos las propiedades de la estimación de MCO cuando no hay relación de cointegración.
Entonces [19.2.19] es una regresión de una variable I (1) sobre un conjunto de variables (n-1) I (1)
para las cuales ningún coeficiente produce un término de error I (0). Por lo tanto, la regresión está
sujeta al problema de regresión espúrea descrito en la Sección 18.3. Los coeficientes 𝛼̂ 𝑇 y γ̂ 𝑇 no
proporcionan estimaciones consistentes de los parámetros de la población, y los residuos de la
muestra MCO 𝑢̂𝑡 no serán estacionarios. Sin embargo, esta última propiedad puede explotarse para

probar la cointegración. Si no hay cointegración, entonces una regresión de 𝑢̂𝑡 en 𝑢̂𝑡−1 debe
producir un coeficiente que sea menos tan 1.
La propuesta es, por lo tanto, estimar [19.2.19] por MCO y luego construir una de la prueba de raíz
unitaria estándar sobre los residuos de estimación, como la prueba aumentada de Dickey-Fuller 𝑡 o
la prueba de Phillips 𝑍𝑝 o 𝑍𝑡 . Aunque estos estáticos de prueba se construyen de la misma manera
que cuando se aplican a una serie individual 𝑦𝑡 , cuando las pruebas se aplican a los residuos 𝑢̂𝑡 de
una regresión espuria, los valores críticos que se utilizan para interpretar la estadística de prueba son
diferentes de Los empleados en el Capítulo 17.
Específicamente, sea 𝑦𝑡 un vector (n x 1) dividido como

𝑦1𝑡
𝑦𝑡 (1 𝑥 1)
(𝑛 𝑥 1) = [ y2t ] [19.2.23]
(g 𝑥 1)
Para g ≡ (𝑛 − 1). Considere la regresión
𝑦1𝑡 = 𝛼 + γ′ 𝑦2𝑡 + 𝑢𝑡 [19.2.24]
Sea 𝑢̂𝑡 el residuo simple asociado con la estimación de MCO de [19.2.24] en un simple de tamaño
T:
𝑢̂𝑡 = 𝑦1𝑡 − 𝛼̂ 𝑇 − γ̂′ 𝑇 𝑦2𝑡 ·para 𝑡 = 1,2, . . . , 𝑇 [19.2.25]
Donde
−1
𝛼̂ 𝑇 Σ𝑦′2𝑡 Σ𝑦1𝑡
[ 𝑇] = [ ] [ ]
γ̂ 𝑇 Σ𝑦2𝑡 Σ𝑦2𝑡 𝑦′2𝑡 Σ𝑦2𝑡 𝑦1𝑡
Y donde Σ indica suma sobre t de 1 a T. El residual 𝑢̂𝑡 , puede entonces ser regresado sobre su
propio valor retardado 𝑢̂𝑡−1 sin un término constante:
𝑢̂𝑡 = 𝜌𝑢̂𝑡−1 + 𝑒𝑡 Para 𝑡 = 1,2, . . . , 𝑇 [19.2.26]
Rendimiento de la estimación
∑𝑇 ̂𝑡−1 𝑢
𝑡=2 𝑢 ̂𝑡
𝜌̂𝑇 = ∑𝑇 ̂
𝑢 2 [19.2.27]
𝑡=2 𝑡−1
Sea 𝑠𝑡2 la estimación MCO de la varianza de 𝑒𝑡 para la regresión de [19.2.26]
𝑠𝑡2 = (𝑇 − 2)−1 ∑𝑇𝑡=2(𝑢̂𝑡 − 𝜌̂𝑇 𝑢̂𝑡−1 )2 [19.2.28]
Y sea 𝜎̂𝑃̇𝑇 el error estándar de 𝑃𝑡̇ calculado por la fórmula usual de MCO:
𝜎̂𝑃2̇ 𝑇 = 𝑠𝑡2 ÷ {∑𝑇𝑡=2 𝑢̂𝑡−1

2 }
[19.2.29]
Por último, supongamos 𝑐̂𝑗.𝑇 la j-ésima autocovariancia simple de los residuos estimados asociados
con [19.2.26]:
𝑇
−1
𝑐̂𝑗.𝑇 = (𝑇 − 1) ∑ 𝑒̂𝑡 𝑒̂𝑡−𝑗
𝑡=𝑗+2
Para 𝑗 = 1,2, . . . , 𝑇 − 2 [19.2.30]

Para𝑒̂𝑡 ≡ 𝑢̂𝑡 − 𝜌̂𝑇 𝑢̂𝑡−1 ; Y que el cuadrado de 𝜆̂ 𝑇 sea dado por
𝑞
𝜆̂2𝑡 = 𝑐̂0.𝑇 + 2 ∙ ∑𝑗=1[1 − 𝑗⁄(𝑞 + 1)] 𝑐̂𝑗.𝑇 [19.2.31]
Donde q es el número de autocovariancias que se van a utilizar. La estadística 𝑍𝜌 de Phillips (1987)

se puede calcular como en [17.6.8]:
𝑍𝜌.𝑇 = (𝑇 − 1)(𝜌̂𝑇 − 1) − (1⁄2) ∙ {(𝑇 − 1)2 ∙ 𝜎̂𝑃2̇ 𝑇 ÷ 𝑠𝑡2 } ∙ {𝜆̂2𝑡 − 𝑐̂0.𝑇 }. [19.2.32]
Sin embargo, la distribución asintótica de esta estadística no es la expresión en [17.6.8], sino que es
una distribución que se describirá en la Proposición 19.4.
Si el vector 𝑦𝑡 no es cointegrado, entonces [19.2.24] será una regresión espuria y 𝜌̂𝑇 debería
estar cerca de 1. Por otra parte, si encontramos que 𝜌̂𝑇 está muy por debajo de 1, es decir, si el
cálculo de [19.2 .32] produce un número negativo que es suficientemente grande en valor
absoluto- entonces se rechazará la hipótesis nula de que [19.2.24] es una regresión espuria, y
concluiremos que las variables están cointegradas. Del mismo modo, la estadística 𝑍𝑡 de Phillips
asociada con la autorregresión residual [19.2.26] sería
𝑍𝑡.𝑇 = (𝑐̂0.𝑇 ⁄𝜆̂2𝑡 )1⁄2 ∙ 𝑡𝑇 − (1⁄2) ∙ {(𝑇 − 1) ∙ 𝜎̂ ′̇ ÷ 𝑠𝑡′ } ∙ {𝜆̂2𝑡 − 𝑐̂0.𝑇 }/ 𝜆̂𝑡
𝑃𝑇 [19.2.33]
Para 𝑡𝑇 la estadística usual de MCO t para probar la hipótesis 𝜌 = 1
𝑡𝑇 = (𝜌̂𝑇 − 1)/ 𝜎̂𝑃̇𝑇
Alternativamente, los cambios retardados en los residuos podrían agregarse a la regresión de

[19.2.26] como en la prueba aumentada de Dickey-Fuller sin término constante:
𝑢̂𝑡 = 𝜁1 Δ𝑢̂𝑡−1 + 𝜁2 Δ𝑢̂𝑡−2 + . . . +𝜁𝑝−1 Δ𝑢̂𝑡−𝑝+1 + 𝜌𝑢̂𝑡−1 + 𝑒𝑡 . [19.2.34]
De nuevo, esto es estimado por MCO para𝑡 = 𝑝 + 1, 𝑝 + 2, . . . , 𝑇, y la prueba de MCO t de 𝜌 =

1 se calcula usando la fórmula estándar MCO [8.1.26]. Si esta estadística t o la estadística 𝑍𝑡 en
[19.2.23] es negativa y suficientemente grande en valor absoluto, esto pone de nuevo en duda la
hipótesis nula de no cointegración.
La siguiente proposición, adaptada de Phillips y Ouliaris (1990), proporciona una declaración
formal de las distribuciones asintóticas de tres estadísticos de prueba.
Proposición 19.4; Considera n (n x 1) vector 𝑦𝑡 tal que

∝
Δ𝑦𝑡 = ∑ Ψ𝑠′ 𝜀𝑡−𝑠

𝑠=0
Para 𝜀𝑡 a i.i.d. secuencia con media cero, varianza 𝐸(𝜀𝑡′ 𝜀𝑡′ ) = 𝛲𝛲′, y cuarto momentos finitos, y donde {𝑠 ∙
𝛹𝑠∗ }∝
𝑠=0 es absolutamente sumable. Sean 𝑔 ≡ 𝑛 − 1 y 𝛬 ≡ 𝛹(1) ∙ 𝛲. Supongamos que la matrix 𝛬𝛬 (n x n)
′
es no singular, y L denote el factor de Cholesky de (𝛬𝛬′)−1:

(ΛΛ′)−1 = 𝐿𝐿′ [19.2.35]
Entonces lo siguiente:
(a) La estadística 𝜌̂𝑇 definida en [19.2.27] satisface

𝐿 1 1
(𝑇 − 1)(𝜌̂𝑇 − 1) → { {[1 − ℎ2′ ] ∙ [𝑊 ∗ (1)] ∙ [𝑊 ∗ (1)]′ [ ]} −
2 −ℎ2
1 1 1
ℎ1 [𝑊 ∗ (1)]′ [ ] − 2 [1 − ℎ2′ ]𝐿′ {𝐸(∆𝑦𝑡 )(∆𝑦𝑡′ )}𝐿 [ ]}
−ℎ2 −ℎ2
[19.2.36]

Aquí, 𝑊 ∗ (𝑟) denota n-dimensional estándar movimiento Browniano dividido como
𝑊1∗ (𝑟)
(1 𝑥 1)
𝑊 ∗ (𝑟)
= ´;
(𝑛𝑥 1)
𝑊2∗ (𝑟)
[(g 𝑥 1) ]
h1 es un vector escalar y h2 a (g x 1)dado por

−1
1 ∫[𝑊2∗ (𝑟)]′ 𝑑𝑟 ∫ 𝑊1∗ (𝑟)𝑑𝑟
ℎ
[ 1] = [ ] [ ]
ℎ2
∫ 𝑊2∗ (𝑟)𝑑𝑟 ∫[𝑊2∗ (𝑟)] ∙ [𝑊2∗ (𝑟)]′ 𝑑𝑟 ∫ 𝑊2∗ (𝑟) ∙ 𝑊1∗ (𝑟)𝑑𝑟
Donde el signo integral indica integración sobre r forma 0 a 1; y
ℎ1
𝐻𝑛 ≡ ∫[𝑊1∗ (𝑟)]2 𝑑𝑟 − [∫ 𝑊1∗ (𝑟)𝑑𝑟 ∫[𝑊1∗ (𝑟)] ∙ [𝑊2∗ (𝑟)]′ 𝑑𝑟] [ ]
ℎ2
(b) Si q→∝ como T→∝ pero q/T→0, Entonces la estadística 𝑍𝑝.𝑇 en [19.2.32] satisface
𝐿
𝑍𝑝.𝑇 → 𝑍𝑛 , [19.2.37]
Donde
1 1 1 1
𝑍𝑛 ≡ { {[1 − ℎ2′ ] ∙ [𝑊1∗ (1)] ∙ [𝑊 ∗ (1)]′ [ ]} − ℎ1 [𝑊1∗ (1)]′ [ ] − 2 (1 + ℎ2′ ℎ2 ) } ÷ 𝐻𝑛
2 −ℎ2 −ℎ2
[19.2.38]
(c) Si q→∝ como T→∝ pero q/T→0, Entonces la estadística 𝑍𝑡.𝑇 en [19.2.33] satisface
𝐿
𝑍𝑡.𝑇 → 𝑍𝑛 ∙ √𝐻𝑛 ÷ (1 + ℎ2′ ℎ2 )1/2 [19.2.39]
(d) Si, además de las suposiciones precedentes, ∆𝑦𝑡 sigue un proceso ARMA de vector estacionario de media cero y
Si q→∝ como T→∝ pero p/𝑇 1/3 → 0, entonces la prueba aumentada de Dickey-Fuller t asociada con
[19.2.34] tiene la misma distribución limitante 𝑍𝑛 que la estadística 𝑍𝑝.𝑇 descrita en [19.2.37].
𝑝
El resultado (a) implica que 𝜌̂𝑇 → 1. Por lo tanto, cuando la regresión de “cointegración”
estimada [19.2.24] es espuria, Los residuos estimados de esta regresión se comportan como un
proceso de raíz unitaria en el sentido de que si 𝑢̂𝑡 es regresado sobre 𝑢̂𝑡−1 , el coeficiente estimado
tenderá a la unidad a medida que crece el tamaño simple. Ninguna combinación lineal de 𝑦𝑡 es
estacionaria, por lo que los residuos de la regresión espuria no pueden ser.
Obsérvese que, dado que 𝑊1∗ (𝑟) y [𝑊2∗ (𝑟) son movimiento browniano estándar, las
distribuciones de los términos ℎ1 , ℎ2 , 𝐻𝑛 , y 𝑍𝑛 en la Proposición 19.4 dependen solamente del
número de variabolas explicativas estocásticas Incluida en la regresión de cointegración (n-1) y
sobre si un término constante aparece en esa regresión afectada por las varianzas, correlaciones y
dinámica de ∆𝑦𝑡 .
En el caso especial cuando, ∆𝑦𝑡 es i.i.d., entonces Ψ(L) = 𝐼𝑛 y la matriz ΛΛ′ =
𝐸[(∆𝑦𝑡 )(∆𝑦𝑡′ )]. Ya que 𝐿𝐿′ = (ΛΛ′ )−1 , resulta que (ΛΛ′ ) = (𝐿′ )−1 (𝐿)−1 . Por lo tanto, para este
caso especial,
′
𝐿′ {𝐸[(∆𝑦𝑡 )(∆𝑦𝑡′ )]}𝐿 = 𝐿′(ΛΛ ) 𝐿 = 𝐿′ {(𝐿′ )−1 (𝐿)−1 }𝐿 = 𝐼𝑛 [19.2.40]

Si [19.2.40] es sustituido en [19.2.36], el resultado es que cuando ∆𝑦𝑡 es i.i.d.
𝐿
(𝑇 − 1)(𝜌̂𝑇 − 1) → 𝑍𝑛
Por 𝑍𝑛 define en [19.2.38]
En el caso más general en el que ∆𝑦𝑡 está correlacionado en serie, la distribución limitante
de 𝑇(𝜌̂𝑇 − 1) depende de la naturaleza de esta correlación como capturada por los elementos de L.
Sin embargo, las correcciones de autocorrelación implícitas en las variables de Phillips cuyas
distribuciones No dependen de ningún parámetro de molestia.
Aunque las distribuciones de 𝑍𝑝 , 𝑍𝑡 , y la prueba de Dickey-Fuller t aumentada no
dependen de parámetros de molestia, las distribuciones cuando estos estadísticos se calculan a partir
de los residuos 𝑢̂𝑡 no son las mismas que las distribuciones que tendrían si se calculan a partir de la
𝑦𝑡 datos en bruto. Por otra parte, diferentes valores para n - 1 (el número de variables explicativas
estocásticas en la regresión de cointegración de [19.2.24]) implican diferentes caracterizaciones de la
limitación estadística ℎ1 , ℎ2 , 𝐻𝑛 , y𝑍𝑛 lo que significa que un diferente calue crítico Debe utilizarse
para interpretar 𝑍𝑝 para cada valor de n - 1. De forma similar, las distribuciones asintóticas de
ℎ2 , 𝐻𝑛 , y𝑍𝑛 son diferentes dependiendo de si una ter constante se incluye en la regresión de
cointegración [19.2.24].
La sección denominada Caso 1 en la Tabla B.8 se refiere al caso cuando La regresión de
cointegración se estima sin un término constante:
𝑦1𝑡 = γ2 𝑦2𝑡 + γ3 𝑦3𝑡 + . . . +γ𝑛 𝑦𝑛𝑡 + 𝑢𝑡 [19.2.41]
La tabla reporta estimaciones Monte Carlo de los valores críticos para la estadística de prueba 𝑍𝑝
descrita en [19.2.32], para 𝑢̂𝑡 la fecha t residual de la estimación MCO de [19.2.41]. Los valores se
calcularon generando un simple de tamaño T= 500 por 𝑦1𝑡 , 𝑦2𝑡 , 𝑦3𝑡 . . . 𝑦𝑛𝑡 Independiente
Gaussian paseos aleatorios, la estimación [19.2.41] y [19.2.26] por MCO, y la tabulación de la
distribución de (T-1) (𝜌̂𝑇 − 1). Por ejemplo, la tabla indica que si tuviéramos que regresar una
caminata al azar 𝑦1𝑡 en otros tres paseos aleatorios (𝑦2𝑡 , 𝑦3𝑡 , 𝑒𝑦4𝑡 ), entonces en el 95% de las
muestras, (T-1) (𝜌̂𝑇 − 1) sería mayor tan -27.9, es decir, 𝜌̂𝑇 , debería exceder 0.94 es una muestra
de tamaño T = 500. Si la estimación 𝜌̂𝑇 es inferior a 0,94, entonces esto podría tomarse como
evidencia de que las series están cointegradas.
La sección etiquetada como Caso 2 en la Tabla B.8 da valores críticos para 𝑍𝑝.𝑇 y luego un término
constante se incluye en la regresión de cointegración:
𝑦1𝑡 = 𝛼 + γ2 𝑦2𝑡 + γ3 𝑦3𝑡 + . . . +γ𝑛 𝑦𝑛𝑡 + 𝑢𝑡 [19.2.42]
Para este caso, [19.2.26] se estima con 𝑢̂𝑡 , ahora interpretado como el residuo de la estimación de
MCO de [19.2.42]. Obsérvese que los diferentes casos (1 y 2) se refieren a si un ter constante se
incluye en la regresión de cointegración [19.2.42] y no a si un término constante incluido en la
regresión residual [19.2.26]. En cada caso, la autorregresión para los residuos se estima en la forma
de [19.2.26] sin término constante.
Los valores críticos para el estadístico𝑍𝑡 o el estadístico aumentado de Dickey-Fuller se
presentan en la Tabla B.9. De nuevo, si no se incluye una variable constante en la regresión de
cointegración como en [19.2.41], las entradas del caso 1 son apropiadas, mientras que si se incluye
un ter constante en la regresión de cointegración como en [19.2.42], las entradas del caso 2 debería
ser usado. Si el valor para el 𝑍𝑡 o el incremento de Dickey-Fuller t estatistic es negativo y grande en
valor absoluto, esto es evidencia contra la hipótesis nula de que 𝑦𝑡 no está cointegrada.
Cuando se utilizan las correcciones para la correlación serial implícita en la prueba 𝑍𝑝 , 𝑍𝑡 , o
aumentada de Dickey-Fuller, la justificación para usar los valores críticos en la Tabla B.8 o B.9 es
asintótica, y por consiguiente estos Las tablas describen sólo la distribución de grandes muestras.
Los valores críticos de las muestras pequeñas tabulados por Engle y Yoo (1987) y Haug (1992)
pueden diferir algo de los valores críticos de la muestra grande.

Pruebas de Cointegración entre Series de Tendencias
Se asumió en la Proposición 19.4 que 𝐸[(∆𝑦𝑡 )] = 0, En cuyo caso ninguna de las series
mostraría una deriva no nula. Bruce Hansen (1992) describió cómo los resultados cambian si en
vez𝐸[(∆𝑦𝑡 )]Contiene uno o más elementos distintos de cero
Consideremos primero el caso n = 2, una regresión de un escalar en otro:
𝑦1𝑡 = 𝛼 + γ2 𝑦2𝑡 + 𝑢𝑡 [19.2.43]
Suponer que
∆𝑦2𝑡 = 𝛿2 + 𝑢2𝑡
Con 𝛿2 ≠ 0. Entonces
𝑡
𝑦2𝑡 = 𝑦2.0 + 𝛿2 ∙ 𝑡 + ∑ 𝑢2𝑠 ,

𝑠=1
El cual es asintóticamente dominado por el tiempo determinista tren 𝛿2 ∙ 𝑡. Por tanto, las
estimaciones 𝛼̂ 𝑇 y 𝛾̂𝑇 basadas en la estimación MCO de [19.2.43] tienen la misma distribución
asintótica que los coeficientes en una regresión de una serie I(1) sobre una constante y una
tendencia temporal. Si
∆𝑦1𝑡 = 𝛿1 + 𝑢1𝑡
(Donde 𝛿1 puede ser cero), entonces el MCO estimación γ _T base don [19.2.43] da una estimación
consistente (𝛿1 ⁄𝛿2 ), Y la primera diferencia de los residuos de esa regresión converge a 𝑢1𝑡 −
(𝛿1 ⁄𝛿2 )𝑢2𝑡 ; Ver Ejercicio 19.1
Si, de hecho, [19.2.43] fueron una simple regresión de tendencia temporal de la forma
𝑦1𝑡 = 𝛼 + γ𝑡 + 𝑢𝑡 ,
Luego, una prueba aumentada de Dickey-Fuller sobre los residuos,
𝑢̂𝑡 = 𝜁1 Δ𝑢̂𝑡−1 + 𝜁2 Δ𝑢̂𝑡−2 + . . . +𝜁𝑝−1 Δ𝑢̂𝑡−𝑝+1 + 𝜌𝑢̂𝑡−1 + 𝑒𝑡 . [19.2.44]
Sería asintóticamente equivalente a una prueba de Dickey-Fuller aumentada en la serie original y_1t
que incluía un término constante y una tendencia temporal:
𝑦1𝑡 = 𝜁1 Δ𝑢̂𝑡−1 + 𝜁2 Δ𝑢̂𝑡−2 + . . . +𝜁𝑝−1 Δ𝑢̂𝑡−𝑝+1 + 𝛼 + 𝜌𝑦1.𝑡−1 + 𝛿 𝑡 + 𝑢𝑡 [19.2.45]
Ya que los residuos de MCO estimación de [19.2.43] se comportan como los residuos de una
regresión de [y1t – (δ1 /δ2) y2t] en una tendencia temporal, Hansen (1992) mostró que cuando y2t
tiene una tendencia diferente de cero, la prueba t de ρ = 1 en [19.2.44] para µ, el residuo de la
estimación de MCO [19.2.43] tiene la misma distribución asintótica que la habitual prueba t
aumentada de Dickey – Fuller para una regresión de la de [19.2.45] con y1t reemplazado por [y1t –
(δ1 /δ2) y2t]. Por lo tanto, si la regresión de cointegracion implica una sola variable y2t con
desviación no nula, estimamos la regresión [19.2.43] y calcular la Z, o la estadística T de Dickey –
Fuller aumentado exactamente de la misma manera que se especifico en la ecuación [19.2.33] o
[19.2.34]. Sin embargo, en lugar de comparar estas estadísticas con la (n-1) = 1 entra para el caso 2
de la tabla B.9, en lugar de comparar estas estadísticas con el caso de la sección 4 de la tabla B.6.
Por conveniencia, los valores para una muestra de tamaño T = 500 para el caso univariado
sección 4 de la tabla B.6 se reproducen en el (n - 1) = 1 fila de la sección etiquetada en el caso 3 de
la tabla B.9. Esto se describe como en el caso 3 en las tabulaciones multivariadas por la siguiente
razón. En el análisis univariado, “caso 3” referencia a una regresión en la que la variable yt tenía
una tendencia no nula pero no se incluyó el término de tendencia en la regresión. La generalización

multivariante obtenida cuando la variable explicativa y2t tiene una tendencia no nula pero no se
incluye tendencia en la regresión [19.2.43]. La distribución asintótica que describe los residuos de
esa regresión es la misma que para una regresión univariada en la que se incluye una tendencia.
De manera similar, si y2t tiene una tendencia no nula, podemos estimar [19.2.43] por MCO
y construye el estadístico Z de Phillips exactamente como en la ecuación [19.2.32] y compara esto
con los valores tabulados en el caso 4 de la tabla B.5. Estos números se reproducen en fila (n - 1) =
1 del caso de la sección 3 de la tabla B.8.
Generalmente, considerar una regresión n – 1 variables explicativas estocásticas de
[19.2.42]. Dejar δi denotan la tendencia de la i-ésima variable:
E (∆yit) = δi
Supongamos que al menos una de las variables explicativas tiene un componente de tendencia
distinto de cero, por ejemplo, llame a esto la variable n-ésima:
δn ≠ 0
Independientemente de que otras variables explicativas o la variable dependiente también tienen

tendencia no nula resulta no importar para la distribución asintótica; es decir, los valores de δ1, δ2 , .
. . , δn-1 son irrelevantes dado que δn ≠ 0.
Tenga en cuenta que los valores de [19.2.42] son idénticos a los valores ajustados de la estimación
MCO de:
y1t* = α* + y2* y2t* + y3* y3t* + . . . + yn-1* yn-1t* + yn* ynt* + µt . [19.2.46]
Donde
∗ 𝛿
𝑦1𝑡 ≡ 𝑦1𝑡 − ( 𝑖⁄𝛿 )𝑦𝑛𝑡 for i= 1, 2, . . . , n-1
𝑛
Los valores críticos apropiados para los estadísticos construidos cuando µt denota los residuos de
la estimación MCO de [19.2.42] puede calcularse a partir de las regresiones de MCO de una variable
I(1) sobre una constante, (n - 2) otra variable I(1), y una tendencia temporal. Los valores críticos
apropiados se tabulan bajo el encabezamiento del caso 3 de las tablas B.8 y B.9.
Por supuesto, podríamos imaginar incluir una tendencia temporal directamente en la regresión,
como en:
y1t = α + y2 y2t + y3y3t + . . . + ynynt + δt + µt . [19.2.48]
Ya que [19.2.48] está en la misma regresión de [19.2.47], los valores críticos para tal regresión
podrían ser encontrados tratando esto como si fuera una regresión que involucra (n + 1) variables y
buscando en el caso de la sección 3 de las tablas B.8 o B.9 para los valores críticos que serian
apropiados si en realidad tuviéramos (n + 1) en lugar de n variables totales. Claramente, la
especificación en [19.2.42] tiene más poder para rechazar una falsa hipótesis nula que [19.2.48], ya
que utilizaríamos la misma tabla de valores críticos para [19.2.42] o [19.2.48] con un grado más de
libertad utilizado por [19.2.48]. Concebiblemente, podríamos todavía querer estimar la regresión en
forma de [19.2.48] para cubrir el caso cuando no estamos seguros de si alguno de los elementos de
yt tiene una tendencia diferente de cero o no.
Resumen De Pruebas Basadas En Residuos Para Cointegracion

El procedimiento Phillips – Ouliaris – Hansen para las pruebas de cointegracion se resume
en el cuadro 19.1.
Para ilustrar este enfoque, considerar nuevamente el ejemplo de paridad del poder adquisitivo
donde ρt es el registro del nivel de precios de los EE.UU. , st es el logaritmo del tipo de cambio
dólar – lira y pt* es el registro del nivel de precios italiano. Ya hemos visto que el vector a = (1, -1,
-1)’ no parece ser un vector de cointegracion par yt = (pt , st , pt*)’. Vamos a preguntar ahora si existe
alguna relación de cointegracion entre estas variables.

La siguiente regresión fue estimada por MCO para t = 1973 : 1 a 1989 : 10 (errores estándar entre
paréntesis):
pt = 2.71 + 0.051 st + 0.5300 pt* + µt. [19.2.49]

(0.37) (0.012) (0.0067)
El número de observaciones utilizadas para estimar [19.2.49] es T = 202. Cuando los residuos µt
de la muestra son regresados en sus propios valores rezagados, el resultado es:
µt = 0.98331 µt-1 + ℮t
(0.01172)
2
s2 = (T - 2)-1 ∑𝑇𝑡=2 𝑒𝑡 = (0.40374)2
c0 = 0.1622
cj = (T - 1)-1 ∑𝑇𝑡=𝑗+2 𝑒𝑡 𝑒𝑡−𝑗
λ2 = c0 + 2 ∑12 𝑗=1[1 − (𝑗/13)𝑐𝑗 = 0.4082
La prueba Zp Phillips – Ouliaris es:
Zp = (T – 1)(ρ - 1) – (1/2) {(T - 1). σρ ÷ s}2 (λ2 – c0)

1
= (201) (0.98331 - 1) - 2 { (201)(0.01172) ÷ (0.40374)}2(0.4082 – 0.1622)
= - 7.54.
Dada la evidencia de desviación no nula en las variables explicativas, esto debe compararse con el
caso de la sección 3 de la tabla B.8. Para (n - 1) = 2, el 5% del valor critico para Zp es -27.1. Ya que
-7.54 > -27.1, se acepta la hipótesis nula de cointegracion, de forma similar, la estadística Zt Phillips
– Ouliaris es:
Zt = (c0/λ2)1/2(ρ - 1)/σp – (1/2){(T – 1). σp ÷ s} (λ2 – c0)/λ

= {(0.1622)/(0.4082)}1/2 (0.98331 - 1)/(0.01172) - 12{(201)(0.01172)÷(0.40374)}(0.4082- 0.1622)/(0.4082)1/2
= - 2.02
Comparando esto con la sección del caso 3 de la tabla B.9, vemos que – 2.02 > - 3.80, de modo que
la hipótesis nula de no cointegracion también es aceptada por esta prueba. Una regresión MCO de
µt en µt-1 y doce rezagos de ∆ µt-j produce una prueba t de MCO de ρ=1 de -2.73, que está de
nuevo por encima de -3.80. Encontramos evidencia de que ρt , st , y ρt* están cointegradas. De
hecho, la regresión [19.2.49] muestra los síntomas clásicos de una regresión espuria – los errores
estándar estimados son pequeños en relación con las estimaciones de los coeficientes, y la
autocorrelacion estimada de primer orden de los residuos esta cerca de la unidad.
Como un segundo ejemplo, la figura 19.5 representa 100 veces el logaritmo del ingreso real
personal agregado trimestral real (yt) y los gastos de consumo personal (ct) para los Estados Unidos
entre 1947:I a 1989:III. En una regresión de yt en una constante, una tendencia temporal, yt-1 , y ∆yt-
j para j = 1,2, … , 6, la prueba t de MCO que el coeficiente de yt-1 es la unidad es -1.28. De manera
similar, en una regresión de ct en una constante, una tendencia temporal, ct-1 , ∆ct-j para j = 1,2, …
,6, la prueba t de MCO que le coeficiente de ct-1 es unidad es -.1.88. Por tanto, ambos procesos bien
podrían describirse como I(1) con derivada positiva.
La estimación MCO de la relación de cointegracion es:
Ct = 0.67 + 0.9865 yt + µt. [19.2.50]

(2.35) (0.0032)
Una regresión de primer orden ajustado a los residuos produce:
µt = 0.782 µt-1 + ℮t
(0.048)
TABLA 19.1.
Sumario de la Prueba de Phillips – Ouliaris – Hansen para Cointegración

Caso 1:
Regresión de cointegracion estimada:
y1t = y2 y2t + y3 y3t + . . . + yn ynt + µt
Verdadero proceso para yt = (y1t , y2t , . . . , ynt)’ :
∆yt =∑∞ 𝑠=0 𝛹𝑠 𝜀𝑡−𝑠
Zρ tiene la misma distribución asintótica que la variable descrita en el encabezamiento del caso 1 del
cuadro B.8.
Zt y la prueba t de Dickey – Fuller aumentada tienen la misma distribución asintótica que la variable
descrita en el caso 1 del cuadro B.9.
Caso 2:
y1t = α + y2 y2t + y3 y3t + . . . + yn ynt + µt
Zρ tiene la misma distribución asintótica que la variable descrita en el caso 2 del cuadro B.8.
Caso 3:
y1t = α + y2 y2t + y3 y3t + . . . + yn ynt + µt
Con al menos un elemento de δ2 , δ3 , . . . , δn diferente de cero.
Zρ tiene la misma distribución asintótica que la variable descrita en el caso 3 del cuadro B.8.
Notas al cuadro 19.1:
La regresión calculada estimada indica la forma en que se estima la regresión que podría describir la reintegración
cointegradora, usando observaciones t = 1,2 … ,T.
El verdadero proceso describe la hipótesis nula bajo la cual se calcula la distribución. En cada caso, ε t se supone que es
idéntica e independientemente distribuida con media cero, matriz positiva de varianza – covarianza definitiva, y finitos
cuartos, y la secuencia {s.Ψs}∞s, es absolutamente sumable. La matriz Ψ(1) se supone que es no singular, lo que significa
que el vector yt no esta cointegrado bajo la hipótesis nula. Si la estadística de prueba está por debajo de los valores críticos
indicados (es decir, si Zp , Zt , o t es negativo y suficientemente grande en valor absoluto), entonces la hipótesis nula de no
cointegracion es rechazada.
Zp es el siguiente estadístico,
Zp ≡ (T - 1)(ρT - 1) – (1/2){(T -1)2.σ2pT ÷ s2T} (λ2T – c0.T),
Donde ρT es la estimación de ρ basada en la estimación MCO de µt = µρt-1 + ℮t para µt el valor residual de la muestra
MCO
De la regresión estimada. Aquí,
s2t = (T - 2)-1 ∑𝑇𝑡=2 𝑒𝑡2
Donde, ℮t = µt – ρT µt-1 es la forma residual de la muestra la autoregresion que describe µ t y σρT es el error estándar para
ρT calculado por la formula usual de MCO:
𝜎2pT = s2T ÷ ∑𝑇𝑡=2 µ2𝑡−1

Además,
cj.T = (T - 1)-1 ∑𝑇𝑡=𝑗+2 𝑒𝑡 𝑒𝑡−1
𝑞
λ2T = c0.T + 2. ∑𝑗=1[1 − 𝑗/(𝑞 + 1)]𝑐𝑗.𝑇
Zt es el siguiente estadístico:
Zt ≡ (c0.T / λ2T)1/2 (ρT - 1)/σρT – (172)(λ2T – c0.T)(1/λT){(T – 1)σρT ÷ sT}
El estadístico t Dickey- Fuller aumentado es la prueba t de MCO de la hipótesis nula de que ρ= 1 en la regresión:
µt = ζ1∆µt-1 + ζ2∆µt-2 + … + ζp-1 ∆µt-p-1 + ρµt-1 + ℮t

FIGURA 19.5 cien veces el registro de los gastos de consumo personal (ct) y el ingreso personal
disponible (yt) para los Estados Unidos en miles de millones de dólares de 1982, trimestral, 1974-89.
Clave: ------- ct ;------- yt.
Para los cuales estadísticas correspondientes Zp y Zt para q= 6 son -32.0 y -4.28
Puesto que hay nuevamente una amplia evidencia de que yt tiene derivada positiva, esto debe ser
comparado con el caso 9 de las secciones de las tablas B.8 y B.9, respectivamente. Ya que -32.0 < -
21.5 y -4.28 < -3.42, en cada caso la hipótesis nula de no cointegracion es rechazada al nivel del 5%.
Así, el consumo y los ingresos parecen cointegrarse.
Otra Prueba De Cointegracion

Las pruebas que se han discutido en esta sección se basan en los residuos de una regresión de MCO
de y1t en (y2t , y3t , . . . , ynt). Ya que estos no son los mismos que los residuos de una regresión de y2t
en (y1t , y3t , . . . , ynt), las pruebas pueden dar respuestas diferentes dependiendo de qué variable se
etiqueta y1. Las pruebas importantes para la cointegracion que son invariantes a la variación de las
variables son la prueba máxima de la información completa de Johansen (1988, 1991) y las pruebas
relacionadas de stock y Watson (1988) y Ahn y Reinsel (1990). Estos serán discutidos en el capítulo
20. Phillips y Ouliaris (1990), Park, Ouliaris, y Choi (1988), Stock (1990), y Hansen (1990) han
propuesto otras pruebas utiles para la cointegracion.
19.3. Probando hipótesis sobre el vector de cointegracion:

La sección anterior se describió algunas maneras de probar si un vector yt esta cointegrado.
Se observó que si yt es cointegrada, entonces se puede obtener una estimación consistente del
vector de cointegracion mediante MCO. Esta sección explora más la teoría de la distribución de
esta estimación y propone varias estimaciones alternativas que simplifican la prueba de hipótesis.
Distribución De La Estimacion Mco Para Un Caso Especial

Sea y1t un escalar y y2t un vector (g x 1) que satisfaga:
y1t = α + ϒ’ y2t + zt* [19.3.1]

y2t = y2.t-1 + µ2t [19.3.2]
Si y1t , y 2t son ambos I(1) pero zt* y µ2t son I(0), entonces, para n≡(g + 1), el vector n-dimensional
(y1t , y’2t)’ esta cointegrada con relación de cointegracion [19.3.1].
Considere el caso especial de un sistema Gaussiano para el cual y2t sigue una caminata aleatoria y
para la cual es ruido blanco y no correlacionado con µ2t para todo t y T
𝑧∗ 0 𝜎2 0′
[µ 𝑡 ] ~ i.i.d. N ([ ] , [ 1 ]) [19.3.3]
2𝑡 0 0 𝛺22
Entonces [19.3.1] describe una regresión en la que las variables explicativas (y2t) son independientes
del termino de error (zT*) para todo t y T. La regresión satisface así la suposición 8.2 en el capítulo
8. Allí se vio que los condicionales son (y21 , y22 , … , y2T), las estimaciones MCO tienen una
distribución Gaussiana:
−1
(𝛼̂ 𝑇 − 𝛼) 𝑇 ′
∑ 𝑦2𝑡 ∑ 𝑧𝑡∗
[| ̂ | (𝑦21 , 𝑦22 ,…, 𝑦2𝑇 )] = [ ] [ ]
(ϒ 𝑇 − ϒ) 𝑧𝑡∗
∑ 𝑦2𝑡 ′
∑ 𝑦2𝑡 − 𝑦2𝑡 ∑ 𝑦2𝑡
′ −1
0 𝑇 ∑ 𝑦2𝑡
~ 𝑁 ([ ] , 𝜎12 [ ] ) , [19.3.4]
0 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡′
Donde ∑ indica la suma sobre t de 1 a T.
Recordar más adelante del capítulo 8 que esta distribución Gaussiana condicional es todo lo que se
necesita para justificar la aplicación de muestras pequeñas de las pruebas t o F habituales de MCO.
Considere una prueba de hipótesis que implique m restricciones sobre α y ϒ de la forma:
Rα α + Rϒ ϒ = r
Donde Rα y r son vectores conocidos (m x 1) y Rϒ es una matriz conocida (m x g) que describe las
restricciones. La forma Wald de la prueba F de MCO de la hipótesis nula es:
−1 −1
′
𝑇 ∑ 𝑦2𝑡 𝑅′
(𝑅𝛼 𝛼𝑇 + 𝑅ϒ ϒ𝑇 − 𝑟) ′
{𝑠𝑇2 [𝑅𝛼 𝑅ϒ ] [ ] [ 𝛼′ ]} x (Rα αT + Rϒ ϒT -
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡′ 𝑅ϒ
r) ÷ m. [19.3.5]
Donde,
sT2 = (T - n)-1 ∑𝑇𝑡=1(𝑦1𝑡 − 𝛼𝑇 − 𝑦𝑇′ 𝑦2𝑡 )2

Resultado [19.3.4] implica que condicional en (y21 , y22 , . . . , y2T), bajo la hipótesis nula el vector
(Rα αT - Rϒ ϒT - r) tiene una distribución Gaussiana con media 0 y varianza
−1
′
𝑇 ∑ 𝑦2𝑡 𝑅𝛼′
𝜎12 [𝑅𝛼 𝑅ϒ ] [ ] [ ]
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 ′
𝑦2𝑡 𝑅ϒ′
Si sigue condicional a (y21 , y22 , . . . , y2T), el termino
19.3 Probando hipótesis sobre el vector de cointegracion: 623

−1
′
𝑇 ∑ 𝑦2𝑡 𝑅′
(𝑅𝛼 𝛼 𝑇 + 𝑅ϒ ϒ 𝑇 − 𝑟)′ 𝜎12 [𝑅𝛼 𝑅ϒ ] [ ] [ 𝛼′ ] x (Rα αT
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 ′
𝑦2𝑡 𝑅ϒ
{ }
−1
+ Rϒ ϒT − r)
[19.3.6]
Es una forma cuadrática en un vector Gaussiano. La proposición 8.1 establece que condicional a
(y21 , y22 , . . . , y2T), la magnitud en [19.3.6] tiene una distribución χ2 (m). Por tanto condicional a (y21
, y22 , . . . , y2T), la prueba F de MCO [19.3.5] podría considerarse como la relación de de una
variable χ2 (m) con la variable independiente χ2 (T - n) con la variable (T - n) sT2 /σt2 , con el
numerador y el denominador cada uno dividido por su grado de libertad. La prueba F de MCO
tiene así una distribución condicional F(m, T - n) exacta. Ya que esta es la misma distribución para
todas las realizaciones de (y21 , y22 , . . . , y2T), se deduce que [19.3.5] tiene una distribución
incondicional F(m, T - n). Por los tanto, a pesar de los I(1) los regresores y las complicaciones de la
cointegracion, el enfoque correcto para este ejemplo seria estimar [19.3.1] por MCO y el uso
estándar o F estadístico para probar cualquier hipótesis sobre el vector de cointegracion. No se
requieren procedimientos especiales para estimar el vector de cointegracion, y no es necesario
consultar valores críticos inusuales para probar una hipótesis sobre su valor.
Ahora buscamos hacer una declaración análoga en términos de las distribuciones asintóticas
correspondientes. Para ello será útil reescalar los resultados en [19.3.4] y [19.3.5] para que definan
secuencias de estadística con distribuciones asintóticas no degeneradas. Si [19.3.4] es pre
multiplicado por la matriz;
𝑇 1/2 0′
[ 𝑇 . 𝐼𝑔 ]
0
La implicación es que la distribución de las estimaciones de MCO condicionales a (y21 , y22 , . . . ,
y2T) es dado por:
𝑇 1/2 (𝛼 𝑇 − 𝛼 ) 𝑦 , 𝑦 , … , 𝑦
[| | ( 21 22 2𝑇 )]
𝑇 (ϒ 𝑇 − ϒ)
′ −1
0 2 𝑇
1/2
0′ 𝑇 ∑ 𝑦2𝑡 𝑇 1/2 0′
~ N ([ ] , 𝜎1 {[ ] [
𝑇 . 𝐼𝑔 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ] [ 𝑇 . 𝐼𝑔 ]})
0 0 ′ 0
−1
0 1 𝑇 −3/2 ∑ 𝑦2𝑡
′
= N ([ ] , 𝜎12 [ −3/2 ] ) [19.3.7]
0 𝑇 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 ′
Para analizar la distribución asintótica, observe que [19.3.1] a través de [19.3.3] son un caso especial
de análisis del sistema en la proposición 19.2 con Ψ* (L) = In y ;
𝜎1 0′
P=[ ]
0 𝑃22
Donde P22, es el factor Cholesky de 𝛺22:

′
𝛺22 = 𝑃22 𝑃22
Para este caso especial,
𝜎1 0′
Ψ*(1).P = [ ] [19.3.8]
0 𝑃22
Los términos λ1*’ y ʌ2* mencionados en la proposición 19.2 serian dados por:

𝜆1∗′ 𝜎 0′
=[ 1 ]
(1 𝑥 𝑛 ) (1 𝑥 1) (1 𝑥 𝑔)
ʌ∗2 0 𝑃22
=[ ]
(𝑔 𝑥 𝑛) (𝑔 𝑥 1) (𝑔 𝑥𝑔)
Así, el resultado [19.2.13] de la proposición 19.2 establece que:

−1
𝑇 1/2 (𝛼 𝑇 𝛼 ) 1 𝑇 −3/2 ∑ 𝑦2𝑡
′ −1/2 ∑ 𝑧𝑡∗
[ ] = [[ −3/2 ]] [𝑇 −1 ]
𝑇 (ϒ 𝑇 ϒ) 𝑇 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡′
𝑇 ∑ 𝑦2𝑡 𝑧𝑡∗
−1
0′
1 {∫ [𝑊 (𝑟)]′ 𝑑𝑟} [ ]
𝐿 𝑃22
→
0′
[0 𝑃22 ] ∫ 𝑊 (𝑟) 𝑑𝑟 [0 𝑃22 ] {∫ [𝑊 (𝑟)] [𝑊 (𝑟)]′ 𝑑𝑟} [ ′ ]
[ 𝑃22 ]
[𝜎1 0′ ] 𝑊(1)
X[ 𝜎 ] ,
[0 𝑃22 ] {∫ [𝑊(𝑟)] [𝑑𝑊(𝑟)]′ } [ 1 ]
0
[19.3.9]
Donde el signo integral indica la integración sobre r de 0 a 1. Si el movimiento Browniano estándar

n-dimensional W(r) se divide como:
𝑊1 (𝑟)
(1 𝑥 1)
W(r) = [ ]
𝑊2 (𝑟)
(𝑔 𝑥 1)
(n x 1)
Entonces [19.3.9] se puede escribir:
𝑇 1/2 (𝛼 𝑇 − 𝛼 )
[ ]
𝑇 (ϒ 𝑇 − ϒ)
−1
{∫ [𝑊2 ′
𝐿 1 (𝑟)]′ 𝑑𝑟} 𝑃22
→ [[ ]]
𝑃22 ∫ 𝑊2 (𝑟) 𝑑𝑟 𝑃22 {∫ [𝑊2 ′
(𝑟) 𝑑𝑟] . [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
𝜎1 𝑊1 (1)
X[ ] [19.3.10]
𝑃22 {∫ [𝑊2 (𝑟)] . 𝑑𝑊1 (𝑟)} 𝜎1
𝑣1
≡𝜎1 [𝑣 ] ,
2
Donde:
−1
′
(𝑟)]′ } 𝑃22
𝑣1 1 {∫[𝑊2
[𝑣 ] ≡ [[ ]]
2 𝑃
22 ∫ 𝑊2 (𝑟) 𝑑𝑟 𝑃22 {∫ [𝑊2 (𝑟)] . [𝑊2 ′
(𝑟)]′ } 𝑃22
[19.3.11]
𝑊1 (1)
X[ ]
𝑃22 {∫ [𝑊2 (𝑟)] . 𝑑𝑊1 (𝑟)}

Dado que W1(.) es independiente de W2(.), la distribución de (v1 , v2’)’ condicional en W2(.) se
encuentra tratando W2(r) como una función determinista de r y dejando intacto el proceso W1(.).
Entonces ∫[W2 (r)]dW1 (r) tiene una distribución Gaussiana simple. Y [19.3.11] describe un vector
Gaussiano. En particular, el resultado exacto de la muestra finita para las perturbaciones Gaussianas
[19.3.7] implicaba que:
𝑇 1/2 (𝛼 𝑇 𝛼 )
[| | (y21 , y22 , . . . , y2T)] =
𝑇 (ϒ 𝑇 ϒ)
′ −1
1 𝑇 −3/2 ∑ 𝑦2𝑡 𝑇 −1/2 ∑ 𝑧𝑡∗
[ −3/2 −2 ∑ ] [ −1 ]
𝑇 ∑ 𝑦2𝑡 𝑇 𝑦2𝑡 𝑦2𝑡 ′
𝑇 ∑ 𝑦2𝑡 𝑧𝑡∗
−1
0 1 𝑇 −3/2 ∑ 𝑧2𝑡
′
~ N ([ ] , 𝜎12 [[ −3/2 ]] )
0 𝑇 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 ′
Comparando esto con la distribución limitante [19.3.10], parece que el vector (v1 ,v2’)’ tiene
distribución condicional en W2(.) que podría ser descrito como:
𝑣1
[|𝑣 | 𝑊2 (. )]
2
−1
1 ′
{∫ [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
~N ([0] , [[ ′ ]]
)
0 𝑃22 ∫ 𝑊2 (𝑟)𝑑𝑟 𝑃22 {∫ [𝑊2 (𝑟)] . [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
[19.3.12]
La expresión [19.3.12] permite el argumento que se utilizo para motivar las pruebas t y F de MCO
habituales en el sistema de [19.3.1] y [19.3.2] con perturbaciones Gaussianas que satisfacen dar una
justificación asintótica para estas mismas pruebas en un sistemas con perturbaciones no Gaussianas
cuyos medios y autocovarianzas se asumen en [19.3.3]. Considere para la ilustración una hipótesis
que implica solo el vector de cointegracion, de modo que Rα = 0. Entonces, bajo la hipótesis nula,
m veces la prueba F en [19.3.5] se convierte:
m. FT =
−1 −1
′
𝑇 ∑ 𝑦2𝑡
[𝑅ϒ (ϒ 𝑇 − ϒ)]′ 𝑠𝑇2 0′ [𝑅ϒ (ϒ 𝑇 − ϒ)]
[0 𝑅ϒ ] [ ] [ ]
∑ 𝑦2 ∑ 𝑦2𝑡 ′ 𝑅ϒ′
𝑦2𝑡
{ [ ] }
−1 −1
′
∑ 𝑦2𝑡
𝑇 0′
= [𝑅ϒ . 𝑇 (ϒ 𝑇 − ϒ)]′ {𝑠𝑇2 [0 𝑅ϒ . 𝑇] [ ]}
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡′ ] [
𝑇 . 𝑅ϒ′
X [𝑅ϒ . 𝑇 (ϒ 𝑇 − ϒ)]
= [𝑅ϒ . 𝑇 (ϒ 𝑇 ϒ)]′ (𝑠𝑇2 )−1

−1
−1 −1 −1
1/2
0′ 𝑇 ∑ 𝑦2𝑡
′
𝑇 1/2 0′ 0′ }
. {[0 𝑅ϒ ] ([𝑇 ] [ ] [ ] ) [ ] [𝑅ϒ . 𝑇 (ϒ 𝑇 − ϒ)]
0 𝑇. 𝐼𝑔 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡′ 0 𝑇 . 𝐼𝑔 𝑅ϒ′

𝑃
→ [𝑅ϒ 𝜎1 𝑣2 ]′ (𝑠𝑇2 )−1
−1 −1
1 {∫ [𝑊2 (𝑟)]′ 𝑑𝑟 } 𝑃22
′
0′
{[0 𝑅ϒ ] [ ] [ ′ ]} [𝑅ϒ 𝜎1 𝑣2 ]
𝑃22 ∫ 𝑊2 (𝑟)𝑑𝑟 𝑃22 {∫ [𝑊2 (𝑟)] [𝑊2 (𝑟)]′ 𝑑𝑟 } 𝑃22
′ 𝑅ϒ
= (𝜎12 |𝑠𝑇2 )
′ −1
1 {∫ [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22 0′
{[0 𝑅ϒ ] [ ′ ] [ ′ ]} −1
𝑃22 ∫ 𝑊2 (𝑟)𝑑𝑟 𝑃22 {∫ 𝑊2 (𝑟) . [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22 𝑅ϒ
. [𝑅ϒ 𝑣2 ]
[19.3.13]
El resultado [19.3.12] implica que condicional en W2(.), el vector Rϒ v2 tiene una distribución
Gaussiana con media 0 y varianza
−1
′
1 {∫ [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
0′
[0 𝑅ϒ ] [ ] [ ]
′ 𝑅ϒ′
𝑃22 ∫ 𝑊2 (𝑟)𝑑𝑟 𝑃22 {∫ [𝑊2 (𝑟)] . [𝑊2 (𝑟)]′ 𝑑𝑟} 𝑃22
Dado que 𝑠𝑇2 proporciona una estimación consistente de 𝜎12 , la distribución limitante de m . FT
condicional en W2(.) es, por tanto, 𝑥 2 (𝑚), por lo tanto la distribución incondicional 𝑥 2 (𝑚)
también. Esto significa que las pruebas t o F de MCO que implican el vector de cointegracion
tienen sus distribuciones asintóticas estándar Gaussianas o 𝑥 2 .
También es fácil adaptar los métodos en la sección 16.3 para demostrar que la prueba 𝑥 2 de MCO
de una hipótesis que implica solo α, o que para una hipótesis conjunta que implica tanto α y ϒ,
también tiene una distribución 𝑥 2 limitante.
El análisis a este punto se aplica en el caso especial cuando𝑦1𝑡 y 𝑦2𝑡 siguen caminatas aleatorias. El
análisis se extiende fácilmente para permitir la correlación serial en 𝑧𝑡∗ o 𝑢2𝑡 , siempre y cuando se
mantenga la condición crítica de que 𝑧𝑡∗ no está correlacionada con 𝑢2𝑡 para todo t y T. En
particular, supongamos que el proceso dinámico para (𝑧𝑡∗ , 𝑢2𝑡 )′ viene dado por:
𝑧𝑡∗
[ ] = 𝛹∗ (𝐿) 𝜀𝑡
𝑢2𝑡
Con {𝑠 . 𝛹𝑠∗ }∞ ′
𝑠 = 0 absolutamente sumable, E(𝜀𝑡 ) = 0, E(𝜀𝑡 𝜀𝑇 ) = 𝑃𝑃 si t=T y 0 en caso
′
∗
contrario, y los cuartos momentos de 𝜀𝑡 finito. Para que 𝑧𝑡 no esté correlacionado con 𝑢2𝑡 para
todo t y T, tanto 𝛹 ∗ (𝐿) y P deben ser diagonales en bloque:
∗
𝜓11 (𝐿) 0′
𝛹∗ (𝐿) =[ ∗ ]
0 𝛹22 (𝐿)
𝜎1 0′
P=[ ]
0 𝑃22
Lo que implica que la matriz 𝛹 ∗ (1). 𝑃 también es bloque diagonal:

∗
𝜎1 𝜓11 (1) 0′
𝛹∗ (1). 𝑃 = [ ∗ ]
0 𝛹22 (1). 𝑃22

𝜆1∗ 0′
≡[ ] [19.3.14]
0 ʌ∗22
Observando el paralelo entre [19.3.14] y [19.3.8], es fácil confirmas que si 𝜆1∗ ≠ 0 y las filas de 𝜆∗22
son linealmente independientes, entonces el análisis de [19.3.10] continúa manteniéndose, con 𝜎1
reemplazado por 𝜆1∗ y 𝑃22 reemplazado por ʌ∗22 :
𝑇 1/2 (𝛼 𝑇 − 𝛼 )
[ ]
𝑇 (𝛾𝑇 − 𝛾)
−1
𝐿 1 {∫ [𝑊2 (𝑟)]′ 𝑑𝑟} ʌ∗′
22
→ [ ]
ʌ∗22 ∫ 𝑊2 (𝑟)𝑑𝑟 ʌ∗22 {∫ [𝑊2 (𝑟)] . [𝑊2 (𝑟)]′ 𝑑𝑟} ʌ∗′
22
Los mismos cálculos están en [19.3.13] indican además que m veces la prueba F de MCO de m
restricciones que implican α o ϒ converge a (𝜆1∗ )2 / 𝑠𝑇2 veces una variable que es 𝑥 2 (𝑚)
condicional en condicional en 𝑊2 (. ). Ya que esta distribución no depende de 𝑊2 (. ), la
distribución incondicional también es [(𝜆1∗ )2 /𝑠𝑇2 ] . 𝑥 2 (𝑚).
Obsérvese que la estimación 𝑠𝑇2 de MCO proporciona una estimación consistente de la varianza de
𝑧𝑡∗ :
𝑇
2 𝑃
𝑠𝑇2 ≡ (𝑇−𝑛)−1 ∑(𝑦1𝑡 − 𝛼 𝑇− 𝑦𝑇′ 𝑦2𝑡 ) → 𝐸(𝑧𝑡∗ )2
𝑡=1
Sin embargo, si 𝑧𝑡∗ esta correlacionada en serie, esto no es la misma magnitud que (𝜆1∗ )2 .
Afortunadamente, esto es fácil de corregir. Por ejemplo, 𝑠𝑇2 en la formula usual para la prueba F
[19.3.5] podría ser reemplazada por:
(𝜆1∗ .𝑇 )2 = 𝑐0 .𝑇 + 2 . ∑𝑞𝑗=1[1 − 𝑗/(𝑞 + 1)] 𝑐𝑗 .𝑇 [19.3.16]
Para:
𝑐𝑗 .𝑇 ≡ 𝑇 −1 ∑𝑇𝑡=𝑗+1 𝑢𝑡 𝑢𝑡−𝑗 [19.3.17]
Con 𝑢𝑡 = 𝑦1𝑡 − 𝛼 𝑇 − 𝑦𝑇′ 𝑦2𝑡 el residuo de muestra resultante de la estimación de MCO de [19.3.1].
𝑃
Si q →∞. Pero 𝑞/𝑇 → 0, entonces 𝜆1∗ .𝑇 → 𝜆1∗ . Entonces se sigue que la estadística de prueba dada
por:
−1 −1
′
′
𝑇 ∑ 𝑦2𝑡 𝑅𝛼′
(𝑅𝛼 𝛼 𝑇 + 𝑅𝑦 𝑦𝑇 − 𝑟) (𝜆1∗ .𝑇 )2 [𝑅𝛼 𝑅𝑦 ] [ ] [ ′]
∑ 𝑦2 ′
∑ 𝑦2𝑡 𝑦2𝑡 𝑅𝑦
{ }
[19.3.18]
X (𝑅𝛼 𝛼 𝑇 + 𝑅𝑦 𝑦𝑇 − 𝑟)
Tiene una distribución asintótica 𝑥 2 (𝑚).
Las dificultades con las distribuciones no estándar para pruebas de hipótesis sobre el vector de
cointegracion se deben a la posibilidad de correlaciones no nulas entre 𝑧𝑡∗ y 𝑢2𝑡 . El enfoque básico
para construir las pruebas de hipótesis será, por lo tanto, transformar la regresión de las
estimaciones para eliminar los efectos de esta correlación.

Corregida la correlación entre 𝑧𝑡∗ y 𝑢2𝑡 sugerida por Saikkonen (1991), Phillips y Loretan (1991),
Stock y Watson (1993), y Wooldridge (1991), es argumentar [19.3.1] con derivaciones y rezagos de
∆𝑦2𝑡 . Específicamente, puesto que 𝑧𝑡∗ y 𝑢2𝑡 son estacionarias, podemos definir 𝑧̅𝑡 como el residuo
de una proyección lineal de 𝑧𝑡∗ en {𝑢2,𝑡−𝑝 , 𝑢2,𝑡−𝑝+1 , … , 𝑢2,𝑡−1 , 𝑢2𝑡 , 𝑢2,𝑡+1 , … , 𝑢2,𝑡+𝑝 }:
𝑃
𝑧𝑡∗ = ∑ 𝛽𝑠′ 𝑢2,𝑡−𝑠 + 𝑧̅𝑡

𝑠= −𝑃
Donde 𝑧̅𝑡 por construcción no está correlacionada con 𝑢2,𝑡−𝑠 para 𝑠 = −𝑝, −𝑝 +
1, … , 𝑝. Recordando de [19.3.2] que 𝑢2𝑡 = ∆𝑦2𝑡 , ecuación [19.3.1] entonces se puede escribir:
𝑦1𝑡 = 𝛼 + ϒ′ 𝑦2𝑡 + ∑𝑃𝑠=−𝑝 𝛽𝑠′ ∆𝑦2,𝑡−𝑠 + 𝑧̅𝑡 [19.3.19]
Si estamos dispuestos a asumir que la correlación entre 𝑧𝑡∗ y 𝑢2,𝑡−𝑠 es cero para |𝑠| > 𝑝, entonces la
prueba F sobre el valor verdadero de ϒ que tiene una distribución asintótica 𝑥 2 es fácil de construir
usando el mismo enfoque adoptado en [19.3.18].
Para una declaración más formal, deje que 𝑦1𝑡 y 𝑦2𝑡 satisfagan [19.3.19] y [19.3.2] con:
∞
𝑧̅
[𝑢 𝑡 ] = ∑ 𝛹
̅𝑠 𝜀1−𝑠
2𝑡
𝑠=0
∞
Donde {𝑠. 𝛹 ̅𝑠 }𝑠 = 0 es una secuencia absolutamente sumable de matrices (𝑛 𝑥 𝑛) y {𝜀𝑡 }𝑡 ∞ =
−∞ es una secuencia independiente e idénticamente distribuida de (𝑛 𝑥 1) vectores con media
cero, varianza 𝑃𝑃′ , y cuartos finitos con 𝛹̅ (1). 𝑃 no singulares. Supongamos que 𝑧̅𝑇 no está
correlacionada con 𝑢2𝑇 para todo t y T, de modo que:
𝜎 0′
𝑃= [ 1 ] [19.3.20]
0 𝑃22
̅ 0′
̅ (𝐿) = [𝜓11 (𝐿)
𝛹 ] [19.3.21]
0 ̅22 (𝐿)
𝛹
̅22 (𝐿) son (𝑔 𝑥 𝑔) matrices para 𝑔 ≡ 𝑛 − 1. Definir
Donde 𝑃22 y 𝛹
′ ′ ′ ′ ′ ′ ′
𝑊𝑡 ≡ (𝑢2,𝑡−𝑝 , 𝑢2,𝑡−𝑝+1 , … , 𝑢2,𝑡−1 , 𝑢2𝑡 , 𝑢2,𝑡+1 , … , 𝑢2,𝑡+𝑝 )
′ ′
𝛽 ≡ (𝛽𝑝′ , 𝛽𝑝−1 ′
, … , 𝛽−𝑝 )
De modo que el modelo de regresión [19.3.19] pueda escribirse:
𝑦1𝑡 = 𝛽 ′ 𝑊𝑡 + 𝛼 + ϒ′ 𝑦2𝑡 + 𝑧̅𝑡 [19.3.22]
Se invita al lector a confirmar en el ejercicio 19.2 que las estimaciones de MCO de [19.3.22]
satisfacen:
𝑇 1/2 (𝛽̂𝑇 − 𝛽) 𝑄 −1 ℎ1
𝐿
[𝑇 1/2 (𝛼̂ 𝑇 − 𝛼)] → [ 𝜆̅11 𝑣1 ] [19.3.23]
𝑇(ϒ ̂ 𝑇 − ϒ) 𝜆̅11 𝑣2
𝐿
Donde 𝑄 ≡ 𝐸(𝑊𝑡 𝑊𝑡′ ), 𝑇 −1/2 ∑ 𝑊𝑡 𝑧̅𝑡 → ℎ1 , 𝜆̅11 ≡ 𝜎1 . 𝜓̅11 (1) , y:

−1
1 {∫[𝑊2 (𝑟)]′ 𝑑𝑟} ʌ̅′22 𝑊1 (1)
𝑣1
[𝑣 ] = [ ] 𝑥 [ ]
2 ʌ̅22 {∫[𝑊2 (𝑟)] 𝑑𝑊1 (𝑟)}
ʌ̅22 ∫ 𝑊2 (𝑟)𝑑𝑟 ʌ̅22 {∫[𝑊2 (𝑟)][𝑊2 (𝑟)]′ 𝑑𝑟} ̅ʌ′22
Aquí ʌ̅22 ≡ 𝛹̅22 (1). 𝑃22 , 𝑊1 (𝑟) es un movimiento Browniano estándar univariante, 𝑊2 (𝑟) es
un movimiento Browniano estándar g- dimensional que es independiente de 𝑊1 (. ), y la
integración del signo integral sobre r de 0 a 1. Por lo tanto, como en [19.3.12],
−1
𝑣1 0 1 {∫[𝑊2 (𝑟)]′ 𝑑𝑟}ʌ̅′22
[|𝑣 | 𝑊2 (. )] ~𝑁 ([ ] , [[ ]] ) [19.3.24]
2 0 ʌ̅ 22 ∫ 𝑊2 (𝑟)𝑑𝑟 ʌ̅22 {∫[𝑊2 (𝑟)]. [𝑊2 (𝑟)]′ 𝑑𝑟}ʌ̅′22
Además, la forma Wald de la prueba 𝑥 2 de MCO de la hipótesis nula 𝑅𝑦 ϒ= r, donde 𝑅ϒ es una

matriz (𝑚 𝑥 𝑔) y r es un vector , puede demostrarse que satisface:
−1 −1
′
∑ 𝑊𝑡 𝑊𝑡′ ∑ 𝑊𝑡 ∑ 𝑊𝑡 𝑦2𝑡
0
′
̂ 𝑇 − 𝑟}
𝑋𝑇2 = {𝑅ϒ ϒ 𝑠𝑇2 [0 0 𝑅ϒ ] ∑ 𝑊 ′ 𝑡 𝑇 ′
∑ 𝑦2𝑡 [ 0′ ]
𝑅ϒ′
′ ′
{ [∑ 𝑦2𝑡 𝑊𝑡 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ] }
̂ 𝑇 − 𝑟}
X {𝑅ϒ ϒ
𝑃
→ (𝜆̂11
2
−1 −1
1 {∫[𝑊2 (𝑟)] 𝑑𝑟} ʌ̅′22
′
0′
/𝑠𝑇2 )[𝑅ϒ 𝑣2 ]′ [0 𝑅ϒ ] 𝑥 [ ] [ ] [𝑅ϒ 𝑣2 ]
𝑅ϒ′
ʌ̅22 ∫ 𝑊2 (𝑟)𝑑𝑟 ʌ̅22 {∫[𝑊2 (𝑟)]. [𝑊2 (𝑟)]′ 𝑑𝑟} ʌ̅′22
{ }
[19.3.25]
Véase el ejercicio 19.3. Pero el resultado [19.3.24] implica que condicional a 𝑊2 (. ), la expresión en
[19.3.25] es (𝜆̅11
2
/ 𝑠𝑇2 ) veces una variable 𝑥 2 (𝑚). Ya que esta distribución es la misma para todos
los 𝑊2 (. ), se sigue que la distribución incondicional también satisface;
𝑃
𝑋𝑇2 → (𝜆̅11
2
/𝑠𝑇2 ). 𝑥 2 (𝑚) [19.3.26]
El resultado [19.3.26] establece que para probar una hipótesis sobre el valor del vector de
cointegracion ϒ, podemos estimar [19.3.19] por MCO y calcular la prueba F estándar de la
hipótesis de que 𝑅𝑦 ϒ = 𝑟 usando la formula usual. Solo se necesita multiplicar el estadístico F de
MCO por una estimación consistente de (𝑠𝑇2 /𝜆11 ̅ ), y el estadístico F se puede comparar con las
2
tablas 𝐹(𝑚, 𝑇 − 𝑘) habituales para 𝑘 el numero de parámetros estimados en [19.3.19] para una
prueba asintóticamente valida. De manera similar, el estadístico t de MCO podría multiplicarse por
1/2
(𝑠𝑇2 /𝜆2̅11 ) y compararse con las tablas t estándar.
Una estimación consistente de 𝜆̅11 2

es fácil de obtener. Recordar que 𝜆̅11 = 𝜎1 . 𝜓̅11 (1), donde
𝑧̅𝑡 = 𝜓11 (𝐿)𝜀1𝑡 y 𝐸(𝜀1𝑡 = 𝜎1 . Supongamos que aproximamos 𝜓̅11 (𝐿) mediante un proceso de
̅ 2) 2
𝐴𝑅(𝑝), y djamos que 𝑢̂𝑡 represente el residuo de la muestra resultante de la estimación de MCO de
[19.3.19]. Si 𝑢̂𝑡 es regresado en 𝑝 de sus propios rezagos:
𝑢̂1 = ∅1 𝑢̂𝑡−1 + ∅2 𝑢̂𝑡−2 + … + ∅𝑝 𝑢̂𝑡−𝑝 + 𝑒𝑡

Entonces una estimación natural de 𝜆̅11 es:
𝜆̂̅11 = 𝜎̂1 /(1 − 𝜙̂1 − 𝜙̂2 − … − 𝜙̂𝑝 ) [19.3.27]
Donde
𝑇
𝜎̂12 = (𝑇 − 𝑝) −1
∑ 𝑒̂𝑡2
𝑡=𝑝+1
Y donde 𝑇 indica el numero de observaciones efectivamente utilizadas para estimar [19.3.19].

Alternativamente, si la dinámica implicada por 𝜓̅11 (𝐿) fuera aproximada sobre la base de
autocovarianzas 𝑞, el estimador de Newey – West podría ser usado:
𝜆̂̅11
2 𝑞
= 𝑐̂0 + 2. ∑𝑗=1[1 − 𝑗/(𝑞 + 1)] 𝑐̂𝑗 [19.3.28]
Donde
𝑇
−1
𝑐̂𝑗 = 𝑇 ∑ 𝑢̂𝑡 𝑢̂𝑡−𝑗
𝑡=𝑗+1
Estos resultados se derivaron en el supuesto de que no había términos de deriva es ninguno de los
elementos de 𝑦2𝑡 . Sin embargo, no es difícil demostrar que el mismo procedimiento funciona
exactamente de la misma manera cuando algunos o todos los elementos de 𝑦2𝑡 implican tendencias
de tiempo deterministas. Además, no hay ningún problema con la adición de una tendencia
temporal a la regresión de [19.3.19] y probando una hipótesis sobre su valor usando este mismo
factor aplicado a la prueba F usual. Esto permite probar por separado la hipótesis d que (1)𝑦1𝑡 −
ϒ′ 𝑦1𝑡 no tiene tendencia temporal y (2)𝑦1𝑡 − ϒ′ 𝑦2𝑡 es 𝐼(0), es decir, probar por separado las
restricciones [19.1.15] y [19.1.12]. Se invita al lector a verificar estas afirmaciones en los ejercicios
19.4 y 19.5.
Ilustracion – Probando Hipotesis Sobre La Relacion De Cointegracion

Entre Consumo E Ingreso
Como una ilustración de este enfoque, vuelva a considerar la relación entre el consumo 𝑐𝑡 y el
ingreso 𝑦𝑡 , para el cual se encontraron evidencias de cointegracion.
Se estimo la siguiente regresión para t = 1948: II a 1988: III por MCO, con formulas MCO usuales
para desviaciones estándar entre paréntesis.
𝑐𝑡 = −4.52 + 0.99216𝑦𝑡 + 0.15∆𝑦𝑡+4 + 0.29∆𝑦𝑡+3 + 0.26∆𝑦𝑡+2 + 0.49∆𝑦𝑡+1 − 0.24∆𝑦𝑡 −
(2.34) (0.00306) (0.12) (0.12) (0.11) (0.12) (0.12)
0.01∆𝑦𝑡−1 + 0.07∆𝑦𝑡−2 + 0.04∆𝑦𝑡−3 + 0.02∆𝑦𝑡−4 + 𝑢̂𝑡
(0.11) (0.11) (0.11) (0.11)
𝑇
2 −1
𝑠 = (𝑇 − 11) ∑ 𝑢̂𝑡2 = (1.516)2
𝑡=1

Aquí T, el número de observaciones realmente utilizado para estimar [19.3.29], es 162. Para probar
la hipótesis nula de que el vector de cointegracion es 𝑎 = (1, −1)′ , comenzamos con la prueba t
de MCO usual de la hipótesis,
𝑡 = (0.99216)/0.00306 = - 2.562
Una autoregresion de segundo orden ajustado a los residuos de [19.3.29] por MCO producido.
𝑢̂𝑡 = 0.7180𝑢̂𝑡−1 + 0.2057𝑢̂𝑡−2 + 𝑒̂𝑡 [19.3.30]
Donde
𝑇
𝜎̂12 = (𝑇 − 2) −1
∑ 𝑒̂𝑡2 = 0.38092
𝑡=3
Por lo tanto, la estimación de 𝜆̅11 sugerida en [19.3.27] es
𝜆̅11 = (0.38092)1/2 / (1 – 0.7180 – 0.2057) = 8.089
Por lo tanto, una prueba de la hipótesis nula de que 𝑎 = (1, −1)′ puede basarse en
𝑡. (𝑠/𝜆̂̅11 ) = (−2.562)(1.516)/8.089 = - 0.48
Dado que – 0.48 está por encima del valor critico de 5% de – 1.96 para una variable N (0,1),
aceptamos la hipótesis nula de que 𝑎 = (1, −1)′ .
Para probar por separado las restricciones implícitas por la cointegracion para la tendencia temporal
y el componente estocástico, se reestimó la estimación de [19.3.29] con una tendencia temporal:
𝑐𝑡 = 198.9 + 0.6812𝑦𝑡 + 0.2690𝑡 + 0.03∆𝑦𝑡+4 + 0.17∆𝑦𝑡+3 + 0.15∆𝑦𝑡+2 + 0.40∆𝑦𝑡+1

(15.0) (0.0229) (0.0197) (0.08) (0.08) (0.08) (0.08)
−0.05∆𝑦𝑡 +0.13∆𝑦𝑡−1 + 0.23∆𝑦𝑡−2 + 0.20∆𝑦𝑡−3 + 0.19∆𝑦𝑡−4 + 𝑢̂𝑡

(0.08) (0.08) (0.08) (0.08) (0.07)
Una autoregresion de segundo orden adaptada a los residuos de [19.3.31] producido
𝑢̂𝑡 = 0.6872𝑢̂𝑡−1 + 0.1292𝑢̂𝑡−2 + 𝑒̂𝑡
Donde
𝑇
𝜎̂12 = (𝑇 − 2) −1
∑ 𝑒̂𝑡2 = 0.34395
𝑡=3
y;
𝜆̂̅11 = (0.34395)1/2 /(1 − 0.6872 − 0.1292) = 3.194

Una prueba de la hipótesis de que la tendencia temporal no contribuye a [19.3.31] es así dada por:
[(0.2690|0.0197)]. [(1.017|3.194)] = 4.35
Desde 4.35>1.96, rechazamos la hipótesis nula de que el coeficiente de la tendencia temporal es

cero.
Los resultados de MCO en [19.3.29] son ciertamente consistentes con la hipótesis de que el
consumo y el ingreso se cointegran con el vector de cointegracion 𝑎 = (1, −1)′ .

Sin embargo, [19.3.31] indica que este resultado está dominado por la tendencia temporal
determinista común a 𝑐𝑡 y 𝑦𝑡 . Parece que mientras 𝑎 = (1, −1)′ es suficiente para eliminar los
componentes de tendencia de 𝑐𝑡 𝑦 𝑦𝑡 , el 𝑐𝑡 − 𝑦𝑡 residual contiene un componente estocástico que
podría ser visto como I (1). La figura 19.6 proporciona un grafico de 𝑐𝑡 − 𝑦𝑡 . De hecho, esta
transformación parece haber eliminado la tendencia, aunque los shocks estocásticos a 𝑐𝑡 − 𝑦𝑡 no
parecen desaparecer en un periodo tan corto como 2 años.
Observaciones Y Extensiones Adicionales:

Se supuso a lo largo de las derivaciones en esta sección que 𝑧̅𝑡 es I (0), de modo que 𝑦𝑡 es
cointegrada con el vector de cointegracion que tiene un coeficiente no nulo en 𝑦1𝑡 . Si 𝑦𝑡 no
estuviera cointegrado, entonces [19.3.19] no sería válido. Pr esta razón la estimación de [19.3.19]
normalmente se llevaría a cabo después de una investigación inicial sugirió la presencia de una
relación de cointegracion.
FIGURA 19.6 Cien veces la diferencia entre el logaritmo de los gastos de consumo personal (𝑐𝑡 ) y
el registro del ingreso personal disponible (𝑦𝑡 ) para los Estados Unidos, trimestralmente, 1947-89.
También se asumió que ʌ22 es no singular, lo que significa que no relaciones de cointegracion entre
las variables en 𝑦2𝑡 . Supongamos que estamos interesados en estimar ℎ > 1diferentes vectores
cointegrantes, representados por un sistema de la forma:
𝑦1𝑡 = 𝛤 ′ . 𝑦2𝑡 + 𝑢1∗ + 𝑧𝑡∗ [19.3.32]

(𝒉𝒙𝟏) (𝒉𝒙𝒈) (𝒈𝒙𝟏) (𝒉𝒙𝟏) (𝒉𝒙𝟏)
∆𝑦2𝑡 = 𝛿2 + 𝑢2𝑡 [19.3.33]

(𝒈𝒙𝟏) (𝒈𝒙𝟏) (𝒈𝒙𝟏)
Con
𝑧𝑡∗
[ ] = 𝛹 ∗ (𝐿)𝜀𝑡
𝑢2𝑡

Y 𝛹 ∗ (1) no singular. Aquí la generalización de la aproximación anterior seria aumentar [19.3.32]
con las derivaciones y rezagos de ∆𝑦2𝑡 :
𝑝
𝑦1𝑡 = 𝑢1∗ + 𝛤 ′ 𝑦2𝑡 + ∑𝑠=−𝑝 𝐵𝑠′ ∆𝑦2,𝑡−𝑠 + 𝑧̅𝑡 [19.3.34]
Donde 𝐵𝑠′ denota una matriz de coeficientes y se supone que 𝑧̅𝑡 no está correlacionada con 𝑢2𝑡
para todo t y 𝜏. La expresión [19.3.34] describe un conjunto de ecuaciones ℎ. La i-ésima ecuación
de regresión 𝑦𝑖𝑡 sobre una constante, sobre el valor actual de todos los elementos de 𝑦2𝑡 , y sobre
los cambios pasados, presentes y futuros de todos los elementos de 𝑦2𝑡 . Esta ecuación podría ser
(𝑖) (𝑖) 2
(𝑖)
estimada por MCO, con el estadístico F usual multiplicada por [𝑠𝑇 /𝜆̅11 ] , donde 𝑠𝑇 es el error
(𝑖)
estándar de la regresión y 𝜆̅11 podría estimarse a partir de las autocovarianzas de los residuos 𝑧̅̂𝑖𝑡
para la regresión.
El enfoque que acabamos de describir estimó la relación en [19.3.19} por MCO y realizó ajustes a
los estadísticos t y F usuales para poder compararlas con las tablas estándar t y F. Stock y Watson
(1993) también surgió el enfoque más eficiente de la primera estimación [19.3.19] por MCO, luego
usando los residuos para construir una estimación consistente de la autocorrelacion de 𝑢𝑡 en
[19.3.27] o [19.3.28], y finalmente reestimando la ecuación por mínimos cuadrados generalizados.
Los errores estándar de los MCG resultantes podrían ser utilizados para construir pruebas de
hipótesis asintóticamente 𝑥 2 .
Phillips y Loretan (1991, p .424) sugirió que en lugar de autocorrelacion de los residuos de [19.3.19]
podría ser manejado mediante la inclusión de valores rezagados del residuo de la relación de
cointegracion en forma de:
𝑝 𝑝
𝑦1𝑡 = 𝛼 + ϒ′ 𝑦2𝑡 + ∑𝑠=−𝑝 𝛽𝑠′ ∆𝑦2,𝑡−𝑠 + ∑𝑠=1 𝜙𝑠 (𝑦1,𝑡−𝑠 − ϒ′ 𝑦2,𝑡−𝑠 ) + 𝜀1𝑡 [19.3.35]
Su propuesta fue estimar los parámetros en [19.3.35] mediante la minimización numérica de la suma
de los residuos cuadrados.
Las Estimaciones De Mco Completamente Modificadas De Phillip Y

Hansen
Un enfoque relacionado fue sugerido por Phillip y Hanson (1990). Considerar de nuevo un sistema
con una única relación de cointegracion escrita en la forma:
𝑦1𝑡 = 𝛼 + ϒ′ 𝑦2𝑡 + 𝑧𝑡∗ [19.3.36]
∆𝑦2𝑡 = 𝑢2𝑡 [19.3.37]
𝑧𝑡∗
[ ] 𝛹 ∗ (𝐿)𝜀𝑡
𝑢2𝑡
𝐸(𝜀𝑡 𝜀𝑡′ ) = 𝑃𝑃′
Donde 𝑦2𝑡 es un vector (𝑔𝑥1) y 𝜀𝑡 es un vector de media cero i.i.d para (𝑛𝑥1). Definir:
ʌ∗ ≡ 𝛹 ∗ (1). 𝑃
∑∗ 11 ∑∗ 21
(1𝑥1) (1𝑥𝑔)
∑∗ ≡ ʌ∗ . [ʌ∗ ]′ ≡ [ ∗ ∗ ] [19.3.38]
∑ 21 ∑ 22
(n x n)

Con ʌ∗ como siempre se supone que es una matriz no singular.
′ )′
Recordemos de la ecuación [10.3.4] que la función generadora de autocovarianza para (𝑧𝑡∗ , 𝑢2𝑡
viene dada por:
∞ ′
𝐸(𝑧𝑡∗ 𝑧𝑡−𝑣
∗ )
𝐸(𝑧𝑡∗ 𝑢2,𝑡−𝑣 )
𝐺(𝑧) ≡ ∑ 𝑧 𝑣 [ ∗ ) ′
]
𝐸(𝑢2𝑡 𝑧𝑡−𝑣 𝐸(𝑢2𝑡 𝑢2,𝑡−𝑣 )
𝑣=−∞
= [𝛹 ∗ (𝑧)]. 𝑃𝑃′ [𝛹 ∗ (𝑧 −1 )]′
Por lo tanto, ∑∗ podría alternativamente ser descrito como la función generadora de autocovarianza
𝐺(𝑧) evaluada en 𝑧 = 1:
′
∗
∑11 ∑∗′
21 ∞
𝐸(𝑧𝑡∗ 𝑧𝑡−𝑣
∗ )
𝐸(𝑧𝑡∗ 𝑢2,𝑡−𝑣 )
[ ∗ ∗ ] = ∑𝑣=−∞ [ ] [19.3.39]
∑21 ∑22 ∗ )
𝐸(𝑢2𝑡 𝑧𝑡−𝑣 ′
𝐸(𝑢2𝑡 𝑢2,𝑡−𝑣 )
La diferencia entre la distribución general para el vector de cointegración estimado descrito en la

proposición19.2 y el caso especial conveniente investigado en [19.3.15] se debe a factores. El
primero es la posibilidad de un valor distinto de cero para ∑∗21 , y el segundo es el termino
constante que puede aparecer en la variable ℎ2 descrita en la proposición 19.2, que surge de un
valor distinto de cero para:
ℵ ≡ ∑∞ ∗
𝑣=0 𝐸(𝑢2𝑡 𝑧𝑡+𝑣 ) [19.3.40
La primera cuestión se puede abordar restando ∑∗′ ∗ −1

21 (∑22 ) ∆𝑦2𝑡 de ambos lados de [19.3.36],
llegando a:
+
𝑦1𝑡 = 𝛼 + ϒ′ 𝑦2𝑡 + 𝑧𝑡+
Donde;
+
𝑦1𝑡 ≡ 𝑦1𝑡 − ∑∗′ ∗ −1
21 (∑22 ) ∆𝑦2𝑡 [19.3.41]
𝑧𝑡+ ≡ 𝑧𝑡∗ − ∑∗′ ∗ −1

21 (∑22 ) ∆𝑦2𝑡
Notar que desde ∆𝑦2𝑡 = 𝑢2𝑡 , el vector (𝑧𝑡+ , 𝑢2𝑡

′ )′
se puede escribir como:
𝑧𝑡+ 𝑧∗
[ ] = 𝐿′ [ 𝑡 ] [19.3.42]
𝑢2𝑡 𝑢2𝑡
Para;
ℓ′ 1
′ 1 −∑∗′ ∗ −1
21 (∑22 ) (1𝑥𝑛)
𝐿 ≡[ ]≡ [ ′ ] [19.3.43]
0 𝐼𝑔 𝐿 2
(𝑔𝑥𝑛)
+
Supongamos que debemos estimar α y ϒ con regresión por MCO de 𝑦1𝑡 en una escala cómoda y
𝑦2𝑡 :
′ −1 +
𝛼̂ + 𝑇 ∑𝑦2𝑡 ∑𝑦1𝑡
[ 𝑇+ ] = [ ′ ] [ +] [19.3.44]
𝑦̂𝑇 ∑𝑦2𝑡 ∑𝑦2𝑡 𝑦2𝑡 ∑𝑦2𝑡 𝑦1𝑡
La distribución de las estimaciones resultantes se encuentra de nuevo en la proposición 19.2.
Observe que el vector 𝜆1∗′ usado en la proposición 19.2 puede escribirse como 𝑒1′ ʌ∗ para 𝑒1′ la
primera fila de 𝐼𝑛 , mientras que la matriz ʌ∗2 en la proposición 19.2 puede escribirse como 𝐿′2 ʌ∗
para 𝐿′2 las últimas 𝑔 de 𝐿′ . La distribución asintótica de las estimaciones en [19.3.44] se encuentra

escribiendo ʌ∗2 en [19.2.13] como 𝐿′2 ʌ∗, sustituyendo 𝜆1∗′ = 𝑒1′ ʌ∗ en [19.2.13] por ℓ1′ ʌ∗ ,
∗ ) + )
reemplazando 𝐸(𝑢2𝑡 𝑧𝑡+𝑣 por 𝐸(𝑢2𝑡 𝑧𝑡+𝑣 :
−1
𝑇 1/2 (𝛼̂ 𝑇+ − 𝛼) 1 𝑇 −3/2 ∑𝑦2𝑡′
𝑇 −1/2 ∑𝑧𝑡+
[ ] = [ −3/2 ] [ ]
̂ +
𝑇(ϒ 𝑇 − ϒ) 𝑇 ∑𝑦2𝑡 𝑇 −2 ∑𝑦2𝑡 𝑦2𝑡′ 𝑇 −1 ∑𝑦2𝑡 𝑧𝑡+
−1
𝐿
1 {∫[𝑊(𝑟)]′ 𝑑𝑟} ʌ∗′ 𝐿2
→[ ]
𝐿′2 ʌ∗ ∫ 𝑊(𝑟) 𝑑𝑟 𝐿′2 ʌ∗ {[𝑊(𝑟)]. [𝑊(𝑟)]′ 𝑑𝑟}ʌ∗ 𝐿2
ℓ1′ ʌ∗ 𝑊(1)
𝑥 [ ′ ∗ { [𝑊(𝑟)][𝑑𝑊(𝑟)]′ }ʌ∗′ ] [19.3.45]
𝐿2 ʌ ∫ ℓ1 + ℵ+
Donde 𝑊(𝑟) denota el movimiento Browniano estándar n-dimensional y;

∞
+ + )
ℵ ≡ ∑ 𝐸(𝑢2𝑡 𝑧𝑡+𝑣
𝑣=0
∞
∗
= ∑ 𝐸{𝑢2𝑡 [𝑧𝑡+𝑣 − ∑∗′ ∗ −1
21 (∑22 )] 𝑢2,𝑡+𝑣 }
𝑣=0
[19.3.46]
∞
∗ ′ 1
= ∑ 𝐸{𝑢2𝑡 [𝑧𝑡+𝑣 𝑢2,𝑡+𝑣 ]} [ ]
−(∑∗22 )−1 ∑∗21
𝑣=0
Ahora, considere el proceso vectorial (𝑛𝑥1) definido por:
ℓ′
𝐵(𝑟) ≡ [ ′1 ] ʌ∗ . 𝑊(𝑟) [19.3.47]
𝐿2
De [19.3.43] y [19.3.38], este es el movimiento Browniano con matiz de varianza
ℓ′
𝐸{[𝐵(1)]. [𝐵(1)]′ } = [ ′1 ] ʌ∗ ʌ∗′ [ℓ1 𝐿2 ]
𝐿2
1 −∑∗′ ∗ −1
21 (∑22 ) ∑∗ ∑∗′ 1 0′
=[ ] [ 11 21
][ 𝐼𝑔 ]
0 𝐼𝑔 ∑∗21 ∑∗22 −(∑∗22 )−1 ∑∗21
(𝜎 + )2 0′
=[ 1 ]
0 ∑∗22
[19.3.48]
Donde;
(𝜎1+ )2 ≡ ∑11
∗
− ∑∗′ ∗ −1 ∗
21 (∑22 ) ∑21 [19.3.49]
Partición 𝐵(𝑟) como:
𝐵1
(1𝑥1) ℓ′ ʌ∗ 𝑊(𝑟)
𝐵(𝑟) = [ ] = [ ′1 ∗ ]
𝐵2 (𝑟) 𝐿2 ʌ 𝑊(𝑟)
(𝑔𝑥1)
(nx1)

Entonces [19.3.48] implica que 𝐵1 (𝑟) es movimiento escalar Browniano con varianza (𝜎1+ )2
mientras que 𝐵2 (𝑟) es g-dimensional movimiento Browniano con matriz de varianza ∑∗22 , con
𝐵1 (. ) independiente de 𝐵2 (. ). El proceso 𝐵(𝑟) a su vez puede verse generado por un movimiento
estándar Browniano 𝑊 + (𝑟), donde:
𝐵1 (𝑟) 𝜎+ 0′ 𝑊1+ (𝑟)

[ ]=[ 1 ∗ ][ + ]
𝐵2 (𝑟) 0 𝑃22 𝑊2 (𝑟)
∗ ∗′
Para 𝑃22 𝑃22 = ∑∗22 la factorización de Cholesky de ∑∗22 . Resultado [19.3.45] se puede expresar el
equivalente como:
𝑇 1/2 (𝛼̂ 𝑇+ − 𝛼)
[ ]
𝑇(ϒ ̂ +𝑇 − ϒ)
−1
𝐿
1 {∫[𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22
∗′
→ [ ]
∗
𝑃22 ∫ 𝑊2+ (𝑟)𝑑𝑟 ∗ {[𝑊 +
𝑃22 + ′
2 (𝑟)]. [𝑊2 (𝑟)] 𝑑𝑟}
[ ]
[19.3.50]
𝜎1+ . 𝑊1+ (1)
𝑥 [ ∗ ]
𝑃22 {∫ 𝑊2+ (𝑟)𝑑𝑊1+ (𝑟)} 𝜎1+ + ℵ+
Si no fuera por la presencia de la constante ℵ+ , la distribución en [19.3.50] seria de la forma de

[19.3.11], de la cual seguiría condicional a 𝑊2+ (. ), la variable en [19.3.50] seria Gaussiana y los
estadísticos de prueba que son asintóticamente 𝑥 2 podría ser generado como antes.
Recordando [19.3.39], uno podría proponer estimar ∑∗ por:

𝑞
̂∗
∑ ̂ ∗21
∑
[ 11 ] = 𝛤̂0 + ∑{1 − [𝑣/(𝑞 + 1)]}(𝛤̂𝑣 + 𝛤̂𝑣′ )
̂ ∗21
∑ ̂ ∗22
∑
𝑣=1
[19.3.51]
Donde:
𝑇 ′
(𝑧̂𝑡∗ 𝑧̂𝑡−𝑣
∗ )
(𝑧̂𝑡∗ 𝑢̂2,𝑡−𝑣 )
𝛤̂𝑣 = 𝑇 −1
∑ [ ∗ ′
]
(𝑢̂2𝑡 𝑧̂𝑡−𝑣 ) (𝑢̂2𝑡 𝑢2,𝑡−𝑣 )
𝑡=𝑣+1
[19.3.52]
(𝑣) (𝑣)
𝛤̂ 𝛤̂12
≡ [ 11(𝑣) (𝑣)
]
𝛤̂21 𝛤̂22
Para 𝑧̂𝑡∗ el residuo muestral resultante de la estimación de [19.3.36] por MCO y 𝑢̂2𝑡 = ∆𝑦2𝑡 . Para
llegar a una estimación similar de ℵ+ , tenga en cuenta que [19.3.46] puede escribirse:
∞
′ ] 1
ℵ = ∑ 𝐸{𝑢2,𝑡−𝑣 [𝑧𝑡∗
+
𝑢2𝑡 }[ ]
−(∑∗22 )−1 ∑∗21
𝑣=0
∞ ′ ′
𝑧𝑡∗ 𝑢2,𝑡−𝑣 1
= ∑ 𝐸 {[ ′ ] }[ ∗ )−1 ∗ ]
𝑢2𝑡 𝑢2,𝑡−𝑣 −(∑22 ∑21
𝑣=0
∞ (𝑣) ′
𝛤12 1
= ∑[ ] [ ]
𝛤
(𝑣) −(∑∗22 )−1 ∑∗21
𝑣=0 22

Esto sugiere que el estimador:
𝑞
(𝑣) ′ (𝑣) ′ 1
̂+𝑇 = ∑{1 − [𝑣/(𝑞 + 1)]} {[[𝛤̂12
ℵ ] [𝛤̂22 ] ]} [ ̂ ∗ −1 ̂ ∗ ]
−(∑22 ) ∑21
𝑣=0
[19.3.53]
El estimador MCO completamente modificado propuesto por Phillips y Hansen (1990)es entonces:
−1 +
𝛼̂ ++ 𝑇 ′
∑ 𝑦2𝑡 ∑ 𝑦̂1𝑡
[ 𝑇++ ] = [ ′ ] [ ̂+𝑇 }]
̂
ϒ𝑇 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 +
{∑ 𝑦2𝑡 𝑦̂2𝑡 − 𝑇ℵ
+
Para 𝑦̂1𝑡 ̂ ∗′
≡ 𝑦1𝑡 − ∑ ̂ ∗ −1
21 (∑22 ) ∆𝑦2𝑡 . Este análisis implica que:
−1
𝑇 1/2 (𝛼̂ 𝑇++ − 𝛼) 1 𝑇 −3/2 ∑ 𝑦2𝑡′
𝑇 −1/2 ∑ 𝑧̂𝑡+
[ ] = [ −3/2 ] [ −1 ]
𝑇(ϒ ̂ 𝑇 − ϒ)
++
𝑇 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡′
𝑇 ∑ 𝑦2𝑡 𝑧̂𝑡+ − ℵ ̂𝑇
𝐿 𝑣1
→ 𝜎1+ [𝑣 ]
2
Donde:
−1
𝑣1
1 {∫[𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22
∗′
[𝑣 ] ≡ [ ]
2 ∗
𝑃22 ∫ 𝑊2+ (𝑟)𝑑𝑟 ∗
𝑃22 {∫[𝑊2+ (𝑟)]. [𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22
∗′
[ ]
𝑊1+ (1)
𝑥[ ∗ ]
𝑃22 {∫ 𝑊2+ (𝑟)𝑑𝑊1+ (𝑟)}
Se sigue como en [19.3.12] que;

𝑣1 0
[|𝑣 | 𝑊2+ (. )] ~𝑁 ([ ] . 𝐻 −1 )
2 0
Para
1 {∫[𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22

′
𝐻≡[ ]
∗
𝑃22 ∫ 𝑊2+ (𝑟)𝑑𝑟 ∗
𝑃22 {∫[𝑊2+ (𝑟)]. [𝑊2+ (𝑟)]′ 𝑑𝑟} 𝑃22
∗′
Además, [19.3.49] sugiere que una estimación consistente de (𝜎1+ )2 es proporcionada por:
̂ 11
(𝜎̂1+ )2 = ∑ ∗
−∑ ̂ ∗22 )−1 ∑
̂ ∗21 (∑ ̂ ∗21
Con ∑ ̂ ∗𝑖𝑗 dado por [19.3.51]. Esto, si multiplicamos la forma Wald usual de la prueba 𝑥 2 de 𝑚
restricciones de la forma 𝑅ϒ = 𝑟 por (𝑠𝑇 /𝜎̂1+ )2, el resultado es una estadística asintóticamente
𝑥 2 (𝑚) bajo hipótesis nula:
−1 −1
′
∑ 𝑦2𝑡
̂ ++ ′ 𝑇 0′ ̂ ++
(𝑠𝑇 /𝜎̂1+ )2 . 𝑥𝑇2 = {𝑅ϒ 𝑇 − 𝑟} {(𝜎̂1+ )2 [0 𝑅] [ ′ ] [ ′ ]} {𝑅ϒ 𝑇 − 𝑟}
∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 𝑅

−1 −1
′
̂ ++ ′ 1 𝑇 −3/2 ∑ 𝑦2𝑡 0′ ̂ ++
≡ {𝑅. 𝑇(ϒ 𝑇 − ϒ)} {(𝜎̂1+ )2 [0 𝑅] 𝑥 [ −3/2 ′
] [ ′ ]} {𝑅. 𝑇(ϒ 𝑇 − ϒ)}
𝑇 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 𝑅
𝐿 ′ −1
→ (𝜎1+ )2 (𝑅𝑣2 )′ {(𝜎1+ )2 [0 𝑅]𝐻 −1 [ 0 ′ ]} (𝑅𝑣2 )~𝑥 2 (𝑚)
𝑅
Esta descripción ha supuesto que no había derivada en ningún elemento del sistema. Hansen (1992)
demostró que el procedimiento se modifica fácilmente si 𝐸(∆𝑦2𝑡 ) = 𝛿2 ≠ 0, simplemente
reemplazando 𝑢̂2𝑡 en [19.3.52] con;
𝑢̂2𝑡 = ∆𝑦2𝑡 − 𝛿̂2

Donde:
𝑇
𝛿̂2 = 𝑇 −1
∑ ∆𝑦2𝑡
𝑇=1
Hansen también demostró que una tendencia temporal podría agregarse a la relación de
cointegracion como en:
𝑦1𝑡 = 𝛼 + ϒ′ 𝑦2𝑡 + 𝛿𝑡 + 𝑧𝑡∗

Para el cual el estimador completamente modificado es:
𝛼̂ 𝑇++ 𝑇 ′
∑ 𝑦2𝑡 ∑ 𝑡 −1 ∑ 𝑦̂1𝑡 +
̂ ++
[ϒ 𝑇 ] = [∑ 𝑦2𝑡 ′
∑ 𝑦2𝑡 𝑦2𝑡 +
∑ 𝑦2𝑡 𝑡] [∑ 𝑦2𝑡 𝑦̂1𝑡 − 𝑇ℵ+𝑇 ]
′ ∑ 𝑡2
𝛿̂𝑇++ ∑𝑡 ∑ 𝑡𝑦2𝑡 ++
∑ 𝑡𝑦̂1𝑡
̂ ++
Recogiendo estas estimaciones en un vector 𝑏𝑇++ = (𝛼̂ 𝑇++ , [ϒ ̂ ++ ′
𝑇 ], 𝛿𝑇 ) , una hipótesis que implica
𝑚 restricciones sobre 𝛽 de la forma 𝑅𝛽 = 𝑟 puede ser probada por:
−1
𝑇 ′
∑ 𝑦2𝑡 ∑ 𝑡 −1
++ + ′
′ 2
{𝑅𝑏𝑇 − 𝑟} {(𝜎̂1 ) 𝑅 [∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑡] 𝑅 ′ } {𝑅𝑏𝑇++ − 𝑟}
∑𝑡 ′
∑ 𝑡𝑦2𝑡 ∑ 𝑡2
𝐿
→ 𝑥 2 (𝑚)
Regresion De Cointegracion Canonica De Park

Una idea estrechamente relacionada ha sido sugerida por Park (1992). En el procedimiento de Park,
las variables dependientes y explicativas en [19.3.36] se transforman, y la regresión transformada
resultante puede ser estimada por MCO y privada usando procedimientos estándar. Park y Ogaki
(1991) exploraron el uso de la técnica de preblanqueo VAR de Andrews y Monahan (1992) para
reemplazar la estimación de Bartlett en expresiones tales como [19.3.51]:
APENDICE 19.A. Pruebas de las proposiciones del capítulo

19
▪ Pruebas de proposiciones 19.2. Definir 𝑦̅1𝑡 ≡ 𝑧1∗ + 𝑧2∗ + ⋯ + 𝑧𝑡∗ para 𝑡 = 1,2, … 𝑇 y
𝑦̅1.0 ≡ 0. Entonces:
y̅ 0
[y1t ] = [ ] + ε∗t
2t y2.0

Donde:
𝑡
𝑧𝑠∗
𝜀𝑡∗ ≡ ∑ [ ]
𝑢2𝑠
𝑠=1
Por lo tanto, el resultado (e) de la proposición 18.1 establece que:

T 1 ∞
y̅1,t−1 ∗ ′ L ∗
𝑇 −1
∑[ ] [zt u2t ] → ʌ . {∫ [W(r)][dW(r)]′ } . ʌ∗′ + ∑ Γ1∗′
y̅2,t−1 0
t=1 v=1
[19.A.1]
Para:
ʌ∗ ≡ 𝛹 ∗ (1). 𝑃
𝑧𝑡∗
𝛤1∗′ ≡ 𝐸 [ ] [𝑧 ∗ ′
𝑢2,𝑡+𝑣 ]
𝑢2𝑡 𝑡+𝑣
Se deduce de [19.A.1] que:
𝑇 𝑇 𝑇
𝑦̅ 𝑦̅ 𝑧∗
𝑇 −1
∑ [ 1𝑡 ] [𝑧𝑡∗ ′ ]
𝑢2𝑡 =𝑇 −1
∑ [𝑦1,𝑡−1 ] [𝑧𝑡∗ ′ ]
𝑢2𝑡 + 𝑇 −1
∑ [ 𝑡 ] [𝑧𝑡∗ ′ ]
𝑢2𝑡
𝑦̅2𝑡 2,𝑡−1 𝑢2𝑡
𝑡=1 𝑡=1 𝑡=1
[19.A.2]
1 ∞
𝐿
∗ [𝑊(𝑟)][𝑑𝑊(𝑟)]′
→ ʌ . {∫ } . ʌ + ∑ 𝛤𝑣∗′
∗′
0 𝑣=0
De manera similar, los resultados (a), (g), y (i) de la proposición 18.1 implican:
𝑇
−1/2 𝑧𝑡∗ 𝐿 ∗
𝑇 ∑[ ] → ʌ . 𝑊(1)
𝑢2𝑡
𝑡=1
[19.A.3]
𝑇
−3/2 𝑦̅1𝑡 𝐿 ∗ 1
𝑇 ∑[ → ʌ . ∫ 𝑊(𝑟)𝑑𝑟 [19. 𝐴. 4]
𝑦2𝑡 ] 0
𝑡=1
𝑇 1
−2 𝑦̅1𝑡 ′ ]
𝐿
𝑇 ∑[ [𝑦̅ 𝑦2𝑡 → ʌ∗ . {∫ [𝑊(𝑟)]. [𝑊(𝑟)]′ 𝑑𝑟} . ʌ∗
𝑦2𝑡 ] 1𝑡 0
𝑡=1
[19.A.5]
Observe que las desviaciones de las estimaciones MCO en [19.2.12] de los valores poblacionales α y
ϒ que describen la relación de cointegracion [19.2.9] están dadas por:
′ −1
𝛼̂ 𝑇 − 𝛼 𝑇 ∑ 𝑦2𝑡 ∑ 𝑧𝑡∗
[̂ ]=[ ′ ] [ ]
ϒ𝑇 − ϒ ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡 ∑ 𝑦2𝑡 𝑧𝑡∗
A partir del cual;

𝑇 1/2 (𝛼̂ 𝑇 − 𝛼)
[ ]=
𝑇(ϒ ̂ 𝑇 − ϒ)
′ −1
𝑇 −1/2 0′ 𝑇 ∑ 𝑦2𝑡 𝑇 −1/2 0′ 𝑇 −1/2 0′ ∑ 𝑧𝑡∗
{[ −1 ][ ] [ −1 ]} {[ −1 ][ ]}
0 𝑇 . 𝐼𝑔 ∑ 𝑦2𝑡 ′
∑ 𝑦2𝑡 𝑦2𝑡 0 𝑇 . 𝐼𝑔 0 𝑇 . 𝐼𝑔 ∑ 𝑦2𝑡 𝑧𝑡∗
−1
′
1 𝑇 −3/2 ∑ 𝑦2𝑡 𝑇 −1/2 ∑ 𝑧𝑡∗
=[ ] [ ]
′
𝑇 −3/2 ∑ 𝑦2𝑡 𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 𝑇 −1 ∑ 𝑦2𝑡 𝑦𝑡∗
[19.A.6]
Pero de [19.A.2]:
𝑇
−1 𝑦̅1𝑡 ∗ ′ ] 1
𝑇 ∑ 𝑦2𝑡 𝑧𝑡∗ = [0 𝐼𝑔 ]𝑇 −1
∑[ ] [𝑧 𝑢2𝑡 [ ]
𝑦2𝑡 𝑡 0
𝑡=1
1 ∞
𝐿
∗ [𝑊(𝑟)][𝑑𝑊(𝑟)]′ 1 1
→ [0 𝐼𝑔 ]ʌ . {∫ } . ʌ [ ] + [0 𝐼𝑔 ] ∑ 𝛤𝑣∗′ [ ]
∗′
0 0 0
𝑣=0
[19.A.7]
∞
= ʌ2∗ . {∫ [𝑊(𝑟)][𝑑𝑊(𝑟)]′ } . 𝜆1∗ ∗ )

+ ∑ 𝐸(𝑢2𝑡 𝑧𝑡+𝑣
𝑣=0
El uso similar de [19.A.3] a [19.A.5] en [19.A.6] produce [19.2.13].
▪ Pruebas de proposiciones 19.3. Para la simplicidad de la exposición, la discusión se

restringe al caso cuando 𝐸(∆𝑦2𝑡 ) = 0 , aunque es directo para desarrollar resultados
análogos usando un reescalonamiento y rotación de variables similares a la de [18.2.43].
∗ ∗
Considere primero cuales serian los resultados de una regresión MCO de 𝑧1𝑡 sobre 𝑧2𝑡 ≡
∗ ∗ ∗ ′
(𝑧2𝑡 , 𝑧3𝑡 , … , 𝑧ℎ𝑡 ) , una constante, y 𝑦2𝑡 :
∗ ∗
𝑧1𝑡 = 𝛽 ′ 𝑧2𝑡 + 𝛼 ∗ + ℵ∗′ 𝑦2𝑡 + 𝑢𝑡 [19.A.8]
Si esta regresión se evalúa en los valores verdaderos 𝛼 ∗ = 0 , ℵ∗ = 0, y 𝛽 ≡ (𝛽2 , 𝛽3 , … , 𝛽ℎ )′ el

vector de coeficientes de proyección en [19.2.18], entonces la perturbación 𝑢𝑡 será el residuo
∗
definido en [19.2.18]. Este residual tenia media cero y no estaba correlacionado con 𝑧2𝑡 . Las
estimaciones de MCO basadas en [19.A.8] serían:
−1
𝛽̂𝑇 ∗ ∗′
∑ 𝑧2𝑡 𝑧2𝑡 ∗
∑ 𝑧2𝑡 ∗ ′
∑ 𝑧2𝑡 𝑦2𝑡 ∗ ∗
∑ 𝑧2𝑡 𝑧1𝑡
∗ ∗′ ′ ∗
[𝛼̂ 𝑇 ] = [ ∑ 𝑧2𝑡 𝑇 ∑ 𝑦2𝑡 ] [ ∑ 𝑧1𝑡 ] [19.A.9]
̂∗𝑇 ∗′ ′ ∗
∑ 𝑦2𝑡 𝑧1𝑡
ℵ ∑ 𝑦2𝑡 𝑧2𝑡 ∑ 𝑦2𝑡 ∑ 𝑦2𝑡 𝑦2𝑡
Las desviaciones de estas estimaciones de los valores poblacionales correspondientes satisfacen:
𝛽̂𝑇 − 𝛽
∗
[ 𝛼̂ 𝑇 ] =
1
̂∗𝑇
𝑇 2ℵ

∗ ∗′ ∗ ∗ ′ −1 −1 ∗
𝐼ℎ−1 0 0 ∑ 𝑧2𝑡 𝑧2𝑡 ∑ 𝑧2𝑡 ∑ 𝑧2𝑡 𝑦2𝑡 𝑇. 𝐼ℎ−1 0 0 𝑇. 𝐼ℎ−1 0 0 ∑ 𝑧2𝑡 𝑢𝑡
[ 0′ 1 ′
0 ] [ ∑ 𝑧2𝑡∗′
𝑇 ∑ 𝑦2𝑡′
] 𝑥 [ 0′ 𝑇 0′ ] [ 0′ 𝑇 0′ ] [ ∑ 𝑢𝑡 ]
0 0 𝐼1/2 𝐼𝑔 ∑ 𝑦2𝑡 𝑧2𝑡
∗′ ∑ 𝑦2𝑡 ′
∑ 𝑦2𝑡 𝑦2𝑡 0 0 𝑇 3/2 𝐼𝑔 0 0 𝑇 3/2 𝐼𝑔 ∑ 𝑦2𝑡 𝑢𝑡
∗ ∗′ ∗ ∗ ′ −1
𝑇 −1 ∑ 𝑧2𝑡 𝑧2𝑡 𝑇 −1 ∑ 𝑧2𝑡 𝑇 −3/2 ∑ 𝑧2𝑡 𝑦2𝑡 ∗
𝑇 −1 ∑ 𝑧2𝑡 𝑢𝑡
−1 ∗′ −3/2 ∑ ′ −1 ∑
= [ 𝑇 ∑ 𝑧𝑧 1 𝑇 𝑦2𝑡 ] [ 𝑇 𝑢𝑡 ]
∗′ ′ −3/2 ∑
𝑇 −3/2 ∑ 𝑦2𝑡 𝑧2𝑡 𝑇 −3/2 ∑
𝑦2𝑡 𝑇 −2 ∑
𝑦2𝑡 𝑦2𝑡 𝑇 𝑦2𝑡 𝑢𝑡
[19.A.10]
𝑃 𝑃
∗ ∗
Recordando que 𝐸(𝑧2𝑡 𝑢𝑡 ) = 0, se puede demostrar que 𝑇 −1 ∑ 𝑧2𝑡 𝑢𝑡 → 0 y 𝑇 −1 ∑ 𝑢 → 0 por la
𝑃
ley de los grandes números. También, 𝑇 −3/2 ∑ 𝑦2𝑡 𝑢𝑡 → 0 , del argumento dado en [19.A.7].
Además;
′ 3
∗ ∗
𝑇 −1 ∑ 𝑧2𝑡 𝑧2𝑡 ∗
𝑇 −1 ∑ 𝑧2𝑡 𝑇 −2 ∑ 𝑧2𝑡
∗ ′
𝑦2𝑡
′ 3
∗
𝑇 −1 ∑ 𝑧2𝑡 1 𝑇 −2 ∑ 𝑦2𝑡
′
3 ′ 3
− ∗
[𝑇 ∑ 𝑦2𝑡 𝑧2𝑡
2 𝑇 −2 ∑ 𝑦2𝑡 ′
𝑇 −2 ∑ 𝑦2𝑡 𝑦2𝑡 ]
∗ ∗′ )
𝐸(𝑧2𝑡 𝑧2𝑡 0 0
𝐿 0′ 1 {∫[𝑊(𝑟)]′ 𝑑𝑟} ʌ∗′
2
→
0 ʌ∗2 ∫ 𝑊(𝑟)𝑑𝑟 ʌ2∗ {∫[𝑊(𝑟)]. [ 𝑊(𝑟)]′ 𝑑𝑟} ʌ∗′
2
[ ]
[19.A.11]
Donde 𝑊(𝑟) es n-dimensional estándar de movimiento Browniano y ʌ∗2 es un constructo de matriz

(𝑔 𝑥 𝑛) de las últimas líneas de 𝑔 dev 𝛹 ∗ (1). 𝑃. Nótese que la matriz en [19.A.11] es casi
seguramente no singular. Sustituyendo estos resultados en [19.A.10] se establece que:
𝛽̂𝑇 − 𝛽
𝑃 0
[ 𝛼̂ 𝑇∗ ] → [0]
̂∗𝑇
𝑇 1/2 ℵ 0
De modo que la estimación de MCO de [19.A.8] produciría consistencia de los parámetros de la

población de proyección lineal [19.2.18].
Una regresión MCO de 𝑦1𝑡 sobre una constante y los otros elementos de 𝑦𝑡 es una simple
transformación de la regresión en [19.A.8]. Para ver esto, observe que [19.A.8] se puede escribir
como:
[1 − 𝛽 ′ ]𝑧𝑡∗ = 𝛼 ∗ + ℵ∗′ 𝑦2𝑡 + 𝑢𝑡 [19.A.12]
Resolviendo [19.2.16] para 𝑧𝑡∗ y sustituyendo el resultado en [19.A.12]:
[1 − 𝛽 ′ ](𝑦1𝑡 − 𝑢1∗ − 𝛤 ′ 2𝑡 ) = 𝛼 ∗ + ℵ∗′ 𝑦2𝑡 + 𝑢𝑡
O, puesto que 𝑦1𝑡 = (𝑦1𝑡 𝑦2𝑡 , … , 𝑦ℎ𝑡 )′, tenemos:
𝑦1𝑡 = 𝛽2 𝑦2𝑡 + 𝛽3 𝑦3𝑡 + … + 𝛽ℎ 𝑦ℎ𝑡 + 𝛼 + ℵ′ 𝑦2𝑡 + 𝑢𝑡

[19.A.13]
Donde 𝛼 ≡ 𝛼 ∗ + [1 − 𝛽 ′ ]𝑢1∗ y ℵ∗′ + [1 − 𝛽 ′ ]𝑇 ′

Estimación de MCO de [19.A.8] producirá valores ajustados idénticos a los resultantes de la
estimación de MCO de [19.A.13], con las relaciones entre los coeficientes estimados como apenas
dado. Dado que la estimación de MCO de [19.A.8] produce estimaciones consistentes de [19.2.18],
la estimación de MCO de [19.A.13] produce consistencias de los parámetros transformados
correspondientes, como se afirma por la proposición. ■
▪ Pruebas de proposiciones 19.4. Como en la proposición 18.2, partición ʌʌ′ como:
∑ 11 ∑′ 21
(1𝑥1) (1𝑥𝑔)
ʌʌ′ ≡ [ ]
∑ 21 ∑ 22
(n x n) [19.A.14]
Y definir;
(1/𝜎1∗ ) (−1/𝜎1∗ ). ∑′21 ∑−1

22
𝐿′ ≡ [ ] [19.A.15]
0 𝐿′22
Donde:
(𝜎1∗ )2 ≡ (∑11 − ∑′21 ∑−1

22 ∑21 ) [19.A.16]
Y 𝐿22 es el factor Cholesky de ∑−1

22 :
∑−1 ′
22 = 𝐿22 𝐿22 [19.A.17]
Recordar de la expresión [18.A.16] que:
𝐿′ ʌʌ′ 𝐿 = 𝐼𝑛 [19.A.18]
Lo que implica que ʌʌ′ = (𝐿′ )−1 (𝐿)−1 y (ʌʌ′ )−1 = 𝐿𝐿′ ; esto, 𝐿 es el factor de Cholesky de
(ʌʌ′ )−1 referido en la proposición 19.4.
Obsérvese además que los residuos de la estimación de MCO de [19.2.24] son idénticos a los
residuos de la estimación de MCO de:
∗ ∗
𝑦1𝑡 = 𝛼 ∗ + ϒ∗′ 𝑦2𝑡 + 𝑢𝑡∗ [19.A.19]
∗
Para 𝑦1𝑡 ≡ 𝑦1𝑡 − ∑′21 ∑−1
22 𝑦2𝑡
∗
y 𝑦2𝑡 ≡ 𝐿′22 𝑦2𝑡 . Recordar de la ecuación [18.A.21] que:
𝑇 −1/2 𝛼̂ 𝑇∗ /𝛼1∗ 𝐿 ℎ1
[ ]→[ ] [19.A.20]
̂ ∗𝑇 /𝜎1∗
ϒ ℎ2
Finalmente, para las derivaciones que van a seguir;
𝑇∗ ≡ 𝑇 − 1
Prueba de (a). Dado que los residuos de la muestra 𝑢̂𝑡∗ para la estimación de MCO de [19.A.19]
son idénticos a los de la estimación de [19.2.24], tenemos que:
∑𝑇𝑡=2 𝑢̂𝑡−1
∗
𝑢̂𝑡∗
𝑇 ∗ (𝜌̂𝑇 − 1) = 𝑇 ∗ { ∗ )2 − 1}
∑𝑇𝑡=2(𝑢̂𝑡−1
[19.A.21]

(𝑇 ∗ )−1 ∑𝑇𝑡=2 𝑢̂𝑡−1 (𝑢̂𝑡∗ − 𝑢̂𝑡−1
∗ )
=
(𝑇 ∗ )−2 ∑𝑇𝑡=2(𝑢̂𝑡−1
∗ )2
Pero:
𝑢̂𝑡∗ = 𝜎1∗ . {(𝑦1𝑡

∗
/𝜎1∗ ) − (1/𝜎1∗ ). ϒ∗′ ∗
̂ 𝑇∗ /𝜎1∗ )}
𝑇 𝑦2𝑡 − (𝛼
[19.A.22]
̂ ∗′
≡ 𝜎1∗ . {[1 − ϒ ∗ ∗
̂ 𝑇∗ /𝜎1∗ )}
𝑇 /𝜎1 ]𝜉𝑡 − (𝛼
Para:
∗
𝑦1𝑡 /𝜎1∗
𝜉𝑡∗ ≡ [ ∗ ] = 𝐿′ 𝑦𝑡 [19.A.23]
𝑦2𝑡
Diferencia [19.A.22] resulta en:
∗ )
(𝑢̂𝑡∗ − 𝑢𝑡−1 = 𝜎1∗ . [1 − 𝑦̂𝑇∗′ /𝜎1∗ ]∆𝜉𝑡 ∗ [19.A.24]
Usando [19.A.22] y [19.A.24], el numerador de [19.A.21] se puede escribir:
(𝑇 ∗ )−1 ∑𝑇𝑡=2 𝑢̂𝑡−1 (𝑢̂𝑡∗ − 𝑢̂𝑡−1

∗ )
𝑇
1
= (𝜎1∗ )2 . (𝑇 ∗ )−1 ∑{[1 − 𝑦̂𝑇∗′ /𝜎1∗ ]𝜉𝑡−1
∗
− (𝛼̂ 𝑇∗ /𝜎1∗ )} {(∆𝜉𝑡∗′ ) [ ]}
−𝑦̂𝑇∗ /𝜎1∗
𝑡=2
𝑇
1
= (𝜎1∗ )2 . [1 − 𝑦̂𝑇∗′ /𝜎1∗ ]. {(𝑇 ∗ )−1 ∑ 𝜉𝑡−1
∗ (∆𝜉 ∗′ )
𝑡 } [−𝑦 ]
̂𝑇∗ /𝜎1∗
𝑡=2
𝑇
1
−(𝜎1∗ )2 . (𝑇 ∗ )−1/2 (𝛼̂ 𝑇∗ /𝜎1∗ ). {(𝑇 ∗ )−1/2 ∑(∆𝜉𝑡∗′ )} [ ∗ ∗ ]
−𝑦̂𝑇 /𝜎1
𝑡=2
[19.A.25]
Notar que la expresión:

𝑇
1
[1 − 𝑦̂𝑇∗′ /𝜎1∗ ]. {(𝑇 ∗ )−1 ∑ 𝜉𝑡−1
∗ (∆𝜉 ∗′ )
𝑡 } [−𝑦 ]
̂𝑇∗ /𝜎1∗
𝑡=2
Es una escalar y por consiguiente es igual a su propia transpuesta:

𝑇
1
[1 − 𝑦̂𝑇∗′ /𝜎1∗ ]. {(𝑇 ∗ )−1 ∑ 𝜉𝑡−1
∗ (∆𝜉 ∗′ )
𝑡 } [−𝑦 ]
̂𝑇 /𝜎1∗
∗
𝑡=2
𝑇
1
= (1/2) {[1 − 𝑦̂𝑇∗′ /𝜎1∗ ] {(𝑇 ∗ )−1 ∗ (∆𝜉 ∗′ )
∑ 𝜉𝑡−1 𝑡 }[ ]
−𝑦̂𝑇∗ /𝜎1∗
𝑡=2
𝑇
1
+ [1 − 𝑦̂𝑇∗′ /𝜎1∗ ]. {(𝑇 ∗ )−1 ∑(∆𝜉𝑡∗ )(𝜉𝑡−1
∗′ )
} [ ∗ ∗ ]}
−𝑦̂𝑇 /𝜎1
𝑡=2

𝑇
1
(1/2) {[1 − 𝑦̂𝑇∗′ /𝜎1∗ ] {(𝑇 ∗ )−1 ∑(𝜉𝑡−1
∗ (∆𝜉 ∗′ ) ∗ ∗′
𝑡 + (∆𝜉𝑡 )(𝜉𝑡−1 ))} [−𝑦 ]}
̂𝑇∗ /𝜎1∗
𝑡=2
[19.A.26]
Pero a partir del resultado (d) de la proposición 18.1:

𝑇
(𝑇 ∗ )−1 ∗′ ))
∑(𝜉𝑡−1 (∆𝜉𝑡∗′ ) + (∆𝜉𝑡∗ )(𝜉𝑡−1
𝑡=2
𝑇
′ ∗ )−1 ′ ))
= 𝐿 . {(𝑇 ∑(𝑦𝑡−1 (∆𝑦𝑡′ ) + (∆𝑦𝑡 )(𝑦𝑡−1 }.𝐿
𝑡=2
[19.A.27]
𝐿
→ 𝐿′ . {ʌ. [𝑊(1)]. [𝑊(1)]′ . ʌ′ − 𝐸[(∆𝑦𝑡 )(∆𝑦𝑡′ )]}. 𝐿
≡ [𝑊 ∗ (1)]. [𝑊 ∗ (1)]′ − 𝐸[(∆𝜉𝑡∗ )(∆𝜉𝑡∗′ )]

para W*(r) ≡ L´ A . W(r) el movimiento Browniano estándar n-dimensional en la ecuación
[18.A.17]. Sustituyendo [19.A.27] y [19.a.20] en [19.A.26] produce
[1-γ*r ´/𝜎 ∗]{∗(𝑇 ∗)−1 ∑𝑇𝑖=2 𝜉*t-1(∆ξ*´1)}[(1@γ/𝜎1∗ )] [19.A.28]

𝐿 1
→ (1/2)[1-h´2]{[W*(1)].[W*(1)]´-E[(∆ξ*t)(∆ξ*t´)]}[ ]
−ℎ2
Similar análisis del segundo término en [19.A.25] usando el resultado (a) de 18.1 propuesta revela
que
1 𝐿 1
(𝑇)−1/2 (𝜎𝑇∗ /𝜎1∗ .{(𝑇 ∗)−1/2 ∑𝑇𝑡=2(∆𝜉𝑡 ∗ ´)}[ ∗ ∗ ] → ℎ1 .[ 𝑊 ∗ (1)]´[ ]. [19.A.29]
𝛾𝑟 /𝜎1 −ℎ2
Subtitulando [19.A.28] y nosotros concluimos que:
(𝑇 ∗ )−1 ∑𝑇𝑡=2 û∗𝑡−1 (û∗𝑡 - û∗𝑡−1 )
𝐿 1 1 1
→ (𝜎1∗ )2 . {2 {[1-ℎ2´ ].[W*(1)].[W(1)]´.[ ]}-ℎ1 .[W*(1)]´. [ ]
ℎ2 −ℎ2
[19.A.30]
1
-(1/2).[1-−ℎ2´ ].{E[∆𝜉𝑡∗ )(∆𝜉𝑡∗′ )]}.[ ]}.
−ℎ2
La distribución límite para el denominador de [19.A.21] se obtuvo en el resultado (b) de la

Proposición 18.2:
𝐿
(𝑇 ∗ )−2 ∑𝑇𝑡=2 û2𝑡−1 → (𝜎1∗ )2 .𝐻𝑛 . [19.A.31]
La sustitución de [19.A.30] y [19.A.31] en [19.A..21] produce [19.2.36]
Prueba de (b). Darse cuenta de
ĉ𝑗.𝑇 = (𝑇)−1 ∑𝑇𝑡=𝑗+2 ê𝑡 ê𝑡−𝑗
= (𝑇)−1 ∑𝑇𝑡=𝑗+2(û∗𝑡 − 𝜌𝑟 û∗𝑡−1 )- (û∗𝑡−𝑗 -𝜌𝑟 û∗𝑡−𝑗−1 )
= (𝑇)−1 ∑𝑇𝑡=𝑗+2{∆𝑢̂𝑡 − (𝑝𝑟 -1)û∗𝑡−𝑗−1 }.{∆û∗𝑡−𝑗−1 − (𝑝𝑟 -1)û∗𝑡−𝑗−1 }.

Pero [19.A.22] y [19.A.24] pueden utilizarse para escribir
(𝑇 ∗)−1 ∑𝑇𝑡=𝑗+2(𝜌𝑟 -1)û∗𝑡−1 ∆û∗𝑡−𝑗

1
=(𝜎1∗ )2 . (𝑝𝑟 -1). ((𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2 {[1-−𝛾𝑇∗′ /𝜎1∗ ]𝜉𝑡−1
∗
− (𝛂∗𝑇 /𝜎1∗ )}(∆𝜉𝑡−𝑗∗′
) [ ∗ ∗]
−𝛾𝑟 /𝜎1
′ 1
={(𝜎1∗ )2 .[(𝑇 ∗ )1/2(𝑝𝑟 − 1)].[(1 − 𝛾1∗ /𝜎1∗ ]. ((𝑇 ∗ )3/2 ∑𝑇𝑡=𝑗+2 𝜉𝑡−𝑗
∗′
(∆𝜉𝑡−𝑗∗
) [ ∗ ∗]
−𝛾𝑟 /𝜎1
′ 1
={(𝜎1∗ )2 .[(𝑇 ∗ )1/2(𝑝𝑟 − 1)].[(𝑇 ∗ )1/2 − 𝛾1∗ /𝜎1∗ ]. ((𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2 𝜉𝑡−𝑗
∗′ ∗
(∆𝜉𝑡−𝑗 ) [ ∗ ∗]
−𝛾𝑟 /𝜎1
Pero el resultado (a) implica que (T *) 1/2 (pt) .0, mientras que los otros términos en [19.A.33]
tienen distribuciones convergentes a la luz de [19.A.20] y resultado (a ) Y (e) de la Proposición 18.1
Por lo tanto,
𝑇
𝜌
∗ −1
(𝑇 ) ∑ (𝜌𝑟 − 1)û∗𝑡−1 ∆û∗𝑡−𝑗 → 0.
𝑡=𝑗+2
Similar,
𝑇
𝜌
∗ −1
(𝑇 ) ∑ (𝜌𝑟 − 1)2 û∗𝑡−1 û∗𝑡−𝑗−1 → 0.
𝑡=𝑗+2
=(𝜎1∗ )2 . (𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2(𝜌𝑟 − 1)2 {[1-𝛾𝑟∗′ /𝜎1∗ ]𝜉𝑡−1
∗
− (𝛼𝑟∗ /𝜎1∗ ) }
∗ 𝛼∗
X {[1-𝛾𝑇∗′ /𝜎1∗ ]𝜉𝑡−𝑗−1 − (𝜎𝑟∗ )}
1
∗
𝜉𝑡−1
=(𝜎1∗ )2 . (𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2(𝜌𝑟 − 1)2 [1 − 𝛾𝑟∗′ /𝜎1∗ -(𝑇 ∗ )−1/2 𝛼 𝑇∗ /𝜎1∗ ] [ ]
(𝑇 ∗ )1/2
∗′
X [𝜉𝑡−𝑗−1 (𝑇 ∗ )1/2 ][1 − 𝛾𝑟∗′ /𝜎1∗ - ((𝑇)−1/2) 𝜎𝑇∗ /𝜎1∗ ]′
[19.A.35]
=(𝜎1∗ )2 . [(𝑇 ∗ )1/2 (𝜌𝑟 − 1)]2 .[1-𝛾𝑟∗′ /𝜎1∗ - (𝑇 ∗ )−1/2 𝜎𝑟∗ /𝜎1∗ ]
∗ ∗′ ∗
𝜉𝑡−1 𝜉𝑡−𝑗−1 (𝑇 ∗ )1/2 𝜉𝑡−1
X {(𝑇 ∗ )−2 ∑𝑇𝑡 [ ∗′ ]}
(𝑇 ∗ )−1/2 𝜉𝑡−𝑗−1 𝑇∗
X[1-−𝛾𝛾∗′ /𝜎1∗ −(𝑇 ∗ )−1/2 𝛼 𝑇∗ /𝛼1∗]’
𝜌
→0.
Dado 𝑞𝑢𝑒 (𝑇 ∗ )−2 ∑𝑇𝑡=𝑗+2 𝜉𝑡−1
∗ ∗′
𝜉𝑡−𝑗−1 y (𝑇 ∗ )−3/2 ∑ 𝜉𝑡−𝑠
∗
son 𝑂𝑝 (1) por resultados(i) y (g)
De proposición 18.1 sustituyendo [19.A.35] , y el [19.A.24] dentro [19.A.32] da
𝐿
ĉ𝑗𝑇 → (𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2(∆û∗𝑡 ). (∆û∗𝑡−𝑗 )
′ 1
=(𝜎1∗ )2 .[1-𝛾𝑇∗′ /𝜎1∗ ](𝑇 ∗ )−1 ∑𝑇𝑡=𝑗+2(∆𝜉𝑡−𝑗
∗ ∗
). (∆𝜉𝑡−𝑗 )[ ]
−𝛾𝑇∗′ /𝜎1∗
[19.A.34]
𝐿
∗ ∗ ′ 1
→ (𝜎1∗ )2 .[1- ℎ2′ ].E{(∆𝜉𝑡−𝑗 ). (∆𝜉𝑡−𝑗 )} [ ]
ℎ2
′ 1
=(𝜎1∗ )2 .[1- ℎ2′ ].L.E{(∆𝑦𝑡 ). (∆𝑦𝑡−𝑗 )}. 𝐿 [ ].
−ℎ2
Se deduce para una q,

𝑞
𝜆2𝑇 = ĉ0.𝑟 + 2. ∑[1 − 𝑗/(𝑞 + 1)] ĉ𝑗.𝑟

𝑗=1
𝐿 𝑞 ′ 1
→ (𝜎1∗ )2 .[1- ′
ℎ2 ].L’{∑𝑗=1[1 −/𝑗/(𝑞 + 1)] 𝐸[(∆𝑦𝑡′ ). (∆𝑦𝑡−𝑗 )]}. 𝐿. [ ].
−ℎ2
Por lo tanto, si q→Con q/T→ 0,

𝐿 𝐿
𝐿
′ 1
𝜆2𝑇 ∗ 2 ′ 𝑇
→ (𝜎1 ) .[1-ℎ2 ].L’.{∑𝑡=1 𝐸[(∆𝑦𝑡′ ). (∆𝑦𝑡−𝑗 )]}. 𝐿. [ ′ ] .
−ℎ2
1
(𝜎1∗ )2 .[1-ℎ2′ ].L’Ψ(1)PP’[Ψ(1)]’L.[ ]
−ℎ2
1
(𝜎1∗ )2 .[1-ℎ2′ ].𝐼𝑛 . .[ ′ ]
−ℎ2
En virtud de [19.A.18].
Pero de [19.2.29] y [19.A.31],

2
1
(𝑇 ∗ )2 . 𝜎Þ𝑇 ÷ 𝑠𝑇2 =
(𝑇 ∗ )−2 ∑𝑇𝑡=2 û2𝑡−1
𝐿 1
→ (𝜎∗ )−2 .𝐻
1 𝑛
Entonces se sigue de [19.A.36] y [19.A.37] ese

2
{(𝑇 ∗ )2 . 𝜎Þ𝑇 ÷ 𝑠𝑇2 }. {𝜆2𝑇 − ĉ0.𝑇 }
𝐿 1
→ [1 − ℎ2′ ]. {𝐼𝑛 − (𝐿′ . 𝐸[(∆𝑦𝑡 ). (∆𝑦𝑡′ )]. 𝐿)}. [
] ÷ 𝐻𝑛
−ℎ2
Restando 1/2 veces [19.A.39] de [19.2.36 rendimientos [19.2.37]. Prueba de (c) Aviso de [19.2.33]
que
Pero desde (c) Resulta que [19.2.33]

𝜌𝑟 −1
𝑍𝑡.𝑇 = (1/𝜆 𝑇 ).{(ĉ0.𝑇 /𝑠𝑇2 )1/2 − (1/2).{𝑇 ∗ . 𝜎̂𝑃𝑇 ÷ 𝑠𝑇 }. {𝜆2𝑇 − ĉ0.𝑇 }}
𝜎𝜌𝑟 ÷𝑆𝑇
1
=(1/𝜆 𝑇 ) 𝑇 ∗ 𝜎 {ĉ0.𝑇 /𝑠𝑇2 )1/2 𝑇 ∗(𝜌𝑟 − 1) − (1/2). {(𝑇 ∗ )2 . 𝜎𝜌2𝑇 ÷ 𝑆𝑇2 }. {𝜆2𝑇 − ĉ0.𝑇 }}
𝜌𝑟 ÷𝑆𝑇
[19.A.40]
Pero desde
(ĉ0.𝑟 /𝑆𝑇2 )=(T-2)/(T-1)→ 1

𝐿
Resulta que
𝑝 1
𝑍𝑡.𝑇 → (1/𝜆𝑟 ) 𝑍𝑝.𝑇
𝑇 ∗ 𝜎𝜌𝑟 ÷ 𝑆𝑇
𝐿 1
→𝜎 ′ 1/2 . (𝜎1∗ . √𝐻𝑛 )𝑍𝑛 ,
1 (1+ℎ2 . ℎ2 )
Con la última línea siguiente de [19.A.37], [19.A.38], y [19.2.37]
Prueba de (d). Véase Phillips y Ouliaris (1990)

19.1 Dejemos
∆𝑦1𝑟 𝛿 𝑢1𝑡
[ ] + [ 1 ] = [𝑢 ],
∆𝑦2𝑟 𝛿2 2𝑡
Fueron y. puede no ser cero. Supongamos que u, para un vector i.i.d (2x1) con media cero, varianza
PP', y finitos cuartos momentos. Supongamos además que {𝑆. 𝛹𝑠 }𝑠=0 es absolutamente sumable y
que Ψ(1).P no es singular. Defina 𝜉1𝑡 ≡ ∑𝑡𝑠=1 𝑢1𝑠 , 𝜉2𝑡 ≡ ∑𝑡𝑠=1 𝑢2𝑠 , y 𝛾0 ≡ 𝛿1 /𝛿2
(a) Muestre que las estimaciones de MCO de:
𝑦1𝑡 = 𝛼 + 𝛾𝛾2𝑡 +𝑢𝑡
1 𝛿2
𝑇 −2 𝛼𝑟 𝜌 1 𝑇 −3/2 ∑(𝜉1𝑡 − 𝑦0 𝜉2𝑡 )
2 -1
Satisface [ 1 ]→[ 2 ] [ ]
𝑇 −2 (𝛼𝑟 − 𝛼𝑟 ) 𝛿2
𝛿2 𝑇 −5/2 ∑ 𝛿2 𝑡(𝜉1𝑡 − 𝑦0 𝜉2𝑡 )
3
Concluir que alfa y Yt tienen la misma distribución asimtótica como coeficientes de una regresión
de (E1r-YoE) en una constante y d2 veces una tendencia en el tiempo .:
(E1t-Yo) = alfa + Y D2 t
19.2. Verifique [19.3.23]
19.3 Verificar [19.3.25]
19.4. Consideremos el modelo de regresión
Y1t = B´wt + α + Yý2t + St+ ut
Donde
Wt = (Δy´2.t-p, Δy´2.t-p+1, . . . , Δy´2.t-p-1, Δy´2.t-p, Δy´2.t-p+1)´
Sea Δy2.t = u2t
ut ψ 11(L) 0’ ε1t
= ψ (L)εt =
u2t 0 ψ22 (L) ε2t
Y donde ε, es i.i.d con cero medio, momentos finitos y la varianza

σ1 0’ σ1 0’
E (εtεt ') =
0 P22 0 P´ 22
Supongamos que s. ψs es absolutamente sumatoria λ11 ≡ σ1 .ψ11(1) ≠ 0, y ˄22 = ψ 22es no singular.

Muestre que las estimaciones de los ols satisfacen
T1/2 (βˆT – β) Q-1 h1
_
T1/2 (αˆT – α) λ_ 11 .V 1
_
T1/2 (ϒˆT – ϒ) λ_ 11 .V 2
_
T3/2 (δTˆ – δ) λ_11 .V 3
Dónde Q = plim T-1Σwtw´t, T-1/2Σwtu´t h1

W1(1)
v1
≡ H-1 Λ22.{ ∫[W 2 (r)]dW1 (r) }
v2
W1 (1) - ∫ W1 (r)dr}
v3
_
1 {∫ [W 2 (r)]dr1} Λ_´22 ½
H≡ _ _
Λ22 ∫ W 2 (r) dr Λ22{∫ [W 2 (r)]dr} Λ_ ´22 _Λ22 ∫ rW 2
(r) dr _
_
_
½ {∫ r[W2 (r)]´dr} Λ
_ ´22 1/3
Razón como en [19.3.12] que condiciona W2 (.), El vector (V1, v2) es Gaussiana con media cero y
varianza H-1. Utilice esto para mostrar que la forma Wald de la prueba OLS X2 de cualquier
restricción m que involucra alfa, gama o d converge a (alfa) veces una variable X2.
19.5. Consideremos el modelo de regresión
Donde
Wt = (Δy´2.t-p, Δy´2.t-p+1, . . . , Δy´2.t-p-1, Δy´2.t-p, Δy´2.t+p)´
Suponiendo que
Δ y 2, = S2 + u2t,
Donde al menos uno de los elementos de S 2es distinto de cero. Dejando queut yu2tsatisfagan las
mismas condiciones que en el ejercicio 19.4.
y 2 = ( y 2 t , y3 t ,…, y nt )´ y S 2= (S 2, S 3, . . . , Sn)', y suponiendo que los elementos de
E(Δynt) = Sn ≠ 0. Observe que los valores ajustados para la regresión son idénticos a los de
Y1t = B´wt* + α* + Y*ty*2t + S*tynt + ut
donde
Wt* = [(Δy2.t-p - S 2)', [(Δy2.t-p+1 - S 2)’, …, (Δy2.t+p = S 2)']
Y2t – (S2/ Sn) ynt

y*2t =
[(g-1) x 1]
Y
.
2
Y* = Y
.
Yn-1.tY– (Sn-1/ Sn)

ynt 4
Y
5

.
S* = Yn + Y2(S2/ Sn) + Y3(S3/ Sn) + … + Yn-1(Sn-1/ Sn)
Α* = α + B’ (1 x S2).
Con 1 a [(2p + 1) x 1] columnas de 1s.
Demuestre que las propiedades asintóticas de la regresión transformada son idénticas a las de la
regresión de tendencia temporal en el ejercicio 19.4. Concluya que cualquier prueba F que involucre
Y en la regresión original puede multiplicarse por (S2T/ λ211) y compare con las tablas F habituales
para una prueba asintóticamente válida.
Ahn, S. K., and G. C. Reinsel. 1990. "Estimation for Partially Nonstationary Multivariate
Autoregressive Models." Journal of the American Statistical Association 85:813-23.
Anderson, T. W. 1958. An Introduction to Multivariate Statistical Analysis.New York: Wiley.
Andrews, Donald W. K., and J. Christopher Monahan. 1992. "An Improved Heteroske-dasticity
and Autocorrelation Consistent Covariance Matrix Estimator." Econometrica 60:953-66.
Baillie, Richard T., and David D. Selover. 1987. "Cointegration and Models of Exchange Rate
Determination." International Journal of Forecasting 3:43-51.
Campbell, John Y., and Robert J. Shiller. 1988a. "Interpreting Cointegrated Models." Journal of
Economic Dynamics and Control 12:505-22.
------and ------. 1988b. "The Dividend-Price Ratio and Expectations of Future Dividends
and Discount Factors."Review of Financial Studies 1:195-228.
Clarida, Richard. 1991. "Co-Integration, Aggregate Consumption, and the Demand for Imports: A
Structural Econometric Investigation." Columbia University.Mimeo.
Corbae, Dean, and Sam Ouliaris. 1988. "Cointegration and Tests of Purchasing Power Parity."
Review of Economics and Statistics 70:508-11.
Davidson,-James E. H., David F. Hendry, Frank Srba, and Stephen Yeo. 1978."Econometric
Modelling of the Aggregate Time-Series Relationship between Consumers' Expenditure and
Income in the United Kingdom."Economic Journal 88:661-92.
Engle, Robert F., and C. W. J. Granger. 1987. "Co-Integration and Error Correction:
Representation, Estimation, and Testing." Econometrica 55:251-76.
--------and Byung Sam Yoo. 1987. "Forecasting and Testing in Co-Integrated Systems/1
Journal of Econometrics 35:143-59.
Granger, C. W. J. 1983."Co-Integrated Variables and Error-Correcting Models."Unpublished
University of California, San Diego, Discussion Paper 83-13.
— ---- and Paul Newbold. 1974. "Spurious Regressions in Econometrics." Journal of Econometrics
2:111-20.
Hansen, Bruce E. 1990. "A Powerful, Simple Test for Cointegration Using Cochrane-
Orcutt."University of Rochester.Mimeo.
--------. 1992. "Efficient Estimation and Testing of Cointegrating Vectors in the Presence
of Deterministic Trends." Journal of Econometrics 53:87-121.
Haug, Alfred A. 1992. "Critical Values for the Zc-Phillips-Ouliaris Test for Cointegration." Oxford
Bulletin of Economics and Statistics 54:473-80.
Johansen, S0ren. 1988. "Statistical Analysis of Cointegration Vectors." Journal of Economic Dynamics
and Control 12:231-54.
--------. 1991. "Estimation andJHypothesis Testing of Cointegration Vectors in Gaussian
Vector Autoregressive Models."Econometrica 59:1551-80.
King, Robert G., Charles I. Plosser, James H. Stock, and Mark W. Watson. 1991. "Stochastic
Trends and Economic Fluctuations." American Economic Review 81:819-40. Kremers, Jeroen J. M.

1989. "U.S. Federal Indebtedness and the Conduct of Fiscal Policy."Journal of Monetary Economics
23:219-38.
Mosconi, Rocco, and Carlo Giannini. 1992. "Non-Causality in Cointegrated Systems: Rep-
resentation, Estimation and Testing." Oxford Bulletin of Economics and Statistics 54:399-417.
Oâki, Masao. 1992. "Engel's Law and Coin testation." Journal of Political Economy 100:1027-46.
--------and Joon Y, Park. 1992. "A Cointegration Approach to Estimating Preference
Parameters."Department of Economics, University of Rochester.Mimeo.
Park, Joon Y. 1992. "Canonical Cointegrating Regressions."Econometrica 60:119-43.
--------and Masao Ogaki. 1991. "Inference in Cointegrated Models Using VAR Prewhi-
tening to Estimate Shortrun Dynamics." University of Rochester.Mimeo.
--------, S. Ouliaris, and B. Choi. 1988. "Spurious Regressions and Tests for Cointegration.""
Cornell University.Mimeo.
Phillips, Peter C. B. 1987. "Time Series Regression with a Unit Root."Econometrica 55:277-301.
------- . 1991. "Optimal Inference in Cointegrated Systems." Econometrica 59:283-306.
------- and S. N. Durlauf. 1986. "Multiple Time Series Regression with Integrated Proc-
esses." Review of Economic Studies 53:473-95.
------- and Bruce E. Hansen. 1990. "Statistical Inference in Instrumental Variables Regres-
sion with 1(1) Processes." Review of Economic Studies 57:99-125.
------- and Mico Loretan. 1991. "Estimating Long-Run Economic Equilibria." Review of
Economic Studies 58:407-36.
------- and S. Ouliaris. 1990. "Asymptotic Properties of Residual Based Tests for Coin-
tegration." Econometrica 58:165-93.
Saikkonen, Pentti. 1991. "Asymptotically Efficient Estimation of Cointegration Regressions."
Econometric Theory 7:1-21.Sims, Christopher A., James H. Stock, and Mark W. Watson. 1990.
"Inference in Linear Time Series Models with Some Unit Roots." Econometrica 58:113-44. Stock,
James H. 1987."Asymptotic Properties of Least Squares Estimators of Cointegrating
Vectors."Econometrica 55:1035-56.
------- . 1990. "A Class of Tests for Integration and Cointegration." Harvard University.
Mimeo.
Stock, James H., and Mark W. Watson.1988. "Testing for Common Trends."Journal of the
American Statistical Association 83:1097-1107.
------- and --------- . 1993. "A Simple Estimator of Cointegratins Vectors in Higher Order
Integrated Systems."Econometrica 61:783-820.
Wooldridge, Jeffrey M. 1991. "Notes on Regression with Difference-Stationary Data."Michigan
State University. Mimeo.

20
Análisis de máxima verosimilitud

de la Información completa De
Sistemas Cointegrados
Se dice que (n x 1) un vector y, exhibe h relaciones de cointegración si existen vectores linealmente
independientes a1, a2, a3,…, ahtal que ai 'ytes estacionaria. Si tales vectores existen, sus valores no
están definidos de manera única, ya que cualquier combinación lineal dea1, a2, a3,…, a1 ,también se
describirían como vectores de cointegración. Los enfoques descritos en el capítulo anterior evitaron
este problema imponiendo condiciones de normalización tales como a11= 1. Para esta
normalización pondríamos ylt en el lado izquierdo de una regresión y los otros elementos de año en
el lado derecho. Podríamos igualmente bien haber normalizado a12 = 1, en cuyo caso y2t sería la
variable que pertenece al lado izquierdo de la regresión. Por lo tanto, si la primera variable no
aparece en la relación de cointegración en absoluto (a11 = 0), entonces el ajuste dea11 = 1 no es una
normalización inofensiva, sino que en su lugar resulta En un modelo fundamentalmente mal
especificado.
Por estas razones, existe cierto valor en el uso de la máxima verosimilitud de información completa
(FIML) para estimar el espacio lineal generado por los vectores de cointegracióna1, a2, a3,…, ah.
Este capítulo describe la solución a este problema desarrollado por Johansen (1988, 1991), cuyo
trabajo está estrechamente relacionado con el de Ahn y Reinsel (1990), y más distantemente con el
de Stock y Watson (1988). Otra ventaja de FIML es que nos permite probar el número de
relaciones de cointegración. El enfoque de Phillips y Ouliaris (1990) descrito en el capítulo 19 puso
a prueba la hipótesis nula de que no hay relaciones de cointegración. Este capítulo presenta pruebas
más generales de la hipótesis nula de que hay relaciones h0 cointegrantes, donde h0 podría ser 0,
1,2,…, o n - 1.
Para desarrollar estas ideas, la Sección 20.1 comienza con una discusión del análisis de correlación
canónica. La Sección 20.2 desarrolla las estimaciones FIML, mientras que la Sección 20.3 describe
las pruebas de hipótesis en sistemas cointegrados. La Sección 20.4 ofrece un breve resumen de las
raíces unitarias en el análisis de series de tiempo.
20.1. Correlación canónica
Población Correlaciones canónicas

Deje que el vector (n1 x 1) y el (n2 x 1) vector x, denoten variables aleatorias
estacionarias. Típicamente y, y x, se miden como desviaciones de sus medios de población, de
modo que E (yty't) representa la matriz de varianza-covarianza de yt. En general, podría haber
complicadas correlaciones entre los elementos de y, y x, resumida por la matriz de varianza-
covarianza conjunta.
652 Capítulo 20 | Análisis de Máxima Verosimilitud de Sistemas Cointegrados

𝐸(𝑦𝑡 𝑦′𝑡 ) 𝐸(𝑦𝑡 𝑥′𝑡 ) Σ𝑌𝑌 (𝑛 Σ𝑌𝑋 (𝑛
(𝑛1 𝑥𝑛1 ) (𝑛1 𝑥𝑛2 ) 1 𝑥𝑛1 ) 1 𝑥𝑛2 )
[ ] = [Σ Σ𝑋𝑋 (𝑛
]
𝐸(𝑥𝑡 𝑦′𝑡 ) 𝐸(𝑥𝑡 𝑥′𝑡 )(𝑛 𝑥𝑛 ) 𝑋𝑌 (𝑛2 𝑥𝑛1 ) 2 𝑥𝑛2 )
(𝑛2 𝑥𝑛1 ) 2 2
A menudo podemos obtener una idea de la naturaleza de estas correlaciones mediante la definición
de dos nuevos (n x 1) vectores aleatorios, nt y £t, donde n es el menor de nly n2. Estos vectores son
combinaciones lineales de yty xt, respectivamente:
nt = Hýt
£t = A´xt.
Aquí H 'y A´ son (n x nl) y (n x n2) matrices, respectivamente. Las matrices H ' y A ´ se eligen de
manera que se mantengan las siguientes condiciones.
(1) Los elementos individuales de t \ r tienen una varianza unitaria y no están corregidos entre sí:
E(nt nt´) = H´ΣYYH = In
(2) Los elementos individuales tienen una varianza unitaria y no están corregidos con unos y otros:
E(£t £t´) = H´Σxx A = In
(3) El i-ésimo elemento dent, no está correlacionado con el j-ésimo elemento de£t i ≠ j; para i = j,
lacorrelación es positiva y viene dada por ri:
E(£t nt´) = A ´Σxy H = R,
Donde
𝑟1 0 ⋯ 0
𝑅 = [0 𝑟2 ⋯ 0 ]
0 0 ⋯ 𝑟𝑛
(4) Los elementos de i y gr están ordenados de tal manera que:
(1 ≥r1≥r2≥ . . . ≥ rn ≥ 0).
La correlación rise conoce como la i-ésima población correlación canónica entre yt y xt.
Las correlaciones canónicas de la población y los valores deHy Ase pueden calcular a partir deΣYY,
ΣXX y ΣXY usando cualquier programa de computadora que genere autovalores y autovectores,
como describimos ahora.
Sea (λ1, λ2,..., λn1) los valores propios de la matriz (n1 x n1)
ΣYY-1, Σyx-1, ΣXX-1 y ΣXY-1
Ordenado como
(λ1≥λ2 ≥ ...≥λn1),
Con vectores propios asociados (kl, k2, ..., kn1). Recuérdese que el par de valores propios (λi,ki)
satisface
ΣYY-1, Σyx-1, ΣXX-1ΣXY-1ki = λiki.
Observe que si k, satisface [20.1.10], entonces también lo hace cki para cualquier valor de c. La usual
normalización para elegir с y por lo tanto para determinar "el" eigenvector ki´ asociarse con λ, es
establecer к / к, - = 1. Sin embargo, para el análisis de correlación canónica es más conveniente
elegir с para asegurar que
20.1 Correlación canónica 653

ki´ Σyyki = 1 para i = 1, 2,…, n1. [20.1.11]
Si un programa informático ha calculado los vectores propios (k1, k2,..., kni) de la matriz en [20.1.8]
normalizada por (ki´ 'ki) = 1, es trivial cambiar estos a vectores propios (k1, k2,..., kni) normalizado
por la condición [20.1.11] mediante el ajuste
ki = ki÷(ki´ΣYYki)(1/2)
Podemos además multiplicar k, por -1 para satisfacer una convención de signo determinada que se
detallará en los párrafos que siguen a la proposición siguiente.
Las correlaciones canónicas (r1, r2,..., rn) resultan dadas por las raíces cuadradas de los
correspondientes primeros n valores propios (λ1, λ2, λ3,..., λn) de [20.1.8]. Los vectores propios
asociados (n1 x 1) k1, k2,…, kn, cuando se normalizan por [20.1.11] y una convención de signos, se
convierten en las filas de la matriz (n x n1) que aparece en [20.1.1] La matriz A' en [20.1.2 ] Se
pueden obtener a partir de los vectores propios normalizados de una matriz estrechamente
relacionada con [20.1.8]. Estos resultados se desarrollan en la siguiente proposición, demostrada en
el apéndice 20. A al final de este capítulo.
Σ
=
(𝑛1 + 𝑛2 )×(𝑛1 + 𝑛2 )
Σ𝑌𝑌 (𝑛 Σ𝑌𝑋 (𝑛
1 𝑥𝑛1 ) 1 𝑥𝑛2 )
[Σ Σ𝑋𝑋 (𝑛
]
𝑋𝑌 (𝑛2 𝑥𝑛1 ) 2 𝑥𝑛2 )
Sea una matriz simétrica definida positiva y sea (λ1, λ2,..., λn1) los valores propios de la matriz en
[20.1.8], ordenada λ1≥λ2 ≥ ...≥λn1. Sea (k1, k2,…, kn) los vectores propios asociados (n1 x 1) como
normalizados por [20.1.11]. Sea (μ1, μ2,…, μn2) los valores propios de la matriz (n2 x n2)
ΣXX-1, ΣXY-1, ΣYY-1 y ΣYX-1 [20.1.12]
Ordenado μ1≥μ2≥…≥μn2. Sea (a1, a2,..., an2)los eigenvectores de[20.1.12]:

Σxx-1, ΣXY-1, ΣYY-1 y ΣYX-a1 = μiai
Normalizado por
aiΣxxai. = 1 para i = 1, 2, . . . , n2. [20.1.14]
Sea n el menor de n1 y n2, y recoger los primeros n vectores ki y los primeros n vectores ai en
matrices.
H = [k1 k2 k3 … kn ] (n1 x n)
H = [a1 a2 a3 … an ] (n2 x n)
Suponiendo que λ1, λ2,…, λn son distintos, entonces

(а) 0 ≤ λ1< 1 para i = 1, 2,…, n1 y 0 ≤ μj< 1 para j = 1, 2, . . . , n2;
(b) λ1= μi para i = 1, 2, . . . , n;
(c) H´ΣYYH= InyA´Σxx A= In
(d) A ´Σxy H = R
Donde R es una matriz diagonal cuyos elementos diagonales cuadrados corresponden a valores
propios de [20.1.8]:
𝜆1 0 … 0
0 𝜆2 … 0
𝑅2 = [ ]
⋮ ⋮ … ⋮
0 0 … 𝜆𝑛
Si Σ denota la matriz de varianza-covarianza del vector (yt ', xt')´, los resultados (c) y (d) son la
caracterización de las correlaciones canónicas dadas en [20.1.3] a [20.1.5]. Así, la proposición
establece que los cuadrados de las correlaciones canónicas (r12, r22,…, rn2) se pueden encontrar a
partir de los primeros n valores propios de la matriz en [20.1.8]. El resultado (b) indica que estos
son los mismos que los primeros n valores propios de la matriz en [20.1.12]. Las matricesH y Aque

caracterizan las variadas canónicas en [20.1.1] y [20.1.2] se pueden encontrar a partir de los vectores
propios normalizados de estas matrices.
La magnitud ai´ Σxyki; calculado por el algoritmo descrito en la Proposición 20.1, no necesita ser
positivo: la proposición sólo asegura que su cuadrado es igual al cuadrado de la correspondiente
correlación canónica. Si ai´ Σxyki<0 para algunos i. Se puede reemplazar ki calculado con -ki de
modo que el i-ésimo elemento diagonal de R corresponderá a la raíz cuadrada positiva de λi.
Como ilustración, supongamos que yt consiste en una sola variable (n1 = n = 1). En este caso, la
matriz [20.1.8] es sólo un escalar, una (1 x 1) "matriz" que es igual a su propio valor propio. Así, la
correlación canónica de población cuadrada entre un yt escalar y un conjunto de n2 variables
explicativas x, está dada por
−1
𝛴𝑌𝑋 𝛴𝑋𝑋 𝛴𝑋𝑌
𝑟12 =
𝛴𝑌𝑌
Para interpretar esta expresión, recuerde de la ecuación [4.1.15] que el error cuadrático medio de
una proyección lineal de yt en xf está dado por
−1
𝑀𝑆𝐸 = 𝛴𝑌𝑌 − 𝛴𝑌𝑋 𝛴𝑋𝑋 𝛴𝑋𝑌
y entonces
−1
𝛴𝑌𝑌 𝛴𝑌𝑋 𝛴𝑋𝑋 𝛴𝑋𝑌 𝑀𝑆𝐸
1 – 𝑟12 = – =
𝛴𝑌𝑌 𝛴𝑌𝑌 𝛴𝑌𝑌
Así, para este caso simple, r12 es la fracción de la varianza de la población que se explica por la
proyección lineal; Es decir, r12 es el coeficiente de correlación múltiple al cuadrado de la población,
comúnmente denominado R2.
Otra interpretación de las correlaciones canónicas también es a veces útil. Las primeras variantes
canónicas n1t y £ lt pueden interpretarse como aquellas combinaciones lineales de yt yxt,
respectivamente, de manera que la correlación entre n1t y £ ltsea lo más grande posible (véase el
ejercicio 20.1). Las variadas n2t y £2tdan aquellas combinaciones lineales de yt y xt, que no están
corregidas con n1t y £ lty aun así producen la mayor correlación restante entre n2t y £2t, y así
sucesivamente.
Ejemplo de Correlaciones Canónicas

Las correlaciones canónicas ri calculadas por el procedimiento que acabamos de describir
son parámetros de población: son funciones de los momentos de la población ΣYY, ΣYX, ΣXX. Aquí
se describen sus análogos de la muestra, que se denotan pies ri.
Supongamos que tenemos una muestra de T observaciones sobre el vector (n1 x 1) yt y el

vector (n2 x 1) xt cuyos momentos muestrales son dados por
Σyy = (1/T) Σ yt yt´
t =1
Σyx = (1/T) Σ yt yt´
t =1
20.1 Correlación canónica 655

Σxx = (1/T) Σ yt yt´
t =1
De nuevo, en muchas aplicaciones, yt y xt se medirían en desviaciones con respecto a sus medios de

muestra.
Para calcular las correlaciones canónicas de muestra, el objetivo es generar un conjunto de

observaciones T en un nuevo vector (n x 1) nt donde n es el menor de n1 y n2. El vector ntes una
combinación lineal del valor observado de yt:
nt= H'yt [20.1.19]
Para la matriz (n x n) a estimarse a partir de los datos. La tarea será elegir H ´para que la i-ésima
serie generada (nit) tenga una varianza muestral unitaria y sea ortogonal a la serie generada:
(1/T) = Σxx ntnt´ = In.t =1 [20.1.20]
Similarmente, generaremos un vector (n x 1) £ta partir de los elementos de xt:
ξt= A´xt. [20.1.21]
Cada una de las variables £itr tiene una varianza de muestra unitaria y es ortogonal a £jtpara i ≠ j:
(1/T) = Σξt ξt´ = In.[20.1.22]t =1
Finalmente, nites ortogonal a £jt para i ≠ j, mientras que la correlación de la muestra entre nity ξit Se
denomina coeficiente de correlación canónica de la muestra:
(1/T) ∑𝑇𝑡=1 𝜉𝑡 𝜉′𝑡 =I

𝑟1 0⋯ 0
R=[ 0 𝑟2 … . 0 ] [20.1.24]
0 0 ⋯ 𝑟𝑛
Encontrar matrices y satisfaciendo [20.1.20], [20.1.22], y [20.1.23] implica exactamente los mismos
cálculos como las matrices de hallazgo 𝒦, 𝒜, 𝐑 que satisfacen [20.1.3] a [20.1.5].
Por ejemplo, [20.19] nos permite escribir [20.1.25] como:
En = (1 / T) sumatoria nn = K (1 / T) sumatoria yyK = K sumatoria yyK [20.1.25]
Donde la última línea sigue de [20.1.16]. La expresión [20.1.25] es idéntica a [20.1.3] con las
variables fuera. Similarmente, sustituyendo [20.1.21] dentro [20.1.22] 𝐴̂′ ∑ 𝑥𝑥 𝐴̂= 𝐼𝑛 ,
corresponden para [20.1.4]. La ecuación [20.1.23] se convierte 𝐴̂′̂𝑥𝑦 𝐾 ̂ = 𝑅̂ , como en [20.1.5]. Así
que, podemos reemplazar 𝑘̂, con -𝑘̂, si cualquiera de 𝑅̂ debería ser negativo.
Además, para calcular las correlaciones simples, el producto describe en proporción 20.1 es
simplemente postulados en ( ̂YY, 
̂YX, and ̂XX) radios que para los momentos máximos. En
particular, the cuarto de esta simple correlación es dado por la matriz autoevaluada.
∑𝑌𝑌 −1 ∑𝑌𝑋 ∑𝑋𝑋 −1 ∑𝑋𝑌 = {(1/𝑇) ∑𝑡=1 𝑦𝑡 ′𝑥𝑡 ′ } [20.1,26]

𝑇 𝑇
𝑥 {(1/𝑇) ∑ 𝑥𝑡 ′𝑥𝑡 ′ } {(1/𝑇) ∑ 𝑥𝑡 ′𝑥𝑡 , 𝑦𝑡 }

𝑡=1 𝑡=1
̂ esdado por los autovalores asociados con los autovalores, normalizados en 𝑎̂′𝑖
La columna de 𝐾

𝑇
1
𝑘̂ ′ 𝑖 {( ) ∑ 𝑦𝑡 , 𝑦𝑡 ′} 𝑘̂𝑖 = 1
𝑇
𝑡=1
La columna si 𝐴̂is dado por el autovalor asociado con el autovalor ̂ I de la matriz

∑𝑌𝑌 −1 ∑𝑋𝑌 ∑𝑌𝑌 −1 ∑𝑌𝑋 normalizadopor la condición de 𝑎̂𝑖′ = 1
Por ejemplo, supone que, esto es escalar (n = n1 = 1). Luego [20.1.26] es una ecuación escalar tiene
2 autovalores. Así, la ecuación correlaciona entre la y escalar, y un n2 variables xt is dado por
−1
{𝑇 −1 ∑ 𝑦𝑡 𝑥′𝑡 }{𝑇 −1 ∑ 𝑥𝑡 𝑥′𝑡 } {𝑇 −1 ∑ 𝑥𝑡 𝑦𝑡 }
𝑟̂12 = {𝑇 −1 ∑ 𝑦12 }
{∑ 𝑦𝑡 𝑥′𝑡 }{∑ 𝑥𝑡 𝑥′𝑡 }−1 {∑ 𝑥𝑡 𝑦𝑡 }

= {∑ 𝑦12 }
Con el coeficiente de la ecuación simple correlación multiple R2.
20.2. Estimación de Máxima Verosimilitud

Ahora en una posición que describe Johansen's approach (1988, 1991) para una total información
de máxima estimación de un sistema caracterizado por h relación cointegrada.
Si y, denota una (n x 1) vector. La hipótesis es que y, sigue un VAR(p) en un nivel. Llamado de la

ecuación [19.1.39]que ningún orden VAR pueden ser escritos como
yt = 1yt– 1 + 2yt– 2 + … + p-1yt–p+ 1 +  + 0yt-1 + t, [20.2.1]
E(𝜀𝑡 ) = 0
Ω para t = T
E(𝜀𝑡 𝜀𝑇 ′ = {0 de otra manera
Supongamos que cada variable individual y it es I(1), Aunque h combinaciones lineales de y t son
estacionarias. Vimos en las ecuaciones [19.1.35] y [19.1.40] que esto implica que £ 0 se puede
escribir en la forma
0  BA´ [20.2.2]
Para B en (n x k) matriz y A' en (h x n) matriz. Es decir, bajo la hipótesis de h relaciones

cointegrantes, sólo h separan las combinaciones lineales del nivel de y t -1 (los h elementos de zt -
1=A´ y t -1) aparecen en [20.2.1].
Consideremos una muestra de las observaciones de T + p sobre y, denotadas (y-p+1,y-p+2...,

y T ). Si las perturbaciones 1 , son Gaussianas, entonces la probabilidad de log de ( y1 , y 2 ,…, y T )
condicional de (y-p+1, y –p+2, ..., y0) está dada por
L ( 1,  2 ,..., p-1, ,  0 )
= (-Tn/2log(2π) – (T/2) log

T
=ІΩІ- (1/2) 
t 1
[(∆𝑦1- 1 ∆yt-1-  2 ∆yt-2 -    -  p-1 ∆yt-p+1 - 
0 657
-  0 yt-1)tx Ω-1 (∆yt - 1 ∆yt-1-  2 ∆yt-2 -    -  p-1 ∆yt-p+1-  -  0 yt-1)].
El objetivo es elegir (Ω, 1,  2 , ..., p-1, , 0 ) para maximizar [20.2.3] sujeto a la restricción de que
£ 0 puede escribirse en la forma de [20.2.2 ].
Primero resumiremos el algoritmo de Johansen y luego verificaremos que efectivamente calcula las
estimaciones de máxima verosimilitud.
Paso 1: Calcular regresiones auxiliares

El primer paso consiste en estimar un VAR de (p- l) el orden para ∆yt; Es decir, la regresión del
escalar ∆ y it en una constante y todos los elementos de los vectores ∆yt-1, ∆yt-2,…, ∆yt-p+1 por OLS.
Recoja el i = 1, 2,. . ., n OLS regresiones en forma vectorial como
∆yt=  0+  1∆yt-1+  2∆yt-2+…+  p∆yt-p+1+ Û , [20.2.4]
Donde  , denota una matriz (n x n) de estimaciones del coeficiente OLS y Û , denota el vector (n x
1) de los residuos OLS. También estimamos una segunda batería de regresiones, regresando el
escalar yi.t-1 en una constante y ∆yt-1, ∆yt-2,…, ∆yt-p+1 para i = 1, 2,. . . n. Escribir este segundo
conjunto de regresiones MCO como1
yt-1 =ӫ + x1∆yt-1 + x2∆yt-2 +…+xp-1∆xt-p+1+vt, [20.2.5]
Con v, el vector (n x 1) de residuos de esta segunda batería de regresiones.
Paso 2: Calcular correlaciones canónicas

A continuación, calcule las matrices simple varianza-covarianza de los residuos OLS Û, and v,;
^^ 𝑡
∑ 𝑣𝑣 ≡< 1/𝑇) )▒ ∑ 𝑣, 𝑣 ;
1=1
^^ 𝑡
∑ 𝑢𝑢 ≡< 1/𝑇) )▒ ∑ Û, Û;
1=1
^^ 𝑡
∑ 𝑢𝑣 ≡< 1/𝑇) )▒ ∑ Û, v;
1=1
^^
∑ 𝑣𝑢 ≡ ∑ Û, v;
A partir de estos, encontrar los valores propios de la matriz
∑^^ 𝑣𝑣 ∑ vu ∑ uu ∑^^ 𝑢𝑣 [20.2.9]
1
Johansen (1991) describió su procedimiento como cálculo v, en lugar de v, Donde v, es el residuo OLS de una regresión
de yt-p sobre una constante y ∆yt-1, ∆yt-2,…, ∆yt-p+1. Dado que yt-p = yt-1- ∆yt-1-∆yt-2-    -∆yt-p+1, el residual v, es
numéricamente idéntico a v, descrito en el texto.

Con los valores propios ordenados ^1> ^2>…^n, El valor máximo alcanzado por la función de
verosimilitud de log sujeto a la restricción de que hay relaciones de cointegración h es dado por
£*= - −(𝑇𝑛/2)𝑙𝑜𝑔(2 𝜋) − (𝑇𝑛/2) − (T/2) log ǀ ∑^𝑈𝑈 ǀ
- (𝑇/2) = ∑ℎ1=1 𝑙𝑜𝑔(1 − 𝜆𝑖 )
Paso 3. Calcular las estimaciones de máxima verosimilitud de los

parámetros
Si estamos interesados solamente en una prueba de razón de verosimilitud del número de relación
de cointegración, el paso 2 proporciona toda la información necesaria. Si también se desean
estimaciones de máxima verosimilitud de parámetros, éstas se pueden calcular de la siguiente
manera:
Dejar ã1, ã2….ãn Denotan el (n x 1) vectores propios de (20.2.9) Asociado con los h más altos
valores propios. Estos constituyen una base para el espacio de relaciones de cointegración; Es decir,
la estimación de probabilidad máxima es que cualquier vector de cointegración puede escribirse en
la forma.
a=b1 ã1, + b2 ã2 + …………..bn ãn
Para alguna elección de escalas ( b1 ,b2 …….bn) Johansen sugirió normalizar estos vectores ã, asi que ã; ∑^ 𝑣𝑣ã,
= 1. Por ejemplo, si los vectores propios ã¡ of (20.2.9) Se calculan a partir de un programa
informático estándar que normalice ã;ã1 = 1, Johansen’s estima es ã, - ã, + √𝑎; 𝑛 = ∑^^ 𝑢𝑣 ã.
Recoger los primeros h vectores normalizados en (n x h) matriz Ã:
Ã≡ ã1 ã2……… ãh [20.2.11]
Entonces el MLE de b0 es dado por

^^
b0 = ∑𝑈𝑉 ÃÃ′ [20.2.12]
La MLE de ξ0 para i = 1, 2, …….., p – 1 es
ξ0 = 𝐼𝐼𝑖 - ξ0 X1 [20.3.13]
y la MLE de x es x = π0 - ξ0 ô [20.2.14]
El MLE de Ω es
T
Ω = (1/T) 
t 1
[( Û1 -  0 vt)( Û1 -  0 vt)´]. [20.2.15]
Ahora repasamos la lógica detrás de cada uno de estos pasos a su vez.
Motivación para Regresiones Auxiliares
20.2 Estimación de Máxima Verosimilitud 659

El primer paso consiste en concentrar la función de verosimilitud.2 Esto significa tomar Ω y 0

como dado y maximizar [20.2.3] con respecto a ( , 1,  2 ...,  p-1 ). Este problema de
maximización restringido toma la forma de regresiones aparentemente no relacionadas de los
elementos del vector (n x 1)∆𝑦1 -  0 yt-1sobre una constante y las variables explicativas (∆yt-1, ∆yt-2,…,
∆yt-p+1). Como cada una de las n regresiones en este sistema tiene las mismas variables explicativas,
las estimaciones de (  , 1,  2 , ..., p-1 ) provendrían de las regresiones 0LS de cada uno de los
elementos de∆y -  0 y sobre una constantey(∆y ∆y
t t-1 ∆y ). Denotan los valores de (  , 1,
t-1, t-2,…, t-p+1
 2 ...,  p-1 ) que maximizan [20.2.3] para un valor dado de  0 por
[  *(  0 ), 1 *(  0 ),  2 *(  0 ),…, p-1 (  0 )].

Estos valores se caracterizan por la condición de que el siguiente vector residual debe tener una
media de muestra cero y ser ortogonal a∆yt-1, ∆yt-2,…, ∆yt-p+1:
[∆yt-  0 yt-1]-{  * (  0 )+ 1 *(  0 )∆yt-1+  2 *(  0 )∆yt-2+…+  p-1 (  0 )∆yt-p+1}. [20.2.16]
Pero observe que los residuos OLS Û , en [20.2.4] y v, en [20.2.5] satisfacen este requisito de
ortogonalidad, y por lo tanto el vector Û , -  0 v, también tiene una muestra media cero y es
ortogonal a ∆yt-1, ∆yt-2,…, ∆yt-p+1. Además, Û , -  0 v, es de la forma de expresión [20.2.16],
Û , -  0 v1 =(∆yt-  -
0 1∆yt-1-  2∆yt-2-…-  p-1∆yt-p+1)
-  0 ( yt-1- ӫ- x1∆yt-1 + x2∆yt-2 +…+xp-1∆xt-p+1),

Con
 *(  0 )=  -  0 ӫ 0 [20.2.17]
1 *(  0 )=  i -  0 xi para i=1,2,…,p-1. [20.2.18]
Así, el vector en [20.2.16] está dado por Û , -  0 vt.

La función de verosimilitud logarítmica concentrada (que se denomina M) se encuentra
sustituyendo (  , 1,  2 ,..., p-1 ) en [20.2.3] con [  *(  0 ), 1 *(  0 ),  2 *(  0 ),…, p-1 (  0 )]:
M(Ω,  0 )=L{ Ω, 1 *(  0 ),  2 *(  0 ),…,  p-1 (  0 ),  *(  0 ),  0 }
= -(Tn/2) log(2  )- (T/2) log ІΩІ
T
-(1/2) t 1
[( Ût -  0 vt)´ Ω-1( Ût -  0 vt) ].
La idea de concentrar la función de verosimilitud de esta manera es que si podemos encontrar los
valores de Ω y  0 para los cuales M es maximizado, entonces estos mismos valores (junto con 
*(  0 ) y  i *(  0 )). Maximizará [20.2.3].
Continuando con la concentración un paso más allá, recuerda del análisis de [11.1.25] que el valor
de Ω que rnaximiza [20.2.19] (todavía con respecto a £ 0 como fijo) está dado por
2
Véase Koopmans y Hood (1953, pp. 156-58) para más información sobre la concentración de funciones de
verosimilitud.

𝛺̂∗ (𝜁0 ) = (1/𝑇) ∑𝑇𝑡=1[(û, −𝜁0 𝑣̂𝑡 )(û, −𝜁0 𝑣̂𝑡 )] [20.2.20]
Como en la expresión [11.1.32], el valor obtenido para [20.2.19] cuando se evalúa en [20.2.20] es
entonces
𝒩(𝜁0 ) = ℳ{𝛺̂ ∗ (𝜁0 ), 𝜁0 }

𝑇𝑛 𝑇
= − ( 2 ) 𝑙𝑜𝑔(2𝜋) − (2) 𝑙𝑜𝑔𝛺̂ ∗ (𝜁0 )|−(𝑇𝑛/2)
𝑇𝑛
= − ( 2 ) 𝑙𝑜𝑔(2𝜋) − (𝑇𝑛/2) [20.2.21]
−(𝑇/2)𝑙𝑜𝑔|(1/𝑇) ∑𝑇𝑡=1[(û, −𝜁0 𝑣̂𝑡 )(û, −𝜁0 𝑣̂𝑡 )′]|

La expresión [20.2.21] representa el valor más grande que se puede alcanzar para la probabilidad de
log para cualquier valor dado de ζ_0. Maximizar la función de verosimilitud se reduce a elegir ζ_0
para minimizar
|(1/𝑇) ∑𝑇𝑡=1[(û, −𝜁0 𝑣̂𝑡 )(û, −𝜁0 𝑣̂𝑡 )′]| [20.2.22]

Sujeto a la restricción de [20.2.2].
Motivación para el análisis de correlación canónica

Para ver la motivación para calcular las correlaciones canónicas, considere primero un problema
más simple. Supongamos que por una coincidencia asombrosa, û y v, ya estaban en forma canónica.
û, = 𝑛̂𝑡
𝑣̂𝑡 = 𝜉̂𝑡 ,
Con
(1/𝑇) ∑𝑇𝑡=1 𝑛̂𝑡 𝑛̂𝑡′ = 𝐼𝑛 [20.2.23]
(1/𝑇) ∑𝑇𝑡=1 𝜉̂𝑡 𝜉̂𝑡′ = 𝐼𝑛 [20.2.24]
(1/𝑇) ∑𝑇𝑡=1 𝜉̂𝑡 𝑛̂𝑡′ = 𝑅̂ [20.2.25]
𝑟̂1 0 … 0
0 𝑟̂2 … 0
𝑅̂ = [ ] [20.2.26]
⋮ ⋮ ⋯ ⋮
0 0 … 𝑟̂𝑛
Uppose que para estos datos canónicos se nos pidió elegir ζ_0 para minimizar
|(1/𝑇) ∑𝑇𝑡=1[(𝑛̂𝑡 − 𝜁𝑜 𝜉̂𝑡 )(𝑛̂𝑡 − 𝜁0 𝜉̂𝑡 )′]| [20.2.27]
 0  t , pudiera hacer uso de sólo h combinaciones lineales de Si no

Sujeto a la restricción de que
hubiera restricciones sobre  0 (de modo que h=n), entonces la expresión [20.2.27] sería
minimizada por las regresiones OLS de it en  r Para i = 1, 2,. . ., n. Las condiciones [20.2.24] y
[20.2.25] establecen que la ith regresión tendría un coeficiente estimado de vector de

T T
{(1/T) 
t 1
 t  t }-1{(1/T)   t it }= ri ei
t 1
Donde ei, denota la ith columna de In. Por lo tanto, incluso si todos los n elementos de  t ,
aparecieran en la regresión, sólo el elemento  it tendría un coeficiente no nulo en la regresión usada
para explicar it . El promedio cuadrado residual para esta regresión sería
T T T T
{(1/T) 
t 1
( it )2}-{(1/T)  ( it  t )}{(1/T)  (  t  t )}-1{(1/T)  (  t it )}
t 1 t 1 t 1
= 1-ri .ei .In .ri .ei
= 1 – ri2.
Por otra parte, las condiciones [20.2.23] a [20.2.25] implican que el residuo de la ith regresión, it - ri
 it , sería ortogonal al residuo de la regla, it - ri  it para i ≠ j. Por lo tanto, si  0 no fuera
restringido, el valor óptimo para la matriz en [20.2.27] sería una matriz diagonal con (1 - ri2) en la
fila i, columna i posición y cero en otra parte.
Supongamos ahora que estamos limitados a usar sólo h combinaciones lineales de 1 , como
regresores.
Del análisis precedente, podríamos adivinar que lo mejor que podemos hacer es utilizar los
elementos h de  t que tienen las correlaciones más altas con los elementos de t , es decir, elegir (
1t ,  2t ,..., h1 ) como regresores .3 Cuando este conjunto de regresores se utiliza para explicar it
para i ≤ h, el residuo cuadrático promedio será (1 - ri2), como antes. Cuando este conjunto de
regresores se utiliza para explicar it para i ≥h, todos los regresores son ortogonales a 77 y
recibirían coeficientes de regresión de cero. El residuo cuadrático promedio para la última regresión
es simplemente (l / t) 1 T =1 it =1 para i = h + 1, h + 2, ..., n) Por lo tanto, si estamos limitados a
usar solamente h combinaciones lineales De  t el valor optimizado de [20.2.27] será
T
І(1/T) 
t 1
[( t -  0 *  t )( t -  0 *  t )1] І
1− r12 0 … 0 0 …
| |
= 0 1− rh 2 … 0 0 … [20.2.28]
| |
0 0 … 1− rh 2 1
=∏ℎ𝑖=1(1 − 𝑟𝑖2 ).
Por supuesto, los datos reales µt ,yt No estará en forma canónica exacta
Sin embargo, la sección anterior describía cómo encontrar (n x b) matrices ĸ y Ȃ tal que :
ň=ĸ’ŭ [20.2.29]
3 Véase Johansen (1988) para una demostración más formal de esta afirmación.

ξ=Ȃ'ý [20.2.30]
Las columnas de 𝒜̂ están dados por los vectores de la matriz en [20.2.29], normalizada por la
̂ 𝑣𝑣 𝒜̂ = 𝐼𝑛 . Los vectores propios de [20.2.29] da los cuadros de las correlaciones
condición 𝒜̂ ′ ∑
canonícas:
𝜆𝑖 = 𝑟̂𝑖2 [20.2.31]
Las columnas de 𝒦̂ corresponden a los autovectores normalizados de la matriz ∑̂ −1 ̂ ̂ −1 ̂

𝑈𝑈 ∑𝑈𝑉 ∑𝑉𝑉 ∑𝑉𝑈 ,
aunque resulta que 𝒦̂ realmente no tiene que ser calculado con el fin de utilizar los siguientes
resultados. Asumiendo que 𝒦̂ y 𝒜̂ no son singulares [20.2.29] y [20.2.30] permiten [20.2.22] a la
escritura:
𝑇
′
|(1/𝑇) ∑ [(𝑢̂𝑡 − 𝜁0 𝑉̂𝑡 )(𝑢̂𝑡 − 𝜁0 𝑉̂𝑡 ) ]|
𝑡=1
𝑇
′
̂ ′ )−1 𝜂̂ 𝑡 − 𝜁0 (𝒜̂′ )−1 𝜉̂′ ] [(𝒦
= |(1/𝑇) ∑ [[(𝒦 ̂ ′ )−1 𝜂̂ 𝑡 − 𝜁0 (𝒜̂ ′ )−1 𝜉̂𝑡 ] ]|
𝑡=1
𝑇
′
= |(𝒦 )̂ ′ −1 (1/𝑇) ̂ ′ 𝜁0 (𝒜̂′ )−1 𝜉̂𝑡 ] [𝜂̂ 𝑡 − 𝒦
∑ [[𝜂̂ 𝑡 − 𝒦 ̂ ′ 𝜁0 (𝒜̂′ )−1 ] ] (𝒦
̂ )−1 |
𝑡=1
𝑇
′
̂ ′ −1 ̂ 𝜉̂𝑡 ][𝜂̂ 𝑡 − ∏
= |(𝒦 ) | |(1/𝑇) ∑ [[𝜂̂ 𝑡 − ∏ ̂ 𝜉̂𝑡 ] ]| |(𝒦
̂) | −1
𝑡=1
̂ 𝜉̂𝑡 ]′ ]| ÷ |𝒦
̂ 𝜉̂𝑡 ][𝜂̂ 𝑡 − ∏
= |(1/𝑇) ∑𝑇𝑡=1 [[𝜂̂ 𝑡 − ∏ ̂ |2 [20.2.32]
Donde:
∏ ̂ ′ 𝜁0 (𝒜̂′ )−1
̂ ≡𝒦 [20.2.33]
Recordemos que maximizar la función de verosimilitud logarítmica concentrada para los datos
reales [20.2.21] equivale a elegir 𝜁0 para minimizar la expresión en [20.2.32] sujeto al requisito de
que 𝜁0 puede escribirse como 𝐵𝐴′ para algunas matrices (𝑛𝑥ℎ) de 𝐵 y 𝐴. Pero 𝜁0 puede escribirse
en esta forma si y solo si ∏ ̂ en [20.2.33] puede escribirse en la forma 𝛽𝛾 ′ para algunas (𝑛𝑥ℎ)
matrices 𝛽 y 𝛾. Por lo tanto, la tarea se puede describir como la elección de ∏ ̂ para minimizar
[20.2.32] sujeto a condición.
Pero este es precisamente el problema resuelto en [20.2.28] --la solución es utilizar como regresores
los primeros elementos ℎ de 𝜉̂𝑡 . El valor de [20.2.32] en el óptimo es dado por:
2
̂|
∏ℎ𝑖=1(1 − 𝑟̂𝑖2 ) ÷ |𝒦 [20.2.34]
̂ satisface
Además, la matriz 𝒦
̂ ′ 𝑢̂𝑡 𝑢̂𝑡′ 𝒦
:𝐼𝑛 = (1/𝑇) ∑𝑇𝑡=1 𝜂̂ 𝑡 𝜂̂ 𝑡′ = (1/𝑇) ∑𝑇𝑡=1 𝒦 ̂ =𝒦 ̂ 𝑈𝑈 𝒦
̂ ′∑ ̂ [20.2.35]
Tomando determinantes de ambos lados [20.2.35] establecemos:
1 = |𝒦 ̂ 𝑈𝑈 ||𝒦
̂ ′ ||∑ ̂|
O;

̂ |2 = |∑
1/|𝒦 ̂ 𝑈𝑈 |
Sustituyendo esto en [20.2.34] parece que el valor optimizado de [20.2.21] es igual a:

ℎ
̂ 𝑈𝑈 | 𝑥 ∏(1 − 𝑟̂𝑖2 )
|∑
𝑖=1
Comparando [20.2.32] con [20.2.21], se deduce que el valor máximo obtenido para la función de
verosimilitud de log es dado por:
ℎ
̂ 𝑈𝑈 |𝑥 ∏(1 − 𝑟̂𝑖2 )}
ℒ = 𝒩(𝜁̂0 ) = −(𝑇𝑛/2) log(2𝜋) − (𝑇𝑛/2) − (𝑇/2) log {|∑
∗
𝑖=1
Como se reivindico en [20.2.10].
Motivacion Para Estimaciones De Maxima Verosimilitud De

Parametros
Hemos visto que la función de probabilidad de log logarítmica [20.2.21] se maximiza
seleccionando como regresores los primeros elementos ℎ de 𝜉̂𝑡 . Ya que 𝜉̂𝑡 = 𝒜̂ ′ 𝑉̂𝑡 , esto significa
usar 𝒜̂ ′ 𝑉̂𝑡 como regresores, donde la matriz 𝐴̂ (𝑛𝑥ℎ) denota las primeras columnas ℎ. Así:
𝜁0 𝑉̂𝑡 = −𝐵𝐴̂′ 𝑉̂𝑡 [20.2.36]
Para algunos (𝑛𝑥ℎ) matriz 𝐵. Esto comprueba la afirmación de que 𝐴̂ es la estimación de máxima
verosimilitud de una base para el espacio de vectores de cointegracion.
Dado que queremos elegir 𝑊 ̂𝑡 ≡ 𝐴̂′ 𝑉̂𝑡 como regresores, el valor de 𝐵 para el cual se maximizara la
función concentrada se obtendrá a partir de las regresiones MCO de 𝑢̂𝑡 en 𝑊̂𝑡 :
𝑇 𝑇 −1
𝐵̂ = − [(1/𝑇) ∑ 𝑢̂𝑡 𝑢̂𝑡′ ] [(1/𝑇) ∑ 𝑢̂𝑡 𝑢̂𝑡′ ]

𝑡=1 𝑡=1
[20.2.37]
̂𝑡 está compuesto de ℎ variables canónicas, lo que significa que:
Pero 𝑊
̂𝑡 𝑊
[(1/𝑇) ∑𝑇𝑡=1 𝑊 ̂𝑡′ ] = 𝐼ℎ [20.2.38]
Además;
𝑇 𝑇
̂𝑡′ ] = [(1/𝑇) ∑ 𝑢𝑡 𝑉𝑡′ 𝐴̂]
[(1/𝑇) ∑ 𝑢̂𝑡 𝑊
𝑡 𝑡=1
̂ 𝑈𝑉 𝐴̂
=∑ [20.2.40]
Sustituyendo [20.239] y [20.2.38] en [20.2.37]:

̂ 𝑈𝑉 𝐴̂
𝐵̂ = −∑
Y así, a partir de [20.2.2], la estimación de máxima verosimilitud de 𝜁0 esta dada por:

̂ 𝑈𝑉 𝐴̂𝐴̂′
𝜁̂0 = ∑
Cono se afirma en [20.2.12]
Expresiones [20.2.17] y [20.218] dio valores de 𝛼 y 𝜁𝑖 que maximizó la función de verosimilitud

para cualquier valor dado de 𝜁0 . Ya que la función de verosimilitud se maximiza con respecto a 𝜁0
conforme de [20.2.12], esto es máximo con respecto a 𝛼 y 𝜁𝑖 dentro de [20.2.17] y [20.2.18], como
se reivindico en [20.2.14] y [20.2.13].
Estimacion De Maxima Verosimilitud E Ausencia De Tendencias

Deterministas Del Tiempo
El análisis precedente supuso que 𝛼, el vector (𝑛𝑥1) de términos constantes VAR, no tenía
restricciones. El valor de 𝛼 contribuye ℎ términos constantes para las relaciones ℎ cointegrantes,
junto con 𝑔 ≡ 𝑛 − ℎ tendencias deterministas del tiempo que son comunes a cada uno de los 𝑛
elementos de 𝑦𝑡 . En algunas aplicaciones podría ser de interés permitir términos constantes en las
relaciones de cointegracion, pero destacar tendencias de tiempo deterministas para cualquiera de
las variables. Vimos la ecuación [19.1.45] que requería:
𝛼 = 𝐵𝑢1∗
Donde B es la matriz (n x h) que aparece en [20.2.2] mientras que 𝜇1∗ es un vector (h x 1)

correspondiente a la media incondicional de 𝑧𝑡 = 𝐴´𝑦𝑡 . Por lo tanto, para este caso restringido,
queremos estimar sólo los elementos h de 𝜇1∗ en lugar de todos los n elementos de 𝛼.
Para maximizar la función de verosimilitud sujeto a las restricciones de que hay relaciones de
cointegración h y no hay tendencias de tiempo deterministas en ninguna de las series, el primer
paso de Johansen (1991) fue concentrar ξ1, ξ2,… Y ξp-1(pero no α). Para α y ξ0, esto se logra
mediante la regresión OLS de (ΔYT-α-ξ0YT-1) en (ΔYT-1, ΔYT-2,… ΔYT-P+1). Los residuos de esta
regresión están relacionados con la Residuos de tres regresiones separadas:
(1) Una regresión de ∆𝑡 en (∆𝑡−1 , ∆𝑡−2 ,… ∆𝑡−𝑝+1 ) sin término constante

∆𝑦1 = ∏1 ∆𝑦𝑡−1 + ∏2 ∆𝑦𝑡−2 + ⋯ + ∏𝑝−1 ∆ 𝑦𝑡−𝑝+1 + 𝑈𝑡 [20.2.41]
(2) Una regresión de un término constante en (Δy𝑡−1 , Δ𝑦𝑡−2 … + Δ𝑦𝑡−𝑝+1 )

(1 = 𝜔´1 Δ𝑡−1 + 𝜔2, + ⋯ + 𝜔𝑝−1
,
Δ𝑦𝑡−𝑝+1 ) [20.2.42]
(3) Una regresión de 𝑦𝑡−1 en (Δ𝑦𝑡−1 , Δ𝑡−2 , … , Δ𝑡−𝑝+1 sin termino constante
𝑦𝑡−1 = ℵ1 ∆𝑡−1 + ℵ2 ∆𝑡−2 + ⋯ + ℵ𝑝−1 ∆𝑦𝑡−𝑝+1 + 𝑣𝑡 [20.2.43]
La función de verosimilitud logarítmica concentrada es entonces

𝑡
ℳ(Ω, 𝛼, 𝜉0 ) = −(𝑇𝑛⁄2) log(2𝜋) − (𝑇⁄2)𝑙𝑜𝑔|Ω| − (1⁄2) ∑[(𝑢𝑡 − 𝛼𝑤𝑡 − 𝜉0 𝑦𝑖 )]

𝑡=1
Concentrándose aun mas en los resultados de Ω
𝒩(𝛼, 𝜉0)
= −(𝑇𝑛⁄2) log(2𝜋) − (𝑇𝑛⁄2)

𝑇
− (𝑇⁄2) 𝑙𝑜𝑔 |∑ (1⁄𝑇){(𝑢𝑡 −∝ 𝑤𝑡 − 𝜉𝑛 𝑣𝑡 )´}|

𝑡−1
Imponiendo las limitaciones 𝛼 = Β𝑢1∗ y 𝜉0 = −ΒΑ´, la magnitud en [20.2.44] puede ser escrito
𝒩(𝛼, 𝜉0 ) = −(𝑇𝑛⁄2) log(2𝜋) − (𝑇𝑛⁄2) [20.2.45]

t
1
−(𝑇⁄2) log |∑( ){ut + ΒΑ´wt )(ut + ΒΑ´wt )´}|
T
t=1
Donde
𝑤𝑡
𝑤𝑡(𝑛+𝑎)𝑥1 = [ 𝑣 ]
𝑡
𝑤𝑡ℎ𝑥(𝑛+1) = [−𝑢1∗ Α´] [20.4.46]
Pero establecer ξ0 = -BA 'en [20.2.21] produce una expresión de exactamente la misma forma que
[20.2.45], con A en [20.2.21] reemplazado por A y Vt, reemplazado por Wt , Por lo tanto, la
probabilidad de registro restringido se maximiza simplemente reemplazando Vt, en el análisis de
[20.2.21] con Wt.
En resumen construye
𝑇
Σ𝑤𝑤 = (1⁄𝑇) ∑ 𝑤𝑡 𝑤´𝑡

𝑡=1
Σ𝑢𝑢 = (1⁄𝑇) ∑ 𝑢𝑡 𝑢´𝑡

𝑡=1
Σ𝑢𝑤 = (1⁄𝑇) ∑ 𝑢𝑡 𝑤´𝑡

𝑡=1
Y encontrar los valores propios de la (n+1) x (n+1) matriz

−1 . −1 .
Σ𝑤𝑤 Σ𝑤𝑢 Σ𝑢𝑢 Σ𝑢𝑤 [20.4.47]
Ordenado λ1>λ2>… >λn+1 El valor máximo alcanzado para la función de probabilidad de log sujeto
a la restricción de que hay relaciones h cointegrantes y no hay tendencias de tiempo deterministas
ℒℎ = −(𝑇𝑛⁄2) log(2𝜋) − (𝑇𝑛⁄2) − (𝑇⁄2)𝑙𝑜𝑔|Σ𝑢𝑢 | [20.4.48]

ℎ
−(𝑇⁄2) ∑ log(1 − 𝜆𝑡 )
𝑡=1
La estimación de probabilidad máxima de BA 'es
ΒΑ´ = −Σ𝑢𝑤 ΑΑ´ [20.4.49]
Recordemos de [20.2.46] que
BA’=[-Bu1* BA’]
=[-α - ξ0] [20.2.50]

Por tanto, (20.2.49) implica que las estimaciones máximas 𝛼 𝑦 𝜉0 son
[𝛼 𝜉0 ] = Σ𝑢𝑤 ΑΑ´
20.3. Evaluación de la hipótesis

Vimos en el capítulo anterior que los ensayos de la hipótesis nula de no cointegración típicamente
implican distribuciones asintóticas no estándar, mientras que las pruebas sobre el valor del vector
de cointegración bajo la hipótesis mantenida de que la cointegración está presente tendrán
distribuciones 𝑥 2
asintóticas, siempre que se tenga en cuenta la asignación adecuada Para la correlación serial en los
datos. Estos resultados generalizan al análisis FIML. La distribución asintótica de una prueba del
número de reintegraciones de cointegración no es estándar, pero las pruebas sobre el vector de
cointegración son a menudo 𝑥 2
Prueba de la Hipótesis Nula de las Relaciones de Cointegración

Supongamos que un vector (n x 1) y, puede ser caracterizado por un VAR (p) en niveles,
que escribimos en la forma de [20.2.1]:
ΔYt=ξ 1ΔYT-1 +ξ2ΔYT-2 +… +ξp-1ΔYt-p+1 + α +ξ0Yt-1 + Et [20.3.1]
Bajo la hipótesis nula Ho que hay exactamente h cointegrando las relaciones entre los elementos
de yt, este VAR está restringido por el requisito deξ0 que se pueda escribir en la forma ξ0= -BA ',
para B en (n x h) matriz y A' en (h x n) matriz. Otra forma de describir esta restricción es que sólo h
combinaciones lineales de los niveles de Yt-1 , pueden utilizar en las regresiones en [20.3.1]. El
mayor valor que se puede lograr para la función de probabilidad de log bajo esta restricción fue
dado por [20.2.10];
ℒ0 = −(𝑇𝑛⁄2) log(2𝜋) − (𝑇𝑛⁄2) − (𝑇⁄2)𝑙𝑜𝑔|Σ𝑢𝑢 | [20.3.2]

ℎ
−(𝑇⁄2) ∑ log(1 − 𝜆𝑡 )
𝑡=1
Considere la hipótesis alternativa HA de que hay n relaciones de cointegración, donde n es el

número de elementos de Yt , Esto equivale a la afirmación de que toda combinación lineal de y, es
estacionaria, en cuyo caso yt-1 aparecería en [20.3 .1] sin restricciones y no se imponen restricciones.
El valor de la función de probabilidad de log en ausencia de restricciones viene dado por
𝑇𝑛 𝑇𝑛 𝑇
𝑙𝐴∗ = − ( ) log(2𝜋) − ( ) − ( ) log |∑̂
𝑢𝑢 |
2 2 2
𝑇
− ( 2𝑛 ) ∑𝑛𝑖=1 𝑙𝑜𝑔 (1 − λ̂𝑖 ) [20.3.3]
Una prueba de radio de verisimilitud H0 en contra H puede ser base en:

𝑛
𝑇𝑛
𝑙𝐴∗ − 𝑙0∗ = − ( ) ∑ 𝑙𝑜𝑔 (1 − λ̂𝑖 )
2
𝑖=𝑛+1
0 667
Si la hipótesis involucraba sólo I (0) variables, se esperaría dos veces el log ratio de verosimilitud,
𝑇
2(𝑙𝐴∗ − 𝑙0∗ ) = − ( 2𝑛 ) ∑𝑛𝑖=𝑛+1 𝑙𝑜𝑔 (1 − λ̂𝑖 ) [20.3.4]
Para ser asintóticamente distribuido como X2 . En el caso de H0, sin embargo, la hipótesis implica
el coeficiente de yt-1 que, a partir de la representación de tendencias comunes de Stock-Watson,
depende del valor de g = (n - h) Separar paseos aleatorios Vamos W (r) sea g-dimensional
estándar de movimiento browniano. Supongamos que el valor verdadero del término constante a en
[20.3.1] es cero, lo que significa que no hay intercepto en ninguna de las relaciones de cointegración
y ninguna tendencia temporal determinista en ninguno de los elementos de h. Supongamos además
que no se incluye ningún término constante en las regresiones auxiliares [20.2.4] y [20.2.5] que se
utilizaron para construir Ut, y Vt. Johansen (1988) mostró que bajo estas condiciones la
distribución asintótica de la estadística en [20.3.4] es la misma que la de la siguiente matriz:
1 ′ 1 −1 1
𝑄 = [∫0 𝑊(𝑟) 𝑑𝑊(𝑟)′ ] [∫0 𝑊(𝑟) 𝑊(𝑟)′ 𝑑𝑟] [∫0 𝑊(𝑟) 𝑑𝑊(𝑟)′ ]. [20.3.5]
Percentiles para la traza de la matriz en [20.3.5] se informan en el caso 1 porción de la Tabla B.10.
Estos se basan en simulaciones de Monte Carlo
1 2 1 2
{∫0 𝑊(𝑟) 𝑑𝑊(𝑟)} {(2)2 [𝑤(1)]2 −1}
𝑄= 1 = 1 [20.3.6]
{∫0 [𝑊(𝑟)]2 𝑑𝑟} {∫𝑛 [𝑊(𝑟)]2 𝑑𝑟}
Donde la segunda igualdad se sigue de [18.1.15]. La expresión [20.3.6] se reconocerá como el

cuadrado de la estadística [17.4.12] que describió la distribución asintótica de la prueba de Dickey-
Fuller basada en la estadística t de OLS. Por ejemplo, si estamos considerando una autorregresión
que implica una sola variable (n = 1), la hipótesis nula de ninguna relación de cointegración (h = 0)
equivale a la afirmación de que Co = 0 en [20.3.1] o que Δy, sigue un proceso AR (p - 1). Por lo
tanto, el procedimiento de Johansen proporciona un enfoque alternativo para probar las raíces
unitarias en series univariadas, una idea explorada más a fondo en el ejercicio 20.4.
Otro enfoque sería probar la hipótesis nula de las relaciones de cointegración h frente a la
alternativa de las relaciones de cointegración h + 1. Dos veces la razón de probabilidad de log para
este caso es dada por
2(ℒA∗ − ℒ0∗ ) = −T log(1 − λ̂k+1 ). [20.3.7]
De nuevo, bajo la suposición de que el valor trie de α = 0 y que no se incluye término constante
en [20.2.4] o [20.2.5], la distribución asintótica de la estadística [20.3.5]. Las estimaciones de Monte
Carlo de esta distribución se informan en la sección de caso 1 de la Tabla B.11.
Obsérvese que si g = 1, entonces n = h + 1. En este caso la estadística [20.3.4] y [20.3.7] son

idénticas. Por esta razón, la primera fila de la Tabla B.10 es la misma que la primera fila de la Tabla
B.11.
Normalmente, las relaciones de cointegración podrían incluir intercepciones no nulas, en cuyo caso
querríamos incluir constantes en las regresiones auxiliares [20.2.4] y [20.2.5]. Como se podría
adivinar a partir del análisis del capítulo 18, la distribución asintótica en este caso depende de si
alguna de las series presenta o no tendencias de tiempo deterministas. Suponga que el valor
verdadero de α es tal que no hay tendencias deterministas en ninguna de las series, de modo que el
verdadero α satisface α = Βμ1∗ como en [20.2.40]. Suponiendo que no se imponen restricciones al
término constante en la estimación de las regresiones auxiliares [20.2.4] y [20.2.5], entonces la
distribución asintótica de [20.3.4] se da en el caso 2 de la Tabla B. 10, mientras que la distribución
asintótica de [20.3.7] se da caso 2 panel de la Tabla B.11. Por el contrario, si alguna de las variables
presenta tendencias de tiempo deterministas (uno o más elementos de 𝛂 − 𝚩𝛍∗𝟏 son distintos de

cero), entonces la distribución asintótica de [20.3.4] es la de la variable en la sección de caso 3 de la
Tabla B.10, Mientras que la distribución asintótica de [20.3.7] se da en la sección de caso 3 de la
Tabla B.11.
Cuando g = 1 y α ≠ Βμ1∗ , la caminata aleatoria única que es común a yt está dominada por una
tendencia temporal determinista. En esta situación, Johansen y Juselius (1990, p.180) señalaron que
el caso 3 análogo de [20.3.6] tiene una distribuciónx 2 (1), por razones similares a las observadas por
West (1988) y discutido en el capítulo 18. Las modestas diferencias entre la primera fila del caso 3
parte de la Tabla B.10 o B.11 y la primera fila de la Tabla B.2 se deben probablemente al error de
muestreo implícito en el procedimiento de Monte Carlo utilizado para generar los valores en las
Tablas B .10 y B.11.
Aplicación a los datos de tipo de cambio

Considérese por ilustración los datos mensuales de Italia y Estados Unidos representados
en la Figura 19.2. Los sistemas de ecuaciones en [20.2.4] y [20.2.5] fueron estimados por MCO para
𝑌𝑡 = (𝑝𝑡 , 𝑆𝑡 , 𝑝𝑡∗ )′ , donde 𝑃𝑡 es 100 veces el logaritmo del nivel de precios de los Estados Unidos,
El nivel de precios, ST es 100 veces el logaritmo del tipo de cambio dólar-lira, y 𝑝𝑡∗ es 100 veces el
logaritmo del nivel de precios italiano. Las regresiones fueron estimadas sobre t =
1974: 2 hasta 1989: 10 Número de observaciones utilizadas para la estimación fue T = 189), p = 12
retrasos se asumieron para el VAR en los niveles.
Las matrices de varianza-covarianza de la muestra para los residuos 𝑢𝑡 y𝑣𝑡 , se calcularon de

[20.2.6] a [20.2.8] para ser
0.0435114 −0.0316283 0.0154297

Σ̂𝑈𝑈 − [−0.0316283 4.68650 0.0319877]
0.0154297 0.0319877 0.179927
427.366 −370.699 805.812
Σ̂𝑈𝑈 − [−370.699 424.083 −709.036]
805.812 −709.036 1525.45
−0.484857 0.498758 −0.837701

Σ̂𝑈𝑈 − [ −1.81401 −2.95927 −2.46896 ]
−1.80836 1.46897 −3.58991
Los valores propios de la matriz en [20.2.9] son entonces4
𝜆̂1 = 0.1105
𝜆̂2 = 0.05603
𝜆̂3 = 0.03039
Con
𝑇 𝑙𝑜𝑔 (1 − 𝜆̂1 ) = −22,12
𝑇 𝑙𝑜𝑔 (1 − 𝜆̂2 ) = −10,90
𝑇 𝑙𝑜𝑔 (1 − 𝜆̂3 ) = − 5,83.
4
Los cálculos se basaron en dígitos más significativos que los reportados, por lo que el lector puede encontrar
discrepancias al intentar reproducir estos resultados de las cifras reportadas.
20.3 Evaluación de la hipótesis 669

La prueba de razón de verosimilitud de la hipótesis nula de ℎ = 0 relaciones de cointegración con
la alternativa de ℎ = 3 relaciones de cointegración se calcula a partir de [20.3.4] para ser
2(ℒA∗ − ℒ0∗ ) = 22.12 + 10.90 + 5.83 = 38.85 [20.3.8]
Aquí el número de raíces unitarias bajo la hipótesis nula es g = 𝑛 − ℎ = 3 . Dada la evidencia

de las tendencias deterministas del tiempo, la magnitud en [20.3.8] debe compararse con la sección
del caso 3 de la Tabla B. 10. Desde 38,85> 29,5, la hipótesis nula de no cointegración se rechaza al
nivel del 5%. De manera similar, la prueba de razón de verosimilitud [20.3.7] de la hipótesis nula de
relaciones no cointegrantes(ℎ = 0) con la alternativa de una única relación de cointegración (ℎ =
1) viene dada por 22.12. Comparando esto con la sección del caso 3 de la Tabla B.11, vemos que
22,12> 20,8, de modo que la hipótesis nula de no cointegración también es rechazada por esta
prueba.
Esto difiere de la conclusión de la prueba de Phillips-Ouliaris para no cointegración entre estas

series, sobre la base de la cual se encontró que la hipótesis nula de no cointegración para estas
variables fue aceptada en el Capítulo 19.
Buscando la evidencia de una posible segunda relación de cointegración, considere la prueba de

razón de verosimilitud de la hipótesis nula de h = 1 relación de cointegración con la alternativa de h
= 3 relaciones de cointegración:
2(ℒA∗ − ℒ0∗ ) = 10.90 + 5.83 = 16.73

Para esta prueba, g = 2. Desde 16,73> 15,2, la hipótesis nula de una única relación de cointegración
se rechaza al nivel del 5%. La prueba de razón de verosimilitud de la hipótesis nula de h = 1
relación de cointegración con la alternativa de h = 2 es de 10.90 <14.0; Por lo tanto, las dos pruebas
ofrecen pruebas contradictorias en cuanto a la presencia de una segunda relación de cointegración.
El vector propio â1 de la matriz en [20.2.9] asociado con 𝜆̂1 , normalizado de manera que
â′1 Σ̂𝑣𝑣 â1 = 1, está dado por
â′1 = [−0.7579 0.02801 0.4220] [20.3.9]
Es natural renormalizar esto tomando el primer elemento como unidad
â′1 = [1.00 −0.04 −0.56]

Esto es prácticamente idéntico al estimado del vector de cointegración basado en MCO de
[19.2.49].
Pruebas de Razón de Verosimilitud sobre el Vector de Cointegración

Consideremos un sistema de n variables que se asume (tanto en el nulo como en el
alternativo) que se caracteriza por h relaciones de cointegración. Podríamos entonces querer probar
una restricción en estos vectores de cointegración, como que sólo q de las variables están
involucradas en las relaciones de cointegración.
Por ejemplo, podríamos estar interesados en saber si el coeficiente medio en [20.3.9] es cero, es
decir, si la relación de cointegración involucra únicamente los niveles de precios de Estados Unidos
e Italia. Para este ejemplo h = 1, q = 2 y n = 3. En general debe ser el caso de que h 5 q n. Puesto
que h las combinaciones lineales de las q variables incluidas en las relaciones de cointegración son
estacionarias, si q = h, entonces todas las q de las variables incluidas tendrían que ser estacionarias
en niveles. Si q=n, entonces la hipótesis nula no impone restricciones sobre las relaciones de
cointegración.

Consideremos la restricción general de que existe una matriz D 'conocida (q x n) tal que las
relaciones de cointegración involucran sólo 𝐷′𝑦𝑡 , Para el ejemplo anterior
1 0 0
𝐷′ = [ ] [20.3.10]
0 0 1
Por lo tanto, el término de corrección de error en [20.3.1] tomará la forma
𝜁0 𝑦𝑡−1 = −𝑩𝑨′𝑫′𝒚𝒕−𝟏 ,
Donde B es ahora una matriz (n x h) y A 'es una matriz (h x q). La estimación de máxima
verosimilitud procede exactamente como en la sección anterior, donde 𝑣̂𝑡 en [20.2.5] es recolocados
por los residuos MCO de las regresiones de 𝐷’𝑌𝑡−1 una constante (ΔYT-1, ΔYT-2,… ΔYT-P+1) Esto
̂ 𝑣𝑣 en [20.2.6] y ∑
equivale a reemplazar ∑ ̂ 𝑢𝑣 en [20.2.8] con
̂ 𝑣𝑣 ≡ 𝐷′∑
∑ ̂ 𝑣𝑣 𝐷 [20.3.11]
̂ 𝑢𝑣 ≡ ∑
∑ ̂ 𝑢𝑣 𝐷 [20.3.12]
Dejar 𝜆̂𝑖 , Denotan el i-ésimo autovalor más alto de

̂ −1
∑ ̂ ̂ −1 ̂
𝑣𝑣 ∑𝑢𝑣 ∑𝑢𝑣 ∑𝑢𝑣 [20.3.13]
El valor maximizado para la probabilidad de registro restringido es entonces

ℎ
ℒ0∗ ̂ 𝑢𝑢 | − (𝑇⁄2) ∑ log(1 − 𝜆̂𝑖 )

= −(𝑇𝑛⁄2) log(2𝜋) − (𝑇𝑛⁄2) − (𝑇⁄2) 𝐿𝑜𝑔|∑
𝑖=𝑡
Una prueba de razón de verosimilitud de la hipótesis nula de que las relaciones de cointegración ℎ
sólo implican a 𝐷′𝑦𝑡 frente a la hipótesis alternativa de que las relaciones de cointegración h
podrían implicar cualquier elemento de y, entonces seria
ℎ ℎ
2(ℒA∗ − ℒ0∗ ) = −𝑇 ∑ log(1 − 𝜆̂𝑖 ) + ∑ log(1 − 𝜆̂𝑖 )

𝑖=1 𝑖=1
[20.3.14]
En este caso, la hipótesis nula implica sólo coeficientes sobre las variables I(0) (el término de
corrección de errores 𝑧𝑡 = 𝐴′𝑦𝑡 ), y la teoría de distribución asintótica estándar resulta aplicable.
Johansen (1988, 1991) demostró que la relación de proporción estadística [20.3.14] tiene una
distribución asintótica 𝑋 2 con grados de libertad ℎ ∙ (𝑛 − 𝑞).
Por ejemplo, considere la restricción representada por [20.3.10] que el tipo de cambio tiene un
coeficiente de cero en el vector de cointegración [20.3.9]. De [20.3.11] y [20.3.12], calculamos
̂ 𝑣𝑣 = [427.366 805.812]
∑
805.812 1525.45
−0.484857 −0.837701
̂ 𝑢𝑣 = [ −1.81401
∑ −2.46896 ]
−1.80836 −3.58991
Los valores propios para la matriz en [20.3.13] son entonces
𝜆̂1 = 0.1059 𝜆̂2 = 0.04681,

Con
T log(1 − 𝜆̂𝑖 ) = −21.15 T log(1 − 𝜆̂2 ) = −9.06
20.3 Evaluación de la hipótesis 671

La razón de probabilidad estadística [20.3.14] es
2(ℒA∗ − ℒ0∗ ) = 22.12 − 21.15
=0.97
Los grados de libertad para esta estadística son
ℎ ∙ (𝑛 — 𝑞) = 1 ∙ (3 — 2) = 1;
La hipótesis nula impone una única restricción al vector de cointegración. El valor crítico del 5%
para una variable 𝑥 2 (1) se ve en la Tabla B.2 como 3.84. Desde 0.97 <3.84, se acepta la hipótesis
nula de que el tipo de cambio no aparece en la relación de cointegración. El vector de cointegración
restringido (normalizado con el coeficiente del nivel de precios de los Estados Unidos como
unidad) es
ã′1 = [1.00 0.00 −0.54]

Como segundo ejemplo, considere la hipótesis que originalmente sugirió interés en una posible
relación de cointegración entre estas tres variables. Esta es la hipótesis de que el tipo de cambio real
es estacionario, o que el vector de cointegración es proporcional a (1, −1, −1) ′. Para esta
hipótesis, 𝐷 ′ = (1, −1, −1) y
∑ 𝑣𝑣 = 88.5977
−0.145914
∑ 𝑢𝑣= [ 3.61422 ]
0.312582
En este caso, la matriz [20.3.13] es el escalar 0.0424498, y así = 0.0424498 Y T log (1 – λ1) = - 8.20.
Por lo tanto, la prueba de razón de verosimilitud de la hipótesis nula de que el vector de
cointegración es proporcional a (1, -1, -1)'es
2(LA*- L0*) = 22.12-8.20
= 13.92
En este caso, los grados de libertad son
h •(n — q) = 1 (3— 1) = 2.
El valor crítico del 5% para una variable X2(2) es 5.99. Desde 13.92> 5.99, Se rechaza la hipótesis
de que el vector de cointegración es proporcional a (1, - 1, - 1) es rechazado.
Otras pruebas de hipótesis

Una serie de otras hipótesis pueden ser probadas en este marco. Por ejemplo, Johansen
(1991) demostró que la hipótesis nula de que no hay tendencias deterministas del tiempo en
ninguna de las series puede ser probada tomando el doble de la diferencia entre [20.2.10] y
[20.2.48]. Bajo la hipótesis nula, esta estadística de razón de verosimilitud es asintóticamente X2
con g = n - h grados de libertad. Johansen también discutió la construcción de pruebas de tipo
Wald de hipótesis relacionadas con los vectores de cointegración.
No todas las pruebas de hipótesis sobre los coeficientes en el marco de Johansen son
asintóticamente
X2 .Considere una VAR de corrección de errores de la forma de [20.2.1] donde

𝜉∩ = -BA'. Supongamos que estamos interesados en la hipótesis nula de que los últimos
n3 elementos de yt, fallan en Granger-causan los primeros n1 elementos de yt. Toda y Phillips (en
preparación) demostraron que una prueba de Wald de esta hipótesis nula puede tener una
distribución no estándar. Véase Mosconi y Giannini (1992) para más discusión
Comparación entre FIML y otros enfoques

La estimación FIML de Johansen representa la dinámica de corto plazo de un sistema en
términos de una autorregresión vectorial en las diferencias con el vector de corrección de errores
Zt-1 añadido. La dinámica de corto plazo también se puede modelar con lo que a veces se llaman
métodos no paramétricos, como la ventana de Bartlett utilizada para construir el estimador Phillips-
Hansen (1990) completamente modificado en la ecuación [19.3.53]. Phillips (1990, 1991a), Park
(1992) y Park y Ogaki (1991) han propuesto estimadores no paramétricos relacionados. Park (1990)
estableció la equivalencia asintótica de los enfoques paramétricos y no paramétricos, y Phillips
(1991a) discutió el sentido en el cual cualquier estimador FIML es asintóticamente eficiente.
Johansen (1992) proporcionó una discusión adicional sobre la relación entre la información limitada
y las estrategias de estimación de la información completa.
En la práctica, los enfoques paramétricos y no paramétricos difieren no sólo en su tratamiento de la

dinámica de corto plazo, sino también en las normalizaciones empleadas. El hecho de que el
método de Johansen busque estimar el espacio de relaciones de cointegración más que un conjunto
particular de coeficientes puede ser tanto un activo como un pasivo. Es un activo si el investigador
no tiene información previa sobre qué variables aparecen en las relaciones de cointegración y le
preocupa la normalización inadvertida de todo a11 = 1 cuando el verdadero valor de todos a11 = 0.
Por otra parte, Phillips (1991b) ha subrayado que si El investigador quiere hacer interpretaciones
estructurales de las relaciones de cointegración separadas, esto lógicamente requiere imponer
restricciones adicionales sobre la matriz A '
Por ejemplo r, denotan el tipo de interés nominal sobre la deuda corporativa a 3 meses, i, el tipo
de interés nominal sobre la deuda pública a 3 meses y la tasa de inflación a 3 meses. Supongamos
que estas tres variables parecen ser I(1) y presentan dos relaciones de cointegración. Una visión
natural es que estas relaciones de cointegración representan dos relaciones estabilizadoras. La
primera refleja las fuerzas que mantienen la prima de riesgo esta-
rt=𝜇11* +𝛾1 𝑖𝑡 + z1t* [20.3.15]
Con z2t* ~ I(0) Una segunda fuerza es el efecto de Fisher, que tiende a mantener el real Tasa de
interés estacionaria:
Πt =u21* + y2it + z2t* [20.3.16]
Con z2t*~I(0) El sistema de [20.3.15] y [20.3.16] será reconocido como un ejemplo de la

representación triangular de Phillips (1991a) [19.1.20]
20.4. Visión general de las raíces de la unidad: ¿Diferencia o

no diferencia?
Los capítulos precedentes han explorado una serie de cuestiones en el análisis estadístico De las
raíces unitarias. Esta sección intenta resumir lo que todo esto significa en la práctica. Consideremos
un vector de variables y, cuya dinámica nos gustaría describir Y algunos de cuyos elementos pueden
ser no estacionarios. Para concretar, supongamos Que el objetivo es caracterizar estas dinámicas en
términos de una autorregresión vectorial.
0 673
Una opción es ignorar totalmente la no estacionabilidad y simplemente estimar. La VAR en niveles,
basándose en las distribuciones estándar t y F para probar cualquier hipótesis Esta estrategia tiene
las siguientes características para recomendarla. (1) Los parámetros que describen la dinámica del
sistema son estimados consistentemente. (2) Incluso si el modelo verdadero es un VAR en las
diferencias, ciertas funciones de los parámetros y las pruebas de hipótesis basadas en un VAR en
niveles tienen la misma distribución asintótica que las estimaciones basadas en datos diferenciados.
(3) Se puede dar una motivación bayesiana para las distribuciones t o F habituales para las
estadísticas de prueba incluso cuando la teoría asintótica clásica para estas estadísticas no es
estándar.
Una segunda opción es rutinariamente diferenciar cualquier variable aparentemente no estacionaria

antes de estimar el VAR. Si el verdadero proceso es un VAR en las diferencias, entonces la
diferenciación debería mejorar el rendimiento de las muestras pequeñas de todas las estimaciones y
eliminar por completo las distribuciones asintóticas no estándares asociadas con ciertas pruebas de
hipótesis. El inconveniente de este enfoque es que el verdadero proceso puede no ser un VAR en
las diferencias.
Sin embargo, un tercer enfoque es investigar cuidadosamente la naturaleza de la no

estacionariedad, probando cada serie individualmente por raíces unitarias y luego probando la
posible cointegración entre las series. Una vez entendida la naturaleza de la no estacionalidad, se
puede estimar una representación estacionaria para el sistema. Por ejemplo, supongamos que en un
sistema de cuatro variables determinamos que la primera variable es estacionaria mientras que las
otras variables (Y2t, Y3t, ,y4t ) son cada uno individualmente I (1). Supongamos que, además,
concluimos que Y2t, Y3t, , y y4t se caracteriza por una única relación de cointegración. Por:
(1) (1) (2) (2)

𝑦1𝑡 𝛼1 𝜁 𝜁12 𝑦1𝑡−1 𝜁 𝜁12 𝑦1.𝑡−2
[∆ ] = [𝛼 ] + [ 11
(1)
][
(1) Δ𝑦2.𝑡−1
] + [ 11
(2) (2)
] [Δ𝑦 ]+ …
2𝑡 2 𝜁21 𝜁22 𝜁21 𝜁22 2𝑡−2
(𝜌−1) (𝜌−1) (0)

𝜁 𝜁12 𝑦1.𝑡−𝑝+1 𝜁1 𝜀1𝑡
+ [ 11
(𝜌−1)
][
(𝜌−1) Δ𝑦2𝑡−𝜌+1
] + [ (0) ] 𝑦2.𝑡−1 + [𝜀 ].
𝜁21 𝜁22 𝜁2 2𝑡
(0)
𝜁
Donde la matriz (4 x 3) [ 1(0) ]está restringida a la forma ba ', donde b es (4 x 1) y a' es (1 x 3). Tal
𝜁2
sistema puede entonces estimarse adaptando los métodos descritos en la Sección 20.2, y la mayoría
de las pruebas de hipótesis sobre este sistema deben ser asintóticamente X2.
La desventaja del tercer enfoque es que, a pesar del cuidado que se ejerce, las
restricciones impuestas pueden ser inválidas; el investigador puede haber aceptado una
hipótesis nula, aunque sea falsa, o rechazado una hipótesis nula que es realmente verdadera.
Además, las pruebas alternativas para las raíces unitarias y la cointegración pueden producir
resultados contradictorios, y el investigador puede no estar seguro de cuál debe ser seguido.
Los expertos difieren en los consejos ofrecidos para el trabajo aplicado. Una solución
práctica es emplear partes de los tres enfoques. Esta estrategia ecléctica comenzaría por estimar el
VAR en niveles sin restricciones. El siguiente paso es hacer una evaluación rápida en cuanto a qué
series son probablemente no estacionarias. Esta evaluación podría basarse en gráficos de los datos,
información previa sobre la serie y sus probables relaciones de cointegración, o cualquiera de las
pruebas más formales discutidas en el Capítulo 17. Cualquier serie no estacionaria puede entonces
ser diferenciada o expresada en forma de corrección de errores y una Entonces se podría estimar la
VAR estacionaria. Por ejemplo, para estimar una VAR que incluya el log de ingresos (Yt) y el log de

consumo (ct), estas dos variables podrían incluirse en una VAR estacionaria como ΔYt y (c, - yt). Si
la VAR de los datos en niveles produce inferencias similares a las del VAR en estacionaria, entonces
el investigador podría estar satisfecho de que los resultados no estaban gobernados por las
suposiciones hechas sobre raíces unitarias. Si las respuestas difieren, entonces debe hacerse algún
intento de conciliar los resultados. Esfuerzos cuidadosos siguiendo las líneas de la tercera estrategia
descrita en esta sección podrían convencer al investigador de que la formulación estacionaria estaba
mal especificada, o alternativamente que los resultados de los niveles pueden ser explicados por la
teoría asintótica apropiada. Un buen ejemplo de cómo la teoría asintótica podría utilizarse para
conciliar hallazgos contradictorios fue proporcionado por Stock y Watson (1989). Alternativamente,
Christiano y Ljungqvist (1988) propusieron simular datos del modelo de niveles estimados y ver si
incorporar incorrectamente tales datos simulados con la especificación estacionaria produciría
espuriosamente los resultados encontrados cuando la especificación estacionaria fue ajustada a los
datos reales. , Los datos podrían ser simulados a partir del modelo estacionario para ver si podría
explicar el hallazgo de la especificación de niveles. Si encontramos que una única especificación
puede explicar tanto los niveles como los resultados estacionarios, entonces nuestra confianza en
esa especificación aumenta.
APENDICE 20.A. Prueba de la Proposición del Capítulo 20

 Prueba de la Proposición 20.1.
a. Primero mostramos que λ, <1 para i = 1, 2,. . . , n1 Cualquier valor propio A de [20.1.8]
satisface
|∑YY-1∑YX∑XX-1∑XY−𝜆𝐼n1|= 0
Ya que ∑YY Es positivo definido, esto será verdadero si y sólo si
|λ∑YY-− ∑YX∑XX-1∑XY| = 0 [20.A.1]
Pero a partir de la factorización triangular de ∑ en la ecuación [4.5.26], la matriz
∑YY-− ∑YX∑XX-1∑XY [20.A.2]
Es positivo definido. Por lo tanto, el determinante en [20.A.1] no podría ser cero en λ = 1.
λ∑YY-− ∑YX∑XX-1∑XY = (𝜆 − 1)∑YY + [ ∑YY-− ∑YX∑XX-1∑XY ] [20.A.3]
Si λ> 1, entonces el lado derecho de la expresión [20.A.3] sería la suma de dos matrices definidas
positivas y así sería positiva definida. El lado izquierdo de [20.A.3] sería entonces definido positivo,
lo que implica que el determinante en [20.A.1] no podría ser cero para λ> 1. Por lo tanto, λ> 1 no
es consistente con [20.A .1].
Los argumentos paralelos establecen que 0 ≤ ui <1 para j = 1, 2, …, n2
(B) Sea k, un vector propio asociado con un valor propio distinto de cero A, de [20.1.8]
∑YY-1∑YX∑XX-1∑XYKi= 𝜆 𝑘 I [20.A.4]
Premultiplicando ambos lados de [20.A.4] por ∑XY resulta en
[∑YY-1∑YX∑XX-1][∑XYKi ]= λi [∑XYKi ] [20.A.5]
(C) Premultiplicando [20.1.10] por Ki’ ∑YY =
Ki’∑YY∑XX∑XYKi= Ki’λi ∑XYKi [20.A.6]
Apendice 20.A. Pruebas de las Proposiciones del capítulo 20 675

Similarmente, reemplace i con j en [20.1.10]:
∑YY-1∑YX∑XX-1∑XYKi= 𝜆 𝑘 i [20.A.7]
Y premultiplicamos por Ki’ ∑YY
Ki’∑YY∑XX∑XYKi= Ki’λi ∑XYKi [20.A.8]
Restando [20.A.8] de [20.A.6], vemos que
0 = (λi -λI )λi ∑XYKi [20.A.9]
(D) transpone (20.1.13) y postmultiplicando por ∑XYKi
ai’Ki’∑YY∑XX∑XYKi= Ki’ai’λi ∑XYKi [20.A.10]
Similarmente multiplicamos [20.A.7] por ai’∑XY
ai’∑XY∑YY∑XX∑XYKi= Ki’ai’λi ∑XYKi [20.A.11]
Para encontrar el valor de ai’ ∑XYKipara i = j, premultiplicamos [20.1.13] por ai’∑XXhaciendo uso
de [20.1.14]:
ai’∑XY∑YY∑XXai= 𝜆I [20.A.12]
Supongamos por ejemplo que n, es el menor de n, y n2; Es decir, n = n1. Entonces la matriz de
vectores propios K es (n x n) y no singular. En este caso, [20.1.3] implica q
∑YY-1= 𝐾𝐾’ [20.A.13]
Sustituyendo [20.A.15] en [20.A.14], se sigue que
ai’∑XY𝐾𝐾’∑XXai= 𝜆i [20.A.14]
Nuevo
ai’∑XY𝐾 = ai’∑XY [K1 K2 … KN ] [20.A.15]
CAPÍTULO 20 Ejercicios
20.1. En este problema se le pide que verifique la afirmación en el texto de que las primeras
variantes n1 canónicas y ξ1 representan las combinaciones lineales de Yt y Xt con la máxima
correlación posible. Considere el siguiente problema de maximización:
Max E (Kt’,ytXt’a1) (k1,a1)
Sujeto a
E (Kt’,ytyt’a1) = 1
E (at’,XtXt’a1) = 1
Demuestre que el valor máximo obtenido para este problema viene dado por la raíz cuadrada del
autovalor más grande de la matriz ∑XX-1∑YX∑XX-1∑XY y que a1 es el vector propio asociado
normalizado como se indica. Demuestre que K1 , es el autovector normalizado de ∑YY-1∑YX∑XX-
1∑XY, asociado con este mismo autovalor.

20.2. Se afirmó en el texto que la función de probabilidad de log maximizada bajo la hipótesis nula
de las relaciones de cointegración h fue dada por [20.3.2]. ¿Cuál es la naturaleza de la restricción en
el VAR en [20.3.1] cuando h = 0? Demuestre que el valor de [20.3.2] para este caso es el mismo que
la probabilidad de log para un proceso VAR (p - 1) ajustado a los datos diferenciados ∆Yt
20.3. Se afirmó en el texto que la función de probabilidad de log maximizada bajo la hipótesis
alternativa de n relaciones de cointegración fue dada por [20.3.3]. Este caso implica la regresión de
∆Yt, en una constante, Yt-1 y ΔYT-1, ΔYT-2,… ΔYT-P+1 sin restricciones. Sean g1 , denotan los
residuos de esta regresión sin restricción, con ΣGG =(1/T)∑t=1Tgtgt’. La ecuación [11.1.32]
entonces afirmaría que la maximizada log función de verosimilitud debe ser:
ɭA*= -(T∏/2)log(2∏) – (T/2)log |ΣGG|- (T∏/2)
CAPÍTULO 20 Referencias
Alin, S. K. y G. C. Reinsel. 1990. "Estimación para modelos autoregresivos multivariantes
parcialmente no estacionarios". Diario de la American Asociación Estadistica 85: 813 - 23.
Christiano, Lawrence J., y Lars Ljungqvist. 1988. "El dinero hace Granger-causa resultado en la
relación de dinero-salida bivariado". Diario Monetario y Económico: 217-35. Johansen, Selren.
1988. "Análisis Estadístico de Vectores de Cointegración". Diario de Dinámica Económica y
Control 12: 231-54.
1991. "Estimación y Pruebas de Hipótesis de Vectores de Cointegración en Gauss Vector
AutoregressiveModels. "Econometrica 59: 1551-80.
1992. "Cointegración en Sistemas Parciales y la Eficiencia de la Ecuación Única Análisis. "Revistas
de Econometría” 52: 389-402. Y KatarinaJuselius. 1990.
"Estimación e inferencia de máxima verosimilitud sobre Cointegración-con Aplicaciones a la
Demanda de Dinero. "Oxford Boletín de Economía y Estadística 52: 169-210.
Koopmans, Tjalling C. y William C. Hood. 1953. "La estimación de las relaciones económicas
lineales simultáneas", en William C. Hood y Tjalling C. Koopmans, eds., Estudios en Método
Econométrico
. Nueva York: Wiley.
Mosconi, Rocco, y Carlo Giannini.1992. "No causalidad in Sistemas Cointegrados: Representación,
Estimación y Pruebas, " Oxford Bulletin de Economía y Estadística. 54:399¬417.
Park, Joon Y. 1990. “Estimación de Máxima Probabilidad de Modelos Cointegrados
Simultáneos." Universidad de Aarhus. Mimeo.
1992. "Canonical Cointegrando Regresiones”. Econométrica.60:119-43.and Masao Ogaki. 1991.
" Inferencia en Modelos Cointegrados UsandoVAR Prewhi Estimación de la dinámica de Shortrun
". de Rochester. Mimeo. Phillips, Peter C. B. 1990. "
Regresión espectral para Cointegrada Series de tiempo en” William Barnett, James Powell, and
George Tauchen, eds., Métodos no paramétricos y semiparamétricos en economía y estadística.
Nueva York: Cambridge UniversityPress.
1991a. " Inferencia Óptima en Sistemas Cointegrados." Econométrica 59:283-306.
1991b "Componentes no identificados en la regresión de rango reducido “

21
Modelos de series temporales
De Heterocedasticidad
21.1. Una Heterocedasticidad Condicional Condicional

(ARCH)
Un proceso autorregresivo de orden p (denotado AR (p)) para una variable observada y, toma la
forma
Yt= c +Ø1Yt-1 + Ø2Yt-2 +… ØpYt-p + Ut [21.1.1]
Donde ut, es ruido blanco:
E(ut) = 0 [21.1.2]
2
E(utur) = { 𝜕 𝑝𝑎𝑟𝑎 𝑡 = 𝜏 [20.1.3]
El proceso es covarianza-estacionario siempre que las raíces de
1− Ø1Z – Ø2𝑍 2 – …ØP𝑍 𝑃 = 0 [21.1.4]
Mientras que la media condicional de y, cambia con el tiempo según [21.1.4], siempre que el
proceso sea covarianza-estacionaria, la media incondicional de y, es constante:
E(Yt) = c/( 1 – Ø1 - Ø2 - … -Øp)
A veces nos interesa predecir no sólo el nivel de la serie Yt , sino también su varianza. Por ejemplo,
la figura 21.1 representa la tasa de los fondos federales, que es una tasa de interés aplicada a los
préstamos overnight de un banco a otro. Esta tasa de interés ha sido mucho más volátil en algunos
momentos que en otros. Los cambios en la varianza son muy importantes para comprender los
mercados financieros, ya que los inversionistas requieren retornos esperados más altos como
compensación por poseer activos más riesgosos. Una variación que cambia con el tiempo también
tiene implicaciones para la validez y eficacia de la inferencia estadística sobre los parámetros (c , Ø1 ,
Ø2 , …Øp) que describen la dinámica del nivel de Yt .
Aunque [21.1.3] implica que la varianza incondicional de ut es la constante s2, la varianza
condicional de ut podría cambiar con el tiempo. Un enfoque consiste en describir el cuadrado de 𝑢𝑡
como sí mismo siguiendo un proceso de AR (m):
2 2
𝑢𝑡2 = 𝜉 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 2
+ ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 + 𝑤𝑡 [21.1.5]
Puesto que 𝑢𝑡 es el error en pronosticar 𝑦𝑡 , la expresión [21.1.5] implica que la proyección lineal del
error cuadrado de una predicción de 𝑦𝑡 sobre los errores de pronóstico cuadrados anteriores m está
dada por
2 2 2 2
É(𝑢𝑡2 |𝑢𝑡−1 , 𝑢𝑡−2 , … ) = 𝜉 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 2
+ ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 [21.1.6]
678 Capítulo 21 | Modelos de series temporales de Heterocedasticidad

Un proceso de ruido blanco 𝑢𝑡 satisfactorio [21.1.5] se describe como un proceso heteroscedástico
condescendiente autorregresivo de orden m, denotado 𝑢𝑡 ~ ARCH (m). Esta clase de procesos fue
introducida por Engle (1982)1.
Puesto que 𝑢𝑡 es aleatorio y 𝑢𝑡2 no puede ser negativo, esto puede ser una representación
sensible sólo si [21.1.6] es positivo y [21.1.5] es no negativo para todas las realizaciones de {𝑢𝑡 }.
Esto puede garantizarse si 𝑤𝑡 está limitado por debajo de – 𝜉con 𝜉 > 0 y si 𝛼𝑗 ≥ 0 para 𝑗 =
1,2, … , 𝑚. Para que 𝑢𝑡2 sea covarianza-estacionario, también requiere que las raíces están fuera del
círculo de la unidad. Si los 𝛼𝑗 son todos no negativos, esto es equivalente al requisito de que
𝛼1 + α2 + … + αm < 1. [21.1.7]
Cuando estas condiciones son satisfechas, la varianza incondicional de u t es dada
σ 2 = E(𝑢𝑡2 ) = ζ/(l – α1 – α 2 – … – αm). [21.1.8]

2
dejar que 𝑢̂𝑡−𝑠|𝑡 denote un pronóstico lineal del periodo s adelantado:
2
𝑢̂𝑡−𝑠|𝑡 = 𝐸̂ (𝑢̂𝑡−𝑠
2 2
|𝑢𝑡2 , 𝑢𝑡−1 , … ).
Esto puede ser calculado [4.2.27] iterando en

2 2 2
(𝑢̂𝑡−𝑠|𝑡 − 𝜎 2 ) = 𝛼1 (𝑢̂𝑡+𝑗−1|𝑡 − 𝜎 2 ) + 𝛼2 (𝑢̂𝑡+𝑗−2|𝑡 − 𝜎2)
2
+ ⋯ + 𝛼𝑚 (𝑢̂𝑡+𝑗−𝑚|𝑡 − 𝜎𝑚)
para j = 1, 2, . . . , s donde
2
𝑢̂𝜏|𝑡 = 𝑢𝜏2 𝑓𝑜𝑟 𝜏 ≤ 𝑡.
2
El pronóstico lineal del periodo s adelantado 𝑢̂𝑡−𝑠|𝑡 converge en probabilidad a σ2 como s →∞,
asumiendo que wt tiene una varianza finita que [21.1.7] es satisfecha.
A menudo es conveniente utilizar una representación alternativa para proceso ARCH(m) que
impone suposiciones ligeramente más fuertes sobre la dependencia serial de wt.
ut = √ℎ ∙ vt [21.1.9]
donde {v t } es una i.i.d. Secuencia con media cero y varianza unitaria:
E(v t ) = 0 E(vt2 ) = 1.
si h, evoluciona según
2 2 2
ht = ζ + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 + ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 [21.1.10]
luego [21.1.9] implica que

2 2
𝐸(𝑢𝑡2 |𝑢𝑡−1 , 𝑢𝑡−2 … ) = 𝜁 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 2
+ ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 [21.1.11]
Por lo tanto, si u, es generada por [21.1.9] y [21.1.10], entonces ut sigue un proceso ARCH (m) en
el que la proyección lineal [21.1.6] también es la expectativa condicional.
Observe además que cuando [21.1.9] y [21.1.10] se sustituyen en [21.1.5], el resultado es
ℎ𝑡 ∙ 𝑣𝑡2 = ℎ𝑡 + 𝑤𝑡 .
1 Bollerslev, Chou y Kroner (1992) proporcionaron un buen estudio de los modelos relacionados con ARCH,
21.1 Una Heterocedasticidad Condicional Condicional (ARCH) 679

Por lo tanto, bajo la especificación en [21.1.9], la innovación w, en la representación AR (m) para
vt2 en [21.1.5] puede expresarse como
wt = ht ∙ (vt2 − 1) . [21.1.12]
Nota de [21.1.12] que, aunque la varianza incondicional de wt se supone que es constante,
𝐸(𝑤t2 ) = 𝜆2 [21.1.13]
La variación condicional de tv, cambia con el tiempo.
La varianza incondicional de wt refleja el cuarto momento de ut y este cuarto momento no existe

para todos los modelos ARCH estacionarios. Se puede ver esto al cuadrar [21.1.12]
y calcular la expectativa incondicional de ambos lados:
𝐸(𝑤t2 ) = 𝐸(ℎt2 ) ∙ 𝐸(ℎt2 − 1)2 . [21.1.14]
Tomando la especificación ARCH (1) como ilustración, encontramos con una pequeña
manipulación de las fórmulas para la media y varianza de un proceso AR (1) que
2
E(h2t ) = E(ζ + 𝛼1 𝑢𝑡−1 )2
= E{(𝛼12 ∙ 𝑢𝑡−1
4 ) 2 )
+ (2α1 ζ ∙ 𝑢𝑡−1 + ζ2 }
= 𝛼12 ∙ [𝑉𝑎𝑟(𝑢𝑡−1
2 )
+ [E(u2t )]2 ] + 2α1 ζ ∙ E(u2t−1 ) + ζ2 [21.1.15]
𝜆2 𝜉2 2α1 ζ2
= 𝛼12 ∙[ + ]+ + ζ2
1 − 𝛼12 (1 − 𝛼1 )2 1 − 𝛼1
𝛼12 𝜆2 𝜉2
= +
1 − 𝛼12 (1 − 𝛼1 )2
Sustituyendo [21.1715] y [21.1713] en [21.1.14], concluimos que λ2 (la varianza condicional de w t )

debe satisfacer
𝛼 2 𝜆2 𝜉2
𝜆2 = [1−𝛼
1
2 + (1−𝛼 2 ] ×𝐸(𝑣𝑡2 − 1). [21.1.16]
1 1)
Incluso cuando |α1| < 1, la ecuación [21.1.16] puede no tener ninguna selección real para λ. For
por ejemplo, si v t ~ N(0, 1), luego E(vt2 – l)2 = 2 y [21.1.16] requiere que
(1 − 3𝛼12 )𝜆2 2𝜉 2
=
1 − 𝛼12 (1 − 𝛼1 )2
1
Esta ecuacion no tiene solucion real para λ cuando 𝛼12 ≥ 3 . asi, si u t ~ ARCH(1) con las
innovaciones v t en [21.1.9] Procedente de una distribución gaussiana, entonces el segundo
1
momento de wt (o el cuarto momento de ut) no existe a menos que 𝛼12 < .
3
Estimación de Máxima Probabilidad con Gaussian vt
Supongamos que nos interesa estimar los parámetros de un modelo de regresión con
perturbaciones ARCH. Sea la ecuación de regresión.
𝑦𝑡 = 𝑥𝑡1 𝛽 + 𝑢𝑡 [21.1.17]

Aquí xt denota un vector de variables explicativas predeterminadas, que podría incluir valores
retardados de y. Se supone que el término de perturbación satisface [21.1.9] y [21.1.10]. Es
conveniente condicionar en las primeras m observaciones t = 1 , 2 , . . . . T para la estimación.
Luego 𝔉, Denotan el vector de observaciones obtenido a través de la fecha t

′
𝔉1 = (𝑦𝑡 , 𝑦𝑡−1 , … , 𝑦1, 𝑦0 , … , 𝑦−𝑚+1 , 𝑥 ′ 𝑡 , 𝑥 ′ 𝑡−1 , … , 𝑥 ′1, 𝑥 ′ 0 , … , 𝑥 ′ −𝑚+1 ) .
si v t ~ i.i.d. N(0, 1) con v t independiente de ambos xt 𝔉t-1 y luego la distribución condicional de y t es

Gaussiana con significado 𝑥𝑡′ β y varianza h t :
2
1 −(𝑦𝑡 −𝑥𝑡′ 𝛽)
𝑓(𝑦𝑡 |𝑥𝑡 , 𝔉𝑡−1 ) = 𝑒𝑥𝑝 ( 2ℎ1
), [21.1.18]
√2𝜋ℎ1
donde
′ ′
ℎ𝑡 = 𝜉 + 𝛼1 (𝑦𝑡−1 − 𝑥𝑡−1 𝛽)2 + 𝛼2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽)2 + ⋯
′
+ 𝛼𝑚 (𝑦𝑡−𝑚 − 𝑥𝑡−𝑚 𝛽)2 [21.1.19]
= [𝑧𝑡 (𝛽)]′𝛿
para
𝛿 ≡ (𝜉, 𝛼1 , 𝛼2 , … 𝛼𝑚 )′
′
[𝑧𝑡 (𝛽)]′ 𝛿 ≡ [1, (𝑦𝑡−1 − 𝑥𝑡−1 ′
𝛽)2 , (𝑦𝑡−2 − 𝑥𝑡−2 𝛽)2 , … , (𝑦𝑡−𝑚 − 𝑥𝑡−𝑚
′
𝛽)2 ].
Recolectar los parámetros desconocidos para ser estimados en un (α × 1) vector θ:
𝜃 ≡ (𝛽 ′ , 𝛿′)′
La probabilidad de logaritmo de la muestra condicional en las primeras m observaciones es
entonces:
𝜏
𝔏(𝜃) = ∑ log 𝑓(𝑦𝑡 |𝑥𝑡 , 𝔉𝑡−1 ; 𝜃)

𝑡=1
𝜏
1
= −(𝑇/2) log(2𝜋) − ( ) ∑ log ℎ1
2
𝑡=1
[21.1.20]
𝜏
−(1/2) ∑(𝑦𝑡 − 𝑥𝑡′ 𝛽)2 /ℎ𝑡

𝑡=1
Para un valor numérico dado para el vector de parámetros θ, la secuencia de varianzas

condicionales puede calcularse a partir de [21.1.19] y utilizarse para evaluar la función de
verosimilitud logarítmica [21.1.20]. Esto se puede maximizar numéricamente usando los métodos
descritos en la Sección 5.7. La derivada del logaritmo de la probabilidad condicional de la t-ésima
observación con respecto al vector de parámetro θ, conocida como la puntuación t, se muestra en el
Apéndice 21. A a ser dada por.
𝜕 log 𝑓(𝑦𝑡 |𝑥𝑡 , 𝔉𝑡−1 ; 𝜃)

s𝑡 (𝜃) =
(𝛼×1) 𝜕𝜃

∑𝑚
𝑗=1 −2𝑥𝛼𝑗 𝑢𝑡−𝑗 𝑥𝑡−𝑗 (𝑥 𝑢 )/ℎ𝑡
= {(𝑢𝑡2 − ℎ𝑡 )/(2ℎ𝑡2 )} [ ]+[ 𝑡 𝑡 ] [21.1.21]
𝑧𝑡 (𝛽) 0
La función de verosimilitud se puede maximizar usando el método de puntuación como en Engle

(1982, pág. 997) o utilizando el algoritmo de Berndt, Hall, Hall y Hausman (1974) como en
Bollerslev (1986, p.317). Alternativamente, el gradiente de la función de probabilidad de log se
puede calcular analíticamente a partir de la suma de las puntuaciones,
T
∇ℒ(θ) = ∑ st (θ),
t=1
O numéricamente mediante la diferenciación numérica de la probabilidad de log [21.1.20]. El

gradiente evaluado analíticamente o numéricamente podría utilizarse con cualquiera de los
procedimientos de optimización numérica descritos en la Sección 5.7.
Imponiendo la condicion de estacionaridad ( ∑𝑚 𝑗−1 𝛼𝑗 < 1) y la condición de no negatividad (a;

𝛼𝑗 ≥ 0 para todo j) puede ser difícil en la práctica. Típicamente, el valor de m es muy pequeño o
𝑚
bien se impone alguna estructura ad hoc sobre la secuencia {𝛼𝑗 }𝑗−1 , como en Engle (1982,
ecuacion (38)).
Estimación de Máxima Probabilidad con No Gaussiano v,

La formulación anterior de la función de verosimilitud supuso que vt tiene una distribución
gaussiana. Sin embargo, la distribución incondicional de muchas series de tiempo financieras parece
tener colas más gordas que las permitidas por la familia Gaussiana. Parte de esto se puede explicar
por la presencia de ARCH; Es decir, incluso si vt en [21.1.9] tiene una distribución gaussiana, la
distribución incondicional de vt es no gaussiana con colas más pesadas que una distribución
gaussiana (véase Milhoj, 1985, o Bollerslev, 1986, p.331). Aún así, hay una buena cantidad de
evidencia de que la distribución condicional de ut es a menudo no Gaussian también.
El mismo enfoque básico puede utilizarse con distribuciones no gaussianas. Por ejemplo, Bollerslev
(1987) propuso que vt en [21.1.9] podría extraerse de una distribución t con v grados de libertad,
donde v es considerado como un parámetro que se estima por máxima verosimilitud. Si u, tiene una
distribución t con v grados de libertad y el parámetro de escala Mt, entonces su densidad viene dada
por
−(𝑣+1)/2
Γ[(𝑣+1)/2] −1/2 𝑢2
f(ut ) = (𝜋𝑣)1/2 Γ(𝑣/2)
𝑀𝑡 [1 + 𝑀 𝑡𝑣] [21.1.22]
𝑡
donde Γ(∙) Es la función gamma descrita en la discusión siguiendo la ecuación [12.1.18]. If v > 2,
luego v, tiene cero medio y varianza2
𝐸(𝑢𝑡2 ) = 𝑀𝑡 𝑣/(v − 2).

Por lo tanto, una variable t con v Grados de libertad y variación h t Se obtiene tomando el parámetro
de escala M, para ser
Mt = ht(v – 2)/v,
Para la cual la densidad [21.1.22] se convierte en
2
Ver el ejemplo, DeGroot (1970, p. 42).

−(𝑣+1)/2
Γ[(𝑣+1)/2] −1/2 𝑢𝑡2
𝑓(ut ) = (𝜋𝑣)1/2 Γ(𝑣/2)
(𝑣 − 2)−1/2 ℎ𝑡 [1 + ℎ (𝑣−2)
] [21.1.23]
𝑡
Esta densidad puede utilizarse en lugar de la especificación gaussiana [21.1.18], junto con la misma
especificación de la media condicional y la varianza condicional utilizada en [21.1.17] y [21.1.19]. La
probabilidad de log de muestra condicionada a las primeras reservas de m obtiene entonces
𝜏
∑ log 𝑓(𝑦𝑡 |𝑥𝑡 , 𝔉𝑡−1 ; 𝜃)

𝑡=1
𝜏
Γ[(𝑣 + 1)/2]
= 𝑇 log { 1/2 (𝑣 − 2)−1/2 } − (1/2) ∑ log (ℎ𝑡 )
𝜋 Γ(𝑣/2)
𝑡=1
[21.1.24]
𝑇
(𝑦𝑡 − 𝑥𝑡′ 𝛽)2
−[(𝑣 + 1)2] ∑ log [1 + ],
ℎ𝑡 (𝑣 − 2)
𝑡=1
donde
′ ′
ℎ𝑡 = 𝜉 + 𝛼1 (𝑦𝑡−1 − 𝑥𝑡−1 𝛽)2 + 𝛼2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽)2 + ⋯ + 𝛼𝑚 (𝑦𝑡−𝑚 − 𝑥𝑡−𝑚
′
𝛽)2
= [𝑧𝑡 (𝛽)]′𝛿
La probabilidad de logaritmos [21.1.24] Se maximiza numéricamente con respecto a v, β, y δ sujeto
a la restricción v > 2.
El mismo enfoque se puede utilizar con otras distribuciones para vt. Otras distribuciones que se
han empleado con modelos relacionados con ARCH incluyen una distribución de la mezcla
Normal-Poisson (Jorion, 1988), distribución exponencial del poder (Baillie y Bollerslev, 1989),
mezcla normal-log normal (Hsieh, 1989), generalizada ex (Nelson, 1991), y la mezcla en serie de las
variables Normals (Cai, next) o t (Hamilton y Susmel, próximamente).
Estimación De La Probabilidad Casi-Máxima

Incluso si se supone que v t is i.i.d. N(0, 1) es invalido, vemos en [21.1.6] que la specificación ARCH
todavía puede ofrecer un modelo razonable para fundamentar un pronóstico lineal del valor de v,
cuadrado. Como se muestra en Weiss (1984,1986), Boliersiev y Wooldridge (1992), Glosten,
Jagannathan y Runkle (1989), maximización de la función de verosimilitud gaussiana log [21.1.20]
puede proporcionar estimaciones consistentes de los parámetros ξ a 2 , . . . , a m De esta
representación lineal incluso cuando la distribución de ut es no gaussiana, siempre que v, en [21.1.9]
satisface
𝐸(𝑣𝑡 |𝑥𝑡 , 𝔉𝑡−1 ) = 0

y
𝐸(𝑣𝑡2 |𝑥𝑡 , 𝔉𝑡−1 ) = 1,
Sin embargo, los errores estándar deben ajustarse. Dejar 𝜃̂𝑇 [21.1.20], y sea θ el valor verdadero que
caracteriza a las representaciones lineales [21.1.9], [21.1.17] y [21.1.19]. Entonces, incluso cuando vt
Es en realidad no gaussiana, bajo ciertas condiciones de regularidad
𝐿
√𝑇(𝜃̂𝑇 − 𝜃) → 𝑁(0, 𝐷 −1 𝑆𝐷 −1 ),
donde

𝑇
−1
𝑆 = plim 𝑇 ∑[𝑠𝑡 (𝜃)] ∙ [𝑠𝑡 (𝜃)]′
𝑇→𝑥
𝑡=1
para st(θ) el vector de puntuacion calculado en [21.1.21], y donde

𝑇
−1
𝜕𝑠𝑡 (𝜃)
𝐷 = plim 𝑇 ∑−𝐸 { |𝑥𝑡 , 𝔉𝑡−1 }
𝑇→𝑥 𝜕𝜃′
𝑡=1
𝑚
𝑇
∑ − 2𝛼𝑗 𝑢𝑡−𝑗 𝑥𝑡−𝑗
= plim 𝑇 −1 ∑{[1(2ℎ𝑡2 ) ] [ ] [21.1.25]
𝑇→𝑥 𝑗=1
𝑡=1
𝑧𝑡 (𝛽)
𝑇
𝑥 𝑥′ 0
× [∑ − 2𝛼𝑗 𝑢𝑡−𝑗 𝑥′𝑡−𝑗 [𝑧𝑡 (𝛽)]′] + (1/ℎ𝑡 ) [ 𝑡 𝑡 ]}
0 0
𝑗=1
donde
𝔉𝑡 = (𝑦𝑡 , 𝑦𝑡−1 , … , 𝑦1 , 𝑦0 , … , 𝑦−𝑚+1 , 𝑥𝑡 , 𝑦𝑥′𝑡−1 , … , 𝑥′1 , 𝑦𝑥′0 , … , 𝑥′−𝑚+1 )

La segunda igualdad en [21.1.25] se establece en el Apéndice 21.A. La matriz S puede ser estimada
consistentemente por
𝑇
′
𝑆̂𝑇 = 𝑇 −1 ∑[𝑠𝑡 (𝜃̂𝑇 )] ∙ [𝑠𝑡 (𝜃̂𝑇 )] ,
𝑡=1
donde 𝑠𝑡 (𝜃̂𝑇 ) indica el vector dado en [21.1.21] evaluado en 𝜃̂𝑇 . De forma similar, la matriz D
puede ser estimada consistentemente por
𝑚
𝑇
∑ − 2𝛼̂𝑗 𝑢̂𝑡−𝑗 𝑥𝑡−𝑗
̂𝑇 = 𝑇 −1 ∑ [1(2ℎ̂𝑡2 ) ]
𝐷 𝑗=1
𝑡=1
{ [ 𝑧𝑡 (𝛽̂ ) ]
𝑇
𝑥 𝑥′ 0
× [∑ − 2𝛼̂𝑗 𝑢̂𝑡−𝑗 𝑥′𝑡−𝑗 [𝑧𝑡 (𝛽̂ )]′] + (1/ℎ̂𝑡 ) [ 𝑡 𝑡 ]}
0 0
𝑗=1
Errores estándar para 𝜃̂𝑇 que son robustos a la especificación errónea de la familia de densidades
pueden obtenerse así a partir de la raíz cuadrada de elementos diagonales de
̂ 𝑇̅ −1 𝑆̂𝑇 𝐷
𝑇 −1 𝐷 ̂ 𝑇̅ −1
Recuérdese que si el modelo está correctamente especificado para que los datos fueran realmente
generados por un modelo gaussiano, entonces S = D, y esto se simplifica a la matriz de varianza
asintótica habitual para la estimación de máxima verosimilitud.
Estimación por Método Generalizado de Momentos

El modelo de regresión ARCH de [21.1.17] y [21.1.19] se puede caracterizar por los supuestos de
que el residuo en la ecuación de regresión no está correlacionado con las variables explicativas,

𝑬[(𝒚𝒕 − 𝒙′𝒕 𝜷)𝒙𝒕 ] = 𝟎,
Y que el error implícito en la previsión del cuadrado residual no está correlacionado con residuos
cuadrados rezagados,
𝑬[(𝒖𝟐𝒕 − 𝒉𝒕 )𝒛𝒕 ] = 𝟎.
Como lo señalan Bates y White (1988), Mark (1988), Ferson (1989), Simon (1989), o Rich,
Raymond y Butler (1991), esto significa que los parámetros de un modelo ARCH podrían ser
estimados por generalizados Método de los momentos3, eligiendo θ = (β', δ')' para minimizar
[𝑔(𝜃; 𝔉 𝑇 )]′ 𝑆̂ 𝑇̅ −1 [𝑔(𝜃; 𝔉 𝑇 )],
donde
𝑇
−1
𝑇 ∑(𝒚𝒕 − 𝒙′𝒕 𝜷)𝒙𝒕
𝑗=1
𝑔(𝜃; 𝔉 𝑇 ) = 𝑇
𝑇 −1 ∑{(𝒚𝒕 − 𝒙′𝒕 𝜷)2 − [𝑧𝑡 (𝛽)]′}𝑧𝑡 (𝛽)

[ 𝑗=1 ]
Los errores estándar de la matriz 𝑆̂𝑇 para parametros estimados, Y las pruebas del
modelo pueden ser construidos utilizando los métodos descritos en el Capítulo 14. Cualquier otra
variable que se creía no estar correlacionada con u, o con (𝑢𝑡2 − ℎ𝑡 ) Podrían utilizarse como
instrumentos adicionales
Pruebas de ARCH
Afortunadamente, es sencillo probar si los residuos u, de un modelo de regresión exhiben
heteroscedasticidad variable en el tiempo sin tener que estimar realmente los parámetros ARCH.
Engle (1982, p.1000) derivó la siguiente prueba basada en el principal multiplicador de Lagrange.
En primer lugar, la regresión de [21.1.17] es estimada por OLS para las observaciones t = -m + 1, -
m + 2, . . . , T Y los residuos de la Muestra OLS 𝑢̂𝑡 se salvaron. Siguiente, 𝑢̂𝑡2 Se regula en una
constante y m de sus propios valores rezagados :
2 2
𝑢̂𝑡2 = 𝜁 + 𝛼1 𝑢̂𝑡−1 + 𝛼2 𝑢̂𝑡−2 2
+ ⋯ + 𝛼𝑚 𝑢̂𝑡−𝑚 [21.1.26]
para t = 1, 2,. . . , T. El tamaño se muestra T veces el uncentered 𝑅𝑢2 De la regresion de [21.1.26]

Converge en la distribución a X 2 con la variable m grados de libertad bajo la hipótesis nula de que
u t es en realidad i.i.d. N(0, σ2).
Recordando que el ARCH(m) la especificación puede considerarse AR(m) proceso para u j , otro
enfoque desarrollado por Bollerslev (1988) es usar el Box-Jenkins métodos descritos en la sección
4.8 para analizar las autocorrelaciones u j . otras pruebas para ARCH se describen en Bollerslev,
Chou, and Kroner (1992, p. 8).
3
Como se señala en la sección 14.4, la estimación de la máxima verosimilitud puede considerarse como una estimación
por GMM en la que la condición de ortogonalidad es que la puntuación esperada es cero.

21.2. Extensiones
Generalizado Autoregresivo Condicional Heterocedasticidad (Garch)

Ecuaciones [21.1.9] y [21.1.10] describió un ARCHQn) proceso (ut) caracterizado por
𝑢𝑡 = √ht ∙ vt ,
donde v, is i.i.d. con media cero y desviación unitaria donde h, evolves according to
2 2 2
ht = 𝜁 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 + ⋯ + 𝛼𝑚 𝑢𝑡−𝑚
Más generalmente, podemos imaginar un proceso para el cual la varianza condicional es un
número infinito de rezagos de
ht = 𝜁 + 𝜋(𝐿)𝑢𝑡2 , [21,2,1]
donde
𝑥
𝜋(𝐿) = ∑ 𝜋𝑗 𝐿𝑗 .
𝑗=1
Una idea natural es parametrizarla π(L) como la relación de dos polinomios de orden finito:
𝛼(𝐿) 𝛼1 𝐿1 + 𝛼2 𝐿2 + ⋯ + 𝛼𝑚 𝐿𝑚
𝜋(𝐿) = = [21.2.1]
1 − 𝛿(𝐿) 1 − 𝛿1 𝐿1 − 𝛿2 𝐿2 − ⋯ − 𝛿𝑚 𝐿𝑟
Donde 1 – δ(z) = 0 arco fuera del círculo unitario. Si [21.2.1] se multiplica por 1 – 𝛿(𝐿), el
resultado es
[1 − δ(L)]ℎ𝑡 = [1 − δ(1)]𝜁 + 𝛼(𝐿)𝑢𝑡2
o
2 2 2
ht = 𝑘 + 𝛿1 ℎ𝑡−1 + 𝛿2 ℎ𝑡−2 + ⋯ + 𝛿𝑟 ℎ𝑡−𝑟 [21.2.3]
para k ≡ [1 – δ1 – δ1 –…– δr]ζ. Expresión [21.2.3] Es el modelo de heterocedasticidad condicional

autoregresivo, denotado u t ~ GARCH(r, m), propuesto por Bollerslev (1986).
La primera suposición de las expresiones [21.2.2] y [21.2.3] podría ser eso δ(L) Describe los
términos “autoregresivos” de la varianza mientras α(L) captura los términos del “promedio móvil”.
Sin embargo este no es el caso. La manera más fácil de saber el porqué es agregar u2t a ambos lados
de [21.2.3] y reescribir la expresión resultante como:
2 2
ht + 𝑢𝑡2 = 𝑘 − 𝛿1 (𝑢𝑡−1 − ℎ𝑡−1 ) − 𝛿2 (𝑢𝑡−2 − ℎ𝑡−2 ) − ⋯
2 2 2
− 𝛿𝑟 (𝑢𝑡−𝑟 − ℎ𝑡−𝑟 ) + 𝛿1 𝑢𝑡−1 + 𝛿2 𝑢𝑡−2 +⋯
2 2 2
+ 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 + ⋯ + 𝛼𝑚 𝑢𝑡−𝑚 + 𝑢𝑡2
o
2 2
𝑢𝑡2 = 𝑘 + (𝛿1 + 𝛼1 )𝑢𝑡−1 + (𝛿2 + 𝛼1 )𝑢𝑡−2 + … [21.2.4]

+(𝛿𝑝 + 𝛼𝑝 )u2𝑡−𝑝 + wt − 𝛿1 𝑤t−1 − 𝛿2 𝑤t−2 − ⋯ − 𝛿𝑟 𝑤t−r ,
Donde w t ≡ u2𝑡 – h, y p ≡ max{m, r}. Hemos definido δj ≡ 0 for j > r y αj ≡ 0 for j > m. Darse
cuenta de h t es el pronóstico de u2𝑡 basado en sus propios valores rezagados y w t ≡ u2𝑡 – h, es el
error asociado con esta previsión. Así, w t es un proceso de ruido blanco que es fundamental para
u2𝑡 . Expresión [21.2.4] será reconocido como un ARMA(p, r) proceso para u2𝑡 en el que la jth
coeficiente autoregresivo es la suma de δj plus αj mientras que la jth el coeficiente medio móvil es el
negativo de δj. If u t es descrito por un GARCH(r, m) proceso, entoncesu2𝑡 sigue un ARMA(p, r)
proceso, donde p es el más grande de r y m.
El requisite de no negatividad se cumple si k > 0 y αj ≥ 0, δj ≥ 0 for j = 1, 2, . . . , p. de nuestro

análisis de ARMA proceso, entonces se sigue que u2𝑡 es covarianza estacionaria siempre que w,
tiene una varianza finita y que las raíces de
1 − (𝛿1 + 𝛼1 )𝑧 − (𝛿2 + 𝛼2 )𝑧 2 − ⋯ − (𝛿𝑝 + 𝛼𝑝 )𝑧 𝑝 = 0
Están fuera del círculo de la unidad. Dada la restricción de no negatividad, esto significa que u2𝑡 es
covarianza – estacionaria si
(𝛿1 + 𝛼1 ) + (𝛿2 + 𝛼2 ) + ⋯ + (𝛿𝑝 + 𝛼𝑝 ) < 1.
Suponiendo que esta condición se cumple, la medida incondicional de u2𝑡 es
𝐸(u2𝑡 ) = 𝜎 2 = 𝑘/[1 − (𝛿1 + 𝛼1 ) + (𝛿2 + 𝛼2 ) + ⋯ + (𝛿𝑝 + 𝛼𝑝 )].
Nelson y Cao (1992) observe que las condiciones αj ≥ 0 y δj ≥ 0 son suficientes pero no son
necesarios para garantizar la no h t . Por ejemplo, para GARCHK(1, 2) proceso, El n(L) operador
implicado por [21.2.2] es dado por
𝜋(𝐿) = (1 − δ1 𝐿)−1 (α1 𝐿 + α2 𝐿2 )
= (1 − δ1 𝐿 + 𝛿12 𝐿2 + 𝛿13 𝐿3 + ⋯ )(α1 𝐿 + α2 𝐿2 )
α1 𝐿 + (δ1 α1 + α2 )𝐿2 + δ1 (δ1 α1 + α2 )𝐿3
𝛿12 (δ1 α1 + α2 )𝐿4 + ∙ ∙ ∙.

El πj coeficientes son todos no negativos siempre que 0 ≤ δ1 < 1, α1 ≥ 0, y (δ1α1 + δ1α1) ≥ 0. Por lo
tanto, α 2 podría ser negativo siempre y cuando - α2 es menos que δ1α1
El pronóstico de u2𝑡+𝑠 basado en u2𝑡 , u2𝑡−1 , …, denotado û2𝑡−𝑠|𝑡 , …, Puede calcularse como en
[4.2.45] iterando en
(𝛿1 + 𝛼1 )(û2𝑡−𝑠−1𝑡 − 𝜎 2 ) + (𝛿2 + 𝛼2 )(û2𝑡−𝑠−2|𝑡 − 𝜎 2 )

+ ⋯ + (𝛿𝑝 + 𝛼𝑝 )(û2𝑡−𝑠−𝑝𝑡 − 𝜎 2 ) − 𝛿𝑠 ŵ t − 𝛿𝑠+1 w
̂ t−1
û2𝑡−𝑠|𝑡 − 𝜎 2 = − ⋯ − 𝛿𝑟 w ̂ t+s−r for s = 1,2, … , r
(𝛿1 + 𝛼1 )(û𝑡−𝑠−1𝑡 − 𝜎 ) + (𝛿2 + 𝛼2 )(û2𝑡−𝑠−2|𝑡 − 𝜎 2 )
2 2
2 2
{+ ⋯ + (𝛿𝑝 + 𝛼𝑝 )(û𝑡−𝑠−𝑝𝑡 − 𝜎 ) for s = r + 1, r + 2, …
û2𝑟|𝑡 = û2𝜏 𝑓𝑜𝑟 𝜏 ≤ 𝑡
̂𝜏 = û2𝜏 − û2𝜏|𝜏−1
𝑤 𝑓𝑜𝑟 𝜏 = 𝑡, 𝑡 − 1, … , 𝑡 − 𝑟 + 1.
Ver Baillie y Bollerslev (1992) Para una mayor discusión de los pronósticos y errores cuadrados
para GARCH procesos.

Calculo de las secuencias de las varianzas condicionales i de [21.2.3] requiere valores de
presample para ℎ−𝑝+1,…, h 0 y 𝑢2 −𝑝+1,…,𝑢02 tiene
Observaciones en y, and x1 for t = 1, 2, …, T, Bollerslev (1986, p. 316) configuración sugerida
hj =uj =a2 para j = - p + 1, …,0,
donde
𝜏
2 −1
𝜎̂ = 𝑇 ∑(𝑦𝑡 − 𝑥𝑡′ 𝛽)2 .
𝑡=1
La secuencia {ℎ𝑡 }𝑇𝑡−1 puede utilizarse para evaluar la probabilidad de registro a partir de la
expression dada en [21.1.20], Esto se puede maximizar numéricamente con respecto a β y en los
parámetrosk, δ1, …, δr , α1,…,αm del GARCH proceso; para detalles, más información sobre
Bollerslev (1986).
GARCH integrado
Suponer que 𝑢𝑡 = √ℎ ∙ 𝑣𝑡 donde v, es i.i.d. con media cero y desviación unitaria y donde h t
obedece el GARCH(r, m) especificación
ht = k + δ1 ht−1 + δ2 ht−2 + ⋯ + δr ht−r
+ α1 u2t−1 + α2 u2t−2 + ⋯ + αm u2t−m
Vimos en [21.2.4] que esto implica un ARMA proceso de u2t donde el jth coeficiente autoregresivo
esta dado por (δ j + α j ). Este proceso Arma para u2t tendría una raiz unitaria si
𝑟 𝑚
∑ δj + ∑ αj [21.2.5]
𝑗=1 𝑗=1
Engel y Bollerslev (1986) referido a un modelo que satisface [21.2.5] como un GARCH proceso,
denotado IGARCH.
Si u, sigue una IGARCH proceso, entonces la varianza incondicional de ut es infinita, así que
ninguno u t ni u2t satisface la definición de una función de covarianza estacionaria. Sin embargo,
todavía es posible u t vienen de un proceso estrictamente estacionario en el sentido de que la
densidad incondicional u t es el mismo para todos t; ver referencia Nelson (1990).
La ARCH-en especificaciones medianas

La teoría financiera sugiere que un active con un mayor riesgo percibido pagaría un mayor
rendimiento en promedio. Por ejemplo, dejar r t denota la tasa de rendimiento ex post de algún
activo menos el rendimiento de un activo alternativo seguro. Suponer que r t se descompone en un
componente anticipado por los inversionistas en fecha t - 1 (denotado μt) y un componente que no
era anticipado (denotadoμt)
r t = μt + ut
Entonces, la teoría sugiere que el rendimiento medio (μt) estaría relacionada con la varianza del
rendimiento (h t ). En general, el ARCH-in-mean, o ARCH-M, modelo de regresión introducido
por Engel, Lilien, and Robins (1987) es caracterizado por

𝑦𝑡 = 𝑥𝑡′ 𝛽 + 𝛿ℎ𝑡 + 𝑢𝑡
𝑢𝑡 = √ℎ𝑡 ∙ 𝑣𝑡
2 2 2
ℎ𝑡 = 𝜁 + 𝛼1 𝑢𝑡−1 + 𝛼2 𝑢𝑡−2 + ⋯ + 𝛼𝑚 𝑢𝑡−𝑚
para v t i.i.d. con media cero y varianza unitaria. El efecto que una mayor variabilidad percibida ut
tiene el nivel de y t es capturado por el parámetro δ.
Exponencial GARCH
Como antes, dejamos 𝑢1 = √ℎ1 . 𝑣1 donde v, es i.i.d Con media cero y varianza unitaria. Neison
(1991) propuso el siguiente modelo para la evolución de la varianza condicional de 𝑢1 :
log ℎ𝑖 = 𝑡 + ∑𝑛𝑗=1 𝑣1 . {|𝑣𝑖−1 | − 𝐸|𝑣𝑖−1 | + 𝐾𝑣𝑖−1 } [21.2.6]
El modelo de Neison se refiere a veces como GARCH exponencial, o EGARCH. It 𝜋𝑖 > 0. El

modelo de Neison implica que una desviación de (𝑣𝑖−1) de su valor esperado hace que la varianza
de u, sea mayor que de otra manera, un efecto similar a la idea detrás de la especificación GARCH.
El parámetro N permite que este efecto sea asimétrico. Es N=0, luego una sorpresa positiva
(𝑣𝑖−1 > 0)) Tiene el mismo efecto sobre la volatilidad que una sorpresa negativa de la misma
magnitud. If – 1 < N < 0, Una sorpresa positiva reduce realmente la volatilidad mientras que una
sorpresa negativa aumenta la volatilidad. Una serie de investigadores han encontrado evidencia de
asimetría en el comportamiento de precios de las acciones - las sorpresas negativas parecen
aumentar la volatilidad más que las sorpresas positivas.4 Dado que un menor precio de las acciones
reduce el valor de las acciones en relación con la deuda corporativa, una fuerte caída en el precio de
las acciones reduce el valor o la equidad en relación con la deuda corporativa, una fuerte
disminución de los precios de las acciones aumenta el apalancamiento corporativo y podría
aumentar el riesgo de mantener las acciones. Por esta razón, el hallazgo aparente de que N <0 se
describe a veces como el efecto de apalancamiento.
Una de las principales ventajas de la especificación de Nelson es que desde (21.2.6) se describe el
log de h1, la varianza misma (h1) Será positivo independientemente de si los coeficientes 𝜋𝑖 son
positivos. Por lo tanto, en contraste con el modelo GARCH, no se deben imponer restricciones
(21.2.6) para la estimación. Este fabricante de optimización numérica más simple y permite una
clase más flexible de posibles modelos dinámicos para la varianza. Nelson (1991, p. 351) mostro
que (21.2.6) implica que log h1, h2, y u1 son estrictamente estacionarios siempre que ∑∝ 2
𝑗−1 𝜋𝑗 < ∞.
Una parametrización natural es modelar 𝜋(𝐿) como la relación de dos polinomios de orden finito
como en la especificación GARCH (r, m):
log ℎ𝑡 = 𝑘 + 𝛿1 log ℎ𝑡−1 + 𝛿2 log ℎ𝑡−2 + ⋯
+𝛿1 log ℎ𝑡−𝑟 + 𝛼1 {|𝑣𝑖−1 | − 𝐸|𝑣𝑖−1 | + 𝐾𝑣𝑖−1 }
+𝛼𝑚 {|𝑣𝑡−𝑚 | − 𝐸|𝑣𝑡−𝑚 | + 𝐾𝑣𝑡−2 } + ⋯ [21.2.7]
+𝛼𝑚 {|𝑣𝑡−𝑚 | − 𝐸|𝑣𝑡−𝑚 | + 𝐾𝑣𝑡−𝑚 }

El modelo EGARCH puede estimarse por máxima verosimilitud especificando una densidad para:
𝑣1 . Neison propuso utilizar la distribución de errores generalizada, normalizada para tener la media
y la varianza unitaria:
4
Véase Pagan y Schwert (1990), Engle y Ng. (1991 (y los estudios citados en Bollerslev, Chow y Kroner (1992, p.24).

𝑣 exp[−(1/2)|𝑣1 /𝜆|𝑥 ]
𝑓(𝑣𝑡 ) = 𝑣+1
1
[21.2.8]
𝜆.2 𝑣 .𝑟( )
𝑣
aquí I’/( ) es la función ganma, 𝜆 Es una constante dada por

2 1
2(−𝑣) . 𝑟(𝑣 )
𝜆={ } .2
3
𝑟𝑣
Y v es un parámetro positivo que rige el espesor de las colas. Para v = 2, la constante x = 1 y la

expresión [21.2.8] es sólo la densidad normal estándar. Si v <2, la densidad tiene colas más gruesas
que la Normal, mientras que para v> 2 tiene colas más delgadas. El valor absoluto esperado de una
variable extraída de esta distribución es
𝜆. 21/𝑣 Γ(2/𝑣)
𝐸|𝑣1 | =
Γ(1/𝑣)
Para el caso Normal estándar (v=2), Esto se convierte
𝐸|𝑣1 | = √2/𝜋
Como una ilustración de cómo este modelo podría ser utilizado, considere el análisis de Nelson de
los datos de retorno de stock. Para 𝑟𝑖 la rentabilidad diaria de las acciones menos la tasa de interés
diaria de las letras del Tesoro, Nelson estimó un modelo de regresión del formulario
𝑟1 = 𝑎 + ℎ𝑟𝑡−1 + 𝛿ℎ1 + 𝜇1
El residuo u1 es modelado como √ℎ𝑖 . 𝑣𝑖 , donde vi es I.i.d: con densidad (21.2.8) y donde hi
evoluciona según
log ℎ𝑡 − 𝜉𝑡 = 𝛿1 (log ℎ𝑡−1 − 𝜉−1 ) + 𝛿2 (log ℎ𝑡−2 − 𝜉−2 )
+𝛼1 {|𝑣𝑡−1 | − 𝐸|𝑣𝑡−1 | + 𝐾𝑣𝑡−1 } [21.2.9]
+𝛼2 {|𝑣𝑡−2 | − 𝐸|𝑣𝑡−2 | + 𝐾𝑣𝑡−2 }
Nelson permite 𝜁𝑖 , la media incondicional del log hi, para ser una function de tiempo:
𝜉𝑡 = 𝜉 + log(1 + 𝑝𝑁)
Donde Nt denota el número de días no comerciales entre las fechas t-1 y t y 𝜁 y  son parámetros a
estimar por máxima verosimilitud. La probabilidad de log de muestra es entonces
𝔏 ={𝑇(log(𝑣/𝜆) − (1 + 𝑣 −1 ) log(2) − 𝑙𝑜𝑔[Γ(1/𝑣)]}

𝑡 𝑡
1 1
−( ) ∑(𝑟1 − 𝑏𝑟𝑡−1 − 𝛿ℎ𝑖)𝑣 − ( ) ∑ log(ℎ𝑡)
2 2
𝑡=1 𝑡=1
La secuencia {ℎ𝑡 }𝑡𝑖=1 se obtiene iterando en (21.2.7) con
𝑣𝑡 = (𝑡𝑡 − 𝛼 − ℎ𝑡𝑡−1 − 𝛿ℎ1 )/√ℎ𝑡
Y con valores de muestra de log ht A sus expectativas incondicionales 𝜁𝑡 .
Otras especificaciones no lineares ARCH

Las consecuencias asimétricas de las innovaciones positivas y negativas también pueden ser
capturadas con una simple modificación de la estructura GARCH lineal. Glosten, Jagannathan y
Runkle (1989) propusieron el modelado 𝑢𝑡 = √ℎ𝑡 . 𝑣𝑡 , donde 𝑣𝑡 is i.i.d, Con media y unidad de
varianza cero y
ℎ1 = 𝑘 + 𝛿1 ℎ𝑡−1 + 𝛼1𝑢𝑡−1
2 . 𝐼𝑡−1 [21.2.10]
Aquì, 𝑙𝑡−1 = 1 𝑖𝑓 𝑢𝑡 − 1 ≥ 0 and 𝑙𝑡−1 = 1 𝑖𝑓 𝑢𝑡 − 1 < 0. De nuevo, si el efecto de

apalancamiento se mantiene, esperamos encontrar N <0. La condición de no negatividad se cumple
siempre que 𝛿1 ≥ 0 y 𝑁 ≥ 0.
Una variedad de otras formas funcionales no lineales, ht para {𝑢𝑡−1 , 𝑢𝑡−2 ,… } ha sido propuesto.
Geweke (1986), Pantula (1986), y Mithj (1987) sugirió una especificación en la que el log de ht
Depende linealmente de los registros anteriores de los residuos retorcidos. Higgins y Bera (1992)
propusieron una transformación de poder de la forma
2 ).𝛿 2 ).𝛿
ℎ𝑡= ⌊𝜁 𝛿 + 𝛼1 (𝑢𝑡−1 + 𝛼2 (𝑢𝑡−2 2
+ ⋯ + 𝛼𝑚 (𝑢𝑡−𝑚 ).𝛿 ⌋.1/8
Con ζ > 0,  > 0, y ∝𝑖 ≥ 0 para I = 1, 2, …, m. Gourieroux y Monfort (1992) utilizó una cadena de
Markov para modelar la varianza condicional como una función gradual general de las realizaciones
pasadas.
Modelos de GARCH Multivariable

Las ideas anteriores también pueden extenderse a un vector (n x 1) yi. Consideremos un sistema de
n ecuaciones de regresión de la forma
𝑌𝑡 = 𝜋 . 𝑋𝑟 + 𝑈𝑡
Donde x, es un vector de variables explicativas y ut es un vector de ruido blanco residual. Sea H, la
matriz de varianza condicional condicional (n x n) de los residuos:
𝐻1 = 𝐸(𝑢𝑡 𝑢1𝑡 |𝑦𝑡−1 , 𝑦𝑡−2 … . 𝑋𝑡−1 . 𝑋𝑡−2 )

Engle y Kroner (1993) propusieron la siguiente generalización vectorial de una especificación
GARCH (r, m):
𝐻𝑡 = 𝑘 + ∆1 𝐻𝑡−1 ∆1´ + 𝑘 + ∆2 𝐻𝑡−2 ∆´2 + ⋯ + 𝑘 + ∆𝑟 𝐻𝑟−1 ∆1´
Aquí K, ∆1 , y A2 para s = 1,2, … Denotan (n x n) matrices de parámetros. Una ventaja de esta

parametrización es que se garantiza que H2 es positivo definido siempre y cuando K sea positivo
definido, lo cual se puede asegurar numéricamente parametrizando K como PP ', donde P es una
matriz triangular inferior.
En la práctica, para un tamaño razonablemente n es necesario restringir la especificación de H,

además de obtener una formulación numéricamente tratable. Un caso especial útil restring ∆2 y
∆3 son matrices diagonales para s = 1, 2, ,,,,, En dicho modelo, la covarianza condicional entre 𝑢𝑖𝑡 y
𝑢𝑗𝑡 depende únicamente de los valores 𝑢𝑖𝑡−3 . 𝑢𝑗𝑡−3 , y no sobre los productos o al cuadrado de
otros residuos.
Otro enfoque popular introducido por Bollerslev (1990) supone que las correlaciones condicionales
(𝑡)
entre los elementos de ut son constantes en el tiempo. Dejar ℎ𝑖𝑡 denotar la fila i, columna i
(𝑡)
elemento de H1. Luego, ℎ𝑗𝑡 representa la varianza condicional del elemento ith de ut:
(𝑡) 2
ℎ1𝑡 = 𝐸 (𝑢𝑖𝑡 |𝑌𝐼−1 , 𝑌𝐼−2 ,…, 𝑋𝐼 , 𝑋𝐼−1 ,…,)

Esta varianza condicional podría ser modelado con un proceso GARCH (1,1) univariante
impulsado por la innovación retardada en la variable i:
(𝑡) (𝑖−1) 2
ℎ1𝑡 = 𝐾1 + 𝛿1 ℎ1𝑖 + 𝛼1 𝑢𝑖.𝑡−1
Podemos postular n tales especificaciones GARCH (i=1, 2, …., n), uno para cada elemento de ut. la
covarianza condicional entre 𝑢𝑖𝑡 y 𝑢𝑗𝑡 , o la fila I, columna j elemento de Hi, es tomado para ser una
correlacion constante 𝜌𝑡𝑗 las desviaciones estándar condicionales de 𝑢𝑖𝑡 and 𝑢𝑗𝑡 :
(𝑡) (𝑡) (𝑡)

ℎ𝑖𝑗 = 𝐸(𝑢𝑖𝑟 𝑢𝑗𝑡 𝑦𝑡−1 ; 𝑦𝑡−2 ; … ; 𝑥𝑡, 𝑥𝑡−1 … ) = 𝑝𝑖𝑗 √ℎ𝑖𝑖 . √ℎ𝑗𝑗
La estimación de máxima verosimilitud de esta especificación resulta ser bastante manejable: véase
Bollrslev (1990) para más detalles.
Otros modelos multivariados incluyen una formulación para vech (Ht) propuesta por Bollerslev,
Engle y Wooldridge (1988) y el factor ARCH de Dieboid y Nerlove (1989) y Engle, Ng y
Rothschild (1990).
Estimaciones no paramétricas
Pagan y Hong (1990) exploraron una estimación no paramétrica de kernet del valor esperado de 𝑢𝑡2 .
La estimación se basa en un valor medio de esas 𝑢𝑡2 . Cuyos valores precedentes de
n𝑢𝑟−1 , 𝑢𝑟−2 , … . , 𝑢𝑟−𝑚 están “cerca” de los valores que precedieron a 𝑢𝑡2 :
𝑡
ℎ𝑡 = ∑ 𝑤𝑡 (𝑡). 𝑢𝑡2
𝑟=1
Los pesos {𝑤𝑟 (𝑡)}𝑇𝑖=1,− ∝1 Son un conjunto de números (T - 1) que suman a unidad. Si los valores
de 𝑢𝑟−1 , 𝑢𝑟−2 , … . , 𝑢𝑟−𝑚 que es precedido ut, luego 𝑢𝑡2 Se considera que proporciona información
útil sobre ℎ𝑡 = (𝐸𝑢𝑡2 |𝑢𝑟−1 , 𝑢𝑟−2 , … . , 𝑢𝑟−𝑚 ). En este caso, el peso wt(t) debe ser largo. Si Los
valores que la precedieron son muy diferentes de los que precedieron 𝑢𝑟 , el 𝑢𝑡2 Se ve como dando
poca información sobre ht y entonces w-(t) es pequeño. Una especificación popular para el peso w-
(t) es utilizar un núcleo Gauwssian:
𝑘𝑡 (𝑡) = ∏(2𝜋).−1/2 𝜆𝑗−1 𝑒𝑥𝑝⌊−(𝑢𝑟−𝑗 − 𝑢𝑡−𝑗 ).2 /(2𝜆𝑗 2 )⌋

𝑗=𝑖
El parámetro positivo 𝜆𝑗 es conocido como el ancho de la banda. El ancho de banda calibra la

distancia entre 𝑢𝑟−𝑖 y 𝑢𝑟−𝑗 – el mas pequeño es 𝜆𝑗 , el mas cercano es 𝑢𝑟−𝑗 deb ser 𝑢𝑟−𝑗 después
de darle valor a 𝑢𝑡2 mucho peso en la estimación de ℎ1 . Para asegurar que los pesos w- (t) sumen a
unidad, tomamos
𝑡
𝑤𝑡 (𝑡) = 𝑘𝑡 (𝑡)/ ∑ 𝑘𝑡 (𝑡)

𝑡=1
La dificultad clave para construir esta estimación es elegir el parámetro de ancho de banda 𝜆𝑗 . Un
enfoque se conoce como validación cruzada. Para ilustrar este enfoque, suponga que el mismo
ancho de banda se selecciona para cada retraso (𝜆𝑗 = 𝜆 para j = 1, 2, …., m). Entonces, la
estimación no paramétrica de ht es implicidad una función del parámetro de ancho de banda
impuesto y, en consecuencia, podría denominarse ht(𝜆). Podemos entonces elegir λ para minimizar

𝑡
∑[𝑢𝑡2 − ℎ𝑡 (𝜆)].2
𝑡=1
Estimaciones semiparamètricas
Otros enfoques para describir la varianza condicional de 𝑢𝑡 incluyen expansiones de series
generales para la función ℎ𝑡 = ℎ(𝑢𝑡−1 , 𝑢𝑡−2 , … . ) Como en Pagan y Schwert (1990, p. 278) o para
la densidad 𝑓(𝑣1 )como en Gallant y Tauchen (1989) y Gallant, Hsieh y Tauchen (1989). Engle y
González-Rivera (1991) combinaron una especificación paramétrica para ℎ𝑡 con una estimación no
paramétrica de la densidad de 𝑢1 en (21, 1, 9).
Comparación de modelos alternativos de volatilidad del mercado de valores

Se han sugerido varios enfoques para comparar las especificaciones alternativas de ARCH.
Una medida atractiva es ver qué tan bien los diferentes modelos de heteroscedasticidad pronostican
el valor de 𝑢𝑡2 . Pagán y Schwert (1990) ajustaron una serie de modelos diferentes a los rendimientos
mensuales de las acciones estadounidenses de 1834 a 1925. Encontraron que los modelos
semiparamétricos producían mejores pronósticos fuera de la muestra. La especificación EGARCH
de Nelson fue una de las mejores en el rendimiento general de esta comparación. Pagán y Schwert
concluyeron que algunos beneficios emergen del uso de métodos paramétricos y no paramétricos
juntos
Otro enfoque consiste en calcular varias pruebas de especificación del modelo ajustado. Las
pruebas pueden construirse a partir del principio multiplicador de Lagrange como en Engle. Lilien y
Robins (1987) o Higgins y Bera (1992), en pruebas momentáneas y análisis de valores atípicos como
en Nelson (1991), o en la igualdad de matriz de información como en Bera y Zuo (1991). Bollerslev
y Wooldridge (1992) desarrollaron diagnósticos robustos relacionados. Otros diagnósticos se
ilustran en Hsieh (1989). Engle y Ng (1991) sugirieron algunas pruebas particularmente sencillas de
la forma funcional de ht relacionadas con las pruebas de multiplicador de Lagrange, de las cuales
concluyeron que la especificación de EGARCH de Nelson o la modificación de GARCH de
Gloger, Jagannathan y Runkle0 describe mejor (21.2.10) La asimetría en la volatilidad condicional
de los rendimientos bursátiles japoneses.
Engle y Mustafa (1992) propusieron otro enfoque para evaluar la utilidad de una especificación
dada de la varianza condicional de los precios observados para las opciones de seguridad. Estos
instrumentos financieros dan a un inversionista el derecho a comprar o vender el valor en algún
momento en el futuro a un precio acordado hoy. El valor de tal opción aumenta con la variabilidad
percibida de la seguridad. Si el término para el cual se aplica la opción es suficientemente corto para
que los precios de las acciones puedan ser aproximados por un movimiento browniano con una
varianza constante, una fórmula bien conocida desarrollada por Black y Scholes (1973) relaciona el
precio de los precios de las opciones La percepción implícita del mercado de ht, que puede
compararse con la especificación implicada por un modelo de serie temporal dado. Los resultados
de tales comparaciones son bastante favorables a las especificaciones sencillas de GARCH y
EGARCH. Los estudios de Day y Lewis (1992) y Lamoureux y Lastrapes (1993) sugieren que los
modelos GARCH (1, 1) o EGARCH (1, 1) pueden mejorar la evaluación implícita del mercado de
ht. Engle, Hong, Kane y Noh (1991) y West, Edison y Cho (1993) proporcionaron evidencia
relacionada con la formulación de GARCH (1.1).
APÉNDICE 21. A. Derivación de Ecuaciones Seleccionadas

para el Capítulo 21

Este apéndice proporciona los detalles detrás de varias de las aseveraciones en el texto.
 Derivación de (21.1.21). se observa que
𝜕𝑙𝑜𝑔𝑓(𝑦𝑡 𝑥𝑡 ; ℘𝑡−1 ; 𝜃) 1 𝜕𝑙𝑜𝑔ℎ𝑡

= −
𝜕𝜃 2 𝜕𝜃
1 𝜕(𝑦𝑡 −𝑥1 𝛽).2 (𝑦𝑡 −𝑥𝑡 𝛽).2 𝜕ℎ𝑡
−1/2 {ℎ 𝜕𝜃
− ℎ𝑡2 𝜕𝜃
} [21.A.1]
𝑡
Pero
𝜕(𝑦𝑡 −𝑥𝑡 𝛽).2 −2𝑥𝑡 𝑢𝑡
=| | [21.A.2]
𝜕𝜃 0
y
𝜕ℎ𝑡 𝜕(𝜉 + ∑𝑚 2
𝑗=1 𝛼𝑗 𝑢𝑡−𝑗
=
𝜕𝜃 𝜕𝜃
𝑚 𝑚
𝜕𝜉 2 2
= + ∑(𝜕𝛼1 𝐼𝜕𝜃). 𝑢𝑡−𝑗 + ∑ 𝛼𝑗 . (𝜕𝑢𝑡−𝑗 𝐼𝜕𝜃) [21. 𝐴. 3]
𝜕𝜃
𝑗=1 𝑖=1
0 0 0 −2𝑢𝑡−𝑗 𝑥𝑡−𝑗
1 0 0 0
0 2
𝑢𝑡−1 0 𝑚
0
= . + . + ⋯+ . + ∑ 𝛼𝑗 .
. . . 𝑗=1 .
. . . .
[0] [ 0 ] 2
[𝑢𝑡−𝑚 ] [ 0 ]
𝑚
∑ −2𝛼𝑗 𝑢𝑖−𝑗 𝑥𝑡−𝑗

=[ ]
𝑗−1
𝑧𝑡 (𝛽)
Sustituyendo [21.A.2] y [21.A.3] dentro [21.A.1] produce

𝑚
𝜕𝑙𝑜𝑔𝑓(𝑦𝑡 𝑥𝑗 , ℌ𝑡−1 ; 𝜃) 1 𝑢𝑡2 ∑. − 2𝛼𝑗 𝑢𝑖−𝑗 𝑥𝑖−𝑗 (𝑥 𝑢 𝐼ℎ
= −{ − 2} [ ] + [ 𝑡 𝑡 𝑡]
𝜕𝜃 2ℎ𝑖 2ℎ𝑖 𝑗=1 0
𝑧𝑖 (𝛽)
Como se reinvindica
 Derivación de [21.1.25]. La expresión [21.A.1] se puede escribir

1 𝑢𝑡2 𝜕𝑙𝑜𝑔ℎ𝑡 1 𝜕𝑢𝑡2
𝑠𝑡 (𝜃) = { − 1} −
2 ℎ1 𝜕𝜃 2ℎ𝑡 𝜕𝜃
A partir del cual

𝜕𝑠𝑡 (𝜃) 1 𝜕𝑙𝑜𝑔ℎ𝑡 1 𝜕𝑢𝑡2 𝑢2 𝜕ℎ𝑡 1 𝑢𝑡2 𝜕2 𝑙𝑜𝑔ℎ𝑡
𝜕𝜃
= 2 𝜕𝜃
{ℎ 𝜕𝜃 − ℎ𝑡2 } + { − 1} [21.A.4]
𝑡 𝑡 𝜕𝜃 2 ℎ𝑡 𝜕𝜃 𝜕𝜃´
1 𝜕2 𝑢𝑡2 𝜕𝑢𝑡2 1 𝜕ℎ𝑡

− 2ℎ + 𝜕𝜃 2ℎ𝑡2 𝜕𝜃´
𝑡 𝜕𝜃 𝜕𝜃´
De la expresión (21.A.2)
𝜕 2 𝑢𝑡2 −2𝑥 𝜕𝑢𝑡 2𝑥 𝑥 0

=[ ] =[ 𝑡 𝑡 ]
𝜕𝜃 𝜕𝜃´ 0 𝜕𝜃 0 0
Sustituyendo este y (21.A.2) en (21.A.4) resulta en
𝜕𝑠𝑡 (𝜃) 1 𝜕𝑙𝑜𝑔ℎ𝑡 1 𝑢𝑡2 𝜕ℎ𝑡 1 𝑢𝑡2 𝜕 2 𝑙𝑜𝑔ℎ𝑡

= { (−2𝑢𝑡 𝑥𝑡 0´) − 2 } + { − 1}
𝜕𝜃´ 2 𝜕𝜃 ℎ𝑡 ℎ𝑡 𝜕𝜃´ 2 ℎ𝑡 𝜕𝜃 𝜕𝜃´
1 2𝑥𝑡 𝑥𝑡 ´ 0 −2𝑥𝑡 𝑢𝑡 1 𝜕ℎ𝑡

− 2ℎ [ ]+[ ] 2ℎ2 𝜕𝜃´ (21.A.5)
𝑡 0 0 0 𝑡
Recordemos que la condicional xt y en 𝒴𝑡−1 las magnitudes ht y h1 y 𝑥𝑡 no son estocásticos y
𝐸(𝑢𝑖 𝐼𝑥𝑡 , 𝒴𝑡−1 ) = 0
𝐸(𝑢𝑖 𝐼𝑥𝑡 , 𝒴𝑡−1 ) = ℎ𝑡
Así, tomando las expectativas de (21.A.5) condicionales en 𝑥𝑡 y 𝒴𝑡−1 resulta

𝜕𝑠𝑡 (𝜃)𝜃 1 𝜕𝑙𝑜𝑔ℎ𝑡 𝜕𝑙𝑜𝑔ℎ𝑡 1 𝑥𝑡 𝑥𝑡 ´ 0
𝐸{ 𝑥𝑡 , 𝒴𝑡−1 } = − − [ ]
𝜕𝜃´ 2 𝜕𝜃 𝜕𝜃´ ℎ𝑡 0 0
𝑚
𝑚
1 ∑ −2𝛼𝑗 𝑢𝑡−𝑗 𝑥𝑖−𝑗
= − 2[ ] [∑ −2𝛼𝑗 𝑢𝑡−𝑗 𝑥𝑖−𝑗 [𝑧𝑡 (𝛽)]´]
2ℎ𝑡 𝑗=𝑡
𝑗=𝑡
𝑧𝑖 (𝛽)
1 𝑥𝑡 𝑥𝑡 ´ 0
− [ ]
ℎ𝑡 0 0
Donde la igualdad viene de [21.A.3].
Baillie, Richard T y Tim Bollerslev. 1989. El mensaje en los tipos de cambio diarios; Un cuento de
variación condicional. “Journal of business and economic statistics” 7; 297-305 -y-1992. "predicción
en modelos dinámicos con variaciones condicionales dependientes del tiempo". Revista de
econometría 52; 91-113.
Bates, Charles, and Halbert White, 1988. “efficient instrumental variables estimation of systems of
implicit heterogeneous nonlinear dynamic equations with nonspherical errors,” in William A.
Barnett, Ernst R. Berndt, and Halbert White,eds.,dynamic econometric modeling. Cambridge,
England: Cambridge university press.

Bera, Anil K., y X. Zuo. 1991. "Prueba de especificación para un modelo de regresión lineal con
proceso ARCH". Universidad de Illinois en champaign-urbana. Mimeo.
Berndt, E.K., B.H. Hall, y J. A. Hausman. 1974. "Estimación e inferencia en modelos estructurales
no lineales". Anales de medición económica y social 3: 653-65.
Negro, Fisher y Myron Scholes.1973. "El precio de las opciones y pasivos corporativos." Diario de
economía política 81: 637-54.
Bollerslev, Tim. 1986. "Heteroscedasticidad condicional autorregresiva generalizada". Journal of
Econometrics 31: 307-27.
___, 1987. "Un modelo de series temporales condicionalmente heteroscedasticas para precios
especulativos y tasas de retorno". Revisión de la economía y las estadísticas 69: 542-47.
___. 1988. "Sobre la estructura de correlación para el proceso autorregresivo condicional
generalizado heteroskedastic". Journal of time series analysis 9: 121-31.
___. 1990. "Modelando la coherencia en los tipos de cambio nominales a corto plazo: Un modelo
de ARCH generalizado y multivariado". Revisión de la economía y las estadísticas 72: 498-505.
___. Ray Y. Chou, y Kenneth F. Kroner. 1992. "Modelo ARCH en finanzas: Una revisión de la
teoría y la ecidencia empírica." Journal of econometrics 52: 5.59.
___. Robert F. Engle y Jefrey M. Wooldridge. 1988. "Un modelo de tasación de activos de capital
con covarianzas que varían en el tiempo". Diario de economía política 96: 116-31.
___ y Jeffrey M. Wookdridge. 1992. Estimación e inferencia cuantitativa máxima en modelos
dinámicos con covarianzas variables en el tiempo. "Reseñas econométricas 11: 143-72.
Cai, junio. "Un modelo de Markov de varianza incondicional en ARCH." Diario de negocios y
estadísticas económicas.
Day, Theodore E., and Craig M. Lewis. 1992. “Stock Market Volatibility and the information
content of stock index options.” Journal of econometrics 52:267-87.
DeGroot, Morris H. 1970. Optional statistical decisions. New York: McGraw-hill.
Diebold, Francis X.,and Mark Nerlove. “The dynamics of exchange rate volatility: A multivariate
latent factor ARCH model.” Journal of applied econometrics 4:1-21.
Engle, Robert F. 1982. “Autoregressive conditional heterocedasticity with estimates of variance of
united Kingdom inflation” econometrica 50:987-1007.
___ y Tim Bollerslev. 1986. "Modelando la persistencia de las varianzas condicionales". Revisiones
econométricas 5: 1-50.
___ y Gloria González-Rivera. 1991. "modelos semiparamétricos ARCH." Diario de negocios y
estadísticas económicas 9: 345-59.
___, Ted Hong, Alex Kane y Jaesum Noh. 1991. "Arbitraje Valuación de la previsión de varianza
utilizando mercados de opciones simuladas". Avances en futuros y opciones de investigación
próximos.
___ y Kenneth F. Kroner. 1993. # multivariante simultánea generalizada ARCH. "UCSD. Mimeo.
___, David M. Lilien, y rusell P.Robins. 1987. "Estimación de las primas de riesgo variables en el
tiempo en la estructura a plazo: El modelo ARCH-M. "Econometrica 55: 391-407.
___ y Chowdhury Mustafa. 1992. "Modelos implícitos ARCH de los precios de las opciones"
Journal of econometrics 52: 289-311.
___ y Victor K.Ng 1991. "Medir y probar el impacto de las noticias sobre la volatilidad".
Universidad de California, San Diego. Mimeo.
___ y Victor K. Ng, y Michael Rothschild. 1990. "Precios de activos con una estructura de
covarianza factor-ARCH: estimaciones empíricas para los Billetes del Tesoro." Journal of
econometrics 45: 213-37.
Ferson, Wayne E. 1989. "Cambios en las rentabilidades esperadas de seguridad, el riesgo y el nivel
de las tasas de interés." Journal of Finance 44: 1191-1218.
Gallant, A. Ronald, David A. Hsieh y George Tauchen. 1989. "Sobre la instalación de una serie
recalcitrante: El tipo de cambio libra / dólar 1914-83." Duke University. Mimeo.
___ y George Tauchen. 1989. "Estimación semi-no paramétrica de procesos heterogéneos
condicionalmente limitados: aplicaciones de precios de activos". Econometrica 57: 1091-1120.
Geweke, John. 1986. "Modelando la persistencia de las varianzas condicionales: un comentario".
Econometric reviews 5: 57-61
Glosten, Lawrence R., Ravi Jagannathan y David Runkle. 1989. "Relación entre el valor esperado y
la volatilidad del rendimiento excesivo nominal de las acciones". Universidad del noroeste. Mimeo.

Gourieroux, Christian y Alain Monfort. 1992. "Modelos ARCH de umbral cualitativo". Journal of
econometrics 52: 159-99.
Hamilton, James D. y Raúl Susmel. Próximo. "Heteroscedasticidad condicional autoregresiva y
cambios en el régimen." Journal of econometrics.
Higgins, M. L, y A.K. Bera. 1992. "Una clase de modelos no lineales ARCH". Revista económica
internacional 33: 137-58.
Hsieh, David A. 1989. "Modelando la heteroscedasticidad en las tasas de cambio de divisas diarias".
Journal of business and economic statistics 7: 307-17.17.
Jorion, Philippe. 1988. "En los procesos de salto I la variación del tipo de cambio y de rendimiento
de acciones: Hacia y comprensión de las volatilidades implícitas estocásticas". Revisión de los
estudios financieros 5: 293-326
Mark, Nelson. 1988. "El tiempo varía betas y primas de riesgo en la fijación de precios de los
contratos de divisas a plazo." Diario de economía financiera 22_335-54.
Milhoj, Anders. 1985. "la estructura de momento de los procesos ARCH". Scandinavian journal of
statistics 12: 281-92.
___ y Charles Q. Cao, 1992. "Las restricciones de la desigualdad en el modelo de GARCH
univariante." Journal of business and economic statistics 10: 229-35.
Pagan, Adrian R., y Y.S. Hong. 1990. "La estimación no paramétrica y la prima de riesgo", en W.
Barnett. Powell y G. Tauchen, eds, Métodos semiparamétricos y no paramétricos en econometría y
estadística. Cambridge, Inglaterra: prensa de la universidad de Cambridge.
Pagan, Adrian R. y G. William Schwert. 1990. "Modelos alternativos para la volatilidad de stock
condicional". Journal of econometrics 45: 267-90.
Weiss, Andrew A. 1984. "Modelos ARMA con errores ARCH". Diario de análisis de series de
tiempo 5: 129-43
___, 1986. "Teoría asintótica para los modelos ARCH: estimatio y testing". Teoría econométrica 2:
107-31
West, Kenneth D., Hali J. Edison y Dongchul Cho. 1993.! Una comparación basada en la utilidad
de algunos modelos de intercambio de foráneas volatitily. "Revista de la economía internacional,
próxima.
Pagan, Adrian R, y Aman Ullah. 1988. "el análisis econométrico de modelos con términos de
riesgo". Revista de econometría aplicada 3_87-105.
Pantula, Sastry G. 1986. "Modelando la persistencia de las variaciones condicionales: un
comentario". Reseñas econométricas 5: 71-74
Rich, Roberto W, Jennie Raymond, amd J.S Butler. 1991. "Genelarized variables instrumentales
estimación de los modelos autoregresivos condicionalheteroskedastic." Letras económicas 35: 179-
85
Simon, David P. 1989. "Expectativas y riesgos en el mercado de títulos de tesorería: un enfoque de
variables instrumentales". Diario de análisis financiero y cuantitativo 24: 357-66.

22
Modelando Series de Tiempo
Con cambios de Régimen
22.1. Introducción
Muchas variables experimentan episodios en que el comportamiento de la serie parece cambiar muy
drásticamente. Un ejemplo notable es proporcionado por la Figura 22.1, tomada del estudio de
Roger (1992) quien llevo a cabo el estudio del volumen de las cuentas en dólares en los bancos
mexicanos. El gobierno mexicano adoptó diversas medidas en 1982 para tratar de desalentar el uso
de dichas cuentas, y los efectos son bastante dramáticos en una parte de la serie.
Pausas dramáticas similares se verán si uno siguiera casi cualquier serie de tiempo macro-
económica o financiera para un período suficientemente largo. Tales cambios aparentes en el
proceso de series de tiempo pueden ser resultado de acontecimientos tales como guerras, los
pánicos financieros, o cambios significativos en las políticas gubernamentales.
¿Cómo deberíamos modelar un cambio en el proceso seguido por una determinada serie de
tiempo? Para los datos representados en la Figura 22.1, una idea simple podría ser que, el término
constante para la autorregresión cambiada en 1982. Para los datos anteriores a 1982 podríamos
utilizar un modelo como
𝑦𝑡 − µ1 = ф(𝑦𝑡−1 − µ1 ) + ℰ𝑡 ∗ [22.1.1]
mientras que los datos después de 1982 pueden ser descritos por
𝑦𝑡 − µ2 = ф(𝑦𝑡−1 − µ2 ) + ℰ𝑡 ∗ [22.1.2]
donde µ2 < µ1.
La especificación en (22,1,1) y (22,1,2) parece una descripción plausible de los datos en la Figura
22.1, pero no es del todo satisfactoria como un modelo de serie temporal. Por ejemplo,
¿Cómo vamos a pronosticar una serie que se describe por (22,1,1) y (22,1,2)? Si el proceso ha
cambiado en el pasado, es evidente que también podría cambiar de nuevo en el futuro, y esta
perspectiva debe tenerse en cuenta en la formación de un pronóstico. Por otra parte, el cambio en
el régimen de seguridad no debe ser considerado como el resultado perfectamente previsible, de un
evento determinista. Más bien, el cambio de régimen es en sí mismo una variable aleatoria. Por
tanto, un modelo de series de tiempo completo incluiría una descripción de la ley de probabilidades
que rige el cambio de µ1 a µ2.
Estas observaciones sugieren que podríamos considerar el proceso para ser influenciado por una
variable aleatoria no observada St , que se llama el estado o régimen en el que el proceso se encontraba
en la fecha t. Si St = 1, entonces el proceso se encuentra en régimen de 1, mientras que St = 2
significa que el proceso se encuentra en régimen 2. Ecuaciones (22,1,1) y (22.1.2) pueden entonces
escribirse equivalente como
𝑦𝑡 − µ𝑠𝑡∗ = ф(𝑦𝑡−1 − µ𝑠𝑡−1
∗ ) + ℰ𝑡 ∗ [22.1.3]
698 Capítulo 22 | Modelando Series de Tiempo con Cambio de Régimen

Donde ∗ µSt indica µ1 cuando S∗t =1 e indica µ2 cuando St =
∗ 2.
Figura 22.1: Logaritmo de la relación (división) del valor en pesos de cuentas bancarias denomina-
das en dólares y cuentas bancarias denominadas en pesos en México, mensual, 1978-85 (Rogers,
1992)
Entonces, necesitamos una descripción del proceso de series de tiempo para la variable no
observada St∗. Desde que St∗ toma sólo valores discretos (en este caso, St∗ es 1 ó 2), este será un
modelo de series de tiempo ligeramente diferente de los de las variables aleatorias considerando que
poseen valores continuos en otra parte de este libro.
El modelo de series de tiempo más simple de una variable aleatoria de valores discretos es una
cadena de Markov. La teoría de las cadenas de Markov se revisa en la Sección 22.2. En la Sección
22.4 de esta teoría se combinará con un modelo convencional de series de tiempo tal como un
autoregresivo que es asumido para caracterizar cualquier régimen dado.
Antes de hacerlo, sin embargo, será útil considerar un caso especial de tales procesos, a saber, que
para los que
φ = 0 en (22,1,3) y St son valorados como variables aleatorias discretas i.i.d. Tal especificación
describe, como una simple mezcla de diferentes distribuciones, la teoría estadística para el que se
revisa en la Sección 22.3.
22.2. Cadenas de Markov
Dejemos que St sea una variable aleatoria que puede asumir solamente un valor entero
{1, 2,…, N}. Supongamos que la probabilidad de que St iguale un particular valor j depende
solamente del pasado más reciente de St−1:
0 699
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡−1 = 𝑖, 𝑠𝑡−1 = 𝑘, . . . } = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡−1 = 𝑖} = 𝑝𝑖𝑗 . [22.2.1]
Tal proceso se describe como una cadena de Markov de N-estados con probabilidades de
transición {pij}i,j=1,2,··· ,N . La probabilidad de transición pij da la probabilidad de que el estado i
será seguido por el estado ij. Tenga en cuenta que
𝑃𝑖1 + 𝑃𝑖2 +. . . +𝑃𝑖𝑁 = 1 [22.2.2]
Esto es a menudo conveniente para recoger las probabilidades de transición en una matriz
P (N × N) conocida como la matriz de transición:
𝑝11 𝑝21 𝑝𝑁1

𝑝12 𝑝22 ⋯ 𝑝𝑁2
𝑷=[ ⋮ ⋮ ⋯ ⋮ ] [22.2.3]
𝑝1𝑁 𝑝2𝑁 ⋯ 𝑝𝑁𝑁
La fila j, columna i elemento de P es la probabilidad de transición pij; por ejemplo, el elemento de la

fila 2, columna 1 da la probabilidad de que el estado 1 será seguido por el estado 2.
Representando una cadena de Markov con un vector autoregresivo

Una representación útil para una cadena de Markov se obtiene dejando que ξt, denote un vector
aleatorio (N × 1) cuyo j-ésimo elemento es igual a la unidad si St = j y cuyo j-ésimo elemento es
igual a cero en caso contrario. Por lo tanto, cuando St = 1, el vector ξt, es igual a la primera
columna de IN (la matriz de identidad (N × N)); cuando St = 2, el vector ξt, es la segunda columna
de IN ; y así:
(1, 0, 0, . . . , 0)′ 𝑐𝑢𝑎𝑛𝑑𝑜 𝑠𝑡 = 1

0, 1, 0, . . . , 0)′ 𝑐𝑢𝑎𝑛𝑑𝑜 𝑠𝑡 = 2
ℰ𝑡 = {
⋮ ⋮
(0, 0, 0, . . . , 1)′ 𝑐𝑢𝑎𝑛𝑑𝑜 𝑠𝑡 = 𝑁
Si St = i, entonces el j-ésimo elemento de ξt+1 es una variable aleatoria que toma el valor de la
unidad con probabilidad Pij y toma el valor de cero en caso contrario. Una variable aleatoria tal
tiene expectativas como Pij. Por lo tanto, la expectativa condicional de ℰ𝑡+1 condicionada por St = i
está establecida por:
𝑝𝑖1
𝑝
𝐸(ℰ𝑡+1 |𝑠𝑡 = 𝑖) = [ 𝑖2 ]
⋮
𝑝𝑖𝑁
Este vector es simplemente la columna i-ésima de la matriz P en [22.2.3]. Además, cuando St = i, el
vector ξt, corresponde a la columna i-ésima de IN , en cuyo caso el vector en [22.2.4] podría ser
descrito como P ξt. Por lo tanto, la expresión [22.2.4] implica que
E(ℰ𝑡+1 |ℰ𝑡 ) = 𝑷ℰ𝑡
y, de hecho, de la propiedad de Markov [22.2.1] se deduce, además, que
E(ℰ𝑡+1 |ℰ𝑡 ℰ𝑡−1 , … ) = 𝑷ℰ𝑡 [22.2.5]

El resultado [22.2.5] implica que es possible expresar una cadena de Markov en la forma
ℰ𝑡+1 = 𝑷ℰ𝑡 + v𝑡+1 [22.2.6]
Donde
v𝑡+1 = ℰ𝑡+1 − E(ℰ𝑡+1 |ℰ𝑡 , ℰ𝑡−1 , . . . ) [22.2.7]
La expresión [22.2.6] tiene la forma de un vector autorregresivo de primer orden para el ℰ𝑡 ; tenga
en cuenta que [22.2.7] implica que la innovación vt, es una secuencia en diferencias martingala.
Aunque el vector vt puede tomar sólo un conjunto finito de valores, en promedio
vt, es cero. Por otra parte, el valor de vt, es imposible de predecir sobre la base de los estados
anteriores del proceso.
Predicción para una Cadena de Markov

La expresión [22.2.6] implica que
ℰ𝑡+𝑚 = 𝑣𝑡+𝑚 + 𝑃𝑣𝑡+𝑚−1 + 𝑃2 𝑣𝑡+𝑚−2 + ∙∙∙ + 𝑃𝑚−1 𝑣𝑡−1 + 𝑃𝑚 ℰ𝑡 [22.2.8]

Donde indica la transición matriz multiplicada por sí misma m veces. Se desprende de
[22.2.8] que m-periodo-medio previsiones para una cadena de Markov puede calcularse a
partir de𝑷𝒎
𝐸(ℰ𝑡+𝑚 |ℰ𝑡 , ℰ𝑡−1 , … ) = 𝑃𝑚 ℰ𝑡 . [22.2.9]
De nuevo, desde el jth elemento de g, será la unidad si sf = j y cero en caso contrario, el elemento
del JTH (N x 1) Vector 𝐸(ℰ𝑡+𝑚 |ℰ𝑡 , ℰ𝑡−1 , … )indica la probabilidad que tiene el valor
de j, condicional sobre el estado del sistema en la fecha t. Por ejemplo, si el proceso está
en estado i en la fecha t y, a continuación, [22.2.9] afirma que
P{St+m = 1|St = i}
P{St+m = 2|St = i}
[ ] = P m . ei , [22.2.10].
⋮
P{St+m = N|St = i}
Donde e indica la columna de ITH. Expresión [22.2.10] indica que la m-P por sí m veces.
Concretamente, la probabilidad de que un obseri será seguida m períodos posteriores por un
régimen de observación desde J, P{está dada por la fila j, la 𝑠𝑡+𝑚 = 𝑗|𝑠𝑡 = 𝑖}, columna i de los
elementos de la matriz 𝑷𝒎 .
Cadenas de Markov reducibles

Para una cadena de Markov de dos estados, la matriz de transición es
p11 1 − p22
P=[ ] [22.2.11].
1 − p11 p22
Supongamos que 𝑝11 = 1, por lo que la matriz P es triangular superior. Entonces, una vez
que el proceso entra en estado 1, no hay ninguna posibilidad de regresar alguna vez a estado
2. En tal caso, diríamos que el estado 1 es un estado absorbente y que la cadena de
Markov es reducible.
22.2 Cadenas de Markov 701

Más generalmente, una cadena de Markov de N-estado se dice para ser reducibles si
existe una manera de etiquetar los estados (es decir, una forma de elegir qué estado llamar a
estado 1, el cual llamar a estado 2, y así sucesivamente) de tal manera que la matriz de
transición puede ser escrito en el formulario
𝑩 𝑪
𝑃=[ ],
𝟎 𝑫
Donde B denota un (K x K) matrix para algunos 1<K < N. Si P es bloque superior-.
De forma triangular, también lo es para cualquier m. Por lo tanto, una vez que un proceso de
ese tipo entra en un estado 𝑷𝒎 tales que j<K, no hay ninguna posibilidad de regresar alguna
vez a uno de los miembros de 𝐾 + 1, 𝐾 + 2, … , 𝑁.
Una cadena de Markov que no es reducible se dice que es irreductible. Por

ejemplo. Una cadena de dos estados es irreducible si 𝑝11 < 1 y 𝑝 12< 1
Cadenas de Markov ergódica

La ecuación [22.2.2] requiere que cada columna de P suma igual a la unidad. O
P'i= 1. [22.2.12].
Donde 1 indica una (N x 1) vector de es. Expresión [22.2.12] implica que la unidad es un
eigenvalue de la matriz P' y que 1 es el asociado eigenvector, desde una matriz y su
transposición comparten los mismos valores propios, se deduce que la unidad es una matriz
de transición eigenvalue P para cualquier cadena de Markov.
Considere una N-estado la cadena de Markov irreductible con la matriz de transición P.

SupP están en el interior del círculo unidad. A continuación, la cadena de Markov se
dice ergódica. La (N x 1) vector de probabilidades ergódica para una cadena ergódica
es denotada 𝜋, este vector 𝜋 se define como el eigenvector de P asociado con la unidad
eigenvalue; es decir, el vector de probabilidades ergódica 𝜋 satisface
𝑷𝜋 = 𝜋. [22.2.13].
El eigenvector 𝜋 se normaliza para que sus elementos suma a la unidad (1'w = 1).
Ella puede demostrarse que si P es la matriz de transición para una cadena de Markov
ergódica, entonces
lim 𝑃𝑛 = 𝜋 ⋅ 1´. [22.2.14].

𝑛→∞
Establecemos [22.2.14] Aquí para el caso cuando todos los vectores propios
de P son distintos: un argumento relacionado sobre la base de la descomposición que Jordania
es válido para las cadenas ergódica con repetidas eigenvalues es desarrollado en Cox y Miller
(1965, págs. 120-23). Para el caso de distintos valores propios. Sabemos desde [A.4.24] que
P siempre puede ser escrito en el formulario
P = TAT-1, [22.2.15].
Donde es una (N x N) matriz cuyas columnas son los vectores propios de P

mientras es una matriz diagonal cuya diagonal contiene los autovalores correspondientes
de P. Como se desprende en [1.2.19] que
𝑷𝒎 = 𝑇𝐴𝑚 𝑇 −1 . [22.2.16].

Desde el (1, 1) es un elemento de unidad y de todos los demás elementos de una unidad
están dentro del círculo, 𝐴𝑚 converge a una matriz con Unity en (1, 1) y ceros en otros
lugares. De ahí.
lim 𝑃𝑚 = 𝑥 ⋅ 𝑦´. [22.2.17].

𝑛→∞
Donde x es la primera columna de t e y' es la primera fila de la T -1.
La primera columna de T es el autovector de p correspondiente a la unidad autovector ci,

que se indica en𝜋 [22.2.13]:
𝒙=𝜋 [22.2.18].
Además, la primera fila de 𝑇 −1cuando se expresa como un vector columna, corresponde
El autovector de P" asociado con la unidad, la cual autovector fue visto sea proporcional al
vector 1 en [22.2.12]:
𝒚=𝛼⋅1 [22.2.19].
Para comprobar [22.2.19], nota de [22.2.15] que la matriz de vectores propios de la matriz T
P es caracterizado.
Para verificar [22.2.19], note de [22.2.15] que la matriz de vectores propios T de la matriz P se
caracteriza por
PT = TA [22.2.20].
Trasponiendo los resultados de [22.2.15] en
𝑃′ = (𝑇 −1 )′𝐴𝑇′𝑌
y postmultiplicando por rendimientos
𝑃′ (𝑇 −1 )′ = (𝑇 −1 )´𝐴 [22.2.21].
Comparando [22.2.21] con [22.2.20] confirma que las columnas de (T-1)" corresponden
a vectores propios de P'. En particular, entonces, la primera columna de (T-1)' es
proporcional a la autovector de P' asociada con la unidad, la cual autovector autovalor
fue visto para ser dada por I en la ecuación [22.2.12]. Desde y se definió como la primera
columna de (T-1)", esto establece la afirmación hecha en la ecuación [22.2.19].
Sustituyendo [22.2.18] la ecuación [22.2.19] en [22.2.17], se deduce que
lim 𝑃𝑚 = 𝜋 ⋅ 𝛼1´
𝑛→∞
Ya que 𝑃𝑚 puede ser interpretado 2como una matriz de probabilidades de transición,

cada columna deben sumar la unidad. Así, desde -.él vector de probabilidades ergódica 𝜋 fue
normalizado por el Estado que 𝑙′𝜋 = 1, se deduce que la normalización debe ser una
constante unidad, constitutivo de la reclamación hecha en [22.2.14].
Resultado [22.2.14] implica que el pronóstico a largo plazo para una cadena de Markov
ergódica es independiente de la situación actual, ya que a partir de [22.2.9]
𝑃
𝐸(ℰ𝑡+𝑚 |ℰ𝑡 , ℰ𝑡−1 , … ) = 𝑃𝑚 ℰ𝑡 → 𝜋 ∙ 1′ℰ𝑡 = 𝜋,

Donde la última igualdad se desprende de la observación de que 1'ℰ𝑡 = 1
independientemente del valor de ℰ𝑡 . El pronóstico de largo plazo ℰ𝑡+𝑚 está dado por el vector
de probabilidades ergódica 𝜋 independientemente del valor actual de ℰ𝑡 .
El vector de probabilidades ergódica también pueden ser vistos como una indicación de
la probabilidad de la ONU de cada uno de los N estados diferentes. Para ver esto,
supongamos que habíamos utilizado el símbolo 𝜋𝑗 para indicar la probabilidad
incondicional 𝑠𝑡 = j p{}. Entonces el vector 𝜋 ≡ (𝜋1 , 𝜋2 , . . . , 𝜋𝑁 )′podría ser descrito
como la expectativa incondicional de ℰ𝑡 :
𝜋 = ᴇ(ℰ𝑡 ) [22.2.22]
Si uno toma expectativas incondicionales de [22.2.6], el resultado es
ᴇ(ℰ𝑡+1 ) = 𝑃 · ᴇ(ℰ𝑡 )
Asumiendo estacionariedad y usando la definición [22.2.22], esto se convierte en

𝜋 = 𝑃 · 𝜋
Que es idéntica a la ecuación [22.2.13] caracterizando 𝜋 como el vector propio de P asociado con
valor propio de módulo uno. Para una cadena de Markov ergódica, este vector propio es único, por
lo que el vector 𝜋 de probabilidades ergódica se puede interpretar como el vector de probabilidades
incondicionales.
Una cadena de Markov ergódica es un proceso de covarianza estacionaria. Sin embargo,
[22.2.6] toma la forma de un VAR con una raíz unitaria, ya que uno de los valores propios de
P es la unidad. Esta VAR es estacionario a pesar de la raíz unitaria porque la matriz de
varianza-covarianza de vt es singular. En particular, desde 1´𝜉𝑡 = 1 para todo 𝑡 y desde 1´P
= 1´, la ecuación [22.2.6] implica que 1´vt = 0 para todo t. Por lo tanto, a partir de [22.2.19],
el primer elemento del vector T-1v, es siempre cero, lo que significa que a partir de [22.2.16]
el valor propio de modulo de modulo uno en P mv, siempre tiene un coeficiente de cero.
Discusión adicional de cadenas de Markov de dos estados

Los valores propios de la matriz de transición P para cualquier cadena de Markov de N-estados se
encuentran desde las soluciones de |P − λIN| = 0. Para la cadena de Markov de dos estados, los
valores propios satisfacen
𝑝 −𝜆 1 − 𝑝22
0 = | 11 |
1 − 𝑝11 𝑝22 − 𝜆
= (p11 − λ) (p22 − λ) − (1 − p11) (1 − p22)
= p11p22 − (p11 + p22) λ + λ2 − 1 + p11 + p22 − p11p22
= λ2 − (p11 + p22) λ − 1 + p11 + p22
= (λ − 1) (λ + 1 − p11 − p22).
Por lo tanto, los valores propios de una cadena de dos estados están dadas por λ1 = 1 y λ2 = −1 +
p11 + p22. El segundo valor propio, λ2, estará en el interior del círculo unidad, siempre y cuando 0
< p11 + p22 < 2. Vimos antes que esta cadena es irreducible, siempre y cuando p11 < 1 y p22 < 1.
Por lo tanto, una cadena de Markov de dos estados es ergódica, siempre que p11 < 1, p22 < 1 y
p11 + p22 > 0.
El vector propio asociado con λ1 para la cadena de dos estados resulta ser

(1 − 𝑝22 )/(2 − 𝑝11 − 𝑝22 )
π=[ ]
(1 − 𝑝11 )/(2 − 𝑝11 − 𝑝22 )
(se invita al lector a confirmar esto y las reivindicaciones que siguen en el Ejercicio 22.1). Por lo
tanto, la probabilidad incondicional de que el proceso estará en el régimen 1 en cualquier fecha está
dada por
(1 − 𝑝22 )
P{𝑠𝑡 = 1}
(2 − 𝑝11 − 𝑝22 )
La probabilidad incondicional que el proceso estará en régimen 2, la segundo elemento del 𝜋, se ve

fácilmente que ser 1 menos esta magnitud. El vector propio asociado con 𝜆2 es
−1
[ ]
1
Por lo tanto, a partir de [22.2.16], la matriz de probabilidades de transición m-periodos para una
cadena de Markov de dos estados ergódicos está dada por
1 − 𝑝22
−1 1 1
𝑚 2 − 𝑝11 − 𝑝22 1 0 −(1 − 𝑝11 ) 1 − 𝑝22 ]
𝑃 = [ ] [
1 − 𝑝11 0 𝜆𝑚 2
1 2 − 𝑝11 − 𝑝22 2 − 𝑝11 − 𝑝22
[2 − 𝑝11 − 𝑝22 ]
(1 − 𝑝22 ) + 𝜆𝑚 2 (1 − 𝑝11 ) (1 − 𝑝22 ) + 𝜆𝑚 2 (1 − 𝑝22 )
2 − 𝑝11 − 𝑝22 2 − 𝑝11 − 𝑝22
𝑃𝑚 =
(1 − 𝑝11 ) + 𝜆𝑚 2 (1 − 𝑝11 ) (1 − 𝑝11 ) + 𝜆𝑚 2 (1 − 𝑝22 )
[ 2 − 𝑝11 − 𝑝22 2 − 𝑝11 − 𝑝22 ]
Así, por ejemplo, si el proceso se encuentra actualmente en el estado 1, la probabilidad de que m-
períodos más tarde estará en el estado 2 está dada por
(1 − 𝑝11 )+𝜆𝑚 2 (1 − 𝑝11 )

P{𝑠𝑡+𝑚 = 2|𝑠𝑡 = 1}
(2 − 𝑝11 − 𝑝22 )
Donde 𝜆2 = −1 + 𝑝11 + 𝑝22 .
Una cadena de Markov de dos estados también puede ser representada por un proceso
simple AR(1) escalar, como sigue. Dejamos a 𝜉1𝑡 denotar el primer elemento del vector𝜉𝑡 ; es
decir 𝜉1𝑡 , es una variable aleatoria que es igual a la unidad cuando st = 1 e igual a cero en caso
contrario. Para la cadena de dos estados, el Segundo de 𝜉𝑡 , es entonces 1 − 𝜉1𝑡 . Por lo tanto,
[22.2.6] puede ser escrito como
𝜉1,𝑡+1 𝑝 1 − 𝑝22 𝜉 𝜐1,𝑡+1

[ ] = [ 11 ] [ 1𝑡 ] + [𝜐 ] [22.2.23]
1 − 𝜉1,𝑡+1 1 − 𝑝11 𝑝22 1 − 𝜉1𝑡 2,𝑡+1
La primera fila de [22.2.23] establece que

𝜉1,𝑡+1 = (1 − 𝑝22 ) + (−1 + 𝑝11 + 𝑝22 )𝜉1𝑡 + 𝜐1,𝑡+1 [22.2.24]
La expresión [22.2.23] puede ser reorganizada como un proceso AR(1) con término constante

(1 − 𝑝22 ) y coeficiente autoregresivo igual a (−1 + 𝑝11 + 𝑝22 ). Tenga en cuenta que este
coeficiente autorregresivo resulta ser el segundo valor propio 𝜆2 de P calculado previamente.
Cuando 1 + 𝑝11 + 𝑝22 > 1 , el proceso es probable que persista en su estado actual y la variable
𝜉1𝑡 , se correlacione positivamente en serie, mientras que cuando 𝑝11 + 𝑝22 < 1, es más probable
que el proceso cambie de un estado para quedarse en ella, produciendo correlación serial negativa.
Recordemos de la ecuación [3.4.3] que la media de una autorregresión de primer orden está dada
por 𝑐/(1 − ∅).
Por lo tanto, la representación [22.2.24] implica que
1−𝑝22
𝐸(𝜉1𝑡 ) = 2−𝑝
11 −𝑝22
que reproduce el cálculo anterior del valor para la probabilidad ergódica 𝜋1 .
Cálculo de Probabilidades ergódicas para una Cadena de Markov de N-

estados
Para un proceso ergódico de N -estados, el vector de probabilidad incondicional representa un
vector π con las propiedades Pπ = π y 1´π = 1, donde 1 denota un vector (N × 1) de unos. Por lo
tanto buscamos un vector π que satisfaga.
𝐼 −𝑃
𝐴
⏟ =[𝑁 ].
(𝑁+1)𝑥𝑁
1´
Dicha solución se puede encontrar premultiplicando [22.2.25] por (𝐴´𝐴)−1 𝐴´:
𝜋 = (𝐴´𝐴)−1 𝐴´𝑒𝑁+1 .
En otras palabras, π es la columna (N + 1)-ésima de la matriz (𝐴´𝐴)−1 𝐴´.
Cadenas de Markov periódicas

Si una cadena de Markov es irreducible, entonces hay uno y sólo un valor propio igual a la unidad.
Sin embargo, puede haber más de un valor propio en el círculo unitario, lo que significa que no
todas las cadenas de Markov son irreducibles ergódicas. Por ejemplo, considere una cadena de
Markov de dos estados en los que
0 1
P=[ ].
1 0
Los valores propios de esta matriz de transición son 𝜆1 = 1 y 𝜆2 = −1, de los cuales ambos están
en el círculo unitario. Por lo tanto, la matriz P𝑚 no converge a ningún límite fijo de la forma π ∙ 1´
para este caso. En cambio, si el proceso se encuentra en estado 1 en la fecha t, entonces es seguro
que estará allí de nuevo para los instantes t + 2, t + 4, t + 6, . . . , sin tendencia a converger como
m → ∞. Tal cadena de Markov se dice que es periódica con periodo 2.
En general, es posible mostrar que para cualquier cadena de Markov irreducible de N -estados,
todos los valores propios de la matriz de transición estarán dentro del círculo unitario. Si hay
valores propios K estrictamente en el círculo unidad con K > 1, a continuación, la cadena se dice
que es periódica con periodo K. Estas cadenas tienen la propiedad de que los estados se pueden
clasificar en K clases distintas, de manera que si el Estado en la fecha t es de clase α, entonces el
estado en la fecha t + 1 es seguro que será de la clase α + 1 (donde la clase α + 1 para α = K se
interpreta para ser de clase 1). Por lo tanto, hay una probabilidad cero de volver al estado original st,
y la probabilidad, de hecho cero, de volver a cualquier miembro de la clase original α, excepto en

horizontes que son múltiplos enteros del período (tales como fechas t + K, t + 2K, t + 3K,
etcétera). Para una mayor discusión de las cadenas de Markov periódicas, consulte Cox y Miller
(1965)
22.3. Análisis estadístico de una combinación de

distribuciones i.i.d.
En la Sección 22.4, consideramos procesos autorregresivos en el que los parámede una cadenaros
de la autorregresión pueden cambiar como resultadp de una vriable regimen de turno. El regimen
en sí mismo será descrito como el resultado de una variable regimen de turno. El régimen en sí
mismo será descrito como el resultado de una caden Markov no observada. Antes de analizar
dichos procesos conocidos como distribuciones de mezcla iid.
Dejemos que el régimen de un determinado proceso se encuentre en la fecha t sean inexados por
una variable aleatoria no observada 𝑠𝑡 , donde hay N posible regimens (𝑠𝑡 = 1,2, … , 𝑜𝑟 𝑁). Cuando
el proceso se encuentra en regimen 1, la variable observada 𝑦𝑡 , se presume que ha sido elaborada a
partir de una distribución PN(𝜇1 , 𝜎1 2 ), etcétera. Por lo tanto, la densidad de 𝑦𝑡 condicionada a la
variable st al azar, tomando el valor j es
2
1 −(𝑦𝑡 −𝜇𝑗 )
P𝑓(𝑦𝑡 |𝑠𝑡 = 𝑗, 𝜃) = 𝑒𝑥𝑝 { 2𝜎 2 } [22.3.1]
√2𝜋𝜎𝑗 𝑗
Para j=1,2, . . . , N . Aquí θ es un vector de parámetros poblacionales e incluye 𝜇1 , … 𝜇N y

𝜎1 2 , … , 𝜎N 2.
El régimen no observado {𝑠𝑡 } se presume que ha sido generado por alguna distribución de
probabilidad, para los que la probabilidad incondicional que st adquiere en el valor j se denota 𝜋𝐽 :
P{𝑠𝑡 = 𝑗, 𝜃} = 𝜋𝑗 para j=1,2,…,N. [22.3.2]
Las probabilidades 𝜋1 , … , 𝜋𝑁 también se incluyen en 𝜃, esto es, 𝜃está dado por
θ ≡ (𝜇1 , … , 𝜇𝑁 , 𝜎 21 , … , 𝜎 2 𝑁 , 𝜋1 , … , 𝜋𝑁 )´.
Recordemos que para cualquiera de los eventos A y B, la probabilidad condicional de A dado B se
define como
𝑃{𝐴 𝑦 𝐵}
P{𝐴|𝐵} = ,
𝑃{𝐵}
suponiendo que la probabilidad de que el evento B se produzca no es cero. Esta expresión implica
que la probabilidad conjunta de A y B ocurran juntos se puede calcular como
P{𝐴 𝑦 𝐵} = 𝑃{𝐴|𝐵} ∙ 𝑃{𝐵}.
Por ejemplo, si estábamos interesados en la probabilidad del evento conjunto tal que 𝑠𝑡 = 𝑗 𝑦 𝑦𝑡
cae dentro de cierto intervalo [𝑐, 𝑑], esto podria ser encontrada mediante mediante la interrogación
p(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃) = 𝑓(𝑦𝑡 |𝑠𝑡 = 𝑗; 𝜃) ∙ 𝑃{𝑠𝑡 = 𝑗; 𝜃} [22.3.3]
todos los valores de yt entre c y d. Expresión [22.3.3} se llamará la función de densidad de la

distribución conjunta de yt y st. De (22,3,1) y (22,3,2), esta función está dada por
0 707
2
𝜋𝑗 −(𝑦𝑡 −𝜇𝑗 )
p(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃) = 𝑒𝑥𝑝 { }. [22.3.4]
√2𝜋𝜎𝑗 2𝜎𝑗 2
La densidad incondicional de yt se puede encontrar sumando [22.3,4] para todos los valores
posibles para j:
𝑁
−(𝑦𝑡 − 𝜇1 )2
𝜋1
𝑓(𝑦𝑡 ; 𝜃) = ∑ 𝑝(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃) = 𝑒𝑥𝑝 { }
√2𝜋𝜎1 2𝜎1 2
𝑗=1
𝜋2 −(𝑦𝑡 − 𝜇2 )2
+ 𝑒𝑥𝑝 { } +∙∙∙
√2𝜋𝜎2 2𝜎2 2
𝜋𝑁 −(𝑦𝑡 −𝜇𝑁 )2
+ 𝑒𝑥𝑝 { 2𝜎𝑁 2
}∙ [22.3.5]
√2𝜋𝜎𝑁
Dado que el régimen st es inobservable, la expresión (22,3,5) es la densidad relevante describiendo

los datos realmente observados yt. Si la variable de régimen st está distribuida i.i.d. a través de
diferentes instantes t, entonces la probabilidad de registro para los datos observados se puede
calcular a partir de (22,3,5) como
𝑁
ʆ(𝜃) = ∑ 𝑙𝑜𝑔 𝑓(𝑦𝑡 ; 𝜃) ∙

𝑗=1
La estimación de máxima verosimilitud de θ es obtenido maximizando [22.3.6] sujeta a las

restricciones de π1 + π2 + · · · + πN = 1 y πj ≥ 0 para j = 1, 2, …,N . Esto puede lograrse usando
los métodos numéricos descritos en la Sección 5.7, o utilizando el algoritmo EM desarrollado más
adelante en esta sección.
Funciones de la forma de [22.3.5] puede ser utilizadas para representar una amplia clase de
diferentes densidades. Figura 22.2 proporciona un ejemplo para N = 2. La distribución de densidad
conjunta 𝑝(𝑦𝑡 , 𝑠𝑡 = 1; 𝜃) es 𝜋1 veces una densidad 𝑁(𝜇1 , 𝜎1 2 ), cuando 𝑝(𝑦𝑡 , 𝑠𝑡 = 2; 𝜃) es 𝜋2
veces una densidad 𝑁(𝜇2 , 𝜎2 2 ). La densidad incondicional para la variable observada 𝑓(𝑦𝑡 ; 𝜃) es la
suma de estas dos magnitudes.
Figura 1.2: Densidad de la mezcla de dos distribuciones gausianas con 𝑦𝑡 |𝑠𝑡 = 1~𝑁(0,1), 𝑦𝑡 |𝑠𝑡 =
2~𝑁(0,1), 𝑦𝑡 |𝑠𝑡 = 2~𝑁(4,1) 𝑦 𝑃{𝑠𝑡 = 1} = 0.8.

Una mezcla de dos variables gausianas no necesita tener el aspecto bimodal de la figura 22.2.
Mezclas de gausianas también pueden producir una densidad unimodal, permitiendo sesgo o
curtosis diferentes de la de una sola variable Gausiana, como en la figura 22.3.
Inferencia sobre el Régimen No Observado

Una vez que uno ha obtenido estimaciones de θ, es posible hacer una inferencia sobre qué régimen
era más probable que haya sido el responsable de la producción de la fecha t observación de 𝑦𝑡 .
Figura 1.3: Densidad de la mezcla de dos distribuciones gausianas con 𝒚𝒕 |𝒔𝒕 =

𝟏~𝑵(𝟎, 𝟏), 𝒚𝒕 |𝒔𝒕 = 𝟐~𝑵(𝟐, 𝟖) 𝒚 𝑷{𝒔𝒕 = 𝟏} = 𝟎, 𝟔
Una vez más, de la definición de una probabilidad condicional, se deduce que
𝑃(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃) 𝜋𝑗 𝑓(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃)
𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} = = [22.3.7]
𝑓(𝑦𝑡 ; 𝜃) 𝑓(𝑦𝑡 ; 𝜃)
Dado el conocimiento de los parámetros de la población θ, sería posible utilizar (22,3,1) y (22,3,5)
para calcular la magnitud en (22,3,7) para cada observación yt en la muestra. Este número
representa la probabilidad, dados los datos observados, que el régimen no observado responsable
de la observación t sea régimen j. Por ejemplo, para la mezcla representada en la Figura 22.2, si una
observación yt era igual a cero, uno podría estar prácticamente seguro que la observación había
venido de una distribución N (0, 1) en lugar de una distribución N (4, 1), de modo que P {st =
1|yt; θ} para esa fecha podría estar cerca de la unidad. Si en lugar de yt eran alrededor de 2.3, es
igualmente probable que la observación podría haber venido de cualquier régimen, de manera que P
{st = 1|yt; θ} para una observación estaría cerca de 0.5.
Las estimaciones de máxima verosimilitud y el Algoritmo EM

Es instructiveo para caracterizar analíticamente las estimaciones de máxima verosimilitud del
parámetro de la población 𝜃. Apéndice 22. Demuestra que la estimación máxima verosimilitud
𝜃^𝑣𝜃 reprenta una solución para el siguiente Sistema de ecuaciones no lineales:
22.3 Análisis estadístico de una combinación de distribuciones i.i.d. 709

∑𝑇𝑡=1 𝑦𝑡 ∙ 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃̂}
̂
𝜇𝑗 = para j = 1,2, … , N
∑𝑇𝑡=1 𝑃 {𝑠𝑡 = 𝑗|𝑦𝑡 : 𝜃̂}
[22.3.8]
2
∑𝑇𝑡=1(𝑦𝑡 − 𝜇̂𝑗 ) ∙ 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃̂ }
𝜎̂𝑗 2 = para j = 1,2, … , N
∑𝑇𝑡=1 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃̂}
[22.3.9]
𝑇
𝜋̂𝑗 = 𝑇 −1 ∑ 𝑃 {𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃̂ } 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑁

𝑡=1
[22.3.10]
Supongamos que es prácticamente seguro que las observaciones vinieron del régimen 𝑗 y que no
hicimos, de manera que 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} iguala a la unidad para aquellas observaciones que vinieron
del régimen 𝑗 e igualó a cero para aquellas observaciones que vinieron de otros regímenes. A
continuación, la estimación de la media para el régimen 𝑗 en [22.3.8] sería simplemente el valor
medio de 𝑦𝑡 , para aquellas observaciones que se sabe que han venido de regimen 𝑗. En el caso
más general, donde 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} está entre 0 y 1 para algunas observaciones, la estimación
µ ˆj es un promedio ponderado de todas las observaciones en la muestra, donde el peso para
la observación yt es proporcional a la probabilidad de que la observación de la fecha t fue
generada por el regimen 𝑗 . La más probable observación debe de haber venido del regimen 𝑗,
cuanto mayor sea el peso dado a esta observación en la estimación de µj. Similarmente, σˆ2 es
un promedio ponderado de las desviaciones cuadradas de 𝑗𝑡 para µˆj , mientras πˆj es
esencialmente la fracción de observaciones que parece haber venido de régimen 𝑗.
Debido a que las ecuaciones [22.3.8] a [22.3.10] son no lineales, no es posible resolverlos
analíticamente para 𝜃̂ como una función de {𝑦1 , 𝑦2 , … , 𝑦𝑡 }. Sin embargo, estas ecuaciones
sugieren un algoritmo iterativo apelando para encontrar la estimación de máxima
verosimilitud. A partir de una estimación inicial arbitraria para el valor de 𝜃, denotado por
𝜃 (0) , se podría calcular 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃 (0) } de [22.3.7]. Se podría entonces calcular las
magnitudes en el lado derecho de [22.3.8] a través de [22.3.10]. Los lados izquierdos de
[22.3.8] a través de [22.3.10] y pueden producer una nueva estimación 𝜃 (2). Uno continua la
iteración de esta manera hasta que el cambio entre 𝜃 (𝑚+1) y 𝜃 (𝑚) es menor que algún criterio
de convergencia especificado.
Este algoritmo resulta ser un caso especial del principio EM desarrollado por
Dempster, Laird, y Rubin (1977). Se puede demostrar que cada iteración en este algoritmo
aumenta el valor de la función de probabilidad. Es evidente que si las iteraciones llegaron a un
punto tal que 𝜃 (𝑚) = 𝜃 (𝑚+1) , el algoritmo ha encontrado la estimación de máxima
verosimilitud 𝜃̂.
Discusión adicional
La densidad conjunta [22.3.5] tiene la propiedad de que no existe un máximo global del riesgo de
registro [22.3.6]. Surge una singularidad siempre que sea una de las distribuciones se imputa a tener
una media exactamente igual a una de las observaciones (𝜇1 = 𝑦1 digamos) sin varianza (𝜎1 2 → 0).
A tal punto la probabilidad de registro se hace infinita.
Tales singularidades no plantean un problema importante en la práctica, ya que los procedimientos

numéricos de maximización típicamente convergen a un máximo local razonable en lugar de una
singularidad. El máximo local más grande con 𝜎𝑗 > 0 para todo j se describe como el estimación
de máxima verosimilitud. Kiefer (1978) mostró que existe un máximo local acotado de [22.3.6] que
produce una estimación consistente, asintóticamente Gausiana de 𝜃 para los que los errores
estándar se pueden construir utilizando las fórmulas habituales, tales como la expresión [5.8.3]. Por

lo tanto, si un algoritmo de maximización numérica se queda atrapado en una singularidad, una
solución satisfactoria es simplemente hacer caso omiso de la singularidad y vuelva a intentarlo con
diferentes valores iniciales.
Otro enfoque es el de maximizar una función objetivo ligeramente diferente tal como
𝑁 𝑁
𝑎𝑗
𝑄(𝜃) = ʆ(𝜃) − ∑ ( ) 𝑙𝑜𝑔(𝜎𝑗 2 ) − ∑ 𝑏𝑗 /(2𝜎𝑗 2 )
2
𝑗=1 𝑗=1
𝑁
2
− ∑ 𝑐𝑗 (𝑚𝑗 − 𝜇𝑗 ) /(2𝜎𝑗 2 ),
𝑗=1
[22.3.11]
Donde ʆ(𝜃) es la función de verosimilitud de registro se describe en [22.3.6]. Si 𝑎𝑗 /𝑐𝑗 , entonces
[22.3.11] es la forma que la probabilidad log tomaría si, además de los datos, el analista tuviese 𝑎𝑗
observaciones del régimen j cuya media de la muestra fue mj y bj/aj representa la expectativa
previa del analista del valor de 𝜎𝑗 2 . Los parámetros 𝑎𝑗 o 𝑐𝑗 observaciones directas de los datos
conocidos por haber venido del régimen j. Ver Hamilton (1991) para continuar el debate de este
enfoque.
Encuestas de distribuciones conjuntas i.i.d. han sido proporcionados por Everitt y Hand (1981) y
Titterington, Smith y Markov (1985).
22.4. Modelos de series temporales de cambios en el régimen
Descripción del Proceso

Ahora volvemos con el objetivo de desarrollar un modelo que permite que una variable
dada siga un proceso de serie de tiempo diferencial sobre diferentes submuestras. Como ejemplo,
considere una autorregresión de primer orden en el que el término constante y el coeficiente
autorregresivo podrían ser diferentes para diferentes submuestras:
𝑦𝑡 = 𝑐𝑠𝑡 + 𝜙𝑠𝑡 𝑦𝑡−1 + 𝜀𝑡 [22.4.1]

donde 𝜀𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(0, 𝜎 2 ). La propuesta será modelar el régimen𝑠𝑡, como resultado de una cadena
de Markov de N- estado incumplido con st, independiente de 𝜀𝑇 para todo t y T.
¿Por qué una cadena de Markov podría ser una descripción útil del proceso de generar cambios en
el régimen? La primera idea podría ser que un cambio de régimen como en Figura 22.1 es un
evento permanente. Tal cambio de régimen permanente puede ser modelado con una cadena de
Markov de dos Estados en los que el estado 2 es un absorbente. La ventaja de utilizar una cadena
de Markov sobre una especificación determinista para dicho proceso es que permite generar
pronósticos significativos antes del cambio que tengan en cuenta la posibilidad del cambio de
régimen de 1 a 2.
Podríamos también querer un modelo de series de tiempo de cambios en el régimen para tomar en
cuenta eventos de breve duración inusuales como la II guerra mundial. Una vez más, es posible
elegir los parámetros para una cadena de Markov dado 100 años de datos, es muy probable que
observemos un solo episodio de duración del régimen 2 durante 5 años. Una es- pecificación de la
cadena de Markov, por supuesto, implica que dado otros 100 años podríamos ver bien otro tal
evento. Uno podría argumentar que se trata de una propiedad razonable para construirla en un
modelo. La esencia del método científico es la presunción de que el futuro será en algún sentido
como el pasado.
0 711
Mientras que la cadena de Markov puede describir tales ejemplos del régimen de cambios, otra
ventaja es su flexibilidad. Parece un valor especificando una ley de probabilidad consistente con una
amplia gama de resultados diferentes, y elegir parámetros concretos dentro de esa clase en base solo
a los datos.
En cualquier caso, el procedimiento descrito fácilmente generaliza procesos en los que la

probabilidad de que 𝑠𝑡 = 𝑗 no sólo depende del valor de 𝑠𝑡−1 sino también de un vector de otras
variables observadas–ver Filardo (1992) y Dieblod, Lee, y Weinbach (próximo).
El modelo general investigado en esta sección, es la siguiente. Sea 𝑦𝑡 un vector de (n × 1) variables

endógenas observadas y xt un vector de (k × 1) variables exógenas observadas. Sea 𝑌𝑡 =
(𝑦´𝑡 , 𝑦´𝑡−1 , … , 𝑦´𝑡−𝑚 , 𝑥´𝑡 , 𝑥´𝑡−1 , … , 𝑥´𝑡−𝑚 )´ un vector que contiene todas las observaciones
obtenidas a través de t datos. Si el proceso se rige por el regimen 𝑠𝑡 = 𝑗 en la fecha t, entonces la
densidad condicional de 𝑦𝑡 , se supone que estará dada por
𝑓(𝑦𝑡 |𝑠𝑡 = 𝑗, 𝑥𝑡 , 𝑌𝑡−1 ; 𝛼) [22.4.2]

donde 𝛼 es un vector de parámetros caracterizando la densidad condicional. Si hay diferentes
regí- menes de N, entonces hay N diferentes densidades representadas por [22.4.2], para 𝛼𝑗 =
1,2, … , 𝑁. Estas densidades se recogerán en un vector (𝑁×1) denotada por 𝑛𝑡 .
Para el ejemplo de [22.4.1], 𝑦𝑡 es un escalar (𝑛 = 1), las variables exógenas consisten solo de un
término constante 𝑥𝑡 = 1, y los parámetros desconocidos en 𝛼 compuesto de 𝑐1 , … , 𝑐𝑁 , 𝜙1 , … , 𝜙𝑁 ,
y 𝜎 2 . Con 𝑁 = 2, regímenes las dos densidades representadas por [22.4.2], son
1 −(𝑦𝑡 − 𝑐1 − 𝜙1 𝑦𝑡−1 )2
𝑒𝑥𝑝 { }
𝑓(𝑦𝑡 |𝑠𝑡 = 1, 𝑦𝑡−1 ; 𝛼) √2𝜋𝜎 2𝜎 2
𝑛𝑡 = [ ]= .
𝑓(𝑦𝑡 |𝑠𝑡 = 2, 𝑦𝑡−1 ; 𝛼) 1 −(𝑦𝑡 − 𝑐2 − 𝜙2 𝑦𝑡−1 )2
𝑒𝑥𝑝 { }
[√2𝜋𝜎 2𝜎 2 ]
En [22.4.2] se asume que la densidad condicional depende solamente del actual régimen st y no de
los regímenes anteriores:
𝑓(𝑦𝑡 |𝑥𝑡 , 𝑌𝑡−1 , 𝑠𝑡 = 𝑗; 𝛼) = 𝑓(𝑦𝑡 |𝑥𝑡 , 𝑌𝑡−1 , 𝑠𝑡 = 𝑗; 𝑠𝑡−1 = 𝑖, 𝑠𝑡−2 = 𝑘, … ; 𝛼) [22.4.3]

Aunque esto no es muy restrictivo. Consideremos, por ejemplo, la especificación de [22.1.3], donde
la densidad condicional de yt depende de ambos s∗t y s∗t−1 y donde s∗t es descrito por dos estdos
de una cadena de Markov. Se puede definir una nueva variable st que caracteriza el régimen para t
datos de una manera consistente con [22.4.2] como sigue:
𝑠𝑡 = 1 𝑠𝑖 𝑠 ∗𝑡 = 1 𝑦 𝑠 ∗𝑡−1 = 1
𝑠𝑡 = 2 𝑠𝑖 𝑠 ∗𝑡 = 2 𝑦 𝑠 ∗𝑡−1 = 1
𝑠𝑡 = 3 𝑠𝑖 𝑠 ∗𝑡 = 1 𝑦 𝑠 ∗𝑡−1 = 2
𝑠𝑡 = 4 𝑠𝑖 𝑠 ∗𝑡 = 2 𝑦 𝑠 ∗𝑡−1 = 2
Si 𝑝 ∗𝑡𝑗 denota 𝑃{𝑠 ∗𝑡 = 𝑗|𝑠 ∗𝑡−1 = 𝑖}, entonces 𝑠𝑡 sigue una cadena de Markov de cuatro estados
con matriz de transición
𝑝 ∗11 0 𝑝 ∗11 0
𝑝 ∗12 0
𝑃 = [𝑝 ∗12 0
0 𝑝 ∗21 0 𝑝 ∗21 ]
0 𝑝 ∗22 0 𝑝 ∗22

Por lo tanto, [22.1.3] puede ser representado como un caso especial de este marco con 𝑁 = 4, 𝛼 =
(µ1 , µ2 , 𝜙, 𝜎 2 )´ y con [22.4.2] representando las cuatro densidades
1 −(𝑦𝑡 − µ1 )−𝜙(𝑦𝑡−1 − µ1 )2
𝑓(𝑦𝑡 |𝑦𝑡−1 , 𝑠𝑡 = 1; 𝛼) = 𝑒𝑥𝑝 { }
√2𝜋𝜎 2𝜎 2
1 −(𝑦𝑡 − µ2 )−𝜙(𝑦𝑡−1 − µ1 )2
𝑓(𝑦𝑡 |𝑦𝑡−1 , 𝑠𝑡 = 2; 𝛼) = 𝑒𝑥𝑝 { }
√2𝜋𝜎 2𝜎 2
1 −(𝑦𝑡 − µ3 )−𝜙(𝑦𝑡−1 − µ2 )2
𝑓(𝑦𝑡 |𝑦𝑡−1 , 𝑠𝑡 = 3; 𝛼) = 𝑒𝑥𝑝 { }
√2𝜋𝜎 2𝜎 2
1 −(𝑦𝑡 − µ4 )−𝜙(𝑦𝑡−1 − µ2 )2
𝑓(𝑦𝑡 |𝑦𝑡−1 , 𝑠𝑡 = 4; 𝛼) = 𝑒𝑥𝑝 { }
√2𝜋𝜎 2𝜎 2
Se asume que st evoluciona según una cadena de Markov siendo independiente de las obser-
vaciones anteriores de 𝑦𝑡 o actuales o pasadas de 𝑥𝑡 :
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡−1 = 𝑖, 𝑠𝑡−2 = 𝑘, … , 𝑥𝑡 , 𝑌𝑡−1 } = 𝑝{𝑠𝑡 = 𝑗|𝑠𝑡−1 = 𝑖} = 𝑝𝑖𝑗 [22.4.4]

Para las generalizaciones de este supuesto, vea Lam (1990), Durland y McCurdy (1992), Filardo
(1992) y Diebold, Lee y Weinbach (próximamente).
Inferencia optima acerca de regímenes y evaluación de la función de

Verosimilitud
Los parámetros poblacionales que describen una serie de tiempo gobernado por [22.4.2] y [22.4.4]
consisten en α y las diferentes probabilidades de transición 𝑝𝑖𝑗 . Recogen estos parámetros en un
vector 𝜃. Será un objetivo importante estimar el valor de O basado en la observación de 𝑌𝑇 . Sin
embargo dejemos este objetivo en espera por el momento y suponemos que de alguna manera, el
valor de θ de alguna manera se conoce con certeza el analista. Aunque sabemos que el valor de 𝜃,
no sabremos en qué régimen estaba el proceso en cada fecha de la muestra. En su lugar lo mejor
que podemos hacer es formar una Inferencia probabilística que es una generalización de [22.3.7].
En el caso de i.i.d., la inferencia del analista sobre el valor de st depende sólo del valor de YT. En la
clase más general de modelos de series de tiempo describen aquí que la inferencia típicamente
depende de todas las observaciones disponibles.
Dejar 𝑃{𝑠𝑡 = 𝑗|𝑌𝑡 ; 𝜃} denotan la inferencia del analista sobre el valor de 𝑠𝑡 en base a datos
obtenidos a través de los t datos y basada en el conocimiento de la parámetros poblacionales 𝜃.
Esta inferencia toma la forma de una probabilidad condicional que el analista asigna a la posi-
bilidad de que la tth observación fue generada por el régimen j. Recopilar estas probabilidades
condicionales 𝑃{𝑠𝑡 = 𝑗|𝑌𝑡 ; 𝜃} para 𝑗 = 1,2, … , 𝑁 en un vector de (𝑁×1) denotado ξ̂𝑡|𝑡 .
También se podría imaginar formando las previsiones de la probabilidad de que el proceso va a ser
en régimen j en period 𝑡 + 1 dadas las observaciones obtenidas hasta la fecha t. Recoger estas
previsiones en un vector (𝑁×1) dado ξ̂𝑡+1|𝑡 , que es un vector cuyo j elemento representa
𝑃{𝑠𝑡+1 = 𝑗|𝑌𝑡 ; 𝜃}.
La inferencia óptima y la previsión para cada fecha t en la muestra pueden encontrarse iterando
sobre el siguiente par de ecuaciones:
22.4 Modelos de series temporales de cambios en el régimen 713

(ξ̂ ʘ𝑛𝑡 )
ξ̂𝑡|𝑡 = 𝑡|𝑡−1
̂ [22.4.5]
1´(ξ𝑡|𝑡 ʘ𝑛𝑡 )
ξ̂𝑡+1|𝑡 = 𝑃 ∙ ξ̂𝑡|𝑡 [22.4.6]
Aquí 𝑛𝑡 representa el vector (𝑁×1) cuyo j elemento es la densidad condicional en [22.4.2], P

representa la matriz (𝑁×𝑁) de transición definida en [22.2.3], 1 representa un vector (𝑁×1) de 1s,
y el símbolo ʘ denota la multiplicación elemento por elemento. Dado un valor inicial ξ̂1|0 y un
valor asumido para el parámetro poblacional vector 𝜃, uno puede iterar sobre [22.4.5] y [22.4.6]
para 𝑡 = 1,2, … , 𝑇 para calcular los valores de ξ̂𝑡|𝑡 y ξ̂𝑡+1|𝑡 , para cada fecha t en el muestra. La
función de verosimilitud ʆ(𝜃) para los datos observados 𝑦𝑇 evaluada en el valor de 𝜃 que se utilizo
para realizar las iteraciones pueden ser también calculadas como un subproducto de este algoritmo
desde
ʆ(𝜃) = ∑𝑇𝑡−1 𝑙𝑜𝑔𝑓(𝑦𝑡|𝑥𝑡, 𝑌𝑡−1 ; 𝜃) , [22.4.7]
Donde
𝑓(𝑦𝑡 𝑥𝑡, 𝑌𝑡−1 ; 𝜃) = 1′ (𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡 ). [22.4.8]
Ahora explicaremos porque funciona este algoritmo
Derivación de la ecuación [22.4.5] a través de [22.4.8]

Para ver la base para el algoritmo descrito, tenga en cuenta que hemos asumido que 𝑥𝑡 es
exógeno, por que entendemos que 𝑥𝑡 no contiene información sobre 𝑠𝑡 mas allá de que en
Yt−1.
Por lo tanto, el jth elemento de b_t|t−1 también podría ser descrito como
𝑃 {𝑠𝑡 = 𝑗|𝑥𝑡, 𝑌𝑡−1 ; 𝜃}. El jth elemento de nt es 𝑓(𝑦𝑡|𝑠𝑡 = 𝑗, 𝑥𝑡 , 𝑌𝑡−1 ; 𝜃). El jth elemento de el
vector (N ×1) 𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡 es el producto de estas dos magnitudes, cada producto puede ser
interpretado como la distribución de densidad condicional conjunta de 𝑦𝑡 y 𝑠𝑡 :
𝑃 {𝑠𝑡 = 𝑗|𝑥𝑡, 𝑌𝑡−1 ; 𝜃}× 𝑓(𝑦𝑡|𝑠𝑡 = 𝑗, 𝑥𝑡, 𝑌𝑡−1 ; 𝜃)
= 𝑝(𝑦𝑡 , 𝑠𝑡 = 𝑗| 𝑥𝑡, 𝑌𝑡−1 ; 𝜃). [22.4.9]

La densidad del vector observado yt condicionado sobre observaciones pasadas es la suma de los N
magnitudes en [22.4.9] para 𝑗 = 1,2, … , 𝑁. Esta suma puede escribirse en la notación del vector
como
𝑓(𝑦𝑡|, 𝑥𝑡, 𝑌𝑡 − 1; 𝜃 ) = 1′ (𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡 ),
como afirmaba en [22.4.8]. Si la distribución de densidad conjunta en [22.4.9] es dividida por la

densidad de 𝑦𝑡 en [22.4.8], el resultado es la distribución condicional de 𝑠𝑡:
𝑝(𝑦𝑡 , 𝑠𝑡 = 𝑗| 𝑥𝑡, 𝑌𝑡−1 ; 𝜃)

= 𝑃 {𝑠𝑡 = 𝑗|𝑥𝑡, 𝑌𝑡−1 ; 𝜃}
𝑓(𝑦𝑡|, 𝑥𝑡, 𝑌𝑡 − 1; 𝜃 )
𝑃 {𝑠𝑡 = 𝑗| 𝑌𝑡 ; 𝜃}
Por lo tanto de [22.4.8],
𝑝(𝑦𝑡 ,𝑠𝑡 = 𝑗| 𝑥𝑡, 𝑌𝑡−1 ; 𝜃)
𝑃 {𝑠𝑡 = 𝑗|𝑥𝑡, 𝑌𝑡−1 ; 𝜃} = [22.4.10]
1′ (𝜉̂𝑡|𝑡−1 ⊙𝑛𝑡 )

Pero recordar que [22.4.9] que el numerador en la expresión del lado derecho de
[22.4.10] es el jth elemento del vector (𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡 ) mientras que de lado izquierdo de
[22.4.10] es el jth elemento de el vector 𝜉̂𝑡|𝑡 . Así recogiendo las ecuaciones en [22.4.10] para
𝑗 = 1,2, … , 𝑁 en un vector (𝑁×1) produce
𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡
𝜉̂𝑡|𝑡 = ,
1′ (𝜉̂𝑡|𝑡−1 ⊙ 𝑛𝑡 )
como afirmaba en [22.4.5].
Para ver la base de [22.4.6], tener expectativas de [22.2.6] condicionada a 𝑌𝑡 :
𝐸(𝜉𝑡+1 |𝑌𝑡 ) = 𝑃. 𝐸(𝝃|𝑌𝑡 ) + 𝐸(𝑣𝑡+1 |𝑌𝑡 ). [22.4.11]
Note que vt+1 es una ecuación diferencial Martingale con respecto a Yt, para [22.4.11] se convierte
en
𝜉̂𝑡+1|𝑡 = 𝑃. 𝜉̂𝑡|𝑡 , como afirma [22.4.6].
Iniciando el algoritmo
Dado un valor inicial 𝜉̂1|0 se puede utilizar [22.4.5] y [22.4.6] para calcular 𝜉̂𝑡|𝑡 para cualquier t. Hay
varias opciones disponibles para elegir el valor inicial. Un enfoque consiste en establecer 𝜉̂1|0 igual
al vector de probabilidades incondicionales 𝜋 descrito en la ecuación [22.2.26]. Otra opción es
establecer
𝜉̂𝑡|0 = 𝑝, [22.4.12]
donde 𝜌 es vector (N × 1) fijo de constantes no negativas sumando la unidad, tales como 𝜌 = 𝑁 −

1 · 1. Alternativamente, _ podría ser estimado por máxima verosimilitud junto con θ sujeto a la
restricción que 1′ 𝜌 = 1 y 𝜌 ≥ 𝜙 para 𝑗 = 1,2, … , 𝑁.
Pronósticos e inferencias suavizadas para el régimen

Generalizando la notación anterior, sea 𝜉̂𝑡|𝑇 representa al vector (N × 1) cuyo j-ésimo elemento es
𝑃 {𝑠𝑡 = 𝑗| 𝑌𝑇 ; 𝜃}. Para 𝑡 > 𝑇, esto representa una pronóstico sobre el régimen para un período
futuro, mientras que para 𝑡 > 𝑇 representa la inferencia suavizada sobre el régimen del proceso fue
en la fecha t basado en los datos obtenidos a través de una fecha posterior T. El pronóstico optimo
de m periodos en adelante de 𝜉𝑡+𝑚 se puede encontrar adoptando las expectativas de ambos lados
de [22.2.8] condicionada a la información disponible a la fecha t:
𝐸(𝜉𝑡+1 |𝑌𝑡 ) = 𝑃𝑚 . 𝐸(𝝃|𝑌𝑡 )

o
𝜉̂𝑡+𝑚|𝑡 , = 𝑃𝑚 . 𝜉̂𝑡|𝑡 ,
donde 𝜉̂𝑡|𝑡 es calculada desde [22.4.5].
Inferencias suavizadas se pueden calcular utilizando un algoritmo desarrollado por Kim (1993). En
forma vectorial, este algoritmo se puede escribir como

𝜉̂𝑡|𝑇 = 𝜉̂𝑡|𝑡 ⊙ {𝑃′ · [𝜉̂𝑡+1|𝑇 (÷)𝜉̂𝑡+1|𝑇 ]},
donde el signo (÷) denota la división elemento por elemento. Las probabilidades suavizadas 𝜉̂𝑡|𝑇 se
encuentran iterando [22.4.14] hacia atrás para 𝑡 = 𝑇 − 1, 𝑇 − 2, … ,1. Esta iteración se inicia con
𝜉̂𝑇|𝑇 que se obtiene a partir de [22.4.5] para 𝑡 = 𝑇.Este algoritmo sólo es válido cuando st, sigue
una cadena de Markov de primer orden en [22.4.4], cuando la densidad condicional [22.4.2]
depende de 𝑠𝑡 , 𝑠𝑡−1 , … sólo a través del estado actual de 𝑠𝑡 , y cuando 𝑥𝑡 , el vector de variables
explicativas con excepción de los valores rezagados de y, es estrictamente exógeno, lo que significa
que xt es independiente de 𝑠𝑡 para todo 𝑡 𝑦 𝑇. La base para el algoritmo de Kim se explica en el
Apéndice 22.A al final del capítulo.
Pronósticos para variables observadas

Para la densidad condicional [22.4.2] es sencillo pronosticar 𝑦𝑡+1 conociendo las condiciones sobre
𝑦𝑡 , 𝑥𝑡+1 , 𝑠𝑡+1 . Por ejemplo, para el AR(1) la especificación de 𝑦𝑡+1 = 𝑐𝑠𝑡 + 1 + 𝜙𝑠𝑡 + 1𝑦𝑡 +
𝜀𝑡+1 tal pronóstico está dado por
𝐸(𝑦𝑡+1 |𝑠𝑡+1 = 𝑗, 𝑌𝑡 ; 𝜃)𝑐𝑗 + 𝜙𝑗 𝑦𝑗 . [22.4.15]
Hay N diferentes pronósticos asociado con los N posibles valores para 𝑠𝑡+1 . Tenga en cuenta que
el pronóstico incondicional basado en variables observables reales se relaciona con estos
pronósticos condicionales por
𝐸(𝑦𝑡+1 |𝑥𝑡+1 = 𝑗, 𝑌𝑡 ; 𝜃)
= ∫ 𝑦𝑡+1 . 𝑓(𝑦𝑡+1 |𝑥𝑡+1 = 𝑗, 𝑌𝑡 ; 𝜃)𝑑𝑦𝑡+1
= ∫ 𝑦𝑡+1 {∑𝑁
𝑗=1 𝑝(𝑦𝑡+1 , 𝑠𝑡+1 = 𝑗|𝑥𝑡+1 , 𝑌𝑡 ; 𝜃)𝑑𝑦𝑡+1
= ∫ 𝑦𝑡+1 {∑𝑁
𝑗=1[𝑓(𝑦𝑡+1 |𝑠𝑡+1 = 𝑗|𝑥𝑡+1 , 𝑌𝑡 ; 𝜃)𝑃{𝑠𝑡+1 = 𝑗|𝑥𝑡+1 , 𝑌; 𝜃}]}𝑑𝑦𝑡+1
= ∑𝑁
𝑗=1 𝑃{𝑠𝑡+1 = 𝑗|𝑥𝑡+1 𝑌𝑡 ; 𝜃} ∫ 𝑦𝑡+1 . 𝑓(𝑦𝑡+1 |𝑠𝑡+1 = 𝑗, 𝑥𝑡+1 , 𝑌𝑡 ; 𝜃) 𝑑𝑦𝑡+1
= ∑𝑁
𝑗=1 𝑃{𝑠𝑡+1 = 𝑗|𝑌𝑡 ; 𝜃} 𝐸(𝑦𝑡+1 |𝑠𝑡+1 = 𝑗, 𝑥𝑡+1 , 𝑌𝑡 ; 𝜃).
Así, la Predicción apropiada para el j-ésimo régimen es simplemente multiplicar por la probabilidad
de que el proceso será en el régimen j-ésimo, y los 𝑁 diferentes productos resultantes se suman. Por
ejemplo, si el 𝑗 = 1,2, … , 𝑁 predice en [22.4.15] son recogidos en un vector h0t de (1×𝑁), luego
𝐸(𝑦𝑡+1 |𝑌𝑡 ; 𝜃) = ℎ𝑡′ 𝜉̂𝑡+1|𝑡 ′
Tenga en cuenta que aunque la propia cadena de Markov admite la representación lineal [22.2.6], el
pronóstico óptimo de 𝑦𝑡+1 es una función no lineal observable, desde la inferencia 𝜉̂𝑡|𝑡 en [22.4.5]
depende no linealmente de 𝑌𝑡 . Aunque se puede utilizar un modelo lineal para formar predicciones
dentro de un régimen dado, si una observación parece poco probable que han sido generados por el
mismo régimen que las observaciones anteriores, la aparición del valor extremo hace que el analista
para cambiar a una nueva regla para la formación de futuros pronósticos lineales.
La cadena de Markov es claramente adecuada para la formación de predicciones de múltiples

periodos. Ver el Hamilton (1989, 1993b, 199c3) para la discusión adicional.

Estimación de parámetros por Máxima Verosimilitud
En la iteración sobre [2.4.5] y [22.4.6], el vector de parámetros 𝜃 se tomó como un vector fijo
conocido. Una vez concluida la iteración para 𝑡 = 1,2, … , 𝑇 para un determinado 𝜃 fijo, el valor de
de log verosimilitud implicada por el valor de 𝜃 se conoce de [22.4.7]. El valor de 𝜃 que maximiza
la log verosimilitud puede encontrarse numéricamente usando los métodos descrito sección 5.7.
Si las probabilidades de transición están restringidas sólo por las condiciones que 𝜌𝑖𝑗 ≥ 0 y
(𝜌𝑖1 + 𝜌𝑖2 + ⋯ + 𝜌𝑖𝑁 ) = 1 para todo i y j, y si la probabilidad inicial 𝜉̂1|0 se toma como un valor
fijo de 𝜌 no relacionado con los otros parámetros, a continuación, se muestra en Hamilton (1990)
que satisfacen a las estimaciones de máxima verosimilitud para las probabilidades de transición.
∑𝑇 ̂
𝑡=2 𝑃{𝑠𝑡 =𝑗,𝑠𝑡−1 =𝑖|𝑌𝑇 ,𝜃}
𝜌̂𝑖𝑗 = 𝑇 ̂
∑𝑡=2 𝑃{𝑠𝑡−1 =𝑖|𝑌𝑇 ,𝜃}
, [22.4.16]
donde 𝜃 denota el vector completo de las estimaciones de máxima verosimilitud. Por lo tanto, la
probabilidad de transición estimada 𝜌̂𝑖𝑗 es esencialmente el número de veces de estado i parece
haber sido seguido por el estado j dividido por el número de veces que el proceso fue en el estado i.
Estos conteos se calculan sobre la base de las probabilidades suavizadas.
Si el vector de probabilidades iniciales 𝜌 es considerado como un vector independiente de

parámetros limitados sólo por 1′ 𝜌 = 1 y 𝜌 ≥ 0 , que la estimación de máxima verosimilitud de 𝜌
resulta ser la inferencia suavizada sobre el estado inicial:
𝜌̂ = 𝜉̂1|𝑇 . [22.4.17]
La estimación de máxima verosimilitud del vector α que gobierna la densidad condicional [22.4.2] se
caracteriza por
𝜕𝑙𝑜𝑔𝑛𝑡 ′
∑𝑇𝑡=1( ) 𝜉̂𝑡|𝑇 =0 [22.4.18]
𝜕𝛼 ′
Aquí _t es el vector (N × 1) obtenido verticalmente apilando las densidades en [22.4.2] para 𝑗 =

1,2, … , 𝑁 y (𝜕𝑙𝑜𝑔𝑛𝑡 )/(𝜕𝛼′ ) es la matriz (𝑁×𝑘) de derivadas de los logaritmos de esas
densidades, donde k representa el numero de parámetros en α. Por ejemplo considere un modelo
de regresión de Markov conmutada de la forma
𝑦𝑡 = 𝑧𝑡′ 𝛽𝑠𝑡 + 𝜀𝑡 ,
donde 𝜀𝑡 i.i.d.N(0, 𝜎 2 ) y donde zt es un vector de variables explicativas que podría incluir valores
rezagados de y. El El vector de coeficientes de esta regresión es 𝛽1 cuando el proceso es un
régimen 1, 𝛽2 cuando el proceso es un régimen 2,etc.
Por ejemplo, el vector 𝑛𝑡 puede ser
1 −(𝑦𝑡 − 𝑧𝑡′ 𝛽1 )2
exp{
√2𝜋𝜎 2𝜎 2
𝑛𝑡 = ⋮
1 −(𝑦𝑡 − 𝑧𝑡′ 𝛽𝑁 )2
exp{
[√2𝜋𝜎 2𝜎 2 ]
y para α= (𝛽1′ , 𝛽2′ ,..., 𝛽3′ , 𝜎 2 )′ la condición [22.4.18] se convierte en
∑𝑁 ′ ̂ 2 ̂
𝑗=1(𝑦𝑡 − 𝑧𝑡 𝛽𝑡 ) 𝑧𝑡 . 𝑃{𝑠𝑡 = 𝑗|𝑌𝑇 , 𝜃 } = 0 𝑝𝑎𝑟𝑎 𝑗 = 1, 2, … 𝑁 [22.4.20]

′ ̂ 2 ̂
𝜎̂ 2 = 𝑇 −1 ∑𝑇𝑡=1 ∑𝑁
𝑗=1(𝑦𝑡 − 𝑧𝑡 𝛽𝑡 ) 𝑧𝑡 . 𝑃{𝑠𝑡 = 𝑗|𝑌𝑇 , 𝜃 } [22.4.21]
La ecuación [22.4.20] describe 𝛽̂𝑗 como la satisfacción de un MCO ponderando la condición de

ortogonalidad donde cada observación es ponderado por la probabilidad de que se trataba del
régimen j. En particular, la estimación 𝛽̂𝑗 puede ser encontrada desde la regresión de MCO de 𝑦̅𝑡(𝑗)
sobre 𝑧̃𝑡 (𝑗):
𝛽̂𝑗 = [∑𝑇𝑡=1[𝑧̃𝑡 (𝑗)][𝑧̃𝑡 (𝑗)]′]−1 [∑𝑇𝑡=1[𝑧̃𝑡 (𝑗)][𝑦̅𝑡(𝑗)], [22.4.22]
donde
𝑦̅𝑡 (𝑗) = 𝑦𝑡 ∙ √𝑃{𝑠𝑡 = 𝑗|𝑌𝑇 ; 𝜃̂} [22.4.23]
1
La estimación de σ2 en [22.4.21] es sólo veces la suma combinada de los residuos al cuadrado de
𝑇
estos N diferentes regresiones.
Una vez más, esto sugiere un algoritmo atractivo para encontrar estimaciones de máxima
verosimilitud. Para el caso cuando 𝑝 se fija apriori, dada una estimación inicial para el vector de
parámetros 𝜃 (0) uno puede evaluar [22.4.16], [22.4.22] y [22.4.21] para generar una nueva
estimación 𝜃 (1) . Uno entonces itera de la misma manera que se describen en las ecuaciones [22.3.8]
a través de [22.3.10] para calcular 𝜃 (2) , 𝜃 (3),… Esto convierte de nuevo a ser una aplicación del
algoritmo EM. Alternativamente, si 𝑝 es estimado por máxima verosimilitud, la ecuación [22.4.17] se
sumaría a las ecuaciones que se vuelven a evaluar en cada iteración. Ver Hamilton (1990) para obtener más
información.
Ilustración: El comportamiento de PBI real de EE.UU.

Como ilustración de este método, tenga en cuenta los datos de los Estados Unidos el crecimiento
del PBI real analizado en el Hamilton (1989). Estos datos se representan en el panel inferior de la
figura 22.4. El modelo de cambio siguiente se ajustó a estos datos por máxima verosimilitud:
𝑃𝑦𝑡 − 𝜇𝑠∗𝑖 = 𝜙1 (𝑦𝑡−1 − 𝜇𝑠∗𝑡−1 ) + 𝜙2 (𝑦𝑡−2 − 𝜇𝑠∗𝑡−2 )
+𝜙3 (𝑦𝑡−3 − 𝜇𝑠∗𝑡−3 ) + +𝜙4 (𝑦𝑡−4 − 𝜇𝑠∗𝑡−4 ) + 𝜀𝑡
con εt ∼ i.i.d.N (0, 𝜎 2 ) y con 𝑠 ∗𝑡 presume que seguir una cadena de Markov de dos estados con
probabilidades de transición p∗ij . Estimaciones de máxima verosimilitud de los parámetros se
presentan en la Tabla 22.1. En el régimen representado por 𝑠 ∗𝑡 = 1 la tasa de crecimiento
promedio es de 𝜇1 = 1,2 por trimestre, mientras que cuando 𝑠 ∗𝑡 = 2 la tasa de crecimiento
promedio es de 𝜇2 = −0,4%. Cada Régimen es muy persistente. La probabilidad de que la
expansión será seguido de otro trimestre de expansión es 𝑝 ∗11 = 0,9, por lo que este régimen se
mantendrá en promedio para 1/(1 − 𝑝 ∗11 ) = 10 trimestres. La probabilidad de que una
contracción será seguido por contracción es 𝑝 ∗22 = 0,75, episodios que típicamente persistir
durante 1/(1 − 𝑝 ∗22 ) = 4 trimestres.

(a) La probabilidad de que la economía se encuentra en estado de contracción, o 𝑃{𝑠 ∗𝑡 =
2|𝑦𝑡 , 𝑦𝑡−1 , … , 𝑦𝑡−4 ; 𝜃̂} representará gráficamente como una función de t.
(b) Tasa trimestral de crecimiento del PBI real de Estados Unidos, 1952-1984.
FIGURA 22.4 Crecimiento de la producción y las probabilidades de recesión.
Escrito en orden [22.4.24] en una forma donde yt depende solo del valor actual de un
régimen, una variable st se definió que se lleva en uno de los 32 valores diferentes que representan a
los 32 posibles combinaciones para 𝑠 ∗𝑡 , 𝑠 ∗𝑡−1 , … , 𝑠 ∗𝑡−4 , Por ejemplo, 𝑠𝑡 = 1 cuando
𝑠 ∗𝑡 , 𝑠 ∗𝑡−1 , … , 𝑠 ∗𝑡−4 todos igual a 1, etc. El vector ξ̂𝑡|𝑡 calculado desde [22.4.5] es pues, un vector
(32 × 1) que contiene las probabilidades de cada uno de estos 32 eventos conjuntos condicionales
en los datos observados a través de la fecha t.
La inferencia acerca del valor de 𝑠 ∗𝑡 para una fecha única t se obtiene sumando juntos las
probabilidades conjuntas pertinentes. Por ejemplo, la inferencia
𝑃{𝑠 ∗𝑡 = 2|𝑦𝑡 , 𝑦𝑡−1 , … , 𝑦𝑡−4 ; 𝜃̂}
= ∑2𝑖1 =1 ∑2𝑖2 =1 ∑2𝑖3 =1 ∑2𝑖4 =1 𝑃{𝑠 ∗𝑡 = 2, 𝑠 ∗𝑡−1 = 𝑖1 , 𝑠 ∗𝑡−2 = 𝑖2 ,

𝑠 ∗𝑡−3 = 𝑖3 , 𝑠 ∗𝑡−4 = 𝑖4 |𝑦𝑡 , 𝑦𝑡−1 , … , 𝑦𝑡−4 ; 𝜃̂}
es obtenido por iteración sobre [22.4.5] y [22.4.6] con θ igual a la estimación de máxima
verosimilitud θˆ. Entonces se resume en conjunto los elementos en las filas de número par de ξˆt|t
para obtener P {s∗t = 2|yt, yt−1, ..., y−4}.
Una inferencia probabilística en forma de [22.4.25] puede ser calculada por cada fecha t en la
muestra. La serie resultante se representa como una función de t en el panel (a) de la figura 22.4.
Las líneas verticales en la figura indican las fechas en las recesiones estaban decididos a comenzar y
terminar de acuerdo a la Oficina Nacional de Investigación Económica.Estas determinaciones se
realizan de manera informal sobre la base de un gran número de series de tiempo y por lo general se
hacen un poco de tiempo después del evento. Aunque estas fechas del ciclo económico no se
utilizaron en forma alguna para estimar parámetros o forma de inferencias acerca de s∗t, es
interesante que las fechas tradicionales del ciclo económico se corresponden muy de cerca a las
fases de expansión y contracción según lo descrito por el modelo en [22.04.24].
Determinación del número de estados

Una de las hipótesis más importantes que uno quiere probar para tales modelos se refiere al
número de diferentes regímenes de N que caracterizan a los datos. Por desgracia, esta hipótesis no
puede ser probada mediante la prueba habitual de razón de verosimilitud. Una de las condiciones
de regularidad para la prueba de razón de verosimilitud para tener una distribución asintótica x2 es
que la matriz de información es no singular. Esta condición no lleva a cabo si el analista intenta
encajar un modelo de N estado cuando el verdadero proceso tiene N – 1 estados, ya que bajo la
hipótesis nula de los parámetros que describen el estado enésimo están sin identificar.Los exámenes
que se reciben en torno a los problemas con las condiciones de regularidad han sido propuestas
por Davies A977), Hansen A993), Andrews y Ploberger A992) y Stinchcombe y Negro A993). Otro
enfoque es tomar el (N - l) Modelos de Estado como nula y llevar a cabo una variedad de pruebas
de la validez de esa especificación como una forma de ver si se necesita un modelo de N Estado;
Hamilton (1993a) propuso una serie de este tipo de pruebas. Estudios que ilustran el uso de tales
pruebas incluyen Engel y Hamilton(1990), Hansen (1992), y Goodwin (1993).
APÉNDICE 22.A Derivación de las ecuaciones selec-

cionadas para el Capítulo 22
 Derivación de [22.3.8] a [22.3.10]. Las estimaciones de máxima verosimilitud se obtienen
formando el lagrangiano.
𝐽(𝜃) = 𝐿(𝜃) + 𝜆(1 − 𝜋1 − 𝜋2 − ⋯ − 𝜋𝑁 ) [22.A.1]
Y la derivada respecto de 𝜃 igual a cero. De [22.3.6], la derivada de log verosimilitud viene dada por
𝑇
𝜕𝐿(𝜃) 1 𝜕𝑓(𝑦𝑡 ; 𝜃)
=∑ ×
𝜕𝜃 𝑓(𝑦𝑡 ; 𝜃) 𝜕𝜃
𝑖=1
[22.A.2]
observe de [22.3.5] que
2
𝜕𝑓(𝑦𝑡 ; 𝜃) 1 −(𝑦𝑡 − 𝜇𝑗 )
= 𝑒𝑥𝑝 { }
𝜕𝜋𝑗 √2𝜋𝜎𝑗 2𝜎 2𝑗
= 𝑓(𝑦𝑡 ; 𝑠𝑡 = 𝑗, 𝜃), [22.A.3]

al mismo tiempo
𝜕𝑓(𝑦𝑡 ; 𝜃) 𝑦𝑡 − 𝜇𝑡
= ×𝑝(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃)
𝜕𝜇𝑗 𝜎 2𝑗
[22.A.4]
Y
2
𝜕𝑓(𝑦𝑡 ; 𝜃) 1 (𝑦𝑡 − 𝜇𝑗 )
2
= {− 𝜎 −2𝑗 + } ×𝑝(𝑦𝑡 , 𝑠𝑡 = 𝑗; 𝜃)
𝜕𝜎 𝑗 2 2𝜎 4𝑗
[22.A.5]
Por lo tanto, [22.A.2] se convierte en

𝑇
𝜕𝐿(𝜃) 1
=∑ 𝑓(𝑦𝑡 |𝑠𝑡 = 𝑗; 𝜃)
𝜕𝜋𝑗 𝑓(𝑦𝑡 ; 𝜃)
𝑡=1
[22.A.6]
𝑇
𝜕𝐿(𝜃) 1 𝑦𝑡 − 𝜇𝑗
=∑ × 𝑝(𝑦𝑡 |𝑠𝑡 = 𝑗; 𝜃)
𝜕𝜇𝑗 𝑓(𝑦𝑡 ; 𝜃) 𝜎 2𝑗
𝑡=1
[22.A.7]
𝑇 2
𝜕𝐿(𝜃) 1 1 (𝑦𝑡 − 𝜇𝑗 )
=∑ {− 𝜎 −2𝑗 + } 𝑝(𝑦𝑡 |𝑠𝑡 = 𝑗; 𝜃)
𝜕𝜎𝑗 𝑓(𝑦𝑡 ; 𝜃) 2 2𝜎 4𝑗
𝑡=1
[22.A.8]
Recordando [22.3.7], los derivados de [22.A.6] a [22.A.8] se puede escribir

𝑇
𝜕𝐿(𝜃)
= 𝜋𝑗 −1 ∑ 𝑃(𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃)
𝜕𝜋𝑗
𝑡=1
[22.A.9]
𝑇
𝜕𝐿(𝜃) 𝑦𝑡 − 𝜇𝑗
=∑ 𝑝 (𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃)
𝜕𝜇𝑗 𝜎 2𝑗
𝑡=1
[22.A.10]
𝑇 2
𝜕𝐿(𝜃) 1 (𝑦𝑡 − 𝜇𝑗 )
= ∑ {− 𝜎 −2𝑗 + } 𝑃(𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃)
𝜕𝜎𝑗 2 2𝜎 4𝑗
𝑡=1
j
[22.A.11]
Ajuste de la derivada del lagrangiano en [22.A.1] con respecto a µj igual a cero significa establecer
[22.A.10] igual a cero, de la que
𝑇 𝑇
∑ 𝑦𝑡 ∙ 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} = 𝜇𝑗 ∑ 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃}

𝑡=1 𝑡=1
La ecuación [22.3.8] sigue inmediatamente de esta condición. Del mismo modo, las condiciones de
primer orden para la maximización con respecto a 𝜎𝑗 2 se encuentran ajustando [22.A.11] igual a
cero:
Apéndice 22.A. Derivación de las Ecuaciones Seleccionadas para el capítulo 22 721

𝑇
2
∑ {−𝜎𝑗 2 + (𝑦𝑡 − 𝜇𝑗 ) } 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} = 0 ,
𝑡=1
de la que [22.3.9] sigue. Finalmente, a partir de [22.A.9], el derivado de [22.A.1] con respecto a πj
está dada por
𝜕𝐽(𝜃)
= 𝜋𝐽 −1 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} − 𝜆 = 0,
𝜕𝜋𝑗
de los cuales
𝑇
∑ 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 ; 𝜃} = 𝜆𝜋𝑗 .

𝑡=1
[22.A.12]
Resumiendo [22.A.12] sobre 𝑗 = 1,2, … , 𝑁 produce

𝑇
∑[𝑃{𝑠𝑡 = 1|𝑦𝑡 ; 𝜃}] = 𝜆(𝜋1 + 𝜋2 + ⋯ + 𝜋𝑁 )

𝑡=1
o
𝑇
∑{1} = 𝜆 ∙ (1),
𝑡=1
lo que implica que T = λ. Reemplazar λ con T en [22.A.12] produce [22.3.10].
 Derivación de [22.4.14]. Recordemos primero que bajo los supuestos mantenidos, el régimen st
depende de observaciones pasadas 𝑌𝑡−1 sólo a través del valor de st−1. Similarmente, st depende de
las observaciones futuras sólo a través del valor de 𝑠𝑡+1:
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝔜𝑇 ; 𝜃} = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝔜𝑇 ; 𝜃} [22.A.13]
La validez de [22.A.13] se estableció formalmente como sigue (la dependencia implícita en θ será
suprimido para simplificar la notación). Observe que
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝔜𝑡+1 }
= 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡+1 , 𝑥𝑡+1 , 𝔜𝑡 }

𝑝(𝑦𝑡+1,𝑠𝑡 =𝑗|𝑠𝑡+1 =𝑖,𝑥𝑡+1 ,𝔜𝑡 )
= [22.A.14]
𝑓(𝑦𝑡+1,𝑠𝑡+1 =𝑖,𝑥𝑡+1 ,𝔜𝑡 )
𝑝(𝑦𝑡+1 , 𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑥𝑡+1 , 𝔜𝑡 ) ∙ 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑥𝑡+1 , 𝔜𝑡 }

=
𝑓(𝑦𝑡+1 , 𝑠𝑡+1 = 𝑖, 𝑥𝑡+1 , 𝔜𝑡 )
lo que simplifica a
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝔜𝑡+1 } = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑥𝑡+1 , 𝔜𝑡 } [22.A.15]
siempre que
𝑝(𝑦𝑡+1 |𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+1 , 𝔜𝑡 ) = 𝑓(𝑦𝑡+1 |𝑠𝑡+1, 𝔜𝑡 ) [22.A.16]

que es de hecho el caso, ya que la especificación supone que yt+1 depende de {st+1, st, ...} sólo a
través del valor actual st+1. Desde x es exógena, [22.A.15] implica, además, que
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝔜𝑡+1 } = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝔜𝑡 } [22.A.17]
Por razonamiento similar, debe ser el caso de que
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝔜𝑡+2 }
= 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡+2 , 𝑥𝑡+2 , 𝔜𝑡+1 }

𝑝(𝑦𝑡+2 , 𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 )
=
𝑓(𝑦𝑡+2 , 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 )
𝑝(𝑦𝑡+2 |𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 ) ∙ 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 }
=
𝑓(𝑦𝑡+2 , 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 )
lo que simplifica a
= 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡+2 } = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 } [22.A.18]
siempre que
𝑝(𝑦𝑡+2 |𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 ) = 𝑓(𝑦𝑡+2 |𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 ) [22.A.19]
En este caso, se establece [22.A.19] del hecho de que
𝑓(𝑦𝑡+2 |𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 )

𝑁
= ∑ 𝑝 (𝑦𝑡+2 , 𝑠𝑡+2 = 𝑘|𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 )

𝑘=1
= ∑[𝑓(𝑦𝑡+2 |𝑠𝑡+2 𝑘, 𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 )

𝑘=1
×𝑃{𝑠𝑡+2 = 𝑘|𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 }]

𝑁
= ∑[𝑓(𝑦𝑡+2 |𝑠𝑡+2 = 𝑘, 𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 )

𝑘=1
×𝑃{𝑠𝑡+2 = 𝑘|𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 }]
𝑓(𝑦𝑡+2 |𝑠𝑡+1 = 𝑖, 𝑥𝑡+2 , 𝔜𝑡+1 ).

Una vez más, la exogeneidad de x significa que [22.A.18] se puede escribir
𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡+2 } = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡+1 } = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡 },

donde la última igualdad se sigue de [22.A.17]. Procediendo de forma inductiva, el mismo
argumento puede ser utilizado para establecer que
Apéndice 22.A. Derivación de las Ecuaciones Seleccionadas para el capítulo 22 723

𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡+𝑚 } = 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡 }
para m = 1, 2, ..., de la que [22.A.13] sigue.
Note lo siguiente
𝑃{𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖|𝑦𝑡 }

𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖, 𝑦𝑡 } =
𝑃{𝑠𝑡+1 = 𝑖|𝑦𝑡 }
𝑃{𝑠𝑡 =𝑗|𝑦𝑡 }∙𝑃{𝑠𝑡+1 =𝑖|𝑠𝑡 =𝑗}
= 𝑃{𝑠𝑡+1 =𝑖|𝑦𝑡 }
[22.A.20]
𝑃𝑗𝑖 ∙𝑃{𝑠𝑡 =𝑗|𝑦𝑡 }

= .
𝑃{𝑠𝑡+1 =𝑖|𝑦𝑡 }
Por lo tanto, es el caso que
𝑃{𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖|𝔜𝑇 } = 𝑃{𝑠𝑡+1 = 𝑖|𝑦𝑇 } ∙ 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖|𝑦𝑇 }
= 𝑃{𝑠𝑡+1 = 𝑖|𝑦𝑇 } ∙ 𝑃{𝑠𝑡 = 𝑗|𝑠𝑡+1 = 𝑖|𝑦𝑡 } [22.A.21]

𝑃𝑗𝑖 ∙ 𝑃{𝑠𝑡 = 𝑗|𝑦𝑡 }
= 𝑃{𝑠𝑡+1 = 𝑖|𝑦𝑇 }
𝑃{𝑠𝑡+1 = 𝑖|𝑦𝑡 }
Donde la siguiente ecuación sigue de [22.A.13] y el primero sigue de [22.A.20].
La inferencia suavisada para la fecha t es la suma de [22.A.21] sobre i = 1, 2, ..., N :

𝑁
𝑃{𝑠𝑡 = 𝑗|𝑦𝑇 } = ∑ 𝑃{𝑠𝑡 = 𝑗, 𝑠𝑡+1 = 𝑖|𝔜𝑡 }

𝑖=1
𝑃𝑗𝑖 ∙𝑃{𝑠𝑡 =𝑗|𝔜𝑡 }

= ∑𝑁
𝑖=1 𝑃{𝑠𝑡+1 = 𝑖|𝔜𝑡 } 𝑃{𝑠𝑡+1 =𝑖|𝔜𝑡 }
𝑃𝑗𝑖 ∙𝑃{𝑠𝑡 =𝑗|𝔜𝑇 }

= 𝑃{𝑠𝑡 = 𝑗|𝔜𝑡 } ∑𝑁
𝑖=1 𝑃{𝑠𝑡+1 =𝑖|𝔜𝑡 }
= 𝑃{𝑠𝑡 = 𝑗|𝔜𝑡 }[𝑝𝑗1 , 𝑝𝑗2 , … , 𝑝𝑗𝑁 ] [22.A.22]
𝑃{𝑠𝑡+1 = 1|𝔜𝑡 }/𝑃{𝑠𝑡+1 = 1|𝔜𝑡 }

}/𝑃{𝑠𝑡+1 = 2|𝔜𝑡 }
𝑃× [ 𝑃{𝑠𝑡+1 = 2|𝔜𝑡 ]
⋮
𝑃{𝑠𝑡+1 = 𝑁|𝔜𝑡 }/𝑃{𝑠𝑡+1 = 𝑁|𝔜𝑡 }
= 𝑃{𝑠𝑡 = 𝑗|𝔜𝑡 }𝑝´𝑗 (𝜉̂𝑡+1|𝑇 (÷)𝜉̂𝑡+1|𝑡 ),
donde el vector 𝑃𝑗 𝑡 de (1 × N ) denota la fila j-ésima de la matriz 𝑃´ y el signo (÷) indica la división
elemento por elemento. Cuanto la ecuación representada por [22.A.22] para j = 1, 2, ..., N se
recogen en un vector de (N × 1), el resultado es
𝜉̂𝑡|𝑇 = 𝜉̂𝑡|𝑡 ʘ{𝑃´(𝜉̂𝑡+1|𝑇 (÷)𝜉̂𝑡+1|𝑡 )},
como se reivindica.

Capitulo 22 Ejercicios
22.1. Sea 𝑠𝑡 descrito por un ergódico de dos estados de la cadena de Markov con matriz de
transición P dada por [22.2.11]. Compruebe que la matriz de vectores propios de esta matriz está
dada por
(1 − 𝑝22 )/(2 − 𝑝11 − 𝑝22 ) −1

𝑇=[ ]
(1 − 𝑝11 )/(2 − 𝑝11 − 𝑝22 ) 1
con inversa
1 1
𝑇 −1 = [ ]
−(1 − 𝑝11 )/(2 − 𝑝11 − 𝑝22 ) (1 − 𝑝22 )/(2 − 𝑝11 − 𝑝22 )
Andrews, Donald W.K., y Werner Ploberger. 1992. Pruebas Öptimal cuando una molestia el
Parametro está presente sólo en el marco de la Alternativa.Ÿale Universidad. Mimeografiado.
Cox, D.R., y H.D. Miller. 1965. La Teoría de procesos estocásticos.Londres: Methuen.
Davies, R.B.1977.H¨ ypothesis prueba cuando una molestia parámetro está presente sólo en
el alternativas iometrika.B¨¨64:247-54.
Dempster, A.P.,N.M. Laird, y D.B. Rubin.1977. M¨ áximo probabilidad de
InIncomplete datos mediante el algoritmo EM.öficial de la Real Sociedad de Estadística Serie B,
39:1-38.
Diebold, Francis X., Joon-Haeng Lee y Gretchen C. Weinbach. Próxima. Rëgime conmutar
con probabilidades de transición,en Tiempo-Variando C. Hargreaves, ed., Nonstationary análisis de
series de tiempo y de cointegración. Oxford: Oxford University Press.
Durland, J. Michael y Thomas H. McCurdy.1992.M¨ odelling duración la dependencia de datos
cíclicos
Mediante un proceso Semi-Markovrestringido.Q¨ ueen's University, en Kingston, Ontario.
Mimeografiado.
Engel, Charles y James D. Hamilton. 1990. Löng vaivenes del dólar: Están en los datos y hacer los
mercados lo saben?Ämerican Economic Review 80:689-713.
Everitt, B. S., y D. J. Mano. 1981. Mezcla finita distribuciones. Londres: Chapman y Hall. Filardo,
Andrew J. 1992. B¨ Ciclo usiness Phasesand su dinámica transitoria.fëderal Reserve Bank of
Kansas City. Mimeografiado.
Goodwin, Thomas H. 1993. B¨ usiness análisis del ciclo con un modelo Markov-
Switching.öficial de bu-
Siness y estadísticas económicas 11:331-39.
James D. Hamilton, 1989. Ä nuevo enfoque para el análisis económico de Nonstationary y series de
tiempo del ciclo de negocio.Ëconometrica57:357-84.
--.1990. “Analysis en series de tiempo sujeto a cambios de regimen.”
oficial de EconEconometrics
45:39-70.
--.1991. “A Quasi-Bayesian Approachto estimar parámetros para mezclas de NorNormalDistri-
butions.” oficial de negocios y EconomicStatistics 9:27-39.
--.1993a. “Markov-Switching epecificacion de pruebas en modelos de series de tiempo.”
University de California, en San Diego. Mimeografiado.
--.1993b. Estimación, inferencia y predicción de series temporales sujetas a cambios de régimen,m¨
G. S. Maddala, 320 241R. Rao, y H. D. Vinod, eds., Handbook of Statistics, Vol 11. Nueva York:
North-Holland.
--.1993c. State-SpaceModels,ïn Robert Engle y Daniel McFadden, eds., mano-bookn de Econo-
Métricas, vol 4. Nueva York: North-Holland.

Hansen, Bruce E. 1992. T¨ él Likelihood ratio Test bajo condiciones no
estándar:TestTestingthe Markov modelo de conmutación del PNB.¨Journal of Applied
Econometrics7:S61-82.
--.1993. Cuando un parámetro Ïnference molestia no está identificado bajo la hipótesis
nula.Üniversity de Rochester. Mimeografiado.
Kiefer, Nicholas M. 1978.D¨ iscrete Variación de parámetros: Estimación eficiente de una
conmutación Regres-
Sion Ëconometrica modelo. 46:427-34.
Kim, Chang-Jin. 1993. ¨ D ynamic modelos lineales con Markov-Switching.öficial de Econometría,
próxima.
Lam, Pok-sang. 1990. T¨ que Hamilton modelo con un componente autoregresivo General:
estimación y comparación con otros modelos de series de tiempo económicas.öficial de Economía
Monetaria26:409- 32.
Rogers, John H. 1992. T¨ él sustitución monetaria hipótesis y en relación a la demanda de dinero en
México
Y Canadá.öficial de dinero, crédito y banca 24:300-18.
Stinchcombe, Maxwell y Halbert White, 1993. Enfoque Än Especificación coherente las pruebas
utilizando la dualidad y la teoría Límite de Banach.Üniversity de California, en San Diego.
Mimeografiado.
Titterington, D. M., A. F. M. Smith, y U. E. Makov. 1985. Análisis estadístico de las distribuciones
mezcla finita. New York: Wiley.

A
Revisiones matemáticas
Este libro asume alguna familiaridad con elementos trigonométricos, números complejos, cálculos,
álgebra matricial y probabilidad. Instrucciones a los tres primeros temas por Chiang (1974) y
Thomas (1972) son adecuadas: Marsden (1974) trataron estos temas con mayor profundidad. No se
requiere de algebra matricial más allá del nivel de textos de econometría estándar como Theil
(1971) o Johnston (1984); para tratamientos más detallados ver a O” Nan (1976), Strang (1976) y
Magnus y Neudecker (1988).Los conceptos de probabilidad y etadistica de textos de econometría
estándar también son suficientes para obtener este libro; para presentaciones más completas ver
Lindgren (1976) y Hoel “Puerto y piedra” (1971).
Este apéndice revisa los conceptos y resultados matemáticos necesarios. El lector familiarizado con
estos temas está invitado a omitir este material o consultar las subpartidas para la cobertura
deseada.
A.1. Trigonometría
Definición
La figura A.1 muestra un círculo con un radio centrado en el origen (x,y) y espacio.
Denote (xₒ, yₒ) un punto en ese círculo unitario y considere el ángulo entre este punto y el eje
x. El seno de ɵ se define como la coordenada del punto y; y el coseno es la coordenada:
𝑠𝑒𝑛 (ɵ) = 𝑦ₒ [A.1.1]
cos(ɵ) = 𝑥ₒ [A.1.2]
Este texto siempre mide ángulos en radianes. La medida radiana del ángulo 𝜃 se define
como la distancia recorrida en sentido contrario a las agujas del reloj a lo largo del círculo
unitario que comienza en el eje x antes de alcanzar (xₒ, yₒ).
La circunferencia de un círculo con un radio de unidad es 2𝜋. Una rotación de un cuarto
del recorrido alrededor del círculo unitario correspondería, por lo tanto, a una medida de
radian de
1
𝜃 = (2𝜋) = 𝜋/2
4
𝜋
Un ángulo cuya medida de radian es 2 es más comúnmente descrito como un ángulo recto o un
𝜋
ángulo de 90°. Un ángulo de 45° tiene una medida de radian de 4 , un ángulo de 180°tiene una
medida de radian de 𝜋, y así sucesivamente.
A.1. Trigonometría 727

Coordenadas polares
Considere un triángulo más pequeño, digamos, el triángulo con vértice (xₒ, yₒ) mostrado en la
figura A.1 que comparte el mismo ángulo 𝜃 que el triángulo original con el vértice
(xₒ, yₒ)(xₒ, yₒ)

1
C1
(ᵡ₁, ʸ₁)
𝜃
X₀ Y0
Y₁
₀
𝜃 x
c
ᵡ₁
X0
FIGURA A.1 Funciones trigonométricas como distancias en (xₒ, yₒ) - espacio
(xₒ, yₒ)La radio de cualquiera de los dos lados de un triángulo menor será la misma que
para el triángulo más grande:
ʸ₁ [A.1.3]
⁄ 1
𝐶 = ʸ˳⁄1
ᵡ₁ [A.1.4]
⁄ 1
𝐶 = ᵡ˳⁄1
Comparando [A.1.3] con [A. 1.1], la coordenada ʸ de cualquier punto tal como (ᵡ₁, ʸ₁)en (𝑥, 𝑦)
espacio puede expresarse como:
728 Revisiones Matemáticas

y₁ = c₁. 𝑠𝑖𝑛(ɵ) [A.1.5]
Donde C₁ es la distancia desde el origen a (x₁, y₁) y 𝜃 es el ángulo que hace el punto (x₁, y₁) con el
eje x. Comparando [A.1.4] con [A.1.2], la coordenada x de (x₁, y₁) puede expresarse como:
X₁ = c₁. Cos (ɵ) [A.1.6]
Recuerde además que la magnitud c₁, que representa la distancia del origen al punto (x₁, y₁), es
dado por la fórmula:
C₁ = √𝑥₁2 + 𝑦₁2 [A.1.7]
Tomando un punto en (x, y) y escribiéndole como (c.cos (ɵ), c.sin (ɵ)) se llama describir
el punto en los términos de sus coordenadas polares c y ɵ.
Propiedades de las funciones seno y coseno
Las funciones sen (ɵ) y cos (ɵ) se denominan funciones trigonométricas o sinusoidales. Vista
como una función de ɵ, la función seno comienza en cero:
Sen (ɵ) = 0
La función seno sube a 1 como ɵ aumenta a 𝜋⁄2 y luego vuelve a cero cuando ɵ aumenta más a
𝜋; Véase el panel (a) de la Figura A.2. La función alcanza su valor mínimo de -1 en ɵ= 3𝜋⁄2 y
luego empieza a subir de nuevo.
Si viajamos una distancia de 2π radianes alrededor del círculo unitario, estamos de vuelta donde
empezamos y la función se repite:
Sen (2π + ɵ ) = sen (ɵ )
La función volvería a repetirse si realizáramos dos revoluciones completas alrededor del círculo
unitario. De hecho para cualquier entero j,
Sen (2πj + ɵ ) = sen (ɵ ) [A.1.8]

2
1.5
0.5
0 𝜃
-0.5 π/2 π 3π/2 2π
-1
-1.5
-2 (a) sen (𝜃 )
A.1. Trigonometría 729

2
1.5
0.5
0 𝜃
-0.5 π/2 π 3π/2 2π
-1
-1.5
-2 (b) cos (𝜃 )
FIGURA A.2 Función seno y coseno
La función es así periódica y es por esta razón útil para describir una serie de tiempo que se repite
en un ciclo particular.
La función del coseno sobresale en la unidad y cae a cero cuando 𝜃 aumenta a π / 2; Vea el panel
(b) de la Figura A.2. Resulta que simplemente es un desplazamiento horizontal de la función seno:
𝜋
Cos (𝜃 ) = sen ( 𝜃 + 2 ) [A.1.9]
La función sinusoidal o coseno también se puede evaluar para valores negativos de 𝜃 definidos
como una rotación en sentido horario alrededor del círculo unitario desde el eje ᵡ. Claramente:
Sen (-𝜃 ) = - sen (𝜃 ) [A.1.10]
Cos (-𝜃 ) = cos (𝜃 ) [A.1.11]
Por (x˳, y˳) un punto en el círculo unitario, [A.1.7] implica que

1 = √𝑥˳2 + 𝑦˳2
O, cuadrando ambos lados y usando [A. 1.1] y [A.1.2],
1 = [cos (𝜃)] 2 + [sen (𝜃)] 2
[A.1.12]
Utilizando funciones trigonométricas para representar ciclos

Supongamos que construimos la función g (𝜃) multiplicando primero 𝜃 por 2 y luego evaluando el
seno del producto:
g (𝜃) = sen (2 𝜃)
Esto duplica la frecuencia a la cual la función cicla. Cuando 𝜃 va de 0 a π, 2 𝜃 va de 0 a 2π, por lo
que g (𝜃) vuelve a su valor original (ver Figura A.3).
En general, la función sen (k 𝜃) pasaría por k ciclos en el tiempo que toma sen (𝜃) para completar
un ciclo único.
A veces describiremos el valor que una variable y toma en la fecha t como una función de senos o
cosenos, como:
𝑦𝑡 = R. cos ( 𝜔𝑡 + 𝛼) [A.1.13]

2
1.5
0.5
0 𝜃
-0.5 π/2 π 3π/2 2π
-1
-1.5
-2
FIGURA A.3 Efecto de cambiar la frecuencia de una función periódica
El parámetro R da la amplitud de [A.1.13]. La variable 𝑦𝑡 alcanzará un valor máximo de + R y un

valor mínimo de - R. El parámetro α es la fase. La fase determina dónde en el ciclo 𝑦𝑡 estaría en t
= 0. El parámetro ω gobierna la rapidez con la que la variable cicla, lo que puede resumirse en
cualquiera de las dos medidas. El periodo es el tiempo de duración para que el proceso repita un
ciclo completo. El período de [A.1.13] es 2 𝜋⁄𝜔. Por ejemplo si 𝜔 =1 y se repite cada 2π periodos,
mientras que si 𝜔 = 2 el proceso se repite cada 𝜋 periodos. La frecuencia resume con qué
frecuencia los ciclos de proceso comparados con la función simple cos (t); por lo tanto, mide el
número de ciclos completados durante 2 𝜋 periodos. La frecuencia de cos (t) es la unidad y la
frecuencia de [A.1.13] es . Por ejemplo, si 𝜔 = 2, los ciclos se completan dos veces más rápido que
los de cos (t). Hay una relación simple entre estas dos medidas de la velocidad de los ciclos. El
periodo es igual a 2π dividido por la frecuencia.
A.2. Números complejos
Definiciones
Considere la siguiente expresión:
𝑥2 = 1 [A.2.1]
Hay dos valores de 𝑥 que satisfacen [A.2.1] es decir 𝑥 = 1 y 𝑥 = −1. Supongamos en cambio que
se nos dio la siguiente ecuación:
𝑥 2 = −1 [A.2.2]
Ningún número real satisface [A.2.2]. Sin embargo consideremos un número imaginario
(denotado(𝑖)) que hace:
𝑖 2 = −1 [A.2.3]
Asumimos que (𝑖) puede ser multiplicado por el número real y manipulado usando reglas
estándares del álgebra. Por ejemplo:
2𝑖 + 3𝑖 = 5𝑖
Y
A.2.Números Complejos 731

(2𝑖) ∗ (3𝑖) = (6)𝑖 2 = −6
Esta última propiedad implica que una segunda solución a [A.2.2] está dada por 𝑥 = −1:
(−𝑖)2 = (−1)2 (𝑖)2 = −1
Así, [A.2.1] tiene dos raíces reales (+1 y -1). Mientras que [A.2.2] tiene dos raíces imaginarias (𝑖 y
−𝑖) .
Para cualquier número real a y b, podemos construir la expresión
𝑎 + 𝑏𝑖 [A.2.4]
Si b =0 entonces [A.2.4] es un número real, mientras que si a =0 y b es distinto de cero, [A.2.4] es
un número imaginario. Un número escrito en la forma general de [A.2.4] se llama un número
complejo.
Reglas para manipular números complejos
Los números complejos se manipulan usando reglas estándar del álgebra. Dos números
complejos se añaden de la siguiente manera:
(𝑎𝑖 + 𝑏𝑖 𝑖 ) + (𝑎2 + 𝑏2 𝑖 )= (𝑎2+ 𝑎2 ) + (𝑏1 + 𝑏2 ) 𝑖
Numeros complejos:
(𝑎𝑖 + 𝑏𝑖 𝑖 ) ∗ (𝑎2 + 𝑏2 𝑖 )=
Tenga en cuenta que las expresiones resultantes se simplifican siempre separando el componente
real (como [𝑎𝑖 𝑎2 − 𝑏1 𝑏2]) del componente imaginario (por ejemplo [𝑎𝑖 𝑏2 + 𝑏1 𝑎2 ] 𝑖)
Representación gráfica del número complejo
Un número complejo (𝑎 + 𝑏𝑖 ) se representa a veces gráficamente en un diagrama de

Argand como en la Figura A.4. La evaluacion del componente real (a) se traza en el eje horizontal, y
el componente imaginario (b) se representa en el eje vertical. El tamaño o el módulo de un número
complejo se mide de la misma manera que la distancia desde el origen de un elemento real en
(𝑥 , 𝑦), (véase la ecuación [A.1.7]):
|𝑎 + 𝑏𝑖| = √𝑎2 + 𝑏 2 [A.2.5]
El círculo unitario complejo es el conjunto de todos los números complejos cuyo módulo es
1. Por ejemplo, el número real +1 está en el círculo unitario complejo (representado por el
punto A en la Figura A.4)

b
𝜃
a A
FIGURA A.4 Diagrama de Argand
Así son el número imaginario −𝑖 (punto B) y el número complejo (-0.6 -0.8𝑖) (punto C).
A menudo estaremos interesados en si un número complejo es menor que 1 en módulo, en cuyo
caso se dice que el número está dentro del círculo unitario. Por ejemplo, (-0.3 +0.4𝑖) tiene módulo
0,5 por lo que se encuentra dentro del círculo unitario, mientras que (3 + 4𝑖), con el módulo 5, se
encuentra fuera del círculo unitario.
Coordenadas polares
Así como un punto en (𝑥 , 𝑦) puede representarse por su distancia 𝑐 desde el origen y su

ángulo 𝜃 con el eje x, el número complejo 𝑎 + 𝑏𝑖 puede representarse por la distancia de (a, b) del
origen (el módulo del complejo número)
R = √𝑎2 + 𝑏 2
Y por el ángulo 𝜃 que hace el punto (a, b) con el eje real, caracterizado por
cos( 𝜃 ) = 𝑎/𝑅
𝑠𝑒𝑛 ( 𝜃 ) = 𝑏/R
Por lo tanto el número complejo 𝑎 + 𝑏𝑖 se escribe en forma de coordenadas polares como
[R* cos (𝜃) + 𝑖R* sen (𝜃)= R[cos (𝜃) + 𝑖 sen (𝜃) ] [A.2.6]
Conjugados complejos
El complejo conjugado de (𝑎 + 𝑏𝑖 ) está dado por (𝑎 − 𝑏𝑖 ) . Los números(𝑎 + 𝑏𝑖 ) a
A.2.Números Complejos 733

(𝑎 − 𝑏𝑖 ) se describen como un par conjugado. Observe que la adición de un par conjugado
produce un resultado real:
(𝑎 + 𝑏𝑖 ) + (𝑎 − 𝑏𝑖 )= 2a
El producto de un par conjugado es también real:
(𝑎 + 𝑏𝑖 )* (𝑎 − 𝑏𝑖 )= 𝑎2 + 𝑏 2 [A.2.7]
Comparando esto con [A.2.5] vemos que el módulo de un número complejo (𝑎 )
+ 𝑏𝑖 puede ser
pensado como la raíz cuadrada del producto del número con su conjugado complejo:
|𝑎 + 𝑏𝑖|= √(𝑎 + 𝑏𝑖 )(𝑎 − 𝑏𝑖) [A.2.8]
Ecuaciones cuadráticas
Una ecuación cuadrática
𝛼𝑥 2 + 𝛽𝑥 + 𝛾 =0 [A.2.9]
Con α ≠ 0 tiene dos soluciones

−𝛽+(𝛽 2 −4𝛼𝛾)1/2
𝑥1 = 2𝛼
[A.2.10]
−𝛽−(𝛽 2 −4𝛼𝛾)1/2
𝑥2 = [A.2.11]
2𝛼
Cuando (𝛽 2 − 4𝛼𝛾) ≥ 0 , ambas raíces son reales, mientras que cuando (𝛽 2 − 4𝛼𝛾)˂ 0 , las
raíces son complejas. Notar que cuando las raíces son complejas aparecen como un par conjugado:
1/2
𝑥1 = {- 𝛽 / [2α]} + {(-1 /2 α]) (4𝛼𝛾 − 𝛽 2) }𝑖
2) 1/2
𝑥2 = {- 𝛽 / [2α]} - {(-1 /2 α]) (4𝛼𝛾 − 𝛽 }𝑖
A.3 Cálculo
Continuidad
Se dice que una función 𝑓(𝑥) es continua en 𝑥 = 𝑐 si 𝑓(𝑐)es finita y si para cada 𝜀 > 0 hay
un 𝛿 > 0 tal que |𝑓(𝑥) − 𝑓(𝑐)| < 𝜀 siempre que | 𝑥 − 𝑐| < 𝛿
Derivados de algunas funciones simples

La derivada de 𝑓(. ) con respecto a 𝑥 se define por
𝑑𝑓 𝑓(𝑥+∆)−𝑓(𝑥)
= lim
𝑑𝑥 ∆→0 ∆
Siempre que este límite exista

Si $ es lineal en 𝑥, o
𝑓(𝑥) = 𝛼 + 𝛽𝑥
Entonces la derivada es simplemente el coeficiente en 𝑥
𝑑𝑓 [𝛼+ 𝛽(𝑥+∆)]−[ 𝛼+ 𝛽𝑥] 𝛽∆

= lim =lim =𝛽
𝑑𝑥 ∆→0 ∆ ∆→0 ∆
Para una función cuadrática

𝑓 (𝑥) = 𝑥 2

El derivado es
𝑑𝑓 [𝑥+∆]2 −𝑥 2
= lim
𝑑𝑥 ∆→0 ∆
2
[𝑥 +2𝑥∆+ ∆2 ]−𝑥2
= lim
∆→0 ∆
= lim {2𝑥 + ∆}
∆→0
= 2𝑥
Y en general
𝑑𝑥 𝑘
𝑑𝑥
=𝑘𝑥 𝑘−1 [A.3.1]
Para funciones trigonométricas. Se puede demostrar que cuando 𝑥 se mide en radianes

𝑑 𝑠𝑒𝑛 (𝑥)
=cos(𝑥) [A.3.2]
𝑑𝑥
𝑑 𝑐𝑜𝑠 (𝑥)
𝑑𝑥
=−sen(𝑥) [A.3.3]
La derivada 𝑑𝑓(𝑥)⁄𝑑𝑥 es en sí misma una función de 𝑥. A menudo queremos especificar el punto
en el que la derivada debe ser evaluada, digamos 𝑐. Esto es indicado por
𝑑𝑓(𝑥)
|
𝑑𝑥 𝑥=𝑐
Por ejemplo
𝑑𝑥 2
| = 2𝑥|𝑥=3 = 6
𝑑𝑥 𝑥=3
Tenga en cuenta que esta notación se refiere a hablar de la derivada primero y luego evaluar la
derivada en un punto particular como 𝑥 = 3
Cadena de reglas
La regla de cadena establece que para funciones compuestas tales como
𝑔 (𝑥) = 𝑓(𝑢(𝑥)),
El derivado es
𝑑𝑔(𝑥) 𝑑𝑓 𝑑𝑢
𝑑𝑥
=𝑑𝑢.𝑑𝑥 [A.3.4]
Por ejemplo para evaluar
𝑑(𝛼+ 𝛽𝑥)𝑘
𝑑𝑥
Dejamos 𝑓(𝑢) = 𝑢𝑘 y 𝑢(𝑥) = 𝛼 + 𝛽𝑥. Entonces
𝑑𝑓 𝑑𝑢
.
𝑑𝑢 𝑑𝑥
=𝑘𝑢𝑘−1 . 𝛽
Así,
𝑑 (𝛼+𝛽𝑥)𝑘
𝑑𝑥
= 𝛽𝑘(𝛼 + 𝛽𝑥)𝑘−1
Derivados de orden superior

La segunda derivada se define por
A.3.Cálculos 735
𝑑 2 𝑓(𝑥) 𝑑 𝑑𝑓 (𝑥)
𝑑𝑥 2
= 𝑑𝑥 [ 𝑑𝑥
]
Por ejemplo,
𝑑2 𝑥 𝑘 𝑑 [𝑘𝑥 𝑘−1 ]
𝑑𝑥 1
= 𝑑𝑥
= 𝑘(𝑘 − 1)𝑥 𝑘−2
Y
𝑑 2 𝑠𝑒𝑛 (𝑥) 𝑑 cos(𝑥)
𝑑𝑥 2
= 𝑑𝑥
= −𝑠𝑒𝑛 (𝑥) [A.3.5]
En general, el derivado de orden j es la derivada de la derivada (j-1) enésima orden.
Series geometricas
Considerando la sumatoria:
𝑆𝑇 = 1 + ∅ + ∅2 + ∅3 … … ∅𝑇 [A.3.6]
Multiplicando ambos lados de [A.3.6] por ∅
∅ 𝑆𝑇 = 1 + ∅ + ∅2 + ∅3 … … ∅𝑇 / ∅𝑇+1 [A.3.7]
Restando [A.3.7] de [A.3.6]
(1 − ∅)𝑆𝑇 = 1 − ∅𝑇+1 [A.3.8]
Para cualquier ∅ ≠ 1, ambos lados de [A.3.8] se puede dividir por (1- ∅), por lo tanto, la suma en [
A.3.6] es igual a:
1− ∅𝑇+1
∅≠1
𝑆𝑇 = { 1− ∅ ∅= 1
[A.3.9]
𝑇+1
De [ A.3.9]
1
lim 𝑆𝑇 = |∅| < 1
𝑇→∞ 1− ∅
Y asi
1
(1 + ∅ + ∅2 + ∅3 … … ) = |∅| < 1 [A.3.10]
1− ∅
Aproximaciones de la serie Taylor

Supongamos que la primera a traves de las (𝑟 + 1) derivadas de una funcion 𝑓(𝑥) existen y son
continuas en una velocidad de 𝑐. El teorema de taylor indica que el valor de 𝑓 (𝑥) en 𝑥 viene dado
por:
𝑑𝑓 1 𝑑2 𝑓
𝑓(𝑐 + ∆) = 𝑓(𝑐) + 𝑑𝑥| . ∆ + 2! 𝑑𝑥 2 | . ∆2
𝑥=𝑐 𝑥=𝑐

1 𝑑3 𝑓 1 𝑑𝑟 𝑓
+ 3! 𝑑𝑥 3 | . ∆3 +…….+𝑟! 𝑑𝑥 𝑟 | . ∆𝑟 +𝑅𝑟 (𝑐,𝑥) [A.3.11]
𝑥=𝑐 𝑥=𝑐
Donde 𝑟! Denota 𝑟 factorial
𝑟! ≡ 𝑟(𝑟 − 1)(𝑟 − 2) … 2.1
El resto esta dado por:
1 𝑑 𝑟+1 𝑓
𝑅𝑟 (𝑐, 𝑥) = (𝑟+1)! 𝑑𝑥 𝑟+1 | . ∆𝑟+1
𝑥=𝛿
Donde 𝛿 es un numero entre 𝑐 y 𝑥 . Notece que el resto se desvanece por
𝑅𝑟 (𝑐,𝑥)
lim ∆𝑟
=0
∆→0
R=0 y t=0 en un sucesion de la serie de Taylor de orden 𝑟 a la funcion 𝑓(𝑥) e el vencindario de

𝑥=𝑐
𝑑𝑓 1 𝑑2 𝑓
𝑓(𝑥) ≅ 𝑓(𝑐) + | . (𝑥 − 𝑐) + | . (𝑥 − 𝑐)2
𝑑𝑥 𝑥=𝑐 2! 𝑑𝑥 2 𝑥=𝑐
1 𝑑𝑟 𝑓
+…+𝑟! 𝑑𝑥 𝑟 | . (𝑥 − 𝑐)𝑟 [A.3.12]
𝑥=𝑐
Serie de potencia
Si el resto 𝑟 (𝑐, 𝑥) en [A.3.11] converse a cero para todo 𝑥 como 𝑟 → 𝑥 , se puede usar una serie
de potencias para caracterizar la funcion 𝑓(𝑥) . Para econtrar una serie de potencia elegimos uhn
valor particular 𝑐 alrededor del cual centrar la expansion, como 𝑐 = 0. A continuacion, utilizamos
[A.3.12] con 𝑟 → 𝑥 , por ejemplo, consideremos la funcion seno.las dos primeras derivadas se dan
en [A.3.2] y [A.3.3], con las siguientes derivadas de orden superior:
Y asi sucesivamente. Evaluando como 𝑥 = 0, tenemos:

1 1 1
sen(𝑥) = 𝑥 − 3! 𝑥 3 +5! 𝑥 5 -7! 𝑥 7 +… [A.3.13]
Calculos similares dan una serie de potencias de la funcion coseno

1 2 1 4 1 6
cos(𝑥) = 1 + 𝑥 + 𝑥 - 𝑥 +… [A.3.14]
2! 4! 6!
Funciones exponenciales
Un número 𝛾 elevado a la potencia 𝑥
𝑓(𝑥) = 𝛾 𝑥
Se denomina funcion exponencial de 𝑥. El número 𝛾 se llama base de esta funcion, y 𝑥 se llama

exponente. Para multiplicar las fuciones exponenciales que comparten la misma base se añaden los
exponentes:
(𝛾 𝑥 ).(𝛾 𝑦 ) = 𝛾 𝑥+𝑦 [A.3.15]
A.3.Cálculos 737
Por ejemplo:
(𝛾 2 ).(𝛾 3 ) = (𝛾. 𝛾). (𝛾. 𝛾. 𝛾) = 𝛾 5
Para elevar una funcion exponencial a la potencia 𝑘, los exponents se multiplican:
[𝛾 𝑥 ]𝑘 = 𝛾 𝑥𝑘 [A.3.16]
Por ejemplo:
[𝛾 𝑥 ]𝑘 = [𝛾 2 ]. [𝛾 2 ]. [𝛾 2 ]= 𝛾 6
La exponenciacion es distributiva sobre la multiplicacion
(𝛼. 𝛽)𝑥 = (𝛼 𝑥 ). (𝛽 𝑥 ) [A.3.17]
Exponents negativos denotan reciprocos

𝛾 −𝑘 = (1⁄𝛾 𝑘 )
Cualwuier numero elevado a lam potenvcia0 se toma igual a la unidad
𝛾0 = 1 [A.3.18]
Esta convencion es sensible si 𝑦 = −𝑥 en [A.3.15]
(𝛾 𝑥 ). (𝛾 −𝑥 ) = 𝛾 0
Y
𝛾𝑥
(𝛾 𝑥 ). (𝛾 −𝑥 ) = 𝛾𝑥 = 1
El numero
La base para los logaritmos naturales se denota 𝑒. El número 𝑒 tiene la propiedad de una funcion
exponencial con base 𝑒 igual a su propia derivada:
𝑑𝑒 𝑥
𝑑𝑥
= 𝑒𝑥 [A.3.19]
Claramente toda derivada de orden superior de𝑒 𝑥 es igual a 𝑒 𝑥 también:
𝑑𝑟 𝑒 𝑥
𝑑𝑥 𝑟
= 𝑒𝑥 [A.3.20]
A veces usamos la expresión ëxp [𝑥]¨ para representar 𝑒 elevado a la potencia 𝑥
exp [𝑥]=𝑒 𝑥
Si 𝑢(𝑥) denota función separada de 𝑥, la derivada de la función compuesta 𝑒 𝑢(𝑥) puede ser
evaluada usando la regla de la cadena
𝑑𝑒 𝑢(𝑥) 𝑑𝑒 𝑢 𝑑𝑢 𝑑𝑢
= . = 𝑒 𝑢(𝑥) [A.3.21]
𝑑𝑥 𝑑𝑢 𝑑𝑥 𝑑𝑥

Para encontrar una serie de potencia para la función 𝑓(𝑥) = 𝑒 𝑥 , notese [A.3.20] que:
𝑑𝑟 𝑓
𝑑𝑥 𝑟
= 𝑒 𝑥,
Y asi, desde [A.3.18]
𝑑𝑟 𝑓
| = 𝑒0 = 1 [A.3.22]
𝑑𝑥 𝑟 𝑥=0
Para todo 𝑟 .substituimos [A.3.22] en [A.3.12] con 𝑐 = 0 por ende una potencia para la función
𝑓(𝑥) = 𝑒 𝑥 :
𝑥2 𝑥3 𝑥4
𝑒 𝑥 =1 + 𝑥 + + -
2! 3! 4!
+…… [A.3.23]
El ajuste en 𝑥 = 1 en [A.3.23] da un procedimiento numérico para calcular el valor de 𝑒

1 1 1
𝑒=1 + 1 + 2!+3!-4! +…… = 2.71828
Euler y el teorema de Moivres
Sopungamos que evaluamos la serie de potencia [A.3.23] en el número imaginario 𝑖 = √−1 y el

angulo 𝜃 en medida real de radianes:
(𝑖𝜃)2 (𝑖𝜃)3 (𝑖𝜃)4 (𝑖𝜃)5

𝑒 𝑖𝜃 =1 +(𝑖𝜃) + 2!
+
3! 4!
- + 5!
+⋯
(𝜃)2 (𝜃)4 (𝜃)3 (𝜃)5
=1 − 2!
+ 4!
− ⋯ + ⋯𝜃 3!
+ 5!
[A.3.24]
Reflejando en [A.3.13] en [A.3.14] da otra interpretación de [A.3.24]
𝑒 𝑖𝜃 =cos(𝜃) + 𝑖. 𝑠𝑒𝑛(𝜃) [A.3.25]

Similar,
(−𝑖𝜃)2 (−𝑖𝜃)3 (−𝑖𝜃)4 (−𝑖𝜃)5
𝑒 −𝑖𝜃 =1 +(−𝑖𝜃) + 2!
+ 3!
- 4!
+ 5!
+⋯
(𝜃)2 (𝜃)4 (𝜃)3 (𝜃)5
= 1– 2!
+ 4!
− ⋯ − 𝑖 … 𝜃 − 3! + 5!
=cos(𝜃) – 𝑖. 𝑠𝑒𝑛(𝜃) [A.3.26]
Para elevar un número complejo (𝑎 + 𝑏𝑖) una potencia 𝑘, el número complejo se escribe en forma
de coordenadas polares como en [A.2.6]
𝑎 + 𝑏𝑖 = 𝑅[cos(𝜃) + 𝑖. 𝑠𝑒𝑛 (𝜃)]
Utilizando [A.3.25] esto puede ser tratado como una función exponencial de 𝜃:
𝑎 + 𝑏𝑖 = 𝑅 ∗ 𝑒 𝑖𝜃 [A.3.27]
Ahora levantan ambos lados de [A.3.27] a la quinta potencia, recordando [A.3.17] y [A.3.16]
( 𝑎 + 𝑏𝑖)𝑘 = 𝑅 𝐾 ∗ 𝑒 𝑖𝜃𝑘 [A.3.28]
A.3.Cálculos 739
Finalmente, usa [A.3.25] en inverso
𝑒 𝑖𝜃𝑘 = cos(𝜃𝑘) + 𝑖. 𝑠𝑒𝑛 (𝜃𝑘)

Para deducir [A.3.28] se puede escribir
( 𝑎 + 𝑏𝑖)𝑘 = 𝑅 𝐾 ∗ cos(𝜃𝑘) + 𝑖. 𝑠𝑒𝑛 (𝜃𝑘) [A.3.29]
Definición de un logaritmo natural

El logaritmo natural es la inversa de la función 𝑒 𝑥
log 𝑒 𝑥 = 𝑥
Notese que de [A.3.18] 𝑒 0 = 1 por lo tanto log(1) = 0
Propiedades de logaritmos
Para todo 𝑥 > 0, es también el caso :
𝑥 = 𝑒 log(𝑥) [A.3.30]
Para [A.3.30] y [A.3.15] vemos que el log del producto de dos números es igual a la suma del log
log(𝑎. 𝑏) = 𝑙𝑜𝑔[(𝑒 log(𝑎) ). 𝑒 log(𝑏) )]=log(a) + log (b)
También usa [A.3.16] para escribir

𝑎
𝑥 𝑎 =[𝑒 log(𝑥) ] = 𝑒 𝑎.log(𝑥) [A.3.31]
Tomando registros de ambos lados de [A.3.31] revela que el log de un número elevado a la
potencia 𝑎 es igual a 𝑎 veces el logaritmo del número
a
log 𝑥 𝑎 = 𝑎. log(𝑥)
Derivados de logaritmos naturales

Deje 𝑢(𝑥) = log(𝑥) y escriba el lado derecho de [A.3.31] como 𝑒 𝑢(𝑥) Diferenciando ambos lados
de [A.3.30] usando [A.3.21] revela que:
𝑑𝑥 𝑑𝑙𝑜𝑔(𝑥)
= 𝑒 log(𝑥) .
𝑑𝑥 𝑑𝑥
así
𝑑𝑙𝑜𝑔(𝑥)
1=𝑥.
𝑑𝑥
Entonces:

𝑑𝑙𝑜𝑔(𝑥) 1
𝑑𝑥
=𝑥 [A.3.32]
Logaritmos y elasticidades
A veces también es útil diferenciar una función𝑓(𝑥) con respecto a la variable log(𝑥). Para hacerlo
escriba 𝑓(𝑥) como 𝑓(𝑢(𝑥)) donde:
𝑢(𝑥) = exp[log(𝑥)]
Ahora nosotros un la regla de la cadena para diferenciar:

𝑑𝑓(𝑥) 𝑑𝑓 𝑑𝜇
= 𝑑𝜇 . 𝑑 log(𝑥) [A. 3.33]
𝑑 log(𝑥)
Pero de [𝐴. 3.21]

𝑑𝜇 𝑑 log(𝑥)
= 𝑒𝑥𝑝[log(𝑥)] =𝑥 [A. 3.34]
𝑑 log(𝑥) 𝑑 log(𝑥)
Sustitución [𝐴. 3.34] dentro [𝐴. 3.33] da

𝑑𝑓(𝑥) 𝑑𝑓
=𝑥
𝑑 log(𝑥) 𝑑𝑥
Se deduce de [𝐴. 3.32] ese
𝑑 log 𝑓(𝑥) 1 𝑑𝑓 [𝑓(𝑥 + ∆) − 𝑓(𝑥)]/𝑓(𝑥)
= 𝑥 ≅
𝑑 log 𝑥 𝑓 𝑑𝑥 [(𝑥 + ∆) − 𝑥]/𝑥
Que tiene la interpretación como la elasticidad de f con respecto a x, o el cambio de porcentaje en f

resultante de aumentar al 1% es x.
Logaritmos Y Porcentajes:
Una aproximación a la función natural de registro se obtiene a partir de una serie de Taylor de
imprimación orden alrededor de c=1
𝑑 log(𝑥)
log(1 + ∆) ≅ log(1) + |∆ [A. 3.35]
𝑑𝑥
Pero log (1) = 0, y

𝑑 log(𝑥) 1
[ = ]=1
𝑑𝑥 𝑥
Por lo tanto, pará ∆ cercano a cero, Anu aproximación excelente es proporcionada por
og(1 + ∆) ≅ ∆ [A. 3.36]
Anu de implicación [𝐴. 3.36] es el siguiente r denotan la medida de la tasa neta de interés como una
fracción; por ejemplo r = 0,05 corresponden a un 5% de tasa de interés. Entonces (1+r) denota el
tipo de interés bruto (capital más intereses netos). Ecuación [𝐴. 3.36] dice que el registro de la tasa
de interés bruta (1+r) es esencialmente el mismo número que el tipo de interés neto (r).
Definicion Del Indefinido Integral

Integración (indicado por ∫ 𝑑𝑥 es la operación inversa de la diferenciación.
2
∫ 𝑥𝑑𝑥 = 𝑥 ⁄2 [A. 3.37]
Porque
A.3.Cálculos 741
2
𝑑(𝑥 ⁄2)
= 𝑋 [A. 3.38]
𝑑𝑥
2
La función (𝑥 ⁄2) no es la única función que satisface [𝐴. 3.38] la función
(𝑋 2 ⁄2) + 𝐶
También funciona para cualquier constante C el termino C se denomina la constante de integración.
Algunos Integrales Indefinitos Útiles

Las siguientes integrales pueden ser confirmadas a partir
de [𝐴. 3.1] [𝐴. 3.32] [𝐴. 3.2] [𝐴. 3.3] y [𝐴. 3.21] :
𝑥 𝑘+1
∫ 𝑋 𝐾 𝑑𝑥 = 𝑘+1
+𝑐 𝑘 ≠ −1 [A. 3.39]
log(𝑥) + 𝐶 𝑥>0
∫ 𝑋 −1 𝑑𝑥 = { [A. 3.40]
log(−𝑥) + 𝑐 𝑥<0
∫ cos(𝑥) 𝑑𝑥 = sin(𝑥) + 𝑐 [𝐴. 3.41]
∫ sin(𝑥)𝑑𝑥 = − cos(𝑥) + 𝑐 [𝐴. 3.42]
∫ 𝑒 𝑎𝑥 𝑑𝑥 = (1⁄𝑎). 𝑒 𝑎𝑥 + 𝑐 [𝐴. 3.43]
También es fácil demostrar que para las constantes a y b que no dependen de X.

∫[𝑎. 𝑓(𝑥) + 𝑏𝑔(𝑥)]𝑑𝑥 = 𝑎 ∫ 𝑓(𝑥)𝑑𝑥 + 𝑏 ∫ 𝑔(𝑥)𝑑𝑥 + 𝑐
Integrales definidos
Considerarse la función f(x) continua trazado en la figura A.5 Definir la función A(x) Si el área bajo
f(x) entre a y x, visto como una función de x. Así, un b; a) Sería el área entre a y b. Supongamos que
aumentamos b por una pequeña cantidad. Esto es aproximadamente el mismo que agregar un
rectángulo de altura f(b) y anchura ∆∆ a la zona A (B;a).
𝐴(𝑏 + ∆; 𝑎) ≅ 𝐴(𝑏; 𝑎) + 𝑓(𝑏). ∆
O
𝐴(𝑏 + ∆; 𝑎) − 𝐴(𝑏; 𝑎)
≅ 𝑓(𝑏)
∆
En el límite como ∆→ 0.
𝑑𝐴(𝑥;𝑎)
⌊= 𝑓(𝑏) [A. 3.44]
𝑑𝑥
Ahora [𝐴. 3.44] tiene que mantener para cualquier valor de 𝑏 > 𝑎 que podríamos haber elegido
FIGURA A.5 La integral definida como el área bajo una función

implicando que la función de área A (x;a) es la inversa de la diferenciación:
𝐴(𝑥; 𝑎) = 𝐹(𝑥) + 𝑐 [A. 3.45]
Donde
𝑑𝐹(𝑥)
= 𝑓(𝑥)
𝑑𝑥
Para encontrar el valor de C, darse cuenta de un(a);un cuarto [𝐴. 3.45] debe ser igual a cero:
𝐴(𝑎; 𝑎) = 0 = 𝐹(𝑎) + 𝑐
Para que esto mar cierto
𝐶 = −𝐹(𝑎) [A. 3.46]
Evaluando [𝐴. 3.45] una X=b, el área entre a y b es dado por

𝐴(𝑏; 𝑎) = 𝐹(𝑏) + 𝐶
O usando [𝐴. 3.46]
𝐴(𝑏; 𝑎) = 𝐹(𝑏) − 𝐹(𝑎) [𝐴. 3.47]
Dónde F(x) satisface DF/dx = f(x)
𝐹(𝑥) = ∫ 𝑓(𝑥)𝑑𝑥
Ecuación 𝐴. 3.47 es conocido como el teorema fundamental del cálculo. En la
operación [𝐴. 3.47] se conoce como cálculo de una integral definida:
𝑏
∫ 𝑓(𝑋)𝑑𝑥 ≡ [∫ 𝑓(𝑥)𝑑𝑥] ⌊𝑥 = 𝑏 − [∫ 𝑓(𝑥)] |𝑥 = 𝑎

𝑎
Por ejemplo, para encontrar el área bajo la función sinusoidal 𝜃 = 0 y 𝜃 = 𝜋/2, usamos
between [𝐴. 3.42]:
𝜋/2
∫ sin(𝑥) 𝑑𝑥 = [− cos(𝑥)] |𝑥=𝜋/2 − [− cos(𝑥)]|𝑥=𝜋/0
0
𝜋
= [− cos ( )] + [cos(0)]
2
=0+1
= 1.
Para encontrar el área entre 0 y 2𝜋, tomamos
2𝜋
∫ sin(𝑥) 𝑑𝑥 = [− cos(2𝜋)] + cos(0)
0
= −1 + 1
= 0.
Los valores positivos de sin(x) entre 0 y 𝜋 anular exactamente los valores negativos entre 𝜋 y 2𝜋.
A.4 El Algebra Matricial
Definición
Una matriz (m x n) es un arreglo de números ordenados en m filas y n columnas:
𝑎11 𝑎12 𝑎1𝑛
𝑎 𝑎 ⋯ 𝑎
𝑨 21 22 2𝑛
=[ ⋮ ⋮ ⋯ ⋮ ].
(𝑚 𝑥 𝑛)
𝑎𝑚1 𝑎𝑚2 ⋯ 𝑎𝑚𝑛
Si sólo hay una columna (n=1), se describe como un vector columna. Mientras que con una sola fila
(m=1), se denomina un vector fila. Única número (n=1 y m=1) se llama escalar de la ONU.
Si el número de filas es igual al número de columnas (m=n). La matriz se dice que es
cuadrada. La diagonal que recorre desde el principio hasta el fin (𝑎11 , 𝑎22 , …, 𝑎𝑛𝑛 ) es una matriz
A.4.Álgebra Matricial 743

cuadrada se llama la diagonal principal. Si todos los elementos fuera de la diagonal principal son
cero, la matriz se dice que es diagonal.
Aún se especifica una matriz veces describiendo el elemento en la fila i, columna j:
𝐴 = [𝑎𝑖𝑗 ].
Suma y multiplicación
Dos (m x n) matrices se agregan el elemento por elemento:
𝑎11 𝑎12 𝑎1𝑛 𝑏11 𝑏12 𝑏1𝑛
𝑎21 𝑎22 ⋯ 𝑎2𝑛 𝑏21 𝑏22
⋯
𝑏2𝑛
[ ⋮ ⋮ ⋯ ⋮ ]+[ ⋮ ⋮ ]
⋯ ⋮
𝑎𝑚1 𝑎𝑚2 ⋯ 𝑎𝑚𝑛 𝑏𝑚1 𝑏𝑚2 ⋯ 𝑏𝑚𝑛
𝑎11 + 𝑏11 𝑎12 + 𝑏12 𝑎1𝑛 + 𝑏1𝑛
⋯
𝑎21 + 𝑏21 𝑎22 + 𝑏22 𝑎2𝑛 + 𝑏2𝑛
=[ ];
⋮ ⋮ ⋯ ⋮
𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 ⋯ 𝑎𝑚𝑛 + 𝑏𝑚𝑛
O, de forma más compacta,
𝑨 𝐵
+ = [𝑎𝑖𝑗 + 𝑏𝑖𝑗 ].
(𝑚 𝑥 𝑛) (𝑚 𝑥 𝑛)
El producto de una matriz (𝑚 𝑥 𝑛) y una matriz (𝑛 𝑥 𝑞) es una matriz (𝑚 𝑥 𝑞):
𝑨 𝐵 𝐶
+ = ,
(𝑚 𝑥 𝑛) (𝑚 𝑥 𝑞) (𝑚 𝑥 𝑞)
𝑛
Donde la fila i, columna j elemento de C está dada por ∑𝑘=1 𝑎𝑖𝑗 𝑏𝑖𝑗 . la multiplicación de Pará se
requiere que el número de columnas, la misma que el número de filas de B.
Para multiplicar por un escalar una anu α, Cañada elemento de anu es multiplicado por α:
𝜶 𝐴 𝐶
(1 𝑥 1) + (𝑚 𝑥 𝑛) = (𝑚 𝑥 𝑛),
Con:
[𝐶 = [𝛼𝑎𝑖𝑗 ].
Es fácil demostrar que la adición es conmutativo:
𝐴 + 𝐵 = 𝐵 + 𝐴:
Mientras que la multiplicación no:
𝐴𝐵 ≠ 𝐵𝐴.
El producto BA no existirá a menos que 𝑚 = 𝑞 , e incluso donde existe. AB sería igual a BA sólo
en casos muy especiales.
Tanto la suma y la multiplicación son asociativas:
(𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶)
−(𝐴𝐵)𝐶 = 𝐴(𝐵𝐶).
Matriz de identidad
La matriz identidad de orden n (denotado 𝐼𝑛 ) es una matriz (𝑛 𝑥 𝑛) con los elementos de la
diagonal principal igual a 1 y 0 en otros lugares:
1 0 0
⋯
𝐼𝑛 = [0 1 ⋯ 0].
⋮
⋮ ⋮
0 0 ⋯ 1
Para cualquier matriz(𝑚 𝑥 𝑛) A.
𝐴 𝑥 𝐼𝑛 = 𝐴
Y also
𝐼𝑛 𝑥 𝐴 = 𝐴.
Potencias de matrices

Anu Pará (𝑛 𝑥 𝑛), la expresión 𝐴2 denota la matriz 𝐴 ∙ 𝐴. La expresión indica la matriz𝐴𝑘 onu
multiplicado por sí mismo k veces, con 𝐴0 identificamos como la matriz identidad de (𝑛 𝑥 𝑛).
Transposición
𝑎𝑖𝑗 Denotan la fila i, columna j de los elementos de una matriz :
𝐴 = [𝑎𝑖𝑗 ].
La transposición de una (denotada A') está dado por
𝐴′ = [𝑎𝑗𝑖 ].
Por ejemplo, la transpuesta de
2 4 6
[3 5 7]
1 2 3
Es
2 3 1
[4 5 2].
6 7 3
La transposición de un vector fila es un vector columna.
Es fácil comprobar lo siguiente:
(𝐴′)′ = 𝐴 [A.4.1]
(𝐴 + 𝐵)′ = 𝐴′ + 𝐵′ [A.4.1]
(𝐴𝐵)′ = 𝐵′ 𝐴′ . [A.4.3]
Matrices simétricas
Anu matriz cuadrada si satisface 𝐴 = 𝐴′, se dice que es simétrica.
Traza de una matriz

La traza de una matriz (𝑛 𝑥 𝑛) es definido como la suma de los elementos a lo largo de la
diagonal principal:
𝑡𝑟𝑎𝑐𝑒(𝐴) = 𝑎11 + 𝑎22 + . . . +𝑎𝑚𝑛 .
Si A es una matriz (𝑚 𝑥 𝑛) y b es una matriz , entonces AB es una
matriz, (𝑛 𝑥 𝑚)(𝑚 𝑥 𝑚) cuya traza es:
𝑛 𝑛 𝑛 𝑚 𝑛
𝑡𝑟𝑎𝑐𝑒(𝐴𝐵) = ∑ 𝑎1𝑗 𝑏𝑗1 + ∑ 𝑎2𝑗 𝑏𝑗2 + . . . + ∑ 𝑎𝑚𝑗 𝑏𝑗𝑚 = ∑ ∑ 𝑎𝑘𝑗 𝑏𝑗𝑘 .

𝑗=1 𝑗=1 𝑗=1 𝑘=1 𝑗=1
El producto BA es un matriz (n x n) cuya traza es:
𝑚 𝑚 𝑚 𝑛 𝑚
𝑡𝑟𝑎𝑐𝑒(𝐵𝐴) = ∑ 𝑏𝑗𝑘 𝑎𝑘1 + ∑ 𝑏2𝑘 𝑎𝑘2 + . . . + ∑ 𝑏𝑛𝑘 𝑏𝑘𝑛 = ∑ ∑ 𝑏𝑗𝑘 𝑎𝑘𝑗 .

𝑘=1 𝑗=1 𝑗=1 𝑗=1 𝑘=1
Así,
𝑡𝑟𝑎𝑐𝑒(𝐴𝐵) = 𝑡𝑟𝑎𝑐𝑒(𝐵𝐴).
Si A y B son ambos matrices (n x n), entonces:
𝑡𝑟𝑎𝑐𝑒(𝐴 + 𝐵) = 𝑡𝑟𝑎𝑐𝑒(𝐴) + 𝑡𝑟𝑎𝑐𝑒(𝐵).
Si A es una matriz (n x n) y λ es un escalar, entonces:
𝑛 𝑛
𝑇𝑟𝑎𝑧𝑎(λA) = ∑ λ𝑎𝑖𝑖 = λ ∙ ∑ 𝑎𝑖𝑖 = λ ∙ traza(A)

𝑖=1 𝑖=1
Matrices particionadas

Anu con particiones de la matriz es una matriz cuyos elementos son también matrices. Por
ejemplo la matriz (3 x 4).
𝑎11 𝑎12 𝑎13 𝑎14
𝐴 = [𝑎21 𝑎22 𝑎23 𝑎24 ]
𝑎31 𝑎32 𝑎33 𝑎34
Podría escribirse como:
𝐴 𝐴2
𝐴 = [ 1′ ]
𝑎1 𝑎2′
Donde:
𝑎11 𝑎12 𝑎13 𝑎14
𝐴1 = [𝑎 𝑎 ] 𝐴2 = [𝑎 ]
21 22 23 𝑎24
𝑎1′ = [𝑎31 𝑎32 ] 𝑎2′ = [𝑎33 𝑎34 ]

Las matrices particiones se suman o se multiplicand como si los elementos individuales
son escalares, siempre que las dimensiones de filas y columnas adecuadas permitan las operaciones
matriciales. Por ejemplo.
𝐴1 𝐴2 𝐵1 𝐵2 𝐴1 + 𝐵1 𝐴2 + 𝐵2
(𝑚1 ×𝑛1 ) (𝑚1 ×𝑛2 ) (𝑚1 ×𝑛1 ) (𝑚1 ×𝑛2 ) (𝑚1 ×𝑛1 ) (𝑚1 ×𝑛2 )
[ ]+[ ]=[ ]
𝐴3 𝐴4 𝐵3 𝐵4 𝐴3 + 𝐵3 𝐴4 + 𝐵4
(𝑚2 ×𝑛1 ) (𝑚2 ×𝑛2 ) (𝑚2 ×𝑛1 ) (𝑚2 ×𝑛2 ) (𝑚2 ×𝑛1 ) (𝑚2 ×𝑛2 )
Asimismo,
𝐴1 𝐴2 𝐵1 𝐵2 𝐴1 𝐵1 + 𝐴2 𝐵3 𝐴1 𝐵2 + 𝐴2 𝐵4
(𝑚1 ×𝑛1 ) (𝑚1 ×𝑛2 ) (𝑚1 ×𝑞1 ) (𝑚1 ×𝑞2 ) (𝑚1 ×𝑞1 ) (𝑚1 ×𝑞2 )
[ ]×[ ]=[ ]
𝐴3 𝐴4 𝐵3 𝐵4 𝐴3 𝐵3 + 𝐴4 𝐵3 𝐴3 𝐵2 + 𝐴4 𝐵4
(𝑚2 ×𝑛1 ) (𝑚2 ×𝑛2 ) (𝑚2 ×𝑞1 ) (𝑚2 ×𝑞2 ) (𝑚2 ×𝑞1 ) (𝑚2 ×𝑞2 )
Definición de la determinante
El determinante de una matriz de 2 x 2 está dado por la siguiente: escalares
|𝐴| = 𝑎11 𝑎22 − 𝑎12 𝑎21 [A.4.4]
El determinante de una matriz n x n puede ser definida recursivamente. La matriz 𝐴𝑖𝑗 denotada por
(n-1) x (n-1) es formada suprimiendo la fila i y la columna j de A. El determinante de A es dado
por:
|𝐴| = ∑𝑛𝑗=1(−1)𝑗+1 𝑎1𝑗 |𝐴1𝑗 |. [A.4.5]
Por ejemplo, el determinante de una matriz 3 x 3.
𝑎11 𝑎12 𝑎13 𝑎22 𝑎23 𝑎21 𝑎23 𝑎21 𝑎22
|𝑎21 𝑎22 𝑎23 | = 𝑎11 |𝑎 𝑎 | − 𝑎12 |𝑎 𝑎 | + 𝑎13 |𝑎 |
32 33 31 33 31 𝑎32
𝑎31 𝑎32 𝑎33
Propiedades de los determinantes

Una matriz cuadrada es llamada matriz triangular inferior si todos los elementos por
encima de la diagonal principal son cero (𝑎𝑖𝑗 = 0 𝑓𝑜𝑟 𝑗 > 𝑖):
a11 0 0 … 0
a a22 0 … 0
𝐴 = [ 21 ]
⋮ ⋮ ⋮ … ⋮
a𝑛1 a𝑛2 0 ⋯ a𝑛𝑛
El determinante de una matriz triangular inferior es simplemente el producto de los términos a lo

largo de la diagonal principal:

|𝐴| = 𝑎11 𝑎22 … 𝑎𝑛𝑛 [A.4.6]
Dado que [A.4.6] contiene para n=2 sigue inmediatamente a partir [A.4.4] Dado que posee para una
matriz de orden n-1, la ecuación [A.4.5] implica que tiene pará n:
a22 0 0 … 0
a32 a33 0 … 0
|𝐴| = a11 [ ] + 0 ∙ |𝐴12 | + ⋯ + 0 ∙ |𝐴1𝑛 |
⋮ ⋮ ⋮ … ⋮
a𝑛2 a𝑛3 0 ⋯ a𝑛𝑛
Una consecuencia inmediata" de [A.4.6] es que el determinante de la matriz identidad es
unidad:
|𝐼𝑛 | = 1. [A.4.7]
Otro hecho de los determinantes es que si una matriz de n x n es multiplicada por un
escalar α, el efecto es multiplicar el determinante por 𝛼 𝑛 :
|𝛼𝐴| = 𝛼 𝑛 |𝐴| [A.4.8]
De nuevo, [A.4.8] es inmediatamente evidente para el caso de n=2 [A.4.4.]:
𝛼𝑎 𝛼𝑎
|𝛼𝐴| = |𝛼𝑎11 𝛼𝑎12 |
21 22
= (𝛼𝑎11 𝛼𝑎22 ) − (𝛼𝑎12 𝛼𝑎21 )
= 𝛼 2 (𝑎11 𝛼𝑎22 − 𝑎12 𝑎21 )
= 𝛼 2 |𝐴|
Dado que se mantiene por la n-1, es fácil comprobar n mediante [A.4.5].
Por el contrario, si una sola fila de ANU se multiplica por la constante α (en contraposición
a la multiplicación de la matriz completa por α), entonces el determinante se multiplica por α.Si la
fila que se multiplica por α es la primera fila y, a continuación, este resultado es inmediatamente
evidente desde [A.4.5]. Si sólo la fila de i se multiplica por α, el resultado puede ser mostrada por
aplicar de forma recursiva [A.4.5] unitil los elementos de la i-ésima fila aparecen explícitamente en la
fórmula.
Supongamos que algunas veces constante c de la segunda fila de una matriz de 2 x 2 se
agrega a la primera fila. Esta operación ha o efecto sobre el determinante:
𝑎 + 𝑐𝑎21 𝑎12 + 𝑐𝑎22
| 11 𝑎 𝑎22 | = (𝑎11 + 𝑐𝑎21 )𝑎22 − (𝑎12 + 𝑐𝑎22 )𝑎21
21
= 𝑎11 𝑎22− 𝑎12 𝑎21
De manera parecida, si algunas veces constante c la tercera fila de una matriz de 3 x 3 se añade a la
segunda fila, el factor determinante será nuevamente sin cambios:
𝑎11 𝑎12 𝑎13
|𝑎21 + 𝑐𝑎31 𝑎22 + 𝑐𝑎32 𝑎23 + 𝑐𝑎33 |
𝑎31 𝑎32 𝑎33
𝑎22 + 𝑐𝑎32 𝑎23 + 𝑐𝑎33 𝑎21 + 𝑐𝑎31 𝑎23 + 𝑐𝑎33
= 𝑎11 | 𝑎32 𝑎33 | − 𝑎12 | 𝑎31 𝑎33 |
𝑎21 + 𝑐𝑎31 𝑎22 + 𝑐𝑎32

+𝑎13 | 𝑎31 𝑎32 |
𝑎22 𝑎23 𝑎21 𝑎23 𝑎21 𝑎22

= 𝑎11 |𝑎 𝑎33 | − 𝑎12 |𝑎31 𝑎33 | +𝑎13 |𝑎31 𝑎32 |
32
En general, si una fila de una matriz de n x n se multiplica por c y se añade a otra fila, la nueva
matriz tendrá la misma determinante como el original. Asimismo, multiplicar cualquier columna por
c y añadiendo la rsult a otra columna no cambiará el determinante.
Esto puede ser visto como un caso especial de los siguientes resultados. Si A y B son dos
matrices n x n, entonces
|𝐴𝐵| = |𝐴| ∙ |𝐵| [A.4.9]
Añadiendo c veces la segunda columna de una matriz de 2 x 2 a la primera columna puede ser
pensado como un post multiplicado por la matriz siguiente:

1 0
𝐵=[ ]
0 1
Si B es inferior triangular con 1s a lo largo de la diagonal principal, su determinante es la unidad, y
así, desde [A.4.9]
|𝐴𝐵| = |𝐴|
Así, el hecho de que la adición de un múltiplo de una columna a otra alteran el determinante se
puede ver como una implicación de [A.4.9].
Si dos filas de una matriz están cambiadas, el determinante cambia de signo. Para cambiar
la fila la i con la columna j, multiplicar la i-ésima fila por -1; esto cambia el signo del determinante.
A continuación, reste la fila i de la fila j, agregar el nuevo j a i, y resta i a j anu Vélez más. Estas
últimas operaciones completan el cambio y no afectan el determinante más. Por ejemplo, vamos a
ser una matriz de ANU (4 x 4) escrito en forma particionada como
𝑎1′
𝑎′
𝐴 = 2′ ,
𝑎3
[𝑎4′ ]
′
Cuando el vector 𝑎𝑖 [1 x 4] representanuna el vector fila de i de A. El determinante cuando las
filas 1 y 4 están conmutadas pueden calcularse a partir de:
𝑎1′ −𝑎1′ −𝑎1′ −𝑎4′ 𝑎4′
′
𝑎2′
𝑎2′
𝑎2′
𝑎2 𝑎2′
| ′ | = −= | ′ | = − | | = − | | = − | |
𝑎3 𝑎3 𝑎3′ 𝑎3′ 𝑎3′
𝑎4′ 𝑎4′ 𝑎1′ + 𝑎4′ 𝑎1′ + 𝑎4′ 𝑎1′
Este resultado permite calcular el determinante de la ANU en referencia a cualquier fila de
una matriz n x n):
|𝐴| = ∑𝑛𝑗=1(−1)𝑖+𝑗 𝑎𝑖𝑗 |𝐴𝑖𝑗 | [A.4.10]
∗
Para derivar [A.4.10], definir 𝐴 como
𝑎𝑖′
𝑎1′
𝑎2′
⋮
𝐴∗ = ′
𝑎𝑖−1
′
𝑎𝑖+1
⋮
[ 𝑎𝑛′ ]
Luego, a partir de [A.4.5]
𝑛 𝑛
∗ ∗
|𝐴∗ | = ∑(−1) 𝑗+1
𝑎1𝑗 |𝐴1𝑗 | = ∑(−1)𝑗+1 𝑎𝑖𝑗 |𝐴𝑖𝑗 |
𝑗=1 𝑗=1
Además, 𝐴∗ se obtiene a partir de un por el cambio de las filas (i-1), cuentos como
cambiando 𝑖 con 𝑖 − 1, 𝑖 − 1𝑖 − 2, . . ., y 2 a 1. Por lo tanto,
|𝐴| = (−1)𝑖−1 |𝐴∗ | = (−1)𝑖−1 ∑𝑛𝑗=1(−1)𝑗+1 𝑎𝑖𝑗 |𝐴𝑖𝑗 |,
Como se afirma en [A.4.10]
Una consecuencia inmediata" de [A.4.10] es que si cualquier fila de una matriz contiene
todos los ceros, entonces el determinante de la matriz es cero.
También se ha demostrado que la transposición de una matriz tiene el mismo factor
determinante como la matriz original:
|𝐴′ | = |𝐴| [A.4.11]
Esto significa que si, por ejemplo, la k columna de una matriz consta enteramente de ceros,
entonces el determinante de la matriz es cero. También implica que el determinante de una matriz
triangular superior (uno para el que es el producto𝑎𝑖𝑗 = 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑗 < 𝑖) de los términos sobre los
principales diagonal.

Adjunto de una matriz
Vamos a denotar una anu anu matriz (n x n), y que antes que 𝐴𝑖𝑗 denotan la [(n - 1) x (n -
1)] matriz, que es el resultado de eliminar la fila j y la columna i de A. La adjunta de una es la matriz
(n x n) cuya la fila i, columna j elemento está dado por (−1)𝑖+𝑗 |𝐴𝑖𝑗 |.
Inversa de una matriz

Si el determinante de una matriz n x n no es igual toz ero, su inversa (anu
matriz 𝑛 𝑥 𝑛 denotada 𝐴−1 ) existe y se encuentra dividiendo el vecino por el determinante:
𝐴−1 = (1/|𝐴|) ∙ [(−1)𝑖+𝑗 ]|𝐴𝑗𝑖 | [A.4.12]
Por ejemplo, para n = 2,

a11 a11 1 a22 −a12
[a
11 a11 ] = ([a11 a22 −a12 a21 ]) . [−a21 a11 ] [A.4.13]
Se dice que existe una matriz cuyo inverso no es singular. Anu matriz cuyo determinante es cero es
singular y no tiene inversa.
Cuando existe un inverso
AxA−1 = In . [A.4.14]
Determinantes de ambos lados de la [A.4.14] y usando [A.4.9] y [A.4.7]

|A|. |A−1 | = 1.
Así que
|A−1 | = 1/|A| [A.4.15]
Alternativamente, teniendo la transposición de ambas partes de [A.4.14] y recordando [A.4.3]
(A−1 )ʹAʹ = In ..
Lo que significa que " () A−1 es la inversa de una':
(A−1 )ʹ = (Aʹ)−1
Para α un escalar no nulo y una matriz singular no anu
[αA]−1 = α−1 A−1
Also párr A. B. Y C todas las matrices no singulares(n x n).
[AB]−1 = B −1 A−1
Y
[ABC]−1 = C −1 B−1 A−1
Dependencia lineal
x1 , x2 … . xk Un conjunto de vectores de mar diferentes(n x 1). Se dice que los vectores son
linealmente dependientes si existe un conjunto de escalares (c1 , c2 … , ck ), de los cuales no todos
son cero, tal que
c1 x1 +c2 x2 + ⋯ + ck xk = 0
Si no existe tal conjunto de números distintos de cero (c1 , c2 , … , ck ). Entonces se dice que los
vectores son linealmente independientes (x1 , x2 … . xk )
Supongamos que los vectores (x1 , x2 , … . xk )se recogen en una matriz (n x k) T.
Escrito en forma particionada como
T = [x1 x2 … xk ].
Si el número de vectores (k es igual a la dimensión de cada vector (n), entonces existe una relación
simple entre la noción de dependencia lineal (n x ) y el determinante de la

matriz T; específicamente, si (x1 , x2 , … . xn ) son linealmente dependientes, entonces |T| = 0.para
ver esto, supongamos que
x1 Es uno de los vectores que tienen un valor distinto de cero de ci . Entonces la dependencia lineal
significa que:
c2 c3 cn
x1 = − ( ) x2 − ( ) x3 − ⋯ − ( ) xn .
c1 c1 c1
Entonces el determinante de T es igual a

c2 c3 cn
|T| = |[− ( ) x2 − ( ) x3 − ⋯ − ( ) xn ] x2 … xn |
c1 c1 c1
Pero si añadimos (c / c) veces la n-ésima columna, c / c) veces la (n-1) ésima columna a la
primera columna... y (c / c) veces la segunda columna de la primera columna. El resultado es
cn cn−1
Pero si agregamos ( a veces )n-esima columna, ( )a la (n-1)- esima columna a la primera
c1 c1
c2
columna…….. y ct
)
a veces (la segunda columna de la primera columna. El resultado es
|T| = |0 x2 … xn |
= 0.
Lo contrario también se puede demostrar que es cierto; Si|T| = 0, entonces (x1 , x2 , … . xn ) hijo
linealmente dependientes
Valores propios y vectores propios

Supongamos que anu ( matriz den x n ) , un vector no nulo x n x 1. y un escalar λ están
relacionados por
Ax = λx. [A.4.16]
Entonces x es llamado un eigenvector de y λ asociados eigenvalue. La ecuación [A.4.16] puede
escribirse
Ax − λIn x = 0.
O
(A − λIn )x = 0. [A.4.17]
(A ) (A )−1
Supongamos que la matriz − λIn fueron nonsingular. A continuación, − λIn podrían
existir y podríamos multiplicar [A.4.17] por (A − λIn )−1 deducir que
x = 0.
Por lo tanto, si existe un vector x distinto de cero que satisfaga [A.4.16], entonces debe estar
asociado a un valor λ tal que (A − λIn ) es singular. Un eigenvalue de la matriz A es por lo tanto un
número λ tal que
|A − λIn | = 0. [A.4.18]
Valores propios de Matrices triangulares

Observe que si a es triangular superior o inferior triangular, entonces A − λIn está
bien. Y su determinante es el producto de los términos a lo largo de la diagonal principal.
|A − λIn | = (a11 − λ)(a22 − λ) … (ann − λ).
Así, para una matriz triangular, los autovalores (los valores de λ para los que esta expresión es igual
a cero) son solamente los valores de a lo largo de la diagonal principal.
Independencia lineal de vectores propios

Un resultado útil es que si los valores propios (λ1 , λ2 , … , λn ) son todas
distintas, entonces los vectores propios asociados son linealmente independientes. Para ver este
caso m=2, (x1 , x2 , … , xn )c1 y c2 tal que considerar cualquier
c1 x1 +c2 x2 = 0. [A.4.19]

Ambos lados de Premultiplying [A.4.19] por un produce
c1 Ax1 +c2 Ax2 = c1 λ1 x1 +c2 λ2 x2 = 0. [A.4.20]
Si [A.4.19] se multiplica por λ1 y se resta [A.4.20], resultado es
c2 (λ2 − λ1 )x2 = 0. [A.4.21]
Pero x2 es un eigenvector de un anuncio, por lo que no puede ser el vector cero. Además, λ2 −
λ1 no puede ser cero, desde λ2 ≠ λ1. La ecuación [A.4.21] por lo tanto, implica que, c1 = 0. por lo
tanto, los únicos valores de c1 y de c2 conformidad con [A.4.19] son c1 = 0 y c2 = 0, lo que
significa que x1 y x2 son linealmente independientes. Argumento para asimilar n > 2 puede ser
,hecha por inducción.
Una descomposición útil

Supplantean una matriz A tiene n valores propios distintos n×n(λ1 , λ2 , … , λn ).
Recopilar estos en una matriz diagonal A:
λ1 0 … 0
0 λ2 … 0
Λ=[ ].
⋮ ⋮ … ⋮
0 0 ⋯ λn
Recoger los vectores propios (x1 , x2 , … , xn ) de una (n×n) matriz T:
T = [x1 x2 … xn ].
La aplicación de la fórmula para la multiplicación de matrices particionadas,
A T = [Ax1 Ax2 … Axn ].
Pero dado que (x1 , x2 , … , xn ) son vectores propios, la ecuación [A.4.16] implica que
A T = [λ1 x1 λ2 x2 … λn xn ]. [A.4.22]
Una segunda aplicación de la fórmula para la multiplicación de matrices particionadas demuestra
que la derecha de [A.4.22] es a su vez igual a
[λ1 x1 λ2 x2 … λn xn ].
λ1 0 … 0
0 λ2 … 0
= [x1 x2 … xn ] [ ].
⋮ ⋮ … ⋮
0 0 ⋯ λn
= TΛ.
Por lo tanto, [A.4.22] puede escribirse
AT = TA. [A.4.23]
Ahora bien, dado que los valores propios (λ1 , λ2 , … , λn ) son distintos, los vectores
propios (x1 , x2 , … , xn ) son conocidos por ser linealmente independientes. Por tanto, |T| ≠
0 T −1 existe. Postmultiplying [A.4.23] por T −1 revela un útil de una descomposición:
A = TΛT −1 . [A.4.24]
La Descomposición Jordan
La descomposición en [A.4.24] requerido (n x n) una matriz que tiene n vectores propios
linealmente independientes. Este será un verdadero siempre tiene n valores propios distintos, y aún
podría ser cierto si una tiene algunos repiten valores propios. En el caso general completamente
cuando una tiene s ≤ n vectores propios linealmente independientes, siempre existe una
descomposición similar a [A.4.24]. Conocida como la descomposición de Jordania.
Específicamente. De esa matriz A, existe una (n x n) matriz M nonsingular tal que
A = MΛM−1 . [A.4.25]
Donde la (n x n) matriz J toma la forma
J1 0 … 0
0 J2 … 0
J=[ ] [A.4.26]
⋮ ⋮ … ⋮
0 0 ⋯ Js
Con

λi 1 0 … 0
0 λi 1 … 0
Ji = 0 0 λi … 0 . [A.4.27]
⋮ ⋮ ⋮ … ⋮
[ 0 0 0 ⋯ λi ]
Por lo tanto, Ji tiene la eigenvalue λi se repiten a lo largo de la diagonal principal y la unidad se ha
repetido a lo largo de la diagonal por encima de la diagonal principal. El mismo eigenvalue λt puede
aparecer en dos diferentes bloques de Jordania Ji y Jk si corresponde a varios vectores propios
linealmente independientes.
Algunos nuevos resultados

Supongamos que λ es un eigenvalue de la (n x n) matriz A. A continuación, λ también es
una de eigenvalue SAS −1 para cualquier (n x n) matriz nonsingular S. Para ver esto, tenga en
cuenta que
(A − λIn )x = 0
Implica que
S(A − λIn )S −1 Sx = 0
O
(SAS −1 − λIn )x ∗ = 0 [A.4.28]
Para x = Sx. Por lo tanto, λ es un eigenvalue del SAS −1 asociado con el eigenvector x ∗ .
∗
A partir [A.4.25], esto implica que el determinante de (n x n) una matriz es igual al

determinante de su matriz de Jordania J definida en [A.4.26]. Desde J es triangular superior, su
factor determinante es el producto de los términos a lo largo de la diagonal principal, que eran sólo
los valores propios de A. Así, el determinante de una matriz es dada por el producto de sus valores
propios.
También está claro que los valores propios de A son las mismas que las de una". Tomando
la transposición de [A.4.25]
A′ = (M ′ )−1 J′ M ′ ,
Vemos los valores propios de A son los autovalores de J′ .Desde J ′ es inferior triangular, sus
′
valores propios son los elementos de su diagonal principal. Pero J′ J tienen el mismo significado
que la Diagonal, principal A′ y A tienen los mismos valores propios.
Matriz de series geométricas

Los resultados de [A.3.6] a [A.3.10] generalizar fácilmente a series geométricas de matrices
cuadradas. Considerar la suma
ST = In + A + A2 + A3 + ⋯ + AT [A.4.29]
Para A una (n x n) matriz. Ambos lados de Premultiplying [A.4.29] por una, vemos que
AST = A + A2 + A3 + ⋯ + AT + AT+1 . [A.4.30]
Restando [A.4.30] FROM [A.4.29], encontramos que
(In − A)ST = In + AT+1 . [A.4.31]
Aviso de [A.4.18 grupo] que si |In − A| = 0, entonces λ = 1 sería un eigenvalue de A. suponiendo
que ninguno de los valores propios de una es igual a la unidad. La matriz (In − A) es nonsingular y
[A.4.31] implica que
ST = (In − A)−1 (In + AT+1 ). [A.4.32]
Si no eigenvalue de A es igual a 1. Si todos los valores propios de una son estrictamente inferior a 1
en módulo, puede demostrarse que como , sugiriendo queAT+1 → 0T → ∞
(In + A + A2 + A3 + ⋯ ) = (In − A)−1 [A.4.33]
Suponiendo que los valores propios de una unidad son todos dentro de un círculo.

Productos de Kronecker
Para 𝐴 una matriz m x n) y B (p x q), la matriz de productos de Kronecker de A y B es
defind como la (mp) x (nq) matriz siguiente:
a11 B a12 B … a1n B
a B a22 B … a2n B
A ⊗ B = [ 21 ].
⋮ ⋮ … ⋮
am1 B am2 B ⋯ amn B
Las siguientes propiedades del producto de Kronecker son fácilmente verificada. Para cualquier
matrices A, B y C.
(A ⊗ B)′ = A′ ⊗ B′ [A.4.34]
(A ⊗ B) ⊗ C = A ⊗ (B ⊗ C). [A.4.35]
También para A y B (m x n) matrices y C cualquier matriz,
(A + B) ⊗ C = (A ⊗ C) + (B ⊗ C) [A.4.36]
C ⊗ (A + B) = (C ⊗ A) + (C ⊗ B) [A.4.37]
Vamos a ser (m x n),B (p x q), C (n x k) y D (q x r). Luego
(A ⊗ B)(C ⊗ D) = (AC ⊗ BD) [A.4.38]
Que es.
a11 B a12 B … a1n B c11 D c12 D … c1n D
a21 B a22 B … a2n B c21 D c22 D … c2n D
[ ][ ]
⋮ ⋮ … ⋮ ⋮ ⋮ … ⋮
am1 B am2 B ⋯ amn B cm1 D cm2 D ⋯ cmn D
∑ a1j cj1 BD ∑ aij cj2 BD … ∑ a1j cjk BD

…
∑ a2j cj1 BD ∑ a2j cj2 BD ∑ a1j cj1 BD
=
⋮ ⋮ … ⋮
[∑ amj cj1 BD ∑ amj cj2 BD ⋯ ∑ a1j cj1 BD]
𝐴(𝑛×𝑛) Y 𝐵(𝑝×𝑝) ambas matrices nonsingular podemos establecer 𝐶 = 𝐴−1 y D = B ' [A.4.38]
para deducir que
(A ⊗ B)−1 = (𝐴−1 ⊗ 𝐵−1 ) = (𝐴𝐴−1 ) ⊗ (𝐵𝐵−1 ) = 𝐼𝑛 ⊗ 𝐼𝑝 = 𝐼𝑛𝑝 .
(A ⊗ B)−1 = (𝐴−1 ⊗ 𝐵−1 ) [A.4.39]
Valores propios de un Producto de Kronecker

Para 𝐴(𝑛×𝑛) matrix con (posiblemente) nondistinct eigenvalues (𝜆1 , 𝜆2 , … , 𝜆𝑛 ) y 𝐵(𝑝×𝑝) con
valores propios (𝜇1 , 𝜇2 , … , 𝜇𝑛 ), entonces los autovalores (np) 𝐴 ⊗ 𝐵 son dadas
por 𝜆𝑖 𝜇𝑗 para i = 1, 2,…,n y j=1,2,…,p. Para ver esto, escriba A y B en el Jordán como formulario
A = MA JA MA −1

B = MB JB MB −1
La (MA ⊗ MB ) inversa ha dado por (MA −1 ⊗ MB −1 ). Por otra parte, sabemos desde [A.4.28] que
los valores propios de (A ⊗ B) la misma como los autovalores de
(MA −1 ⊗ MB −1 )(A ⊗ B)(MA ⊗ MB ) = (MA −1 AMA ) ⊗ (MB −1 BMB )
= JA ⊗ JB .
Pero JA JB son ambos triangular superior, lo que significa que (JA ⊗ JB ) es triangular superior
Como bien. Los valores propios de (JA ⊗ JB ) son, por lo tanto, sólo los términos de la diagonal
principal
De las (JA ⊗ JB ) cuales son dadas por .λi μj
Matrices positivas definidas

𝐴𝑛(𝑛×𝑛) Matriz simétrica real se dice tobe semidefinite positivo si para cualquier verdadero {n x
1) vector x,
xÁx ≥ 0.
Hacemos la declaración más fuerte que una verdadera una matriz simétrica es definida positiva
Si por cualquier real distinto de cero (n x 1) vector x.
xÁx > 0;
Henee, cualquier matriz definida positiva también podría decirse que | semidefinite
positivo.Vamos a ser un eigenvalue del asociado con el eigenvector x:
Ax = λx.
Esta ecuación Premultiplying por x' resulta en
xÁx = λx´x.
Desde un eigenvector x no te el vector cero, x'X > 0. Por lo tanto, para obtener un resultado
positivo.
Una matriz semidefiníte, cualquier eigenvalue λ de debe ser mayor o igual que cero. Para
obtener un resultado positivo definitivo, todos los valores propios son estrictamente mayor que
cero. Desde el determinante de A es el producto de los valores propios, el determinante de una
matriz definida positiva es estrictamente positivo.
Vamos a ser positivas definidas (nxn) y deje que la matriz b denotan
una nonsingular (n x n) matrix.Entonces B'AB es f positivo definitivo. Para ver esto,
sea x cualquier vector distinto de cero. Define.
𝑥̅ = 𝐵𝑥
El 𝑥̅ no puede ser el vector cero, porque si lo fuera, esta ecuación indicaría que existe un valor
distinto de cero vector x tal que
𝐵𝑥 = 0 ∙ 𝑥,

En cuyo caso sería un cero de eigenvalue B asociado con el eigenvector x. Pero desde B es
nonsingular, noiie de sus valores propios puede ser cero. Por lo tanto, x = bx no puede ser el vector
cero, y
x´BÁBx = ̅̅̅̅̅̅
𝑥̅ ´𝐴𝑥̅ > 0.
Establecer que la matriz BÁB es positivo definitivo.
Un caso especial de este resultado se obtiene dejando un ser la matriz de identidad. A
continuación, el resultado implica que cualquier matriz que puede ser escrita como B'B para algunos
nonsingular matriz B es positivo definitivo. Más generalmente, cualquier matriz que puede
ser escrita como B'B para una arbitraria de la matriz B debe semidefinite positivo:
x´B´Bx = ̅̅̅̅
𝑥̅ ´𝑥̅ = 𝑥̅1 2 + 𝑥̅2 2 +∙∙∙ +𝑥̅n 2 ≥ 0, [A.4.40]
̅ = 𝐵𝑥.
Donde 𝒙
El conversar proposiciones son también cierto: si semidefinite positivo, entonces
existe una matriz B tal que A=B'B; si A es positivo definitivo, entonces existe una matriz
nonsingular B tal que A=B'B. Una prueba de esta afirmación y un algoritmo para calcuting B
se proporcionan en la sección 4.4.
Transpone Conjúgate
Vamos a denotar una (m x n) matriz de (posiblemente) los números complejos:
a11 b11 i … a1n + b1n i

a21 b21 i … a2n + b2n i
A=[ ]∙
⋮ ⋮ … ⋮
am1 bm1 i ⋯ amn + bmn i
El conjugado de una transposición, denotados AH, está formada por la transposición y

la sustitución de cada elemento con su complejo conjugado:
a11 − b11 i … am1 − bm1 i

a − b12 i … am1 − bm2 i
A𝐻 = [ 12 ]∙
⋮ … ⋮
a1n − b1n i ⋯ amn − bmn i
Por lo tanto, si una real, AH y una' indicaría la misma matriz.

Obsérvese que si la ONU vector complejo (n×1) es premultiplicado por su transpuesta conjugada,
el resultado es un escalar no negativo real:
𝑎1 + 𝑏1 𝑖
𝑎 + 𝑏2 𝑖
𝑥 𝐻 𝑥 = [(𝑎1 − 𝑏1 𝑖)(𝑎2 − 𝑏2 𝑖) ⋯ (𝑎𝑛 − 𝑏𝑛 𝑖)] [ 2 ]
⋮
𝑎1 + 𝑏1 𝑖
𝑛
= ∑(𝑎12 + 𝑏12 𝑖) ≥ 0
𝑖=1
Para B anu matriz real (m×n) y x un vector complejo(n×1) vector
(Bx)H = x H B′
Más generalmente, si tanto B y x hijo complejos

(Bx)H = x H B H
Observe que si una es positivo, entonces semidefinido
x 𝐻 Ax = x 𝐻 B ′ Bx = x̅ 𝐻 x̅
H
Con x̅ = Bx. asi, x Ax es un escalar no negativo real para cualquier x cuando A es semidefinite
positivo. Es un escalar positivo real A positivo definido.
Continuidad de las Funciones de los Vectores

Una función de más de un argumento, como
𝑦 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) [A.4.41]
Se dice que es continua en (𝑐1 , 𝑐2 , … , 𝑐𝑛 ) si 𝑓(𝑐1 , 𝑐2 , … , 𝑐𝑛 ) es finita y para todo el 𝜀 >
0 heno 𝛿 > 0 que un tal
|𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) − 𝑓(𝑐1 , 𝑐2 , … , 𝑐𝑛 )| < 𝜀
Cuando
(𝑥1 − 𝑐1 )2 + (𝑥2 − 𝑐2 )2 + ⋯ + (𝑥𝑛 − 𝑐𝑛 )2 < 𝛿
Derivadas parciales
Derivada parcial 𝑓 Con respecto a la de 𝑥𝑖 es definido por
𝜕𝑓 Δ−1 . {𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑖−1 . 𝑥𝑖 + Δ, 𝑥𝑖+1 , … , 𝑥𝑛 )
= lim [A.4.42]
𝜕𝑥 ′
Δ→0 −𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑖−1 𝑥𝑖 , 𝑥𝑖+1 , … , 𝑥𝑛 )}
̅̅̅̅̅̅̅̅̅̅̅̅̅̅
𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡𝑒
Si recogemos las 𝑛 derivadas parciales en [A.4.42] la obtenemos 𝑔𝑟𝑎𝑑𝑖𝑒𝑛𝑡𝑒 de la
función 𝑓, denotada 𝛻
𝜕𝑓⁄𝜕𝑥1
𝜕𝑓⁄𝜕𝑥2
𝛻 =[ ] [A.4.43]
⋮
(𝑛×1)
𝜕𝑓⁄𝜕𝑥𝑛
Por ejemplo, supongamos 𝑓 es una funcion lineal
𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑎1 𝑥1 + 𝑎2 𝑥2 + ⋯ + 𝑎𝑛 𝑥𝑛 [A.4.44]
Defina una y x como los siguientes (n×1) vectores:
𝑎1
𝑎2
𝑎=[ ⋮ ] [A.4.45]
𝑎𝑛
𝑥1
𝑥2
𝑥=[ ⋮ ] [A.4.46]
𝑥𝑛
Entonces [A.4.44] Puede escribirse
𝑓(𝐱) = 𝐚′𝐱
La derivada de parciales f(. ) con respecto al i-ésimo argumento es

𝜕𝑓
= 𝑎𝑖
𝜕𝑥𝑖
Y la gradiente es
𝑎1
𝑎2
𝛻=[ ⋮ ]=𝐚
𝑎𝑛
Derivadas de Segundo Orden

La derivada de segundo orden de [A.4.41] es dado por
𝜕 2 𝑓(𝑥1 , ⋯ , 𝑥𝑛 ) 𝜕 𝜕𝑓(𝑥1 , ⋯ , 𝑥𝑛 )
= [ ]
𝜕𝑥𝑖 𝜕𝑥𝑗 𝜕𝑥𝑖 𝜕𝑥𝑗
Donde existen derivadas de segundo orden y son continuas para todos 𝑖 y 𝑗, el orden de
diferenciación es irrelevante:
𝜕 𝜕𝑓(𝑥1 , ⋯ , 𝑥𝑛 ) 𝜕 𝜕𝑓(𝑥1 , ⋯ , 𝑥𝑛 )
[ ]= [ ]
𝜕𝑥𝑖 𝜕𝑥𝑗 𝜕𝑥𝑗 𝜕𝑥𝑖
A veces estás derivadas de segundo orden se recogen en anu matriz H de lamada𝑛×𝑛 de
matriz Hessiana:
𝜕2 𝑓
H = [𝜕𝑥 𝜕𝑥 ]
𝑖 𝑗
Also usaremos la notación

𝜕2 𝑓
𝜕𝑥𝑖 𝜕𝑥𝑗
Para representar la matriz H.
Derivadas de Funciones de Valor Vectorial

Supongamos que tenemos un conjunto de 𝑚 funciones 𝑓1 (. ), 𝑓2 (. ), … , 𝑓𝑚 (. ), Cañada anu de las
cuales depende de 𝑛 variables (𝑥1 , 𝑥2 , … , 𝑥𝑛 ). Podemos recopilar las funciones 𝑚 en una sola
función de valor: vectorial
𝑓1 (𝑥)
𝑓𝑚 (𝑥) 𝑓 (𝑥)
= [ 2 ]
(𝑚×1) ⋮
𝑓𝑚 (𝑥)
A veces escribimos
F : ℝ𝑛 → ℝ𝑚
Para indicar que la función toma 𝑛 números reales diferentes (resumidos por el vector x, un
elemento de ℝ𝑛 ) y calcula 𝑚 diferentes números nuevos (resumidos por el valor de f, un elemento
de ℝ𝑚 ). Supongamos que cada una de las funciones 𝑓1 (. ), 𝑓2 (. ), … , 𝑓𝑚 (. ), tiene derivadas con
respecto a cada uno de los argumentos 𝑥1 , 𝑥2 , … , 𝑥𝑛 . Podemos resumir estos derivados en una
matriz (𝑚×𝑛), llamada la matrix jacobiana de f e indicada por 𝜕f⁄𝜕𝑥 ′ :
𝜕𝑓1 ⁄𝜕𝑥1 𝜕𝑓1⁄𝜕𝑥2 ⋯ 𝜕𝑓1 ⁄𝜕𝑥𝑛

𝜕f 𝜕𝑓2 ⁄𝜕𝑥1 𝜕𝑓2 ⁄𝜕𝑥2 ⋯ 𝜕𝑓2 ⁄𝜕𝑥𝑛
≡[ ]
𝜕x ′ ⋮ ⋮ ⋯ ⋮
(𝑚×𝑛) 𝜕𝑓𝑚 ⁄𝜕𝑥1 𝜕𝑓𝑚 ⁄𝜕𝑥2 ⋯ 𝜕𝑓𝑚 ⁄𝜕𝑥𝑛

Por ejemplo, supongamos que cada una de las funciones 𝑓1 (𝑥) es lineal:
𝑓1 (𝑥) = 𝑎11 𝑥1 + 𝑎12 𝑥2 + ⋯ + 𝑎1𝑛 𝑥𝑛

𝑓2 (𝑥) = 𝑎21 𝑥1 + 𝑎22 𝑥2 + ⋯ + 𝑎2𝑛 𝑥𝑛
⋮
𝑓𝑚 (𝑥) = 𝑎𝑚1 𝑥1 + 𝑎𝑚2 𝑥2 + ⋯ + 𝑎𝑚𝑛 𝑥𝑛
Podríamos escribir este sistema en forma de matriz, como

f(x) = Ax
Donde
𝑎11 𝑎12 ⋯ 𝑎1𝑛
𝑎21 𝑎22 ⋯ 𝑎2𝑛
A ≡[ ⋮ ⋮ ⋯ ⋮ ]
(𝑚×𝑛) 𝑎𝑚1 𝑎𝑚2 ⋯ 𝑎𝑚𝑛
Y x es el vector(𝑛×1) definido en [A.4.46]. Entonces
𝜕f
=A
𝜕x ′
𝐸𝑙 𝑇𝑒𝑜𝑟𝑒𝑚𝑎 𝑑𝑒 𝑇𝑎𝑦𝑙𝑜𝑟 𝑐𝑜𝑛 𝑀ú𝑙𝑡𝑖𝑝𝑙𝑒𝑠 𝐴𝑟𝑔𝑢𝑚𝑒𝑛𝑡𝑜𝑠

Mar 𝑓: ℝ𝑛 → ℝ𝑚 como en [A.4.41], con continuas derivadas continuas. Anu expansión en serie de
Taylor de imprimación orden de 𝑓(x) alrededor de c está dada por
𝜕𝑓
𝑓(x) = 𝑓(c) + ′ | . (x − c) + 𝑅1 (c, x).
𝜕x x=c
[A.4.47]
Aqui 𝜕𝑦/𝜕𝑥 ′ denota el vector(1×𝑛) que es la transposición del gradiente, y la nueva
versión 𝑅1 (. ) satisface
𝑛 𝑛
1 𝜕𝑦 2 𝑓
𝑅1 (𝑐, 𝑥) = ∑ ∑ | . (𝑥𝑖 − 𝑐𝑖 )(𝑥𝑗 − 𝑐𝑗 )
2 𝜕𝑥𝑖 𝑥𝑗
𝑖=1 𝑗=1
𝑥=𝛿(𝑖,𝑗)
Para 𝛿(𝑖, 𝑗) un vector (𝑛×1) potencialmente diferente para cada 𝑖 año 𝑗, con
cañada 𝛿(𝑖, 𝑗) entre c y x, es decir, 𝛿(𝑖, 𝑗) = 𝜆(𝑖, 𝑗)𝑐 + [1 − 𝜆(𝑖, 𝑗)]𝑥 para algunos 𝜆(𝑖, 𝑗) de
entre 0 y 1. Además
𝑅1 (𝑐 − 𝑥)
lim =0
𝑥→𝑐 (𝑐 − 𝑥)′ (𝑐 − 𝑥)1/2
Anu implicación de [A.4.47] es que si queremos aproximar las consecuencias 𝑓 de cambiar
simultáneamente de Pará 𝑥1 por Δ1 , 𝑥2 por Δ2 ,…, y 𝑥𝑛 por Δ𝑛 , podríamos usar
𝑓(𝑥1 + Δ1 , 𝑥2 + Δ2 , … , 𝑥𝑛 + Δ𝑛 ) − 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
𝜕𝑓 𝜕𝑓 𝜕𝑓
≅ 𝜕𝑥 . Δ1 + 𝜕𝑥 . Δ2 + ⋯ + 𝜕𝑥 . Δ𝑛 [A.4.48]
1 2 𝑛
Si 𝑓(. ) tiene continuas terceras derivadas, una expansión de la serie de Taylor de segundo
orden de 𝑓(𝑥) alrededor de c está dada por
𝜕𝑓
𝑓(𝑥) = 𝑓(𝑐) + 𝜕𝑥 ′ | (𝑥 − 𝑐)
𝑥=𝑐
1 𝜕2 𝑓
+ 2 (𝑥 − 𝑐)′ 𝜕𝑥𝜕𝑥 ′ | (𝑥 − 𝑐) + 𝑅2 (𝑥, 𝑐) [A.4.49]
𝑥=𝑐
Donde
𝑛 𝑛 𝑛
1 𝜕3𝑓
𝑅2 (𝑥, 𝑐) = ∑ ∑ ∑ | . (𝑥𝑖 − 𝑐𝑖 )(𝑥𝑗 − 𝑐𝑗 )(𝑥𝑘 − 𝑐𝑘 )
3! 𝜕𝑥𝑖 𝑥𝑗 𝑥𝑘
𝑖=1 𝑗=1 𝑘=1
𝑥=𝛿(𝑖,𝑗,𝑘)
Con 𝛿(𝑖, 𝑗, 𝑘) between 𝑐 s 𝑥 s
𝑅 (𝑐−𝑥)
lim (𝑐−𝑥)2′ (𝑐−𝑥)1/2 = 0
𝑥→𝑐

Integrales Multiples
La notación
𝑏 𝑑
∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 𝑑𝑥
𝑎 𝑐
Indica la siguiente operación: primera intregral
𝑑
∫ 𝑓(𝑥, 𝑦) 𝑑𝑦
𝑐
Con respecto a 𝑦, con 𝑥 mantenido fijo, e integrar la función resultante con respecto a 𝑥. Por
ejemplo,
1 2
1
∫ ∫ 𝑥 4 𝑦 𝑑𝑦 𝑑𝑥 = ∫ 𝑥 4 [(22 /2) − (02 /2)]𝑑𝑥 = 2[15 /5 − 05 /5] = 2/5
0
0 0
Siempre que f(x,y) es continuo, el orden de integración puede invertirse . Por ejemplo.
2 1
2
4
15 1 22
∫ ∫ 𝑥 𝑦 𝑑𝑥𝑑𝑦 = ∫ ( ) 𝑦 𝑑𝑦 = ( ). ( ) = 2/5.
0 5 5 5
0 0
A.5. Probabilidad y Estadística
Densidades y distribuciones
Una variable aleatoria o estocástica X se dice ser discreto valorar si puede adoptar sólo uno
de K valores particulares; llame a estos su distribución de probabilidad esx1 , x2 … . xk . un conjunto
de números que dan la probabilidad de cada resultado:
P{X=}= probabilidad de quexk x toma el valor 𝑥𝑘 . K=1, … ,K.
La suma de las probabilidades de la unidad:
𝑘
∑ 𝑃{𝑋 = 𝑥𝑘 } = 1
𝑘=1
Suponiendo que los posibles resultados son ordenados 𝑥1 < 𝑥2 < ⋯ < 𝑥𝑘 , la probabilidad de que
x tomé un valor tan menos o igual que el valor es dado por𝑥𝑗
𝑗
𝑃{𝑋 ≤ 𝑥𝑗 } = ∑ 𝑃{𝑋 = 𝑥𝑘 }.
𝑘=1
Si x es igual a una constante c con probabilidad 1, entonces X es nonstochastic.
La ley de la probabilidad para una variable aleatoria continua X valorado a menudo puede
ser descrito por la función de densidad con𝑓𝑥 (𝑥)
∞
∫−∞ 𝑓𝑥 (𝑥)𝑑𝑥 = 1. [A.5.1]
El subíndice X 𝑓𝑥 (𝑥) indica que se trata de densidad de la variable aleatoria X; el argumento x
de 𝑓𝑥 (𝑥) índices la integración en [A.5.1]. La función de distribución acumulativa de x
(denotada 𝐹𝑥 (𝑎)) da la probabilidad de que x tomé un valor inferior o igual a :
𝐹𝑥 (𝑎) = 𝑃{𝑋 ≤ 𝑎}
∞
= ∫ 𝑓𝑥 (𝑥)𝑑𝑥.
−∞
A.5.Probabilidad y Estadística 759

Momentos de población
La media de la población 𝜇 de una variable aleatoria continua de valores x está dada por
∞
𝜇 = ∫ 𝑥. 𝑓𝑥 (𝑥)𝑑𝑥,
−∞
Siempre existe esta integral. (En las fórmulas que siguen, tenemos por defecto para la sencillez de la
exposición que las funciones de densidad y el indicado hijo continua integrales todos existen.) es la
varianza de la población
∞
Var(X) = ∫ (𝑥 − μ)2 . 𝑓𝑥 (𝑥)𝑑𝑥.
−∞
La raíz cuadrada de la varianza se denomina la desviación estándar de la población.
En general, la población rth recuerdo es dada por
∞
∫ 𝑥′. 𝑓𝑥 (𝑥)𝑑𝑥.
−∞
La media de la población podría ser descrito como el primer momento de la población.
Expectativa
La media de la población 𝜇 es también llamada la expectativa de X, denotada e(x) o a veces
simplemente EX. En general, la expectativa de una función está dado por𝑔(𝑋)
∞
𝐸(𝑔(𝑋)) = ∫ 𝑔(𝑥). 𝑓𝑥 (𝑥)𝑑𝑥,
−∞
Donde es la densidad𝑓𝑥 (𝑥) de X. Por ejemplo, la población rth momrnt de X es la expectativa de
la 𝑋 𝑟 .
Considerar la variable aleatoria 𝑎 + 𝑏𝑋 para las constantes a y b. Su expectativa es
∞
𝐸(𝑎 + 𝑏𝑋) = ∫ [𝑎 + 𝑏𝑥]. 𝑓𝑥 (𝑥)𝑑𝑥
−∞
∞ ∞
= 𝑎 ∫ 𝑓𝑥 (𝑥)𝑑𝑥 + 𝑏 ∫ 𝑥. 𝑓𝑥 (𝑥)𝑑𝑥
−∞ −∞
= 𝑎 + 𝑏. 𝐸(𝑋).
La varianza de 𝑎 + 𝑏𝑋 es
∞
𝑉𝑎𝑟(𝑎 + 𝑏𝑋) = ∫ [(𝑎 + 𝑏𝑥) − (𝑎 + 𝑏𝜇)]2 . 𝑓𝑥 (𝑥)𝑑𝑥
−∞
∞
= 𝑏 2 . ∫−∞(𝑥 + 𝜇)2 . 𝑓𝑥 (𝑥)𝑑𝑥 [A.5.4]
= 𝑏 2 . 𝑉𝑎𝑟(𝑋).
La antera es el consiguiente útiles
𝐸(𝑋 2 ) = 𝐸[(𝑋 − 𝜇 + 𝜇)2 ]
= 𝐸[(𝑋 − 𝜇)2 + 2𝜇(𝑋 − 𝜇) + 𝜇2 ]
= 𝐸[(𝑋 − 𝜇)2 + 2𝜇. [𝐸(𝑥) − 𝜇] + 𝜇2
𝑉𝑎𝑟(𝑋) + 0 + [𝐸(𝑋)]2 .
Para simplificar la apariencia de expresiones, adoptamos la convención y la multiplicación
exponencial que se llevan a cabo ante la expectativa de operador. Por lo tanto, usaremos 𝐸(𝑋 −
𝜇 + 𝜇)2 para indicar la misma operación que [𝐸(𝑋 − 𝜇 + 𝜇)]2 . la plaza 𝐸(𝑋 − 𝜇 + 𝜇) está
indicado mediante paréntesis adicionales, como [𝐸(𝑋 − 𝜇 + 𝜇)]2 .
Muestra momentos
Un ejemplo de momento es una estimación de una población particular momento de base
de conjunto de datos observados, por ejemplo, { x1 , x2 … . xT }. momento es simple la media
simple,
1
𝑥̅ = ( ) . (x1 + x2 + ⋯ + xT ),
𝑇
Que es una manera natural de estimación de la media poblacional µ. La varianza simple,

𝑇
1
𝑠 ≡ ( ) . ∑(𝑥1 − 𝑥̅ )2 ,
2
𝑇
𝑖=1
Ofrece una estimación de la varianza de la población de 𝜎 2 . manera más general, la rth muestra
recuerdo es dada por
1
( ) . (𝑥 𝑟 1 + 𝑥 𝑟 2 + ⋯ + 𝑥 𝑟 T ),
𝑇
Donde 𝑥 𝑟 1 denota x1 planteó la rth potencia.
El sesgo y la eficiencia
Deje 𝜃̂ ser un cálculo simple de un vector de parámetros de población θ. Por ejemplo,
podría𝜃̂ ser la media simple 𝑥̅ y θ la media poblacional µ. La estimación se dice que es imparcial
si 𝐸(𝜃̂ ) = θ.
Supongamos que es una estimación imparcial. La estimación 𝜃̂ se dice que es eficaz si se da
el caso de que por cualquier otra estimación objetiva 𝜃̂ ∗, la siguiente matriz es semidefinite positivo:
′ ′
𝑃 = 𝐸 [(𝜃̂ ∗ − θ). (𝜃̂ ∗ − θ) ] − 𝐸 [(𝜃̂ − θ). (𝜃̂ ∗ − θ) ].
Distribuciones conjuntas
Para dos variables aleatorias X e Y con la densidad conjunta 𝑓𝑥, 𝑦(𝑥, 𝑦), calculamos la
probabilidad de la actividad conjunta que ambas 𝑋 ≤ 𝑎 y 𝑌 ≤ 𝑏 desde
𝑎 𝑏
𝑃{𝑋 ≤ 𝑎, 𝑌 ≤ 𝑏} = ∫ ∫ 𝑓𝑥, 𝑦(𝑥, 𝑦)𝑑𝑦 𝑑𝑥.
−∞ −∞
Esto puede ser representado en términos de la función de distribución acumulativa
conjunta:
𝐹𝑥, 𝑦(𝑎, 𝑏) = 𝑃{𝑋 ≤ 𝑎, 𝑌 ≤ 𝑏}.
La probabilidad de que, por sí solo,𝑋 ≤ 𝑎 puede calcularse a partir de
𝑎 𝑏
𝑃{𝑋 ≤ 𝑎, 𝑌 𝑎𝑛𝑦} = ∫−∞[∫−∞ 𝑓𝑥, 𝑦(𝑥, 𝑦)𝑑𝑦] 𝑑𝑥. [A.5.5]
Comparación de [A.5.5] con [A.5.2] revela que la densidad marginal se obtiene mediante la
integración de la densidad conjunta con respecto a𝑓𝑥(𝑥)𝑓𝑥, 𝑦(𝑥, 𝑦) y.
∞
𝑓𝑥 (𝑥) = [∫−∞ 𝑓𝑥. 𝑦(𝑥, 𝑦)𝑑𝑦]. [A.5.6.]
Distribuciones condicionales
La densidad condicional de Y DADO X está dada por
𝑓𝑥,𝑦 (𝑥,𝑦)
𝑦 𝑖𝑓 𝑓𝑥 (𝑥) > 0
𝑓 𝑌 (𝑥 ) ={ 𝑓𝑥 (𝑥) [A.5.7]
𝑋
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒.
Observe que esta cumpla con el requisito de una densidad [A.5.1]:
∞ 𝑓𝑥,𝑦 (𝑥, 𝑦)
𝑦
∫ 𝑓𝑌 ( ) 𝑑𝑦 = 𝑑𝑦
−∞ 𝑋 𝑥 𝑓𝑥 (𝑥)
∞
1
= ∫ 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦
𝑓𝑥 (𝑥) −∞
𝑓𝑥 (𝑥)
= 1.
𝑓𝑥 (𝑥)
Otra consecuencia evidente de definición en [A.5.7] es que anu densidad conjunta puede
ser escrita como el producto de la densidad y la densidad marginal condicional:
𝑦
𝑓𝑥. 𝑦(𝑥, 𝑦) = 𝑓𝑌 (𝑥 ) . 𝑓𝑥 (𝑥). [A.5.8]
𝑋
La expectativa de la condicional y dado que la variable aleatoria X toma el valor particular
de x es

∞
𝐸(𝑌|𝑋 = 𝑥) = ∫−∞ 𝑦. 𝑓𝑌|𝑋 (𝑦|𝑥)𝑑𝑦 [A.5.9]
Ley de expectativas iterado
Nota tht la expectativa condicional es una función del valor de la variable aleatoria X. Para
distintas realizaciones de X, la expectativa condicional será un número diferente. Supongamos que
consideramos 𝐸(𝑌|𝑋) como una variable aleatoria y tomar sus expectativas con respecto a la
distribución de X:
∞ ∞
𝐸𝑋 [(𝐸𝑌|𝑋 (𝑌|𝑋)] = ∫ [∫ 𝑦. 𝑓𝑌|𝑋 (𝑦|𝑥)𝑑𝑦]𝑓𝑥 (𝑥)𝑑𝑥.
−∞ −∞
Resultados [A.5.8] y [A.5.6] puede ser utilizado para expresar esta expectativa como
∞ ∞ ∞
∫ ∫ 𝑦. 𝑓𝑌,𝑋 (𝑦, 𝑥)𝑑𝑦𝑑𝑥 = ∫ 𝑦. 𝑓𝑦 (𝑦)𝑑𝑦 .
−∞ −∞ −∞
Así,
𝐸𝑋 [𝐸𝑌|𝑋 (𝑌|𝑋)] = 𝐸𝑌 (𝑌) [A.5.10]
En Other palabras, la variable aleatoria E(𝑌|𝑋) tiene la misma expectativa que la variable aleatoria
Y. Esto es conocido como la ley de la iterada expectativas.
Independencia
Las variables Y y X se dice que si independet
𝑓𝑌,𝑋 (𝑦, 𝑥) = 𝑓𝑌 (𝑦). [A.5.11]
Comparando [A.5.11] con [A.5.8] si Y y X son independientes, entonces

𝑓𝑌|𝑋 (𝑦|𝑥) = 𝑓𝑌 (𝑦). [A.5.12]
La covarianza
Deje que 𝜇𝑋 denotan E(X) y 𝜇𝑌 denoote E(Y).La población la covarianza entre X e Y es
dado por
∞ ∞
𝐶𝑜𝑣(𝑋, 𝑌) ≡ ∫−∞ ∫−∞(𝑥 − 𝜇𝑋 )(y − 𝜇𝑌 ). 𝑓𝑌,𝑋 (𝑦, 𝑥)dydx. [A.5.13]
Correlación
La correlación poblacional entre X e Y viene dada por:
𝐶𝑂𝑉 (𝑋, 𝑌)
𝑐𝑜𝑟𝑟(𝑋, 𝑌) =
√𝑉𝑎𝑟(𝑥) . √𝑉𝑎𝑟(𝑦)
Si la covarianza (s) correlación entre X e Y es cero. Entonces se dice que X e Y no están
correlacionados.
Relación Entre Correlación E Independencia

Tenga en cuenta que si X e Y son independientes, entonces no están correlacionados:
∞ ∞
𝑐𝑜𝑣(𝑥, 𝑦) = ∫ ∫ (𝑥 − 𝜇𝑥 )(𝑦 − 𝜇𝑦 ). 𝑓𝑥 (𝑥). 𝑓𝑦 (𝑦)𝑑𝑦 𝑑𝑥

−∞ −∞
∞ ∞
= ∫ (𝑥 − 𝜇𝑥 ) [ ∫ (𝑦 − 𝜇𝑦. )𝑓𝑦 (𝑦)𝑑𝑦 ] 𝑓𝑥 (𝑥)𝑑𝑥

−∞ −∞
Además,
∞ ∞ ∞
[ ∫ (𝑦 − 𝜇𝑦 ). 𝑓𝑦 (𝑦)𝑑𝑦 ] = ∫ 𝑦. 𝑓𝑦 (𝑦) 𝑑𝑦 − 𝜇𝑦 . ∫ 𝑓𝑦 (𝑦)𝑑𝑦

−∞ −∞ −∞
= 𝜇𝑦 − 𝜇𝑦 = 0

Por tanto, si X e Y son independientes, entonces cov (x, y) = 0, como se reivindica.
La proposición inversa, sin embargo, no es verdadera - el hecho de que X e Y no están
correlacionados no es suficiente para deducir que son independientes. Para construir un
contraejemplo, supongamos que Z e Y son variables aleatorias independientes cañada anu con
media cero, y que 𝑋 ≡ 𝑍. 𝑌 . Entonces
𝐸(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 ) = 𝐸[(𝑍𝑌). 𝑌]
= 𝐸(𝑍). 𝐸(𝑌 2 ) = 0
Y por tanto X e Y no están correlacionados. Sin embargo, no son independientes; el valor de ZY
depende de Y.
Ortogonalidad
Considerarse una muestra de tamaño T en dos variables
aleatorias, {(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑇 } y {𝑦1 , 𝑦2,⋯ , 𝑦𝑇 }. las dos variables se dice que son ortogonales si
∑ 𝑥𝑡 𝑦𝑡 = 0
𝑡=1
Por lo tanto, la ortogonalidad es el análogo de ausencia de correlación muestral.
Por ejemplo, dejar 𝑥𝑡 = 1 .denotan una secuencia de constantes y dejar 𝑦𝑡 = 𝑤𝑡 − 𝑤 ̅,
1 𝑇
Dónde 𝑤 ̅̅̅ ≡ ( ) ∑𝑡=1 𝑤𝑡 , es la media muestral de la variable W. entonces x e y son ortogonales:
𝑇
𝑇 𝑇
∑ 1. (𝑤𝑡 − 𝑤 ̅ =0
̅ ) = ∑ 𝑤𝑡 − 𝑇𝑊
𝑡=1 𝑡=1
Momentos de población de sumas

Considerarse la variable aleatoria 𝑎𝑋 + 𝑏𝑌 . Su media está dada por
∞ ∞
𝐸(𝑎𝑋 + 𝑏𝑌 = ∫ ∫ (𝑎𝑥 + 𝑏𝑦). 𝑓𝑥.𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥

−∞ −∞
∞ ∞ ∞ ∞
= 𝑎 ∫ ∫ 𝑥. 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥 + 𝑏 ∫ ∫ 𝑦. 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥

−∞ −∞ −∞ −∞
∞ ∞
= 𝑎 ∫ 𝑥. 𝑓𝑥 (𝑥)𝑑𝑥 + 𝑏 ∫ 𝑦. 𝑓𝑦 (𝑦)𝑑𝑦
−∞ −∞
Y entonces
𝐸(𝑎𝑋 + 𝑏𝑌) = 𝑎𝐸(𝑋) + 𝑏𝐸(𝑌) [A. 5.14]
La varianza de (𝑎𝑋 + 𝑏𝑌) es.
∞ ∞
2
𝑣𝑎𝑟(𝑎𝑋 + 𝑏𝑌) = ∫ ∫ [(𝑎𝑥 + 𝑏𝑦) − (𝑎𝜇𝑥 + 𝑏𝜇𝑦) ] . 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥
−∞ −∞
∞ ∞
= ∫ ∫ [(𝑎𝑥 − 𝑎𝜇𝑥 )2 + 2(𝑎𝑥 − 𝑎𝜇𝑥 )(𝑏𝑦 − 𝑏𝜇𝑦 ) + (𝑏𝑦 − 𝜇𝑦 )2 . 𝑓𝑥.𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥 ]
−∞ −∞
∞ ∞ ∞ ∞
= 𝑎2 ∫−∞ ∫−∞(𝑥 − 𝜇𝑥 )2 . 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥 2𝑎𝑏 ∫−∞ ∫−∞(𝑥 − 𝜇𝑥 )(𝑦 −
∞ ∞ 2
𝜇𝑦 ). 𝑓𝑥,𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥 + 𝑏 2 ∫−∞ ∫−∞(𝑦 − 𝜇𝑦 ) . 𝑓𝑥.𝑦 (𝑥, 𝑦)𝑑𝑦 𝑑𝑥

Así
𝑣𝑎𝑟(𝑎𝑋 + 𝑏𝑌) = 𝑎2 𝑣𝑎𝑟(𝑋) + 2𝑎𝑏𝑐𝑜𝑣(𝑋, 𝑌) + 𝑏 2 𝑣𝑎𝑟(𝑦) [A. 5.15]
Cuando X e Y no están correlacionados
𝑣𝑎𝑟(𝑎𝑋 + 𝑏𝑌) = 𝑎2 𝑣𝑎𝑟(𝑥) + 𝑏 2 𝑣𝑎𝑟(𝑦)
Es fácil generalizar los resultados [𝐴. 5.14] y [𝐴. 5.15] si {𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 } denota una colección de
n variables aleatorias, entonces
𝐸(𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑛 𝑋𝑛 = 𝑎1 𝐸(𝑋1 ) + 𝑎2 𝐸(𝑋2 ) + ⋯ + 𝑎𝑛 𝐸(𝑋𝑛 ) [A. 5.16]
= 𝑣𝑎𝑟(𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑛 𝑋𝑛
= 𝑎12 𝑣𝑎𝑟(𝑥1 ) + 𝑎22 𝑣𝑎𝑟(𝑥2 ) + ⋯ + 𝑎𝑛2 𝑣𝑎𝑟(𝑥𝑛 ) + 2𝑎1 𝑎2 . 𝑐𝑜𝑣(𝑥1 , 𝑥2 )
+ 2𝑎1 𝑎3 . 𝑐𝑜𝑣(𝑥1, 𝑥3 ) + ⋯ + 2𝑎1 𝑎𝑛 . 𝑐𝑜𝑣(𝑥1 , 𝑥𝑛 ) + 2𝑎2 𝑎3 . 𝑐𝑜𝑣(𝑥2 , 𝑥3 )
+ 2𝑎2 𝑎4 . 𝑐𝑜𝑣(𝑥2 , 𝑥4 ) + ⋯ + 2𝑎𝑛−1 𝑎𝑛 . 𝑐𝑜𝑣(𝑥𝑛−1 , 𝑥𝑛 ) [A. 5.17]
Si las X no están correlacionadas, la [𝐴. 5.17] simplifis a
𝑉𝑎𝑟(𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑛 𝑋𝑛 ) [A.5.18]
2 2 2
= 𝑎1 . 𝑉𝑎𝑟(𝑋1 ) + 𝑎2 . 𝑉𝑎𝑟(𝑋2 ) + ⋯ + 𝑎𝑛 . 𝑉𝑎𝑟(𝑋𝑛 )
−1 ≤ 𝐶𝑜𝑟𝑟(𝑋, 𝑌) ≤ 1. [A.5.19]
𝑋 − 𝜇𝑋 𝑌 − 𝜇𝑋
𝑍= −
√𝑉𝑎𝑟(𝑋) √𝑉𝑎𝑟(𝑌)
(𝑋 − 𝜇𝑋 ) (𝑌 − 𝜇𝑌 ) 2
𝐸[ − ] ≥ 0.
√𝑉𝑎𝑟(𝑋) √𝑉𝑎𝑟(𝑌)
𝐸(𝑋 − 𝜇𝑋 )2 𝐸(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 ) 𝐸(𝑌 − 𝜇𝑌 )2
−2 + ≥ 0.
𝑉𝑎𝑟(𝑋) √𝑉𝑎𝑟(𝑋)√𝑉𝑎𝑟(𝑌) 𝑉𝑎𝑟(𝑌)
1 − 2. 𝐶𝑜𝑟𝑟(𝑋, 𝑌) + 1 ≥ 0,
𝐶𝑜𝑟𝑟(𝑋, 𝑌) ≥ −1
1 −(𝑦 −𝜇)2
𝑓𝑌𝑡 (𝑦𝑡 ) = . exp [ 𝑡 2 ]. [A.5.20]
√2𝜋𝜎 2𝜎
𝑌𝑡 ~𝑁(𝜇, 𝜎 2 )
Para indicar que la densidad de Yt es dada por [A.5.20]
𝐸(𝑌𝑡 − 𝜇)𝑟 = 0 Para 𝑟 = 1,3,5, …
El cuarto momento centrado es
𝐸(𝑌𝑡 − 𝜇)4 = 3𝜎 4 .
De sesgo y curtosis
El sesgo de una variable y, con media 𝜇 es representada por
𝐸(𝑌𝑡 − 𝜇)3
.
[𝑉𝑎𝑟(𝑌𝑡 )]3/2
Una variable con un sesgo negativo es más probable que sea muy por debajo de la media de lo que
va a ser muy por encima de la media. La curtosis es
𝐸(𝑌𝑡 − 𝜇)4
.
[𝑉𝑎𝑟(𝑌𝑡 )]2
Una distribución cuya curtosis excede 3 tiene más masa en las colas de una distribución gaussiana
con la misma varianza.
Otras distribuciones univariado útiles

Deje (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ser independientes e idénticamente distribuidas (i.i.d.) N(0,1) variables y
considerar la suma de sus plazas:
𝑌 = 𝑋12 , 𝑋22 , … , 𝑋𝑛2 .
Y se dice que tiene una distribución chi-cuadrado con n grados de libertad, indicado

𝑌~𝑥 2 (𝑛)
2
Let 𝑋~𝑁(0,1) y 𝑌~𝑥 (𝑛) con X e Y independientes. Luego
𝑋
𝑍=
√𝑌/𝑛
Se dice que tiene una distribución t con n grados de libertad, indicado
𝑍~𝑡(𝑛).
Let y 𝑌1 ~𝑥 2 (𝑛1 )𝑌~𝑥 2 (𝑛2 ) acondicionado 𝑌1 y 𝑌2 independiente. Luego
𝑌1 /𝑛1
𝑍=
𝑌2 /𝑛2
Se dice que tiene una distribución F con n1 grados de libertad del numerador y denominador n2
grados de libertad, indicado
𝑍~𝐹(𝑛1 , 𝑛2 ).
Tenga en cuenta que si 𝑍~𝑡(𝑛), entonces 𝑍 2 ~𝐹(1, 𝑛).
Función de probabilidad
Supongamos que hemos observado una muestra de tamaño T sobre algunas variables aleatorias YT.
Vamos 𝑓𝑦1 .𝑦2 …,𝑦𝑇 (𝑦1 . 𝑦2 … , 𝑦𝑇 ; 𝜃) denotan la densidad conjunta de Y1, Y2,…,YT
La notación subraya que esta densidad conjunta se presume que depende de un parámetro de la
población de vectores 𝜃. Si queremos ver este conjunto como una función de la
densidad 𝜃 (teniendo en cuenta los datos en Y), el resultado se denomina función de probabilidad
de la muestra.
Por ejemplo, considere una muestra de T i.i.d sacar de una de las variables 𝑁(𝜇, 𝜎 2 ) es el producto
de los términos individuales como [A.5.20]:
𝑇
2)
𝑓𝑦1 .𝑦2 …,𝑦𝑇 (𝑦1 . 𝑦2 … , 𝑦𝑇 ; 𝜇, 𝜎 = ∏ 𝑓𝑦1 (𝑦1 : 𝜇, 𝜎 2 ).
𝑡=1
El registro la densidad conjunta es la suma de los registros de estos términos.
𝑙𝑜𝑔𝑓𝑦1 .𝑦2 …,𝑦𝑇 (𝑦1 . 𝑦2 … , 𝑦𝑇 ; 𝜇, 𝜎 2 )
= ∑𝑇𝑖=1 log 𝑓𝑌1 (𝑦𝑇 ; 𝜇, 𝜎 2 ) [A.5.21]
𝑇
𝑇 𝑇 (𝑦1 − 𝜇)2
= (− ) log(2𝜋) − ( ) log( 𝜎 2 ) − ∑ .
2 2 2 𝜎2
𝑡=1
Así, para una muestra de T variables aleatorias gaussiana con media 𝜇 y varianza 𝜎 2 , el registro de
muestra likelinood función, denotada 𝐿( 𝜇, 𝜎 2 ; 𝑦1 . 𝑦2 , … , 𝑦𝑇 ), viene dada por:
(𝑦 −𝜇)2
𝐿(𝜇, 𝜎 2 ; 𝑦1 . 𝑦2 , … , 𝑦𝑇 ) = 𝑘 − (𝑇/2)log( 𝜎 2 ) − ∑𝑇𝑡=1 21 𝜎2 [A.5.22]
En el cálculo de la muestra para el logaritmo de verosimilitud, función, cualquier término constante
que no implique el parámetro 𝜇 o 𝜎 2 puede ser ignorado en la mayoría de los propósitos. En
[A.5.23], este término es constante
𝑘 − (𝑇/2)log(2𝜋).
Estimación de probabilidad máxima

Para una muestra dada de (𝑦1 . 𝑦2 , … , 𝑦𝑇 ), el valor de la observación 𝜃 que hace la muestra
probabilidad tan grande como sea posible se denomina maximimun probabilidad
de estimación de la media poblacional 𝜇 para una muestra de tamaño i.i.d. desde
una 𝑁(𝜇, 𝜎 2 ) distribución t se encuentra estableciendo la derivada de [A.5.23] con
respecto a 𝜇 igual a cero.
𝑇
𝜕ʆ 𝑦1 − 𝜇
=∑ = 0.
𝜕𝜇 2 𝜎2
𝑡=1
O

1
𝜇̂ = (𝑇) ∑𝑇𝑡=1 𝑦𝑡 . [A.5.23]
2
El MLE de 𝜎 se caracteriza por
𝜕ʆ 𝑇 (𝑦1 −𝜇)2
= − 2 𝜎2 + ∑𝑇𝑡=1
𝜕 𝜎2 2 𝜎4
=0∙ [A.5.24]
Sustituyendo [A.5.23] en [A.5.24] y resolver para da 𝜎 2
1
𝜎̂ 2 = (𝑇) ∑𝑇𝑡=1(𝑦1 − 𝜇̂ )2 . [A.5.25]
Así, la media de la muestra es el MLE de la media de la población y la
muestra de Gaussian variables.
Distribución gaussiana multivariada

Veamos
𝑌 = (𝑌1 , 𝑌2 , … , 𝑌𝑛 )´
Es una colección de n variables aleatorias. El vector y multivariado Normal o gaussiana
multivariada, distribución si su densidad toma la forma
𝑓𝑦 (𝑦) = (2𝜋)−𝑛/2 𝑒𝑥𝑝[(−1/2)(𝑦 − 𝜇)]. [A.5.26]
La media de Y es dada por el vector 𝜇:
𝐸(𝑌) = 𝜇;
Y su matriz de varianzas-covarianzas es Ω:
𝐸(𝑌 − 𝜇)(𝑌 − 𝜇)´ = Ω.
Nota que (𝑌 − 𝜇)(𝑌 − 𝜇)´ es simétrica y semidefinite positivo para cualquier año, en el sentido de
que toda la matriz de varianza-covarianza debe ser simétrico y semidefinitive positivo; la forma de
la probabilidad en [A.5.26] asume que Ω es positivo definitivo.
Resultado [A.4.15] se utiliza a veces para luego whrite densidad gaussiana multivariable en una
forma equivalente:
𝑓𝑦 (𝑦) = (2𝜋)−𝑛/2 |Ω−1 |1/2 𝑒𝑥𝑝[(−1/2)(𝑦 − 𝜇)´Ω−1 (𝑦 − 𝜇)].
Si 𝑌~𝑁(𝜇, Ω), luego de cualquier (𝑟×𝑛) matriz nonstochastic H' y el (𝑟×1) vector b.
HÝ + b~N((H´𝜇 + 𝑏)𝐻´ΩH).
La correlación y la independencia para multivariadas Gaussianas

Y si tiene una distribución gaussiana multivariada, ausencia de correlación implica indenpendence.
Para ver esto, tenga en cuenta que si los elementos de y no están correlacionadas, entonces 𝐸[(𝑌𝑖 −
𝜇)(𝑌𝑗 − 𝜇)] = 0 para 𝑖 ≠ 𝑗 y el off - elementos de la diagonal Ω son cero.
𝜎 21 0 ⋯ 0
2
Ω= 0 𝜎 2 ⋯ 0 ∙
⋮ ⋮ … ⋮
[ 0 0 … 𝜎 2
𝑛]
Para tal una matriz diagonal, Ω
|Ω| = 𝜎 21 𝜎 2 2 ∙∙∙ 𝜎 2 𝑛 [A.5.27]
1/ 𝜎 21 0 ⋯ 0
Ω −1
= 0 1/ 𝜎 2 2 ⋯ 0 [A.5.28]
⋮ ⋮ … ⋮
[ 0 0 … 1/ 𝜎 2 𝑛 ]
Sustituyendo [A.5.27] y [A.5.28] en [A.5.26] produce

𝑓𝑦 (𝑦) = (2𝜋)−𝑛/2 [ 𝜎 21 𝜎 2 2 ∙∙∙ 𝜎 2 𝑛 ]−1/2 .
×exp[(−1/2){(𝑦1 − 𝜇1 )2 / 𝜎 21 + (𝑦2 − 𝜇2 )2 / 𝜎 2 2 +∙∙∙

¿Cuál es el producto de n univariado densidades gaussiana? Desde la densidad conjunta es el
producto de las densidades individuales, las variables aleatorias (𝑌1 . 𝑌2 , … , 𝑌𝑛 ) son independientes.
Límite de probabilidad
Deje que (𝑋1 . 𝑋2 , … , 𝑋𝑇 ) denotan una secuencia de variables aleatorias. A menudo estamos
interesados en lo que sucede a esta secuencia como T se convierte en grande. Por ejemplo, XT
puede denotar la media muestral de T observaciones:
𝑋𝑇 = (1/𝑇) ∙ (𝑌1 + 𝑌2 +∙∙∙ +𝑌𝑇 ) [A.5.29]
En cuyo caso podríamos querer conocer las propiedades de la muestra meam como el tamaño de la
muestra T crece.
La secuencia {𝑋1 . 𝑋2 , … , 𝑋𝑇 } se dice que convergen en la probabilidad de c si para todo ℰ >
0 y 𝛿 > 0 existe un valor n tal que para todo .𝑇 ≥ 𝑁
𝑃{|𝑋𝑇 − 𝑐| > 𝛿} < ℰ. [A.5.30]
Cuando [A.5.30] está satisfecho, el número c se llama la probabilidad de limitar o plim, de la
secuencia 𝑋1 , 𝑋2 , … , 𝑋𝑇 . Esto es a veces indicado como
𝑃
𝑋𝑇 → 𝑐.
Ley de los grandes números

Bajo ciertas condiciones generales detalladas en el Capítulo 7, la media de la muestra
[A.5.29] converge en probabilidad a la media de la población:
𝑃
(1/𝑇) ∙ (𝑌1 + 𝑌2 +∙∙∙ +𝑌𝑇 ) → 𝐸(𝑌𝑡 ). [A.5.31]
Cuando [A.5.31] contiene, podemos decir que la media muestral da una estimación
coherente de la media de la población.
Convergencia en el cuadrado de la media
Una condición más fuerte que la convergencia en probabilidad es el cuadrado de la media de la
convergencia. La secuencia {𝑋1 . 𝑋2 , … , 𝑋𝑇 } se dice que convergen en el cuadrado de la media si
para cada ℰ > 0 existe un valor n tal que para todos 𝑇 ≥ 𝑁,
𝐸(𝑋𝑇 − 𝑐)2 < ℰ. [A.5.32]
Nos indican que la secuencia convergues a c en el cuadrado de la media de la siguiente manera:
𝑚.𝑠
𝑋𝑇 → 𝑐.
Convergencia en el cuadrado de la media implica convergencia en probabilidad, pero la
convergencia en probabilidad no implica la convergencia en el cuadrado de la media.
Apéndice A Referencias
Chiang, Alpha C. 1974 métodos fundamentales de economía matemática 2d ed. Nueva
York: MacGraw-Hill.
Hoel, Paul G. Sidney C. Puerto, y Charles J. Stone 1971 Introducción a la teoría de la probabilidad
de Boston: Houghton Mifflin.
J. Johnston 1984 métodos econométricos, 3ª ed.: McGraw-Hill de Nueva York.
Lindgren, Bernard W. 1976 teoría estadística 3d ed. Nueva York: Macmillan.
Magnus, Jan R. y Heinz Neudecker 1988: matriz Cálculo Diferencial con
aplicaciones las estadísticas de la onu y econometría. New York: Wiley.
Marsden, Jerrold E. 1974. Análisis clásico elemental. San Francisco: Freeman.
O'Nan, Michael 1976. Álgebra lineal 2D, ed. NewYork: Harcourt Brace Jovanovich.
Strang, Gilbert 1976. Álgebra lineal y sus aplicaciones. New York: Academic Press.
Henri Theil, 1971. Principales de Econometría. New York: Wiley.
Tomás, George B., Jr. 1972 Cálculo y geometría analítica, ed. alternativo Leer Mas.:Addison-
Wesley Publishing Company, Inc.
Apéndice A Referencias 767

B
Cuadros estadísticos
Cuadro B.1
Distribución normal estándar
Ar ea = P rob (Z≥ 𝑧0 )
0 Zo
Segundo decimal de 𝑧0
𝑧0 .00 .01 .02 .03 .04 .05 0,06 .07 .08 0,09
0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
0.1 .4602 .4562 .4.522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
0.7 .2420 .2389 .2358 .2327 .2296 .2766 .2236 .2206 .2177 .2148
0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
1.4 .0808 .0793 .077S .0764 .0749 .0735 .0722 .0708 .0694 .0681
(Continúa en la página siguiente).
768 Apéndice B | Tablas Estadísticas

Cuadro B.1. (Continuación)
Segundo decimal de la 𝑧𝑜
Zo .00 .01 .02 .03 .04 .05 0,06 .07 .08 0,09
1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559
1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
1.8 .0359 .0352 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
2.1. .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
2.7 0,0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
2.9 .0019 .0018 .0017 .0017 .0016 .0016 .0015 .0015 .0014 .0014
3.0 .00135
3.5 .000 233
4.0 .000 031 7
4.5 .000 003 40
5.0 .000 000 287
Las entradas de la tabla de la probabilidad de que dé un N
(0, 1) la variable toma un valor mayor que o igual a z".
Por ejemplo, si Z ~ N (0, 1), la probabilidad de que Z > 1,96
= 0.0250. Por la simetría, las entradas de la tabla
También podría interpretarse como la probabilidad de
que N(0. 1) la variable toma un valor inferior o igual a - 𝑧𝑜 .
Fuente: Thomas H. Wonnacott y Ronald
J. Wonnacott. Introducción a la estadística. 2d ed., pág.
480. Copyright © 1972 por John Wiley & Sons, Inc., de
Nueva York. Reimpreso con permiso de John Wiley & Sons.
Inc.
Apéndice B | Tablas Estadísticas 769

Cuadro B.2
Distribución 𝒙𝟐
Grados de Probabilidad de que x2(M) es mayor que el de entrada

Libertad
(M) 0.995 0.990 0,975 0.950 0.900 0,750 0.500
1 4 x10−5 2x10−4 0.0010.0510.21 0.0040.1030.352 0.0160.211 0.102 0.4551.392.
2 0.010 0.020 60.484 0.711 0.5841.06 0.5751.21 373.36
3 0.072 0.115 1.92
4 0.207 0.297
5 0.412 0.554 0.831 1.15 1.61 2.67 4.35
6 0.676 0.872 1.24 1.64 2.20 3.45 5.35
7 0.989 1.24 1.69 2.17 2.83 4.25 6.35
8 1.34 1.65 2.18 2.73 3.49 5.07 7.34
9 1.73 2.09 2.70 3.33 4.17 5.90 8.34
10 2.16 2.56 3.25 3.94 4.87 6.74 9.34
11 2.60 3.05 3.82 4.57 5.58 7.58 10.3
12 3.07 3.57 4.40 5.2.3 6.30 8.44 11.3
13 3.57 4.11 5.01 5.89 7.04 9.30 12.3
14 4.07 4.66 5.63 6.57 7.79 10.2 13.3
15 4.60 5.23 6.26 7.26 8.55 11.0 14.3
16 5.14 5.81 6.91 7.96 9.31 11.9 15.3
17 5.70 6.41 7.56 8.67 10.1 12.8 16.3
18 6.26 7.01 8.23 9.39 10.9 13.7 17.3
19 6.84 7.63 8.91 10.1 11.7 14.6 18.3
20 7.43 8.26 9.59 10.9 12.4 15.5 19.3
21 8.03 8.90 10.3 11.6 13.2 16.3 20.3
72 8.64 9.54 11.0 12.3 14.0 17.2 21.3
23 9.26 10.2 11.7 13.1 14.8 18.1 22.3
24 9.89 10.9 12.4 13.8 15.7 19.0 23.3
25 10.5 11.5 13.1 14.6 16.5 19.9 94.3
26 11.2 12.2 13.8 15.4 17.3 20.8 25.3
27 11.8 12.9 14.6 16.2 18.1 21.7 26.3
28 12.5 13.6 15.3 16.9 18.9 22.7 27.3
29 13.1 14.3 16.0 17.7 19.8 23.6 28.3
30. 13.8 15.0 16.8 18.5 20.6 24.5 29.3
40 20.7 77.2 24.4 26.5 29.1 33.7 39.3
50 28.0 29.7 32.4 34.8 37.7 42.9 49.3
60 35.5 37.5 40.5 43.2 46.5 52.3 59.3
70 43.3 45.4 48.8 51.7 55.3 61.7 69.3
80 51.2 53.5 57.2 60.4 64.3 71.1 79.3
90 59.2 61.8 65.6 69.1 73.3 80.6 89.3
100 67.3 70.1 74.2 77.9 82.4 90.1 99.3

Cuadro B.2 (continua)
Grados de Probabilidad de que x2(M) es mayor que el de entrada

Libertad
(m) 0.250 0.100 0.050 0.025 0.010 0.005 0.001
1 1.32 2.71 3.84 5.02 6.63 7.88 10.8
2 2.77 4.61 5.99 7.38 9.21 10.6 13.8
3 4.11 6.25 7.81 9.35 11.3 12.8 16.3
4 5.39 7.78 9.49 11.1 13.3 14.9 18.5
5 6.63 9.24 11.1 12.8 15.1 16.7 20.5
6 7.84 10.6 12.6 14.4 16.8 18.5 22.5
7 9.04 12.0 14.1 16.0 18.5 20.3 24.3
8 10.2 13.4 15.5 17.5 20.1 22.0 26.1
9 11.4 14.7 16.9 19.0 21.7 23.6 27.9
10 12.5 16.0 18.3 20.5 23.2 25.2 29.6
11 13.7 17.3 19.7 21.9 24.7 26.8 31.3
12 14.8 18.5 21.0 23.3 26.2 28.3 32.9
13 16.0 19.8 22.4 24.7 27.7 29.8 34.5
14 17.1 21.1 23.7 26.1 29.1 31.3 36.1
15 18.2 22.3 25.0 27.5 30.6 32.8 37.7
16 19.4 23.5 26.3 28.8 32.0 34.3 39.3
17 20.5 24.8 27.6 30.2 33.4 35.7 40.8
18 21.6 26.0 28.9 31.5 34.8 37.2 42.3
19 22.7 27.2 30.1 32.9 36.2 38.6 43.8
20 23.8 28.4 31.4 34.2 37.6 40.0 45.3
21 24.9 29.6 32.7 35.5 38.9 41.4 46.8
22 26.0 30.8 33.9 36.8 40.3 42.8 48.3
23 27.1 32.0 35.2 38.1 41.6 44.2 49.7
24 28.2 33.2 36.4 39.4 43.0 45.6 51.2
25 29.3 34.4 37.7 40.6 44.3 46.9 52.6
26 30.4 35.6 38.9 41.9 45.6 48.3 54.1
27 31.5 36.7 40.1 43.2 47.0 49.6 55.5
28 32.6 37.9 41.3 44.5 48.3 51.0 56.9
29 33.7 39.1 42.6 45.7 49.6 52.3 58.3
30 34.8 40.3 43.8 47.0 50.9 .53.7 59.7
40 45.6 51.8 55.8 59.3 63.7 66.8 73.4
50 56.3 63.2 67.5 71.4 76.2 79.5 86.7
60 67.0 74.4 79.1 83.3 88.4 92.0 99.6
70 77.6 85.5 90.5 95.0 100 104 112
80 88.1 96.6 102 107 112 116 125
90 98.6 108 113 118 124 128 137
100 109 118 124 130 136 140 149
La probabilidad indicada en la cabecera de la columna es la probabilidad indicada en la
cabecera de la columna es el área en la parte derecha de la cola. Por ejemplo, hay un 10% de
probabilidad de que una variable x2 con 2 grados de libertad sería mayor que 4,61.
Fuente: Adaptado de Henri Theil. Principios de la econometría, págs. 718-19. Copyright © 1971 por
John Wiley & Sons. Inc.. Nueva York. También Thomas H. Wonnacott y Ronald
J. Wonnacott. Introducción a la estadística. 2ª ed., pág. 482. Copyright © 1972 por John Wiley &
Sons. Inc. de Nueva York. Reimpreso con permiso de John Wiley & Sons, Inc.

Cuadro B.3.
La distribución t
Grados de Probabilidad de que t(m) es mayor que el de entrada
Libertad
(M) 0.25 0.10 0.05 0.025 0.010 0.005 0.001
1 1.000 3.078 6.314 12.706 31.821 63.657 318.31
2 .816 1.886 2.920 4.303 6.965 9.925 22.376
3 .765 1.638 2.353 3.182 4.541 5.841 10.213
4 .741 1.533 2.132 2.776 3.747 4.604 7.173
5 .727 1.476 2.015 2.571 3.365 4.032 5.893
6 .718 1.440 1.943 2.447 3.143 3.707 5.208
7 .711 1.415 1.895 2.365 2.998 3.499 4.785
8 .706 1.397 1.860 2.306 2.896 3.355 4.501
9 .703 1.383 1.833 2.262 2.821 3.250 4.297
10 .700 1.372 1.812 2.228 2.764 3.169 4.144
11 .697 1.363 1.796 2.201 2.718 3.106 4.025
12 .695 1.356 1.782 2.179 2.681 3.055 3.930
13 .694 1.350 1.771 2.160 2.650 3.012 3.852
14 .692 1.345 1.761 2.145 2.624 2.977 3.787
15 .691 1.341 1.753 2.131 2.602 2.947 3.733
16 .690 1.337 1.746 2.120 2.583 2.921 3.686
17 .689 1.333 1.740 2.110 2.567 2.898 3.646
18 .688 1.330 1.734 2.101 2.552 2.878 3.610
19 .688 1.328 1.729 2.093 2.539 2.861 3.579
20 .687 1.325 1.725 2.086 2.528 2.845 3.552
21 .686 1.323 1.721 2.080 2.518 2.831 3.527
22 .686 1.321 1.717 2.074 2.508 2.819 3.505
23 .685 1.319 1.714 2.069 2.500 2.807 3.485
24 .685 1.318 1.711 2.064 9.492 2.797 3.467
25 .684 1.316 1.708 2.060 2.485 2.787 3.450
26 .684 1.315 1.706 2.056 2.479 2.779 3.435
27 .684 1.314 1.703 2.052 2.473 2.771 3.421
28 .683 1.313 1.701 2.048 2.467 2.763 3.408
29 .683 1.311 1.699 2.045 2.462 2.756 3.396
30 .683 1.310 1.697 2.042 2.457 2.750 3.385
40 .681 1.303 1.684 2.021 2.423 2.704 3.307
60 .679 1.296 1.671 2.000 2.390 2.660 3.232
120 .677 1.289 1.658 1.980 2.358 2.617 3.160
∞ .674. 1.282 1.645 1.960 2.326 2.576 3.090
La probabilidad indicada en la cabecera de la columna es el área en la parte derecha de la cola. Por ejemplo. Hay un
10% de probabilidad de que una variable t con 20 grados de libertad sería mayor que 1.325. Por la simetría, también hay
un 10% de probabilidad de que una variable r con 20 grados de libertad estaría menos de - 1.325 .
Fuente: Thomas H. Wonnacott y Ronald J. Wonnacott, Introducción a la estadística. 2ª ed., pág. 481. Copyright © 1972 por
John Wiley & Sons, Inc., de Nueva York. RepOnted con permiso de John Wiley & Sons, Inc.

Cuadro B.4.
La distribución F
Denominador
Grados de
Libertad Grados de libertad del numerador (𝑚1 )
(𝑚2 ) 1 2 3 4 5 6 7 8 9 10
1 161 200 216 225 230 234 237 239 241 242
4052 4999 5403 5625 5764 5859 5928 5981 6022 6056
2 18.51 19.00 19.16 19.25 19.30 19,33 19.36 19.37 19,38 19.39
98.49 99.00 99.17 99.25 99.30 99.33 99.34 99.36 99.38 99.40
3 10.13 9.55 9.28 9.12 9.01 8.94 8.88 8.84 8.81 8.78
34.12 30.82 29.46 28.71 28.24 19.9 27.67 27.49 27.34 27.23
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.54
5 6.61 5,79 5.41 5.19 5.05 4.95 4.88 4.82 4.78 4.74
16.26 13.27 12.06 11.39 10.97 10.67 10.45 10.27 10.15 10.05
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
13.74 10.92 9,78 9.15 8.75 8.47 8.26 8.10 7.98 7.87
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.63
12.25 9.55 8.45 7.85 7.46 7.19 7.00 6.84 6.71 6.62
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.34
11.26 8.65 7.59 7.01 6.63 6.37 6.19 6.03 5.91 5.82
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.13
10.56 8.02 6.99 6.42 6.06 5.80 5.62 5.47 5.35 5.26
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.97
10.04 7.56 6.55 5.99 5.64 5.39 5.21 5.06 4.95 4.85
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.86
9.65 7.20 6.22 5.67 5.32 5.07 4.88 4.74 4.63 4.54
12 4.75 3.88 3.49 3.26 3.11 3.00 2.92 2.85 2.80 2.76
9.33 6.93 5.95 5.41 5.06 4.82 4.65 4.50 4.39 4.30
13 4.67 3.80 3.41 3.18 3.02 2.92 2.84 2.77 2.72 2.67
9.07 6.70 5.74 5.20 4.86 4.62 4.44 4.30 4.19 4.10
14 4.60 3.74 3.34 3.11 2.96 2.85 2.77 2.70 2.65 2.60
8.86 6.51 5.56 5.03 4.69 4.46 4.28 4.14 4.03 3.94
15 4.54 3.68 3.29 3.06 2.90 2.79 2.70 2.64 2.59 2.55
8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49
8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69
17 4.45 3.59 3.20 2.96 2.81 2.70 2.62 2.55 2.50 2.45
8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41
8.28 6.01 5.09 4.58. 4.25 4.01 3.85 3.71 3.60 3.51
19 4.38 3.52 3.13 2.90 2.74 2.63 2.55 2.48 2.43 2.38
(Continúa en la pág. siguiente)

8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43
en la página 758)

11 12 14 16 20 24 30 40 50 75 100 200 500
243 244 245 246 24S 249 250 251 252 253 253 254 254 254
6081 6106 6142 6169 6203 6234 6258 6286 6302 6323 6334 6352 6361 6366
19.40 19.41 17.85 19.43 19.44 19.45 19.46 19.47 19.47 19.48 19.49 19.49 19.50 19.50
99.41 99.42 99.43 99.44 99.45 99.46 99.47 99.48 99.48 99.49 99.49 99.49 99.50 99.50
8.76 8.74 8.71 8.69 8.66 8.64 8.62 8.60 8.58 8.57 8.56 8.54 8.54 8.53
27.13 27.05 26.92 26.83 26.69 26.60 26.50 26.41 26.35 26.27 26.23 26.18 26.14 26.12
5.93 5.91 5.87 5.84 5.80 5.77 5.74 5.71 5.70 5.68 5.66 5.65 5.64 5.63
14.45 14.37 14.24 14.15 14.02 13.93 13.83 13.74 13.69 13.61 13.57 13.52 13.48 13.46
4.70 4.68 4.64 4.60 4.56 4.53 4.50 4.46 4.44 4.42 4.40 4.38 4.37 4.36
9.96 9.89 9.77 9.68 9.55 9.47 9.38 9.29 9.24 9.17 9.13 9.07 9.04 9.02
4.03 4.00 3.96 3.92 3.87 3.84 3.81 3.77 3.75 3.72 3.71 3.69 3.68 3.67
7.79 7.72 7.60 7.52 7.39 7.31 7.23 7.14 7.09 7.02 6.99 6.94 6.90 6.88
3.60 3.57 3.52 3.49 3.44 3.41 3.38 3.34 3.32 3.29 3.28 3.25 3.24 3.13
6.54 6.47 6.35 6.27 6.15 6.07 5.98 5.90 5.85 5.78 5.75 5.70 5.67 5.65
3.31 3.28 3.23 3.20 3.15. 3.12 3.08 3.05 3.03 3.00 2.98 2.96 2.94 2.93
5.74 5.67 5.56 5.48 5.36 5.28 5.20 5.11 5.06 5.00 4.96 4.91 4.88 4.86
3.10 3.07 3.02 2.98 2.93 2.90 2.86 2.81 2.80 2.77 2.76 2.73 2.72 2.71
5.18 5.11 5.00 4.92 4.80 4.73 4.64 4.56 4.51 4.45 4.41 4.36 4.33 4.31
2.94 2.91 2.86 2.82 2.77 2.74 2.70 2.67 2.64 2.61 0.59 .56 2.55 2.54
4.78 4.71 4.60 4.52 4.41 4.33 4.25 4.17 4.12 4.05 4.01 3.96 3.93 3.91
2.82 2.79 2.74 2.70 2.65 2.61 2.57 2.53 2.50 2.47 2.45 2.42 .41 2.40
4.46 4.40 4.29 4.21 4.10 4.02 3.94 3.86 3.80 3.74 3.70 3.66 3.62 3.60
2.72 2.69 2.64 2.60 2.54 2.50 2.46 2.42 2.40 2.36 .35 2.32 2.31 2.30
4.22 4.16 4.05 3.93 3.86 3.78 3.70. 3.61 3.56 3.49 3.46 3.41 3.38 3.36
2.63 2.60 2.55 2.51 2.46 2.42 2.38 2.34 .32 2.28 2.26 2.24. 2.22 2.21
4.02 3.96 3.85 3.78 3.67 3.59 3.51 3.42 3.37 3.30 3.27 3.21 3.18 3.16
2.56 2.53 2.48 2.44 2.39 .35 2.31 2.27 2.24 2.21 2.19 2.16 2.14 2.13
3.86 3.80 3.70. 3.62 3.51 3.43 3.34 3.26 3.21 3.14 3.11 3.06 3.02 3.00
2.51 2.48 2.43 2.39 2.33 2.29 2.25 2.21 2.18 2.15 2.12 2.10 2.08 2.07
3.73 3.67 3.56 3.48 3.36 3.29 3.20 3.12 3.07 3.00 2.97 2.92 2.89 2.87
2.45 2.42 2.37 2.33 2.28 2.24 2.20 2.16 2.13 2.09 2.07 2.04 2.02 2.01
3.61 3.55 3.45 3.37 3.25 3.18 3.10 3.01 2.96 2.89 2.86 2.80 2.77 2.75
2.41 2.38 2.33 2.29 2.23 2.19 2.15 2.11 2.08 2.04 2.02 1.99 1.97 1.96
3.52 3.45 3.35 3.27 3.16 3.08 3.00 2.92 2.86 2.79 2.76 2.70 2.67 2.65
2.37 2.34 2.29 2.25 2.19 2.15 2.11 2.07 2.04 2.00 1.98 1.95 1.93 1.92
3.44 3.37 3.27 3.19 3.07 3.00 2.91 2.83 2.78 2.71 2.68 2.62 2.59 2.57
2.34 2.31 2.26 2.21 2.15 2.11 2.07 2.02 2.00 1.96 1.94 1.91 1.90 1.88
3.36 3.30 3.19 3.12 3.00 2.92 2.84 2.76 2.70 2.63 2.60 2.54 2.51 2.49

Denominador
Grados de
()𝑚2 1 2 3 4 5 . 6 7 8 9 10
20 4.35 3.49 3.10 2.87 2.71 2.60 2.52 2.45 2.40 2.35
8.10 5.85 4.94 4.43 4.10 3.87 3.71 3.56 3.45 3.37
21 4.32 3.47. 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32
8.02 5.78 4.87 4.37 4.04 3.81 3.65 3.51 3.40 3.31
22 4.30 3.44 3.05 2.82 2.66 2.55 2.47 2.40 2.35 2.30
7.94 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26
23 4.28 3.42 3.03 2.80 2.64 2.53 2.45 2.38 2.32 2.28.
7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21
24 4.26 3.40 3.01 2.78 2.62 2.51 2.43 2.36 2.30 2.26
7,82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.25 3.17
25 4.24 3.38 2.99 2.76 2.60 2.49 2.41 2.34 2.28. 2.24
7.77 5.57 4.68 4.18. 3.86 3.63 3.46 3.32 3.21 3.13
26 4.22 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22
7.72 5.53 4.64 4.14 3.82. 3.59 3.42 3.29 3.17 3.09
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.30 2.25 2.20
7.68 5.49 4.60 4.11 3.79 3.56 3.39 3.26 3.14 3.06
28 4.20 3.34 2.95 2.71 2.56 2.44 2.36 2.29 2.24. 2.19
7.64 5.45 4.57 4.07 3.76 3.53 3.36 3.23 3.11 3.03
29 4.18 3.33 2.93 2.70 2.54 2.43 2.35 2.28. 2.22 2.18
7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.08 3.00
30 4.17 3.32 2.92 2.69 2.53 2.42 2.34 2.27 2.21 2.16
7.56 5.39 4.51 4.02 3.70. 3.47. 3.30 3.17 3.06 2.98
32 4.15 3.30 2.90 2.67 2.51 2.40 2.32 .15 2.19 2.14
7.50 5.34 4.46 3.97 3.66 3.42 3.25 3.12 3.01 2.94
34 4.13 3.28 2.88 2.65 2.49 2.38 2.30 2.23 2.17 2.12
7.44 5.29 4.42 3.93 3.61 3.38 3.21 3.08 2.97 2.89
36 4.11 3.26 2.86 2.63 2.48 2.36 2.28. 2.21 2.15 2.10
7.39 5.25 4.38 3.89 3.58 3.35 3.18 3.04 2.94 2.86
38 4.10 3.25 2.85 2.62 2.46 2.35 2.26 2.19 2.14 2.09
7.35 5.21 4.34 3.86 3.54 3.32 3.15. 3.02 2.91 2.82
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.07
7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.88 2.80
42 4.07 3.22 2.83 1.59 2.44 2.32 2.24. 2.17 2.11 2.06
7.27 5.15 4.29 3.80 3.49 3.26 3.10 2.96 2.86 2.77
44 4.06 3.21 2.82 2.58 2.43 2.31 2.23 2.16 2.10 2.05
7.24 5.12 4.26 3.78 3.46 3.24 3.07 2.94 2.84 2.75
46 4.05 3.20 2.81 2.57 2.42 2.30 2.22 2.14 2.09 2.04
7.21 5.10 4.24 3.76 3.44 3.22 3.05 2.92 2.82 2.73
48 4.04 3.19 2.80 2.56 2.41 2.30 2.21 2.14 2.08 2.03
7.19 5.08 4.22 3.74 3.42 3.20 3.04 2.90 2.80 2.71
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.02
7.17 5.06 4.20 3.72 3.41 3.18 3.02 2.88 2.78 2.70
55 4.02 3.17 2.78 2.54 2.38 2.27 2.18 2.11 2.05 2.00
7.12 5.01 4.16 3.68 3.37 3.15. 2.98 2.85 2.75 2.66

11 12 14 16 20 24 30 40 50 75 100 200 500
2.31 2.28. 2.23 2.18 2.12 2.08 2.04 1.99 1.96 1.92 1.90 1.87 1.85 1.84
3.30 3.23 3.13 3.05 2.94 2.86 2.77 2.69 2.63 2.56 2.53 2.47 2.44 2.42
2.28. 2.25 2.20 2.15 2.09 2.05 2.00 1.96 1.93 1.89 1.87 1.84 1.82. 1.81
3.24 3.17 3.07 2.99 2.88 2.80 2.72 2.63 2.58 2.51 2.47 2.42 2.38 2.36
2.26 2.23 2.18 2.13 2.07 2.03 1.98 1.93 1.91 1.87 1.84 1.81 1.80 1.78
3.18 3.12 3.02 2.94 2.83 2.75 2.67 2.58 2.53 2.46 2.42 2.37 2.33 2.31
2.24 2.20 2.14 2.10 2.04 2.00 1.96 1.91 1.88 1.84 1.82. 1.79 1.77 1.76
3.14 3.07 2.97 2.89 2.78 2.70 2.62 2.53 2.48 2.41 2.37 2.32 2.28 2.26
2.22 2.18 2.13 2.09 2.02 1.98 1.94 1.89 1.86 1.82 1.80 1.76 1.74 1.73
3.09 3.03 2.93 2.85 2.74 2.66 2.58 2.49 2.44 2.36 2.33 2.27 2.23 2.21
2.20 2.16 2.11 2.06 2.00 1.96 1.92 1.87 1.84 1.80 1.77 1.74 1.72 1.71
3.05 2.99 2.89 2.81 2.70 2.62 2.54 2.45 2.40 2.32 2.29 2.23 2.19 2.17
2.18 2.15 2.10 2.05 1.99 1.95 1.90 1.85 1.82. 1.78 1.76 1.72 1.70 1.69
3.02 2.96 2.86 2.77 2.66 2.58 2.50 2.41 2.36 2.28 2.25 2.19 2.15 2.13
2.16 2.13 2.08 2.03 1.97 1.93 1.88 1.84 1.80 1.76 1.74 1.71 1.68 1.67
2.98 2.93 2.83 2.74 2.63 2.55 2.47 2.38 2.33 2.25 2.21 2.16 2.12 2.10
2.15 2.12 2.06 2.02 1.96 1.91 1.87 1.81 1.78 1.75 1.72 1.69 1.67 1.65
2.95 2.90 2.80 2.71 2.60 2.52 2.44 2.35 2.30 2.22 2.18 2.13 2.09 2.06
2.14 2.10 2.05 2.00 1.94 1.90 1.85 1.80 1.77 1.73 1.71 1.68 1.65 1.64
2.92 2.87 2.77 2.68 2.57 2.49 2.41 2.32 2.27 2.19 2.15 2.10 2.06 2.03
2.12 2.09 2.04 1.99 1.93 1.89 1.84 1.79 1.76 1.72 1.69 1.66 1.64 1.62
2.90 2.84 2.74 2.66 2.55 2.47 2.38 2.29 2.24. 2.16 2.13 2.07 2.03 2.01
2.10 2.07 2.02 1.97 1.91 1.86 1.82. 1.76 1.74 1.69 1.67 1.64 1.61 1.59
2.86 2.80 2.70 2.62 2.51 2.42 2.34 2.25 2.20 2.12 2.08 2.02 1.98 1.96
2.08 2.05 2.00 1.95 1.89 1.84 1.80 1.74 1.71 1.67 1.64 1.61 1.59 1.57
2.82 2.76 2.66 2.58 2.47 2.38 2.30 2.21 2.15 2.08 2.04 1.98 1.94 1.91
2.06 2.03 1.98 1.93 1.87 1.82. 1.78 1.72 1.69 1.65 1.62 1.59 1.56 1.55
2.78 2.72 2.62 2.54 2.43 2.35 2.26 2.17 2.12 2.04 2.00 1.94 1.90 1.87
2.05 2.02 1.96 1.92 1.85 1.80 1.76 1.71 1.67 1.63 1.60 1.57 1.54 1.53
2.75 2.69 2.59 2.51 2.40 2.32 2.14 2.14 2.08 2.00 1.97 1.90 1.86 1.84
2.04 2.00 1.95 1.90 1.84 1.79 1.74 1.69 1.66 1.61 1.59 1.55 1.53 1.51
2.73 2.66 2.56 2.49 2.37 2.29 2.20 2.11 2.05 1.97 1.94 1.88 1.84 1.81
2.02 1.99 1.94 1.89 1.82. 1.78 1.73 1.68 1.64 1.60 1.57 1.54 1.51 1.49
2.70 2.64 2.54 2.46 2.35 2.26 2.17 2.08 2.02 1.94 1.91 1.85 1.80 1.78
2.01 1.98 1.92 1.88 1.81 1.76 1.72 1.66 1.63 1.58 1.56 1.52 1.50 1.48
2.68 2.62 2.52 2.44 2.32 2.24 2.15 2.06 2.00 1.92 1.88 1.82. 1.78 1.75
2.00 1.97 1.91 1.87 1.80 1.75 1.71 1.65 1.62 1.57 1.54 1.51 1.48 1.46
2.66 2.60 2.50 2.42 2.30 2.22 2.13 2.04 1.98 1.90 1.86 1.80 1.76 1.72
1.99 1.96 1.90 1.86 1.79 1.74 1.70 1.64 1.61 1.56 1.53 1.50 1.47 1.45
2.64 2.58 2.48 2.40 2.28 2.20 2.11 2.02 1.96 1.88 1.84 1.78 1.73 1.70
1.98 1.95 1.90 1.85 1.78 1.74 1.69 1.63 1.60 1.55 1.52 1.48 1.46 1.44
2.62 2.56 2.46 2.39 2.26 2.18 2.10 2.00 1.94 1.86 1.82. 1.76 1.71 1.68
1.97 1.93 1.88 1.83 1.76 1.72 1.67 1.61 1.58 1.52 1.50 1.46 1.43. 1.41
2.59 2.53 2.43 2.35 2.23 2.15 2.06 1.96 1.90 1.82 1.78 1.71 1.66 1.64

Denominador
Grados de
(𝑚2 ) 1 2 3 4 5 • 6 7 8 9 10
60 4.00 3.15. 2.76 2.52 2.37 2.25 2.17 2.10 2.04 1.99
7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63
65 3.99 3.14 2.75 2.51 2.36 2.24. 2.15 2.08 2.02 1.98
7.04 4.95 4.10 3.62 3.31 3.09 2,93 2.79 2.70 2.61
70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.01 1.97
7.01 4.92 4.08 3.60 3.29 3.07 2.91 2.77 2.67 2.59
80 3.96 3.11 2.72 2.48 2.33 2.21 2.12 2.05 1.99 1.95
6.96 4.88 4.04 3.56 3.25 3.04 2.87 2.74 2.64 2.55
100 3.94 3.09 2.70 2.46 2.30 2.19 2.10 2.03 1.97 1.92
6.90 4.82 3.98 3.51 3.20 2.99 2.82 2.69 2.59 2.51
125 3.92 3.07 2.68 2.44 2.29 2.17 2.08 2.01 1.95 1.90
6.84 4.78 3.94 3.47. 3.17 2.95 2.79 2.65 2.56 2.47
150 3.91 3.06 2.67 2.43 2.27 2.16 2.07 2.00 1.94 1.89
6.81 4.75 3.91 3.44 3.14 2.92 2.76 2.62 2.53 2.44
200 3.89 3.04 2.65 2.41 2.26 2.14 2.05 1.98 1.92 1.87
6.76 4.71 3.88 3.41 3.11 2.90 2.73 2.60 2.50 2.41
400 3.86 3.02 2.62 2.39 2.23 2.12 2.03 1.96 1.90 1.85
6.70 4.66 3.83 3.36 3.06 2.85 2.69 2.55 2.46 2.37
1000 3.85 3.00 2.61 2.38 2.22 2.10 2.02 1.95 1.89 1.84
6.66 4.62 3.80 3.34 3.04 2.82 2.66 2.53 2.43 2.34
∞ 3.84 2.99 2.60 2.37 2.21 2.09 2.01 1.94 1.88 1.83
6.64 4.60 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32
La tabla describe la distribución de una variable F con m, m2
numerador y grados de libertad del denominador. Entradas en el tipo de
letra estándar proporcionan el 5% de valor crítico, y entradas en negrita
dar el 1% de valor crítico para la distribución. Por ejemplo. Hay un 5% de
probabilidad de que una variable F con 2 numerador y 50 grados de
libertad del denominador superaría 3.18; sólo hay un 1% de probabilidad
de que superaría el 5,06.
Fuente: George W. Snedecor y William G. Cochran, métodos estadísticos, 8th
ed. Copyright 1989 por Iowa State University Press. Reimpreso con
permiso de Iowa State University Press.

11 12 14 16 20 24 30 40 50 75 100 200 500
1.95 1.92 1.86 1.81 1.75 1.70 1.65 1.59 1.56 1.50 1.48 1.44 1.41 1.39
2.56 2.50 2.40 2.32 2.20 2.12 2.03 1.93 1.87 1.79 1.74 1.68 1.63 1.60
1.94 1.90 1.85 1.80 1.73 1.68 1.63 1.57 1.54 1.49 1.46 1.42 1.39 1.37
2.54 2.47 2.37 2.30 2.18 2.09 2.00 1.90 1.84 1.76 1.71 1.64 1.60 1.56
1.93 1.89 1.84 1.79 1.72 1.67 1.62 1.56 1.53 1.47 1.45 1.10 1.37 1.35
2.51 2.45 2.35 2.28 2.15 2.07 1.98 1.88 1.82. 1.74 1.69 1.62 1.56 1.53
1.91 1.88 1.82. 1.77 1.70 1.65 1.60 1.54 1.51 1.45 1.42 1.38 1.35 1.32
2.48 2.41 2.32 2.24 2.11 2.03 1.94 1.84 1.78 1.70 1.65 1.57 1.52 1.49
1.88 1.85 1.79 1.75 1.68 1.63 1.57 1.51 1.48 1.42 1.39 1.34 1.30 1.28
2.43 2.36 2.26 2.19 2.06 1.98 1.89 1.79 1.73 1.64 1.59 1.51 1.46 1.43.
1.86 1.83 1.77 1.72 1.65 1.60 1.55 1.49 1.45 1.39 1.36 1.31 1.27 1.25
2.40 2.33 2.23 2.15 2.03 1.94 1.85 1.75 1.68 1.59 1.54 1.46 1.40 1.37
1.85 1.82. 1.76 1.71 1.64 1.59 1.54 1.47 1.44 1.37 1.34 1.29 1.25 1.12
2.37 2.30 2.20 2.12 2.00 1.91 1.83 1.72 1.66 1.56 1.51 1.43 1.37 1.33
1.83 1.80 1.74 1.69 1.62 1.57 1.52 1.45 1.42 1.35 1.32 1.26 1.22 1.19
2.34 2.28. 2.17 2.09 1.97 1.88 1.79 1.69 1.62 1.53 1.48 1.39 1.33 1.28
1.81 1.78 1.72 1.67 1.60 1.54 1.49 1.42 1.38 1.32 1.28 1.22 1.16 1.13
2.29 2.23 2.12 2.04 1.92 1.84 1.74 1.64 1.57 1.47 1.42 1.32 1.24 1.19
1.80 1.76 1.70 1.65 1.58 1.53 1.47 1.41 1.36 1.30 1.26 1.19 1.13 1.08
2.26 2.20 2.09 2.01 1.89 1.81 1.71 1.61 1.54 1.44 1.38 1.28 1.19 1.11
1.79 1.75 1.69 1.64 1.57 1.52 1.46 1.40 1.35 1.28 1.24 1.17 1.11 1.00
2.24. 2.18 2.07 1.99 1.87 1.79 1.69 1.59 1.52 1.41 1.36 1.25 1.15 1.00

Cuadro B.5.
Valores críticos para la prueba Phillips-Perron Zp y para la prueba de Dickey-
Fuller Calculado según el coeficiente autoregresivo de OLS
Muestra Probabilidad de que: 1) es menor que la entrada
Tamaño
T 0.01 0.025 0.05 0.10 0.90 0.95 0,975 0.99
Caso 1.
25 -11.9 -9.3 -7.3 -5.3 1.01 1.40 1.79 2.28
50 -12.9 -9.9 -7.7 -5.5 0.97 1.35 1.70 2.16
100 -13.3 10.2 - 7.9 -5.6 0.95 1.31 1.65 2.09
250 -13.6 -10.3 -8.0 -5.7 0.93 1.28 1.62 2.04
500 -1.37 -10 .4 - 8.0 -5.7 0.93 1.28 1.61 2.04
-13.8 10.5 -8.1 -5.7 0.93 1.28 1.60 2.03
Caso 2
25 -17.2 -14.6 -12.5 10.2 -0. 76 0.01 0.65 1.40
50 -18.9 -15.7 -13.3 -10.7 -0.81 -0.07 0.53 1.22
100 -19.8 -16.3 -1.37 -11 .0 -0.83 -0.10 0.47 1.14
250 -20.3 -16 .6 -14.0 -11.2 -0.84 -0.12 0.43 1.09
500 -20.5 -16.8 -14 .0 -11.2 -0.84 -0.13 0.42 1.06
-20.7 -16.9 -14.1 -11.3 -0.85 -0.13 0.41 1.04
Caso 4
25 -22.5 -19.9 -17.9 15 .6 -3.66 -2.51 -1.53 -0.43
50 -25.7 -22.4 -19.8 -16.8 -3.71 -2.60 -1. 66 0.65
100 -27.4 -23 .6 -20.7 17.5 -3.74 -2.62 -1.73 -0.75
250 -28.4 -24.4 -21.3 -18.0 -3.75 -2.64 -1.78 -0.82
500 -28.9 -24.8 -21.5 -18.1 -3.76 -2.65 -1.78 -0.84
-29.5 -25.1 -21.8 -18.3 -3.77 -2.66 -1.79 -0.87
La probabilidad indicada en la cabecera de la columna es el área en la parte izquierda de la cola.
Fuente: Wayne A. Fuller. Introducción a la Estadística de la serie de tiempo. Wiley. Nueva York, 1976, pág. 371.

Cuadro B.6.
Valores críticos para la prueba Phillips-Perron Z, y para la prueba de Dickey-
Fuller basadas en la estimación de la operación estadística t
Muestra Probabilidad de que (Þ - 1) / ôÞ es menor que la entrada
Tamaño
T 0.01 0.025 0.05 0.10 0.90 0.95 0,975 0.99
Caso 1
25 - 2.66 - 2.26 - 1.95 - 1.60 0.92 1.33 1.70 2.16
50 -2.62 -2.25 - 1.95 - 1.61 0.91 1.31 1.66 2.08
100 - 2.60 -2.24 -1.95 - 1.61 0.90 1.29 1.64 2.03
250 -2.58 -2.23 -1.95 -1.62 0.89 1.29 1.63 2.01
500 -2.58 -2.23 - 1.95 -1.62 0.89 1.28 1.62 2.00
-2.58 -2.23 -1.95 -1.62 0.89 1.28 1.62 2.00
Caso 2
25 -3.75 -3.33 -3.00 -2.63 -0.37 0.00 0.34 0.72
50 -3.58 -3.22 -2.93 -2.60 -0.40 -0.03 0.29 0.66
100 -3.51 -3.17 -2.89 -2.58 -0.42 -0.05 0.26 0.63
250 - 3.46 3.14 - 2.88 - 2.57 -0.42 -0.06 0.24 0.62
500 -3.44 -3.13 -2.87 -2.57 -0.43 -0.07 0.24 0.61
-3.43 -3.12 -2.86 -2.57 -0.44 -0.07 0.23 0.60
Caso 4
25 -4.38 -3.95 -3.60 -3.24 -1.14 -0.80 -0,50 -0,15
50 -4.15 -3.80 -3.50 -3.18 -1,19 - 0.87 -0.58 - 0.24
100 -4.04 -3.73 -3.45 - 3.15. -1.22 -0,90 -0.62 -0.28
250 - 3.99 - 3.69 - 3.43 -3.13 -1.23 -0.92 -0.64 0.31
500 - 3.98 -3.68 -3.42 -3.13 -1.24 -0,93 0.65 - 0.32
-3.96 -3.66 -3.41 -3.12 -1.25 -0.94 0.66 -0.33
La probabilidad indicada en la cabecera de la columna es el área en la parte izquierda trasera,
Fuente: Wayne A. Fuller, Introducción a la Estadística de la serie de tiempo, Wiley, Nueva York, 1976, pág. 373

C
𝑅𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎
𝑎 𝐸𝑗𝑒𝑟𝑐𝑖𝑐𝑖𝑜𝑠 𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜𝑠
Capítulo 3. Procesos Estacionarios ARMA
3.1 Sí, cualquier proceso MA es covarianza estacionaria.Autocovariancias:

γ0 = 7.4
γ=1 = 4.32
γ=2 = 0.8
γj = 0 para |j| > 2
3.2. Sí, el proceso es covarianza-estacionario, ya que

(1 − 1.1z + 0.18z 2 ) = (1 − 0.9z)(1 − 0.2z);
Los valores propios (0.9 y 0.2) están ambos dentro del círculo unitario. Las
autocovariancias son las siguientes:γ0 = 7.89
γ1 = 7.35
γj = 1.1γj−1 − 0.18γj−2 para j = 2,3, …
γj = γj
3.3. Ecuación de coeficientes sobre

L0 da ψ0 = 1
L1 da −ϕ1 ψ0 + ψ1 = 0
L2 da −ϕ2 ψ0 − ϕ1 ψ1 + ψ2 = 0
⋮
j
L da −ϕp ψj − ϕp−1 ψj−p − ⋯ − ϕ1 ψj−1 + ψj = 0
para j = p, p + 1, …
Estos implican
ψ0 = 1
ψ1 = ϕ1
ψ2 = ϕ12 + ϕ2
⋮
ψj = ϕ1 ψj−1 + ϕ2 ψj−2 + ⋯ + ϕp ψj−p para j = p, p + 1, ….
Así, los valores de ψj son la solución a una ecuación de diferencia de orden p con valores
iniciales ψj = 1 y ψ−1 = ψ−2 = ⋯ = ψ−p+1 = 0. Así, a partir de los resultados de las
ecuaciones de diferencias
Apéndice C | Respuesta a Ejercicios Seleccionados 781

ψj 1
ψj−1 0
= Fj [ ]
⋮ ⋮
ψ
[ j−p+1 ] 0
esto es
(j)
ψj = f11
3.4 De [2.1.6],
ψ(L)c = (ψ0 + ψ1 + ψ2 + ψ3 + ⋯ ). c
Pero el sol (ψ0 + ψ1 + ψ2 + ψ3 + ⋯ ) puede ser visto como el polinomio ψ(z) evaluado
en z = 1:
ψ(L)c = ψ(1). c
Además, desde [3.4.19]
ψ(1) = 1/(1 − ϕ1 − ϕ2 )
3.5 Sea λ1 y λ2 satisface (1 − ϕ1 z − ϕ2 z 2 ) = (1 − λ2 z), observando que λ1 y λ2

están ambos dentro del círculo unitario para un proceso de covarianza-AR estacionario (2)
Consideremos primero el caso en el que λ1 y λ1 son reales y distintos. Luego de
[1.2.29]
∞ ∞
𝑗 𝑗
∑|𝜓𝑗 | = ∑|𝑐1 𝜆1 + 𝑐2 𝜆2 |
𝑗=0 𝑗=0
∞ ∞
𝑗 𝑗
< ∑|𝑐1 𝜆1 | + ∑|𝑐2 𝜆2 |
𝑗=0 𝑗=0
= |𝑐1 |/(1 − |𝜆1 |) + |𝑐2 |/(1 − |𝜆2 |
<∞
Finalmente, para el caso de una raíz real repetida|λ| < 1
∞ ∞ ∞ ∞
𝑗 𝑗−1
∑|𝜓𝑗 | = ∑|𝑘1 𝜆1 + 𝑘2 𝑗𝜆 | ≤ |𝑘1 | ∑|𝜆| + |𝑘2 | ∑|𝜆|𝑗−1
𝑗
𝑗=0 𝑗=0 𝑗=0 𝑗=0

Pero
∞
|𝑘1 | ∑|𝜆|𝑗 = |𝑘1 |/(1 − |𝜆| < ∞

𝑗=0
y
∞
∑|𝑗𝜆𝑗−1 | = 1 + 2|𝜆| + 3|𝜆|2 + 4|𝜆|3 + ⋯

𝑗=0
= 1 + (|𝜆| + |𝜆|) + (|𝜆|2 + |𝜆|2 + |𝜆|2 )
+(|𝜆|3 + |𝜆|3 + |𝜆|3 + |𝜆|3 ) + ⋯
= 1 + |𝜆| + |𝜆|2 + |𝜆|3 + ⋯ ) + (|𝜆| + |𝜆|2 + |𝜆|3 + ⋯ )
+(|𝜆|2 + |𝜆|3 + ⋯ )
= 1/(1 − |𝜆|) + |𝜆|/(1 − |𝜆|) + |𝜆|2 /(1 − |𝜆| + ⋯
782 Apéndice C | Respuesta a Ejercicios Seleccionados

= 1/(1 − |𝜆|)2
<∞
3.8 (1 + 2.4𝑧 + 0.8𝑧 2 ) = (1 + 0.4𝑧)(1 + 2𝑧)
El operador invertible es
(1 + 0.4z)(1 + 0.5z) = (1 + 0.9z + 0.2z 2 )
So the invertible representation is
Yt = (1 + 0.9𝐿 + 0.2𝐿2 )𝜀𝑡
E(ε2t ) = 4
Capítulo 4. Predicción
1 0 0 1 0 0 1 −2 3
4.3 [−2 1 0] [0 2 0] [0 1 1]
3 1 1 0 0 1 0 0 1
4.4 No. La proyección de Y4 en Y3 , Y2 , y Y1 puede calcularse a partir de

̂
P(Y4 )|Y3 Y2 , Y1 ) = a41 Y1 + a42 [Y2 − ̂ P(Y2 |Y1 )] + a43 [Y3 − ̂
P(Y3 |Y2 , Y1 )]
La proyección P ̂(Y3 |Y2 , Y1 ), a su vez, está dada por
̂
P(Y3 |Y2 , Y1 ) = a31 Y1 + a32 [Y2 − ̂
P(Y2 |Y1 )]
El coeficiente de Y2 en P(Y4 )|Y3 Y2 , Y1 ) está dado por a42 − a43 a32
Capítulo 5. Estimación de Máxima Verosimilitud

5.2 El negativo de la matriz de las segundas derivadas es
3 0
𝐇(θ) = [ ]
0 4
Por lo que [5.7.12] implica
−1 3 0 −1 3 0
𝛉(1) = [ ] + [ ] [ ]=[ ]
1 0 4 −4 0
Capítulo 7. Teoría de la Distribución Asintótica
7.1 Por continuidad, |g(XT , cT ) − g(ε, c)| > δ solo si |XT − ε| + |cT − c| > η para
algunos η. Pero cT → c y XT → ε s ignifica que podemos encontrar un N tal que
|cT − c| < η⁄2 para todo T ≥ N y tal que P{|XT − ε| > η⁄2} < ε para todo T ≥ N. Por
lo tanto P{|XT − ε| + |cT − c| > η} es menor que ε para todo T ≥ N, implicando esto
P{|g(XT , cT ) − g(ε, c)| > δ} < ε
7.2 (a) Para un proceso AR(1), ψ(z) = 1/(1 − ϕz) y g y (z) = σ2 /(1 − ϕz)(1 −
ϕz −1 ), con

σ2 1
g y (z) = (1−ϕ)(1−ϕ) = (1−0.8)2 = 25
̅T ) = 25
Así lim T. Var(Y
T→∞
(b) T = 10,000(√(25/10,000) = 0.05)
7.3 No, la varianza puede ser una función del tiempo.
7.4 Si, εt tiene varianza σ2 para todo t. Puesto que Since εt es una secuencia de
diferencia de martingala, tiene una media cero y debe estar en serie sin correlación. Asi {εt }
es ruido blanco y este es un proceso de covarianza-estacionario MA(∞).
7.7 A partir de los resultados del capítulo 3, Y, puede escribirse como Yt = μ +
∑j=0 ψj εt−j con ∑∞
∞
j=0|ψj | < ∞. Entonces (a) sigue inmediatamente de la Proposición 7.5 y
resultado [3.3.19]. Para (b), observe que E|εt |r < ∞ para r = 4, de modo que el
resultado [7.2.14] establece que
P
̅t Y
[1/(T − k)] ∑Tt=k+1 Y ̅t−k → E(Y
̅t Y
̅t−k )
̅t = Yt − μ. Pero
donde Y
T T
̅t + μ)( ̅
[1/(T − k)] ∑ Yt Yt−k = [1/(T − k)] ∑ (Y Yt−k + μ)
t=k+1 t=k+1
T T
̅t Y
= [1/(T − k)] ∑ Y ̅t−k + μ [1/(T − k)] ∑ Y
̅t−k
t=k+1 t=k+1
T
̅t + μ2
+μ[1/(T − k)] ∑ Y
t=k+1
̅t Y
→ E(Y ̅t−k ) + 0 + 0 + μ2
= E(Y̅t + μ)(E(Y ̅t−k + μ)
= E(Y ̅t ̅
Yt−k )
Capítulo 8. Modelos de Regresión Lineal

y′ X(X′ X)−1 X′ y
8.1 R2μ = y′ y
y ′ y − y ′ [IT − X(X X)−1 X ′ ]y
′
=
y′ y
= 1 − [(y ′ MX MX y)/(y ′ y)]
= 1 − [(û′ û)/(y ′ y)]
2
y ′ y − y ′ MX y − Ty̅ 2
Rμ =
y ′ y − Ty̅ 2
= 1 − [(û û)/(y ′ y − Ty̅ 2 )]
′

T T
′ 2
y y − Ty̅ = ∑ yt2 − Ty̅ = ∑(yt − y̅)2
2
t=1 t=1
2
8.2 El valor crítico del 5% para una variable x (2) es 5.99. Una variable F(2, N) endrá
un valor crítico que se aproxima a 5.99/2 = 3.00 como N → ∞. Se necesita N de alrededor
de 300 observaciones antes de que el valor crítico de una variable F(2, N) alcance 3.03, o
dentro del 1% del valor límite.
8.3 Cuatro momentos de xt ut son la forma E(ε4t ). E(yt−i yt−j yt−m ). El primer término
está limitado bajo la suposición 8.4, y el segundo término está limitado como es el Ejemplo
7.14. Además, un elemento típico de (1/T) ∑Tt=1 u2t xt xt ′ es de la forma
T T T
(1/T) ∑ ε2t yt−i yt−j = (1/T) ∑(ε2t − σ )yt−i yt−j + σ (1/T) ∑(ε2t − σ2 )yt−i yt−j
2 2
t=1 t=1 t=1

→ 0 + σ2 . E(yt−i yt−j )
Por lo tanto, las condiciones de la Proposición 7.9 se satisfacen
8.4 La Proposición 7.5 y el Resultado [7.2.14] establecen
ĈT
̂ 1T
ϕ
⋮
̂
ϕ
[ pT ]
−1
1 (1/T) ∑ yt−1 ⋯ (1/T) ∑ yt−p (1/T) ∑ yt
2 (1/T) ∑ yt−1 yt
= (1/T) ∑ yt−1 (1/T) ∑ yt−1
⋯
(1/T) ∑ yt−1 yt−p
⋮ ⋮ ⋯ ⋮ ⋮
⋯ 2
[(1/T) ∑ yt−p (1/T) ∑ yt−p yt−1 (1/T) ∑ yt−p ] [(1/T) ∑ yt−p yt ]
⋯ μ −1
1 μ μ
μ γ0 + μ 2 ⋯ γp−1 + μ 2 γ1 + μ2
→ [ ⋮ ]
⋮ ⋮ ⋯ ⋮
[μ γp−1 + μ
2
⋯ γ0 + μ 2 ] γp + μ 2
El cual es igual a α(P) dado en [4.3.6]
Capítulo 10. Procesos Vectoriales de Covarianza Estacionaria
(1 + θ2 )σ2ε h1 θσ2ε
10.2 (a) Γ0 = [ ]
h1 θσ2ε (1 + θ2 )σ2ε + σ2u
θσ2ε 0
Γ1 = [ 2 ]
h1 (1 + θ )σε h1 θσ2ε
2 2
0 0
Γ2 = [ 2 ]
h1 θσε 0
Γ−1 = Γ1′ Γ−2 = Γ2′

Γk = 0 for k = ±3, ±4, …
s11 s12
(b) SY (ω) = (2π)−1 [s s22 ]
21
2 2 2 −iω
s11 = (1 + θ )σε + θσε e + θσ2ε eiω
s12 = h1 θσ2ε e2iω + h1 (1 + θ2 )σ2ε eiω + h1 θσ2ε
s21 = h1 θσ2ε e−2iω + h1 (1 + θ2 )σ2ε e−iω + h1 θσ2ε
s22 = h12 (1 + θ2 )σ2ε + σ2u + h12 θσ2ε e−iω + h12 θσ2ε eiω
cYX (ω) = (2π)−1 h1 σ2ε {θ. cos(2ω) + (1 + θ2 ). cos(ω) + θ}
q YX (ω) = −(2π)−1 h1 σ2ε {θ. sin(2ω) + (1 + θ2 ). sin(ω)}
(c) La variable X, sigue un proceso MA(1), para el cual el espectro es de hecho

s11 .
El término s21 es s11 tiempo h(e−iω ) = h1 . e−iω . Multiplicando s21 a su vez por
h(eiω ) = h1 . eiω y añadiendo σ2u produce s22 .
π sYX(ω) iωk π
(d) (2π)−1 ∫−π s e dω = (2π)−1 ∫−π h1 eiωk e−iωk dω
XX(ω)
Cuando k = 1, esto es simplemente

π
−1
(2π) ∫ h dω = h1
−π
como se desee. cuando k ≠ 1, la integral es
π
(2π)−1 ∫ h1 e(k−1)iω dω
−π
π π
= (2π)−1 ∫ h1 . cos[(k − 1)ω] dω + i. (2π)−1 ∫ h1 . sin[(k − 1)ω] dω
−π −π
−1
= [(k − 1)2π] h1 [sin[(k − 1)ω]πω=−π − [(k − 1)2π]−1 h1 [cos[(k − 1)ω]πω=−π
=0
Capítulo 11. Autoregresiones Vectoriales
11.1 Un elemento típico de [11.A.2] establece que
T T T
(1/T) ∑ εt yt−i yt−j = (1/T) ∑(ε2t − σ )yt−i yt−j + σ (1/T) ∑(ε2t − σ2 )yt−i yt−j
2 2
t=1 t=1 t=1

Pero
T T T
(1/T) ∑ ε2t yt−i yt−j = (1/T) ∑(ε2t − σ2 )yt−i yt−j + σ2 (1/T) ∑(ε2t − σ2 )yt−i yt−j
t=1 t=1 t=1
donde
zt ≡ {εj1 }

Nótese que zt es una secuencia de diferencias de martingala cuya varianza es finita en
virtud de
P
Proposición 7.10. Por lo tanto, (1/T) ∑Tr=1 zr → 0. Además,
T
P
(1/T) ∑ yj1 .r−ι1 yj2 .r−ι2 → E(yj1 .r−ι1 yj2 .r−ι2 )
r=1
En virtud de la Proposición 10.2(d).
11.2 (a) No. (b) Si. (c) No.

11.3 αj = ζj for j = 1,2, … , p
βj = ηj for j = 1,2, … , p
−1
λ0 = Ω21 Ω11
−1
λj = λj Ω21 Ω11 αj for j = 1,2, … , p
−1
ξj = δj Ω21 Ω11 βj for j = 1,2, … , p
2
α1 = Ω11
α22 = Ω22 − Ω21 Ω11 −1
Ω12
u1r = ε1r
−1
u2r = ε2r − Ω21 Ω11 ε1r
11.4 Premultiplicando por 𝐀∗ (L) resulta en

|𝐀(L)| 0 y1t 1 − ξ(L) η(L) u1t
[ ] [y ] = [ ] [u ]
0 |𝐀(L)| 2t λ0 + λ(L) 1 − ζ(L) 2t
[1 − ξ(L)]u1t + η(L)u2t
= [ ]
[λ0 + λ(L)]u1t + [1 − ζ(L]u2t
ν1t
= [ν ]
2t
Así,
|𝐀(L)|y1t = ν1t
|𝐀(L)|y2t = ν2t
Ahora el determinante |𝐀(L)| Es el siguiente polinomio en el operador de rezago:
|𝐀(L)| = [1 − ξ(L)][1 − ζ(L)] − [η(L)][λ0 + λ(L)]
El coeficiente de L0 en este polinomio es unidad, y la potencia más alta de L es L2p , que
tiene de coeficiente (εp ζp − ηp λp ) :
|𝐀(L)| = 1 + a1 L + a2 L2 + ⋯ + a2p L2p
Además. ν1t es la suma de dos procesos MA(p) mutuamente no correlacionados, y
entonces ν1t es el mismo MA(p). Por lo tanto , y1t sigue un proceso ARMA(2p, p); Un
argumento similar demuestra que y2t sigue un proceso ARMA(2p, p) con los mismos
coeficientes autorregresivos pero diferentes coeficientes de media móvil.
En general, considere una n-variable VAR de la forma

𝚽(K)yt = εt
con
Ω if t = τ
E(εt ε′τ ) = {
0 de otra manera
Hallar la factorización triangular de 𝛀 = 𝐀𝐃𝐀′ y premultiplicar el sistema por 𝐀−𝟏 ,
produciendo
𝐀(L)yt = ut
dónde
𝐀(L) = 𝐀−𝟏 𝚽(L)
𝐀(L)ut = 𝐀−𝟏 εt
E(ut u′τ ) = 𝐃
Así, los elementos de u1 están mutuamente no correlacionados y 𝚨(0) iene está a lo largo
de su diagonal principal. La matriz adjunta 𝚨∗ (L) tiene la propiedad
𝚨∗ (L). 𝚨(L) = |𝚨(L)|. Ιn
Premultiplicando el sistema por 𝚨∗ (L),
|𝚨(L)|. yt = 𝚨∗ (L)ut
El determinante |Α(L)| Es un polinomio escalar que contiene términos hasta el orden Lnp .
Mientras que los elementos de 𝚨∗ (L) contienen términos hasta el orden L(n−1)p . Por lo
tanto, la i-ésima fila del sistema toma la
|𝚨(L)|. yip = vip
Dónde vip es la suma de n procesos MA[(n − 1)p] mutuamente no correlacionados y es
por lo tanto en sí mismo MA[(n − 1)p]. Por lo tanto, yip ~ARMA[np, (n − 1)p].
11.5 (a) |𝚰2 − 𝚽1 z| = (1 − 0.3z)(1 − 0.4z) − (0.8z)(0.9z)
= 1 − 07z − 0.6z 2
= (1 − 1.02z)(1 + 0.5z).
∗
Ya que z = 1⁄1.2 que está dentro del círculo unitario, el sistema es no estacionario
1 0 0.3 0.8 0.81 0.56
(b) 𝚿0 = [ ] 𝚿1 = [ ] 𝚿2 = [ ]
0 1 0.9 0.4 0.63 0.88
𝚿s Diverge como s → ∞.
(c) y1.1+2 − E(y1.r+2|y0 yr−1 , … ) = ε1.r+2 + 0.3ε1.r+1 + 0.8ε2.r+1
MSE = 1 + (0.3)2 + (0.8)2 (2) = 2.37.
La fracción debida a ε1 = 1.09/2.37 = 0.46.
Capítulo 12. Análisis Bayesiano
12.1 Tomar k = 1, Χ = 1, β = μ, y Μ = 1/v, y notar que 1′ 1 = T and 1′ y =

Ty̅.
Capítulo 13. Filtro de Kalman

13.3 No, porque vr no es ruido blanco
13.5 Darse cuenta de

̅
σ 2 (1+σ ̅1 +⋯+θ
̅ 2 +θ ̅2[r+1] )
σ2 + θ̅2 p̅r+1 =
̅ ̅2 +θ
̅4 +⋯+θ
̅2r
1+θ
̅2[r+2] )
̅ 2 (1−θ
σ
= ̅2[r+1]
1−θ
θ2 σ2 (1−θ−2[r+2] )
= 1−θ−2[r+1]
θ2 σ2 (θ2[r+2] −1)
= θ2[r+2] −θ2
σ2 (1−θ2[r+2] )
= 1−θ2[r+1]
= σ + θ2 pr+1.
2
Además, desde[13.3.9],
θ̅ε̅r|1 = {θ̅σ ̅2 + θ̅2 p̅r ]} . {yr − μ − θ̅ε̅r−1|r−1 }
̅2 /[σ
= {θ−1 θ2 σ2 /[σ2 + θ2 pr ]} . {yr − μ − θ̅ε̅r−1|r−1 }
= {θσ2 /[σ2 + θ2 pr ]} . {yr − μ − θ̅ε̅r−1|r−1 }
Cuál es la misma ecuación de diferencia que genera {θ̅ε̅r|1 }, con ambas secuencias, por
supuesto comenzando con θε̂0|0 = θ̅ε̅0|0 = 0. Con las secuencias (𝚮 ′ 𝚸𝐫+𝟏|𝐫 𝚮 + 𝐑) y
𝚨′ xr+1 + 𝚮 ′ ξ̂r+1|r Idénticas para las representaciones, la probabilidad en [13.4.1] a [13.4.3]
debe ser idéntica.
13.6 La innovación εr en [13.5.22] será fundamental cuando |ϕ − K| < 1. De
[13.5.25], vemos que
ϕ − K = ϕσ2W / (σ2W + P).
Dado que P es una variance, se deduce que P ≥ 0, y así |ϕ − Κ| ≥ |ϕ|, que se especifica
que es menor que la unidad. Esto surge como consecuencia del resultado general en la
Proposición 13.2 que el autovalor de 𝐅 − 𝐊𝐇 ′ está dentro del círculo unitario.
De [13.5.23] y la expresión precedente para ϕ − K,
−(ϕ − K)E(ε12 ) = −(ϕ − K)(σ2W + P) = −ϕσ2W
Como se afirma. Además,
[1 + (ϕ − K)2 ]E(ε2r ) = (σ2W + P) + (ϕ − K)ϕσ2W
= (1 + ϕ2 )σ2W + P − Kσ2W
Pero de [13.5.24] y [13.5.25],
P = Kϕσ2W + σ2W
Y entonces
[1 + (ϕ − K)2 ]E(ε2r ) = (1 + ϕ2 )σ2W + σ2W
Para entender estas fórmulas desde la perspectiva de las fórmulas del Capítulo 4, observe
que el modelo añade un proceso en AR(1):
(1 − ϕL)yr+1 = vr+1 + (1 − ϕL)wr+1
La primera autocovariancia del proceso MA(1) en el lado derecho si esta expresión es
−ϕσ2W , mientras que la varianza es (1 + ϕ2 )σ2W + σ2W .
Capítulo 16. Procesos con tendencias Deterministas del Tiempo

16.1 E ((1⁄T) ∑Tr=1[λ1 + λ2 (t⁄T)]2 ε2r − (1⁄T) ∑Tr=1 σ2 [λ12 + 2λ1 λ2 (t⁄T) +

2
λ22 (t⁄T)2 ])
= (1⁄T 2 ) ∑Tr=1[λ12 + 2λr λ2 (t⁄T) +
λ22 (t⁄T)2 ]2 . E(ε2r − σ2 )
Pero
(1⁄T) ∑Tr=1[λ12 + 2λ1 λ2 (t⁄T) + λ22 (t⁄T)2 ] → M < ∞
y por lo tanto
2
T T
T. E ((1⁄T) ∑[λ1 + λ2 (t⁄T)]2 ε2r − (1⁄T) ∑ σ2 [λ12 + 2λ1 λ2 (t⁄T) + λ22 (t⁄T)2 ])
r=1 r=1
→ M. E(ε2r − σ 2 )2
<∞
Por lo tanto
(1⁄T) ∑Tr=1[λ1 + λ2 (t⁄T)]2 ε2r
m.s
→ (1⁄T) ∑Tr=1 σ2 [λ12 + 2λ1 λ2 (t⁄T) + λ22 (t⁄T)2 ]
→ σ2 λ1 Qλ
16.2 Recordemos que la varianza de bT viene dada por
−1
E(bT − β)(bT − β)′ = σ2 (∑Tr=! xr xr′ )
−1
2 T T(T + 1)/2
=σ [ ]
T(T + 1)/2 T(T + 1)(2T + 1)/6
Pre- y post multiplicar por YT resultando
E[YT (bT − β)(bT − β)′ YT ]
−1
T T(T + 1)/2
= σ2 YT [ ] YT
T(T + 1)/2 T(T + 1)(2T + 1)/6
−1
2 −1 T T(T + 1)/2 −1
= σ . {YT [ ]Y }
T(T + 1)/2 T(T + 1)(2T + 1)/6 T
1 −1
1
→ σ2 [ 2]
1 1
2 3
El elemento (2,2) de esta expresión matriz sostiene que
2
E[T 3/2 (δ̂T − δ)] → 12σ2
y entonces
m.s.
T(δ̂T − δ) → 0
16.3 Nótese que
T 2
[T −1 ∑(t/T)yt ]
t=1
= T −2 [(1/T)y1 + (2/T)y2 + ⋯ + (T/T)yT ]x[(1/T)y1 + (2/T)y2 + ⋯
+ (T/T)yT ]
que tiene expectativas

T 2
t
E [T −1 ∑ ( ) yt ]
T
t=1
= T −2 {[(1/T)2 + (2/T)2 + ⋯ + (T/T)2 ]γ0
+ [(1/T)(2/T) + (2/T)(3/T) + ⋯ + ([T − 1/T)](T/T)]2y1
+ [(1/T)(3/T) + (2/T)(4/T) + ⋯ + ([T − 2/T)](T/T)]2y2 + ⋯
+ [1/T)](T/T)2yT−1 }
≤ T −1 {|γ0 | + 2|γ1 | + 2|γ2 | + ⋯ + 2|γT−1 |}
→0
Capítulo 17. Procesos Univariados con Raíces Unitarias
12 2
T−1 ∑ yr−1 ur L 2{λ .[W(1)] −γ0 }
17.2 (a) T(ρ̂T − 1) = →
T−2 ∑ y2r−1 λ2 .∫[W(r)]2 dr
De la Proposición 17.3(e) y (h)
(b) ̂2pT = T 2 . sT2 ÷ (∑ yT−1
T2σ 2 )
= sT2 ÷ (T −2 ∑ yT−1
2 )
L
→ γ0 ÷ λ2 . ∫[W(r)]2 dr
De la Proposición 17.3(h) y [17.6.10]
1/2
(c) t T = T(ρ̂T − 1) ÷ (T 2 . σ
̂2pT )
1
L {λ2 .[W(1)]2 −γ0 }
→ 2 λ2 .∫[W(r)]2 dr ×(λ2 . ∫[W(r)]2 dr)1/2 ÷ (γ0 )1/2
De las respuestas (a) y (b). Esto, a su vez, puede escribirse

1 2
{λ . [w(1)]2 − γ0 }
2 1/2 2
(λ /γ0 )
λ2 {∫[W(r)]2 dr}1/2
1 1 2
{[W(1)]2 − 1}
λ 2
= ( ⁄γ0) ) {
1/2
2 + 2 (λ − γ0 ) }
{∫ W(r)]2 dr}1/2 λ2 {∫ W(r)]2 dr}1/2
L
(d) ̂2pT ÷ sT2 ) = 1/(T −2 ∑ γ2r−1 ) → 1/(λ2 . ∫[W(r)2 dr)
(T 2 . σ
De la Proposición 17.3 (h) Asi

1
T(ρ̂T − 1) − (T 2 . σ̂2pT ÷ ST2 )(λ2 − γ0 )
2
1 2
p (λ − γ0 )
→ T(ρ̂T − 1) − 22
λ . ∫[W(r)2 dr
1 2 1 2
L 2 {[W(1)] − γ0 } 2 (λ − γ0 )
→ −
λ2 . ∫[W(r)2 dr λ2 . ∫[W(r)2 dr

1
{[W(1)]2 −1}
= 2
∫[W(r)]2 dr
Con el siguiente a la última continuación de la respuesta (a)
1
(e) (γ0 /λ2 )1/2 t T − {2 (λ2 − γ0 )/λ} ×{T. σ
̂pT ÷ ST }
1 1 2
{[W(1)]2 − 1
L
→ { 2 + 2 (λ − γ0 ) }
{∫[W(r)]2 dr}1/2 λ2 . {∫ W(r)]2 dr}1/2
−{{(1/2)(λ2 − γ0 )/λ ÷ (λ2 . ∫[W(r)2 dr)1/2 }

De las respuestas (c) y (b). La adición de estos términos produce el resultado deseado.
Para estimar γ0 y λ, se podría usar
γ̂i = T −1 ∑Tr=j+1 ûr ûr−1 for j=0,1,……….,q
q j
λ̂2 = γ̂0 + 2 ∑j=1[1 − ⁄(q + 1)]γ̂i
Donde ûr es la muestra OLS residual y q es el número de autocovariancias utilizado para
representar la correlación en serie de ψ (L). El estadistico en (d) puede entonces
compararse con las entradas del caso 1 de la Tabla B.5, mientras que el estadistico en (e)
puede compararse con las entradas del caso 1 de la Tabla B.6.
1 T −3/2 ∑ ξr−1 T −2 ∑ t
17.3 (a) [T −3/2 ∑ ξr−1 T −2 ∑ ξ2r−1 T −5/2 ∑ ξr−1 t]
T −2 ∑ t T −5/2 ∑ ξr−1 T −3 ∑ t 2
1 λ. ∫ W(r)dr 1/2
L
→ λ. ∫ W(r)dr λ2 . ∫[W(r)]2 dr λ. ∫ rW(r)dr
1/2 λ. ∫ rW(r)dr 1/3

[ ]
T −1/2 ∑ ui λ. W(1)
L 1 2. 2
(b) [T −1 ∑ ξr−1 ui ] → [ (2) {λ [W(1)] − γ0 ]
T −3/2 ∑ tui λ. {W(1) − ∫[W(r) dr}
(c) Esto se deduce de la expresión [17.4.52] y las respuestas (a) y (b)
(d) Los cálculos son prácticamente idénticos a los de [17.4.54]
P
(e) t T = T(p̂T − 1) ÷ {T 2 . σ2pT }1/2 → T(p̂T − 1) ÷ {ST2 /λ2. ). Q}1/2
(f) La respuesta (c) establece que
T(p̂T − 1)
−1
1 ∫[W(r) dr 1/2
W(1)
L 1/2{[W(1)]2 − 1}
→ [0 1 0] ∫[W(r) dr ∫[W(r)2 dr ∫ rW(r) dr
W(1) − ∫[W(r) dr
[ ]
1/2 ∫ rW(r) dr 1/3
{ [ ] }

1
1 ∫ rW(r) dr 2 0
1 γ0 2
+ 2 {1 − (λ2 )} [0 1 0] ∫ rW(r) dr ∫ rW(r) dr ∫ rW(r) dr [1]
1
∫ rW(r) dr
1 0
[ 2 3 ]
1 γ0
= V ÷ . {1 − ( 2 )} Q
2 λ
Además, la respuesta (d) implica que
1 2 2 L 1 Q
̂pT ÷ ST2 ). (λ2 − γ0 ) → ( 2 ) (λ2 − γ0 )
(T . σ
2 2 λ
1 γ0
= 2 {1 − (λ2 )} Q
(g) De las respuestas (d) y (e)
1
γ 2 1
(λ02 ) . t T − 2 (λ2 − γ0 )λ} × {T. σ
̂pT ÷ ST }
p 1
→ T(p̂T − 1)/√Q − { (λ2 − γ0 )/λ} ×√Q/λ
2
1
= T(p̂T − 1) − (Q/λ2 )(λ2 − γ0 )/λ} ÷ √Q
2
L
→ V ÷ √Q
Del análisis de (f)
Para estimar γ0 y λ, se podría utilizar
γ̂j = T −1 ∑Tr=j+1 ur ur−1 para j=0,1,……….,q
q j
λ2 = γ0 + 2 ∑j=1 [1 − ⁄(q + 1)] γ̂j
Donde û es la muestra PLS residual y q es el número de autovariancias utilizadas para
aproximar ψ (L)Er . El estaditico en (f) se puede comparar con el caso 4 entradas de las
Tablas B.5, mientras que la estática en (g) se puede comparar con las entradas del caso 4 de
la Tabla B.6
17.4 (b) El caso 1 del cuadro B.5 es asintótico.
(C) El caso 1 del cuadro B.6 es asintótico.
Capítulo 18. Raíces Unitarias en Series Temporales Multivariables

18.1 Bajo la hipótesis nula Rβ = r, tenemos
−1 −1
XT2 = {R(bT − β)]′ [sT2 R(∑ Xr Xr′ ) R′] {R(bT − β)}
−1 −1
= {√T R(bT − β)]′ [sT2 √T. R(∑ Xr Xr′ ) √T. R′] {√T. R(bT − β)}
Para YT la matriz (k×k) definida en [18.2.18] y R de las especificaciones, observe que

√TR = RYT . Asi
−1 −1
XT2 = {RYT (bT − β)]′ [sT2 RYT (∑ Xr X r′ ) YT R′] {RYT (bT − β)}

−1 −1
XT2 = {RYT (bT − β)]′ [sT2 R(YT−1 ∑ Xr Xr′ YT−1 ) R′] {RYT (bT − β)}
−1
V −1 h1
L V −1 0 V −1 h
→ (R [ −1 ]) (σij R [ −1 ] R′) (R [ −1 1 ])
Q h2 0 Q Q h2
−1 −1 ′ −1 −1
= (R1 V h1 )′(σij R1 V R1 ) (R1 V h1 )
Donde la convergencia indicada se sigue de [18.2.25], [18.2.20], y la consistencia de ST2 .
ST2 ya que h1 ~ N(0, σij V), se sigue que
R1 V −1 h1 ~ N(0, σij (R1 V −1 R′1 ),
Por lo tanto, en la Proposición 8.1, la distribución asintótica de XT2 es X 2 (m)
18.2 Aqui
−1
XT2 ≡ (RbT )´[ ST2 R(∑ xr xr′ ) R´]−1 (RbT )
Donde X, es como se define en el ejercicio 18.1 y
(Lp−1 ⨂R1 ) 0
R [n2 (p − 1)× n(p − 1)] [n2 (p − 1)× (n + 1)]
=
(n2 p×k) 0 R2
[ [n2 × n(p − 1)] [n2 × (p − 1)] ]
R1 0 In2
= ⌊ ⌋
(n2 × n) (n2 ×n1 ) (n2 ×n2 )
R2 0 R1
= ⌊ ⌋
[n2 ×(n + 1)] (n 2 × 1) (n 2 × n)
A partir del resultado del ejercicio 18.1,
′ −1
2
L V −1 h1 V −1 0 V −1 h1
XT → (R [ −1 ]) (σij R [ ] R´) (R [ ])
Q h2 0 Q−1 Q−1 h2
′ −1
(Ip−1 ⨂ R1 )V −1 h1 −1 (Ip−1 ⨂ R1 )V −1 (Ip−1 ⨂ R′1 ) 0
=[ ] σij . [ ]
R 2 Q−1 h2 0 R 2 Q−1 R′2
−1
(Ip−1 ⨂ R1 )V h1
×[ ]
R 2 Q−1 h2
18.3. (a) La hipótesis nula es que ϕ = 1 ,y γ = α = η = 0, en cuyo caso ∆γ2r =

ε2r y u1 = ε1r . Dejar X1 ≡ (ϵ2r , 1, γ1r−1 , γ2r−1 )′ y
T1/2 0 0 0
YT ≡ [ 0 T 1/2
0 0]
0 0 T 0
0 0 0 T
Entonces
YT−1 ∑ Xr Xr′ YT−1
T −1 ∑ ε22r T −1 ∑ ε2r T −3/2 ∑ ε2r y1,r−1 T −3/2 ∑ ε2r y2,r−1
T −1 ∑ ε2r 1 T −3/2 ∑ γ1,r−1 T −3/2 ∑ y2,r−1

=
2
T −3/2 ∑ y1,r−1 ε2r T −3/2 ∑ y1,r−1 T −2 ∑ y1,r−1 T −2 ∑ y1,r−1 γ2,r−1
−3/2 2
[T ∑ y2,r−1 ε2r T −3/2 ∑ y2,r−1 T −2 ∑ y2,r−1 y1,r−1 T −2 ∑ y2,r−1 ]

L σ22 0′
→[ ]
0 Q
Dónde
1 σ1 . ∫ W1 (r)dr σ2 . ∫ W2 (r)dr
Q= σ1 . ∫ W1 (r)dr σ21 . ∫[W1 (r)]2 dr σ1 σ2 . ∫[W1 (r)]. [W2 (r)]dr
σ2 . ∫ W2 (r)dr σ2 . σ1 ∫[W2 (r)]. [W1 (r)] dr σ22 ∫[W2 (r)]2 dr

[ ]
Y
T −1/2 Σε2r ε1r
T −1/2 Σε1r L h1
Υ −1
T Σxr ur = → [ ],
T −1 Σy1.r−1 ε1r h2
[T −1 Σy2.r−1 ε1r ]
Y dónde h1 ~ N(0, σ21 . σ22 ) y el segundo y tercer elementos (3 x 1) del vector h2 tienen
una distribución no estándar. Por lo tanto
γT (bT − β) = (γ−1 1 −1 −1 −1
T xr xr γ T ) (γ T Σxr ur )
−1
σ2 0′
L h
→[ 2 ] [ 1]
0 Q h2
σ−22 h1
= [ −1 ]
Q h2
(b) Sea e1 denote la primera columna de la matriz de identidad (4 x 4). Entonces
1
t T = γ̂T ÷ {sT2 e1′ (Σxr xr′ )−1 e1 }2
1 1
= T 2 γ̂T ÷ {sT2 e11 YT (Σrx1r )−1 YT e1 }2
= T1/2 γ̂T ÷ {sT2 e1′ (Y −1 ′ −1 −1
T Σx1 x1 Y T ) e1 }
1/2
−1 1/2
L σ2 0′
→ σ−2
2 h1 ÷ {σ2T e1′ [ 2
e1 } ]
0 Q
= h1 /(σ3 . σ2 ) ~ N(0,1)
(c) ̂
Recordar que δT = η̂T − γ̂T , donde n̂T es Op (T −1 ) y ̂
YT es Op (T −1/2 ). Bajo la
hipótesis nula, los tres valores y cero; por lo tanto,
P
T1/2 δ̂T → −T1/2 γ̂T
que es asintóticamente gaussiana. La prueba t de δ = 0 es asintóticamente equivalente a la
prueba t de γ = 0.
Capítulo 19. Cointegración
19.1. (a) Las estimaciones de MCO se dan por

̂T
α T Σy2r −1 Σy1r
[̂ ] = [ 2 ] [ ],
YT Σy2r Σy2r Σy2r y1r

a partir del cual
̂T
α T Σy2r −1 Σy1r Σy2r
[̂ ]= [ 2 ] {[ ] − γ0 [ 2 ]}
YT − Y0 Σy2r Σy2r Σy2r y1r Σy2r
−1
T Σy2r Σ(y1r − γ0 y2r )
= [ 2 ] [ ]
Σy2r Σy2r Σy2r (y1r − γ0 y2r )
y
−1/2 αT
̂
[T 0 ][ ]=
0 T 1/2 γ̂T − γ0
−1/2
0 ][ T Σy2r −1 T −3/2 −1
[T 1/2 Σy 2 ] [ 0 ]
0 T 2r Σy2r 0 T −5/2
× [T
−3/2
0 ] [ Σ(y1r − γ0 y2r ) ]
0 T Σy2r (y1r − γ0 y2r )
−5/2
−1
= {[T
−3/2
0 ][ T Σy2r T −1/2
] [ 0 ]}
2
0 T −5/2 Σy2r Σy2r 0 T1/2
× [T
−3/2
0 ] [ Σ(y1r − γ0 y2r ) ]
−5/2 Σy (y − γ y )
0 T 2r 1r 0 2r
−1
1 T −2 Σy2r T −3/2 Σ(y1r − γ0 y2r )
= [ −2 2 ] [ −5/2 ]
T Σy2r T −3 Σy2r T Σy2r (y1r − γ0 y2r )
Pero
Σy2r = Ty
⏟ 2r + δ
⏟2 Σt + ⏟
Σξ2r
Op (T) Op (T2 ) Op (T3/2 )
p p
2
and thus T −2 Σy2r → T δ2 . Σt → δ2 /2. Similarly, T −3 Σy2r
−2
→ T −3 δ22 . Σt 2 →
2
δ2 /2. Además Σ(y1r − γ0 y2r ) = T(y ⏟ 1r − γ0 ξ2r )
⏟ 1,0 − γ0 y2,0 ) + Σ(ξ
Op (T) Op (T3.2
p
estableciendo que T −3/2 Σ(y1r − γ0 y2r ) → T −3/2 Σ(ξ1r − γ0 ξ2r ). similar
p
Σy2r (y1r − γ0 y2r ) → Σ(y2.0 + δ2 t + ξ2r ) (y1.0 + ξ1r − γ0 y2,0 −
γ0 ξ2r )
p
y T −5/2 Σy2r (y1r − γ0 y2r ) → T −5/2 Σδ2 t(ξ1r − γ0 ξ2r )
(b) Δûr = (y1r − α̂T − γT y2r ) − (y1,r−1 − α ̂T − γT y2,r−1 )
= Δy1r − γ̂T Δy2r
p
→ Δy1r − γ0 Δy2r
p
ya que γ̂T → γ0
19.2 La Proposición 18.1 es usado para mostrar que
T1/2 (β̂T − β)
[T1/2 (α
̂T − α)] =
T(γ̂T − γ)
′ −1
T −1 ∑ wr wr′ T −1 ∑ wr T −3/2 ∑ wr y2r T −1/2 ∑ wr z̅r
[ T −1 ∑ wr′ 1 ′
T −3/2 ∑ y2r ] [ T −1/2 ∑ z̅r ]
T −3/2 ∑ y2r wr′ T −3/2 ∑ y2r T −2 ∑
y2r y2r′
T −1 ∑ y2r z̅r

Q 0 0
p
→ [0′ 1 {∫[W2 (r)]′dr}Λ ̅′22 ]
0 ̅
Λ 22 ∫ W 2 (r)dr ̅ ̅′
Λ 22 {∫[W2 (r)]. [W2 (r)]′dr}Λ 22
h1
×[ ̅
λ11 W1 (1) ]
̅ ̅
Λ 22 {∫[W2 (r)]. dW1 (r)}Λ11
Como se confirma.
19.3 Nótese como en [19.3.13] que bajo la hipótesis nula xT2 = {R γ . T(γ̂T −
−1
−1 ∑ ′ −1
T wr wr′ T −1 ∑
wr T−3/2 ∑
wr y2r 0
γ)}′ {sT2 [0 0 R γ ]x [ T −1 ∑ wr′ 1 T −3/2 ∑ ′
y2r ] [ ] 0′ {R γ . T(γ̂T −
T −3/2 ∑ y2r wr′ T −3/2 ∑ y2r T −2 ∑ ′
y2r y2r R′γ
{ }
γ)}
−1
−1
Q 0 0 0
p
→ [R γ λ̅11 ν2 ]′ {sT2 [0 0 R γ ]x [0′ 1 ′
{∫[W2 (r)]. [W2 (r)]′dr}Λ 22 ] [ 0′ ] [R γ λ̅11
0 ̅ ̅ 22 {∫[W2 (r)]. [W2 (r)]′dr}Λ′22
Λ 22 ∫ W2 (r)dr Λ R′γ
{ }
De donde [19.3.25] sigue inmediatamente.
19.4
3
1 T −1 ∑ wr wr′ T −1 ∑ wr T −2 ∑ wr y2r
′
T −2 ∑ wr t
T 2 (β̅T − β) 3
1 T −1 ∑ wr′ 1 T −2 ∑ y2r
′
T −2 ∑ t
T 2 (α
̅T − α) =
3 3 5
T(γ̅T − γ) T −2 ∑ y2r wr′ T −2 ∑ y2r ′
T −2 ∑ y2r y2r T −2 ∑ y2r t
3
[T 2 (δ̅T − δ) ] 5
−2
[ T ∑ twr
′
T −2 ∑ t T −2 ∑ y2r
′
T −3 ∑ t 2 ]
T −1/2 ∑ wr ur
T −1/2 ∑ ur
x −1
T ∑ y2r ur
[ T −3/2 ∑ t ur ]
Q 0 0 0
3
L 0′ 1 T ∑ y2r ′ −
2 1/2
→
0 Λ ̅ 22 ∫ W2 (r)dr Λ̅ 22 {∫[W2 (r)]. [W2 (r)]′dr}Λ̅′22 ̅ 22 ∫ rW2 (r)dr
Λ
[0′ 1/2 {∫ r[W2 (r)]′dr}Λ̅′22 1/3 ]
h1
λ̅11 W1 (1)
x ̅ ̅11
Λ 22 {∫[W2 (r)]. dW1 (r)}Λ
̅11 {W1 (1) − ∫[W1 (r)]. dr}]
[Λ
como se confirma.

Capítulo 20. Análisis de máxima verosimilitud de la Información completa Dev
Sistemas Cointegrados
20.1 De la forma de Lagrange
k1′ ΣYX a1 + μk (1 − k1′ ΣYX k1 ) + μ0 (1 − a′1 ΣXX a1 )
Con μk y μa multiplicadores de Lagrange. Las condiciones de primer orden son

(a) Σxy a1 = 2μk ΣYY k1
(b) Σxy k1 = 2μa ΣXX a1
Premultiplicar (a) por k ′1 y (b) por a′1 para deducir que
2μk = 2μa ≡ r1 .
A continuación, premultiplicar (a) por r −1 −1
1 Σyy Y sustituir el resultado en (b):
−1
O ΣXY ΣYY ΣYX a1 = r 21 ΣXX a1
−1 −1
ΣXX ΣXY ΣYY ΣYX a1 = r 21 a1
−1 −1
Por lo tanto, r 21 es un valor propio de ΣXX ΣXY ΣYY ΣYX con a1 el autovector asociado, como
se reivindica.
−1
Del mismo modo, premultiplicando (b) por r −1 1 ΣXX y substituyendo el resultado en
(a) revela que
−1 −1
ΣXX ΣXY ΣYY ΣYX k1 = r 21 k1 .
20.2 La restricción cuando h = 0 es que ζ∩ = 0. En este caso.[20.3.2]. Esto será
ℒ0∗ = −(Tn/2) log(2π) − (Tn/2) − (Tn/2) − (Tn/
2) log|ΣUU |
Dónde Σuu es la matriz de varianza−covarianza para los residuos de [20.2.4]. Esto se
reconocerá de la expresión [11.1.32] como el valor máximo alcanzado para la probabilidad
de log para el modelo.
Δyr = π0 + Π1 Δyr−1 + Π2 Δyr−2 + … + Πp−1 Δyr−p+1 + u
Como se afirma.
20.3 Los residuos ĝ son los mismos que los residuos de una regresión no restringida de
û, en v̂. La matriz MSE para la última regresión es Σ́UU − Σ́UV Σ́VV −1 ́
ΣVU . Asi.
|Σ̂GG | = |Σ̂UU − Σ̂UV Σ̂VV Σ̂VU |
−1
= |Σ̂UU | . |In − Σ̂UU

−1 ̂
ΣUV Σ̂VV−1 ̂
ΣVU |
= |Σ̂UU | . ∏ni=1 θi
Dónde θi denota el i-ésimo valor propio de In − Σ̂UU −1 ̂
ΣUV Σ̂VV
−1 ̂
ΣVU . Recordando que λi es
un valor propio de Σ̂UU Σ̂UV Σ̂VV Σ̂VU asociado con el vector propio k i tenemos que
−1 −1
|In − Σ̂UU
−1 ̂
ΣUV Σ̂VV
−1 ̂
ΣVU |k i = (1 − λi )k i
−1 ̂
Asi que θi = (1 − λi ) es un valor propio de In − ΣUU ΣUV Σ̂VV
−1 ̂
ΣVU y
|Σ̂GG | = |Σ̂UU | . ∏ni=1(1 − λi ).
Por lo tanto, las dos expresiones son equivalentes.
20.4 Aqui, λi es el escalar

λ̂i = Σ̂UU
−1 ̂
ΣUV Σ̂VV
−1 ̂
ΣVU
Y la prueba es estadística es
−T log(1 − λ̂i ) = −T log[(Σ̂UU −1
) . (Σ̂UU − Σ̂UV Σ̂VV
−1 ̂
ΣVU )].
Pero ûr es el residuo de una regresión de Δy, en una constante Δyr−1 . Δyr−2 … . . Δy1−P+1
que significa que ̂ΣUU = σ20 . Likewise, v̂r es el residuo de una regresión de yr−1, Δyr−2 ,
…, Δyr−p+1 . El residuo de una regresión de û en v̂r , cuyo valor cuadrático medio está
dado por (Σ̂UU − Σ̂UV Σ̂VV −1 ̂
ΣVU ) , es el mismo que el residual de una regresión de ŷr en
̂12
una constante, yr−1, y Δyr−2, …, Δyr−p+1 , cuyo valor cuadrado medio se denota σ
(Σ̂UU − Σ̂UV Σ̂VV
−1 ̂
̂12 .
ΣVU ) = σ
̂20 ) − log(σ
Por lo tanto, la prueba estática es equivalente a T[log(σ ̂12 )], como se confirma.
Capítulo 22. Modelando Series de Tiempo con Cambio de Régimen
p11 1 − p22 (1 − p22 )/(2 − p11 − p22 ) −1

22.1 PT = [ ]x[ ]
1 − p11 p22 (1 − p11 )/(2 − p11 − p22 ) 1
p11 1−p11
(1 − p22 )/ + 2−p 1 − p11 − p22
2−p11 −p22 11 −p22
=[ 1−p22 p22 ]
(1 − p11 )/ + 2−p −1 − p11 − p22
2−p11 −p22 11 −p22
(1 − p22 )/2 − p11 − p22 −λ2

=[ ]
(1 − p11 )/2 − p11 − p22 λ2
= 𝐓𝐀

Índice de temas
A Orden de PTH, 58-59

Summability absolutos, 52, 64 Segundo Orden, 56-58
Cálculo de las autocovarianzas y 52 Sumas de, 107-8
Y secuencias de mairix, 262, 264 Autoregressive conditional heteroskedasticity
Estado absorbente, 680 (Arco):
Expectativas adaptativas, 440 ARCH-M. 667
Contiguo, 727 Comparación de modelos alternativos,
El aliasing. 161 672
Amplitud, 708 EGARCH, 668-69
Andrews-Monahan errores estándar 285 GARCH. 665-67
Operador de aniquilación, 78 Gaussian disturbios, 660-61
AR. Ver autorregresiva Método generalizado de momentos.
ARCH. Ver condicional autorregresiva 664
Heteroskedasticity IGARCH, 667
Diagrama de Argand, 709 Máximum probabilidad. 660-62
ARIMA. Ver Autoregressive Integrated Modelos multivariados, 670-71
Media móvil Nelson's modelo. 668-69
ARMA. Ver Autoregressive moving No Gaussianas disturbios. 661-62
average (promedio móvil Las especificaciones no lineales, 669-70
Los precios de los activos, 360, 422, 667 Las estimaciones no paramétricas, 671
Distribución asintótica. Véase también Cuasi-máxima verosimilitud. 663-64
la convergencia Semiparametric estimaciones. 672
Autorregresiva y. 215 Para las pruebas, 664- 65
Mmg y 414-15 Autoregressive Integrated Media movine
Teoremas límite para dependientes en (ARIMA), 437
serie Media móvil autoregresivo (ARMA):
Observaciones. 186-95 Función generadora de autocovariance,
Revisión de. 180-86 63
Las tendencias en el tiempo y. 454-60 Procesos autorregresivos, 53-59
2SLS estimador. 241-42 Expectativas, ergodicity stationaritv. e.
Unidad de proceso y de raíz. 475-77, 43-47
504-6 Previsión, 83-84
Autorregresiva de vectores y, 298-302 Invertibility. 64-68
Autocorrelación: Máximum probabilidad estimación
De un proceso estacionario de gaussiana
covarianza, 49 ARMA el proceso. 132-33
Y GLS. 221-22 Los procesos de mezclado. 59 - 61
Parcial, 111-12 Procesos de media móvil, 48-52
Muestra, 110-11 No gaussiana. 127
Autocovariance. 45 La estimación de parámetros. 132. 387
Matrix, 261 Espectro de la población, 155
Y el espectro de la población, 155 Sumas de, 102-8
Autorregresiva de vectores y, 264- 66 YBel ruido blanco, 47-48
Función generadora de Autocovariance, El ancho de banda, 165. 671
61-64 Bartlett kernel, 167, 276-77
El factoring, 391 Base, vectores y cointegrating, 574
Y fiiter Kalman, 391-94 Análisis bayesiano:
De sumas de procesos. 106 Incorrecto/difusa antes, 353
Procesos y vectores, 266-69 La estimación media de distribución
Autorregresiva (AR). Véase también gaussiana.
la raíz de la unidad 352-53
Proceso; autorregresiva vectorial
Primera Orden, 53-56, 486-504
La previsión. 80-82
Estimación de probabilidad máximum
800 118-27
Gaussiano. Índice de Temas
La estimación de parámetros, 215-17
La estimación del modelo de
regresión con retrasado Motivación para correlaciones canónicas
Variables dependientes, 358 639-42
La estimación del modelo de regresión Motivación para estimaciones de
con desconocido parámetros.
Varianza. 355-58 642-43
Introducción a. 351-60 Estimaciones de parámetros, 637-
Mezcla de distribuciones. 689 38
Monte Cario. 365-66 Población correlaciones canónicas.
Métodos numéricos. 362-66 630-33
La densidad posterior. 352 Muestra correlaciones canónicas,
Antes de densidad, 351-52 633-35
Modelos de cambio de régimen, 689 Sin tendencias tiempo determinista,
Las raíces de la unidad, 532-34 643-45
Autorregresiva de vectores y, 360-62 Complejo:
La ley de Bayes. 352 Congugate, 710
Descomposición Beveridge-Nelson, Números, 708-11
504 Círculo unidad. 709
El sesgo. 741 Probabilidad de concentrado. 638
Ecuaciones simultáneas, 233-38 Distribuciones condicionales, 741-42
Bloquear exogeneidad, 309, 311-13 Expectaticn condicional, 742.
Bloque factorización triangular, 98-100 Para Gaussian variables, 102
Bootstrapping, 337 Probabilidad condicional
Box-Cox transformación. 126 autorregresiva vectorial
Box-Jenkins métodos, 109-10 Y, 291-93
Movimiento browniano. 477-79 Par Conjúgate, 710
Diferencial, 547 Conjúgate transpone, 734-35
Estándar, 478. 544 Coherente, 181, 749
Burbuja. 38 El gasto de consumo, -361, 572, 600.
Frecuencia del ciclo de negocios. 168- 610-12, 650
69 Continuidad, 711.
C Función continua, 711, 735
Teorema de asignación continua,
Tornasol, 711-21
De cointegración canónica. 618 482-83
Correlación canónica: Tiempo continuo proceso, 478
Población, 630-33 Convergencia:
Muestra, 633-35 Criterio de Cauchy. 69-70
Convergencia de Cauchy, 69-70 En distribución, 183-85
Desigualdad de Cauchy-Schwarz, 49, Filtro de Kalman y 389-90
745 Iimits de secuencias deterministas.
Teorema del límite central, 185-86 180
Funcional, 479-86 En el cuadrado de la media, 182-83,
Martingale diferencia secuencia, 749
193-95 De optimización numérica, 134, 137
Proceso estocástico estacionario, 195 En la probabilidad. 181-82, 749
Regla de la cadena, 712 De las funciones ALEATORIO, 481
La desigualdad de Chebyshev, 182-83 Ordinaria, 180
Distribución Chi-cuadrado, 746, 753 Débil. 183
Factorización Cholesky, 91-92, 147 Correlación:
Estimación Cochrane-Orcutt, 224, 324 Canónica, 630-35
Coeficiente de riesgo relativo de Población. 743
aversión, 423 - Coseno, 704, 706-7
Coherencia, población, 275 Cospectrum. 271-72
Vector Cointegrating, 574, 648-50 Co varianza:
De cointegración, 571 Población, 742.
Base, 574 Factorización triangular, y 114-15
La covarianza, Identificación y
Canonical, 618 Drestricciones.
Vector cointegrating, 574, 648-50 Davidon-Fletcher-Powell, 139-42
Tendencias comunes representaron 246-47
Del teorema deestacionaria.
La covarianza Moivre, 153,45-46,
716-17
(Stock- Densidad/ies, 739. Véase
Watson). 578 258
también
Ley de Distribución
los grandes números, y 186-
Descripción de 571-82 Incondicional, 44
Corrección de error, representaron 89
Derivada(s):
Teorema Cramér-Wold, 184
580-81 Expresiones de matrix,
Granger representaron teorema 581- Espectro cruzado. 270 294, 737
Parcial, 735
Validación cruzada, 671
82 De segundo orden, 712, 736
Pruebas de hipótesis, 601-18 De funciones simples. .711-12
Representación de media móvil, 574- Las funciones con valores de vector,
75 737
Phiilips-Ouliaris-Hansen pruebas, 598- Determinante, 724- 27
99 Bloque de matriz diagonal, 101
Probando, 582-601, 645 La evolución temporal
Representación triangular (Phillips, determinista. Ver las tendencias en el
576-78) tiempo
Autorregresiva de vectores y, 579-80
Información completa, de
cointegración máximum
Probabilidad y; Índice de Temas 801
Pruebas de hipótesis, 645-50
El algoritmo de Johansen, 635-38
Motivaron para regresiones auxiliares,
Prueba de Dickey-Fuller, 490, 502, 528- Efecto Fisher, 651
29, 762-64 Las previsiones o previsión;
Aumentada, 516, 528 ARMA procesos, 83-84
Prueba F, 494, 524 Proceso AR, 80-82
Diferencia ecuación: Box-Jenkins métodos, 109-10
Los multiplicadores dinámico, 2-7 Expectativa y conditionai, 72-73
De primer orden, 1-7, 27-29 Numher finito de observaciones y, 85-87
Orden de PTH 7-20. 33-36 Para procesos Gaussianos, 100-102
Repite eigenvalues, 18-19 Infinito número de observaciones y, 77-84
De segundo orden, 17. 29-33 Filtro de Kalman y 381-85
Simulando, 10 Proyección lineal y. 74-76, 92-100
Resolver por sustitución recursiva, 1-2 Las políticas macroeconómicas, 109
Diferencia inmóvil, 444 Proceso de MA, 82-83. 95-98
Distribuciones, 739. Véase La cadena de Markov y, 680
también asintótico Para noninvertible MA. 97
Distribución No lineal, 73. 109
Chi-cuadrado, 746. 753 La raíz de la unidad de proceso y 439-41
Conditionai. 741-42 Vectores, 77
En convergencia. 183-85 Integración fraccional, 448-49
F, 205-7, 357, 746, 756-60 Frecuencia, 708
Gamma. 355 El dominio de la frecuencia. Véase el análisis
Gaussiana, 745-46, 748-49, 751-52 espectral
Error generalizado, 668 Información completa máximum likelihood
Articulación, 741 (FIML).
Densidad conjunta-, 686 247-50, 331-32. Véase también , de
Marginal, 741 cointegración
Mezcla, 685-89 Información completa máximum
Normal, 745-46. 748-49. 751-52 probabilidad
Posterior, 352 Y
Antes, 351-52 . Teorema del límite central, funcional 479-86
Probabilitv, 739 Innovación fundamental, 67, 97, 260
/, 205, 356-57. 409-10. 746, 755
Duplicación matrix, 301
G
Los multiplicadores dinámico, 2-7, 442-44 Ganancia, 275
Cálculo por simulación, 2-3 Kalman, 380
Distribución gamma. 355
E Función gamma, 355
Estimación eficiente. 741 Gaussian:
Hipótesis de mercados eficientes, 306 Distribución, 745-46. 748-49. 751-52
Eigenvalues, 729-32 Previsión, 100-102
Vectores propios, 729-30 Kemel, 671
Elasticidad, logaritmos y, 717-18 Máximum probabilidad estimación
Algoritmo EM, 688-89, 696. gaussiana
Variables endógenas, 225-26 ARMA proceso 132-33
Ergodicity, 46-47 Máximum probabilidad estimación
Cadena de Markov ergódica, 681-82 gaussiana
Corrección de errores de representación, Proceso AR 118-27
580-81 Máximum probabilidad estimación
Ecuaciones de Euler, 422 gaussiana
Relaciones de Euler, 716-17 Proceso 127-31 MA
Los tipos de cambio, 572. 582-86, 647-48, Proceso. 46
598 Ruido blanco, 25, 43. 48
Exclusión restriciions, 244 Teorema de Gauss-Markov, 203, 222
Expectativa, 740 Error generalizado de distribución, 668
Adaptable, 440 Mínimos cuadrados generalizados (GLS):
Conditionai, 72-73, 742. Autocorrelacionadas disturbios, 221-22
De suma infinita. 52 Y la matriz de covarianza, 220-21
Procesos estocásticos y. 43-45 Estimador. 221
Funciones exponenciales, 714-15 Heteroskedastic disturbios. 221
Suavización exponencial. 440 Máximum probabilidad de estimación y, 222
Método Generalizado de Momentos
F (GMM):
Distribución f. 205-7. 357, 746, 756-60 Los modelos ARCH. 664
Filtros, 63-64, 169-72, 277-79. Véase Distribución asintótica de 414-15
también Por estimación, 409-15
Filtro de Kalman Estimación de la expectativa racional
Multivariado, 264 dinámica
FIML. Ver información completa máximum Modelos, 422-24
Probabilidad Ejemplos de, 415-24
Primer operador Diferencia, 436 Extensiones, 424-27
Proceso autoregresivo de primer orden, (Identificación) y econométricos, 426
53-56 Matriz de información igualdad, 429
Y distribución asintótica, 215, 486-504 Estimación de variables instrumentales,
Ecuaciones en diferencia de primer orden, 418-20
1-7 Los instrumentos de elección para, 426-27
Los operadores y lag, 27-29 Máximum probabilidad de estimación y,
Media móvil de primer orden, entre 48-49 427-31
802 Índice de Temas Svstems no lineal de ecuaciones
simultáneas,
421-22
Datos nonstationary, 424
Plazas leasi ordinaria y, 416-18 Chebyshev, 182-83
Condiciones de ortogonalidad, 411 Titular. 197
Overidentifving rescrictions. 415 Triángulo, 70
Pruebas de especificaciones, 415 Limitaciones de la desigualdad. 146-48
424-26 Promedio móvil de orden infinito. 51-52
Pruebas de estabilidad estructural, Matriz de información, 143-44
424-26 Igualdad, 429
Mínimos Cuadrados en dos etapas y, Innovación, fundamentales. 67
420-21 Variable Instrumental (IV) Estimación.
Serie geométrica, 713, 732 242-43.
Identificación Global, 388 418-20
Máximum Global, 134, 137, 226 Instrumentos, 238, 253, 426-27
GLS. Ver mínimos cuadrados Integráis;
generalizados Definido, 719-21
GMM. Véase método generalizado Indefinida. 718-19
de momenis Múltiple. 738-39
El PNB. Ver producto naiional Integrada de orden d, 437, 448
bruto Proceso integrado, 437. Véase también
Degradado, 735-36 la raíz de la unidad
Test de causalidad de Granger, 302-9 Proceso
Teorema de representación de Fracciones. 448-49
Granger, 582 Integración, 718
Búsqueda de cuadrícula, 133-34 Constante de, 719
El producto nacional bruto, 112, 307, 444, Las tasas de interés, 376, 501. 511-12. 528.
450. 651
697-98. Véase también el ciclo de Invertibility, 64-68
negocio IV. Véase la variable instrumental (IV)
Frecuencia; la producción industrial; Estimación
Las recesiones
J
H Matriz jacobiana, 737
Hessian m.atrix, 139, 736 El algoritmo de Johansen. 635-38
Heteroskedasticity, 217-20, Densidad conjunta, 741
227. Véase también Distribución de densidad conjunta. 686
Condicional autorregresiva Jordán descomposición, 730-31
Heteroskedasticity (ARCH); Newey-
Estimador del oeste K
Error estándar coherente, 219, Filtro de Kalman:
282-83 Función generadora de autocovariance y,
Y GLS, 221 391-94
La desigualdad Hólder, 197 Antecedentes de. 372
Pruebas de hipótesis: Derivación de, 377-81
Y de cointegración. 601-18, 645-50 Estimar el arma de los procesos. 387
Puntuación eficiente, 430 Previsión y, 381-85
Multiplicadores de Lagrange, 145, Matriz de ganancia, 380
430 Identificación, 387-88
La razón de verosimilitud, 144-45, MA(1) y de proceso. 381-84
296-98 Máximum probabilidad de estimación y,
Restricciones lineales. 205 385-89
Restricciones no lineales, 214 429-30 El parámetro de la incertidumbre. 398
Las tendencias en el tiempo y, 461- Cuasi-raaximum y probabilidad. 389
63 Y suavizado. 394-97
Wald, 205, 214, 429-30 El estado dinámico de representación
espacial
/ 372-77, sistema
L(d). Ver integrada de orden d La inferencia estadística. 397-98
Idempotente, 201 Estado estacionario, 389-94
Identificación, 110, 243-46 Tiempo variable, paraméters 399-403
Restricciones de covarianza, 246-47 Wold y representación. 391-94
Exclusión de restricciones, 244 Estimares Kernel, 165-67, Véase también
Global. 388 Estimación no paramétrica
Y GMM, 426 Bartlett, 167, 276-77
Sólo identificados, 250 Gaussiana, 671
Filtro de Kalman y 387-88 Parzen, 283
Local, 334, 388 Espectral cuadrática, 284
Estado de orden. 244, 334 Khinchine teorema, 183
Overidentified, 250 Producto de Kronecker, 265. 732-33
Condición de rango, 244, 334 La curtosis, 746
VAR estructural. 332
Matriz de identidad, 722 L
I.i.d., 746. Operador de LAG:
Número imaginario, 708 Diferencia de primer orden y
Función de impulso-respuesta: ecuaciones. 27-29
Cálculo por simulación, 10 Condiciones initiai secuencias e ilimitado.
Orthogonalized, 322 36-42
Los errores estándar, 336-40 Polinomio 27
Sistema univariado, 5
Autorregresiva de vectores y, 318-23 Índice de Temas 803
Independencia;
Linear, 728 729-30
Variables Aleatorias, 742.
La producción industrial, 167
pth-orden y ecuaciones de diferencia, 33-
36
El propósito del 26 Nonsingular, 728
Diferencia de segundo orden y ecuaciones, Ponderación óptima, 412-14
29-33 Particiones, 724
Multiplicadores de Lagrange, 135, 145, Positivo definitivo, 733-34
430 Semidefinite positivo, 733
Ley de expectativas iterado, 742. De alimentación, 722
Ley de proyecciones iterado, 81, 100 Singular, 728
Ley de los grandes números, 183, 749 Cuadrado, 721.
La covarianza procesos estacionarios, Simétrica, 723
186-89 De traza, 723-24
Mixingales, 190-92 Transición, 679
Efecto de apalancamiento, 668 Transposición, 723
Función de probabilidad, 746-47. Véase Triangular, 729.
también Factorización triangular, 87
Estimación de probabilidad Triangular superior, 727
Máximum (MLE) Estimación de probabilidad Máximum
Concentrando, 638 (MLE), 117
Autorregresiva de vectores y, No. 291- 747. Véase también cuasi-máxima
94, 310-11 verosimilitud
Likelihood ratio test, 144-45, 296-98, 648- Propiedades de asintótica, 142-45, 429-30
50 Concentrado, 638
Límite. Ver la convergencia Condicional, 122, 125-26
Dependencia lineal, 728-29 Algoritmo EM y 688-89
La medida de Geweke, 313-14 Información completa probabilidad
Linealmente determinista, 109 máximum,
Indeterminista linealmente, 109 247-50
Proyección lineal: Gaussian ARMA proceso y 132-33
Los pronósticos y, 74-76, 92-100 Proceso AR gaussiana y 118-27
Multivariado, 75 Gaussian MA proceso y 127-31
La regresión de mínimos cuadrados Coeficiente general de limitaciones y, 315-
ordinarios y, 18
75-76, 113-14 Máximum global, 134, 137
Propiedades, 74-75 Y GLS, 222
Actualización, 94 Mmg y 427-31
Regresión lineal. Véase también menos Filtro de Kalman y 385-89
generalizada Local, 134. 137
Plazas' (GLS); método generalizado de Error de predicción descomposición,
Los Momentos (GMM); menos ordinaria 122, 129
Cuadrados (OLS) Condiciones de regularidad, 427, 698
De álgebra, 200-202 Los errores estándar de, 143-44, 429-30
Revisión de la Operación Supervivencia La inferencia estadística, 142-45
en el Sudán y i.i.d., 200-207 Autorregresiva de vector y. 291-302, 309-18
La identificación local, 334, 388 Prueba de Wald, 429-30
Máximum local, 134, 137, 226 Media;
Logaritmos, 717-18 Para la ergódica. 47
Efecto a largo plazo, 6-7 Población, 739
Función de pérdida, 72 Muestra, 186-95, 279-85, 740-41
Incondicional, 44 '
El cuadrado de la media. La convergencia.
M 182-83, 749
MA. Ver media móvil Significa error al cuadrado (MSE), 73
La cadena de Markov, 678 De proyección lineal, 74. 75. 77
Estado absorbente, 680 Teorema de valor promedio, 196
Ergódica, 681-82 Mixingales, 190-92
Previsión, 680 Distribución de la mezcla. 685-89 .
El periódico, 685 MLE. Véase el máximum de estimación de
Reducible, 680 probabilidad
La matriz de transición, 679 (MLE)
Dos-estado, 683-84 Modulus, 709
Representación de Vector Momentos. Véase también el método
Autoregresivo. 679 generalizado de
Martingale diferencia secuencia, 189-90, Los Momentos (GMM)
193-95 Población, 739-40, 744-45
Matrix/matrices: Posterior, 363-65
Contiguo, 727 La muestra. 740-41
Conjúgate transpone, 734-35 Segundo, 45 , 92 - 95, 192 - 93
Determinante, 724-27 La demanda de dinero, 1, 324
Diagonal, 721. Método de Monte Cario, 216, 337, 365-66,
Duplicación, 301 398
Ganancia, 380 Media móvil (MA);
Serie geométrica, 732 Y de cointegración, 574-75
Arpillera, 139, 736 Primer pedido, entre 48-49
Idempotenf, 201 La previsión, 82-83, 95-98
Identidad, 722 Orden infinito, 51-52
Información, 143-44, 429 Estimación de probabilidad máximum
Inverso, 727-28 Gaussiana, 127-31, 387
Jacobiana, 737 La estimación de parámetros, 132, 387
Jordán descomposición, 730-31
Triangular Espectro de población, 154-55, 276
804 inferior, 725de Temas
Índice Gth orden, 50-51
Sumas de. 102-7
Vector, 262-64 Fase, 275. 708
MSE. Ver significa error al cuadrado (MSE) Phillips-Ouliaris-Hansen pruebas, 599.
Pruebas de Phillips-Perron. 506-14. 762-63
N Phillips representación triangular. 576-78
Estimador de Newey-West, 220, 281-82 Plim, 181, 749
Newton-Raphson. 138-39 Coordinares Polar. 704-5. 710
Estimación no paramétrica. Véase también Polinomio de operador de LAG. 27, 258
el Kernel Población:
El ancho de banda. 165, 671 Correiations canónica. 630-33
Y la varianza condicional, 671 La coherencia. 275
Cruz validaiion. 671 Correlación, 743
El espectro de la población. 165-67 La covarianza. 742.
Nonsingular, 728 Momentos, 739-40. 744-45
Nonstochastic. 739 Espectro, 61-62. 152-57, 163-67. 269.
Distribución normal, 745-46, 748-49, 751- 276-77
52 Densidad posterior, 352
La normalización, y de cointegración, 589 Power Series. 714
Optimización numérica: Precisión, 355
Criterio de Convergencia. 134, 137 Previamente, 238
Davidon-Fletcher-Powell, 139-42 Error de predicción de la descomposición.
Algoritmo EM, 688-89, 696. 122. 129. 310
Búsqueda de cuadrícula, 133-34 Presente valué, 4, 19-20.
Restricciones de desigualdad, 146-48 Principal diagonal, 721.
Newton-Raphson, 138-39 Distribución previa, 351
Maximización numérica, 133, 146 Límite de probabilidad, 181, 749
Minimización numérico, 142 Pth-orden proceso autoregresivo, 58-59
Más empinado ascenso, 134-37 Pth-ofder diferencia ecuaciones., 7-20. 33-36
La paridad del poder adquisitivo. Ver tipo de
Oh cambio.s
Ecuación de observación. 373
Los precios del petróleo, a los efectos de, Oh
307-8 Promedio móvil de orden qth, 50-51
La operación. Ver mínimos cuadrados Ecuaciones cuadráticas, 710-11
ordinarios Kernel espectral cuadrática. 284
Op. Ver orden de probabilidad Espectro de cuadratura. 271
Operadores: Cuasi-raaximum probabilidad estimare, 126,
La aniquilación. 78 145.
La primera diferencia, 436 430-31
Las series de tiempo, 25-26 ARCH, 663-64
Los precios de las opciones, 672 GLS 222
En orden de probabilidad, 460. Mmg y 430-31
Mínimos Cuadrados Ordinarios Filtro de Kalman y, 389
(MCO). Véase también Los errores estándar, 145
Mínimos cuadrados generalizados (GLS);
Pruebas de hipótesis; Regresión R
De álgebra. 75-76, 200-202 Radianes, 704
Autocorrelacionadas disturbios, 217, 282-83 Variable aleatoria, 739
Prueba de chi-cuadrado, 213 Paseo Aleatorio, 436. Véase también Unidad de
Teoría de distribución, 209. 432-33 proceso raíz
Coeficiente estimado vector, 202-3 Cálculo OLS, 486-504
Prueba F, 205-7 Expectativas racionales. 422
Y GMM. 416-18 Hipótesis de mercados eficientes. 306
Heteroskedasticity, 217, 282-83 Tasa de interés real. 376
Proyección lineal y. 75-76, 113-14 Número real, 708
No Gaussianas disturbios. 209 Las recesiones, 167-68, 307-8. 450. 697-98
Las tendencias en el tiempo y, 454-60 Sustitución recursiva. 1-2
La prueba t, 204, 205 Forma reducida, 245-46, 250-52
Ortogonales. 743 VAR, 327, 329
Condiciones de ortogonalidad, 411 Reducidle la cadena de Markov. 680
Función de impulso-respuesta Modelos de cambio de régimen:
Orthogonalized, 322 Estimación bayesiana. 689
Exterior-producto estímate, 143 Derivación de ecuaciones, 692-93
Descripción de 690-91
P Algoritmo EM, 696.
Autocorrelación parcial: Máximum probabilidad. 692, 695-96
Población. 111-12 La singularidad, 689
La muestra. 111-12 Suavizan la inferencia y previsiones, 694-95
Parzen kernel. 283 Regresión. Véase también mínimos cuadrados
Período, 708 generalizados
El periódico, 707 (GLS); método generalizado de
La cadena de Markov, 685 Los Momentos (GMM); menos ordinaria
Periodograma: Cuadrados (OLS)
Multivariado, 272-75 Hipótesis Clásica. 202
Univariante, 158-63 Los parámetros de tiempo variable. 400
Ingreso permanente. 440 Condiciones de regularidad, 427, 698
Índice de Temas 805

Ecuación de estado^372
Modelo de espacio de estado. Ver filtro de
La suma residual de los cuadrados (RSS), Kalman
200 Vector de estado, 372
Regresión
R Ridge, 355 Parado/estacionalidad:
RSS. Ver la suma residual de los cuadrados La covarianza, 45-46
R^ 202 La diferencia, 444
5 Estrictamente, 46
Muestra autocorrelaciones, 110-11 Tendencia estacionario, 435
Muestra correlaciones canónicas, 633-35 Vector, 258-59
Función de probabilidad de la muestra, 747 Débilmente, 45-46
Media de muestra: Más empinado ascenso, 134-37
Definición de 741 Procesos estocásticos:
Varianza de, 188. 279-81 Teorema del límite central para statiohary,
Muestra momentos, 740-41 195
Periodograma muestra, 158-63, 272-75 Compuesto, 172
Escalar, 721. Expectativas y, 43-45
Puntuación. 427-28 Variable estocástica, 739
Estacionalidad, 167-69 Los precios de las acciones, 37-38, 306-7. 422-24.
Segundo momentos. 45, 92-95 668-69.
Consisten: estimación de, 192-93 672
Proceso autoregresivo de segundo orden, Los modelos econométricos estructurales, vector
56-58 Autorregresiva y 324-36
Ecuaciones de diferencia de segundo orden, Distribución t de Student. Véase la distribución
de 17 años, 29-33 t
Regresiones aparentemente no relacionadas. Summable:
315 Absoluta, 52, 64
La correlación serial, 225-27 Square, 52
Sims-Stock-Watson: Sumas de ARMA procesos, 102-8
Matriz Gcaling, 457 .Autocovariance función generadora de, 106
Iransformation, 464. 518 AR, 107-8
Ecuaciones simultáneas. Véase también de dos MA, 102-7
etapas Espectro de, 172
Menos plazas Superconsistent. 460.
El sesgo. 233-38, 252-53 Operador de sup, 481
'
Estimación basada en la forma reducida. T
250-52
Información completa máximum Impuestos, 361
probabilidad Serie de Taylor, 713-14. 737-38
Estimación. 247-50 Teorema de Taylor, 713, 737-38
La identificación. 243-47 La distribución t. 205, 213, 356-57, 409-10, 746,
Variables instrumentales y dos etapas de 755
menos Los teoremas (nombrado después de autores):
Cramér-Wold, 184 &
Plazas, 238-43
Los sistemas no lineales, 421-22 De Moivre, 153, 716-17
Descripción de, 252-53 Gauss-Markov, 203, 222
Sine. 704. 706-7 Representación de Granger, 582
Singular. 728 Khinchine's, 183
La singularidad. 689 Taylor, 713, 737-38
Sinusoidal. 706 Mínimos Cuadrados en tres etapas. 250
Skew, 746. Dominio de tiempo, 152
Distribución de muestras pequeñas. 216-17. Operadores de series de tiempo. 25-26
516 Proceso de series de tiempo, 43
El suavizado. Filtro de Kalman y. 394-97 Las tendencias en el tiempo. 25, 435. Véase
Análisis espectral: también la tendencia estacionaria
Espectro de población, 152-57, 163-67. 269 Enfoques de. 447-50
Periodo grama muestra, 158-63, 272-75 Distribución asintótica de. 454-60
Uso de 167-72 Por inferencia asintótica autoregresivo
Teorema de representación espectral. 157 Alrededor del proceso. 463-12
Espectro. Véase también el Kernel estimares; En saltos, 449-50
Periodo grama Pruebas de hipótesis. 461-63
La coherencia. 275 Lineal, 438
Cospectrum. 271-72 Cálculo OLS, 463
Cruz. 270 Parámetros variables en el tiempo. Filtro de
Est. Lates, 163-67. 276-77, 283-85 Kalman y,
Frecuencia cero y 189, 283 398-403
Ganancia, 275 Trace, 723
De baja frecuencia, 169 La matriz de transición, 679
Fase. 275 Transposición, 723
Población, 61-62. 152-57, 163-67. 269. Representación de tendencias (Stock-Watson).
276-77 Común, 578
Cuadratura, 271 Tendencia estacionario, 435
La muestra. 158-63, 272-75 Comparación de la raíz de la unidad de
Sumas de procesos y, 172 proceso y 438-44
Función de transferencia. 278 Las previsiones para, 439
Procesos y vectores, 268-78 Factorización triangular:
Bloque, 98-100
806 espuria,
Regresión 557-62
Índice de Temas
Cuadrados sumatorios. 52
Desviación estándar de la población, 740

Hamilton

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Hamilton

Transféré par

Droits d'auteur :

Formats disponibles

1

1.1. Ecuaciones de Diferencia de Primer Orden

0.27 0.72 0.19 0.045 0.019 [1.1.2]

Éste es un caso especial de [1.1.1] con , 0.72, y

0.27 0.19 0.045 0.019

Solución de una Ecuación de Diferencia por Sustitución Recursiva

Si se conoce el valor inicial de y para la fecha 1 y el valor si w se ajusta a las fechas

Dado este valor de y y el valor de w para 2, podemos calcular el valor de y para 2 de

El efecto de wt en yt+j está dado por

Diferentes valores de ∅ en [1.1.1] pueden producir una variedad de respuestas dinámicas de y a w.

Así, si |∅|<1, el sistema es estable; las consecuencias de un cambio dado en wt

También podríamos estar interesados en el efecto de w sobre el valor presente de la corriente de

(c) Ø = 1.1 (d) Ø = - 1.1

Sea "β" el factor de descuento:

Al calcular los multiplicadores dinámicos [1.1.10] o [1.1.14], preguntamos qué pasaría si

A veces podríamos estar interesados en las consecuencias de un cambio permanente . Un

Otra cuestión relacionada se refiere a las consecuencias acumuladas para y de un

1.2. Ecuaciones diferenciales de orden p

A menudo es conveniente reescribir la ecuación de diferencia de orden p [1.2.1] en el

Un multiplicador dinámico para [1.2.5] se puede encontrar exactamente de la misma

Proceder recursivamente de esta manera produce una generalización de [1.1.7]:

Escribir esto en términos de las definiciones de y v,

La generalización obvia de [1.1.9] es

t+j t-1 ⋯ [1.2.9]

A partir del cual

Para valores mayores de j, y la manera fácil de obtener un valor numérico para el

Para un sistema de orden p-general, el determinante en [1.2.12] es un polinomio de orden p en λ

Esto nos permite caracterizar el multiplicador dinámico (el (1, 1) elemento de iN

En términos más generales, podemos caracterizar En términos de los valores propios de

... t 0 0... 0 ...

Del cual (1, 1) elemento de está dado por

En resumen, la ecuación de diferencia de orden p [1.2.1] implica que

Está dada por el (1, 1) elemento de :

Donde ( , , …, ) es un conjunto de constantes que suman a la unidad dada por la expresión

Según [1.2.29], el multiplicador dinámico está dado por

De [1.2.23], c_1 = 1. Sustituyendo este y [1.2.30] en [1.2.31] da

0.6 0.6 4 0.2

0.6 0.6 4 0.2

El multiplicador dinámico para este sistema,

Para el caso p = 2 de [1.2.14] y [1.2.15], habría

λ . cos . sin [1.2.36]

Donde θ y R se definen en términos de ayb mediante las siguientes ecuaciones:

Obsérvese que R es igual al módulo del número complejo .

El autovalor en [1.2.36] puede escribirse como4

λ cos . sin [1.2.37]

Análogamente, si es el complejo conjugado de , entonces

λ cos . sin [1.2.38]

(a) Ø = 0.6, Ø = 0.2

La sustitución de [1.2.37] y [1.2.38] en [1.2.29] da la contribución de los conjugados complejos al

λ λ cos . sin cos . sin

La aparición del número imaginario i en [1.2.39] puede parecer un poco preocupante.

Para algunos números reales α y β. Sustituyendo estas expresiones en rendimientos [1.2.39]

0.5 0.5 4 0.8

Solución de una ecuación de diferencia de segundo orden con valores

O, a partir de [1.2.34] y [1.2.35],

Solución general de una ecuación de diferencia de orden p con valores

Donde M es una matriz (p x p) y J toma la forma

Además, a partir de [1.2.41], si es de dimensión ( x ), entonces 8

Cálculos de largo plazo y valor actual

El verdadero multiplicador dinámico de interés, (  ) es sólo el (1, 1) elemento de la matriz

APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1

Para la matriz F definida en la ecuación [1.2.3], este determinante sería

 Prueba de Proposición 1.2. Suponiendo que los valores propios (λ , λ , … , λ )) son